CN111143536A

CN111143536A - 基于人工智能的信息抽取方法及存储介质和相关装置

Info

Publication number: CN111143536A
Application number: CN201911397526.7A
Authority: CN
Inventors: 张倩汶; 闫昭; 饶孟良; 曹云波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12
Anticipated expiration: 2039-12-30
Also published as: CN111143536B

Abstract

本发明实施例公开了基于人工智能的信息抽取方法及存储介质和相关装置，应用于人工智能的信息处理技术领域。信息抽取装置针对待处理文档中的各句短文本，先根据预置的关系分类模型确定短文本中包含的关系属性，然后再根据预置的实体抽取模型抽取这些关系属性对应的实体对，进行可以形成各句短文本对应的三元组信息。实践证明，通过不同的机器学习模型分别确定关系属性及其对应的实体对的方式，可以准确地获取到待处理文档的三元组信息，且由于采用机器学习模型来进行信息抽取，使得可以进行迁移学习。

Description

基于人工智能的信息抽取方法及存储介质和相关装置

技术领域

本发明涉及基于人工智能的信息处理技术领域，特别涉及基于人工智能的信息抽取方法及存储介质和相关装置。

背景技术

信息抽取是指通过一定方式提取任意文档中的三元组信息，即<主语(Subject)，属性(Predicate)，答案(Object)>，是构建知识图谱的重要环节，最终构建的知识图谱可以应用于问答、对话和检索等用户互动过程中。信息抽取的数据源一般有三类，即结构化数据、半结构化数据和非结构化数据，现实世界中，运营方能快速提供的结构化和半结构化数据有限，大量数据是以非结构化的形式存在的，如：历史书籍、政府文件、百科介绍、新闻报道等，因此，从非结构化的数据中抽取三元组信息是目前比较重要的任务。

现有的一种信息抽取方法，主要是通过规则设计进行关系抽取，但是规则穷举是有限的，覆盖率较低，易发生规则冲突或冗余，抽取的效果远远不够。另一种基于机器学习方法进行信息抽取时，采用自然语言处理(Natural Language Processing，NLP)系统对待处理数据进行词性标注和句法分析等，得到待处理数据的特征信息，进而再进行关系分类，但是这种方法可以自动化地进行关系分类，但是性能高低取决于特征提取的好坏，效果也不是很稳定。

发明内容

本发明实施例提供基于人工智能的信息抽取方法及存储介质和相关装置，实现了采用人工智能的方式对非结构化数据进行信息抽取。

本发明实施例一个方面提供一种基于人工智能的信息抽取方法，包括：

获取待处理文档包括的至少一句短文本；

根据预置的关系分类模型，分别确定所述至少一句短文本中各句短文本包含的至少一个关系属性；

根据所述各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取所述各句短文本中至少一个关系属性对应的实体对；

根据所述各句短文本的至少一个关系属性及其对应的实体对，形成所述各句短文本的三元组信息。

本发明实施例另一个方面提供一种信息抽取装置，包括：

文本获取单元，用于获取待处理文档包括的至少一句短文本；

关系属性单元，用于根据预置的关系分类模型，分别确定所述至少一句短文本中各句短文本包含的至少一个关系属性；

实体对单元，用于根据所述各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取所述各句短文本中至少一个关系属性对应的实体对；

三元组单元，用于根据所述各句短文本的至少一个关系属性及其对应的实体对，形成所述各句短文本的三元组信息。

本发明实施例又一个方面提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如本发明实施例所述的基于人工智能的信息抽取方法。

本发明实施例另一个方面提供一种终端设备，包括处理器和存储介质；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如本发明实施例所述的基于人工智能的信息抽取方法，所述处理器，用于实现所述多条指令中的各条指令。

可见，在本实施例的方法中，信息抽取装置针对待处理文档中的各句短文本，先根据预置的关系分类模型确定短文本中包含的关系属性，然后再根据预置的实体抽取模型抽取这些关系属性对应的实体对，进行可以形成各句短文本对应的三元组信息。实践证明，通过不同的机器学习模型分别确定关系属性及其对应的实体对的方式，可以准确地获取到待处理文档的三元组信息，且由于采用机器学习模型来进行信息抽取，使得可以进行迁移学习。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于人工智能的信息抽取方法的示意图；

图2是本发明一个实施例提供的一种基于人工智能的信息抽取方法的流程图；

图3是本发明一个实施例中训练关系分类模型和实体抽取模型的方法流程图；

图4是本发明应用实施例中问答系统的结构示意图；

图5是本发明应用实施例中问答系统的关系抽取模块进行离线训练和在线处理的示意图；

图6是本发明应用实施例中通过关系分类模型和实体抽取模型得到的三元组信息的示意图；

图7是本发明实施例提供的一种信息抽取装置的结构示意图；

图8是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种基于人工智能的信息抽取方法，主要是将非结构化文档作为待处理文档，并抽取待处理文档的三元组信息，以构建知识图谱，具体地，如图1所示，本实施例的信息抽取装置可以按照如下方法进行信息抽取：

获取待处理文档包括的至少一句短文本，图中以n句短文本为例说明；根据预置的关系分类模型，分别确定所述至少一句短文本中各句短文本包含的至少一个关系属性，图中以m个关系属性为例说明；根据所述各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取所述各句短文本中至少一个关系属性对应的实体对；根据所述各句短文本的至少一个关系属性及其对应的实体对，形成所述各句短文本的三元组信息。

在具体应用中，待处理文档可以是介绍景点和文物的文档、新闻报道、政务文件、课本书籍等，且上述方法中在确定关系属性和抽取实体对时，可以采用机器学习模型来实现。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

实践证明，通过不同的机器学习模型分别确定关系属性及其对应的实体对的方式，可以准确地获取到待处理文档的三元组信息，且由于采用机器学习模型来进行信息抽取，使得可以进行迁移学习。

本发明实施例提供一种基于人工智能的信息抽取方法，主要是由信息抽取装置所执行的方法，流程图如图2所示，包括：

步骤101，获取待处理文档包括的至少一句短文本。

可以理解，用户可以操作信息抽取装置，使得信息抽取装置根据用户操作信息，发起本实施例的流程。

这里待处理文档主要是非结构化文档，信息抽取装置可以通过切分的方式，将非结构化文本切分为长度小于预置长度(比如128)的句子，具体策略可以是以句号“。”为分隔符进行切分，若切分后句子长度仍然过长，则该以一定长度的窗口(比如，长度＝100)进行分句，最终切分后的句子即为短文本。

进一步地，信息抽取装置可以先对获取的短文本进行预处理，使得预处理后的短文本在执行如下步骤102到104时，更方便。比如，对短文本中的描述主体进行增强处理，得到增强后短文本，这样，可以有效地提高最终得到的三元组信息的召回率。

具体地，在好多待处理文档中，并不是每一句话都有主体，例如，“迎客松是安徽人民热情友好的象征，承载着拥抱世界的东方礼仪文化”这句话，只是描述了“迎客松”，而并没有“迎客松”的主体“安徽黄山”，则在主体的增强处理后得到的增强后短文本为“安徽黄山，迎客松是安徽人民热情友好的象征，承载着拥抱世界的东方礼仪文化”。

步骤102，根据预置的关系分类模型，分别确定至少一句短文本中各句短文本包含的至少一个关系属性。

这里，关系属性是指短文本所描述的实体之间的关系信息，而实体为某一事物，比如“燕子河大峡谷位于安徽省六安市金寨县境内，由著名书画家某某题字”这句短文本，描述了实体1“燕子河大峡谷”与实体2“安徽省六安市金寨县境内”这两个实体之间的关系，具体是实体2为实体1的地址，则该短文本的关系属性为地址。

这里关系分类模型可以是一种机器学习模型，可以通过一定的训练方法得到，并将其运行逻辑事先设置在信息抽取装置中。该关系分类模型可以是深度双向转换预训练模型(Pre-training of Deep Bidirectional Transformer，BERT)、知识增强语义表示模型(Enhanced Representation from knowledge Integration，ERNIE)或预训练编码器鉴别模型(Pre-training Text Encoders As Discriminators Rather Then Generators，ELECTRA)等。

步骤103，根据各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取各句短文本中至少一个关系属性对应的实体对。

这里，关系属性对应的实体对是指短文本中关系属性所涉及的实体信息，一般是以一对实体的形式出现。比如“燕子河大峡谷位于安徽省六安市金寨县境内，由著名书画家某某题字”这句短文本，描述了实体1“燕子河大峡谷”与实体2“安徽省六安市金寨县境内”这两个实体之间的关系，则该短文本的关系属性为地址，而该关系属性对应的实体对为实体1和实体2。

这里实体抽取模型可以是一种机器学习模型，可以通过一定的训练方法得到，并将其运行逻辑事先设置在信息抽取装置中。

具体地，先由预置的实体抽取模型根据各句短文本，及各句短文本包含的至少一个关系属性，输出各句短文本中各个字符的句子成分属性标识及对应的关系属性标识，句子成分属性标识包括主语标识和宾语标识；再确定各句短文本中主语标识对应的字符，与各句短文本中宾语标识对应的字符为实体对。这里句子成分属性标识用于表示某个字符在一句短文本中所处的成分。

例如，一句短文本为“茶树茶网蝽，stephanitis chinensis drake，属半翅目网蝽科冠网椿属的一种昆虫”，其中，“stephanitis chinensis drake”被拆分为“step##han##iti##s chi##ne##nsis dr##ake”，因此，预置的实体抽取模型输出的句子成分属性标识为：“B-SUB I-SUB I-SUB I-SUB I-SUB O O[##WordPiece][##WordPiece][##WordPiece]O[##WordPiece][##WordPiece]O[##WordPiece]O O B-OBJ I-OBJ I-OBJ O O O O O O O OO O O O地址”。

其中，“B-SUB”用于表示主语的起始字符，“I-SUB”用于表示主语后续位字符，“B-OBJ”用于表示宾语的起始字符，“I-OBJ”用于表示宾语后续位字符；[##WordPiece]表示与其之前的字符属于同一语义的词语，一般在文本中参杂英文时才会出现；“O”表示普通字词。进一步地，如果有[CLS]可以表示句首，[SEP]表示句句尾等。

步骤104，根据各句短文本的至少一个关系属性及其对应的实体对，形成各句短文本的三元组信息，该三元组信息SPO可以包括：<主语，属性，答案>，其中的属性即为上述的关系属性，而主语和答案即为实体对。

进一步地，信息抽取装置还可以对形成的三元组信息进行校正，删除三元组信息中不符合预置策略的三元组信息，例如，某一三元组为<某一办公室，电话，XXX>，这里电话只有三位，但是一般电话至少有七位，则该三元组不符合预置策略，需要删除。

在一个具体的实施例中，上述步骤102和102可以分别采用的关系分类模型和实体抽取模型来实现，而关系分类模型和实体抽取模型的训练可以按照如下的有监督训练方法来实现，流程图如图3所示，包括：

步骤201，确定关系分类初始模型和实体抽取初始模型。

可以理解，信息抽取装置在确定关系分类初始模型和实体抽取初始模型时，会分别确定关系分类初始模型和实体抽取初始模型所包括的多层结构和各层机构中参数的初始值。

具体地，关系分类初始模型可以包括：特征提取模块和分类模块，其中，特征提取模块用于提取短文本基于字的特征信息，分类模块用于根据特征提取模块提取到的特征信息确定短文本所包含的关系属性，该分类模块具体可以输出短文本包含多个关系属性的概率信息，如果短文本中包含某一关系属性的概率大于预置值，则短文本中包含该关系属性。实体抽取初始模型可以包括特征提取模块和抽取模块，其中，特征提取模块用于提取短文本基于字的特征信息，抽取模块，用于根据特征提取模块提取的特征信息抽取短文本所包含的实体对，该抽取模块可以输出短文本中各个字符的句子成分属性标识及对应的关系属性标识，这里句子成分属性标识包括主语标识和宾语标识，则短文本中主语标识对应的字符与短文本中宾语标识对应的字符为实体对。

关系分类初始模型和实体抽取初始模型的参数是指关系分类初始模型和实体抽取初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

需要说明的是，在一种情况下，确定的关系分类初始模型和实体抽取初始模型之间可以没有任何关系，并行地进行训练；另一种情况下，关系分类模型与实体抽取模型可以串行进行训练，则实体抽取初始模型连接到关系分类模型的输出端，用于根据关系分类初始模型确定的短文本的关系属性，抽取短文本的实体对。

步骤202，确定训练样本，训练样本中包括多句样本短文本，及各句样本短文本所包含的关系属性的第一标注信息，及各句短文本所包含的实体对的第二标注信息。

步骤203，通过关系分类初始模型分别确定各句样本短文本包含的关系属性，通过实体抽取初始模型分别抽取各句样本短文本所包含的实体对。

具体地，关系分类初始模型中的特征提取模块先提取各句样本短文本中基于字的特征信息，然后分类模块根据特征提取模块提取的特征信息确定样本短文本包含的关系属性。而实体抽取初始模型中的特征提取模块先提取各句样本短文本中基于字的特征信息，然后抽取模块根据特征提取模块提取的特征信息抽取样本短文本包含的实体对。

进一步地，在串行训练的情况下，实体抽取初始模型中的抽取模块主要是根据特征提取模块提取的特征信息及关系分类初始模型确定的样本短文本包含的关系属性，抽取短文本包含的关系属性对应的实体对。

步骤204，根据关系分类初始模型得到的各句样本短文本包含的关系属性，和训练样本中的第一标注信息，及实体抽取初始模型得到的各句样本短文本包含的实体对，和训练样本中的第二标注信息，调整关系分类初始模型和实体抽取初始模型中的参数值，以得到最终的关系分类模型为上述预置的关系分类模型，及得到最终的实体抽取模型为上述预置的实体抽取模型。

具体地，信息抽取装置会先根据上述步骤203中关系分类初始模型得到的结果，及训练样本中的第一标注信息，计算与关系分类初始模型相关的第一损失函数，该第一损失函数用于指示关系分类初始模型预测各句样本短文本中包含的关系属性，与各句样本短文本实际包含的关系属性(根据第一标注信息得到)的误差，比如交叉熵损失函数等。另外，信息抽取装置会先根据上述步骤203中实体抽取初始模型得到的结果，及训练样本中的第二标注信息，计算与实体抽取初始模型相关的第二损失函数，该第二损失函数用于指示实体抽取初始模型预测各句样本短文本中包含的实体对，与各句样本短文本实际包含的实体对(根据第二标注信息得到)的误差。

进一步地，在串行训练的情况下，还需要计算上述第一损失函数与第二损失函数的加权计算值，比如加权和，得到整体损失函数。

而关系分类模型和实体抽取模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的关系分类初始模型和实体抽取初始模型中参数的参数值，并使得上述损失函数的计算值降至最低。

因此，在并行训练的情况下，当计算得到上述第一损失函数和第二损失函数，信息抽取装置需要根据计算的第一损失函数调整关系分类初始模型中的参数值，以得到最终的关系分类模型，根据计算的第二损失函数调整实体抽取初始模型中的参数值，以得到最终的实体抽取模型。在串行训练的情况下，当计算得到整体损失函数后，信息抽取装置可以根据计算的整体损失函数调整关系分类初始模型和实体抽取初始模型中的参数值，以得到最终的关系分类模型和实体抽取模型。

具体地，当计算的损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的损失函数的函数值减小。

需要说明的是，上述步骤203到204是通过关系分类初始模型预测到的样本短文本包含的关系属性，及实体抽取初始模型预测到的样本短文本包含的实体对，分别对关系分类初始模型和实体抽取初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，信息抽取装置在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的关系分类初始模型和调整参数后的实体抽取初始模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

以下以一个具体的应用实例来说明本发明的基于人工智能的信息抽取方法，在本实施例中可以应用于如图4所示的问答系统中，在问答系统中可以包括：基于知识图谱的问答子系统(knowledge base question answering，KBQA)、基于问答对(一问一答)的检索型问答子系统(IRQA)和基于文档理解的问答子系统(DocQA)，其中，DocQA子系统中包括关系抽取模块和阅读理解模块，在关系抽取模块中包括关系分类模型和实体抽取模型。

具体地，当用户向问答系统提出问题后，问答系统会先对用户的问题进行语义识别，再将识别的语义信息传输给KBQA子系统和IRQA子系统，其中：

KBQA子系统会从本地预置的知识图谱中基于语义信息的检索，如果检索到答案，则生成回复信息，回复给用户；如果未检索到答案，则KBQA子系统将识别的语义信息中的实体传输给DocQA子系统，DocQA子系统中的关系抽取模块可以进一步地扩大检索范围，基于识别的语义信息中的实体，比如到其它网站进行检索，得到百科文档等，其中可以包括非结构化文档，再由关系分类模型和实体抽取模型得到检索到文档的三元组信息，以扩充本地储存的知识图谱，同时KBQA子系统可以根据得到的三元组信息生成回复信息，回复给用户。

IRQA子系统会从本地预置的问答对数据库中进行相似问题召回，召回后基于识别的语义信息进行问题匹配，如果匹配到答案，则生成回复信息，回复给用户；如果未匹配到答案，则IRQA子系统将识别的语义信息中的实体传输给DocQA子系统，DocQA子系统中的阅读理解模块可以进一步地扩大检索范围，基于识别的语义信息检索到其它百科文档等，并通过阅读理解模型得到问答对，以扩充本地的问答对数据库，同时阅读理解模块也会根据阅读理解模型得到的问答对生成回复信息，回复给用户。另外，上述KBQA子系统在未检索到答案时，也会将识别的语义信息中的属性信息传输给DocQA子系统中的阅读理解模块，得到新的问答对。

可见，在问答系统应用之前，上述DocQA子系统中的关系抽取模块和阅读理解模块可以进行如下(1)中的离线操作，在本地分别设置知识图谱和问答对数据库；在问答系统应用之后，上述DocQA子系统中的关系抽取模块和阅读理解模块可以在针对用户的问题，未获取到答案时，再进一步扩大检索范围，比如关系抽取模块检索到与用户问题中实体相关的百科文档等，将相关的百科文档等作为待处理文档，对相关的百科文档进行如下(2)中在线的信息抽取，得到三元组信息，以临时扩充本地的知识图谱；而阅读理解模块检索到与用户问题中关系属性和实体相关的百科文档等，进行一定处理得到问答对，以临时扩充问答对数据库。

具体地，如图5所示，上述的DocQA子系统中的关系抽取模块主要可以包括如下在线和离线两个部分的方法：

(1)离线训练关系分类模型和实体抽取模型，本实施例中通过并行训练对关系分类模型和实体抽取模型进行训练。

首先，需要获取训练样本，可以根据具体应用，通过人工爬取等方式从网络上获取各种文档，包括非结构化文档；然后对各种文档进行预处理，比如，对各种文档中进行分句处理，得到多句短文本，再对各句短文本中的特殊符号处理、英文大小写转换和繁简字转换等操作；最后对各句短文本进行标注，标注短文本中的关系属性及其对应的实体对，从而获取到训练样本。

其中，在关系属性的标注时，可以根据实际应用设置多个关系属性，例如，在景点的应用中，可以设置的关系属性可以包括："别名","建筑形式","网址","电话","门票","适宜游玩季节","交通","地理位置","占地面积","建议游玩时长","景区等级","景点尺寸","气候","内景点","始建时间","营业时间","开放年月"等。

其次，分别确定关系分类初始模型和实体抽取初始模型，分别基于上述得到的训练样本进行并行地训练，得到最终的关系分类模型和实体抽取模型，并预置到DocQA子系统中的关系抽取模块中。具体地训练方法见上述图3所示的实施例中，在此不进行赘述。

(2)根据上述训练得到的关系分类模型和实体抽取模型，在线对待处理文档进行处理。

首先，针对某一待处理文档(比如非结构化文档)，如果该待处理文档的长度较长，则对待处理文档进行分句，得到多句短文本，进而再对各句短文本的主体进行增强处理。这样，可以完善待处理文档信息缺失的情景，有效的增强模型对非结构文档知识抽取能力。

其次，将预处理后的各句短文本输出到关系分类模型和实体抽取模型中，先确定各句短文本中包含的关系属性输出到实体抽取模型，由实体抽取模型根据各句短文本及其中包含的关系属性，得到各句短文本中包含的关系属性对应的实体对，进而生成各组三元组信息。

例如，图6所示为通过关系分类模型和实体抽取模型得到的三元组信息，其中，“安徽黄山”和“承德避暑山庄”等为主语；“地址”、“景点级别”、“面积”和“内部景点”等为关系属性。这里，每个主语的关系属性分别对应一个答案，且每个主语及其对应的答案为一个实体对。

进一步地，可以对得到的三元组信息进行清洗，比如通过正则表达式属于属性值抽取结果。例如，电话属性值为数值，开放年月是时间等。

最后，将清洗后的三元组信息可以储存到问答系统中的知识图谱中。

可见，本实施例的方法面向非结构化文档，做专业领域信息抽取能力的优化，能够快速对合作方提供的待处理文档进行处理得到有效的知识信息，定制私有化知识图谱；且通过本实施例中的方法得到的结果可以快速应用于问答系统，帮助完善问答系统的知识库，保障问答系统快好准的回答用户提问。

本发明实施例还提供一种信息抽取装置，其结构示意图如图7所示，具体可以包括：

文本获取单元10，用于获取待处理文档包括的至少一句短文本。

关系属性单元11，用于分别确定所述文本获取单元10获取的至少一句短文本中各句短文本包含的至少一个关系属性。

该关系属性单元11，具体用于根据预置的关系分类模型，确定所述各句短文本包含的至少一个关系属性。

进一步地，上述文本获取单元10，还与用于对所述各句短文本中的描述主体进行增强处理，得到增强后短文本。则该关系属性单元11，具体用于分别根据所述增强后短文本，确定所述各句短文本包含的至少一个关系属性。

实体对单元12，用于根据所述关系属性单元11确定的各句短文本的至少一个关系属性，分别抽取所述各句短文本中至少一个关系属性对应的实体对。

该实体对单元12，具体用于根据预置的实体抽取模型，抽取所述各句短文本中至少一个关系属性对应的实体对。具体地，实体对单元12，具体用于由所述预置的实体抽取模型根据所述各句短文本，及所述各句短文本包含的至少一个关系属性，输出所述各句短文本中各个字符的句子成分属性标识及对应的关系属性标识；所述句子成分属性标识包括主语标识和宾语标识；确定所述各句短文本中主语标识对应的字符，与所述各句短文本中宾语标识对应的字符为实体对。

三元组单元13，用于根据所述实体对单元12抽取的各句短文本的至少一个关系属性及其对应的实体对，形成所述各句短文本的三元组信息。

进一步地，本实施例的信息抽取装置还可以包括：

训练单元14，用于确定关系分类初始模型和实体抽取初始模型；确定训练样本，所述训练样本中包括多句样本短文本，及各句样本短文本所包含的关系属性的第一标注信息，及所述各句短文本所包含的实体对的第二标注信息；通过所述关系分类初始模型分别确定所述各句样本短文本包含的关系属性，通过所述实体抽取初始模型分别抽取所述各句样本短文本所包含的实体对；根据所述关系分类初始模型得到的各句样本短文本包含的关系属性，和所述训练样本中的第一标注信息，及所述实体抽取初始模型得到的各句样本短文本包含的实体对，和所述训练样本中的第二标注信息，调整所述关系分类初始模型和实体抽取初始模型中的参数值，以得到最终的关系分类模型为所述关系属性单元11确定关系属性采用的关系分类模型，及得到最终的实体抽取模型为所述实体对单元12采用的实体抽取模型。

具体地，训练单元14可以采用串行的方法训练关系分类模型及实体抽取模型，则在确定实体抽取初始模型时，训练单元14具体用于确定所述实体抽取初始模型接收所述关系分类初始模型输出的关系属性，用于根据所述关系分类初始模型确定的短文本的关系属性，抽取所述短文本的实体对。

在这种情况下，训练单元14在调整参数值时，具体用于根据所述关系分类初始模型得到的各句样本短文本包含的关系属性，和所述训练样本中的第一标注信息，计算与所述关系分类初始模型相关的第一损失函数；根据所述实体抽取初始模型得到的各句样本短文本包含的实体对，和所述训练样本中的第二标注信息，计算与所述实体抽取模型相关的第二损失函数；将所述第一损失函数与第二损失函数的加权计算值作为整体损失函数，根据所述整体损失函数调整所述关系分类初始模型和实体抽取初始模型中的参数值。

该训练单元14，还用于当对所述参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

矫正单元15，用于对上述三元组单元13形成的三元组信息进行校正，删除三元组信息中不符合预置策略的三元组信息。

在本实施例的装置中，针对待处理文档中的各句短文本，关系属性单元11先确定短文本中包含的关系属性，然后实体对单元12再抽取这些关系属性对应的实体对，进行三元组单元13可以形成各句短文本对应的三元组信息。实践证明，通过不同的机器学习模型分别确定关系属性及其对应的实体对的方式，可以准确地获取到待处理文档的三元组信息，且由于采用机器学习模型来进行信息抽取，使得可以进行迁移学习。

本发明实施例还提供一种终端设备，其结构示意图如图8所示，该终端设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括基于人工智能的信息抽取的应用程序，且该程序可以包括上述信息抽取装置中的文本获取单元10，关系属性单元11，实体对单元12，三元组单元13和训练单元14，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中储存的基于人工智能的信息抽取的应用程序对应的一系列操作。

终端设备还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，一个或一个以上输入输出接口25，和/或，一个或一个以上操作系统223，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由信息抽取装置所执行的步骤可以基于该图8所示的终端设备的结构。

本发明实施例还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述信息抽取装置所执行的基于人工智能的信息抽取方法。

本发明实施例还提供一种终端设备，包括处理器和存储介质；所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述信息抽取装置所执行的基于人工智能的信息抽取方法，所述处理器，用于实现所述多条指令中的各条指令。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的基于人工智能的信息抽取方法及存储介质和相关装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于人工智能的信息抽取方法，其特征在于，包括：

获取待处理文档包括的至少一句短文本；

2.如权利要求1所述的方法，其特征在于，所述获取待处理文档包括的至少一句短文本之后，还包括：

对所述各句短文本中的描述主体进行增强处理，得到增强后短文本；

则所述分别确定所述至少一句短文本中各句短文本包含的至少一个关系属性，具体包括：分别根据所述增强后短文本，确定所述各句短文本包含的至少一个关系属性。

3.如权利要求1所述的方法，其特征在于，所述根据所述各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取所述各句短文本中至少一个关系属性对应的实体对，包括：

由所述预置的实体抽取模型根据所述各句短文本，及所述各句短文本包含的至少一个关系属性，输出所述各句短文本中各个字符的句子成分属性标识及对应的关系属性标识；所述句子成分属性标识包括主语标识和宾语标识；

确定所述各句短文本中主语标识对应的字符，与所述各句短文本中宾语标识对应的字符为实体对。

4.如权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

确定关系分类初始模型和实体抽取初始模型；

确定训练样本，所述训练样本中包括多句样本短文本，及各句样本短文本所包含的关系属性的第一标注信息，及所述各句短文本所包含的实体对的第二标注信息；

通过所述关系分类初始模型分别确定所述各句样本短文本包含的关系属性，通过所述实体抽取初始模型分别抽取所述各句样本短文本所包含的实体对；

根据所述关系分类初始模型得到的各句样本短文本包含的关系属性，和所述训练样本中的第一标注信息，及所述实体抽取初始模型得到的各句样本短文本包含的实体对，和所述训练样本中的第二标注信息，调整所述关系分类初始模型和实体抽取初始模型中的参数值，以得到最终的关系分类模型为所述预置的关系分类模型，及得到最终的实体抽取模型为所述预置的实体抽取模型。

5.如权利要求4所述的方法，其特征在于，所述确定实体抽取初始模型，包括：

确定所述实体抽取初始模型接收所述关系分类初始模型输出的关系属性，用于根据所述关系分类初始模型确定的短文本的关系属性，抽取所述短文本的实体对。

6.如权利要求5所述的方法，其特征在于，所述根据所述关系分类初始模型得到的各句样本短文本包含的关系属性，和所述训练样本中的第一标注信息，及所述实体抽取初始模型得到的各句样本短文本包含的实体对，和所述训练样本中的第二标注信息，调整所述关系分类初始模型和实体抽取初始模型中的参数值，包括：

根据所述关系分类初始模型得到的各句样本短文本包含的关系属性，和所述训练样本中的第一标注信息，计算与所述关系分类初始模型相关的第一损失函数；

根据所述实体抽取初始模型得到的各句样本短文本包含的实体对，和所述训练样本中的第二标注信息，计算与所述实体抽取模型相关的第二损失函数；

将所述第一损失函数与第二损失函数的加权计算值作为整体损失函数，根据所述整体损失函数调整所述关系分类初始模型和实体抽取初始模型中的参数值。

7.如权利要求4所述的方法，其特征在于，当对所述参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

8.一种信息抽取装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至7任一项所述的基于人工智能的信息抽取方法。

10.一种终端设备，其特征在于，包括处理器和存储介质；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至7任一项所述的基于人工智能的信息抽取方法，所述处理器，用于实现所述多条指令中的各条指令。