CN112052674B

CN112052674B - 一种实体定义抽取方法、系统及存储介质和服务器

Info

Publication number: CN112052674B
Application number: CN202010781214.2A
Authority: CN
Inventors: 郑孙聪; 原雯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2021-08-24
Anticipated expiration: 2040-08-06
Also published as: CN112052674A

Abstract

本发明实施例公开了一种实体定义抽取方法、系统及存储介质和服务器，应用于人工智能的信息处理技术领域。系统识别出待抽取短文本中的至少一个实体，并将实体与待抽取短文本进行拼接，且在拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本，进而再根据各个实体对应的实体定义抽取文本，得到各个实体对应的实体定义。在这个过程中，考虑到待抽取短文本中实体在待抽取短文本中的位置，并在待抽取短文本基础上拼接实体，得到的实体定义抽取文本包含了实体与待抽取短文本之间相互作用的信息，实际证明，对通过这种方式得到的实体定义抽取文本进行实体定义抽取后，确定的实体与实体定义对的精确度得到提高。

Description

一种实体定义抽取方法、系统及存储介质和服务器

技术领域

本发明涉及人工智能的信息处理技术领域，特别涉及一种实体定义抽取方法、系统及存储介质和服务器。

背景技术

实体定义是用于描述实体的基本属性的，主要以简短的文本概括实体的明显特征或基本信息，对实体定义的抽取结果能够提供给许多自然语言处理的下游任务，如问答、信息检索等。

现有的实体定义抽取主要采用序列标注的方法，可以识别出任意短句中的实体以及实体定义，这种方式获取的结果可以直接使用，但是由于实体定义的复杂性，导致识别难度大，当短句中存在多个(实体，实体定义)对的情况时，采用现有的抽取方法，会导致识别出的实体和实体定义不相符，实体定义抽取的结果不准确。

例如，对“中国新生代偶像陈某某是著名演员陈某的二儿子”，其中对“陈某某”有两个实体定义“中国新生代偶像”和“著名演员陈某的二儿子”，而“著名演员”是“陈某”的实体定义，通过现有技术中直接进行序列标注的方法，可能会识别到“著名演员”是“陈某某”的实体定义，对实体定义抽取的结果不准确。

发明内容

本发明实施例提供一种实体定义抽取方法、系统及存储介质和服务器，实现了更精确的实体定义抽取。

本发明实施例一方面提供一种实体定义抽取方法，包括：

识别待抽取短文本中的至少一个实体；

将所述至少一个实体分别与所述待抽取短文本进行拼接，且在所述拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本；

对所述各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义。

本发明实施例另一方面还提供一种实体定义抽取系统，包括：

实体识别单元，用于识别待抽取短文本中的至少一个实体；

文本获取单元，用于将所述至少一个实体分别与所述待抽取短文本进行拼接，且在所述拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本；

抽取单元，用于对所述各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义。

本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如本发明实施例一方面所述的实体定义抽取方法。

本发明实施例另一方面还提供一种服务器，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如本发明实施例一方面所述的实体定义抽取方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

可见，在本实施例的方法中，实体定义抽取系统会识别出待抽取短文本中的至少一个实体，并将实体与待抽取短文本进行拼接，且在拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本，进而再根据各个实体对应的实体定义抽取文本，得到各个实体对应的实体定义。在这个过程中，考虑到待抽取短文本中实体在待抽取短文本中的位置，并在待抽取短文本基础上拼接实体，得到的实体定义抽取文本包含了实体与待抽取短文本之间相互作用的信息，实际证明，对通过这种方式得到的实体定义抽取文本进行实体定义抽取后，确定的实体与实体定义对的精确度得到提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实体定义抽取方法的示意图；

图2是本发明一个实施例提供的一种实体定义抽取方法的流程图；

图3是本发明一个实施例中训练实体定义标注模型的流程图；

图4是本发明一个应用实施例中实体定义抽取系统的结构示意图；

图5是本发明一个应用实施例中提供的实体定义抽取系统的示意图；

图6是本发明另一应用实施例中实体定义抽取方法所应用于的分布式系统的示意图；

图7是本发明另一应用实施例中区块结构的示意图；

图8是本发明实施例提供的一种实体定义抽取系统的结构示意图；

图9是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种实体定义抽取方法，主要是对任一短文本进行(实体，实体定义)对的抽取，如图1所示，实体定义抽取系统可以按照如下步骤实现精确地实体定义抽取：

识别待抽取短文本中的至少一个实体(本实施例中以n个实体为例说明)；将所述至少一个实体分别与所述待抽取短文本进行拼接，且在所述拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本；对所述各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义。

上述在对各个实体对应的实体定义抽取文本进行实体定义的抽取时，可以根据预置的实体定义标注模型进行实体定义的标注，这里，预置的实体定义标注模型具体为基于人工智能的机器学习模型。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

这样，在实体定义抽取过程中，考虑到待抽取短文本中实体在待抽取短文本中的位置，并在待抽取短文本基础上拼接实体，得到的实体定义抽取文本包含了实体与待抽取短文本之间相互作用的信息，实际证明，对通过这种方式得到的实体定义抽取文本进行实体定义抽取后，确定的实体与实体定义对的精确度得到提高。

本发明一个实施例提供一种实体定义抽取方法，主要是由实体定义抽取系统所执行的方法，流程图如图2所示，包括：

步骤101，识别待抽取短文本中的至少一个实体。

可以理解，实体定义抽取系统可以针对任一短文本(即待抽取短文本)发起本实施例的流程，其中，任一短文本是指长度在预置范围内的文本，比如长句或断句等。

具体在识别待抽取短文本中的实体时，可以采用命名实体识别(Named EntityRecognition，NER)工具进行识别，识别出非结构化的待抽取短文本中的人名、地名、机构名或影视剧名等专有名词，即可得到待抽取短文本中的至少一个实体。其中，NER工具在进行实体识别时，一般会先对待抽取短文本进行分词，进而再判断各个分词或多个相邻分词组成的词是否为实体。

步骤102，将至少一个实体分别与待抽取短文本进行拼接，且在待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本。

具体地，当某一实体与待抽取短文本进行拼接后，可以在拼接的待抽取短文本中对该实体进行位置标注，比如在待抽取短文本中该实体的前后位置分别插入特定标识t1和t2，即可得到该实体对应的实体定义抽取文本。其中实体与待抽取短文本的拼接时，可以将实体拼接到待抽取短文本前、后或者中间的特定位置。

例如，对待抽取短文本进行分词后可以包括{w1，w2，…，wi，…，wn}，将其中的实体wi与待抽取短文本进行拼接并对实体wi进行位置标注后，得到的实体wi对应的实体定义抽取文本包括{wi，w1，w2，…，t1，wi，t2，…，wn}。

进一步地，为了避免将噪声数据引入到下面步骤的处理过程中，实体定义抽取系统在执行了步骤102之后，还可以先过滤某些实体对应的实体定义抽取文本，针对剩余的实体对应的实体定义抽取文本，执行如下步骤。其中，在过滤实体定义抽取文本时，实体定义抽取系统可以根据任一实体对应的实体定义抽取文本，确定待抽取短文本是否属于任一实体的定义性文本，如果属于，针对任一实体的实体定义抽取文本执行进行实体定义的抽取步骤，即如下步骤103；如果不属于，则不会对任一实体的实体定义抽取文本执行如下步骤103。

其中，定义性文本是指对实体进行描述的文本，在有些短文本中可以包括多个实体，但是这些短文本并不一定对这多个实体都进行描述，例如：“A是B的朋友的儿子”这个句子中包括的实体为A和B，但是这个句子是对A这个实体进行描述，并没有对B进行描述，因此，需要过滤到实体B对应的实体定义抽取文本。

具体地，实体定义抽取系统在确定待抽取短文本是否属于任一实体的定义性文本时，可以根据预置的第一分类模型对任一实体对应的实体定义抽取文本进行分类，即可得到待抽取短文本是否属于任一实体的定义性文本的分类结果。其中，预置的第一分类模型是一种人工智能的机器学习模型，可以事先通过一定的方法训练后，将训练好的第一分类模型的运行逻辑预置在实体定义抽取系统中，在发起本实施例时，即可采用该第一分类模型对各个实体的实体定义抽取文本进行分类。

步骤103，对各个实体对应的实体定义抽取文本进行实体定义的抽取，得到各个实体对应的实体定义。

其中，实体定义是描述实体的文本片段，比如用于表示关系的实体定义有：“著名演员A的二儿子”是“B”这个实体的实体定义；用于评价实体的实体定义有：“新生代偶像”是“苏某某”这个实体的实体定义，“无与伦比的古代建筑杰作”是“北京故宫”这个实体的实体定义；用于表示实体属性的实体定义有：“QQ之父”是“C”这个实体的实体定义；用于表示实体类别的实体定义有：“四大天王之一”是“刘某某”这个实体的实体定义。

具体地，实体定义抽取系统在执行步骤103时，可以先采用预置的实体定义标注模型对任一实体对应的实体定义抽取文本所包括的多个分词进行实体定义标注，然后将实体定义抽取文本中具有实体定义标注的分词作为任一实体的实体定义。其中，预置的实体定义标注模型是一种人工智能的机器学习模型，可以事先通过一定的方法训练后，将训练好的实体定义标注模型的运行逻辑预置在实体定义抽取系统中，在发起本实施例时，即可采用该实体定义标注模型对实体定义抽取文本进行实体定义标注。

例如，某一实体wi对应的实体定义抽取文本包括的分词为{wi，w1，w2，…，t1，wi，t2，…，wn}，通过实体定义标注模型后，可以得到{0，0，0，…，0，0，0，…，B，I，I，E，…，0}，其中，“B”表示实体定义的开始，“I”表示实体定义的中间，“E”表示实体定义的结尾，“O”表示其对应的分词与实体定义的结果无关，因此，实体定义抽取文本中具有B、I和E的分词即为实体wi的实体定义。

需要说明的是，实体定义抽取系统通过执行上述步骤101到103，得到了待抽取短文本中的(实体，实体定义)对，进一步地，为了使得最终得到的(实体，实体定义)对比较准确，实体定义抽取系统还可以对得到的各个实体及其对应的实体定义进行一致性的验证，具体可以采取但不限于如下两种方式：

(1)先在待抽取短文本中对任一实体及其对应的实体定义分别进行位置标注，得到任一实体对应的一致性确定文本，比如在实体及其对应的实体定义的前后分别插入特定标识；再根据预置的第二分类模型对任一实体的一致性确定文本进行分类，得到任一实体及其对应的实体定义是否一致的分类结果，这样可以过滤掉不一致的实体与实体定义。

其中，预置的第二分类模型是一种人工智能的机器学习模型，可以事先通过一定的方法训练后，将训练好的第二分类模型的运行逻辑预置在实体定义抽取系统中，在发起本实施例时，即可采用该第二分类模型对实体的过滤文本进行分类。

例如，待抽取短文本包括{w1，w2，…，wj，wj+1，…，wi，…，wn}，在待抽取短文本中实体wi前后插入特定标识t1和t2，在其对应的实体定义wj和wj+1的前后分别插入特定标识t3和t4，得到的一致性确定文本包括{w1，w2，…，t3，wj，wj+1，t4，…，t1，wi，t2，…，wn}。

(2)实体定义抽取系统会先获取待抽取短文本中任一实体对应的实体向量，及任一实体对应的实体定义的实体定义向量，然后计算所述实体向量与所述实体定义向量之间的相似度，如果该相似度小于预置值，则确定任一实体与其对应的实体定义不一致。

其中，在获取待抽取短文本中实体的实体向量时，可以将待抽取短文本中实体所表示向量作为实体向量；也可以根据上述该实体进行位置标注过程中，在实体前后分别插入的特定标识t1和t2对应的向量计算得到，比如将在实体前插入的特定标识t1的向量

与在实体后插入的特定标识t2的向量

的平均向量作为实体向量，具体可以通过如下公式1来表示：

对于实体定义向量，可以根据实体定义所包括的首分词和尾分词分别对应的向量计算得到，比如将首分词的向量

与尾分词的向量

的平均向量作为实体定义向量，具体可以通过如下公式2来表示：

进一步需要说明的是，上述步骤101到103是获取一个待抽取短文本中包括的(实体，实体定义)对的过程，在实际应用过程中，实体定义抽取系统会针对多个待抽取短文本进行(实体，实体定义)对的抽取，这样会出现很多实体定义在语义上相近，比如“中国香港四大天王”和“中国香港四大天王之一”这两个实体定义，从而导致获取的(实体，实体定义)对的数量庞大且冗余性高，因此，实体定义抽取系统还会进行(实体，实体定义)对的融合，具体包括但不限于如下策略：

对实体定义的字数进行一定长度的限制，比如限制在4-15个字内；对实体定义中含有逗号、词典中不存在的词(经过词典映射为’[unk]’的词)、包含实体片段的实体定义进行过滤；对重合字数超过阈值(比如6)上的两个实体定义，将字数少的实体定义归并到字数多的实体定义上；对同一实体，使用频数小于预置值(比如1)的实体定义，说明该实体定义的置信度较低，进行过滤；采用实体链接技术，将识别的实体链接到知识库里的具体实体，并贴上通用唯一识别码(Universally Unique Identifier，uuid)，或同一资源定位符(Uniform Resource Locator，url)等基本信息。

且再配合上述步骤103之前进行的一次过滤操作，即过滤掉某些实体的实体定义抽取文本，对于这些实体，待抽取短文本不属于这些实体的定义性文本，避免了对噪声数据进行实体定义抽取的操作，进一步地提高了确定的实体与实体定义对的精确度，同时降低了上述步骤103执行的复杂度。再配合上述步骤103之后进行的二次过滤操作，即过滤掉不一致的(实体，实体定义)对。

在一个具体的实施例中，执行上述步骤103中使用的实体定义标注模型的训练可以按照如下的方法来实现，流程图如图3所示，包括：

步骤201，确定实体定义标注初始模型。

可以理解，实体定义抽取系统在确定实体定义标注初始模型时，会确定实体定义标注初始模型所包括的多层结构和各层结构中参数的初始值。

具体地，实体定义标注初始模型可以包括：特征提取模块和标注模块，其中，特征提取模块用于提取任一短文本中实体对应的实体定义抽取文本的特征信息，标注模块用于根据特征提取模块提取到的特征信息进行实体定义标注，并输出标签序列，用于指示实体定义抽取文本中各个分词是否为实体定义。其中，任一短文本中实体对应的实体定义抽取文本是将短文本中一实体与短文本进行拼接，且在拼接的短文本中对相应的一实体进行位置标注后形成的。

实体定义标注初始模型的参数是指实体定义标注初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

步骤202，确定训练样本，训练样本中包括多个短文本，及各个短文本中每个实体对应的实体定义的标注信息。

步骤203，通过实体定义标注初始模型分别对各个短文本中实体对应的实体定义抽取文本进行实体定义标注，得到各个短文本中实体的实体定义标注结果。

具体地，实体定义标注初始模型中的特征提取模块提取任一短文本中实体对应的实体定义抽取文本的特征信息，标注模块再根据特征提取模块提取到的特征信息进行实体定义标注，并输出标签序列，用于指示实体定义抽取文本中各个分词是否为实体定义，从而将实体定义抽取文本中标注的实体定义与该实体定义抽取文本中拼接的实体相对应。

步骤204，根据实体定义标注初始模型得到的实体定义标注结果和训练样本中的标注信息，调整实体定义标注初始模型，以得到最终的实体定义标注模型为预置的实体定义标注模型。

具体地，实体定义抽取系统会先根据上述步骤203中实体定义标注初始模型得到的结果，及训练样本中的标注信息，计算与实体定义标注初始模型相关的第一损失函数，该第一损失函数用于指示实体定义标注初始模型标注的各个短文本中实体的实体定义标注，与训练样本中各个短文本包括实体的实际实体定义(根据标注信息得到)之间的误差，比如交叉熵损失函数等。而实体定义标注模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的实体定义标注初始模型中参数的参数值，并使得上述第一损失函数的计算值降至最低。

具体地，当计算的第一损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的第一损失函数的函数值减小。

需要说明的是，上述步骤203到204是通过实体定义标注初始模型标注的实体定义标注结果对实体定义标注初始模型中的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，实体定义抽取系统在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的实体定义标注初始模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

在另一个具体的实施例中，上述实施例中在得到待抽取短文本是否属于任一实体的定义性文本的分类结果过程中使用的第一分类模型，也可以通过一定的方法进行训练得到，其训练方法与上述图3所示的实体定义标注模型的训练方法类似，不同的是：

在训练第一分类初始模型过程中，首先确定的第一分类初始模型会包括特征提取模块和第一分类模块，其中，特征提取模块用于提取任一短文本中实体对应的实体定义抽取文本的特征信息，第一分类模块用于根据特征提取模块提取到的特征信息进行分类，并输出短文本属于一实体的定义性文本的概率，如果该概率大于预置值，则确定短文本属于一实体的定义性文本。其中，任一短文本中实体对应的实体定义抽取文本是将短文本中一实体与短文本进行拼接，且在拼接的短文本中对相应的一实体进行位置标注后形成的。

其次在确定训练样本时，在训练样本中会包括正样本和负样本，正样本包括多个短文本及各个短文本属于其中包括实体的定义性文本的正标注信息，负样本包括多个短文本及各个短文本不属于其中包括实体的定义性文本的负标注信息。

再次是通过第一分类初始模型分别对正样本和负样本中各个短文本中实体的实体定义抽取文本进行分类，得到各个实体定义抽取文本中拼接的短文本是否属于其中拼接的实体的定义性文本的分类结果。

最后再根据第一分类初始模型得到的分类结果和训练样本中的正标注信息和负标注信息，计算与第一分类初始模型相关的第二损失函数，再根据第二损失函数调整第一分类初始模型，以得到最终的第一分类模型为上述预置的第一分类模型。

在其它具体的实施例中，上述实施例中在对任一实体的一致性确定文本进行分类过程中使用的第二分类模型，也可以通过一定的方法进行训练得到，其训练方法与上述图3所示的实体定义标注模型的训练方法类似，不同的是：

在训练第二分类初始模型过程中，首先确定的第二分类初始模型会包括特征提取模块和第二分类模块，其中，特征提取模块用于提取任一短文本中实体对应的一致性确定文本的特征信息，第二分类模块用于根据特征提取模块提取到的特征信息进行分类，并输出一致性确定文本中包括的实体和实体定义一致的概率，如果该概率大于预置值，则确定一致性确定文本中包括的实体和实体定义一致。其中，任一短文本中实体对应的一致性确定文本是在短文本对一实体及其对应的实体定义进行位置标注后形成的。

其次在确定训练样本时，在训练样本中会包括正样本和负样本，正样本包括多个已标注短文本及各个已标注短文本中实体和实体定义的一致性标注信息，负样本包括多个已标注短文本及各个已标注短文本中实体和实体定义的不一致性标注信息。其中已标注短文本中对实体和实体定义进行位置标注。

再次是通过第二分类初始模型分别对正样本和负样本中各个已标注短文本中实体的一致性确定文本进行分类，得到各个一致性确定文本中包括的实体和实体定义是否一致的分类结果。

最后再根据第二分类初始模型得到的分类结果和训练样本中的一致性标注信息和不一致性标注信息，计算与第二分类初始模型相关的第三损失函数，再根据第三损失函数调整第二分类初始模型，以得到最终的第二分类模型为上述预置的第二分类模型。

需要说明的是，上述第一分类模型、第二分类模型和实体定义标注模型是并行地进行训练，相互之间可以没有任何关系。

以下以一个具体的应用实例来说明本发明中的实体定义抽取方法，本实施例中的实体定义抽取系统的结构可以如图4所示，包括：实体过滤模块、文本获取模块，句级(sentence-level)过滤模块、抽取模块、对级(pair-level)过滤模块和融合模块，其中：

(1)实体过滤模块，用于识别出待抽取短文本(比如新闻语料中的句子)中的实体，得到的结果包括{e，\t，s}，其中e为识别的实体名，s为原始句子，\t表示分隔符。

(2)文本获取模块，用于将任一实体与待抽取短文本进行拼接，且在待抽取短文本中对相应实体进行位置标注，得到任一实体对应的实体定义抽取文本，并分别传输给句级过滤模块和抽取模块。在一种具体的实施例中，文本获取模块还用于在抽取模块进行实体定义抽取后，在待抽取短文本中对任一实体及其对应的实体定义进行位置标注，得到任一实体对应的一致性确定文本，并传输给对级过滤模块。

(3)句级过滤模块，用于根据预置的第一分类模型对上述文本获取模块获取的任一实体对应的实体定义文本进行分类，确定待抽取短文本是否属于任一实体的定义性文本。

具体地，第一分类模型可以是二分类器，该第一分类模型的输入可以为{CLS，e，SEP，s，SEP}，其中，e为待抽取短文本中的一个实体，s为已在一个实体前后插入特定标识的待抽取短文本；第一分类模型的输出概率具体可以通过如下公式3来表示：

P_sent＝sigmoid(h_CLS*W_sent+b_sent) (3)

其中，W_sent∈R^d*K是第一分类模型的权重矩阵，k为2，b_sent为关系对层面分类器偏差，h_CLS为输入向量，当第一分类模型的输入为某一实体的实体定义抽取文本对应的输入向量，输出的概率大于阈值，则表示待抽取短文本是该实体的定义性文本，保留该实体的实体定义抽取文本。

(4)抽取模块，用于根据预置的实体定义标注模型对上述文本获取模块获取的任一实体的实体定义抽取文本所包括的分词进行实体定义标注，将待抽取短文本中具有实体定义标注的分词作为任一实体的实体定义。

具体地，实体定义标注模型的输入向量可以为

其中，

表示分词w_i对应的编码，输出可以为标签序列

标签序列中的任一位置的标签用于表示输入向量中对应位置的分词是否为实体定义，进而可以将具有B、I和E的分词组合为实体的实体定义。

(5)对级过滤模块，用于根据预置的第二分类模型对上述文本获取模块获取的任一实体的一致性确定文本进行分类，得到任一实体及其对应的实体定义是否一致的分类结果。

由于上述抽取模块的实体定义抽取结果可能会出现实体与实体定义关系不对应，或实体定义片段不完整等，这些实体定义都不能被下游任务使用，通过对级过滤模块将这些(实体，实体定义)对过滤掉，实体定义抽取的准确率。具体地，对级过滤模块采用的第二分类模型的输入可以为{CLS，…，t1，e，t2，…，t3，d，t4，…，SEP}，其中e为待抽取短文本中的一个实体，d为该实体对应的实体定义；这样，第二分类模型的输出概率可以通过如下公式4来表示：

P_pair＝sigmoid(h_CLS*W_pair+b_pair) (4)

其中，W_pair∈R^d*K是第一分类模型的权重矩阵，k为2，b_pair为关系对层面分类器偏差，h_CLS为输入向量，当第二分类模型的输入为对某一实体及其实体定义进行位置标注的一致性确定文本，输出的概率大于阈值，则表示该实体及其实体定义相一致，保留该实体及其实体定义。

需要说明的是，对级过滤模块还可以采用其它方法来过滤不一致的实体及其实体定义，比如通过计算实体向量与实体定义向量之间的相似度来进行过滤，具体见上述实施例中所述，在此不进行赘述。

(6)融合模块，用于对上述对级过滤模块过滤后的实体定义，按照一定的策略进行融合，具体策略见上述实施例中所述，在此不进行赘述。

通过本实施例中实体定义抽取系统的结构，能准确地抽取任一短文本中的(实体，实体定义)对，主要体现在如下几方面：句级过滤模块事先避免将噪声数据引入到抽取模块的实体定义抽取过程中；抽取模块在实体定义抽取过程中充分考虑了实体与短文本中其它词语的相互作用；对级过滤模块对抽取模块抽取的结果再次进行过滤，提高抽取的(实体，实体定义)对的准确性。这样可以丰富实体概念，抽取的实体定义应用于其它神经语言程序学(Neuro-Linguistic Programming，NLP)任务，如问答系统、信息检索中；另外，由于实体定义是一种具体的上位词，实体定义抽取也可以应用于实体上位词的抽取。

具体地，在本实施例中，如果需要对某一NLP任务系统，比如问答系统或信息检索系统中的数据库进行扩充时，可以先采集大量的短文本，比如信息语料的句子或是百科知识中的句子等，将这些短文本作为待抽取短文本，来发起本实施例中的流程，具体地，对于待抽取短文本是各种类型知识的句子时，实体定义抽取系统可以按照如下步骤实现对实体定义的抽取，如图5所示，包括：

步骤301，实体定义抽取系统选择一个句子，通过实体过滤模块识别出一个句子中包括的至少一个实体，并将识别出的实体传输给文本获取模块。

步骤302，文本获取模块将各个实体分别与句子拼接，且在拼接的句子中对相应实体进行位置标注，得到各个实体对应的实体定义抽取文本，具体可以为一个拼接句子，并传输给句级过滤模块。

步骤303，句级过滤模块通过预置的第一分类模型对各个实体的拼接句子进行分类，得到原始的句子是否属于拼接句子中拼接的实体的定义性文本，如果不属于，则过滤掉拼接句子，并将剩余的拼接句子传输给抽取模块。

步骤304，抽取模块通过预置的实体定义标注模型对剩余的拼接句子进行实体定义标注，进而得到剩余的拼接句子中拼接的实体对应的实体定义，并将得到的(实体，实体定义)对传输给对级过滤模块。

步骤305，对级过滤模块向文本获取模块获取到(实体，实体定义)对中实体对应的一致性确定文本，该一致性确定文本是在原始的句子中对实体及其实体定义进行位置标注形成的。

这样，对级过滤模块会通过预置的第二分类模型对原始的句子中实体对应的一致性确定文本进行分类，得到一致性确定文本中的进行位置标注的实体和实体定义是否一致的分类结果，将不一致的(实体，实体定义)对，且将一致的(实体，实体定义)对传输给融合模块；另外，对级过滤模块还可以通知实体过滤模块针对另一句子进行实体的识别。

步骤306，融合模块在确定对所有句子都执行了上述步骤301到305之后，进行(实体，实体定义)对的融合。

通过上述步骤301到306的步骤，实体定义抽取系统可以实现对NLP任务系统的数据库进行定时地扩充，即在数据库中增加大量的(实体，实体定义)对的储存，这样，当用户通过NLP任务终端发起具体的任务请求，在任务请求中包括用户检索信息或用户提问信息，这样，实体定义抽取系统会将任务请求中的用户检索信息或用户提问信息与数据库中的(实体，实体定义)对进行匹配，从而将与用户检索信息或用户提问信息相匹配的实体定义返回给NLP任务终端进行显示。

以下以另一具体的应用实例来说明本发明中实体定义抽取方法，本发明实施例中的实体定义抽取系统主要为分布式系统100，该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)，客户端300与节点200之间通过网络通信的形式连接。

以分布式系统为区块链系统为例，参见图6是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图6示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认；还可以包括智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

在本实施例中，节点中的应用还包括实现实体定义抽取功能的代码，该实体定义抽取功能主要包括：

识别待抽取短文本中的至少一个实体；将所述至少一个实体分别与所述待抽取短文本进行拼接，且在所述拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本；对所述各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图7为本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例还提供一种实体定义抽取系统，其结构示意图如图8所示，具体可以包括：

实体识别单元10，用于识别待抽取短文本中的至少一个实体。

文本获取单元11，用于将所述实体识别单元10实体的至少一个实体分别与所述待抽取短文本进行拼接，且在所述拼接的待抽取短文本中进行相应实体的位置标注，得到各个实体对应的实体定义抽取文本。该文本获取单元11在进行位置标注时，具体用于在所述待抽取短文本中相应实体的前后位置分别插入特定标识。

抽取单元12，用于对所述文本获取单元11获取的各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义。

该抽取单元12，具体用于根据预置的实体定义标注模型对任一实体对应的实体定义抽取文本所包括的多个分词进行实体定义标注；将所述实体定义抽取文本中具有实体定义标注的分词作为所述任一实体的实体定义。

进一步地，本实施例中的实体定义抽取系统还可以包括：

定义性确定单元13，用于根据所述文本获取单元11获取的任一实体对应的实体定义抽取文本，确定所述待抽取短文本是否属于任一实体的定义性文本，如果属于，通知所述抽取单元12针对所述任一实体的实体定义抽取文本执行所述进行实体定义的抽取步骤。该定义性确定单元13，具体用于根据预置的第一分类模型对所述任一实体对应的实体定义抽取文本进行分类，得到所述待抽取短文本是否属于任一实体的定义性文本的分类结果。

一致性确定单元14，用于根据所述抽取单元12得到的结果，在所述待抽取短文本中对任一实体及其对应的实体定义分别进行位置标注，得到任一实体对应的一致性确定文本；根据预置的第二分类模型对所述任一实体的一致性确定文本进行分类，得到所述任一实体及其对应的实体定义是否一致的分类结果；或者，所述一致性确定单元14，用于获取所述待抽取短文本中任一实体对应的实体向量，及所述任一实体对应的实体定义的实体定义向量；计算所述实体向量与所述实体定义向量之间的相似度；如果所述相似度小于预置值，确定所述任一实体与其对应的实体定义不一致。

训练单元15，用于确定实体定义标注初始模型；确定训练样本，所述训练样本中包括多个短文本，及各个短文本中每个实体对应的实体定义的标注信息；通过所述实体定义标注初始模型分别对所述各个短文本中实体对应的实体定义抽取文本进行实体定义标注，得到各个短文本中实体的实体定义标注结果；根据所述实体定义标注初始模型得到的实体定义标注结果和所述训练样本中的标注信息，调整所述实体定义标注初始模型，以得到最终的实体定义标注模型为上述抽取单元12在进行实体定义抽取时使用的实体定义标注模型。该训练单元15，还用于当对所述参数值的调整次数等于预置的次数时，或若当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

该训练单元15，还用于训练上述第一分类模型和第二分类模型，具体的训练方法见上述实施例中所述，在此不进行赘述。

进一步地，本实施例中的实体定义抽取系统还可以包括：融合单元16，用于抽取单元12针对多个待抽取短文本中任一待抽取短文本，得到实体对应的实体定义后，对(实体，实体定义)对进行融合，具体融合策略见上述实施例中所述。

可见，在本实施例的系统中，在对待抽取短文进行实体定义抽取过程中，考虑到待抽取短文本中实体在待抽取短文本中的位置，并在待抽取短文本基础上拼接实体，得到的实体定义抽取文本包含了实体与待抽取短文本之间相互作用的信息，实际证明，对通过这种方式得到的实体定义抽取文本进行实体定义抽取后，确定的实体与实体定义对的精确度得到提高。

本发明实施例还提供一种服务器，其结构示意图如图9所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括实体定义抽取的应用程序，且该程序可以包括上述实体定义抽取系统中的实体识别单元10，文本获取单元11，抽取单元12，定义性确定单元13，一致性确定单元14，训练单元15和融合单元16，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中储存的实体定义抽取的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由实体定义抽取系统所执行的步骤可以基于该图9所示的服务器的结构。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如上述实体定义抽取系统所执行的实体定义抽取方法。

本发明实施例还提供一种服务器，包括处理器和存储器；所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如上述实体定义抽取系统所执行的实体定义抽取方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的实体定义抽取方法、系统及存储介质和服务器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实体定义抽取方法，其特征在于，包括：

识别待抽取短文本中的至少一个实体；

对所述各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义；

其中，任一实体对应的实体定义抽取文本包括多个分词，则对任一实体对应的实体定义抽取文本进行实体定义的抽取，得到所述任一实体对应的实体定义，具体包括：

根据预置的实体定义标注模型对任一实体对应的实体定义抽取文本所包括的多个分词进行实体定义标注；

将所述实体定义抽取文本中具有实体定义标注的分词作为所述任一实体的实体定义。

2.如权利要求1所述的方法，其特征在于，所述在所述拼接的待抽取短文本中进行相应实体的位置标注，具体包括：在所述待抽取短文本中相应实体的前后位置分别插入特定标识。

3.如权利要求1所述的方法，其特征在于，所述得到各个实体对应的实体定义抽取文本之后，所述方法还包括：

根据任一实体对应的实体定义抽取文本，确定所述待抽取短文本是否属于任一实体的定义性文本，如果属于，针对所述任一实体的实体定义抽取文本执行所述进行实体定义的抽取步骤。

4.如权利要求3所述的方法，其特征在于，所述根据任一实体对应的实体定义抽取文本，确定所述待抽取短文本是否属于任一实体的定义性文本，具体包括：

根据预置的第一分类模型对所述任一实体对应的实体定义抽取文本进行分类，得到所述待抽取短文本是否属于任一实体的定义性文本的分类结果。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定实体定义标注初始模型；

确定训练样本，所述训练样本中包括多个短文本，及各个短文本中每个实体对应的实体定义的标注信息；

通过所述实体定义标注初始模型分别对所述各个短文本中实体对应的实体定义抽取文本进行实体定义标注，得到各个短文本中实体的实体定义标注结果；

根据所述实体定义标注初始模型得到的实体定义标注结果和所述训练样本中的标注信息，调整所述实体定义标注初始模型，以得到最终的实体定义标注模型为所述预置的实体定义标注模型。

6.如权利要求5所述的方法，其特征在于，所述调整所述实体定义标注初始模型，具体包括：调整所述实体定义标注初始模型的参数值；

当对所述参数值的调整次数等于预置的次数时，或若当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

7.如权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

在所述待抽取短文本中对任一实体及其对应的实体定义分别进行位置标注，得到任一实体对应的一致性确定文本；

根据预置的第二分类模型对所述任一实体的一致性确定文本进行分类，得到所述任一实体及其对应的实体定义是否一致的分类结果。

8.如权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

获取所述待抽取短文本中任一实体对应的实体向量，及所述任一实体对应的实体定义的实体定义向量；

计算所述实体向量与所述实体定义向量之间的相似度；

如果所述相似度小于预置值，确定所述任一实体与其对应的实体定义不一致。

9.一种实体定义抽取系统，其特征在于，包括：

实体识别单元，用于识别待抽取短文本中的至少一个实体；

抽取单元，用于对所述各个实体对应的实体定义抽取文本进行实体定义的抽取，得到所述各个实体对应的实体定义；

其中，任一实体对应的实体定义抽取文本包括多个分词，则所述抽取单元，具体用于根据预置的实体定义标注模型对任一实体对应的实体定义抽取文本所包括的多个分词进行实体定义标注；将所述实体定义抽取文本中具有实体定义标注的分词作为所述任一实体的实体定义。

10.如权利要求9所述的系统，其特征在于，还包括：

定义性确定单元，用于根据任一实体对应的实体定义抽取文本，确定所述待抽取短文本是否属于任一实体的定义性文本，如果属于，通知所述抽取单元针对所述任一实体的实体定义抽取文本执行所述进行实体定义的抽取步骤。

11.如权利要求9或10所述的系统，其特征在于，还包括：

一致性确定单元，用于在所述待抽取短文本中对任一实体及其对应的实体定义分别进行位置标注，得到任一实体对应的一致性确定文本；根据预置的第二分类模型对所述任一实体的一致性确定文本进行分类，得到所述任一实体及其对应的实体定义是否一致的分类结果；

或者，所述一致性确定单元，用于获取所述待抽取短文本中任一实体对应的实体向量，及所述任一实体对应的实体定义的实体定义向量；计算所述实体向量与所述实体定义向量之间的相似度；如果所述相似度小于预置值，确定所述任一实体与其对应的实体定义不一致。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至8任一项所述的实体定义抽取方法。

13.一种服务器，其特征在于，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如权利要求1至8任一项所述的实体定义抽取方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。