CN111967253A

CN111967253A - 一种实体消歧方法、装置、计算机设备及存储介质

Info

Publication number: CN111967253A
Application number: CN202010890548.3A
Authority: CN
Inventors: 张俊峰; 张永平; 李夏昕; 孙璨
Original assignee: Shenzhen Bailao Intelligent Co ltd
Current assignee: Shenzhen Bailao Intelligent Co ltd
Priority date: 2020-08-29
Filing date: 2020-08-29
Publication date: 2020-11-20

Abstract

本申请公开了一种实体消歧方法、装置、计算机设备及存储介质，该方法包括：对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息；对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接；根据拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。

Description

一种实体消歧方法、装置、计算机设备及存储介质

技术领域

本申请涉及文本信息处理技术领域，尤其涉及一种基于知识图谱的实体消歧方法、装置、计算机设备及存储介质。

背景技术

实体消歧是指将文本存在歧义的实体指称链接到知识库中正确义项实体的任务，通过实体消歧，能够还原实体指称在当前文本中真实的语义信息。在自然语言处理、信息检索、推荐系统等领域都有着广泛的应用前景。

目前，实体消歧方法通常是根据利用一定技术策略为每个实体指称生成与其相对应的候选实体，将候选实体与实体指称均转换为高维向量，通过计算二者之间的相似度来确定实体消歧结果；或者是通过在待处理文本中通过候选实体替换来判断语义合理性等方式。上述方案中候选实体与实体指称等分开建模，映射到不同的特征空间，候选实体不能利用文本真正的上下文语义信息，实体消歧结果准确性相对无法保证。

发明内容

本申请提供了一种实体消歧方法、装置、计算机设备及存储介质，以提高实体消歧结果的准确性。

第一方面，本申请提供了一种实体消歧方法，所述方法包括：

对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息；

对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接；

根据拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。

第二方面，本申请还提供了一种基于知识图谱的实体消歧装置，所述装置包括：

实体获取单元，用于对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息；

特征拼接单元，用于对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接；

语义匹配单元，用于根据拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的基于知识图谱的实体消歧方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的基于知识图谱的实体消歧方法。

本申请公开了一种实体消歧方法、装置、设备及存储介质，通过对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息；对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接；根据拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。本申请用以提高实体消歧结果的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种基于知识图谱的实体消歧方法的示意流程图；

图2是图1中的基于知识图谱的实体消歧方法的一子步骤示意流程图；

图3是图1中的基于知识图谱的实体消歧方法的另一子步骤示意流程图；

图4是本申请的语义合理性模型的训练示意流程图；

图5为本申请实施例提供的一种基于知识图谱的实体消歧装置的示意性框图；

图6为本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面针对本申请涉及到的名词进行介绍。

实体指称(Entity Mention)，文本信息中可能会出现知识库中的实体词语，如图2文本“熟悉PS、AI、DR等设计软件”中词语“AI”和“DR”是两个有歧义现象的实体指称，“AI”在知识库中有”人工智能”、“ADOBE ILLUSTATOR”等义项，“DR“在知识库中有“重氮树脂”,“数字X线摄影”，“灾难恢复“，“Dreamweaver”，“航位推测法”等义项。同样的实体指称在不同句子中可能会表示不同的实体，有不同的实体指称。如“DR”在“普放维修工作3年以上, 熟悉各品牌X光机、CR、DR、C臂等普通放射设备”中表示义项是“数字X线摄影”；在“熟悉LB负载均衡,HA高可用,DR灾难恢复等”中表示义项是“灾难恢复”；在“熟悉PS/AI/DR/LR等设计软件”中表示义项是“Dreamweaver”。

神经网络(Neural Network)：一种机器学习模型。

文本预训练模型(Pretraining Model)：预训练模型就是一些人用某些较大的数据集训练好的模型(这种模型往往比较大，训练需要大量的计算资源)，你可以用这些预训练模型用在类似的数据集上进行模型微调。如常见的文本预训练模型有ELMO,BERT,ERNIE,ALBERT,XLNET,RoBERTa等。

词向量(Word Embedding),将一个词转换为一个向量，此向量即词向量。例如“AI”用[0.001,0.5,0.08,0.04]表示，“DR”用[0.8,0.002,0.4,0.5]表示。经过训练后的词向量可以使语义相近的文本对应的向量距离也相近。

全连接神经网络:是一种神经网络结构，每个神经元只与前一层每个神经元相连，每个神经元可以接收前一层的输出，并将计算结果输出到下一层。

本申请的实施例提供了一种基于知识图谱的实体消歧方法、装置、计算机设备及存储介质。其中，该基于知识图谱的实体消歧方法可以应用于终端或服务器中，以还原实体指称在当前文本中真实的语义信息。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种实体消歧方法的示意流程图，本申请的方法为基于知识图谱的实体消歧方法。

如图1所示，该方法包括步骤S101至步骤S103。

S101、对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息。

S102、对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接。

具体地，对待处理文本信息基于微调后预训练模型进行特征提取，并对提取到的具有歧义的实体指称的起始和终止位置向量进行拼接，对该实体指称匹配和至少两个候选实体信息提取的向量(候选信息中存有其描述文本经微调后的预训练模型特征提取后的向量)分别与待处理文本提取的向量进行拼接。本实施例中，候选实体信息包括候选实体以及候选实体的类型、义项、描述性文本。在如果有些文本超过设定的最长长度，则原始文本编码后的向量进行裁剪，裁剪到设定阈值的最长长度。

S103、基于拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。

具体地，将拼接后的向量经分类模型预测分别获取分类预测结果，对多个不同预测结果基于正例的预测概率从小到大排序，正例预测概率最大的候选实体信息作为对就的具有歧义的实体指称的实体信息。

请参照图2-图4所示，在一个可选的实施例中，所述对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息，包括步骤S1011和S1012。

S1011、对待处理的文本信息进行实体识别，得到所述文本信息中的至少一个具有歧义的实体指称；

S1012、对所述至少一个包含歧义的实体指称中每个实体指称与实体库中实体信息进行匹配，得到所述每个实体指称匹配的至少两个候选实体信息。

在一个可选的实施例中，所述通过拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息，包括步骤S1031和S1032。

S1031、训练语义合理性模型。

具体地，语义训练合理性模型的训练过程包括：S10311-S10313。

S10311、基于样本文本信息中实体指称对应的标注后的候选实体信息，构建模型训练所需的正例样本；

S10312、基于样本文本信息中实体指称对应的多个候选实体信息，从未标注过的候选实体信息中随机抽取一个，构建模型训练所需的负例样本；

S10313、基于所述正负例样本，对初始模型进行训练，得到所述的语义合理性确定模型。

S1032、将提取到的特征，经过语义合理性模型获取所述至少一个候选文本信息的语义合理性，输出语义合理性最大的候选文本信息对应的候选实体信息。

本实施例中，语义合理性确定模型结构包括：预训练模型ERNIE、外接一层全连接网络降维和外接一层全连接网络输出分类置信度。

请参阅图5，图5是本申请一实施例提供的一种基于知识图谱的实体消歧装置的示意性框图，该模型训练装置可以配置于服务器中，用于执行前述的基于知识图谱的实体消歧方法。

如图5所示，该装置200，包括：实体获取单元201、特征拼接单元202和语义匹配单元203。

实体获取单元201，用于对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息；

特征拼接单元202，用于对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接；

语义匹配单元203，用于根据拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5 所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图6，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于知识图谱的实体消歧方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于知识图谱的实体消歧方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor， DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息；对待处理文本进行特征提取，对所述至少两个候选实体信息进行特征提取，将至少两个候选实体信息提取的特征与待处理文本提取的特征进行拼接；根据拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项基于知识图谱的实体消歧方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD) 卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种实体消歧方法，其特征在于，包括：

2.根据权利要求1所述的实体消歧方法，其特征在于，所述对待处理的文本中的出现的具有歧义的实体指称与知识库中实体进行匹配，得到每个实体指称匹配的至少两个候选实体信息，包括：

对待处理的文本信息进行实体识别，得到所述文本信息中的至少一个具有歧义的实体指称；

对所述至少一个包含歧义的实体指称中每个实体指称与实体库中实体信息进行匹配，得到所述每个实体指称匹配的至少两个候选实体信息。

3.根据权利要求1所述的实体消歧方法，其特征在于，所述通过拼接后的特征获取所述至少两个候选实体信息的语义合理性，将语义合理性最大的候选实体对应的候选实体中提到的实体义项作为对应的实体指称的实体信息，包括:

训练语义合理性模型；

将提取到的特征，经过语义合理性模型获取所述至少一个候选文本信息的语义合理性，输出语义合理性最大的候选文本信息对应的候选实体信息。

4.根据权利要求3所述的实体消歧方法，其特征在于，所述语义合理性模型的训练过程包括：

基于样本文本信息中实体指称对应的标注后的候选实体信息，构建模型训练所需的正例样本；

基于样本文本信息中实体指称对应的多个候选实体信息，从未标注过的候选实体信息中随机抽取一个，构建模型训练所需的负例样本；

基于所述正负例样本，对初始模型进行训练，得到所述的语义合理性确定模型。

5.根据权利要求3所述的实体消歧方法，其特征在于，所述语义合理性确定模型结构包括：预训练模型ERNIE、外接一层全连接网络降维和外接一层全连接网络输出分类置信度。

6.一种基于知识图谱的实体消歧装置，其特征在于，包括：

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的基于知识图谱的实体消歧方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的基于知识图谱的实体消歧方法。