CN112434533B

CN112434533B - 实体消歧方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112434533B
Application number: CN202011280340.6A
Authority: CN
Inventors: 蔡艳
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-04-23
Anticipated expiration: 2040-11-16
Also published as: CN112434533A

Abstract

本申请提供一种实体消歧方法、装置、电子设备及计算机可读存储介质，所述实体消歧方法包括：获取多个候选实体对应的第一向量和待消歧实体对应的第二向量，所述第一向量包含候选实体的属性信息和关系信息，所述第二向量基于所述待消歧实体的上下文信息生成；基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧。

Description

实体消歧方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种实体消歧方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，大量的数据以自然语言的形式存储在网络文本和电子文档中。给定一段文本及其中待消歧的实体，将实体链接到知识库中正确的候选实体上以消除实体的歧义，是当今的一个研究热点。相关技术中，基于深度学习的实体消歧，存在消歧不准确、效率低的问题。

发明内容

为克服相关技术中存在的问题，本申请提供了一种实体消歧方法、装置、电子设备及计算机可读存储介质。

根据本申请实施例的第一方面，提供一种实体消歧方法，所述方法用于对文本所包含的指代客观对象的实体进行语义消歧，所述方法包括：

获取多个候选实体对应的第一向量和待消歧实体对应的第二向量，所述第一向量包含候选实体的属性信息和关系信息，所述第二向量基于包含待消歧实体的上下文生成；

基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧。

根据本申请实施例的第二方面，提供一种实体消歧装置，所述装置用于对文本所包含的指代客观对象的实体进行语义消歧，所述装置包括：

向量获取模块，用于获取多个候选实体对应的第一向量和待消歧实体对应的第二向量，所述第一向量包含候选实体的属性信息和关系信息，所述第二向量基于包含待消歧实体的上下文生成；

相似度比较模块，用于基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧。

根据本申请实施例的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本申请实施例的第一方面的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例的第一方面的方法。本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例中，通过获取多个候选实体对应的第一向量以及待消歧实体对应的第二向量，基于第一向量和第二向量的相似度，对待消歧实体进行消歧。由于所使用的候选实体对应的第一向量既包括属性信息，又包括关系信息。因此，在对待消歧实体进行消歧的过程中，利用了更丰富的信息，能够更准确、更有效地获取待消歧实体对应的目标实体。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本申请的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种实体消歧方法的流程图；

图2是本申请根据一示例性实施例示出的一种向量生成模型的结构图；

图3是本申请根据一示例性实施例示出一种向量生成模型的训练示意图；

图4A是本申请根据一示例性实施例示出的一种获取候选实体对应的第一向量的流程图；

图4B是本申请根据一示例性实施例示出的另一种获取候选实体对应的第一向量的流程图；

图5是本申请根据一示例性实施例示出的一种基于BERT模型对待消歧实体进行消歧的流程图；

图6是本申请根据一示例性实施例示出的一种实体消歧装置的结构框图；

图7是本申请根据一示例性实施例示出的一种用于实体消歧的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着互联网技术的快速发展，大量的数据以自然语言的形式存储在网络文本和电子文档中。然而，自然语言本身具有高度的歧义性，尤其是对于一些出现频率较高的实体（即指代世界中真实存在的客体，例如：苹果），它们可能对应多个同名实体。例如：对于“苹果”这一实体，它既可以指一种水果，又可以指一种品牌的手机，还可以指一首歌曲等。当将包含实体的文本输入至电子设备时，很重要的一步是对其所包含的实体进行消歧，使其链接到知识库中正确的实体上，是使电子设备能够准确识别该文本的语义的基础。

对于包含待消歧实体的一段文本，从中抽取出文本中的待消歧实体，再根据别名词典等多种方案从知识库中的实体中找出一些候选实体，然后进行实体消歧（EntityDisambiguation, ED），将该段文本中的待消歧实体毫无歧义地指向知识库中的目标实体，称之为实体链接（Entity Linking, EL），是当今自然语言处理领域的一个重要研究方向，在搜索引擎的结果排序、新闻推荐等领域有着广泛的应用。

在实体链接技术中，实体消歧是一个重要步骤，如何将文本所包含的实体毫无歧义地指向知识库中的目标实体，是目前的研究热点。随着深度学习技术的不断发展，也出现了许多应用各种神经网络进行实体消歧的技术。但是，相关技术中，基于深度学习的实体消歧，常常仅仅考虑知识库中的候选实体的属性信息，而忽略了候选实体的关系信息。因此，在对包含待消歧实体的文本进行实体消歧的时候，只能够利用知识库中候选实体的单一信息，使得相关技术对于实体的消歧存在不准确、效率低下的问题。

针对相关技术存在的技术问题，本申请提供了一种实体消歧方法，所述方法可以由电子设备执行，包括但不限于交互平板、电脑、服务器、云端服务器或者手机等计算设备，接下来对本申请实施例进行详细说明。

如图1所示，图1是本申请根据一示例性实施例示出的一种实体消歧方法的流程图，包括以下步骤：

在步骤102中，获取多个候选实体对应的第一向量和待消歧实体对应的第二向量，所述第一向量包含候选实体的属性信息和关系信息，所述第二向量基于包含待消歧实体的上下文生成。

在步骤104中，基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧。

其中，所述候选实体的属性信息，指的是候选实体所具备的性质或特征。例如，对于人来说，年龄是一个属性。“aa今年40岁”这个文本，包含了aa的年龄属性信息。所述候选实体的关系信息，指的是候选实体与其他实体之间的关系。例如，“aa的妻子是bb”这个文本，包含了候选实体“aa”与另一个实体“bb”之间的关系。

在上述方法中，多个候选实体对应的第一向量以及待消歧实体对应的第二向量，可以通过预先训练好的模型获得，也可以从包含所述第一向量和/或第二向量的数据库中获得，当然，也可以通过其他方式获得，本申请对此不作限制。

在获取多个候选实体对应的第一向量和待消歧实体对应的第二向量之后，计算待消歧实体对应的第二向量与每个候选实体对应的第一向量的相似度。然后，对候选实体按照相似度高低进行排序，选择相似度最高的候选实体作为待消歧实体对应的目标实体，完成消歧过程。

所述相似度，可以是计算第一向量和第二向量的余弦距离而获得的相似度，也可以是计算欧式距离、曼哈顿距离、标准化欧氏距离等获得的相似度，本申请不做限制。

在上述实施例中，通过获取候选实体对应的第一向量以及待消歧实体对应的第二向量，基于第一向量和第二向量的相似度，对待消歧实体进行消歧。由于所使用的候选实体对应的第一向量既包括属性信息，又包括关系信息。因此，在对待消歧实体进行消歧的过程中，利用了更丰富的信息，能够提升实体消歧的准确性以及有效性。

在一些实施例中，所述候选实体对应的第一向量基于预先训练的向量生成模型获得。

在一些实施例中，所述向量生成模型，可以不包括子模型。当将候选实体的相关信息输入到所述向量生成模型时，直接由所述向量生成模输出候选实体对应的第一向量，所述第一向量包含了候选实体的关系信息和属性信息。所述候选实体的相关信息，可以是候选实体的关系信息，也可以是候选实体的属性信息，还可以是它们的组合，当然，也可以是其他信息，本申请不做限制。

所述向量生成模型，可以包括多个子模型，多个子模型用于提取候选向量的不同信息，所述向量生成模型由所述多个子模型联合训练确定。当将候选实体的一个相关信息输入到所述向量生成模型对应的子模型时，能够由向量生成模型获取候选实体对应的第一向量，所述第一向量包含了候选实体的关系信息和属性信息。所述候选实体的相关信息，可以是候选实体的关系信息，也可以是候选实体的属性信息，还可以是它们的组合，当然，也可以是其他信息，本申请不做限制。

以向量生成模型包括两个子模型为例，对候选向量对应的第一向量基于预先训练的向量生成模型获得进行说明。

参见图2，图2给出了一个向量生成模型的示意图。所述向量生成模型包含两个子模型：第一子模型和第二子模型，其中，第一子模型用于获取包含候选实体属性信息的第三向量，第二子模型用于获取包含候选实体关系信息的第四向量。所述向量生成模型通过对第一子模型和第二子模型的联合训练确定。因此，当使用联合训练确定的向量生成模型获取候选实体的向量表示时，由训练完成的第一子模型获取的第三向量与由训练完成的第二子模型获取的第四向量是同一向量，既包含了候选向量的属性信息，又包含了向量的关系信息。

在一些实施例中，所述第一子模型可以为Word2vector网络，用于获取包含候选实体属性信息的第三向量。Word2vector是一种词向量模型，其核心思想是通过词的上下文得到词的向量表示。Word2vector网络又有CBOW模型和skip-gram模型两种，其中，CBOW模型可以通过附近词获取中心词的向量表示，skip-gram模型可以通过中心词获取附近词的向量表示。因此，既可以使用CBOW模型获取包含候选实体属性信息的第三向量，也可以使用skip-gram模型获取包含候选实体属性信息的第三向量，本申请不做限制。当然，本领域技术人员应当理解，第一子模型还是是其他能够获取候选实体包含属性信息的向量表示的模型，例如glove模型、ELMo模型等等。

在一些实施例中，所述第二子模型可以为TransE模型，用于获取包含候选实体关系信息的第四向量。TransE模型是一种图网络，能够基于向量表示的词汇间的距离表示词汇间的关系，因此，可以基于TransE模型获取包含候选实体关系信息的第四向量。当然，第二子模型还可以是其他能够获取包含候选实体关系信息的模型，例如Trans系统其他的模型，TransH、TransR模型等等。

在一些实施例中，所述向量生成模型通过第一子模型和第二子模型的联合训练确定，训练方法包括：将候选实体的属性信息和关系信息分别输入至待训练的第一子模型和第二子模型，获得第一子模型的第一损失函数和第二子模型的第二损失函数；基于所述第一损失函数和所述第二损失函数构建联合损失函数；根据联合损失函数，对第一子模型和第二子模型进行联合训练。

在一些实施例中，所述候选实体，可以是知识库中的实体。知识库，又称为知识图谱或者语义网，是一种图谱组织形式，通过语义关联把各种实体关联起来，包含着实体的属性信息以及实体的关系信息。所述知识库可以是现有的公开数据库，例如百科知识库、维基知识库等等，也可以是自建的知识库，本申请对此不作限制。

基于知识库的图谱，可以获取候选实体的属性信息和关系信息。在一些实施例中，所述候选实体的属性信息和关系信息，可以分别以属性三元组和关系三元组形式表示。候选实体的属性三元组的表示形式为<候选实体，属性，属性内容>，例如：<aa，年龄，40岁>表示了aa的年龄属性信息为40岁。候选实体的关系三元组的表示形式为<候选实体，关系，关联实体>，例如：<aa，妻子，bb>表示了bb是aa的妻子这一关系信息。

知识库的图谱包含着候选实体的属性信息和关系信息，但这些信息是在同一图谱中共同表示的。当基于知识库的图谱来获取候选实体的属性三元组和关系三元组时，需要对图谱中的数据进行拆分。一种从知识库的图谱中获取候选实体的属性三元组和关系三元组的方法是：对图谱中的每个三元组，计算头节点和尾节点的出度和入度，若尾节点的出度为0，入度为1，则将尾节点视为一个属性，这个三元组视为属性三元组，否则该三元组视为关系三元组。

当然，本领域技术人员应当理解，所述候选实体的属性信息和关系信息还可以是其他表示形式，本申请对此不作限制。

参见图3，以第一子模型为Word2Vector模型、第二子模型为TransE模型，候选实体的属性信息和关系信息分别为属性三元组和关系三元组为例，介绍通过对第一子模型和第二子模型进行联合训练确定向量生成模型。

对知识库中的数据进行拆分，能够获取候选实体的属性三元组和关系三元组。将属性三元组和关系三元组分别输入至Word2Vector模型和TransE模型，能够获取两个模型各自的损失函数。

首先，介绍Word2Vector模型和TransE模型各自独立训练的情况。

对于第一子模型，以属性三元组<苹果，摘要，《苹果》是ABCD2013年的歌曲，收录在他们2013年的专辑《ABCD》当中。>为例，将上述属性三元组转换为句子输入至Word2vector模型，能够获取当前Word2Vector模型对应的第一损失函数值以及包含候选实体“苹果”的属性信息的向量，其中，第一损失函数值基于预设的第一损失函数确定。

所述预设的第一损失函数，可以是所述句子中每个词汇的交叉熵损失函数（crossentropy loss）。在一些实施例中，所述第一损失函数可以为：

（1）

其中，为候选实体对应的第一向量，/>为多个词汇的向量表示，c表示句子中词汇的数量，/>表示概率。上述损失函数的意义为已知词汇/>，预测/>上下文其他词汇的概率，表征了候选实体的属性信息。

在一些实施例中，属性三元组中的候选实体，可以用与候选实体的意义唯一对应的实体ID来表示。仍以属性三元组<苹果，摘要，《苹果》是ABCD2013年的歌曲，收录在他们2013年的专辑《ABCD》当中。>为例，知识库中有多个“苹果”的实体，“苹果”实体可以是一个水果，也可以是一个公司，还可以是一个电影等等。为了解决一词多义的问题，可以将属性三元组中的候选实体用实体ID来替换，这样可以区分开同名候选实体。例如，可以将上述属性三元组变成<E257273，摘要，《苹果》是ABCD2013年的歌曲，收录在他们2013年的专辑《ABCD》当中。>，其中，“E257273”是“苹果”这个候选实体的实体ID。然后，将带有实体ID的属性三元组转换为句子输入至Word2vector模型，能够获取当前Word2Vector模型对应的第一损失函数值以及包含候选实体“苹果”的属性信息的向量。

对于第二子模型，以<苹果，作词，ABCD>这个关系三元组为例，当分别用向量，r，表示“苹果”、“作词”以及“ABCD”时，所述关系三元组可以表示为</>，r，/>>，由于关系三元组表示的是候选实体的关系信息，因此，关联实体/>应该是候选实体/>加上某个由r决定的向量之和。因此关系三元组中存在这样的关系：/>。

在进行TransE模型的训练过程中，可以设置关系三元组正例和关系三元组负例。其中，所述关系三元组正例中，候选实体与关联实体的关系是正确的，即满足；在负例中，直接对关系三元组中的/>或/>进行随机替换（但不同时替换），即不再满足。在对TransE模型进行训练时，将关系三元组正例和关系三元组负例输入至TransE模型，能够获取当前TransE模型对应的第二损失函数值以及包含候选实体“苹果”的关系信息的向量，其中，第二损失函数值基于预设的第二损失函数确定。

所述预设的第二损失函数，可以是：

（2）

其中，为TransE模型中的超参数，随着模型的训练而自动更新，/>表示关系三元组正例</>，r，/>>中，/>的距离，/>表示关系三元组负例</>，r，/>>中，/>与/>的距离，/>表示求梯度。上式的意义是计算关系三元组中以距离表征的关系远近。

同样的，在一些实施例中，关系三元组中的候选实体，可以用与候选实体的意义唯一对应的实体ID来表示。例如：对于关系三元组正例<苹果，作词，ABCD>可以转化为<E257273，作词，E257270>，因此有：。然后，再将带有实体ID的关系三元组转换为向量表示并输入至TransE模型，能够获取当前TransE模型对应的第二损失函数值以及包含候选实体“苹果”的关系信息的向量。

以上是Word2Vector模型和TransE模型在单独训练时，分别获得包含候选实体的属性信息的向量以及包含候选实体的关系信息的向量的情况，是本申请中向量生成模型确定的基础。下面，介绍本申请中向量生成模型的联合训练方法。

在本申请中，参见图3，当将候选实体对应的属性三元组和关系三元组分别输入至Word2Vector模型和TransE模型后，基于Word2Vector模型的第一损失函数和TransE模型的第二损失函数，构造联合损失函数：

（3）

其中，和/>为Loss1和Loss2的权重系数。因为，对于某个候选实体来说，属性三元组和关系三元组的数量不一定是平衡的，因此采用/>和/>两个权重系数来调节属性三元组和关系三元组在训练中的权重。当属性三元组数量过多，关系三元组数量较少时，应更多地考虑属性三元组的损失函数，故/>的取值应大于/>；当关系三元组数量较多，属性三元组数量较少时，则应更多地考虑关系三元组的损失函数，故/>的取值应大于/>。

在一个实施例中，可以根据属性三元组的数量和关系三元组的数量的比值，确定权重系数和/>的值。例如，当属性三元组的数量是关系三元组数量的N倍时，权重系数/>是权重系数/>的N倍，其中，N为任意正数。当然，本领域技术人员应当理解，也可以根据属性三元组的数量和关系三元组的数量的绝对差值或者相对差值，确定权重系数/>和/>的值，本申请对此不作限制。

基于所构造的联合损失函数，对Word2Vector模型和TransE模型进行联合训练，即使用所构造的联合损失函数，对两个模型同时调参，直至联合损失函数满足预设的训练条件。所述训练条件，可以是联合损失函数最终收敛，也可以是联合损失函数最终小于某一阈值，这里不做限制。

由于Word2Vector模型的第一损失函数和TransE模型的第二损失函数都与候选实体对应的第一向量有关，因此，对Word2Vector模型和TransE模型进行联合后，由Word2Vector模型获取的第三向量和由TransE模型获取的第四向量是同一向量，是候选实体对应的第一向量，既包含了候选实体的属性信息，又包含了候选实体的关系信息。

在一个实施例中，如在Word2Vector模型和TransE模型各自独立训练的介绍中所述，属性三元组和关系三元组中的候选实体，可以采用与候选实体的意义唯一对应的实体ID来表示，联合训练过程同上。经过联合训练，可以获得与候选实体的意义唯一对应的实体ID的第一向量，所述第一向量既包含了候选实体的属性信息，又包含了候选实体的关系信息。

在上述对向量生成模型的第一子模型和第二子模型进行联合训练的过程中，使用于候选实体唯一对应的实体ID获取候选实体对应的第一向量。实体ID与候选实体唯一对应，能够解决候选实体一词多义的问题，提高联合训练结果的准确性。

基于训练好的向量生成模型，既可以通过将候选实体的属性信息输入至预先训练的第一子模型，获取候选实体对应的第一向量；也可以通过将候选实体的关系信息输入至预先训练的第二子模型，获取候选实体对应的第一向量。

在一个实施例中，对于作为向量生成模型的训练样本的候选实体，在训练过程中，如果采用与候选实体的意义唯一对应的实体ID，来表示候选实体的属性三元组和关系三元组。那么，在基于训练好的向量生成模型获取所述候选实体对应的第一向量时，只需要向向量生成模型输入该候选实体对应的实体ID，则可以获取该候选实体对应的第一向量。既可以如图4A所示，通过将与候选实体唯一对应的实体ID输入至预先训练的第一子模型，获取候选实体对应的第一向量；也可以通过如图4B所示，将与候选实体唯一对应的实体ID输入至预先训练的第二子模型，获取候选实体对应的第一向量。

结合图3训练好的向量生成模型进行说明，可以将与候选实体唯一对应的实体ID输入至训练好的Word2Vector模型，从Word2Vector模型的输出结果中获取候选实体对应的第一向量，所述第一向量既包括候选实体的属性信息，也包括候选实体的关系信息。此外，还可以将与候选实体唯一对应的实体ID输入至训练好的TransE模型，从TransE模型的输出结果中获取候选实体对应的第一向量，所述第一向量既包括候选实体的属性信息，也包括候选实体的关系信息。

在一些实施例中，所述待消歧实体对应的向量基于预先训练的实体消歧模型获得，所述预先训练的实体消歧模型通过以下训练方法获得：将样本输入至待训练的实体消歧模型，对实体消歧模型进行训练；其中，所述样本包括训练文本、候选实体对应的第一向量及标签，所述训练文本包含待消歧实体的上下文，所述标签用于表征候选实体是否为待消歧实体对应的目标实体。

在对实体消歧模型进行训练之前，可以先构造多条样本。将已有的包含待消歧实体的上下文以及待消歧实体对应的候选实体拆分为多条样本，样本格式为：<包含待消歧实体的上下文，待消歧实体，候选实体，标签>，其中，所述候选实体是以其对应的第一向量表示的，所述标签标注了候选实体是否为待消歧实体对应的目标实体。

由于一个待消歧实体通常可以找到多个候选实体，因此，可以将待消歧实体和多个候选实体对应的第一向量拆分为一条正样本和多条负样本。当候选实体为待消歧实体的目标实体时，该条样本为正样本，标签为1；否则该条样本为负样本，标签为-1；同时，由于存在待消歧实体没有目标实体的情况，因此，可以同时设置除正样本和负样本之外的第三样本。在第三样本中，待消歧实体没有对应的目标实体，第三样本的标签设置为“NIL”。在训练过程中，可以随机地加入所述第三样本进行训练，以提高训练结果的适用性。

将所述样本输入至待训练的实体消歧模型，可以根据预设的第三损失函数对待训练的实体消歧模型进行训练，直到满足预设的训练条件。所述训练条件，可以是第三损失函数最终收敛，也可以是第三损失函数最终小于某一阈值，这里不做限制。

所述预设的第三损失函数，可以是模型输出的待消歧实体对应的第二向量与样本中的候选实体对应的第一向量之间的距离。在一些实施例中，所述预设的第三损失函数可以是：

（4）

其中，loss(x,y)是模型输出的待消歧实体对应的第二向量与样本中的候选实体对应的第一向量之间的余弦距离损失，y为样本的标签，取值为1或-1，x1为实体消歧模型输出的待消歧实体对应的第二向量，x1为样本中的候选实体对应的第一向量，margin为一个大于0的常量。基于该第三损失函数对实体消歧模型进行训练。

利用训练好的实体消歧模型，将未标注的包含待消歧实体的上下文输入至实体消歧模型，能够获得待消歧实体对应的第二向量，所述第二向量包含待消歧实体的属性信息和关系信息。计算多个候选实体对应的第一向量与待消歧实体对应的第二向量的相似度，对候选实体按照相似度高低进行排序，选择相似度最高的候选实体作为待消歧实体对应的目标实体，至此，完成对待消歧实体的消歧。

所述相似度，可以是计算第一向量和第二向量的余弦距离而获得的相似度，也可以是计算欧式距离、曼哈顿距离、切比雪夫距离等获得的相似度，本申请不做限制。

相关技术中，当一段训练文本中包含同名但是含义不同的待消歧实体时，会产生多条上下文一致，但目标实体不一致的训练样本，由此训练出来的模型对这样的待消歧实体较难区分，通常会输出至同一个目标实体，具有较高的错误率。

在一些实施例中，在将训练文本输入至待训练的实体消歧模型进行训练之前，首先判断训练文本是否包含两个及以上的同名待消歧实体，当训练文本包含两个及以上的同名待消歧实体时，截取包含一个待消歧实体的文本作为新的训练文本。

例如，训练文本“打网球的XY和演员XY是同一个人吗？”中包含两个同名实体“XY”，对于第一个“XY”来说，不存在上一个重名实体，则从头截取到下一个重名实体“XY”，截取后的上下文为：“打网球的XY和演员”，对于第二个“XY”，不存在下一个重名实体“XY”，则截取上一个“XY”后的文本至结尾，截取后的上下文为：“和演员XY是同一个人吗？”。对包含两个及以上的同名待消歧实体的训练文本进行截取后，将截取后的仅包含一个待消歧实体的文本作为新的训练文本输入至待训练的实体消歧模型进行训练。

通过上述对包含两个及以上的同名待消歧实体的训练文本的文本截取，能够优化相关技术中，多个同名待消歧实体难以区分的问题，降低了实体消歧难度，提高了实体消歧的准确性。

当训练文本较短时，包含待消歧实体的上下文包含的信息不足，利用较短的训练文本对实体消歧模型进行训练时，由于信息的缺乏，将导致训练获得实体消歧模型对待消歧实体进行消歧时，具有较高的错误率。

在一些实施例中，在将训练文本输入至待训练的实体消歧模型进行训练之前，首先判断训练文本的长度是否低于预设长度，当训练文本的长度低于预设长度时，从预先构造的数据集中抽取一条与待消歧实体对应的文本，与原训练文本共同构成新的训练文本。

训练文本的所述预设长度，可以是根据经验预先设定的字符长度，也可以是字节长度，本申请不做限制。所述预先构造的数据集，可以是通过爬取目标实体的百科页面的参考资料标题构成的新闻标题数据，也可以是通过其他开源或自建的数据集，所述数据集包括至少一条包含目标实体的文本数据。

例如，训练文本的预设长度为25个汉字字符，对于“打网球的XY和演员”的训练文本，仅仅包含9个汉字字符。在将该训练文本输入至待训练的实体消歧模型进行训练前，先判断训练文本的长度低于预设长度，则从预先构造的数据集中抽取一条与待消歧实体（也是目标实体）对应的文本，例如，从预先构造好的新闻标题数据集中抽取一条“XY职业生涯回顾：YY创多项中国金花历史纪录”文本，将该条文本与原训练文本共同构成的新的训练文本，进行数据增强。如，对“打网球的XY和演员”进行数据增强为“打网球的XY和演员XY职业生涯回顾：YY创多项中国金花历史纪录”或“XY职业生涯回顾：YY创多项中国金花历史纪录打网球的XY和演员”。对短于预设长度的训练文本进行数据增强后，将数据增强后的文本作为新的训练文本输入至待训练的实体消歧模型进行训练。

通过本申请上述对短于预设长度的训练文本进行数据增强，能够解决上下文输入过短导致的信息不足问题，且适用范围强，能够提高实体消歧模型对待消歧实体进行消歧的准确性。

需要说明的是，在本申请对实体消歧模型的训练中，所述对训练文本进行数据增强的操作，既可以直接对原始训练文本进行，也可以对截取后的训练文本进行。当对训练文本进行了数据增强操作之后，会包括两个同名待消歧实体，但是由于可以确定这两个同名待消歧实体是同一含义，因此不需要对新的训练文本进行上下文截取操作。

在一些实施例中，所述实体消歧模型可以是BERT模型。当然，本领域技术人员应当理解，所述实体消歧模型还可以是其他模型，本申请对此不作限制。

下面，结合图5，介绍应用训练好的Bert模型对待消歧实体进行消歧的过程。如图5所示，待消歧实体为“XY”，包含待消歧实体的上下文是“打网球的XY在这次采访中”。在应用训练好的BERT模型对待消歧实体进行消歧时，将上下文“打网球的XY在这次采访中”输入至训练好的实体消歧模型，实体消歧模型对该上下文进行分字，并在此文本的最前端加上[CLS]表示此处是本文本的起始处。然后，识别待消歧实体对应的字“X”“Y”，将两个字的向量进行相加，获取该待消歧实体对应的向量，即待消歧实体“XY”对应的向量。由于所述BERT模型是基于候选实体的第一向量预先训练好的，因此BERT模型输出的待消歧实体的第二向量包含了待消歧实体的属性信息和关系信息。

然后，根据由实体消歧模型——BERT模型获得该待消歧实体的第二向量，计算多个候选实体对应的第一向量与待消歧实体对应的第二向量的相似度，对候选实体按照相似度高低进行排序，选择相似度最高的候选实体作为待消歧实体对应的目标实体，至此，完成对待消歧实体“XY”的消歧。

以上为本申请实施例提供的实体消歧方法，基于同样的思路，本申请还提供了相应的装置、电子设备和计算机可读存储介质。

图6为本申请实施例提供的一种实体消歧装置的结构示意图，所述装置包括：

向量获取模块601，用于获取多个候选实体对应的第一向量和待消歧实体对应的第二向量，所述第一向量包含候选实体的属性信息和关系信息，所述第二向量基于包含待消歧实体的上下文生成；

相似度比较模块602，用于基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧。

在一些实施例中，所述向量获取模块601具体用于，基于预先训练的向量生成模型获得所述第一向量，其中，所述向量生成模型包括第一子模型和第二子模型，所述第一子模型用于获取包含候选实体属性信息的第三向量，第二子模型用于获取包含候选实体关系信息的第四向量，所述向量生成模型通过对第一子模型和第二子模型进行联合训练而获得。所述第二向量可以通过其他训练完成的模型直接获得。

在一些实施例中，所述第一子模型可以为Word2vector模型。

在一些实施例中，所述第二子模型为TransE模型。

在一些实施例中，所述向量生成模型通过以下联合训练方法获得：将候选实体的属性信息和关系信息分别输入至第一子模型和第二子模型，获得第一子模型的第一损失函数和第二子模型的第二损失函数；基于所述第一损失函数和所述第二损失函数构建联合损失函数；根据联合损失函数，对第一子模型和第二子模型进行联合训练。

在一些实施例中，同前文方法实施例所述，所述候选实体的属性信息和关系信息分别包含与所述候选实体唯一对应的实体ID。

在一些实施例中，所述向量获取模型601具体用于，将与候选实体唯一对应的实体ID输入至所述向量生成模型中的第一子模型，获取候选实体对应的第一向量；或者，将与候选实体唯一对应的实体ID输入至所述向量生成模型中的第二子模型，获取候选实体对应的第一向量。所述第二向量可以通过其他训练完成的模型直接获得。

在一些实施例中，所述向量获取模块601具体用于，基于预先训练的实体消歧模型获得所述第二向量，所述预先训练的实体消歧模型通过以下训练方法获得：将样本输入至待训练的实体消歧模型，对实体消歧模型进行训练；其中，所述样本包括训练文本、候选实体对应的第一向量及标签，所述训练文本包含待消歧实体的上下文，所述标签用于表征候选实体是否为待消歧实体对应的目标实体。所述第一向量可以通过其他训练完成的模型直接获得。

在一些实施例中，所述实体消歧模型为BERT模型。

在一些实施例中，所述向量获取模块601还包括样本预处理模块，所述样本预处理模块，具体用于获取原始训练文本；当所述原始训练文本包含两个及以上的同名待消歧实体时，截取所述原始训练文本中仅包含一个待消歧实体的文本作为所述训练文本。

在一些实施例中，所述向量获取模块601还包括样本预处理模块，所述样本预处理模块，具体用于获取原始训练文本；当所述原始训练文本的长度低于预设长度时，从预先构造的数据集中抽取至少一条与待消歧实体对应的文本；基于抽取的文本与所述原始训练文本生成所述训练文本。

在一些实施例中，所述相似度比较模块602具体用于，计算多个候选实体对应的第一向量与待消歧实体对应的第二向量的相似度，对候选实体按照相似度高低进行排序，选择相似度最高的候选实体作为待消歧实体对应的目标实体。所述相似度，可以是计算第一向量和第二向量的余弦距离而获得的相似度，也可以是计算欧式距离、曼哈顿距离、切比雪夫距离等获得的相似度，本申请不做限制。

在上述实施例中，利用所述实体消歧装置，通过获取候选实体对应的第一向量以及待消歧实体对应的第二向量，基于第一向量和第二向量的相似度，对待消歧实体进行消歧。由于所使用的候选实体对应的第一向量既包括属性信息，又包括关系信息。因此，在对待消歧实体进行消歧的过程中，利用了更丰富的信息，能够提升实体消歧的准确性以及有效性。

与前述方法的实施例相对应，本申请还提供了电子设备的实施例。所述电子设备，可以是服务器或者终端设备等等。

参见图7，为本申请电子设备实施例的一种硬件结构图，所述电子设备可以包括存储器701以及处理器702。所述存储器701可以是所述电子设备的内部存储单元，例如是设备的硬盘或者内存。所述存储器701也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器701还可以既包括所述设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。当存储器存储的程序被执行时，所述处理器702调用存储器701中存储的程序，用于执行前述各实施例的方法，所述方法已在前文详细介绍，这里不再赘述。

当然，本领域技术人员应当理解，通常根据该电子设备的实际功能，还可以包括其他硬件，例如网络接口等等，本申请对此不再赘述。

在本申请的实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请上述方法中的所有实施例，在此不再赘述。

所述计算机可读存储介质可以是前述任一项实施例所述的设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种实体消歧方法，其特征在于，所述方法用于对文本所包含的指代客观对象的实体进行语义消歧，所述方法包括：

基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧；

其中，所述第一向量基于预先训练的向量生成模型获得；所述向量生成模型包括第一子模型和第二子模型；所述第一子模型用于获取包含候选实体属性信息的第三向量，第二子模型用于获取包含候选实体关系信息的第四向量；所述候选实体的属性信息和关系信息分别包含与所述候选实体唯一对应的实体ID；

获取候选实体对应的第一向量，包括：

将包括与候选实体唯一对应的实体ID的属性信息输入至所述向量生成模型中的第一子模型，获取候选实体对应的第一向量；

或者，

将包括与候选实体唯一对应的实体ID的关系信息输入至所述向量生成模型中的第二子模型，获取候选实体对应的第一向量。

2.根据权利要求1所述的方法，其特征在于，所述向量生成模型通过对第一子模型和第二子模型进行联合训练而获得。

3.根据权利要求2所述的方法，其特征在于，所述第一子模型为Word2vector模型和/或第二子模型为TransE模型。

4.根据权利要求2所述的方法，其特征在于，所述向量生成模型通过以下联合训练方法获得：

将候选实体的属性信息和关系信息分别输入至第一子模型和第二子模型，获得第一子模型的第一损失函数和第二子模型的第二损失函数；

基于所述第一损失函数和所述第二损失函数构建联合损失函数；

根据联合损失函数，对第一子模型和第二子模型进行联合训练。

5.根据权利要求1所述的方法，其特征在于，所述第二向量基于预先训练的实体消歧模型获得，所述预先训练的实体消歧模型通过以下训练方法获得：

将样本输入至待训练的实体消歧模型，对实体消歧模型进行训练；

其中，所述样本包括训练文本、候选实体对应的第一向量及标签，所述训练文本包含待消歧实体的上下文，所述标签用于表征候选实体是否为待消歧实体对应的目标实体。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取原始训练文本；

当所述原始训练文本包含两个及以上的同名待消歧实体时，截取所述原始训练文本中仅包含一个待消歧实体的文本作为所述训练文本。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取原始训练文本；

当所述原始训练文本的长度低于预设长度时，从预先构造的数据集中抽取至少一条与待消歧实体对应的文本；

基于抽取的文本与所述原始训练文本生成所述训练文本。

8.根据权利要求5所述的方法，其特征在于，所述实体消歧模型为BERT模型。

9.一种实体消歧装置，其特征在于，所述装置用于对文本所包含的指代客观对象的实体进行语义消歧，所述装置包括：

相似度比较模块，用于基于所述第一向量和所述第二向量的相似度，对待消歧实体进行消歧；

所述向量获取模型具体用于，将包括与候选实体唯一对应的实体ID的属性信息输入至所述向量生成模型中的第一子模型，获取候选实体对应的第一向量；或者，将包括与候选实体唯一对应的实体ID的关系信息输入至所述向量生成模型中的第二子模型，获取候选实体对应的第一向量。

10.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1至8任一项所述的方法。