CN111581973A

CN111581973A - 一种实体消歧方法及系统

Info

Publication number: CN111581973A
Application number: CN202010330194.7A
Authority: CN
Inventors: 付琨; 于泓峰; 张文凯; 苏武运; 姚康泽; 王承之; 姚方龙; 李沛光; 田雨
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-25
Anticipated expiration: 2040-04-24
Also published as: CN111581973B

Abstract

本发明公开的实体消歧方法及系统，包括：基于待消歧指称确定多个相互独立的候选实体构成候选实体集合；基于网络百科类语料中的超链接‑锚文本，获取每个候选实体对应的指称‑候选实体对信息作为训练数据；采用双向长短期记忆网络对指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果；从不同角度对文本的关键语义信息进行提取，可以从文本中发现更多的消歧判据，提高消歧精度；通过提取和强调文本中互相关性高的信息，互注意力层能够从不同的角度丰富表示向量的语义特征，进一步提升指称和候选实体相似度计算的精确性以及消歧性能。

Description

一种实体消歧方法及系统

技术领域

本发明属于深度学习和自然语言处理技术领域，具体涉及一种实体消歧方法。

背景技术

随着计算机科学与互联网技术的不断发展，人类社会的信息量，尤其是互联网中的信息量呈现出爆炸式的增长，大量的数据以自然语言的形式存储在网络文本和电子文档中。由于自然语言存在模糊性与歧义性，如何从海量的文本数据中准确地提取目标信息，从语义层面理解和处理文本，是自然语言处理领域的一大挑战。

给定一段文本及其中待消歧的指称项，实体消歧的任务是将每个指称链接到知识库中正确的实体上，以消除其歧义性。实体消歧通过将文本关联到知识库，将语义信息转化为计算机能够处理的形式，是许多自然语言处理任务的重要基础环节。近年来，随着深度学习在自然语言处理领域的诸多任务中取得显著突破，陆续有研究者在实体消歧任务中采用基于深度学习的方法。

但是，已有的实体消歧模型仍然存在以下问题：1.待消歧的文本和实体描述文本中，只有少部分信息可以作为消歧的关键性判据，而现有的模型中缺乏对消歧所需关键词项的提取能力，当文本的冗余和噪声较高时，模型的消歧精度将会下降；2.实体消歧的关键是学习待消歧的文本和实体的语义表示，并通过相似度计算选择得分最高的实体，因此在编码时对输入文本中的语义信息进行交互，并对语义相关的部分予以高关注度，从而提升消歧模型在不同语境下对正确候选实体的判别能力。而现有的模型中缺乏有效的语义交互机制，当待消歧指称的歧义性较高时，模型的消歧能力将会显著下降。

发明内容

为了解决现有的实体消歧模型中消歧精度较低的问题，本发明提供一种实体消歧方法，包括：

基于待消歧指称确定多个相互独立的候选实体构成候选实体集合；

基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据；所述指称-候选实体对信息包括：锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本；

采用双向长短期记忆网络Bi-LSTM对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果；其中所述关键语义信息为作为消歧判据的信息。

优选的，所述基于待消歧指称确定多个相互独立的候选实体构成候选实体集合，包括：

从网络百科类语料库中获取与待消歧指称有指代关系的实体作为第一候选实体；

借助网络搜索引擎或获取与待消歧指称有指代关系，且不属于第一候选实体的部分实体作为第二候选实体；

将所述第一候选实体和第二候选实体合并构成候选实体集合。

优选的，所述基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据，包括：

对于每个候选实体，从网络百科类文档中抽取得到链接向该实体页面的锚文本结构，作为相对应的指称-候选实体对，截取锚文本左右相邻文本中一定窗口内的词项作为指称的上下文，作为该候选实体对应的训练数据的正样本；

对于每个正样本，基于样本中指称的候选实体集合，从候选实体集合中选择若干候选实体对当前正样本中的实体进行替换，作为当前正样本对应的负样本。

优选的，所述采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果，包括：

使用双向长短期记忆网络对各训练数据中的上下文和实体描述文本分别进行编码，得到文本序列的编码层语义表示；

根据所述文本序列的编码层语义表示，使用内部注意力机制，对指称上下文和实体描述文本自身的关键语义信息进行提取与聚合，获取指称上下文和实体描述文本在内部注意力层的表示向量；

根据文本序列的编码层语义表示和内部注意力层的表示向量，使用互注意力机制，对指称上下文和实体描述文本的信息进行交互，并对两者语义相关的部分进行提取与聚合，获取指称上下文和实体描述文本在互注意力层的表示向量；

根据内部注意力层和互注意力层的表示向量，使用多层感知机获取指称和候选实体的相似度得分，并基于相似度得分在候选实体中选出消歧答案。

优选的，所述使用双向长短期记忆网络对各训练数据中的上下文和实体描述文本分别进行编码，得到文本序列的编码层语义表示包括：

基于每个候选实体对应的训练数据，采用双向长短期记忆网络结构分别按照锚文本的正序和逆序得到正序向量和逆序向量；

基于时间步对所述正序向量和逆序向量进行拼接，得到每个时刻的隐向量表示；

基于所有时刻的隐向量表示和实体描述文本的语义表示得到编码层语义表示。

优选的，所述按照锚文本的正序和逆序得到正序向量和逆序向量；包括：

基于训练数据中各锚文本指称对应的上下文文本，以指称为界，将上下文切分为左文本和右文本；

对左文本进行正序操作，对右文本进行逆序操作分别得到正序向量和逆序向量。

优选的，所述编码层语义表示如下式：

其中，h_t为t时刻编码层语义表示，

为t时刻正序向量

为t时刻逆序向量

x_t为t时刻对应文本中词项的词向量。

优选的，所述根据所述文本序列的编码层语义表示，使用内部注意力机制，对文本自身的关键语义信息进行提取与聚合，获取指称上下文和实体描述文本在内部注意力层的表示向量包括：

分别以指称和实体的词嵌入作为语义中心，对编码层语义表示的所有隐向量进行注意力操作；

基于相关性确定权重，并通过Softmax函数将权值归一化为概率分布；

用归一化的权值向量对编码层的隐向量进行加权平均，对提取出的关键信息进行聚合，获取指称左上下文、右上下文和实体描述文本在内部注意力层的语义向量表示。

优选的，其特征在于，内部注意力层的聚合计算式如下：

a＝cP

其中，c为权值向量；P为输入的编码层语义表示；a为内部数据流，包括：a_l，a_r，a_e；a_l，a_r，a_e分别为左上下文、右上下文和实体描述文本基于内部注意力的语义向量表示，表达式如下；

a_l＝Attention(C_l,s_m)

a_r＝Attention(C_r,s_m)

a_e＝Attention(E,s_e)

其中，C_l，C_r和E分别为左上下文、右上下文和实体描述文本的编码矩阵，Attention()为权值归一化计算式。

优选的，所述根据文本序列的编码层语义表示和内部注意力层的表示向量，使用互注意力机制，对指称上下文和实体描述文本的信息进行交互，并对两者语义相关的部分进行提取与聚合，获取指称上下文和实体描述文本在互注意力层的表示向量，包括：

对左上下文和右上下文进行拼接，得到完整的上下文向量表示；

用内部注意力的语义向量表示对左上下文和右上下文进行注意力操作，用上下文向量表示对实体描述文本进行注意力操作；

用归一化的权值向量对编码层的隐向量进行加权平均，对提取出的关键信息进行聚合，获取指称左上下文、右上下文和实体描述文本在互注意力层的语义向量表示。

优选的，互注意力层的聚合计算式如下：

b＝cP

其中：c为权值向量；P为输入的编码层语义表示；b为互注意力层的数据流，包括：b_l、b_r、b_e；b_l、b_r、b_e分别为左上下文、右上下文和实体描述文本基于互注意力层的语义向量表示，表达式如下：

b_l＝Attention(C_l,a_e)

b_r＝Attention(C_r,a_c)

b_e＝Attention(E,a_c)

优选的，所述通过Softmax函数将权值归一化为概率分布的计算式如下：

其中，M为中间变量，P和s分别为输入的编码层语义表示和语义中心对应的注意力向量，1_t为全1向量，

为外积运算，

算子将注意力向量在另一维度复制t次；W₁，W₂，w₃均为可学习的训练参数，W₁和W₂将隐向量h_i和注意力向量s映射至同一维度，w₃计算文本序列每一个时间步对应向量的权值；c为权值向量。

优选的，所述根据内部注意力层和互注意力层的表示向量，使用多层感知机获取指称和候选实体的相似度得分，并基于相似度得分选定一个候选实体作为消歧结果，包括：

将内部注意力层和互注意层输出的语义表示向量进行拼接，得到完整的语义特征向量；

使用多层感知机对语义特征向量进行学习，并给出一个语义相似度得分；

利用得到的语义相似度得分和在大规模语料中统计得到的实体流行度先验，通过加权求和得到最终的相似度得分；

将相似度得分最高的候选实体作为消歧结果。

基于同一种发明构思，本发明还提供一种实体消歧系统，包括：

选择候选实体模块，用于基于待消歧指称确定多个相互独立的候选实体构成候选实体集合；

训练数据构建模块，用于选择候选实体模块，基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据；所述指称-候选实体对信息包括：锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本；

消歧结果确定模块，用于采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果；其中所述关键语义信息为作为消歧判据的信息。

与现有技术相比，本发明的有益效果为，

1、本发明提供的实体消歧方法及系统，包括：基于待消歧指称确定多个相互独立的候选实体构成候选实体集合；基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据；所述指称-候选实体对信息包括：锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本；采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果；其中所述关键语义信息为作为消歧判据的信息；从不同角度对文本的关键语义信息进行提取，并通过多角度注意力机制，对所述训练数据文本中的的关键语义信息进行提取，可以从文本中发现更多的消歧判据，提高消歧精度；

2、本发明提供的技术方案中，为了更好地对指称上下文进行建模，以指称为界，将上下文切分为左文本和右文本，且为了形式的统一和方便后续注意力机制的计算，对右文本进行了逆序操作，这么做一方面可以让双向LSTM更好地学习指称的语义信息，另一方面能够突出待消歧指称的位置信息；

3、本发明提供的技术方案中，前向和后向LSTM的输出能够分别反映指称原始信息和全句的语义信息，从而更好地对指称特征进行学习；

4、本发明提供的技术方案中，对文本中互相关性高的词项赋予高注意力，能够提升文本表示的编码质量，进而提升实体消歧模型在不同语境下对正确候选实体的判别能力；

5、本发明提供的技术方案中，通过提取和强调文本中互相关性高的信息，互注意力层能够从不同的角度丰富表示向量的语义特征，从而进一步提升指称和候选实体相似度计算的精确性，以及模型的消歧性能。

附图说明

图1为本发明一种实体消歧方法的步骤顺序图；

图2为本发明中实施例1提供的实体消歧方法的具体步骤示意图；

图3为本发明一种实体消歧系统的系统框图；

图4为本发明中实施例2提供的实体消歧系统中消歧结果确定模块对应的具体框图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

实施例1：

本发明提供一种实体消歧方法，如图1所示，其主要包括：

S1基于待消歧指称确定多个相互独立的候选实体构成候选实体集合；

S2基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据；所述指称-候选实体对信息包括：锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本；

S3采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果；其中所述关键语义信息为作为消歧判据的信息。

各步骤具体包括的步骤如如图2所示：

S1基于待消歧指称确定多个相互独立的候选实体构成候选实体集合具体包括：

步骤S101：基于大规模语料，获取相互独立的实体概念及其相应的描述文本，作为待消歧指称的候选实体。

本发明实施例中，所述相互独立的实体概念包括网络百科类语料中的某一词条所描述的独立实体作为第一候选实体，这里的第一候选实体包括一定数量的多个独立实体，和通过实体抽取技术从大规模语料中获取的其他实体，作为第二候选实体，这里第二候选实体也包括一定数量的多个其他实体，第一候选实体和第二候选实体共同构成候选实体集合。且在候选实体集合中的每个候选实体都存在一个对应的实体描述文本；其中，所述实体描述文本基于网络百科类语料的实体页面中，该实体描述文档的摘要部分得到；

多角度注意力机制基于不同的角度对所述训练数据文本中的的关键语义信息进行提取，从文本中发现更多的消歧判据。

S2基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据，具体包括：

步骤S201：基于网络百科类语料中的超链接锚文本结构，获取实体消歧模型的训练数据，具体为：对于每个候选实体，从网络百科类文档中抽取得到链接向该实体页面的锚文本结构，作为相对应的指称-候选实体对，截取锚文本左右相邻文本中一定窗口内的词项作为指称的上下文，作为该候选实体对应的训练数据的正样本；对于每个正样本，基于样本中指称的候选实体集合，从候选实体集合中选择若干候选实体对当前正样本中的实体进行替换，作为当前正样本对应的负样本。

本步骤优选实施方式如下：

对于某一个实体，从网络百科文档中抽取若干个链向该实体对应页面的锚文本，并截取左右相邻文本中固定窗口内的词项作为指称的上下文，并将锚文本链接到的正确实体作为训练的正样本；同时，将正确实体随机替换为指称候选实体集中的其他实体，并生成若干相应的负样本。若上下文的长度小于窗口大小，本步骤将使用零向量对文本序列进行补齐，且相应的位置在后续进行注意力机制的权重计算时将被屏蔽。

S3采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果，具体包括：

步骤S301：使用循环神经网络对待消歧指称上下文和实体描述文本分别进行编码，获取文本序列的编码层语义表示。

本步骤优选实施方式如下：

考虑到文本的词序列信息，采用双向LSTM结构分别对指称上下文和实体描述文本进行编码，得到每个句子中的每个词的隐向量表示h_t。由于单向的LSTM只能利用当前时间步之前的上下文信息，而文本中的词语与前后文本都具有依赖关系，本步骤采用双向LSTM编码器，利用上下文中所有词的信息对当前词进行融合表达。双向LSTM包含两个独立的前向和后向LSTM层，分别按照文本的正序和逆序对细胞状态进行更新，并将时间步t的输出

和

进行拼接，得到该时刻的输出向量h_t：

进一步地，对于指称上下文文本，设其表示为[w₁,…,w_n,m,w_n+1,…,w_2n]，其中n为上下文截取的窗口大小，为了更好地对指称上下文进行建模，本步骤以指称为界，将上下文切分为左文本[w₁,…,w_n,m]，和右文本[w_2n,w_n+1,…,m]，这里为了形式的统一和方便后续注意力机制的计算，对右文本进行了逆序操作。这么做一方面可以让双向LSTM更好地学习指称的语义信息，另一方面能够突出待消歧指称的位置信息。若将原始文本作为双向LSTM的输入，此时指称位于文本序列的中部，不能很好的学习指称的语义特征；而将指称作为文本的起始或结束词项时，在指称对应的时间步，前向和后向LSTM的输出能够分别反映指称原始信息和全句的语义信息，从而更好地对指称特征进行学习。

步骤S302：根据文本序列的编码层语义表示，使用内部注意力机制，对文本自身的消歧关键信息进行提取与聚合，获取指称上下文和实体描述文本在内部注意力层的表示向量。

由于文本内部通常存在冗余和噪声，只有少数关键词项能够作为消歧判据，多角度提出的语义信息更丰富如何有效地对文本内部的关键语义信息进行提取与聚合是实体消歧的关键技术。例如，在句子“在今天结束的足球友谊赛中，葡萄牙2比0战胜法国，中国1比0战胜菲律宾”中，对于“中国”一词，“足球”、“友谊赛”等词是关键的消歧判据，而仅靠“葡萄牙”、“法国”等词可能导致错误的消歧结果，而利用本发明的方案可以从不同的角度尽可能的提取出更多的消歧判据，提高消歧精度。为此，本步骤在得到文本序列的编码层语义表示的基础上，使用了内部注意力层，其优选实施方式如下：

设P＝[h₁,h₂,...,h_t]是双向LSTM输出的文本编码矩阵(左上下文、右上下文或实体描述文本)，每一列为LSTM对应时间步输出的隐向量，s为注意力向量，即语义中心的向量表示。内部注意力层将s与P中的所有隐向量进行注意力操作，为相关性高的词赋予高权重，并通过Softmax函数将权值归一化为概率分布。具体的计算公式为：

为外积运算，

算子将注意力向量在另一维度复制t次，与文本编码序列的长度相同；W₁，W₂，w₃均为可学习的训练参数，W₁和W₂将隐向量h_i和注意力向量s映射至同一维度，w₃计算文本序列每一个时间步对应向量的权值；c为权值向量。

最后，用权值向量c对P中隐向量进行加权平均，对提取出的关键信息进行聚合。

a＝cP

这里a为内部注意力层的数据流，包括：a_l，a_r，a_e；a_l，a_r，a_e分别为左上下文、右上下文和实体描述文本基于内部注意力的语义向量表示，表达式为了形式的简化，下文中将为权值归一化计算式记为Attention(·)。内部注意力层的数据流可以表示为：

a_l＝Attention(C_l,s_m)

a_r＝Attention(C_r,s_m)

a_e＝Attention(E,s_e)

其中，C_l，C_r和E分别为左上下文、右上下文和实体描述文本的编码矩阵，s_m为指称中所有词项对应向量的平均，s_e为实体对应的嵌入向量，a_l，a_r，a_e分别为左上下文、右上下文和实体描述文本基于内部注意力的语义向量表示。

步骤S303：根据文本序列的编码层语义表示和内部注意力层的表示向量，使用互注意力机制，对指称上下文和实体描述文本的信息进行交互，并对两者语义相关的部分进行提取与聚合，获取指称上下文和实体描述文本在互注意力层的表示向量。

指称上下文和实体描述文本的语义相关性，是实体消歧的关键判据。对文本中互相关性高的词项赋予高注意力，能够提升文本表示的编码质量，进而提升实体消歧模型在不同语境下对正确候选实体的判别能力。为此，本步骤在得到文本序列的编码层语义表示和内部注意力层表示向量的基础上，使用了互注意力层，其优选实施方式如下：

首先，对a_l和a_r进行拼接，得到完整的上下文向量表示a_c：

a_c＝[a_l；a_r]

然后，用实体表示a_e对左上下文和右上下文进行注意力操作，用上下文向量表示a_c对实体描述文本进行注意力操作，分别得到左上下文、右上下文和实体描述文本基于互注意力的稠密向量表示，互注意力层的聚合计算式如下：

b＝cP

b为互注意力层的数据流，包括：b_l、b_r、b_e；b_l、b_r、b_e分别为左上下文、右上下文和实体描述文本基于互注意力层的语义向量表示，互注意力层的数据流可以表示为：

b_l＝Attention(C_l,a_e)

b_r＝Attention(C_r,a_c)

b_e＝Attention(E,a_c)

这里注意力机制的计算方法与内部注意力层相同。通过提取和强调文本中互相关性高的信息，互注意力层能够从不同的角度丰富表示向量的语义特征，从而进一步提升指称和候选实体相似度计算的精确性，以及模型的消歧性能。

步骤S304：根据内部注意力层和互注意力层的表示向量，使用多层感知机获取指称和候选实体的相似度得分，并将相似度最高的候选实体作为消歧结果。

本步骤优选实施方式如下：

基于内部注意力和互注意力的表示向量包含不同角度的消歧特征，为此，预测层将所有内部注意力层和互注意力层的输出进行级联，输入多层感知机进行特征学习，并通过sigmoid函数，最终得到归一化的语义相似度得分。令o为输出的相似度得分，y∈{0,1}表示某一候选实体是否为指称的正确实体，本步骤采用二元交叉熵损失函数训练整个网络：

L＝-[ylog(o)+(1-y)log(1-o)]

同时，实体流行度为指称在大规模语料中指向某一候选实体的归一化概率，能够反映该实体的先验特征。为此，本步骤采用实体流行度特征作为先验知识，与消歧网络得到的结果进行加权，作为指称m的候选实体e最终的置信度得分：

其中，α为加权系数。

实施例2

为了实现上述方法，本发明还提供一种实体消歧系统，如图3所示，包括：选择候选实体模块、训练数据构建模块和消歧结果确定模块；其实现的功能，如图4所示：

选择候选实体模块，用于基于待消歧指称确定多个相互独立的候选实体构成候选实体集合；具体用于：从网络百科类语料库中获取与待消歧指称有指代关系的实体作为第一候选实体；借助网络搜索引擎或获取与待消歧指称有指代关系，且不属于第一候选实体的部分实体作为第二候选实体；将所述第一候选实体和第二候选实体合并构成候选实体集合

训练数据构建模块，用于选择候选实体模块，基于网络百科类语料中的超链接-锚文本，从所述候选实体集合中获取每个候选实体对应的指称-候选实体对信息作为训练数据；所述指称-候选实体对信息包括：锚文本、锚文本对应的指称和指称上下文、锚文本对应的实体页面以及实体描述文本，具体用于：

对于每个候选实体，从网络百科类文档中抽取得到链接向该实体页面的锚文本结构，作为相对应的指称-候选实体对，截取锚文本左右相邻文本中一定窗口内的词项作为指称的上下文，作为该候选实体对应的训练数据的正样本；对于每个正样本，基于样本中指称的候选实体集合，从候选实体集合中选择若干候选实体对当前正样本中的实体进行替换，作为当前正样本对应的负样本。

消歧结果确定模块，用于采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果；其中所述关键语义信息为作为消歧判据的信息，其包括：编码层语义表示子模块、内部注意力层的表示向量子模块、互注意力层的表示向量子模块和消歧答案确定子模块，各子模块具体功能如下：

编码层语义表示用于，使用双向长短期记忆网络对各训练数据中的上下文和实体描述文本分别进行编码，得到文本序列的编码层语义表示；

内部注意力层的表示向量子模块，用于根据所述文本序列的编码层语义表示，使用内部注意力机制，对指称上下文和实体描述文本自身的关键语义信息进行提取与聚合，获取指称上下文和实体描述文本在内部注意力层的表示向量；

互注意力层的表示向量，用于根据文本序列的编码层语义表示和内部注意力层的表示向量，使用互注意力机制，对指称上下文和实体描述文本的信息进行交互，并对两者语义相关的部分进行提取与聚合，获取指称上下文和实体描述文本在互注意力层的表示向量；

消歧答案确定子模块，用于根据内部注意力层和互注意力层的表示向量，使用多层感知机获取指称和候选实体的相似度得分，并基于相似度得分在候选实体中选出消歧答案。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是对本发明的较佳实施方式而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施方式所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种实体消歧方法，其特征在于，包括：

2.根据权利要求1所述实体消歧方法，其特征在于，所述基于待消歧指称确定多个相互独立的候选实体构成候选实体集合，包括：

3.根据权利要求2所述的实体消歧方法，其特征在于，所述采用双向长短期记忆网络对所述训练数据中的指称上下文和实体描述文本分别进行语义编码，并通过多角度注意力机制，对指称上下文和实体描述文本中的关键语义信息进行提取和处理，进而从候选实体中确定消歧结果，包括：

4.根据权利要求3所述的实体消歧方法，其特征在于，所述使用双向长短期记忆网络对各训练数据中的上下文和实体描述文本分别进行编码，得到文本序列的编码层语义表示包括：

5.根据权利要求4所述的实体消歧方法，其特征在于，所述编码层语义表示如下式：

其中，h_t为t时刻编码层语义表示，

为t时刻正序向量，

为t时刻逆序向量，x_t为t时刻对应文本中词项的词向量。

6.根据权利要求5所述的实体消歧方法，其特征在于，所述根据所述文本序列的编码层语义表示，使用内部注意力机制，对文本自身的关键语义信息进行提取与聚合，获取指称上下文和实体描述文本在内部注意力层的表示向量包括：

优选的，其特征在于，内部注意力层的聚合计算式如下：

a＝cP

其中，c为权值向量；P为输入的编码层语义表示；a为内部注意力层的数据流，包括：a_l，a_r，a_e；a_l，a_r，a_e分别为左上下文、右上下文和实体描述文本基于内部注意力的语义向量表示，表达式如下；

a_l＝Attention(C_l,s_m)

a_r＝Attention(C_r,s_m)

a_e＝Attention(E,s_e)

7.根据权利要求6所述的实体消歧方法，其特征在于，所述根据文本序列的编码层语义表示和内部注意力层的表示向量，使用互注意力机制，对指称上下文和实体描述文本的信息进行交互，并对两者语义相关的部分进行提取与聚合，获取指称上下文和实体描述文本在互注意力层的表示向量，包括：

优选的，互注意力层的聚合计算式如下：

b＝cP

b_l＝Attention(C_l,a_e)

b_r＝Attention(C_r,a_c)

b_e＝Attention(E,a_c)

8.根据权利要求6或7所述的实体消歧方法，其特征在于，所述通过Softmax函数将权值归一化为概率分布的计算式如下：

为外积运算，

9.根据权利要求3所述的实体消歧方法，其特征在于，所述根据内部注意力层和互注意力层的表示向量，使用多层感知机获取指称和候选实体的相似度得分，并基于相似度得分选定一个候选实体作为消歧结果，包括：

将相似度得分最高的候选实体作为消歧结果。

10.一种实体消歧系统，其特征在于，包括：