CN112989804B

CN112989804B - 一种基于堆叠多头特征抽取器的实体消歧方法

Info

Publication number: CN112989804B
Application number: CN202110399962.9A
Authority: CN
Inventors: 陈权; 张鸿彬; 张伟文; 朱远发; 赖泰驱
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2023-03-10
Anticipated expiration: 2041-04-14
Also published as: CN112989804A

Abstract

本发明公开了一种基于堆叠多头特征抽取器的实体消歧方法，用于解决现有的消歧系统的计算复杂度较高，消歧效果不够好的技术问题。其中，方法包括：生成预设的实体指称项的候选实体列表；候选实体列表具有多个候选实体；获取实体指称项的上下文信息；采用预设堆叠多头特征抽取器获取候选实体列表中每个候选实体与上下文信息之间的关联信息，并基于关联信息计算候选实体的局部分数；计算每个候选实体的全局分数；计算每个候选实体的全局邻居分数；采用局部分数、全局分数和全局邻居分数，计算正确实体；链接正确实体与实体指称项，对实体指称项进行实体消歧。

Description

一种基于堆叠多头特征抽取器的实体消歧方法

技术领域

本发明涉及实体消歧技术领域，尤其涉及一种基于堆叠多头特征抽取器的实体消歧方法。

背景技术

随着人工智能热潮，知识图谱已经在智能搜索、自动问答、推荐、决策支持等各个相关任务上得到了广泛应用。知识图谱本质上是一种语义网络，边代表了实体或概念之间的各种语义关系。通过对结构化、半结构化和非结构化数据进行知识抽取，再通过知识融合进行校正，最后经过知识推理来构建知识库。当前构建海洋经济等各产业的知识图谱还在不断地研究和发展。

由于实体具有歧义性，存在一词多义或一义多词的现象，所以实体识别的结果很难直接存放到知识图谱中，因此必须对具有歧义的实体(实体指称项)进行消歧才能够得到无歧义的实体信息。通常，当不使用外部知识库消歧时，则以聚类的方式对实体指称项进行消歧，这些聚类方法重点通过上下文表层特征的关联度来计算相似度，而未考虑到上下文特征的内在关联。一般在实体消歧中存在一个知识库，库中包含着每个实体以及其所包含的意思。根据规则或知识生成实体指称项的候选实体列表，消歧系统通过将实体指称项与唯一且正确的候选实体进行链接实现消歧，被链接的候选实体称为正确的实体。

早期传统特征方法核心是通过手工设计有效的特征，一般采用Wikipedia页面的词条来表示实体。其中BOW、TF-IDF等模型的方法对实体的表示都是启发式的，启发式算法难以调整，并且很难捕获更加细粒度的语义和结构信息。随着神经网络的发展，一些较流行的神经网络单词向量学习模型被拓展到实体消歧中来，联合映射单词和实体到相同的连续空间向量，甚至为了考虑跟预训练的词向量一样，提前将实体向量训练好，方便通过查表法来得到实体向量，这样能弥补传统特征方法的不足。

解决了单词向量和实体向量的表示问题，需要考虑链接问题，现有链接方式包括局部链接和协同链接。局部链接考虑实体指称项的上下文中的单词分别具有的不同的重要性，而协同链接可以弥补局部消歧方法带来的局限，其不仅考虑了实体指称项的上下文与候选实体的具备语义相似度，还考虑同一文档中所有实体之间的全局语义相似度；即每个文档包含一个主题，则文档中的所有实体都和这个主题相关。现有的消歧系统都结合了局部和协同链接。然而，在保证消歧系统性能情况下，现有的消歧系统的计算复杂度较高，消歧效果不够好。

发明内容

本发明提供了一种基于堆叠多头特征抽取器的实体消歧方法，用于解决现有的消歧系统的计算复杂度较高，消歧效果不够好的技术问题。

本发明提供了一种基于堆叠多头特征抽取器的实体消歧方法，包括：

生成预设的实体指称项的候选实体列表；所述候选实体列表具有多个候选实体；

获取所述实体指称项的上下文信息；

采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息，并基于所述关联信息计算所述候选实体的局部分数；

计算每个所述候选实体的全局分数；

计算每个所述候选实体的全局邻居分数；

采用所述局部分数、所述全局分数和所述全局邻居分数，计算正确实体；

链接所述正确实体与所述实体指称项，对所述实体指称项进行实体消歧。

可选地，所述候选实体包括第一候选实体和第二候选实体；所述生成预设的实体指称项的候选实体列表的步骤，包括：

获取特征信息；

基于所述特征信息生成初始候选实体；

计算每个所述初始候选实体的先验概率；

基于所述先验概率获取第一候选实体；

获取第二候选实体；

采用所述第一候选实体和所述第二候选实体，生成候选实体列表。

可选地，所述获取第二候选实体的步骤，包括：

获取预训练词向量和预训练实体向量；

采用所述预训练词向量和所述预训练实体向量计算所述实体指称项的上下文嵌入信息；

采用所述上下文嵌入信息和预设候选实体嵌入信息计算候选实体分数；

基于所述候选实体分数获取第二候选实体。

可选地，所述采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息，并基于所述关联信息计算所述候选实体的局部分数的步骤，包括：

采用预设堆叠多头特征抽取器获取每个所述候选实体与所述上下文信息之间的关联信息；

采用所述关联信息更新所述候选实体的向量矩阵，得到更新向量矩阵；

根据所述更新向量和所述上下文信息计算所述候选实体的局部分数。

可选地，所述根据所述更新向量矩阵和所述上下文信息计算所述候选实体的局部分数的步骤，包括：

获取所述上下文信息的上下文单词向量矩阵；

计算所述上下文单词向量矩阵与所述更新向量矩阵之间的第一相似度；

采用所述第一相似度计算所述候选实体的局部分数。

可选地，所述计算每个所述候选实体的全局分数的步骤，包括：

获取全文实体向量矩阵；

计算所述全文实体向量矩阵与所述更新向量矩阵之间的第二相似度；

采用所述第二相似度计算所述候选实体的全局分数。

可选地，所述计算每个所述候选实体的全局邻居分数的步骤，包括：

获取全文邻居实体向量矩阵；

计算所述全文邻居实体向量矩阵与所述更像向量矩阵之间的第三相似度；

采用所述第三相似度计算所述候选实体的全局邻居分数。

可选地，所述采用所述局部分数、所述全局分数和所述全局邻居分数，计算正确实体的步骤之前，还包括：

计算所述实体指称项和所述候选实体的类型相似分数。

可选地，所述采用所述局部分数、所述全局分数和所述全局邻居分数，计算正确实体的步骤，包括：

采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率，计算所述候选实体的正确实体概率；

将正确实体概率最高的候选实体确定为正确实体。

可选地，所述采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率，计算所述候选实体的正确实体概率的步骤，包括：

将所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率输入预设的两层前馈神经网络，输出所述候选实体的正确实体概率。

从以上技术方案可以看出，本发明具有以下优点：本发明公开了一种基于堆叠多头特征抽取器的实体消歧方法，具体包括：获取预设的实体指称项的多个候选实体，并采用多个候选实体生成候选实生成预设的实体指称项的候选实体列表；候选实体列表具有多个候选实体；获取实体指称项的上下文信息；采用预设堆叠多头特征抽取器获取候选实体列表中每个候选实体与上下文信息之间的关联信息，并基于关联信息计算候选实体的局部分数；计算每个候选实体的全局分数；计算每个候选实体的全局邻居分数；采用局部分数、全局分数和全局邻居分数，计算正确实体；链接正确实体与实体指称项，对实体指称项进行实体消歧。

本发明通过生成每个实体指称项的候选实体列表，并通过堆叠多头特征抽取器计算候选实体列表中的每个候选实体的局部分数；以及计算每个候选实体的全局分数和全局邻居分数，来获取正确实体。再通过链接正确实体与实体指称项来实现实体消歧，从而降低了计算复杂度，提高了实体消歧的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于堆叠多头特征抽取器的实体消歧方法的步骤流程图；

图2为本发明实施例提供的一种局部模型的结构示意图；

图3为本发明实施例提供的一种堆叠多头特征抽取器的结构示意图；

图4为本发明实施例提供的堆叠多头特征抽取器中每一层的运算过程示意图。

具体实施方式

本发明实施例提供了一种基于堆叠多头特征抽取器的实体消歧方法，用于解决现有的消歧系统的计算复杂度较高，消歧效果不够好的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种基于堆叠多头特征抽取器的实体消歧方法的步骤流程图。

本发明提供的一种基于堆叠多头特征抽取器的实体消歧方法，具体可以包括以下步骤：

步骤101，生成预设的实体指称项的候选实体列表；候选实体列表具有多个候选实体；

在本发明实施例中，实体指称项是指具有歧义的实体，实体是文本中的各个单词。

在实际应用中，实体指称项的候选实体可以有很多个，若直接在所有的候选实体中进行实体消歧，不仅计算量庞杂，且容易出现错误。因此，在本发明实施例中，可以根据候选实体与实体指称项的相近关系，选取部分候选实体生成候选实体列表，以进行后续的消歧操作。

在一个示例中，步骤101可以包括以下子步骤：

S11，获取特征信息；

S12，基于特征信息生成初始候选实体；

S13，计算每个初始候选实体的先验概率；

S14，基于先验概率获取第一候选实体；

S15，获取第二候选实体；

S16，采用第一候选实体和第二候选实体，生成候选实体列表。

在具体实现中，候选实体生成文本可以采用基于命名字典技术，因为大多基于实体链接的消歧方法利用Wikipedia(维基百科)的结构提供了一组用于生成候选实体的特征，例如实体页面、重定向页面、消除歧义页面、首段加粗字段和Wikipedia文章中的超链接等。在不同名称和它们可能映射的实体间，利用这些特征的不同组合来构建命名字典，从而得到初始候选实体。然而，实体指称项的初始候选实体可能非常多，为了平衡计算精度和计算时间，可以先对初始候选实体先进行粗略的筛选。

在一个示例中，可以通过计算每个初始候选实体的先验概率来进行第一候选实体的筛选。

其中，先验概率的P(e|m)的定义如下公式所示：

其中，count(m→e)表示实体指称项m可指向候选实体e的链接数，W指的是整个Wikipedia，∑_e∈Wcount(m→e)表示m可指向Wikipedia中的e的所有链接数的总和。在计算出每个初始候选实体的先验概率后，可以按需求选定先验概率大的几个初始候选实体，如4个，作为第一候选实体。

进一步地，在本发明实施例中，在获取第一候选实体的同时，还可以通过其他方式获取第二候选实体，与第一候选实体结合得到候选实体列表。

在一个示例中，获取第二候选实体的步骤可以包括：

S151，获取预训练词向量和预训练实体向量；

采用预训练词向量和预训练实体向量计算实体指称项的上下文嵌入信息；

S152，采用上下文嵌入信息和预设候选实体嵌入计算候选实体分数；

S153，基于候选实体分数获取第二候选实体。

在具体实现中，可以利用预训练词向量，如Glove词向量；以及预训练实体向量将实体指称项的上下文单词经过正则化和线性层来获得上下文嵌入信息。并进一步通过点积计算上下文嵌入信息和预设候选实体嵌入信息来计算对应候选实体的候选实体分数，再接着通过分数排序选出前几个(如4个)候选实体作为第二候选实体。

最后通过第一候选实体和第二候选实体构成候选实体列表，表示如下：

Γ＝{e₁，…，e_r}

其中，r为候选实体列表的长度，其参数值为候选实体列表中候选实体的个数。

步骤102，获取实体指称项的上下文信息；

在本发明实施例中，实体指称项的上下文单词和实体指称项是息息相关的，上下文的单词与给定的r个候选实体中至少有一个是紧密关联的。在本发明实施例中，实体指称项的上下文可以为c＝{w₁，...，w_o}，其中，o表示上下文的长度。

步骤103，采用预设堆叠多头特征抽取器获取候选实体列表中每个候选实体与上下文信息之间的关联信息，并基于关联信息计算候选实体的局部分数；

在本发明实施例中，在获取到实体指称项的上下文信息后，可以采用预设的堆叠多头特征抽取器获取候选实体列表中每个候选实体与上下文信息之间的关联信息，并基于该关联信息计算候选实体的局部分数。

在一个示例中，步骤103可以包括以下子步骤：

S31，采用预设堆叠多头特征抽取器获取每个候选实体与上下文信息之间的关联信息；

S32，采用关联信息更新候选实体的向量矩阵，得到更新向量矩阵；

S33，获取上下文信息的上下文单词向量矩阵；

S34，计算上下文单词向量矩阵与更新向量矩阵之间的第一相似度；

S35，采用第一相似度计算候选实体的局部分数。

在具体实现中，本发明实施例可以通过局部模型来进行局部分数的计算，其结构如图2所示，由堆叠多头抽取器、神经注意力模块和可拓展向量空间模块组成。通过局部模型计算局部分数的过程如下：

第一，将上下文单词向量矩阵K和候选实体的初始向量矩阵Q输入到堆叠多头特征抽取器中。

第二，具有n层神经网络的堆叠多头特征抽取器通过挖掘K和Q之间隐藏的关联信息，通过连续地更新候选实体的向量矩阵，最后输出更新后的更新向量矩阵Q_final。

第三，为更好地连接堆叠多头特征抽取器和神经注意力模块，以充分发挥堆叠多头特征抽取器的作用，本发明实施例提出了通过可拓展向量空间模块来实现堆叠多头特征抽取器和神经注意力模块的连接。可拓展向量空间模块主要通过线性层Linear将K扩展为K_n，K_n是堆叠多头特征抽取器的最后一层的一个输入，也是神经注意力模块的一个输入。

第四，神经注意力模块通过计算K_n和Q_final之间的相似度，来计算每个候选实体的局部分数。

为便于理解，以下对堆叠多头特征抽取器和神经注意力模块的细节进行描述。

1)堆叠多头特征抽取器：

堆叠多头特征抽取器中，每一层的作用是为了更新候选实体的向量矩阵，这样可以更加完整地关联实体指称项的上下文信息。图3展示了具有n层神经网络的堆叠多头特征抽取器的结构，其中l表示堆叠多头特征抽取器的索引，1≤l≤n。

如图3所示，本发明实施例关注每一层的输入和输出，在第l^th中，是K_l由K经过改成的一个线性层Linear获得的。而当l＝1时，Q_l是由Q经过该层的一个线性层Linear获得的。当2≤l时，Q_l是由Q′_l经过该层的一个线性层Linear获得的。Q′_l是来自上一层的结果，即第(l-1)^th层的输出。因此，在堆叠多头特征抽取器中，Q从第一层到最后一层进行连续地更新，最后输出更新后的Q_final。

堆叠多头特征抽取器前(n-1)层如图3中(a)所示。当l≠n时，分别由两个输入经过各自线性层映射到另一特征空间上，这样方便堆叠多头抽取器利用多头注意力机制将两个输入映射到

份子空间上，堆叠多头特征抽取器才可以关注不同角度的内容。此外，其中的前馈层feed forward也是一个线性层，该层的用处是聚集多头注意力机制获取的特征，并将Q′_l传送到下一层。

堆叠多头特征抽取器的最后一层如图3中(b)所示。该层其中一个输入是来自图2的K_n，K_n是K经过该层的一个线性层Linear获得的。另一个输入Q_n是来自第(n-1)^th层的结果。这里线性层Linear的作用是减少K_n和Q_n的错误。需要注意的是，最后一层不采用多头注意力机制。因此也无需添加前馈层。

在描述了堆叠多头特征提取器的结构后，以下具体描述堆叠多头特征抽取器前(n-1)层的注意力运算过程：

堆叠多头特征抽取器中，每一层的注意力运算都是基于点积运算实现的，图3描述了堆叠多头特征抽取器中每一层的运算过程，在每一层中，首先采用缩放点积注意力计算Q_l和K_l，然后利用软注意力机制soft attention去选择每个单词的最大相关值，其次采用点积运算每个单词的值和K去获得更加详细的上下文向量x_cl；紧接着再通过点积运算上下文向量和Q可以获得第l^th的候选实体与上下文分数，用l-layer entity-context scores表示。最后将这些候选实体与上下文分数直接和Q_l相乘去更新候选实体向量矩阵。需要注意的是，在前(n-1)层的输出是Q′_l，其中2≤l≤n，而在最后一层的输出是Q_final。

在本发明实施例中，图4呈现出了堆叠多头特征抽取器中每一层的运算过程。

如图4中所示，堆叠多头特征抽取器汇总了每一层的计算过程(c)和前(n-1)层的多头注意力机制(d)，因此，本发明的堆叠多头特征抽取器中每层的计算过程如下公式所示：

其中，Output(Q_l，K_l)表示堆叠多头特征抽取器中每一层计算后的输出，Q_l和K_l表示在堆叠多头特征抽取器中每层的两个输入，两者已经分别通过各自的线性层。max(.)表示软注意力机制，缩放因子表示为

多头注意力机制在前(n-1)层中的计算过程如下公式所示：

Q′_l＝(MultiHead)W^O

其中，MultiHead表示将多头注意力机制中的每个头计算的输出拼接起来，head_i表示多头注意力机制中第i个头的计算过程，Concat(.)表示拼接多头注意力机制的输出，并将其映射到前馈层中，多头注意力机制的头数表示为

在每一层中，三个可训练参数矩阵分别为

和WO。

2)神经注意力模块：

图2给出了神经注意力模块的示意图，本发明实施例通过缩放点积注意力计算K_n和Q_final，其计算过程如下公式所示：

Q_final＝Output(Q_n，K_n)

其中，Scale_att表示上下文单词向量矩阵与经过特征抽取器更新后的向量矩阵之间的第一相似度，T表示转置矩阵。

在神经注意力模块中，采用了软注意力机制和硬注意力机制，其中，软注意力机制与堆叠多头特征抽取器所采用的软注意力机制相同，硬注意力机制可以过滤上下文中不重要的单词。因此，在实际应用中，本发明实施例可以选择前P个和候选实体最相关的单词，保留对应的权重，其他未被选择的单词则将权重设置为-inf，即无穷大。最后神经注意力模型会计算出所有单词的最终注意力权重。该模块的软注意力u(c)和所有单词的最终注意力权重a(c)的计算如下公式所示：

u(c)＝max(Scale_att)

a(c)＝softmax(top(u(c)))

其中，硬注意力机制表示为top(.)。因为未被选择的单词的权重被设置为无穷大，经过softmax函数处理后其权重会变为0。随后，基于K和上下文单词的最终注意力权重，通过加权求和可以计算出上下文嵌入信息x_c，最后每个候选实体的局部分数通过上下文嵌入信息和Q计算获得，局部分数计算公式如下所示：

ψ(Γ，c)＝Q(a(c)·K·B)^T

其中，B是训练对角矩阵。

步骤104，计算每个候选实体的全局分数；

步骤105，计算每个候选实体的全局邻居分数；

在本发明实施例中，除了考虑局部特征外，还可以考虑全局特征。考虑到文档的主体一致性，一篇文本内所有实体也应该是相互关联的。一篇文本的所有实体的邻居实体也应该是相互关联的。因此，在本发明实施例中，还可以计算每个候选实体的全局分数和全局邻居分数。

在一个示例中，计算每个候选实体的全局分数的过程可以包括以下步骤：

S41，获取全文实体向量矩阵；

S42，计算全文实体向量矩阵与更新向量矩阵之间的第二相似度；

S43，采用第二相似度计算候选实体的全局分数。

计算每个候选实体的全局邻居分数的过程可以包括以下步骤：

S51，获取全文邻居实体向量矩阵；

S52，计算全文邻居实体向量矩阵与更像向量矩阵之间的第三相似度；

S53，采用第三相似度计算候选实体的全局邻居分数。

在实际应用中，由于本申请的局部模型可以轻松地拓展到全局模型中，因此本发明可以将局部模型中的上下文单词向量矩阵换成先前链接好的全文实体向量矩阵，就可计算全文实体向量矩阵与更新向量矩阵之间的第二相似度，进而计算候选实体的全局分数。其中，先前连链接好的实体用

表示，o′表示先前链接好的实体的实体列表的长度。其中，前P′个最相关的先前链接好的实体被选择，P′和局部模型中的P类似。同样地，本发明实施例只需将局部模型中的上下文单词向量矩阵换成先前链接好的实体的全文邻居实体向量矩阵，就可计算全文实体向量矩阵与更新向量矩阵之间的第三相似度，进而计算候选实体的全局邻居分数。先前链接后的实体的邻居实体用

表示，o″表示先前链接好的实体的邻居实体列表长度。其中，前P″个最相关的先前链接好的实体的邻居被选择，P″和局部模型中的P类似。因此，每个候选实体的全局分数如下公式所示：

Φ(Γ，s)＝Q(a(s)·K·E)^T

其中，Φ(Γ，s)为全局分数。a(s)为最终注意力权重，E是训练对角矩阵。

每个候选实体的全局邻居分数如下公式所示：

其中，

为全局邻居分数，

为最终注意力权重，F是训练对角矩阵。

步骤106，采用局部分数、全局分数和全局邻居分数，计算正确实体；

考虑候选实体和实体指称项的类型更有助于进行实体消歧，因此本发明实施例不仅可以随机姿训练嵌入大小为5的四种类型向量(人名、地名、组织名和其他)，还可以计算实体指称项的类型和候选实体的类型的类型相似分数。因此，针对每个候选实体，本发明实施例将局部分数、全局分数、全局邻居分数、先验知识和类型相似分数拼接起来，得到

其中logP(Г|m)为先验知识，Ψ_C(m，Г)为类型相似分数，用于计算候选实体的正确实体概率，并将正确实体概率最高的候选实体确定为正确实体。

其中，先验知识即为先验概率，在知识库中存在每个实体出现的概率，称为先验概率。

进一步地，计算候选实体的正确实体概率的过程可以包括：将局部分数、全局分数、全局邻居分数、类型相似分数和先验概率输入预设的两层前馈神经网络，输出候选实体的正确实体概率。

在具体实现中，在得到

后，可以将其输入一个两层前馈神经网络(MLP)来获得每个候选实体的正确实体概率。并采用监督排序方法将正确实体概率最高的候选实体作为正确实体。

需要说明的是，监督排序方法的最大边缘损失函数

如下：

其中，

表示语料库，γ表示边缘系数，D表示语料库中的文档，m_t表示语料库的文档中的实体指称项，e^*表示正确实体。

步骤107，链接正确实体与实体指称项，对实体指称项进行实体消歧。

在获取到正确实体后，链接正确实体和实体指称项，可以对实体指称项进行消歧。

为便于理解，以下通过具体实验对本发明实施例的效果进行说明。

考虑到局部模型、全局模型和全局邻居模型三个模型中各自的堆叠多头特征抽取器可能有不一样的层数n和头数

本发明实施例用n₁表示局部模型中抽取器的层数，

表示局部模型中抽取器的头数，用n₂表示全局模型中抽取器的层数，

表示全局模型中抽取器的头数，用n₃表示全局邻居模型中抽取器的层数，

表示全局邻居模型中抽取器的头数。因此，本发明实施例的的实体消歧系统最后表示为

本发明在AIDA-B、MSNBC、AQUAINT、ACE2004、WNED-CWEB、WNED-WIKI六个公开数据集上做了实验，其跟原来的DCA的消歧系统所得出的效果相比，在ACE2004上提升了1.2％，在AIDA-B和WNED-CWEB上进行了轻微的提升，在MSNBC、MSNBC和WNED-WIKI可达到相互竞争的效果。效果如下表1所示。本发明用数字来表示局部分数、全局分数、全局邻居分数所设层数和头数，需要注意的是当层数设置为1时，属于最后一层，则不采用多头注意力，默认头数为1。

表1

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于堆叠多头特征抽取器的实体消歧方法，其特征在于，包括：

获取所述实体指称项的上下文信息；

采用预设堆叠多头特征抽取器获取所述候选实体列表中每个所述候选实体与所述上下文信息之间的关联信息，并基于所述关联信息计算所述候选实体的局部分数；具体的：采用预设堆叠多头特征抽取器获取每个所述候选实体与所述上下文信息之间的关联信息；采用所述关联信息更新所述候选实体的向量矩阵，得到更新向量矩阵；根据所述更新向量矩阵和所述上下文信息计算所述候选实体的局部分数；其中，所述堆叠多头特征抽取器用于更新所述候选实体的向量矩，包括n层神经网络，前(n-1)层的输入包括上下文单词的向量矩阵K、候选实体的初始向量矩阵Q_l和前馈候选实体的初始向量矩阵Q'_l，其中，l为神经网络层数索引；采用缩放点积注意力计算处理所述上下文单词的向量矩阵、候选实体的初始向量矩阵和前馈候选实体的初始向量矩阵，得到所述更新向量矩阵；当进行下一次更新时，所述更新向量矩阵作为所述前馈候选实体的初始向量矩阵；

第n层神经网络的输入包括上下文单词的向量矩阵K、候选实体的初始向量矩阵Q_l，同样采用缩放点积注意力计算处理所述上下文单词的向量矩阵、候选实体的初始向量矩阵，得到最终的更新向量矩阵Q_final；

计算每个所述候选实体的全局分数；其中，所述全局分数的计算过程为：获取全文实体向量矩阵；计算所述全文实体向量矩阵与所述更新向量矩阵之间的第二相似度；采用所述第二相似度计算候选实体的全局分数；

计算每个所述候选实体的全局邻居分数；其中，所述全局邻居分数的计算过程为：获取全文邻居实体向量矩阵；计算所述全文邻居实体向量矩阵与所述更新向量矩阵之间的第三相似度；采用所述第三相似度计算候选实体的全局邻居分数；

2.根据权利要求1所述的方法，其特征在于，所述候选实体包括第一候选实体和第二候选实体；所述生成预设的实体指称项的候选实体列表的步骤，包括：

获取特征信息；

基于所述特征信息生成初始候选实体；

计算每个所述初始候选实体的先验概率；

基于所述先验概率获取第一候选实体；

获取第二候选实体；

3.根据权利要求2所述的方法，其特征在于，所述获取第二候选实体的步骤，包括：

获取预训练词向量和预训练实体向量；

基于所述候选实体分数获取第二候选实体。

4.根据权利要求3所述的方法，其特征在于，所述根据所述更新向量矩阵和所述上下文信息计算所述候选实体的局部分数的步骤，包括：

获取所述上下文信息的上下文单词向量矩阵；

采用所述第一相似度计算所述候选实体的局部分数。

5.根据权利要求4所述的方法，其特征在于，所述采用所述局部分数、所述全局分数和所述全局邻居分数，计算正确实体的步骤之前，还包括：

计算所述实体指称项和所述候选实体的类型相似分数。

6.根据权利要求5所述的方法，其特征在于，所述采用所述局部分数、所述全局分数和所述全局邻居分数，计算正确实体的步骤，包括：

将正确实体概率最高的候选实体确定为正确实体。

7.根据权利要求6所述的方法，其特征在于，所述采用所述局部分数、所述全局分数、所述全局邻居分数、所述类型相似分数和所述先验概率，计算所述候选实体的正确实体概率的步骤，包括：