CN110929041A

CN110929041A - 基于分层注意力机制的实体对齐方法及系统

Info

Publication number: CN110929041A
Application number: CN201911143409.8A
Authority: CN
Inventors: 杨杨; 高志鹏; 郝茂杰; 郭少勇; 徐思雅; 袁翰青; 辛锐; 吴军英; 葛宁玲
Original assignee: Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-27

Abstract

本发明实施例提供一种基于分层注意力机制的实体对齐方法及系统，该方法包括：将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量；根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度；根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。本发明实施例提高了实体对齐的准确率，使得实体向量更容易生成，有效解决实体对齐过程中先验信息不易获得的问题。

Description

基于分层注意力机制的实体对齐方法及系统

技术领域

本发明涉及知识图谱技术领域，尤其涉及一种基于分层注意力机制的实体对齐方法及系统。

背景技术

知识图谱是用可视化技术描述知识资源及其载体的一种技术，其构建需要各种数据的支撑，但是通常这些数据的格式、存储方式以及应用场景都有所不同，因此，对多源知识融合技术的研究与整合已有知识资源势在必行。实体对齐是知识融合过程中的关键技术，其作用就在于推断来自不同知识库的不同实体是否指代现实世界中的同一客观对象，实体对齐技术实现的好坏直接影响到知识图谱的精确性和扩展性。

近年来，随着深度学习的发展，促使了知识表示学习的提出，它可以将知识图谱中的实体和关系映射到低纬空间，学习得到实体和关系的向量表示，利用该方法得到的向量不仅具备实体基本的语义信息，还包含了知识图谱的结构信息，可以从多个维度表示实体，极大的促进了实体对齐技术的发展。然而，利用深度学习的方法，在解决中文知识图谱实体对齐时，仍然存在着准确率较低，实体向量生成困难以及先验对齐数据不易获得等问题。

因此，现在亟需一种基于分层的注意力机制的实体对齐方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于分层注意力机制的实体对齐方法及系统。

第一方面，本发明实施例提供了一种基于分层注意力机制的实体对齐方法，包括：

将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量；

根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度；

根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。

进一步地，所述根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，包括：

根据词级别实体数据向量之间的马氏距离和相关距离，获取词级别实体数据向量之间的词向量相似度。

进一步地，所述根据词级别实体数据向量之间的马氏距离和相关距离，获取词级别实体数据向量之间的词向量相似度，包括：

根据词级别实体数据向量之间的马氏距离和相关距离，构建相似度公式，所述相似度公式为：

其中，Q_w,w'表示实体描述词向量w和实体描述词向量w'之间的相似度值，S^-1表示词向量w的协方差矩阵，T表示矩阵转置，a和β表示权重系数，a+β＝1，0＜a＜1，0＜β＜1。

进一步地，所述根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度，包括：

根据所述相似度公式，获取句级别实体数据向量中每个词向量之间的相似度；

根据句级别实体数据向量中每个词向量之间的相似度，获取句级别实体数据向量之间的句向量相似度。

进一步地，所述根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，包括：

将所述词级别实体数据向量中每个词向量对应的最高相似度输入到Sigmoid函数中，得到所述词级别实体数据向量的注意力权重；

根据所述词级别实体数据向量的注意力权重，对所述词级别实体数据向量进行加权处理，得到所述词级别实体数据向量的分配权重参数向量矩阵。

进一步地，在所述根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度之后，所述方法还包括：

根据预设阈值，对杰卡德系数公式进行改进，若句级别实体数据向量中每个词向量之间的相似度大于预设阈值，则将相似度大于预设阈值的两个词向量作为杰卡德系数公式的相同元素，得到调整后的杰卡德系数公式；

根据改进后的杰卡德系数公式，获取所述句级别实体数据向量之间的杰卡德系数。

进一步地，所述根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，包括：

根据所述杰卡德系数，对所述句级别实体数据向量的最高相似度进行调整，得到调整后的最高相似度；

将所述调整后的最高相似度输入到Sigmoid函数中，得到所述句级别实体数据向量的注意力权重；

根据所述句级别实体数据向量的注意力权重，对所述句级别实体数据向量进行加权处理，得到所述句级别实体数据向量的分配权重参数向量矩阵。

第二方面，本发明实施例提供了一种基于分层注意力机制的实体对齐系统，包括：

词句数据划分模块，用于将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量；

相似度获取模块，用于根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度；

处理模块，用于根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于分层注意力机制的实体对齐方法及系统，通过将知识图谱中的实体数据分成词向量和句向量，根据两者的相似度分别生成对应的权重参数，通过调节分配权重使得后续深度学习模型在训练时有所侧重，使相似度高的内容更加容易被关注到，提高了实体对齐的准确率，使得实体向量更容易生成，有效解决实体对齐过程中先验信息不易获得的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于分层注意力机制的实体对齐方法的流程示意图；

图2为本发明实施例提供的基于词信息的注意力权重获取方式示意图；

图3为本发明实施例提供的基于句信息的注意力权重获取方式示意图；

图4为本发明实施例提供的基于分层注意力机制的实体对齐系统的结构示意图；

图5为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

知识图谱是一种语义网络的知识库，被广泛应用于各个领域。实体对齐即实体匹配，是指从异构数据源知识库中的各个实体中，找出属于现实世界中的同一实体，其实现的好坏直接影响知识图谱的精准性。但是由于各类数据存在存储方式和数据格式等差异，使知识图谱的构建和实体对齐技术实现比较困难，通常存在实体对齐准确率较低，实体向量生成困难以及先验对齐数据不易获得等问题。针对上述问题，本发明实施例针对中文知识图谱实体对齐问题，提供了一种基于分层注意力机制的实体对齐方法，通过将输入数据分成词向量和句向量，对不同的向量表示进行不同的处理。对于词数据，由于词语之间的语序信息不必须，因此本发明实施例将所有词都看作是相互独立的；对于句数据，除了单词之外还需要关注句子中词序和语法等整体信息，以保证相似度计算更加合理和准确。需要说明的是，本发明实施例提供的基于分层注意力机制的实体对齐方法，可应用于金融领域(例如，金融知识图谱或企业关系查询软件等)、电商领域或教育领域(例如，智能客服或智能问答系统等)，本发明实施例对此不作具体限定。

图1为本发明实施例提供的基于分层注意力机制的实体对齐方法的流程示意图，如图1所示，本发明实施例提供了一种基于分层注意力机制的实体对齐方法，包括：

步骤101，将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量。

在本发明实施例中，首先需要对知识图谱中预进行实体对齐处理的实体数据进行划分，基于这些实体数据的词句属性，将目标实体数据划分为词级别实体数据和句级别实体数据，并根据划分后的数据构建对应的词级别实体数据向量和句级别实体数据向量。在本发明实施例中，分别以目标实体数据中的两组词级别实体数据向量和两组句级别实体数据向量进行说明。

步骤102，根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度。

其中，所述根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，具体包括：

其中，Q_w,w'表示实体描述词向量w和实体描述词向量w'之间的相似度值，S^-1表示词向量w的协方差矩阵，T表示矩阵转置，a和β表示权重系数，a+β＝1，0＜a＜1，0＜β＜1。从而根据相似度公式获取词级别实体数据向量之间的词向量相似度。

在本发明实施例中，针对目标实体数据E₁和E₂对应的词级别实体数据向量，通过对两组词级别实体数据向量的马氏距离和相关距离进行加权处理，获取每组目标实体数据的词属性和另一组目标实体数据的词属性之间的相似度。进一步地，通过相似度公式，获取目标实体数据E₁中每个词语和目标实体数据E₂中每个词语之间的相似度值，从而得到目标实体数据E₁中每个词语的最高相似度在目标实体数据E₂中对应的词语，相应地，得到目标实体数据E₂中每个词语的最高相似度在目标实体数据E₁中对应的词语。

进一步地，在上述实施例的基础上，所述根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度，包括：

在本发明实施例中，获取句级别实体数据向量中每个词向量之间的相似度的步骤，和上述提供的获取词级别实体数据向量之间的词向量相似度的步骤相同，本发明实施例不再赘述。针对目标实体数据E₁和E₂对应的句级别实体数据向量，在获取到每组句级别实体数据向量中每个词之间的相似度之后，进一步获取两组句级别实体数据向量之间的相似度。

在本发明实施例中，在计算目标实体数据E₁和E₂句级别的相似度时，添加杰卡德(Jaccard)系数，从而考虑两句话之间的整体相似性，其中，杰卡德系数越大，代表杰卡德系数对应的样本集S和S'的相似度越高。

进一步地，在现有的杰卡德系数公式中，两个完全相同的元素才可标记为相同，但是在实体对齐的场景中，两个相似的词之间仍然存在相互影响的关系，因此不能将它们简单的按照相等与否进行区分。在本发明实施例中，对现有杰卡德系数公式进行了改进，对“相同元素”进行了模糊化处理，通过判断两个词向量之间马氏距离和相关距离的加权和，是否大于预设阈值k，若大于预设阈值k，则判断获知两个词向量为相同元素，进而求得样本集S和S'的交集和并集，优选地，在本发明实施例中，将预设阈值设置为0.7。具体地，改进的杰卡德系数公式为：

其中，S和S'分别表示两个实体数据对应的描述信息集合；从而根据改进的杰卡德系数公式获取对应的杰卡德系数。

本发明实施例对杰卡德系数公式进行改进，将“相同元素”进行了模糊化处理，通过将两个词向量的马氏距离和相关距离的加权，与预设阈值进行判断，从而获知两个词是否为相同元素，使杰卡德系数更加符合实体对齐的场景。

步骤103，根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。

其中，所述根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，包括：

图2为本发明实施例提供的基于词信息的注意力权重获取方式示意图，可参考图2所示，在本发明实施例中，将目标实体数据E₁中的每个词w_n的属性和目标实体数据E₂中每个词语w_n'的属性之间最高相似度值作为纵向Sigmoid函数的输入，得到第一注意力权重；将目标实体数据E₂中的每个词w_n'的属性和目标实体数据E₁中每个词语w_n的属性之间最高相似度值作为横向Sigmoid函数的输入，得到第二注意力权重。进一步地，通过第一注意力权重对目标实体数据E₂中的词向量进行加权，通过第二注意力权重对目标实体数据E₁中的词向量进行加权，分别得到对应的分配权重参数向量矩阵。

在上述实施例的基础上，其特征在于，所述根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，包括：

图3为本发明实施例提供的基于句信息的注意力权重获取方式示意图，可参考图3所示，在本发明实施例中，对于目标实体数据E₁中的句子S的第i个词w_i，首先计算目标实体数据E₂中的句子S'中所有词w_i'与w_i的相似度，记为

然后，获取其中的最大相似度

将最大相似度

乘以上述实施例得到的杰卡德系数，作为纵向Sigmoid函数的输入，得到w_i的注意力权重，基于同样的方法，获取句子S中其他词的注意力权重，从而得到一组关于句子S的一组注意力权重，以根据该组注意力权重对目标实体数据E₂中的矩阵S'进行加权，得到目标实体数据E₂的句向量对应的分配权重参数向量矩阵。相应地，对于目标实体数据E₂中的句子S'的第i个词w_i'，和上述步骤基本相同，在此不再赘述，唯一区别在于，可参考图3，将得到的最大相似度乘以上述实施例得到的杰卡德系数之后，作为横向Sigmoid函数的输入。

本发明实施例提供的基于分层注意力机制的实体对齐方法，通过将知识图谱中的实体数据分成词向量和句向量，根据两者的相似度分别生成对应的权重参数，通过调节分配权重使得后续深度学习模型在训练时有所侧重，使相似度高的内容更加容易被关注到，提高了实体对齐的准确率，使得实体向量更容易生成，有效解决实体对齐过程中先验信息不易获得的问题。

进一步地，在本发明一实施例中，对基于分层注意力机制的实体对齐方法进行说明，具体步骤为：

S11，获取词向量V_w1和V_w2，以及句向量V_s1和V_s2；然后，构建词向量矩阵V_w1＝[20*300]和V_w2＝[20*300]，句向量矩阵V_s1＝[50*300]和V_s2＝[50*300]；

S12，计算词向量矩阵V_w1和V_w2之间的相似度，获取词与词之间的词向量相似度矩阵S_w＝[20*20]；计算句向量矩阵V_s1和V_s2之间的相似度，获取句子与句子之间的句向量相似度矩阵S_T＝[50*50]，并计算两个句向量矩阵之间的杰卡德系数T；

S13，根据词向量相似度矩阵S_w，得到矩阵行方向的最大相似度值W₁和列方向的最大相似度值W₂；根据句向量相似度矩阵S_T，得到矩阵行方向的最大相似度值Q₁和列方向的最大相似度值Q₂；将Q₁和Q₂分别乘以杰卡德系数T，得到修正后的矩阵行方向和列方向的最大相似度值Q₁'和Q₂'；

S14，将W₁、W₂、Q₁'和Q₂'输入到Sigmoid函数中，得到对应的注意力权重A_w1、A_w2、A_Q1和A_Q2；

S15，将A_w1加权到词向量V_w2，得到O_w2；将A_w2加权到词向量V_w1，得到O_w1；将A_Q1加权到句向量V_s2，得到O_s2；将A_Q2加权到句向量V_s1，得到O_s1；以根据分配权重参数向量矩阵O_w1，O_w2，O_s1和O_s2，对知识图图谱的实体数据进行实体对齐。

图4为本发明实施例提供的基于分层注意力机制的实体对齐系统的结构示意图，如图4所示，本发明实施例提供了一种基于分层注意力机制的实体对齐系统，包括词句数据划分模块401、相似度获取模块402和处理模块403，其中，词句数据划分模块401用于将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量；相似度获取模块402用于根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度；处理模块403用于根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。

本发明实施例提供的基于分层注意力机制的实体对齐系统，通过将知识图谱中的实体数据分成词向量和句向量，根据两者的相似度分别生成对应的权重参数，通过调节分配权重使得后续深度学习模型在训练时有所侧重，使相似度高的内容更加容易被关注到，提高了实体对齐的准确率，使得实体向量更容易生成，有效解决实体对齐过程中先验信息不易获得的问题。

本发明实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本发明实施例提供的电子设备结构示意图，参照图5，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量；根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度；根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于分层注意力机制的实体对齐方法，例如包括：将知识图谱中待实体对齐的目标实体数据进行划分，得到词级别实体数据向量和句级别实体数据向量；根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，并根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度；根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，并根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，以用于对所述目标实体数据进行实体对齐。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于分层注意力机制的实体对齐方法，其特征在于，包括：

2.根据权利要求1所述的基于分层注意力机制的实体对齐方法，其特征在于，所述根据注意力机制，获取所述词级别实体数据向量之间的词向量相似度，包括：

3.根据权利要求2所述的基于分层注意力机制的实体对齐方法，其特征在于，所述根据词级别实体数据向量之间的马氏距离和相关距离，获取词级别实体数据向量之间的词向量相似度，包括：

4.根据权利要求3所述的基于分层注意力机制的实体对齐方法，其特征在于，所述根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度，包括：

5.根据权利要求3所述的基于分层注意力机制的实体对齐方法，其特征在于，所述根据所述词向量相似度，获取所述词级别实体数据向量的分配权重参数向量矩阵，包括：

6.根据权利要求4所述的基于分层注意力机制的实体对齐方法，其特征在于，在所述根据注意力机制，获取所述句级别实体数据向量之间的句向量相似度之后，所述方法还包括：

7.根据权利要求6所述的基于分层注意力机制的实体对齐方法，其特征在于，所述根据所述句向量相似度和杰卡德系数公式，获取所述句级别实体数据向量的分配权重参数向量矩阵，包括：

8.一种基于分层注意力机制的实体对齐系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于分层注意力机制的实体对齐方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于分层注意力机制的实体对齐方法的步骤。