CN115271071A

CN115271071A - 基于图神经网络的知识图谱实体对齐方法、系统及设备

Info

Publication number: CN115271071A
Application number: CN202210942556.7A
Authority: CN
Inventors: 王雅琳; 周泽雄; 郭静宇; 谭栩杰; 彭渝彬; 林邠; 隋庆开; 王凯; 袁小锋
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-01

Abstract

本公开实施例中提供了一种基于图神经网络的知识图谱实体对齐方法、系统及设备，属于数据处理技术领域，具体包括：步骤1，数据准备；步骤2，数据预处理；步骤3，构建图神经网络模型；步骤4，网络前向运算；步骤5，融合全局信息的分布迁移法；步骤6，融合局部信息的针对性负采样；步骤7，反向传播更新图神经网络模型权值参数；步骤8，重复步骤4至步骤7的内容，直至步骤7所述联合损失函数迭代达到预设条件；步骤9，整体匹配法输出对齐结果。通过本公开的方案，充分挖掘知识图谱中实体之间的全局以及局部信息，提升了知识图谱实体对齐任务的训练效率和精准度。

Description

基于图神经网络的知识图谱实体对齐方法、系统及设备

技术领域

本公开实施例涉及数据处理技术领域，尤其涉及一种基于图神经网络的知识图谱实体对齐方法、系统及设备。

背景技术

目前，为了能够高效、合理地进行数据处理及分析并得到有价值的知识，知识图谱技术被广泛应用于各个领域。知识图谱是结构化的语义知识库，用于描述物理世界中的概念以及相互关系，其技术也是目前人工智能领域的重要研究内容。在构建庞大的知识图谱过程中，由于知识的多来源、异构性等特点，无法避免会存在冗余的重复知识，因此需要进行相应的知识消融。

实体对齐(entity alignment，EA)技术作为知识消融的一种方式，从不同来源的知识图谱中获取其中实体的结构信息以及属性信息，通过对信息的处理找到不同知识图谱之间表达同一含义的实体对，以此服务于后续的冗余知识剔除以及知识补充。近年来，实体对齐技术聚焦于利用知识嵌入的方法来实现对齐。研究人员利用图神经网络模型对知识图谱中的实体进行知识嵌入，用已对齐的实体对作为链接，将不同知识图谱的实体嵌入到统一的低维实值空间，根据实体在空间上的距离度量对目标实体进行最小距离匹配法，距离越小将越被视为潜在可对齐实体。

目前这种主流的实体对齐方法仍然存在以下缺陷：1)嵌入过程中图谱间信息闭塞，导致分布子空间分离，潜在可对齐实体过少，不利于后续的对齐。2)嵌入过程中均匀负采样带来的训练低效。3)对齐过程中最小距离匹配法的图谱间交互能力弱。

可见，亟需一种基于全局/局部信息嵌入和实体整体匹配的基于图神经网络的知识图谱实体对齐方法。

发明内容

有鉴于此，本公开实施例提供一种基于图神经网络的知识图谱实体对齐方法、系统及设备，至少部分解决现有技术中存在训练过程低效、对齐精准度低和交互性较差的问题。

第一方面，本公开实施例提供了一种基于图神经网络的知识图谱实体对齐方法，包括：

步骤1，数据准备，获取来源不同的两个图谱的目标信息，其中，目标信息包括关系三元组、属性三元组、实体信息、关系种类信息和已对齐实体对；

步骤2，数据预处理，针对每个图谱分别构建图谱的邻接矩阵、度矩阵，根据属性三元组以及实体信息获取每一个实体的初始嵌入向量，将已对齐实体对作为训练数据，即正样本集合S；

步骤3，构建图神经网络模型，随机初始化图神经网络模型权值参数，与邻接矩阵相乘；

步骤4，网络前向运算，将实体初始嵌入向量输入图神经网络模型，进行前向运算，并获得输出后的嵌入向量；

步骤5，融合全局信息的分布迁移法，根据步骤4输出的嵌入向量，构建所有实体与实体之间的实际分布矩阵，计算融合全局分布信息的分布匹配损失函数

步骤6，融合局部信息的针对性负采样，基于正样本集合S中每一个实体对，针对性选取多个错误样本构建所有负样本的集合S′，并计算融合局部信息的三联体损失函数

步骤7，反向传播更新网络权值参数，根据步骤5和步骤6所得到的

和

加权相加得到联合损失函数

采用使联合损失函数最小的随机梯度下降算法更新图神经网络模型权值参数；

步骤8，重复步骤4至步骤7的内容，直至步骤7所述联合损失函数迭代达到预设条件；

步骤9，整体匹配法输出对齐结果，针对两个图谱的实体之间距离进行排名，从两个图谱中各粗排筛选前p个实体，根据p个实体的嵌入向量构建整体相似度矩阵，针对相似度矩阵采用KM算法确定可对齐实体对，作为对齐的最终结果输出。

根据本公开实施例的一种具体实现方式，所述步骤5具体包括：

步骤5.1，按如下公式计算并构建实际分布矩阵：

其中，actual为实际分布矩阵，actual(i，j)表示实际分布矩阵中第i行第j列的元素，e_i为图谱1中n个实体的第i个，v_j为图谱2中m个实体的第j个，h(e_i)与h(v_j)分别为e_i与v_j的嵌入向量，||·||即为嵌入向量求模运算，cos_sim为计算h(e_i)与h(v_j)两者的相似度；

步骤5.2，构建期望分布矩阵label，其为单位矩阵，即只在对角线元素上置为1；

步骤5.3，按如下公式计算融合全局信息的分布匹配损失函数：

其中，

为融合全局信息的分布匹配损失函数，D_KL(actual||label)为针对actual和label计算的KL散度。

根据本公开实施例的一种具体实现方式，所述步骤6具体包括：

步骤6.1，针对性选取错误样本：针对正样本集S中的每个正样本实体，在全局范围内挑选足量的错误实体构建错误样本集合，根据这些错误实体与对应正样本实体的距离进行错误实体排名，选取距离最小的前25个错误实体，合并所有正样本的错误实体集构建负样本集合S′，负样本集合S′中，一个实体e_i将与除已对齐实体v_j外的25个错误实体构成25对负样本实体对。

步骤6.2，计算融合局部信息的损失函数：

融合局部信息损失函数计算公式如下：

其中，(e_i，v_j)为正样本实体对，即图谱1的第i个实体与图谱2的第j个实体对齐，(e_i，v_k′)为负样本实体对，即实体e_i的25对负样本实体对的第k对，γ为分隔超参数，

为分隔超参数、正样本间距以及负样本损失三联体组成的损失函数，f(x，y)为曼哈顿距离函数，即f(x，y)为|x-y|，α_k为针对每一个负样本注意力权值，其计算公式如下：

其中，注意力权值公式根据负样本实体对距离分配权值。

根据本公开实施例的一种具体实现方式，所述步骤9具体包括：

步骤9.1，基于距离排名的粗排筛选：针对图谱1和图谱2的所有实体计算实体与样本中心的距离，进而得到两个图谱独立的基于距离的排名(其中距离采用曼哈顿距离)，从两个图谱的排名中各自选取距离最小的p个实体；

步骤9.2，构建整体相似度矩阵：相似度矩阵sim计算公式如下：

sim(i，j)＝f(h(e_i)，h(v_j))

其中，sim(i，j)为相似度矩阵中第i行第j列的元素，h(e_i)与h(v_j)分别是图谱1中第i个实体和图谱2中第j个实体的嵌入向量；

步骤9.3，KM算法选取可对齐实体对。

根据本公开实施例的一种具体实现方式，所述步骤9.3具体包括：

步骤9.3.1，根据两个图谱的实体构造一个二分图G，二分图的顶点集由图谱1实体集E＝{e₁，…，ei，…，e_p}和图谱2实体集V＝{v₁，…，v_j，…，v_p}两部分组成，顶点集中每一个实体都有相应的顶标值C(该值记录当前匹配状态下，该实体最小的边权值与对应实体顶标值的差值，方便后续寻找更优的可匹配状态)，二分图的边集X＝{(e₁，v₁)，…，(e_i，v_j)，…，(e_p，v_p)}，其中每一个边权值W(i，j)为相似度矩阵中对应第i行第j列的元素；

步骤9.3.2，根据边权值最小的原则，针对每一个行实体选取对应的列实体，将边权值设定为行实体的顶标值，并判断是否有冲突；

步骤9.3.3，若出现冲突的对齐选择，则提高冲突的行实体的顶标值，并在满足条件C(e_i)+C(v_j)＝W(i，j)，重新进行一次对齐选择，并判断是否有冲突，若有，则重复步骤9.3.3；

步骤9.3.4，输出每一个行实体有且仅有一个列实体对齐，且保证对齐后实体对的相似度之和最小的匹配后的实体对齐选择。

第二方面，本公开实施例提供了一种基于图神经网络的知识图谱实体对齐系统，包括：

获取模块，用于数据准备，获取来源不同的两个图谱的目标信息，其中，目标信息包括关系三元组、属性三元组、实体信息、关系种类信息和已对齐实体对；

预处理模块，用于数据预处理，针对每个图谱分别构建图谱的邻接矩阵、度矩阵，根据属性三元组以及实体信息获取每一个实体的初始嵌入向量，将已对齐实体对作为训练数据，即正样本集合S；

构建模块，用于构建图神经网络模型，随机初始化图神经网络模型权值参数，与邻接矩阵相乘；

运算模块，用于网络前向运算，将实体初始嵌入向量输入图神经网络模型，进行前向运算，并获得输出后的嵌入向量；

全局信息融合模块，用于融合全局信息的分布迁移法，根据步骤4输出的嵌入向量，构建所有实体与实体之间的实际分布矩阵，计算融合全局分布信息的分布匹配损失函数

局部信息融合模块，用于融合局部信息的针对性负采样，基于正样本集合S中每一个实体对，针对性选取多个错误样本构建所有负样本的集合S′，并计算融合局部信息的三联体损失函数

更新模块，用于反向传播更新网络权值参数，根据步骤5和步骤6所得到的

和

加权相加得到联合损失函数

迭代模块，用于重复步骤4至步骤7的内容，直至步骤7所述联合损失函数迭代达到预设条件；

输出模块，用于整体匹配法输出对齐结果，针对两个图谱的实体之间距离进行排名，从两个图谱中各粗排筛选前p个实体，根据p个实体的嵌入向量构建整体相似度矩阵，针对相似度矩阵采用KM算法确定可对齐实体对，作为对齐的最终结果输出。

第三方面，本公开实施例还提供了一种电子设备，该电子设备包括：

至少一个处理器；以及，

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的基于图神经网络的知识图谱实体对齐方法。

本公开实施例中的基于图神经网络的知识图谱实体对齐方案，包括：步骤1，数据准备，获取来源不同的两个图谱的目标信息，其中，目标信息包括关系三元组、属性三元组、实体信息、关系种类信息和已对齐实体对；步骤2，数据预处理，针对每个图谱分别构建图谱的邻接矩阵、度矩阵，根据属性三元组以及实体信息获取每一个实体的初始嵌入向量，将已对齐实体对作为训练数据，即正样本集合S；步骤3，构建图神经网络模型，随机初始化图神经网络模型权值参数，与邻接矩阵相乘；步骤4，网络前向运算，将实体初始嵌入向量输入图神经网络模型，进行前向运算，并获得输出后的嵌入向量；步骤5，融合全局信息的分布迁移法，根据步骤4输出的嵌入向量，构建所有实体与实体之间的实际分布矩阵，计算融合全局分布信息的分布匹配损失函数

步骤7，反向传播更新图神经网络模型权值参数，根据步骤5和步骤6所得到的

和

加权相加得到联合损失函数

采用使联合损失函数最小的随机梯度下降算法更新网络权值参数；步骤8，重复步骤4至步骤7的内容，直至步骤7所述联合损失函数迭代达到预设条件；步骤9，整体匹配法输出对齐结果，针对两个图谱的实体之间距离进行排名，从两个图谱中各粗排筛选前p个实体，根据p个实体的嵌入向量构建整体相似度矩阵，针对相似度矩阵采用KM算法确定可对齐实体对，作为对齐的最终结果输出。

本公开实施例的有益效果为：通过本公开的方案，(1)考虑到来自于图谱间的嵌入信息闭塞问题，通过构建期望分布与实际分布的分布信息，在训练过程中拉近实体分布的子空间靠近，使得潜在可对齐实体数量增多，提升最终实体对齐精度；

(2)采用针对性选取与正样本相似度更高的负样本，大大提升网络区分正样本与负样本的能力，使得训练过程高效化；

(3)构建实体间的相似度矩阵，充分利用图谱间的交互信息，以保证对齐结果是整体最优的结果，显著提升了对齐精度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种基于图神经网络的知识图谱实体对齐方法的流程示意图；

图2为本公开实施例提供的一种基于图神经网络的知识图谱实体对齐方法涉及的整体匹配流程示意图；

图3为本公开实施例提供的一种未使用本方法的分布迁移法的实体分布降维图；

图4为本公开实施例提供的一种已使用本方法的分布迁移法的实体分布降维图；

图5为本公开实施例提供的一种基于图神经网络的知识图谱实体对齐系统的结构示意图；

图6为本公开实施例提供的电子设备示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种基于图神经网络的知识图谱实体对齐方法，所述方法可以应用于互联网处理分析场景的知识消融过程中。

参见图1，为本公开实施例提供的一种基于图神经网络的知识图谱实体对齐方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

具体实施时，本实施方式的数据集以知识图谱实体对齐的开源数据集DBP15K的子集DBPZH-EN(中英文图谱)、DBPJA-EN(日英文图谱)DBPFR-EN(法英文图谱)为例，本实施的数据集如表1所示。

表1

在数据准备阶段，可以先获取来源不同的两个图谱信息，包括关系三元组、属性三元组、实体信息(实体名称、实体间连接关系等)、关系种类信息以及已对齐实体对，以便于进行下一步操作流程。

具体实施时，在数据预处理阶段，针对每个待对齐的图谱，可以分别构建图谱的邻接矩阵、度矩阵，根据属性三元组以及实体信息获取每一个实体的初始嵌入向量，将已对齐实体对看作训练数据，即正样本集合S。

具体实施时，可以构建图神经网络模型，然后随机初始化图卷积神经网络权值参数，与邻接矩阵相乘。其中，所述构建图神经网络模型步骤包括：

利用图卷积神经网络的计算公式：

其中，W^(l)为随机初始化的权值参数，在后续训练过程中不断更新，H^(l)为第l层网络输出，H^(l+1)为第l+1层网络输出，σ为激活函数，

和

分别为标准化后的度矩阵和邻接矩阵。

具体实施时，可以将实体初始嵌入向量输入图神经网络模型，进行前向运算，并获得输出后的嵌入向量。

进一步的，所述步骤5具体包括：

步骤5.1，按如下公式计算并构建实际分布矩阵：

其中，

具体实施时，所述的融合全局信息的分布迁移法步骤可以包括：

步骤51、构建实际分布矩阵：

按如下公式计算并构建实际分布矩阵：

其中，actual为实际分布矩阵，actual(i，j)表示实际分布矩阵中第i行第j列的元素，e_i为图谱1中n个实体的第i个，v_j为图谱2中m个实体的第j个，h(e_i)与h(v_j)分别为e_i与v_j的嵌入向量，||·||即为嵌入向量求模运算，cos_sim用于计算h(e_i)与h(v_j)两者的相似度；

步骤52、构建期望分布矩阵：

构建期望分布矩阵label，其为单位矩阵，即只在对角线元素上置为1，这是保证对角线上元素是最为相似的实体对；

步骤53、计算融合全局信息的分布匹配损失函数：

按如下公式计算融合全局信息的分布匹配损失函数：

其中，J₁为融合全局信息的分布匹配损失函数，D_KL(actual||label)为针对actual和label计算的KL散度。

在上述实施例的基础上，所述步骤6具体包括：

步骤6.2，计算融合局部信息的损失函数：

融合局部信息损失函数计算公式如下：

其中，注意力权值公式根据负样本实体对距离分配权值。

具体实施时，所述融合局部信息的针对性负采样步骤可以包括：

步骤61、针对性选取错误样本：针对正样本集S中的每个正样本实体，在全局范围内挑选足量的错误实体构建错误样本集合，根据这些错误实体与对应正样本实体的距离进行错误实体排名，选取距离最小的前25个错误实体，合并所有正样本的错误实体集构建负样本集合S′。即在负样本集合中，一个实体e_i将与除已对齐实体v_j外的25个错误实体构成25对负样本实体对。

步骤62、计算融合局部信息的损失函数：

融合局部信息损失函数计算公式如下：

其中，(e_i，v_j)为正样本实体对，即图谱1的第i个实体与图谱2的第j个实体对齐；(e_i，v_k′)为负样本实体对，即实体e_i的25对负样本实体对的第k对；γ为分隔超参数，用于保证损失函数值恒为正数；J₂为分隔超参数、正样本间距以及负样本损失三联体组成的损失函数；f(x，y)为曼哈顿距离函数，即f(x，y)为|x-y|；α_k为针对每一个负样本注意力权值，其计算公式如下：

其中，注意力权值公式根据负样本实体对距离分配权值。

和

加权相加得到联合损失函数

具体实施时，在根据步骤5和步骤6所得到的J₁和J₂之后，可以加权相加得到联合损失函数J，采用使联合损失函数最小的随机梯度下降算法更新图神经网络模型的权值参数，以使得图神经网络模型的对齐效率和精度更高。

具体实施时，考虑到实际应用时对模型精度的要求，可以重复步骤4至步骤7的内容，直至步骤7所述联合损失函数迭代达到预设条件，得到训练完成的图神经网络模型，以便于进行后续的对齐。

在上述实施例的基础上，所述步骤9具体包括：

sim(i，j)＝f(h(e_i)，h(v_j))

步骤9.3，KM算法选取可对齐实体对。

进一步的，所述步骤9.3具体包括：

步骤9.3.1，根据两个图谱的实体构造一个二分图G，二分图的顶点集由图谱1实体集E＝{e₁，…，e_i，…，e_p}和图谱2实体集V＝{v₁，…，v_j，…，v_p}两部分组成，顶点集中每一个实体都有相应的顶标值C(该值记录当前匹配状态下，该实体最小的边权值与对应实体顶标值的差值，方便后续寻找更优的可匹配状态)，二分图的边集X＝{(e₁，v₁)，…，(e_i，v_j)，…，(e_p，v_p)}，其中每一个边权值W(i，j)为相似度矩阵中对应第i行第j列的元素；

具体实施时，在整体匹配法输出对齐结果阶段，可以针对两个图谱的实体之间距离进行排名，从两个图谱中各粗排筛选前10500个实体，根据10500个实体的嵌入向量构建整体相似度矩阵(矩阵元素为实体与实体之间的相似度)，针对相似度矩阵采用KM算法确定可对齐实体对，作为对齐的最终结果输出。

具体的，如图2所示，所述整体匹配法输出对齐结果步骤可以包括：

步骤91、基于距离排名的粗排筛选：针对图谱1和图谱2的所有实体计算实体与样本中心的距离，进而得到两个图谱独立的基于距离的排名(其中距离采用曼哈顿距离)，从两个图谱的排名中各自选取距离最小的p个实体；

步骤92、构建整体相似度矩阵：相似度矩阵sim计算公式如下：

sim(i，j)＝f(h(e_i)，h(v_j))

步骤93、KM算法选取可对齐实体对：

步骤931、根据两个图谱的实体构造一个二分图G，二分图的顶点集由图谱1实体集E＝{e₁，…，e_i，…，e₁₀₅₀₀}和图谱2实体集V＝{v₁，…，v_j，…，v₁₀₅₀₀}两部分组成，顶点集中每一个实体都有相应的顶标值C(该值记录当前匹配状态下，该实体最小的边权值与对应实体顶标值的差值，方便后续寻找更优的可匹配状态)；二分图的边集X＝{(e₁，v₁)，…，(e_i，v_j)，…，(e₁₀₅₀₀，v₁₀₅₀₀)}，其中每一个边权值W(i，j)为相似度矩阵中对应第i行第j列的元素；

步骤932、根据边权值最小的原则(贪婪选择法)，针对每一个行实体选取对应的列实体，将边权值设定为行实体的顶标值，并判断是否有冲突(两个不同的行实体选中同一个列实体)；

步骤933、如果出现冲突的对齐选择，冲突的行实体相应提高顶标值，并在满足条件C(e_i)+C(v_j)＝W(i，j)，重新进行一次对齐选择，并判断是否有冲突，若有重复步骤933；

步骤934、输出完美匹配(每一个行实体有且仅有一个列实体对齐，且保证对齐后实体对的相似度之和最小的匹配)后的实体对齐选择。

为了进一步说明本公开的方法，图3、图4分别示出了未使用和已使用本发明分布迁移法的实体分布降维图。从图可以看出，已使用本发明分布迁移法在DBPZH-EN数据集上实体分布更加紧密，两个图谱实体嵌入的子空间更加靠近，成对实体出现的概率更大，提高了对齐的可能性。

从表2可以看出，本发明在DBPZH-EN(中英文对照)、DBPJA-EN(日英文对照)DBPFR-EN(法英文对照)三个数据集上的预测效果优于目前主流的实体对齐方法，其中，Hits@1为实体对齐结果精度。

表2

本实施例提供的基于图神经网络的知识图谱实体对齐方法，通过考虑到来自于图谱间的嵌入信息闭塞问题，通过构建期望分布与实际分布的分布信息，在训练过程中拉近实体分布的子空间靠近，使得潜在可对齐实体数量增多，提升最终实体对齐精度；采用针对性选取与正样本相似度更高的负样本，大大提升网络区分正样本与负样本的能力，使得训练过程高效化；构建实体间的相似度矩阵，充分利用图谱间的交互信息，以保证对齐结果是整体最优的结果，显著提升了对齐精度。

与上面的方法实施例相对应，参见图5，本公开实施例还提供了一种基于图神经网络的知识图谱实体对齐系统50，包括：

获取模块501，用于数据准备，获取来源不同的两个图谱的目标信息，其中，目标信息包括关系三元组、属性三元组、实体信息、关系种类信息和已对齐实体对；

预处理模块502，用于数据预处理，针对每个图谱分别构建图谱的邻接矩阵、度矩阵，根据属性三元组以及实体信息获取每一个实体的初始嵌入向量，将已对齐实体对作为训练数据，即正样本集合S；

构建模块503，用于构建图神经网络模型，随机初始化图卷积神经网络权值参数，与邻接矩阵相乘；

运算模块504，用于网络前向运算，将实体初始嵌入向量输入网络，进行前向运算，并获得输出后的嵌入向量；

全局信息融合模块505，用于融合全局信息的分布迁移法，根据步骤4输出的嵌入向量，构建所有实体与实体之间的实际分布矩阵，计算融合全局分布信息的分布匹配损失函数

局部信息融合模块506，用于融合局部信息的针对性负采样，基于正样本集合S中每一个实体对，针对性选取多个错误样本构建所有负样本的集合S′，并计算融合局部信息的三联体损失函数

更新模块507，用于反向传播更新网络权值参数，根据步骤5和步骤6所得到的

和

加权相加得到联合损失函数

采用使联合损失函数最小的随机梯度下降算法更新网络权值参数；

迭代模块508，用于重复步骤4至步骤7的内容，直至步骤7所述联合损失函数迭代达到预设条件；

输出模块509，用于整体匹配法输出对齐结果，针对两个图谱的实体之间距离进行排名，从两个图谱中各粗排筛选前p个实体，根据p个实体的嵌入向量构建整体相似度矩阵，针对相似度矩阵采用KM算法确定可对齐实体对，作为对齐的最终结果输出。

图5所示系统可以对应的执行上述方法实施例中的内容，本实施例未详细描述的部分，参照上述方法实施例中记载的内容，在此不再赘述。

参见图6，本公开实施例还提供了一种电子设备60，该电子设备包括：至少一个处理器以及与该至少一个处理器通信连接的存储器。其中，该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述方法实施例中的基于图神经网络的知识图谱实体对齐方法。

本公开实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述方法实施例中的基于图神经网络的知识图谱实体对齐方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，该计算机程序包括程序指令，当该程序指令被计算机执行时，使该计算机执行前述方法实施例中的基于图神经网络的知识图谱实体对齐方法。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备60的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备60可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备60操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备60与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备60，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备可以执行上述方法实施例的相关步骤。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备可以执行上述方法实施例的相关步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于图神经网络的知识图谱实体对齐方法，其特征在于，包括：

步骤6，融合局部信息的针对性负采样，基于正样本集合S中每一个实体对，针对性选取多个错误样本构建所有负样本的集合S'，并计算融合局部信息的三联体损失函数

和

加权相加得到联合损失函数

2.根据权利要求1所述的方法，其特征在于,所述步骤5具体包括：

步骤5.1，按如下公式计算并构建实际分布矩阵：

其中，actual为实际分布矩阵，actual(i,j)表示实际分布矩阵中第i行第j列的元素，e_i为图谱1中n个实体的第i个,v_j为图谱2中m个实体的第j个，h(e_i)与h(v_j)分别为e_i与v_j的嵌入向量，||·||即为嵌入向量求模运算，cos_sim为计算h(e_i)与h(v_j)两者的相似度；

其中，1为融合全局信息的分布匹配损失函数，D_KL(actual||label)为针对actual和label计算的KL散度。

3.根据权利要求2所述的方法，其特征在于,所述步骤6具体包括：

步骤6.1，针对性选取错误样本：针对正样本集S中的每个正样本实体，在全局范围内挑选足量的错误实体构建错误样本集合，根据这些错误实体与对应正样本实体的距离进行错误实体排名，选取距离最小的前25个错误实体，合并所有正样本的错误实体集构建负样本集合S'，负样本集合S'中，一个实体e_i将与除已对齐实体v_j外的25个错误实体构成25对负样本实体对；

步骤6.2，计算融合局部信息的损失函数：

融合局部信息损失函数计算公式如下：

其中，(e_i,v_j)为正样本实体对,即图谱1的第i个实体与图谱2的第j个实体对齐，(e_i,v_k')为负样本实体对，即实体e_i的25对负样本实体对的第k对，γ为分隔超参数，

为分隔超参数、正样本间距以及负样本损失三联体组成的损失函数，f(x,y)为曼哈顿距离函数，即f(x,y)为|x-y|，α_k为针对每一个负样本注意力权值，其计算公式如下：

其中，注意力权值公式根据负样本实体对距离分配权值。

4.根据权利要求3所述的方法，其特征在于,所述步骤9具体包括：

sim(i,j)＝f(h(e_i),h(v_j))

其中，sim(i,j)为相似度矩阵中第i行第j列的元素，h(e_i)与h(v_j)分别是图谱1中第i个实体和图谱2中第j个实体的嵌入向量；

步骤9.3，KM算法选取可对齐实体对。

5.根据权利要求4所述的方法，其特征在于,所述步骤9.3具体包括：

步骤9.3.1，根据两个图谱的实体构造一个二分图G，二分图的顶点集由图谱1实体集E＝{e₁,…,e_i,…,e_p}和图谱2实体集V＝{v₁,…,v_j,…,v_p}两部分组成，顶点集中每一个实体都有相应的顶标值C(该值记录当前匹配状态下，该实体最小的边权值与对应实体顶标值的差值，方便后续寻找更优的可匹配状态)，二分图的边集X＝{(e₁,v₁),…,(e_i,v_j),…,(e_p,v_p)}，其中每一个边权值W(i,j)为相似度矩阵中对应第i行第j列的元素；

步骤9.3.3，若出现冲突的对齐选择，则提高冲突的行实体的顶标值，并在满足条件C(e_i)+C(v_j)＝W(i,j),重新进行一次对齐选择，并判断是否有冲突，若有，则重复步骤9.3.3；

6.一种基于图神经网络的知识图谱实体对齐系统，其特征在于，包括：

局部信息融合模块，用于融合局部信息的针对性负采样，基于正样本集合S中每一个实体对，针对性选取多个错误样本构建所有负样本的集合S'，并计算融合局部信息的三联体损失函数

和

加权相加得到联合损失函数

7.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述权利要求1-5 中任一项所述的基于图神经网络的知识图谱实体对齐方法。