CN113641826A

CN113641826A - 面向多源知识图谱融合的实体对齐方法、装置与系统

Info

Publication number: CN113641826A
Application number: CN202110726190.5A
Authority: CN
Inventors: 鄂海红; 林学渊; 宋文宇; 宋美娜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-11-12
Anticipated expiration: 2041-06-29
Also published as: CN113641826B; WO2023273182A1

Abstract

本申请公开一种面向多源知识图谱融合的实体对齐方法、装置与系统，涉及大数据处理技术领域，该方案包括：提取知识图谱中实体的实体特征，根据实体的实体特征生成实体嵌入矩阵，并根据实体嵌入矩阵获取知识图谱的实体表示；根据实体表示计算实体与相邻实体的关系信息，根据关系信息增强实体表示得到完整实体表示；依据完整实体表示获取最终实体嵌入矩阵；根据最终实体嵌入矩阵和数据集计算损失函数；采用双向全局过滤策略对损失函数和实体的属性信息进行处理生成迭代正样本集和迭代负样本集，通过样本集对神经网络模型进行迭代训练。上述方案解决了现有技术中实体与关系之间的影响交互不足和低质量自举的技术问题。

Description

面向多源知识图谱融合的实体对齐方法、装置与系统

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种面向多源知识图谱融合的实体对齐方法、装置与系统。

背景技术

知识图谱(Knowledge Graph，简称KG)，由点(实体)和边(实体间的关系，实体属性)组成，在人工智能的多项研究与应用中扮演着举足轻重的角色，它作为问答、推荐系统等领域的技术基石，受到了广泛关注。广泛应用于知识驱动的AI任务，如问答模型、推荐系统、搜索引擎等等。通用知识图谱及领域知识图谱由不同组织机构、专家或自动化及半自动化系统构建形成，彼此之间存在着知识的重叠和交叉，因此，合并(融合)两个知识图谱对扩大现有知识图谱、提升下游任务等有特殊意义。

实体对齐是多源知识图谱自动融合(合并/集成)的关键步骤，其效果和知识图谱自动融合(合并/集成)的效果直接相关，因此实体对齐算法的准确率尤为重要。由于不同的知识图谱对于实体各方面信息的表达差异性较大，现有针对实体对齐的方法，大多基于图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等模型，通过知识图谱特有的三元组结构的学习来传播对齐信息，但是以下缺点：

(1)交互不足。对实体为中心的模型来说，实体和关系之间的隐性交互是很难建模的，和关系为中心的模型恰恰相反。而现有技术的工作集中在图的连通性上，忽略了关系类型、关系方向、实体信息对关系表示的贡献等等。

(2)低质量自举。为解决缺少预对齐种子数据的缺点提出的自举方法认为，如果模型对其预测的结果有信心，那这个结果应该视为正确，作为额外的数据也加入模型训练，这样模型效果还能提升，BootEA、MRAEA都是优秀且经典的自举方法，但都严重依赖于模型本身的效果，而且生成的数据错误率高，质量低，且只能生成正例，不能生成负例，这导致对预测结果利用率较低的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种面向多源知识图谱融合的实体对齐方法，对实体和关系之间的隐性交互进行了建模，提高了实体与关系之间的交互；其次，根据损失函数和实体的属性信息，采用结合属性的双向全局过滤策略(ABGS)的迭代策略来生成高质量的半监督数据，且进一步生成包含正例和负例的“对齐实体对”，以降低生成的数据错误率，和提高对预测结果的利用率。

本发明的第二个目的在于提出一种面向多源知识图谱融合的实体对齐装置。

本发明的第三个目的在于提出一种面向多源知识图谱自动化集成的数据服务系统。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种面向多源知识图谱融合的实体对齐方法，包括：

提取知识图谱中实体的实体特征，根据所述实体的实体特征生成实体嵌入矩阵，并根据所述实体嵌入矩阵获取所述知识图谱的实体表示；

根据所述实体表示计算所述实体与所述相邻实体的关系信息，并根据所述关系信息增强所述实体表示，以得到所述知识图谱的完整实体表示；

根据所述完整实体表示获取完整实体嵌入矩阵，根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵；

根据所述最终实体嵌入矩阵和数据集计算损失函数；

根据所述损失函数和实体的属性信息，采用双向全局过滤策略生成样本集，并根据所述样本集对神经网络模型进行迭代训练，使得训练后的神网络模型具有对齐和融合多个知识图谱的能力，其中，所述样本集包括迭代正样本集和迭代负样本集。

可选的，本申请实施例提出的面向多源知识图谱融合的实体对齐方法，还包括：dropout 网络和跨层highway网络；

其中，使用highway网络混合两种不同的实体嵌入矩阵，其中，

α＝sigmoid(X^(a)W+b)，

X^(out)＝(1-α)X^(a)+αX^(b)，

其中，X^(a),X^(b)是两个实体嵌入矩阵，X^(out)是highway网络的输出，W和b分别是线性层的权重矩阵的偏置矢量，α是门控权重向量；

将所述highway网络的输出X^(out)输入dropout网络，以得到混合特征，将所述混合特征输入到图注意力网络GAT，所述图注意力网络GAT输出为：

其中，

是第

层GAT输出的实体e_i的嵌入表示，

是第

层GAT输出的实体e_j′的嵌入表示，α_ij表示实体e_i的相邻实体的注意力权重，a是可训练的参数向量，维数为2d_e×1， a^T表示参数向量的转置，[*||*]表示拼接运算，exp(x)＝e^x，LeakyReLU是激活函数，LeakyReLU(x)＝max(x,0)+0.01*min(x,0)，N_i表示实体e_i的所有相邻实体组成的集合。

可选的，在本申请实施例中，根据所述实体表示计算所述实体与所述相邻实体的关系信息，并根据所述关系信息增强所述实体表示，以得到所述知识图谱的完整实体表示，包括：

将每个关系r_k的语义分为两部分，与头实体相关的部分

和与尾实体相关的部分

每个实体x的表示可以拆分为x^h＝x^(PAN)W^h和x^t＝x^(PAN)W^t，其中W^h,

是权重矩阵，d_r是关系嵌入维数，x^(PAN)是来自原始聚合层输出的嵌入矩阵X^(PAN)的实体嵌入；

采用所述图注意力网络GAT将实体信息传播到关系，

其中，

是基于关系头语义

的实体e_i作为头实体的部分表示，

是与头实体e_i相关的关系列表，α_ik表示关系r_k关于头实体e_i的注意力权重；

从

计算出

和从

计算出

使用所述Highway网络自动平衡

和

中的信息，并通过拼接获得e_i的完整实体表示

可选的，在本申请实施例中，根据所述完整实体表示获取完整实体嵌入矩阵，根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵，包括：

使用回响网络输出所述完整实体对应的完整实体嵌入矩阵X^(EN)，并输出所述最终实体嵌入矩阵

可选的，在本申请实施例中，所述损失函数计算公式是：

其中，P⁺是正样本集，P^-是从正样本集中生成的负样本集，

是迭代策略生成的负样本集，λ是超参数，x_i是来自

实体嵌入向量，d(x_i,x_j)是距离函数d(x_i,x_j)＝|x_i-x_j|，P⁺由两部分组成，一部分是原始的预对齐实体的训练集P，另一部分是结合属性的双向全局过滤策略生成的迭代正样本集

即

可选的，在本申请实施例中，所述双向全局过滤策略包括：

计算属性相似度矩阵和属性值相似度矩阵；

根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵；

根据所述最终相似度矩阵计算局部对齐的结果；

使用局部对齐和全局对齐来生成半监督数据，以生成迭代正样本集和迭代负样本集。

为达上述目的，本申请第二方面实施例提出了一种面向多源知识图谱融合的实体对齐装置，包括：

原始聚合网络模块，用于提取知识图谱中实体的实体特征，根据所述实体的实体特征生成实体嵌入矩阵，并根据所述实体嵌入矩阵获取所述知识图谱的实体表示；

回响网络模块，用于根据所述实体表示计算所述实体与所述相邻实体的关系信息，并根据所述关系信息增强所述实体表示，以得到所述知识图谱的完整实体表示；

完整聚合网络模块，用于根据所述完整实体表示获取完整实体嵌入矩阵，根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵；

对齐损失函数计算模块，用于根据所述最终实体嵌入矩阵和数据集计算损失函数；

结合属性的双向全局过滤策略模块，用于根据所述损失函数和实体的属性信息，采用双向全局过滤策略生成样本集，并根据所述样本集对神经网络模型进行迭代训练，使得训练后的神网络模型具有对齐和融合多个知识图谱的能力，其中，所述样本集包括迭代正样本集和迭代负样本集。

为达上述目的，本申请第三方面实施例提出了一种面向多源知识图谱自动化集成的数据服务系统，包括：

待对齐知识图谱数据源管理模块，用于保存和管理多个知识图谱数据源；

数据管理模块，用于获取待对齐知识图谱数据，将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据；

知识融合模块，用于使用如本申请第一方面实施例所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对，根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱；

已融合知识图谱管理模块，用于保存和管理所述知识图谱，并根据所述知识图谱发布数据服务。

为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本申请第一方面实施例所述的面向多源知识图谱融合的实体对齐方法。

综上所述，本申请实施例的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统及可读存储介质，该方案首先提取知识图谱中实体的实体特征，根据所述实体的实体特征生成实体嵌入矩阵，并根据所述实体嵌入矩阵获取所述知识图谱的实体表示；然后依据得到的实体表示计算实体与相邻实体的关系信息，并根据实体与相邻实体的关系信息增强上述实体表示，以得到知识图谱的完整实体表示；随后依据得到的知识图谱的完整实体表示获取最终实体嵌入矩阵；再根据获取的最终实体嵌入矩阵和数据集计算损失函数；最后采用双向全局过滤策略对损失函数和实体的属性信息进行处理以生成迭代正样本集和迭代负样本集，进而通过样本集对神经网络模型进行迭代训练，以使得训练后的神网络模型具有对齐和融合多个知识图谱的能力。由此，本申请实施例公开的上述方案实现了对实体和关系之间的隐性交互的建模，提高了实体与关系之间的交互；其次，根据损失函数和实体的属性信息，采用结合属性的双向全局过滤策略(ABGS)的迭代策略来生成高质量的半监督数据，且进一步生成包含正例和负例的“对齐实体对”，以降低生成的数据错误率，和提高对预测结果的利用率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐方法的流程图；

图2为本申请实施例中实体对齐方法的总体流程图；

图3为本申请实施例中双向全局过滤策略的流程图；

图4为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐装置的结构示意图；以及

图5为本申请实施例所提供的一种面向多源知识图谱自动化集成的数据服务系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实体对齐是多源知识图谱自动融合(合并/集成)的关键步骤，其效果和知识图谱自动融合(合并/集成)的效果直接相关，因此实体对齐算法的准确率尤为重要。由于不同的知识图谱对于实体各方面信息的表达差异性较大，现有针对实体对齐的方法，大多基于图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等模型，通过知识图谱特有的三元组结构的学习来传播对齐信息。

目前主流的实体对齐框架是：

(1)首先使用知识图谱嵌入(Knowledge Graph Embedding,KGE)模型将实体表示嵌入到低维向量空间中；

(2)然后基于实体向量计算源实体与候选实体的相似度矩阵；

(3)最后根据相似度矩阵获得预测结果。

从信息流的角度，目前知识图谱嵌入KGE模型分为两类：第一类是以关系为中心，强调尾实体来自于关系作用于头实体。这类包括TransE系列、旋转模型、极坐标模型、双线性模型等等，已经在实体链接预测任务大放异彩。但是在实体对齐任务中，这些模型效果表现不佳；第二类是以实体为中心，强调所有实体一律平等，实体间的关系仅作为增强实体表示的信息源之一。这类模型有图神经网络模型(GNN)、基于卷积的模型、基于胶囊网络的模型等等，他们和计算机视觉领域和自然语言处理领域密切相关，可解释性较弱。

特别地，图神经网络的迅速发展推动了第二类以实体为中心的方法的应用，但是经实践这种方式存在着缺少预对齐种子数据的缺点，针对上述缺点，本领域技术人员提出了自举方法，自举方法也叫做自扩展方法，它是在每一轮迭代中，选择若干个置信度较高(全局最高)的“对齐实体对”添加到训练集中来迭代扩展生成“对齐实体对”数据。但是，现有的自扩展方法，缺少预对齐种子数据的问题被一定程度解决，但实践证明，现有的技术依旧存在下述缺点：

针对上述问题，本申请实施例提出一种面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统和可读存储介质。

为了对实体和关系之间的隐性交互建模，本申请实施例设计了一个新颖的图神经网络模型Echo，以提高实体与关系之间的隐性交互；其次本申请实施例还提出了一个更优异的迭代策略，结合属性的双向全局过滤策略(ABGS)，来生成高质量的半监督数据(用于下一轮次训练的“对齐实体对”)，且进一步生成的“对齐实体对”，既有正例，还包含负例。

通过本申请实施例提出的技术方案，在跨语言知识图谱数据集上，经过测试，这样能够将模型top1准确率提升到96％，远远超过以往模型的79％。

另外，本申请实施例还包括实体对齐装置、数据服务系统和非临时性计算机可读存储介质，上述方案可以应用在各类场景中的多源知识图谱自动融合任务中，例如：两个金融事件知识图谱、两个医学知识图谱、两个不同百科生成的常识知识图谱。

下面参考附图描述本申请实施例的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统和非临时性计算机可读存储介质。

图1为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐方法的流程图。

图2为本申请实施例中实体对齐方法的总体流程图。

如图1和图2所示，本申请实施例提供的一种面向多源知识图谱融合的实体对齐方法，包括以下步骤：

步骤101，提取知识图谱中实体的实体特征，根据实体的实体特征生成实体嵌入矩阵，并根据实体嵌入矩阵获取所述知识图谱的实体表示。

本申请实施例为了获得基础的实体表示，提出了原始聚合网络模块，具体而言，原始聚合网络模块通过采用堆积多层GCN和GAT来提取知识图谱中实体的实体特征，以生成实体嵌入矩阵，例如，在跨语言实体对齐场景中，其原始聚合网络模块可以设计为第一层是GCN，第二层和第三层是GAT。

进一步的，为了解决过平滑问题，本申请实施例在原始聚合网络模块中插入dropout 网络和跨层highway网络。

具体而言，本申请实施例设实体嵌入矩阵

其中|E|是KG的实体数，d_e是实体嵌入维数。

则GCN层的输出

是：

其中σ(.)是激活函数，一般取为ReLU函数ReLU(x)＝max(x,0)，

是每个实体具有自环的邻接矩阵(I为单位矩阵，M为图的邻接矩阵)，

是度矩阵，W是d⁽ⁱⁿ⁾×d^(out)维的权重矩阵，其中，d⁽ⁱⁿ⁾＝d^(out)＝d_e。

在本申请实施例中使用highway网络混合两种不同的实体嵌入矩阵，其中，

α＝sigmoid(X^(a)W+b)，

X^(out)＝(1-α)X^(a)+αX^(b)，

将highway网络的输出X^(out)输入dropout网络，以得到混合特征，将混合特征输入到图注意力网络GAT，图注意力网络GAT输出为：

其中，

是第

层GAT输出的实体e_i的嵌入表示，

是第

层GAT输出的实体e_j′的嵌入表示，α_ij表示实体e_i的相邻实体的注意力权重，a是可训练的参数向量，维数为2d_e×1， a^T表示参数向量的转置，[*||*]表示拼接运算，exp(x)＝e^x，LeakyReLU是激活函数，LeakyReLU(x)＝max(x,0)+0.01*min(x,0)，N_i表示实体e_i的所有相邻实体组成的集合。另外，在回响网络模块中本申请实施例也使用了highway网络。

步骤102，根据所述实体表示计算所述实体与所述相邻实体的关系信息，并根据所述关系信息增强所述实体表示，以得到所述知识图谱的完整实体表示。

进一步的，本申请实施例根据由步骤101得到的实体表示计算实体与相邻实体的关系信息，并根据关系信息增强实体表示，以得到知识图谱的完整实体表示，包括：

将每个关系r_k的语义分为两部分，与头实体相关的部分

和与尾实体相关的部分

采用所述图注意力网络GAT将实体信息传播到关系，

其中，

是基于关系头语义

的实体e_i作为头实体的部分表示，

从

计算出

和从

计算出

使用所述Highway网络自动平衡

和

中的信息，并通过拼接获得e_i的完整实体表示

由此可知，本申请实施例中的回响网络模块输出的是知识图谱的完整实体表示，具体通过下述方式得到知识图谱的完整实体表示：

本申请实施例中的完整实体表示由邻居关系表示的两个视图动态计算而成，且关系表示是基于原始实体表示生成的，其中，回响网络模块设计与以前的模型不同，因为它不忽略实体对关系的贡献，且使关系的不同部分发挥作用，换言之，本申请实施例中回响网络模块的设计遵循这样的思想，即必须进一步利用关系信息来增强实体表示，而不能忽略实体对关系的贡献。

由此，本申请实施例将每个关系r_k的语义分为两部分，与头实体相关的部分

和与尾实体相关的部分

也就是说，每个部分仅取决于相关实体。

类似地，每个实体x的表示可以拆分为x^h＝x^(PAN)W^h和x^t＝x^(PAN)W^t，其中 W^h,

是权重矩阵，d_r是关系嵌入维数，x^(PAN)是来自原始聚合层输出的嵌入矩阵X^(PAN)的实体嵌入。

本申请实施例采用GAT将实体信息传播到关系，如下所示：

其中

是和关系r_k相连的头实体集合，

是和关系r_k头实体e_i相连的尾实体集合，α_ijk表示基于头实体e_i和尾实体e_j的从头实体e_i到关系r_k的注意力权重。

直接传递到下一层 GAT，以输出完整实体表示的作为头实体的部分。

本申请实施例有：

其中

是基于关系头语义

的实体e_i作为头实体的部分表示，

是与头实体e_i相关的关系列表，而不是集合，这里允许重复特定于不同尾实体的关系，α_ik表示关系r_k关于头实体e_i的注意力权重。以相同的方式，本申请实施例可以从

计算出

和从

计算出

然后，本申请实施例应用Highway网络自动平衡

和

中的信息，并通过拼接获得e_i的完整实体表示

步骤103，根据所述完整实体表示获取完整实体嵌入矩阵，根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵。

进一步的，本申请实施例根据完整实体表示获取完整实体嵌入矩阵，根据完整实体嵌入矩阵获取最终实体嵌入矩阵，包括：

使用回响网络输出完整实体对应的完整实体嵌入矩阵X^(EN)，并输出最终实体嵌入矩阵

在本申请实施例中，经过回响网络后的实体表示才是完整的实体表示。完整聚合网络模块在此基础上，再次聚合邻居实体的信息，以获取最终实体嵌入矩阵，具体获取方式如下：

利用Echo网络输出的完整实体嵌入矩阵X^(EN)，本申请实施例继续使用GAT层再次从邻居那里聚合信息。

尽管它们具有相同的结构，但该层中的GAT比原始聚合层中的GAT强大得多，因为该层进一步从解构的关系中获得实体信息，而原始聚合层忽略关系在实体上的作用，所以完整聚合网络对于聚合最佳实体表示至关重要。

为了简化问题，我们使用和原始聚合网络(PAN)模块相同的注意力层。

最后，最终输出实体嵌入矩阵

为：

步骤104，根据最终实体嵌入矩阵和数据集计算损失函数，其中，损失函数计算公式是：

其中，P⁺是正样本集，P^-是从正样本集中生成的负样本集，

是迭代策略生成的负样本集，λ是超参数，x_i是来自

即

具体而言，本申请实施例对齐损失函数计算模块负责根据实体表示和数据集，计算损失，用于神经网络的训练，损失函数计算公式是使用曼哈顿距离的Hinge损失。

步骤105，根据所述损失函数和实体的属性信息，采用双向全局过滤策略生成样本集，并根据所述样本集对神经网络模型进行迭代训练，使得训练后的神网络模型具有对齐和融合多个知识图谱的能力，其中，所述样本集包括迭代正样本集和迭代负样本集。

为了生成高质量样本，本申请实施例提出结合属性的双向全局过滤策略方法，及相应处理模块。该策略的输入是实体候选集E1，E2和关系相似度矩阵

输出是迭代正样本集

和迭代负样本集

其中，关系相似度矩阵的第i行第j列元素

d(x_i,x_j)是距离函数d(x_i,x_j)＝|x_i-x_j|。

|E1|和|E2|分别是集合E1和E2的元素个数。

在本申请实施例中，双向全局过滤策略模块的任务是：负责在模型训练的过程中，不断生成高质量的对齐数据，用于模型的下一轮训练。由此，本申请实施例提出的双向全局过滤策略模块结合了实体的属性信息，通过属性信息的引入，进一步提升了正例生成的精确度，降低了正例的生成误差，对下一轮迭代训练质量的影响。

图3为本申请实施例中双向全局过滤策略的流程图。

进一步的，如图3所示，本申请实施例中的双向全局过滤策略包括：

步骤201计算属性相似度矩阵和属性值相似度矩阵，具体的计算方式如下：

(1)计算基于属性名称的相似度。

计算基于属性名称的相似度时，在跨语言对齐中可以是将不同语言(中文、法语、德语等)的属性名称翻译成相同的语言。在同语言场景下的多源实体对齐，可以直接计算两个属性名称的相似度。

这里以跨语言对齐为例。首先，将属性的名称翻译成相同的语言(英语)，然后根据字符串匹配测度(Sorensen-Dice系数)作为相似度，按top1相似度大于给定阈值λ过滤出对齐属性对。接下来，使用这些可比较的属性，获得实体e_i的属性集Attr(e_i)。最后，可以计算基于属性的相似度矩阵S^attr，其中第i行第j列元素

e_i,e_j是分别来自KG1和KG2的两个实体，

表示两个集合A和B之间的Jaccard 相似度。

(2)计算基于属性值的相似度

为了基于属性值计算e_i,e_j的相似度，首先获取公共属性集C_attr＝Attr(e_i)∩Attr(e_j)。对于C_attr中的每个属性，基于实体e_i和e_j的属性a的值相似度为

其中Value_a(e_i)是实体e_i的属性a的值集。

通过平均C_attr中所有属性的值相似度，得到基于属性值的相似度矩阵S^attr_value，其中第 i行第j列元素

步骤202，根据所述属性相似度矩阵和属性值相似度矩阵计算最终相似度矩阵。

具体而言，本申请实施例先获得由步骤202获得三个相似度矩阵S^attr_value，S^attr和S^rel，再使用超参数α₁,α₂,α₃∈[0,1]计算最终的对齐矩阵：

S＝α₁S^attr_value+α₂S^attr+α₃S^rel

步骤203，根据所述最终相似度矩阵计算局部对齐的结果。

具体而言，本申请实施例根据最终相似度矩阵S，计算局部对齐的结果如下：

其中S(e₁,e₂)表示最终相似度矩阵中实体e₁和实体e₂的相似度。

指遍历集合E2中所有元素，取其中使S(e₁,e₂)最大的实体。

为根据左边实体预测右边实体所得结果；类似地，

为根据右边实体预测左边实体所得结果。

分别是根据局部对齐结果所获得的正样本集和负样本集，这两个样本集在下一步中需要用到。

步骤204，使用局部对齐和全局对齐来生成半监督数据，以生成迭代正样本集和迭代负样本集。

具体而言，本申请实施例同时使用局部对齐和全局对齐来生成半监督数据。

全局对齐是指从候选集中选取目标实体的过程是不放回的。

与之相比，局部对齐是指从候选集中选取目标实体时是有放回的。

因为局部对齐生成的两个样本集包含了很多无法确保是正确还是错误的样本，我们用更严格的全局对齐来过滤它。

设全局对齐的结果为P_global。然后迭代正样本集

和迭代负样本集

计算如下：

最终，该策略输出迭代正样本集

和迭代负样本集

供神经网络模型训练中使用。

为了便于本领域技术人员更好的理解本申请实施例，现提供结合属性的双向全局过滤策略的伪代码如下：

上述实施例的应用场景分为原图应用和支撑应用。其中，原图应用指使用融合好的知识图谱直接进行应用，如图查询；支撑应用指以融合好的知识图谱为下游应用提供支撑，如推荐、搜索、问答。

具体而言，本申请实施例中的原图应用包括：学术知识查询、法律案牍查询、企业关系查询、保险理赔案例查询、临床病例查询、业务流程查询等。

例如，以学术知识查询为例，利用此发明融合多语言数据源的学术知识图谱，学术名词实体对齐后，有利于跨源的相关知识的搜索查询。如：查询中文的学术名词“牛顿力学”，其英语源知识图谱的对齐实体为“Newtonian Mechanics”，则可以将英语源知识图谱中关于“Newtonian Mechanics”的学术知识添加到“牛顿力学”的查询结果中。

具体而言，本申请实施例中的支撑应用包括：智能问答、智能搜索、智能推荐、决策分析系统、群体画像、全息档案、风险预警、辅助临床诊疗等。

例如，以智能搜索为例，基于知识图谱的智能搜索能对文本、图片、视频等复杂多元对象进行跨媒体搜索，也能实现篇章级、段落级、语句级的多粒度搜索。智能搜索让计算机更准确地识别和理解用户深层的搜索意图和需求，在多源知识图谱中查找出目标实体及其相关内容，对结果内容进行实体排序和分类，并以符合人类习惯的自然语言的形式展示，从而提高搜索体验。

为了实现上述实施例，本发明还提出一种面向多源知识图谱融合的实体对齐装置。

图4为本申请实施例所提供的一种面向多源知识图谱融合的实体对齐装置的结构示意图。

如图4所示，本申请实施例提供的一种面向多源知识图谱融合的实体对齐装置，包括：

原始聚合网络模块10，用于提取知识图谱中实体的第一实体特征和相邻实体的第二实体特征，根据所述实体的第一实体特征生成第一实体嵌入矩阵，根据所述相邻实体的第二实体特征生成第二实体嵌入矩阵，并对所述第一实体嵌入矩阵和所述第二实体嵌入矩阵进行聚合以得到所述知识图谱的实体表示；

回响网络模块20，用于根据所述实体表示计算所述实体与所述相邻实体的关系信息，并根据所述关系信息增强所述实体表示，以得到所述知识图谱的完整实体表示；

完整聚合网络模块30，用于根据所述完整实体表示获取完整实体嵌入矩阵，根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵；

对齐损失函数计算模块40，用于根据所述最终实体嵌入矩阵和数据集计算损失函数；

结合属性的双向全局过滤策略模块50，用于根据所述损失函数和实体的属性信息，采用双向全局过滤策略生成样本集，并根据所述样本集对神经网络模型进行迭代训练，使得训练后的神网络模型具有对齐和融合多个知识图谱的能力，其中，所述样本集包括迭代正样本集和迭代负样本集。

为了实现上述实施例，本申请实施例提出了一种面向多源知识图谱自动化集成的数据服务系统。

如图5所示，本申请实施例提供的一种面向多源知识图谱自动化集成的数据服务系统，包括：

待对齐知识图谱数据源管理模块60，用于保存和管理多个知识图谱数据源；

数据管理模块70，用于获取待对齐知识图谱数据，将待对齐知识图谱数据转换成预设数据格式的待对齐知识图谱数据；

知识融合模块80，用于使用本申请实施例所述的面向多源知识图谱融合的实体对齐方法中训练后的神网络模型对预设数据格式的待对齐知识图谱数据进行预测以得到对齐实体对，根据所述对齐实体对将待对齐知识图谱数据融合为知识图谱；

已融合知识图谱管理模块90，用于保存和管理所述知识图谱，并根据所述知识图谱发布数据服务。

为了便于本领域技术人员更好的理解本申请实施例提出的面向多源知识图谱自动化集成的数据服务系统，现用下述运行实例进行说明。

假设有两个数据源：源A和源B，分别位于服务器A和服务器B。

服务器1运行待对齐知识图谱数据源管理模块，它保存的描述数据记录类似下表，下表为待对齐知识图谱数据源管理模块的一个描述数据表示例：

服务器2运行数据管理模块。

服务器3运行知识融合模块。

服务器4运行已融合知识图谱管理模块。

一个运行实例如下：

1)服务器2向服务器1发起请求，获取所有数据源的描述数据，用于动态组装数据转换模块。接着委托服务器1依次请求源A的数据和源B的数据。

2)服务器1将依次向123.123.123.1:8888和123.123.123.2:8888发起请求，并将数据转发给服务器2。

3)服务器2接收服务器1的数据，执行数据读取模块、数据转换模块、数据传输模块，将原始的知识图谱数据转换为标准格式，再将标准格式的多个知识图谱数据转发给服务器3。

4)服务器3接收服务器2的标准数据；首先运行训练模块，使神经网络模型具有融合多个知识图谱的能力；接着运行预测模块，让训练好的神经网络模型预测多个知识图谱的交集，即对齐实体对；最后运行融合模块，将多个知识图谱融合为一个知识图谱，发送给服务器4。

5)服务器4接收服务器3的统一知识图谱，将该知识图谱发布为数据服务。第三方可以订阅该服务，将该知识图谱拉取到他们的服务器上。服务器4可以作为数据源，继续为下一个面向多源知识图谱自动化集成的数据服务系统提供数据，以构建更大更完善的知识图谱。

为了实现上述实施例，本申请实施例还提出其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本申请实施例所述的面向多源知识图谱融合的实体对齐方法。

综上，本申请实施例提出的本申请实施例的的面向多源知识图谱融合的实体对齐方法、实体对齐装置、数据服务系统及计算机设备，上述方案具有以下优点：

一是，图神经网络模型Echo进一步加强了实体和关系之间的交互，使得实体表示能够感知关系的不同部分，其结构和计算过程具有新颖性和有效性。

二是，迭代生成训练数据的结合属性的双向全局过滤策略，能够解决缺乏人工对齐种子的问题，并能够大幅提高模型的准确率。

三是，利用上述实体对齐装置的面向多源知识图谱自动化集成的数据服务系统，将知识图谱数据源抽象化为描述数据，并自动化运行对齐装置来融合多源知识图谱，自动发布融合后的知识图谱为数据服务，使得第三方能方便获取统一的大规模知识图谱数据资源。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向多源知识图谱融合的实体对齐方法，其特征在于，包括：

根据所述最终实体嵌入矩阵和数据集计算损失函数；

2.如权利要求1所述的面向多源知识图谱融合的实体对齐方法，其特征在于，还包括：

dropout网络和跨层highway网络；

其中，使用highway网络混合两种不同的实体嵌入矩阵，其中，

α＝sigmoid(X^(a)W+b)，

X^(out)＝(1-α)X^(a)+αX^(b)，

其中，X^(a)，X^(b)是两个实体嵌入矩阵，X^(out)是highway网络的输出，W和b分别是线性层的权重矩阵的偏置矢量，α是门控权重向量；

其中，

是第l层GAT输出的实体ei的嵌入表示，

是第l-1层GAT输出的实体e_j′的嵌入表示，α_ij表示实体e_i的相邻实体的注意力权重，a是可训练的参数向量，维数为2d_e×1，a^T表示参数向量的转置，[*||*]表示拼接运算，exp(x)＝e^x，LeakyReLU是激活函数，LeakyReLU(x)＝max(x，0)+0.01*min(x，0)，Ni表示实体ei的所有相邻实体组成的集合。

3.如权利要求2所述的面向多源知识图谱融合的实体对齐方法，其特征在于，根据所述实体表示计算所述实体与所述相邻实体的关系信息，并根据所述关系信息增强所述实体表示，以得到所述知识图谱的完整实体表示，包括：

将每个关系r_k的语义分为两部分，与头实体相关的部分