CN116227592B

CN116227592B - 一种多源知识图谱对齐模型及其构建方法、装置及应用

Info

Publication number: CN116227592B
Application number: CN202310499591.0A
Authority: CN
Inventors: 李圣权; 黎维; 毛云青; 张香伟; 王理程
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-18
Anticipated expiration: 2043-05-06
Also published as: CN116227592A

Abstract

本申请提出了一种多源知识图谱对齐模型及其构建方法、装置及应用，包括以下步骤：构建多源知识图谱对齐模型，输入两个待对齐知识图谱并构建两个知识图谱的第一知识图和第二知识图；使用图注意力神经网络融合知识图中的实体语义关系和领域特征得到包含关系的实体特征；计算实体距离和实体关系距离并构建对齐矩阵，对对齐矩阵筛选得到实体预对齐对和实体关系预对齐对；根据实体预对齐对和实体关系预对齐对获取正负样本；基于锚样本和正负样本更新模型参数。本方案通过图注意力神经网络得到了不同方向关系的实体向量表示，从而提高了多源知识图谱对齐的准确性。

Description

一种多源知识图谱对齐模型及其构建方法、装置及应用

技术领域

本申请涉及人工智能和知识图谱技术领域，特别是涉及一种多源知识图谱对齐模型及其构建方法、装置及应用。

背景技术

知识图谱作为一种可扩展、可解释、表达强的知识表示方法，受到学术界和产业界的广泛关注，近年来，各领域建立了越来越多不同规模的知识图谱，这些知识图谱来源不同、需求特定、构建方式不一致，存在信息冗余和异构的问题，如何融合这些多源知识图谱，使得各图谱之间可以高效协调是目前应用领域面临的主要挑战，知识融合的关键技术是实体对齐，其目标是查询多源知识中等价的实体，他们对应真实世界中指代的同一个具体事物。

目前，研究者们已经提出了多种实体对齐方法，其主要分为基于句法和结构的实体对齐和基于表示学习的实体对齐，基于句法和结构的实体对齐主要通过相似度计算和关系推理实现对齐，但是多源知识图谱的实体参与的领域不同，没有一一对应的特征，很难给出统一的相似度计算模型，使得对齐能力有限，而基于表示学习的实体对齐不能有效利用实体的结构信息和属性信息，并且复杂度高。

综上所述，目前需要一种可以充分利用实体信息、效率高的多源知识图谱对其方法。

发明内容

本申请实施例提供了一种多源知识图谱对齐模型及其构建方法、装置及应用，本方案通过图注意力神经网络中的图注意力层来得到不同方向关系影响下的实体特征，还通过设置距离调整算法来优化实体在对齐矩阵中的距离从而大大提高了多源知识图谱之间的对齐准确性。

第一方面，本申请实施例提供了一种多源知识图谱对齐模型的构建方法，所述方法包括：

构建多源知识图谱对齐模型，所述多源知识图谱对齐模型包括知识图构建网络、图注意力神经网络以及对齐矩阵；

获取两个待对齐知识图谱，所述待对齐知识图谱为记录实体和实体关系的图谱；将两个待对齐知识图谱分别输入到所述知识图构建网络中构建得到第一知识图和第二知识图，其中所述第一知识图与所述第二知识图以表征当前待对齐知识谱图中实体的实体名称为节点，以表征当前待对齐知识图谱中的实体关系为边；

所述图注意力神经网络同时获取所述第一知识图和所述第二知识图中每一实体的语义关系特征和领域特征，将每一实体的语义关系特征和领域特征进行融合得到包含关系信息的实体特征，汇总所述第一知识图中所有实体的实体特征得到第一实体特征集，汇总所述第二知识图中所有实体的实体特征得到第二实体特征集；

遍历分别选取所述第一实体特征集和所述第二实体特征集中的任意实体特征组成实体特征对，计算每一实体特征对之间的实体距离以及实体关系距离，根据每一实体特征对之间的实体距离以及实体关系距离构建初始对齐矩阵，筛选实体距离和实体关系距离满足筛选条件的实体特征对得到实体预对齐对和实体关系预对齐对，根据所述实体预对齐对以及实体关系预对齐对对所述初始对齐矩阵中对应的距离进行调整得到调整对齐矩阵，基于所述调整对齐矩阵得到每一实体的正样本和负样本；

获取两个待对齐知识图谱中的锚样本对，根据每一实体的正样本、负样本以及锚样本对来构建排名损失函数，基于每一实体的负样本反向传播直到所述多源知识图谱对齐模型的排名损失函数收敛或达到设定阈值得到训练好的多源知识图谱对齐模型。

第二方面，本申请实施例提供了一种多源知识图谱对齐方法，包括：

获取两个待对齐知识图谱，将每一待对齐知识图谱输入到训练好的多源知识图谱对齐模型中，所述多源知识图谱对齐模型包括知识图构建网络、图注意力神经网络以及对齐矩阵，将两个待对齐知识图谱分别输入到所述知识图构建网络中构建得到第一知识图和第二知识图；

遍历分别选取所述第一实体特征集和所述第二实体特征集中的任意实体特征组成实体特征对，计算每一实体特征对之间的实体距离以及实体关系距离，根据每一实体特征对之间的实体距离以及实体关系距离构建对齐矩阵根据对齐矩阵获得两个待对齐知识图谱的对齐关系。

第三方面，本申请提供一种多源知识图谱对齐模型的构建装置，包括：

构建模块：构建多源知识图谱对齐模型，所述多源知识图谱对齐模型包括知识图构建网络、图注意力神经网络以及对齐矩阵；

获取模块：获取两个待对齐知识图谱，所述待对齐知识图谱为记录实体和实体关系的图谱；将两个待对齐知识图谱分别输入到所述知识图构建网络中构建得到第一知识图和第二知识图，其中所述第一知识图与所述第二知识图以表征当前待对齐知识谱图中实体的实体名称为节点，以表征当前待对齐知识图谱中的实体关系为边；

特征提取模块：所述图注意力神经网络同时获取所述第一知识图和所述第二知识图中每一实体的语义关系特征和领域特征，将每一实体的语义关系特征和领域特征进行融合得到包含关系信息的实体特征，汇总所述第一知识图中所有实体的实体特征得到第一实体特征集，汇总所述第二知识图中所有实体的实体特征得到第二实体特征集；

对齐模块：遍历分别选取所述第一实体特征集和所述第二实体特征集中的任意实体特征组成实体特征对，计算每一实体特征对之间的实体距离以及实体关系距离，根据每一实体特征对之间的实体距离以及实体关系距离构建初始对齐矩阵，筛选实体距离和实体关系距离满足筛选条件的实体特征对得到实体预对齐对和实体关系预对齐对，根据所述实体预对齐对以及实体关系预对齐对对所述初始对齐矩阵中对应的距离进行调整得到调整对齐矩阵，基于所述调整对齐矩阵得到每一实体的正样本和负样本；

损失计算模块：获取两个待对齐知识图谱中的锚样本对，根据每一实体的正样本、负样本以及锚样本对来构建排名损失函数，基于每一实体的负样本反向传播直到所述多源知识图谱对齐模型的排名损失函数收敛或达到设定阈值得到训练好的多源知识图谱对齐模型。

第四方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种多源知识图谱对齐模型的构建方法或一种多源知识图谱对齐方法。

第五方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括一种多源知识图谱对齐模型的构建方法或一种多源知识图谱对齐方法。

本发明的主要贡献和创新点如下：

本申请实施例在图注意力神经网络中添加了图注意力层，在图注意力层中通过共享权重的方式来传递信息，从而得到不同方向关系影响下的实体特征，即融合了关系信息的实体特征，通过共享权重的方式可以使得实体特征可以更好的学习全局特征以增强对齐的准确性；本方案通过对对齐矩阵中的对齐实体距离进行优化，使得潜在的对齐实体数量增多，进一步提高了对齐的准确性；本方案通过对正样本、负样本和锚样本进行排名损失函数的计算，使得训练过程高效化。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种多源知识图谱对齐模型的构建方法的流程图；

图2是根据本申请实施例的一种图注意力层的结构图；

图3是根据本申请实施例的一种图注意力神经网络模型的流程示意图；

图4是根据本申请实施例的一种多源知识图谱对齐模型的训练对齐过程示意图；

图5是根据本申请实施例的一种多源知识图谱对齐模型的构建装置的结构框图；

图6是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请实施例提供了一种多源知识图谱对齐模型的构建方法，具体地，参考图1，所述方法包括：

遍历分别选取所述第一实体特征集和所述第二实体特征集中的任意实体特征组成实体特征对，计算每一实体特征对之间的实体距离以及实体关系距离，根据每一实体特征对之间的实体距离以及实体关系距离构建初始对齐矩阵，

筛选实体距离和实体关系距离满足筛选条件的实体特征对得到实体预对齐对和实体关系预对齐对，根据所述实体预对齐对以及实体关系预对齐对对所述初始对齐矩阵中对应的距离进行调整得到调整对齐矩阵，基于所述调整对齐矩阵得到每一实体的正样本和负样本；

在一些具体实施例中，所述待对齐知识图谱的知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现在理论。所述待对齐知识图谱中的节点对应表示存在关系的实体，节点和节点之间的关系以实体和实体之间的关系表示，所述关系包括但不限于社会关系以及层级关系。

示例性的，以影视网站为例，根据影视网站所构建的知识图谱可以简单表示电影名—导演—编剧—演员，由于一个导演或编剧或演员可以参与多个电影，将这些以知识图的形式进行表示得到这个影视网站的知识图谱。

在一些具体实施例中，所述知识图构建网络由训练好的实体表示模型组成，将两个待对齐知识图谱分别输入到所述实体表示模型中得到每一待对齐知识图谱中所有实体的实体原始向量组成实体原始向量集，分别根据每一待对齐知识图谱的实体原始向量集构建得到第一知识图和第二知识图。

在一些具体实施例中，先采集每一待对齐知识图谱中的三元组数据，所述三元组数据为[头实体名称，实体关系，尾实体名称]，将每一待对齐知识图谱中的三元组数据输入到一个训练好的实体表示模型中得到每一实体的字符特征与语义特征，将每一实体的字符特征与语义特征进行融合得到每一实体的原始向量，分别获取每一待对齐知识图谱中所有实体的原始向量得到第一实体原始向量集和第二实体原始向量集。

具体的，本方案所采用的实体表示模型为GloVe词嵌入模型，分别将每一待对齐知识图谱中三元组数据中的实体名称输入到GloVe词嵌入模型中得到每个实体名称的向量表示，再使用滑动窗口根据每个实体名称的向量表示产生字符片段并将其映射为独热向量，将每一实体所有字符片段的独热向量进行累加计算平均值后得到每一实体的字符特征。

进一步的，本方案所使用的滑动窗口大小为1，所述独热向量是一种稀疏向量，本方案通过独热向量来表示每一实体的字符长度，每一实体的字符特征可以表示为。

具体的，将每一待对齐知识图谱中三元组数据中的实体名称映射为序列向量，计算所述序列向量的范数归一化获得每一实体的语义特征。

进一步的，每一实体的语义特征可以表示为。

具体的，对每一实体的语义特征加权后融合对应实体的字符特征得到每一实体的原始向量。

具体的，所述实体的字符特征为实体名称，所述实体的语义特征为实体关系。

进一步的，每一实体的原始向量可以表示为，其中，/>为对应语义特征的权重_。

在一些实施例中，在“所述图注意力神经网络同时获取所述第一知识图和所述第二知识图中每一实体的语义关系特征和领域特征”步骤中，所述图注意力神经网络包括第一分支和第二分支，所述第一分支与所述第二分支并行且结构相同，在所述第一分支和所述第二分支中设置第一图卷积层，通过所述第一图卷积层获取每一实体的语义关系特征和领域特征，且所述第一分支中的第一图卷积层与所述第二分支中的第一图卷积层共享权重。

具体的，所述第一图卷积层的输入为实体的原始向量，通过设置权重矩阵并通过softplus激活函数来对每一输入实体的原始向量进行输出得到每一实体的语义关系特征和领域特征。

具体的，所述第一图卷积层通过权重共享的方式来实现第一知识图与第二知识图之间实体知识的传递，并得到每一实体的语义关系特征和领域特征/>，使用所述softplus激活函数可以平滑第一结构图以及第二结构图边缘处的噪声，并且具有较强的泛化能力，所述图卷积层可以用公式表示为：

其中，σ表示softplus激活函数，W表示权重矩阵，W初始化为自连接的领接矩阵，p_i、e_i表示知识图中第i个边、第i条点。

在一些实施例中，在“将每一实体的语义关系特征和领域特征进行融合得到包含关系信息的实体特征”步骤中，在所述第一分支和所述第二分支中设置图注意力层，将每一实体的语义关系特征和领域特征融合后，再次经过一个第二图卷积层后得到实体总特征，所述图注意力层包括MLP层、softmax层以及最大池化层，所述图注意力层以逐节点的方式将每一实体总特征作为输入，所述实体总特征经过MLP层得到实体映射矩阵，将所述实体映射矩阵输入到softmax层得到与每一实体总特征对应的注意力得分，将所述注意力得分与对应的实体总特征进行特征相乘得到注意力特征，同时将所述实体总特征输入到最大池化层得到池化结果，将所述池化结果与所述注意力特征进行融合得到包含关系信息的实体特征。

具体的，将所述实体总特征输入到最大池化层之前可以先将所述实体总特征输入到MAX层取最大，以得到更好的池化结果。

具体的，所述第一分支和所述第二分支通过图注意力层中的MLP层进行权重共享，进行权重共享的方式来传递信息可以学习每一实体在不同方向关系的影响下的实体特征，即更好的学习融合了关系信息的实体特征。

具体的，所述图注意力层的结构如图2所示，首先将实体总特征F以逐节点的形式作为输入，经过一次共享权重的MLP层得到与实体总特征对应的实体映射矩阵，再将所述实体映射矩阵输入到softmax层得到与实体总特征对应的注意力得分，将学习到的注意力得分与对应的实体总特征相乘得到注意力特征，对所述注意力特征中每个点的注意力加权特征相加形成局部注意力特征，同时将所述实体总特征输入到最大池化层得到池化结果，将所述池化结果与所述注意力特征进行融合得到包含关系信息的实体特征，所述图注意力层可以用公式表示为：，其中，F_i表示某一节点的实体总特征。

所述实体总特征F（来自于第一知识图的l层）作为实体全局语义信息输入到Fl，经过到图注意力层提取第l+1层关系的向量表示Fl+1，用公式表示为：

其中，b表示偏置矩阵，α表示注意力函数，所述图注意力神经网络通过多层级不断地学习提取深层次的语义信息，Fl表示第l层图注意力神经网络学习到的特征，并将其作为l+1层的输入，再经过学习后得到l+1层的特征Fl+1。

在一些具体实施例中，所述图注意力神经网络如图3所示，所述图注意力神经网络结合共享权重的图卷积层以及共享权重的图注意力层来更好的进行两个知识图谱的对齐。

在一些实施例中，在“根据每一实体特征对之间的实体距离以及实体关系距离构建初始对齐矩阵”步骤中，所述初始对齐矩阵表示第一实体特征集与所述第二实体特征集之间每一实体特征对之间的相似度和对应关系，所述每一对对应实体特征之间的相似度通过每一实体特征对之间的实体距离以及实体关系距离获得。

需要说明的是，本方案在遍历分别选取所述第一实体特征集和所述第二实体特征集中的任意实体特征组成实体特征对中，是任意选择第一实体特征集中的某个实体和第二实体特征集中的某个实体组成一个实体特征对。

具体的，每一实体特征对之间的实体距离以及实体关系距离越小，则这两个实体特征之间的相似度越高。

具体的，由于所述第一实体特征集和所述第二实体特征集中的实体特征包含关系信息，所以可以根据实体特征计算实体距离以及实体关系距离。

在一些实施例中，在“设置实体距离阈值以及实体关系距离阈值对实体距离以及实体关系距离进行筛选得到实体预对齐对和实体关系预对齐对”步骤中，若一对实体特征的实体距离小于所述实体距离阈值，则将这一对实体特征作为实体预对齐对，若一对实体特征的实体关系距离小于所述实体关系距离阈值，则将这一对实体特征作为实体关系预对齐对。

具体的，所述实体距离与所述实体关系距离为欧式空间下的距离值。

在一些实施例中，在“筛选实体距离和实体关系距离满足筛选条件的实体特征对得到实体预对齐对和实体关系预对齐对”步骤中，设置实体距离阈值与实体关系阈值作为筛选条件对实体特征对进行筛选。具体的，设置实体距离阈值并筛选实体距离小于实体距离阈值的实体特征对作为实体预对齐对，设置实体关系阈值并筛选实体关系阈值小于实体关系阈值的实体特征对作为实体关系预对齐对。

在一些实施例中，在“根据所述实体预对齐对以及实体关系预对齐对对所述初始对齐矩阵中对应的距离进行调整得到调整对齐矩阵，基于所述调整对齐矩阵得到每一实体的正样本和负样本”步骤中，选择实体预对齐对和实体关系预对齐对中重复的实体特征对作为对齐实体；更新所述对齐实体在所述初始对齐矩阵上的距离得到调整对齐矩阵，根据所述调整对齐矩阵中不同实体之间的距离得到每一实体的正样本和负样本。

具体的，自所述调整对齐矩阵中任选一个实体，选择相对于该实体的实体关系距离和实体距离小的实体作为该实体的正样本，选择相对于该实体的实体关系距离和实体距离大的实体作为该实体的负样本。

具体的，要调整所述初始对齐矩阵中每一对对齐实体的距离。

具体的，由于初始对齐矩阵中的距离越近，则两个实体的相似度越高，越趋近于对齐，当一对实体即为实体预对齐对又为实体关系预对齐对，则这一对实体一定对齐，则他们之间的距离在初始对齐矩阵中应该尽可能的小，因此需要在初始对齐矩阵中重新调整这一对对齐实体的距离。

进一步的，分别调整两个对齐实体之间的实体距离以及实体关系距离，通过设置调整比例并根据对应实体的领域特征和包含的关系来对实体距离进行调整，两个对齐实体之间的实体距离调整公式为：

其中，i，j表示对齐实体，x_i和x_j表示实体i和实体j的实体特征，y表示预对齐的包含关系信息的实体特征，y_i表示实体i的领域特征和包含的关系，y_j表示实体j的领域特征和包含的关系，β为调整比例。

具体的，由于实体特征因为实体关系信息的影响从而存在偏移，所以通过设置调整比例对距离做比例调整，并减去相应的权重分数得到新的实体距离。

具体的，根据调整比例以及每一实体关系所连接的实体来对实体关系距离进行调整，两个对齐实体之间的实体关系距离调整公式为：

其中r_i和r_j表示关系信息i和关系信息j，z_i表示表示与关系i相连接的实体，z_j表示与关系j相连接的实体，z表示连接的预对齐实体关系。

具体的，当实体距离或实体关系距离/>时，更新对应实体、实体关系间的距离，重复以上步骤直到达到预设迭代次数或距离值收敛，/>表示实体距离阈值，/>表示实体关系距离阈值。

在一些具体实施例中，所述锚样本对为人工标记的对齐实体，标记锚样本对可以帮助模型更好的在两个知识图谱中进行实体对齐。

在一些实施例中，在“基于每一实体的负样本反向传播直到所述多源知识图谱对齐模型的排名损失函数收敛或达到指定阈值得到训练好的多源知识图谱对齐模型”步骤中，设置最小边际，计算正样本与锚样本之间的距离，计算负样本与锚样本之间的距离，使用正样本与锚样本之间的距离减去负样本与锚样本之间的距离，再加上最小边际得到损失函数的结果。

在一些实施例中，基于每一实体的负样本对所述多源知识图谱对齐模型进行参数更新完成反向传播。需要说明的是，本方案在反向传播时重复更新调整对齐矩阵直到满足设定条件。

具体的，根据所述调整对齐矩阵得到负样本x_neg以及正样本x_pos，人工标记的锚样本为x，通过损失函数来使所述调整对齐矩阵中正负样本之间的距离尽可能的大，设置最小边际m，设置最小边际为排名损失函数的常用方法，所以，定义损失函数如下所示：

其中，d表示距离，m为最小边际，m为超参数。

当表明负样本和锚样本之间的距离已经足够大，则设置，无需对参数进行更新，当/>时，则正样本距离锚样本的距离更近，参数自适应更新，当/>时，则负样本距离锚样本的距离更近，属于困难样本学习阶段，参数基于梯度下降更新。

当排名损失函数收敛或满足设定阈值时得到训练好的多源知识图谱对齐模型，训练好的多源知识图谱对齐模型的输出为对齐矩阵，所述对齐矩阵表明了两个待对齐知识图谱的对齐结果，整个多源知识图谱对齐模型的训练对齐过程如图4所示。

实施例二

一种多源知识图谱对齐方法，包括：

实施例三

基于相同的构思，参考图5，本申请还提出了一种多源知识图谱对齐模型的构建装置，包括：

实施例四

本实施例还提供了一种电子装置，参考图6，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种多源知识图谱对齐模型的构建方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是待识别知识图谱、调整对齐矩阵等，输出的信息可以是知识图谱的对齐结果等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、构建多源知识图谱对齐模型，所述多源知识图谱对齐模型包括知识图构建网络、图注意力神经网络以及对齐矩阵；

S102、获取两个待对齐知识图谱，所述待对齐知识图谱为记录实体和实体关系的图谱；将两个待对齐知识图谱分别输入到所述知识图构建网络中构建得到第一知识图和第二知识图，其中所述第一知识图与所述第二知识图以表征当前待对齐知识谱图中实体的实体名称为节点，以表征当前待对齐知识图谱中的实体关系为边；

S103、所述图注意力神经网络同时获取所述第一知识图和所述第二知识图中每一实体的语义关系特征和领域特征，将每一实体的语义关系特征和领域特征进行融合得到包含关系信息的实体特征，汇总所述第一知识图中所有实体的实体特征得到第一实体特征集，汇总所述第二知识图中所有实体的实体特征得到第二实体特征集；

S104、遍历分别选取所述第一实体特征集和所述第二实体特征集中的任意实体特征组成实体特征对，计算每一实体特征对之间的实体距离以及实体关系距离，根据每一实体特征对之间的实体距离以及实体关系距离构建初始对齐矩阵，筛选实体距离和实体关系距离满足筛选条件的实体特征对得到实体预对齐对和实体关系预对齐对，根据所述实体预对齐对以及实体关系预对齐对对所述初始对齐矩阵中对应的距离进行调整得到调整对齐矩阵，基于所述调整对齐矩阵得到每一实体的正样本和负样本；

S105、获取两个待对齐知识图谱中的锚样本对，根据每一实体的正样本、负样本以及锚样本对来构建排名损失函数，基于每一实体的负样本反向传播直到所述多源知识图谱对齐模型的排名损失函数收敛或达到设定阈值得到训练好的多源知识图谱对齐模型。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图6中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多源知识图谱对齐模型的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多源知识图谱对齐模型的构建方法，其特征在于，所述知识图构建网络由训练好的实体表示模型组成，将两个待对齐知识图谱分别输入到所述实体表示模型中得到每一待对齐知识图谱中所有实体的实体原始向量组成实体原始向量集，分别根据每一待对齐知识图谱的实体原始向量集构建得到第一知识图和第二知识图。

3.根据权利要求1所述的一种多源知识图谱对齐模型的构建方法，其特征在于，在“所述图注意力神经网络同时获取所述第一知识图和所述第二知识图中每一实体的语义关系特征和领域特征”步骤中，所述图注意力神经网络包括第一分支和第二分支，所述第一分支与所述第二分支并行且结构相同，在所述第一分支和所述第二分支中设置第一图卷积层，通过所述第一图卷积层获取每一实体的语义关系特征和领域特征，且所述第一分支中的第一图卷积层与所述第二分支中的第一图卷积层共享权重。

4.根据权利要求3所述的一种多源知识图谱对齐模型的构建方法，其特征在于，在“将每一实体的语义关系特征和领域特征进行融合得到包含关系信息的实体特征”步骤中，在所述第一分支和所述第二分支中设置图注意力层，将每一实体的语义关系特征和领域特征融合后，再次经过一个第二图卷积层后得到实体总特征，所述图注意力层包括MLP层、softmax层以及最大池化层，所述图注意力层以逐节点的方式将每一实体总特征作为输入，所述实体总特征经过MLP层得到实体映射矩阵，将所述实体映射矩阵输入到softmax层得到与每一实体总特征对应的注意力得分，将所述注意力得分与对应的实体总特征进行特征相乘得到注意力特征，同时将所述实体总特征输入到最大池化层得到池化结果，将所述池化结果与所述注意力特征进行融合得到包含关系信息的实体特征。

5.根据权利要求1所述的一种多源知识图谱对齐模型的构建方法，其特征在于，在“根据所述实体预对齐对以及实体关系预对齐对对所述初始对齐矩阵中对应的距离进行调整得到调整对齐矩阵，基于所述调整对齐矩阵得到每一实体的正样本和负样本”步骤中，选择实体预对齐对和实体关系预对齐对中重复的实体特征对作为对齐实体，更新所述对齐实体在所述初始对齐矩阵上的距离，重复上述步骤得到调整对齐矩阵，根据所述调整对齐矩阵中不同实体之间的距离得到每一实体的正样本和负样本。

6.根据权利要求1所述的一种多源知识图谱对齐模型的构建方法，其特征在于，在“基于每一实体的负样本反向传播直到所述多源知识图谱对齐模型的排名损失函数收敛或达到指定阈值得到训练好的多源知识图谱对齐模型”步骤中，设置最小边际，计算正样本与锚样本之间的距离，计算负样本与锚样本之间的距离，使用正样本与锚样本之间的距离减去负样本与锚样本之间的距离，再加上最小边际得到损失函数的结果。

7.一种多源知识图谱对齐方法，其特征在于，包括：

8.一种多源知识图谱对齐模型的构建装置，其特征在于，包括：

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-6任一所述的一种多源知识图谱对齐模型的构建方法或权利要求7所述的一种多源知识图谱对齐方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括权利要求1-6任一所述的一种多源知识图谱对齐模型的构建方法或权利要求7所述的一种多源知识图谱对齐方法。