CN112287123B

CN112287123B - 一种基于边类型注意力机制的实体对齐方法及装置

Info

Publication number: CN112287123B
Application number: CN202011301951.4A
Authority: CN
Inventors: 陈毅波; 向行; 熊帆; 高建良; 何智强; 陈远扬; 田建伟; 蒋破荒; 黄鑫; 杨芳僚; 孙毅臻; 朱宏宇; 祝视; 张宇翔; 李浩志
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-02-22
Anticipated expiration: 2040-11-19
Also published as: CN112287123A

Abstract

本发明公开了一种基于边类型注意力机制的实体对齐方法，包括构建电力知识图谱的类型对偶图；采用属性注意力机制训练类型对偶图的节点特征并得到类型对偶图中每个节点的嵌入；将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，并得到最终的结构化嵌入结果；计算损失函数的值并将不同知识图谱中实体进行对齐，得到不同知识图谱中实体对齐的实体对。本发明还公开了一种实现所述基于边类型注意力机制的实体对齐方法的装置。本发明拓宽了关系信息挖掘的思路，挖掘了实体的结构特征，而且精确度高、实用性好且简单可靠。

Description

一种基于边类型注意力机制的实体对齐方法及装置

技术领域

本发明属于电力系统大数据处理领域，具体涉及一种基于边类型注意力机制的实体对齐方法及装置。

背景技术

在大规模知识库构建的任务中，需要处理大量来自多源知识库的实体数据，它们通常以知识图谱的形式存储在知识库中，如图1所示。因此，在构建知识库之初，首先需建立一个知识融合方法来对多源知识图谱进行融合。由于不同知识库的信息来源不同，以及人工定义及校对的差异，语义上相同的实体在不同的知识库中会有不同的表现形式。具有相同名称的实体也许表示着语义上的同一事物，也许表示着两种事物。因此在知识融合前，需要推断来自不同知识库的不同实体是否指代现实世界中的同一客观对象，即实体对齐任务。如图2所示，在中文电力知识图谱子图中，电阻和金属分别是头实体和尾实体，材料是他们之间的关系，知识图谱实体对齐就是找图中虚线对应实体对，例如电阻对应resistance。

知识图谱实体对齐的关键是知识图谱嵌入，其思想是学习知识图谱的向量表示(称为嵌入)，根据嵌入的相似性找到实体对齐。目前的实体对齐方法，大多都基于TransE(Translate Embedding)模型，把每个三元组(h,r,t)建模为h+r≈t的形式；但是，该方法忽略了结构信息对实体对齐带来的积极影响。后来，基于GCN模型，通过学习邻域的结构信息的嵌入，即汇集邻居信息，从而使得中心节点包含邻域结构特征来得到实体嵌入；这种结构信息的好处在于：如图2所示，实体“电阻器(resistor)”和实体“resistance(电阻)”是从维基百科上获取的对齐实体对，然而，仅从翻译过后的语义信息是无法判断他们是否对齐，因此通过聚集邻居节点，即通过“欧姆”与“ohm”、“金属”与“metal”的对齐来捕获更多关于“电阻器”和“resistance”对齐的证据。

然而，以上方法存在两个局限：一是无法自动感知关系类型的权重。关系类型权重能强化结构信息，如图2所示，“单位(unit)”这种关系能很好地表示实体的特征，例如“resistance(电阻)”的单位是“ohm(欧姆)”，ohm可以作为电阻的主要特征，因此在邻居聚集时应该赋予更高的权重，这个权重由关系“unit(单位)”表示。而以往的方法将邻居节点同等对待，因此不能感知关系的权重，也不能保证同类型的关系在训练过程中的一致性。二是关系属性没有得到充分的利用，对齐的节点对周围的关系也存在对齐，有效利用关系属性信息可以获得更好的实体嵌入，例如在图2中，中文实体电阻器相连的关系种类、单位、材料，与英文实体resistance相连的关系type(种类)、unit(单位)、material(材料)是对齐的。

综上所述，当前的知识图谱实体对齐方法忽略了关系类型信息在实体对齐方面的作用。

发明内容

本发明的目的之一在于提供一种精确度高、实用性好且简单可靠的基于边类型注意力机制的实体对齐方法。

本发明的目的之二在于提供一种实现所述基于边类型注意力机制的实体对齐方法的装置。

本发明提供的这种基于边类型注意力机制的实体对齐方法，包括如下步骤：

S1.以电力知识图谱实体对齐为例，构建电力知识图谱的类型对偶图；

S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征，从而得到类型对偶图中每个节点的嵌入，并使得相同类型关系在训练过程中保持一致；

S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，从而得到最终的结构化嵌入结果；

S4.根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到不同知识图谱中实体对齐的实体对。

步骤S1所述的构建电力知识图谱的类型对偶图，具体为采用如下步骤构建类型对偶图：

给定跨语言知识图谱G₁和G₂，将原始电力知识图谱表示为G₁和G₂的融合g^e＝(V^e,ε^e)，其中节点集合V^e为G₁和G₂的实体集合，边集合ε^e为G₁和G₂中所有关系的集合；同时，对齐的实体在g^e中并未连接；g^e的类型对偶图表示为g^r，在g^e中每种类型的边被描述为类型对偶图g^r中的节点v^r；同时边r_i和r_j在电力知识图谱中共同与一个实体信息连接时，此时对应的类型对偶图g^r中节点

和

被边w_ij连接，且边w_ij的权重为边r_i和r_j共享头实体或尾实体的节点的数量与边r_i和r_j连接的头实体或尾实体数量的比值。

所述的边w_ij的权重，具体为采用如下公式计算权重w_ij：

式中H_i为边r_i在原始图中的头实体的集合，H_j为边r_j在原始图中的头实体的集合，T_i为边r_i在原始图中的尾实体的集合，T_j为边r_j在原始图中的尾实体的集合。

步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征，具体为在类型对偶图中，每个节点通过自注意力机制加权距离邻居节点信息，并采用如下算式计算得到注意力分数

从而得到类型对偶图中节点i的嵌入

式中

为

和

之间的注意力分数；ξ为激活函数Leaky ReLU；

为类型对偶图中边权重；a₁为用于将输入映射成标量的全连接层；W₁为用于训练的权重矩阵且

其中d是矩阵的维度；r_i和r_j为电力知识图谱中的边；

为类型对偶图中节点

的邻居集合；||为将两个向量连接的操作符；σ为激活函数RELU。

步骤S3所述的将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，从而得到最终的结构化嵌入结果，具体为采用如下步骤得到最终的结构化嵌入结果：

A.采用如下算式，将关系嵌入映射到权重系数：

式中

为得到的与节点q连接的关系i的权重系数；ξ为激活函数Leaky ReLU，a₂为全连接层，

为类型对偶图中节点j的嵌入，即关系j的嵌入；

为节点q的邻居关系的集合；

B.根据步骤A得到的权重系数，采用如下算式聚合邻居节点信息，从而得到节点周围的子结构信息，增强节点的表示；

式中

为邻域聚合操作过程中的关系类型信息；σ为激活函数RELU；r_i为关系i的初始嵌入；

为邻域聚合操作过程中的结构信息；

为与实体q邻居集合中通过关系i相连的邻居；x_t为实体t的初始嵌入；

C.采用如下算式，将步骤B得到的关系类型信息和结构信息进行融合，从而得到最终的实体：

式中

为节点q整合了结构以及关系信息的嵌入结果；x_q为节点q在电力知识图谱中的初始化；||为连接符号。

步骤S4所述的根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到不同知识图谱中实体对齐的实体对，具体为采用如下步骤得到实体对：

a.采用如下算式计算不同只是图谱节点嵌入的距离：

式中d(e₁,e₂)为节点e₁和e₂之间的距离；

为实体e₁的最终嵌入；

b.根据步骤a计算得到的距离，针对某个节点，选取在另一个电力知识图谱中距离最近的点作为匹配的对齐节点；

c.采用如下算式，减小真实匹配实体对之间的距离，增大负匹配实体之间的距离，从而达到减小损失的效果：

式中p和q表示不同知识图谱中的对齐实体；LL为对齐种子的集合；p'和q'为负样本的对齐实体；LL'为负对齐实体对集合；d(p,q)为正样本中实体p与q之间的距离；d(p',q')为负样本中实体p'与q'之间的距离；γ为超参数；

d.根据损失训练得到最终的实体嵌入表示，搜索不同知识图谱中距离最近的实体，将其作为对齐实体。

本发明还提供了一种实现所述基于边类型注意力机制的实体对齐方法的装置，包括类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块；类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块依次串联；类型对偶图构建模块用于构建电力知识图谱的类型对偶图，并将构建的结果上传对偶图嵌入获取模块；对偶图嵌入获取模块用于根据获取的数据，采用属性注意力机制训练类型对偶图的节点特征，从而得到类型对偶图中每个节点的嵌入，并使得相同类型关系在训练过程中保持一致，并最终将结果上传结构化嵌入结果获取模块；结构化嵌入结果获取模块用于将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，从而得到结构化嵌入结果，并上传实体对齐模块；实体对齐模块用于根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到并输出不同知识图谱中实体对齐的实体对。

本发明提供的这种基于边类型注意力机制的实体对齐方法及装置，利用边类型注意力机制将知识图谱的关系属性转换成实体之间的注意力系数，同时知识图谱中实体根据注意力系数加权聚集邻居实体及关系信息，获得新的实体嵌入；基于边类型注意力机制的知识图谱实体对齐方法一方面在挖掘实体结构特征时保持相同类型关系在训练过程中的一致性；另一方面将关系信息和实体信息都考虑到实体对齐，充分利用图的属性特征(包括点和边)，有效优化了实体的嵌入表示，大大提高了实体对齐的精确度，本发明方法拓宽了关系信息挖掘的思路，挖掘了实体的结构特征，而且精确度高、实用性好且简单可靠。

附图说明

图1为不同源的电力知识图谱示意图。

图2为知识图谱实体对齐示意图。

图3为本发明方法的方法流程示意图。

图4为本发明方法的类型对偶图示意图。

图5为本发明方法的边类型注意力机制示意图。

图6为本发明装置的功能模块图。

具体实施方式

如图3所示为本发明方法的方法流程示意图：本发明提供的这种基于边类型注意力机制的实体对齐方法，包括如下步骤：

S1.以电力知识图谱实体对齐为例，构建电力知识图谱的类型对偶图；具体为采用如下步骤构建类型对偶图：

知识图谱的一类边表示类型对偶图中的节点，知识图谱种两种边共同连接一个点，那么其对应类型对偶图中的点之间存在边相连。类型对偶图示意图如图4所示，电力知识图谱为G，类型对偶图为G^r，假设原始知电力识图谱中有三类边r₁、r₂和r₃，对应类型对偶图的三个节点，其中在电力知识图谱中r₁和r₂有x₃这个共有节点，因此它们在类型对偶图中有边相连，表示为w₁₂；

因此，给定跨语言知识图谱G₁和G₂，将原始电力知识图谱表示为G₁和G₂的融合g^e＝(V^e,ε^e)，其中节点集合V^e为G₁和G₂的实体集合，边集合ε^e为G₁和G₂中所有关系的集合；同时，对齐的实体在g^e中并未连接；g^e的类型对偶图表示为g^r，在g^e中每种类型的边被描述为类型对偶图g^r中的节点v^r；同时边r_i和r_j在电力知识图谱中共同与一个实体信息连接时，此时对应的类型对偶图g^r中节点v_i ^r和v_j ^r被边w_ij连接，且边w_ij的权重为边r_i和r_j共享头实体或尾实体的节点的数量与边r_i和r_j连接的头实体或尾实体数量的比值；

其中，采用如下公式计算权重w_ij：

式中H_i为边r_i在原始图中的头实体的集合，H_j为边r_j在原始图中的头实体的集合，T_i为边r_i在原始图中的尾实体的集合，T_j为边r_j在原始图中的尾实体的集合；

S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征，从而得到类型对偶图中每个节点的嵌入，并使得相同类型关系在训练过程中保持一致；具体为在类型对偶图中，每个节点通过自注意力机制加权距离邻居节点信息，并采用如下算式计算得到注意力分数

从而得到类型对偶图节点i的嵌入

式中

为

和

之间的注意力分数；ξ为激活函数Leaky ReLU；

其中d是矩阵的维度；r_i和r_j为电力知识图谱中的边；

为类型对偶图中节点

的邻居集合；||为将两个向量连接的操作符；σ为激活函数RELU；

本步骤将类型对偶图中的节点转换为知识图谱中关系的注意力系数，且同一类型的关系的嵌入与注意力系数相同，知识图谱中节点根据关系注意力系数聚集邻居实体与关系信息，获得最终的结构化嵌入，具体过程如图5所示；

采用如下步骤得到最终的结构化嵌入结果：

A.采用如下算式，将关系嵌入映射到权重系数：

式中

为类型对偶图中节点j的嵌入，即关系j的嵌入；

为节点q的邻居关系的集合；

式中

为邻域聚合操作过程中的结构信息；

式中

为节点q整合了结构以及关系信息的嵌入结果；x_q为节点q在电力知识图谱中的初始化；||为连接符号；

S4.根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到不同知识图谱中实体对齐的实体对；具体为采用如下步骤得到实体对：

a.采用如下算式计算不同只是图谱节点嵌入的距离：

式中d(e₁,e₂)为节点e₁和e₂之间的距离；

为实体e₁的最终嵌入；

如图6所示为本发明装置的功能模块图：本发明提供的这种实现所述基于边类型注意力机制的实体对齐方法的装置，包括类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块；类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块依次串联；类型对偶图构建模块用于构建电力知识图谱的类型对偶图，并将构建的结果上传对偶图嵌入获取模块；对偶图嵌入获取模块用于根据获取的数据，采用属性注意力机制训练类型对偶图的节点特征，从而得到类型对偶图中每个节点的嵌入，并使得相同类型关系在训练过程中保持一致，并最终将结果上传结构化嵌入结果获取模块；结构化嵌入结果获取模块用于将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，从而得到结构化嵌入结果，并上传实体对齐模块；实体对齐模块用于根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到并输出不同知识图谱中实体对齐的实体对。

Claims

1.一种基于边类型注意力机制的实体对齐方法，包括如下步骤：

S1.构建电力知识图谱的类型对偶图；

S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，从而得到最终的结构化嵌入结果；具体为采用如下步骤得到最终的结构化嵌入结果：

A.采用如下算式，将关系嵌入映射到权重系数：

式中

为类型对偶图中节点j的嵌入，即关系j的嵌入；

为节点q的邻居关系的集合；

式中

为邻域聚合操作过程中的结构信息；

式中

2.根据权利要求1所述的一种基于边类型注意力机制的实体对齐方法，其特征在于步骤S1所述的构建电力知识图谱的类型对偶图，具体为采用如下步骤构建类型对偶图：

和

3.根据权利要求2所述的一种基于边类型注意力机制的实体对齐方法，其特征在于所述的边w_ij的权重，具体为采用如下公式计算权重w_ij：

4.根据权利要求3所述的一种基于边类型注意力机制的实体对齐方法，其特征在于步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征，具体为在类型对偶图中，每个节点通过自注意力机制加权距离邻居节点信息，并采用如下算式计算得到注意力分数

从而得到类型对偶图节点i的嵌入

式中

为

和

之间的注意力分数；ξ为激活函数Leaky ReLU；

其中d是矩阵的维度；r_i和r_j为电力知识图谱中的边；

为类型对偶图中节点

5.根据权利要求4所述的一种基于边类型注意力机制的实体对齐方法，其特征在于步骤S4所述的根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到不同知识图谱中实体对齐的实体对，具体为采用如下步骤得到实体对：

a.采用如下算式计算不同只是图谱节点嵌入的距离：

式中d(e₁,e₂)为节点e₁和e₂之间的距离；

为实体e₁的最终嵌入；

L＝∑_(p,q)∈LL∑_{(p',q')∈LL'}max{0,d(p,q)-d(p',q')+γ}

6.一种实现权利要求1～5之一所述的基于边类型注意力机制的实体对齐方法的装置，其特征在于包括类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块；类型对偶图构建模块、对偶图嵌入获取模块、结构化嵌入结果获取模块和实体对齐模块依次串联；类型对偶图构建模块用于构建电力知识图谱的类型对偶图，并将构建的结果上传对偶图嵌入获取模块；对偶图嵌入获取模块用于根据获取的数据，采用属性注意力机制训练类型对偶图的节点特征，从而得到类型对偶图中每个节点的嵌入，并使得相同类型关系在训练过程中保持一致，并最终将结果上传结构化嵌入结果获取模块；结构化嵌入结果获取模块用于将类型对偶图中的节点转换为知识图谱中关系的注意力系数，并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息，从而得到结构化嵌入结果，并上传实体对齐模块；实体对齐模块用于根据不同知识图谱中对齐实体嵌入的距离，计算损失函数的值，从而将不同知识图谱中实体进行对齐，得到并输出不同知识图谱中实体对齐的实体对。