CN112131395B

CN112131395B - 一种基于动态阈值的迭代式知识图谱实体对齐方法

Info

Publication number: CN112131395B
Application number: CN202010869967.9A
Authority: CN
Inventors: 张元鸣; 高天宇; 肖刚; 陆佳炜; 程振波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-09-26
Anticipated expiration: 2040-08-26
Also published as: CN112131395A

Abstract

一种基于动态阈值的迭代式知识图谱实体对齐方法，本发明联合采用翻译模型和图卷积模型，分别自动学习关系语义信息以及实体的结构信息，并通过引入注意力机制减少不重要的邻节点带来的噪音，得到节点和关系的嵌入式表示；通过预对齐实体对集合，根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中；通过所设计的迭代对齐策略捕获可能的实体对，将这些实体对加入到训练集当中，参与到下一轮训练，直至实体的嵌入收敛，得到最终的实体嵌入，然后计算实体的相似度将实体进行对齐。本发明提出的迭代式知识图谱对齐方法减少了对人工标注实体数量的依赖，提高了实体对齐的准确率。

Description

一种基于动态阈值的迭代式知识图谱实体对齐方法

技术领域

本发明涉及知识图谱、实体对齐等领域，特别给出了一种基于动态阈值的迭代式知识图谱实体对齐方法。

背景技术

实体对齐是融合多个异构知识图谱中的知识的重要步骤，其旨在将异构知识图谱中指代相同对象的实体相互关联。

相比于过于依赖人力的传统实体对齐方法，最近的基于嵌入的半监督实体对齐方法取得了较为显著的效果。现有的对齐方法例如，MTransE(International JointConference on Artificial Intelligence,2016)使用TransE学习两个知识图谱的嵌入再通过映射的方式将知识图谱转移到同一个向量空间进行对齐，GCN-Align(InternationalConference on Empirical Methods in Natural Language Processing,2018)通过GCN来学习面向对齐的实体嵌入，再比较实体之间的相似度进行对齐。然而基于嵌入的半监督实体对齐方法的准确率也十分依赖于人工标定的初始预对齐样本，而人工的预先标注成本巨大，在大型数据集上的应用存在局限性。

发明内容

为了解决在预先对齐实体对数量不足导致的对齐精度不高的问题，本发明提出了一种基于动态阈值的迭代式知识图谱实体对齐方法，该方法采用了翻译模型和图卷积模型，自动学习关系语义信息并充分利用实体的邻节点结构信息，通过引入注意力机制减少不重要的邻节点带来的噪音；通过迭代对齐策略能够充分利用未对齐的实体对，在每轮实体嵌入训练之后，都将会重新捕获新的对齐实体对加入到下一轮的实体嵌入训练当中，提高了实体对齐的精确度。

本发明解决其技术问题所采用的技术方案是：

一种基于动态阈值的迭代式知识图谱实体对齐方法，包括以下步骤：

1)人工标注少量的对齐实体对作为训练集的种子；

2)对两个知识图谱中的实体和关系随机初始化为300维的向量；

3)分别对两个知识图谱的结构进行编码，得到两个直接邻接矩阵、两个间接邻接矩阵和两个关系三元组集合；

4)将3)中得到的直接邻接矩阵和间接邻接矩阵输入到邻域扩展的图卷积模型GCN中，得到邻节点的特征表示；

5)将3)中得到的两个关系三元组集合和4)中得到的实体向量，输入到翻译模型TransE当中，由此得到融合了关系语义信息和邻节点结构信息的实体的嵌入式表示；

6)通过1)中预对齐实体对集合，根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中；

7)动态阈值迭代对齐模块根据实体相似度从未标注的对齐实体中动态地捕获可能对齐的实体对；

8)将这些筛选得到的实体对暂时地加入到训练集当中，参与到下一轮训练当中；

9)循环执行步骤4)-8)，直至实体的嵌入收敛，得到最终的实体嵌入；

10)根据9)中得到的实体嵌入，计算实体的相似度，得到最终实体对齐的结果。

进一步的，在所述步骤1)中，人工标注少量的对齐实体集合对我们定义为实体对齐的目标是根据/>尽可能地找到两个知识图谱中其他相互对齐的实体对集合/>其中A_i，U_i分别表示知识图谱KG_i中预先标记为对齐的实体和未标记对齐的实体集合，E_i＝A_i ∪ U_i，i∈{1，2}，在e₁和e₂之间的～表示等价对齐关系。

进一步的，定义与实体e只有一条关系直接相连的实体集合为直接邻节点集合N_e，1＝{e′|(e，r，e′)∈T}∪{e′|(e′，r，e)∈T}，定义与实体e∈E需要经过两条关系相连的实体的集合为间接邻节点集合N_e，2＝{e″|(e″，r，e′)∈T，e′∈N_e，1}∪{e″|(e′，r，e″)∈T，e′∈N_e，1}；而所述步骤3)中，直接邻接矩阵反映的是任意两个实体之间是否互为直接邻节点的关系，若是否互为直接邻节点的关系则矩阵对应位置为1，否则则为0；间接邻接矩阵反映的是任意两个实体之间是否互为间接邻节点的关系，若是则为1，反之则为0；关系三元组表示为(h，r，t)，h为头实体，r为关系，t为尾实体。

再进一步，在所述步骤4)中的邻域扩展的图卷积模型GCN结构如下：模型一共有三层，输入层以及两层隐藏层；我们联合三层的输出结果作为实体的嵌入，每层的维度均为300维；实体的特征在层与层之间传递的时候，都会聚合它上一层自身的特征以及它的邻节点的特征，并且依照当前的相似度，赋予不同实体不同的注意力权重；并且在融合间接邻节点的特征和直接邻节点的特征时，分别赋予他们不同权重；通过聚合实体i的邻节点的信息来作为实体i在第l层的嵌入，表示为

其中，N_i，1表示实体i∈E的直接邻节点集合，N_i，2表示实体i∈E的间接邻节点集合，分别为聚合直接邻节点信息时第l层的权重矩阵和聚合间接邻节点信息时第l层的权重矩阵，σ₁表示的是激活函数，γ是一个权重用于平衡来自直接邻节点聚合的结果和来自间接邻节点聚合的结果，/>表示的是实体i与其邻节点j之间的注意力权重，由实体i，j之间的相似度计算得到，在各层计算完成后，将联合三层的输出结果来作为实体最终的嵌入。

更进一步，在所述步骤5)中，采用翻译模型TransE，将3)中的关系三元组和4)中得到的900维的实体嵌入以及900维的关系嵌入输入到TransE中，通过平移实体和关系，使三元组尽可能满足最后训练得到新的实体嵌入。

在所述步骤6)中，将经过4)、5)两步的训练所得到的两个知识图谱的实体嵌入各自分布在他们自己的向量空间当中，此时通过缩小1)中标注的预对齐的实体对之间的距离，来将两个知识图谱映射进同一个向量空间；通过梯度下降算法来最小化对其损失函数，对齐的损失函数的定义为：

其中，是预先对齐的实体对集合，Q是通过步骤7)迭代得到的可能对齐的实体对集合，/>是以错误对齐的实体对集合作为负样本，它是通过使用错误的实体替换中的e_i或者e_j来生成的，错误实体的生成策略是使用实体的最近邻采样，||·||₂表示两个向量的L₂范数，γ₂＞0是超参数，μ₂是一个权重系数，[·]₊＝max(0，·)。

在所述步骤7)中，动态阈值迭代对齐模块捕获可能对齐实体对的过程如下：在第t次迭代中，对于所有未对齐的实体e∈U₁ ∪ U₂，从其候选对齐实体集合中分别找到与它们自己对齐概率最大且概率超过θ(t)的实体，组成可能的对齐实体对，然后取并集以保证一对一约束，然后得到第t次迭代中可能对齐的实体对集合Q^(t)，并作为预先对齐实体对的补充，Q^(t)定义如下：

其中表示在第t迭代中实体e_i，e_j之间的对齐概率，/>是实体e的候选对齐实体对集合，表示第t次迭代中，与实体e的对齐概率超过阈值的实体集合，动态阈值会随着训练的进行而衰减，其取值范围为(0，1)，定义如下：

其中γ是初始阈值，ω＜0为衰减系数，控制阈值衰减的下限，λ为衰减速率。

在所述步骤8)-10)中，将7)中获得的新的对齐实体对暂时地加入到预对齐实体对当中，这些新的实体对会和这些新的实体对会和人工标注的少量的训练集一同在下一轮的训练中指导训练；下一轮的训练即重复迭代地执行步骤4)-8)，直至实体嵌入收敛；根据9)中得到的最终的实体嵌入，计算实体的相似度，每个实体与来自另一知识图谱且和自己距离最近的实体相对齐，得到最终的对齐结果

本发明的有益效果表现在：本发明联合使用了翻译模型和图卷积模型，以保留知识图谱中关系的语义信息和充分利用实体的邻节点结构信息，利用注意力机制减少不重要的邻节点带来的噪音，使得即便在标注对齐的实体对样本不足的情况下依旧能有较好的对齐效果；此外，通过迭代对齐策略能够充分利用未对齐的实体对，在每轮实体嵌入训练之后，模型都将会重新捕获高概率的对齐实体对加入到下一轮的实体嵌入训练当中，以此来补充稀缺的训练样本，从而避免了预先对齐实体对数量不足所导致的对齐精度不高的问题。

附图说明

图1是两个需要对齐的知识图谱示意图。

图2是本发明整体框架图。

图3是基于动态阈值的迭代对齐过程示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图3，以跨语言的Wikidata两个知识图谱为应用实例，并结合附图对本发明的作进一步说明。图1(a)给出了两个待对齐的知识图谱，其中KG₁是中文知识图谱，KG₂是相同领域的英文知识图谱，为方便后续说明，对知识图谱的实体和关系进行编号，如图1(b)所示。

参照图1、图2、图3，一种基于动态阈值的迭代式知识图谱实体对齐方法，包括以下步骤：

1)首先人工标注少量的对齐实体对作为训练集，如图2(b)所示，我们人工标记e₁和e′₁为预先对齐实体对之一，即

3)分别对两个知识图谱的结构进行编码，得到两个直接邻接矩阵、两个间接邻接矩阵和两个关系三元组集合；以图2(a)的KG₁为例，e₁的直接邻节点有{e₂，e₃}，间接邻节点有{e₄，e₅，e₆}，那么对称的直接邻接矩阵D的各元素为D_1，2＝D_1，3＝D_2，1＝D_3，1＝1，其余元素均为0；对称的间接邻接矩阵I的各元素为I_1，4＝I_1，5＝I_1，6＝I_4，1＝I_5，1＝I_6，1＝1，其余元素为0；KG₂同理可以得到；关系三元组的表示同样以KG₂为例，e₁与e₃之间由r₂相连，关系三元组为(e₁，r₂，e₃)；

4)将3)中得到的直接邻接矩阵和间接邻接矩阵输入到图卷积模型中，根据邻接矩阵的信息，每个实体会聚合其自身节点、直接邻节点和间接邻节点的特征来更新自己的特征向量；根据图2(c)，KG₁中实体e₁会聚合自身以及直接邻节点{e₂，e₃}和间接邻节点{e₄，e₅，e₆}的特征，根据公式(1)的运算，分别得到两层隐藏层的特征向量，最后将输入层和两层隐藏层连接，最终得到实体e₁的特征向量

5)将关系三元组和4)中得到的900维的实体嵌入以及900维的关系嵌入输入到翻译模型TransE中，通过平移实体和关系，使三元组尽可能满足如图2(d)所示，通过最小化损失函数函数，使得/>尽可能得到满足，最后收敛得到了进一步的实体嵌入；

6)通过拉近相互对齐的实体对之间的距离，将两个知识图谱的实体映射到同一个向量空间当中；图2(b)中所示，左侧为人工标注的对齐实体对，右侧为迭代对齐模块捕获的对齐实体对，通过公式(2)的对齐损失函数，将两个知识图谱相互对齐的实体距离拉近，从而使两个知识图谱进入统一的向量空间，即图2(d)-(e)所示；

7)在统一向量空间中，动态阈值迭代对齐模块从未标注的对齐实体中动态地捕获可能对齐的实体对；图3给出迭代对齐模块详细的示意图，假设其中白色实体e_j和灰色实体e′_i分别来自不同的两个知识图谱，半径为r的黑色虚线圆圈是位于其中心的实体的感知范围，只有相互进入对方感知范围内的实体对才有成为新的对齐实体对的可能，该半径为r的感知范围与阈值呈负相关，随着训练的进行，感知范围会非线性的扩大；对于e₂而言，e′₂是与e₂最近且唯一一个在其感知范围内的实体，因此e₂倾向于与e′₂对齐；但对于e′₂而言，e₁和e₂都在e′₂的感知范围内，但是e₁比e₂更加接近e′₂，e′₂倾向于与e₁对齐，因此e₂与e′₂不会成为下轮训练中新的对齐实体对，e′₂会与同样倾向于与自己对齐的e₁成为新的对齐实体对并被捕获进入下一轮的训练；对于e′₃而言，虽然e₄比e₃更接近e′₃，但是e₄和e′₄是预先对齐的实体对，因此他们不参与迭代对齐的过程，所以e′₃会与e₃暂时地成为下轮训练中新的对齐实体对；

8)将7)中得到的新的对齐实体对暂时地加入到训练集当中，即图2(b)的新的对齐实体对集合，与标注的对齐实体对一起参与到下一轮训练当中；

10)根据9)中得到的实体嵌入，计算实体的预先相似度，每个实体与来自另一知识图谱且和自己距离最近的实体相对齐，得到最终的对齐结果

Claims

1.一种基于动态阈值的迭代式知识图谱实体对齐方法，其特征在于，所述方法包括以下步骤：

1)人工标注少量的对齐实体对作为训练集的种子；

10)根据9)中得到的实体嵌入，计算实体的相似度，得到最终实体对齐的结果；

在所述步骤1)中，人工标注少量的对齐实体集合对我们定义为/> 实体对齐的目标是根据/>尽可能地找到两个知识图谱中其他相互对齐的实体对集合/>其中A_i,U_i分别表示知识图谱KG_i中预先标记为对齐的实体和未标记对齐的实体集合，E_i＝A_i∪U_i,i∈{1,2}，在e₁和e₂之间的～表示等价对齐关系；

在所述步骤7)中，动态阈值迭代对齐模块捕获可能对齐实体对的过程如下：在第t次迭代中，对于所有未对齐的实体e∈U₁∪U₂，从其候选对齐实体集合中分别找到与它们自己对齐概率最大且概率超过θ(t)的实体，组成可能的对齐实体对，然后取并集以保证一对一约束，然后得到第t次迭代中可能对齐的实体对集合/>并作为预先对齐实体对的补充，定义如下：

其中表示在第t迭代中实体e_i,e_j之间的对齐概率，/>是实体e的候选对齐实体对集合，表示第t次迭代中，与实体e的对齐概率超过阈值的实体集合，动态阈值会随着训练的进行而衰减，其取值范围为(0,1)，定义如下：

其中γ是初始阈值，ω<0为衰减系数，控制阈值衰减的下限，λ为衰减速率。

2.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法，其特征在于，定义与实体e只有一条关系直接相连的实体集合为直接邻节点集合N_e,1＝{e′|(e,r,e′)∈T}∪{e′|(e′,r,e)∈T}，定义与实体e∈E需要经过两条关系相连的实体的集合为间接邻节点集合N_e,2＝{e″|(e″,r,e′)∈T,e′∈N_e,1}∪{e″|(e′,r,e″)∈T,e′∈N_e,1}；所述步骤3)中，直接邻接矩阵反映的是任意两个实体之间是否互为直接邻节点的关系，若是否互为直接邻节点的关系则矩阵对应位置为1，否则则为0；间接邻接矩阵反映的是任意两个实体之间是否互为间接邻节点的关系，若是则为1，反之则为0；关系三元组表示为(h,r,t),h为头实体，r为关系，t为尾实体。

3.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法，其特征在于，在所述步骤4)中的邻域扩展的图卷积模型GCN结构如下：模型一共有三层，输入层以及两层隐藏层；我们联合三层的输出结果作为实体的嵌入，每层的维度均为300维；实体的特征在层与层之间传递的时候，都会聚合它上一层自身的特征以及它的邻节点的特征，并且依照当前的相似度，赋予不同实体不同的注意力权重；并且在融合间接邻节点的特征和直接邻节点的特征时，分别赋予他们不同权重；通过聚合实体i的邻节点的信息来作为实体i在第l层的嵌入,表示为

其中，N_i,1表示实体i∈E的直接邻节点集合，N_i,2表示实体i∈E的间接邻节点集合，分别为聚合直接邻节点信息时第l层的权重矩阵和聚合间接邻节点信息时第l层的权重矩阵，σ₁表示的是激活函数，γ是一个权重用于平衡来自直接邻节点聚合的结果和来自间接邻节点聚合的结果，/>表示的是实体i与其邻节点j之间的注意力权重,由实体i,j之间的相似度计算得到，在各层计算完成后，将联合三层的输出结果来作为实体最终的嵌入。

4.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法，其特征在于，在所述步骤5)中，采用翻译模型TransE，将3)中的关系三元组和4)中得到的900维的实体嵌入以及900维的关系嵌入输入到TransE中，通过平移实体和关系，使三元组尽可能满足最后训练得到新的实体嵌入。

5.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法，其特征在于，在所述步骤6)中，将经过4)、5)两步的训练所得到的两个知识图谱的实体嵌入各自分布在他们自己的向量空间当中，此时通过缩小1)中标注的预对齐的实体对之间的距离，来将两个知识图谱映射进同一个向量空间；通过梯度下降算法来最小化对其损失函数，对齐的损失函数的定义为：

其中，是预先对齐的实体对集合，/>是通过步骤7)迭代得到的可能对齐的实体对集合，/> ^-是以错误对齐的实体对集合作为负样本，它是通过使用错误的实体替换/>中的e_i或者e_j来生成的，错误实体的生成策略是使用实体的最近邻采样，‖·‖₂表示两个向量的L₂范数，γ₂>0是超参数，μ₂是一个权重系数，[·]₊＝max(0,·)。

6.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法，其特征在于，在所述步骤8)-10)中，将7)中获得的新的对齐实体对暂时地加入到预对齐实体对当中，这些新的实体对会和这些新的实体对会和人工标注的少量的训练集一同在下一轮的训练中指导训练；下一轮的训练即重复迭代地执行步骤4)-8)，直至实体嵌入收敛；根据9)中得到的最终的实体嵌入，计算实体的相似度，每个实体与来自另一知识图谱且和自己距离最近的实体相对齐，得到最终的对齐结果