CN113505239B

CN113505239B - 一种结合图注意力和属性聚类的实体对齐方法

Info

Publication number: CN113505239B
Application number: CN202110777340.5A
Authority: CN
Inventors: 包铁; 朱蓓蓓; 彭涛
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2022-10-28
Anticipated expiration: 2041-07-09
Also published as: CN113505239A

Abstract

本发明公开了一种结合图注意力和属性聚类的实体对齐方法，包括：S1：将两个知识图谱的实体，输入到结合图注意力和密集连接的图卷积网络，得到实体嵌入表示；S2：基于所述实体嵌入表示，计算所述实体嵌入表示中实体间的相似性，得到序列s；S3：使用k‑prototype聚类方法对实体的属性进行混合聚类，并计算簇间的相异性，得到实体间的相异性；S4：根据预设阈值，利用所述实体间的相异性对所述序列s进行排序，得到候选集；S5：利用所述候选集过滤弱相关的实体，得到等价实体。本发明考虑多方面因素，并提高语义信息利用率，结合图注意力和属性聚类提升了两个知识图谱之间实体对齐的效率和精度。

Description

一种结合图注意力和属性聚类的实体对齐方法

技术领域

本发明属于自然语言处理技术领域，涉及一种结合图注意力和属性聚类的实体对齐方法。

背景技术

近年来，知识图谱被应用到无数领域。构建知识图谱的数据源可以是结构化数据、半结构化数据、无结构化数据和通用知识图谱等，但是不同组织会根据自己的业务需求去选择数据来源。此外构建不同领域知识图谱的方法也不具备统一的行业标准，这都导致了不同知识图谱间存在着异质和冗余问题。例如，图1显示了DBP15K数据集里面的中文知识图谱和英文知识图谱对实体“李宇春”的介绍存在互补和重复的情况，如果能够关联两个知识图谱的信息，会对李宇春这个人有更详细和更全面的认知。因此为了充分利用实体的信息，医学、电商和地理等领域的研究人员通过对齐的方式来融合不同的知识图谱。

但是现存的实体对齐方法首先没有很好的同时利用结构和属性信息。其次，没有很好地将节点特征之间的相关性融入到模型中。再次，没有采用有效的技术利用属性信息去过滤与测试源实体弱相关的等价实体集，这不利于实体对齐领域的发展。

由于实体对齐对于融合知识图谱非常关键，已经有研究人员对其进行研究。现有技术中北京大学王选计算机研究所的吴雨婷等人所做的联合学习实体和关系表示用于实体对齐，该技术方案显式地利用有价值的关系去辅助实体对齐，无需依赖预先对齐的关系种子去学习关系表示，而是利用图卷积神经网络学习到的实体嵌入去近似关系表示。该研究方法的步骤如下：首先利用普通的图卷积神经网络去嵌入各种知识图谱到向量空间以进行初步的实体对齐。然后，使用实体嵌入去近似可以被用于对齐跨知识图谱间关系的关系表示。最后，将实体嵌入和关系表示联合在一起，继续使用图卷积神经网络融合邻居的结构信息以获得更好的实体和关系表示。该研究方法有一定的局限性，不能利用注意力很好地将节点特征之间的相关性融入到模型中。另外，也没有利用实体的属性信息去辅助实体对齐。

通过对现有技术分析，发现现有技术主要存在的缺点包括：

(1)语义信息利用程度较低：仅仅嵌入结构和关系，没有考虑实体的属性信息对于实体对齐性能的影响。

(2)不能自动选择与实体对齐任务相关的子图：普通图卷积网络将各个邻居都视作具有相同的贡献度是不合理的，不能很好地将节点特征之间的相关性融入到模型中，效率较低。

(3)未考虑深度学习模型层数变多引起的梯度下降问题：现有的部分研究利用深度模型进行训练，但是在堆叠很多层神经网络的时候没有考虑噪声对模型性能的影响，不利于特征传播和模型的精度。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种至少部分解决上述技术问题的一种结合图注意力和属性聚类的实体对齐方法。

本发明实施例提供一种结合图注意力和属性聚类的实体对齐方法，包括：

S1：将两个知识图谱的实体，输入到结合图注意力和密集连接的图卷积网络，得到实体嵌入表示；

S2：基于所述实体嵌入表示，计算所述实体嵌入表示中实体间的相似性，得到序列s；

S3：使用k-prototype聚类方法对实体的属性进行混合聚类，并计算簇间的相异性，得到实体间的相异性；

S4：根据预设阈值，利用所述实体间的相异性对所述序列s进行排序，得到候选集；

S5：利用所述候选集过滤弱相关的实体，得到等价实体。

进一步地，所述S1，包括：

S11：将第一知识图谱、第二知识图谱和种子集合输入；

S12：将所述第一知识图谱和所述第二知识图谱的实体输入卷积网络进行编码；

S13：利用所述种子集合将编码后的所述第一知识图谱和所述第二知识图谱连接；

S14：将连接后的所述第一知识图谱和所述第二知识图谱，嵌入到相同的向量空间，得到初始化邻接矩阵A；

S15：将所述初始化邻接矩阵A输入到改进的图卷积网络；

S16：对所述初始化邻接矩阵A应用N头注意力，并对所述初始化邻接矩阵A进行加权，得到N个对应的邻接矩阵

所述N表示预设参数；所述邻接矩阵

表示类型t相关的邻接矩阵；

S17：将每个所述邻接矩阵

分别输入到对应的密集连接层，得到第l层的实体嵌入表示。

进一步地，所述第l层的实体嵌入表示，计算公式为：

公式(1)，其中，n表示所述第一知识图谱和所述第二知识图谱中任一知识图谱中实体的个数；i和j均表示所述任一知识图谱中实体的编号；i和j表示不同实体的编号；所述邻接矩阵

和所述初始化邻接矩阵A值的大小相同；

表示所述邻接矩阵

中实体编号i和实体编号j对应的元素值；W^(l)表示可训练的权重矩阵；g^(l)表示初始节点和前l层所有的输出节点表示的拼接；b^(l)表示偏置向量；

表示类型为t的邻接实体在所述结合图注意力和密集连接的图卷积网络第l层的实体嵌入向量矩阵。

进一步地，所述步骤S2中的相似性，使用余弦相似度计算，计算公式为：

公式(2)中，h(e_r)表示所述第一知识图谱的实体嵌入；h(e_s)表示所述第二知识图谱的实体嵌入；e_r表示所述第一知识图谱中的实体，r表示所述第一知识图谱中实体的编号；e_s表示所述第二知识图谱中的实体，s表示所述第二知识图谱中实体的编号；D(e_r,e_s)表示两个实体在向量空间的距离。

进一步地，所述步骤S3中的相异性，计算公式为：

公式(3)中，y_il表示分割矩阵中的元素；d(x_i,Q_l)表示数据和聚类簇的相异性；Q_l表示簇的原型；E表示两个实体的相异性；k表示簇原型的个数；x_i表示所述任一知识图谱中的实体。

进一步地，还包括，使用损失函数训练所述结合图注意力和密集连接的图卷积网络；所述损失函数的表达式为：

Loss＝∑_(a,b)∈L∑_(a',b')∈L'max{0,D(a,b)-D(a',b')+γ} (4)

公式(4)中，γ＞0表示边缘的超参数；L'表示L的负例集合；所述L表示正例集合；Loss表示所述结合图注意力和密集连接的图卷积网络的损失函数；D(·)与所述公式(2)中的D(·)相同。

本发明实施例提供一种结合图注意力和属性聚类的实体对齐方法，与现有技术相比具有以下优势：

(1)语义信息利用程度较高：结构和属性都包含着重要的语义信息，在实体对齐任务中，模型可参考的有效信息越多意味着对齐效果越好。因此本发明除了考虑结构信息外，还利用混合聚类算法k-prototype对实体的属性进行聚类。

(2)自动选择与实体对齐任务相关的子图：在聚合邻居节点过程中，一些现存的研究通过堆叠图卷积网络获得更大的视野，而本发明直接将注意力放在那些获得极大注意的局部图结构上，起到了自动选择与实体对齐任务相关的子图的作用，效率更高。

(3)考虑噪声对模型性能的影响：本发明考虑深度学习模型层数增加引起的梯度下降问题，密集连接可以促进特征的重复利用，大大减少参数的数量，有效防止过拟合，有利于提升模型的精度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为现有技术中的DBP15K数据集中的中文知识图谱和英文知识图谱示意图；

图2为本发明实施例提供的结合图注意力和属性聚类的实体对齐方法流程图；

图3为本发明实施例提供的结合图注意力和属性聚类的实体对齐方法的模型结构图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“内接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

为了更好的理解本发明，本发明实施例将使用到的部分相关知识及其定义进行解释，具体如下：

知识图谱：本质上是语义网络，一种基于图的数据结构，由节点和边组成，节点表示实体，边表示实体与实体之间的关系。

种子集合：待对齐的两个知识图谱之间的预先实体链接集合。

图卷积神经网络：与卷积神经网络的作用相同，是一个特征提取器，不过图卷积神经网络的对象是图数据。

图嵌入：将属性图转换为向量或向量集。嵌入应该捕获图的拓扑结构、节点到节点的关系以及关于图、子图和节点的其它相关信息。

注意力：深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其它簇中的对象相异。本发明提到的k-prototype、k-mode和k-mean都是聚类算法。

余弦相似度：用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。

损失函数：用来评价模型的预测值和真实值不一样的程度，损失函数的值越小，通常模型的性能越好。不同的模型用的损失函数一般也不一样。

密集连接：用于缓解在深度学习网络中随着网络深度的加深引起的梯度消失问题的一种方法。

下面详细介绍本发明实施例提供的一种结合图注意力和属性聚类的实体对齐方法，如图2所示，包括：

S2：基于实体嵌入表示，计算实体嵌入表示中实体间的相似性，得到序列s；

S4：根据预设阈值，利用实体间的相异性对序列s进行排序，得到候选集；

S5：利用候选集过滤弱相关的实体，得到等价实体。

在本发明实施例中，该方法整合了结构和属性信息，提高了语义信息利用程度，使本发明具有普适性，可以广泛应用到各种知识图谱的对齐任务中。其次，在图卷积神经网络的基础上加入注意力对实体进行嵌入，将节点特征之间的相关性更好的融入到模型中，自动选择与实体对齐任务相关的子图，同时引入了密集连接层缓解图卷积网络层数增多引起的梯度消失问题，有助于提升模型的精度。同时，考虑了深度学习模型层数变多引起的梯度下降问题，改善了实体对齐的效果，提高了特征传播和模型的精度。

本发明实施例，能够高质量链接不同的知识图谱，有助于理解底层数据。并且与人工的方式对齐实体相比，本发明减少了成本，提高了对齐效率。本发明有利于数据挖掘、生物医学和机器学习等领域的发展。

下面结合如图3所示的模型结构，将本发明上述步骤S1-S5分为嵌入、属性聚类和实体对齐三部分，进行更为详细的说明。

首先，给定第一知识图谱、第二知识图谱和种子集合作为输入。其中，种子集合的作用是作为第一知识图谱和第二知识图谱连接的桥梁，为了能让第一知识图谱和第二知识图谱嵌入到相同向量空间，如果第一知识图谱和第二知识图谱分别被嵌入到不同的向量空间，则不能计算来自第一知识图谱中实体和来自第二知识图谱中实体的距离。

(1)嵌入部分

先应用融合注意力和密集连接的图卷积网络对实体进行嵌入。实体嵌入分为多个块，第一块没有使用注意力，只是单纯的应用图卷积网络对知识图谱的结构进行编码，得到的初始化邻接矩阵A作为第二块的输入。从第二个块开始，应用N头注意力实现同时提取结构信息和获得节点之间的相关性，对输入的第一知识图谱和第二知识图谱的邻接矩阵进行加权，得到N个注意力引导的邻接矩阵

邻接矩阵

表示类型t相关的邻接矩阵，其每一行表示一种实体，每一列表示一个类型为t的邻接实体，这里的N表示预设参数。然后将每个

输入到对应的密集连接层。密集连接层训练深层网络，可以减轻梯度消失现象。本发明中融合注意力和密集连接的图卷积网络对于第l层的输出计算如下：

其中，公式(1)和(3)为第一知识图谱和第二知识图谱的通用公式，n指的是第一知识图谱和第二知识图谱其中任一知识图谱中实体的个数；i和j表示知识图谱中实体的编号；i和j表示不同实体的编号；邻接矩阵

和初始化邻接矩阵A值的大小相同；

表示邻接矩阵

表示类型为t的邻接实体在结合图注意力和密集连接的图卷积网络第l层的实体嵌入向量矩阵。

再对N个不同密集连接层的表示进行线性组合得到实体嵌入。实体嵌入只反映实体本身的语义，不能显式地包含其邻接的语义，所以本发明用关系对应的头实体和尾实体的嵌入去表示关系。对于每个实体，本发明将关系表示与实体表示拼接在一起，形成实体嵌入表示。

等价的实体在嵌入空间的距离较小，而不等价的实体间距离较远。对于第一知识图谱中的实体e_i和第二知识图谱中的实体e_j，本发明基于实体嵌入表示，使用余弦相似度来计算两个实体在向量空间的距离，计算公式如下：

公式(2)中，h(e_r)表示第一知识图谱的实体嵌入；h(e_s)表示第二知识图谱的实体嵌入；e_r表示第一知识图谱中的实体，r表示第一知识图谱中实体的编号；e_s表示第二知识图谱中的实体，s表示第二知识图谱中实体的编号；D(e_r,e_s)表示两个实体在向量空间的距离。

本发明提出在图卷积神经网络的基础上加入注意力对实体进行嵌入，可以更好地将节点特征之间的相关性融入到模型中，但不同于将注意力用于计算边权重，影响信息传播的图注意力网络。同时，本发明引入了密集连接层缓解图卷积网络层数增多引起的梯度消失问题，有助于提升模型的精度。

在聚合邻居节点过程中，一些现存的研究通过堆叠图卷积网络获得更大的视野，而本发明的嵌入部分直接将注意力放在那些获得极大注意的局部图结构上，起到了自动选择与实体对齐任务相关的子图的作用，效率更高。

(2)属性聚类部分

实体的属性一般属于数值和类别这两种类型，本发明利用k-prototype算法对第一知识图谱和第二知识图谱中的属性三元组进行聚类。K-prototype算法提出了继承k-mean算法和k-mode算法的混合属性聚类的原型。数值属性上的相似度度量是平方欧几里得距离，而类别属性上的相似度度量是对象和簇原型之间的不匹配数量。K-prototype聚类使用代价函数来分别测量数值类型、类别类型和原型之间的距离。其相异性代价函数定义如下：

其中，公式(3)中，y_il表示分割矩阵中的元素，分割矩阵由知识图谱中实体的属性聚类产生；d(x_i,Q_l)表示数据和聚类簇的相异性，由欧氏距离计算得到；Q_l表示簇的原型；E表示两个实体的相异性；k表示簇原型的个数；x_i表示公式(3)所计算知识图谱中的实体。

并非所有实体都有足够多的可以为实体对齐提供信息的邻居。在这种情况下，当前基于嵌入的实体对齐方法几乎不能找到真正对齐的实体。结构、关系和属性都包含着重要的语义信息，在实体对齐任务中，模型可参考的有效信息越多意味着对齐效果越好。

因此本发明提出的一种针对知识图谱的实体对齐方法，整合了结构、关系和属性信息，具有普适性，可以广泛应用到各种知识图谱的对齐任务中。另外，本发明除了考虑结构和关系信息外，还利用混合聚类算法k-prototype对实体的属性进行聚类，提高了语义信息利用程度。

(3)实体对齐部分

如图3所示，对于第一知识图谱中的测试实体h₁₂，首先进行基于嵌入的实体相似性计算，将测试实体h₁₂和所有等价实体集之间的相似性进行排序得到序列s。然后在聚类部分，可以得到测试实体h₁₂和所有第二知识图谱中的等价实体集之间的属性相异性，根据经验设定阈值，满足条件的等价实体集被选入侯选集合。然后让候选集合中的实体在序列s中的排名更靠前，起到过滤弱相关实体的作用。基于这种方法，可以获得每个测试实体的等价实体集排序序列，最终找到与测试实体等价的等价实体集。

本发明在属性聚类部分提出对实体的数值属性和类别属性进行混合聚类，实体对齐部分通过聚类得到的簇相异性与嵌入部分的相似性结合，重新对序列s进行排序，过滤与测试的源实体弱相关的等价实体集，提高实体对齐的效果。

在一具体实施例中本发明提供的结合图注意力和属性聚类的实体对齐方法，还包括训练部分。本发明为了使对齐实体对之间的距离尽可能的小，正负对齐对之间的距离尽可能大，在训练结合图注意力和密集连接的卷积网络时，损失函数定义如下：

Loss＝∑_(a,b)∈L∑_(a',b')∈L'max{0,D(a,b)-D(a',b')+γ} (4)

公式(4)中，γ＞0表示边缘的超参数；L'表示L的负例集合；L表示正例集合，包含一对或多对等价实体的集合；a和a'均是属于第一知识图谱中的实体；b和b'均是属于第二知识图谱中的实体；Loss表示结合图注意力和密集连接的图卷积网络的损失函数；D(·)与公式(2)中的D(·)相同。

本发明采用截断负采样，根据最近邻的方式将候选集限定在一定的范围，从被限制范围的候选集中选择实体去替换正样本中的实体。负例集合是通过损坏(损坏的意思在这里指的是替换操作)正例集合得到的，正例集合指的是知识图谱中已经存在等价实体元组的集合，负例集合就是利用第一知识图谱或者第二知识图谱中随机选择实体去替换正例集合中元组中的元素得到的，生成负例集合的目的是优化训练。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。