CN112988917A

CN112988917A - 一种基于多种实体上下文的实体对齐方法

Info

Publication number: CN112988917A
Application number: CN202110346496.8A
Authority: CN
Inventors: 吴天星; 李林; 漆桂林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-18
Anticipated expiration: 2041-03-31
Also published as: CN112988917B

Abstract

本专利公开了一种基于多种实体上下文的实体对齐方法，主要处理因为实体结构异构性、实体属性异构性以及实体文本描述异构性引起的实体对齐困难问题。对于实体结构异构性问题，本专利使用TransE和RDF2Vec方法分别处理一跳和多跳结构信息，获取实体结构编码。对于实体属性异构性，本专利使用图卷积网络技术和图注意力机制，对每个实体按其属性的重要性提取其属性、属性值的信息，并映射到低维稠密的向量空间中。对于实体文本描述异构性，本专利使用预训练语言模型BERT获取文本语义信息，基于种子对齐实体信息进行模型的训练和学习，将实体的文本信息映射到低维稠密的向量空间。最后，本专利使用拼接技术和多视角技术对多种实体上下文进行联合对齐学习。

Description

一种基于多种实体上下文的实体对齐方法

技术领域

本专利属于实体对齐领域，涉及一种基于多种实体上下文的实体对齐方法。

背景技术

近年来，知识图谱作为一种结构化的知识形式已经引起了学术界和工业界的极大关注。知识图谱(Knowledge Graph)的概念由Google于2012年正式提出，其目的是将大规模知识整合在一起，分析用户查询背后的语义信息，返回更准确和结构化的信息，更大可能地满足用户的查询需求。尽管谷歌公司最初提出知识图谱是为了增强搜索结果，改善用户体验，但目前知识图谱已经逐渐演变为一种通用的技术，很多机构都开始构建自己的知识图谱，例如微软公司的ConceptNet，卡内基梅隆大学的NELL，东南大学的Zhishi.me等等，这些知识图谱被广泛应用于许多基于知识的应用中。由于知识图谱可以由任何机构和个人自由构建，其背后的数据宽泛且质量参差不齐，导致了它们之间的多样性和异构性。例如，对于相交的领域(甚至相同的领域)，在现实世界中经常有多个不同的实体指代同一事物。实体对齐的目标就是将不同的知识图融合为一个统一，一致且简洁的知识图谱，并为使用不同知识图谱的应用程序之间的交互建立互操作性。

本专利提出的基于多种实体上下文的实体对齐方法，主要用于处理因为实体结构异构性、实体属性异构性以及实体文本描述异构性等引起的实体对齐困难问题。对于实体结构异构性问题，本专利使用TransE和RDF2Vec方法分别学习实体的一跳和多跳结构信息，将实体从多维稀疏的实体空间映射到低维稠密的向量空间。对于实体属性异构性，本专利使用图卷积网络技术和图注意力机制，对每个实体按其属性的重要性提取其所有属性、属性值的信息，并映射到低维稠密的向量空间中。对于实体文本描述异构性，本专利使用当前最流行的BERT学习文本的语法结构信息和语义信息，基于种子对齐实体信息进行模型的训练和学习，将实体的文本信息映射到低维稠密的向量空间。最后，本专利使用拼接技术和多视角技术对多种实体上下文进行联合对齐学习。

相比较已有的实体对齐方法，本方法考虑了实体的多种上下文，并提出了两种联合对齐学习模型，只需要少量的人工标注对齐实体，即可自动化的完成知识图谱实体对齐。

专利内容

技术问题：本专利提供了一种基于多种实体上下文的实体对齐方法，只需要人工标注少量的种子对齐实体，即可自动化的完成知识图谱实体对齐。

技术方案：本专利公开了一种基于多种实体上下文的实体对齐方法，主要用于处理因为实体结构异构性、实体属性异构性以及实体文本描述异构性等引起的实体对齐困难问题。对于实体结构异构性问题，本专利使用TransE和RDF2Vec方法分别学习实体的一跳和多跳结构信息，将实体从多维稀疏的实体空间映射到低维稠密的向量空间。对于实体属性异构性，本专利使用图卷积网络技术和注意力机制，对每个实体按其属性的重要性提取出综合其所有属性、属性值的信息，并映射到低维稠密的向量空间中。对于实体文本描述异构性，本专利使用当前最流行的BERT学习文本的语法结构信息和语义信息，基于种子对齐实体信息进行模型的训练和学习，将实体的文本信息映射到低维稠密的向量空间。最后，本专利使用拼接技术和多视角技术对多种实体上下文的向量使用联合对齐学习。

本专利提出的基于多种实体上下文的实体对齐方法，包括以下步骤：

1)首先，利用TransE从知识图谱关系三元组中学习实体的一跳结构信息。给定一个关系三元组tr＝(head,rel,tail)，其中head和tail表示实体，rel表示关系，使用首字母h、t和r分别代表其向量表示，那么TransE尽量使g+r≈t，即评分函数

尽量小。在学习过程中，为了增强知识表示的区分能力，采用最大间隔法，并定义了以下目标函数:

其中，γ为正样本的评分与负样本的评分之间的间隔，G是合法三元组(正样本)的集合，即用于训练的三元组集合，G′为错误的三元组(负样本)的集合，E代表知识图谱中所有实体的集合。负样本是通过对正样本进行负采样得到的，具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的，分别对应公式中h′、t′，负样本采样如下面公式所示。

利用RDF2Vec从知识图谱关系三元组中学习实体的多跳结构信息，将知识图谱看成由无数条实体关系路径构成网络结构，通过图随机游走算法，每次采样出一条或多条实体关系路径，再利用Skip-Gram模型进行学习，将实体和关系表示成低维稠密的向量。

2)其次，利用GCN模型学习属性三元组中实体的结构信息和内容信息。给定一个属性三元组tv＝(h，r，v)，其中h和t表示实体，v表示关系，那么，关于某个特定实体的所有属性三元组可以看成是以实体为中心的星状图结构，利用GCN提取星状图的信息。

星状图的顶点特征矩阵H⁰∈R^nxd，其中n是节点的数目，d是特征的数目，输出是汇集了实体属性信息和属性值信息的新特征矩阵H¹。

其中，σ是一个激活函数，

是一个n×n连通性矩阵，表示图的结构信息；

I是一致性矩阵；D是A的对角度矩阵；W∈R^d×d′是GCN的权重矩阵，d’是新顶点特征的维数。

在基于属性三元组的实体对齐任务中，不同属性对实体对齐的贡献不同，因此采用注意机制提取关键属性信息。图注意力网络GAT将共享的线性变换应用于每个注意力函数中的实体。计算公式如下：

c＝LeakeyReLU[(MH⁰)^T(MH¹)]

α＝softmax(c)

其中，c是实体及其邻居实体的可学习注意力权重，α是c经过softmax函数归一化之后的权重，H¹是汇集了实体属性信息和属性值信息的新特征矩阵。

给定属性三元组(h，a，v)∈KG1∪KG2，定义了如下的函数，将属性结构信息和属性值内容信息传递给实体。

基于上面的公式，实体向量表示将会尽量接近属性和属性值的综合向量表示。使用logistic loss优化函数f_attr，公式如下：

其中，γ₁和γ₂分别表示来自于知识图谱1和知识图谱2的属性三元组集合。

3)采用BERT作为预训练模型，学习文本的语法结构信息和语义信息，对不同语言的文本信息进行编码，再基于种子对齐实体对信息进行微调(fine-tuning)，计算不同语言的文本信息之间的相关性，

给定实体的不同语言的文本描述信息，根据实体的文本信息训练BERT，训练目标为：(1)随机掩盖一些词，根据该词的上下文预测被掩盖的词语，(2)随机选取一些连续句子，预测前后句子之间的连贯性。

4)采用线性变换方法，将不同的实体上下文学习到的向量映射到同一个向量空间中，称为共享向量空间。

其中，

是实体第i个视角对应的向量表示，所述步骤1)、2)、3)中分别是三个视角(三类实体上下文)对应的实体向量，H_i是将实体第i个视角的向量映射到共享空间的映射矩阵。

其中，D是视角的个数，I是单位矩阵。

4a)拼接

V＝[V₁；V₂；...；V_D]

如上式所示，在共享空间中，将所有视角(所有上下文)的向量表示进行拼接，作为最终的实体向量表示。

4b)多视角完整空间

对于所有实体，向量表示为x，视角的个数为D，全局空间为λ，则由λ重构这D个视角的损失函数为

其中，c是一个超参数，W_i是由全局空间λ生成第i个视角的生成矩阵。上述loss函数，可以分解为两部分，第一部分是计算生成矩阵W，第二部分是计算实体在全局空间的向量表示x。

给定生成矩阵W的情况下，上述loss函数可被简化为

求导得出x的更新公式如下，记为公式1和公式2：

固定全局空间中所有实体向量不变的情况下，上述loss函数可被简化为

求导得出W的更新公式如下，记为公式3和公式4：

经过多次迭代，模型收敛，向量x即为最终的实体向量表示。

5)所述步骤4)中得到了待对齐知识图谱中所有实体的向量表示，记所有实体的向量矩阵为W₁和W₂，通过计算矩阵乘积，查找出与每个实体最相似的实体。

s＝W₁′W₂

对于每个实体i，在行向量S_i中，找出与实体i最相似的实体j，即：

S_ij＝max(S_i*)，0≤*≤|E|

其中|E|表示实体总数。

6)所述步骤5)中最终得到了很多最相似实体对，即为对齐实体。

有益结果：本发明与现有技术相比，具有以下优点：

基于关系三元组的模型很多是以TransE模型为基础，将知识图谱中的实体、关系映射为低维空间中的实值向量，然后通过计算向量相似度做对齐。

由于利用TransE对不同的知识图谱做表示学习，那么不同知识图谱的学习出来的向量将会在不同的向量空间，无法通过这些向量判断出实体与实体之间的相似度，即无法对齐实体。因此，JE利用部分种子对齐实体作为不同的知识图谱之间的桥梁，将不同的知识图谱嵌入到统一的向量空间中，其训练目标是使每对种子实体具有相同相似的向量表示。

MTransE同样是基于TransE模型，根据知识图谱的关系三元组将实体映射到特定的低维稠密向量空间中。而与JE不同的是，MTransE是分别对不同知识图谱进行表示学习，然后通过对齐模型根据种子实体学习出不同知识图谱嵌入之间的映射关系，MTransE中共设计了三大类对齐模型。

与MTransE相似，IPTransE是利用TransE分别对两个知识图谱进行表示学习，然后再利用种子实体对学习到的知识图谱实体向量做映射。然而，IPTransE的整个学习过程是迭代进行的，每次学习得到的对齐实体将作为种子实体为下一次对齐做贡献。

BootEA与IPTransE类似，采用迭代的方法不断地发掘新对齐实体。在此之外，BootEA还优化了负采样的方法，以及做了数据增强。

JAPE提出了一种用于知识图谱实体对齐的联合属性保留嵌入模型。利用种子实体将两个知识图谱的实体共同嵌入到一个统一的向量空间。然后，使用基于属性类型相似性计算的属性相关性更新向量表示。JAPE使用属性三元组信息学习实体向量表示，其背后的思想源于词嵌入模型。对于每对种子实体，它们的每个属性都是两两相关的，而对于非种子实体，如果它们的属性值类别相同，那么认为属性也相关。接着，利用Skip-Gram模型和负采样方法来训练属性的向量表示，最后，取属性向量平均值作为实体的向量表示。

JAPE虽然加入了对属性三元组的使用，但是仅仅用到了属性三元祖的属性信息，而直接丢弃了属性值信息。AttrE中加入了三种对属性值的利用方法。

(1)基于字符嵌入求和的模型。利用字符嵌入技术，根据所有属性值学习出每个字符的向量表示，然后将每个属性值的所有字符向量求和作为实体的向量。

(2)基于LSTM编码的模型。基于字符嵌入求和的模型没有保留字符串的顺序信息，所以1.24和12.4会被编码成一样的向量。因此使用LSTM保留属性值字符串的顺序信息，对于每个属性值进行编码。

(3)基于N-Gram编码的模型。N-Gram同样可以解决基于字符嵌入求和模型的无法字符处理顺序问题，并且N-Gram比LSTM轻量一些，效率会更高。

附图说明

图1是本专利方法的流程示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

如图所示，本发明提出了一种基于多种实体上下文的实体对齐方法，包括以下步骤：

1)首先，利用TransE从知识图谱关系三元组中学习实体的一跳结构信息。给定一个关系三元组tr＝(head,rel,tail)，其中head和tail表示实体，rel表示关系，使用首字母h、t和r代表其向量表示，那么TransE尽量使h+r≈t，即评分函数

其中，γ为正样本的评分与负样本的评分之间的间隔，G是合法三元组(正样本)的集合，即用于训练的三元组集合，G′为错误的三元组(负样本)的集合，E代表知识图谱中所有实体的集合。负样本是通过对正样本进行负采样得到的，具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的，分别对应公式中h’、t’，负样本采样如下面公式所示。

遍历知识图谱中的所有关系三元组，对于每一个关系三元组采样出若干个负样本，代入到目标函数中计算出Loss值，将Loss值反向传播，更新实体、关系的向量表示。经过若干次迭代后，Loss稳定并且数值较小，终止迭代。

遍历知识图谱中的所有实体，由于实体是知识图谱中的一个节点，从节点的入边和出边分别反方向随机游走，采样出属于该实体的游走路径。利用Skip-Gram模型训练采样出的游走路径，路径中距离越近的实体具有更相似的向量表示。经过若干次迭代后，Loss稳定并且数值较小，终止迭代。RDF2Vec的输出是作为TransE的预输入。

2)其次，利用GCN模型学习属性三元组中实体的结构信息和内容信息。给定一个属性三元组tv＝(h,r,v)，其中h和t表示实体，v表示关系，那么，关于某个特定实体的所有属性三元组可以看成是以实体为中心的星状图结构，利用GCN提取星状图的结构信息和属性值内容信息。比如实体姚明，其包含姓名、性别、身高、年龄等属性，那么可以看成是以实体姚明为中心节点，姓名、性别、身高、年龄为边缘节点的星状图。

星状图中的每个节点都有一个向量表示，这些向量即为顶点特征矩阵H⁰∈R^nxd，其中n是节点的数目，d是特征的数目，输出是汇集了实体属性信息和属性值信息的新特征矩阵H¹。

其中，σ是一个激活函数，

是一个n×n连通性矩阵，表示图的结构信息；

I是一致性矩阵；D是A的对角度矩阵；W∈R^d×d’是GCN的权重矩阵，d’是新顶点特征的维数。

在基于属性三元组的实体对齐任务中，不同属性对实体对齐的贡献不同，如实体姚明，可以看到：姓名属性要比身高、性别、年龄属性重要的多，因此采用注意机制提取关键属性信息。图注意力网络GAT将共享的线性变换应用于每个注意力函数中的实体。计算公式如下：

c＝＝LeakeyReLU[(MH⁰)^T(MH¹)]

α＝softmax(c)

遍历所有知识图谱实体，构造每个实体的星状图，利用BERT模型对各个属性值的向量表示进行初始化，再利用GCN模型提取星状图的结构信息，以及属性值信息，得到实体最终的向量表示。在提取的过程中，通过GAT计算每个属性、属性值对实体对齐的贡献，贡献大的实体将会有更多的权重被融入到实体最终的向量表示。

遍历所有实体的不同语言的文本描述信息，根据实体的文本信息训练BERT，训练目标为：(1)随机掩盖一些词，根据该词的上下文预测被掩盖的词语，(2)随机选取一些连续句子，预测前后句子之间的连贯性。

4)首先采用线性变换方法，将不同的实体上下文学习到的向量映射到同一个向量空间中，称为共享向量空间。

其中，

其中，D是视角的个数，I是单位矩阵。

然后将多视角的实体上下文按照下面两种方式进行整合，学习出实体的最终向量表示，

4a)拼接

V＝[V₁；V₂；...；V_D]

4b)多视角完整空间

给定生成矩阵W的情况下，上述loss函数可被简化为

求导得出x的更新公式如下，记为公式1和公式2：

求导得出W的更新公式如下，记为公式3和公式4：

经过多次迭代，模型收敛，最终的实体向量表示x和从完整空间到视角空间的映射矩阵W。

S＝W₁′W₂

S_ij＝max(S_i*)，0≤*≤|E|

其中|E|表示实体总数。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于多种实体上下文的实体对齐方法，其特征在于，该方法包括以下步骤：

1)首先，利用TransE从知识图谱关系三元组中学习出实体的一跳结构信息；给定一个关系三元组tr＝(head，rel，tail)，其中head和tail表示实体，rel表示关系，使用首字母h、t和r分别代表其向量表示，那么TransE尽量使h+r≈t，即评分函数

尽量小；在学习过程中，为了增强知识表示的区分能力，采用最大间隔法，并定义了以下目标函数：

其中，γ为正样本的评分与负样本的评分之间的间隔，G是合法三元组正样本的集合，即用于训练的三元组集合，G′为错误的三元组负样本的集合，E代表知识图谱中所有实体的集合；负样本是通过对正样本进行负采样得到的，具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的，分别对应公式中h′、t′，负样本采样如下面公式所示：