CN114969367B

CN114969367B - 基于多方面子任务交互的跨语言实体对齐方法

Info

Publication number: CN114969367B
Application number: CN202210598738.7A
Authority: CN
Inventors: 刘爽; 徐漫; 孟佳娜; 左莉; 于玉海
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2024-04-30
Anticipated expiration: 2042-05-30
Also published as: CN114969367A

Abstract

本发明涉及知识融合领域，公开了基于多方面子任务交互的跨语言实体对齐方法。技术方案：根据知识图谱中实体的不同方面信息；使用不同的方法获取实体的结构、关系、属性的嵌入表示；对三方面信息进行子任务对齐；对子任务对齐结果之间进行积极交互，更新向量；融合三方面的嵌入表示和迭代策略进行最终的对齐任务。有益效果：本发明融合了实体的全方面信息，对知识图谱的关系三元组和属性三元组都加以有效利用，得到了更为真实准确的实体表示，更加优异的嵌入工作对实体对齐的后续操作打下基础，并缓解了知识图谱的主要问题‑‑异构性；采用迭代的策略，解决预对齐种子对缺少的难题，减少成本投入，增加了方法的可行性。

Description

基于多方面子任务交互的跨语言实体对齐方法

技术领域

本发明涉及知识融合领域，特别是跨语言知识库融合技术领域，尤其涉及基于嵌入学习与多个子任务积极交互的跨语言实体对齐方法。

背景技术

知识图谱是谷歌公司在2012年提出的一种结构化知识存储的方式，近年来知识图谱技术发展迅速、日趋成熟，各行各业催生出了大量的知识库并应用于各种下游任务，如搜索、问答、推荐等等。但由于知识库都是独立构建，它们存在覆盖面不够大和包含信息不够完整的问题，而不同的知识库间的知识互相重叠又相互补充。实体对齐就是融合不同知识库过程中的关键技术，它的目的是将不同知识库中的等效实体链接起来，构建内容丰富的统一知识库。与单语言知识库不同的是多语言知识库的实体对齐存在着更多的差异。在不同语言环境中结构差异大，内容差异大。为全球知识共享带来了困难，跨语言实体对齐成为研究热点。

传统实体对齐算法的人工成本消耗大，且效果精度不高。随着对深度学习方法的大量研究，目前知识图谱的实体对齐的主要方法，是基于嵌入学习的算法，嵌入学习模块又分为基于TransE的算法和基于图神经网络的算法。而基于TransE模型，并没有考虑到关系对于实体对齐过程的影响，而且依赖于预先对齐的实体对即种子对，同时为大型知识库构建种子对的成本高昂，在一定程度上限制了此类方法的实施。

发明内容

发明目的：为实体对齐技术提供一种基于多方面子任务的跨语言实体对齐方法，该方法考虑了实体对齐中的异构和种子对缺少问题。从实体多个方面的信息出发，分别通过子任务后对其进行积极的信息交互，相互更新优化。用最终的嵌入表示进行实体匹配，提高性能。

技术方案如下：本发明采用的技术方案为:一种基于多方面子任务交互的跨语言实体对齐方法，包括以下步骤:

步骤1：输入两个不同的知识图谱，获取基于BERT预训练实体名称的词向量；

步骤2：通过以预先对齐的种子对为两个知识图谱之间的实体进行链接，以发现两个知识图谱中潜在的等效实体对；

步骤3：将两个知识图谱投影映射到同一个向量空间中；

步骤4：对于知识图谱的关系三元组和属性三元组进行学习，分别从实体的结构信息、关系信息、属性信息三个方面进行嵌入表示的学习；

步骤5：对结构信息进行初始实体对齐子任务；

步骤6：对关系信息进行关系对齐子任务；

步骤7：对属性信息进行属性感知的实体对齐子任务；

步骤8：对初始实体对齐和属性感知的实体对齐进行积极交互；

步骤9：对初始实体对齐第一交互结束后，与关系感知的实体对齐进行第二交互，以此类推进行多次积极交互，不断更新优化向量表示，得到最终的实体向量表示；

步骤10：通过实体最终的向量表示进行最后的实体匹配，得到对齐结果；

步骤11：将对齐结果作为训练集数据，再次送入实体对齐的过程中，实现迭代策略。

进一步的，针对步骤1，使用BERT模型对实体名称进行预训练得到相应的词向量表示，基于实体名称的词向量将作为后续实体嵌入表示学习中的输入向量，即为每个实体初始化特征向量。

进一步的，针对步骤2，预先对齐的实体种子对属于最初的训练集进入模型中。面对两个不同的知识图谱，种子对中的两个实体也分别属于两个不同的知识图谱。

进一步的，针对步骤3，实体模对齐型中的嵌入方式为直接将不同的知识图谱嵌入到同一个向量空间当中，潜在的实体对会得到一个近似的表示。

进一步的，针对步骤4，对于实体的三个不同方面的信息使用不同的嵌入表示学习方式。对于实体的结构信息，使用图卷积神经网络层、注意力机制层和高速公路门控机制，对实体的邻域结构进行学习，对于相邻实体于中心实体的不同重要性进行加权，得到第一种条件下的实体嵌入向量表示。对于实体的关系信息，使用到第一条件下得到的实体向量表示，关系三元组是由头实体、关系、尾实体组成，因此关系嵌入向量表示由头实体和尾实体通过相应计算来近似得到，为第二条件下得到的关系嵌入向量表示。对于实体的属性信息，利用到属性三元组，包括实体、属性、属性值三个部分。其中属性值又有不同的类型，大致分为两类：字符串和数字。对于不同类型的属性值使用不同的方法进行学习，最后进行向量聚合，成为第三种条件下的属性嵌入向量表示，其中不同的属性对于中心实体的重要程度不同，使用注意力进行加权融合。

进一步的，针对步骤5，将步骤4中得到的第一条件下的实体嵌入向量表示进行初始实体对齐，判断是否匹配的条件是两个实体向量在统一空间中的距离，距离越近，为等价实体的可能性越大，距离越远，两个实体越不可能对齐。

进一步的，针对步骤6，将步骤4中得到的第二条件下的关系嵌入向量表示，进行实体关系感知匹配，计算关系向量距离。假定头实体和尾实体在其关联的三元组中对齐的实体对越多，这两个关系具有相同含义的可能性越大。

进一步的，针对步骤7，将步骤4中得到的第三条件下的属性嵌入向量表示，进行基于属性的实体对齐。基于假设两个等价的实体共享或拥有相似的属性和值。对于两种类型的属性值分别得出的向量表示，分别计算向量距离，最后采用平均的方法将两个通道进行集成。

进一步的，针对步骤8，将步骤5和步骤7中的初始实体对齐和属性感知实体对齐两个子任务进行积极的正向交互，将关系三元组和属性三元组中关于中心实体的结构信息和属性信息进行互补融合，即第一交互，并对嵌入向量表示进行更新优化。

进一步的，针对步骤9，将步骤8中最后得到的第一交互后的初始实体对齐和关系感知的实体对齐两个子任务进行积极的正向交互，即为第二交互。基于假设中头实体已经对齐，并且预期相连的关系也已经对齐的情况下，尾实体为等价实体对的可能性更高。通过第二交互对嵌入向量表示进行更新优化。将两种交互进行多次，得到最终的实体嵌入表示。

进一步的，针对步骤10，进行与步骤5中初始实体对齐类似的最终实体匹配过程，得到对齐结果。

进一步的，针对步骤11，步骤10中得到的实体对齐结果与之前的种子对集合一起作为训练集再次进入到步骤2中并继续向下进行操作，达到迭代策略的目的。

有益效果：

本发明所述的基于多方面子任务交互的跨语言实体对齐方法，融合了实体的全方面信息，对知识图谱的关系三元组和属性三元组都加以有效利用，得到了更为真实准确的实体表示，更加优异的嵌入工作对实体对齐的后续操作打下基础，并缓解了知识图谱的主要问题--异构性；采用迭代的策略，解决预对齐种子对缺少的难题，减少成本投入，增加了方法的可行性。

附图说明

图1为本发明实施例所公开的一种多方面子任务的迭代式跨语言实体对齐方法的流程示意图；

图2为本发明实施例所公开的一种多方面子任务的迭代式跨语言实体对齐方法的结构图；

图3为本发明所需理论中所涉及基础假设的概念图；

图4为本发明中的多方面子任务的迭代式跨语言实体对齐模型核心框架图。

具体实施方式

下面将参照附图更详细地描述本发明一种基于多方面子任务的迭代式跨语言实体对齐方法的具体操作步骤。进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于多方面子任务的迭代式跨语言实体对齐方法，如图1所示，包括以下步骤:

该步骤为实体对齐任务中嵌入表示学习的第一步。使用谷歌翻译将跨语言数据集中所有非英文信息的翻译成相应的英文，选取两个不同的知识图谱作为模型的总输入。通过使用Bert预训练模型对知识图谱中的实体名称进行学习，获取的相应的词向量表示即为模型中结构信息和属性信息学习部分的神经网络层的输入，为每个值初始化特征向量。具体地说，使用预训练的bert-base-cased生成一系列隐藏状态，并应用最大池化来获得固定长度的向量作为初始值特征向量。我们不会微调BERT，以便缓存特征向量以提高效率。

其中知识图谱定义为：

其中，E_i,R_i,A_i,V_i，i＝{1,2}分别表示实体集合，关系集合，属性集合，属性值集合。

T_i ^r＝{(h,r,t)|h,t∈E_i,r∈R_i},T_i ^a＝{(e,a,v)|e∈E_i,a∈A_i,v∈V_i},i＝{1,2}公式(2)

T_i ^r,T_i ^a：分别代表关系三元组和属性三元组，h表示关系三元组中的头实体，r表示关系三元组中的关系，t表示关系三元组中的尾实体，e表示属性三元组中的实体，a表示属性三元组中的属性，v表示属性三元组中的属性值。

步骤2：预先对齐的种子对为两个知识图谱进行链接；

使用预先对齐的种子对，将两个知识图谱进行链接，即预先对齐的种子对作为训练集，以此发现知识图谱中潜在的等价实体。

预对齐种子对集合表示为：

L＝{(e,e′)|e∈E₁,e′∈E₂} 公式(3)

其中，(e,e′)表示为一对等价实体。

步骤3：将两个知识图谱投影映射到同一个向量空间中；

通过步骤1中得到的实体名称向量作为初始向量，将两个不同的知识图谱强制映射至同一个向量空间中。

步骤4：对实体的结构信息、关系信息、属性信息进行嵌入学习；

对步骤4中提到的三方面信息分别进行学习。

结构信息：对实体的邻域结构信息使用图卷积层(GCN)进行学习，通过对GCN层的叠加使其可以学习到中心实体的多跳邻居，即L层的GCN可以捕获实体的L跳邻居中的结构信息。因为考虑到并非所有邻居均对中心实体的对齐所有帮助，所以在一跳邻域和多跳邻域聚合中引入注意力机制。最后使用高速公路门控机制来进行信息聚合，并减少在层间传播过程中产生的噪声。

设N_k(·)，k＝{1,2,3,4…}为中心实体的k跳邻居集合，在第l层聚合实体i的k跳邻域信息表示为计算实体i的隐藏层表示：

其中，表示的是实体i和邻居j之间可学习的注意力权重，W^(l)是第l层的权重矩阵，σ(·)是一个激活函数，/>表示第l-1层的中心实体i的所有邻居实体及其本身的向量表示，N_k(i)表示中心实体i邻居实体的集合。

即l层的实体表示由l-1层所有邻居和实体本身的表示聚合得到。

为了进行实体间注意力权重的计算，使用两个矩阵M₁和M₂分别对中心实体及其邻域进行线性变换。

其中，表示第l层中心实体i和邻居实体j之间的权重矩阵，/>表示第l层中心实体i与邻居实体j和自身之间的权重矩阵，/>和/>表示第l层的可学习矩阵，/>表示第l层的中心实体i的向量表示，/>表示第l层的邻居实体j的向量表示。

使用softmax函数对注意力权重进行标准化，使其在同实体之间具有可比性。

高速公路网络门控来抑制GCN层中噪声传播，工作如下：

其中，是l+1层的输入，σ是sigmoid函数，T表示为告诉公路网络中的变换门，(1-T)表示高速攻落网络中的进位门，分别代表通过变换输入并携带多少输出，/>和/>分别表示变换门的权重矩阵和偏置向量，/>表示第l+1层的输出。

关系信息：GCN无法直接对关系进行嵌入学习，而关系的头尾实体的信息能够反映关系本身的浅层语义。因此，使用上个阶段得到的头实体和尾实体表示来近似得到关系表示。

给定一个关系r∈R₁∪R₂，H_r和T_r分别表示关系r的头实体和尾实体集合，则关系r的向量表示为

其中，f(·)函数表示连接头实体和尾实体表示的平均值。

属性信息：对属性类型进行分类，字符串S和数字D。

属性三元组中属性值为字符串：

A_S＝{a|(e,a,v)∈T^a,v∈S} 公式(10)

属性三元组中属性值为数字：

A_D＝{a|(e,a,v)∈T^a,v∈D} 公式(11)

其中T^a表示属性三元组的集合。

分别通过两个GCN通道对不同的属性的嵌入学习，属性的嵌入学习过程与结构信息中的实体嵌入过程相同，得到两个最终的属性嵌入表示和/>

表示知识图谱中的实体e的属性隐藏向量表示：

其中，j∈{1,2,…,n},a_j表示实体i属性j的向量表示，W₁是权重矩阵，α_j表示注意力分数，v_j表示实体i属性值j的向量表示，o_j表示实体i的属性j的注意力权重，o_k表示实体i的属性k的注意力权重，u是可学习矩阵，表示实体i的初始向量表示，σ是signmoid激活函数。

步骤5：对结构信息进行初始实体对齐子任务；

给定实体对(e_i,e′_j)，e_i∈E₁,e′_j∈E₂，从步骤4中得到的实体嵌入表示和/>其距离计算公式为：

其中，||·||₁表示L₁范数，较小的d(e_i,e′_j)表示两个实体之间对齐的概率更高。

设计边缘损失函数L_E：

其中，L表示预对齐种子对集合，L’表示最近邻采样中生成的负样本，γ表示边距超参。对齐实体之间的距离应接近0，负样本之间的距离应尽可能远。

步骤6：对关系信息进行关系感知的实体对齐子任务；

给定关系r₁∈R₁,r₂∈R₂，从步骤4中得到的关系嵌入表示其距离计算公式如下：

其中，表示这两个关系相连的头尾实体中存在的预对齐实体的集合,，β是平衡超参数。

和/>分别为关系r₁和r₂的头尾实体集合。

步骤7：对属性信息进行属性感知的实体对齐子任务；

给定实体对(i,j)，负样本(i′,j′)，以及在步骤4中输出的两个通道的属性嵌入表示和/>

代表第一个通道，即属性值为字符串类型：

[·]₊＝max{·,0} 公式(20)

d_A(·,·)＝1-cos(·,·) 公式(21)

其中，γ是边距超参数。

代表第二个通道，即属性值为数字类型，且计算公式与第一通道相同。

使用一个正则化器进行关系三元组中关系的平移：

其中，W_R表示从潜在关系空间到潜在实体空间的转换矩阵，

制定了如下的目标函数：

L_all＝L_E+λ·Ω_R+L_A 公式(24)

其中，L_E表示设计边缘损失函数，λ为折衷系数，用于平衡实体对齐的损失和正则化器的损失，同时考虑关系和属性的嵌入。目标是对预训练后的实体嵌入进行最小化，并利用Adam优化器进行目标优化。

步骤8：对初始实体对齐和属性对齐进行积极交互，其中包含四个模块的交互具体过程如图2所示。

属性感知的实体对齐：

z₁属于知识图谱G₁里中心实体的一跳邻居集合z₂属于知识图谱G₂里中心实体的一跳邻居集合/> 表示拥有相似或这共享属性的实体对也可能是等价实体。将重点放在具有匹配属性的实体上，为实体对齐提供线索。在/>中获取匹配子集/>其中满足(z₁,z₂)∈L_e,(a₁,a₂)∈L_a，L_e为对齐的实体集合，L_a为对齐的属性集合。

计算对齐概率：

P(a₁,a₂,n₁,n₂)＝P(a₁,n₁)·P(a₂,n₂) 公式(26)

P(a₁,n₁)和P(a₂,n₂)分别表示对应属性和相邻实体之间的映射概率。

更新两个实体间的距离：

其中λ_ea为超参数，用于控制嵌入距离和匹配分数之间的平衡。分数越高，表示对齐的可能性越大；表示实体e的嵌入向量，/>表示实体e′的嵌入向量。

实体感知的属性对齐：

给定来自不同知识图谱中的属性a₁和a₂，我们假设与该属性关联的实体中对齐的越多，两个属性的语义信息越可能相似，再比较该属性的值越相似，则对齐的可能越高。

其中表示在不同知识图谱中拥有相关属性的实体集合，/>为/>的匹配子集。

λ_ae为折衷系数，考虑了嵌入距离和属性对的匹配得分；表示实体i的拥有相关属性的实体集合，/>表示实体j的拥有相关属性的实体集合。

关系感知的实体对齐：

与属性感知的实体对齐相似，

关系感知的实体对齐：

其中T₁和T₂代表的是两个知识图谱的关系三元组集合，如果实体已经对齐并且与连接的关系也是对齐的状态，则与已经匹配的实体和关系的另一端实体即邻居实体同样为对齐实体的可能性更大，为/>的子集，并且满足(z₁,z₂)∈L_e,(r₁,r₂)∈L_r，L_e和L_r表示已经对齐的实体集合和关系集合。

P(r₁,r₂,z₁,z₂)＝P(r₁,z₁)·P(r₂,z₂) 公式(32)

更新两个实体之间的距离公式：

其中λ_er是一个用来平衡嵌入距离和匹配分数的超参数，匹配分数越高，实体之间的距离越小，实体对齐的可能性越大。

实体感知的关系匹配：

定义匹配集合：

其中TR_i和TR_j分别两个不同的知识图谱的关系三元组中存在给定关系的头尾实体的集合。定义为/>的子集，满足(e₁,e₂)∈L_e,(z₁,z₂)∈L_e，L_e表示已经对齐的实体集合。

更新距离公式：

其中，λ_re为平衡关系对嵌入距离和匹配得分的超参数。

步骤9：对初始实体对齐第一交互结束后，与关系感知的实体对齐进行第二交互，以此类推进行多次积极交互；

对步骤8进行多次反复操作，以求相应的向量表示不断的更新优化，得到更为准确的嵌入表示。

步骤10：通过实体最终的向量表示进行最后的实体匹配；

与步骤5中的过程类似，H_i,1,H_j,2表示两个不同知识图谱中待匹配的实体e_i,e′_j的最终实体表示。

d(e_i,e′_j)＝||H_i,1-H_j,2|| 公式(37)

以上所述仅是本发明的优选实施方式，应当指出:对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多方面子任务交互的跨语言实体对齐方法，其特征在于，步骤如下：

步骤1：输入两个不同的知识图谱，获取基于BERT实体名称的词向量；

针对步骤1，使用BERT模型对实体名称进行预训练得到相应的词向量表示，基于实体名称的词向量作为后续实体嵌入表示学习中的输入向量；

针对步骤2，预先对齐的实体种子对作为最初的训练集进入模型中；面对两个不同的知识图谱，种子对中的两个实体分别属于两个不同的知识图谱；

步骤3：将两个知识图谱投影映射到同一个向量空间中；

针对步骤3，实体模对齐型中的嵌入方式为直接将不同的知识图谱嵌入到同一个向量空间当中，潜在的实体对得到一个近似的表示；

针对步骤4，对于实体的三个不同方面的信息使用不同的嵌入表示学习方式：

对于实体的结构信息，使用图卷积神经网络层、注意力机制层和高速公路门控机制，对实体的邻域结构进行学习，对于相邻实体于中心实体的不同重要性进行加权，得到第一种条件下的实体嵌入向量表示；

对于实体的关系信息，使用到第一条件下得到的实体向量表示，关系三元组是由头实体、关系、尾实体组成，关系嵌入向量表示由头实体和尾实体通过相应计算来近似得到，为第二条件下得到的关系嵌入向量表示；

对于实体的属性信息，利用到属性三元组，包括实体、属性、属性值三个部分，其中属性值分为字符串和数字；对于不同类型的属性值使用不同的方法进行学习，最后进行向量聚合，成为第三种条件下的属性嵌入向量表示，其中不同的属性对于中心实体的重要程度不同，使用注意力进行加权融合；

步骤5：对结构信息进行初始实体对齐子任务；

针对步骤5，将得到的第一条件下的实体嵌入向量表示进行初始实体对齐，判断是否匹配的条件是两个实体向量在统一空间中的距离：距离越近，则为等价实体的可能性越大；距离越远，则为等价实体的可能性越小；

步骤6：对关系信息进行关系对齐子任务；

针对步骤6，将步骤4中得到的第二条件下的关系嵌入向量表示，进行实体关系感知匹配，计算关系向量距离；头实体和尾实体在其关联的三元组中对齐的实体对越多，这两个关系具有相同含义的可能性越大；

步骤7：对属性信息进行属性感知的实体对齐子任务；

针对步骤7，将步骤4中得到的第三条件下的属性嵌入向量表示，进行基于属性的实体对齐；基于假设两个等价的实体共享或拥有相似的属性和值，对于两种类型的属性值分别得出的向量表示，分别计算向量距离，最后采用平均的方法将两个通道进行集成；

针对步骤8，进行第一交互：将步骤5和步骤7中的初始实体对齐和属性感知实体对齐两个子任务进行积极的正向交互，将关系三元组和属性三元组中关于中心实体的结构信息和属性信息进行互补融合，并对嵌入向量表示进行更新优化；

步骤9：对初始实体对齐第一交互结束后，与关系感知的实体对齐进行第二交互，以此类推进行若干次积极交互，不断更新优化向量表示，得到最终的实体向量表示；

针对步骤9，进行第二交互：将步骤8中最后得到的第一交互后的初始实体对齐和关系感知的实体对齐两个子任务进行积极的正向交互；

基于假设中头实体已经对齐，并且预期相连的关系也已经对齐，尾实体为等价实体对的可能性更高；通过第二交互对嵌入向量表示进行更新优化，将两种交互进行若干次，得到最终的实体嵌入表示；

针对步骤10，进行与步骤5中初始实体对齐相同的最终实体匹配过程，得到对齐结果；

步骤11：将对齐结果作为训练集数据，再次送入实体对齐的过程中，实现迭代策略；

针对步骤11，将得到的实体对齐结果与之前的种子对集合一起作为训练集再次进入到步骤2中并继续向下进行操作，以达到迭代策略的目的。