CN110413704B

CN110413704B - 基于加权邻居信息编码的实体对齐方法

Info

Publication number: CN110413704B
Application number: CN201910568295.5A
Authority: CN
Inventors: 陈岭; 田晓雪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2022-05-03
Anticipated expiration: 2039-06-27
Also published as: CN110413704A

Abstract

本发明公开了一种基于加权邻居信息编码的实体对齐方法，具体包括：1)对需对齐的两知识库中数据进行预处理，提取两知识库三元组、实体及其邻居信息和实体及其类型信息；2)基于当前已发现的所有匹配实体对，分别通过基于三元组的知识表示学习、加权邻居信息编码和跨知识库实体‑类型图嵌入，得到每个实体相应的向量表示；3)结合实体三种不同的向量表示推理匹配实体对；4)由发现的匹配实体对和先验对齐的种子实体对共同组成新的训练数据，重复步骤1)～4)，直至达到指定的迭代次数，输出发现的匹配实体对。这种方法能够更加准确地匹配在三元组中出现较少的实体，在知识融合、知识问答等领域具有广阔的应用前景。

Description

基于加权邻居信息编码的实体对齐方法

技术领域

本发明涉及知识库实体对齐领域，具体涉及一种基于加权邻居信息编码的实体对齐方法。

背景技术

知识库以结构化的形式组织人类知识，旨在描述现实世界中存在的各种实体及其关系。随着Web 3.0的发展，诸多知识库相继出现。除DBpedia、Freebase等综合知识库外，还包括电影知识库(如IMDb、LinkedMDB)、音乐知识库(如MusicBrainz、Discogs)等许多特定领域知识库，这些知识库作为问答系统和推荐系统等的先验知识正在发挥着越来越重要的作用。但是，不同组织或机构在构建知识库时仅考虑自身的需求，导致知识库的多样性，并且不同知识库间存在着大量重复和互补的信息。实体对齐指发现不同知识库中代表现实中同一事物的两个实体，对于多知识库集成和知识库信息扩展具有重要意义。

基于表示学习的实体对齐方法为当前较为先进的实体对齐方法。基于表示学习的实体对齐方法利用知识表示学习将每个知识库中的实体和关系嵌入至不同的低维向量空间，同时基于先验对齐的种子实体对学习不同向量空间的转换，最后根据实体在低维向量空间中的语义距离推理匹配实体对。但是，现有基于表示学习的实体对齐方法通常假定知识库中的每个实体都有足够的训练三元组，无法对知识库中存在的长尾实体(即在三元组中出现较少的实体)进行充分学习，可能会导致长尾实体错误匹配，影响实体对齐结果的准确性。在知识表示学习中引入实体及其邻居信息，进而利用实体基于邻居信息的向量表示进行匹配实体对推理，有助于解决长尾实体错误匹配问题，但实体不同邻居在实体对齐中起的作用存在差异，现有邻居信息编码方法未能考虑该差异。

发明内容

本发明提供了一种基于加权邻居信息编码的实体对齐方法，以达到有效利用实体及其邻居信息提升长尾实体的匹配准确性的技术效果。

本发明的技术方案为：

一种基于加权邻居信息编码的实体对齐方法，包括以下步骤：

步骤1，输入需对齐的知识库KB₁和KB₂，分别构建三元组集合S₁和S₂，对于三元组集合S₁和S₂中的每个三元组(h,r,t)，通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为知识库中的其他实体或关系，得到对应的负样本(h′,r′,t′)；

步骤2，根据所有正负样本三元组基于边际值的损失L_tm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失L_ts，得到每个实体和关系基于三元组的向量表示；

步骤3，从三元组集合S₁和三元组集合S₂中提取所有实体及其邻居信息，对于任意实体，其邻居信息为与该实体直接相邻的所有(实体，关系)元组和(关系，实体)元组；

步骤4，根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns，得到每个实体基于邻居信息的向量表示，该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重，所述其他关系包括实体其他邻居中关系及另一知识库中所有关系；

步骤5，从知识库KB₁和知识库KB₂中提取所有实体及其类型信息，基于实体及其类型信息和匹配实体对集合M，构建跨知识库实体-类型图G_τ；

步骤6，根据跨知识库实体-类型图G_τ嵌入损失L_ty，得到每个实体基于类型的向量表示；

步骤7：由知识库KB₁和知识库KB₂中未匹配实体两两形成候选实体对，根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对；

步骤8：对于未被过滤掉的候选实体对，根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对；

步骤9：由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M，重复步骤1-8，直至达到指定的迭代次数，输出发现的匹配实体对。

具体地，步骤2的具体过程为：

(2-1)计算正负样本三元组基于边际值的损失L_tm：

其中，S＝S₁∪S₂，L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失：

其中，γ＞0为边际值超参数，[x]₊＝max{0,x}表示0和x之间的最大值，

为三元组(h,r,t)对应的负样本集合，E(h,r,t)为三元组(h,r,t)的能量函数：

E(h,r,t)＝‖h_tr+r_tr-t_tr‖

其中，h_tr、r_tr、t_tr分别为头实体、关系、尾实体基于三元组的向量表示；

(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失L_ts：

其中，e⁽¹⁾和e⁽²⁾为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体，

和

分别为实体e⁽¹⁾和e⁽²⁾基于三元组的向量表示，R(e⁽¹⁾,e⁽²⁾)为匹配实体对e⁽¹⁾和e⁽²⁾的匹配可靠性；

(2-3)结合所有正负样本三元组基于边际值的损失L_tm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失L_ts构建整体损失L_ky：

L_ky＝β₁L_ts+β₂L_tm

其中，β₁和β₂分别为L_ts和L_tm的权重超参数；

(2-4)以最小化整体损失L_ky为优化目标，经充分训练后，得到每个实体和关系基于三元组的向量表示。

具体地，步骤4中的具体过程为：

(4-1)将实体e的每一个前向邻居中实体e_i和关系r_i的向量表示e_i和r_i利用实体e_i和关系r_i基于三元组的向量表示进行初始化，并将向量表示e_i和r_i进行串接，输入至单层全连接神经网络中，经计算输出前向邻居(e_i,r_i)的向量表示

其中，f(·)＝tanh为激活函数，

为单层全连接神经网络的参数，

表示串接操作；

对实体e的所有前向邻居的向量表示

进行加权平均得到实体e基于前向邻居的向量表示

其中，w_i为实体e前向邻居(e_i,r_i)的权重，该权重

其中，

为结合前向邻居(e_i,r_i)与实体e之间的映射关系为前向邻居赋予权重，

为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重，

为结合注意力机制为前向邻居赋予权重；

(4-2)将实体e的每一个后向邻居中实体e_j和关系r_j的向量表示e_j和r_j利用实体e_j和关系r_j基于三元组的向量表示进行初始化，并将向量表示e_j和r_j进行串接，输入至单层全连接神经网络中，经计算输出后向邻居(r_j,e_j)的向量表示

其中，f(·)＝tanh为激活函数，

为单层全连接神经网络的参数，

表示串接操作；

对实体e的所有后向邻居的向量表示

进行加权平均得到实体e基于后向邻居的向量表示

其中，w_j为实体e后向邻居(r_j,e_j)的权重，权重

其中，

为结合后向邻居(r_j,e_j)与实体e之间的映射关系为后向邻居赋予权重，

为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重，

为结合注意力机制为后向邻居赋予权重；

(4-3)对实体e基于前向邻居的向量表示

和基于后向邻居的向量表示

进行求和平均，得到实体e基于邻居信息的向量表示e_ne：

(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns：

其中，e⁽¹⁾和e⁽²⁾为M中任意一个匹配实体对中的两个匹配实体，

和

分别为实体e⁽¹⁾和e⁽²⁾基于邻居信息的向量表示，R(e⁽¹⁾,e⁽²⁾)为匹配实体对e⁽¹⁾和e⁽²⁾的匹配可靠性；

(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns为优化目标，经充分训练后，得到优化好的参数，进而基于优化好的参数利用步骤(4-1)～(4-3)来获得每个实体基于邻居信息的向量表示。

具体地，步骤6的具体过程为：

(6-1)对于跨知识库实体-类型图G_τ中的实体-类型边，损失函数L_eτ定义为：

其中，p₂(τ_j|e_i)为跨知识库实体-类型图G_τ中实体e_i生成“上下文”类型τ_j的条件概率分布；

(6-2)对于跨知识库实体-类型图G_τ中的实体-实体边，损失函数L_ee定义为：

其中，p₁(e_i,e_j)为跨知识库实体-类型图G_τ中实体e_i和e_j之间的联合概率分布；

(6-3)结合损失函数L_eτ和损失函数L_ee构建跨知识库实体-类型图嵌入损失L_ty：

L_ty＝L_eτ+L_ee

(6-4)以最小化跨知识库实体-类型图嵌入损失L_ty为优化目标，经充分训练后，得到每个实体基于类型的向量表示。

本发明结合三元组和实体及其邻居信息进行知识表示学习，同时考虑实体不同邻居在实体对齐中起的作用差异，并且在推理匹配实体对时，将实体类型作为约束，综合考虑实体基于三元组和邻居信息的向量表示间的语义距离。与现有方法相比，其优点在于：

1)除通过基于三元组的知识表示学习得到每个实体的向量表示外，还分别通过加权邻居信息编码和跨知识库实体-类型图嵌入得到每个实体相应的向量表示，并且在推理匹配实体对时，首先根据实体基于类型的向量表示过滤掉部分候选实体对，再综合考虑实体基于三元组和邻居信息的向量表示间的语义距离，能够解决长尾实体容易被错误匹配问题，从而提升实体对齐结果的准确性；

2)对于实体任意一个邻居，从该邻居与实体之间的映射关系、该邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制三个方面度量该邻居在实体对齐中起的作用大小并为其赋予相应权重，进而能够得到适用于实体对齐的实体基于邻居信息的向量表示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是基于加权邻居信息编码的实体对齐方法总体流程图；

图2是加权邻居信息编码整体框架图；

图3是跨知识库实体-类型图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，本发明提供了一种基于加权邻居信息编码的实体对齐方法，该实体对齐方法是一个迭代过程，具体过程如下：

步骤1：输入需对齐的知识库KB₁和KB₂，分别构建三元组集合S₁和S₂，对于三元组集合S₁和S₂中的每个三元组(h,r,t)，通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。

知识库中存在的实体和关系以三元组(h,r,t)的形式表示，其中h和t分别表示头实体和尾实体，r表示头实体和尾实体之间存在的关系。分别从需对齐的知识库KB₁和KB₂中提取所有三元组，构建三元组集合S₁和S₂。对于三元组集合S₁和S₂中的每个三元组(h,r,t)，通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。

步骤2：根据所有正负样本三元组基于边际值的损失L_tm和匹配实体对集合M(初始迭代，M仅包含先验对齐的种子实体对；后续迭代，M由种子实体对和上一轮迭代发现的匹配实体对共同组成)中所有匹配实体对基于三元组的向量表示相似性损失L_ts，得到每个实体和关系基于三元组的向量表示。

对于知识库中的每个三元组，将关系r视为从头实体h到尾实体t的翻译操作，优化目标为

能量函数如下所示：

E(h,r,t)＝‖h_tr+r_tr-t_tr‖ (1)

其中h_tr、r_tr、t_tr分别为头实体、关系、尾实体基于三元组的向量表示。

基于上述能量函数，所有正负样本三元组基于边际值的损失L_tm计算如下所示：

L_tm＝∑_(h,r,t)∈SL(h,r,t) (2)

其中S＝S₁∪S₂，L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失：

其中γ＞0为边际值超参数，[x]₊＝max{0,x}表示0和x之间的最大值，

为三元组(h,r,t)对应的负样本集合。

匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失L_ts计算如下所示：

其中e⁽¹⁾和e⁽²⁾为M中任意一个匹配实体对中的两个匹配实体，

和

分别为实体e⁽¹⁾和e⁽²⁾基于三元组的向量表示，R(e⁽¹⁾,e⁽²⁾)为匹配实体对e⁽¹⁾和e⁽²⁾的匹配可靠性。如果e⁽¹⁾和e⁽²⁾为种子实体对，则它们的匹配可靠性为1；如果e⁽¹⁾和e⁽²⁾为发现的匹配实体对，则它们的匹配可靠性在上一轮迭代中根据e⁽¹⁾和e⁽²⁾基于三元组和邻居信息的向量表示间的语义距离进行计算，计算方法详见步骤8。

结合所有正负样本三元组基于边际值的损失L_tm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失L_ts构建整体损失L_ky：

L_ky＝β₁L_ts+β₂L_tm (5)

其中，β₁和β₂分别为L_ts和L_tm的权重超参数。

以最小化整体损失L_ky为优化目标，经充分训练后，得到每个实体和关系基于三元组的向量表示。

步骤3：从S₁和S₂中提取两知识库中的所有实体及其邻居信息。对于任意实体，其邻居信息为与该实体直接相邻的所有(实体，关系)元组和(关系，实体)元组。

从S₁和S₂中提取两知识库中的所有实体及其邻居信息。对于任意实体e，其邻居信息为与实体e直接相邻的所有(实体，关系)元组和(关系，实体)元组，其中与实体e直接相邻的(实体，关系)元组为其前向邻居，与实体e直接相邻的(关系，实体)元组为其后向邻居。实体e的前向邻居集

和后向邻居集

具体定义如下所示：

步骤4：根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns，得到每个实体基于邻居信息的向量表示。该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制来为实体邻居赋予权重。

匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns计算如下所示：

和

分别为实体e⁽¹⁾和e⁽²⁾基于邻居信息的向量表示，R(e⁽¹⁾,e⁽²⁾)为匹配实体对e⁽¹⁾和e⁽²⁾的匹配可靠性。

对于知识库中任意实体e，其基于前向邻居的向量表示通过加权邻居信息编码得到。如图2所示，首先将实体e每一个前向邻居中实体e_i和关系r_i的向量表示e_i和r_i利用实体e_i和关系r_i基于三元组的向量表示进行初始化，然后将e_i和r_i进行串接，利用单层全连接神经网络学习该前向邻居的向量表示

其中，f(·)＝tanh为激活函数，

为单层全连接神经网络的参数，

表示串接操作。

最后通过对实体e所有前向邻居的向量表示进行加权平均得到实体e基于前向邻居的向量表示

其中w_i为实体e前向邻居(e_i,r_i)的权重。具体地，本方法从以下三个方面来度量实体e任意前向邻居(e_i,r_i)在实体对齐中起的作用大小并为其赋予相应权重w_i：

(a)结合前向邻居(e_i,r_i)与实体e之间的映射关系为前向邻居赋予权重

(e_i,r_i)与实体e之间的映射关系可能为1-1或1-n(n＞1)，具体定义如下：

为知识库中以(e_i,r_i)为前向邻居的实体集合，如果

且

则(e_i,r_i)与实体e之间的映射关系为1-1；如果

且

则(e_i,r_i)与实体e之间的映射关系为1-n且

显然，两种映射关系下的(e_i,r_i)在实体对齐中起的作用大小是不同的。如果(e_i,r_i)与实体e之间的映射关系为1-1，则(e_i,r_i)在实体对齐中起的作用越大，权重越大；如果(e_i,r_i)与实体e之间的映射关系为1-n，则(e_i,r_i)在实体对齐中起的作用越小，权重越小，并且该权重会随着n的增大而减小。因此，基于(e_i,r_i)与实体e之间的映射关系，结合前向邻居(e_i,r_i)与实体e之间的映射关系为前向邻居赋予权重

为：

其中，α＞0且α＜0.5为超参数。

(b)结合实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)为前向邻居赋予权重

一个知识库中的各个关系并不是彼此完全独立的，同一实体所具有的某些关系之间往往存在一定的关联，即存在一定关联的关系通常会共同出现被用来描述同一个实体。因此，(e_i,r_i)中关系r_i与实体e其他邻居中关系的关联程度Corr_e(r_i)被定义为关系r_i和实体e其他各个邻居中关系的共现概率之和。对于实体e其他任意邻居中关系r_k，关系r_i与r_k的共现概率P(r_k|r_i)基于知识库中的所有实体进行计算，为关系r_i与r_k的共现次数和关系r_i出现的次数之比。具体如下所示：

其中函数ψ(x)的输出为0或1，如果x＝true，则ψ(x)＝1；否则ψ(x)＝0。E为知识库的实体集合，R_e为实体e邻居中关系的集合，

为知识库中任意实体e_q邻居中关系的集合。

另外，需对齐的两知识库中的某些关系之间也可能存在一定的关联，需对齐的两知识库中存在一定关联的关系通常会共同出现在两个匹配实体的邻居中。因此，(e_i,r_i)中关系r_i与另一知识库KB′中所有关系的关联程度Corr_KB′(r_i)被定义为关系r_i和另一知识库KB′中各个关系的共现概率之和。对于另一知识库KB′中的任意关系r_g，关系r_i与r_g的共现概率P(r_g|r_i)基于匹配实体对集合M进行计算，为关系r_i与r_g的共现次数和关系r_i出现的次数之比。具体如下所示：

其中函数ψ(x)的输出为0或1，如果x＝true，则ψ(x)＝1；否则ψ(x)＝0。R′为另一知识库KB′中的关系集合，e和e′为任意一个匹配实体对中的两个匹配实体，R_e和R_e′分别为实体e和实体e′邻居中关系的集合。

基于上述两种关联程度，结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重

为：

其中Corr_e(r_i)为(e_i,r_i)中关系r_i与实体e其他邻居中关系的关联程度，Corr_e(r_i)越高，说明关系r_i在实体对齐中起的作用越小，因为关系r_i可以由实体e其他邻居中关系反映出来，因而(e_i,r_i)的权重也就越小；Corr_KB′(r_i)为(e_i,r_i)中关系r_i与另一知识库KB′中所有关系的关联程度，Corr_KB′(r_i)越高，说明关系r_i在实体对齐中起的作用越大，因为关系r_i能够反映出另一知识库中某些关系，因而(e_i,r_i)的权重也就越大。

(c)结合注意力机制为前向邻居赋予权重

为利用隐藏在实体e前向邻居(e_i,r_i)向量表示中细粒度的信息，基于注意力机制为前向邻居赋予权重，具体地，结合注意力机制为前向邻居赋予权重

为：

其中

为参数对角矩阵，

为实体e前向邻居(e_i,r_i)的向量表示，e_tr为实体e基于三元组的向量表示，m为实体e前向邻居的数目。

基于实体e所有前向邻居，分别对

进行归一化，最终将归一化后的

相加得到实体e前向邻居(e_i,r_i)的权重w_i：

类似地，利用上述过程可以得到实体e基于后向邻居的向量表示

将实体e的每一个后向邻居中实体e_j和关系r_j的向量表示e_j和r_j利用实体e_j和关系r_j基于三元组的向量表示进行初始化，并将向量表示e_j和r_j进行串接，输入至单层全连接神经网络中，经计算输出后向邻居(r_j,e_j)的向量表示

其中，f(·)＝tanh为激活函数，

为单层全连接神经网络的参数，

表示串接操作。

对实体e所有后向邻居的向量表示

进行加权平均得到实体e基于后向邻居的向量表示

其中，w_j为实体e后向邻居(r_j,e_j)的权重，与计算实体e前向邻居权重方法类似。权重

其中，

为结合注意力机制为后向邻居赋予权重；

其中，结合后向邻居(r_j,e_j)与实体e之间的映射关系为后向邻居赋予权重

为：

其中，α＞0且α＜0.5为超参数；

结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重

为：

其中，Corr_e(r_j)为后向邻居(r_j,e_j)中关系r_j与实体e其他邻居中关系的关联程度，Corr_e(r_j)越高，说明关系r_j在实体对齐中起的作用越小；Corr_KB′(r_j)为后向邻居(r_j,e_j)中关系r_j与另一知识库KB′中所有关系的关联程度，Corr_KB′(r_j)越高，说明关系r_j在实体对齐中起的作用越大；

结合注意力机制为后向邻居赋予权重

为：

其中，

为参数对角矩阵，

为实体e后向邻居(r_j,e_j)的向量表示，e_tr为实体e基于三元组的向量表示，m为实体e前向邻居的数目。

在获得实体e基于前向邻居的向量表示

和基于后向邻居的向量表示

后，对向量表示

和向量表示

进行求和平均，获得实体e基于邻居信息的向量表示e_ne：

步骤5：从KB₁和KB₂中提取两知识库中的所有实体及其类型信息，基于实体及其类型信息和匹配实体对集合M，构建跨知识库实体-类型图G_τ。

知识库中的每个实体都有其对应的类型，从KB₁和KB₂中提取所有实体及其对应的类型。基于实体及其类型信息和匹配实体对集合M，构建跨知识库实体-类型图G_τ。

构建的跨知识库实体-类型图G_τ如图3所示，跨知识库实体-类型图G_τ＝(E∪T,ε_eτ∪ε_ee)，其中E∪T为跨知识库实体-类型图G_τ的顶点集合，ε_eτ∪ε_ee为跨知识库实体-类型图G_τ的边集合。E＝E₁∪E₂表示两知识库中实体的集合，T＝T₁∪T₂表示两知识库中实体类型的集合，ε_eτ表示实体-类型边集合，ε_ee表示实体-实体边集合。如果实体e_i的类型为τ_j，则实体e_i和类型τ_j之间存在一条实体-类型边(e_i,τ_j)∈ε_eτ；如果实体e_i的匹配实体为e_j，则实体e_i和实体e_j之间存在一条实体-实体边(e_i,e_j)∈ε_ee。实体-类型边和实体-实体边为两种不同类型的边，应该被赋予不同的边权重。由于跨知识库实体-类型图G_τ中实体-实体边的数量远小于实体-类型边的数量，所以为了强调实体-实体边，边权重的设置如下所示：

其中R(e_i,e_j)为匹配实体对e_i和e_j的匹配可靠性。

步骤6：根据跨知识库实体-类型图嵌入损失L_ty，得到每个实体基于类型的向量表示。

为使具有相同类型的实体的向量表示尽可能相近，对于跨知识库实体-类型图G_τ中的实体-类型边，损失函数定义为：

其中p₂(τ_j|e_i)为跨知识库实体-类型图G_τ中实体e_i生成“上下文”类型τ_j的条件概率分布：

其中

分别为实体e_i基于类型的向量表示和类型τ_j的向量表示。

为使两个匹配实体基于类型的向量表示尽可能相近，对于跨知识库实体-类型图G_τ中的实体-实体边，损失函数定义为：

其中p₁(e_i,e_j)为跨知识库实体-类型图G_τ中实体e_i和e_j之间的联合概率分布：

其中

分别为实体e_i和e_j基于类型的向量表示。

结合损失函数L_eτ和损失函数L_ee构建跨知识库实体-类型图嵌入损失L_ty：

L_ty＝L_eτ+L_ee (31)

以最小化跨知识库实体-类型图嵌入损失L_ty为优化目标，经充分训练后，得到每个实体基于类型的向量表示。

步骤7：由KB₁和KB₂中的未匹配实体两两形成候选实体对，根据实体基于类型的向量表示间的语义距离过滤掉其中部分候选实体对。

由KB₁和KB₂中的未匹配实体两两形成候选实体对，计算每一个候选实体对(e⁽¹⁾,e⁽²⁾)基于类型的向量表示间的余弦相似度

并设置阈值θ_ty，过滤掉

的候选实体对。

步骤8：对于未被过滤掉的候选实体对，进一步根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对。

对于未被过滤掉的每一个候选实体对(e⁽¹⁾,e⁽²⁾)，利用其基于三元组的向量表示和基于邻居信息的向量表示计算语义距离d(e⁽¹⁾,e⁽²⁾)：

其中δ为权重超参数，

和

分别为实体e⁽¹⁾和e⁽²⁾基于三元组的向量表示，

和

分别为实体e⁽¹⁾和e⁽²⁾基于邻居信息的向量表示。

对于KB₁中的任意未匹配实体e⁽¹⁾，在KB₂中选择与e⁽¹⁾语义距离d(e⁽¹⁾,e⁽²⁾)最小且小于一定阈值θ_tn的实体

作为其匹配实体。

发现的每一个匹配实体对(e⁽¹⁾,e⁽²⁾)的匹配可靠性基于d(e⁽¹⁾,e⁽²⁾)计算得到：

R(e⁽¹⁾,e⁽²⁾)＝σ(θ_tn-d(e⁽¹⁾,e⁽²⁾)) (33)

其中σ(·)为sigmoid函数。

上述实体对齐方法结合三元组和实体及其邻居信息进行知识表示学习，同时考虑实体不同邻居在实体对齐中起的作用差异，并且在推理匹配实体对时，将实体类型作为约束，综合考虑实体基于三元组和邻居信息的向量表示间的语义距离，以此来匹配实体，从而提升实体对齐结果的准确性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于加权邻居信息编码的实体对齐方法，包括以下步骤：

步骤1，输入需对齐的电影知识库KB₁和KB₂，分别从电影知识库KB₁和KB₂中的电影文本信息中提取三元组，并构建三元组集合S₁和S₂，对于三元组集合S₁和S₂中的每个三元组(h,r,t)，通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为电影知识库中的其他实体或关系，得到对应的负样本(h′,r′,t′)；

步骤4，根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns，得到每个实体基于邻居信息的向量表示，该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重，所述其他关系包括实体其他邻居中关系及另一电影知识库中所有关系；

步骤5，从电影知识库KB₁和电影知识库KB₂中提取所有实体及其类型信息，基于实体及其类型信息和匹配实体对集合M，构建跨电影知识库实体-类型图G_τ；

步骤6，根据跨电影知识库实体-类型图G_τ嵌入损失L_ty，得到每个实体基于类型的向量表示；

步骤7：由电影知识库KB₁和电影知识库KB₂中未匹配实体两两形成候选实体对，根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对；

2.如权利要求1所述的基于加权邻居信息编码的实体对齐方法，其特征在于，步骤2的具体过程为：

(2-1)计算正负样本三元组基于边际值的损失L_tm：

其中，γ>0为边际值超参数，[x]₊＝max{0,x}表示0和x之间的最大值，

E(h,r,t)＝‖h_tr+r_tr-t_tr‖

和

L_ky＝β₁L_ts+β₂L_tm

其中，β₁和β₂分别为L_ts和L_tm的权重超参数；

3.如权利要求1所述的基于加权邻居信息编码的实体对齐方法，其特征在于，步骤4中的具体过程为：

其中，f(·)＝tanh为激活函数，

为单层全连接神经网络的参数，

表示串接操作；

对实体e的所有前向邻居的向量表示

进行加权平均得到实体e基于前向邻居的向量表示

其中，w_i为实体e前向邻居(e_i,r_i)的权重，该权重

其中，

为结合注意力机制为前向邻居赋予权重；

其中，f(·)＝tanh为激活函数，

为单层全连接神经网络的参数，

表示串接操作；

对实体e的所有后向邻居的向量表示

进行加权平均得到实体e基于后向邻居的向量表示

其中，w_j为实体e后向邻居(r_j,e_j)的权重，权重

其中，

为结合注意力机制为后向邻居赋予权重；

(4-3)对实体e基于前向邻居的向量表示

和基于后向邻居的向量表示

进行求和平均，得到实体e基于邻居信息的向量表示e_ne：

和

(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失L_ns为优化目标，经充分训练后，得到优化好的参数，进而基于优化好的参数利用步骤(4-1)～(4-3)计算得到每个实体基于邻居信息的向量表示。

4.如权利要求3所述的基于加权邻居信息编码的实体对齐方法，其特征在于，步骤(4-1)中，

结合前向邻居(e_i,r_i)与实体e之间的映射关系为前向邻居赋予权重

为：

其中，α>0且α<0.5为超参数；

结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重

为：

其中，Corr_e(r_i)为前向邻居(e_i,r_i)中关系r_i与实体e其他邻居中关系的关联程度，Corr_e(r_i)越高，说明关系r_i在实体对齐中起的作用越小；Corr_KB′(r_i)为前向邻居(e_i,r_i)中关系r_i与另一电影知识库KB′中所有关系的关联程度，Corr_KB′(r_i)越高，说明关系r_i在实体对齐中起的作用越大；

结合注意力机制为前向邻居赋予权重

为：

其中，

为参数对角矩阵，

为实体e前向邻居(e_i,r_i)的向量表示，e_tr为实体e基于三元组的向量表示，m为实体e前向邻居的数目；

步骤(4-2)中，

结合后向邻居(r_j,e_j)与实体e之间的映射关系为后向邻居赋予权重

为：

其中，α>0且α<0.5为超参数；

为：

其中，Corr_e(r_j)为后向邻居(r_j,e_j)中关系r_j与实体e其他邻居中关系的关联程度，Corr_e(r_j)越高，说明关系r_j在实体对齐中起的作用越小；Corr_KB′(r_j)为后向邻居(r_j,e_j)中关系r_j与另一电影知识库KB′中所有关系的关联程度，Corr_KB′(r_j)越高，说明关系r_j在实体对齐中起的作用越大；

结合注意力机制为后向邻居赋予权重