CN110188206A

CN110188206A - 基于翻译模型的协同迭代联合实体对齐方法及装置

Info

Publication number: CN110188206A
Application number: CN201910380017.7A
Authority: CN
Inventors: 鄂海红; 宋美娜; 程瑞; 牛佩晴; 陈忠富
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-08-30

Abstract

本发明公开了一种基于翻译模型的协同迭代联合实体对齐方法及装置，该方法包括：通过数据预处理模块处理多个知识图谱，统计多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法生成实体对齐种子集；通过关系三元组联合嵌入模块生成关系三元组联合嵌入空间；通过属性三元组联合嵌入模块生成属性三元组联合嵌入空间；通过协同迭代训练模块选取语义距离最小的一对实体组成实体对，将满足预设距离阈值的实体对添加到实体对齐种子集对实体对齐种子集进行更新；迭代直至不存在满足预设距离阈值的实体对。该方法可以解决多个知识图谱共同融合的问题和结构异质的知识图谱、跨语言知识图谱实体对齐问题。

Description

基于翻译模型的协同迭代联合实体对齐方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于翻译模型的协同迭代联合实体对齐方法及装置。

背景技术

大规模知识图谱作为支持各种复杂应用程序的数据基础变得越来越重要，在搜索、分析、推理、推荐、决策和问答等方面具有重要的应用，被广泛应用于搜索引擎、智能助理、翻译系统、问答系统和情报分析等应用中，涵盖了金融、教育、医疗、交通、商业、文娱、政务和安防等领域。在这个背景下，知识图谱的正确性和完备性就显得尤为重要。但由于不同知识图谱中知识来源的多样性和知识结构的异构性，已有的知识图谱往往存在着以下问题：(1)不同知识图谱间存在很多知识重复或补充；(2)单一知识图谱的知识质量低、信息覆盖度低、知识描述不完全；不同知识图谱间的知识异构性又强，不利于数据的共享和集成；(3)很多领域知识图谱只是针对领域内的某一小类而建立的，无法支撑上层应用系统。如医疗领域内，很多医疗知识图谱只是针对于某一类疾病、某一科室而建立的，缺乏完整的医疗全科知识图谱来服务于医疗智能系统。故如何融合不同知识图谱中的知识，形成完备性和正确性都有保障的知识图谱，是以知识图谱为数据基础的上层应用的迫切需求。其中，实体对齐技术是首要的关键技术。

已有的实体对齐模型，在两个知识图谱KG₁和KG₂之间使用迭代的方法进行实体对齐；首先根据输入的对齐种子实体对集合对KG₁和KG₂中表示相同含义的实体向量表示进行链接，形成新的对齐知识图谱KG₃；之后根据KG₃中新的对齐实体对KG₁和KG₂中的实体向量表示进行更新，以进一步获得更多的对齐实体，从而形成迭代机制；并制定阈值对实体对间的向量表示距离进行判定，小于阈值则认为是对齐实体对，将其加入KG₃中，直到KG₃中不再增加实体，则KG₁和KG₂之间的实体对齐任务完成。

另外，已有的实体是对齐方法，用于提高基于向量空间表示的实体对齐效率。该方法首先读取训练模型、实体向量和关系向量；针对给定的一个实体及对应关系，根据训练模型构造候选实体关系对集合；根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分，取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体，其中，打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度，当属性相似度值越高时打分函数打分值越高。

实体对齐是指将不同知识图谱间指向现实世界中相同对象的实体链接起来。有上述可知，已有的实体对齐方法存在以下问题：(1)无法完整利用知识图谱的内部信息，存在数据摒弃问题，缺乏实用性；(2)大多数方法将多个知识图谱的融合问题转换为两两知识图谱融合的问题，计算代价过大，多个知识图谱共同融合的问题暂未解决；(3)基于相似性计算的方法无法解决结构异质性和跨语言实体对齐的问题，方法不具有通用性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于翻译模型的协同迭代联合实体对齐方法，该方法可以解决多个知识图谱共同融合的问题和结构异质的知识图谱、跨语言知识图谱实体对齐问题。

本发明的另一个目的在于提出一种基于翻译模型的协同迭代联合实体对齐装置。

为达到上述目的，本发明一方面实施例提出了一种基于翻译模型的协同迭代联合实体对齐方法，包括：S1，获取多个知识图谱，通过数据预处理模块对所述多个知识图谱进行处理，以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集；S2，通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入，生成关系三元组联合嵌入空间；S3，通过属性三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入，生成属性三元组联合嵌入空间；S4，通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对，根据预设距离阈值判断所述实体对是否为新的对齐实体对，若是，则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新；S5，对步骤S2、S3、S4进行迭代，直至不存在满足所述预设距离阈值的所述实体对，根据更新的实体对齐种子集生成对齐实体对集合。

本发明实施例的基于翻译模型的协同迭代联合实体对齐方法，通过利用知识图谱内部的关系三元组和属性三元组信息，在提升实体对齐的精度的同时无数据摒弃，更具有实用性；通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务；通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间，不断更新嵌入实体的语义向量空间，以得到更多的对齐实体，形成迭代机制。

另外，根据本发明上述实施例的基于翻译模型的协同迭代联合实体对齐方法还可以具有以下附加的技术特征：

进一步地，所述S1还包括：将统计的所述多个知识图谱中的实体、关系、属性、属性值、所述关系三元组和所述属性三元组的数据由文本转换为数字，并进行编号。

进一步地，所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新，包括：

通过参数共享方法对实体、所述关系三元组和所述属性三元组中的实体进行更新以更新所述实体对齐种子集。

进一步地，所述语义距离计算公式为：

其中，E(e₁，e₂)为实体对e₁和e₂的语义距离，E₁和E₂为不同知识图谱中实体集，e₁为E₁中的未对齐实体，e₂为E₂中的未对齐实体，||e₁-e₂||_L1/L2为采用L1范式或L2范式计算的e₁到e₂的距离运算，L1/L2为采用L1范式或L2范式计算距离。

进一步地，所述根据预设距离阈值判断所述实体对是否为新的对齐实体对，包括：

若则实体对e₁和为所述新的对齐实体对，否则，则不是所述新的对齐实体对，其中，e₁和为不同知识图谱中的未对齐实体，为实体对e₁和的语义距离，θ为所述预设距离阈值。

为达到上述目的，本发明另一方面实施例提出了一种基于翻译模型的协同迭代联合实体对齐装置，包括：处理模块，用于获取多个知识图谱，通过数据预处理模块对所述多个知识图谱进行处理，以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集；

第一嵌入模块，用于通过关系三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入，生成关系三元组联合嵌入空间；

第二嵌入模块，用于通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入，生成属性三元组联合嵌入空间；

更新模块，用于通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对，根据预设距离阈值判断所述实体对是否为新的对齐实体对，若是，则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新；

迭代模块，用于通过迭代直至不存在满足所述预设距离阈值的所述实体对，根据更新的实体对齐种子集生成对齐实体对集合。

本发明实施例的基于翻译模型的协同迭代联合实体对齐装置，通过利用知识图谱内部的关系三元组和属性三元组信息，在提升实体对齐的精度的同时无数据摒弃，更具有实用性；通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务；通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间，不断更新嵌入实体的语义向量空间，以得到更多的对齐实体，形成迭代机制。

另外，根据本发明上述实施例的基于翻译模型的协同迭代联合实体对齐装置还可以具有以下附加的技术特征：

进一步地，所述处理模块，还用于，

将统计的所述多个知识图谱中的实体、关系、属性、属性值、所述关系三元组和所述属性三元组的数据由文本转换为数字，并进行编号。

进一步地，所述语义距离计算公式为：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐方法流程图；

图2为根据本发明一个实施例的实体对齐处理流程图；

图3为根据本发明又一个实施例的基于翻译模型的协同迭代联合实体对齐方法总体结构示意图；

图4为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐方法及装置。

首先将参照附图描述根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐方法。

图1为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐方法流程图。

如图1所示，该基于翻译模型的协同迭代联合实体对齐方法包括以下步骤：

步骤S1，获取多个知识图谱，通过数据预处理模块对多个知识图谱进行处理，以统计多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法对关系三元组和属性三元组中的实体进行选择生成实体对齐种子集。

进一步地，S1还包括：将统计的多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组的数据由文本转换为数字，并进行编号。

如图2所示，从知识图谱数据源输入到最终输出完整的实体对齐集合，总共分为四个模块：数据预处理模块、关系三元组联合嵌入模块、属性三元组联合嵌入模块和协同迭代训练模块。

具体地，通过数据预处理模块对多个知识图谱进行处理，统计其中的实体、关系、属性、属性值、关系三元组和属性三元组等数据，并将统计完的数据由文本转换成数字；同时根据关系三元组和属性三元组中常用的实体生成对齐种子集，使用参数共享模型完成对实体、关系三元组和属性三元组中的对齐实体的更新，供模型后续处理使用。

可以理解的是，数据预处理部分是对多个要进行实体对齐的知识图谱进行数据预处理，将其转换成模型可以处理的数据。首先是对多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组进行统计，并为每一类型的数据编号，将文字转换成模型可以处理的数据；同时根据关系三元组和属性三元组中实体出现的频次选择最常见的实体作为实体对齐种子集；之后根据种子集采用参数共享方法对实体、关系三元组和属性三元组中的实体进行更新，为关系三元组嵌入和属性三元组嵌入做好数据准备。

在参数共享方法中，由于对齐实体在不同的KG(知识图谱)中具有相同的含义，因此可以直观地使这些对齐实体共享相同的嵌入。形式上，对于每个对齐实体对(e，e′)，定义e≡e′，(e，e′)∈S。参数共享(parameter sharing，PS)模型简单有效地将KG₁和KG₂的知识嵌入校准到同一语义空间中。因此该模型的得分函数：

步骤S2，通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和关系三元组进行嵌入，生成关系三元组联合嵌入空间。

具体地，通过关系三元组联合嵌入模块使用知识表示学习方法对数据预处理模块处理后的实体、关系和关系三元组进行嵌入，形成关系三元组联合嵌入空间，供后续协同迭代训练模块进行实体对齐。

关系三元组联合嵌入部分使用基于翻译的知识表示学习方法对实体(E)、关系(R)和关系三元组(RT)进行嵌入，形成关系三元组联合嵌入空间，供后续协同迭代训练模块进行实体对齐。知识表示学习方法可以为TransE和PTransE，也可以为其它基于翻译模型的知识表示学习方法进行关系三元组的联合嵌入。

(1)TransE

TransE是一种将实体与关系嵌入到低维向量空间中的简单模型，它将每个三元组(h，r，t)中的r看作从h到t的翻译，通过不断调整h、r、t，尽可能使h+r≈t。所以它的能量函数定义为：

E(h，r，t)＝||h+r-t||

使用一个基于边际的得分函数作为训练目标，将该函数定义为：

其中L(h，r，t)是一个基于边际的损失函数，定义如下：

其中，[x]₊＝max{0，x}表示取0和x间的最大数，γ是一个边际常量，RT^-表示集合RT的负样例，定义如下：

RT^-＝{(h′，r，t)|h′∈E}∪{(h，r，t′)|t′∈E}∪{(h，r′，t)|r′∈R}，(h，r，t)∈RT

即随机替换掉关系三元组(h，r，t)中的一项，构成负样例集合。

(2)PTransE

TransE忽略了KG中重要的多步路径信息，且在建模复杂关系时遇到了困难。例如，(e₁，r₁，e₂)和(e₂，r₂，e₃)可以揭示一个新事实其中，。是将关系r₁和r₂结合起来的特定函数。

因此，Lin等人提出了PTransE，该模型在TransE的基础上增加了多步关系路径信息，可显著提高TransE的性能，因此在实体对齐任务中能实现更好的性能。根据PTransE，将关系路径定义为：且有

在PTransE中，如果一个关系路径和一种关系扮演着同样的角色，即有p∈P(h，t)且(h，r，t)∈RT，就将关系路径嵌入定义为其能量函数为：

E(p，r)＝||p-r||＝||p-(t-h)||＝E(h，p，t)

PTransE的得分函数定义为在TransE的基础上增加一个关系路径正则化项，表示为：

其中，Z＝∑_p∈P(h，t)R(p|h，t)是一个归一化因子；R(p|h，t)表示在给定实体对(h，t)的情况下，路径p的可信度；L(p，r)是一个关于(p，r)对的基于边际的损失函数，定义为：

步骤S3，通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和属性三元组进行嵌入，生成属性三元组联合嵌入空间。

具体地，属性三元组联合嵌入模块使用知识表示学习方法对数据预处理模块处理后的实体、属性、属性值和属性三元组进行嵌入，形成属性三元组联合嵌入空间，供后续协同迭代训练模块进行实体对齐。

属性三元组联合嵌入部分使用基于翻译的知识表示学习方法对实体(E)、属性(A)、属性值(V)和属性三元组(AT)进行嵌入，形成属性三元组联合嵌入空间，供后续协同迭代训练模块进行实体对齐。因属性三元组at＝(e，a，v)由实体、属性和属性值构成，其中不存在多步关系路径信息，也不存在复杂关系。因此主要介绍基于TransE的知识嵌入方法，也可以使用其他基于翻译模型的知识表示学习方法进行属性三元组的联合嵌入。

(1)TransE

在属性嵌入部分，将每个三元组(e，a，v)中的a看作从e到v的翻译，通过不断调整e、a、v，尽可能使e+a≈v。所以它的能量函数定义为：

E(e，a，v)＝||e+a-v||

同样，使用一个基于边际的得分函数作为训练目标，将该函数定义为：

其中，L(e，a，v)是一个基于边际的损失函数，定义如下：

其中，AT^-表示集合AT的负样例，定义如下：

AT^-＝{(e′，a，v)|e′∈E}∪{(e，a，v′)|v′∈V}∪{(e，a′，v)|a′∈A}，(e，a，v)∈AT

即随机替换掉属性三元组(e，a，v)中的一项，构成负样例集合。

步骤S4，通过协同迭代训练模块选取关系三元组联合嵌入空间和属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对，根据预设距离阈值判断实体对是否为新的对齐实体对，若是，则将实体对添加到实体对齐种子集以对实体对齐种子集进行更新。

进一步地，通过参数共享方法对实体、关系三元组和属性三元组中的实体进行更新以更新实体对齐种子集。

进一步地，语义距离计算公式为：

进一步地，根据预设距离阈值判断实体对是否为新的对齐实体对，包括：

若则实体对e₁和为新的对齐实体对，否则，则不是新的对齐实体对，其中，e₁和为不同知识图谱中的未对齐实体，为实体对e₁和的语义距离，θ为预设距离阈值。

具体地，根据关系三元组联合嵌入模块和属性三元组联合嵌入模块生成的关系三元组联合嵌入空间和属性三元组联合嵌入空间，选取其中距离最近的一对实体(e，e’)，语义距离计算定义为：这样，对于一个KG中每一个未对齐实体e₁，能在另一个KG中找到距离最近的未对齐实体即有：此外定义了一个距离阈值θ，认为：若则非常有可能是e₁的对齐实体；否则，不可能是e₁的对齐实体。并将新对齐实体对添加到对齐种子集中，迭代更新关系三元组联合嵌入空间和属性三元组联合嵌入空间，以促进更多的实体对齐，最终形成对齐实体对集合。

因从知识图谱层面和实体层面看，关系三元组和属性三元组扮演着不同的角色，为关系三元组和属性三元组设计了两种不同的得分函数计算方法，分别是直接累加方法和权重分配方法。

由上述说明可知，方法分为三步：(1)关系三元组联合嵌入；(2)属性三元组联合嵌入；(3)协同迭代实体对齐。从知识图谱层面来讲，关系三元组和属性三元组都是知识图谱中的元素，二者共同构成了知识图谱，有同等的地位和影响，故使用得分直接累加策略，将目标函数定义为这三部分的得分总和：

但从实体层面来讲，每个实体都拥有不同的关系和属性。判断两个实体是否相等，要看其对应的关系和关系、属性和属性是否分别相等，由两者共同决定实体是否对齐，故属性对齐和关系对齐共享和为1的权重。所以使用权重分配策略，将目标函数定义为：

其中，分别表示关系三元组联合嵌入部分、属性三元组联合嵌入部分和协同迭代实体对齐部分的得分，α∈(0，1)表示关系三元组得分所占的权重。

步骤S5，对步骤S2、S3、S4进行迭代，直至不存在满足预设距离阈值的实体对，根据更新的实体对齐种子集生成对齐实体对集合。

具体地，通过对上面步骤的迭代，一直更新实体对齐种子集，直至知识图谱中不存在可以对齐的实体。

如图3所示，展示了实体对齐方法的总体结构和模块设计框架，其中的四大模块分别定义如下：

数据预处理模块：对输入的多个知识图谱(KG₁，KG₂，...，KG_n)进行处理，统计其中的实体(E)、关系(R)、属性(A)、属性值(V)、关系三元组(RT)和属性三元组(AT)等数据，并将统计完的数据由文本转换成数字；同时根据关系三元组和属性三元组中常用的实体生成对齐种子集(S)，使用参数共享模型完成对实体、关系三元组和属性三元组中的对齐实体的更新，供模型后续处理使用。

关系三元组联合嵌入模块：使用基于翻译的知识表示学习方法对数据预处理模块处理后的实体(E)、关系(R)和关系三元组(RT)进行嵌入，形成关系三元组联合嵌入空间，供后续协同迭代训练模块进行实体对齐。

属性三元组联合嵌入模块：使用基于翻译的知识表示学习方法对数据预处理模块处理后的实体(E)、属性(A)、属性值(V)和属性三元组(AT)进行嵌入，形成属性三元组联合嵌入空间，供后续协同迭代训练模块进行实体对齐。

协同迭代训练模块：根据关系三元组联合嵌入模块和属性三元组联合嵌入模块生成的关系三元组联合嵌入空间和属性三元组联合嵌入空间，选取其中距离最近的一对实体(e，e’)，设置相关阈值判定其是否为新对齐实体对，若为新对齐实体对，则添加到对齐种子集S中，然后根据新增加的对齐实体对迭代更新关系三元组联合嵌入空间和属性三元组联合嵌入空间，以促进更多的实体对齐，当对齐种子集S中的对齐实体对不再增加时，就形成了最终的对齐实体对集合S。

根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐方法，通过利用知识图谱内部的关系三元组和属性三元组信息，在提升实体对齐的精度的同时无数据摒弃，更具有实用性；通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务；通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间，不断更新嵌入实体的语义向量空间，以得到更多的对齐实体，形成迭代机制。

其次参照附图描述根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐装置。

如图4所示，该基于翻译模型的协同迭代联合实体对齐装置包括：处理模块100、第一嵌入模块200、第二嵌入模块300、更新模块400和迭代模块500。

其中，处理模块100，用于获取多个知识图谱，通过数据预处理模块对多个知识图谱进行处理，以统计多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法对关系三元组和属性三元组中的实体进行选择生成实体对齐种子集。

第一嵌入模块200，用于通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和关系三元组进行嵌入，生成关系三元组联合嵌入空间。

第二嵌入模块300，用于通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和属性三元组进行嵌入，生成属性三元组联合嵌入空间。

更新模块400，用于通过协同迭代训练模块选取关系三元组联合嵌入空间和属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对，根据预设距离阈值判断实体对是否为新的对齐实体对，若是，则将实体对添加到实体对齐种子集以对实体对齐种子集进行更新。

迭代模块500，用于通过迭代直至不存在满足预设距离阈值的实体对，根据更新的实体对齐种子集生成对齐实体对集合。

该实体对齐装置可以解决多个知识图谱共同融合的问题和结构异质的知识图谱、跨语言知识图谱实体对齐问题。

进一步地，处理模块，还用于，将统计的多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组的数据由文本转换为数字，并进行编号。

进一步地，将实体对添加到实体对齐种子集以对实体对齐种子集进行更新，包括：

通过参数共享方法对实体、关系三元组和属性三元组中的实体进行更新以更新实体对齐种子集。

进一步地，语义距离计算公式为：

需要说明的是，前述对基于翻译模型的协同迭代联合实体对齐方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐装置，通过利用知识图谱内部的关系三元组和属性三元组信息，在提升实体对齐的精度的同时无数据摒弃，更具有实用性；通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务；通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间，不断更新嵌入实体的语义向量空间，以得到更多的对齐实体，形成迭代机制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于翻译模型的协同迭代联合实体对齐方法，其特征在于，包括以下步骤：

S1，获取多个知识图谱，通过数据预处理模块对所述多个知识图谱进行处理，以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集；

S2，通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入，生成关系三元组联合嵌入空间；

S3，通过属性三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入，生成属性三元组联合嵌入空间；

S4，通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对，根据预设距离阈值判断所述实体对是否为新的对齐实体对，若是，则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新；

S5，对步骤S2、S3、S4进行迭代，直至不存在满足所述预设距离阈值的所述实体对，根据更新的实体对齐种子集生成对齐实体对集合。

2.根据权利要求1所述的方法，其特征在于，所述S1还包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新，包括：

4.根据权利要求1所述的方法，其特征在于，所述语义距离计算公式为：

其中，E(e₁,e₂)为实体对e₁和e₂的语义距离，E₁和E₂为不同知识图谱中实体集，e₁为E₁中的未对齐实体，e₂为E₂中的未对齐实体，||e₁-e₂||_L1/L2为采用L1范式或L2范式计算的e₁到e₂的距离运算，L1/L2为采用L1范式或L2范式计算距离。

5.根据权利要求4所述的方法，其特征在于，所述根据预设距离阈值判断所述实体对是否为新的对齐实体对，包括：

6.一种基于翻译模型的协同迭代联合实体对齐装置，其特征在于，包括：

处理模块，用于获取多个知识图谱，通过数据预处理模块对所述多个知识图谱进行处理，以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据，根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集；

7.根据权利要求6所述的装置，其特征在于，所述处理模块，还用于，

8.根据权利要求6所述的装置，其特征在于，所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新，包括：

9.根据权利要求6所述的装置，其特征在于，所述语义距离计算公式为：

10.根据权利要求9所述的装置，其特征在于，所述根据预设距离阈值判断所述实体对是否为新的对齐实体对，包括：