CN110188206A - 基于翻译模型的协同迭代联合实体对齐方法及装置 - Google Patents
基于翻译模型的协同迭代联合实体对齐方法及装置 Download PDFInfo
- Publication number
- CN110188206A CN110188206A CN201910380017.7A CN201910380017A CN110188206A CN 110188206 A CN110188206 A CN 110188206A CN 201910380017 A CN201910380017 A CN 201910380017A CN 110188206 A CN110188206 A CN 110188206A
- Authority
- CN
- China
- Prior art keywords
- entity
- triple
- attribute
- relationship
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于翻译模型的协同迭代联合实体对齐方法及装置,该方法包括:通过数据预处理模块处理多个知识图谱,统计多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法生成实体对齐种子集;通过关系三元组联合嵌入模块生成关系三元组联合嵌入空间;通过属性三元组联合嵌入模块生成属性三元组联合嵌入空间;通过协同迭代训练模块选取语义距离最小的一对实体组成实体对,将满足预设距离阈值的实体对添加到实体对齐种子集对实体对齐种子集进行更新;迭代直至不存在满足预设距离阈值的实体对。该方法可以解决多个知识图谱共同融合的问题和结构异质的知识图谱、跨语言知识图谱实体对齐问题。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于翻译模型的协同迭代联合实体对齐方法及装置。
背景技术
大规模知识图谱作为支持各种复杂应用程序的数据基础变得越来越重要,在搜索、分析、推理、推荐、决策和问答等方面具有重要的应用,被广泛应用于搜索引擎、智能助理、翻译系统、问答系统和情报分析等应用中,涵盖了金融、教育、医疗、交通、商业、文娱、政务和安防等领域。在这个背景下,知识图谱的正确性和完备性就显得尤为重要。但由于不同知识图谱中知识来源的多样性和知识结构的异构性,已有的知识图谱往往存在着以下问题:(1)不同知识图谱间存在很多知识重复或补充;(2)单一知识图谱的知识质量低、信息覆盖度低、知识描述不完全;不同知识图谱间的知识异构性又强,不利于数据的共享和集成;(3)很多领域知识图谱只是针对领域内的某一小类而建立的,无法支撑上层应用系统。如医疗领域内,很多医疗知识图谱只是针对于某一类疾病、某一科室而建立的,缺乏完整的医疗全科知识图谱来服务于医疗智能系统。故如何融合不同知识图谱中的知识,形成完备性和正确性都有保障的知识图谱,是以知识图谱为数据基础的上层应用的迫切需求。其中,实体对齐技术是首要的关键技术。
已有的实体对齐模型,在两个知识图谱KG1和KG2之间使用迭代的方法进行实体对齐;首先根据输入的对齐种子实体对集合对KG1和KG2中表示相同含义的实体向量表示进行链接,形成新的对齐知识图谱KG3;之后根据KG3中新的对齐实体对KG1和KG2中的实体向量表示进行更新,以进一步获得更多的对齐实体,从而形成迭代机制;并制定阈值对实体对间的向量表示距离进行判定,小于阈值则认为是对齐实体对,将其加入KG3中,直到KG3中不再增加实体,则KG1和KG2之间的实体对齐任务完成。
另外,已有的实体是对齐方法,用于提高基于向量空间表示的实体对齐效率。该方法首先读取训练模型、实体向量和关系向量;针对给定的一个实体及对应关系,根据训练模型构造候选实体关系对集合;根据打分函数对所有候选实体关系对中的实体的向量和关系的向量进行打分,取打分值最高的候选实体关系对中的候选实体作为对齐的目标实体,其中,打分函数中包括给定实体的向量与候选实体的向量之间的属性相似度,当属性相似度值越高时打分函数打分值越高。
实体对齐是指将不同知识图谱间指向现实世界中相同对象的实体链接起来。有上述可知,已有的实体对齐方法存在以下问题:(1)无法完整利用知识图谱的内部信息,存在数据摒弃问题,缺乏实用性;(2)大多数方法将多个知识图谱的融合问题转换为两两知识图谱融合的问题,计算代价过大,多个知识图谱共同融合的问题暂未解决;(3)基于相似性计算的方法无法解决结构异质性和跨语言实体对齐的问题,方法不具有通用性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于翻译模型的协同迭代联合实体对齐方法,该方法可以解决多个知识图谱共同融合的问题和结构异质的知识图谱、跨语言知识图谱实体对齐问题。
本发明的另一个目的在于提出一种基于翻译模型的协同迭代联合实体对齐装置。
为达到上述目的,本发明一方面实施例提出了一种基于翻译模型的协同迭代联合实体对齐方法,包括:S1,获取多个知识图谱,通过数据预处理模块对所述多个知识图谱进行处理,以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集;S2,通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入,生成关系三元组联合嵌入空间;S3,通过属性三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入,生成属性三元组联合嵌入空间;S4,通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对,根据预设距离阈值判断所述实体对是否为新的对齐实体对,若是,则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新;S5,对步骤S2、S3、S4进行迭代,直至不存在满足所述预设距离阈值的所述实体对,根据更新的实体对齐种子集生成对齐实体对集合。
本发明实施例的基于翻译模型的协同迭代联合实体对齐方法,通过利用知识图谱内部的关系三元组和属性三元组信息,在提升实体对齐的精度的同时无数据摒弃,更具有实用性;通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务;通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间,不断更新嵌入实体的语义向量空间,以得到更多的对齐实体,形成迭代机制。
另外,根据本发明上述实施例的基于翻译模型的协同迭代联合实体对齐方法还可以具有以下附加的技术特征:
进一步地,所述S1还包括:将统计的所述多个知识图谱中的实体、关系、属性、属性值、所述关系三元组和所述属性三元组的数据由文本转换为数字,并进行编号。
进一步地,所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新,包括:
通过参数共享方法对实体、所述关系三元组和所述属性三元组中的实体进行更新以更新所述实体对齐种子集。
进一步地,所述语义距离计算公式为:
其中,E(e1,e2)为实体对e1和e2的语义距离,E1和E2为不同知识图谱中实体集,e1为E1中的未对齐实体,e2为E2中的未对齐实体,||e1-e2||L1/L2为采用L1范式或L2范式计算的e1到e2的距离运算,L1/L2为采用L1范式或L2范式计算距离。
进一步地,所述根据预设距离阈值判断所述实体对是否为新的对齐实体对,包括:
若则实体对e1和为所述新的对齐实体对,否则,则不是所述新的对齐实体对,其中,e1和为不同知识图谱中的未对齐实体,为实体对e1和的语义距离,θ为所述预设距离阈值。
为达到上述目的,本发明另一方面实施例提出了一种基于翻译模型的协同迭代联合实体对齐装置,包括:处理模块,用于获取多个知识图谱,通过数据预处理模块对所述多个知识图谱进行处理,以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集;
第一嵌入模块,用于通过关系三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入,生成关系三元组联合嵌入空间;
第二嵌入模块,用于通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入,生成属性三元组联合嵌入空间;
更新模块,用于通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对,根据预设距离阈值判断所述实体对是否为新的对齐实体对,若是,则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新;
迭代模块,用于通过迭代直至不存在满足所述预设距离阈值的所述实体对,根据更新的实体对齐种子集生成对齐实体对集合。
本发明实施例的基于翻译模型的协同迭代联合实体对齐装置,通过利用知识图谱内部的关系三元组和属性三元组信息,在提升实体对齐的精度的同时无数据摒弃,更具有实用性;通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务;通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间,不断更新嵌入实体的语义向量空间,以得到更多的对齐实体,形成迭代机制。
另外,根据本发明上述实施例的基于翻译模型的协同迭代联合实体对齐装置还可以具有以下附加的技术特征:
进一步地,所述处理模块,还用于,
将统计的所述多个知识图谱中的实体、关系、属性、属性值、所述关系三元组和所述属性三元组的数据由文本转换为数字,并进行编号。
进一步地,所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新,包括:
通过参数共享方法对实体、所述关系三元组和所述属性三元组中的实体进行更新以更新所述实体对齐种子集。
进一步地,所述语义距离计算公式为:
其中,E(e1,e2)为实体对e1和e2的语义距离,E1和E2为不同知识图谱中实体集,e1为E1中的未对齐实体,e2为E2中的未对齐实体,||e1-e2||L1/L2为采用L1范式或L2范式计算的e1到e2的距离运算,L1/L2为采用L1范式或L2范式计算距离。
进一步地,所述根据预设距离阈值判断所述实体对是否为新的对齐实体对,包括:
若则实体对e1和为所述新的对齐实体对,否则,则不是所述新的对齐实体对,其中,e1和为不同知识图谱中的未对齐实体,为实体对e1和的语义距离,θ为所述预设距离阈值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐方法流程图;
图2为根据本发明一个实施例的实体对齐处理流程图;
图3为根据本发明又一个实施例的基于翻译模型的协同迭代联合实体对齐方法总体结构示意图;
图4为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐方法及装置。
首先将参照附图描述根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐方法。
图1为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐方法流程图。
如图1所示,该基于翻译模型的协同迭代联合实体对齐方法包括以下步骤:
步骤S1,获取多个知识图谱,通过数据预处理模块对多个知识图谱进行处理,以统计多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法对关系三元组和属性三元组中的实体进行选择生成实体对齐种子集。
进一步地,S1还包括:将统计的多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组的数据由文本转换为数字,并进行编号。
如图2所示,从知识图谱数据源输入到最终输出完整的实体对齐集合,总共分为四个模块:数据预处理模块、关系三元组联合嵌入模块、属性三元组联合嵌入模块和协同迭代训练模块。
具体地,通过数据预处理模块对多个知识图谱进行处理,统计其中的实体、关系、属性、属性值、关系三元组和属性三元组等数据,并将统计完的数据由文本转换成数字;同时根据关系三元组和属性三元组中常用的实体生成对齐种子集,使用参数共享模型完成对实体、关系三元组和属性三元组中的对齐实体的更新,供模型后续处理使用。
可以理解的是,数据预处理部分是对多个要进行实体对齐的知识图谱进行数据预处理,将其转换成模型可以处理的数据。首先是对多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组进行统计,并为每一类型的数据编号,将文字转换成模型可以处理的数据;同时根据关系三元组和属性三元组中实体出现的频次选择最常见的实体作为实体对齐种子集;之后根据种子集采用参数共享方法对实体、关系三元组和属性三元组中的实体进行更新,为关系三元组嵌入和属性三元组嵌入做好数据准备。
在参数共享方法中,由于对齐实体在不同的KG(知识图谱)中具有相同的含义,因此可以直观地使这些对齐实体共享相同的嵌入。形式上,对于每个对齐实体对(e,e′),定义e≡e′,(e,e′)∈S。参数共享(parameter sharing,PS)模型简单有效地将KG1和KG2的知识嵌入校准到同一语义空间中。因此该模型的得分函数:
步骤S2,通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和关系三元组进行嵌入,生成关系三元组联合嵌入空间。
具体地,通过关系三元组联合嵌入模块使用知识表示学习方法对数据预处理模块处理后的实体、关系和关系三元组进行嵌入,形成关系三元组联合嵌入空间,供后续协同迭代训练模块进行实体对齐。
关系三元组联合嵌入部分使用基于翻译的知识表示学习方法对实体(E)、关系(R)和关系三元组(RT)进行嵌入,形成关系三元组联合嵌入空间,供后续协同迭代训练模块进行实体对齐。知识表示学习方法可以为TransE和PTransE,也可以为其它基于翻译模型的知识表示学习方法进行关系三元组的联合嵌入。
(1)TransE
TransE是一种将实体与关系嵌入到低维向量空间中的简单模型,它将每个三元组(h,r,t)中的r看作从h到t的翻译,通过不断调整h、r、t,尽可能使h+r≈t。所以它的能量函数定义为:
E(h,r,t)=||h+r-t||
使用一个基于边际的得分函数作为训练目标,将该函数定义为:
其中L(h,r,t)是一个基于边际的损失函数,定义如下:
其中,[x]+=max{0,x}表示取0和x间的最大数,γ是一个边际常量,RT-表示集合RT的负样例,定义如下:
RT-={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R},(h,r,t)∈RT
即随机替换掉关系三元组(h,r,t)中的一项,构成负样例集合。
(2)PTransE
TransE忽略了KG中重要的多步路径信息,且在建模复杂关系时遇到了困难。例如,(e1,r1,e2)和(e2,r2,e3)可以揭示一个新事实其中,。是将关系r1和r2结合起来的特定函数。
因此,Lin等人提出了PTransE,该模型在TransE的基础上增加了多步关系路径信息,可显著提高TransE的性能,因此在实体对齐任务中能实现更好的性能。根据PTransE,将关系路径定义为:且有
在PTransE中,如果一个关系路径和一种关系扮演着同样的角色,即有p∈P(h,t)且(h,r,t)∈RT,就将关系路径嵌入定义为其能量函数为:
E(p,r)=||p-r||=||p-(t-h)||=E(h,p,t)
PTransE的得分函数定义为在TransE的基础上增加一个关系路径正则化项,表示为:
其中,Z=∑p∈P(h,t)R(p|h,t)是一个归一化因子;R(p|h,t)表示在给定实体对(h,t)的情况下,路径p的可信度;L(p,r)是一个关于(p,r)对的基于边际的损失函数,定义为:
步骤S3,通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和属性三元组进行嵌入,生成属性三元组联合嵌入空间。
具体地,属性三元组联合嵌入模块使用知识表示学习方法对数据预处理模块处理后的实体、属性、属性值和属性三元组进行嵌入,形成属性三元组联合嵌入空间,供后续协同迭代训练模块进行实体对齐。
属性三元组联合嵌入部分使用基于翻译的知识表示学习方法对实体(E)、属性(A)、属性值(V)和属性三元组(AT)进行嵌入,形成属性三元组联合嵌入空间,供后续协同迭代训练模块进行实体对齐。因属性三元组at=(e,a,v)由实体、属性和属性值构成,其中不存在多步关系路径信息,也不存在复杂关系。因此主要介绍基于TransE的知识嵌入方法,也可以使用其他基于翻译模型的知识表示学习方法进行属性三元组的联合嵌入。
(1)TransE
在属性嵌入部分,将每个三元组(e,a,v)中的a看作从e到v的翻译,通过不断调整e、a、v,尽可能使e+a≈v。所以它的能量函数定义为:
E(e,a,v)=||e+a-v||
同样,使用一个基于边际的得分函数作为训练目标,将该函数定义为:
其中,L(e,a,v)是一个基于边际的损失函数,定义如下:
其中,AT-表示集合AT的负样例,定义如下:
AT-={(e′,a,v)|e′∈E}∪{(e,a,v′)|v′∈V}∪{(e,a′,v)|a′∈A},(e,a,v)∈AT
即随机替换掉属性三元组(e,a,v)中的一项,构成负样例集合。
步骤S4,通过协同迭代训练模块选取关系三元组联合嵌入空间和属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对,根据预设距离阈值判断实体对是否为新的对齐实体对,若是,则将实体对添加到实体对齐种子集以对实体对齐种子集进行更新。
进一步地,通过参数共享方法对实体、关系三元组和属性三元组中的实体进行更新以更新实体对齐种子集。
进一步地,语义距离计算公式为:
其中,E(e1,e2)为实体对e1和e2的语义距离,E1和E2为不同知识图谱中实体集,e1为E1中的未对齐实体,e2为E2中的未对齐实体,||e1-e2||L1/L2为采用L1范式或L2范式计算的e1到e2的距离运算,L1/L2为采用L1范式或L2范式计算距离。
进一步地,根据预设距离阈值判断实体对是否为新的对齐实体对,包括:
若则实体对e1和为新的对齐实体对,否则,则不是新的对齐实体对,其中,e1和为不同知识图谱中的未对齐实体,为实体对e1和的语义距离,θ为预设距离阈值。
具体地,根据关系三元组联合嵌入模块和属性三元组联合嵌入模块生成的关系三元组联合嵌入空间和属性三元组联合嵌入空间,选取其中距离最近的一对实体(e,e’),语义距离计算定义为:这样,对于一个KG中每一个未对齐实体e1,能在另一个KG中找到距离最近的未对齐实体即有:此外定义了一个距离阈值θ,认为:若则非常有可能是e1的对齐实体;否则,不可能是e1的对齐实体。并将新对齐实体对添加到对齐种子集中,迭代更新关系三元组联合嵌入空间和属性三元组联合嵌入空间,以促进更多的实体对齐,最终形成对齐实体对集合。
因从知识图谱层面和实体层面看,关系三元组和属性三元组扮演着不同的角色,为关系三元组和属性三元组设计了两种不同的得分函数计算方法,分别是直接累加方法和权重分配方法。
由上述说明可知,方法分为三步:(1)关系三元组联合嵌入;(2)属性三元组联合嵌入;(3)协同迭代实体对齐。从知识图谱层面来讲,关系三元组和属性三元组都是知识图谱中的元素,二者共同构成了知识图谱,有同等的地位和影响,故使用得分直接累加策略,将目标函数定义为这三部分的得分总和:
但从实体层面来讲,每个实体都拥有不同的关系和属性。判断两个实体是否相等,要看其对应的关系和关系、属性和属性是否分别相等,由两者共同决定实体是否对齐,故属性对齐和关系对齐共享和为1的权重。所以使用权重分配策略,将目标函数定义为:
其中,分别表示关系三元组联合嵌入部分、属性三元组联合嵌入部分和协同迭代实体对齐部分的得分,α∈(0,1)表示关系三元组得分所占的权重。
步骤S5,对步骤S2、S3、S4进行迭代,直至不存在满足预设距离阈值的实体对,根据更新的实体对齐种子集生成对齐实体对集合。
具体地,通过对上面步骤的迭代,一直更新实体对齐种子集,直至知识图谱中不存在可以对齐的实体。
如图3所示,展示了实体对齐方法的总体结构和模块设计框架,其中的四大模块分别定义如下:
数据预处理模块:对输入的多个知识图谱(KG1,KG2,...,KGn)进行处理,统计其中的实体(E)、关系(R)、属性(A)、属性值(V)、关系三元组(RT)和属性三元组(AT)等数据,并将统计完的数据由文本转换成数字;同时根据关系三元组和属性三元组中常用的实体生成对齐种子集(S),使用参数共享模型完成对实体、关系三元组和属性三元组中的对齐实体的更新,供模型后续处理使用。
关系三元组联合嵌入模块:使用基于翻译的知识表示学习方法对数据预处理模块处理后的实体(E)、关系(R)和关系三元组(RT)进行嵌入,形成关系三元组联合嵌入空间,供后续协同迭代训练模块进行实体对齐。
属性三元组联合嵌入模块:使用基于翻译的知识表示学习方法对数据预处理模块处理后的实体(E)、属性(A)、属性值(V)和属性三元组(AT)进行嵌入,形成属性三元组联合嵌入空间,供后续协同迭代训练模块进行实体对齐。
协同迭代训练模块:根据关系三元组联合嵌入模块和属性三元组联合嵌入模块生成的关系三元组联合嵌入空间和属性三元组联合嵌入空间,选取其中距离最近的一对实体(e,e’),设置相关阈值判定其是否为新对齐实体对,若为新对齐实体对,则添加到对齐种子集S中,然后根据新增加的对齐实体对迭代更新关系三元组联合嵌入空间和属性三元组联合嵌入空间,以促进更多的实体对齐,当对齐种子集S中的对齐实体对不再增加时,就形成了最终的对齐实体对集合S。
根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐方法,通过利用知识图谱内部的关系三元组和属性三元组信息,在提升实体对齐的精度的同时无数据摒弃,更具有实用性;通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务;通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间,不断更新嵌入实体的语义向量空间,以得到更多的对齐实体,形成迭代机制。
其次参照附图描述根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐装置。
图4为根据本发明一个实施例的基于翻译模型的协同迭代联合实体对齐装置结构示意图。
如图4所示,该基于翻译模型的协同迭代联合实体对齐装置包括:处理模块100、第一嵌入模块200、第二嵌入模块300、更新模块400和迭代模块500。
其中,处理模块100,用于获取多个知识图谱,通过数据预处理模块对多个知识图谱进行处理,以统计多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法对关系三元组和属性三元组中的实体进行选择生成实体对齐种子集。
第一嵌入模块200,用于通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和关系三元组进行嵌入,生成关系三元组联合嵌入空间。
第二嵌入模块300,用于通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和属性三元组进行嵌入,生成属性三元组联合嵌入空间。
更新模块400,用于通过协同迭代训练模块选取关系三元组联合嵌入空间和属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对,根据预设距离阈值判断实体对是否为新的对齐实体对,若是,则将实体对添加到实体对齐种子集以对实体对齐种子集进行更新。
迭代模块500,用于通过迭代直至不存在满足预设距离阈值的实体对,根据更新的实体对齐种子集生成对齐实体对集合。
该实体对齐装置可以解决多个知识图谱共同融合的问题和结构异质的知识图谱、跨语言知识图谱实体对齐问题。
进一步地,处理模块,还用于,将统计的多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组的数据由文本转换为数字,并进行编号。
进一步地,将实体对添加到实体对齐种子集以对实体对齐种子集进行更新,包括:
通过参数共享方法对实体、关系三元组和属性三元组中的实体进行更新以更新实体对齐种子集。
进一步地,语义距离计算公式为:
其中,E(e1,e2)为实体对e1和e2的语义距离,E1和E2为不同知识图谱中实体集,e1为E1中的未对齐实体,e2为E2中的未对齐实体,||e1-e2||L1/L2为采用L1范式或L2范式计算的e1到e2的距离运算,L1/L2为采用L1范式或L2范式计算距离。
进一步地,根据预设距离阈值判断实体对是否为新的对齐实体对,包括:
若则实体对e1和为新的对齐实体对,否则,则不是新的对齐实体对,其中,e1和为不同知识图谱中的未对齐实体,为实体对e1和的语义距离,θ为预设距离阈值。
需要说明的是,前述对基于翻译模型的协同迭代联合实体对齐方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于翻译模型的协同迭代联合实体对齐装置,通过利用知识图谱内部的关系三元组和属性三元组信息,在提升实体对齐的精度的同时无数据摒弃,更具有实用性;通过使用参数共享的联合方法解决多个知识图谱共同融合、结构异质性和跨语言实体对齐任务;通过使用协同训练的方法同时训练关系三元组联合嵌入模型和基于属性三元组的语义向量空间,不断更新嵌入实体的语义向量空间,以得到更多的对齐实体,形成迭代机制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于翻译模型的协同迭代联合实体对齐方法,其特征在于,包括以下步骤:
S1,获取多个知识图谱,通过数据预处理模块对所述多个知识图谱进行处理,以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集;
S2,通过关系三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入,生成关系三元组联合嵌入空间;
S3,通过属性三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入,生成属性三元组联合嵌入空间;
S4,通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对,根据预设距离阈值判断所述实体对是否为新的对齐实体对,若是,则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新;
S5,对步骤S2、S3、S4进行迭代,直至不存在满足所述预设距离阈值的所述实体对,根据更新的实体对齐种子集生成对齐实体对集合。
2.根据权利要求1所述的方法,其特征在于,所述S1还包括:
将统计的所述多个知识图谱中的实体、关系、属性、属性值、所述关系三元组和所述属性三元组的数据由文本转换为数字,并进行编号。
3.根据权利要求1所述的方法,其特征在于,所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新,包括:
通过参数共享方法对实体、所述关系三元组和所述属性三元组中的实体进行更新以更新所述实体对齐种子集。
4.根据权利要求1所述的方法,其特征在于,所述语义距离计算公式为:
其中,E(e1,e2)为实体对e1和e2的语义距离,E1和E2为不同知识图谱中实体集,e1为E1中的未对齐实体,e2为E2中的未对齐实体,||e1-e2||L1/L2为采用L1范式或L2范式计算的e1到e2的距离运算,L1/L2为采用L1范式或L2范式计算距离。
5.根据权利要求4所述的方法,其特征在于,所述根据预设距离阈值判断所述实体对是否为新的对齐实体对,包括:
若则实体对e1和为所述新的对齐实体对,否则,则不是所述新的对齐实体对,其中,e1和为不同知识图谱中的未对齐实体,为实体对e1和的语义距离,θ为所述预设距离阈值。
6.一种基于翻译模型的协同迭代联合实体对齐装置,其特征在于,包括:
处理模块,用于获取多个知识图谱,通过数据预处理模块对所述多个知识图谱进行处理,以统计所述多个知识图谱中的实体、关系、属性、属性值、关系三元组和属性三元组各个数据,根据预设的频率选择方法对所述关系三元组和所述属性三元组中的实体进行选择生成实体对齐种子集;
第一嵌入模块,用于通过关系三元组联合嵌入模块基于所述翻译模型的知识表示学习方法对统计的实体、关系和所述关系三元组进行嵌入,生成关系三元组联合嵌入空间;
第二嵌入模块,用于通过属性三元组联合嵌入模块基于翻译模型的知识表示学习方法对统计的实体、属性、属性值和所述属性三元组进行嵌入,生成属性三元组联合嵌入空间;
更新模块,用于通过协同迭代训练模块选取所述关系三元组联合嵌入空间和所述属性三元组联合嵌入空间中语义距离最小的一对实体组成实体对,根据预设距离阈值判断所述实体对是否为新的对齐实体对,若是,则将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新;
迭代模块,用于通过迭代直至不存在满足所述预设距离阈值的所述实体对,根据更新的实体对齐种子集生成对齐实体对集合。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于,
将统计的所述多个知识图谱中的实体、关系、属性、属性值、所述关系三元组和所述属性三元组的数据由文本转换为数字,并进行编号。
8.根据权利要求6所述的装置,其特征在于,所述将所述实体对添加到所述实体对齐种子集以对所述实体对齐种子集进行更新,包括:
通过参数共享方法对实体、所述关系三元组和所述属性三元组中的实体进行更新以更新所述实体对齐种子集。
9.根据权利要求6所述的装置,其特征在于,所述语义距离计算公式为:
其中,E(e1,e2)为实体对e1和e2的语义距离,E1和E2为不同知识图谱中实体集,e1为E1中的未对齐实体,e2为E2中的未对齐实体,||e1-e2||L1/L2为采用L1范式或L2范式计算的e1到e2的距离运算,L1/L2为采用L1范式或L2范式计算距离。
10.根据权利要求9所述的装置,其特征在于,所述根据预设距离阈值判断所述实体对是否为新的对齐实体对,包括:
若则实体对e1和为所述新的对齐实体对,否则,则不是所述新的对齐实体对,其中,e1和为不同知识图谱中的未对齐实体,为实体对e1和的语义距离,θ为所述预设距离阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380017.7A CN110188206A (zh) | 2019-05-08 | 2019-05-08 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380017.7A CN110188206A (zh) | 2019-05-08 | 2019-05-08 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110188206A true CN110188206A (zh) | 2019-08-30 |
Family
ID=67715757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910380017.7A Pending CN110188206A (zh) | 2019-05-08 | 2019-05-08 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188206A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111046186A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111191462A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111191471A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 基于实体序列编码的知识图谱融合方法 |
CN111309930A (zh) * | 2020-03-06 | 2020-06-19 | 西南交通大学 | 一种基于表示学习的医学知识图谱实体对齐方法 |
CN111753024A (zh) * | 2020-06-24 | 2020-10-09 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN112036182A (zh) * | 2020-07-31 | 2020-12-04 | 中国科学院信息工程研究所 | 多角度引入属性语义的知识表示学习方法和系统 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112131404A (zh) * | 2020-09-19 | 2020-12-25 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112199957A (zh) * | 2020-11-03 | 2021-01-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
CN112487197A (zh) * | 2020-11-06 | 2021-03-12 | 中科云谷科技有限公司 | 基于会议记录构建知识图谱的方法、装置及处理器 |
CN112905807A (zh) * | 2021-03-25 | 2021-06-04 | 北京邮电大学 | 一种多源时空知识融合方法 |
CN113641826A (zh) * | 2021-06-29 | 2021-11-12 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN114969367A (zh) * | 2022-05-30 | 2022-08-30 | 大连民族大学 | 基于多方面子任务交互的跨语言实体对齐方法 |
CN115828882A (zh) * | 2022-09-23 | 2023-03-21 | 华能澜沧江水电股份有限公司 | 面向大坝安全知识库风险联动的实体对齐方法和系统 |
CN116257643A (zh) * | 2023-05-09 | 2023-06-13 | 鹏城实验室 | 跨语言实体对齐方法、装置、设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480191A (zh) * | 2017-07-12 | 2017-12-15 | 清华大学 | 一种迭代的实体对齐模型 |
-
2019
- 2019-05-08 CN CN201910380017.7A patent/CN110188206A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480191A (zh) * | 2017-07-12 | 2017-12-15 | 清华大学 | 一种迭代的实体对齐模型 |
Non-Patent Citations (2)
Title |
---|
BAYU DISTIAWAN TRISEDYA ET AL.: "Entity Alignment between Knowledge Graphs Using Attribute Embeddings", 《AAAI 2019 CONFERENCE》 * |
HAO ZHU ET AL.: "Iterative Entity Alignment via Knowledge Embeddings", 《IJCAI"17: PROCEEDINGS OF THE 26TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN110941722B (zh) * | 2019-10-12 | 2022-07-01 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111046186A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
CN110826316B (zh) * | 2019-11-06 | 2021-08-10 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN111061841A (zh) * | 2019-12-19 | 2020-04-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111061841B (zh) * | 2019-12-19 | 2023-10-27 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN111191462A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111191471A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 基于实体序列编码的知识图谱融合方法 |
CN111191471B (zh) * | 2019-12-30 | 2022-06-28 | 北京航空航天大学 | 基于实体序列编码的知识图谱融合方法 |
CN111191462B (zh) * | 2019-12-30 | 2022-02-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111309930A (zh) * | 2020-03-06 | 2020-06-19 | 西南交通大学 | 一种基于表示学习的医学知识图谱实体对齐方法 |
CN111309930B (zh) * | 2020-03-06 | 2023-02-28 | 西南交通大学 | 一种基于表示学习的医学知识图谱实体对齐方法 |
CN111753024B (zh) * | 2020-06-24 | 2024-02-20 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN111753024A (zh) * | 2020-06-24 | 2020-10-09 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN112036182A (zh) * | 2020-07-31 | 2020-12-04 | 中国科学院信息工程研究所 | 多角度引入属性语义的知识表示学习方法和系统 |
CN112131395B (zh) * | 2020-08-26 | 2023-09-26 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112131404B (zh) * | 2020-09-19 | 2022-09-27 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112131404A (zh) * | 2020-09-19 | 2020-12-25 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112199957A (zh) * | 2020-11-03 | 2021-01-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112199957B (zh) * | 2020-11-03 | 2023-12-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112487197A (zh) * | 2020-11-06 | 2021-03-12 | 中科云谷科技有限公司 | 基于会议记录构建知识图谱的方法、装置及处理器 |
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
CN112445876B (zh) * | 2020-11-25 | 2023-12-26 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
CN112905807A (zh) * | 2021-03-25 | 2021-06-04 | 北京邮电大学 | 一种多源时空知识融合方法 |
CN113641826A (zh) * | 2021-06-29 | 2021-11-12 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
WO2023273182A1 (zh) * | 2021-06-29 | 2023-01-05 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN113641826B (zh) * | 2021-06-29 | 2024-03-26 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN114969367A (zh) * | 2022-05-30 | 2022-08-30 | 大连民族大学 | 基于多方面子任务交互的跨语言实体对齐方法 |
CN114969367B (zh) * | 2022-05-30 | 2024-04-30 | 大连民族大学 | 基于多方面子任务交互的跨语言实体对齐方法 |
CN115828882B (zh) * | 2022-09-23 | 2023-06-16 | 华能澜沧江水电股份有限公司 | 面向大坝安全知识库风险联动的实体对齐方法和系统 |
CN115828882A (zh) * | 2022-09-23 | 2023-03-21 | 华能澜沧江水电股份有限公司 | 面向大坝安全知识库风险联动的实体对齐方法和系统 |
CN116257643B (zh) * | 2023-05-09 | 2023-08-25 | 鹏城实验室 | 跨语言实体对齐方法、装置、设备及可读存储介质 |
CN116257643A (zh) * | 2023-05-09 | 2023-06-13 | 鹏城实验室 | 跨语言实体对齐方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188206A (zh) | 基于翻译模型的协同迭代联合实体对齐方法及装置 | |
Zhan et al. | Three-way multiattribute decision-making based on outranking relations | |
Lemos et al. | Graph colouring meets deep learning: Effective graph neural network models for combinatorial problems | |
Zhou et al. | A simplex method-based social spider optimization algorithm for clustering analysis | |
Davis et al. | Deep transfer via second-order markov logic | |
Liu et al. | A comprehensive competitive swarm optimizer for large-scale multiobjective optimization | |
CN109800317A (zh) | 一种基于图像场景图谱对齐的图像查询回答方法 | |
CN109784405A (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
CN110533072A (zh) | Web环境下基于Bigraph结构的SOAP服务相似度计算与聚类方法 | |
Shah et al. | New algorithms for learning and pruning oblique decision trees | |
CN113268993B (zh) | 基于互信息的属性异构信息网络无监督网络表示学习方法 | |
CN107851124A (zh) | 自组织网络中的媒体标记传播 | |
CN107451210A (zh) | 一种基于查询松弛结果增强的图匹配查询方法 | |
CN106780501A (zh) | 基于改进人工蜂群算法的图像分割方法 | |
CN109948534A (zh) | 采用快速密度峰值聚类进行人脸识别的方法 | |
Lu et al. | Boosting few-shot image recognition via domain alignment prototypical networks | |
Karthikeyan et al. | A hybrid clustering approach using artificial bee colony (ABC) and particle swarm optimization | |
CN109919458B (zh) | 社交网络中基于概念格的协作成本任务分配方法及其系统 | |
Muscoloni et al. | Angular separability of data clusters or network communities in geometrical space and its relevance to hyperbolic embedding | |
CN107590237B (zh) | 一种基于动态翻译原则的知识图谱表示学习方法 | |
González-Almagro et al. | Semi-supervised constrained clustering: An in-depth overview, ranked taxonomy and future research directions | |
CN106203469A (zh) | 一种基于有序模式的图分类方法 | |
He et al. | A novel ant-based clustering approach for document clustering | |
CN108804605B (zh) | 一种基于层次结构的推荐方法 | |
Li et al. | Schema matching using neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190830 |
|
RJ01 | Rejection of invention patent application after publication |