CN116680415A - 一种基于实体结构特征的长尾实体对齐方法 - Google Patents

一种基于实体结构特征的长尾实体对齐方法 Download PDF

Info

Publication number
CN116680415A
CN116680415A CN202310721284.2A CN202310721284A CN116680415A CN 116680415 A CN116680415 A CN 116680415A CN 202310721284 A CN202310721284 A CN 202310721284A CN 116680415 A CN116680415 A CN 116680415A
Authority
CN
China
Prior art keywords
entity
alignment
entities
tail
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310721284.2A
Other languages
English (en)
Inventor
包铁
王俊懿
彭涛
毕海嘉
刘露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310721284.2A priority Critical patent/CN116680415A/zh
Publication of CN116680415A publication Critical patent/CN116680415A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本发明适用于实体对齐领域,提供了一种基于实体结构特征的长尾实体对齐方法,包括:按照比例随机划分训练集和测试集;随机初始化实体和关系嵌入,并将两个知识图谱的实体和关系嵌入到相同的向量空间中;利用实体嵌入和关系嵌入分别计算头实体和尾实体的投影表示;计算所有三元组中实体的上下文表示;基于上下文向量表示,计算向量之间的距离,对计算得到的距离使用全局最优的对齐策略,得到新的对齐实体对;将对齐实体对加入对齐集合,并基于该集合补全知识图谱三元组,该方法以处理知识图谱中存在的一对多关系以及复杂关系模式的问题,可以有效地减少长尾实体数量,有利于提高实体对齐的准确度。

Description

一种基于实体结构特征的长尾实体对齐方法
技术领域
本发明涉及实体对齐领域,具体是一种基于实体结构特征的长尾实体对齐方法。
背景技术
随着知识图谱技术研究与应用的深化,知识图谱所应用的研究领域范围越来越广,已经不再局限应用于人工智能领域的智能检索和数据可视化,相关技术已经在金融行业、生物医疗、图书管理及电商推荐等领域得到较为广泛的应用。然而现实世界中这些知识图谱可以由不同机构组织或个人按照特定的需求来设计构建,在不同领域、不同时间都会产生不同的知识图谱,其知识图谱的构建方式、规模大小、数据的表达形式以及语言的选择都存在一定的差异,这导致知识图谱可能出现冗余异构问题;实体对齐任务的主要目的是找到拥有不同表示形式的同一现实世界实体,使用实体对齐不仅可以解决不同知识图谱之间存在的冗余问题,也可以降低知识图谱的稀疏性,不同实体对齐算法的选择与实现正是提高知识图谱实体对齐准确度的关键手段,实体对齐研究分为传统的实体对齐方法和基于知识表示学习的实体对齐方法,随着信息化技术越来越快的发展,知识图谱的规模越来越大,实体和关系数量随之扩增,传统实体对齐方法面临着计算效率低和可扩展性差的问题,不能进一步得到更多高质量的对齐实体,同时传统实体对齐方法忽略了三元组结构之间的语义信息,不能有效表达实体信息,存在一定的局限性;目前基于知识表示的实体对齐方法大多是基于翻译模型的嵌入方法,可以有效地对知识图谱中的结构信息进行建模,通过捕获知识图谱三元组之间的局部语义信息以实现实体对齐。相比于传统实体对齐方法,基于表示学习的实体对齐能够很好地提高计算效率、有效地丰富实体和关系信息,从而显著提高实体对齐准确率,然而典型的翻译模型不能处理实体之间的一对多关系,在知识图谱嵌入中存在局限性,不足以得到高置信度的对齐结果。RotatE模型巧妙地利用了欧拉公式e=cosθ+i sinθ,将实体和关系映射到复数空间,并将关系定义为复数空间中头实体向尾实体的旋转。现有的均匀负采样方式通常效率不高,在训练过程中为所有负样本分配了相同的权重,而实际上许多样本是错误的,不能提供任何有意义的信息。而自对抗负采样方法有选择地采样负三元组,即当一个样本在模型中错误的概率越大,则更应该被选为负样本。并且由于现实世界中的知识图谱往往更加稀疏,大部分实体都是长尾实体,结构嵌入表达能力低,这不利于实体对齐任务的开展。
现有的大多数实体对齐研究注意力重点集中于利用知识图谱的三元组结构学习实体嵌入来进行实体对齐,但该方法存在实体嵌入表达能力低的问题,往往忽略了其余的特征语义信息都会给实体对齐带来一定的帮助;其次,知识图谱实体间存在着大量的一对多的复杂关系,基于TransE模型的知识图谱嵌入只能处理一对一的关系,并在处理对称关系模式上能力有限;同样由于h+r=t的约束,导致TransE在建模具有对称关系的三元组时,会出现头实体和尾实体在向量空间中的嵌入表示彼此接近、对称关系表示始终为0的状况,因此TransE不能被用于建模具有对称关系模式的实体,不能利用其关系所蕴含的语义信息,导致一定程度的影响嵌入效果;现实世界中通常存在着大量的异构冗余知识图谱和长尾实体,只依赖结构信息会导致实体向量表达性低,直接影响实体对齐的表现。
因此,针对以上现状,迫切需要提供一种基于实体结构特征的长尾实体对齐方法,以克服当前实际应用中的不足。
发明内容
本发明的目的在于提供一种基于实体结构特征的长尾实体对齐方法,旨在解决上述背景技术中的问题。
本发明是这样实现的,一种基于实体结构特征的长尾实体对齐方法,该方法包括以下步骤:
步骤S1:给定两个知识图谱、实体集合、关系集合以及种子集,并按照比例随机划分训练集和测试集;
步骤S2:随机初始化实体和关系嵌入,并将两个知识图谱的实体和关系嵌入到相同的向量空间中;
步骤S3:利用步骤S2中得到的实体嵌入和关系嵌入分别计算头实体和尾实体的投影表示;
步骤S4:计算所有三元组中实体的上下文表示;
步骤S5:基于步骤S4中得到的上下文向量表示,计算向量之间的距离,对计算得到的距离使用全局最优的对齐策略,得到新的对齐实体对;
步骤S6:将步骤S5中得到的对齐实体对加入对齐集合,并基于该集合补全知识图谱三元组,返回步骤S1继续执行,直到不再出现新的对齐实体对。
作为本发明进一步的方案:在步骤S2中,利用RotatE模型将两个知识图谱的实体和关系嵌入到相同的向量空间中。
作为本发明进一步的方案:在步骤S2中,还包括基于关系向量|r|=1的约束,处理知识图谱中的对称关系模式。
作为本发明进一步的方案:在步骤S4中,计算所有三元组中实体担任分别不同角色的平均投影向量表示,将平均投影向量表示记为实体的上下文表示。
作为本发明进一步的方案:在步骤S5中,使用余弦相似度来计算向量之间的距离。
作为本发明进一步的方案:在步骤S2中,利用基于表示学习的模型将两个知识图谱嵌入到同一向量空间中,计算三元组得分,得分函数为:
在步骤S3中,基于实体嵌入和关系嵌入计算实体分别担任头实体和尾实体对应的投影映射和/>得到:
在步骤S4中,计算实体在所有三元组中分别担任头实体和尾实体的上下文表示hc和tc,给定一个尾实体t,则三元组中连接尾实体t的所有被定义为尾实体的上下文,表示为集合Ne(t),通过平均化尾实体的投影向量表示得到tc,得到:
使用Adam优化函数最小化损失函数,损失函数定义为:
ftotal(h,r,t)=f(h,r,t)+fc(h,r,t);
作为本发明进一步的方案:在步骤S6中,知识图谱补全的具体步骤为:
基于实体对齐中的结构嵌入获得初始实体相似度矩阵,基于相似度矩阵使用全局最优的对齐策略找到互相最为相似的两个实体;
将源知识图谱中的三元组T_1的关系用于补充目标知识图谱中的关系,使得目标知识图谱获得新的关系三元组。
与现有技术相比,本发明的有益效果:
该方法面向真实世界知识图谱,基于实体结构特征信息实现长尾实体对齐,数据集中拥有较多的关系三元组,充分利用知识图谱图结构信息,将知识图谱嵌入到复数空间中捕捉到丰富的实体嵌入,在此模型上考虑实体在三元组中分别担任头实体和尾实体的角色,利用相邻节点的嵌入和节点之间的对应关系为实体增加两个上下文表示,很好地处理知识图谱中存在的一对多复杂关系以及多关系模式;
针对现实世界知识图谱中存在的大量长尾实体现象,将基于实体结构特征的模型训练得到的对齐实体作为两个知识图谱补全的桥梁,结合知识图谱补全和实体对齐进行迭代训练以预测三元组中的关系,大大提高知识图谱覆盖率,较少长尾实体数量;
使用迭代扩充知识图谱三元组数量的方法避免了后续迭代中出现错误传播的情况,很好地提升实体对齐效果;
本发明解决了知识图谱中实体之间存在的一对多关系问题,解决了现有的翻译模型无法处理知识图谱中存在的复杂关系模式的问题,解决了真实世界知识图谱中存在的长尾实体问题,可以有效地减少长尾实体数量,有利于提高实体对齐的准确度。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下结合具体实施例对本发明的具体实现进行详细描述。
请参阅图1,本发明实施例提供的一种基于实体结构特征的长尾实体对齐方法,该方法包括以下步骤:
步骤S1:给定两个知识图谱、实体集合、关系集合以及种子集,按照比例随机划分训练集和测试集;
步骤S2:随机初始化实体和关系嵌入,利用RotatE模型将两个知识图谱的实体和关系嵌入到相同的向量空间中,基于关系向量|r|=1的约束,很好地处理知识图谱中的对称关系模式;
步骤S3:利用步骤S2中得到的实体嵌入和关系嵌入分别计算头实体和尾实体的投影表示;
步骤S4:计算所有三元组中实体担任分别不同角色的平均投影向量表示,记为实体的上下文表示;
步骤S5:基于步骤S4中得到的上下文向量表示,使用余弦相似度来计算向量之间的距离,对计算得到的距离使用全局最优的对齐策略,得到新的对齐实体对;
步骤S6:将步骤S5中得到的对齐实体对加入对齐集合,基于该集合补全知识图谱三元组,返回步骤S1继续执行,直到不再出现新的对齐实体对。
其中,模型结构主要分为实体对齐和知识图谱补全两部分,通过迭代实体对齐和知识图谱补全以提升实体对齐结果准确度,如图2所示:
(1)实体对齐:
首先利用基于表示学习的模型将两个知识图谱嵌入到同一向量空间中,计算三元组得分,得分函数为:
基于实体嵌入和关系嵌入计算实体分别担任头实体和尾实体对应的投影映射得到:
计算实体在所有三元组中分别担任头实体和尾实体的上下文表示hc和tc;例如给定一个尾实体t,则三元组中连接尾实体t的所有(head,relation)被定义为尾实体的上下文,表示为集合Ne(t),通过平均化尾实体的投影向量表示得到tc,得到:
使用Adam优化函数最小化损失函数,使得正三元组得分越低越好,负样本三元组得分越高,更有利于区分正确三元组,损失函数定义为:
ftotal(h,r,t)=f(h,r,t)+fc(h,r,t);
(2)知识图谱补全:
首先基于实体对齐中的结构嵌入获得初始实体相似度矩阵,基于相似度矩阵使用全局最优的对齐策略找到互相最为相似的两个实体;对于源知识图谱中的实体e1来说,目标知识图谱中的e2实体是与之最相似的实体,同理,对于目标知识图谱e2来说,源知识图谱中的e1实体是与之最相似的实体,并且为了保证获得更准确的一致性对齐实体,需要满足两个实体之间的相似度大于一个阈值θ,将满足条件的实体对添加到集合SKC中;
将源知识图谱中的三元组T1的关系用于补充目标知识图谱中的关系,使得目标知识图谱获得新的关系三元组;例如,给定一个源知识图谱的三元组(h1,r1,t1),如果SKC中同时存在(h1,h2)和(t1,t2)实体对,则将h2实体替换为h1实体、t2实体替换为t1实体,即目标知识图谱中的三元组(h2,?,t2)所缺失的关系更新为r1,将新三元组(h2,r1,t2)加入到目标知识图谱中,使得目标知识图谱拥有源知识图谱的结构信息,这样既丰富了知识图谱,还有效地减少了长尾实体的数量;
迭代交互知识图谱补全和实体对齐模型,每一轮训练都执行相同的计算方法获得新的三元组填充知识图谱,实体对齐模型会重新按照新的知识图谱训练更新实体嵌入,增加的三元组可以有效地提升结构嵌入表示;迭代交互直到不再增加新的三元组或者实体对齐效果不再提升则停止迭代训练。
在本发明的实施例中,该方法面向真实世界知识图谱,基于实体结构特征信息实现长尾实体对齐,数据集中拥有较多的关系三元组,充分利用知识图谱图结构信息,将知识图谱嵌入到复数空间中捕捉到丰富的实体嵌入,在此模型上考虑实体在三元组中分别担任头实体和尾实体的角色,利用相邻节点的嵌入和节点之间的对应关系为实体增加两个上下文表示,很好地处理知识图谱中存在的一对多复杂关系以及多关系模式;针对现实世界知识图谱中存在的大量长尾实体现象,将基于实体结构特征的模型训练得到的对齐实体作为两个知识图谱补全的桥梁,结合知识图谱补全和实体对齐进行迭代训练以预测三元组中的关系,大大提高知识图谱覆盖率,较少长尾实体数量;使用迭代扩充知识图谱三元组数量的方法避免了后续迭代中出现错误传播的情况,很好地提升实体对齐效果;相比现有技术,本发明解决了知识图谱中实体之间存在的一对多关系问题,解决了现有的翻译模型无法处理知识图谱中存在的复杂关系模式的问题,解决了真实世界知识图谱中存在的长尾实体问题,可以有效地减少长尾实体数量,有利于提高实体对齐的准确度。
在本发明,相关名词解释如下:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于实体结构特征的长尾实体对齐方法,其特征在于,该方法包括以下步骤:
步骤S1:给定两个知识图谱、实体集合、关系集合以及种子集,并按照比例随机划分训练集和测试集;
步骤S2:随机初始化实体和关系嵌入,并将两个知识图谱的实体和关系嵌入到相同的向量空间中;
步骤S3:利用步骤S2中得到的实体嵌入和关系嵌入分别计算头实体和尾实体的投影表示;
步骤S4:计算所有三元组中实体的上下文表示;
步骤S5:基于步骤S4中得到的上下文向量表示,计算向量之间的距离,对计算得到的距离使用全局最优的对齐策略,得到新的对齐实体对;
步骤S6:将步骤S5中得到的对齐实体对加入对齐集合,并基于该集合补全知识图谱三元组,返回步骤S1继续执行,直到不再出现新的对齐实体对。
2.根据权利要求1所述的基于实体结构特征的长尾实体对齐方法,其特征在于,在步骤S2中,利用RotatE模型将两个知识图谱的实体和关系嵌入到相同的向量空间中。
3.根据权利要求1所述的基于实体结构特征的长尾实体对齐方法,其特征在于,在步骤S2中,还包括基于关系向量r|=1的约束,处理知识图谱中的对称关系模式。
4.根据权利要求1所述的基于实体结构特征的长尾实体对齐方法,其特征在于,在步骤S4中,计算所有三元组中实体担任分别不同角色的平均投影向量表示,将平均投影向量表示记为实体的上下文表示。
5.根据权利要求1所述的基于实体结构特征的长尾实体对齐方法,其特征在于,在步骤S5中,使用余弦相似度来计算向量之间的距离。
6.根据权利要求1所述的基于实体结构特征的长尾实体对齐方法,其特征在于,在步骤S2中,利用基于表示学习的模型将两个知识图谱嵌入到同一向量空间中,计算三元组得分,得分函数为:
在步骤S3中,基于实体嵌入和关系嵌入计算实体分别担任头实体和尾实体对应的投影映射和/>得到:
在步骤S4中,计算实体在所有三元组中分别担任头实体和尾实体的上下文表示hc和tc,给定一个尾实体t,则三元组中连接尾实体t的所有被定义为尾实体的上下文,表示为集合Ne(t),通过平均化尾实体的投影向量表示得到tc,得到:
使用Adam优化函数最小化损失函数,损失函数定义为:
ftotal(h,r,t)=f(h,r,t)+fc(h,r,t);
7.根据权利要求6所述的基于实体结构特征的长尾实体对齐方法,其特征在于,在步骤S6中,知识图谱补全的具体步骤为:
基于实体对齐中的结构嵌入获得初始实体相似度矩阵,基于相似度矩阵使用全局最优的对齐策略找到互相最为相似的两个实体;
将源知识图谱中的三元组T1的关系用于补充目标知识图谱中的关系,使得目标知识图谱获得新的关系三元组。
CN202310721284.2A 2023-06-19 2023-06-19 一种基于实体结构特征的长尾实体对齐方法 Pending CN116680415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310721284.2A CN116680415A (zh) 2023-06-19 2023-06-19 一种基于实体结构特征的长尾实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310721284.2A CN116680415A (zh) 2023-06-19 2023-06-19 一种基于实体结构特征的长尾实体对齐方法

Publications (1)

Publication Number Publication Date
CN116680415A true CN116680415A (zh) 2023-09-01

Family

ID=87781940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310721284.2A Pending CN116680415A (zh) 2023-06-19 2023-06-19 一种基于实体结构特征的长尾实体对齐方法

Country Status (1)

Country Link
CN (1) CN116680415A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370583A (zh) * 2023-12-08 2024-01-09 湘江实验室 一种基于生成对抗网络的知识图谱实体对齐方法及系统
CN118643895A (zh) * 2024-08-12 2024-09-13 中国人民解放军国防科技大学 一种时序知识图谱对齐方法
CN118643895B (zh) * 2024-08-12 2024-11-05 中国人民解放军国防科技大学 一种时序知识图谱对齐方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370583A (zh) * 2023-12-08 2024-01-09 湘江实验室 一种基于生成对抗网络的知识图谱实体对齐方法及系统
CN117370583B (zh) * 2023-12-08 2024-03-19 湘江实验室 一种基于生成对抗网络的知识图谱实体对齐方法及系统
CN118643895A (zh) * 2024-08-12 2024-09-13 中国人民解放军国防科技大学 一种时序知识图谱对齐方法
CN118643895B (zh) * 2024-08-12 2024-11-05 中国人民解放军国防科技大学 一种时序知识图谱对齐方法

Similar Documents

Publication Publication Date Title
CN114298158B (zh) 一种基于图文线性组合的多模态预训练方法
Pham et al. Lcd: Learned cross-domain descriptors for 2d-3d matching
WO2022011681A1 (zh) 一种基于迭代补全的知识图谱融合方法
CN112287126B (zh) 一种适于多模态知识图谱的实体对齐方法及设备
CN108399406A (zh) 基于深度学习的弱监督显著性物体检测的方法及系统
CN114090783A (zh) 一种异构知识图谱融合方法及系统
Cai et al. DLnet with training task conversion stream for precise semantic segmentation in actual traffic scene
CN111191460B (zh) 一种结合逻辑规则和碎片化知识的关系预测方法
CN116680415A (zh) 一种基于实体结构特征的长尾实体对齐方法
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111931814A (zh) 一种基于类内结构紧致约束的无监督对抗域适应方法
CN114565808B (zh) 一种面向无监督视觉表示的双动量对比学习方法
WO2023201681A1 (zh) 面向粗标签的语义分割模型的训练方法和装置
Vidanapathirana et al. Spectral geometric verification: Re-ranking point cloud retrieval for metric localization
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法
CN114519107A (zh) 一种联合实体关系表示的知识图谱融合方法
CN117350330A (zh) 基于混合教学的半监督实体对齐方法
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN114648560A (zh) 分布式图像配准方法、系统、介质、计算机设备及终端
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
WO2023116744A1 (zh) 图像处理方法、装置、设备及介质
CN116342938A (zh) 基于多个潜在域混合的域泛化图像分类方法
CN111091198A (zh) 一种数据处理方法及装置
CN115658927A (zh) 一种面向时序知识图谱的无监督实体对齐方法及装置
Sun et al. Image segmentation with language referring expression and comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination