CN118278519A - 一种知识图谱补全方法及相关设备 - Google Patents
一种知识图谱补全方法及相关设备 Download PDFInfo
- Publication number
- CN118278519A CN118278519A CN202410704741.1A CN202410704741A CN118278519A CN 118278519 A CN118278519 A CN 118278519A CN 202410704741 A CN202410704741 A CN 202410704741A CN 118278519 A CN118278519 A CN 118278519A
- Authority
- CN
- China
- Prior art keywords
- entity
- embedded
- text
- triplet
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 195
- 238000012549 training Methods 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 16
- 230000000295 complement effect Effects 0.000 claims description 10
- 230000010365 information processing Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 208000025174 PANDAS Diseases 0.000 description 5
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 5
- 240000004718 Panda Species 0.000 description 5
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 3
- 235000017491 Bambusa tulda Nutrition 0.000 description 3
- 241001330002 Bambuseae Species 0.000 description 3
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 3
- 239000011425 bamboo Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种知识图谱补全方法及相关设备,包括:通过获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,基于尾实体预测类型来限制候选实体集的生成;将候选实体集中的每一个候选实体与待补全三元组进行组合得到的多个完整三元组和多个完整三元组的文本信息嵌入向量分别输入文本语义信息模型和嵌入表示学习模型进行信息提取,从而得到每个候选实体的文本语义信息得分值和嵌入表示学习得分值,从文本语义信息和结构信息两个方面得到每个候选实体的总得分值,从而提高了知识图谱补全的准确度。
Description
技术领域
本发明涉及知识图谱补全技术领域,特别涉及一种知识图谱补全方法及相关设备。
背景技术
知识图谱是将现实世界中的概念、实体和相互关系用结构化形式表述出来。随着人工智能和大数据技术的发展,知识图谱因为其良好的搜索性能和较高的存储质量,成为了数据的主流存储方式,知识图谱往往采用三元组<头实体h,关系r,尾实体t>,来表示实体之间的关系,结构性好,直观性强。
虽然目前知识图谱中实体的数量可达数十亿的水平,但大多数的知识图谱都是不完整的,这影响知识图谱的数据质量和整体结构性,导致在以其为基础的下游任务,比如信息检索和推荐系统等领域效率低下且效果不佳,难以发挥其价值。为了缓解这一技术问题,可以利用评分函数计算并对候选实体或关系进行排序,根据知识图谱中现有实体与关系推理出缺失的实体或关系,这一任务被称为知识图谱补全。
面对知识库中内容缺失问题,如果以人工推理的方法补充缺失信息,效率低下,消耗大量的人力财力,特别是面对上亿级的知识库人工手段更显得杯水车薪。如何根据知识图谱中已有事实挖掘出隐含的信息,补充缺失的内容,缓解数据稀疏性与不完整性的问题越来越成为当前研究人员关注的热点。
目前现有技术研究的知识图谱补全方法可以分为两类:基于嵌入的方法和基于文本的方法。基于嵌入的方法将每个实体和方法映射到一个低维向量,不考虑实体描述等辅助信息,如Trans系列方法等;基于文本的方法是从自然语言描述中学习实体和关系的表示,具有归纳学习补全的潜力,但是准确度却不太理想。
发明内容
本发明提供了一种知识图谱补全方法及相关设备,其目的是为了提高知识图谱补全的准确度。
为了达到上述目的,本发明提供了一种知识图谱补全方法,包括:
步骤1,获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,并基于尾实体预测类型描述生成候选实体集;
步骤2,将候选实体集中的每一个候选实体与缺失三元组进行组合,得到多个完整三元组,并将每个完整三元组输入训练后的文本语义信息模型进行语义信息提取,得到每个候选实体的文本语义信息提取结果,并基于文本语义信息提取结果得到每个候选实体的文本语义信息得分值;
步骤3,针对每个完整三元组,获取完整三元组的文本信息嵌入向量,将完整三元组的文本信息嵌入向量作为完整三元组的初始化向量输入训练后的嵌入表示学习模型进行结构信息提取,得到每个候选实体的结构信息提取结果,并基于结构信息提取结果得到每个候选实体的嵌入表示学习得分值;
步骤4,根据每个候选实体的文本语义信息得分值和每个候选实体的嵌入表示学习得分值计算每个候选实体的总得分值,并取所有候选实体中总得分值最高的候选实体作为置信尾实体对待补全知识图谱中的缺失三元组进行补全,得到知识图谱补全结果。
进一步来说,在步骤1之前还包括:
构建训练数据集,训练数据集为由多个正三元组和多个负三元组组成的知识图谱,并获取训练数据集中所有三元组的文本描述;
将训练数据集中所有三元组的文本描述输入文本语义信息模型进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量,第一嵌入向量为预测尾实体的文本语义信息嵌入向量,第二嵌入向量为真实尾实体的文本语义信息嵌入向量;
计算第一嵌入向量和第二嵌入向量之间的余弦相似度,并通过基于余弦相似度计算的第一损失函数对文本语义信息模型进行训练,得到训练后的文本语义信息模型;
将训练数据集中所有三元组的文本描述输入Bert预训练模型进行编码,得到每个三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量;
针对训练数据集中的每个三元组,将三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量作为初始化向量输入嵌入表示学习模型进行结构信息提取,得到头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量,并通过头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量计算三元组得分;
通过基于三元组得分计算的第二损失函数对嵌入表示学习模型进行训练,得到训练后的嵌入表示学习模型。
进一步来说,获取训练数据集中所有三元组的文本描述,包括:
对于所有三元组中的每一个三元组,若三元组中的头实体、关系和尾实体均没有文本描述,则将三元组输入ChatGPT模型进行文本信息处理,生成与三元组中头实体、关系和尾实体一一对应的文本描述;
对于所有三元组中的每一个三元组,若三元组中的头实体或尾实体没有文本描述,则将三元组输入ChatGPT模型进行文本信息处理,生成与关系对应的头实体类型描述和尾实体类型描述,并将头实体类型和尾实体类型描述加入与三元组中头实体、尾实体一一对应的文本描述中。
进一步来说,文本语义信息模型为Bert编码器模型,将训练数据集中所有三元组的文本描述输入Bert编码器模型进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量的表达式为:
其中
表示第一嵌入向量,即预测尾实体的文本语义信息嵌入向量,表示第二嵌入向量,即真实尾实体的文本语义信息嵌入向量,表示通过Bert编码器模型进行编码的表达式,表示池化处理的表达式,表示头实体、关系和预测尾实体类型的文本序列,表示真实尾实体的文本序列,和是特殊标记符号,表示文本描述的开始,表示分隔符或文本描述的结尾,表示头实体的文本描述,表示关系的文本描述,表示尾实体的文本描述,表示尾实体预测类型描述。
进一步来说,计算第一嵌入向量和第二嵌入向量之间的余弦相似度,余弦相似度的表达式为:
基于余弦相似度计算第一损失函数,第一损失函数的表达式为:
其中,表示所有负三元组的集合,表示负三元组,表示加性边距,表示温度参数,表示余弦相似度,即文本语义信息得分值;
通过第一损失函数对文本语义信息模型进行训练,得到训练后的文本语义信息模型。
进一步来说,嵌入表示学习模型为卷积信息传播网络模型;
针对训练数据集中的每个三元组,获取三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量,将三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量作为初始化向量输入卷积信息传播网络模型进行结构信息提取,得到头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量,包括:
设置卷积信息传播网络模型的最大迭代次数为,并初始化当前迭代次数;
对于第次迭代,头实体的嵌入向量为,表示当前头实体的第个邻居实体,表示当前头实体的邻居实体集,表示第个邻居实体的注意力权重,表示上一次迭代中第个邻居实体的嵌入向量,尾实体的嵌入向量为,表示当前尾实体的第个邻居实体,表示当前尾实体的邻居实体集,表示第个邻居实体的注意力权重,表示上一次迭代中第个邻居实体的嵌入向量;
在当前迭代次数已达到最大迭代次数时,输出第次迭代后的头实体的结构信息嵌入向量、尾实体的结构信息嵌入向量;
将第K次迭代后的头实体的结构信息嵌入向量、尾实体的结构信息嵌入向量与初始化向量进行非线性耦合,并将耦合后的向量与类型嵌入向量进行线性激活,得到所述头实体的嵌入向量、所述关系的嵌入向量以及所述尾实体的嵌入向量。
进一步来说,基于三元组得分计算的第二损失函数,第二损失函数的表达式为:
其中,表示知识图谱,表示三元组标签,表示得分函数,,。
进一步来说,根据每个候选实体的文本语义信息得分值和每个候选实体的嵌入表示学习得分值计算每个候选实体的总得分值,总得分值的表达式为:
其中,表示文本语义信息得分值,表示嵌入表示学习得分值,表示得分权重,。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现知识图谱补全方法。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现知识图谱补全方法。
本发明的上述方案有如下的有益效果:
本发明获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,并基于尾实体预测类型描述生成候选实体集;将候选实体集中的每一个候选实体与缺失三元组进行组合,得到多个完整三元组,并将每个完整三元组输入训练后的文本语义信息模型进行语义信息提取,得到每个候选实体的文本语义信息提取结果,并基于文本语义信息提取结果得到每个候选实体的文本语义信息得分值;针对每个完整三元组,获取完整三元组的文本信息嵌入向量,将完整三元组的文本信息嵌入向量作为完整三元组的初始化向量输入训练后的嵌入表示学习模型进行结构信息提取,得到每个候选实体的结构信息提取结果,并基于结构信息提取结果得到每个候选实体的嵌入表示学习得分值;根据每个候选实体的文本语义信息得分值和每个候选实体的嵌入表示学习得分值计算每个候选实体的总得分值,并取所有候选实体中总得分值最高的候选实体作为置信尾实体对待补全知识图谱中的缺失三元组进行补全,得到知识图谱补全结果;通过获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,基于尾实体预测类型描述生成候选实体集来限制候选实体集的生成;将候选实体集中的每一个候选实体与待补全三元组进行组合得到的多个完整三元组和完整三元组的文本信息嵌入向量分别输入文本语义信息模型和嵌入表示学习模型进行信息提取,从而得到每个候选实体的文本语义信息得分值和嵌入表示学习得分值,从文本语义信息和结构信息两个方面得到每个候选实体的总得分值,从而提高了知识图谱补全的准确度。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例中三元组的文本描述示意图;
图3为本发明实施例中三元组的类型描述示意图;
图4为本发明实施例中卷积信息传播网络模型的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明针对现有的问题,提供了一种知识图谱补全方法及相关设备。
如图1所示,本发明的实施例提供了一种知识图谱补全方法,包括:
步骤1,获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,并基于尾实体预测类型描述生成候选实体集;
步骤2,将候选实体集中的每一个候选实体与缺失三元组进行组合,得到多个完整三元组,并将每个完整三元组输入训练后的文本语义信息模型进行语义信息提取,得到每个候选实体的文本语义信息提取结果,并基于文本语义信息提取结果得到每个候选实体的文本语义信息得分值;
步骤3,针对每个完整三元组,获取完整三元组的文本信息嵌入向量,将完整三元组的文本信息嵌入向量作为完整三元组的初始化向量输入训练后的嵌入表示学习模型进行结构信息提取,得到每个候选实体的结构信息提取结果,并基于结构信息提取结果得到每个候选实体的嵌入表示学习得分值;
步骤4,根据每个候选实体的文本语义信息得分值和每个候选实体的嵌入表示学习得分值计算每个候选实体的总得分值,并取所有候选实体中总得分值最高的候选实体作为置信尾实体对待补全知识图谱中的缺失三元组进行补全,得到知识图谱补全结果。
具体来说,在步骤1之前还包括:
构建训练数据集,训练数据集为由多个正三元组和多个负三元组组成的知识图谱,并获取训练数据集中所有三元组的文本描述;
将训练数据集中所有三元组的文本描述输入文本语义信息模型进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量,第一嵌入向量为预测尾实体的文本语义信息嵌入向量,第二嵌入向量为真实尾实体的文本语义信息嵌入向量;
计算第一嵌入向量和第二嵌入向量之间的余弦相似度,并通过基于余弦相似度计算的第一损失函数对文本语义信息模型进行训练,得到训练后的文本语义信息模型;
将训练数据集中所有三元组的文本描述输入Bert预训练模型进行编码,得到每个三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量;
针对训练数据集中的每个三元组,将三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量作为初始化向量输入嵌入表示学习模型进行结构信息提取,得到头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量,并通过头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量计算三元组得分;
通过基于三元组得分计算的第二损失函数对嵌入表示学习模型进行训练,得到训练后的嵌入表示学习模型。
具体来说,构建训练数据集包括:
下载用于训练的知识图谱,知识图谱包括多个正三元组,每个正三元组包括<头实体,关系,尾实体>;
将每个正三元组输入生成对抗网络进行样本扩充,得到多个负三元组;
将所有负三元组加入用于训练的知识图谱,构建训练数据集,训练数据集为由多个正三元组和多个负三元组组成的训练用知识图谱。
在本发明实施例中,下载用于训练的知识图谱(Knowledge Graph,KG),知识图谱由多个三元组组成,其中,表示头实体,表示尾实体,表示头实体与尾实体之间的关系,第个三元组表示为,表示三元组编号,知识图谱中的三元组构成正样本集;
将正样本集中的每个三元组输入到生成对抗网络进行样本扩充,生成个高质量的负三元组,一般取20;
将生成的负三元组与正样本集合并,构建训练数据集,训练数据集为由多个正三元组和多个负三元组组成的训练用知识图谱。
具体来说,将正样本集中的每个三元组输入到生成对抗网络进行样本扩充,生成个高质量的负三元组,包括:
对于每个正三元组添加一个随机扰动,再通过一个两层的全连接层来生成对应负三元组的尾实体;
其中,生成对抗网络中生成器的表达式为:
生成对抗网络中的判别器基于边缘损失函数进行判别:
其中,表示随机扰动,,表示单位矩阵,,维度和嵌入向量的维度相同,表示输入噪声的偏差,表示全连接层的可学习参数的集合,边缘距离参数,T表示正三元组,G表示生成器。
具体来说,获取训练数据集中所有三元组的文本描述,包括:
对于所有三元组中的每一个三元组,若三元组中的头实体、关系和尾实体均没有文本描述,则将三元组输入ChatGPT模型进行文本信息处理,生成与三元组中头实体、关系和尾实体一一对应的文本描述;
对于所有三元组中的每一个三元组,若三元组中的头实体或尾实体没有文本描述,则将三元组输入ChatGPT模型进行文本信息处理,生成与关系对应的头实体类型描述和尾实体类型描述,并将头实体类型和尾实体类型描述加入与三元组中头实体、尾实体一一对应的文本描述中。
在本发明实施例中获取训练数据集中所有三元组的文本描述;具体如图2、图3所示,例如头实体为某大熊猫,关系为吃,尾实体为竹子的文本描述;
对于缺失实体类型描述的三元组,按照“对于三元组<大熊猫,吃,竹子>,请生成关于关系<吃>头实体<大熊猫>和尾实体<竹子>的类型描述”的问题模板输入到ChatGPT模型中进行文本信息处理,得到相应的实体类型描述,在本发明实施例中,获取缺失类型描述的问题模板的表达式如下:
通过三元组的文本描述获取每个三元组的实体类型描述。
对于训练集中每个三元组,按照“对于三元组<大熊猫,吃,?>,请生成关于关系<吃>和头实体<大熊猫>的预测尾实体类型描述”的问题模板输入到ChatGPT模型进行文本信息处理,得到预测尾实体类型描述,在本发明实施例中,问题模板的表达式如下:
其中,表示预测尾实体类型描述。
具体来说,步骤2包括:
通过公式将头实体文本描述和关系文本描述以及预测尾实体类型描述进行拼接后输入文本语义信息模型中进行训练,通过文本语义信息模型中的池化层获取经过预测尾实体类型增强的头实体和关系联合的第一嵌入向量和真实尾实体的第二嵌入向量,第一嵌入向量为预测尾实体的文本语义信息嵌入向量,第二嵌入向量为真实尾实体的文本语义信息嵌入向量。
在本发明实施例中,文本语义信息模型为遵循池化策略的Bert编码器模型,将训练数据集中所有三元组的文本描述输入Bert编码器模型中的池化层进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量的表达式为:
其中
表示第一嵌入向量,即预测尾实体的文本语义信息嵌入向量,表示第二嵌入向量,即真实尾实体的文本语义信息嵌入向量,表示通过Bert编码器模型进行编码的表达式,表示池化处理的表达式,表示头实体、关系和预测尾实体类型的文本序列,表示真实尾实体的文本序列,和是特殊标记符号,表示文本描述的开始,表示分隔符或文本描述的结尾,表示头实体的文本描述,表示关系的文本描述,表示尾实体的文本描述,表示尾实体预测类型描述。
具体来说,计算第一嵌入向量和第二嵌入向量之间的余弦相似度,余弦相似度的表达式为:
其中,为每个三元组的得分函数;
基于余弦相似度计算第一损失函数,第一损失函数的表达式为:
其中,表示所有负三元组的集合,表示负三元组,表示加性边距,表示温度参数,表示余弦相似度,即文本语义信息得分值;
通过第一损失函数对文本语义信息模型进行训练,得到训练后的文本语义信息模型。
具体来说,如图4所示,嵌入表示学习模型为卷积信息传播网络模型;
将训练数据集中所有三元组的文本描述输入Bert预训练模型,格式为:
获取每个三元组的文本信息嵌入向量和类型嵌入向量,表达式为:
;
将文本信息嵌入向量作为训练数据集中每个三元组的初始化向量输入卷积信息传播网络模型进行结构信息提取,得到头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量,包括:
设置卷积信息传播网络模型的最大迭代次数为,并初始化当前迭代次数;
对于第次迭代,头实体的嵌入向量为,表示当前头实体的第个邻居实体,表示当前头实体的邻居实体集,表示第个邻居实体的注意力权重,表示上一次迭代中第个邻居实体的嵌入向量,尾实体的嵌入向量为,表示当前尾实体的第个邻居实体,表示当前尾实体的邻居实体集,表示第个邻居实体的注意力权重,表示上一次迭代中第个邻居实体的嵌入向量;
在当前迭代次数已达到最大迭代次数时,输出第次迭代后的头实体的结构信息嵌入向量、尾实体的结构信息嵌入向量;
将第K次迭代后的头实体的结构信息嵌入向量、尾实体的结构信息嵌入向量与初始化向量进行非线性耦合,得到融合有上下文信息特征的头实体嵌入向量,尾实体嵌入向量,将融合有上下文信息特征的实体嵌入向量与实体类型嵌入向量进行线性激活,得到最终的头尾实体嵌入向量和,线性激活的表达式为:
对于关系嵌入向量,本发明实施例用尾实体类型嵌入向量与头实体类型嵌入向量做向量差得到,然后与关系的语义信息嵌入向量进行拼接,得到最终的关系嵌入向量;
最后通过得分函数计算每个候选实体的嵌入表示学习得分值。
具体来说,基于三元组得分计算的第二损失函数,第二损失函数的表达式为:
其中,表示知识图谱,表示三元组标签,表示得分函数,,。
通过第二损失函数对嵌入表示学习模型进行训练,得到训练后的嵌入表示学习模型。
具体来说,获取邻居实体注意力权值的具体过程如下:
确定头实体和邻居实体之间的关系与三元组关系的之间距离,计算公式为:
其中,为权重矩阵,为偏置参数,为头实体与第个邻居实体之间的关系,表示三元组关系,距离越大,该关系与三元组关系的相似度就越高;
基于邻居实体关系与三元组关系的相似度给邻居实体赋注意力权重,表达式为:
其中,表示第个邻居实体的注意力得分,表示第个头实体与邻居实体之间的关系集合,得分越高,代表第个邻居实体的重要程度越高。
具体来说,在本发明实施例中,获取待补全知识图谱中缺失三元组,并获取缺失三元组中头实体和关系的文本描述,其中尾实体待补全;
用尾实体的预测类型信息作为先验知识筛选候选实体,获取待补全知识图谱中缺失三元组的候选实体集。
将待补全知识图谱中缺失三元组与候选实体集中的每一个候选实体分别重新组成多个完整三元组,并将每个完整三元组输入文本语义信息模型进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量;
通过公式计算第一嵌入向量和第二嵌入向量之间的余弦相似度作为每个候选实体的文本语义信息得分值。
在本发明实施例中,针对每个完整三元组,获取完整三元组的文本信息嵌入向量作为完整三元组的初始化向量输入嵌入表示学习模型进行结构信息提取,得到三元组嵌入向量;
最后通过公式计算每个候选实体的嵌入表示学习得分值。
具体来说,根据每个候选实体的文本语义信息得分值和每个候选实体的嵌入表示学习得分值计算每个候选实体的总得分值,总得分值的表达式为:
其中,表示文本语义信息得分值,表示嵌入表示学习得分值,表示得分权重,。
本发明获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,并基于尾实体预测类型描述生成候选实体集;将候选实体集中的每一个候选实体与缺失三元组进行组合,得到多个完整三元组,并将每个完整三元组输入训练后的文本语义信息模型进行语义信息提取,得到每个候选实体的文本语义信息提取结果,并基于文本语义信息提取结果得到每个候选实体的文本语义信息得分值;针对每个完整三元组,获取完整三元组的文本信息嵌入向量,将完整三元组的文本信息嵌入向量作为完整三元组的初始化向量输入训练后的嵌入表示学习模型进行结构信息提取,得到每个候选实体的结构信息提取结果,并基于结构信息提取结果得到每个候选实体的嵌入表示学习得分值;根据每个候选实体的文本语义信息得分值和每个候选实体的嵌入表示学习得分值计算每个候选实体的总得分值,并取所有候选实体中总得分值最高的候选实体作为置信尾实体对待补全知识图谱中的缺失三元组进行补全,得到知识图谱补全结果;通过获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,基于尾实体预测类型描述生成候选实体集来限制候选实体集的生成;将候选实体集中的每一个候选实体与待补全三元组进行组合得到的多个完整三元组和完整三元组的文本信息嵌入向量分别输入文本语义信息模型和嵌入表示学习模型进行信息提取,从而得到每个候选实体的文本语义信息得分值和嵌入表示学习得分值,从文本语义信息和结构信息两个方面得到每个候选实体的总得分值,从而提高了知识图谱补全的准确度。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现知识图谱补全方法。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述方法实施例中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到构建装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现知识图谱补全方法。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑、服务器、服务器集群及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(CPU,Central Processing Unit),该处理器还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(SMC,Smart Media Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明实施例的方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种知识图谱补全方法,其特征在于,包括:
步骤1,获取待补全知识图谱中缺失三元组的文本描述和尾实体预测类型描述,并基于所述尾实体预测类型描述生成候选实体集;
步骤2,将所述候选实体集中的每一个候选实体与所述缺失三元组进行组合,得到多个完整三元组,并将每个所述完整三元组输入训练后的文本语义信息模型进行语义信息提取,得到每个所述候选实体的文本语义信息提取结果,并基于所述文本语义信息提取结果得到每个所述候选实体的文本语义信息得分值;
步骤3,针对每个所述完整三元组,获取所述完整三元组的文本信息嵌入向量,将所述完整三元组的文本信息嵌入向量作为所述完整三元组的初始化向量输入训练后的嵌入表示学习模型进行结构信息提取,得到每个所述候选实体的结构信息提取结果,并基于所述结构信息提取结果得到每个所述候选实体的嵌入表示学习得分值;
步骤4,根据每个所述候选实体的文本语义信息得分值和每个所述候选实体的嵌入表示学习得分值计算每个所述候选实体的总得分值,并取所有候选实体中总得分值最高的候选实体作为置信尾实体对所述待补全知识图谱中的缺失三元组进行补全,得到知识图谱补全结果。
2.根据权利要求1所述的知识图谱补全方法,其特征在于,在步骤1之前还包括:
构建训练数据集,所述训练数据集为由多个正三元组和多个负三元组组成的知识图谱,并获取所述训练数据集中所有三元组的文本描述;
将所述训练数据集中所有三元组的文本描述输入文本语义信息模型进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量,所述第一嵌入向量为预测尾实体的文本语义信息嵌入向量,所述第二嵌入向量为真实尾实体的文本语义信息嵌入向量;
计算所述第一嵌入向量和所述第二嵌入向量之间的余弦相似度,并通过基于所述余弦相似度计算的第一损失函数对所述文本语义信息模型进行训练,得到训练后的文本语义信息模型;
将所述训练数据集中所有三元组的文本描述输入Bert预训练模型进行编码,得到每个所述三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量;
将针对所述训练数据集中的每个三元组,将所述三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量作为初始化向量输入嵌入表示学习模型进行结构信息提取,得到头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量,并通过所述头实体的嵌入向量、所述关系的嵌入向量以及所述尾实体的嵌入向量计算三元组得分;
通过基于所述三元组得分计算的第二损失函数对所述嵌入表示学习模型进行训练,得到训练后的嵌入表示学习模型。
3.根据权利要求2所述的知识图谱补全方法,其特征在于,所述获取所述训练数据集中所有三元组的文本描述,包括:
对于所有三元组中的每一个三元组,若所述三元组中的头实体、关系和尾实体均没有文本描述,则将所述三元组输入ChatGPT模型进行文本信息处理,生成与所述三元组中头实体、关系和尾实体一一对应的文本描述;
对于所有三元组中的每一个三元组,若所述三元组中的头实体或尾实体没有文本描述,则将所述三元组输入ChatGPT模型进行文本信息处理,生成与关系对应的头实体类型描述和尾实体类型描述,并将所述头实体类型和所述尾实体类型描述加入与所述三元组中头实体、尾实体一一对应的文本描述中。
4.根据权利要求3所述的知识图谱补全方法,其特征在于,所述文本语义信息模型为Bert编码器模型,将所述训练数据集中所有三元组的文本描述输入Bert编码器模型进行文本语义信息提取,得到第一嵌入向量和第二嵌入向量的表达式为:
其中
表示第一嵌入向量,即预测尾实体的文本语义信息嵌入向量,表示第二嵌入向量,即真实尾实体的文本语义信息嵌入向量,表示通过Bert编码器模型进行编码的表达式,表示池化处理的表达式,表示头实体、关系和预测尾实体类型的文本序列,表示真实尾实体的文本序列,和是特殊标记符号,表示文本描述的开始,表示分隔符或文本描述的结尾,表示头实体的文本描述,表示关系的文本描述,表示尾实体的文本描述,表示尾实体预测类型描述。
5.根据权利要求4所述的知识图谱补全方法,其特征在于,所述步骤3包括:
计算所述第一嵌入向量和所述第二嵌入向量之间的余弦相似度,所述余弦相似度的表达式为:
基于所述余弦相似度计算第一损失函数,所述第一损失函数的表达式为:
其中,表示所有负三元组的集合,表示负三元组,表示加性边距,表示温度参数,表示余弦相似度,即文本语义信息得分值;
通过所述第一损失函数对所述文本语义信息模型进行训练,得到训练后的文本语义信息模型。
6.根据权利要求5所述的知识图谱补全方法,其特征在于,
所述嵌入表示学习模型为卷积信息传播网络模型;
针对所述训练数据集中的每个三元组,获取所述三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量,将所述三元组的语义信息嵌入向量、头实体的类型嵌入向量和尾实体的类型嵌入向量作为初始化向量输入卷积信息传播网络模型进行结构信息提取,得到头实体的嵌入向量、关系的嵌入向量以及尾实体的嵌入向量,包括:
设置所述卷积信息传播网络模型的最大迭代次数为,并初始化当前迭代次数;
对于第次迭代,所述头实体的嵌入向量为,表示当前头实体的第个邻居实体,表示当前头实体的邻居实体集,表示第个邻居实体的注意力权重,表示上一次迭代中第个邻居实体的嵌入向量,所述尾实体的嵌入向量为,表示当前尾实体的第个邻居实体,表示当前尾实体的邻居实体集,表示第个邻居实体的注意力权重,表示上一次迭代中第个邻居实体的嵌入向量;
在当前迭代次数已达到最大迭代次数时,输出第次迭代后的头实体的结构信息嵌入向量、尾实体的结构信息嵌入向量;
将第K次迭代后的头实体的结构信息嵌入向量、尾实体的结构信息嵌入向量与初始化向量进行非线性耦合,并将耦合后的向量与类型嵌入向量进行线性激活,得到所述头实体的嵌入向量、所述关系的嵌入向量以及所述尾实体的嵌入向量。
7.根据权利要求6所述的知识图谱补全方法,其特征在于,基于所述三元组得分计算的第二损失函数,所述第二损失函数的表达式为:
其中,表示知识图谱,表示三元组标签,表示得分函数,,。
8.根据权利要求7所述的知识图谱补全方法,其特征在于,根据每个所述候选实体的文本语义信息得分值和每个所述候选实体的嵌入表示学习得分值计算每个所述候选实体的总得分值,所述总得分值的表达式为:
其中,表示文本语义信息得分值,表示嵌入表示学习得分值,表示得分权重,。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当该计算机程序被处理器执行时,实现如权利要求1至8任一项所述的知识图谱补全方法。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的知识图谱补全方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410704741.1A CN118278519B (zh) | 2024-06-03 | 2024-06-03 | 一种知识图谱补全方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410704741.1A CN118278519B (zh) | 2024-06-03 | 2024-06-03 | 一种知识图谱补全方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118278519A true CN118278519A (zh) | 2024-07-02 |
CN118278519B CN118278519B (zh) | 2024-09-17 |
Family
ID=91634422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410704741.1A Active CN118278519B (zh) | 2024-06-03 | 2024-06-03 | 一种知识图谱补全方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118278519B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022108206A1 (ko) * | 2020-11-19 | 2022-05-27 | 숭실대학교산학협력단 | 설명 가능한 지식그래프 완성 방법 및 장치 |
WO2023115761A1 (zh) * | 2021-12-20 | 2023-06-29 | 北京邮电大学 | 基于时序知识图谱的事件检测方法和装置 |
CN117273134A (zh) * | 2023-09-28 | 2023-12-22 | 东南大学 | 一种基于预训练语言模型的零样本知识图谱补全方法 |
CN117371525A (zh) * | 2023-10-12 | 2024-01-09 | 南京邮电大学 | 一种融合实体描述的常见病知识图谱链接预测方法 |
CN117892807A (zh) * | 2024-01-11 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于预训练语言模型提示微调的开放知识图谱补全方法、装置 |
CN117951308A (zh) * | 2024-01-31 | 2024-04-30 | 中国农业银行股份有限公司 | 一种零样本知识图谱补全方法及装置 |
-
2024
- 2024-06-03 CN CN202410704741.1A patent/CN118278519B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022108206A1 (ko) * | 2020-11-19 | 2022-05-27 | 숭실대학교산학협력단 | 설명 가능한 지식그래프 완성 방법 및 장치 |
WO2023115761A1 (zh) * | 2021-12-20 | 2023-06-29 | 北京邮电大学 | 基于时序知识图谱的事件检测方法和装置 |
CN117273134A (zh) * | 2023-09-28 | 2023-12-22 | 东南大学 | 一种基于预训练语言模型的零样本知识图谱补全方法 |
CN117371525A (zh) * | 2023-10-12 | 2024-01-09 | 南京邮电大学 | 一种融合实体描述的常见病知识图谱链接预测方法 |
CN117892807A (zh) * | 2024-01-11 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于预训练语言模型提示微调的开放知识图谱补全方法、装置 |
CN117951308A (zh) * | 2024-01-31 | 2024-04-30 | 中国农业银行股份有限公司 | 一种零样本知识图谱补全方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN118278519B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929161B (zh) | 一种面向大规模用户的个性化教学资源推荐方法 | |
CN110609916A (zh) | 视频图像数据检索方法、装置、设备和存储介质 | |
CN111275107A (zh) | 一种基于迁移学习的多标签场景图像分类方法及装置 | |
CN113140018B (zh) | 训练对抗网络模型的方法、建立字库的方法、装置和设备 | |
WO2021056710A1 (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN105512289A (zh) | 基于深度学习和哈希的图像检索方法 | |
CN114329109B (zh) | 基于弱监督哈希学习的多模态检索方法及系统 | |
CN111563192A (zh) | 实体对齐方法、装置、电子设备及存储介质 | |
Ren et al. | Prompt pre-training with twenty-thousand classes for open-vocabulary visual recognition | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN113157886A (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN116310385A (zh) | 3d点云数据中的单一数据集域泛化方法 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
CN113033410B (zh) | 基于自动数据增强的域泛化行人重识别方法、系统及介质 | |
CN111368552B (zh) | 一种面向特定领域的网络用户群组划分方法及装置 | |
CN117312559A (zh) | 基于树结构信息感知的方面级情感四元组抽取方法及系统 | |
CN118278519B (zh) | 一种知识图谱补全方法及相关设备 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN115630304A (zh) | 一种文本抽取任务中的事件分割抽取方法及系统 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN115423105A (zh) | 一种预训练语言模型构建方法、系统及装置 | |
CN111507098B (zh) | 多义词识别方法、装置、电子设备及计算机可读存储介质 | |
CN111275201A (zh) | 一种基于子图划分的图半监督学习的分布式实现方法 | |
US20230129870A1 (en) | Method, apparatus, electronic device and medium for training models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |