CN115129884A - 基于语义交互匹配网络的知识图谱补全方法及系统 - Google Patents

基于语义交互匹配网络的知识图谱补全方法及系统 Download PDF

Info

Publication number
CN115129884A
CN115129884A CN202210605631.0A CN202210605631A CN115129884A CN 115129884 A CN115129884 A CN 115129884A CN 202210605631 A CN202210605631 A CN 202210605631A CN 115129884 A CN115129884 A CN 115129884A
Authority
CN
China
Prior art keywords
graph
sub
triple
knowledge
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210605631.0A
Other languages
English (en)
Inventor
王禄恒
付培国
孙立远
赵志云
葛自发
孙小宁
万欣欣
李欣
袁钟怡
王晴
杜宛真
谢祎
朱家祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202210605631.0A priority Critical patent/CN115129884A/zh
Publication of CN115129884A publication Critical patent/CN115129884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于语义交互匹配网络的知识图谱补全方法,其包括以下步骤:S1、将数据集划分为训练子集、验证子集和测试子集;S2、设定初始参数K、θ1、θ2;S3、构建支持集、查询集和负样本集;S4、获取第一子图表示、第二子图表示和第三子图表示;S5、计算得相似度得分一和相似度得分二;S6、计算损失函数值L;S7、获取知识谱图补全模型;S8、将补全信息补入至待补全的知识图谱中。本发明通过捕获实体邻居之间的语义交互来增强实体表示,实现了对小样本数据的知识图谱的补全工作,并取得了较好的成果,大大提升了知识图谱补全技术的泛用性、可拓展性,促进了知识图谱在当前尚不完善的特定领域的普及。

Description

基于语义交互匹配网络的知识图谱补全方法及系统
技术领域
本发明涉及知识图谱补全的技术领域。更具体地说,本发明涉及一种基于语义交互匹配网络的知识图谱补全方法及系统。
背景技术
知识图谱是一种大规模语义网络知识库。作为一种典型的结构化数据表示形式,它本质上是一个由所链接的实体和实体之间的关系组成的语义网络。它采取符号化的知识表示方式,利用[头实体、关系、尾实体]三元组来描述具体的知识,并以有向图的形式对其进行表示和存储。由于其在表达人类先验知识时具有语义丰富、结构友好、易于理解等优良特性,知识图谱近年来在自然语言处理、智能问答、推荐系统、预测系统、信息提取系统等多个领域取得了广泛且成功的应用。
为了大力支持知识图谱推理任务,知识图谱的广泛应用与优异成果也对知识图谱补全技术,特别是在训练数据稀缺情况下的补全技术提出了迫切要求。
由于知识图谱的不完整性,知识图谱补全任务的目标是寻找缺失的事实。知识图谱补全的初步研究主要依靠知识图谱嵌入模块将每个实体和关系嵌入到低维向量空间。这样,所有的实体和关系都可以将它们的语义表示为连续的向量空间。最著名的TransE模型、TransH模型试图通过将实体投影到具有特定关系的超平面上来处理不同关系中实体的不同角色。TransR提出将实体投影到具有特定关系的空间上,而不是投射到超平面上。此外,RESCAL模型给每个实体分配一个向量,给每个关系分配一个矩阵,然后使用双线性评分函数来捕获头尾实体对中的潜在语义。近年来,一些工作使用卷积神经网络来定义打分函数。由于知识图谱也是一种图结构的数据,最近也有一些工作将应用图神经网络进行知识图谱嵌入工作。然而,上述方法都需要足够的训练数据,因为少数训练样本不足以捕获这些模型的语义意义,在小样本场景中可能会导致性能受到严重限制。
对于许多真实场景来说,收集、标记数据是耗时耗力的。这也导致了一些如石油、能源、工业、医疗、司法等针对具体任务时,高质量的标注样本极度稀缺的特定领域的知识图谱所包含的信息并不完善,样本数据稀缺。在处理这样的任务时,主流的各种知识图谱补全技术很难取得良好的结果。随着小样本学习技术的发展,虽然小样本学习工具为了解决这一挑战已经付出了大量的努力,但它们主要集中在简单地聚合实体邻居来表示小样本参考,而增强邻居内部的潜在语义相关性在很大程度上被忽略了。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于语义交互匹配网络的知识图谱补全方法,其通过捕获实体邻居之间的语义交互来增强实体表示,实现了对小样本数据的知识图谱的补全工作,并取得了较好的成果,大大提升了知识图谱补全技术的泛用性、可拓展性,促进了知识图谱在当前尚不完善的特定领域的普及。
为了实现根据本发明的这些目的和其它优点,提供了一种基于语义交互匹配网络的知识图谱补全方法,其包括以下步骤:
S1、将知识图谱数据集划分为训练子集、验证子集和测试子集;
S2、设定初始参数K、θ1、θ2;K为支持集大小;θ1为交互式子图编码器的学习参数;θ2为交互式匹配处理器的学习参数;
S3、基于数据集分别构建支持集、查询集和负样本集;
S4、将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示;
S5、将第一子图表示和第二子图表示输入至交互式匹配处理器中,计算得相似度得分一;第一子图表示和第三子图表示输入至交互式匹配处理器中,计算得相似度得分二;
S6、引入损失函数,基于测试子集、相似度得分一和相似度得分二计算损失函数值L;基于训练子集根据梯度下降法更新参数θ1、θ2;基于验证子集更新参数K;
S7、重复S3~S6,直至训练过程结束,得到知识谱图补全模型;
S8、将待补全的知识图谱输入至知识图谱补全模型中,最高分数对应的三元组为补全信息,将补全信息补入至待补全的知识图谱中。
优选的是,所述的基于语义交互匹配网络的知识图谱补全方法,步骤S3具体为:
从训练子集中抽取一个数据集并从该数据集中抽取K个三元组形成支持集,该数据集中剩余的三元组形成查询集;对于查询集中的任一三元组,在数据集的尾实体字典中查询与该三元组的尾实体不一致的其中一个尾实体,并将查询到的尾实体替换成该三元组的尾实体,用经过尾实体替换的三元组构建得负样本集。
优选的是,所述的基于语义交互匹配网络的知识图谱补全方法,步骤S4具体为:
对于支持集中任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第一子图表示;
对于查询集中的任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第二子图表示;
对于负样本集中的任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第三子图表示。
优选的是,所述的基于语义交互匹配网络的知识图谱补全方法,步骤S6中损失函数表达式为:
Figure BDA0003671178730000031
其中为Q- r为负样本集,Qr为查询集,
Figure BDA0003671178730000032
为负样本集的三元组;
Figure BDA0003671178730000033
为查询集的三元组;Sr为支持集;r是分隔查询集与负样本集的边界。
本发明还提供一种基于语义交互匹配网络的知识图谱补全系统,其包括:
数据预处理模块,其用于将数据集划分为训练子集、验证子集和测试子集;
参数设定模块,其用于设定初始参数K、θ1、θ2;K为支持集大小;θ1为交互式子图编码器的学习参数;θ2为交互式匹配处理器的学习参数;
文本生成模块,其用于基于数据集分别构建支持集、查询集和负样本集;
编码器转换模块,其用于将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示;
匹配处理器转换模块,其用于将第一子图表示和第二子图表示输入至交互式匹配处理器中,计算得相似度得分一;第一子图表示和第三子图表示输入至交互式匹配处理器中,计算得相似度得分二;
参数更新模块,其用于引入损失函数,基于测试子集、相似度得分一和相似度得分二计算损失函数值L;基于训练子集根据梯度下降法更新参数θ1、θ2;基于验证子集更新参数K;
模型构建模块,其用于对每个三元组进行训练,直至训练过程结束,得到知识谱图补全模型;
测试模块,其用于将待补全的知识图谱输入至知识图谱补全模型中,最高分数对应的三元组为补全信息,将补全信息补入至待补全的知识图谱中。
本发明还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的方法。
本发明还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的方法。
本发明至少包括以下有益效果:
1、本发明通过引入交互式子图编码器和交互式匹配处理器,实现了对小样本数据的知识图谱的补全工作,并取得了较好的成果。这一技术大大提升了知识图谱补全技术的泛用性、可拓展性,促进了知识图谱在当前尚不完善的特定领域(包括但不限于石油、能源、工业、医疗、司法等针对具体任务时,高质量的标注样本极度稀缺的领域)的普及;
2、本发明提出了一个性能良好、差异化隐私的分层跨域知识协同推演框架,考虑了实体邻居和支持集之间的交互,来捕获细粒度的语义意义,从而更好地表示了实体和小样本关系;为了充分利用知识图谱上的关系,本发明使用交互启发的关系嵌入来增强邻居的表示,并使用交互式子图编码器和交互式子图匹配处理器的转换器来捕获社区内的交互,以获得更好的语义;本发明使用转换器(来进行建模,将邻居间的可能构建表示的语义交互作用考虑在内。由于本发明不使用位置编码,所以它对于邻居表示是顺序不变的。因此,转换器可以学习如何与任意顺序的嵌入进行交互,而不是捕获与位置相关的特征。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明所述的基于语义交互匹配网络的知识图谱补全方法的流程示意图;
图2为本发明转换器的架构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。
在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示,本发明提供一种基于语义交互匹配网络的知识图谱补全方法,其包括以下步骤:
S1、将知识图谱数据集(从百度百科或维基百科等网站中下载的知识图谱文本信息提取整理得到数据集)划分为训练子集、验证子集和测试子集;
S2、设定初始参数K、θ1、θ2;K为支持集大小;θ1为交互式子图编码器的学习参数;θ2为交互式匹配处理器的学习参数;
S3、基于数据集分别构建支持集、查询集和负样本集:从训练子集中抽取一个数据集并从该数据集中抽取K个三元组形成支持集,该数据集中剩余的三元组形成查询集;对于查询集中的任一三元组,在数据集的尾实体字典中查询与该三元组的尾实体不一致的其中一个尾实体,并将查询到的尾实体替换成该三元组的尾实体,用经过尾实体替换的三元组构建得负样本集;负样本构造的具体过程:对于查询集中的一个三元组T,其尾实体为Tt,在数据集的尾实体字典中随机获取一个与Tt不同的尾实体Xt,来替换掉T的尾实体Tt
S4、将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示:
对于支持集中任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第一子图表示;
对于查询集中的任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第二子图表示;
对于负样本集中的任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第三子图表示;
S5、将第一子图表示和第二子图表示输入至交互式匹配处理器中,计算得相似度得分一;第一子图表示和第三子图表示输入至交互式匹配处理器中,计算得相似度得分二;
S6、引入损失函数,基于测试子集、相似度得分一和相似度得分二计算损失函数值L;基于训练子集根据梯度下降法更新参数θ1、θ2;基于验证子集更新参数K;
损失函数表达式为:
Figure BDA0003671178730000061
其中为Q- r为负样本集,Qr为查询集,
Figure BDA0003671178730000062
为负样本集的三元组;
Figure BDA0003671178730000063
为查询集的三元组;Sr为支持集;r是分隔查询集与负样本集的边界;
S7、重复S3~S6,直至训练过程结束,得到知识谱图补全模型;
S8、将待补全的知识图谱输入至知识图谱补全模型中,最高分数对应的三元组为补全信息,将补全信息补入至待补全的知识图谱中。
在上述技术方案中,本发明提出了一种新的小样本学习方案,即语义交互匹配网络,增强邻居内部的潜在语义相关性,进而获得更加全面的补全信息。该方案通过捕获实体邻居之间的语义交互来增强实体表示。具体来说,本发明将所有的任务分为三个子集:训练子集、验证子集和测试子集。这三个子集之间不存在重叠,即这三个集合的交集为空集,这就保证了小样本关系不会在不同的过程中重复出现。
为了充分利用训练集,对于训练子集中的每个任务Tr,本发明从任务Tr的所有三元组中随机抽取K个三元组作为支持集Sr,并将未被抽到的三元组作为查询集Qr。对于不同的训练时期,任务Tr的支持集Sr的选取是一个动态采样过程。
交互式子图编码器和交互式子图匹配处理器分别包括一个转换器,转换器的架构如图2所示;
本发明采用了Query-Key-Value注意力机制,对于一组矩阵,
Figure BDA0003671178730000064
点积注意力可以计算为:
Figure BDA0003671178730000065
其中,N是查询的长度,M是键的长度,dk是键的维度,dv是值的维度。与单头注意力不同,多头注意力能够关注来自不同子空间的信息:
MultiHeadAttn(Q,K,V)=Concat(head1,…,headH)WO
Figure BDA0003671178730000071
其中,
Figure BDA0003671178730000072
and
Figure BDA0003671178730000073
是投影矩阵。H为注意力头数,dmodel表示输入标记嵌入的维数。在转换器的编码器中,我们将Q、K、V均设置为输入嵌入x,称为自注意力。
位置级前馈网络(FFN):由两个线性层和ReLU激活函数组成:
FFN(x)=ReLU(xW1+b1)W2+b2
其中,W1、b1、W2、b2是可学习参数。
残差连接和规范化:将转换器的编码器层表示如下:
H′=LayerNorm(SelfAttention(x)+x),
H=LayerNorm(FFN(H′)+H′),
其中SelfAttention()表示自注意力模块;LayerNorm()表示层归一化操作;FFN()表示位置级前馈网络。
本发明设计一个交互式子图编码器,旨在将实体诱导的子图编码成一个向量表示;设计一个交互式匹配处理器,用以学习支持集和查询样本之间的交互式表示,支持集和负样本集之间的交互式表示,并进一步精确计算查询样本、负样本集的相似得分;实际上本发明用合并的关系表示法对三元组的头邻居和尾邻居(头邻居为三元组前面的一个三元组,尾邻居为排在三元组后面的一个三元组)进行自适应编码,按照这样的方法,转换器层被集成起来,用以捕获邻居内部的潜在相关性与支持集的语义多样性,最后利用注意力机制估计出相似度得分;
(1)交互式子图编码器的作用原理如下:
步骤一:对从支持集/查询集/负样本集中取出的一个三元组用e表示,作为与其邻居交互的标记之一。对于给定的小样本关系r的三元组(h,r,t),将三元组e的一阶邻居表示为Ne={(re i,ne i)},其中e∈{h,t},re i是连接着三元组e与其邻居ne i的关系。因为关系可以反映实体之间的语义连接,所以本发明将关系re i与邻居ne i具体化为邻域表示hne i,它可以表述为:
Figure BDA0003671178730000081
其中,σ()表示激活函数,Ene i、Rne i分别是邻居ne i与连接着三元组e与其邻居ne i的关系re i的嵌入。⊕是连接操作,W1是一个可学习变换矩阵,b1是一个可学习偏差向量。
步骤二:为了获得特定任务关系,本发明构建了任务关系的嵌入并进一步细化了相对关系,将其表述为:
Figure BDA0003671178730000082
其中,Eh和Et分别为头邻居和尾邻居的嵌入,W2和b2为有偏差的线性层的可训练参数。于是,将具有相对关系的三元组e的代表表述为:
Figure BDA0003671178730000083
这样,三元组e、其邻居Ne以及他们之间的关系均被编码到向量中。
步骤三:本发明使用转换器来进行建模。多头自注意力(Multi-head self-attention)方案允许转换器捕获潜在的隐藏状态的不同方面。本发明将he
Figure BDA0003671178730000084
共同看作一个集合,将转换器看作一个集合到集合的函数映射。本发明将第一个输入嵌入设置为he,其余输入嵌入依次设置为
Figure BDA0003671178730000085
由于本发明不使用位置编码,所以邻居表示顺序是不变的。因此,转换器可以学习与任意顺序的嵌入进行交互,而不是捕获与位置相关的特征。第l个转换器层的隐藏状态表示为
Figure BDA0003671178730000086
其下标i∈{0,1,2,…,|Ne|}表示隐藏状态的索引。也可以将其表述为:
zl=Transformer(zl-1),
Figure BDA0003671178730000087
其中l=1,2,…,L,代表转换器层数,z0为第一层转换器的输入。
步骤四:聚合交互式隐藏状态,得到子图表示:
Figure BDA0003671178730000091
Figure BDA0003671178730000092
其中,z’e表示转换器在最后一个隐藏状态上的平均池化。z0 L是实体e的最后一个隐藏状态,W3和W4是可学习的线性层矩阵,b3和b4是偏置向量。oe是子图的最终表示。
步骤五:对于给定的三元组(h,r,t),可以得到两个子图表示,即oh和ot,分别对应于头邻居子图和尾邻居子图。进一步将oh与ot结合,作为三元组的表示,计算结果为:
Figure BDA0003671178730000093
其中,其中W5为权重矩阵,b5为偏置向量。p表示基于给定三元体的小样本关系r的语义。
(2)交互式匹配处理器的作用原理如下:
本发明应用了另一个转换器(交互式子图匹配处理器)来捕捉查询示例和支持集的多样化信息。在本发明中,一项任务Tr由一个查询集Qr和一个支持集Sr组成。以Qr中的一个查询示例
Figure BDA0003671178730000094
为例,交互式匹配处理器详细工作步骤如下:
步骤A:对于给定的查询示例
Figure BDA0003671178730000095
和支持集
Figure BDA0003671178730000096
在交互式子图编码器中计算出其子图表示pq
Figure BDA0003671178730000097
步骤B:计算变压器的隐藏状态ci,i表示对c的索引:
c=Transformer(c0),
Figure BDA0003671178730000098
其中,c0是变压器的输入端。由于不同的支持示例包含少镜头关系的不同语义意义,有必要集中注意力于聚合支持集。
步骤C:将si的注意力得分表述为:
Figure BDA0003671178730000101
Figure BDA0003671178730000102
其中,αi是注意力分数,π()是一个度量函数,本模型中使用点积。D(c0)表示隐藏状态的维数。
步骤D:计算出关系r的注意原型(attentional prototype):
Figure BDA0003671178730000103
步骤E:估计出查询样本的相似度得分:
Figure BDA0003671178730000104
其中,π()与步骤三中的度量函数π()相同。
同理计算得到负样本集的相似度得分,只需要将上述查询集替换为负样本集,在交互式匹配处理器中计算出的相似度得分即为负样本集的相似度得分。
本发明还提供一种基于语义交互匹配网络的知识图谱补全系统,其包括:
数据预处理模块,其用于将数据集划分为训练子集、验证子集和测试子集;
参数设定模块,其用于设定初始参数K、θ1、θ2;K为支持集大小;θ1为交互式子图编码器的学习参数;θ2为交互式匹配处理器的学习参数;
文本生成模块,其用于基于数据集分别构建支持集、查询集和负样本集;
编码器转换模块,其用于将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示;
匹配处理器转换模块,其用于将第一子图表示和第二子图表示输入至交互式匹配处理器中,计算得相似度得分一;第一子图表示和第三子图表示输入至交互式匹配处理器中,计算得相似度得分二;
参数更新模块,其用于引入损失函数,基于测试子集、相似度得分一和相似度得分二计算损失函数值L;基于训练子集根据梯度下降法更新参数θ1、θ2;基于验证子集更新参数K;
模型构建模块,其用于对每个三元组进行训练,直至训练过程结束,得到知识谱图补全模型;
测试模块,其用于将待补全的知识图谱输入至知识图谱补全模型中,最高分数对应的三元组为补全信息,将补全信息补入至待补全的知识图谱中。
本发明巧妙地应用了两个转换模块(交互式子图编码器和交互式子图匹配处理器)进行交互式子图编码与交互式匹配处理,实现了对小样本数据的知识图谱的补全工作,并取得了较好的成果。这一技术大大提升了知识图谱补全技术的泛用性、可拓展性,促进了知识图谱在当前尚不完善的特定领域的普及。
本发明还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的方法。
本发明还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的方法。
<实施例1>
以石油领域为例对本发明作进一步的说明:
背景介绍:1、原油按其相对密度可以分为轻质原油、中质原油、重质原油与特重原油。2、轻质原油指相对密度小于0.870的原油,其色浅,含油质多,沥青质少。3、重质原油指相对密度介于0.920~1.000之间的原油,其色深,富含胶质和沥青质,汽油含量较少。4、特重原油指相对密度大于1.000的原油。
从(维基百科或百度百科等网站中)下载知识图谱,并获取(不完整的)三元组:<原油,按相对密度分类,轻质原油、中质原油、重质原油、特重原油><轻质原油,相对密度,小于0.870><轻质原油,颜色,浅><轻质原油,汽油含量,多><轻质原油,沥青质含量,少><中质原油,相对密度,?><中质原油,颜色,?><中质原油,汽油含量,?><中质原油,沥青质含量,?><重质原油,相对密度,介于0.920~1.000之间><重质原油,颜色,深><重质原油,汽油含量,较少><重质原油,沥青质含量,多><特重原油,相对密度,大于1.000><特重原油,颜色,?><特重原油,汽油含量,?><特重原油,沥青质含量,?>;
将上述待补全的三元组知识图谱数据集输入至本发明的知识图谱补全系统中,利用本发明的知识图谱补全方法进行知识图谱补全后得到的补全信息:<特重原油,颜色,很深><特重原油,汽油含量,少><特重原油,沥青质含量,很多>;相对于现有技术,本发明能够通过聚合邻居间的语义信息还获得的额外的补全信息:<中质原油,相对密度,介于0.870~0.920之间><中质原油,颜色,中等深浅><中质原油,汽油含量,较多><中质原油,沥青质含量,中等>。
本发明的技术方案将邻居间的语义信息也考虑在内,得到补全信息与现有其他知识图谱补全方案相比,能够收获更多的补全信息,并具有更高的补全信息准确率;这也使得本发明的知识图谱补全方案能够应用于石油、能源、工业、医疗、司法等针对具体任务时,高质量的标注样本极度稀缺的领域,并取得良好结果。
这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (7)

1.基于语义交互匹配网络的知识图谱补全方法,其特征在于,包括以下步骤:
S1、将知识图谱数据集划分为训练子集、验证子集和测试子集;
S2、设定初始参数K、θ1、θ2;K为支持集大小;θ1为交互式子图编码器的学习参数;θ2为交互式匹配处理器的学习参数;
S3、基于数据集分别构建支持集、查询集和负样本集;
S4、将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示;
S5、将第一子图表示和第二子图表示输入至交互式匹配处理器中,计算得相似度得分一;第一子图表示和第三子图表示输入至交互式匹配处理器中,计算得相似度得分二;
S6、引入损失函数,基于测试子集、相似度得分一和相似度得分二计算损失函数值L;基于训练子集根据梯度下降法更新参数θ1、θ2;基于验证子集更新参数K;
S7、重复S3~S6,直至训练过程结束,得到知识谱图补全模型;
S8、将待补全的知识图谱输入至知识图谱补全模型中,最高分数对应的三元组为补全信息,将补全信息补入至待补全的知识图谱中。
2.如权利要求1所述的基于语义交互匹配网络的知识图谱补全方法,其特征在于,步骤S3具体为:
从训练子集中抽取一个数据集并从该数据集中抽取K个三元组形成支持集,该数据集中剩余的三元组形成查询集;对于查询集中的任一三元组,在数据集的尾实体字典中查询与该三元组的尾实体不一致的其中一个尾实体,并将查询到的尾实体替换成该三元组的尾实体,用经过尾实体替换的三元组构建得负样本集。
3.如权利要求2所述的基于语义交互匹配网络的知识图谱补全方法,其特征在于,步骤S4具体为:
对于支持集中任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第一子图表示;
对于查询集中的任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第二子图表示;
对于负样本集中的任一三元组,查找其一阶头邻居与尾邻居,并将二者输入至交互式子图编码器中获得该三元组对应的第三子图表示。
4.如权利要求3所述的基于语义交互匹配网络的知识图谱补全方法,其特征在于,步骤S6中损失函数表达式为:
Figure FDA0003671178720000021
其中为Q- r为负样本集,Qr为查询集,
Figure FDA0003671178720000022
为负样本集的三元组;
Figure FDA0003671178720000023
为查询集的三元组;Sr为支持集;r是分隔查询集与负样本集的边界。
5.基于语义交互匹配网络的知识图谱补全系统,其特征在于,包括:
数据预处理模块,其用于将数据集划分为训练子集、验证子集和测试子集;
参数设定模块,其用于设定初始参数K、θ1、θ2;K为支持集大小;θ1为交互式子图编码器的学习参数;θ2为交互式匹配处理器的学习参数;
文本生成模块,其用于基于数据集分别构建支持集、查询集和负样本集;
编码器转换模块,其用于将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示;
匹配处理器转换模块,其用于将第一子图表示和第二子图表示输入至交互式匹配处理器中,计算得相似度得分一;第一子图表示和第三子图表示输入至交互式匹配处理器中,计算得相似度得分二;
参数更新模块,其用于引入损失函数,基于测试子集、相似度得分一和相似度得分二计算损失函数值L;基于训练子集根据梯度下降法更新参数θ1、θ2;基于验证子集更新参数K;
模型构建模块,其用于对每个三元组进行训练,直至训练过程结束,得到知识谱图补全模型;
测试模块,其用于将待补全的知识图谱输入至知识图谱补全模型中,最高分数对应的三元组为补全信息,将补全信息补入至待补全的知识图谱中。
6.电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1~4中任一项所述的方法。
7.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1~4中任一项所述的方法。
CN202210605631.0A 2022-05-31 2022-05-31 基于语义交互匹配网络的知识图谱补全方法及系统 Pending CN115129884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210605631.0A CN115129884A (zh) 2022-05-31 2022-05-31 基于语义交互匹配网络的知识图谱补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210605631.0A CN115129884A (zh) 2022-05-31 2022-05-31 基于语义交互匹配网络的知识图谱补全方法及系统

Publications (1)

Publication Number Publication Date
CN115129884A true CN115129884A (zh) 2022-09-30

Family

ID=83377746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210605631.0A Pending CN115129884A (zh) 2022-05-31 2022-05-31 基于语义交互匹配网络的知识图谱补全方法及系统

Country Status (1)

Country Link
CN (1) CN115129884A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905569A (zh) * 2022-11-21 2023-04-04 之江实验室 一种基于节点自适应的小样本知识图谱补全方法和装置
CN116386148A (zh) * 2023-05-30 2023-07-04 国网江西省电力有限公司超高压分公司 基于知识图谱引导的小样本动作识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905569A (zh) * 2022-11-21 2023-04-04 之江实验室 一种基于节点自适应的小样本知识图谱补全方法和装置
CN115905569B (zh) * 2022-11-21 2023-11-17 之江实验室 一种基于节点自适应的小样本知识图谱补全方法和装置
CN116386148A (zh) * 2023-05-30 2023-07-04 国网江西省电力有限公司超高压分公司 基于知识图谱引导的小样本动作识别方法及系统
CN116386148B (zh) * 2023-05-30 2023-08-11 国网江西省电力有限公司超高压分公司 基于知识图谱引导的小样本动作识别方法及系统

Similar Documents

Publication Publication Date Title
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN115129884A (zh) 基于语义交互匹配网络的知识图谱补全方法及系统
CN112633010A (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112015868A (zh) 基于知识图谱补全的问答方法
CN113254782B (zh) 问答社区专家推荐方法及系统
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN112667824B (zh) 基于多语义学习的知识图谱补全方法
CN111079665A (zh) 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法
CN113764037A (zh) 模型训练、抗体改造和结合位点预测的方法与装置
CN116450877A (zh) 一种基于语义选择与层次对齐的图像文本匹配方法
CN112699215A (zh) 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN115658886A (zh) 基于语义文本的智能肝癌分期方法、系统及介质
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
López-Cifuentes et al. Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
Jiang et al. Hadamard product perceptron attention for image captioning
CN109344309A (zh) 基于卷积神经网络堆叠泛化的文档图像分类方法和系统
Hu et al. Towards facial de-expression and expression recognition in the wild
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法
CN115455162A (zh) 层次胶囊与多视图信息融合的答案句子选择方法与装置
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination