CN115129884A

CN115129884A - 基于语义交互匹配网络的知识图谱补全方法及系统

Info

Publication number: CN115129884A
Application number: CN202210605631.0A
Authority: CN
Inventors: 王禄恒; 付培国; 孙立远; 赵志云; 葛自发; 孙小宁; 万欣欣; 李欣; 袁钟怡; 王晴; 杜宛真; 谢祎; 朱家祺
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-30

Abstract

本发明公开了基于语义交互匹配网络的知识图谱补全方法，其包括以下步骤：S1、将数据集划分为训练子集、验证子集和测试子集；S2、设定初始参数K、θ₁、θ₂；S3、构建支持集、查询集和负样本集；S4、获取第一子图表示、第二子图表示和第三子图表示；S5、计算得相似度得分一和相似度得分二；S6、计算损失函数值L；S7、获取知识谱图补全模型；S8、将补全信息补入至待补全的知识图谱中。本发明通过捕获实体邻居之间的语义交互来增强实体表示，实现了对小样本数据的知识图谱的补全工作，并取得了较好的成果，大大提升了知识图谱补全技术的泛用性、可拓展性，促进了知识图谱在当前尚不完善的特定领域的普及。

Description

基于语义交互匹配网络的知识图谱补全方法及系统

技术领域

本发明涉及知识图谱补全的技术领域。更具体地说，本发明涉及一种基于语义交互匹配网络的知识图谱补全方法及系统。

背景技术

知识图谱是一种大规模语义网络知识库。作为一种典型的结构化数据表示形式，它本质上是一个由所链接的实体和实体之间的关系组成的语义网络。它采取符号化的知识表示方式，利用[头实体、关系、尾实体]三元组来描述具体的知识，并以有向图的形式对其进行表示和存储。由于其在表达人类先验知识时具有语义丰富、结构友好、易于理解等优良特性，知识图谱近年来在自然语言处理、智能问答、推荐系统、预测系统、信息提取系统等多个领域取得了广泛且成功的应用。

为了大力支持知识图谱推理任务，知识图谱的广泛应用与优异成果也对知识图谱补全技术，特别是在训练数据稀缺情况下的补全技术提出了迫切要求。

由于知识图谱的不完整性，知识图谱补全任务的目标是寻找缺失的事实。知识图谱补全的初步研究主要依靠知识图谱嵌入模块将每个实体和关系嵌入到低维向量空间。这样，所有的实体和关系都可以将它们的语义表示为连续的向量空间。最著名的TransE模型、TransH模型试图通过将实体投影到具有特定关系的超平面上来处理不同关系中实体的不同角色。TransR提出将实体投影到具有特定关系的空间上，而不是投射到超平面上。此外，RESCAL模型给每个实体分配一个向量，给每个关系分配一个矩阵，然后使用双线性评分函数来捕获头尾实体对中的潜在语义。近年来，一些工作使用卷积神经网络来定义打分函数。由于知识图谱也是一种图结构的数据，最近也有一些工作将应用图神经网络进行知识图谱嵌入工作。然而，上述方法都需要足够的训练数据，因为少数训练样本不足以捕获这些模型的语义意义，在小样本场景中可能会导致性能受到严重限制。

对于许多真实场景来说，收集、标记数据是耗时耗力的。这也导致了一些如石油、能源、工业、医疗、司法等针对具体任务时，高质量的标注样本极度稀缺的特定领域的知识图谱所包含的信息并不完善，样本数据稀缺。在处理这样的任务时，主流的各种知识图谱补全技术很难取得良好的结果。随着小样本学习技术的发展，虽然小样本学习工具为了解决这一挑战已经付出了大量的努力，但它们主要集中在简单地聚合实体邻居来表示小样本参考，而增强邻居内部的潜在语义相关性在很大程度上被忽略了。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于语义交互匹配网络的知识图谱补全方法，其通过捕获实体邻居之间的语义交互来增强实体表示，实现了对小样本数据的知识图谱的补全工作，并取得了较好的成果，大大提升了知识图谱补全技术的泛用性、可拓展性，促进了知识图谱在当前尚不完善的特定领域的普及。

为了实现根据本发明的这些目的和其它优点，提供了一种基于语义交互匹配网络的知识图谱补全方法，其包括以下步骤：

S1、将知识图谱数据集划分为训练子集、验证子集和测试子集；

S2、设定初始参数K、θ₁、θ₂；K为支持集大小；θ₁为交互式子图编码器的学习参数；θ₂为交互式匹配处理器的学习参数；

S3、基于数据集分别构建支持集、查询集和负样本集；

S4、将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示；

S5、将第一子图表示和第二子图表示输入至交互式匹配处理器中，计算得相似度得分一；第一子图表示和第三子图表示输入至交互式匹配处理器中，计算得相似度得分二；

S6、引入损失函数，基于测试子集、相似度得分一和相似度得分二计算损失函数值L；基于训练子集根据梯度下降法更新参数θ₁、θ₂；基于验证子集更新参数K；

S7、重复S3～S6，直至训练过程结束，得到知识谱图补全模型；

S8、将待补全的知识图谱输入至知识图谱补全模型中，最高分数对应的三元组为补全信息，将补全信息补入至待补全的知识图谱中。

优选的是，所述的基于语义交互匹配网络的知识图谱补全方法，步骤S3具体为：

从训练子集中抽取一个数据集并从该数据集中抽取K个三元组形成支持集，该数据集中剩余的三元组形成查询集；对于查询集中的任一三元组，在数据集的尾实体字典中查询与该三元组的尾实体不一致的其中一个尾实体，并将查询到的尾实体替换成该三元组的尾实体，用经过尾实体替换的三元组构建得负样本集。

优选的是，所述的基于语义交互匹配网络的知识图谱补全方法，步骤S4具体为：

对于支持集中任一三元组，查找其一阶头邻居与尾邻居，并将二者输入至交互式子图编码器中获得该三元组对应的第一子图表示；

对于查询集中的任一三元组，查找其一阶头邻居与尾邻居，并将二者输入至交互式子图编码器中获得该三元组对应的第二子图表示；

对于负样本集中的任一三元组，查找其一阶头邻居与尾邻居，并将二者输入至交互式子图编码器中获得该三元组对应的第三子图表示。

优选的是，所述的基于语义交互匹配网络的知识图谱补全方法，步骤S6中损失函数表达式为：

其中为Q^- _r为负样本集，Q_r为查询集，

为负样本集的三元组；

为查询集的三元组；S_r为支持集；r是分隔查询集与负样本集的边界。

本发明还提供一种基于语义交互匹配网络的知识图谱补全系统，其包括：

数据预处理模块，其用于将数据集划分为训练子集、验证子集和测试子集；

参数设定模块，其用于设定初始参数K、θ₁、θ₂；K为支持集大小；θ₁为交互式子图编码器的学习参数；θ₂为交互式匹配处理器的学习参数；

文本生成模块，其用于基于数据集分别构建支持集、查询集和负样本集；

编码器转换模块，其用于将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示；

匹配处理器转换模块，其用于将第一子图表示和第二子图表示输入至交互式匹配处理器中，计算得相似度得分一；第一子图表示和第三子图表示输入至交互式匹配处理器中，计算得相似度得分二；

参数更新模块，其用于引入损失函数，基于测试子集、相似度得分一和相似度得分二计算损失函数值L；基于训练子集根据梯度下降法更新参数θ₁、θ₂；基于验证子集更新参数K；

模型构建模块，其用于对每个三元组进行训练，直至训练过程结束，得到知识谱图补全模型；

测试模块，其用于将待补全的知识图谱输入至知识图谱补全模型中，最高分数对应的三元组为补全信息，将补全信息补入至待补全的知识图谱中。

本发明还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述的方法。

本发明还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述的方法。

本发明至少包括以下有益效果：

1、本发明通过引入交互式子图编码器和交互式匹配处理器，实现了对小样本数据的知识图谱的补全工作，并取得了较好的成果。这一技术大大提升了知识图谱补全技术的泛用性、可拓展性，促进了知识图谱在当前尚不完善的特定领域(包括但不限于石油、能源、工业、医疗、司法等针对具体任务时，高质量的标注样本极度稀缺的领域)的普及；

2、本发明提出了一个性能良好、差异化隐私的分层跨域知识协同推演框架，考虑了实体邻居和支持集之间的交互，来捕获细粒度的语义意义，从而更好地表示了实体和小样本关系；为了充分利用知识图谱上的关系，本发明使用交互启发的关系嵌入来增强邻居的表示，并使用交互式子图编码器和交互式子图匹配处理器的转换器来捕获社区内的交互，以获得更好的语义；本发明使用转换器(来进行建模，将邻居间的可能构建表示的语义交互作用考虑在内。由于本发明不使用位置编码，所以它对于邻居表示是顺序不变的。因此，转换器可以学习如何与任意顺序的嵌入进行交互，而不是捕获与位置相关的特征。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述的基于语义交互匹配网络的知识图谱补全方法的流程示意图；

图2为本发明转换器的架构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得。

在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种基于语义交互匹配网络的知识图谱补全方法，其包括以下步骤：

S1、将知识图谱数据集(从百度百科或维基百科等网站中下载的知识图谱文本信息提取整理得到数据集)划分为训练子集、验证子集和测试子集；

S3、基于数据集分别构建支持集、查询集和负样本集：从训练子集中抽取一个数据集并从该数据集中抽取K个三元组形成支持集，该数据集中剩余的三元组形成查询集；对于查询集中的任一三元组，在数据集的尾实体字典中查询与该三元组的尾实体不一致的其中一个尾实体，并将查询到的尾实体替换成该三元组的尾实体，用经过尾实体替换的三元组构建得负样本集；负样本构造的具体过程：对于查询集中的一个三元组T，其尾实体为T_t，在数据集的尾实体字典中随机获取一个与T_t不同的尾实体X_t，来替换掉T的尾实体T_t；

S4、将支持集、查询集和负样本集中的三元组分别通过交互式子图编码器转换为第一子图表示、第二子图表示和第三子图表示：

对于负样本集中的任一三元组，查找其一阶头邻居与尾邻居，并将二者输入至交互式子图编码器中获得该三元组对应的第三子图表示；

损失函数表达式为：

其中为Q^- _r为负样本集，Q_r为查询集，

为负样本集的三元组；

为查询集的三元组；S_r为支持集；r是分隔查询集与负样本集的边界；

在上述技术方案中，本发明提出了一种新的小样本学习方案，即语义交互匹配网络，增强邻居内部的潜在语义相关性，进而获得更加全面的补全信息。该方案通过捕获实体邻居之间的语义交互来增强实体表示。具体来说，本发明将所有的任务分为三个子集：训练子集、验证子集和测试子集。这三个子集之间不存在重叠，即这三个集合的交集为空集，这就保证了小样本关系不会在不同的过程中重复出现。

为了充分利用训练集，对于训练子集中的每个任务T_r，本发明从任务T_r的所有三元组中随机抽取K个三元组作为支持集S_r，并将未被抽到的三元组作为查询集Q_r。对于不同的训练时期，任务T_r的支持集S_r的选取是一个动态采样过程。

交互式子图编码器和交互式子图匹配处理器分别包括一个转换器，转换器的架构如图2所示；

本发明采用了Query-Key-Value注意力机制，对于一组矩阵，

点积注意力可以计算为：

其中，N是查询的长度，M是键的长度，dk是键的维度，dv是值的维度。与单头注意力不同，多头注意力能够关注来自不同子空间的信息：

MultiHeadAttn(Q，K，V)＝Concat(head₁，…，head_H)W^O，

其中，

and

是投影矩阵。H为注意力头数，d_model表示输入标记嵌入的维数。在转换器的编码器中，我们将Q、K、V均设置为输入嵌入x，称为自注意力。

位置级前馈网络(FFN)：由两个线性层和ReLU激活函数组成：

FFN(x)＝ReLU(xW₁+b₁)W₂+b₂，

其中，W₁、b₁、W₂、b₂是可学习参数。

残差连接和规范化：将转换器的编码器层表示如下：

H′＝LayerNorm(SelfAttention(x)+x)，

H＝LayerNorm(FFN(H′)+H′)，

其中SelfAttention()表示自注意力模块；LayerNorm()表示层归一化操作；FFN()表示位置级前馈网络。

本发明设计一个交互式子图编码器，旨在将实体诱导的子图编码成一个向量表示；设计一个交互式匹配处理器，用以学习支持集和查询样本之间的交互式表示，支持集和负样本集之间的交互式表示，并进一步精确计算查询样本、负样本集的相似得分；实际上本发明用合并的关系表示法对三元组的头邻居和尾邻居(头邻居为三元组前面的一个三元组，尾邻居为排在三元组后面的一个三元组)进行自适应编码，按照这样的方法，转换器层被集成起来，用以捕获邻居内部的潜在相关性与支持集的语义多样性，最后利用注意力机制估计出相似度得分；

(1)交互式子图编码器的作用原理如下：

步骤一：对从支持集/查询集/负样本集中取出的一个三元组用e表示，作为与其邻居交互的标记之一。对于给定的小样本关系r的三元组(h，r，t)，将三元组e的一阶邻居表示为N_e＝{(r_e ⁱ，n_e ⁱ)}，其中e∈{h，t}，r_e ⁱ是连接着三元组e与其邻居n_e ⁱ的关系。因为关系可以反映实体之间的语义连接，所以本发明将关系r_e ⁱ与邻居n_e ⁱ具体化为邻域表示hn_e ⁱ，它可以表述为：

其中，σ()表示激活函数，En_e ⁱ、Rn_e ⁱ分别是邻居n_e ⁱ与连接着三元组e与其邻居n_e ⁱ的关系r_e ⁱ的嵌入。⊕是连接操作，W₁是一个可学习变换矩阵，b₁是一个可学习偏差向量。

步骤二：为了获得特定任务关系，本发明构建了任务关系的嵌入并进一步细化了相对关系，将其表述为：

其中，E_h和E_t分别为头邻居和尾邻居的嵌入，W₂和b₂为有偏差的线性层的可训练参数。于是，将具有相对关系的三元组e的代表表述为：

这样，三元组e、其邻居N_e以及他们之间的关系均被编码到向量中。

步骤三：本发明使用转换器来进行建模。多头自注意力(Multi-head self-attention)方案允许转换器捕获潜在的隐藏状态的不同方面。本发明将h_e和

共同看作一个集合，将转换器看作一个集合到集合的函数映射。本发明将第一个输入嵌入设置为h_e，其余输入嵌入依次设置为

由于本发明不使用位置编码，所以邻居表示顺序是不变的。因此，转换器可以学习与任意顺序的嵌入进行交互，而不是捕获与位置相关的特征。第l个转换器层的隐藏状态表示为

其下标i∈{0,1,2,…,|N_e|}表示隐藏状态的索引。也可以将其表述为：

z^l＝Transformer(z^l-1)，

其中l＝1,2,…,L，代表转换器层数，z⁰为第一层转换器的输入。

步骤四：聚合交互式隐藏状态，得到子图表示：

其中，z’_e表示转换器在最后一个隐藏状态上的平均池化。z₀ ^L是实体e的最后一个隐藏状态，W₃和W₄是可学习的线性层矩阵，b₃和b₄是偏置向量。o_e是子图的最终表示。

步骤五：对于给定的三元组(h,r,t)，可以得到两个子图表示，即o_h和o_t，分别对应于头邻居子图和尾邻居子图。进一步将o_h与o_t结合，作为三元组的表示，计算结果为：

其中，其中W₅为权重矩阵，b₅为偏置向量。p表示基于给定三元体的小样本关系r的语义。

(2)交互式匹配处理器的作用原理如下：

本发明应用了另一个转换器(交互式子图匹配处理器)来捕捉查询示例和支持集的多样化信息。在本发明中，一项任务T_r由一个查询集Q_r和一个支持集S_r组成。以Q_r中的一个查询示例

为例，交互式匹配处理器详细工作步骤如下：

步骤A：对于给定的查询示例

和支持集

在交互式子图编码器中计算出其子图表示p_q和

步骤B：计算变压器的隐藏状态c_i，i表示对c的索引：

c＝Transformer(c⁰)，

其中，c⁰是变压器的输入端。由于不同的支持示例包含少镜头关系的不同语义意义，有必要集中注意力于聚合支持集。

步骤C：将s_i的注意力得分表述为：

其中，α_i是注意力分数，π()是一个度量函数，本模型中使用点积。D(c₀)表示隐藏状态的维数。

步骤D：计算出关系r的注意原型(attentional prototype)：

步骤E：估计出查询样本的相似度得分：

其中，π()与步骤三中的度量函数π()相同。

同理计算得到负样本集的相似度得分，只需要将上述查询集替换为负样本集，在交互式匹配处理器中计算出的相似度得分即为负样本集的相似度得分。

本发明巧妙地应用了两个转换模块(交互式子图编码器和交互式子图匹配处理器)进行交互式子图编码与交互式匹配处理，实现了对小样本数据的知识图谱的补全工作，并取得了较好的成果。这一技术大大提升了知识图谱补全技术的泛用性、可拓展性，促进了知识图谱在当前尚不完善的特定领域的普及。

<实施例1>

以石油领域为例对本发明作进一步的说明：

背景介绍：1、原油按其相对密度可以分为轻质原油、中质原油、重质原油与特重原油。2、轻质原油指相对密度小于0.870的原油，其色浅，含油质多，沥青质少。3、重质原油指相对密度介于0.920～1.000之间的原油，其色深，富含胶质和沥青质，汽油含量较少。4、特重原油指相对密度大于1.000的原油。

从(维基百科或百度百科等网站中)下载知识图谱，并获取(不完整的)三元组：<原油，按相对密度分类，轻质原油、中质原油、重质原油、特重原油><轻质原油，相对密度，小于0.870><轻质原油，颜色，浅><轻质原油，汽油含量，多><轻质原油，沥青质含量，少><中质原油，相对密度，？><中质原油，颜色，？><中质原油，汽油含量，？><中质原油，沥青质含量，？><重质原油，相对密度，介于0.920～1.000之间><重质原油，颜色，深><重质原油，汽油含量，较少><重质原油，沥青质含量，多><特重原油，相对密度，大于1.000><特重原油，颜色，？><特重原油，汽油含量，？><特重原油，沥青质含量，？>；

将上述待补全的三元组知识图谱数据集输入至本发明的知识图谱补全系统中，利用本发明的知识图谱补全方法进行知识图谱补全后得到的补全信息：<特重原油，颜色，很深><特重原油，汽油含量，少><特重原油，沥青质含量，很多>；相对于现有技术，本发明能够通过聚合邻居间的语义信息还获得的额外的补全信息：<中质原油，相对密度，介于0.870～0.920之间><中质原油，颜色，中等深浅><中质原油，汽油含量，较多><中质原油，沥青质含量，中等>。

本发明的技术方案将邻居间的语义信息也考虑在内，得到补全信息与现有其他知识图谱补全方案相比，能够收获更多的补全信息，并具有更高的补全信息准确率；这也使得本发明的知识图谱补全方案能够应用于石油、能源、工业、医疗、司法等针对具体任务时，高质量的标注样本极度稀缺的领域，并取得良好结果。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于语义交互匹配网络的知识图谱补全方法，其特征在于，包括以下步骤：

S3、基于数据集分别构建支持集、查询集和负样本集；

2.如权利要求1所述的基于语义交互匹配网络的知识图谱补全方法，其特征在于，步骤S3具体为：

3.如权利要求2所述的基于语义交互匹配网络的知识图谱补全方法，其特征在于，步骤S4具体为：

4.如权利要求3所述的基于语义交互匹配网络的知识图谱补全方法，其特征在于，步骤S6中损失函数表达式为：

其中为Q^- _r为负样本集，Q_r为查询集，

为负样本集的三元组；

5.基于语义交互匹配网络的知识图谱补全系统，其特征在于，包括：

6.电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1～4中任一项所述的方法。

7.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1～4中任一项所述的方法。