CN114610900A

CN114610900A - 知识图谱补全方法及系统

Info

Publication number: CN114610900A
Application number: CN202210249612.9A
Authority: CN
Inventors: 唐飞龙; 任世伟; 朱燕民; 俞嘉地; 唐灿; 姚斌
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-10

Abstract

本发明提供了一种知识图谱补全方法及系统，涉及数据处理技术领域，该方法包括：步骤S1：输入需要进行缺失三元组补全的知识图谱；步骤S2：训练基于空间投影和卷积神经网络的负采样评估模型；步骤S3：根据负采样评估模型生成高质量错误三元组来构建训练集；步骤S4：训练融合三元组上下文语义的知识图谱补全模型；步骤S5：根据知识图谱补全模型进行知识图谱补全。本发明能够获得优异的知识图谱补全评价指标的情况下，能够适用于大规模知识图谱补全任务。

Description

知识图谱补全方法及系统

技术领域

本发明涉及数据处理、自然语言处理(NLP)技术领域，具体地，涉及一种基于融合三元组上下文语义与负采样优化的知识图谱补全方法，尤其涉及一种知识图谱补全方法及系统。

背景技术

随着互联网的快速发展，当前互联网上所提供的信息量非常巨大，并且还在日益扩充。例如，有超过19.4亿个网站与万维网链接，搜索引擎(例如Google、Bing等)可以通过这些链接并以极高的精度和速度提供有用的信息。在大多数成功的搜索引擎中，知识图谱起到了非常重要的作用。知识图谱(Knowledge graph,KG)是客观世界知识的结构化表示，以一种便于存储、识别和理解的方式为机器管理数据。知识图谱由实体、关系、属性和语义描述组成，实体是客观世界中的对象，关系描述了两个实体之间的相互作用和影响，属性描述实体的特征，语义描述包括实体名称字符串、数字值、文字信息和字符串属性值等。知识图谱中的知识一般采用RDF(Resource Description Framework，资源描述框架)进行存储，每条知识表示为一个三元组(h,r,t)，众多的RDF三元组构成了我们通常所说的知识图谱。知识图谱融合了多种语言和多个知识源的信息，其应用场景不仅限于搜索引擎，社交网站(如Facebook等)、电子商务网站(如亚马逊等)也在使用知识图谱来存储和检索有用信息。知识图谱已经成为许多人工智能应用的重要知识来源，如信息提取、智能问答、事实核查等。

在过去的几年里，由于知识图谱在人工智能应用中的重要作用，无论是研究界还是产业界对知识图谱的兴趣都呈指数级增长，并且涌现出众多大规模知识图谱，例如Cyc、Freebase、DBpedia、YAGO和Wikidata等。知识图谱本质上是一种语义网络，是对现实世界中事物及其关系的形式化描述。现实世界中存在着大量的实体和概念，它们之间的关系复杂多样，相应地，大规模的知识图通常包括数千万个实体和数亿个关系。因此，尽可能全面地集成更多的实体关系信息是一般知识图的一个重要目标。然而，大多数知识图谱是人工或半自动构建的，虽然常用的大规模知识图谱如Freebase、DBpedia、YAGO等包含了数百万个实体和关系，但仍存在大量的事实缺失，实体间的许多隐含关系未被充分挖掘，导致知识图谱的结构和内容不完整。因此不完整性、数据稀疏性成为几乎所有知识图谱的普遍问题。例如，在Freebase和DBpedia中超过66％的人物实体缺少出生地信息。知识图谱补全技术通过预测知识实例(实体、关系、属性等)、挖掘缺失的实体、关系或发现新的事实来补充现有知识图谱结构，是发现新知识的重要手段，广泛应用于知识图谱的高级任务中。

公开号为CN112084341A的发明专利，公开了一种基于三元组重要性的知识图谱补全方法，包括一：估计知识图谱中三元组的头实体的重要性和尾实体的重要性；二：估计三元组中关系的一阶重要性和高阶重要性；三：根据三元组中头实体的重要性、尾实体的重要性和关系的重要性获得三元组的重要性。

现有的知识图谱补全方法大多数只关注了实体和关系本身的嵌入向量表示，忽略了实体和关系所在知识的上下文语境，这可能会导致模型学习得到的实体和关系嵌入向量的表达能力较弱。因为同一个关系在不同的知识中，有着不同的语义，因此关系嵌入向量在不同的知识中也应该有所不同。同时，知识图谱补全算法所采用的嵌入模型，在训练过程中通过多次迭代来逐渐扩大正确三元组得分与错误三元组得分之间的差值以学习到实体和关系合理的嵌入表示。出于空间效率的考虑，一般的知识图谱只默认存储正确的知识，而不存储错误的知识。因此，在训练嵌入模型时，训练数据集只有正确三元组。对于错误三元组，一种常见的方法是去除正确的头部或尾部实体，并从根据均匀分布从所有实体中随机抽样。不幸的是，这种方法并不理想，因为用于训练模型的知识图谱本身是不完全的，基于此进行负采样不可避免地会引入一些伪错误三元组。因此，在训练知识图谱补全模型时如何有效避免产生伪错误三元组是一个非常重要的问题。

发明内容

针对现有技术中的缺陷，本发明提供一种知识图谱补全方法及系统。

根据本发明提供的一种知识图谱补全方法及系统，所述方案如下：

第一方面，提供了一种知识图谱补全方法，所述方法包括：

步骤S1：输入需要进行缺失三元组补全的知识图谱；

步骤S2：训练基于空间投影和卷积神经网络的负采样评估模型；

步骤S3：根据负采样评估模型生成高质量错误三元组来构建训练集；

步骤S4：训练融合三元组上下文语义的知识图谱补全模型；

步骤S5：根据知识图谱补全模型进行知识图谱补全。

优选地，所述步骤S2包括：

步骤S2.1：基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影；

步骤S2.2：基于卷积神经网络，构建三元组打分模块，以空间投影模块的输出(h_⊥,r,t_⊥)作为输入，输出三元组的得分，三元组打分模块采用交叉熵损失函数进行优化；

具体计算公式如下：

其中，G代表正样本的集合，G^′代表负样本的集合，l(h,r,t)是三元组对应的标签，f(h,r,t)是三元组的得分；

步骤S2.3：对空间投影模块和三元组打分模块进行联合训练，多次迭代更新模型参数。

优选地，所述步骤S2.1包括：

步骤S2.1.1：对每个三元组，定义投影向量(h_p,r_p,t_p)和语义向量(h,r,t)；

步骤S2.1.2：将头实体的语义向量h投影至由头实体投影向量h_p和关系投影向量r_p共同决定的超平面得到h_⊥，将尾实体的语义向量t投影至由尾实体投影向量t_p和关系投影向量r_p共同决定的超平面得到t_⊥；

其中，空间投影公式如下：

h_⊥＝M_rhh

t_⊥＝M_rtt

其中，M_rh为头实体投影向量h_p和关系投影向量r_p共同决定的投影矩阵，

为头实体投影向量的转置，M_rt为尾实体投影向量t_p和关系投影向量r_p共同决定的投影矩阵，

为尾实体投影向量的转置。

优选地，所述步骤S2.2包括：

步骤S2.2.1：每个三元组(h_⊥,r,t_⊥)表示为一个三列的矩阵，输送到卷积层，多个卷积核对其进行二维卷积操作输出多个特征图；

步骤S2.2.2：多个特征图拼接为一个单个的特征向量作为全连接层输入，最后全连接层输出当前三元组的得分；

具体计算公式如下：

f(h,r,t)＝concat(g([h_⊥,r,t_⊥]*Ω))·W

其中，f(·)为打分函数，concat为向量拼接操作，g(·)是激活函数，*是卷积操作，Ω是卷积核参数，W是全连接层参数。

优选地，所述步骤S3包括：

步骤S3.1：采用随机替换正确三元组中的头实体或尾实体的方式，生成初始错误三元组；

步骤S3.2：将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中，负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集；

步骤S3.3：在候选集中通过随机选择的方式生成最终的错误三元组来支持知识图谱补全任务。

优选地，所述步骤S4包括：

步骤S4.1：基于循环神经网络，构建三元组上下文语义提取模块，将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息；

具体计算公式如下：

c＝RNN(h,r,t)

其中，c为三元组语义依赖信息向量，RNN为循环神经网络；

步骤S4.2：构建基于翻译模型的知识图谱补全模块，融合三元组上下文语义提取模块的输出，学习实体和关系的嵌入向量，知识图谱补全模块采用边际损失函数进行优化；

具体计算公式如下：

r_c＝concat(r,c)

其中，concat为向量拼接操作,f(·)为打分函数，并且使用L2正则化来防止模型过拟合，f(h,r,t)为正实例的得分，f(h′,r,t′)为错误三元组的得分，γ为表示边缘的超参数；

步骤S4.3：根据步骤S3得到的高质量错误三元组训练集，对三元组上下文语义提取模块和知识图谱补全模块进行联合训练，多次迭代更新模型参数。

第二方面，提供了一种知识图谱补全系统，所述系统包括：

模块M1：输入需要进行缺失三元组补全的知识图谱；

模块M2：训练基于空间投影和卷积神经网络的负采样评估模型；

模块M3：根据负采样评估模型生成高质量错误三元组来构建训练集；

模块M4：训练融合三元组上下文语义的知识图谱补全模型；

模块M5：根据知识图谱补全模型进行知识图谱补全。

优选地，所述模块M2包括：

模块M2.1：基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影；

模块M2.2：基于卷积神经网络，构建三元组打分模块，以空间投影模块的输出(h_⊥,r,t_⊥)作为输入，输出三元组的得分，三元组打分模块采用交叉熵损失函数进行优化；

具体计算公式如下：

模块M2.3：对空间投影模块和三元组打分模块进行联合训练，多次迭代更新模型参数。

优选地，所述模块M2.1包括：

模块M2.1.1：对每个三元组，定义投影向量(h_p,r_p,t_p)和语义向量(h,r,t)；

模块M2.1.2：将头实体的语义向量h投影至由头实体投影向量h_p和关系投影向量r_p共同决定的超平面得到h_⊥，将尾实体的语义向量t投影至由尾实体投影向量t_p和关系投影向量r_p共同决定的超平面得到t_⊥；

其中，空间投影公式如下：

h_⊥＝M_rhh

t_⊥＝M_rtt

为尾实体投影向量的转置。

优选地，所述模块M2.2包括：

模块M2.2.1：每个三元组(h_⊥,r,t_⊥)表示为一个三列的矩阵，输送到卷积层，多个卷积核对其进行二维卷积操作输出多个特征图；

模块M2.2.2：多个特征图拼接为一个单个的特征向量作为全连接层输入，最后全连接层输出当前三元组的得分；

具体计算公式如下：

f(h,r,t)＝concat(g([h_⊥,r,t_⊥]*Ω))·W

与现有技术相比，本发明具有如下的有益效果：

本发明能够充分提取三元组中头实体、关系和尾实体间的语义依赖信息，并通过预训练负采样评估模型减少伪错误三元组的产生，在能够获得优异的知识图谱补全评价指标的情况下，能够适用于大规模知识图谱补全任务。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于融合三元组上下文语义与负采样优化的知识图谱补全方法的流程图；

图2为负采样评估模型架构图；

图3为知识图谱补全模型架构图；

图4为本发明基于融合三元组上下文语义与负采样优化的知识图谱补全系统架构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种知识图谱补全方法，参照图1所示，该方法具体包括：

步骤S1：输入需要进行缺失三元组补全的知识图谱，进行数据预处理，提取知识图谱中的实体集合和关系集合；然后，构建模型训练时需要的训练集、验证集和测试集。

参照图2所示，步骤S2：训练基于空间投影和卷积神经网络的负采样评估模型。基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影；基于卷积神经网络，构建三元组打分模块，以空间投影模块的输出(h_⊥,r,t_⊥)作为输入，输出三元组的得分；对空间投影模块和三元组打分模块进行联合训练，迭代更新模型参数。

其中，步骤S2具体包括：

步骤S2.1：基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影。

该步骤S2.1包括：

步骤S2.1.1：对每个三元组，定义投影向量(h_p,r_p,t_p)和语义向量(h,r,t)。

其中，空间投影公式如下：

h_⊥＝M_rhh

t_⊥＝M_rtt

为尾实体投影向量的转置。

具体计算公式如下：

其中，G代表正样本的集合，G′代表负样本的集合，l(h,r,t)是三元组对应的标签，f(h,r,t)是三元组的得分。

该步骤S2.2中包括：

步骤S2.2.1：每个三元组(h_⊥,r,t_⊥)表示为一个三列的矩阵，输送到卷积层，多个卷积核对其进行二维卷积操作输出多个特征图。

步骤S2.2.2：多个特征图拼接为一个单个的特征向量作为全连接层输入，最后全连接层输出当前三元组的得分。

具体计算公式如下：

f(h,r,t)＝concat(g([h_⊥,r,t_⊥]*Ω))·W

步骤S3：根据负采样评估模型生成高质量错误三元组来构建训练集。采用随机替换正确三元组中的头实体或尾实体的方式，生成初始错误三元组；将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中，负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集；在候选集中通过随机选择的方式生成最终的错误三元组来构建高质量错误三元组训练集。

在步骤S3中，具体包括：

步骤S3.1：采用随机替换正确三元组中的头实体或尾实体的方式，生成初始错误三元组。

步骤S3.2：将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中，负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集。

参照图3所示，步骤S4：训练融合三元组上下文语义的知识图谱补全模型。基于循环神经网络，构建三元组上下文语义提取模块，将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息；构建基于翻译模型的知识图谱补全模型，融合三元组上下文语义提取模块的输出，学习实体和关系的嵌入向量；根据步骤3得到的高质量错误三元组训练集，对三元组上下文语义提取模块和知识图谱补全模块进行联合训练，多次迭代更新模型参数。

在步骤S4中，具体包括：

步骤S4.1：基于循环神经网络，构建三元组上下文语义提取模块，将(h,r,t视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息；

具体计算公式如下：

c＝RNN(h,r,t)

其中，c为三元组语义依赖信息向量，RNN为循环神经网络。

具体计算公式如下：

r_c＝concat(r,c)

其中，concat为向量拼接操作,f(·)为打分函数，并且使用L2正则化来防止模型过拟合，f(h,r,t)为正实例的得分，f(h′,r,t′)为错误三元组的得分，γ为表示边缘的超参数。

步骤S5：根据知识图谱补全模型进行知识图谱补全。随机替换三元组中的实体，对知识图谱补全模型输出的三元组得分进行排序，将得分最高的三元组添加到知识图谱中，进行知识图谱补全。

本发明还提供了一种知识图谱补全系统，参照图4所示，该系统包括：

模块M1：输入需要进行缺失三元组补全的知识图谱，进行数据预处理，提取知识图谱中的实体集合和关系集合；然后，构建模型训练时需要的训练集、验证集和测试集。

模块M2：训练基于空间投影和卷积神经网络的负采样评估模型。基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影；基于卷积神经网络，构建三元组打分模块，以空间投影模块的输出(h_⊥,r,t_⊥)作为输入，输出三元组的得分；对空间投影模块和三元组打分模块进行联合训练，迭代更新模型参数。

模块M3：根据负采样评估模型生成高质量错误三元组来构建训练集。采用随机替换正确三元组中的头实体或尾实体的方式，生成初始错误三元组；将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中，负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集；在候选集中通过随机选择的方式生成最终的错误三元组来构建高质量错误三元组训练集。

模块M4：训练融合三元组上下文语义的知识图谱补全模型。基于循环神经网络，构建三元组上下文语义提取模块，将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息；构建基于翻译模型的知识图谱补全模型，融合三元组上下文语义提取模块的输出，学习实体和关系的嵌入向量；根据模块M3得到的高质量错误三元组训练集，对三元组上下文语义提取模块和知识图谱补全模块进行联合训练，多次迭代更新模型参数。

模块M5：根据知识图谱补全模型进行知识图谱补全。随机替换三元组中的实体，对知识图谱补全模型输出的三元组得分进行排序，将得分最高的三元组添加到知识图谱中，进行知识图谱补全。

具体地，模块M2包括：

模块M2.1：基于空间投影原理，构建空间投影模块，用于对实体嵌入向量进行空间投影。

具体计算公式如下：

模块M2.1包括：

模块M2.1.1：对每个三元组，定义投影向量(h_p,r_p,t_p)和语义向量(h,r,t)。

其中，空间投影公式如下：

h_⊥＝M_rhh

t_⊥＝M_rtt

为尾实体投影向量的转置。

模块M2.2包括：

模块M2.2.1：每个三元组(h_⊥,r,t_⊥)表示为一个三列的矩阵，输送到卷积层，多个卷积核对其进行二维卷积操作输出多个特征图。

具体计算公式如下：

f(h,r,t)＝concat(g([h_⊥,r,t_⊥]*Ω))·W

本发明实施例提供了一种知识图谱补全方法及系统，能够充分提取三元组中头实体、关系和尾实体间的语义依赖信息，并通过预训练负采样评估模型减少伪错误三元组的产生，在能够获得优异的知识图谱补全评价指标的情况下，能够适用于大规模知识图谱补全任务。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。