CN113569062A

CN113569062A - 一种知识图谱补全方法与系统

Info

Publication number: CN113569062A
Application number: CN202111126880.3A
Authority: CN
Inventors: 邵俊; 蔺静茹; 李骏琪; 万友平; 蔡艺齐
Original assignee: Shenzhen Suoxinda Data Technology Co ltd
Current assignee: Shenzhen Suoxinda Data Technology Co ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-10-29

Abstract

本发明公开了一种知识图谱补全方法与系统，该方法包括：获取知识图谱三元组的正样本和负样本；构建初步向量化模型，对知识图谱中的每个实体或关系进行初步向量化，得到每个实体或关系对应的初级向量；将初级向量与外部预训练模型进行二次向量化处理，得到知识图谱中的每个实体或关系对应的二级向量，将二级向量作为自变量，正样本和负样本作为标签，训练神经网络模型；从待补全的实体或关系的候选集中依次取出候选实体或候选关系，建立候选三元组并代入训练后的神经网络模型，获取知识图谱补全结果。本发明可以使得实体链接更加可靠，增加了内部知识与外部知识的融合；对于近义词的识别准确率更高；可以迅速地为知识图谱的补全引入外部的知识。

Description

一种知识图谱补全方法与系统

技术领域

本发明属于大数据分析与数据挖掘领域，尤其涉及一种知识图谱补全方法与系统。

背景技术

知识图谱是一种通过大量实体与实体间关系形成的语义网络，其旨在构建一个结构化信息的数据库，将世界上的具象事物（如人名、地名、机构名等专有名词）与抽象概念表示为实体，将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图，其中实体是图中的节点，而关系则作为图中的边。在知识图谱中，世界的海量知识被表示为实体之间利用关系作为连接的三元组（Triplet）。在通过语料自动构建知识图谱的过程中，常常会出现缺失实体之间的关系，或已知头实体和关系缺少尾实体的情况，从而需要做知识图谱的补全。知识图谱补全旨在寻找出知识图谱中三元组（头实体，关系，尾实体）中缺失的部分，从而使知识图谱变得更加完整。常用的补全方法会基于知识图谱的向量化表示方法，将知识图谱中的实体和关系转化成向量。

如现有技术公开号为CN112000815A中，一般会通过构建三元组的损失函数并构造正负样本及其目标函数，对实体和关系的向量化进行训练，并将向量化结果带入损失函数得到三元组成立的置信度从而完成知识图谱的补全。然而这样的表示学习方法没有将大量的外部知识引入到知识图谱当中，使得知识图谱的表示能力非常局限，导致知识图谱补全的效果不佳。事实上，外部世界已经存在着如GPT3这样的大规模的预训练模型，这些模型蕴含了非常丰富的外部知识，如果不能将其应用起来，图谱补全的效果将大打折扣。

CN113360664A公开了一种知识图谱补全方法，后基于文本嵌入方式获取每个关系的向量初始化，再将每个关系的向量初始化输入到下载知识图谱中，得到新的知识图谱；用户提供待补全的三元组，将其头实体和尾实体输入至MSNN网络，在MSNN网络内，通过两个并行的子网络分别提取实体的上下文信息和关系路径特征；最后根据上下文信息和关系路径特征推断出缺失的关系，并补全到原知识图谱中。然而，该方案虽然将通过文本嵌入方式得到的每个关系的向量输入到知识图谱中，但是其并未通过文本训练得到头尾实体的向量，导致该重大的有效信息没能得到有效使用，从而使得补全模型的精准度提升效果有限。

因此，如何在提升知识图谱的补全效果的同时提高补全模型的准确度是目前该领域亟待解决的问题。

发明内容

针对上述现有技术中存在的缺陷，本发明提出一种将外部的预训练模型引入到知识图谱的补全当中的方法，可以有效利用通过文本训练得到头尾实体的向量，从而提高补全模型的精准度。就此，本发明提供一种知识图谱补全方法，包括以下步骤：

步骤S101、获取知识图谱三元组的正样本和负样本，所述三元组包含头实体、关系和尾实体；

步骤S103、基于Hinge Loss目标函数，构建初步向量化模型，对所述知识图谱中的每个实体或关系进行初步向量化，得到所述每个实体或关系对应的初级向量；

步骤S105、将上述初级向量与外部预训练模型进行二次向量化处理，得到所述知识图谱中的每个实体或关系对应的二级向量，将所述二级向量作为自变量，所述正样本和负样本作为标签，训练神经网络模型；

步骤S107、从待补全的实体或关系的候选集中依次取出候选实体或候选关系，建立候选三元组；

步骤S109、将所述候选三元组代入训练后的所述神经网络模型，获取知识图谱补全结果。

在某一实施例中，将所述正样本中的头实体、尾实体或关系进行随机替换，生成负样本。

在某一实施例中，所述初步向量化模型基于TransE的向量表示，具体为：

，

式中，<h, r, t>为三元组，h为头实体，r为关系，t为尾实体，l₂指欧氏距离，其表达式为

，其中n代表向量X的长度，1≤i≤n，X_i为X的第i个分量。

在某一实施例中，所述Hinge Loss目标函数具体为：

式中，

是间隔参数，S是正样本集合；

是负样本集合，

为负样本集合中的头实体，

为负样本集合中的尾实体。

在某一实施例中，其中所述外部预训练模型为GPT3模型。

在某一实施例中，所述神经网络模型从如下数据集来构建：

数据集的目标变量是三元组是否成立，若成立输出为0，不成立输出为1；

数据集的特征变量是三元组的词嵌入向量的组合。

在某一实施例中，所述二次向量化处理包括：

假设所述知识图谱中涉及到的实体和关系总数为n，并按任意顺序排序记为

；

对所有的实体或关系

(1≤i≤n)，将得到的初级向量

与通过外部预训练模型得到的二级向量

进行按行拼接得到

，如果

的长度为a，

的长度为b，那么拼接后的向量

长度为a+b；

将得到的向量

进行首尾拼接，得到一个n*(a+b)的矩阵Q；

使用自编码器对矩阵Q进行降维，将n*(a+b)的矩阵Q压缩为n*a的矩阵P，得到了知识图谱的新的表示：

M_i的表示为P_i，其长度仍然为a，实体和关系的总数为n。

在某一实施例中，步骤S105中训练神经网络模型包括：

假定训练具有1个隐藏层，输出为0或1的神经网络，则假设输入变量为

，权重矩阵

，其中，n为向量的长度，m为隐藏层的单元的个数，k和i为遍历使用的参数；

为激活函数；

那么得到的隐藏层变量为：

；

设隐藏层对应的权重矩阵为

；

那么输出正例的概率为

；

输出反例的概率为

；

使用基于极大似然估计的损失函数和反向梯度传播算法，训练所述神经网络，求解出参数。

在某一实施例中，基于极大似然估计的损失函数为：

式中，N为训练集的所有样本，

为第i个样本通过该训练得到的神经网络输出的训练出的数值，即

；

表示第i个样本的实际标签，即0或1。

在某一实施例中，将所述候选三元组代入所述神经网络模型，获取知识图谱补全结果具体包括：

所述候选三元组代入上述神经网络模型，得到相应数值；

选取数值最高的三元组，作为最终的补全结果。

本发明还提出了一种知识图谱补全系统，其包括：

样本获取模块，其获取知识图谱三元组的正样本和负样本，所述三元组包含头实体、关系和尾实体；

模型构建模块，其基于Hinge Loss目标函数，构建初步向量化模型；

向量处理模块，其对所述知识图谱中的每个实体或关系进行初步向量化，得到所述每个实体或关系对应的初级向量；并将初级向量与外部预训练模型进行二次向量化处理，得到所述知识图谱中的每个实体或关系对应的二级向量；

模型训练模块，其将所述二级向量作为自变量，所述正样本和负样本作为标签，训练神经网络模型；

图谱补全模块，其从待补全的实体或关系的候选集中依次取出候选实体或候选关系，建立候选三元组；并将所述候选三元组代入训练后的所述神经网络模型，获取知识图谱补全结果。

与现有技术相比，通过本发明，使得实体链接更加可靠，增加了内部知识与外部知识的融合；对于近义词的识别准确率更高；通过这种方法可以更加迅速地为知识图谱的补全引入外部的知识。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的知识图谱补全方法的流程图；

图2是示出根据本发明实施例的对矩阵降维的示意图；

图3是示出根据本发明实施例的知识图谱补全系统的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的可选实施例。

实施例一、

如图1所示，本发明公开了一种知识图谱补全方法，包括以下步骤：

实施例二、

一种知识图谱补全方法，包括以下步骤：

本实施例中的正样本是指正确的三元组，其通过人工确定为正确的，在知识图谱中已经构建好的三元组。本实施例将所述正样本中的头尾实体或关系进行随机替换，生成负样本。即负样本为事实不成立的样本。

在实际应用场景中，本实施例的所述初步向量化模型基于TransE的向量表示，具体为：

，

，其中，1≤i≤n，n代表向量X的长度，X_i为X的第i个分量。

本实施例在构建初步向量化模型时，所基于的Hinge Loss目标函数具体为：

式中，

是间隔参数，S是正样本集合；

是负样本集合，其为对头尾实体或关系随机替换后构造的三元组，

为负样本集合中的头实体，

为负样本集合中的尾实体。

上述训练过程在于使得上述目标函数L尽可能小。

本实施例的所述外部预训练模型可以为GPT3模型；在一个应用场景中，本实施例使用的外部预训练模型GPT3，可以将每个中文词汇映射为一个12288维度的向量。

本实施例的所述神经网络模型从如下数据集来构建：

数据集的特征变量是三元组的词嵌入向量的组合。

本实施例的步骤S105中的所述二次向量化处理可以包括：

；

对所有的实体或关系

(1≤i≤n)，将得到的初级向量

与通过外部预训练模型得到的二级向量

进行按行拼接得到

，如果

的长度为a，

的长度为b，那么拼接后的向量

长度为a+b；

将得到的向量

进行首尾拼接，得到一个n*(a+b)的矩阵Q；

M_i的表示为P_i，其长度仍然为a，实体和关系的总数为n。

上述的二次向量化处理结合了文本预训练模型（外部预训练模型）的向量表示与基于知识图谱三元组训练的向量表示，通过降维方法，使得降维后的向量长度仍然与初级向量的长度一致，但包含了更加丰富的信息，对于后续神经网络建模的精准性有极大的帮助。

步骤S105中，本实施例在进行二次向量化处理，并得到所述知识图谱中的每个实体或关系对应的二级向量后，训练神经网络模型可以包括：

，权重矩阵

为激活函数，其中，e为自然常数；

那么得到的隐藏层变量为：

；

设隐藏层对应的权重矩阵为

；

那么输出正例的概率为

；

输出反例的概率为

；

本发明实施例由于训练该神经网络模型的输入为进行二次向量化处理之后的向量，通过使用这些输入向量训练得到的神经网络模型预测三元组是否为真，其预测效果更佳。

本实施例中基于极大似然估计的损失函数为：

式中，N为训练集的所有样本，

；

表示第i个样本的实际标签，即0或1。

本实施例的步骤S109中，将所述候选三元组代入所述神经网络模型，获取知识图谱补全结果具体可以包括：

所述候选三元组代入上述神经网络模型，得到相应数值；

选取数值最高的三元组，作为最终的补全结果。

实施例三、

在本实施例中，自编码网络本质上是一类无监督学习，通过降维提取变量的主特征，以减弱相关变量之间的两两影响。通过自编码网络提取矩阵Q的主要特征，并基于提取的矩阵特征进行聚类，结合三元组是否成立的标签对这些类别进行判定。对于任意一个实体或关系，通过其与这些类别之间的距离关系判定其属于那个类别，并作为对其三元组是否成立的判定。

具体地，自编码网络的过程为：

将输入变量的集合记作X，设定编码函数f(X),以及解码函数g(X)，其中f和g为神经网络且f输出的维数远远小于X的维数，使得

最小。

记

，则H即为对X提取出的特征。如图2所示，h1, h2, h3即为通过编码器算法捕捉到的降维的特征表示，实现了对变量x1,x2,...,x7的关键信息提取。

另外，一个自编码器实际上是由一个编码器和一个解码器两部分组成。编码器和解码器的结构都各自是一个神经网络。

从训练好的自编码器中抽取出编码器部分，就可以实现降维的效果。

通过自编码器的降维优于PCA在于其使用的是神经网络的结构。如果让神经网络中的激活函数蜕化为恒等函数，则该自编码器则就是一个PCA过程。由于激活函数的存在，自编码器能够实现非线性的降维。

神经网络是这样的一个映射f，它接受一组输入向量X，通过

输出另一组向量。其中X为N维的向量，W为一个M*N维的矩阵，b为M维的向量，f（X）的输出为一个M维的向量。

假设X为我们的观测变量，编码器网络接受X的输入，通过上述神经网络变成一个低维特征Z，记Z的维度为M，则N>>M。

Z也可以称做隐变量，因为Z并不是直接通过观测得到的变量。

解码器网络则接受低维特征Z的输入，通过另一个神经网络变成高维特征X1，X1的维度和X相同。

自编码器将原始观测变量X经过编码器后转变为低维向量Z，Z再经过解码器生成高维向量

(和X相同维度)，自编码器的的训练目标是使得

和原始的高维特征X尽可能相同，也即其损失函数就是这两个高维特征的差。观测变量依次经过一个解码器和一个编码器能实现最大程度的复原，说明X经过编码器生成的中间层Z携带了X中绝大多数信息。换句话说，如果降维后的Z丢失了X中的信息较多，则从Z通过解码器还原出X所有信息的概率可以忽略不计。所以Z可以近似作为X的替代。由于Z的维度远小于X，所以实现了降维。

实施例四、

参见图3所示，本发明还提出了一种知识图谱补全系统，其包括：

实施例五、

本公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于是——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。