CN115525773A

CN115525773A - 知识图谱补全模型的训练方法和装置

Info

Publication number: CN115525773A
Application number: CN202211234641.4A
Authority: CN
Inventors: 李涓子; 吕鑫; 姚子俊; 曾开胜; 张家杰; 冷佳泓
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-12-27

Abstract

本发明公开了一种知识图谱补全模型的训练方法和装置。方法包括：将三元组查询训练数据集转化为搜索查询训练数据集；构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；将该多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以预测该条三元组查询训练数据的尾实体，并将预测的尾实体与正确尾实体之间的交叉熵作为损失函数优化模型参数，以得到训练好的补全模型。该方法在不可被推理的关系的知识补全中取得了很好的效果，具有较高的鲁棒性。

Description

知识图谱补全模型的训练方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种知识图谱补全模型的训练方法和装置。

背景技术

知识图谱将世界知识表示成结构化的三元组形式，是很多人工智能研究的基石。然而，多数已有的知识图谱(如Wikidata等)是通过协同编辑的方式构建的，面临着比较严重的不完备的问题。例如，在超大规模知识图谱Freebase中，有71％的人缺少出生地信息，这限制了知识图谱在下游人工智能任务上的应用。

为了缓解知识图谱不完备的问题，知识图谱自动补全任务被提出。该任务通常使用知识图谱的schema(模式)信息来确认哪里存在缺失，然后使用知识图谱补全模型对这些缺失的知识做自动补全。在所有的知识图谱补全模型中，表示学习模型最为常见和重要，它们通常将实体和关系表示到向量空间中，并基于向量的运算操作来预测知识图谱中缺失的知识。

然而，表示学习模型的有效性依赖于一个假设，即知识图谱中缺失的知识可以通过已有的知识推理得到。尽管这个假设对于多数的关系是成立的，但仍然存在一些特例的关系。可以将这些特例的关系称为不可被推理的关系，假设成立的关系被称为可以被推理的关系。例如，死因这个关系就是一个不可被推理的关系，而母语这个关系则是一个可以被推理的关系。已有的表示学习方法在不可被推理的关系上的表现要显著低于可以被推理的关系。

一个合理的来解决不可被推理关系的方法是从文本中抽取相应的知识，而不是从已有的知识推理得到这些知识。目前已有三类方法可以从文本中抽取信息来补全知识图谱中缺失的知识：一是引入实体描述信息的表示学习模型，代表模型是发表在WWW2021上的StAR模型。这类模型在传统表示学习模型的基础上，进一步引入了实体的描述文本，这些文本中有可能含有缺失知识的信息。但是该类模型无法确保待补全的缺失知识在实体的描述文本中有所体现。即可能会出现比如任务需要预测出生地信息，但对应的描述文本中并没有相关的信息体现。在这种情况下，模型自然无法预测出缺失的知识。二是基于预训练语言模型的知识图谱补全方法，代表模型是发表于ACL 2022的KGT5模型。这类方法可以利用预训练语言模型中的隐含知识来弥补已有知识无法推理出缺失知识的不足。该类模型依赖于预训练语言模型中隐含的知识，例如预训练语言模型隐含了待预测的出生地信息，这类方法便可以很好的进行相应的补全。但是，预训练语言模型的容量是有限的，不能够精准的记住世界上所有的知识。三是基于信息检索和阅读理解的开放域问答模型，代表模型是NeurIPS 2020的RAG模型。这类模型主要服务于开放域问答，而不是知识图谱补全。但它仍然可以适配到知识图谱补全任务上，仅需要将三元组视为自然语言问句即可。但是由于该类模型本是为开放域问答设计的，因而他们的检索模块也是为自然语言问题服务的。在实际的实验中发现，在知识图谱补全任务中，这类方法的检索模块很难检索到有用的信息。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明第一方面提供了一种知识图谱补全模型的训练方法，包括：

构建三元组训练数据集，并将三元组训练数据集转化为三元组查询训练数据集；

将三元组查询训练数据集转化为搜索查询训练数据集；

构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；

利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；

将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以得到该条三元组查询训练数据的预测尾实体，并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数，以得到训练好的补全模型。

优选地，所述将三元组查询训练数据集转化为搜索查询训练数据集包括：

通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集；

所述三元组查询为：tq＝(h，r，？)；

所述转化函数包括：F_L(tq)＝LABEL(h)||LABEL(r)；

其中，h表示头实体，r表示关系，？表示待预测的尾实体，LABEL(x)表示x所对应的标签文本，x代表h或r，||表示拼接。

优选地，所述转化函数还包括：F_LA(tq)＝TEXT(h)||TEXT(r)；

其中，TEXT(x)表示x的别名所对应的标签文本。

优选地，所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括：

对于每条搜索查询训练数据，分别选取设定比例的不同类型的正例，并从中随机选取一个作为最终正例；将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例，并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。

优选地，所述正例包括实体类型正例、远程监督类型正例和答案类型正例，按照45％、45％和10％的比例选取实体类型正例、远程监督类型正例和答案类型正例。

优选地，所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括：

所述知识检索模块包括搜索查询的编码器和文档的编码器；

采用两个BERT模型作为搜索查询的编码器和文档的编码器；

使用点积衡量搜索查询和文档之间的相似度为：

sim(sq，d)＝QEnc(sq)^T·DEnc(d)

其中，sq和d分别为搜索查询和文档，QEnc和DEnc分别为搜索查询的编码器和文档的编码器，sim为相似度，QEnc(sq)^T为搜索查询的编码的转置；

采用对比学习训练搜索查询的编码器和文档的编码器，训练损失函数为：

其中，Q为搜索查询训练数据sq的集合，d⁺为搜索查询训练数据sq对应的正例文档，

为搜索查询训练数据sq对应的负例文档。

本发明第二方面提供了一种知识图谱补全模型的训练装置，包括：

三元组查询训练数据集构建模块，用于构建三元组训练数据集，并将三元组训练数据集转化为三元组查询训练数据集；

三元组查询训练数据集转化模块，用于将三元组查询训练数据集转化为搜索查询训练数据集；

正例和负例构建模块，用于构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；

知识检索模块预训练模块，用于利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；

补全模型参数优化模块，用于将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以得到该条三元组查询训练数据的预测尾实体，并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数，以得到训练好的补全模型。

本发明第三方面提供了一种知识图谱补全方法，包括：

将三元组查询输入到训练好的补全模型中，检索到与所述三元组查询相关的文本后，基于该检索到的文本预测出尾实体，完成三元组缺失知识的补全；

所述补全模型是预先采用如第一方面所述的方法训练得到的。

本发明第四方面提供了一种存储器，存储有多条指令，所述指令用于实现如第一方面所述的知识图谱补全模型的训练方法，或第三方面所述的知识图谱补全方法。

本发明第五方面提供了一种电子设备，其包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如第一方面所述的知识图谱补全模型的训练方法，或第三方面所述的知识图谱补全方法。

本发明的有益效果是：本发明提供的技术方案，通过对补全模型进行训练，利用训练好的补全模型对三元组尾实体进行预测完成对知识的补全。利用该补全模型，对于每个缺失的知识(转化为待预测的尾实体)，都可以被检索到与之相关的文本。之后利用生成式的阅读理解方法基于检索到的文本直接生成最终的答案，即完成缺失知识的补全。该方法在不可被推理的关系的知识补全中取得了很好的效果，具有较高的鲁棒性。

附图说明

图1为本发明所述知识图谱补全模型的训练方法流程示意图；

图2为本发明所述知识图谱补全模型的训练装置功能结构示意图；

图3为本发明所述知识图谱补全方法流程示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

本发明的目的是，针对不可被推理的关系提供一种基于知识检索和阅读理解的知识图谱补全模型的训练方法，并利用该训练好的模型进行知识图谱的补全。利用该模型，对于每个缺失的知识，都可以被检索到与之相关的文本，之后生成的阅读理解方法可以基于检索的文本直接生成最终的答案，即完成缺失知识的补全。

实施例一

如图1所示，本发明实施例提供了一种知识图谱补全模型的训练方法，包括：

S101，构建三元组训练数据集，并将三元组训练数据集转化为三元组查询训练数据集；

S102，将三元组查询训练数据集转化为搜索查询训练数据集；

S103，构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；

S104，利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；

S105，将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以得到该条三元组查询训练数据的预测尾实体，并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数，以得到训练好的补全模型。

本发明中，将三元组补全任务形式转化为三元组查询的尾实体预测任务，即给定一个三元组查询(h，r，？)，这里h是头实体，r是关系，我们需要预测出正确的尾实体。例如，三元组查询(姚明，出生地，？)的正确的尾实体是上海市。

为了完成三元组查询的尾实体预测，本发明首先对补全模型进行训练。然后可直接利用补全模型预测出尾实体。

对补全模型的训练可以包括两个部分，首先对知识检索模块进行预训练，然后将整体补全模型在知识图谱补全数据集上进行微调，在微调过程中优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数。

为了增加微调过程中对模型参数优化的确定性，本发明实施例中首先利用转化函数将三元组查询训练数据转化为搜索查询训练数据。

具体地，在本发明实施例中，所述将三元组查询训练数据集转化为搜索查询训练数据集包括：

所述三元组查询为：tq＝(h，r，？)；

所述转化函数包括：F_L(tq)＝LABEL(h)||LABEL(r)；

在本发明的一个优选实施例中，所述转化函数还包括：F_LA(tq)＝TEXT(h)||TEXT(r)；

其中，TEXT(x)表示x的别名所对应的标签文本。

在实际应用中，标签文本包括实体或关系对应的标签文本，还包括实体或关系的别名对应的标签文本。一般有50％的概率是实体或关系对应的标签文本，还有50％的概率是实体或关系的别名对应的标签文本。需要说明的是，实体或关系的别名可以包括多个。

因此，本发明中，采用F_LA函数可以进一步使用实体的别名信息来增加检索文档的多样性。

所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括：

进一步地，所述正例包括实体类型正例、远程监督类型正例和答案类型正例，按照45％、45％和10％的比例选取实体类型正例、远程监督类型正例和答案类型正例。

搜索查询训练数据集、正例文档集和负例文档集构建完成后，可以利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括：

所述知识检索模块包括搜索查询的编码器和文档的编码器；

采用两个BERT模型作为搜索查询的编码器和文档的编码器；

使用点积衡量搜索查询和文档之间的相似度为：

sim(sq，d)＝QEnc(sq)^T·DEnc(d)

其中，

为搜索查询训练数据sq的集合，d⁺为搜索查询训练数据sq对应的正例文档，

为搜索查询训练数据sq对应的负例文档。

对于上述方法，作为一个示例，可以首先从Wikidata中选取头尾实体都有维基百科链接的三元组，并从中随机选取60万个三元组作为训练数据，这些三元组训练数据组成了集合

对于集合

中的每个三元组(h，r，t)，对应有两个三元组查询，即(h，r，？)和(t，inv_r，？)，其中，h表示头实体，r表示关系，t表示正确的尾实体，inv_r表示关系r的反关系，三元组查询(h，r，？)中的“？”表示待预测的尾实体，三元组查询(t，inv_r，？)中的“？”表示待预测的尾实体。

本发明中通过调用F_L函数N次来分别得到三元组训练数据所对应的N个搜索查询。最终，所有的搜索查询形成了搜索查询训练数据集合

对于维基百科中的每个文章，可以将其切分为最大长度为100的若干文档，最终得到了25,570,310篇文档。对于搜索查询训练数据集合

中的每个搜索查询sq，如果它所对应的三元组查询是(h，r，？)，并且正确的尾实体是t，那么有三种类型的正例文档，即：实体类型正例、远程监督类型正例和答案类型正例。

实体类型正例旨在帮助知识检索模块更好的理解实体的语义信息，这类正例可以被定义为{Adocs(h)∩Mdocs(t)}，其中Adocs(x)表示从实体x(h或t)对应的维基文章中切分出的文档集合，Mdocs(x)表示实体x(h或t)作为实体提及出现过的文档集合。远程监督类型正例旨在帮助知识检索模块更好的理解关系的语义信息，这类正例可以被定义为{Mdocs(h)∩Mdocs(t)}。答案类型正例旨在帮助知识检索模块更好的检索到正确的答案，这类正例可以被定义为{Mdocs(t)}。对于搜索查询训练数据集合

中的每个搜索查询sq，可以按45％、45％和10％的比例分别选取上述三种正例，并从中随机选取一个。对于搜索查询sq，可以使用BM25搜索排序算法检索到的第一个不含t的文档作为强负例。

得到强负例之后，可以将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。因此，对于一个搜索查询sq，有一个正例的文档和n个负例的文档，其中n是训练的batch size(批次大小)的大小。在所有的n个负例文档中，有一个是和搜索查询sq相关的强负例，其余的n-1个是同一个batch(批次)中其他的搜索查询的正例。

在补全模型微调之前，本发明实施例中可以使用预训练的文档编码器来得到所有的25,570,310篇文档的向量表示，并基于Faiss构建索引。在微调时，仅优化搜索查询编码器的参数。

对于每个三元组查询，可以使用知识检索模块来检索与三元组查询语义最接近的K个文档。之后，使用F_L函数来得到对应的搜索查询，和K个文档拼接后输入到一个阅读理解模型中进行生成，得到最终的答案。这里，可以使用生成式预训练语言模型BART作为本发明中的阅读理解模块。然后使用预测的答案和正确答案之间的交叉熵损失来作为微调阶段的损失函数，该损失函数会同时优化搜索模块中的搜索查询编码器的参数和阅读理解模块中的预训练语言模型BART。

实施例二

如图2所示，本发明的还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种知识图谱补全模型的训练装置，包括：

三元组查询训练数据集构建模块201，用于构建三元组训练数据集，并将三元组训练数据集转化为三元组查询训练数据集；

三元组查询训练数据集转化模块202，用于将三元组查询训练数据集转化为搜索查询训练数据集；

正例和负例构建模块203，用于构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；

知识检索模块预训练模块204，用于利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；

补全模型参数优化模块205，用于将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以得到该条三元组查询训练数据的预测尾实体，并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数，以得到训练好的补全模型。

进一步地，在所述三元组查询训练数据集转化模块中，将三元组查询训练数据集转化为搜索查询训练数据集包括：

所述三元组查询为：tq＝(h，r，？)；

所述转化函数包括：F_L(tq)＝LABEL(h)||LABEL(r)；

进一步地，所述转化函数还包括：F_LA(tq)＝TEXT(h)||TEXT(r)；

其中，TEXT(x)表示x的别名所对应的标签文本。

进一步地，在所述正例和负例构建模块中，所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括：

其中，所述正例包括实体类型正例、远程监督类型正例和答案类型正例，按照45％、45％和10％的比例选取实体类型正例、远程监督类型正例和答案类型正例。

进一步地，在所述知识检索模块预训练模块中，所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括：

所述知识检索模块包括搜索查询的编码器和文档的编码器；

采用两个BERT模型作为搜索查询的编码器和文档的编码器；

使用点积衡量搜索查询和文档之间的相似度为：

sim(sq，d)＝QEnc(sq)^T·DEnc(d)

其中，

为搜索查询训练数据sq对应的负例文档。

该装置可通过上述实施例一提供的知识图谱补全模型的训练方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

实施例三

如图3所示，本发明实施例提供了一种知识图谱补全方法，包括：

将三元组查询输入到训练好的补全模型中，检索到与所述三元组查询相关的文本后，基于该检索到的文本预测出尾实体，完成三元组缺失知识的补全；所述补全模型是预先采用如实施例一所述的方法训练得到的。

不同于利用知识图谱已有知识来补全缺失知识的方法，本发明提供的补全方法，对于待补全的缺失知识，通过从海量的文本中检索到相关的文档，并利用相关文档基于阅读理解的方法进行补全。实际应用和实验发现该方法在不能被推理的关系上可以取得很好的效果，具有较高的鲁棒性。具体的实验过程和结果为：

首先，利用本发明的方法在通用的数据集CoDEx-M和FB15K-237-N上进行了实验，实验结果表明本发明提供的模型和TuckER结合的方法在所有的评测方式上都显著的超过了已有的技术方案。此外，将这两个数据集CoDEx-M和FB15K-237-N分别切分出了两个子集：可以被推理的关系的子集和不可被推理的关系的子集。利用本发明的方法在子集上分别进行了实验，实验结果表明在不可被推理的关系的子集上，本发明提供的方法表现要大幅优于已有的技术方案。以上实验结果表明本发明提供的基于知识检索和阅读理解的补全方法可以很好的解决不可被推理的关系的缺失知识补全的问题。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的知识图谱补全模型的训练方法，或如实施例三所述的知识图谱补全方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的知识图谱补全模型的训练方法，或如实施例三所述的知识图谱补全方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种知识图谱补全模型的训练方法，其特征在于，包括：

将三元组查询训练数据集转化为搜索查询训练数据集；

2.如权利要求1所述的知识图谱补全模型的训练方法，其特征在于，所述将三元组查询训练数据集转化为搜索查询训练数据集包括：

所述三元组查询为：tq＝(h,r,？)；

所述转化函数包括：F_L(tq)＝LABEL(h)||LABEL(r)；

3.如权利要求2所述的知识图谱补全模型的训练方法，其特征在于，所述转化函数还包括：F_LA(tq)＝TEXT(h)||TEXT(r)；

其中，TEXT(x)表示x的别名所对应的标签文本。

4.如权利要求1所述的知识图谱补全模型的训练方法，其特征在于，所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括：

5.如权利要求4所述的知识图谱补全模型的训练方法，其特征在于，所述正例包括实体类型正例、远程监督类型正例和答案类型正例，按照45％、45％和10％的比例选取实体类型正例、远程监督类型正例和答案类型正例。

6.如权利要求1所述的知识图谱补全模型的训练方法，其特征在于，所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括：

所述知识检索模块包括搜索查询的编码器和文档的编码器；

采用两个BERT模型作为搜索查询的编码器和文档的编码器；

使用点积衡量搜索查询和文档之间的相似度为：

sim(sq,d)＝QEnc(sq)^T·DEnc(d)

其中，

为搜索查询训练数据sq对应的负例文档。

7.一种知识图谱补全模型的训练装置，其特征在于，包括：

8.一种知识图谱补全方法，其特征在于，包括：

所述补全模型是预先采用如权利要求1-6任一项所述的方法训练得到的。

9.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-6任一项所述的知识图谱补全模型的训练方法，或如权利要求8所述的知识图谱补全方法。

10.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-6任一项所述的知识图谱补全模型的训练方法，或如权利要求8所述的知识图谱补全方法。