CN115525773A - 知识图谱补全模型的训练方法和装置 - Google Patents

知识图谱补全模型的训练方法和装置 Download PDF

Info

Publication number
CN115525773A
CN115525773A CN202211234641.4A CN202211234641A CN115525773A CN 115525773 A CN115525773 A CN 115525773A CN 202211234641 A CN202211234641 A CN 202211234641A CN 115525773 A CN115525773 A CN 115525773A
Authority
CN
China
Prior art keywords
training data
search query
triple
training
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211234641.4A
Other languages
English (en)
Inventor
李涓子
吕鑫
姚子俊
曾开胜
张家杰
冷佳泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202211234641.4A priority Critical patent/CN115525773A/zh
Publication of CN115525773A publication Critical patent/CN115525773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱补全模型的训练方法和装置。方法包括:将三元组查询训练数据集转化为搜索查询训练数据集;构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;将该多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以预测该条三元组查询训练数据的尾实体,并将预测的尾实体与正确尾实体之间的交叉熵作为损失函数优化模型参数,以得到训练好的补全模型。该方法在不可被推理的关系的知识补全中取得了很好的效果,具有较高的鲁棒性。

Description

知识图谱补全模型的训练方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种知识图谱补全模型的训练方法和装置。
背景技术
知识图谱将世界知识表示成结构化的三元组形式,是很多人工智能研究的基石。然而,多数已有的知识图谱(如Wikidata等)是通过协同编辑的方式构建的,面临着比较严重的不完备的问题。例如,在超大规模知识图谱Freebase中,有71%的人缺少出生地信息,这限制了知识图谱在下游人工智能任务上的应用。
为了缓解知识图谱不完备的问题,知识图谱自动补全任务被提出。该任务通常使用知识图谱的schema(模式)信息来确认哪里存在缺失,然后使用知识图谱补全模型对这些缺失的知识做自动补全。在所有的知识图谱补全模型中,表示学习模型最为常见和重要,它们通常将实体和关系表示到向量空间中,并基于向量的运算操作来预测知识图谱中缺失的知识。
然而,表示学习模型的有效性依赖于一个假设,即知识图谱中缺失的知识可以通过已有的知识推理得到。尽管这个假设对于多数的关系是成立的,但仍然存在一些特例的关系。可以将这些特例的关系称为不可被推理的关系,假设成立的关系被称为可以被推理的关系。例如,死因这个关系就是一个不可被推理的关系,而母语这个关系则是一个可以被推理的关系。已有的表示学习方法在不可被推理的关系上的表现要显著低于可以被推理的关系。
一个合理的来解决不可被推理关系的方法是从文本中抽取相应的知识,而不是从已有的知识推理得到这些知识。目前已有三类方法可以从文本中抽取信息来补全知识图谱中缺失的知识:一是引入实体描述信息的表示学习模型,代表模型是发表在WWW2021上的StAR模型。这类模型在传统表示学习模型的基础上,进一步引入了实体的描述文本,这些文本中有可能含有缺失知识的信息。但是该类模型无法确保待补全的缺失知识在实体的描述文本中有所体现。即可能会出现比如任务需要预测出生地信息,但对应的描述文本中并没有相关的信息体现。在这种情况下,模型自然无法预测出缺失的知识。二是基于预训练语言模型的知识图谱补全方法,代表模型是发表于ACL 2022的KGT5模型。这类方法可以利用预训练语言模型中的隐含知识来弥补已有知识无法推理出缺失知识的不足。该类模型依赖于预训练语言模型中隐含的知识,例如预训练语言模型隐含了待预测的出生地信息,这类方法便可以很好的进行相应的补全。但是,预训练语言模型的容量是有限的,不能够精准的记住世界上所有的知识。三是基于信息检索和阅读理解的开放域问答模型,代表模型是NeurIPS 2020的RAG模型。这类模型主要服务于开放域问答,而不是知识图谱补全。但它仍然可以适配到知识图谱补全任务上,仅需要将三元组视为自然语言问句即可。但是由于该类模型本是为开放域问答设计的,因而他们的检索模块也是为自然语言问题服务的。在实际的实验中发现,在知识图谱补全任务中,这类方法的检索模块很难检索到有用的信息。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种知识图谱补全模型的训练方法,包括:
构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
将三元组查询训练数据集转化为搜索查询训练数据集;
构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
优选地,所述将三元组查询训练数据集转化为搜索查询训练数据集包括:
通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集;
所述三元组查询为:tq=(h,r,?);
所述转化函数包括:FL(tq)=LABEL(h)||LABEL(r);
其中,h表示头实体,r表示关系,?表示待预测的尾实体,LABEL(x)表示x所对应的标签文本,x代表h或r,||表示拼接。
优选地,所述转化函数还包括:FLA(tq)=TEXT(h)||TEXT(r);
其中,TEXT(x)表示x的别名所对应的标签文本。
优选地,所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括:
对于每条搜索查询训练数据,分别选取设定比例的不同类型的正例,并从中随机选取一个作为最终正例;将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例,并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。
优选地,所述正例包括实体类型正例、远程监督类型正例和答案类型正例,按照45%、45%和10%的比例选取实体类型正例、远程监督类型正例和答案类型正例。
优选地,所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括:
所述知识检索模块包括搜索查询的编码器和文档的编码器;
采用两个BERT模型作为搜索查询的编码器和文档的编码器;
使用点积衡量搜索查询和文档之间的相似度为:
sim(sq,d)=QEnc(sq)T·DEnc(d)
其中,sq和d分别为搜索查询和文档,QEnc和DEnc分别为搜索查询的编码器和文档的编码器,sim为相似度,QEnc(sq)T为搜索查询的编码的转置;
采用对比学习训练搜索查询的编码器和文档的编码器,训练损失函数为:
Figure BDA0003883147750000041
其中,Q为搜索查询训练数据sq的集合,d+为搜索查询训练数据sq对应的正例文档,
Figure BDA0003883147750000042
为搜索查询训练数据sq对应的负例文档。
本发明第二方面提供了一种知识图谱补全模型的训练装置,包括:
三元组查询训练数据集构建模块,用于构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
三元组查询训练数据集转化模块,用于将三元组查询训练数据集转化为搜索查询训练数据集;
正例和负例构建模块,用于构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
知识检索模块预训练模块,用于利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
补全模型参数优化模块,用于将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
本发明第三方面提供了一种知识图谱补全方法,包括:
将三元组查询输入到训练好的补全模型中,检索到与所述三元组查询相关的文本后,基于该检索到的文本预测出尾实体,完成三元组缺失知识的补全;
所述补全模型是预先采用如第一方面所述的方法训练得到的。
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的知识图谱补全模型的训练方法,或第三方面所述的知识图谱补全方法。
本发明第五方面提供了一种电子设备,其包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的知识图谱补全模型的训练方法,或第三方面所述的知识图谱补全方法。
本发明的有益效果是:本发明提供的技术方案,通过对补全模型进行训练,利用训练好的补全模型对三元组尾实体进行预测完成对知识的补全。利用该补全模型,对于每个缺失的知识(转化为待预测的尾实体),都可以被检索到与之相关的文本。之后利用生成式的阅读理解方法基于检索到的文本直接生成最终的答案,即完成缺失知识的补全。该方法在不可被推理的关系的知识补全中取得了很好的效果,具有较高的鲁棒性。
附图说明
图1为本发明所述知识图谱补全模型的训练方法流程示意图;
图2为本发明所述知识图谱补全模型的训练装置功能结构示意图;
图3为本发明所述知识图谱补全方法流程示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
本发明的目的是,针对不可被推理的关系提供一种基于知识检索和阅读理解的知识图谱补全模型的训练方法,并利用该训练好的模型进行知识图谱的补全。利用该模型,对于每个缺失的知识,都可以被检索到与之相关的文本,之后生成的阅读理解方法可以基于检索的文本直接生成最终的答案,即完成缺失知识的补全。
实施例一
如图1所示,本发明实施例提供了一种知识图谱补全模型的训练方法,包括:
S101,构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
S102,将三元组查询训练数据集转化为搜索查询训练数据集;
S103,构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
S104,利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
S105,将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
本发明中,将三元组补全任务形式转化为三元组查询的尾实体预测任务,即给定一个三元组查询(h,r,?),这里h是头实体,r是关系,我们需要预测出正确的尾实体。例如,三元组查询(姚明,出生地,?)的正确的尾实体是上海市。
为了完成三元组查询的尾实体预测,本发明首先对补全模型进行训练。然后可直接利用补全模型预测出尾实体。
对补全模型的训练可以包括两个部分,首先对知识检索模块进行预训练,然后将整体补全模型在知识图谱补全数据集上进行微调,在微调过程中优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数。
为了增加微调过程中对模型参数优化的确定性,本发明实施例中首先利用转化函数将三元组查询训练数据转化为搜索查询训练数据。
具体地,在本发明实施例中,所述将三元组查询训练数据集转化为搜索查询训练数据集包括:
通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集;
所述三元组查询为:tq=(h,r,?);
所述转化函数包括:FL(tq)=LABEL(h)||LABEL(r);
其中,h表示头实体,r表示关系,?表示待预测的尾实体,LABEL(x)表示x所对应的标签文本,x代表h或r,||表示拼接。
在本发明的一个优选实施例中,所述转化函数还包括:FLA(tq)=TEXT(h)||TEXT(r);
其中,TEXT(x)表示x的别名所对应的标签文本。
在实际应用中,标签文本包括实体或关系对应的标签文本,还包括实体或关系的别名对应的标签文本。一般有50%的概率是实体或关系对应的标签文本,还有50%的概率是实体或关系的别名对应的标签文本。需要说明的是,实体或关系的别名可以包括多个。
因此,本发明中,采用FLA函数可以进一步使用实体的别名信息来增加检索文档的多样性。
所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括:
对于每条搜索查询训练数据,分别选取设定比例的不同类型的正例,并从中随机选取一个作为最终正例;将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例,并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。
进一步地,所述正例包括实体类型正例、远程监督类型正例和答案类型正例,按照45%、45%和10%的比例选取实体类型正例、远程监督类型正例和答案类型正例。
搜索查询训练数据集、正例文档集和负例文档集构建完成后,可以利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括:
所述知识检索模块包括搜索查询的编码器和文档的编码器;
采用两个BERT模型作为搜索查询的编码器和文档的编码器;
使用点积衡量搜索查询和文档之间的相似度为:
sim(sq,d)=QEnc(sq)T·DEnc(d)
其中,sq和d分别为搜索查询和文档,QEnc和DEnc分别为搜索查询的编码器和文档的编码器,sim为相似度,QEnc(sq)T为搜索查询的编码的转置;
采用对比学习训练搜索查询的编码器和文档的编码器,训练损失函数为:
Figure BDA0003883147750000091
其中,
Figure BDA0003883147750000101
为搜索查询训练数据sq的集合,d+为搜索查询训练数据sq对应的正例文档,
Figure BDA0003883147750000102
为搜索查询训练数据sq对应的负例文档。
对于上述方法,作为一个示例,可以首先从Wikidata中选取头尾实体都有维基百科链接的三元组,并从中随机选取60万个三元组作为训练数据,这些三元组训练数据组成了集合
Figure BDA0003883147750000103
对于集合
Figure BDA0003883147750000104
中的每个三元组(h,r,t),对应有两个三元组查询,即(h,r,?)和(t,inv_r,?),其中,h表示头实体,r表示关系,t表示正确的尾实体,inv_r表示关系r的反关系,三元组查询(h,r,?)中的“?”表示待预测的尾实体,三元组查询(t,inv_r,?)中的“?”表示待预测的尾实体。
本发明中通过调用FL函数N次来分别得到三元组训练数据所对应的N个搜索查询。最终,所有的搜索查询形成了搜索查询训练数据集合
Figure BDA0003883147750000105
对于维基百科中的每个文章,可以将其切分为最大长度为100的若干文档,最终得到了25,570,310篇文档。对于搜索查询训练数据集合
Figure BDA0003883147750000106
中的每个搜索查询sq,如果它所对应的三元组查询是(h,r,?),并且正确的尾实体是t,那么有三种类型的正例文档,即:实体类型正例、远程监督类型正例和答案类型正例。
实体类型正例旨在帮助知识检索模块更好的理解实体的语义信息,这类正例可以被定义为{Adocs(h)∩Mdocs(t)},其中Adocs(x)表示从实体x(h或t)对应的维基文章中切分出的文档集合,Mdocs(x)表示实体x(h或t)作为实体提及出现过的文档集合。远程监督类型正例旨在帮助知识检索模块更好的理解关系的语义信息,这类正例可以被定义为{Mdocs(h)∩Mdocs(t)}。答案类型正例旨在帮助知识检索模块更好的检索到正确的答案,这类正例可以被定义为{Mdocs(t)}。对于搜索查询训练数据集合
Figure BDA0003883147750000107
中的每个搜索查询sq,可以按45%、45%和10%的比例分别选取上述三种正例,并从中随机选取一个。对于搜索查询sq,可以使用BM25搜索排序算法检索到的第一个不含t的文档作为强负例。
得到强负例之后,可以将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。因此,对于一个搜索查询sq,有一个正例的文档和n个负例的文档,其中n是训练的batch size(批次大小)的大小。在所有的n个负例文档中,有一个是和搜索查询sq相关的强负例,其余的n-1个是同一个batch(批次)中其他的搜索查询的正例。
在补全模型微调之前,本发明实施例中可以使用预训练的文档编码器来得到所有的25,570,310篇文档的向量表示,并基于Faiss构建索引。在微调时,仅优化搜索查询编码器的参数。
对于每个三元组查询,可以使用知识检索模块来检索与三元组查询语义最接近的K个文档。之后,使用FL函数来得到对应的搜索查询,和K个文档拼接后输入到一个阅读理解模型中进行生成,得到最终的答案。这里,可以使用生成式预训练语言模型BART作为本发明中的阅读理解模块。然后使用预测的答案和正确答案之间的交叉熵损失来作为微调阶段的损失函数,该损失函数会同时优化搜索模块中的搜索查询编码器的参数和阅读理解模块中的预训练语言模型BART。
实施例二
如图2所示,本发明的还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种知识图谱补全模型的训练装置,包括:
三元组查询训练数据集构建模块201,用于构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
三元组查询训练数据集转化模块202,用于将三元组查询训练数据集转化为搜索查询训练数据集;
正例和负例构建模块203,用于构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
知识检索模块预训练模块204,用于利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
补全模型参数优化模块205,用于将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
进一步地,在所述三元组查询训练数据集转化模块中,将三元组查询训练数据集转化为搜索查询训练数据集包括:
通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集;
所述三元组查询为:tq=(h,r,?);
所述转化函数包括:FL(tq)=LABEL(h)||LABEL(r);
其中,h表示头实体,r表示关系,?表示待预测的尾实体,LABEL(x)表示x所对应的标签文本,x代表h或r,||表示拼接。
进一步地,所述转化函数还包括:FLA(tq)=TEXT(h)||TEXT(r);
其中,TEXT(x)表示x的别名所对应的标签文本。
进一步地,在所述正例和负例构建模块中,所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括:
对于每条搜索查询训练数据,分别选取设定比例的不同类型的正例,并从中随机选取一个作为最终正例;将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例,并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。
其中,所述正例包括实体类型正例、远程监督类型正例和答案类型正例,按照45%、45%和10%的比例选取实体类型正例、远程监督类型正例和答案类型正例。
进一步地,在所述知识检索模块预训练模块中,所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括:
所述知识检索模块包括搜索查询的编码器和文档的编码器;
采用两个BERT模型作为搜索查询的编码器和文档的编码器;
使用点积衡量搜索查询和文档之间的相似度为:
sim(sq,d)=QEnc(sq)T·DEnc(d)
其中,sq和d分别为搜索查询和文档,QEnc和DEnc分别为搜索查询的编码器和文档的编码器,sim为相似度,QEnc(sq)T为搜索查询的编码的转置;
采用对比学习训练搜索查询的编码器和文档的编码器,训练损失函数为:
Figure BDA0003883147750000131
其中,
Figure BDA0003883147750000132
为搜索查询训练数据sq的集合,d+为搜索查询训练数据sq对应的正例文档,
Figure BDA0003883147750000133
为搜索查询训练数据sq对应的负例文档。
该装置可通过上述实施例一提供的知识图谱补全模型的训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
实施例三
如图3所示,本发明实施例提供了一种知识图谱补全方法,包括:
将三元组查询输入到训练好的补全模型中,检索到与所述三元组查询相关的文本后,基于该检索到的文本预测出尾实体,完成三元组缺失知识的补全;所述补全模型是预先采用如实施例一所述的方法训练得到的。
不同于利用知识图谱已有知识来补全缺失知识的方法,本发明提供的补全方法,对于待补全的缺失知识,通过从海量的文本中检索到相关的文档,并利用相关文档基于阅读理解的方法进行补全。实际应用和实验发现该方法在不能被推理的关系上可以取得很好的效果,具有较高的鲁棒性。具体的实验过程和结果为:
首先,利用本发明的方法在通用的数据集CoDEx-M和FB15K-237-N上进行了实验,实验结果表明本发明提供的模型和TuckER结合的方法在所有的评测方式上都显著的超过了已有的技术方案。此外,将这两个数据集CoDEx-M和FB15K-237-N分别切分出了两个子集:可以被推理的关系的子集和不可被推理的关系的子集。利用本发明的方法在子集上分别进行了实验,实验结果表明在不可被推理的关系的子集上,本发明提供的方法表现要大幅优于已有的技术方案。以上实验结果表明本发明提供的基于知识检索和阅读理解的补全方法可以很好的解决不可被推理的关系的缺失知识补全的问题。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的知识图谱补全模型的训练方法,或如实施例三所述的知识图谱补全方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的知识图谱补全模型的训练方法,或如实施例三所述的知识图谱补全方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种知识图谱补全模型的训练方法,其特征在于,包括:
构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
将三元组查询训练数据集转化为搜索查询训练数据集;
构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
2.如权利要求1所述的知识图谱补全模型的训练方法,其特征在于,所述将三元组查询训练数据集转化为搜索查询训练数据集包括:
通过调用转化函数将三元组查询训练数据集转化为搜索查询训练数据集;
所述三元组查询为:tq=(h,r,?);
所述转化函数包括:FL(tq)=LABEL(h)||LABEL(r);
其中,h表示头实体,r表示关系,?表示待预测的尾实体,LABEL(x)表示x所对应的标签文本,x代表h或r,||表示拼接。
3.如权利要求2所述的知识图谱补全模型的训练方法,其特征在于,所述转化函数还包括:FLA(tq)=TEXT(h)||TEXT(r);
其中,TEXT(x)表示x的别名所对应的标签文本。
4.如权利要求1所述的知识图谱补全模型的训练方法,其特征在于,所述构建与每条搜索查询训练数据对应的正例文档和负例文档包括:
对于每条搜索查询训练数据,分别选取设定比例的不同类型的正例,并从中随机选取一个作为最终正例;将使用BM25搜索排序算法检索到的第一个不含有三元组尾实体的文档作为强负例,并将强负例与其他搜索查询训练数据对应的最终正例构成该条搜索查询训练数据对应的最终负例。
5.如权利要求4所述的知识图谱补全模型的训练方法,其特征在于,所述正例包括实体类型正例、远程监督类型正例和答案类型正例,按照45%、45%和10%的比例选取实体类型正例、远程监督类型正例和答案类型正例。
6.如权利要求1所述的知识图谱补全模型的训练方法,其特征在于,所述利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练包括:
所述知识检索模块包括搜索查询的编码器和文档的编码器;
采用两个BERT模型作为搜索查询的编码器和文档的编码器;
使用点积衡量搜索查询和文档之间的相似度为:
sim(sq,d)=QEnc(sq)T·DEnc(d)
其中,sq和d分别为搜索查询和文档,QEnc和DEnc分别为搜索查询的编码器和文档的编码器,sim为相似度,QEnc(sq)T为搜索查询的编码的转置;
采用对比学习训练搜索查询的编码器和文档的编码器,训练损失函数为:
Figure FDA0003883147740000021
其中,
Figure FDA0003883147740000022
为搜索查询训练数据sq的集合,d+为搜索查询训练数据sq对应的正例文档,
Figure FDA0003883147740000031
为搜索查询训练数据sq对应的负例文档。
7.一种知识图谱补全模型的训练装置,其特征在于,包括:
三元组查询训练数据集构建模块,用于构建三元组训练数据集,并将三元组训练数据集转化为三元组查询训练数据集;
三元组查询训练数据集转化模块,用于将三元组查询训练数据集转化为搜索查询训练数据集;
正例和负例构建模块,用于构建与每条搜索查询训练数据对应的正例文档和负例文档,得到正例文档集和负例文档集;
知识检索模块预训练模块,用于利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练,以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档;
补全模型参数优化模块,用于将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中,以得到该条三元组查询训练数据的预测尾实体,并将预测尾实体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模块中预训练语言模型的参数,以得到训练好的补全模型。
8.一种知识图谱补全方法,其特征在于,包括:
将三元组查询输入到训练好的补全模型中,检索到与所述三元组查询相关的文本后,基于该检索到的文本预测出尾实体,完成三元组缺失知识的补全;
所述补全模型是预先采用如权利要求1-6任一项所述的方法训练得到的。
9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的知识图谱补全模型的训练方法,或如权利要求8所述的知识图谱补全方法。
10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的知识图谱补全模型的训练方法,或如权利要求8所述的知识图谱补全方法。
CN202211234641.4A 2022-10-10 2022-10-10 知识图谱补全模型的训练方法和装置 Pending CN115525773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211234641.4A CN115525773A (zh) 2022-10-10 2022-10-10 知识图谱补全模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211234641.4A CN115525773A (zh) 2022-10-10 2022-10-10 知识图谱补全模型的训练方法和装置

Publications (1)

Publication Number Publication Date
CN115525773A true CN115525773A (zh) 2022-12-27

Family

ID=84701204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211234641.4A Pending CN115525773A (zh) 2022-10-10 2022-10-10 知识图谱补全模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN115525773A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910272A (zh) * 2023-08-09 2023-10-20 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN116933757A (zh) * 2023-09-15 2023-10-24 京华信息科技股份有限公司 一种应用语言人工智能的文书生成方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102234850B1 (ko) * 2019-11-15 2021-04-02 숭실대학교산학협력단 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
CN113742488A (zh) * 2021-07-30 2021-12-03 清华大学 基于多任务学习的嵌入式知识图谱补全方法和装置
CN113918730A (zh) * 2021-10-12 2022-01-11 云南电网有限责任公司电力科学研究院 一种知识图谱关系补全方法
CN113987201A (zh) * 2021-10-20 2022-01-28 浙江大学 一种基于本体适配器的零样本知识图谱补全方法
CN114117075A (zh) * 2021-11-30 2022-03-01 中山大学 基于语义对齐及对称结构编码的知识图谱补全方法及装置
WO2022088672A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质
CN114610900A (zh) * 2022-03-14 2022-06-10 上海交通大学 知识图谱补全方法及系统
CN114817576A (zh) * 2022-06-28 2022-07-29 北京邮电大学 模型训练及专利知识图谱补全方法、装置及存储介质
CN115114421A (zh) * 2022-06-21 2022-09-27 青岛海信网络科技股份有限公司 一种问答模型训练方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102234850B1 (ko) * 2019-11-15 2021-04-02 숭실대학교산학협력단 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
WO2022088672A1 (zh) * 2020-10-29 2022-05-05 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质
CN113742488A (zh) * 2021-07-30 2021-12-03 清华大学 基于多任务学习的嵌入式知识图谱补全方法和装置
CN113918730A (zh) * 2021-10-12 2022-01-11 云南电网有限责任公司电力科学研究院 一种知识图谱关系补全方法
CN113987201A (zh) * 2021-10-20 2022-01-28 浙江大学 一种基于本体适配器的零样本知识图谱补全方法
CN114117075A (zh) * 2021-11-30 2022-03-01 中山大学 基于语义对齐及对称结构编码的知识图谱补全方法及装置
CN114610900A (zh) * 2022-03-14 2022-06-10 上海交通大学 知识图谱补全方法及系统
CN115114421A (zh) * 2022-06-21 2022-09-27 青岛海信网络科技股份有限公司 一种问答模型训练方法
CN114817576A (zh) * 2022-06-28 2022-07-29 北京邮电大学 模型训练及专利知识图谱补全方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
昌攀;曹扬;: "改进的TransH模型在知识表示与推理领域的研究", 广西大学学报(自然科学版), no. 02, 25 April 2020 (2020-04-25) *
杜文倩;李弼程;王瑞;: "融合实体描述及类型的知识图谱表示学习方法", 中文信息学报, no. 07, 15 July 2020 (2020-07-15) *
王子涵;邵明光;刘国军;郭茂祖;毕建东;刘扬;: "基于实体相似度信息的知识图谱补全算法", 计算机应用, no. 11, 10 November 2018 (2018-11-10) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910272A (zh) * 2023-08-09 2023-10-20 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN116910272B (zh) * 2023-08-09 2024-03-01 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN116933757A (zh) * 2023-09-15 2023-10-24 京华信息科技股份有限公司 一种应用语言人工智能的文书生成方法及系统
CN116933757B (zh) * 2023-09-15 2023-12-29 京华信息科技股份有限公司 一种应用语言人工智能的文书生成方法及系统

Similar Documents

Publication Publication Date Title
CN115525773A (zh) 知识图谱补全模型的训练方法和装置
EP4022603A1 (en) System and method to extract customized information in natural language text
CN113704386A (zh) 一种基于深度学习的文本推荐方法、装置及相关介质
CN112506945B (zh) 基于知识图谱的自适应导学方法及系统
CN108509539B (zh) 信息处理方法电子设备
CN114117000A (zh) 应答方法、装置、设备及存储介质
CN116383352A (zh) 一种基于知识图谱的零样本构建领域智能问答系统的方法
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN117312499A (zh) 一种基于语义的大数据分析系统及方法
CN117688163B (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
CN117094395A (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
CN111783465B (zh) 一种命名实体归一化方法、系统及相关装置
CN114398883A (zh) 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114691880A (zh) 知识图谱构建方法、装置及电子设备
CN112015891A (zh) 基于深度神经网络的网络问政平台留言分类的方法及系统
Chen et al. Eliciting knowledge from language models with automatically generated continuous prompts
CN117435928B (zh) 实体关系抽取模型的训练方法、实体关系抽取方法及设备
CN112988952B (zh) 一种多层级长文本向量检索方法、装置和电子设备
Woolf et al. An active learning approach to transcript coding for education research
CN117891927B (zh) 基于大语言模型的问答方法、装置、电子设备及存储介质
CN117093719A (zh) 综合能源服务生态图谱构建方法、装置、电子设备及介质
CN117610586A (zh) 一种领域知识图谱的自适应机器翻译方法、介质及终端
CN117891831A (zh) 基于大模型的变电站运维智能问答方法、相关方法及装置
CN117521789A (zh) 基于语义动态感知的可解释多跳食品知识图谱问答方法
CN116756179A (zh) 数据库操作语句生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination