CN114610900A - 知识图谱补全方法及系统 - Google Patents

知识图谱补全方法及系统 Download PDF

Info

Publication number
CN114610900A
CN114610900A CN202210249612.9A CN202210249612A CN114610900A CN 114610900 A CN114610900 A CN 114610900A CN 202210249612 A CN202210249612 A CN 202210249612A CN 114610900 A CN114610900 A CN 114610900A
Authority
CN
China
Prior art keywords
vector
module
projection
knowledge graph
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210249612.9A
Other languages
English (en)
Inventor
唐飞龙
任世伟
朱燕民
俞嘉地
唐灿
姚斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202210249612.9A priority Critical patent/CN114610900A/zh
Publication of CN114610900A publication Critical patent/CN114610900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种知识图谱补全方法及系统,涉及数据处理技术领域,该方法包括:步骤S1:输入需要进行缺失三元组补全的知识图谱;步骤S2:训练基于空间投影和卷积神经网络的负采样评估模型;步骤S3:根据负采样评估模型生成高质量错误三元组来构建训练集;步骤S4:训练融合三元组上下文语义的知识图谱补全模型;步骤S5:根据知识图谱补全模型进行知识图谱补全。本发明能够获得优异的知识图谱补全评价指标的情况下,能够适用于大规模知识图谱补全任务。

Description

知识图谱补全方法及系统
技术领域
本发明涉及数据处理、自然语言处理(NLP)技术领域,具体地,涉及一种基于融合三元组上下文语义与负采样优化的知识图谱补全方法,尤其涉及一种知识图谱补全方法及系统。
背景技术
随着互联网的快速发展,当前互联网上所提供的信息量非常巨大,并且还在日益扩充。例如,有超过19.4亿个网站与万维网链接,搜索引擎(例如Google、Bing等)可以通过这些链接并以极高的精度和速度提供有用的信息。在大多数成功的搜索引擎中,知识图谱起到了非常重要的作用。知识图谱(Knowledge graph,KG)是客观世界知识的结构化表示,以一种便于存储、识别和理解的方式为机器管理数据。知识图谱由实体、关系、属性和语义描述组成,实体是客观世界中的对象,关系描述了两个实体之间的相互作用和影响,属性描述实体的特征,语义描述包括实体名称字符串、数字值、文字信息和字符串属性值等。知识图谱中的知识一般采用RDF(Resource Description Framework,资源描述框架)进行存储,每条知识表示为一个三元组(h,r,t),众多的RDF三元组构成了我们通常所说的知识图谱。知识图谱融合了多种语言和多个知识源的信息,其应用场景不仅限于搜索引擎,社交网站(如Facebook等)、电子商务网站(如亚马逊等)也在使用知识图谱来存储和检索有用信息。知识图谱已经成为许多人工智能应用的重要知识来源,如信息提取、智能问答、事实核查等。
在过去的几年里,由于知识图谱在人工智能应用中的重要作用,无论是研究界还是产业界对知识图谱的兴趣都呈指数级增长,并且涌现出众多大规模知识图谱,例如Cyc、Freebase、DBpedia、YAGO和Wikidata等。知识图谱本质上是一种语义网络,是对现实世界中事物及其关系的形式化描述。现实世界中存在着大量的实体和概念,它们之间的关系复杂多样,相应地,大规模的知识图通常包括数千万个实体和数亿个关系。因此,尽可能全面地集成更多的实体关系信息是一般知识图的一个重要目标。然而,大多数知识图谱是人工或半自动构建的,虽然常用的大规模知识图谱如Freebase、DBpedia、YAGO等包含了数百万个实体和关系,但仍存在大量的事实缺失,实体间的许多隐含关系未被充分挖掘,导致知识图谱的结构和内容不完整。因此不完整性、数据稀疏性成为几乎所有知识图谱的普遍问题。例如,在Freebase和DBpedia中超过66%的人物实体缺少出生地信息。知识图谱补全技术通过预测知识实例(实体、关系、属性等)、挖掘缺失的实体、关系或发现新的事实来补充现有知识图谱结构,是发现新知识的重要手段,广泛应用于知识图谱的高级任务中。
公开号为CN112084341A的发明专利,公开了一种基于三元组重要性的知识图谱补全方法,包括一:估计知识图谱中三元组的头实体的重要性和尾实体的重要性;二:估计三元组中关系的一阶重要性和高阶重要性;三:根据三元组中头实体的重要性、尾实体的重要性和关系的重要性获得三元组的重要性。
现有的知识图谱补全方法大多数只关注了实体和关系本身的嵌入向量表示,忽略了实体和关系所在知识的上下文语境,这可能会导致模型学习得到的实体和关系嵌入向量的表达能力较弱。因为同一个关系在不同的知识中,有着不同的语义,因此关系嵌入向量在不同的知识中也应该有所不同。同时,知识图谱补全算法所采用的嵌入模型,在训练过程中通过多次迭代来逐渐扩大正确三元组得分与错误三元组得分之间的差值以学习到实体和关系合理的嵌入表示。出于空间效率的考虑,一般的知识图谱只默认存储正确的知识,而不存储错误的知识。因此,在训练嵌入模型时,训练数据集只有正确三元组。对于错误三元组,一种常见的方法是去除正确的头部或尾部实体,并从根据均匀分布从所有实体中随机抽样。不幸的是,这种方法并不理想,因为用于训练模型的知识图谱本身是不完全的,基于此进行负采样不可避免地会引入一些伪错误三元组。因此,在训练知识图谱补全模型时如何有效避免产生伪错误三元组是一个非常重要的问题。
发明内容
针对现有技术中的缺陷,本发明提供一种知识图谱补全方法及系统。
根据本发明提供的一种知识图谱补全方法及系统,所述方案如下:
第一方面,提供了一种知识图谱补全方法,所述方法包括:
步骤S1:输入需要进行缺失三元组补全的知识图谱;
步骤S2:训练基于空间投影和卷积神经网络的负采样评估模型;
步骤S3:根据负采样评估模型生成高质量错误三元组来构建训练集;
步骤S4:训练融合三元组上下文语义的知识图谱补全模型;
步骤S5:根据知识图谱补全模型进行知识图谱补全。
优选地,所述步骤S2包括:
步骤S2.1:基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影;
步骤S2.2:基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分,三元组打分模块采用交叉熵损失函数进行优化;
具体计算公式如下:
Figure BDA0003546158960000031
其中,G代表正样本的集合,G代表负样本的集合,l(h,r,t)是三元组对应的标签,f(h,r,t)是三元组的得分;
步骤S2.3:对空间投影模块和三元组打分模块进行联合训练,多次迭代更新模型参数。
优选地,所述步骤S2.1包括:
步骤S2.1.1:对每个三元组,定义投影向量(hp,rp,tp)和语义向量(h,r,t);
步骤S2.1.2:将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h,将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp共同决定的超平面得到t
其中,空间投影公式如下:
Figure BDA0003546158960000032
Figure BDA0003546158960000033
h=Mrhh
t=Mrtt
其中,Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000034
为头实体投影向量的转置,Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000035
为尾实体投影向量的转置。
优选地,所述步骤S2.2包括:
步骤S2.2.1:每个三元组(h,r,t)表示为一个三列的矩阵,输送到卷积层,多个卷积核对其进行二维卷积操作输出多个特征图;
步骤S2.2.2:多个特征图拼接为一个单个的特征向量作为全连接层输入,最后全连接层输出当前三元组的得分;
具体计算公式如下:
f(h,r,t)=concat(g([h,r,t]*Ω))·W
其中,f(·)为打分函数,concat为向量拼接操作,g(·)是激活函数,*是卷积操作,Ω是卷积核参数,W是全连接层参数。
优选地,所述步骤S3包括:
步骤S3.1:采用随机替换正确三元组中的头实体或尾实体的方式,生成初始错误三元组;
步骤S3.2:将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中,负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集;
步骤S3.3:在候选集中通过随机选择的方式生成最终的错误三元组来支持知识图谱补全任务。
优选地,所述步骤S4包括:
步骤S4.1:基于循环神经网络,构建三元组上下文语义提取模块,将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息;
具体计算公式如下:
c=RNN(h,r,t)
其中,c为三元组语义依赖信息向量,RNN为循环神经网络;
步骤S4.2:构建基于翻译模型的知识图谱补全模块,融合三元组上下文语义提取模块的输出,学习实体和关系的嵌入向量,知识图谱补全模块采用边际损失函数进行优化;
具体计算公式如下:
rc=concat(r,c)
Figure BDA0003546158960000041
Figure BDA0003546158960000042
其中,concat为向量拼接操作,f(·)为打分函数,并且使用L2正则化来防止模型过拟合,f(h,r,t)为正实例的得分,f(h′,r,t′)为错误三元组的得分,γ为表示边缘的超参数;
步骤S4.3:根据步骤S3得到的高质量错误三元组训练集,对三元组上下文语义提取模块和知识图谱补全模块进行联合训练,多次迭代更新模型参数。
第二方面,提供了一种知识图谱补全系统,所述系统包括:
模块M1:输入需要进行缺失三元组补全的知识图谱;
模块M2:训练基于空间投影和卷积神经网络的负采样评估模型;
模块M3:根据负采样评估模型生成高质量错误三元组来构建训练集;
模块M4:训练融合三元组上下文语义的知识图谱补全模型;
模块M5:根据知识图谱补全模型进行知识图谱补全。
优选地,所述模块M2包括:
模块M2.1:基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影;
模块M2.2:基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分,三元组打分模块采用交叉熵损失函数进行优化;
具体计算公式如下:
Figure BDA0003546158960000051
其中,G代表正样本的集合,G代表负样本的集合,l(h,r,t)是三元组对应的标签,f(h,r,t)是三元组的得分;
模块M2.3:对空间投影模块和三元组打分模块进行联合训练,多次迭代更新模型参数。
优选地,所述模块M2.1包括:
模块M2.1.1:对每个三元组,定义投影向量(hp,rp,tp)和语义向量(h,r,t);
模块M2.1.2:将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h,将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp共同决定的超平面得到t
其中,空间投影公式如下:
Figure BDA0003546158960000052
Figure BDA0003546158960000053
h=Mrhh
t=Mrtt
其中,Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000054
为头实体投影向量的转置,Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000061
为尾实体投影向量的转置。
优选地,所述模块M2.2包括:
模块M2.2.1:每个三元组(h,r,t)表示为一个三列的矩阵,输送到卷积层,多个卷积核对其进行二维卷积操作输出多个特征图;
模块M2.2.2:多个特征图拼接为一个单个的特征向量作为全连接层输入,最后全连接层输出当前三元组的得分;
具体计算公式如下:
f(h,r,t)=concat(g([h,r,t]*Ω))·W
其中,f(·)为打分函数,concat为向量拼接操作,g(·)是激活函数,*是卷积操作,Ω是卷积核参数,W是全连接层参数。
与现有技术相比,本发明具有如下的有益效果:
本发明能够充分提取三元组中头实体、关系和尾实体间的语义依赖信息,并通过预训练负采样评估模型减少伪错误三元组的产生,在能够获得优异的知识图谱补全评价指标的情况下,能够适用于大规模知识图谱补全任务。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于融合三元组上下文语义与负采样优化的知识图谱补全方法的流程图;
图2为负采样评估模型架构图;
图3为知识图谱补全模型架构图;
图4为本发明基于融合三元组上下文语义与负采样优化的知识图谱补全系统架构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种知识图谱补全方法,参照图1所示,该方法具体包括:
步骤S1:输入需要进行缺失三元组补全的知识图谱,进行数据预处理,提取知识图谱中的实体集合和关系集合;然后,构建模型训练时需要的训练集、验证集和测试集。
参照图2所示,步骤S2:训练基于空间投影和卷积神经网络的负采样评估模型。基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影;基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分;对空间投影模块和三元组打分模块进行联合训练,迭代更新模型参数。
其中,步骤S2具体包括:
步骤S2.1:基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影。
该步骤S2.1包括:
步骤S2.1.1:对每个三元组,定义投影向量(hp,rp,tp)和语义向量(h,r,t)。
步骤S2.1.2:将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h,将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp共同决定的超平面得到t
其中,空间投影公式如下:
Figure BDA0003546158960000071
Figure BDA0003546158960000072
h=Mrhh
t=Mrtt
其中,Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000073
为头实体投影向量的转置,Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000074
为尾实体投影向量的转置。
步骤S2.2:基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分,三元组打分模块采用交叉熵损失函数进行优化;
具体计算公式如下:
Figure BDA0003546158960000075
其中,G代表正样本的集合,G′代表负样本的集合,l(h,r,t)是三元组对应的标签,f(h,r,t)是三元组的得分。
该步骤S2.2中包括:
步骤S2.2.1:每个三元组(h,r,t)表示为一个三列的矩阵,输送到卷积层,多个卷积核对其进行二维卷积操作输出多个特征图。
步骤S2.2.2:多个特征图拼接为一个单个的特征向量作为全连接层输入,最后全连接层输出当前三元组的得分。
具体计算公式如下:
f(h,r,t)=concat(g([h,r,t]*Ω))·W
其中,f(·)为打分函数,concat为向量拼接操作,g(·)是激活函数,*是卷积操作,Ω是卷积核参数,W是全连接层参数。
步骤S2.3:对空间投影模块和三元组打分模块进行联合训练,多次迭代更新模型参数。
步骤S3:根据负采样评估模型生成高质量错误三元组来构建训练集。采用随机替换正确三元组中的头实体或尾实体的方式,生成初始错误三元组;将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中,负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集;在候选集中通过随机选择的方式生成最终的错误三元组来构建高质量错误三元组训练集。
在步骤S3中,具体包括:
步骤S3.1:采用随机替换正确三元组中的头实体或尾实体的方式,生成初始错误三元组。
步骤S3.2:将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中,负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集。
步骤S3.3:在候选集中通过随机选择的方式生成最终的错误三元组来支持知识图谱补全任务。
参照图3所示,步骤S4:训练融合三元组上下文语义的知识图谱补全模型。基于循环神经网络,构建三元组上下文语义提取模块,将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息;构建基于翻译模型的知识图谱补全模型,融合三元组上下文语义提取模块的输出,学习实体和关系的嵌入向量;根据步骤3得到的高质量错误三元组训练集,对三元组上下文语义提取模块和知识图谱补全模块进行联合训练,多次迭代更新模型参数。
在步骤S4中,具体包括:
步骤S4.1:基于循环神经网络,构建三元组上下文语义提取模块,将(h,r,t视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息;
具体计算公式如下:
c=RNN(h,r,t)
其中,c为三元组语义依赖信息向量,RNN为循环神经网络。
步骤S4.2:构建基于翻译模型的知识图谱补全模块,融合三元组上下文语义提取模块的输出,学习实体和关系的嵌入向量,知识图谱补全模块采用边际损失函数进行优化;
具体计算公式如下:
rc=concat(r,c)
Figure BDA0003546158960000091
Figure BDA0003546158960000092
其中,concat为向量拼接操作,f(·)为打分函数,并且使用L2正则化来防止模型过拟合,f(h,r,t)为正实例的得分,f(h′,r,t′)为错误三元组的得分,γ为表示边缘的超参数。
步骤S4.3:根据步骤S3得到的高质量错误三元组训练集,对三元组上下文语义提取模块和知识图谱补全模块进行联合训练,多次迭代更新模型参数。
步骤S5:根据知识图谱补全模型进行知识图谱补全。随机替换三元组中的实体,对知识图谱补全模型输出的三元组得分进行排序,将得分最高的三元组添加到知识图谱中,进行知识图谱补全。
本发明还提供了一种知识图谱补全系统,参照图4所示,该系统包括:
模块M1:输入需要进行缺失三元组补全的知识图谱,进行数据预处理,提取知识图谱中的实体集合和关系集合;然后,构建模型训练时需要的训练集、验证集和测试集。
模块M2:训练基于空间投影和卷积神经网络的负采样评估模型。基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影;基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分;对空间投影模块和三元组打分模块进行联合训练,迭代更新模型参数。
模块M3:根据负采样评估模型生成高质量错误三元组来构建训练集。采用随机替换正确三元组中的头实体或尾实体的方式,生成初始错误三元组;将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中,负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集;在候选集中通过随机选择的方式生成最终的错误三元组来构建高质量错误三元组训练集。
模块M4:训练融合三元组上下文语义的知识图谱补全模型。基于循环神经网络,构建三元组上下文语义提取模块,将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息;构建基于翻译模型的知识图谱补全模型,融合三元组上下文语义提取模块的输出,学习实体和关系的嵌入向量;根据模块M3得到的高质量错误三元组训练集,对三元组上下文语义提取模块和知识图谱补全模块进行联合训练,多次迭代更新模型参数。
模块M5:根据知识图谱补全模型进行知识图谱补全。随机替换三元组中的实体,对知识图谱补全模型输出的三元组得分进行排序,将得分最高的三元组添加到知识图谱中,进行知识图谱补全。
具体地,模块M2包括:
模块M2.1:基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影。
模块M2.2:基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分,三元组打分模块采用交叉熵损失函数进行优化;
具体计算公式如下:
Figure BDA0003546158960000101
其中,G代表正样本的集合,G′代表负样本的集合,l(h,r,t)是三元组对应的标签,f(h,r,t)是三元组的得分。
模块M2.3:对空间投影模块和三元组打分模块进行联合训练,多次迭代更新模型参数。
模块M2.1包括:
模块M2.1.1:对每个三元组,定义投影向量(hp,rp,tp)和语义向量(h,r,t)。
模块M2.1.2:将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h,将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp共同决定的超平面得到t
其中,空间投影公式如下:
Figure BDA0003546158960000102
Figure BDA0003546158960000103
h=Mrhh
t=Mrtt
其中,Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000111
为头实体投影向量的转置,Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵,
Figure BDA0003546158960000112
为尾实体投影向量的转置。
模块M2.2包括:
模块M2.2.1:每个三元组(h,r,t)表示为一个三列的矩阵,输送到卷积层,多个卷积核对其进行二维卷积操作输出多个特征图。
模块M2.2.2:多个特征图拼接为一个单个的特征向量作为全连接层输入,最后全连接层输出当前三元组的得分;
具体计算公式如下:
f(h,r,t)=concat(g([h,r,t]*Ω))·W
其中,f(·)为打分函数,concat为向量拼接操作,g(·)是激活函数,*是卷积操作,Ω是卷积核参数,W是全连接层参数。
本发明实施例提供了一种知识图谱补全方法及系统,能够充分提取三元组中头实体、关系和尾实体间的语义依赖信息,并通过预训练负采样评估模型减少伪错误三元组的产生,在能够获得优异的知识图谱补全评价指标的情况下,能够适用于大规模知识图谱补全任务。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种知识图谱补全方法,其特征在于,包括:
步骤S1:输入需要进行缺失三元组补全的知识图谱;
步骤S2:训练基于空间投影和卷积神经网络的负采样评估模型;
步骤S3:根据负采样评估模型生成高质量错误三元组来构建训练集;
步骤S4:训练融合三元组上下文语义的知识图谱补全模型;
步骤S5:根据知识图谱补全模型进行知识图谱补全。
2.根据权利要求1所述的知识图谱补全方法,其特征在于,所述步骤S2包括:
步骤S2.1:基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影;
步骤S2.2:基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分,三元组打分模块采用交叉熵损失函数进行优化;
具体计算公式如下:
Figure FDA0003546158950000011
其中,G代表正样本的集合,G′代表负样本的集合,l(h,r,t)是三元组对应的标签,f(h,r,t)是三元组的得分;
步骤S2.3:对空间投影模块和三元组打分模块进行联合训练,多次迭代更新模型参数。
3.根据权利要求2所述的知识图谱补全方法,其特征在于,所述步骤S2.1包括:
步骤S2.1.1:对每个三元组,定义投影向量(hp,rp,tp)和语义向量(h,r,t);
步骤S2.1.2:将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h,将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp共同决定的超平面得到t
其中,空间投影公式如下:
Figure FDA0003546158950000012
Figure FDA0003546158950000013
h=Mrhh
t=Mrtt
其中,Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵,
Figure FDA0003546158950000014
为头实体投影向量的转置,Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵,
Figure FDA0003546158950000021
为尾实体投影向量的转置。
4.根据权利要求2所述的知识图谱补全方法,其特征在于,所述步骤S2.2包括:
步骤S2.2.1:每个三元组(h,r,t)表示为一个三列的矩阵,输送到卷积层,多个卷积核对其进行二维卷积操作输出多个特征图;
步骤S2.2.2:多个特征图拼接为一个单个的特征向量作为全连接层输入,最后全连接层输出当前三元组的得分;
具体计算公式如下:
f(h,r,t)=concat(g([h,r,t]*Ω))·W
其中,f(·)为打分函数,concat为向量拼接操作,g(·)是激活函数,*是卷积操作,Ω是卷积核参数,W是全连接层参数。
5.根据权利要求1所述的知识图谱补全方法,其特征在于,所述步骤S3包括:
步骤S3.1:采用随机替换正确三元组中的头实体或尾实体的方式,生成初始错误三元组;
步骤S3.2:将通过替换实体而构造出来的初始错误三元组集合输入到预训练的负采样评估模型中,负采样评估模型将得到这些错误三元组的对应分数并选择分数较低的K个错误三元组作为候选集;
步骤S3.3:在候选集中通过随机选择的方式生成最终的错误三元组来支持知识图谱补全任务。
6.根据权利要求1所述的知识图谱补全方法,其特征在于,所述步骤S4包括:
步骤S4.1:基于循环神经网络,构建三元组上下文语义提取模块,将(h,r,t)视为一个句子作为循环神经网络的输入用于提取三元组中头实体、关系和尾实体间的语义依赖信息;
具体计算公式如下:
c=RNN(h,r,t)
其中,c为三元组语义依赖信息向量,RNN为循环神经网络;
步骤S4.2:构建基于翻译模型的知识图谱补全模块,融合三元组上下文语义提取模块的输出,学习实体和关系的嵌入向量,知识图谱补全模块采用边际损失函数进行优化;
具体计算公式如下:
rc=concat(r,c)
Figure FDA0003546158950000022
Figure FDA0003546158950000031
其中,concat为向量拼接操作,f(·)为打分函数,并且使用L2正则化来防止模型过拟合,f(h,r,t)为正实例的得分,f(h′,r,t′)为错误三元组的得分,γ为表示边缘的超参数;
步骤S4.3:根据步骤S3得到的高质量错误三元组训练集,对三元组上下文语义提取模块和知识图谱补全模块进行联合训练,多次迭代更新模型参数。
7.一种知识图谱补全系统,其特征在于,包括:
模块M1:输入需要进行缺失三元组补全的知识图谱;
模块M2:训练基于空间投影和卷积神经网络的负采样评估模型;
模块M3:根据负采样评估模型生成高质量错误三元组来构建训练集;
模块M4:训练融合三元组上下文语义的知识图谱补全模型;
模块M5:根据知识图谱补全模型进行知识图谱补全。
8.根据权利要求7所述的知识图谱补全系统,其特征在于,所述模块M2包括:
模块M2.1:基于空间投影原理,构建空间投影模块,用于对实体嵌入向量进行空间投影;
模块M2.2:基于卷积神经网络,构建三元组打分模块,以空间投影模块的输出(h,r,t)作为输入,输出三元组的得分,三元组打分模块采用交叉熵损失函数进行优化;
具体计算公式如下:
Figure FDA0003546158950000032
其中,G代表正样本的集合,G′代表负样本的集合,l(h,r,t)是三元组对应的标签,f(h,r,t)是三元组的得分;
模块M2.3:对空间投影模块和三元组打分模块进行联合训练,多次迭代更新模型参数。
9.根据权利要求8所述的知识图谱补全系统,其特征在于,所述模块M2.1包括:
模块M2.1.1:对每个三元组,定义投影向量(hp,rp,tp)和语义向量(h,r,t);
模块M2.1.2:将头实体的语义向量h投影至由头实体投影向量hp和关系投影向量rp共同决定的超平面得到h,将尾实体的语义向量t投影至由尾实体投影向量tp和关系投影向量rp共同决定的超平面得到t
其中,空间投影公式如下:
Figure FDA0003546158950000033
Figure FDA0003546158950000041
h=Mrhh
t=Mrtt
其中,Mrh为头实体投影向量hp和关系投影向量rp共同决定的投影矩阵,
Figure FDA0003546158950000042
为头实体投影向量的转置,Mrt为尾实体投影向量tp和关系投影向量rp共同决定的投影矩阵,
Figure FDA0003546158950000043
为尾实体投影向量的转置。
10.根据权利要求8所述的知识图谱补全系统,其特征在于,所述模块M2.2包括:
模块M2.2.1:每个三元组(h,r,t)表示为一个三列的矩阵,输送到卷积层,多个卷积核对其进行二维卷积操作输出多个特征图;
模块M2.2.2:多个特征图拼接为一个单个的特征向量作为全连接层输入,最后全连接层输出当前三元组的得分;
具体计算公式如下:
f(h,r,t)=concat(g([h,r,t]*Ω))·W
其中,f(·)为打分函数,concat为向量拼接操作,g(·)是激活函数,*是卷积操作,Ω是卷积核参数,W是全连接层参数。
CN202210249612.9A 2022-03-14 2022-03-14 知识图谱补全方法及系统 Pending CN114610900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210249612.9A CN114610900A (zh) 2022-03-14 2022-03-14 知识图谱补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210249612.9A CN114610900A (zh) 2022-03-14 2022-03-14 知识图谱补全方法及系统

Publications (1)

Publication Number Publication Date
CN114610900A true CN114610900A (zh) 2022-06-10

Family

ID=81863195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210249612.9A Pending CN114610900A (zh) 2022-03-14 2022-03-14 知识图谱补全方法及系统

Country Status (1)

Country Link
CN (1) CN114610900A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221334A (zh) * 2022-06-23 2022-10-21 北京邮电大学 基于量子计算的知识图谱补全方法、装置和系统
CN115525773A (zh) * 2022-10-10 2022-12-27 北京智源人工智能研究院 知识图谱补全模型的训练方法和装置
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115774788A (zh) * 2022-11-21 2023-03-10 电子科技大学 一种用于知识图谱嵌入模型的负采样方法
CN116402133A (zh) * 2023-04-12 2023-07-07 中南大学 一种基于结构聚合图卷积网络的知识图谱补全方法及系统
CN116910272A (zh) * 2023-08-09 2023-10-20 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN117273129A (zh) * 2023-10-11 2023-12-22 上海歆广数据科技有限公司 一种行为图谱创建生成方法及系统
CN117453923A (zh) * 2023-08-30 2024-01-26 广东电白建设集团有限公司 一种对施工现场施工设备和建筑设施的关系进行优化的方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221334A (zh) * 2022-06-23 2022-10-21 北京邮电大学 基于量子计算的知识图谱补全方法、装置和系统
CN115525773A (zh) * 2022-10-10 2022-12-27 北京智源人工智能研究院 知识图谱补全模型的训练方法和装置
CN115774788B (zh) * 2022-11-21 2024-04-23 电子科技大学 一种用于知识图谱嵌入模型的负采样方法
CN115774788A (zh) * 2022-11-21 2023-03-10 电子科技大学 一种用于知识图谱嵌入模型的负采样方法
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115564049B (zh) * 2022-12-06 2023-05-09 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN116402133A (zh) * 2023-04-12 2023-07-07 中南大学 一种基于结构聚合图卷积网络的知识图谱补全方法及系统
CN116402133B (zh) * 2023-04-12 2024-04-30 中南大学 一种基于结构聚合图卷积网络的知识图谱补全方法及系统
CN116910272A (zh) * 2023-08-09 2023-10-20 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN116910272B (zh) * 2023-08-09 2024-03-01 西安工程大学 基于预训练模型t5的学术知识图谱补全方法
CN117453923B (zh) * 2023-08-30 2024-03-19 广东电白建设集团有限公司 一种对施工现场施工设备和建筑设施的关系进行优化的方法
CN117453923A (zh) * 2023-08-30 2024-01-26 广东电白建设集团有限公司 一种对施工现场施工设备和建筑设施的关系进行优化的方法
CN117273129B (zh) * 2023-10-11 2024-04-05 上海峻思寰宇数据科技有限公司 一种行为图谱创建生成方法及系统
CN117273129A (zh) * 2023-10-11 2023-12-22 上海歆广数据科技有限公司 一种行为图谱创建生成方法及系统

Similar Documents

Publication Publication Date Title
CN114610900A (zh) 知识图谱补全方法及系统
Wu et al. A survey of human-in-the-loop for machine learning
Zha et al. Data-centric artificial intelligence: A survey
Abu-El-Haija et al. Watch your step: Learning node embeddings via graph attention
US20160232442A1 (en) Passage justification scoring for question answering
Lu et al. The ai scientist: Towards fully automated open-ended scientific discovery
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
Zhang et al. One-shot learning for question-answering in gaokao history challenge
Xie et al. Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments
US20230281400A1 (en) Systems and Methods for Pretraining Image Processing Models
Zheng et al. Learn from model beyond fine-tuning: A survey
Chen et al. Graph edit distance reward: Learning to edit scene graph
Posoldova Machine learning pipelines: From research to production
Bruckner Ml-o-scope: a diagnostic visualization system for deep machine learning pipelines
Ang et al. Enhancing STEM education using augmented reality and machine learning
Mattmann Machine learning with tensorflow
CN114742014A (zh) 基于关联注意力的少样本文字风格迁移方法
Jiang et al. Enhancing question answering for enterprise knowledge bases using large language models
Vergara et al. A Schematic Review of Knowledge Reasoning Approaches Based on the Knowledge Graph
Zhang et al. CAE-GReaT: Convolutional-Auxiliary Efficient Graph Reasoning Transformer for Dense Image Predictions
Fu et al. Graph contextualized self-attention network for software service sequential recommendation
Jha Mastering PyTorch: build powerful neural network architectures using advanced PyTorch 1. x features
WO2023166747A1 (ja) 学習データ生成装置、学習データ生成方法、及びプログラム
Shao et al. Chartdialogs: Plotting from natural language instructions
JP2022171502A (ja) メタ学習データ拡張フレームワーク

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination