CN109992670A - 一种基于知识图谱邻域结构的图谱完备化方法 - Google Patents

一种基于知识图谱邻域结构的图谱完备化方法 Download PDF

Info

Publication number
CN109992670A
CN109992670A CN201910271576.4A CN201910271576A CN109992670A CN 109992670 A CN109992670 A CN 109992670A CN 201910271576 A CN201910271576 A CN 201910271576A CN 109992670 A CN109992670 A CN 109992670A
Authority
CN
China
Prior art keywords
entity
relationship
neighborhood
indicates
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910271576.4A
Other languages
English (en)
Other versions
CN109992670B (zh
Inventor
杜友田
李雪莲
曹富媛
王雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910271576.4A priority Critical patent/CN109992670B/zh
Publication of CN109992670A publication Critical patent/CN109992670A/zh
Application granted granted Critical
Publication of CN109992670B publication Critical patent/CN109992670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

针对知识图谱存在的三元组缺失问题,本发明提出一种基于邻域结构的知识图谱完备化技术。该技术基于知识图谱的实体邻域、关系邻域、实体与关系之间的对应关系等信息,对知识图谱的关系要素和实体要素进行建模。主要步骤为:①基于图谱中实体的邻域结构,建立模型将实体要素映射到实体向量空间内;②基于图谱中关系要素的邻域结构,建立模型将关系映射到关系向量空间内;③采用关系映射矩阵将实体表示映射到对应的关系空间内,建立三元组关联模型。为了更有效地训练模型,本发明提出基于邻域结构的负样本采样算法,对实体和关系进行联合训练,基于训练结果对未知三元组进行预测。本发明的贡献在于提出一种基于邻域结构的知识图谱完备化的有效技术。

Description

一种基于知识图谱邻域结构的图谱完备化方法
技术领域
本发明属于知识图谱表示与推理技术领域,特别涉及一种基于知识图谱邻域结构的图谱完备化方法。
背景技术
随着互联网的快速普及,互联网上的内容出现多元化以及组织结构松散的问题,导致人们无法有效快速地获取信息和知识。2012年Google提出知识图谱,为互联网时代知识化打开了新的局面。如今知识图谱技术已经被作为关键技术之一,在智能问答和个性化推荐等领域被大量使用。
知识图谱完备化技术是针对现有知识图谱仍存在大量的三元组缺失的问题提出的。已有研究方法主要包括以下3类:1)基于图谱向量的方法,2)基于图结构的方法,3)基于深度学习的方法。基于图谱向量的代表模型为TransE/TransR/TransD系列模型。TransE模型首次提出将三元组中的关系作为对应的头实体到尾实体之间的翻译,从而将实体和关系映射至低维向量空间内进行表示;同一个实体面对不同关系的时候可能具有不同的方面语义,TransR模型通过特定的关系矩阵对将实体映射到对应的不同关系向量空间内,使其具有多类向量表示;TransD模型在TransR模型的基础上,考虑到关系也会具有不同的方面语义,因此采用头尾实体向量点积相乘的方式构造关系的动态映射矩阵,使得关系对应不同的实体也能构建出不同的映射矩阵。
基于图结构的图谱补齐模型包括GAKE模型和R-GCN模型等。前者是将知识图谱中的实体和关系都视为同等地位的图结点,定义了三类不同的邻域搜索办法寻找这些图结点的相邻结点,基于这些相邻结点集合建立概率模型;后者利用知识图谱里的邻域结点的信息改进传统的GCN网络,得到能够对知识三元组数据进行建模的新型网络模型。
基于深度学习的图谱补齐模型的典型代表为ConvE模型,该模型采用卷积神经网络模型对非线性特征进行学习,进而对图谱中的结点信息,如实体和关系等进行建模。ConvE模型采用权值共享技术减少了需要学习的权值个数,在知识图谱领域内得到了良好的结果。
在上述的几类模型中,基于图谱向量的模型主要针对知识图谱的三元组进行独立建模,忽略了三元组之间的相互联系以及知识图谱本身的整体结构;基于图结构的模型通常将实体和关系视为地位相同的图结点,忽略了实体和关系无论是语法地位还是自然属性都是截然不同的两类元素,并且无法有效地利用实体和关系各自不同的邻域信息;基于深度学习的模型具有模型计算复杂度高及可解释性差等不足。
发明内容
为了克服上述现有技术大规模图谱存在的大量三元组缺失等缺点,本发明的目的在于提供一种基于知识图谱邻域结构的图谱完备化方法,针对知识图谱中大规模的三元组关联数据,结合图谱中的实体邻域信息、关系邻域信息以及低维向量空间内的位置关系信息,基于大规模知识图谱邻域进行建模,来对知识图谱领域内已有的知识图谱进行三元组完备化。
为了实现上述目的,本发明采用的技术方案是:
一种基于知识图谱邻域结构的图谱完备化方法,包括:
1)知识图谱中的实体要素嵌入模型Entity2vec构建:依次将知识图谱中的每个实体v视为源实体,采用随机游走的方式对实体v周围的相邻实体进行选择,游走步数设定为固定值η,游走结束时原知识图谱即被转换为规模为|E|×η的实体序列矩阵,其中每一行表示实体v及其通过随机游走得到的相邻实体结点的序列,|E|为知识图谱中所有实体的数目,在该实体序列矩阵上选取实体v的邻域Ne(v),然后基于实体v与其邻域Ne(v)建立概率模型将实体v映射到对应的实体向量空间内,使得在知识图谱中相邻的实体在其实体向量空间内也处于相邻的位置,将Entity2vec模型训练得到头实体h的向量表示hent和尾实体t的向量表示tent
2)知识图谱中的关系要素嵌入模型Relation2vec构建:依次将知识图谱中的每个关系r视为源关系,采用随机游走的方式对关系r周围的相邻关系进行选择,游走步数设定为固定值β,游走结束时原知识图谱即被转换为规模为|R|×β的关系序列矩阵,其中每一行表示关系r及其通过随机游走得到的相邻关系结点的序列,|R|为知识图谱中所有关系的数目,在该关系序列矩阵上选取关系r的邻域Ne(r),然后基于关系r与其邻域Ne(r)建立概率模型将关系r映射到对应的关系向量空间内,使得在知识图谱中相邻的关系在其关系向量空间内也处于相邻的位置,将Relation2vec模型训练得到关系r的向量表示rrel
3)关系与实体之间的线性映射:为每个关系r定义映射矩阵Mr,将实体表示向量映射到对应的关系向量空间内得到联合向量空间,在该联合向量空间建立评价函数对三元组联合模型进行训练;
4)在训练过程中,使用基于邻域的负样本采样算法,实现联合向量空间中相邻的三元组在训练过程中采集到的负实体结点同样处于相邻的位置;
5)基于知识图谱完备化的链式预测:根据已知三元组的头结点与关系对尾结点进行预测,或是根据已知三元组的尾结点与关系对头结点进行预测,最终得到知识图谱完备化结果。
所述步骤1)中,将所述实体序列矩阵视作是采用实体作为词汇的语料集合,指定窗口大小对实体v进行邻域截取得到实体v的邻域Ne(v),基于该邻域信息,建立Entity2vec模型如下所示:
式中V表示知识图谱中的实体集合,ai表示实体v的邻域里第i个相邻实体,Zv为归一化项,u表示归一化项中遍历实体集合时的实体,ai表示实体v的邻域里第i个相邻实体的向量表示,v表示实体v的向量表示,u表示u的向量表示;
通过最小化上述模型公式来进行训练,模型训练结束后,实体v的向量表示v为最终训练结果,当v作为头实体h时表示为hent,当v作为尾实体t时表示为tent
所述步骤2)中,指定窗口大小对关系r进行邻域截取得到关系r的邻域Ne(r),基于该邻域信息,建立Relation2vec模型如下所示:
式中E表示知识图谱里的关系集合,bi表示关系r的邻域里的第i个相邻关系,Zr为归一化项,c表示归一化项中遍历关系集合时的关系,bi表示关系r的邻域里的第i个相邻关系的向量表示,r表示关系r的向量表示,c表示c的向量表示;
通过最小化上述模型公式来进行训练,模型训练结束后,关系r的向量表示r为最终训练结果,表示为rrel
所述步骤3)中,通过Entity2vec模型和Relation2vec模型训练得到三元组(h,r,t),建立评价函数如下所示:
完整的损失函数即三元组关联模型定义为:
式中,T表示知识图谱的正三元组集合,T'表示知识图谱的负三元组集合,V表示知识图谱的实体集合,γ为边缘参数,h'表示三元组的负头实体,t'表示三元组的负尾实体,||v||2表示实体v的向量表示的L2范数,Mr表示关系r的映射矩阵,且被统一初始化为单位矩阵,[x]+表示max(0,x);
通过最大化该损失函数,使得知识图谱包含的正三元组(h,r,t)对应的评价函数值Sall(h,r,t)得到一个较小的值,而其不包含的负三元组(h',r,t)或(h,r,t')对应的评价函数值Sall(h',r,t)或Sall(h,r,t')得到较大的值。
进一步地,可在三元组关联模型里加入正则项,用以约束每个实体的向量表示的L2范数为1,即||v||2=1。
所述步骤4)中,基于邻域的负样本采样算法是对每个实体v都设定一个对应的尾实体负样本集合,并在初始时刻指定其为空集合,然后定义直接与实体v相连接的邻域实体集合n(v):
n(v)={vj|(v,r,vj)∈C(v)∪(vj,r,v)∈C(v)}
C(v)表示以实体v为中心实体的邻域三元组集合,从实体v的邻域实体集合n(v)里随机选择一个实体v1,判断该实体v1对应的尾实体负样本集合里是否为空,如果该集合为空,则从原实体集合里面随机采样满足(v,r,t')∈T'的尾结点负样本t'作为负样本实体结点,并将t'添加进v对应的尾实体负样本集合来;反之,如果该集合不为空,则从该集合里面随机选择实体v2,如果v2满足(v,r,v2)∈T',就将v2作为实体v所对应的尾实体负样本,如果v2不满足(v,r,v2)∈T',则依然从原实体集合里面随机采样满足(v,r,t')∈T'条件的尾结点负样本t',无论哪个选择,最后得到的负样本t'都将新添加进v对应的尾实体负样本集合中。
所述步骤5)中,在测试和应用环节,给定形式为(h,r,?)或(?,r,t)的未知三元组,根据三元组关联模型训练结果,遍历实体集合里的所有实体并依次计算评价函数的取值,然后进行排序,选择值最小的实体作为该未知三元组缺失的头实体或者尾实体,亦即发现知识图谱中没有存在的新的三元组,达到知识图谱完备化的目的。与现有技术相比,本发明的有益效果是:
1)将图谱的实体和关系视为完全不同的结点形式,分别进行邻域查找,从而实现知识图谱上的上下文信息形成一维序列,然后基于实体和关系各自的邻域信息建立概率模型并将其映射到两个不同的向量空间内。
2)利用关系映射矩阵建立三元组联合模型,并结合提出的新型负样本采样算法,对该模型进行训练对三元组的元素特征进行学习。该技术的优点是充分利用了图谱中实体和关系各自的邻域结构信息,以及向量空间与图谱相对位置的关系,该知识图谱完备化技术对于知识三元组的链式预测应用具有良好的效果,具有更高的模型收敛率以及预测准确性。
附图说明
图1是本发明总体流程框架图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种基于知识图谱邻域结构的图谱完备化方法,包括如下步骤:
步骤1,依次选择知识图谱中的每个实体v作为源实体,从源实体出发,进行固定步数为η的随机游走,得到一个规模为|E|×η的实体序列矩阵,其中|E|为图谱中的实体数目。该实体序列矩阵可以视作是采用实体作为词汇的语料集合。指定窗口大小对实体v进行邻域截取,将得到的实体v的邻域用Ne(v)表示。基于该邻域信息,建立Entity2vec模型如下所示:
其中有:
因此式(1)可以进一步表示为:
其中有式中:
V——知识图谱中的实体集合;
v——知识图谱中实体集合里的特定实体;
Ne(v)——实体v对应的实体邻域;
ai——实体v的邻域里的第i个相邻实体;
Zv——归一化项;
u——归一化项中遍历实体集合时的实体;
ai——实体v的邻域里第i个相邻实体的向量表示;
v——实体v的向量表示;
u——归一化项中遍历实体集合时的实体向量表示。
通过最小化损失函数(2)来进行Entity2vec模型训练,实体v的向量表示v为最终训练结果,在训练过程中,ai·v的值将会尽可能地增大。因此,Entity2vec模型能够使得知识图谱上相邻实体的向量表示在低维向量空间里也会处于相近的位置。此外,为了使得邻域实体的向量之间的欧式距离较小,本发明在最终的模型函数(6)里加入正则项,用以约束每个实体的向量表示的L2范数为1,即||v||2=1。
训练结果v在步骤3有两种表示形式:当实体v作为头实体h时表示为hent,当实体v作为尾实体t时表示为tent
步骤2,遍历知识图谱中的所有关系要素,基于随机游走算法对每个关系要素周围的邻域关系进行搜索。关系要素遍历结束之后可以得到知识图谱序列化后的关系序列矩阵。指定窗口参数值截取每个关系r的邻域Ne(r),并且基于该邻域信息建立如下所示的Relation2vec模型:
参照式(2),式(3)可以进一步简化为:
其中式中:
E——知识图谱里的关系集合;
r——知识图谱关系集合里的特定关系;
Ne(r)——关系r的关系邻域;
bi——关系r的邻域里的第i个相邻关系;
Zr——归一化项;
c——归一化项中遍历关系集合时的关系;
r——关系r的向量表示;
c——归一化项中遍历关系集合时的关系向量表示;
bi——关系r的邻域里的第i个相邻关系的向量表示。
类似地,该模型通过最小化式(4)来进行训练,采用随机梯度下降来进行优化,关系r的向量表示r为最终训练结果,在步骤3中表示为rrel。根据上述讨论可知,在Relation2vec模型的训练达到收敛之后,知识图谱中处在邻域范围内的关系向量之间距离会比较小。亦即,这些关系对应的向量表示在向量空间中的位置会彼此相近。
步骤3,基于上述两个步骤中分别通过Entity2vec模型和Relation2vec模型训练得到的三元组(h,r,t)中头实体,尾实体和关系的向量表示hent,tent,rrel,构建每个关系r对应的映射矩阵Mr,建立评价函数如下所示:
式中:
hent——Entity2vec模型训练得到的头实体h的向量表示;
tent——Entity2vec模型训练得到的尾实体t的向量表示;
rrel——Relation2vec模型训练得到的关系r的向量表示;
Mr——关系r对应的映射矩阵,被统一初始化为单位矩阵。
完整的损失函数定义为:
式中:
T——知识图谱的正三元组集合;
T'——知识图谱的负三元组集合;
V——知识图谱的实体集合;
γ——边缘参数;
[x]+——指max(0,x);
h'——三元组的负头实体;
t'——三元组负尾实体;
||v||2——实体v的向量表示的L2范数;
[x]+——指max(0,x)。
通过最大化该损失函数,可以使得知识图谱包含的正三元组(h,r,t)对应的评价函数值Sall(h,r,t)得到一个较小的值,而其不包含的负三元组(h',r,t)或(h,r,t')对应的评价函数值Sall(h',r,t)或Sall(h,r,t')得到较大的值。因此,在预测新的知识三元组时,正确的三元组将会对应于一个较大的Sall(h,r,t)。
该步骤的优势在于,Entity2vec模型和Relation2vec模型分别保证了相近的实体和关系在各自的向量空间里面对应的向量表示也处于相近的位置;而相对地,在知识图谱中不相邻的实体和关系在对应的低维向量空间中也会处于比较远的位置。
根据柯西不等式,式(5)具有以下关系:
基于以上讨论,可以发现在同一个三元组关系r确定的情况下,两个模型的训练结果可以满足三元组正样本的||Mrhent-Mrtent||2项取值较小,三元组负样本的||Mrh'ent-Mrtent||2项或者||Mrhent-Mrt'ent||2项取值较大的条件,为公式(6)的优化提供了良好的初始值。概括来讲,本发明充分利用了实体和关系的邻域信息来对Entity2vec模型和Relation2vec模型进行训练,并将它们的训练结果继承到三元组关联模型的优化中,为该关联模型的训练提供了很好的优化初值。
步骤4,三元组关联模型(6)的训练过程中需要负样本的参与。为了保证知识图谱中处于邻域中的三元组集合的实体和关系在该关联模型的训练优化过程中以一致的趋势稳步下降,本发明提出了新型的负样本采样算法。该算法使得在向量空间中相邻的三元组在训练过程中采集到的负的实体结点也处于相近的位置。
具体来说,对于正的三元组样本(v,r,t'),需要在实体集合里寻找负尾实体结点t'以生成负的三元组样本(v,r,t')∈T'。本发明提出的负样本采样算法对每个实体v都设定一个对应的尾实体负样本集合,并在初始时刻指定其为空集合,然后定义直接与实体v相连接的邻域实体集合n(v):
n(v)={vj|(v,r,vj)∈C(v)∪(vj,r,v)∈C(v)} (8)
式中:
C(v)——以实体v为中心实体的邻域三元组集合。
从实体v的邻域实体集合n(v)里随机选择一个实体v1,判断该实体v1对应的尾实体负样本集合里是否为空,如果该集合为空,则从原实体集合里面随机采样满足(v,r,t')∈T'的尾结点负样本t'作为负样本实体结点,并将t'添加进v对应的尾实体负样本集合来;反之,如果该集合不为空,则从该集合里面随机选择实体v2,如果v2满足(v,r,v2)∈T',就将v2作为实体v所对应的尾实体负样本,如果v2不满足(v,r,v2)∈T',则依然从原实体集合里面随机采样满足(v,r,t')∈T'条件的尾结点负样本t',无论哪个选择,最后得到的负样本t'都将新添加进v对应的尾实体负样本集合中。
根据上述说明的负样本采样算法,在每次对头结点或者尾结点的向量表示相邻的三元组进行负样本采样的时候,其采样结果也会在向量空间里处于相邻的位置。
步骤5,基于Entity2vec模型以及Relation2vec模型的训练结果以及提出的负样本采样算法,可以完成三元组关联模型(6)的训练。在测试和应用环节,给定形式为(h,r,?)或(?,r,t)的未知三元组,根据模型训练结果,遍历实体集合里的所有实体并依次计算评价函数(5)的取值,然后进行排序,选择值最小的实体作为该未知三元组缺失的头实体或者尾实体,亦即发现知识图谱中没有存在的新的三元组,达到知识图谱完备化的目的。
本发明的优势在于,充分利用了实体和关系各自的邻域信息,为关联模型的训练提供了良好的优化前提;另外,结合提出的基于邻域的负样本采样算法,本发明也实现了知识图谱中相邻的三元组集合中的实体和关系在模型训练过程中能以一致的趋势稳步下降的效果,提高了模型的收敛速度与训练效率,优化了最终的预测结果。
本发明可以实际应用在知识图谱Freebase的子集FB15K数据集上,对其测试集中59071个形式为(h,r,?)或(?,r,t)的未知三元组进行预测,并判定,若预测排名前十的实体集合中包含正确实体,则预测成功,反之预测失败。其中,对于未知三元组(‘Vladimirnabokov’,‘/people/ethnicity/people’,?),本发明预测排名前十的实体集合为{‘russian’,‘male’,‘leo tolstoy’,‘female’,‘kafka’,‘african american’,‘athonyburgess’,‘indian people’,‘nicolas ii’,‘kyrgystan’},判定排名第一的实体‘russian’为该未知三元组的正确缺失头实体,本发明对其进行成功预测。整体结果表明,本发明可以对FB15K数据集中88.1%的未知三元组进行成功预测,对知识图谱的完备化领域有很高的应用价值。

Claims (7)

1.一种基于知识图谱邻域结构的图谱完备化方法,其特征在于,包括:
1)知识图谱中的实体要素嵌入模型Entity2vec构建:依次将知识图谱中的每个实体v视为源实体,采用随机游走的方式对实体v周围的相邻实体进行选择,游走步数设定为固定值η,游走结束时原知识图谱即被转换为规模为|E|×η的实体序列矩阵,其中每一行表示实体v及其通过随机游走得到的相邻实体结点的序列,|E|为知识图谱中所有实体的数目,在该实体序列矩阵上选取实体v的邻域Ne(v),然后基于实体v与其邻域Ne(v)建立概率模型将实体v映射到对应的实体向量空间内,使得在知识图谱中相邻的实体在其实体向量空间内也处于相邻的位置,将Entity2vec模型训练得到头实体h的向量表示hent和尾实体t的向量表示tent
2)知识图谱中的关系要素嵌入模型Relation2vec构建:依次将知识图谱中的每个关系r视为源关系,采用随机游走的方式对关系r周围的相邻关系进行选择,游走步数设定为固定值β,游走结束时原知识图谱即被转换为规模为|R|×β的关系序列矩阵,其中每一行表示关系r及其通过随机游走得到的相邻关系结点的序列,|R|为知识图谱中所有关系的数目,在该关系序列矩阵上选取关系r的邻域Ne(r),然后基于关系r与其邻域Ne(r)建立概率模型将关系r映射到对应的关系向量空间内,使得在知识图谱中相邻的关系在其关系向量空间内也处于相邻的位置,将Relation2vec模型训练得到关系r的向量表示rrel
3)关系与实体之间的线性映射:为每个关系r定义映射矩阵Mr,将实体表示向量映射到对应的关系向量空间内得到联合向量空间,在该联合向量空间建立评价函数对三元组联合模型进行训练;
4)在训练过程中,使用基于邻域的负样本采样算法,实现联合向量空间中相邻的三元组在训练过程中采集到的负实体结点同样处于相邻的位置;
5)基于知识图谱完备化的链式预测:根据已知三元组的头结点与关系对尾结点进行预测,或是根据已知三元组的尾结点与关系对头结点进行预测,最终得到知识图谱完备化结果。
2.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤1)中,将所述实体序列矩阵视作是采用实体作为词汇的语料集合,指定窗口大小对实体v进行邻域截取得到实体v的邻域Ne(v),基于该邻域信息,建立Entity2vec模型如下所示:
式中V表示知识图谱中的实体集合,ai表示实体v的邻域里第i个相邻实体,Zv为归一化项,u表示归一化项中遍历实体集合时的实体,ai为实体v的邻域里第i个相邻实体的向量表示,v为实体v的向量表示,u为u的向量表示;
通过最小化上述模型公式来进行训练,模型训练结束后,实体v的向量表示v为最终训练结果,当v作为头实体h时表示为hent,当v作为尾实体t时表示为tent
3.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤2)中,指定窗口大小对关系r进行邻域截取得到关系r的邻域Ne(r),基于该邻域信息,建立Relation2vec模型如下所示:
式中E表示知识图谱里的关系集合,bi表示关系r的邻域里的第i个相邻关系,Zr为归一化项,c表示归一化项中遍历关系集合时的关系,bi为关系r的邻域里的第i个相邻关系的向量表示,r为关系r的向量表示,c为c的向量表示;
通过最小化上述模型公式来进行训练,模型训练结束后,关系r的向量表示r为最终训练结果,表示为rrel
4.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤3)中,通过Entity2vec模型和Relation2vec模型训练得到三元组(h,r,t),建立评价函数如下所示:
完整的损失函数即三元组关联模型定义为:
式中,T表示知识图谱的正三元组集合,T'表示知识图谱的负三元组集合,V表示知识图谱的实体集合,γ为边缘参数,h'表示三元组的负头实体,t'表示三元组的负尾实体,||v||2表示实体v的向量表示的L2范数,Mr表示关系r的映射矩阵,且被统一初始化为单位矩阵,[x]+表示max(0,x);
通过最大化该损失函数,使得知识图谱包含的正三元组(h,r,t)对应的评价函数值Sall(h,r,t)得到一个较小的值,而其不包含的负三元组(h',r,t)或(h,r,t')对应的评价函数值Sall(h',r,t)或Sall(h,r,t')得到较大的值。
5.根据权利要求4所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,在三元组关联模型里加入正则项,用以约束每个实体的向量表示的L2范数为1,即||v||2=1。
6.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤4)中,基于邻域的负样本采样算法是对每个实体v都设定一个对应的尾实体负样本集合,并在初始时刻指定其为空集合,然后定义直接与实体v相连接的邻域实体集合n(v):
n(v)={vj|(v,r,vj)∈C(v)∪(vj,r,v)∈C(v)}
C(v)表示以实体v为中心实体的邻域三元组集合,从实体v的邻域实体集合n(v)里随机选择一个实体v1,判断该实体v1对应的尾实体负样本集合里是否为空,如果该集合为空,则从原实体集合里面随机采样满足(v,r,t')∈T'的尾结点负样本t'作为负样本实体结点,并将t'添加进v对应的尾实体负样本集合来;反之,如果该集合不为空,则从该集合里面随机选择实体v2,如果v2满足(v,r,v2)∈T',就将v2作为实体v所对应的尾实体负样本,如果v2不满足(v,r,v2)∈T',则依然从原实体集合里面随机采样满足(v,r,t')∈T'条件的尾结点负样本t',无论哪个选择,最后得到的负样本t'都将新添加进v对应的尾实体负样本集合中。
7.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤5)中,在测试和应用环节,给定形式为(h,r,?)或(?,r,t)的未知三元组,根据三元组关联模型训练结果,遍历实体集合里的所有实体并依次计算评价函数的取值,然后进行排序,选择值最小的实体作为该未知三元组缺失的头实体或者尾实体,亦即发现知识图谱中没有存在的新的三元组,达到知识图谱完备化的目的。
CN201910271576.4A 2019-04-04 2019-04-04 一种基于知识图谱邻域结构的图谱完备化方法 Active CN109992670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910271576.4A CN109992670B (zh) 2019-04-04 2019-04-04 一种基于知识图谱邻域结构的图谱完备化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910271576.4A CN109992670B (zh) 2019-04-04 2019-04-04 一种基于知识图谱邻域结构的图谱完备化方法

Publications (2)

Publication Number Publication Date
CN109992670A true CN109992670A (zh) 2019-07-09
CN109992670B CN109992670B (zh) 2021-04-09

Family

ID=67132400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910271576.4A Active CN109992670B (zh) 2019-04-04 2019-04-04 一种基于知识图谱邻域结构的图谱完备化方法

Country Status (1)

Country Link
CN (1) CN109992670B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN110837567A (zh) * 2019-11-18 2020-02-25 第四范式(北京)技术有限公司 实现知识图谱嵌入的方法和系统
CN111191462A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111209351A (zh) * 2020-01-02 2020-05-29 北京沃东天骏信息技术有限公司 对象关系预测、对象推荐方法及装置、电子设备、介质
CN111428674A (zh) * 2020-04-02 2020-07-17 南开大学 一种保持多度量空间一致性的多损失联合训练方法
CN111444317A (zh) * 2020-03-17 2020-07-24 杭州电子科技大学 一种语义敏感的知识图谱随机游走采样方法
CN111522887A (zh) * 2020-04-03 2020-08-11 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN112333102A (zh) * 2020-11-02 2021-02-05 北京邮电大学 基于知识图谱的软件定义网络路由选择方法和系统
CN112434812A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112463989A (zh) * 2020-12-11 2021-03-09 交控科技股份有限公司 一种基于知识图谱的信息获取方法及系统
CN112749302A (zh) * 2019-10-29 2021-05-04 第四范式(北京)技术有限公司 基于知识图谱的数据采样方法、装置、计算设备及可读介质
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
WO2021098372A1 (zh) * 2019-11-18 2021-05-27 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN112989063A (zh) * 2021-03-10 2021-06-18 青岛弯弓信息技术有限公司 一种基于知识图谱的3d建模方法及系统
CN113239131A (zh) * 2021-06-18 2021-08-10 国网湖南省电力有限公司 基于元学习的少样本知识图谱补全方法
CN113377968A (zh) * 2021-08-16 2021-09-10 南昌航空大学 一种采用融合实体上下文的知识图谱链路预测方法
CN116186281A (zh) * 2022-12-27 2023-05-30 中国人民解放军国防科技大学 一种基于多关系选择的动态知识图谱推理方法及系统
CN111858958B (zh) * 2020-07-22 2024-02-02 武汉理工大学 基于隐空间邻域聚合的智能网联汽车产业图谱融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
US20140229163A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Latent semantic analysis for application in a question answer system
CN108021682A (zh) * 2017-12-11 2018-05-11 西安交通大学 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN109165278A (zh) * 2018-09-07 2019-01-08 桂林电子科技大学 一种基于实体和关系结构信息的知识图谱表示学习方法
CN109389151A (zh) * 2018-08-30 2019-02-26 华南师范大学 一种基于半监督嵌入表示模型的知识图谱处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779161A (zh) * 2012-06-14 2012-11-14 杜小勇 基于rdf知识库的语义标注方法
US20140229163A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Latent semantic analysis for application in a question answer system
CN108021682A (zh) * 2017-12-11 2018-05-11 西安交通大学 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN109389151A (zh) * 2018-08-30 2019-02-26 华南师范大学 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN109165278A (zh) * 2018-09-07 2019-01-08 桂林电子科技大学 一种基于实体和关系结构信息的知识图谱表示学习方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN112749302A (zh) * 2019-10-29 2021-05-04 第四范式(北京)技术有限公司 基于知识图谱的数据采样方法、装置、计算设备及可读介质
WO2021098372A1 (zh) * 2019-11-18 2021-05-27 支付宝(杭州)信息技术有限公司 训练用于表征知识图谱的图神经网络模型的方法及装置
CN110837567A (zh) * 2019-11-18 2020-02-25 第四范式(北京)技术有限公司 实现知识图谱嵌入的方法和系统
CN111191462A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111191462B (zh) * 2019-12-30 2022-02-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111209351A (zh) * 2020-01-02 2020-05-29 北京沃东天骏信息技术有限公司 对象关系预测、对象推荐方法及装置、电子设备、介质
CN111209351B (zh) * 2020-01-02 2023-08-08 北京沃东天骏信息技术有限公司 对象关系预测、对象推荐方法及装置、电子设备、介质
CN111444317A (zh) * 2020-03-17 2020-07-24 杭州电子科技大学 一种语义敏感的知识图谱随机游走采样方法
CN111444317B (zh) * 2020-03-17 2021-11-30 杭州电子科技大学 一种语义敏感的知识图谱随机游走采样方法
CN111428674A (zh) * 2020-04-02 2020-07-17 南开大学 一种保持多度量空间一致性的多损失联合训练方法
CN111428674B (zh) * 2020-04-02 2022-06-24 南开大学 一种保持多度量空间一致性的多损失联合训练方法
CN111522887A (zh) * 2020-04-03 2020-08-11 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111522887B (zh) * 2020-04-03 2023-09-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111858958B (zh) * 2020-07-22 2024-02-02 武汉理工大学 基于隐空间邻域聚合的智能网联汽车产业图谱融合方法
CN112333102A (zh) * 2020-11-02 2021-02-05 北京邮电大学 基于知识图谱的软件定义网络路由选择方法和系统
CN112333102B (zh) * 2020-11-02 2021-09-14 北京邮电大学 基于知识图谱的软件定义网络路由选择方法和系统
CN112434812A (zh) * 2020-11-26 2021-03-02 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112434812B (zh) * 2020-11-26 2023-09-05 中山大学 一种基于对偶四元数的知识图谱链接预测方法及系统
CN112463989A (zh) * 2020-12-11 2021-03-09 交控科技股份有限公司 一种基于知识图谱的信息获取方法及系统
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
CN112836511B (zh) * 2021-01-27 2024-01-30 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN112989063B (zh) * 2021-03-10 2023-02-10 青岛弯弓信息技术有限公司 一种基于知识图谱的3d建模方法及系统
CN112989063A (zh) * 2021-03-10 2021-06-18 青岛弯弓信息技术有限公司 一种基于知识图谱的3d建模方法及系统
CN113239131A (zh) * 2021-06-18 2021-08-10 国网湖南省电力有限公司 基于元学习的少样本知识图谱补全方法
CN113377968A (zh) * 2021-08-16 2021-09-10 南昌航空大学 一种采用融合实体上下文的知识图谱链路预测方法
CN113377968B (zh) * 2021-08-16 2021-10-29 南昌航空大学 一种采用融合实体上下文的知识图谱链路预测方法
CN116186281A (zh) * 2022-12-27 2023-05-30 中国人民解放军国防科技大学 一种基于多关系选择的动态知识图谱推理方法及系统
CN116186281B (zh) * 2022-12-27 2024-05-31 中国人民解放军国防科技大学 一种基于多关系选择的动态知识图谱推理方法及系统

Also Published As

Publication number Publication date
CN109992670B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN109992670A (zh) 一种基于知识图谱邻域结构的图谱完备化方法
CN111291836B (zh) 一种生成学生网络模型的方法
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN110443364A (zh) 一种深度神经网络多任务超参数优化方法及装置
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN109389207A (zh) 一种自适应神经网络学习方法及神经网络系统
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN105787557A (zh) 一种计算机智能识别的深层神经网络结构设计方法
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN109255002B (zh) 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN111931814B (zh) 一种基于类内结构紧致约束的无监督对抗域适应方法
CN105654136B (zh) 一种基于深度学习的大规模遥感影像目标自动识别方法
CN113836312A (zh) 一种基于编码器和解码器架构的知识表示推理方法
CN111027700A (zh) 基于wcur算法的知识库补全方法
CN114564596A (zh) 一种基于图注意力机制的跨语言知识图谱链接预测方法
CN113254663A (zh) 一种融合图卷积与翻译模型的知识图谱联合表示学习方法
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
CN112115967A (zh) 一种基于数据保护的图像增量学习方法
CN114969367A (zh) 基于多方面子任务交互的跨语言实体对齐方法
CN106780501A (zh) 基于改进人工蜂群算法的图像分割方法
CN113987203A (zh) 一种基于仿射变换与偏置建模的知识图谱推理方法与系统
CN110047088B (zh) 一种基于改进教与学优化算法的ht-29图像分割方法
CN116226467A (zh) 基于节点结构特征的图卷积神经网络的社区发现方法
CN110020379B (zh) 一种基于深度动态网络嵌入表示模型的链路预测方法
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant