CN109840283B - 一种基于传递关系的本地自适应知识图谱优化方法 - Google Patents

一种基于传递关系的本地自适应知识图谱优化方法 Download PDF

Info

Publication number
CN109840283B
CN109840283B CN201910154252.2A CN201910154252A CN109840283B CN 109840283 B CN109840283 B CN 109840283B CN 201910154252 A CN201910154252 A CN 201910154252A CN 109840283 B CN109840283 B CN 109840283B
Authority
CN
China
Prior art keywords
entity
relationship
distance
relation
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910154252.2A
Other languages
English (en)
Other versions
CN109840283A (zh
Inventor
王大玲
刘泓辰
冯时
张一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910154252.2A priority Critical patent/CN109840283B/zh
Priority to PCT/CN2019/077728 priority patent/WO2020177142A1/zh
Publication of CN109840283A publication Critical patent/CN109840283A/zh
Application granted granted Critical
Publication of CN109840283B publication Critical patent/CN109840283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Devices For Executing Special Programs (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于传递关系的本地自适应知识图谱优化方法,包括:设定训练样本集;设定任意ri和ei初始属于某一分布;归一化;组成新的训练样本集;初始化三元组集合为空集;设定正确的三元组,其对应错误的三元组,用错误的三元组头实体或者尾实体替换正确的三元组,组成错误训练样本集,并且合并到三元组集合中;获得其实体的边缘参数;获得关系的边缘参数;计算边缘参数随实体和关系进行变化的参数;得到新的基于传递关系的损失函数;进行判断并使用随机梯度下降函数SGD对每个实体或者关系向量进行优化;本发明可以弥补数据的不完全性,并能够更好地表达出关系与实体间潜在的不同语义,优化后所构建的新的知识图谱具有更高的准确率。

Description

一种基于传递关系的本地自适应知识图谱优化方法
技术领域
本发明属于知识管理和信息检索领域,具体涉及一种基于传递关系的本地自适应知识图谱优化方法。
背景技术
知识图谱(Knowledge Graph)是一种大规模的结构化数据集合,它用于描述现实世界中各种存在的实体与概念,以及实体和实体、实体和概念以及概念和概念的联系,扩充知识结构,进而能够通过计算机来识别并进行分析处理。
知识图谱由三元组
Figure GDA0002564864340000011
组成(
Figure GDA0002564864340000012
分别表示头实体、关系、尾实体)。在目前的基于嵌入翻译的知识图谱中,主要方法是将实体与关系嵌入到同一个低维度空间中,或者是将实体和关系分别嵌入到不同的低维度空间中。这些方法都能极好地构建出知识图谱模型,并能获得良好的效果。其中有很多效果比较突出的方法,如TransE、TransH、TransR、TransA等。其中TransA模型根据知识图谱的实体和关系能够动态地决定损失函数中的参数,并从理论上证明了损失函数中的参数在知识图谱建模的本地化中的重要作用。但是就知识具有的传递性这一特点而言,现有的这些基于嵌入翻译的知识图谱模型大多没有对其予以考虑,即在构建三元组时,没有将三元组中的关系、实体等具有与其他三元组中的实体、关系的关联进行考虑或者深入分析。
知识是具有传递性的,我们可以举例进行说明。给出一系列三元组:(猫狮金鱼,属于,虎头金鱼),(虎头金鱼,属于,金鱼),(金鱼,属于,鱼),(鱼,属于,动物)。从这四个三元组中,我们可以提取到很多符合常理且符合生物学的新三元组,分别是(猫狮金鱼,属于,金鱼)、(猫狮金鱼,属于,鱼)、(猫狮金鱼,属于,动物)、(虎头金鱼,属于,鱼)、(虎头金鱼,属于,动物)、(金鱼,属于,动物)。这些三元组都是客观事实存在,但是并未显示出来。知识图谱的基本思想是:如果
Figure GDA0002564864340000013
Figure GDA0002564864340000014
相关,那么
Figure GDA0002564864340000015
Figure GDA0002564864340000016
Figure GDA0002564864340000017
越相关,
Figure GDA0002564864340000018
Figure GDA0002564864340000019
的距离越近,反之
Figure GDA00025648643400000110
Figure GDA00025648643400000111
的距离越远。所以在上述例子中“猫狮金鱼”+“属于”不仅仅应该与“虎头金鱼”的位置更相近,同时也应该与“金鱼”、“鱼”、“动物”等实体的距离更近。不能仅仅因为在三元组中没有这些内容,就将这些定义为不正确的三元组,从而将这些从推理方面符合客观事实且科学的内容相互远离。
虽然知识具有传递性,但如果不加限制地传递,却又是片面和不科学的。例如,我们也可以用三元组进行表示(人,像,猿)、(猿,像,猴)、(猴,像,猪)。这里的“像”可以视为知识图谱三元组数据中经常出现的“关系”。在这里,我们就不能也不敢获得类似于第一个例子的三元组,例如(人,像,猪)这一类型的三元组。从常理上就可以看出,这类三元组就是错误的三元组。但是像(人,像,猴)这一类型的三元组确实可以在一定程度上能够让人接受,但又不是完全接受。这类三元组的定义模糊不清,既可以让人认为是对的,同时也可以让人认为是错的,没有明确的定义。但是,如果继续这样传递下去,一定可以认为是错的。
从上述的两个例子中,我们可以看出,一方面,知识确实具有传递性,因此由实体和关系构成的三元组也应该表达这种传递性;另一方面,三元组在传递的过程中,会发生失真现象或者某些关系不具有知识传递的能力,使得新获得的三元组变得面部全非。所以,在知识进行传递中,需要有一个度量标准,满足该标准才具有传递性。
发明内容
针对以上技术问题,本发明提出一种基于传递关系的本地自适应知识图谱优化方法,即TransAT,该方法将传递关系引入到前述的TransA模型中,形成新的知识图谱模型,即基于传递关系的本地自适应知识图谱模型TransAT。首先,针对知识图谱中的随机梯度下降算法以及本地自适应知识图谱模型进行扩充,所得到的随机梯度下降算法将替换后的实体根据与原实体的距离不同,采用不同的优化策略,得到不同的优化效果,从而获得新的知识图谱模型。然后,根据实体和关系的位置,结合知识的传递性,产生边缘参数,应用到损失函数中,进行模型优化,获得基于传递关系的本地自适应知识图谱。
一种基于传递关系的本地自适应知识图谱优化方法,具体步骤如下:
步骤1:设定训练样本集为
Figure GDA0002564864340000021
Figure GDA0002564864340000022
为一个头实体向量,
Figure GDA0002564864340000023
为一个尾实体向量,
Figure GDA0002564864340000024
为一个连接头实体和尾实体的关系向量,i=1,2,...,N,
Figure GDA0002564864340000025
其中,E为实体集,R为关系集,设定嵌入空间维度为n,知识传播的距离为d,约束因子为μ;
步骤2:设定任意
Figure GDA0002564864340000026
初始属于某一分布;设定任意e初始属于某一分布,与
Figure GDA0002564864340000027
所属分布为同一分布或者为不同分布,并且e∈E,e为
Figure GDA0002564864340000028
或者
Figure GDA0002564864340000029
步骤3:归一化
Figure GDA00025648643400000210
归一化公式分别为:
Figure GDA00025648643400000211
Figure GDA00025648643400000212
Figure GDA00025648643400000213
其中,||ri||、||hi||、||ti||分别为
Figure GDA00025648643400000214
的一阶范数;
步骤4:从训练样本集中随机抽取样本大小为b的样本,组成新的训练样本集Sbatch:Sbatch=sample(S,b);其中,sample(S,b)表示在训练样本集S中随机抽取b个样本;
步骤5:初始化三元组集合为空集Tbatch=Φ;
步骤6:基于归一化后的
Figure GDA0002564864340000031
设定(h,r,t)∈Sbatch为正确的三元组,h、r、t分别为头实体、关系和尾实体,其对应(h’,r,t’)属于错误的三元组,用错误的三元组头实体或者尾实体替换正确的三元组,组成错误训练样本集S′(h′,r,t′),并且合并到三元组集合Tbatch中,得到合并后三元组集合T′batch=Tbatch∪{(h′,r,t′),(h,r,t)};
步骤7:对于实体h或者t,获得其实体的边缘参数Ment,公式如下:
Figure GDA0002564864340000032
其中,t∈Pr,t′∈Nr∪Tr,l∈Tr,l′∈Nr,Pr为正确的实体集合,Tr为传播错误实体,Nr为部分错误实体,σ(x)为求绝对值的函数,d表示知识传传播的距离,f(i)表示传递后每部分实体具有的能量且f(i)≥0,并且整个公式中的传递总能量应该为1,所以
Figure GDA0002564864340000033
Rh代表实体h在三元组集合中涉及的关系集合,r表示h在三元组中涉及的某一个关系,n表示Rh集合中关系的个数,
Figure GDA0002564864340000034
表示获得正确实体和h的距离与错误实体和h的距离的差值,而
Figure GDA0002564864340000035
表示获得传递错误实体和h的距离与部分错误实体与h的距离的差值;
步骤8:对于关系r,获得关系的边缘参数Mrel,公式如下:
Figure GDA0002564864340000036
其中,Rh,r是一个关系集合,Rh,r={r1,r2,...,rn},表示对于实体h除了关系r外,涉及到其他关系的集合,||ri||-||r||表示给定的特定关系到Rh,r集合中的关系的距离,
Figure GDA0002564864340000037
表示给定的关系和Rh,r中的关系距离的最小差值,且当||ri||≥||r||情况不存在、或者Rh,r为空时,Mrel=0;
步骤9:计算边缘参数随实体和关系进行变化的参数,公式如下:
Mopt=μMent+(1-μ)Mrel (6)
其中,Ment表示实体的边缘参数,Mrel表示关系的边缘参数,参数μ控制Ment和Mrel对Mopt所占的比例,且0≤μ≤1;
步骤10:将新获得的Mopt带入到损失函数中,得到新的基于传递关系的损失函数,为:
L=∑(h,l,t)∈S(h′,l,t′)∈S′(Mopt+fr(h,t)-fr(h′,t′)) (7)
其中,fr(h,t)为h+r与t之间的距离函数,fr(h′,t′)为h′+r与t′之间的距离函数;
步骤11:判断若Mopt+fr(h,t)>fr(h′,t′),输入三元组集合T′batch,使用随机梯度下降函数SGD对每个实体或者关系向量进行优化,得到优化后的E和R向量集合,完成知识图谱优化,若判断Mopt+fr(h,t)≤fr(h′,t′),无需进行优化;
所述随机梯度下降函数SGD进行优化,公式如下:
Figure GDA0002564864340000041
其中,m表示知识传递收到实体或者关系,m′表示优化后的实体或者关系,λ表示随机梯度下降的学习速率,
Figure GDA0002564864340000042
表示对三元组h+r与t的相似度距离求导的结果,m0表示知识传递的启发实体或关系,tr(m0,d)表示对于关系r的基于知识传递的范围函数,且0<tr(m0,d)<1,d表示知识传播的距离,且d>0。
有益技术效果:
目前,在基于嵌入翻译的知识图谱中,主要方法是将实体与关系嵌入到同一个低维度空间中,或者是将实体和关系分别嵌入到不同的低维度空间中。这些方法都能极好地构建出知识图谱模型,并能获得良好的效果。但是,现有的知识图谱模型大多没有考虑到知识的传递性,即在构建三元组时,没有将三元组中的关系、实体等与其他三元组中的实体、关系的关联进行考虑或者深入地分析。本发明通过关系传递性的引入以及这种传递性在关系推演过程中的不断衰弱,可以在很大程度上弥补数据的不完全性,并能够更好地表达出关系与实体间潜在的不同语义,因此来得到更好地效果。
采用本发明的基于知识传递关系的本地自适应知识图谱优化方法,优化后所构建的新的知识图谱,即优化后的E和R向量集合链接预测和三元组分类方面具有更高的准确率。
附图说明
图1为本发明实施例的种基于传递关系的本地自适应知识图谱优化方法流程图。
具体实施方式
下面结合附图和具体实施实例对发明做进一步说明,一种基于传递关系的本地自适应知识图谱优化方法,如图1所示,具体步骤如下:
步骤1:设定训练样本集为
Figure GDA0002564864340000051
Figure GDA0002564864340000052
为一个头实体向量,
Figure GDA0002564864340000053
为一个尾实体向量,
Figure GDA0002564864340000054
为一个连接头实体和尾实体的关系向量,i=1,2,...,N,
Figure GDA0002564864340000055
其中,E为实体集,R为关系集,设定嵌入空间维度为n,知识传播的距离为d,约束因子为μ;
步骤2:设定任意
Figure GDA0002564864340000056
初始属于某一分布;设定任意e初始属于某一分布,与
Figure GDA0002564864340000057
所属分布为同一分布或者为不同分布,并且e∈E,e为
Figure GDA0002564864340000058
或者
Figure GDA0002564864340000059
步骤3:归一化
Figure GDA00025648643400000510
归一化公式分别为:
Figure GDA00025648643400000511
Figure GDA00025648643400000512
Figure GDA00025648643400000513
步骤4:从训练样本集中随机抽取样本大小为b的样本,组成新的训练样本集Sbatch:Sbatch=sample(S,b);其中,sample(S,b)表示在训练样本集S中随机抽取b个样本;
步骤5:初始化三元组集合为空集Tbatch=Φ;
步骤6:基于归一化后的
Figure GDA00025648643400000514
设定(h,r,t)∈Sbatch为正确的三元组,h、r、t分别为头实体、关系和尾实体,其对应(h’,r,t’)属于错误的三元组,用错误的三元组头实体或者尾实体替换正确的三元组,组成错误训练样本集S′(h′,r,t′),并且合并到三元组集合Tbatch中:T′batch=Tbatch∪{(h′,r,t′),(h,r,t)};
步骤7:对于实体h或者t,获得其实体的边缘参数Ment,公式如下:
Figure GDA00025648643400000515
其中,t∈Pr,t′∈Nr∪Tr,l∈Tr,l′∈Nr,Pr为正确的实体集合,Tr为传播错误实体,Nr为部分错误实体,σ(x)为求绝对值的函数,d表示知识传播的距离,f(i)表示传递后每部分实体具有的能量且f(i)≥0,并且整个公式中的传递总能量应该为1,所以
Figure GDA0002564864340000061
Rh代表实体h在三元组集合中涉及的关系集合,r表示h在三元组中涉及的某一个关系,n表示Rh集合中关系的个数,
Figure GDA0002564864340000062
表示获得正确实体和h的距离与错误实体和h的距离的差值,而
Figure GDA0002564864340000063
表示获得传递错误实体和h的距离与部分错误实体与h的距离的差值;
步骤8:对于关系r,获得关系的边缘参数Mrel,公式如下:
Figure GDA0002564864340000064
其中,Rh,r是一个关系集合,Rh,r={r1,r2,...,rn},表示对于实体h除了关系r外,涉及到其他关系的集合,||ri||-||r||表示给定的特定关系到Rh,r集合中的关系的距离,
Figure GDA0002564864340000065
表示给定的关系和Rh,r中的关系距离的最小差值,且当||ri||≥||r||情况不存在、或者Rh,r为空时,Mrel=0;
步骤9:计算边缘参数随实体和关系进行变化的参数,公式如下:
Mopt=μMent+(1-μ)Mrel (6)
其中,Ment表示实体的边缘参数,Mrel表示关系的边缘参数,参数μ控制Ment和Mrel对Mopt所占的比例,且0≤μ≤1;
步骤10:将新获得的Mopt带入到损失函数中,得到新的基于传递关系的损失函数,为:
L=∑(h,l,t)∈S(h′,l,t′)∈S′(Mopt+fr(h,t)-fr(h′,t′)) (7)
其中,fr(h,t)为h+r与t之间的距离函数,fr(h′,t′)为h′+r与t′之间的距离函数;
步骤11:判断若Mopt+fr(h,t)>fr(h′,t′)),输入三元组集合T′batch,使用随机梯度下降函数SGD对每个实体或者关系向量进行优化,得到优化后的E和R向量集合,完成知识图谱优化,若判断Mopt+fr(h,t)≤fr(h′,t′),无需进行优化;
所述随机梯度下降函数SGD进行优化,公式如下:
Figure GDA0002564864340000066
其中,m表示知识传递收到实体或者关系,m′表示优化后的实体或者关系,λ表示随机梯度下降的学习速率,
Figure GDA0002564864340000067
表示对三元组h+r与t的相似度距离求导的结果,m0表示知识传递的启发实体或关系,tr(m0,d)表示对于关系r的基于知识传递的范围函数,且0<tr(m0,d)<1,d表示知识传播的距离,且d>0。
下面给出TransAT算法的实施例,针对该算法编程即可实现基于知识传递关系的本地自适应知识图谱的优化,构建新的知识图谱,如表1所示,用伪代码实现:
表1:基于知识传递的本地自适应知识图谱模型
Figure GDA0002564864340000071
Figure GDA0002564864340000081
该算法中输入是三元组集合、实体集合、关系集合、实体和关系需要嵌入的低维度空间的维度、对于实体知识传播的距离以及边缘参数中对实体部分边缘参数和关系部分边缘参数的约束参数。这里的“三元组集合”可以从WordNet、Freebase等现有资源中获得。算法输出的是基于传递关系的本地自适应知识图谱模型。第1、2行表示对关系的初始操作,对每个关系在低维度空间中随机赋予约束内一个位置,并且能够更好地处理,将关系进行归一化。第3行表示对所有实体嵌入到低维度空间向量中,并将位置随机分配在一个区域内。第4-18行表示对基于传递关系的自适应知识图谱模型进行循环优化,其中第5行表示对涉及到的实体,分别是头实体和尾实体进行归一化,第6行表示从三元组集合中选取一部分作为训练集。第7-11行表明将正确的三元组和错误的三元组进行集合,其中第9、10行表明替换正确三元组中的头实体或者尾实体,形成错误的三元组,第12-14行是通过公式(4)、公式(5)和公式(6)计算Ment、Mrel、Mopt。第15-17行是对正确三元组和错误三元组涉及的参数进行优化,第15行是基于传递关系的本地自适应损失函数,判断是否对涉及的参数进行优化操作。第16行是对正确三元组中的h、t、r和错误三元组中的h′、t′、r进行随机梯度下降操作,所调用的随机梯度下降函数SGD描述如表2,用伪代码实现:
表2:基于传递关系的随机梯度下降
Figure GDA0002564864340000082
Figure GDA0002564864340000091
函数SGD的输入是:知识图谱中正确的三元组、错误的三元组、嵌入的低维度空间的维度、随机梯度下降算法的学习速率和知识的传播距离,然后获得对实体和关系处理后、在低维度嵌入空间中的位置。第1行显示错误三元组中换掉的实体与正确三元组中的原实体传播后的能量值。第2-11行显示对知识图谱模型中的实体与关系的循环优化,其中第3-6行显示正确三元组优化的结果,使用公式(8),第7-10行显示错误三元组在基于支持传播后的优化结果,使用公式(8)。其中,第3行和第7行分别表示对正确三元组中的差值和错误三元组中的差值进行求导。
以下是本发明算法的原理详细描述:
梯度下降算法是机器学习中作为模型优化的基本方法之一,该算法通过训练集中随机选取某个训练样本,在模型进行迭代求解过程中去计算梯度,并通过计算后的梯度对模型中的参数进行更新。随机梯度下降算法的主要思想是:在给定的训练样本集M中,随机选取其中N个样本作为新的训练样本集,去替代原训练样本集M,完成模型进行训练。在知识图谱中,随机梯度下降算法是对损失函数f进行参数优化。它是按照梯度反方向更新参数w直到函数收敛。算法为:
Figure GDA0002564864340000092
其中,w表示需要优化的参数,而w′表示优化后得到新的参数的值,λ表示学习速率,
Figure GDA0002564864340000093
表示对损失函数求导的结果。
优化的随机梯度下降算法实现。这里的优化随机梯度下降算法实际上是将传递关系引入进来。具体地,设E是实体集合,R是关系集合,把任意一个三元组定义为(hi,ri,ti)(i=1,2,...,n)。其中,hi是一个头实体向量,ti是一个尾实体向量,ri是一个连接头实体和尾实体的关系向量。且hi∈Rk和ti∈Rk且ri∈Rd,其中k可以等于d,也可以不等于d。Rk与Rd可以相同也可以不相同。hi、ti和ri可以处于同一个嵌入空间Rk中,同样hi、ti可以处于Rk空间中,而ri处于Rd空间中。Δ表示正确的三元组集合,即这个三元组在训练集合中出现,Δ′表示错误的三元组。
有多个三元组,分别是(h1,r1,t1)、(t1,r1,h2)、(h2,r1,t2)。可以看出,h1与h2可能具有关系的关联性,而t1与t2同样可能具有关系的关联性。根据闭包原理中关系传递性原理,h1与t2同样可能具有关联性。由于关系本身含义的原因,知识的传递性可能会在传递时失真,无法确保其有效性。所以当传递距离越远时,越是应该减少其关联性,直到为0。因此,基于传递关系的随机梯度下降算法的主要思想是:由于不能完全确定传递的关系是否在传递时失真,所以在进行对知识图谱模型进行优化时,当传递具有的能量越剧烈,即关系传播的距离越近,错误三元中相应变换的位置远离的梯度就越低;当关系传播的距离越远,传递的能量越低,错误三元中相应变换的位置远离的梯度就越高,直到变回到正常的梯度。
当出现具有传递关系的三元组,进行模型优化时应将错误的三元组梯度对应的梯度相应减少,传递关系越强烈,优化的梯度就应该越低。由此,基于传递关系的随机梯度下算法为:
Figure GDA0002564864340000101
其中,m表示实体或者关系,m′表示优化后的实体或者关系,λ表示随机梯度下降的学习速率,
Figure GDA0002564864340000102
表示三元组h+r与t的相似度距离的导数,m0与m分别表示知识传递的启发实体和传播收到的实体,tr(m0,d)表示对于关系r的基于知识传递的范围函数,且0<tr(m0,d)<1。d表示知识传播的距离,为了将该模型与随机梯度下降算法作为区别,设置d>0。并且tr(m0,d)可以为线性函数、指数型函数或者对数型函数,根据具体情况做具体的选择。从公式(2)可以看出,当λ<tr(m0,d)时,则学习速率因子就会为正,即使三元组是错误三元组,同样会使得内容相互靠近。当λ>tr(m0,d)时,那么学习速率为负,此时的三元组是错误三元组,同样会使得内容相互远离。但是与原来相比,远离的距离会变小。tr(m0,d)是一种连续函数,随m0和d变化而变化。当tr(m0,d)是线性函数时,说明随着传播距离的增大,梯度呈线性变化,前一个传递与后一个传递对于m来说,损失的程度相同;当tr(m0,d)是指数型函数时,说明随着传播距离的增大,梯度指数型变化,前一个传递与后一个传递对于m来说,传播能量在传递过程中能量损失呈指数型变化,即知识传递越远,新知识与m+r最初的含义越不相近,如(人,像,狗)这种出现错误三元组的可能性急速增加;当tr(m0,d)是对数型函数时,说明随着传播距离的增大,梯度呈对数型函数变化,最终会慢慢趋向一个平稳的梯度,前一个传递与后一个传递对于m来说,传播能量在传递过程中呈对数型变化,即知识越传递,新知识与m+r本身的内容虽越不相近,但是仍然有一定的关系,错误三元组出现的可能性增加,与上一个传播的知识相比,错误三元组出现的概率会缓慢增加。
基于传递关系的本地自适应知识图谱模型构建。主要目的是通过引入传递关系和自适应机制构建优化后的知识图谱。主要分为以下2部分:
1.基于传递关系的知识图谱模型构建。上述优化的随机梯度下降算法可以应用于其他基于嵌入翻译的知识图谱,即可以将优化函数应用到如TransE、TransH、TransD、TransR等知识图谱模型中去。对于TransE来说,优化函数就是对h+r与t计算距离后的随机梯度更新;对于TransH来说,优化函数就是h与t映射到r的超平面计算距离后的梯度更新;对于TransD、TransR来说,就是h与t映射到r关系空间中计算距离后的梯度更新。当传播范围d=0时,结合后的TransE、TransH、TransD、TransR模型的优化函数就是随机梯度下降算法。
进而,将基于传递关系的随机梯度下降算法融入到现有的基于嵌入翻译的知识图谱的优化算法中,形成基于知识传递的知识图谱模型(TransT)。该模型在知识图谱进行优化时,充分考虑了三元组中传递性,也就是知识具有的传递性。当知识具有传递性时,相互远离的距离相应变小。
2.结合传递关系和自适应机制的知识图谱构建。知识图谱是将实体和关系嵌入到同一低维度或者不同低维度的向量空间中,通过最小化损失函数获得的值来进行知识图谱模型优化。
L=∑(h,r,t)∈S(h′,r,t′)∈S′(γ+fr(h,t)+fr(h′,t′)) (7)
损失函数是由正确三元组(h,r,t)、边缘参数γ与错误三元组(h′,r,t′)之间差值构成的。TransE、TransH、TransD等知识图谱模型都是通过模型训练得出边缘参数的值。因此,每个损失函数中边缘参数的值都会随着知识图谱模型的不同发生相应的改变。
本地自适应知识图谱模型证明了边缘参数在知识图谱中的重要性以及实体与关系对边缘参数的影响,但是它并没有考虑知识图谱中的关系间具有的传递性。本步骤将传递关系考虑到TransA中,形成新的知识图谱模型——基于传递关系的本地自适应知识图谱模型TransAT。
边缘参数随实体和关系进行改变,这里将其设为Mopt,其值为:
Mopt=μMent+(1-μ)Mrel (6)
其中,Ment表示实体的边缘参数,Mrel表示关系的边缘参数,参数μ控制Ment和Mrel对Mopt所占的比例,且0≤μ≤1。
对于某一个实体h和一个关系r,Pr={t|(h,r,t)∈Δ}被称作正确的实体,
Figure GDA0002564864340000111
Figure GDA0002564864340000112
被称为传播错误实体,其中对r而言,h到t之间可能存在多个三元组,
Figure GDA0002564864340000113
被称为部分错误实体。当知识图谱不考虑知识的传播性时,
Figure GDA0002564864340000114
此时的知识图谱模型即为本地自适应知识图谱模型TransA。边缘参数Ment由正确的实体和错误实体的前两类共同组成。Ment是为了将Pr向实体h靠近,而Nr和Tr远离h,其中Tr远离h一部分,而另一部分则被认为是正确实体,保持距离不动,而Nr则彻底远离h。Ment的值是由正确实体、错误实体、传递实体的间距加权求和获得。那么在基于传递的知识图谱模型中Ment的计算如下:
Figure GDA0002564864340000121
其中,t∈Pr,t′∈Nr∪Tr,l∈Tr,t′∈Nr,σ(x)为求绝对值的函数,d表示知识传播的距离,f(i)表示传递后每部分实体具有的能量且f(i)≥0,并且整个公式中的传递总能量应该为1,所以
Figure GDA0002564864340000122
Rh代表实体h在三元组集合中涉及的关系集合,r表示h在三元组中涉及的某一个关系,n表示Rh集合中关系的个数。
Figure GDA0002564864340000123
表示获得正确实体和h的距离与错误实体和h的距离的差值,而
Figure GDA0002564864340000124
表示获得传递错误实体和h的距离与部分错误实体与h的距离的差值。当Tr不为空,且在知识进行传递的距离不到d,知识就无法继续进行传递下去,此时就停止对知识传递的求和操作,不继续进行知识传递。当
Figure GDA0002564864340000125
的值较大时,Ment的值主要取决于传递知识获得的边缘参数部分;而
Figure GDA0002564864340000126
的值较小时,Ment的值主要取决于正确实体和错误实体获得的边缘参数部分;在特殊情况下,
Figure GDA0002564864340000127
为0时,Ment的值完全取决于正确实体和错误实体获得的边缘参数部分,此时的知识图谱模型为本地自适应知识图谱模型。当Nr∪Tr为空集,即所有的实体都是与h有r的关系、或者与h完全没有关系时,Ment为0。当Tr为空集时,此时的知识图谱模型就成为本地自适应知识图谱模型。
由于采用对实体具有关系的r进行统计运算,且实体包含头实体h和尾实体t两个部分,在进行训练时随机替换h和t其中的一个部分,剩下的一个实体通过公式(5)计算出其自身的Ment,可以是头实体h的Ment,也可以是尾实体t的Ment,然后进行基于知识传递的本地自适应知识图模型构建。所以Ment可以在1-to-1、1-to-N、N-to-1、N-to-N等实体与关系不同比例下均表现出良好的特性。通过对所有具有关联性的实体和关系进行循环求和运算,然后求出求和运算后的平均值,就得到了Ment
对于关系的边缘参数部分Ment,由于其实体的数量与关系的数量相比,关系的数量差距太大,所以在进行知识传递时,关系能够在距离非常短的情况下传递到大多数其他关系。传播后的三元组会与传输的意义几乎完全不同,传播时损失的含义会变得非常多,所以考虑基于知识的传播在关系上意义不大。基于此,本算法采用本地自适应知识图谱模型中基于关系的边缘参数作为关系部分的边缘参数,其计算如下:
Figure GDA0002564864340000131
其中,Rh,r是一个关系集合,Rh,r={r1,r2,...,rn},表示对于实体h除了关系r外,涉及到其他关系的集合,||ri||-||r||表示给定的特定关系到Rh,r集合中的关系的距离,
Figure GDA0002564864340000132
表示给定的关系和Rh,r中的关系距离的最小差值。且当||ri||≥||r||情况不存在、或者Rh,r为空时,Mrel=0。
Mopt是由Mrel与Ment共同组成,因此将Mrel与Ment的值带入到Mopt,即将公式(5)、公式(4)带入公式(6)中,获得基于传递关系的边缘参数Mopt,Mopt的计算如下:
Figure GDA0002564864340000133
将新获得的Mopt带入到公式(3)中,得到新的基于传递关系的损失函数,即为:
L=∑(h,l,t)∈S(h′,l,t′)∈S′(Mopt+fr(h,t)-fr(h′,t′) (8)
得到的L即基于传递关系的本地自适应知识图谱的损失函数。将该损失函数带入知识图谱中,获得相应的基于知识传递的本地自适应知识图谱模型。当实体和关系改变时,该模型能够自动调整边缘参数,不仅能够完成自适应调整,同时能够减少构建模型的复杂度。该模型是对边缘参数进行优化自动调整,所有的知识图谱模型都需要边缘参数对图谱进行优化,因此可以将该模型应用到TransE、TransH、TransR、TransD等知识图谱模型中。
附表说明:
表3为本发明实施例的数据集描述。其中,WN和FB分别为Wordnet和Freebase的简写,它们都是公开的数据集。其中,WN11和WN18分别表示Wordnet中包含11和13个关系类型,FB13和FB15K分别表示Freebase中包含13和15K个关系类型。
表4为本发明实施例的软硬件环境描述。
表5为本发明实施例的链接预测实验结果。
链接预测是指对于一个三元组(h,r,t)去掉其中的头实体h或者尾实体t,预测缺失的实体h或者t。从中可以看出,给定(h,r)来预测t,给定(r,t)来预测h。链接预测并非从知识图谱中返回一个最好的结果,而是返回一系列备选的实体结果。本发明从公开数据集中选取WN18和FB15K这两个数据集进行实验。
在进行数据测试时,对于每个测试中的三元组(h,r,t),通过使用知识图谱中全部实验实体来分别替换(h,r,t)中的h和t,接着通过评分函数fr计算(h,r)与t和(r,t)与h的距离。并通过获得的相似度距离对所有实体进行降序排序。对于知识图谱模型的评价标准采用平均排序和正确实体排在所有测试实体在前十名的概率(Hits@10)。通常,对于一个好的链接预测结果应该能够获得一个较低的平均排序的数值或者一个较高的Hits@10的数值。然而在进行测试排序时,实验认为的一个错误三元组也有可能存在于知识图谱中的测试三元组集合中。对于这些错误三元组,实验中也应该被认为是正确的三元组。然而在测试时,这些三元组获得非常高的排名,以至于会大幅度降低知识图谱模型的评价标准。因此为了避免上述情况,可以通过过滤出现在知识图谱中的错误三元组,得到真正匹配知识图谱模型的评价指标。本发明将第一种评估设置为“Raw”,第二这个评价设置为“Filter”。
本发明采用多种方法进行对比实验,其中包括基于嵌入翻译的知识图谱模型,例如TransE、TransH、TransR,以及一些基于能量的知识图谱模型,例如SME、Unstructed等方法。本实验选择边缘参数γ在{1,0.1,0.01}之中,随机梯度下降的学习速率λ在{1,0.1,0.01,0.001}之中,低维度空间的维度n在{20,50}之间,知识传播的距离d在{1,2,3}之间,相似度函数即距离空间在欧几里得距离L1和曼哈顿距离L2之间,传播的能量损失函数在线性函数、指数函数和对数函数之间。在WN18数据集中,n=20,λ=0.01,d=2,μ=0.6,传播的能量损失函数为对数函数,取L1为相似性度量距离;在FB15K数据集中,n=50、λ=1、d=1、μ=0.5,传传播的能量损失函数为指数函数,取L2为相似性度量距离。
从表5的实验结果可见,在两个数据集上,TransAT在平均排序方面均优于其他方法。而在Hits@10时,由于考虑到了知识的传递性,存在一些没有传递的知识却占据较好位置的实体,使得在进行排序时,不能获得前10的排名,使得在Hits@10测试集上,总体效果略差于TransA。
表6为本发明实施例的三元组分类实验结果。
三元组分类的目的是预测一个给定三元组(h,r,t)是正确三元组还是错误三元组。这是一个二元分类问题。由于数据集中没有公开表明哪些是正确三元组,哪些是错误三元组,因此采用链接预测使用的方法来构造错误三元组。具体的分类方法是为每一个关系r设置其特有的阈值δr,对于一个三元组(h,r,t),如果fr(h,t)的相似性度量小于该阈值,则该三元组被认为是正确三元组,否则为错误三元组。该阈值δr通过验证集最大化结果来优化。
在WN11数据集中,n=20,λ=0.1,d=2,μ=0.6传播的能量损失函数为对数函数,取L1为相似性度量距离;在FB13数据集中,n=50、λ=0.1、d=1、μ=0.5,传播的能量损失函数为指数函数、取L2为相似性度量距离。
从表6的实验结果可见,在WN11中,TransAT效果优于TransA,因为在此数据集中,知识传递有可靠的基础。而在FB13中则没有,因而在FB13中效果略差于TransA,并比其他方法相比,如NTN仍有一定的差距。
综合表5和表6的实验结果可见,在具有知识传递可靠基础的数据集中,本发明提出的基于传递关系的本地自适应知识图谱优化方法TransAT总体上占据优势。
表3本发明实验采用的数据集描述
数据集 关系 实体 训练集 验证集 测试集
WN11 11 38,696 112,581 2,609 10,544
WN18 18 40943 141,442 5,000 5,000
FB13 13 75,043 316,232 5,908 23,733
FB15K 1,345 14,951 483,142 50,000 59,071
表4本发明实验的软硬件环境
Figure GDA0002564864340000151
表5本发明链接预测的实验结果
Figure GDA0002564864340000161
表6本发明三元组分类准确度实验结果(%)
数据集 WN11 FB13
SE 53.0 75.2
SME(linear) 70.0 63.7
SLM 69.9 85.3
LFM 73.8 84.3
NTN 70.4 87.1
TransE 75.9 81.5
TransH 78.8 83.3
TransR 85.9 82.5
TransA 93.2 82.8
TransAT 93.8 82.2

Claims (2)

1.一种基于传递关系的本地自适应知识图谱优化方法,其特征在于,所述基于传递关系的本地自适应知识图谱优化方法,具体步骤如下:
步骤l:设定训练样本集为
Figure FDA0002564864330000011
Figure FDA0002564864330000012
为一个头实体向量,
Figure FDA0002564864330000013
为一个尾实体向量,
Figure FDA0002564864330000014
为一个连接头实体和尾实体的关系向量,i=1,2,...,N,
Figure FDA0002564864330000015
其中,E为实体集,R为关系集,设定嵌入空间维度为n,知识传播的距离为d,约束因子为μ;
步骤2:设定任意
Figure FDA0002564864330000016
初始属于某一分布;设定任意e初始属于某一分布,与
Figure FDA0002564864330000017
所属分布为同一分布或者为不同分布,并且e∈E,e为
Figure FDA0002564864330000018
或者
Figure FDA0002564864330000019
步骤3:归一化
Figure FDA00025648643300000110
归一化公式分别为:
Figure FDA00025648643300000111
Figure FDA00025648643300000112
Figure FDA00025648643300000113
其中,||ri||、||hi||、||ti||分别为
Figure FDA00025648643300000114
的一阶范数;
步骤4:从训练样本集中随机抽取样本大小为b的样本,组成新的训练样本集Sbatch:Sbatch=sample(S,b);其中,sample(S,b)表示在训练样本集S中随机抽取b个样本;
步骤5:初始化三元组集合为空集Tbatch=Φ;
步骤6:基于归一化后的
Figure FDA00025648643300000115
设定(h,r,t)∈Sbatch为正确的三元组,h、r、t分别为头实体、关系和尾实体,其对应(h’,r,t’)属于错误的三元组,用错误的三元组头实体或者尾实体替换正确的三元组,组成错误训练样本集S′(h′,r,t′),并且合并到三元组集合Tbatch中,得到合并后三元组集合T′batch=Tbatch∪{(h′,r,t′),(h,r,t)};
步骤7:对于实体h或者t,获得其实体的边缘参数Ment,公式如下:
Figure FDA00025648643300000116
Figure FDA00025648643300000117
其中,t∈Pr,t′∈Nr∪Tr,l∈Tr,l′∈Nr,Pr为正确的实体集合,Tr为传播错误实体,Nr为部分错误实体,σ(x)为求绝对值的函数,d表示知识传播的距离,f(i)表示传递后每部分实体具有的能量且f(i)≥0,并且整个公式中的传递总能量应该为1,所以
Figure FDA0002564864330000021
Rh代表实体h在三元组集合中涉及的关系集合,r表示h在三元组中涉及的某一个关系,n表示Rh集合中关系的个数,
Figure FDA0002564864330000022
表示获得正确实体和h的距离与错误实体和h的距离的差值,而
Figure FDA0002564864330000023
表示获得传递错误实体和h的距离与部分错误实体与h的距离的差值;
步骤8:对于关系r,获得关系的边缘参数Mrel,公式如下:
Figure FDA0002564864330000024
其中,Rh,r是一个关系集合,Rh,r={r1,r2,...,rn},表示对于实体h除了关系r外,涉及到其他关系的集合,||ri||-||r||表示给定的特定关系到Rh,r集合中的关系的距离,
Figure FDA0002564864330000025
表示给定的关系和Rh,r中的关系距离的最小差值,且当||ri||≥||r||情况不存在、或者Rh,r为空时,Mrel=0;
步骤9:计算边缘参数随实体和关系进行变化的参数,公式如下:
Mopt=μMent+(1-μ)Mrel (6)
其中,Ment表示实体的边缘参数,Mrel表示关系的边缘参数,参数μ控制Ment和Mrel对Mopt所占的比例,且0≤μ≤1;
步骤10:将新获得的Mopt带入到损失函数中,得到新的基于传递关系的损失函数,为:
L=∑(h,l,t)∈S(h′,l,t′)∈S′(Mopt+fr(h,t)-fr(h′,t′)) (7)
其中,fr(h,t)为h+r与t之间的距离函数,fr(h′,t′)为h′+r与t′之间的距离函数;
步骤11:判断若Mopt+fr(h,t)>fr(h′,t′),输入三元组集合T′batch,使用随机梯度下降函数SGD对每个实体或者关系向量进行优化,得到优化后的E和R向量集合,完成知识图谱优化,若判断Mopt+fr(h,t)≤fr(h′,t′),无需进行优化。
2.根据权利要求1所述基于传递关系的本地自适应知识图谱优化方法,其特征在于,所述随机梯度下降函数SGD进行优化,公式如下:
Figure FDA0002564864330000026
其中,m表示知识传递收到的实体或者关系,m′表示优化后的实体或者关系,λ表示随机梯度下降的学习速率,
Figure FDA0002564864330000031
表示对三元组h+r与t的相似度距离求导的结果,m0表示知识传递的启发实体或关系,tr(m0,d)表示对于关系r的基于知识传递的范围函数,且0<tr(m0,d)<1,d表示知识传播的距离,且d>0。
CN201910154252.2A 2019-03-01 2019-03-01 一种基于传递关系的本地自适应知识图谱优化方法 Active CN109840283B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910154252.2A CN109840283B (zh) 2019-03-01 2019-03-01 一种基于传递关系的本地自适应知识图谱优化方法
PCT/CN2019/077728 WO2020177142A1 (zh) 2019-03-01 2019-03-12 一种基于传递关系的本地自适应知识图谱优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910154252.2A CN109840283B (zh) 2019-03-01 2019-03-01 一种基于传递关系的本地自适应知识图谱优化方法

Publications (2)

Publication Number Publication Date
CN109840283A CN109840283A (zh) 2019-06-04
CN109840283B true CN109840283B (zh) 2020-09-01

Family

ID=66885267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910154252.2A Active CN109840283B (zh) 2019-03-01 2019-03-01 一种基于传递关系的本地自适应知识图谱优化方法

Country Status (2)

Country Link
CN (1) CN109840283B (zh)
WO (1) WO2020177142A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704634B (zh) * 2019-09-06 2023-08-01 平安科技(深圳)有限公司 知识图谱链接错误的查修方法、装置及存储介质
CN110598006B (zh) * 2019-09-17 2022-04-01 南京医渡云医学技术有限公司 模型的训练方法、三元组的嵌入方法、装置、介质及设备
CN110909172B (zh) * 2019-10-22 2022-08-16 中国船舶重工集团公司第七0九研究所 一种基于实体距离的知识表示学习方法
CN111460155B (zh) * 2020-03-31 2023-07-18 北京邮电大学 一种基于知识图谱的信息可信度评估方法及装置
CN113486161A (zh) * 2021-05-27 2021-10-08 中国电子科技集团公司电子科学研究院 基于特殊领域知识图谱的智能语义检索系统
CN114691896B (zh) * 2022-05-31 2022-09-13 浙江大学 一种知识图谱数据清洗方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787105B (zh) * 2016-03-21 2019-04-19 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN105824802B (zh) * 2016-03-31 2018-10-30 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN108959328B (zh) * 2017-05-27 2021-12-21 株式会社理光 知识图谱的处理方法、装置及电子设备
CN107391677B (zh) * 2017-07-21 2020-10-13 苏州狗尾草智能科技有限公司 携带实体关系属性的中文通用知识图谱的生成方法及装置
CA3014309A1 (en) * 2017-08-16 2019-02-16 Royal Bank Of Canada Expert knowledge platform
CN107784088A (zh) * 2017-09-30 2018-03-09 杭州博世数据网络有限公司 基于知识点连接关系的知识图谱构建方法
CN108446769B (zh) * 2018-01-23 2020-12-08 深圳市阿西莫夫科技有限公司 知识图谱关系推理方法、装置、计算机设备和存储介质
CN109063021B (zh) * 2018-07-12 2021-10-15 浙江大学 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统

Also Published As

Publication number Publication date
CN109840283A (zh) 2019-06-04
WO2020177142A1 (zh) 2020-09-10

Similar Documents

Publication Publication Date Title
CN109840283B (zh) 一种基于传递关系的本地自适应知识图谱优化方法
US11727243B2 (en) Knowledge-graph-embedding-based question answering
US11809828B2 (en) Systems and methods of data augmentation for pre-trained embeddings
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的系统和方法
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN107958286A (zh) 一种领域适应性网络的深度迁移学习方法
JP2022063250A (ja) SuperLoss:堅牢なカリキュラム学習のための一般的な損失
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
WO2020215694A1 (zh) 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备
WO2022095379A1 (zh) 数据降维处理方法、装置、计算机设备及存储介质
WO2023165139A1 (zh) 模型量化方法、装置、设备、存储介质及程序产品
CN112347246B (zh) 一种基于谱分解的自适应文档聚类方法及系统
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
Hong et al. Forward regression for Cox models with high-dimensional covariates
CN115146021A (zh) 文本检索匹配模型的训练方法、装置、电子设备及介质
CN111491300A (zh) 风险检测方法、装置、设备及存储介质
WO2023224707A1 (en) Anomaly score normalisation based on extreme value theory
Chakraborty et al. On the strong consistency of feature‐weighted k‐means clustering in a nearmetric space
US6789070B1 (en) Automatic feature selection system for data containing missing values
CN113239697A (zh) 实体识别模型训练方法、装置、计算机设备及存储介质
US20240086700A1 (en) Method Of Training Local Neural Network Model For Federated Learning
CN116701222A (zh) 基于特征加权迁移学习的跨项目软件缺陷预测方法及系统
US20220391765A1 (en) Systems and Methods for Semi-Supervised Active Learning
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
Sengupta et al. A scoring scheme for online feature selection: Simulating model performance without retraining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant