CN109063021B - 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 - Google Patents

一种能够编码关系语义多样性结构的知识图谱分布式表示方法 Download PDF

Info

Publication number
CN109063021B
CN109063021B CN201810764406.5A CN201810764406A CN109063021B CN 109063021 B CN109063021 B CN 109063021B CN 201810764406 A CN201810764406 A CN 201810764406A CN 109063021 B CN109063021 B CN 109063021B
Authority
CN
China
Prior art keywords
relation
graph
entity
knowledge
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810764406.5A
Other languages
English (en)
Other versions
CN109063021A (zh
Inventor
陈华钧
张文
张宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810764406.5A priority Critical patent/CN109063021B/zh
Publication of CN109063021A publication Critical patent/CN109063021A/zh
Application granted granted Critical
Publication of CN109063021B publication Critical patent/CN109063021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种能够编码关系语义多样性结构的知识图谱分布式表示方法,从知识图谱中图结构多样性的角度出发,挖掘和总结含有丰富语义信息的子图结构,并将子图结构与关系相关的语义信息联系起来,例如自反性、对称性、传递性等;本发明方法能够更好地编码图结构的多样性,因而可以更好地捕捉知识图谱中存在的语义信息,并达到更好的补全和预测效果,在链接预测任务中能取得更好的表现,具有较强的扩展性,对于在知识图谱分布式表示中编码关系语义多样性结构的应用具有很好的实用价值。

Description

一种能够编码关系语义多样性结构的知识图谱分布式表示 方法
技术领域
本发明属于数据存储与处理技术领域,具体涉及一种能够编码关系语义多样性结构的知识图谱分布式表示方法。
背景技术
知识图谱近年来受到了工业界极大的重视,在很多领域都有了成功的应用,例如搜索引擎、智能客服、语音机器人等,很多大型知识图谱被逐渐构建起来,例如GoogleKnowledge Graph以及开放的Freebase、Yago等。知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识,即两个实体之间存在某一种关系,用(h,r,t)表示,其中h、t分别表示头实体和尾实体,r表示关系,例如(杭州,位于国家是,中国)即表示了“杭州位于中国”这样一条知识。
知识图谱的分布式表示是针对大型知识图谱的补全和推理问题提出的,尽管有的大型知识图谱已经包含百万级的实体以及上亿的三元组,但大多数知识图谱仍然面临不全和知识缺失的问题,这使得知识图谱补全成为一个重要的任务。传统的补全方式多基于规则进行,但这在大规模知识图谱上效率不高,主要会面临的问题是规则的获取,规则获取方式一般有两种,一种是人工生成规则,这样的规则精度高但是覆盖率小;另一种是算法生成规则,这样的规则精度一般但可以大量生成,目前的方法多数基于图上的随机游走,在大型知识图谱上会面临搜索空间太大的问题。因此知识图谱的分布式表示应运而生,核心想法是为每一个实体和关系学习一个向量空间中的表示,可以是低维稠密的向量或者矩阵,最后通过这些表示之间的计算完成隐式的推理,可用于知识图谱补全等任务。
大型知识图谱是一个拥有复杂连接结构的有向图,很多子图结构包含了丰富的语义信息,尤其是与关系相关的语义信息,比如自反性,对称性,传递性等,含有这些语义信息的关系往往和特定的字图结构有密切关系。但现有的知识图谱分布式表示方法未能考虑图结构的多样性,故不能很好地处理这些多样的关系语义。
发明内容
鉴于上述,本发明提供了一种能够编码关系语义多样性结构的知识图谱分布式表示方法,从知识图谱中图结构和关系语义多样性分析出发,挖掘和总结含有丰富语义信息的子图结构,从而提升其捕捉知识图谱中关系语义多样性的能力。
一种能够编码关系语义多样性结构的知识图谱分布式表示方法,包括如下步骤:
(1)获取知识图谱中所有的三元组,计算每个三元组的置信度;
(2)以知识图谱中已有的三元组作为正样本,并为每个正样本构建对应的负样本并计算每个负样本的置信度;
(3)利用正样本和负样本对以下损失函数L进行最小化求解,从而得到知识图谱中所有实体和关系的向量以及所有关系的线性变换张量(为实现实体的多样性表示而设计的);
Figure BDA0001728676910000021
其中:Φ为所有正样本组成的集合,Ω为所有负样本组成的集合,P为所有训练参数组成的集合,x为集合Φ中的正样本,y为集合Ω中的负样本,p为集合P中的训练参数,λ为正则系数,sx为正样本x的置信度,sy为负样本y的置信度。
进一步地,所述步骤(1)中对于知识图谱中的任一三元组(h,r,t),通过以下公式计算出该三元组(h,r,t)的置信度s(h,r,t):
s(h,r,t)=σ(t·c(h,r))
Figure BDA0001728676910000022
其中:h、r、t分别表示三元组中的头实体、关系、尾实体,h为头实体向量,r为关系向量,t为尾实体向量,c(h,r)为头实体h与关系r的联合算子,
Figure BDA0001728676910000023
为头实体在关系r下的线性变换矩阵,
Figure BDA0001728676910000024
为关系r的线性变换矩阵,
Figure BDA0001728676910000025
Figure BDA0001728676910000026
均为d×d大小的对角矩阵且与关系r对应,bc为全局偏差向量,d为自定义的矩阵维度,tanh(z)为双曲正切函数,σ(z)为sigmoid非线性激活函数,z为函数自变量。
进一步地,所述双曲正切函数tanh(z)和sigmoid非线性激活函数σ(z)的表达式如下:
Figure BDA0001728676910000031
进一步地,所述步骤(2)中对于知识图谱中的任一正样本,利用知识图谱中已有的任一实体替换该正样本三元组中的头实体或尾实体,即得到其对应的负样本。
进一步地,所述步骤(3)中利用正样本和负样本通过随机梯度下降算法对损失函数L进行最小化求解。
本发明能够表达三种与关系语义相关的图结构:度结构、性质结构、关联结构;其中,度结构包括一对一,一对多,多对一和多对多四种关系结构类型;性质结构包括三种同关系环结构(one-relation-circle):分别为可代表自反性的一度同关系环结构、可代表对称性的二度同关系环结构以及可代表传递性的三度同关系环结构;关联结构主要包括同实体对多关系结构,即同一对实体之间存在多种关系,通常同实体对多关系结构与关系之间的相似性和等价性相关。
本发明从知识图谱中图结构多样性的角度出发,挖掘和总结含有丰富语义信息的子图结构,并将子图结构与关系相关的语义信息联系起来,例如自反性、对称性、传递性等,提出了一种新的知识图谱分布式表示方法,这个方法能够更好地编码图结构的多样性,因而可以更好地捕捉知识图谱中存在的语义信息,并达到更好的补全和预测效果,在链接预测任务中能取得更好的表现,具有较强的扩展性,对于在知识图谱分布式表示中编码关系语义多样性结构的应用具有很好的实用价值。
附图说明
图1为本发明模型训练的流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本发明提出了一种能够编码关系语义多样性结构的知识图谱分布式表示方法,包括如下步骤:
(1)获取知识图谱中所有的三元组(h,r,t),h为头实体,r为关系,t为尾实体;对于任一三元组(h,r,t),计算该三元组(h,r,t)的置信度s(h,r,t)。
本发明通过定义一个评价函数来计算输入三元组(h,r,t)为真的概率即置信度s(h,r,t),概率评价函数包括两部分:联合算子与相似度算子,通过为每个关系在联合算子中定义线性变换矩阵,来实现实体的多样性表达。
(2)对每个三元组(h,r,t),首先将头实体和关系对输入联合算子,计算头实体与关系的联合表示。
联合算子的输入是一对头实体和关系(h,r)的嵌入表示,头实体的嵌入表示是一个向量
Figure BDA0001728676910000041
关系的嵌入表示是一个向量
Figure BDA0001728676910000042
联合算子定义为
Figure BDA0001728676910000043
维度d自定义。
其中:
Figure BDA0001728676910000044
是一个对角矩阵,用于头实体在关系r下的线性变换;
Figure BDA0001728676910000045
是一个对角矩阵,作为关系r的线性变换;
Figure BDA0001728676910000046
Figure BDA0001728676910000047
与关系r相对应且均为随机初始化,综合考虑多样的表达与学习参数的数量,
Figure BDA0001728676910000048
Figure BDA0001728676910000049
设计为对角矩阵而不是普通矩阵;
Figure BDA00017286769100000410
是一个全局偏差向量且随机初始化,
Figure BDA00017286769100000411
是一个非线性的激活函数,其输出值域在(-1,1)区间。
输入的头实体嵌入表示在经过关系相关的矩阵下的线性变换后得到新的头实体嵌入表示,与不同的关系组合会为头实体产生不同的嵌入表示,所以对一个头实体来说,有nr个嵌入表示,nr表示关系的数量。
(3)计算联合嵌入表示与尾实体嵌入表示的相似度,作为输入三元组的最终概率评价。
首先,将步骤(2)中获得的向量结果chr作为相似度算子的输入,使用相似度算子S(chr,t)计算chr与尾实体向量t间的相似度;然后,把相似度计算的结果用于评价当前三元组(h,r,t)为真的概率,相似度算子的定义为s(h,r,t)=σ(t·chr)。
本发明使用点乘来模拟相似度计算,但是点乘不是相似度算子的唯一选择,也可以用欧式距离函数
Figure BDA0001728676910000051
等,
Figure BDA0001728676910000052
用于把最终的输出归一到(0,1),作为概率评价。
为了保证实体在不同位置时的多样化表达,即为了区别实体是作为三元组中的头实体还是尾实体,这里直接使用尾实体嵌入表示,不进行任何转换;一个尾实体只有一个嵌入表示,和它作为头实体时的所有嵌入表示均不同,所以最终一个实体的嵌入表示个数为nr+1。
(4)为每个正样本构造对应的负样本(h′,r′,t′),正样本即知识图谱中已有的三元组(h,r,t),对所有负样本三元组按照步骤(1)计算其置信度s(h′,r′,t′);参考交叉熵定义如下损失函数L,算法优化目标为最小化此损失函数值。
Figure BDA0001728676910000053
其中:Δ表示所有正样本的集合,Δ′表示所有负样本的集合,P表示所有可训练参数的集合,
Figure BDA0001728676910000057
是一个正则项,λ为正则系数;(h,r,t)的负样本(h′,r′,t′)通过用知识库中的任一实体e替换头实体h得到即(e,r,t),或替换尾实体t得到即(h,r,e)。
最小化损失函数的优化过程可采用任意基于随机梯度下降的优化算法进行优化,直至损失值收敛。
如图1所示,左侧一列表示四组输入:①
Figure BDA0001728676910000054
表示实体嵌入(entityembedding)的矩阵,每一行表示一个实体的嵌入向量,ne表示实体的数量,d表示嵌入向量的维数;②
Figure BDA0001728676910000055
表示关系嵌入的矩阵,每一行表示一个关系向量,nr表示关系的数量;③De表示头实体的线性变换张量,每一片是一个对角矩阵,与一个关系对应;④Dr表示关系的线性变换张量,每一片是一个对角矩阵,与一个关系对应。
在训练过程中,为简化起见,嵌入向量维度限制在30维,即d=30,实际处理中为了取得更好的效果取的是200维;所有实体和关系相关的参数都按照区间为
Figure BDA0001728676910000056
的均匀分布随机初始化,包括实体的嵌入表示e、关系的嵌入表示r以及关系相关的变换矩阵
Figure BDA0001728676910000061
Figure BDA0001728676910000062
优化方法采用Adam算法,训练时优化批次大小(batchsize)设置为4000,学习率设置为0.01,每个正样本的负采样比例为总实体个数的0.5%,正则参数λ为10-5;为了防止过拟合,在联合算子层增加一个dropout层,dropout的比例设置为0.5,迭代的最大次数设置为100。
以下为训练完成后的样例,输入三元组(h,r,t)为:
Figure BDA0001728676910000063
联合算子的输入是一对头实体和关系(h,r)的嵌入,其嵌入向量
Figure BDA0001728676910000064
为30维向量:
Figure BDA0001728676910000065
关系嵌入向量
Figure BDA0001728676910000066
为30维向量:
Figure BDA0001728676910000067
全局偏差向量
Figure BDA0001728676910000068
Figure BDA0001728676910000069
Figure BDA00017286769100000610
是一个30*30维的对角矩阵:
Figure BDA00017286769100000611
其特征值为:
Figure BDA0001728676910000071
计算得到
Figure BDA0001728676910000072
Figure BDA0001728676910000073
Figure BDA0001728676910000074
是一个对角矩阵,作为关系r的线性转置,其特征值为:
Figure BDA0001728676910000075
计算得到
Figure BDA0001728676910000076
Figure BDA0001728676910000077
使用以上结果得到联合算子输出
Figure BDA0001728676910000078
Figure BDA0001728676910000079
尾实体的嵌入
Figure BDA0001728676910000081
为30维向量:
Figure BDA0001728676910000082
以向量结果chr作为输入,使用相似度算子S(chr,t)计算chr与尾实体向量t间的相似度:s(h,r,t)=σ(t·chr),
Figure BDA0001728676910000083
t与chr点乘后用σ(z)归一,最终计算得到0.99498823228997846。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (5)

1.一种能够编码关系语义多样性结构的知识图谱分布式表示方法,包括如下步骤:
(1)获取知识图谱中所有的三元组,计算每个三元组的置信度;对于知识图谱中的任一三元组(h,r,t),通过以下公式计算出该三元组(h,r,t)的置信度s(h,r,t):
s(h,r,t)=σ(t·c(h,r))
Figure FDA0003212363720000011
其中:h、r、t分别表示三元组中的头实体、关系、尾实体,h为头实体向量,r为关系向量,t为尾实体向量,c(h,r)为头实体h与关系r的联合算子,
Figure FDA0003212363720000012
为头实体在关系r下的线性变换矩阵,
Figure FDA0003212363720000013
为关系r的线性变换矩阵,
Figure FDA0003212363720000014
Figure FDA0003212363720000015
均为d×d大小的对角矩阵且与关系r对应,bc为全局偏差向量,d为自定义的矩阵维度,tanh(z)为双曲正切函数,σ(z)为sigmoid非线性激活函数,z为函数自变量;
(2)以知识图谱中已有的三元组作为正样本,并为每个正样本构建对应的负样本并计算每个负样本的置信度;
(3)利用正样本和负样本对以下损失函数L进行最小化求解,从而得到知识图谱中所有实体和关系的向量以及所有关系的线性变换张量;
Figure FDA0003212363720000016
其中:Φ为所有正样本组成的集合,Ω为所有负样本组成的集合,P为所有训练参数组成的集合,x为集合Φ中的正样本,y为集合Ω中的负样本,p为集合P中的训练参数,λ为正则系数,sx为正样本x的置信度,sy为负样本y的置信度。
2.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:所述步骤(2)中对于知识图谱中的任一正样本,利用知识图谱中已有的任一实体替换该正样本三元组中的头实体或尾实体,即得到其对应的负样本。
3.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:所述步骤(3)中利用正样本和负样本通过随机梯度下降算法对损失函数L进行最小化求解。
4.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:能够表达三种与关系语义相关的图结构:度结构、性质结构、关联结构;其中,度结构包括一对一,一对多,多对一和多对多四种关系结构类型;性质结构包括三种同关系环结构:分别为可代表自反性的一度同关系环结构、可代表对称性的二度同关系环结构以及可代表传递性的三度同关系环结构;关联结构主要包括同实体对多关系结构,即同一对实体之间存在多种关系,通常同实体对多关系结构与关系之间的相似性和等价性相关。
5.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:所述双曲正切函数tanh(z)和sigmoid非线性激活函数σ(z)的表达式如下:
Figure FDA0003212363720000021
CN201810764406.5A 2018-07-12 2018-07-12 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 Active CN109063021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810764406.5A CN109063021B (zh) 2018-07-12 2018-07-12 一种能够编码关系语义多样性结构的知识图谱分布式表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810764406.5A CN109063021B (zh) 2018-07-12 2018-07-12 一种能够编码关系语义多样性结构的知识图谱分布式表示方法

Publications (2)

Publication Number Publication Date
CN109063021A CN109063021A (zh) 2018-12-21
CN109063021B true CN109063021B (zh) 2021-10-15

Family

ID=64816291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810764406.5A Active CN109063021B (zh) 2018-07-12 2018-07-12 一种能够编码关系语义多样性结构的知识图谱分布式表示方法

Country Status (1)

Country Link
CN (1) CN109063021B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840283B (zh) * 2019-03-01 2020-09-01 东北大学 一种基于传递关系的本地自适应知识图谱优化方法
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110765235B (zh) * 2019-09-09 2023-09-05 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN111274407B (zh) * 2020-01-15 2023-07-07 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111241306B (zh) * 2020-01-21 2022-04-29 浙江大学 一种基于知识图谱和指针网络的路径规划方法
CN112417166B (zh) * 2020-11-20 2022-08-26 山东省计算中心(国家超级计算济南中心) 一种知识图谱三元组置信度评价方法
CN113254669B (zh) * 2021-06-15 2021-10-19 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934042A (zh) * 2017-03-16 2017-07-07 中国人民解放军国防科学技术大学 一种知识图谱表示模型及其方法
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN107391623A (zh) * 2017-07-07 2017-11-24 中国人民大学 一种融合多背景知识的知识图谱嵌入方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474949B2 (en) * 2014-08-19 2019-11-12 Qualcomm Incorporated Knowledge-graph biased classification for data
CN107423820B (zh) * 2016-05-24 2020-09-29 清华大学 结合实体层次类别的知识图谱表示学习方法
CN106649550B (zh) * 2016-10-28 2019-07-05 浙江大学 一种基于代价敏感学习的联合知识嵌入方法
CN107885760B (zh) * 2016-12-21 2021-06-08 桂林电子科技大学 一种基于多种语义的知识图谱表示学习方法
CN108197290B (zh) * 2018-01-19 2021-08-03 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934042A (zh) * 2017-03-16 2017-07-07 中国人民解放军国防科学技术大学 一种知识图谱表示模型及其方法
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN107391623A (zh) * 2017-07-07 2017-11-24 中国人民大学 一种融合多背景知识的知识图谱嵌入方法

Also Published As

Publication number Publication date
CN109063021A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063021B (zh) 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
US20210232376A1 (en) Vectorized representation method of software source code
CN111681718B (zh) 一种基于深度学习多源异构网络的药物重定位方法
CN107220180B (zh) 一种基于神经网络语言模型的代码分类方法
CN111564183B (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
CN115018021A (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
Huang et al. Advanced mean-field theory of the restricted Boltzmann machine
CN111008224B (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN113836312A (zh) 一种基于编码器和解码器架构的知识表示推理方法
Bi et al. Knowledge transfer for out-of-knowledge-base entities: Improving graph-neural-network-based embedding using convolutional layers
Li et al. Boltzmann machines as two-dimensional tensor networks
CN113806559B (zh) 一种基于关系路径与双层注意力的知识图谱嵌入方法
CN113190655A (zh) 一种基于语义依赖的空间关系抽取方法及装置
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
Shan et al. Evolutionary extreme learning machine optimized by quantum-behaved particle swarm optimization
Baravdish et al. Learning via nonlinear conjugate gradients and depth-varying neural ODEs
WO2016187898A1 (zh) 代谢物ms/ms质谱计算机仿真方法
CN113704570A (zh) 基于自监督学习式进化的大规模复杂网络社区检测方法
Zhang et al. A fast evolutionary knowledge transfer search for multiscale deep neural architecture
Chen et al. Relational neural markov random fields
Cai et al. An improved knowledge graph model based on fuzzy theory and TransR
CN114218337B (zh) 一种自然资源调查监测数据识别与融合更新方法
CN113506593B (zh) 一种面向大规模基因调控网络的智能推断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant