CN109063021B - 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 - Google Patents
一种能够编码关系语义多样性结构的知识图谱分布式表示方法 Download PDFInfo
- Publication number
- CN109063021B CN109063021B CN201810764406.5A CN201810764406A CN109063021B CN 109063021 B CN109063021 B CN 109063021B CN 201810764406 A CN201810764406 A CN 201810764406A CN 109063021 B CN109063021 B CN 109063021B
- Authority
- CN
- China
- Prior art keywords
- relation
- graph
- entity
- knowledge
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种能够编码关系语义多样性结构的知识图谱分布式表示方法,从知识图谱中图结构多样性的角度出发,挖掘和总结含有丰富语义信息的子图结构,并将子图结构与关系相关的语义信息联系起来,例如自反性、对称性、传递性等;本发明方法能够更好地编码图结构的多样性,因而可以更好地捕捉知识图谱中存在的语义信息,并达到更好的补全和预测效果,在链接预测任务中能取得更好的表现,具有较强的扩展性,对于在知识图谱分布式表示中编码关系语义多样性结构的应用具有很好的实用价值。
Description
技术领域
本发明属于数据存储与处理技术领域,具体涉及一种能够编码关系语义多样性结构的知识图谱分布式表示方法。
背景技术
知识图谱近年来受到了工业界极大的重视,在很多领域都有了成功的应用,例如搜索引擎、智能客服、语音机器人等,很多大型知识图谱被逐渐构建起来,例如GoogleKnowledge Graph以及开放的Freebase、Yago等。知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识,即两个实体之间存在某一种关系,用(h,r,t)表示,其中h、t分别表示头实体和尾实体,r表示关系,例如(杭州,位于国家是,中国)即表示了“杭州位于中国”这样一条知识。
知识图谱的分布式表示是针对大型知识图谱的补全和推理问题提出的,尽管有的大型知识图谱已经包含百万级的实体以及上亿的三元组,但大多数知识图谱仍然面临不全和知识缺失的问题,这使得知识图谱补全成为一个重要的任务。传统的补全方式多基于规则进行,但这在大规模知识图谱上效率不高,主要会面临的问题是规则的获取,规则获取方式一般有两种,一种是人工生成规则,这样的规则精度高但是覆盖率小;另一种是算法生成规则,这样的规则精度一般但可以大量生成,目前的方法多数基于图上的随机游走,在大型知识图谱上会面临搜索空间太大的问题。因此知识图谱的分布式表示应运而生,核心想法是为每一个实体和关系学习一个向量空间中的表示,可以是低维稠密的向量或者矩阵,最后通过这些表示之间的计算完成隐式的推理,可用于知识图谱补全等任务。
大型知识图谱是一个拥有复杂连接结构的有向图,很多子图结构包含了丰富的语义信息,尤其是与关系相关的语义信息,比如自反性,对称性,传递性等,含有这些语义信息的关系往往和特定的字图结构有密切关系。但现有的知识图谱分布式表示方法未能考虑图结构的多样性,故不能很好地处理这些多样的关系语义。
发明内容
鉴于上述,本发明提供了一种能够编码关系语义多样性结构的知识图谱分布式表示方法,从知识图谱中图结构和关系语义多样性分析出发,挖掘和总结含有丰富语义信息的子图结构,从而提升其捕捉知识图谱中关系语义多样性的能力。
一种能够编码关系语义多样性结构的知识图谱分布式表示方法,包括如下步骤:
(1)获取知识图谱中所有的三元组,计算每个三元组的置信度;
(2)以知识图谱中已有的三元组作为正样本,并为每个正样本构建对应的负样本并计算每个负样本的置信度;
(3)利用正样本和负样本对以下损失函数L进行最小化求解,从而得到知识图谱中所有实体和关系的向量以及所有关系的线性变换张量(为实现实体的多样性表示而设计的);
其中:Φ为所有正样本组成的集合,Ω为所有负样本组成的集合,P为所有训练参数组成的集合,x为集合Φ中的正样本,y为集合Ω中的负样本,p为集合P中的训练参数,λ为正则系数,sx为正样本x的置信度,sy为负样本y的置信度。
进一步地,所述步骤(1)中对于知识图谱中的任一三元组(h,r,t),通过以下公式计算出该三元组(h,r,t)的置信度s(h,r,t):
s(h,r,t)=σ(t·c(h,r))
其中:h、r、t分别表示三元组中的头实体、关系、尾实体,h为头实体向量,r为关系向量,t为尾实体向量,c(h,r)为头实体h与关系r的联合算子,为头实体在关系r下的线性变换矩阵,为关系r的线性变换矩阵,和均为d×d大小的对角矩阵且与关系r对应,bc为全局偏差向量,d为自定义的矩阵维度,tanh(z)为双曲正切函数,σ(z)为sigmoid非线性激活函数,z为函数自变量。
进一步地,所述双曲正切函数tanh(z)和sigmoid非线性激活函数σ(z)的表达式如下:
进一步地,所述步骤(2)中对于知识图谱中的任一正样本,利用知识图谱中已有的任一实体替换该正样本三元组中的头实体或尾实体,即得到其对应的负样本。
进一步地,所述步骤(3)中利用正样本和负样本通过随机梯度下降算法对损失函数L进行最小化求解。
本发明能够表达三种与关系语义相关的图结构:度结构、性质结构、关联结构;其中,度结构包括一对一,一对多,多对一和多对多四种关系结构类型;性质结构包括三种同关系环结构(one-relation-circle):分别为可代表自反性的一度同关系环结构、可代表对称性的二度同关系环结构以及可代表传递性的三度同关系环结构;关联结构主要包括同实体对多关系结构,即同一对实体之间存在多种关系,通常同实体对多关系结构与关系之间的相似性和等价性相关。
本发明从知识图谱中图结构多样性的角度出发,挖掘和总结含有丰富语义信息的子图结构,并将子图结构与关系相关的语义信息联系起来,例如自反性、对称性、传递性等,提出了一种新的知识图谱分布式表示方法,这个方法能够更好地编码图结构的多样性,因而可以更好地捕捉知识图谱中存在的语义信息,并达到更好的补全和预测效果,在链接预测任务中能取得更好的表现,具有较强的扩展性,对于在知识图谱分布式表示中编码关系语义多样性结构的应用具有很好的实用价值。
附图说明
图1为本发明模型训练的流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本发明提出了一种能够编码关系语义多样性结构的知识图谱分布式表示方法,包括如下步骤:
(1)获取知识图谱中所有的三元组(h,r,t),h为头实体,r为关系,t为尾实体;对于任一三元组(h,r,t),计算该三元组(h,r,t)的置信度s(h,r,t)。
本发明通过定义一个评价函数来计算输入三元组(h,r,t)为真的概率即置信度s(h,r,t),概率评价函数包括两部分:联合算子与相似度算子,通过为每个关系在联合算子中定义线性变换矩阵,来实现实体的多样性表达。
(2)对每个三元组(h,r,t),首先将头实体和关系对输入联合算子,计算头实体与关系的联合表示。
其中:是一个对角矩阵,用于头实体在关系r下的线性变换;是一个对角矩阵,作为关系r的线性变换;和与关系r相对应且均为随机初始化,综合考虑多样的表达与学习参数的数量,和设计为对角矩阵而不是普通矩阵;是一个全局偏差向量且随机初始化,是一个非线性的激活函数,其输出值域在(-1,1)区间。
输入的头实体嵌入表示在经过关系相关的矩阵下的线性变换后得到新的头实体嵌入表示,与不同的关系组合会为头实体产生不同的嵌入表示,所以对一个头实体来说,有nr个嵌入表示,nr表示关系的数量。
(3)计算联合嵌入表示与尾实体嵌入表示的相似度,作为输入三元组的最终概率评价。
首先,将步骤(2)中获得的向量结果chr作为相似度算子的输入,使用相似度算子S(chr,t)计算chr与尾实体向量t间的相似度;然后,把相似度计算的结果用于评价当前三元组(h,r,t)为真的概率,相似度算子的定义为s(h,r,t)=σ(t·chr)。
为了保证实体在不同位置时的多样化表达,即为了区别实体是作为三元组中的头实体还是尾实体,这里直接使用尾实体嵌入表示,不进行任何转换;一个尾实体只有一个嵌入表示,和它作为头实体时的所有嵌入表示均不同,所以最终一个实体的嵌入表示个数为nr+1。
(4)为每个正样本构造对应的负样本(h′,r′,t′),正样本即知识图谱中已有的三元组(h,r,t),对所有负样本三元组按照步骤(1)计算其置信度s(h′,r′,t′);参考交叉熵定义如下损失函数L,算法优化目标为最小化此损失函数值。
其中:Δ表示所有正样本的集合,Δ′表示所有负样本的集合,P表示所有可训练参数的集合,是一个正则项,λ为正则系数;(h,r,t)的负样本(h′,r′,t′)通过用知识库中的任一实体e替换头实体h得到即(e,r,t),或替换尾实体t得到即(h,r,e)。
最小化损失函数的优化过程可采用任意基于随机梯度下降的优化算法进行优化,直至损失值收敛。
如图1所示,左侧一列表示四组输入:①表示实体嵌入(entityembedding)的矩阵,每一行表示一个实体的嵌入向量,ne表示实体的数量,d表示嵌入向量的维数;②表示关系嵌入的矩阵,每一行表示一个关系向量,nr表示关系的数量;③De表示头实体的线性变换张量,每一片是一个对角矩阵,与一个关系对应;④Dr表示关系的线性变换张量,每一片是一个对角矩阵,与一个关系对应。
在训练过程中,为简化起见,嵌入向量维度限制在30维,即d=30,实际处理中为了取得更好的效果取的是200维;所有实体和关系相关的参数都按照区间为的均匀分布随机初始化,包括实体的嵌入表示e、关系的嵌入表示r以及关系相关的变换矩阵和优化方法采用Adam算法,训练时优化批次大小(batchsize)设置为4000,学习率设置为0.01,每个正样本的负采样比例为总实体个数的0.5%,正则参数λ为10-5;为了防止过拟合,在联合算子层增加一个dropout层,dropout的比例设置为0.5,迭代的最大次数设置为100。
以下为训练完成后的样例,输入三元组(h,r,t)为:
其特征值为:
以向量结果chr作为输入,使用相似度算子S(chr,t)计算chr与尾实体向量t间的相似度:s(h,r,t)=σ(t·chr),t与chr点乘后用σ(z)归一,最终计算得到0.99498823228997846。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (5)
1.一种能够编码关系语义多样性结构的知识图谱分布式表示方法,包括如下步骤:
(1)获取知识图谱中所有的三元组,计算每个三元组的置信度;对于知识图谱中的任一三元组(h,r,t),通过以下公式计算出该三元组(h,r,t)的置信度s(h,r,t):
s(h,r,t)=σ(t·c(h,r))
其中:h、r、t分别表示三元组中的头实体、关系、尾实体,h为头实体向量,r为关系向量,t为尾实体向量,c(h,r)为头实体h与关系r的联合算子,为头实体在关系r下的线性变换矩阵,为关系r的线性变换矩阵,和均为d×d大小的对角矩阵且与关系r对应,bc为全局偏差向量,d为自定义的矩阵维度,tanh(z)为双曲正切函数,σ(z)为sigmoid非线性激活函数,z为函数自变量;
(2)以知识图谱中已有的三元组作为正样本,并为每个正样本构建对应的负样本并计算每个负样本的置信度;
(3)利用正样本和负样本对以下损失函数L进行最小化求解,从而得到知识图谱中所有实体和关系的向量以及所有关系的线性变换张量;
其中:Φ为所有正样本组成的集合,Ω为所有负样本组成的集合,P为所有训练参数组成的集合,x为集合Φ中的正样本,y为集合Ω中的负样本,p为集合P中的训练参数,λ为正则系数,sx为正样本x的置信度,sy为负样本y的置信度。
2.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:所述步骤(2)中对于知识图谱中的任一正样本,利用知识图谱中已有的任一实体替换该正样本三元组中的头实体或尾实体,即得到其对应的负样本。
3.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:所述步骤(3)中利用正样本和负样本通过随机梯度下降算法对损失函数L进行最小化求解。
4.根据权利要求1所述的知识图谱分布式表示方法,其特征在于:能够表达三种与关系语义相关的图结构:度结构、性质结构、关联结构;其中,度结构包括一对一,一对多,多对一和多对多四种关系结构类型;性质结构包括三种同关系环结构:分别为可代表自反性的一度同关系环结构、可代表对称性的二度同关系环结构以及可代表传递性的三度同关系环结构;关联结构主要包括同实体对多关系结构,即同一对实体之间存在多种关系,通常同实体对多关系结构与关系之间的相似性和等价性相关。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810764406.5A CN109063021B (zh) | 2018-07-12 | 2018-07-12 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810764406.5A CN109063021B (zh) | 2018-07-12 | 2018-07-12 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063021A CN109063021A (zh) | 2018-12-21 |
CN109063021B true CN109063021B (zh) | 2021-10-15 |
Family
ID=64816291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810764406.5A Active CN109063021B (zh) | 2018-07-12 | 2018-07-12 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063021B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840283B (zh) * | 2019-03-01 | 2020-09-01 | 东北大学 | 一种基于传递关系的本地自适应知识图谱优化方法 |
CN110232186A (zh) * | 2019-05-20 | 2019-09-13 | 浙江大学 | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 |
CN110765235B (zh) * | 2019-09-09 | 2023-09-05 | 深圳市人马互动科技有限公司 | 训练数据的生成方法、装置、终端及可读介质 |
CN111241241B (zh) * | 2020-01-08 | 2024-05-31 | 平安科技(深圳)有限公司 | 基于知识图谱的案件检索方法、装置、设备及存储介质 |
CN111274407B (zh) * | 2020-01-15 | 2023-07-07 | 北京百度网讯科技有限公司 | 知识图谱中三元组置信度计算方法和装置 |
CN111241306B (zh) * | 2020-01-21 | 2022-04-29 | 浙江大学 | 一种基于知识图谱和指针网络的路径规划方法 |
CN112417166B (zh) * | 2020-11-20 | 2022-08-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN113254669B (zh) * | 2021-06-15 | 2021-10-19 | 广东电网有限责任公司湛江供电局 | 基于知识图谱的配电网cim模型信息补全方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934042A (zh) * | 2017-03-16 | 2017-07-07 | 中国人民解放军国防科学技术大学 | 一种知识图谱表示模型及其方法 |
CN106951499A (zh) * | 2017-03-16 | 2017-07-14 | 中国人民解放军国防科学技术大学 | 一种基于翻译模型的知识图谱表示方法 |
CN107391623A (zh) * | 2017-07-07 | 2017-11-24 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474949B2 (en) * | 2014-08-19 | 2019-11-12 | Qualcomm Incorporated | Knowledge-graph biased classification for data |
CN107423820B (zh) * | 2016-05-24 | 2020-09-29 | 清华大学 | 结合实体层次类别的知识图谱表示学习方法 |
CN106649550B (zh) * | 2016-10-28 | 2019-07-05 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
CN107885760B (zh) * | 2016-12-21 | 2021-06-08 | 桂林电子科技大学 | 一种基于多种语义的知识图谱表示学习方法 |
CN108197290B (zh) * | 2018-01-19 | 2021-08-03 | 桂林电子科技大学 | 一种融合实体和关系描述的知识图谱表示学习方法 |
CN108268643A (zh) * | 2018-01-22 | 2018-07-10 | 北京邮电大学 | 一种基于多粒度lstm网络的深层语义匹配实体链接方法 |
-
2018
- 2018-07-12 CN CN201810764406.5A patent/CN109063021B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934042A (zh) * | 2017-03-16 | 2017-07-07 | 中国人民解放军国防科学技术大学 | 一种知识图谱表示模型及其方法 |
CN106951499A (zh) * | 2017-03-16 | 2017-07-14 | 中国人民解放军国防科学技术大学 | 一种基于翻译模型的知识图谱表示方法 |
CN107391623A (zh) * | 2017-07-07 | 2017-11-24 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109063021A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063021B (zh) | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 | |
CN110347847B (zh) | 基于神经网络的知识图谱补全方法 | |
US20210232376A1 (en) | Vectorized representation method of software source code | |
CN107220180B (zh) | 一种基于神经网络语言模型的代码分类方法 | |
CN115018021A (zh) | 基于图结构与异常注意力机制的机房异常检测方法及装置 | |
Huang et al. | Advanced mean-field theory of the restricted Boltzmann machine | |
CN111681718A (zh) | 一种基于深度学习多源异构网络的药物重定位方法 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN113836312A (zh) | 一种基于编码器和解码器架构的知识表示推理方法 | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
Bi et al. | Knowledge transfer for out-of-knowledge-base entities: Improving graph-neural-network-based embedding using convolutional layers | |
Li et al. | Boltzmann machines as two-dimensional tensor networks | |
CN114218337B (zh) | 一种自然资源调查监测数据识别与融合更新方法 | |
CN118628736A (zh) | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 | |
CN108537342A (zh) | 一种基于邻居信息的网络表示学习方法及系统 | |
CN118069868A (zh) | 一种融合llm大模型的知识图谱的纠错方法 | |
CN113836174A (zh) | 基于强化学习dqn算法的异步sql连接查询优化方法 | |
CN108154189A (zh) | 基于ldtw距离的灰关联聚类方法 | |
CN111444316A (zh) | 一种面向知识图谱问答的复合问句解析方法 | |
Shan et al. | Evolutionary extreme learning machine optimized by quantum-behaved Particle swarm optimization | |
CN115544307A (zh) | 基于关联矩阵的有向图数据特征提取与表达方法和系统 | |
CN115131605A (zh) | 一种基于自适应子图的结构感知图对比学习方法 | |
Baravdish et al. | Learning via nonlinear conjugate gradients and depth-varying neural ODEs | |
WO2016187898A1 (zh) | 代谢物ms/ms质谱计算机仿真方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |