CN109446339A - 一种基于多核高斯分布的知识图谱表示方法 - Google Patents
一种基于多核高斯分布的知识图谱表示方法 Download PDFInfo
- Publication number
- CN109446339A CN109446339A CN201811183372.7A CN201811183372A CN109446339A CN 109446339 A CN109446339 A CN 109446339A CN 201811183372 A CN201811183372 A CN 201811183372A CN 109446339 A CN109446339 A CN 109446339A
- Authority
- CN
- China
- Prior art keywords
- entity
- distribution
- relationship
- relation
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013507 mapping Methods 0.000 title abstract description 35
- 238000013519 translation Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及深度学习技术领域,具体是一种基于多核高斯分布的知识图谱表示方法,包括负样本采样、多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,本发明通过使用多核高斯分布表示知识图谱中的每一个实体,考虑了实体具有多语义的特性和每一语义都具有语义范围的天然属性,在一定程度上解决了知识图谱中实体因为多语义特性引起的语义歧义的问题,也在一定程度上改进了传统方法没有考虑语义范围的缺点。同时,对比其他方法,这种方法训练过程简单,效果更佳。
Description
技术领域
本发明涉及深度学习技术领域,尤其是一种基于多核高斯分布的知识图谱表示方法。
背景技术
近几年,人工智能和知识图谱的研究备受关注,将知识图谱作为一种已知的知识,结合各种深度学习算法以提升各种人工智能任务效果的方法亦是近几年的研究热点,如基于知识图谱的机器人系统。知识图谱的有效表达是对知识图谱进行研究和利用的基础工作,他能将杂乱的数据进行关联并整理成结构化知识提供给用户,这一特征决定了他在许多领域都会有重要的应用,例如现有的搜索引擎都是基于关键字匹配进行搜索的,而当知识图谱建立起来后,在输入某个关键词后,就可以返回这个关键词的属性,类别、以其他实体的关系等关联信息,这样可以更准确、完善的为用户提供所需要的信息,知识图谱是实现语义搜索、机器自动问答、互联网广告推荐、个性化电子阅读等一序列应用的基石,而是否能有效地对知识图谱进行有效的表示直接决定他在这些领域所发挥作用的大小。
将知识图谱映射到低维的向量空间使得我们可以方便的利用知识图谱的信息,而且已有的大量工作表明,对比其他方法,这种方法训练过程简单,效果更佳。现知识图谱的嵌入表示方法主要是将知识图谱的实体和关系映射为低维空间的一个点,再用平移距离模型和语义匹配模型进行学习。但实际上,一个实体可能具有不同的语义,比如,“苹果”既可能表示一个公司,也可能表示一种水果,这是两种完全不同的语义,只用一个点表示会造成语义信息混乱。语义经常是一个范围,比如,“音乐家”既表明这是一个人,也表明他是懂音乐的,在语义上,“音乐家”应该和“人”、“音乐”都是有交集的一个范围,只用一个点的表示可能会造成语义范围模糊。由于实体可能具有多语义性且语义具有范围,用一个确定的点来表示实体并不是很合理。而且,因此,找到一种既可以将知识图谱映射到低维的向量空间,又考虑到实体的多语义性和语义的范围属性的知识图谱表示方法对知识图谱的研究和利用有极大的价值。
发明内容
针对现有技术的不足,本发明提供一种基于多核高斯分布的知识图谱表示方法,该方法能够充分地考虑实体的多语义信息和各种语义的语义范围。
本发明的技术方案为:一种基于多核高斯分布的知识图谱表示方法,包括负样本采样、
多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,具体包括以下步骤:
S1)、负样本采样
S101)、针对知识图谱每一个三元组(源实体,关系,目标实体),在实体集合中随机选取实体以概率p替换源实体或者以1-p的概率替换目标实体构造负样本;
S2)、多核高斯分布的实体、关系表示
S201)、假定知识图谱中的每个实体有k个语义,每个语义用一个高斯分布表示,则每个实体用k个高斯分布表示,即
其中,Psi表示第s个实体的第i个高斯分布,μsi表示第s个实体的第i个高斯分布的均值,∑si表示第s个实体的第i个高斯分布的协方差;
S202)、对于知识图谱中的每个关系r,用于一个高斯分布表示,其中,Pr表示关系r的高斯分布,μr表示关系r的均值,∑r表示关系r的协方差;
S3)、实体和关系的表示的学习
S301)、采用基于翻译的思想学习实体、关系的嵌入表示,把关系r看成是源实体h到目标实体t翻译过程,即t=r+h;
S302)、采用KL距离度量法度量两个高斯分布之间的距离,即度量h-t的分布与关系r的分布距离;
S303)、采用pairwise方法训练实体、关系的潜入表示。
其中,上述方法中,步骤S101)中,p由知识图谱中每一个关系的源实体和目标实体的比例确定,并且在知识图谱中,每一个关系存在着一对一、一对多、多对一、多对多的属性,如果关系是一对多,替换源实体的概率p将会更大;如果关系是多对一,p则会更小;这种负样本采样方式会降低产生假阴性标签的概率。
本发明的有益效果为:通过使用多核高斯分布表示知识图谱中的每一个实体,考虑了实体具有多语义的特性和每一语义都具有语义范围的天然属性,在一定程度上解决了知识图谱中实体因为多语义特性引起的语义歧义的问题,也在一定程度上改进了传统方法没有考虑语义范围的缺点。同时,对比其他方法,这种方法训练过程简单,效果更佳。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种基于多核高斯分布的知识图谱表示方法,包括负样本采样、多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,具体包括以下步骤:
S1)、随机初始化实体与关系,假设知识图谱由实体集合S=(s1,s2,...,sn)和关系集合R=(r1,r2,...,rz)组成,其中,n表示实体的个数,z表示关系的个数;
在知识图谱中,每一个事实用一个三元组(源实体h,关系r,目标实体t)表示;
在知识图谱中的每个实体有k个语义,每个语义用一个高斯分布表示,则每个实体用k个高斯分布表示,即其中,Psi表示第s个实体的第i个高斯分布,μsi表示第s个实体的第i个高斯分布的均值,∑si表示第s个实体的第i个高斯分布的协方差;对于每一个μsi和∑si初始化为为d维向量;
对于知识图谱中的每个关系r,用于一个高斯分布表示,其中,Pr表示关系r的高斯分布,μr表示关系r的均值,∑r表示关系r的协方差;
S2)、初始化变量t=0,用于累计训练次数;初始化变量loss=0,用于计算损失值;
S3)、计算关系r的源实体h和目标实体t的比例,对于每一个关系r,计算每一个源实体h对应的目标实体t个数tph,计算每一个目标实体t对应的源实体h的个数hpt;
S4)、构造负例,从知识图谱中随机取出三元组(源实体h,关系r,目标实体t),以概率替换源实体h或者以的概率替换目标实体t构造负例<h′,r′,t′>,正样本集合记为τ,负样本集合记为τ′;
S5)、计算正例<h,r,t>和负例<h′,r′,t′>的KL距离,从h,t,h′,t′的k个高斯分布中各选取一个分布,分布记为:记h-t的分布为记h′-t′的分布为用KL距离来度量每一个三元组源实体和目标实体之差的分布以及关系的分布的距离,其计算式如如下,通过计算公式(1)计算<h,r,t>和<h′,r′,t′>的KL距离,并分别记为D1和D2;
其中,ε(h,r,t)为样本(h,r,t)的(h-t)的分布与r的分布的距离,Pr为关系r的分布,Pe为(h-t)的分布,DKL(Pe,Pr)为Pe,P的KL距离,x为μe,∑e每一维的值,μe为Pe分布的均值,∑e为Pe分布的协方差,μr为关系r的均值,∑r为关系r的协方差,tr(x)为x的迹,det(x)为x的行列式,(X)T表示X转置,ke为均值以及协方差的嵌入维度。
S6)、学习实体和关系的表示,如果D1+m-D2>0,则根据梯度方向传播算法更新正例<h,r,t>和负例<h′,r′,t′>中的实体和关系的参数,该算法的损失函数如公式:
loss=∑(h,r,t)∈τ∑(h′,r′,t′)∈τ′[ε(h,r,t)+m-ε(h′,r′,t′)]+ 公式(2)
其中,m为正负例的分割边界,τ为正样本集合,τ′负样本集合,ε(h,r,t)为正样本(h-t)的分布与r分布的距离,ε(h′,r′,t′)为负样本与(h′-t′)的分布与r′的分布的距离,
S7)、重复步骤S2)-S6),直至loss<L或t>T,其中,L,T分别为设置的损失值和训练次数。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (4)
1.一种基于多核高斯分布的知识图谱表示方法,其特征在于:包括负样本采样、多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,具体包括以下步骤:
S1)、随机初始化实体与关系,假设知识图谱由实体集合S=(s1,s2,sn)和关系集合R=(r1,r2,rz)组成,其中,n表示实体的个数,z表示关系的个数;在知识图谱中,每一个事实用一个三元组(源实体h,关系r,目标实体t)表示;
S2)、初始化变量t=0,用于累计训练次数;初始化变量loss=0,用于计算损失值;
S3)、计算关系r的源实体h和目标实体t的比例,对于每一个关系r,计算每一个源实体h对应的目标实体t的个数tph,计算每一个目标实体t对应的源实体h的个数hpt;
S4)、构造负例,从知识图谱中随机取出三元组(源实体h,关系r,目标实体t),以概率替换源实体h或者以的概率替换目标实体t构造负例<h′,r′,t′>,正样本集合记为τ,负样本集合记为τ′;
S5)、计算正例<h,r,t>和负例<h′,r′,t′>的KL距离;
S6)、学习实体和关系的表示,如果D1+m-D2>0,则根据梯度方向传播算法更新正例<h,r,t>和负例<h′,r′,t′>中的实体和关系的参数,该算法的损失函数如公式:
loss=∑(h,r,t)∈τ∑(h′,r′,t′)∈τ′[ε(h,r,t)+m-ε(h′,r′,t′)]+ 公式(2)
其中,m为正负例的分割边界,τ为正样本集合,τ′负样本集合,ε(h,r,t)为正样本(h-t)的分布与r分布的距离,ε(h′,r′,t′)为负样本与(h′-t′)的分布与r′的分布的距离,
S7)、重复步骤S2)-S6),直至loss<L或t>T,其中,L,T分别为设置的损失值和训练次数。
2.根据权利要求1所述的一种基于多核高斯分布的知识图谱表示方法,其特征在于:步骤S1)中,在知识图谱中的每个实体有k个语义,每个语义用一个高斯分布表示,则每个实体用k个高斯分布表示,即其中,Psi表示第s个实体的第i个高斯分布,μsi表示第s个实体的第i个高斯分布的均值,∑si表示第s个实体的第i个高斯分布的协方差;对于每一个μsi和∑si初始化为为d维向量;
对于知识图谱中的每个关系r,用于一个高斯分布表示,其中,Pr表示关系r的高斯分布,μr表示关系r的均值,∑r表示关系r的协方差。
3.根据权利要求1所述的一种基于多核高斯分布的知识图谱表示方法,其特征在于:步骤S4)中,p由知识图谱中每一个关系的源实体和目标实体的比例确定,并且在知识图谱中,每一个关系存在着一对一、一对多、多对一、多对多的属性,如果关系是一对多,替换源实体的概率p将会更大;如果关系是多对一,p则会更小;这种负样本采样方式会降低产生假阴性标签的概率。
4.根据权利要求1所述的一种基于多核高斯分布的知识图谱表示方法,其特征在于:步骤S5)中,计算正例<h,r,t>和负例<h′,r′,t′>的KL距离,从h,t,h′,t′的k个高斯分布中各选取一个分布,分布记为:记h-t的分布为记h′-t′的分布为用KL距离来度量每一个三元组源实体和目标实体之差的分布以及关系的分布的距离,其计算式如(1),通过计算公式(1)计算<h,r,t>和<h′,r′,t′>的KL距离,并分别记为D1和D2;
其中,ε(h,r,t)为样本(h,r,t)的(h-t)的分布与r的分布的距离,Pr为关系r的分布,Pe为(h-t)的分布,DkL(Pe,Pr)为Pe,P的KL距离,x为μe,∑e每一维的值,μe为Pe分布的均值,∑e为Pe分布的协方差,μr为关系r的均值,∑r为关系r的协方差,tr(x)为x的迹,det(x)为x的行列式,(X)T表示X转置,ke为均值以及协方差的嵌入维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811183372.7A CN109446339B (zh) | 2018-10-11 | 2018-10-11 | 一种基于多核高斯分布的知识图谱表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811183372.7A CN109446339B (zh) | 2018-10-11 | 2018-10-11 | 一种基于多核高斯分布的知识图谱表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446339A true CN109446339A (zh) | 2019-03-08 |
CN109446339B CN109446339B (zh) | 2021-08-06 |
Family
ID=65545309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811183372.7A Active CN109446339B (zh) | 2018-10-11 | 2018-10-11 | 一种基于多核高斯分布的知识图谱表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446339B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472233A (zh) * | 2019-07-16 | 2019-11-19 | 清华大学 | 基于知识库内头尾实体分布的关系相似度度量方法及系统 |
CN112163077A (zh) * | 2020-09-28 | 2021-01-01 | 华南理工大学 | 一种面向领域问答的知识图谱构建方法 |
WO2022057691A1 (zh) * | 2020-09-18 | 2022-03-24 | 神思电子技术股份有限公司 | 一种基于改进gan网络的高斯分布数据调整方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854268A (zh) * | 2014-03-26 | 2014-06-11 | 西安电子科技大学 | 基于多核高斯过程回归的图像超分辨重建方法 |
US20150339385A1 (en) * | 2014-05-21 | 2015-11-26 | Baidu Online Network Technology (Beijing) Co., Ltd | Interactive searching method and apparatus |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
-
2018
- 2018-10-11 CN CN201811183372.7A patent/CN109446339B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854268A (zh) * | 2014-03-26 | 2014-06-11 | 西安电子科技大学 | 基于多核高斯过程回归的图像超分辨重建方法 |
US20150339385A1 (en) * | 2014-05-21 | 2015-11-26 | Baidu Online Network Technology (Beijing) Co., Ltd | Interactive searching method and apparatus |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472233A (zh) * | 2019-07-16 | 2019-11-19 | 清华大学 | 基于知识库内头尾实体分布的关系相似度度量方法及系统 |
CN110472233B (zh) * | 2019-07-16 | 2021-02-12 | 清华大学 | 基于知识库内头尾实体分布的关系相似度度量方法及系统 |
WO2022057691A1 (zh) * | 2020-09-18 | 2022-03-24 | 神思电子技术股份有限公司 | 一种基于改进gan网络的高斯分布数据调整方法 |
CN112163077A (zh) * | 2020-09-28 | 2021-01-01 | 华南理工大学 | 一种面向领域问答的知识图谱构建方法 |
CN112163077B (zh) * | 2020-09-28 | 2024-06-04 | 华南理工大学 | 一种面向领域问答的知识图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109446339B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nickel et al. | Poincaré embeddings for learning hierarchical representations | |
CN105512209B (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN113297369B (zh) | 基于知识图谱子图检索的智能问答系统 | |
Lei et al. | Patent analytics based on feature vector space model: A case of IoT | |
CN111104509B (zh) | 一种基于概率分布自适应的实体关系分类方法 | |
CN109543031A (zh) | 一种基于多任务对抗学习的文本分类方法 | |
CN108959522B (zh) | 基于半监督对抗生成网络的迁移检索方法 | |
Jiang et al. | Travel recommendation via author topic model based collaborative filtering | |
CN109635105A (zh) | 一种中文文本多意图识别方法及系统 | |
CN109446339A (zh) | 一种基于多核高斯分布的知识图谱表示方法 | |
CN104881689A (zh) | 一种多标签主动学习分类方法及系统 | |
CN111368072A (zh) | 基于BTM和GloVe相似度线性融合的微博热点话题发现算法 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN106203483A (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 | |
CN103399870A (zh) | 一种基于分类驱动的可视化词袋特征权重化方法和系统 | |
CN104156433A (zh) | 一种基于语义映射空间构建的图像检索方法 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
CN107544958A (zh) | 术语抽取方法和装置 | |
CN108170823A (zh) | 一种基于高层语义属性理解的手绘交互式三维模型检索方法 | |
CN116541535A (zh) | 一种知识图谱自动构建方法、系统、设备及介质 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN110909161B (zh) | 基于密度聚类和视觉相似度的英文单词分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |