CN109446339A - 一种基于多核高斯分布的知识图谱表示方法 - Google Patents

一种基于多核高斯分布的知识图谱表示方法 Download PDF

Info

Publication number
CN109446339A
CN109446339A CN201811183372.7A CN201811183372A CN109446339A CN 109446339 A CN109446339 A CN 109446339A CN 201811183372 A CN201811183372 A CN 201811183372A CN 109446339 A CN109446339 A CN 109446339A
Authority
CN
China
Prior art keywords
entity
relationship
gaussian profile
knowledge mapping
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811183372.7A
Other languages
English (en)
Other versions
CN109446339B (zh
Inventor
郝志峰
柯妍蓉
蔡瑞初
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811183372.7A priority Critical patent/CN109446339B/zh
Publication of CN109446339A publication Critical patent/CN109446339A/zh
Application granted granted Critical
Publication of CN109446339B publication Critical patent/CN109446339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及深度学习技术领域,具体是一种基于多核高斯分布的知识图谱表示方法,包括负样本采样、多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,本发明通过使用多核高斯分布表示知识图谱中的每一个实体,考虑了实体具有多语义的特性和每一语义都具有语义范围的天然属性,在一定程度上解决了知识图谱中实体因为多语义特性引起的语义歧义的问题,也在一定程度上改进了传统方法没有考虑语义范围的缺点。同时,对比其他方法,这种方法训练过程简单,效果更佳。

Description

一种基于多核高斯分布的知识图谱表示方法
技术领域
本发明涉及深度学习技术领域,尤其是一种基于多核高斯分布的知识图谱表示方法。
背景技术
近几年,人工智能和知识图谱的研究备受关注,将知识图谱作为一种已知的知识,结合各种深度学习算法以提升各种人工智能任务效果的方法亦是近几年的研究热点,如基于知识图谱的机器人系统。知识图谱的有效表达是对知识图谱进行研究和利用的基础工作,他能将杂乱的数据进行关联并整理成结构化知识提供给用户,这一特征决定了他在许多领域都会有重要的应用,例如现有的搜索引擎都是基于关键字匹配进行搜索的,而当知识图谱建立起来后,在输入某个关键词后,就可以返回这个关键词的属性,类别、以其他实体的关系等关联信息,这样可以更准确、完善的为用户提供所需要的信息,知识图谱是实现语义搜索、机器自动问答、互联网广告推荐、个性化电子阅读等一序列应用的基石,而是否能有效地对知识图谱进行有效的表示直接决定他在这些领域所发挥作用的大小。
将知识图谱映射到低维的向量空间使得我们可以方便的利用知识图谱的信息,而且已有的大量工作表明,对比其他方法,这种方法训练过程简单,效果更佳。现知识图谱的嵌入表示方法主要是将知识图谱的实体和关系映射为低维空间的一个点,再用平移距离模型和语义匹配模型进行学习。但实际上,一个实体可能具有不同的语义,比如,“苹果”既可能表示一个公司,也可能表示一种水果,这是两种完全不同的语义,只用一个点表示会造成语义信息混乱。语义经常是一个范围,比如,“音乐家”既表明这是一个人,也表明他是懂音乐的,在语义上,“音乐家”应该和“人”、“音乐”都是有交集的一个范围,只用一个点的表示可能会造成语义范围模糊。由于实体可能具有多语义性且语义具有范围,用一个确定的点来表示实体并不是很合理。而且,因此,找到一种既可以将知识图谱映射到低维的向量空间,又考虑到实体的多语义性和语义的范围属性的知识图谱表示方法对知识图谱的研究和利用有极大的价值。
发明内容
针对现有技术的不足,本发明提供一种基于多核高斯分布的知识图谱表示方法,该方法能够充分地考虑实体的多语义信息和各种语义的语义范围。
本发明的技术方案为:一种基于多核高斯分布的知识图谱表示方法,包括负样本采样、
多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,具体包括以下步骤:
S1)、负样本采样
S101)、针对知识图谱每一个三元组(源实体,关系,目标实体),在实体集合中随机选取实体以概率p替换源实体或者以1-p的概率替换目标实体构造负样本;
S2)、多核高斯分布的实体、关系表示
S201)、假定知识图谱中的每个实体有k个语义,每个语义用一个高斯分布表示,则每个实体用k个高斯分布表示,即
其中,Psi表示第s个实体的第i个高斯分布,μsi表示第s个实体的第i个高斯分布的均值,∑si表示第s个实体的第i个高斯分布的协方差;
S202)、对于知识图谱中的每个关系r,用于一个高斯分布表示,其中,Pr表示关系r的高斯分布,μr表示关系r的均值,∑r表示关系r的协方差;
S3)、实体和关系的表示的学习
S301)、采用基于翻译的思想学习实体、关系的嵌入表示,把关系r看成是源实体h到目标实体t翻译过程,即t=r+h;
S302)、采用KL距离度量法度量两个高斯分布之间的距离,即度量h-t的分布与关系r的分布距离;
S303)、采用pairwise方法训练实体、关系的潜入表示。
其中,上述方法中,步骤S101)中,p由知识图谱中每一个关系的源实体和目标实体的比例确定,并且在知识图谱中,每一个关系存在着一对一、一对多、多对一、多对多的属性,如果关系是一对多,替换源实体的概率p将会更大;如果关系是多对一,p则会更小;这种负样本采样方式会降低产生假阴性标签的概率。
本发明的有益效果为:通过使用多核高斯分布表示知识图谱中的每一个实体,考虑了实体具有多语义的特性和每一语义都具有语义范围的天然属性,在一定程度上解决了知识图谱中实体因为多语义特性引起的语义歧义的问题,也在一定程度上改进了传统方法没有考虑语义范围的缺点。同时,对比其他方法,这种方法训练过程简单,效果更佳。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,一种基于多核高斯分布的知识图谱表示方法,包括负样本采样、多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,具体包括以下步骤:
S1)、随机初始化实体与关系,假设知识图谱由实体集合S=(s1,s2,...,sn)和关系集合R=(r1,r2,...,rz)组成,其中,n表示实体的个数,z表示关系的个数;
在知识图谱中,每一个事实用一个三元组(源实体h,关系r,目标实体t)表示;
在知识图谱中的每个实体有k个语义,每个语义用一个高斯分布表示,则每个实体用k个高斯分布表示,即其中,Psi表示第s个实体的第i个高斯分布,μsi表示第s个实体的第i个高斯分布的均值,∑si表示第s个实体的第i个高斯分布的协方差;对于每一个μsi和∑si初始化为为d维向量;
对于知识图谱中的每个关系r,用于一个高斯分布表示,其中,Pr表示关系r的高斯分布,μr表示关系r的均值,∑r表示关系r的协方差;
S2)、初始化变量t=0,用于累计训练次数;初始化变量loss=0,用于计算损失值;
S3)、计算关系r的源实体h和目标实体t的比例,对于每一个关系r,计算每一个源实体h对应的目标实体t个数tph,计算每一个目标实体t对应的源实体h的个数hpt;
S4)、构造负例,从知识图谱中随机取出三元组(源实体h,关系r,目标实体t),以概率替换源实体h或者以的概率替换目标实体t构造负例<h′,r′,t′>,正样本集合记为τ,负样本集合记为τ′;
S5)、计算正例<h,r,t>和负例<h′,r′,t′>的KL距离,从h,t,h′,t′的k个高斯分布中各选取一个分布,分布记为:记h-t的分布为记h′-t′的分布为用KL距离来度量每一个三元组源实体和目标实体之差的分布以及关系的分布的距离,其计算式如如下,通过计算公式(1)计算<h,r,t>和<h′,r′,t′>的KL距离,并分别记为D1和D2;
其中,ε(h,r,t)为样本(h,r,t)的(h-t)的分布与r的分布的距离,Pr为关系r的分布,Pe为(h-t)的分布,DKL(Pe,Pr)为Pe,P的KL距离,x为μe,∑e每一维的值,μe为Pe分布的均值,∑e为Pe分布的协方差,μr为关系r的均值,∑r为关系r的协方差,tr(x)为x的迹,det(x)为x的行列式,(X)T表示X转置,ke为均值以及协方差的嵌入维度。
S6)、学习实体和关系的表示,如果D1+m-D2>0,则根据梯度方向传播算法更新正例<h,r,t>和负例<h′,r′,t′>中的实体和关系的参数,该算法的损失函数如公式:
loss=∑(h,r,t)∈τ(h′,r′,t′)∈τ′[ε(h,r,t)+m-ε(h′,r′,t′)]+ 公式(2)
其中,m为正负例的分割边界,τ为正样本集合,τ′负样本集合,ε(h,r,t)为正样本(h-t)的分布与r分布的距离,ε(h′,r′,t′)为负样本与(h′-t′)的分布与r′的分布的距离,
S7)、重复步骤S2)-S6),直至loss<L或t>T,其中,L,T分别为设置的损失值和训练次数。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (4)

1.一种基于多核高斯分布的知识图谱表示方法,其特征在于:包括负样本采样、多核高斯分布的实体、关系表示,利用基于翻译思想的平移距离模型对实体和关系的表示进行学习,具体包括以下步骤:
S1)、随机初始化实体与关系,假设知识图谱由实体集合S=(s1,s2,sn)和关系集合R=(r1,r2,rz)组成,其中,n表示实体的个数,z表示关系的个数;在知识图谱中,每一个事实用一个三元组(源实体h,关系r,目标实体t)表示;
S2)、初始化变量t=0,用于累计训练次数;初始化变量loss=0,用于计算损失值;
S3)、计算关系r的源实体h和目标实体t的比例,对于每一个关系r,计算每一个源实体h对应的目标实体t的个数tph,计算每一个目标实体t对应的源实体h的个数hpt;
S4)、构造负例,从知识图谱中随机取出三元组(源实体h,关系r,目标实体t),以概率替换源实体h或者以的概率替换目标实体t构造负例<h′,r′,t′>,正样本集合记为τ,负样本集合记为τ′;
S5)、计算正例<h,r,t>和负例<h′,r′,t′>的KL距离;
S6)、学习实体和关系的表示,如果D1+m-D2>0,则根据梯度方向传播算法更新正例<h,r,t>和负例<h′,r′,t′>中的实体和关系的参数,该算法的损失函数如公式:
loss=∑(h,r,t)∈τ(h′,r′,t′)∈τ′[ε(h,r,t)+m-ε(h′,r′,t′)]+ 公式(2)
其中,m为正负例的分割边界,τ为正样本集合,τ′负样本集合,ε(h,r,t)为正样本(h-t)的分布与r分布的距离,ε(h′,r′,t′)为负样本与(h′-t′)的分布与r′的分布的距离,
S7)、重复步骤S2)-S6),直至loss<L或t>T,其中,L,T分别为设置的损失值和训练次数。
2.根据权利要求1所述的一种基于多核高斯分布的知识图谱表示方法,其特征在于:步骤S1)中,在知识图谱中的每个实体有k个语义,每个语义用一个高斯分布表示,则每个实体用k个高斯分布表示,即其中,Psi表示第s个实体的第i个高斯分布,μsi表示第s个实体的第i个高斯分布的均值,∑si表示第s个实体的第i个高斯分布的协方差;对于每一个μsi和∑si初始化为为d维向量;
对于知识图谱中的每个关系r,用于一个高斯分布表示,其中,Pr表示关系r的高斯分布,μr表示关系r的均值,∑r表示关系r的协方差。
3.根据权利要求1所述的一种基于多核高斯分布的知识图谱表示方法,其特征在于:步骤S4)中,p由知识图谱中每一个关系的源实体和目标实体的比例确定,并且在知识图谱中,每一个关系存在着一对一、一对多、多对一、多对多的属性,如果关系是一对多,替换源实体的概率p将会更大;如果关系是多对一,p则会更小;这种负样本采样方式会降低产生假阴性标签的概率。
4.根据权利要求1所述的一种基于多核高斯分布的知识图谱表示方法,其特征在于:步骤S5)中,计算正例<h,r,t>和负例<h′,r′,t′>的KL距离,从h,t,h′,t′的k个高斯分布中各选取一个分布,分布记为:记h-t的分布为记h′-t′的分布为用KL距离来度量每一个三元组源实体和目标实体之差的分布以及关系的分布的距离,其计算式如(1),通过计算公式(1)计算<h,r,t>和<h′,r′,t′>的KL距离,并分别记为D1和D2;
其中,ε(h,r,t)为样本(h,r,t)的(h-t)的分布与r的分布的距离,Pr为关系r的分布,Pe为(h-t)的分布,DkL(Pe,Pr)为Pe,P的KL距离,x为μe,∑e每一维的值,μe为Pe分布的均值,∑e为Pe分布的协方差,μr为关系r的均值,∑r为关系r的协方差,tr(x)为x的迹,det(x)为x的行列式,(X)T表示X转置,ke为均值以及协方差的嵌入维度。
CN201811183372.7A 2018-10-11 2018-10-11 一种基于多核高斯分布的知识图谱表示方法 Active CN109446339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811183372.7A CN109446339B (zh) 2018-10-11 2018-10-11 一种基于多核高斯分布的知识图谱表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811183372.7A CN109446339B (zh) 2018-10-11 2018-10-11 一种基于多核高斯分布的知识图谱表示方法

Publications (2)

Publication Number Publication Date
CN109446339A true CN109446339A (zh) 2019-03-08
CN109446339B CN109446339B (zh) 2021-08-06

Family

ID=65545309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811183372.7A Active CN109446339B (zh) 2018-10-11 2018-10-11 一种基于多核高斯分布的知识图谱表示方法

Country Status (1)

Country Link
CN (1) CN109446339B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472233A (zh) * 2019-07-16 2019-11-19 清华大学 基于知识库内头尾实体分布的关系相似度度量方法及系统
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法
WO2022057691A1 (zh) * 2020-09-18 2022-03-24 神思电子技术股份有限公司 一种基于改进gan网络的高斯分布数据调整方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854268A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于多核高斯过程回归的图像超分辨重建方法
US20150339385A1 (en) * 2014-05-21 2015-11-26 Baidu Online Network Technology (Beijing) Co., Ltd Interactive searching method and apparatus
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854268A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于多核高斯过程回归的图像超分辨重建方法
US20150339385A1 (en) * 2014-05-21 2015-11-26 Baidu Online Network Technology (Beijing) Co., Ltd Interactive searching method and apparatus
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472233A (zh) * 2019-07-16 2019-11-19 清华大学 基于知识库内头尾实体分布的关系相似度度量方法及系统
CN110472233B (zh) * 2019-07-16 2021-02-12 清华大学 基于知识库内头尾实体分布的关系相似度度量方法及系统
WO2022057691A1 (zh) * 2020-09-18 2022-03-24 神思电子技术股份有限公司 一种基于改进gan网络的高斯分布数据调整方法
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法
CN112163077B (zh) * 2020-09-28 2024-06-04 华南理工大学 一种面向领域问答的知识图谱构建方法

Also Published As

Publication number Publication date
CN109446339B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
Dubossarsky et al. Time-out: Temporal referencing for robust modeling of lexical semantic change
Nickel et al. Poincaré embeddings for learning hierarchical representations
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN106339416B (zh) 基于网格快速搜寻密度峰值的教育数据聚类方法
CN109446339A (zh) 一种基于多核高斯分布的知识图谱表示方法
CN108595706A (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN106776534A (zh) 词向量模型的增量式学习方法
Schiebel Visualization of research fronts and knowledge bases by three-dimensional areal densities of bibliographically coupled publications and co-citations
CN108446271A (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN106610955A (zh) 基于词典的多维度情感分析方法
CN109635105A (zh) 一种中文文本多意图识别方法及系统
CN103544309A (zh) 一种中文垂直搜索的检索串拆分方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN111143672A (zh) 基于知识图谱的专业特长学者推荐方法
CN102902826A (zh) 一种基于基准图像索引的图像快速检索方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Vortmeyer-Kley et al. Comparing Eulerian and Lagrangian eddy census for a tide-less, semi-enclosed basin, the Baltic Sea
CN112800111A (zh) 一种基于训练数据挖掘的位置预测方法
CN109582783A (zh) 热点话题检测方法及装置
CN108763574A (zh) 一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合
CN110287369B (zh) 一种基于语义的视频检索方法及系统
CN103631773A (zh) 基于领域相似性度量方法的统计机器翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant