CN111026875A - 一种基于实体描述和关系路径的知识图谱补全方法 - Google Patents

一种基于实体描述和关系路径的知识图谱补全方法 Download PDF

Info

Publication number
CN111026875A
CN111026875A CN201911170773.3A CN201911170773A CN111026875A CN 111026875 A CN111026875 A CN 111026875A CN 201911170773 A CN201911170773 A CN 201911170773A CN 111026875 A CN111026875 A CN 111026875A
Authority
CN
China
Prior art keywords
entity
vector
relation
path
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911170773.3A
Other languages
English (en)
Inventor
刘洋
梁循
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201911170773.3A priority Critical patent/CN111026875A/zh
Publication of CN111026875A publication Critical patent/CN111026875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于实体描述和关系路径的知识图谱补全方法,步骤为:S1、以实体文本描述为基础,建立连续词袋模型,利用连续词袋模型将知识图谱中实体的实体描述进行向量表示,得到基于描述的向量;S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型,建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示以及学习基于结构的向量表示;S3、采用学习到的实体向量表示,在不同任务中获取向量空间中的表示结果,对知识图谱进行补全或对潜在关系进行挖掘。

Description

一种基于实体描述和关系路径的知识图谱补全方法
技术领域
本发明涉及一种基于实体描述和关系路径的知识图谱补全方法,属于互联网技术领域。
背景技术
近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识。如何组织和表达这些知识,并对其进行深入计算和分析备受关注。知识图谱作为丰富直观的知识表达方式应运而生。面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用。面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识。不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化。随着时间和新知识的增加,知识图谱的丰富性和完善性受到了一定的制约,因此,需要对知识图谱进行扩展学习推理。现有对知识图谱的学习和推理方法有:基于向量嵌入转换算法、基于张量分解推理算法、基于路径推理算法等。上述多种推理方法中,由于向量嵌入转换模型简单,参数较少,因此成为目前研究的主要方向。
知识图谱实体数量巨大,网络结构稀疏性严重。近年来在知识图谱的研究上取得了显著的进展,表示学习运用于知识图谱中,将所有实体与关系映射到一个低维连续向量空间中,解决了之前知识图谱学习时产生的稀疏性与效率问题。但是,目前已有的知识图谱表示学习方法在训练时需要学习实体之间的结构关系,而忽略了知识图谱中的实体文本描述等额外信息,知识图谱补全以及实体分类等任务中准确率比较低,现有基于翻译转化的知识图谱补全算法能很好地抓住数据的内在特征,算法高效且易操作,但是该算法依赖于纯粹的数据驱动,对实体之间关系的预测能有很好的解释,但是在低连通图中会出现严重的数据稀疏问题。
发明内容
针对上述问题,本发明的目的是提供一种能够提高计算效率以及复杂关系推理准确性的基于实体描述和关系路径的知识图谱补全方法。
为了实现上述目的,本发明采用的技术方案为:一种基于实体描述和关系路径的知识图谱补全方法,包括步骤:
S1、以实体文本描述为基础,建立连续词袋模型,利用连续词袋模型将知识图谱中实体的实体描述进行向量表示,得到基于描述的向量,其中,连续词袋模型是根据训练文本中词语的上下文来训练预测该词语的向量表示;
S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型,建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示以及学习基于结构的向量表示;
S3、采用学习到的实体向量表示,在不同任务中获取向量空间中的表示结果,对知识图谱进行补全或对潜在关系进行挖掘。
进一步地,上述步骤S1的具体实现过程为:
S11、构建数据集,根据用户输入设置连续词袋模型参数,并对实体描述中的词向量进行初始化;其中,数据集包括知识图谱的实体关系三元组以及实体描述,三元组包括首实体的向量表示h,尾实体的向量表示t,关系向量表示r;
S12、基于连续词袋模型获取三元组实体描述文本,由描述文本进行建模后得到的词语向量表示,获得文本的向量矩阵,根据词向量相似度进行聚类合并,统计词频,获得所述文本词语分布矩阵,并利用文本词语分布矩阵,获得实体描述特征向量,利用文本的特征从实体描述中抽取关键词;
S13、基于关键词词向量构建基于实体描述的向量表示hd,td。
进一步地,上述步骤S2的具体实现过程为:
S21、获取头实体与尾实体(h,t)间关系路径p的置信度R(p|h,t);
S22、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化,将实体集和关系集嵌入到低维连续向量空间,并进行规范;
S23、使用负采样的方法构造负例,替换有效三元组中元素,构造出无效三元组作为负例;
S24、计算有效三元组和无效三元组的势能函数以及关系路径的势能函数:
E(h,r,t)=||h+r-t||
E(h,p,t)=||h+p-t||;
S25、将有效三元组得到的势能函数、关系路径向量得到的势能函数构造损失函数L,并将关系路径p可信度值作为损失函数中多跳关系路径的路径向量和路径两端的头尾实体向量构成的势能函数的权重:
Figure BDA0002288655210000021
式中,L(h,r,t)表示关系三元组(h,r,t)基于边际的损失函数,L(h,p,t)表示路径三元组(h,p,t)基于边际的损失函数,R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性,Z表示归一化因子,S表示有效三元组集合,S-表示无效三元组集合;
S26、采用随机梯度下降的优化方法,根据损失函数值减小的方向对实体向量和关系向量进行更新操作,根据算法收敛的条件重复步骤S25,直至有效三元组和无效三元组的势能趋于稳定,无需再修正,迭代次数达到最大值,停止迭代,得到三元组向量表示。
进一步地,上述步骤S21的具体实现过程为:
S211、设r=0于是初始值Rp(h)=1;
S212、从h到t递归执行概率分配,将直接前驱所拥有概率平均分配给其直接后继,得到不同路径的出现概率,置信度高的路径出现概率越高,置信度低的路径出现的概率越低;
S213、从头实体h依次递归执行,得到关系路径的概率分配为其尾实体所包含从头实体到尾实体的所有路径的概率和,即得到头尾实体匹配概率。
进一步地,上述步骤S23的具体实现过程为:
对于知识图谱中存在的三元组,仅替换其头实体,构成无效三元组;
对于知识图谱中存在的三元组,仅替换其尾实体,构成无效三元组;
对于知识图谱中存在的三元组,仅替换其间关系,构成无效三元组。
本发明由于采取以上技术方案,其具有以下特点:本发明提出一种基于实体描述的关系路径的知识图谱补全方法,这种方法既利用了基于翻译转化方法的高效特点,结合了基于关系路径的优势,并且利用实体描述文本对实体进行建模,使得到的分布式知识表示向量不仅可以包含实体之间的多跳关系路径两端的实体之间隐含的新关系,提高了计算效率以及复杂关系推理的准确性。
附图说明
图1为本实施例的基于实体描述和多跳关系路径的关系预测示意图;
图2为本实施例的连续词袋模型的建立过程示意图;
图3为本实施例的知识图谱表示学习过程流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于实体描述与关系路径的知识图谱补全方法,引入实体描述以及关系路径,将知识图谱中的实体和关系嵌入到低维向量空间进行表示,并利用表示向量对知识图谱潜在关系进行挖掘,进而对知识图谱进行补全,具体实现过程为:
S1、如图1所示,以实体文本描述为基础建立连续词袋模型,利用连续词袋模型将知识图谱中实体的实体描述进行向量表示,得到基于描述的向量,具体过程为:
S11、构建数据集,根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;
其中,连续词袋模型是根据训练文本中词语的上下文来训练预测该词语的向量表示。假设输入一个训练文本,词袋中一共有t个单词,设置上下文的窗口大小,如图2中的连续词袋模型的窗口大小参数为2,输入层为词语wt的上下文wt-2,wt-1,wt+1,wt+2,中间一层为映射层,映射层对输入层的词向量做累加取平均值,当所有的窗口进行此操作后,再使用Hierarchical Softmax或Negative Sampling对模型进行训练,最后输出为词语wt的向量表示形式,即词向量。
具体地,本实施例的数据集包括知识图谱的实体关系三元组,实体关系三元组能够表示实体以及实体间的语义关系,例如(马伊琍,生活在,上海)以及实体描述(关于马伊琍、上海的文本描述内容);实体关系三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。
采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化,即定义参数所在层的输入维度为n,输出维度为m,那么参数将以均匀分布的方式在
Figure BDA0002288655210000041
(n为向量维度,k为模型层数,本实施例中k为2)的范围内进行初始化。根据用户输入设置连续词袋的模型参数,并根据词典规模设置词向量维度,模型训练学习率,获取实体三元组结构向量;
S12、基于连续词袋模型获取三元组实体描述文本,由描述文本进行建模后得到的词语向量表示,获得文本的向量矩阵,根据词向量相似度进行聚类合并,统计词频,获得所述文本词语分布矩阵,并利用所述文本词语分布矩阵,获得实体描述特征向量,利用文本的特征从实体描述中抽取关键词。
以Word2vec模型为例,即将文档词语集作为输入,利用Word2vec模型进行训练,将输出每个词对应出词向量添加至文档词语向量集中。得到文档词语向量集之后,通过无监督聚类对相同或相近的词语进行合并,并统计合并后的词频,生成文档词语分布矩阵。其中,进行聚类合并即根据向量相似度进行聚类,如基于向量之间的相似距离进行聚类合并划分。将文档词语分布矩阵输入至诸如LDA模型(Latent Dirichlet Allocation,一种文档主题生成模型)、NMF模型的文档主题生成模型中进行建模,获得文档主题分布矩阵和主题关键词分布矩阵。其中,NMF(non-negative matrix factorization,为非负矩阵分解)模型为一种矩阵分解方法。
S13、基于关键词词向量构建基于实体描述的向量表示hd,td。
以LDA模型为例对此过程进行说明:利用P(w|d)=P(w|t)*P(t|d)计算词语在文档中的概率,其中,w为每篇文档里的单词,一共有n个,t为主题,一共有k个,d为实体描述文档,一共有m篇;P(w|d)为词语在描述文档中的概率,P(w|t)为主题t下词语的概率,P(t|d)是文档中主题t的概率。其中,m行n列的矩阵为文档词语分布矩阵,将所有主题下词语的概率分布组合成为k行n列的主题-词语概率矩阵,即主题词语分布矩阵;所有文档的主题概率组合成为m行k列的文档-主题概率矩阵,即文档主题分布矩阵。
LDA模型损失函数:
Figure BDA0002288655210000051
其中,vi,j为文档词语,向量集中单词Wj在实体Hi的实体描述的频率,AHi为实体描述主题向量,Swj为对应的单词主题分布向量,当Lloss最小时,LDA模型性能达到最优,输出文档主题分布矩阵和主题词语分布矩阵。
然后,通过查找文档主题分布矩阵和主题词语分布矩阵,确定出每个实体描述关联度最大的关键词,关键词的数量可用e表示,得到关键词向量矩阵。然后将关键词向量矩阵转换至多领域知识图谱三元组信息空间,便可获得实体描述特征向量。即获得三元组结构中关于关系的向量表示。具体地,可通过深度学习方法进行映射,获得实体描述特征向量。将关键词矩阵输入至神经网络中进行映射,获得实体描述特征向量。
S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型,建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示,学习基于结构的向量表示,采用本发明能够更好地表示加入路径后的实体对间的语义信息,且能够应用于复杂的知识图谱推理中,具体实现过程为:
S21、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化、将实体集和关系集嵌入到低维连续向量空间,并进行规范化,遍历实体集合,采用随机游走的方式(PRA),获取头实体(马伊琍)与尾实体(中国)间关系路径p(生活在,位于)的置信度R(p|h,t),目的是用于关系路径模型中损失函数的构建,具体过程为:
S211、设r=0于是初始值Rp(h)=1;
S212、从h到t递归执行概率分配,将直接前驱所拥有概率平均分配给其直接后继,得到不同路径的出现概率,置信度高的路径出现概率越高,置信度低的路径出现的概率越低。
S213、从头实体h依次递归执行,得到关系路径的概率分配为其尾实体所包含从头实体到尾实体的所有路径的概率和,即得到头尾实体匹配概率。
其中,实体m∈Si,定义通过关系ri的直接前驱为Si-1(·,m),Si(n,·)为n∈Si-1的直接后继。假设初始值Rp(h)=1。通过从h到t递归执行概率分配,表示不同路径的出现概率:
Figure BDA0002288655210000061
式中,Si表示为关系ri所指向的所有后继实体集,·表示任意实体,m、n分别表示指定后继实体和指定前驱实体。
S22、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化,初始化学习率、向量维度等参数。将实体集和关系集嵌入到低维连续向量空间(向量化即为嵌入),并进行规范化,其中,在向量空间中,把关系看作是实体间向量的平移转换。
S23、使用负采样的方法构造负例,替换有效三元组中元素,构造出无效三元组作为负例,用于后续模型的训练。
具体地,负例三元组的构造方法:对于知识图谱中存在的三元组,仅替换其头实体,构成无效三元组;对于知识图谱中存在的三元组,仅替换其尾实体,构成无效三元组;对于知识图谱中存在的三元组,仅替换其间关系,构成无效三元组。假设S是知识图谱中存在的有效三元组的集合,S-是随机构造出的无效三元组。例如:(中国,生活在,上海)、(马伊琍,位于,上海)、(马伊琍,生活在,中国)等为构造的具体负例,也就是说,无效三元组由有效三元组中元素替换得到。与无效三元组相比,该目标将有利于降低有效三元组的分数。
S24、计算有效三元组和无效三元组的势能函数以及关系路径的势能函数,采用L2规范化构造实体与关系之间的能量函数,以及实体与关系路径之间能量函数。
其中,有效三元组和无效三元组的势能函数:
E(h,,r,t)=||h+r-t||
关系路径的势能函数:
E(h,p,t)=||h+p-t||
采用L2规范化构造实体与关系之间的能量函数,以及实体与关系路径之间能量函数,具体为:
S241、初等能量函数为三元组基于描述的实体向量(hd,td)与基于结构的实体向量(hs,ts)进行排列组合所得四对头尾实体与关系组成三元组向量(hs,r,ts)、(hd,r,ts)、(hs,r,td)、(hd,r,td);其中,hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;
S242、构造实体与关系之间的能量函数,能量函数为三元组空间距离,即头实体向量加上关系向量与尾实体之间的距离,并进行规范化。需要说明的是,有效三元组的能量函数应尽可能小,而无效三元组之间的距离应尽可能大;
S243、构造实体与关系路径之间的能量函数为:
Figure BDA0002288655210000071
其中,P为实体间所包含所有关系路径p的集合,R(p|h,t)即为步骤S21所求实体(h,t)间关系路径p的置信度(即S213得到头尾实体匹配概率),Z为正则化项。
具体地,关系路径的耦合有两种可选方案:
一、相加,将关系路径中各关系向量依次相加来得到关系路径的向量,并将其形式化为:p=r1+r2+…+rl,具体,即将关系路径(生活在,位于)中关系向量‘生活在’,‘位于’相加;
二、相乘,将关系路径中各关系向量相乘得到关系路径向量,形式化为:p=r1*r2*…*rl,具体,即将关系路径(生活在,位于)中关系向量‘生活在’,‘位于’相乘。
S25、将有效三元组得到的势能、关系路径向量得到的势能相加构造损失L,并将S21得到的关系路径可信度值作为损失中多跳关系路径的路径向量和路径两端的头尾实体向量构成的势能的权重,损失:
Figure BDA0002288655210000072
L(h,r,t)=∑(h,r,t)∈S(h′,r,t′)∈S-[E(h,r,t)+γ-E(h′,r′,t′)]
Figure BDA0002288655210000073
式中,L(h,r,t)表示关系三元组(h,r,t)基于边际的损失函数,L(h,p,t)表示路径三元组(h,p,t)基于边际的损失函数,R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性,Z表示归一化因子,γ为设定的边际值,(h,r,t)表示有效三元组,(h′,r′,t)表示随机替换掉头实体h、关系r或尾实体t所构建的无效三元组,(h,p,t)表示正确路径三元组,(h,p′,t)表示随机替换掉路径p所构建的无效路径三元组,S={(h,r,t)}∪{(h,p,t)}表示有效三元组集合,S-={(h′,r,t)}∪{(h,r′,t)}∪{(h,r,t′)}∪{(h,p′,t)}表示无效三元组集合;E(h,r,t)表示有效三元组(h,r,t)的得分函数,E(h′,r′,t′)表示无效三元组(h′,r′,t)的得分函数,E(h,p,t)表示正确路径三元组(h,r,t)的得分函数,E(h,p′,t)表示无效路径三元组的得分函数,[E(h,r,t)+γ-E(h′,r′,t′)]+=max(0,E(h,r,t)+γ-E(h′,r′,t′)),[E(h,p,t)+γ-E(h,p′,t)]+=max(0,E(h,p,t)+γ-E(h,p,t))。
S26、采用随机梯度下降的优化方法,根据损失值减小的方向对实体向量和关系向量进行更新操作,根据算法收敛的条件重复步骤S25过程,直至有效三元组和无效三元组的势能趋于稳定,无需再修正,迭代次数达到最大值,停止迭代,得到三元组向量表示。
S3、使用学习到的实体的向量表示,在不同任务中获取向量空间中的表示结果,进而可以对知识图谱进行补全或对潜在关系进行挖掘。
知识图谱的补全是指对于现有知识库中的潜在关系但未在知识库中标明的两个实体进行关系推理。即知识库中有以下两个实体关系三元组:(马伊琍,生活在,上海),(上海,位于,中国)那么,希望推理出(马伊琍,国籍,中国)到现有知识图谱中,知识库关系补全需要两个阶段:
S31、存在潜在关系实体对的发现,对潜在关系的实体对,主要任务是测试通过表示学习得到的向量空间中的知识库;
S32、是否可以对这个潜在关系进行推理,并给出较为准确的答案抑或包含答案的候选集合。
以上方法,同时考虑实体描述所包含的语义信息,以及关系路径多跳关系的结构信息,使得知识图谱的分布式表示更加准确高效。
最后应当说明的是:以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (5)

1.一种基于实体描述和关系路径的知识图谱补全方法,其特征在于包括步骤:
S1、以实体文本描述为基础,建立连续词袋模型,利用连续词袋模型将知识图谱中实体的实体描述进行向量表示,得到基于描述的向量,其中,连续词袋模型是根据训练文本中词语的上下文来训练预测该词语的向量表示;
S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型,建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示以及学习基于结构的向量表示;
S3、采用学习到的实体向量表示,在不同任务中获取向量空间中的表示结果,对知识图谱进行补全或对潜在关系进行挖掘。
2.根据权利要求1所述的知识图谱补全方法,其特征在于,上述步骤S1的具体实现过程为:
S11、构建数据集,根据用户输入设置连续词袋模型参数,并对实体描述中的词向量进行初始化;其中,数据集包括知识图谱的实体关系三元组以及实体描述,三元组包括首实体的向量表示h,尾实体的向量表示t,关系向量表示r;
S12、基于连续词袋模型获取三元组实体描述文本,由描述文本进行建模后得到的词语向量表示,获得文本的向量矩阵,根据词向量相似度进行聚类合并,统计词频,获得所述文本词语分布矩阵,并利用文本词语分布矩阵,获得实体描述特征向量,利用文本的特征从实体描述中抽取关键词;
S13、基于关键词词向量构建基于实体描述的向量表示hd,td。
3.根据权利要求1所述的知识图谱补全方法,其特征在于,上述步骤S2的具体实现过程为:
S21、获取头实体与尾实体(h,t)间关系路径p的置信度R(p|h,t);
S22、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化,将实体集和关系集嵌入到低维连续向量空间,并进行规范;
S23、使用负采样的方法构造负例,替换有效三元组中元素,构造出无效三元组作为负例;
S24、计算有效三元组和无效三元组的势能函数以及关系路径的势能函数:
E(h,r,t)=||h+r-t||
E(h,p,t)=||h+p-t||;
S25、将有效三元组得到的势能函数、关系路径向量得到的势能函数构造损失函数L,并将关系路径p可信度值作为损失函数中多跳关系路径的路径向量和路径两端的头尾实体向量构成的势能函数的权重:
Figure FDA0002288655200000021
式中,L(h,r,t)表示关系三元组(h,r,t)基于边际的损失函数,L(h,p,t)表示路径三元组(h,p,t)基于边际的损失函数,R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性,Z表示归一化因子,S表示有效三元组集合,S-表示无效三元组集合;
S26、采用随机梯度下降的优化方法,根据损失函数值减小的方向对实体向量和关系向量进行更新操作,根据算法收敛的条件重复步骤S25,直至有效三元组和无效三元组的势能趋于稳定,无需再修正,迭代次数达到最大值,停止迭代,得到三元组向量表示。
4.根据权利要求3所述的知识图谱补全方法,其特征在于,上述步骤S21的具体实现过程为:
S211、设r=0于是初始值Rp(h)=1;
S212、从h到t递归执行概率分配,将直接前驱所拥有概率平均分配给其直接后继,得到不同路径的出现概率,置信度高的路径出现概率越高,置信度低的路径出现的概率越低;
S213、从头实体h依次递归执行,得到关系路径的概率分配为其尾实体所包含从头实体到尾实体的所有路径的概率和,即得到头尾实体匹配概率。
5.根据权利要求3所述的知识图谱补全方法,其特征在于,上述步骤S23的具体实现过程为:
对于知识图谱中存在的三元组,仅替换其头实体,构成无效三元组;
对于知识图谱中存在的三元组,仅替换其尾实体,构成无效三元组;
对于知识图谱中存在的三元组,仅替换其间关系,构成无效三元组。
CN201911170773.3A 2019-11-26 2019-11-26 一种基于实体描述和关系路径的知识图谱补全方法 Pending CN111026875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911170773.3A CN111026875A (zh) 2019-11-26 2019-11-26 一种基于实体描述和关系路径的知识图谱补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911170773.3A CN111026875A (zh) 2019-11-26 2019-11-26 一种基于实体描述和关系路径的知识图谱补全方法

Publications (1)

Publication Number Publication Date
CN111026875A true CN111026875A (zh) 2020-04-17

Family

ID=70202229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911170773.3A Pending CN111026875A (zh) 2019-11-26 2019-11-26 一种基于实体描述和关系路径的知识图谱补全方法

Country Status (1)

Country Link
CN (1) CN111026875A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN111897972A (zh) * 2020-08-06 2020-11-06 南方电网科学研究院有限责任公司 一种数据轨迹可视化方法和装置
CN111897966A (zh) * 2020-07-02 2020-11-06 苏宁金融科技(南京)有限公司 挖掘知识图谱中隐含信息的方法、系统及电子设备
CN111930897A (zh) * 2020-09-14 2020-11-13 平安国际智慧城市科技股份有限公司 专利检索方法、装置、电子设备及计算机可读存储介质
CN111930963A (zh) * 2020-09-17 2020-11-13 平安国际智慧城市科技股份有限公司 知识图谱生成方法、装置、电子设备及存储介质
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN112073415A (zh) * 2020-09-08 2020-12-11 北京天融信网络安全技术有限公司 一种网络安全知识图谱的构建方法及装置
CN112100404A (zh) * 2020-09-16 2020-12-18 浙江大学 基于结构化上下文信息的知识图谱预训练方法
CN112132444A (zh) * 2020-09-18 2020-12-25 北京信息科技大学 一种互联网+环境下文化创新企业知识缺口的识别方法
CN112307777A (zh) * 2020-09-27 2021-02-02 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及系统
CN112395428A (zh) * 2020-12-01 2021-02-23 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112463979A (zh) * 2020-11-23 2021-03-09 东南大学 一种基于不确定性本体的知识表示方法
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112733874A (zh) * 2020-10-23 2021-04-30 招商局重庆交通科研设计院有限公司 基于知识图谱推理的可疑车辆判别方法
CN112818678A (zh) * 2021-02-24 2021-05-18 上海交通大学 基于依赖关系图的关系推理方法及系统
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
CN113254669A (zh) * 2021-06-15 2021-08-13 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113360664A (zh) * 2021-05-31 2021-09-07 电子科技大学 一种知识图谱补全方法
CN113836321A (zh) * 2021-11-30 2021-12-24 北京富通东方科技有限公司 一种医学知识表示的生成方法和装置
CN114493516A (zh) * 2022-01-18 2022-05-13 安徽大学 一种基于异质图对比学习的云erp下知识补全方法及系统
CN114741460A (zh) * 2022-06-10 2022-07-12 山东大学 基于规则间关联的知识图谱数据扩展方法及系统
CN115797737A (zh) * 2022-06-28 2023-03-14 合肥工业大学 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法
CN117851615A (zh) * 2024-03-06 2024-04-09 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
US20180144252A1 (en) * 2016-11-23 2018-05-24 Fujitsu Limited Method and apparatus for completing a knowledge graph
CN108959472A (zh) * 2018-06-20 2018-12-07 桂林电子科技大学 基于多步关系路径的知识图谱表示学习方法
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
US20180144252A1 (en) * 2016-11-23 2018-05-24 Fujitsu Limited Method and apparatus for completing a knowledge graph
CN108959472A (zh) * 2018-06-20 2018-12-07 桂林电子科技大学 基于多步关系路径的知识图谱表示学习方法
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈文瑞: "基于低维向量空间的知识推理方法研究" *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897966A (zh) * 2020-07-02 2020-11-06 苏宁金融科技(南京)有限公司 挖掘知识图谱中隐含信息的方法、系统及电子设备
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN111897972B (zh) * 2020-08-06 2023-10-17 南方电网科学研究院有限责任公司 一种数据轨迹可视化方法和装置
CN111897972A (zh) * 2020-08-06 2020-11-06 南方电网科学研究院有限责任公司 一种数据轨迹可视化方法和装置
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN111949764B (zh) * 2020-08-18 2021-06-29 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN112073415A (zh) * 2020-09-08 2020-12-11 北京天融信网络安全技术有限公司 一种网络安全知识图谱的构建方法及装置
CN111930897A (zh) * 2020-09-14 2020-11-13 平安国际智慧城市科技股份有限公司 专利检索方法、装置、电子设备及计算机可读存储介质
CN112100404A (zh) * 2020-09-16 2020-12-18 浙江大学 基于结构化上下文信息的知识图谱预训练方法
CN111930963A (zh) * 2020-09-17 2020-11-13 平安国际智慧城市科技股份有限公司 知识图谱生成方法、装置、电子设备及存储介质
CN112132444A (zh) * 2020-09-18 2020-12-25 北京信息科技大学 一种互联网+环境下文化创新企业知识缺口的识别方法
CN112132444B (zh) * 2020-09-18 2023-05-12 北京信息科技大学 一种互联网+环境下文化创新企业知识缺口的识别方法
CN112307777A (zh) * 2020-09-27 2021-02-02 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及系统
CN112307777B (zh) * 2020-09-27 2022-03-11 和美(深圳)信息技术股份有限公司 知识图谱表示学习方法及系统
CN112733874A (zh) * 2020-10-23 2021-04-30 招商局重庆交通科研设计院有限公司 基于知识图谱推理的可疑车辆判别方法
CN112463979A (zh) * 2020-11-23 2021-03-09 东南大学 一种基于不确定性本体的知识表示方法
CN112395428B (zh) * 2020-12-01 2022-09-06 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112395428A (zh) * 2020-12-01 2021-02-23 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112699247B (zh) * 2020-12-23 2023-10-17 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习方法
CN112836511A (zh) * 2021-01-27 2021-05-25 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
CN112836511B (zh) * 2021-01-27 2024-01-30 北京计算机技术及应用研究所 基于协同关系的知识图谱上下文嵌入方法
CN112818678A (zh) * 2021-02-24 2021-05-18 上海交通大学 基于依赖关系图的关系推理方法及系统
CN112818678B (zh) * 2021-02-24 2022-10-28 上海交通大学 基于依赖关系图的关系推理方法及系统
CN113360664B (zh) * 2021-05-31 2022-03-25 电子科技大学 一种知识图谱补全方法
CN113360664A (zh) * 2021-05-31 2021-09-07 电子科技大学 一种知识图谱补全方法
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统
CN113254669B (zh) * 2021-06-15 2021-10-19 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN113254669A (zh) * 2021-06-15 2021-08-13 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN113836321B (zh) * 2021-11-30 2022-05-10 北京富通东方科技有限公司 一种医学知识表示的生成方法和装置
CN113836321A (zh) * 2021-11-30 2021-12-24 北京富通东方科技有限公司 一种医学知识表示的生成方法和装置
CN114493516A (zh) * 2022-01-18 2022-05-13 安徽大学 一种基于异质图对比学习的云erp下知识补全方法及系统
CN114741460A (zh) * 2022-06-10 2022-07-12 山东大学 基于规则间关联的知识图谱数据扩展方法及系统
CN114741460B (zh) * 2022-06-10 2022-09-30 山东大学 基于规则间关联的知识图谱数据扩展方法及系统
CN115797737A (zh) * 2022-06-28 2023-03-14 合肥工业大学 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法
CN115797737B (zh) * 2022-06-28 2023-11-28 合肥工业大学 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法
CN117851615A (zh) * 2024-03-06 2024-04-09 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法
CN117851615B (zh) * 2024-03-06 2024-05-03 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法

Similar Documents

Publication Publication Date Title
CN111026875A (zh) 一种基于实体描述和关系路径的知识图谱补全方法
US20220318641A1 (en) General form of the tree alternating optimization (tao) for learning decision trees
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
Chen Deep learning with nonparametric clustering
Wang et al. Tensor train neighborhood preserving embedding
US20220319233A1 (en) Expression recognition method and apparatus, electronic device, and storage medium
Zhang et al. PS-Tree: A piecewise symbolic regression tree
CN112597285B (zh) 一种基于知识图谱的人机交互方法及系统
Friedman et al. Symbolic querying of vector spaces: Probabilistic databases meets relational embeddings
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
Geng et al. A survey on dataset distillation: Approaches, applications and future directions
Lin et al. A deep clustering algorithm based on gaussian mixture model
Ke et al. A multivariate grey incidence model for different scale data based on spatial pyramid pooling
CN113204640A (zh) 一种基于注意力机制的文本分类方法
Balafar et al. Active learning for constrained document clustering with uncertainty region
CN112132096A (zh) 动态更新输出权值的随机配置网络的行为模态识别方法
Amirizadeh et al. CDEC: a constrained deep embedded clustering
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法
Zhang et al. Manifold adversarial learning
Emerson et al. Variational inference for logical inference
Sahunthala et al. An effective classification technique for XML documents using hyper parameter optimized classifiers
Guo et al. An enhanced self-adaptive differential evolution based on simulated annealing for rule extraction and its application in recognizing oil reservoir

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination