CN108763376A - 融合关系路径、类型、实体描述信息的知识表示学习方法 - Google Patents

融合关系路径、类型、实体描述信息的知识表示学习方法 Download PDF

Info

Publication number
CN108763376A
CN108763376A CN201810479239.XA CN201810479239A CN108763376A CN 108763376 A CN108763376 A CN 108763376A CN 201810479239 A CN201810479239 A CN 201810479239A CN 108763376 A CN108763376 A CN 108763376A
Authority
CN
China
Prior art keywords
entity
vector
information
relation
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810479239.XA
Other languages
English (en)
Other versions
CN108763376B (zh
Inventor
陈岭
崔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810479239.XA priority Critical patent/CN108763376B/zh
Publication of CN108763376A publication Critical patent/CN108763376A/zh
Application granted granted Critical
Publication of CN108763376B publication Critical patent/CN108763376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种融合关系路径、类型、实体描述信息的知识表示学习方法,包括:(1)对知识库进行预处理,提取出结构化信息、关系路径信息、类型信息和实体描述信息;(2)从知识库选取一个正样本并构造负样本,计算正负样本对应结构化信息、关系路径信息、类型信息和实体描述信息的损失;(3)根据损失更新模型的参数和实习向量和关系向量;(4)重复步骤(1)~(3),直到迭代次数达到预先设定的最大迭代次数,并输出实体和关系的向量,实现对知识表达的学习。该方法在利用关系路径的基础上,融合了多源信息对知识库进行建模,解决了传统知识表示学习方法中只利用结构化信息,没有利用多种额外信息的问题。

Description

融合关系路径、类型、实体描述信息的知识表示学习方法
技术领域
本发明涉及知识表示学习领域,尤其涉及一种多源信息融合的知识表示学习方法。
背景技术
随着Web3.0时代的到来,包含大量结构化知识的知识库成为了许多语义应用(如智能问答和搜索服务)的重要组成部分,越来越多的企业和组织致力于构造大型知识库。知识库中的结构化知识以三元组(头实体、关系、尾实体)的形式表示。虽然现有的知识库已经包含了大量的三元组,但由于信息是海量且不断变化的,知识库中仍然有缺失的实体和关系。如何对知识库中实体间缺失的关系进行补全是知识库构造中的关键问题。
知识库补全任务需要对知识库中的实体和关系进行建模。符号表示是一类知识库建模方法,该类方法利用基于图的方法对知识库进行建模,然而随着知识库信息的增加,这种方法的效率较低且有数据稀疏问题。知识表示也是一类知识库建模方法,该类方法将实体和关系映射到低维稠密向量空间,通过向量运算的方式对知识库进行建模,很好地克服了符号表示的弊端。
基于翻译的模型是一种典型的知识表示方法,该类模型将关系视为实体间的翻译操作,即关系向量可以表示为尾实体向量和头实体向量的差。当实体间的关系缺失时,可以通过实体向量的差计算出关系向量,并找出这一关系向量对应的关系来实现关系的补全。这种模型在知识库补全实验中具有极高的准确率。但是现有的基于翻译的模型大多只利用知识库中的结构化信息,忽略了知识库中的关系路径信息、类型信息以及实体描述信息等额外信息。一部分利用了额外信息的模型也存在着一些问题。例如利用关系路径信息时,对关系路径的区分度较差,模糊了关系路径的语义;利用类型信息时,只考虑了实体和关系的类型,而没有考虑关系路径的类型;在现有的模型中,至多只利用了一种额外信息,没有利用多源信息,造成信息的浪费。
发明内容
本发明的目的是提供一种融合关系路径、类型、实体描述信息的知识表示学习方法,该知识表示学习方法综合考虑了知识的结构化信息、关系路径信息、类型信息以及实体描述信息,提高了知识表示的准确性,进而能够快速准确建立知识库。
为实现上述发明目的,本发明提供以下技术方案:
融合关系路径、类型、实体描述信息的知识表示学习方法,包括以下步骤:
(1)对输入的知识库中的知识语句进行结构化信息、关系路径信息、类型信息以及实体描述信息的提取;
(2)构建知识库中的每个正样本对应的三个负样本;
(3)根据翻译模型的能量函数构造结构化信息的损失函数后,利用所述结构化信息的损失函数计算正负样本的结构化信息损失,并更新正负样本的实体向量和关系向量;
(4)根据正负样本的关系类型选择相应的循环神经网络,利用所述循环神经网络计算正负样本中实体对间的若干关系路径向量后,根据正负样本和所述关系路径向量计算正负样本的关系路径信息损失,并更新正负样本的实体向量、关系向量以及所述循环神经网络参数;
(5)通过关系的类型信息将正负样本中的实体映射到关系空间,得到实体在这一关系下的向量表示后,利用样本中实体对间若干关系路径的类型信息将实体映射到关系路径空间,得到实体在这些关系路径下的向量表示,利用正负样本中映射后的实体向量、关系向量以及关系路径向量计算正负样本的类型信息损失,并更新正负样本的实体向量、关系向量以及映射矩阵;
(6)通过卷积神经网络计算正负样本的实体描述向量,利用正负样本和实体描述向量计算实体描述信息损失,更新正负样本的实体向量、关系向量以及所述卷积神经网络参数;
(7)重复步骤(2)~(6),直到迭代次数达到预先设定的最大迭代次数,实现对知识表达的学习。
步骤(3)中:根据公式(1)计算结构化信息损失:
L1=∑(h,r,t)∈T(h′,r′,t′)∈T-[r+Estru(h,r,t)-Estru(h′,r′,t′)]+ (1)
其中,Estru(·)表示样本的能量,利用Estru=||h+r-t||求得,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界;
根据结构化信息损失,采用梯度下降传递算法更新正负样本的实体向量和关系向量。
步骤(4)中:利用公式(2)计算关系路径信息损失:
L2=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Epath(h,r,t)-Epath(h′,r′,t′)]+ (2)
其中,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界,Epath(·)表示基于关系路径信息的能量,利用公式(3)计算得到:
其中,Rel(h,p,t)是关系路径p的可信度,由PCRA算法得到,Pco(p,r)是关系路径p和关系r共现的概率,即在数据集中关系路径p对应的关系类型是r的概率,
Ep(p,r)由公式(4)计算得到:
Ep(h,p,t)=||h+p-t||=||p-r||=Ep(p,r) (4)
根据关系路径信息损失,采用梯度下降传递算法更新正负样本的实体向量、关系向量以及所述循环神经网络参数。
步骤(5)中:利用公式(5)计算类型信息损失:
L3=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Etype(h,r,t)-Etype(h′,r′,t′)]+ (5)
其中,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界,Etype(·)表示基于类型信息的能量,利用公式(6)~(8)计算得到:
Etype=Etr(h,r,t)+Etp(h,p,t) (6)
Etr(h,r,t)=||Mr,hh+r-Mr,tt|| (7)
Etp(h,p,t)=||Mp,hh+p-Mp,tt|| (8)
其中,Etr(h,r,t)为基于关系的类型信息的能量,Etp(h,p,t)关系路径的类型信息的能量,Mr,h,Mr,t分别为根据关系的类型信息得到的头实体,尾实体映射矩阵,Mp,h,Mp,t分别为根据关系路径的类型信息得到的头实体、尾实体映射矩阵;
根据类型信息损失,采用梯度下降传递算法更新正负样本的实体向量、关系向量以及映射矩阵。
步骤(6)中:利用公式(9)计算实体描述信息损失:
L4=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Edes(h,r,t)-Edes(h′,r′,t′)]+ (9)
其中,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界,Edes(·)表示基于实体描述信息的能量,利用公式(10)计算得到:
Edes=||hd+r-ts||+||hs+r-td||+||hd+r-ts|| (10)
其中,hs,ts是头实体和尾实体基于结构化信息的向量表示,hd,td是头实体和尾实体基于描述的向量表示;
根据实体描述信息损失,采用梯度下降传递算法更新正负样本的实体向量、关系向量以及所述卷积神经网络参数。
本发明协同学习知识库中的结构化信息、关系路径信息、类型信息和实体描述信息。在此基础上利用多个循环神经网络学习关系路径的向量表示,并引入了关系路径的类型信息,解决了传统知识表示学习方法中只利用结构化信息,没有利用多种额外信息的问题。与现有方法相比,其优点在于:
1)在知识库中结构化信息的基础上融合了关系路径信息、类型信息和实体描述信息。其中,关系路径信息使每一个关系的语义更加清晰;类型信息使每个实体在不同的关系下能够有不同的含义;实体描述信息更深刻地刻画了每个实体的语义。
2)使用多个循环神经网络结构来学习关系路径的向量,显著提高了关系路径的区分度;引入关系路径的类型信息,使得实体能够在不同情景下拥有更准确的语义。
附图说明
图1是本发明提供的知识表示学习方法的整体流程图;
图2是本发明提供的知识表示学习方法中数据预处理过程的流程图;
图3是本发明提供的知识表示学习方法中知识表示学习过程的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本实施例提出了一种、融合关系路径、类型、实体描述信息的知识表示学习方法,是一种多源信息融合的知识表示学习方法,其整体流程图如图1所示,分为数据预处理和知识表示学习两个部分。其中,数据预处理部分提取知识库中的结构化信息、关系路径信息、类型信息和实体描述信息,对模型的参数进行初始化。知识表示学习部分从知识库中选取一个正样本,并构造负样本;通过翻译模型利用结构化信息、通过循环神经网络利用关系路径信息、通过映射矩阵的方式利用类型信息以及通过卷积神经网络利用实体描述信息计算上述结构化信息、关系路径信息、类型信息和实体描述信息的损失,根据损失更新模型参数。重复上述步骤,直到迭代次数已经达到预先设定的最大迭代次数。
与现有方法相比,本发明构建了多个循环神经网络解决关系路径区分度较差的问题;利用类型信息将实体映射到关系空间,使得实体在不同的关系下有不同的向量表示,并创新性地引入了关系路径的类型信息;利用卷积神经网络学习实体基于描述的向量表示。
现对数据预处理阶段和知识表示学习的具体实现过程进行详细描述。
数据预处理阶段:
数据预处理的流程如图2所示,其具体步骤如下:
步骤1-1:输入知识库KB,提取结构化信息。
知识库KB中的知识以三元组(h,r,t)的形式表示,其中h表示头实体,r代表关系,t代表尾实体。h和t属于实体集合E,r属于关系集合R,(h,r,t)反映了两个实体h,t之间存在关系r。这些三元组就是知识库中的结构化信息。删除KB中的一些冗余关系,得到预处理后的结构化信息。
步骤1-2:从KB中提取关系路径信息。
假设有n个三元组(h,r1,e1),(e1,r2,e2),...,(en-1,rn,t),其中前一个三元组的尾实体与后一个三元组的头实体相同,那么p=(r1,r2,...,rn)就是一个关系路径,其长度为n。
采用的是遍历的方式从KB中提取抽取所有符合定义的关系路径,关系路径的数量随着关系路径长度的增加而指数级增长,因此,在提取关系路径信息时,删选掉长度大于3的关系路径,剔除可信度小于0.01的关系路径。
步骤1-3:从KB中提取类型信息。
知识库中的实体、关系的类型信息以层次化结构s={s(1),...,s(n))的形式表示,其中s(i)表示第i个子类型。随着序号的减小,子类型越来越精准。由于在模型中只使用在实体类型和关系类型中都出现的类型信息,因此,在提取类型信息时,仅提取在实体类型和关系类型中都出现的类型信息。
步骤1-4:从KB中提取实体描述信息。
一些知识库中存在实体描述信息,以一段文本对实体进行描述。提取这些实体描述信息。
具体地,在提取实体描述信息时,采用word2vec学习实体描述中出现的单词的词向量。word2vec是google提出的词向量计算框架。本实施例使用卷积神经网络学习实体描述,需要将实体描述中的词语转换成向量输入到卷积神经网络中,因此,通过word2vec学习除“the”、“a”和“an”等停用词之外的所有实体描述中出现过的词语的词向量。
知识表示学习阶段:
知识表示学习的流程如图3所示,具体包括以下步骤:
步骤2-1:输入预处理后的结构化信息、关系路径信息、类型信息和实体描述信息,并初始化实体、关系向量和其他参数。
具体地,输入预处理后的结构化信息、关系路径信息、类型信息和实体描述信息,随机初始化实体和关系的向量、学习关系路径信息的循环神经网络的相关参数、学习类型信息的映射矩阵参数、学习实体描述信息的卷积神经网络相关参数。
步骤2-2:构建知识库中的每个正样本对应的三个负样本。
随机选择KB中的一个三元组c为正样本,用KB中其他实体或关系替换c中的头实体、关系和尾实体得到三个负样本ch′、cr′、ct′。
具体地,对于由三元组c=(h,r,t)构成的正样本,利用知识库中另一实体h′∈E代替头实体h得到负样本ch′=(h′,r,t);利用知识库中另一关系r′∈R代替关系r得到负样本cr′=(h,r′,t);利用知识库中另一实体t′∈E代替尾实体t得到负样本ct′=(h,r,t′)。
步骤2-3:计算正负样本的结构化信息损失,并更新相应的实体和关系向量。
基于翻译模型的能量函数定义为:
Estru=||h+r-t|| (1)
根据这一能量函数可以构造结构化信息的损失函数L1
L1=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Estru(h,r,t)-Estru(h′,r′,t′)]+ (2)
利用L1计算正样本三元组c和负样本三元组ch′、cr′、ct′的损失函数值,并根据结构化信息损失,采用梯度下降传递算法更新实体、关系向量。
步骤2-4:根据样本三元组中的关系选择相应的循环神经网络,通过循环神经网络计算正负样本中实体对间的若干关系路径的向量表示,利用正负样本和这些关系路径向量计算关系路径信息损失,更新相应的实体、关系向量和循环神经网络参数。
本模型假定,对于三元组(h,r,t),实体h和t之间的所有关系路径和关系r的语义相同。
模型为KB中的每一个关系类型都学习一个组合矩阵,形成多个循环神经网络结构。当训练实体h和t之间的关系路径p=(r1,r2,...,rn)时,将其输入到关系类型r对应的循环神经网络中,得到p的向量表示。这样具有相同语义的关系路径能够共享参数,使得关系路径的区分度显著提升。
基于关系路径信息的能量函数定义为:
其中,Rel(h,p,t)是p的可信度,由PCRA算法得到;Pco(p,r)是p和r共现的概率,即在数据集中关系路径p对应的关系类型是r的概率。Ep(p,r)由下式得到:
Ep(h,p,t)=||h+p-t||=||p-r||=Ep(p,r) (4)
PCRA算法用于计算关系路径的可信度。对于实体对h和t之间的一条关系路径p=(r1,r2,...,rn),也可以写作其中h=E0且t∈En,则某一实体x∈Ek所包含的资源定义为:
其中Dec(rk,x)表示x关于rk的前驱实体,Suc(rk,y)表示y关于rk的后继实体,Res(h)表示头实体h所包含的资源,定义为1。资源沿着关系路径传递,尾实体余下的资源就定义为关系路径p的可信度Rel(h,p,t)。
根据这一能量函数可以构造关系路径信息的损失函数L2
L2=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Epath(h,r,t)-Epath(h′,r′,t′)]+ (6)
利用损失函数L2计算正样本三元组c和负样本三元组ch′、cr′、ct′的损失函数值,采用梯度下降传递算法更新实体、关系向量和循环神经网络相关参数。
步骤2-5:通过类型信息将实体映射到关系空间,得到实体在这一关系下的向量表示;在此基础上利用样本中实体对间若干关系路径的类型信息,将实体映射到关系路径空间,得到实体在这些关系路径下的向量表示。利用正负样本中映射后的实体、关系和路径计算类型信息损失更新相应的实体、关系向量和映射矩阵。
知识库中的类型信息以层次化形式s={s(1),s(2),...,s(n)}表示,其中s (i)是子类型,i的值越小,子类型越精确。
模型为每一个子类型学习一个子类型矩阵Ms(i),并通过下式得到类型s的类型矩阵Ms
其中αi是表示子类型的权重,定义为:
关系的类型信息规定了其头实体的类型集合Sh和尾实体的类型集合St。利用Sh构建头实体映射矩阵:
同理可以得到Mr,t。利用这些映射矩阵将头实体和尾实体映射到关系空间中。基于关系的类型信息的能量函数定义为:
Etr(h,r,t)=||Mr,hh+r-Mr,tt|| (10)
在此基础上,引入关系路径的类型信息。以关系路径p=(r1,r2,...,rn)中r1的头实体类型作为p的头实体类型,rn的尾实体类型作为p的尾实体类型。基于关系路径的类型信息的能量函数为:
Etp(h,p,t)=||Mp,hh+p-Mp,tt|| (11)
其中Mp,h,Mp,t是根据关系路径的类型信息得到的头实体、尾实体映射矩阵;p是关系路径p的向量表示。
基于类型信息的能量函数定义为:
Etype=Etr(h,r,t)+Etp(h,p,t) (12)
根据Etype可以构造类型信息的损失函数L3
L3=∑(h,r,t)∈T∑(h′,r′,t′)∈T-[γ+Etype(h,r,t)-Etype(h′,r′,t′)]+ (13)
根据损失函数L3计算正样本三元组c和负样本三元组ch′、cr′、ct′的损失函数值,采用梯度下降传递算法更新实体、关系向量和映射矩阵参数。
步骤2-6:通过卷积神经网络计算正负样本中实体基于描述的向量表示,利用正负样本和这些实体描述向量计算实体描述信息损失,更新相应的实体、关系向量和卷积神经网络参数。
用来学习实体基于描述的向量表示的卷积神经网络包含两个卷积层和两个非线性及池化层。
将实体描述中每一个词的词向量连接成矩阵输入到卷积神经网络中,通过一次卷积-最大池化和一次卷积-平均池化得到基于描述的实体向量。基于实体描述的能量函数为:
Edes=||hd+r-ts||+||hs+r-td||+||hd+r-ts|| (14)
其中hs,ts是头实体和尾实体基于结构化信息的向量表示,hd,td是头实体和尾实体基于描述的向量表示。
根据这一能量函数构造实体描述信息的损失函数L4
L4=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Edes(h,r,t)-Edes(h′,r′,t′)]+ (15)
利用损失函数L4计算正样本三元组c和负样本三元组ch′、cr′、ct′的损失函数值,并采用梯度下降传递算法更新词向量、卷积神经网络相关参数。
步骤2-7:重复步骤2-2~2-6,直到迭代次数已经达到预先设定的最大迭代次数。
在另外一个实施例中,还可以通过以下方式进行:
具体地,模型的总能量函数定义为:
E=Estru+Epath+Etype+Edes (16)
模型采用的损失函数定义为:
L=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+E(h,r,t)-E(h′,r′,t′)]+ (17)
其中,T是正样本集合,T-是负样本集合,[x]+表示取0和x的较大值,γ是预先定义的边界。
根据如公式(16)所示的总能量函数和如公式(17)所示的损失函数对结构化信息、关系路径信息、类型信息和实体描述信息进行协同学习。重复步骤2-2~2-6,直到迭代次数已经达到预先设定的最大迭代次数。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,包括以下步骤:
(1)对输入的知识库中的知识语句进行结构化信息、关系路径信息、类型信息以及实体描述信息的提取;
(2)构建知识库中的每个正样本对应的三个负样本;
(3)根据翻译模型的能量函数构造结构化信息的损失函数后,利用所述结构化信息的损失函数计算正负样本的结构化信息损失,并更新正负样本的实体向量和关系向量;
(4)根据正负样本的关系类型选择相应的循环神经网络,利用所述循环神经网络计算正负样本中实体对间的若干关系路径向量后,根据正负样本和所述关系路径向量计算正负样本的关系路径信息损失,并更新正负样本的实体向量、关系向量以及所述循环神经网络参数;
(5)通过关系的类型信息将正负样本中的实体映射到关系空间,得到实体在这一关系下的向量表示后,利用样本中实体对间若干关系路径的类型信息将实体映射到关系路径空间,得到实体在这些关系路径下的向量表示,利用正负样本中映射后的实体向量、关系向量以及关系路径向量计算正负样本的类型信息损失,并更新正负样本的实体向量、关系向量以及映射矩阵;
(6)通过卷积神经网络计算正负样本的实体描述向量,利用正负样本和实体描述向量计算实体描述信息损失,更新正负样本的实体向量、关系向量以及所述卷积神经网络参数;
(7)重复步骤(2)~(6),直到迭代次数达到预先设定的最大迭代次数,实现对知识表达的学习。
2.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,在提取关系路径信息时,删选掉长度大于3的关系路径,剔除可信度小于0.01的关系路径。
3.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,在提取类型信息时,仅提取在实体类型和关系类型中都出现的类型信息。
4.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,在提取实体描述信息时,采用word2vec学习实体描述中出现的单词的词向量。
5.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,所述构建知识库中的每个正样本对应的三个负样本的方法为:
对于由三元组c=(h,r,t)构成的正样本,利用知识库中另一实体h′∈E代替头实体h得到负样本ch′=(h′,r,t);利用知识库中另一关系r′∈R代替关系r得到负样本cr′=(h,r′,t);利用知识库中另一实体t′∈E代替尾实体t得到负样本ct′=(h,r,t′)。
6.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,步骤(3)中:
根据公式(1)计算结构化信息损失:
L1=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Estru(h,r,t)-Estru(h′,r′,t′)]+ (1)
其中,Estru(·)表示样本的能量,利用Estru=||h+r-t||求得,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界;
根据结构化信息损失,采用梯度下降传递算法更新正负样本的实体向量和关系向量。
7.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,步骤(4)中:
利用公式(2)计算关系路径信息损失:
L2=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Epath(h,r,t)-Epath(h′,r′,t′)]+ (2)
其中,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界,Epath(·)表示基于关系路径信息的能量,利用公式(3)计算得到:
其中,Rel(h,p,t)是关系路径p的可信度,由PCRA算法得到,Pco(p,r)是关系路径p和关系r共现的概率,即在数据集中关系路径p对应的关系类型是r的概率,
Ep(p,r)由公式(4)计算得到:
Ep(h,p,t)=||h+p-t||=||p-r||=Ep(p,r) (4)
根据关系路径信息损失,采用梯度下降传递算法更新正负样本的实体向量、关系向量以及所述循环神经网络参数。
8.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,步骤(5)中:
利用公式(5)计算类型信息损失:
L3=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Etype(h,r,t)-Etype(h′,r′,t′)]+ (5)
其中,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界,Etype(·)表示基于类型信息的能量,利用公式(6)~(8)计算得到:
Etype=Etr(h,r,t)+Etp(h,p,t) (6)
Etr(h,r,t)=||Mr,hh+r-Mr,tt|| (7)
Etp(h,p,t)=||Mp,hh+p-Mp,tt|| (8)
其中,Etr(h,r,t)为基于关系的类型信息的能量,Etp(h,p,t)关系路径的类型信息的能量,Mr,h,Mr,t分别为根据关系的类型信息得到的头实体,尾实体映射矩阵,Mp,h,Mp,t分别为根据关系路径的类型信息得到的头实体、尾实体映射矩阵;
根据类型信息损失,采用梯度下降传递算法更新正负样本的实体向量、关系向量以及映射矩阵。
9.如权利要求1所述的融合关系路径、类型、实体描述信息的知识表示学习方法,其特征在于,步骤(6)中:
利用公式(9)计算实体描述信息损失:
L4=∑(h,r,t)∈T(h′,r′,t′)∈T-[γ+Edes(h,r,t)-Edes(h′,r′,t′)]+ (9)
其中,T是正样本集合,T-是负样本集合,[·]+表示取0和x的较大值,γ是预先定义的边界,Edes(·)表示基于实体描述信息的能量,利用公式(10)计算得到:
Edes=||hd+r-ts||+||hs+r-td||+||hd+r-ts|| (10)
其中,hs,ts是头实体和尾实体基于结构化信息的向量表示,hd,td是头实体和尾实体基于描述的向量表示;
根据实体描述信息损失,采用梯度下降传递算法更新正负样本的实体向量、关系向量以及所述卷积神经网络参数。
CN201810479239.XA 2018-05-18 2018-05-18 融合关系路径、类型、实体描述信息的知识表示学习方法 Active CN108763376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810479239.XA CN108763376B (zh) 2018-05-18 2018-05-18 融合关系路径、类型、实体描述信息的知识表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810479239.XA CN108763376B (zh) 2018-05-18 2018-05-18 融合关系路径、类型、实体描述信息的知识表示学习方法

Publications (2)

Publication Number Publication Date
CN108763376A true CN108763376A (zh) 2018-11-06
CN108763376B CN108763376B (zh) 2020-09-29

Family

ID=64007357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810479239.XA Active CN108763376B (zh) 2018-05-18 2018-05-18 融合关系路径、类型、实体描述信息的知识表示学习方法

Country Status (1)

Country Link
CN (1) CN108763376B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069638A (zh) * 2019-03-12 2019-07-30 北京航空航天大学 一种结合规则和路径的知识图谱组合表示学习方法
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110413704A (zh) * 2019-06-27 2019-11-05 浙江大学 基于加权邻居信息编码的实体对齐方法
CN110888942A (zh) * 2019-11-05 2020-03-17 天津大学 一种基于线性规划的本体包含公理学习方法
CN110955764A (zh) * 2019-11-19 2020-04-03 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111444395A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444394A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN111950279A (zh) * 2019-05-17 2020-11-17 百度在线网络技术(北京)有限公司 实体关系的处理方法、装置、设备及计算机可读存储介质
CN112818678A (zh) * 2021-02-24 2021-05-18 上海交通大学 基于依赖关系图的关系推理方法及系统
CN113780564A (zh) * 2021-09-15 2021-12-10 西北工业大学 融合实体类型信息的知识图谱推理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
US20160283491A1 (en) * 2015-03-25 2016-09-29 Google Inc. Information Extraction from Question And Answer Websites
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283491A1 (en) * 2015-03-25 2016-09-29 Google Inc. Information Extraction from Question And Answer Websites
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BENGIO Y,ET AL.: "《 Representation learning: A review and new perspectives》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
刘权: "《基于神经网络的自然语言语义表达及推理方法研究》", 《万方知识数据库》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444394B (zh) * 2019-01-16 2023-05-23 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444395B (zh) * 2019-01-16 2023-05-16 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444395A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN111444394A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 获取实体间关系表达的方法、系统和设备、广告召回系统
CN110069638A (zh) * 2019-03-12 2019-07-30 北京航空航天大学 一种结合规则和路径的知识图谱组合表示学习方法
CN111950279A (zh) * 2019-05-17 2020-11-17 百度在线网络技术(北京)有限公司 实体关系的处理方法、装置、设备及计算机可读存储介质
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110413704B (zh) * 2019-06-27 2022-05-03 浙江大学 基于加权邻居信息编码的实体对齐方法
CN110413704A (zh) * 2019-06-27 2019-11-05 浙江大学 基于加权邻居信息编码的实体对齐方法
CN110888942A (zh) * 2019-11-05 2020-03-17 天津大学 一种基于线性规划的本体包含公理学习方法
CN110955764B (zh) * 2019-11-19 2021-04-06 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN110955764A (zh) * 2019-11-19 2020-04-03 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN111538848B (zh) * 2020-04-29 2023-09-01 华中科技大学 一种融合多源信息的知识表示学习方法
CN112818678A (zh) * 2021-02-24 2021-05-18 上海交通大学 基于依赖关系图的关系推理方法及系统
CN113780564A (zh) * 2021-09-15 2021-12-10 西北工业大学 融合实体类型信息的知识图谱推理方法、装置、设备及存储介质
CN113780564B (zh) * 2021-09-15 2024-01-12 西北工业大学 融合实体类型信息的知识图谱推理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108763376B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN108763376A (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN112364880B (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
CN111489358A (zh) 一种基于深度学习的三维点云语义分割方法
CN107391512B (zh) 知识图谱预测的方法和装置
CN111159426A (zh) 一种基于图卷积神经网络的产业图谱融合方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN105184368B (zh) 一种分布式极限学习机优化集成框架方法系统及方法
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN108710906A (zh) 基于轻量级网络LightPointNet的实时点云模型分类方法
CN109063719A (zh) 一种联合结构相似性和类信息的图像分类方法
CN109783887A (zh) 一种面向三维加工特征的智能识别与检索方法
CN109933674A (zh) 一种基于属性聚合的知识图谱嵌入方法及其存储介质
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN113962358A (zh) 一种基于时序超图注意力神经网络的信息扩散预测方法
CN114780748A (zh) 基于先验权重增强的知识图谱的补全方法
CN106355210B (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
Zhao et al. Synchronously improving multi-user English translation ability by using AI
CN110289987B (zh) 基于表征学习的多智能体系统网络抗攻击能力评估方法
CN115114409A (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN114419372A (zh) 一种多尺度点云分类方法及系统
CN115358477B (zh) 一种作战想定随机生成系统及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant