CN111538848A - 一种融合多源信息的知识表示学习方法 - Google Patents
一种融合多源信息的知识表示学习方法 Download PDFInfo
- Publication number
- CN111538848A CN111538848A CN202010354486.4A CN202010354486A CN111538848A CN 111538848 A CN111538848 A CN 111538848A CN 202010354486 A CN202010354486 A CN 202010354486A CN 111538848 A CN111538848 A CN 111538848A
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- vector
- encoder
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合多源信息的知识表示学习方法,属于自然语言处理技术领域。包括:通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合,得到多源信息的初步融合结果;将多源信息的初步融合向量输入到解码器模型中进一步训练,得到最终的实体向量和关系向量。本发明提出的编码器‑解码器模型,一方面通过自定义的编码器将实体层次类型信息、实体文本描述信息、图结构信息和原始三元组结合,能更充分地表现出知识图谱中实体和关系的特征;另一方面使用ConvKB模型作为解码器,将编码器生成的结果向量输入卷积神经网络中进行语义匹配,捕获了三元组不同维度间的全局信息。
Description
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种融合多源信息的知识表示学习方法。
背景技术
知识图谱是存储实体、语义类型、属性以及实体间关系的大规模网络。近年来,人们花费大量时间建立了很多各个领域的知识图谱,如WordNet、Freebase、DBpedia、YAGO、NELL和维基数据等。知识图谱是将人类现有知识组建成有结构的系统的工具,它为我们提供了一个新的视角来描述现实世界。如今,知识图谱在人工智能和智能信息服务的许多任务中都扮演着重要的角色,例如单词相似度计算,词义歧义消除,实体歧义消除,语义解析,主题索引,文档摘要,信息提取和智能问答等。同时,知识图谱也被广泛应用于与语义Web技术、链接数据、大规模数据分析和云计算密切相关的商业和研究中。
知识图谱存储了现实世界中具体实体和抽象概念的结构化关系三元组。这种结构化的三元组既可以自动从海量文本和结构化互联网数据中抽取,也可以被专家们人工标注。为了存储这些知识,知识图谱中主要包含两个元素,即表示具体和抽象概念的实体(Entity),以及表示实体之间相互联系的关系(Relation)。为了在知识图谱中记录关系三元组,人们提出过许多方案,如W3C发布的RDF(资源描述框架),通常将这些实体和关系表示为离散符号。然而,在实际应用中使用知识图谱仍然面临着两个主要挑战:(1)计算效率低下:采用图结构来表示知识虽然简洁直观且符合人们的经验,但是当进行检索和多步推理任务时,一般都要利用专门的图论算法。而图论算法的时间和空间复杂度都较大,很难应用到大规模知识图谱上。(2)数据稀疏性:在大型知识库中,很多时候罕见的实体只与很少的关系相关,这就导致了长尾分布问题。在知识图谱上对这些实体和关系的运算经常难以得到期望的结果。
传统的知识构造和应用方法通常用独热表示(One-Hot Representation)来存储关系三元组。独热表示是经典词袋模型(COBW)的基础,它将每个实体或关系映射到索引,简单高效,而且无需任何学习过程。但是,它假设所有实体和关系之间都是独立的,由此得到的实体和关系向量都相互正交,因此无法嵌入任何与实体和关系相关的语义信息,人们从中无法获取任何有效的语义和推断信息。另一方面,这些工作还依赖于从外部信息源或知识图谱网络结构中提取特征。在信息爆炸的时代,知识图谱中每天都会增加很多新的知识,而独热表示通常会受到计算效率低下和可扩展性不足的影响。
随着深度学习的发展,分布式表示式学习在计算机视觉和自然语言处理方面已经显示出了自己的能力。近年来,人们也探索了知识图谱的分布式表示学习,发现了其在关系提取、知识推理和其他知识驱动应用中代表知识的强大能力。知识表示学习(KRL)通常学习实体和关系的分布式表示,并将它们投影到低维语义空间中。知识表示学习通常希望编码实体的语义意义及其相应的低维向量的关系。与传统表示形式相比,知识表示学习在知识图谱中的实体和关系具有许多密集的表示形式,从而降低了其应用中的计算复杂性。此外,知识表示学习可以通过测量实体和关系的低维嵌入的相似性来显式捕获实体和关系之间的相似性。凭借上述优势,知识表示学习在知识图谱中的应用正在蓬勃发展。
现有的对知识表示学习的研究大致集中在两个方面:一种是通过神经网络进行更加复杂的变换,从而找出实体和关系之间的内在联系,然后利用基于相似度的评分函数,通过匹配实体和关系的潜在语义在向量空间中的表示来度量三元组的合理性。另一种是融合多源异质信息,从而改善知识图谱数据稀疏的问题。这种方式通常是将附加信息编码后融合到传统的TransE模型(Translating Embedding,翻译模型)中,以此来改善TransE模型在处理一对多、多对一和多对多问题时所面临的问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种融合多源信息的知识表示学习方法,其目的在于更充分地表现出知识图谱中实体和关系的特征,从而获得更加高效的实体和关系的嵌入表示。
为实现上述目的,按照本发明的一个方面,提供了一种融合多源信息的知识表示学习方法,该方法包括以下步骤:
S1.通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合,得到多源信息的初步融合结果;
S2.将多源信息的初步融合向量输入到解码器模型中进一步训练,得到最终的实体向量和关系向量;
所述编码器模型包括:第一分支、第二分支和门单元;第一分支依次包括:第一加权层次编码器和第一图注意力网络,其中,所述第一加权层次编码器用于将三元组中的实体向量进行层次类型投影,得到投影后的实体向量;所述第一图注意力网络用于捕获投影后的实体向量的邻节点特征,找出每个实体与它的邻节点之间的相互影响,得到经过变换后的三元组实体向量;第二分支依次包括:卷积神经网络、第二加权层次编码器和第二图注意力网络,其中,所述卷积神经网络用于将实体的文本描述信息编码成实体的文本描述向量;所述加权层次编码器用于将实体的文本描述向量进行层次类型投影,得到投影后的实体的文本描述向量;所述第二图注意力网络用于捕获投影后的实体的文本描述向量的邻节点特征,得到经过变换后的实体文本描述向量;门单元用于对第一分支的结果和第二分支的结果进行组合,得到多源信息的初步融合向量。
优选地,步骤S1之前,对实体的层次类型数据和实体的文本描述数据进行预处理,所述预处理包括:
(1.1)进行数据清洗,过滤掉实体的文本描述中的停用词,并去除三元组中没有层次类型的关系以及实体中没有文本描述或文本中单词过少的部分,再将剩下的实体、关系、单词以及所有层次类型都编码成数字id;
(1.2)寻找图结构中所有的2跳辅助关系和对应的实体,将得到辅助三元组作为原始三元组的补充。
优选地,在训练编码器模型之前,将三元组中的实体、三元组中的关系和文本中的单词分别初始化为实体向量、关系向量和单词向量,实体对应的不同层次类型信息随机初始化为矩阵。
优选地,使用加权层次编码器将域矩阵和类型矩阵组合为实体的层次类型投影矩阵:
Mr=αMt+(1-α)Md
其中,α为类型信息所占的权重,Md为实体的域矩阵,Mt为实体的类型矩阵。
优选地,分别将头实体和尾实体投影到各自所的特定关系空间中,经过变换后,实体向量可表示为:
h′s=Mrhhs,t′s=Mrtts
h′d=Mrhhd,t′d=Mrttd
其中,Mrh和Mrt都是Mr的一部分,分别表示特定关系下头实体和尾实体的层次类型投影矩阵。
优选地,图注意力网络包含两个图注意力层:第一个图注意力层中采用了2个注意力机制,分别单独计算头实体不同邻接点的相对影响,产生2个嵌入结果;将这两个结果拼接到一起后输入到第二个图注意力层中,重复注意力机制的计算过程,从而得到卷积层的实体嵌入。
优选地,将卷积层嵌入结果与卷积前上一次的嵌入结果线性组合,生成三元组实体的最终向量表示h″s和t″t。
优选地,训练编码器模型时,采用最大间隔法,损失函数如下:
其中,γ>0为指定的间隔参数,fe(h,r,t)为编码器模型对三元组(h,r,t)评分,T`为T中三元组对应的负样本,表示为:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}
其中,E为实体集合。
优选地,使用了KBGAN模型,进一步利用生成对抗网络生成负样本来训练,具体包括以下步骤:
(1)使用三元组数据训练ComplEx模型至收敛,将生成的实体和关系的嵌入保存;
(2)对于每个三元组,利用生成器选择出最佳的负样本,所述生成器中包含训练好的ComplEx模型,然后和正样本一起输入判别器中,所述判别器中包含经过初步训练的编码器模型;
假设在给定正样本(h,r,t)的条件下,生成器生成的负三元组(h′,r,t′)的函数分布定义为:
其中,Neg(h,r,t)为三元组(h,r,t)对应的所有负样本集合;
判别器的目标可以看成最小化损失函数Le,生成器的目标定义为最大化负样本评分的期望值:
(3)判别器利用负样本训练编码器模型,并将负样本的评分反馈给生成器,通过梯度的反向传播更新生成器的参数;
(4)不断重复步骤(2)~(3)直至编码器模型收敛,得到编码器中关系向量r′和两种实体向量h″s和t″t,h″d和t″d。
优选地,使用ConvKB模型作为解码器,训练ConvKB模型时,使用软间隔损失函数作为损失函数,表示为:
fd(h,r,t)=concat(σ([h;r′;t]*Ω))·w
其中,fd(h,r,t)为ConvKB模型对三元组(h,r,t)评分,Ω为卷积核参数,w为全连接层权重参数,*为卷积操作,σ为非线性激活函数,concat为连接操作,λ为L2正则化参数。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明提出一种编码器-解码器模型,一方面通过自定义的编码器将实体层次类型信息、实体文本描述信息、图结构信息和原始三元组结合,将它们与原始的三元组融合到一起,能更充分地表现出知识图谱中实体和关系的特征;另一方面使用ConvKB模型作为解码器,将编码器生成的结果向量输入卷积神经网络中进行语义匹配,捕获了三元组不同维度间的全局信息。
(2)针对传统方法嵌入图结构时通常采用随机游走或图卷积网络,但它们一般适用于无向图,而且所有邻节点的重要性相同的问题,本发明利用图的注意力机制来区分实体不同邻节点的重要性,进而计算它们对此节点的不同影响,这更符合知识图谱的特性。同时,为了更充分利用图的拓扑结构,计算了2跳辅助关系,进而推断两个实体的联系,这能够有效改善数据稀疏的问题,是对原始三元组信息的有力扩充。
(3)针对传统通过随机方式生成的负样本很多时候太容易区分,损失值很小或直接变为0,因而对模型的训练没有帮助。本发明在模型中引入了KBGAN模型,利用生成对抗网络来生成高质量的负样本,不仅能够提高模型训练效率,加快收敛速度,还能最大限度挖掘模型的潜力。
附图说明
图1为本发明提供的实体的文本描述示意图;
图2为本发明提供的实体的层次类型示意图;
图3为本发明提供的模型的整体架构图;
图4为本发明提供的实体描述信息编码图;
图5为本发明提供的图注意力机制模型图;
图6为本发明提供的ConvKB解码器模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
首先,对本发明涉及的术语进行解释。
三元组,知识图谱中的实体指的是具有具体或抽象含义的单词,关系指的是不同实体间的联系,它们通常以三元组(头实体h,头实体与尾实体之间的关系r,尾实体t)的形式存储。
实体的文本描述,是指对实体中包含的语义更为细致的文字说明,它们可以看成是以文字的方式来对这个实体进行简洁而全面介绍。如图1所示,维基百科中对三元组(Jane Austen,is the author of,Pride and Prejudice)中头尾实体的文本描述。对于Jane Austen和Pride and Prejudice的描述中,都有单词直接包含或间接暗示了三元组中要表示的内容。实体的文本描述信息是对实体相关内容更为详细的说明,里面包含了很多关键的知识,是对三元组结构的重要补充。
实体的层次类型,是指知识图谱中实体的不同粒度层次结构。如图2所示,知识图谱Freebase中三元组(Jane Austen,is the author of,Pride and Prejudice)头尾实体对应的层次类型信息。显然,在这种关系中,头实体Jane Austen最重要的层次类型是book/author,尾实体Pride and Preiudice最要的层次类型是book/written_work。实体的层次类型信息可以帮助人们自动将不同实体联系到一起,并通过实体所属的类型信息约束实体中的语义特征。
图拓扑结构信息,每个头实体通过不同的关系与多个尾实体相连,尾实体又可以作为其它关系中的头实体,所有的三元组由此构成了知识图谱的拓扑结构。其描述了不同实体之间的联系,能够真实地反映不同实体在空间上的相互影响。
本发明公开了一种融合多源信息的知识表示学习方法,该方法包括以下步骤:
步骤S1.通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合,得到多源信息的初步融合结果。
本实施例以FB15K237数据集为例,从Freebase中下载FB15K237数据集中实体的层次类型数据和实体的文本描述数据,并对数据进行预处理。预处理主要包含以下两个方面:
(1.1)进行数据清洗,过滤掉实体的文本描述中的停用词(如“and”、“but”、“can”等),并去除三元组中没有层次类型的关系以及实体中没有文本描述或文本中单词过少(如少于3个)的部分,再将剩下的实体、关系、单词以及所有层次类型都编码成数字id。
本实施例中,清洗后数据集信息如下表1:
表1
(1.2)使用广度优先遍历算法寻找图结构中所有的2跳辅助关系和对应的实体,将得到辅助三元组作为原始三元组的补充。
例如,给定三元组(e1,r12,e2)和三元组(e2,r23,e3),实体e1和e3之间的2跳辅助关系可表示为:
r13=r12+r23
由此得到新的辅助三元组(e1,r13,e3),将其作为原始三元组的补充。
在训练编码器模型之前,将三元组中的实体、三元组中的关系和文本中的单词分别初始化为实体向量(hs,ts)、关系向量(r)和单词向量,实体对应的不同层次类型信息随机初始化为矩阵。
三元组中的实体和关系可以用随机向量初始化,也可以使用通过TransE模型训练好的向量。三元组中头尾实体分别表示为hs,ts,关系表示为r。文本中的单词可以用随机向量初始化,也可以使用Word2Vec模型训练好的向量。在本实施例中,实体包含域和类型两个层次,将其随机初始化为实体的域矩阵Md和类型矩阵M。
如图3所示,所述编码器模型包括:第一分支、第二分支和门单元。
第一分支依次包括:第一加权层次编码器和第一图注意力网络,其中,所述第一加权层次编码器用于将三元组中的实体向量进行层次类型投影,得到投影后的实体向量;所述第一图注意力网络用于捕获投影后的实体向量的邻节点特征,找出每个实体与它的邻节点之间的相互影响,得到经过变换后的三元组实体向量。
第二分支依次包括:卷积神经网络、第二加权层次编码器和第二图注意力网络,其中,所述卷积神经网络用于将实体的文本描述信息编码成实体的文本描述向量;所述加权层次编码器用于将实体的文本描述向量进行层次类型投影,得到投影后的实体的文本描述向量;所述第二图注意力网络用于捕获投影后的实体的文本描述向量的邻节点特征,得到经过变换后的实体文本描述向量。
门单元用于对第一分支的结果和第二分支的结果进行组合,得到多源信息的初步融合向量。
(1)将单词向量输入到卷积神经网络中提取文本特征,得到实体文本描述的向量hd和td。
将单词向量输入到1维卷积神经网络中进行训练,提取文本特征,进而得到实体文本描述的向量表示hd(头实体)和td(尾实体)。由于文本序列长短不一,因此对短序列进行补零,在短序后面添加零向量,使文本对齐。
CNN模型(卷积神经网络,Convolutional Neural Networks)如图4所示,将文本描述中的单词向量作为输入,两个卷积层的输出分别通过最大池化和平均池化合并,该模型可以为每个实体生成固定长度的表示向量,而不会丢失太多信息。
(2)对于三元组中的头实体和尾实体,使用加权层次编码器建立层次类型投影矩阵。
将域矩阵和类型矩阵组合为实体的层次类型投影矩阵:
Mr=αMt+(1-α)Md
其中,α为类型信息所占的权重,Md为实体的域矩阵,M为实体的类型矩阵。本实施例中,权重α取值0.9。层次类型投影,在特定关系对应的向量空间中约束实体的语义信息,过滤掉其他不相干描述和语义的噪声干扰。
(3)将三元组中的头实体和尾实体以及2跳关系对应的实体向量分别与层次类型投影矩阵相乘,从而将实体投影到关系对应的空间中,使用层次类型信息约束了实体的语义。
分别将头实体和尾实体投影到各自所的特定关系空间中。对于同一种关系中的两种实体信息,我们使用同样的矩阵进行计算。经过变换后,实体向量可表示为:
h′s=Mrhhs,t′s=Mrtts
h′d=Mrhhd,t′d=Mrttd
其中,Mrh和Mrt都是Mr的一部分,分别表示特定关系下头实体和尾实体的层次类型投影矩阵。
(4)将三元组实体和多跳关系对应的实体相组合,然后输入到图注意力网络(Graph Attention Networks,GAT)。
GAT的内部结构如图5所示,其核心是两个图注意力层:第一个图注意力层中为了使学习过程更加稳定,采用了2个注意力机制,它们会分别单独计算头实体不同邻接点的相对影响,因此会产生多2个嵌入结果。将这两个结果拼接到一起,进一步输入到第二个图注意力层中,重复注意力机制的计算过程,从而得到卷积层的实体嵌入。在第一个图注意力层中,为了保持关系向量的维度与实体向量维度一致,采用了一个线性转换矩阵Wr将原始的关系向量映射到高维空间,更新后的关系表示为r′。
r′=Wrr
(5)将卷积层嵌入结果与卷积前上一次的嵌入结果线性组合,生成三元组实体的最终向量表示h″s和t″t。
上述处理是为了避免实体丢失原始的嵌入信息。
(6)对于实体的文本描述向量,重复步骤(3)~(5),生成实体的描述向量h″d和t″d。
(7)利用门机制组合两种实体信息,头实体、尾实体分别表示为
h=gh⊙h″s+(1-gh)⊙h″d
t=gt⊙h″s+(1-gt)⊙t″d
训练编码器模型时,采用最大间隔法,损失函数如下:
其中,γ>0为指定的间隔参数,fe(h,r,t)为编码器模型对三元组(h,r,t)评分,T`为T中三元组对应的负样本,表示为:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}。
其中,E为实体集合。
上述训练过程中,负样本T中的实体是通过随机方式替换的,这样会使导致多负样本过于容易区分,无法达到最好的训练效果。优选地,在此基础上,本发明引入了KBGAN模型,进一步利用生成对抗网络生成负样本来训练,从而充分发挥模型的表示能力。
(1)使用三元组数据训练ComplEx模型至收敛,将生成的实体和关系的嵌入保存。
(2)对于每个三元组,利用生成器选择出最佳的负样本,所述生成器中包含训练好的ComplEx模型,然后和正样本一起输入判别器中,所述判别器中包含经过初步训练的编码器模型。
假设在给定正样本(h,r,t)的条件下,生成器生成的负三元组(h′,r,t′)的函数分布定义为:
其中,Neg(h,r,t)为三元组(h,r,t)对应的所有负样本集合。
判别器的目标可以看成最小化损失函数(3.7)中的Le。生成器的目标定义为最大化负样本评分的期望值:
(3)判别器利用负样本训练编码器模型,并将负样本的评分反馈给生成器,通过梯度的反向传播更新生成器的参数。
由于原始的生成对抗网络无法处理离散数据,因此在KBGAN中使用了策略梯度理论,LG的梯度可表示为:
其中,≈为使用实际采样估计期望,N为采样数。
(4)不断重复步骤(2)~(3)直至编码器模型收敛,得到编码器中关系向量(r′)和两种实体向量(h″s和t″t,h″d和t″d)。
步骤S2.将多源信息的初步融合向量输入到解码器模型中进一步训练,得到最终的实体向量和关系向量。
通过解码器模型计算三元组向量在不同维度上的全局特征,同时保留模型的翻译特性。如图6所示,本实施例使用ConvKB模型作为解码器,将编码器生成的结果向量输入卷积神经网络中进行语义匹配,捕获了三元组不同维度间的全局信息。
ConvKB模型使用软间隔损失函数(sofimarginloss)来训练,损失函数可以表示为:
fd(h,r,t)=concat(σ([h;r′;t]*Ω))·w
其中,fd(h,r,t)为ConvKB的评分函数,Ω为卷积核参数,w为全连接层权重参数,*为卷积操作,σ为非线性激活函数,concat为连接操作,λ为L2正则化参数。
实施例
参数设置
编码器模型中,使用卷积神经网络获取文本描述信息中单词的特征,,单词和三元组的输入维度选择50。第一个卷积层窗口设为2,第二个卷积层窗口设为1。两个卷积层后的非线性函数都选择tanh函数。第一个池化层采用最大池化方式,窗口大小为4,第二个池化层采用平均池化方式,窗口大小为1。层次类型信息中,每种关系类型和域矩阵维度都随机初始化为50×50,类型矩阵权重设置为0.9,域矩阵权重设为0.1。在GAT的第一层中单独使用了2个注意力机制,每个注意力机制中输出维度为100,因此组合后输出的三元组向量维度都变为200,Leaky ReLU函数斜率设置为0.2。评分函数间隔取1.0。使用Adam算法优化,学习率为10-3,权重衰减参数为10-5。
KBGAN中,首先训练ComplEx模型作为生成器。ComplEx模型随机初始化向量维度为50,使Adam算法优化,学习率为10-3,权重衰减参数设为0.01。生成器和判别器都使用Adam算法优化,学习率为10-3。
对于解码器,实体和关系的输入维度都为200,二维卷积层的输出通道数选择50。同样使用Adam算法优化,学习率取10-3,权重衰减参数取10-5。
实验结果
为了证明本发明的知识表示学习模型的效果,分别在知识图谱的的链接预测任务和三元组分类任务上进行了实验。
链接预测的目的是在三元组头实体或尾实体缺失的条件下,利用知识表示学习模型,准确预测出缺失的实体,从而找出不同实体间隐含的联系。使用三种评估指标来评价结果:(1)平均倒数排序(Mean Reciprocal Rank,MRR),表示正确三元组排名倒数的平均值。(2)平均排序(Mean Rank,MR),表示正确三元组排名的平均值。(3)Hits@N,表示前N(N=1,3,10)个预测结果中正确三元组的比例。实验结果如表2下:
表2
三元组分类是知识图谱中另一个重要的任务,目标是判断给定三元组的真实性,常用于问答系统中。比如回答“中国首都是不是北京”这样的问题,可以变成判断三元组(中国,首都,北京)是否为真。三元组分类本质上是一个传统的二分类问题,对于每种关系,我们设置一个阈值δr,当三元组的评分S(h,r,t)<δr时,三元组被判断为真,反之则为假。最终使用准确率作为三元组分类的评价指标。实验结果如表3下:
表3
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种融合多源信息的知识表示学习方法,其特征在于,该方法包括以下步骤:
S1.通过编码器模型将实体的层次类型信息、实体的文本描述信息、图拓扑结构信息和三元组结合,得到多源信息的初步融合结果;
S2.将多源信息的初步融合向量输入到解码器模型中进一步训练,得到最终的实体向量和关系向量;
所述编码器模型包括:第一分支、第二分支和门单元;第一分支依次包括:第一加权层次编码器和第一图注意力网络,其中,所述第一加权层次编码器用于将三元组中的实体向量进行层次类型投影,得到投影后的实体向量;所述第一图注意力网络用于捕获投影后的实体向量的邻节点特征,找出每个实体与它的邻节点之间的相互影响,得到经过变换后的三元组实体向量;第二分支依次包括:卷积神经网络、第二加权层次编码器和第二图注意力网络,其中,所述卷积神经网络用于将实体的文本描述信息编码成实体的文本描述向量;所述加权层次编码器用于将实体的文本描述向量进行层次类型投影,得到投影后的实体的文本描述向量;所述第二图注意力网络用于捕获投影后的实体的文本描述向量的邻节点特征,得到经过变换后的实体文本描述向量;门单元用于对第一分支的结果和第二分支的结果进行组合,得到多源信息的初步融合向量。
2.如权利要求1所述的方法,其特征在于,步骤S1之前,对实体的层次类型数据和实体的文本描述数据进行预处理,所述预处理包括:
(1.1)进行数据清洗,过滤掉实体的文本描述中的停用词,并去除三元组中没有层次类型的关系以及实体中没有文本描述或文本中单词过少的部分,再将剩下的实体、关系、单词以及所有层次类型都编码成数字id;
(1.2)寻找图结构中所有的2跳辅助关系和对应的实体,将得到辅助三元组作为原始三元组的补充。
3.如权利要求1或2所述的方法,其特征在于,在训练编码器模型之前,将三元组中的实体、三元组中的关系和文本中的单词分别初始化为实体向量、关系向量和单词向量,实体对应的不同层次类型信息随机初始化为矩阵。
4.如权利要求1至3任一项所述的方法,其特征在于,使用加权层次编码器将域矩阵和类型矩阵组合为实体的层次类型投影矩阵:
Mr=αMt+(1-α)Md
其中,α为类型信息所占的权重,Md为实体的域矩阵,Mt为实体的类型矩阵。
5.如权利要求4所述的方法,其特征在于,分别将头实体和尾实体投影到各自所的特定关系空间中,经过变换后,实体向量可表示为:
h′s=Mrhhs,t′s=Mrtts
h′d=Mrhhd,t′d=Mrttd
其中,Mrh和Mrt都是Mr的一部分,分别表示特定关系下头实体和尾实体的层次类型投影矩阵。
6.如权利要求1至5任一项所述的方法,其特征在于,图注意力网络包含两个图注意力层:第一个图注意力层中采用了2个注意力机制,分别单独计算头实体不同邻接点的相对影响,产生2个嵌入结果;将这两个结果拼接到一起后输入到第二个图注意力层中,重复注意力机制的计算过程,从而得到卷积层的实体嵌入。
7.如权利要求6所述的方法,其特征在于,将卷积层嵌入结果与卷积前上一次的嵌入结果线性组合,生成三元组实体的最终向量表示h″s和t″t。
9.如权利要求8所述的方法,其特征在于,使用了KBGAN模型,进一步利用生成对抗网络生成负样本来训练,具体包括以下步骤:
(1)使用三元组数据训练ComplEx模型至收敛,将生成的实体和关系的嵌入保存;
(2)对于每个三元组,利用生成器选择出最佳的负样本,所述生成器中包含训练好的ComplEx模型,然后和正样本一起输入判别器中,所述判别器中包含经过初步训练的编码器模型;
假设在给定正样本(h,r,t)的条件下,生成器生成的负三元组(h′,r,t′)的函数分布定义为:
其中,Neg(h,r,t)为三元组(h,r,t)对应的所有负样本集合;
判别器的目标看成最小化损失函数Le,生成器的目标定义为最大化负样本评分的期望值:
(3)判别器利用负样本训练编码器模型,并将负样本的评分反馈给生成器,通过梯度的反向传播更新生成器的参数;
(4)不断重复步骤(2)~(3)直至编码器模型收敛,得到编码器中关系向量r′和两种实体向量h″s和t″t、h″d和t″d。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010354486.4A CN111538848B (zh) | 2020-04-29 | 2020-04-29 | 一种融合多源信息的知识表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010354486.4A CN111538848B (zh) | 2020-04-29 | 2020-04-29 | 一种融合多源信息的知识表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538848A true CN111538848A (zh) | 2020-08-14 |
CN111538848B CN111538848B (zh) | 2023-09-01 |
Family
ID=71977513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010354486.4A Active CN111538848B (zh) | 2020-04-29 | 2020-04-29 | 一种融合多源信息的知识表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538848B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897975A (zh) * | 2020-08-12 | 2020-11-06 | 哈尔滨工业大学 | 一种面向知识图谱表示学习训练的局部训练方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112231461A (zh) * | 2020-10-29 | 2021-01-15 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种融合知识的对话生成方法 |
CN112487201A (zh) * | 2020-11-26 | 2021-03-12 | 西北工业大学 | 一种使用共享参数卷积神经网络的知识图谱表示方法 |
CN112633481A (zh) * | 2020-12-30 | 2021-04-09 | 广州大学华软软件学院 | 一种多跳图卷积神经网络模型及其训练方法 |
CN112988917A (zh) * | 2021-03-31 | 2021-06-18 | 东南大学 | 一种基于多种实体上下文的实体对齐方法 |
CN113077526A (zh) * | 2021-03-30 | 2021-07-06 | 太原理工大学 | 一种知识图嵌入复合邻居链路预测方法 |
CN113204647A (zh) * | 2021-04-29 | 2021-08-03 | 哈尔滨工程大学 | 一种基于联合权重的编码解码框架知识图谱嵌入方法 |
CN113407720A (zh) * | 2021-06-25 | 2021-09-17 | 南开大学 | 基于预训练文本编码模型的分类体系扩展方法 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN114021584A (zh) * | 2021-10-25 | 2022-02-08 | 大连理工大学 | 基于图卷积网络和翻译模型的知识表示学习方法 |
CN114186568A (zh) * | 2021-12-16 | 2022-03-15 | 北京邮电大学 | 一种基于关系编码和层次注意力机制的图像段落描述方法 |
CN114861665A (zh) * | 2022-04-27 | 2022-08-05 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN115391563A (zh) * | 2022-09-01 | 2022-11-25 | 广东工业大学 | 一种基于多源异构数据融合的知识图谱链路预测方法 |
CN116756250A (zh) * | 2023-06-06 | 2023-09-15 | 电子科技大学 | 故障相关数据的处理方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763376A (zh) * | 2018-05-18 | 2018-11-06 | 浙江大学 | 融合关系路径、类型、实体描述信息的知识表示学习方法 |
CN109189945A (zh) * | 2018-09-28 | 2019-01-11 | 武汉理工大学 | 一种基于可信度向量的知识图谱表示学习方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
WO2020043530A1 (en) * | 2018-08-27 | 2020-03-05 | Koninklijke Philips N.V. | Generating metadata for trained model |
-
2020
- 2020-04-29 CN CN202010354486.4A patent/CN111538848B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763376A (zh) * | 2018-05-18 | 2018-11-06 | 浙江大学 | 融合关系路径、类型、实体描述信息的知识表示学习方法 |
WO2020043530A1 (en) * | 2018-08-27 | 2020-03-05 | Koninklijke Philips N.V. | Generating metadata for trained model |
CN109189945A (zh) * | 2018-09-28 | 2019-01-11 | 武汉理工大学 | 一种基于可信度向量的知识图谱表示学习方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897975A (zh) * | 2020-08-12 | 2020-11-06 | 哈尔滨工业大学 | 一种面向知识图谱表示学习训练的局部训练方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112131395B (zh) * | 2020-08-26 | 2023-09-26 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112231461A (zh) * | 2020-10-29 | 2021-01-15 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种融合知识的对话生成方法 |
CN112487201A (zh) * | 2020-11-26 | 2021-03-12 | 西北工业大学 | 一种使用共享参数卷积神经网络的知识图谱表示方法 |
CN112487201B (zh) * | 2020-11-26 | 2022-05-10 | 西北工业大学 | 一种使用共享参数卷积神经网络的知识图谱表示方法 |
CN112633481A (zh) * | 2020-12-30 | 2021-04-09 | 广州大学华软软件学院 | 一种多跳图卷积神经网络模型及其训练方法 |
CN112633481B (zh) * | 2020-12-30 | 2023-11-28 | 广州大学华软软件学院 | 一种多跳图卷积神经网络模型系统及训练方法 |
CN113077526A (zh) * | 2021-03-30 | 2021-07-06 | 太原理工大学 | 一种知识图嵌入复合邻居链路预测方法 |
CN112988917A (zh) * | 2021-03-31 | 2021-06-18 | 东南大学 | 一种基于多种实体上下文的实体对齐方法 |
CN113204647A (zh) * | 2021-04-29 | 2021-08-03 | 哈尔滨工程大学 | 一种基于联合权重的编码解码框架知识图谱嵌入方法 |
CN113407720A (zh) * | 2021-06-25 | 2021-09-17 | 南开大学 | 基于预训练文本编码模型的分类体系扩展方法 |
CN113535984A (zh) * | 2021-08-11 | 2021-10-22 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN113535984B (zh) * | 2021-08-11 | 2023-05-26 | 华侨大学 | 一种基于注意力机制的知识图谱关系预测方法及装置 |
CN114021584A (zh) * | 2021-10-25 | 2022-02-08 | 大连理工大学 | 基于图卷积网络和翻译模型的知识表示学习方法 |
CN114021584B (zh) * | 2021-10-25 | 2024-05-10 | 大连理工大学 | 基于图卷积网络和翻译模型的知识表示学习方法 |
CN114186568A (zh) * | 2021-12-16 | 2022-03-15 | 北京邮电大学 | 一种基于关系编码和层次注意力机制的图像段落描述方法 |
CN114861665B (zh) * | 2022-04-27 | 2023-01-06 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN114861665A (zh) * | 2022-04-27 | 2022-08-05 | 北京三快在线科技有限公司 | 一种强化学习模型训练以及确定数据关系的方法及装置 |
CN115391563A (zh) * | 2022-09-01 | 2022-11-25 | 广东工业大学 | 一种基于多源异构数据融合的知识图谱链路预测方法 |
CN115391563B (zh) * | 2022-09-01 | 2024-02-06 | 广东工业大学 | 一种基于多源异构数据融合的知识图谱链路预测方法 |
CN116756250A (zh) * | 2023-06-06 | 2023-09-15 | 电子科技大学 | 故障相关数据的处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111538848B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111538848B (zh) | 一种融合多源信息的知识表示学习方法 | |
CN112200317B (zh) | 多模态知识图谱构建方法 | |
CN112131404B (zh) | 一种四险一金领域知识图谱中实体对齐方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
Li et al. | Cross-modal semantic communications | |
CN113254616B (zh) | 面向智能问答系统的句向量生成方法及系统 | |
Zhang et al. | Knowledge graph embedding for hyper-relational data | |
Yu et al. | Reluctant interaction modeling | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
Choi et al. | Knowledge graph extension with a pre-trained language model via unified learning method | |
CN115358289A (zh) | 一种融合多类型知识库和推理技术的文本生成算法 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN114579605B (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
Tian et al. | Label importance ranking with entropy variation complex networks for structured video captioning. | |
Yiming et al. | Research on the Construction of Maritime Legal Knowledge Graph | |
Abdurehim et al. | A short review of relation extraction methods | |
CN117668213B (zh) | 一种基于级联抽取和图对比模型的混沌工程摘要生成方法 | |
Sun et al. | GCNs-Based Context-Aware Short Text Similarity Model | |
Cui et al. | A Comprehensive Survey on Text Filling Algorithms: A Research Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |