CN108563653B - 一种用于知识图谱中知识获取模型的构建方法及系统 - Google Patents

一种用于知识图谱中知识获取模型的构建方法及系统 Download PDF

Info

Publication number
CN108563653B
CN108563653B CN201711394314.4A CN201711394314A CN108563653B CN 108563653 B CN108563653 B CN 108563653B CN 201711394314 A CN201711394314 A CN 201711394314A CN 108563653 B CN108563653 B CN 108563653B
Authority
CN
China
Prior art keywords
neural network
knowledge
training set
vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711394314.4A
Other languages
English (en)
Other versions
CN108563653A (zh
Inventor
刘知远
韩旭
孙茂松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711394314.4A priority Critical patent/CN108563653B/zh
Publication of CN108563653A publication Critical patent/CN108563653A/zh
Application granted granted Critical
Publication of CN108563653B publication Critical patent/CN108563653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种用于知识图谱中知识获取模型的构建方法,包括:构建由多个文本句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,对第一神经网络进行训练;构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练;将第二神经网络中获得的输入数据向量作为第一神经网络的注意力特征,构建关系抽取模型;将第一神经网络中获得的输入数据向量作为第二神经网络的注意力特征,构建知识表示模型;将关系抽取模型和知识表示模型融合,获得用于知识图谱中知识获取的模型。本发明提供的方法,同时整合知识表示与关系抽取两个任务模型,能够综合提取知识图谱与自由文本的特征,提高了模型的稳定性与准确性。

Description

一种用于知识图谱中知识获取模型的构建方法及系统
技术领域
本发明涉及信息处理领域,更具体地,涉及一种用于知识图谱中知识获取模型的构建方法及系统。
背景技术
知识图谱,某些场景下也被称为知识库,是一种将现实世界中人类的知识结构化之后形成的知识系统。在知识图谱中,大量的知识,诸如开放数据库和百科全书中的信息,通常以关系数据集合的形式被表达出来。而在关系数据集合中,基本事实被抽象为实体,而规则、逻辑、推理等关联性的信息则被抽象为实体间的关系。若将实体对应于点,关系对应于边,则这些知识可以进一步以图的形式呈现,从而可以被计算机高效的使用,而这也是研究知识图谱的意义所在。这种将实体和抽象概念结构化成多关系数据集合的模式也是近年来被大力提倡的。可以说,知识图谱使得我们接触到的信息,尤其是知识信息,突破了以往文本字符串中基本的线性构成形式,而以实体与关系构成的网络状形式存在。目前知识图谱已经作为人工智能领域的一项基础核心技术,被广泛引入到信息检索、问答系统、推荐系统等任务上。图谱中优质的结构化知识信息,能够指导我们的智能模型具备更深层的事物理解、更精准的任务查询以及一定程度上的逻辑推理能力,从而在这些知识驱动应用中起到至关重要的作用。
在现有的对知识图谱完善的过程中,通常有知识图谱填充以及关系抽取两种方法来获取知识信息并以此拓展知识图谱,其中,知识图谱填充旨在通过图谱内部的网络空间结构来挖掘信息并推测新的知识事实;关系抽取主要是从自由文本中提取特征并用来抓取新的关系事实。虽然依靠的信息来源是不同的,但这两个方向的目标是一致的,即进行知识获取。
目前已有一些将知识图谱和文本语料融合来进行知识信息获取的方法被提出。但是已有的模型只考虑了文本与图谱的局部对应关系,如单纯的实体文本对应或者关系文本对应。此外在特征融合后已有模型仅仅解决了知识获取中单方面的任务,很难将两个任务同时进行解决。此外大量复杂的人工特征提取与语言学的特征预处理也使得已有方法很难在大规模数据上使用。
发明内容
为解决现有知识图谱知识获取模型中,只考虑文本与图谱的部分对应关系,知识获取性能低下的问题,我们提供了一种用于知识图谱中知识获取模型的构建方法及系统。
一方面,本发明提供的方法包括:
S1,构建由多个句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,用所述第一训练集对第一神经网络进行训练,并获得所述第一训练集的输入数据在所述第一神经网络中转化的向量;
每个句子至少包含2个实体;
S2,构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练,并获得所述第二训练集的输入数据在所述第二神经网络中转化的向量;
所述三元组中,头实体和尾实体为所述第二训练集的输入数据,所述头实体和尾实体在知识图谱中的关系作为第二训练集的分类结果;
S3,将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权,构建用于对句子中任意两个实体在知识图谱中关系分类的关系抽取模型;
S4,将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权,构建用于对任意两个实体进行知识图谱中关系分类的知识表示模型。
S5,将所述关系抽取模型和所述知识表示模型融合,获得用于知识图谱中知识获取的模型。
其中,所述步骤S1中用所述第一训练集对第一神经网络进行训练具体包括:
S11,将所述第一训练集中的句子输入到第一神经网络中,对所述第一训练集中句子包含的两个实体构建词向量序列,所述词向量序列包括词义向量和位置向量的拼接信息;
S12,通过卷积操作,池化操作和非线性操作将所述词向量序列转化为句子的向量表达;
S13,将所述句子的向量表达与所述知识图谱中的关系进行分类。
其中,所述卷积操作、池化操作和非线性操作具体为:
将所述词向量序列在卷基层和池化层汇中,通过滑窗的方式分解为多个局部特征;在每个所述局部特征根据非线性操作,选取信号最强的值进行汇总,获得所述句子的向量表达。
其中,所述局部特征定义为:
hi=[Wxi-m+1:i+b]i
式中,hi表示在句子中第i个窗口中的特征向量,xi-m+1:i为第i个窗口内部的所有的词向量的拼接,W为卷积核矩阵,b为偏置向量,m为卷积窗口尺寸大小。
其中。所述在每个所述局部特征上选取信号最强的值进行汇总定义为:
Figure DEST_PATH_GDA0001609582120000031
式中,[y]j为在第j维度下选取信号最强值的汇总向量,hi表示在句子中第i个窗口中的特征向量。
其中,所述步骤S3中将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权具体包括:
将所述第二训练集中三元组内的头实体和尾实体在第二神经网络中作为输入数据,通过所述第二神经网络的图谱表示层,将所述输入数据转化为所述头实体和所述尾实体组合的向量;
将所述头实体和所述尾实体组合的向量与所述第一神经网络中句子的向量表达的空间距离作为所述第一神经网络中的注意力特征,根据所述第一神经网络的注意力特征,对所述第一训练集中包含与所述注意力对应的头实体和尾实体的句子进行权重叠加。
其中,所述步骤S4中将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权具体包括:
将所述第一训练集中的句子在第一神经网络中作为输入数据,通过所述第一神经网络的卷积层,将所述输入数据转化为所述句子中任意两个实体所关联的句子的向量;
将所述实体对所关联的句子的向量作为所述第二神经网络中的注意力特征,根据所述第二神经网络的注意力特征,对所述第二训练集中包含与所述注意力对应三元组中的实体对组合向量进行权重叠加。
其中,所述步骤S5中将所述关系抽取模型和所述知识表示模型融合具体为:
将所述关系抽取模型和所述知识表示模型的输入融合,形成统一的输入端口,同时将所述关系抽取模型和所述知识表示模型的输入端口融合,形成统一的输出端口。
根据本发明的第二方面,提供一种用于知识图谱中知识获取模型的构建系统,包括:
第一训练模块,用于构建由多个句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,用所述第一训练集对第一神经网络进行训练,并获得所述第一训练集的输入数据在所述第一神经网络中转化的向量;
第二训练模块,用于构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练,并获得所述第二训练集的输入数据在所述第二神经网络中转化的向量;
每个句子至少包含2个实体;
所述三元组中,头实体和尾实体为所述第二训练集的输入数据,所述头实体和尾实体在知识图谱中的关系作为第二训练集的分类结果;
关系抽取模型构建模块,用于将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权,构建用于对句子中任意两个实体在知识图谱中关系分类的关系抽取模型;
知识表示模型构建模块,用于将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权,构建用于对任意两个实体进行知识图谱中关系分类的知识表示模型;
模型融合模块,用于将所述关系抽取模型和所述知识表示模型融合,获得用于知识图谱中知识获取的模型。
本发明提供的方法,通过联合学习框架可以同时整合知识表示与关系抽取两个任务模型,并且借助各自特有信息构建互注意力机制使得两者可以互补、融合,提高了模型的稳定性,知识获取性能也能够得到提升,具有良好的实用性。
附图说明
图1为本发明一实施例提供的一种用于知识图谱中知识或取模型的构建方法的流程图;
图2为本发明另一实施提供的一种用于知识图谱中知识获取模型的构建方法中知识获取模型的结构图;
图3为本发明又一实施例提供的一种用于知识图谱中知识获取模型的构建系统的结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参考图1,图1为本发明一实施例提供的一种用于知识图谱中知识或取模型的构建方法的流程图,所述方法包括:
S1,构建由多个句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,用所述第一训练集对第一神经网络进行训练,并获得所述第一训练集的输入数据在所述第一神经网络中转化的向量。训练集中每一个句子至少包含2个实体。
具体的,构建第一训练集,所述训练集由若干句子,以及句子中包含的任意两个实体在知识图谱中的关系组成,其中,每个句子至少包含2个实体,例如,在一个句子中“莎士比亚是英国历史上最富代表性的作家。”其中,句子中会标注出实体包含“莎士比亚”、“英国”和“作家”,因此在实体对“莎士比亚”和“英国”之间,其在知识图谱中的关系为国籍,在实体对“莎士比亚”和“作家”之间,其在知识图谱中的关系为职业。将这类的句子以及句子中实体的关系组成训练集的数据,对第一神经网络进行训练。在训练过程中,会将第一训练集中的输入数据在第一神经网络中转换为输入数据的向量表达式,随后通过对向量表达式与知识图谱中的关系进行分类,从而完成训练。
通过此方法,实现了将句子文本与知识图谱关系进行对应,实现由文本通过神经网络对知识图谱填充。
S2,构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练,并获得所述第二训练集的输入数据在所述第二神经网络中转化的向量。
其中,所述三元组中,头实体和尾实体为所述第二训练集的输入数据,所述头实体和尾实体在知识图谱中的关系作为第二训练集的分类结果。
具体的,知识图谱的一种表示方法为三元组表示方法,即(h,r,t),其中h和t分别为头实体和尾实体,r是用来描述h与t之间的关系,对于每一个知识图谱中的实体对(h,t),定义一个潜在的关系向量rht来表达实体向量h到实体向量t之间的变换与关联,具体形式为rht=t-h,而对于三元组(h,r,t),对应的存在一个显式的关系r来描述h与t的关系,并且这个r存在一个显式关系向量r,因此,可以将三元组的能量函数定义为:
fr(h,t)=b-||rht-r||
其中,b为一个常数偏移量。基于这个能量函数,通过P(h|(r,t),θE,θR)来形式化给出三元组的条件概率:
Figure DEST_PATH_GDA0001609582120000071
式中θE为模型实体参数,θR为模型关系参数,从而实现对第二神经网络进行训练。通过此方法,构建了用于接收实体对而将实体对在知识图谱中关系概率估计的神经网络,实现了通过接收实体对对知识图谱填充的模型构建。
S3,将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权,构建用于对句子中任意两个实体在知识图谱中关系分类的关系抽取模型。
S4,将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权,构建用于对任意两个实体进行知识图谱中关系分类的知识表示模型。
S5,将所述关系抽取模型和所述知识表示模型融合,获得用于知识图谱中知识获取的模型。
具体的,由于知识图谱本身的幂律分布特性以及文本语料因为远距离监督自动标注带来的诸多噪音,单独的知识表示与关系抽取模型的效果是相对乏力的。本发明基于联合学习框架,在向量共享信息的基础上,采用了知识与文本互注意力模块来缓解这些问题。
神经网络中的注意力机制(Attention mechanisms),也被称为“神经注意力”或“注意力”,神经注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力,注意力机制扩展了神经网络的能力:它们能接近更复杂的函数,或者更直观地说,它们可以专注于输入的特定部分。它们使自然语言基准测试的性能得到改进,以及赋予图像字幕、记忆网络和神经程序的全新能力。
具体来说,当得到了一对实体所有关联的句子的向量表示,采用知识表示的向量将其中精确表达了这两个实体间关系的句子选择出来,并获得一个综合表示用以之后的预测。同样,对于一个知识图谱关系,采用文本的语义表示来对这个关系下的诸多实体对进行综合表示,并以此来训练图谱表示模块中的关系向量。
对于每个实体对,其对应的句子通常远不止一个,由远程监督算法标注的这些句子,通常包含模糊和错误的语义成分。因此,在这些句子中,有些句子对最终的文本关系表示做出的贡献要更大一些。在联合学习框架中,知识图谱带来的额外知识信息可以用来进行重要特征句子的选择,因此将图谱中实体对的隐式关系嵌入作为知识信息来构建注意力机制,用以突出重要句子并减少噪音成分。
因此,所述步骤S3中将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权具体包括:
将所述第二训练集中三元组内的头实体和尾实体在第二神经网络中作为输入数据转化为所述头实体和所述尾实体组合的向量;
将所述头实体和所述尾实体组合的向量与所述第一神经网络中句子的向量表达的空间距离作为所述第一神经网络中的注意力特征;
根据所述第一神经网络的注意力对所述第一训练集中包含与所述注意力对应的头实体和尾实体的句子进行权重叠加。
在具体实施中,其中,包含实体对的第j个句子的关联程度定义为
ej=rht·tanh(Wsyj+bs)
式中,Ws、bs分别是将文本表示映射到图谱维度上的变换矩阵与偏置向量。所以注意力机制对每个句子的权重定义为:
Figure DEST_PATH_GDA0001609582120000091
式中,m为实体对对应的句子总数。这些句子在注意力机制引导之后的综合表示为:
Figure DEST_PATH_GDA0001609582120000092
其中,综合表示将被应用在第一神经网络之中取代原有的单一句子表示。在第一神经网络中添加了由第二神经网络中实体对的隐式关系构建的注意力机制后,即构建成了用于对句子中实体在知识图谱中关系分类的关系抽取模型。
另一方面,对于知识图谱中的每个关系,事实上有许多的实体对能与其构成图谱中的三元组。在之前的图谱模型中,关系的向量表示能够最大可能的与所有的这些实体对的潜在关系向量在空间上接近。但是关系在不同实体对之间的意义往往是复杂的,并且图谱本身的结构又满足幂律分布,因而很难在训练过程中将所有实体对之间的潜在关系与关系向量进行对应。为了让图谱表示的效果更加有效,减少长尾数据的干扰,本实施例采用第一神经网络中提取的语义信息来帮助显式关系拟合最合理的实体对。
所述步骤S4中将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权具体包括:
将所述第一训练集中的句子在第一神经网络中作为输入数据,通过所述第一神经网络的卷积层,将所述输入数据转化为所述句子中任意两个实体所关联的句子的向量;
将所述实体对所关联的句子的向量作为所述第二神经网络中的注意力,根据所述第二神经网络的注意力对所述第二训练集中包含与所述注意力对应三元组中的头实体和尾实体进行权重叠加。
在具体实施中,给定关系r对应的的第j个实体对与此关系关联程度定义为:
Figure DEST_PATH_GDA0001609582120000101
这里Ws、bs分别是将文本表示映射到图谱维度上的变换矩阵与偏置向量,M为用来进行文本关系分类的语义关系向量矩阵。所以注意力机制对每个实体对的权重定义为:
Figure DEST_PATH_GDA0001609582120000102
这里n为实体对总数。这些实体对在注意力机制引导之后的综合表示为:
Figure DEST_PATH_GDA0001609582120000103
图谱关系的综合表示将被应用在具体的第二神经网络之中取代原有的单一关系表示。在第二神经网络中添加了由第一神经网络中提取的语义信息构建注意力机制后,即构建成了用于对两个实体进行知识图谱中关系分类的知识表示模型。
将获得的关系抽取模型和获得的知识表示模型融合,即构建了基于知识与文本互注意力机制的联合知识获取模型。
具体的融合操作为:将所述关系抽取模型和所述知识表示模型的输入端口融合,形成统一的输入端口,同时将所述关系抽取模型和所述知识表示模型的输出端口融合,形成统一的输出端口。
通过此方法,通过联合学习框架可以同时整合知识表示与关系抽取两个任务模型,并且借助各自特有信息构建互注意力机制使得两者可以互补、融合,提高了模型的稳定性,知识获取性能也能够提升,具有良好的实用性。
在上述实施例的基础上,所述步骤S1中用所述第一训练集对第一神经网络进行训练具体包括:
S11,对所述第一训练集中句子包含的两个实体构建词向量序列,所述词向量序列包括词义向量和位置向量的拼接信息;
S12,通过卷积操作,池化操作和非线性操作将所述词向量序列转化为句子的向量表达;
S13,将所述句子的向量表达与所述知识图谱中的关系进行分类。
其中,所述卷积操作、池化操作和非线性操作具体为:
将所述词向量序列在卷积层和池化层中,通过滑窗的方式分解为多个局部特征;
在每个所述局部特征通过非线性操作,选取信号最强的值进行汇总,获得所述句子的向量表达。
其中,所述局部特征定义为:
hi=[Wxi-m+1:i+b]i
式中,hi表示在句子中第i个窗口中的特征向量,xi-m+1:i为第i个窗口内部的所有的词向量的拼接,W为卷积核矩阵,b为偏置向量,m为卷积窗口尺寸大小。
其中,所述在每个所述局部特征上选取信号最强的值进行汇总定义为:
Figure DEST_PATH_GDA0001609582120000121
式中,[y]j为在第j维度下选取信号最强值的汇总向量,hi表示在句子中第i个窗口中的特征向量。
具体的,第一神经网络的输入为句子的所有单词。给定一个含有若干单词的句子,输入层的功能就是将句子中的所有单词转化成对应的输入词向量。对于给定句子中任意一个单词,其输入向量由两个实向量构成,一个是它的文本词向量,另一个是它的位置向量。这里,词向量用于刻画每个词的语法和语义信息,采用Skip-Gram算法在大规模文本语料上提前训练获得。位置向量用于刻画实体的位置信息,定义为每个单词和头实体、尾实体之间的相互位置差的向量表示。最终的输入词向量定义为词向量与位置向量的拼接。
在输入层的基础上,采用深度卷积神经网络,通过卷积,池化和非线性操作将输入的词表示转化为句子的向量表示。
这里,卷积操作定义为将一个词向量序列x和卷积矩阵W之间的操作。卷积操作可以通过一个长度为m的滑动窗口对局部特征进行提取,得到的第i维特征定义为:
Figure DEST_PATH_GDA0001609582120000122
其中xi-m+1:i是在第i个窗口内部的所有的词向量的拼接,W为卷积核矩阵,b为偏置向量。进一步地,最终句子的表示的第j维通过池化和非线性化定义为:
[y]j=tanh(maxi([hi]j)),
池化层的主要作用在于对全局的特征进行汇总。在卷积层中,卷积实际上是对局部的语义进行特征提取。但是一个句子的语义仅仅依靠于局部特征是不恰当的,语义的理解最后还是要落实到全局的。池化的作用就是在每个局部采样输出的每个维度上选取一个信号最强值,从而最后能够汇总得到全局的语义特征。
关系抽取模块的能量函数因而定义为:
o=My。
文本语料的条件概率定义为:
Figure DEST_PATH_GDA0001609582120000131
其中,θV为模型文本特征,R是图谱的所有关系集合。
对于整个联合学习框架来说,设计目标就是让框架可以支持各个模型在统一的连续空间中同时训练,从而可以同步获得实体、关系及单词的嵌入表示。在训练过程中通过这样一个统一空间带来的联合约束,特征信息可以方便地在知识图谱和文本模型之间进行共享和传递。我们将所有的嵌入表示以及模型中涉及的参数都定义为模型参数,并用符号θ={θE,θR,θV}来表示,其中θE,θR,θV分别是实体、关系和单词的嵌入向量与相关参数。如果将我们对框架的性能要求形式化描述的话,模型需要做的就是找到一组最优的参数
Figure DEST_PATH_GDA0001609582120000132
满足
Figure DEST_PATH_GDA0001609582120000133
P(G,D|θ)是一个定义出的条件概率,用来刻画在给定实体、关系与单词嵌入θ的情况下,嵌入对图谱与文本的拟合能力、表达能力。更直观一点讲,模型的任务就是找到最好的嵌入表示能够最大程度的拟合给定的知识图谱结构以及文本语义信息。条件概率P(G,D|θ)进一步被分解为
P(G,D|θ)=P(G|θE,θR)P(D|θV)。
P(G|θE,θR)被用来从知识图谱中学习结构特征,并得到实体和关系的嵌入表示。P(D|θV)被用来从文本语料中学习文本特征,并得到单词与语义关系的嵌入表示。将知识图谱在参数下的条件概率P(G|θE,θR)定义为其包含事实的成立概率,将文本在参数下的条件概率P(D|θV)定义为语义信息与语义关系匹配的概率。对原概率式进行变换,得到
P(G|θE,θR)=Π{(h,r,t)∈G}P((h,r,t)|θE,θR),
P(D|θV)=Π{s∈D}P((s,rs)|θV)。
这里P((h,r,t)|θE,θR)定义了知识图谱G中三元组在已知实体与关系嵌入的情况下,三元组成立的条件概率;而P((s,rs)|θV)则定义了在已知单词嵌入的情况下,文本语料D中句子s能准确描述语义关系rs的条件概率。严格意义上讲,P(G|θE,θR)与P(D|θV)并不是独立的。这里能够拆分的主要因素在于对两者关联的微妙处理。图谱与文本能够产生关联的主要因素是实体与词、关系与语义关系的对应,而不是两者在信息组织形式上的相似之处。图谱是图结构而文本是线性序列,两者相去甚远。所以在这里,处理方法是将两者的嵌入层统一,如果一个实体出现在文本中的话,那么其词嵌入与实体嵌入是一样的,关联就呈现在底层共享的参数上了。
在本发明的另一实施例中,参考图2,图2为本发明另一实施提供的一种用于知识图谱中知识获取模型的构建方法中知识获取模型的结构图。
图中Text为关系抽取模型,其输入数据是包含相同实体的若干个句子(s1,s2,…sm),通过神经网络的卷积和池化层(C&P)得到每个句子的向量表达(y1,y2,…ym)。KATT是利用知识表示部分的信息来进行的注意力机制,本质上就是加权求和,最后得到一个统一的文本关系表达,并用来进行分类。
图中KG即为知识表示模块,其输入数据的是若干包含相同关系的实体对,通过图谱模型(KG)得到实体之间的隐式表达(rht,rh1t1....),SATT是利用文本的关系结果来进行的注意力机制,本质同样是加权求和,对重要的实体对加大权重,然后得到统一的图谱关系表示,然后进行图谱的关系预测。
在训练的时候,两部分是在两个线程里同时训练的,通过底层词于实体的统一的向量层来共享训练的梯度反馈。
在发明的又一实施例中,参考图3,图3为本发明又一实施例提供的一种用于知识图谱中知识获取模型的构建系统,所述系统包括:第一训练模块31、第二训练模块32、关系抽取模型构建模块33、知识表示模型构建模块34和模型融合模块35。
其中,第一训练模块31用于构建由多个句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,用所述第一训练集对第一神经网络进行训练,并获得所述第一训练集的输入数据在所述第一神经网络中转化的向量;
第二训练模块32用于构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练,并获得所述第二训练集的输入数据在所述第二神经网络中转化的向量;
每个句子至少包含2个实体;
所述三元组中,头实体和尾实体为所述第二训练集的输入数据,所述头实体和尾实体在知识图谱中的关系作为第二训练集的分类结果;
关系抽取模型构建模块33用于将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权,构建用于对句子中任意两个实体在知识图谱中关系分类的关系抽取模型;
知识表示模型构建模块34用于将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权,构建用于对任意两个实体进行知识图谱中关系分类的知识表示模型;
模型融合模块35用于将所述关系抽取模型和所述知识表示模型融合,获得用于知识图谱中知识获取的模型。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于知识图谱中知识获取模型的构建方法,其特征在于,包括:
S1,构建由多个句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,用所述第一训练集对第一神经网络进行训练,并获得所述第一训练集的输入数据在所述第一神经网络中转化的向量;
每个句子至少包含2个实体;
S2,构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练,并获得所述第二训练集的输入数据在所述第二神经网络中转化的向量;
所述三元组中,头实体和尾实体为所述第二训练集的输入数据,所述头实体和尾实体在知识图谱中的关系作为第二训练集的分类结果;
S3,将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权,构建用于对句子中任意两个实体在知识图谱中关系分类的关系抽取模型;
S4,将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权,构建用于对任意两个实体进行知识图谱中关系分类的知识表示模型;
S5,将所述关系抽取模型和所述知识表示模型融合,获得用于知识图谱中知识获取的模型;
其中,所述注意力特征用来突出重要句子并减少噪音成分。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中用所述第一训练集对第一神经网络进行训练具体包括:
S11,将所述第一训练集中的句子输入到第一神经网络中,对所述第一训练集中句子包含的任意两个实体构建词向量序列,所述词向量序列包括词义向量和位置向量的拼接信息;
S12,通过卷积操作,池化操作和非线性操作将所述词向量序列转化为句子的向量表达;
S13,将所述句子的向量表达与所述知识图谱中的关系进行分类。
3.根据权利要求2所述的方法,其特征在于,所述卷积操作、池化操作和非线性操作具体为:
将所述词向量序列在卷积层和池化层中,通过滑窗的方式分解为多个局部特征;
在每个所述局部特征根据非线性操作,选取信号最强的值进行汇总,获得所述句子的向量表达。
4.根据权利要求3所述的方法,其特征在于,所述局部特征定义为:
hi=[Wxi-m+1:i+b]i
式中,hi表示在句子中第i个窗口中的特征向量,xi-m+1:i为第i个窗口内部的所有的词向量的拼接,W为卷积核矩阵,b为偏置向量,m为卷积窗口尺寸大小。
5.根据权利要求4所述的方法,其特征在于,所述在每个所述局部特征上选取信号最强的值进行汇总定义为:
Figure FDA0002544638900000021
式中,[y]j为在第j维度下选取信号最强值的汇总向量,hi表示在句子中第i个窗口中的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3中将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权具体包括:
将所述第二训练集中三元组内的头实体和尾实体在第二神经网络中作为输入数据,通过所述第二神经网络的图谱表示层,将所述输入数据转化为所述头实体和所述尾实体组合的向量;
将所述头实体和所述尾实体组合的向量与所述第一神经网络中句子的向量表达的空间距离作为所述第一神经网络中的注意力特征,根据所述第一神经网络的注意力特征,对所述第一训练集中包含与所述注意力特征对应的头实体和尾实体的句子进行权重叠加。
7.根据权利要求4所述的方法,其特征在于,所述步骤S4中将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权具体包括:
将所述第一训练集中的句子在第一神经网络中作为输入数据,通过所述第一神经网络的卷积层,将所述输入数据转化为所述句子中任意两个实体所关联的句子的向量;
将所述任意两个实体所关联的句子的向量作为所述第二神经网络中的注意力特征,根据所述第二神经网络的注意力,对所述第二训练集中包含与所述注意力特征对应三元组中的头实体和尾实体组合向量进行权重叠加。
8.根据权利要求1所述的方法,其特征在于,所述步骤S5中将所述关系抽取模型和所述知识表示模型融合具体为:
将所述关系抽取模型和所述知识表示模型的输入融合,形成统一的输入端口,同时将所述关系抽取模型和所述知识表示模型的输出端口融合,形成统一的输出端口。
9.一种用于知识图谱中知识获取模型的构建系统,其特征在于,包括:
第一训练模块,用于构建由多个句子为输入数据,以及每个句子内任意两个实体在知识图谱中的关系为分类结果,组成的第一训练集,用所述第一训练集对第一神经网络进行训练,并获得所述第一训练集的输入数据在所述第一神经网络中转化的向量;
第二训练模块,用于构建由多个知识图谱中的三元组组成的第二训练集,对第二神经网络进行训练,并获得所述第二训练集的输入数据在所述第二神经网络中转化的向量;
每个句子至少包含2个实体;
所述三元组中,头实体和尾实体为所述第二训练集的输入数据,所述头实体和尾实体在知识图谱中的关系作为第二训练集的分类结果;
关系抽取模型构建模块,用于将所述第二训练集的输入数据在所述第二神经网络中转化的向量作为所述第一神经网络的注意力特征,对所述第一神经网络的训练结果进行加权,构建用于对句子中任意两个实体在知识图谱中关系分类的关系抽取模型;
知识表示模型构建模块,用于将所述第一训练集的输入数据在所述第一神经网络中转化的向量作为所述第二神经网络的注意力特征,对所述第二神经网络的训练结果进行加权,构建用于对任意两个实体进行知识图谱中关系分类的知识表示模型;
模型融合模块,用于将所述关系抽取模型和所述知识表示模型融合,获得用于知识图谱中知识获取的模型;
其中,所述注意力特征用来突出重要句子并减少噪音成分。
CN201711394314.4A 2017-12-21 2017-12-21 一种用于知识图谱中知识获取模型的构建方法及系统 Active CN108563653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711394314.4A CN108563653B (zh) 2017-12-21 2017-12-21 一种用于知识图谱中知识获取模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711394314.4A CN108563653B (zh) 2017-12-21 2017-12-21 一种用于知识图谱中知识获取模型的构建方法及系统

Publications (2)

Publication Number Publication Date
CN108563653A CN108563653A (zh) 2018-09-21
CN108563653B true CN108563653B (zh) 2020-07-31

Family

ID=63529396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711394314.4A Active CN108563653B (zh) 2017-12-21 2017-12-21 一种用于知识图谱中知识获取模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN108563653B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271516B (zh) * 2018-09-26 2020-09-15 清华大学 一种知识图谱中实体类型分类方法及系统
CN111225009B (zh) * 2018-11-27 2023-06-27 北京沃东天骏信息技术有限公司 用于生成信息的方法和装置
CN109635289B (zh) * 2018-11-30 2023-07-07 上海智臻智能网络科技股份有限公司 词条分类方法及审计信息抽取方法
CN109828965B (zh) * 2019-01-09 2021-06-15 千城数智(北京)网络科技有限公司 一种数据处理的方法及电子设备
CN109934261B (zh) * 2019-01-31 2023-04-07 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN109871542B (zh) * 2019-03-08 2024-03-08 广东工业大学 一种文本知识提取方法、装置、设备及存储介质
CN109992663A (zh) * 2019-03-11 2019-07-09 出门问问信息科技有限公司 意向评级模型及其构建方法、计算机设备及存储介质
CN110110094B (zh) * 2019-04-22 2022-07-01 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110263324B (zh) * 2019-05-16 2021-02-12 华为技术有限公司 文本处理方法、模型训练方法和装置
CN110147414B (zh) * 2019-05-23 2022-05-13 北京金山数字娱乐科技有限公司 一种知识图谱的实体表征方法及装置
CN110275960B (zh) * 2019-06-11 2021-09-14 中国电子科技集团公司电子科学研究院 基于指称句的知识图谱和文本信息的表示方法及系统
CN110288436A (zh) * 2019-06-19 2019-09-27 桂林电子科技大学 一种基于游客偏好建模的个性化景点推荐方法
CN110489547A (zh) * 2019-07-11 2019-11-22 桂林电子科技大学 一种基于混合式监督学习的旅游景点推荐方法及装置
CN110347847B (zh) * 2019-07-22 2021-09-28 西南交通大学 基于神经网络的知识图谱补全方法
CN112347263B (zh) * 2019-08-06 2023-04-14 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN110532368B (zh) * 2019-09-04 2023-03-14 达闼机器人股份有限公司 问答方法、电子设备及计算机可读存储介质
CN110825881B (zh) * 2019-09-26 2024-04-12 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110717017B (zh) * 2019-10-17 2022-04-19 腾讯科技(深圳)有限公司 一种处理语料的方法
CN110851577A (zh) * 2019-10-30 2020-02-28 国网江苏省电力有限公司电力科学研究院 一种电力领域的知识图谱扩充方法及装置
CN111046185B (zh) * 2019-12-16 2023-02-24 重庆邮电大学 一种文本信息的知识图谱关系抽取方法、装置及终端
CN111143578B (zh) * 2019-12-30 2023-12-22 北京因特睿软件有限公司 基于神经网络抽取事件关系的方法、装置和处理器
CN111145913B (zh) * 2019-12-30 2024-02-20 讯飞医疗科技股份有限公司 基于多重注意力模型的分类方法、装置及设备
CN111291139B (zh) * 2020-03-17 2023-08-22 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111309828B (zh) * 2020-03-27 2024-02-20 广东省智能制造研究所 一种大型设备的知识图谱构建方法及装置
WO2021204365A1 (en) * 2020-04-07 2021-10-14 Huawei Technologies Co., Ltd. Device and method for monitoring communication networks
CN113536742A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 基于知识图谱的描述文本生成方法、装置及电子设备
CN111931506B (zh) * 2020-05-22 2023-01-10 北京理工大学 一种基于图信息增强的实体关系抽取方法
CN111597341B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111737485A (zh) * 2020-05-28 2020-10-02 广东轩辕网络科技股份有限公司 基于知识图谱、深度学习的人岗匹配方法、人岗匹配系统
CN111898364B (zh) * 2020-07-30 2023-09-26 平安科技(深圳)有限公司 神经网络关系抽取方法、计算机设备及可读存储介质
CN114172793B (zh) * 2020-08-21 2023-04-04 华为技术有限公司 一种网络配置知识图谱构建方法及装置
CN112214685B (zh) * 2020-09-27 2023-03-28 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112182249B (zh) * 2020-10-23 2022-12-13 四川大学 针对航空安全报告的自动分类方法和装置
CN112527915B (zh) * 2020-11-17 2021-08-27 北京科技大学 线性文化遗产知识图谱构建方法、系统、计算设备和介质
CN112765486B (zh) * 2021-01-22 2022-04-05 重庆邮电大学 一种融合知识图谱的注意力机制的电影推荐方法
CN113342904B (zh) * 2021-04-01 2021-12-24 山东省人工智能研究院 一种基于企业特征传播的企业服务推荐方法
CN113434669A (zh) * 2021-05-31 2021-09-24 华东师范大学 一种基于序列标记策略的自然语言关系抽取方法
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置
CN113569558B (zh) * 2021-07-06 2023-09-26 上海交通大学 一种实体关系抽取方法及系统
CN113821636B (zh) * 2021-08-27 2024-07-09 北京快确信息科技有限公司 一种基于知识图谱的金融文本联合抽取分类方法
CN113688256B (zh) * 2021-10-27 2022-02-22 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN114297398B (zh) * 2021-11-11 2024-08-27 北京邮电大学 基于神经网络的知识图谱实体链接方法、装置及电子设备
CN114707005B (zh) * 2022-06-02 2022-10-25 浙江建木智能系统有限公司 一种舰船装备的知识图谱构建方法和系统
CN115936737B (zh) * 2023-03-10 2023-06-23 云筑信息科技(成都)有限公司 一种确定建材真伪的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2684397A1 (en) * 2007-04-25 2008-11-06 Counsyl, Inc. Methods and systems of automatic ontology population
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2684397A1 (en) * 2007-04-25 2008-11-06 Counsyl, Inc. Methods and systems of automatic ontology population
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN106528609A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种向量约束嵌入转换的知识图谱推理方法
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"FCANN: A new approach for extraction and representation of knowledge from ANN Trained via Formal Concept Analysi";Luis E.Zarate 等;《Neurocomputing》;20080831;第71卷;2670-2684 *
"Joint Representation Learning of Text and Knowledge for Knowledge Graph Completion";Xu Han;《ArXiv》;20161231;1-9 *
"知识表示学习研究进展";刘知远 等;《计算机研究与发展》;20160126;第53卷(第2期);247-268 *

Also Published As

Publication number Publication date
CN108563653A (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN108563653B (zh) 一种用于知识图谱中知识获取模型的构建方法及系统
CN108733792B (zh) 一种实体关系抽取方法
CN110717017B (zh) 一种处理语料的方法
JP6845486B2 (ja) 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN113127624B (zh) 问答模型的训练方法及装置
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
Tyagi et al. Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN116796744A (zh) 一种基于深度学习的实体关系抽取方法及系统
CN113240046A (zh) 一种基于知识的视觉问答任务下的多模态信息融合方法
CN113901228A (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
CN115329075A (zh) 基于分布式机器学习的文本分类方法
Haidar et al. Application of machine learning algorithms for predicting outcomes of accident cases in Moroccan courts
CN116702784B (zh) 实体链接方法、装置、计算机设备和存储介质
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
CN116975403A (zh) 内容检索模型及内容检索处理方法、装置和计算机设备
CN109783605B (zh) 一种基于贝叶斯推理技术的科技服务对接方法
Murase et al. Associative knowledge feature vector inferred on external knowledge base for dialog state tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant