CN113032585A - 一种基于文档结构和外部知识的文档级实体关系抽取方法 - Google Patents

一种基于文档结构和外部知识的文档级实体关系抽取方法 Download PDF

Info

Publication number
CN113032585A
CN113032585A CN202110597525.8A CN202110597525A CN113032585A CN 113032585 A CN113032585 A CN 113032585A CN 202110597525 A CN202110597525 A CN 202110597525A CN 113032585 A CN113032585 A CN 113032585A
Authority
CN
China
Prior art keywords
document
nodes
entity
edge
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110597525.8A
Other languages
English (en)
Other versions
CN113032585B (zh
Inventor
汤步洲
李涛
熊英
陈清财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202110597525.8A priority Critical patent/CN113032585B/zh
Publication of CN113032585A publication Critical patent/CN113032585A/zh
Application granted granted Critical
Publication of CN113032585B publication Critical patent/CN113032585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文档结构和外部知识的文档级实体关系抽取方法,所述方法包括:获取文档文本,并根据所述文档文本构建文档文本对应的结构图,初始化所述结构图的所述结点和所述边,得到结构图初始化结果;基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。本发明实施例通过上述方法得到实体关系抽取结果,提升文档级别关系抽取的性能,解决了正负样例不均衡的问题,具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。

Description

一种基于文档结构和外部知识的文档级实体关系抽取方法
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种基于文档结构和外部知识的文档级实体关系抽取方法。
背景技术
随着信息爆炸时代的来临,信息抽取在如今海量的非结构化文本数据的处理中具有重要地位。关系抽取是信息抽取的重要组成部分,在知识图谱、信息检索、问答系统、情感分析和文本挖掘等场景都有广泛应用,旨在从给定的文本中抽取两个实体对<实体1,实体2>之间特定种类的信息,从而输出结构化的三元组信息<实体1,关系,实体2>,是实体抽取和事件抽取之间的桥梁。
现有的关系抽取的研究主要针对句子级别的关系抽取展开,传统的关系抽取方式主要通过基于特征的方法和核方法等传统的统计模型进行关系分类,需要人工构建相应的特征,既费时又费力,且不具备可扩展性,效果上也并不令人满意。随着深度学习在自然语言处理技术中的普及,卷积神经网络CNN和循环神经网络RNN等神经网络因其能够自动提取文本特征而被大量采用。在关系抽取领域,通过使用这类神经网络对上下文的语义信息进行建模的方法在句子级别的关系抽取中取得了不错的效果。在此基础上,研究人员们扩展了许多新的方法,包括加入注意力机制、结合预训练语言模型和多任务学习等策略,并通过实验证明了有效性。
普通的句子级别的关系抽取无法满足在包含多个句子的冗长的文档中的应用需求,导致信息存在大量的丢失,使得后续任务的效果难以得到满足。文档级别的关系抽取作为句子级别关系抽取任务的超集,更加贴近实际应用场景,作为信息抽取中重要的一环,如何提升文档级别的关系抽取的效果具有重要研究意义。然而在文档级别的关系抽取中,在对每个实体提及对或实体对可能存在的关系进行分类时,不仅需要考虑每个实体提及所在的句子的信息,还需要结合其他实体提及的信息、其他句子的信息甚至是更高层次的主题信息进行综合判断,而每个实体对依赖的上下文信息数目往往是不同的,靠CNN和RNN等仅能在欧几里得空间中对上下文信息建模的能力无法满足文档上下文中复杂语义的建模需求,因此对非欧式空间数据建模的图神经网络也被提上研究热题,对图神经网络的研究早已存在,然而受限于当时的计算能力,并没有受到研究人员的广泛关注,随着深度学习的发展以及受到卷积神经网络的启发,图卷积神经网络以及其他的图神经网络开始蓬勃发展,并在自然语言处理领域开始生根发芽,基于图神经网络的文档关系抽取的研究也开始兴起。
在文档级别的关系抽取中,往往受到关系样例不均衡的困扰,实体对之间存在关系的情况的数目往往少于实体对之间不存在关系的情况的数目,且不同关系的数目差异也往往十分巨大,头部的几个关系往往出现较多,而长尾部分的关系出现次数十分稀少。而传统机器学习方法中依靠采样方式解决数据不平衡的方法并不能直接适用于文档级别的关系抽取场景。一篇文档中可能存在多个实体对的关系的情况,且会造成数据分布不同、信息浪费等问题,而现有的通过修改样本权重或者设计新的损失函数的解决数据不平衡的方法依赖人工,对超参数进行调整的方法费时又费力,带来的效果也不尽人意,因而,探索一种让网络自适应解决文档级别关系抽取任务中样例不均衡问题的方法具有重要研究意义。
普通的深度学习神经网络作为人工智能中联结主义的集大成者,通常依赖大量的训练样本来到达更好的模型性能,而以知识图谱为代表的知识驱动是符号主义的人工智能的分支,相比于联结主义具备更高的可解释性,但是存在推理层面应用困难的问题,因此将符号主义和联结主义结合的人工智能被研究人员们寄予了厚望。探索在神经网络中采用外部知识的合理性方法的研究愈演愈烈,其不但能够缓解神经网络中需要大量训练样本的问题,同时能够增加神经网络结果的可解释性。在实体关系抽取任务中,除了利用文档内部的上下文信息,实体本身存在一定的外部知识可以进一步利用,也就是通过知识图谱等外部知识增强实体的关系抽取效果。而以往利用知识图谱增强自然语言相关技术的方式存在不便于处理部分知识缺失以及可扩展性低等缺点,无法充分发挥外部知识具有的作用。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于文档结构和外部知识的文档级实体关系抽取方法,旨在解决现有技术中文档抽取方法需要人工构建相应的特征,既费时又费力,且不具备可扩展性,对超参数进行调整的方法费时又费力,不便于处理部分知识缺失以及可扩展性低等缺点,无法充分发挥外部知识具有的作用的问题。
本发明解决问题所采用的技术方案如下:
第一方面,本发明实施例提供一种基于文档结构和外部知识的文档级实体关系抽取方法,其中,所述方法包括:
获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;其中,所述具有内部结构信息的结点包括实体提及结点、实体结点、句子结点、章节结点、文档结点;
初始化所述结构图的所述结点和所述边,得到结构图初始化结果;
基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
在一种实现方式中,其中,所述根据所述文档文本构建文档文本对应的结构图包括:
根据所述文档文本构建所述文档文本的结点;
根据所述结点构建所述结点之间的边;
根据所述结点和所述边,构建文档文本对应的结构图。
在一种实现方式中,其中,所述初始化所述结构图的所述结点和所述边,得到结构图初始化结果包括:
对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量;
对表征实体具有的外部知识的所述结点进行初始化处理,得到第二结点初始化向量;
设置所述边的初始值,得到边初始化向量,并将所述边初始化向量作为结构图初始化结果。
在一种实现方式中,其中,所述对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量包括:
获取表征文档内部结构信息的所述结点对应的类型向量;
将表征文档内部结构信息的所述结点进行求平均,得到结点平均向量;
将所述类型向量和所述结点平均向量进行拼接,得到第一结点初始化向量。
在一种实现方式中,其中,所述对表征实体具有的外部知识的所述结点进行初始化处理,得到第二结点初始化向量包括:
将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接,得到第二结点初始化向量。
在一种实现方式中,其中,所述基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果包括:
将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型,得到更新后的边;
将所述更新后的边输入分类器,得到文档文本的实体关系抽取结果。
在一种实现方式中,其中,所述面向边的图神经网络模型的训练过程具体为:
获取待测实体对;
根据所述待测实体对,得到所述面向边的图神经网络模型的总损失函数;
根据所述总损失函数,对预设的第一网络模型进行训练,以得到面向边的图神经网络模型。
在一种实现方式中,其中,所述根据所述待测实体对,得到所述面向边的图神经网络模型的总损失函数包括:
根据所述待测实体对,得到所述实体对的关系概率;
根据所述关系概率,得到所述边的交叉熵损失函数;
获取正例软化的F值损失函数和负例软化的F值损失函数;
将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加,得到所述面向边的图神经网络模型的总损失函数。
第二方面,本发明实施例还提供一种基于文档结构和外部知识的文档级实体关系抽取装置,其中,所述装置包括:
结构图构建单元,用于获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点用于表征文档内部结构信息中的实体提及、实体、句子、信息、章节和文档以及实体具有的外部知识;
结构图初始化结果获取单元,用于初始化所述结构图的所述结点和所述边,得到结构图初始化结果;
文档文本的实体关系抽取结果获取单元,用于基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的基于文档结构和外部知识的文档级实体关系抽取方法。
第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项基于文档结构和外部知识的文档级实体关系抽取方法。
本发明的有益效果:本发明实施例首先获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;然后初始化所述结构图的所述结点和所述边,得到结构图初始化结果;最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果;可见,本发明实施例中通过上述方法得到实体关系抽取结果,提升文档级别关系抽取的性能,解决了正负样例不均衡的问题,具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于文档结构和外部知识的文档级实体关系抽取方法流程示意图。
图2为本发明实施例提供的文档结构中结点来源图。
图3为本发明实施例提供的文档内部结构图。
图4为本发明实施例提供的结点表示来源图。
图5为本发明实施例提供的doc2vec模型图。
图6为本发明实施例提供的复用词嵌入层和局部编码层的外部描述性知识表示结构图。
图7为本发明实施例提供的仅复用词嵌入层的外部描述性知识表示结构图。
图8为本发明实施例提供的为加入外部知识后的文档图结构示意图。
图9为本发明实施例提供的基于文档结构和外部知识的文档级实体关系抽取装置的原理框图。
图10为本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
本发明公开了基于文档结构和外部知识的文档级实体关系抽取方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。 应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
由于现有技术中,文档抽取方法需要人工构建相应的特征,既费时又费力,且不具备可扩展性,对超参数进行调整的方法费时又费力,不便于处理部分知识缺失以及可扩展性低等缺点,无法充分发挥外部知识具有的作用。
为了解决现有技术的问题,本实施例提供了一种基于文档结构和外部知识的文档级实体关系抽取方法,通过上述方法得到实体关系抽取结果,提升文档级别关系抽取的性能,解决了正负样例不均衡的问题,具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。具体实施时,首先获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;然后初始化所述结构图的所述结点和所述边,得到结构图初始化结果;最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
举例说明,关系抽取是信息抽取的重要组成部分,在知识图谱、信息检索、问答系统、情感分析和文本挖掘等场景都有广泛应用,旨在从给定的文本中抽取两个实体对<实体1,实体2>之间特定种类的信息,从而输出结构化的三元组信息<实体1,关系,实体2>,是实体抽取和事件抽取之间的桥梁。该发明主要包括3部分:1)文档图结构的构建;2)采用损失函数自适应地解决样例不均衡问题;3)将结点运用到外部知识中。本发明提出基于文档结构的实体关系抽取模型,多角度挖掘文档内部的上下文信息,并组成文档图结构,其中包含的结点有:实体、实体提及、句子、章节以及文档,并根据结点直接存在的层级关系,构建对应结点之间的边。在此图结构的基础上,本发明采用面向边的图神经网络进行关系抽取,加入的图结构信息能够更好地捕捉全局的上下文语义信息,面向边的图神经网络可以更好地处理具有非欧式特征的文档图结构数据以提升文档级别关系抽取的性能。
本发明采用了额外的损失函数以处理文档中存在的正负关系样例不均衡问题,使得模型能够自适应地、更针对性地解决该问题。以往通过采样方式解决样例不均衡问题不适用于本文这种多示例学习下的关系抽取,因为采样方式认为每个实体对都是以独立的样本存在于数据集中的,从而可以通过采样改变正负样本的分布,而本发明针对的文档级别关系抽取中,一篇文档作为一个样本,其中存在许多实体对的样例,模型认为每个实体对都具有独一无二的信息,采样方式要么会丢失部分信息,要么会改变这种独一无二性。而通过改变权重来解决样例不均衡的问题,依赖研究人员对任务本身中的数据具有比较可靠的洞察和先验知识,且不具备迁移性,每更新一个数据集,就需要重新设计权重。本发明使用的损失函数不依赖人工设计的超参数,也不会改变数据本身的分布情况,具有极佳的解决正负样例不均衡的效果。
本发明也在基于文档结构的实体关系抽取基础上,采用了外部知识,形成结合外部知识的实体关系抽取。通过将外部知识具象化为结点的方式加入知识,模型能够比原有的知识增强方式具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。本发明采用了两种外部知识,丰富实体对在关系抽取中的语义信息,这两种外部知识分别为:外部结构性知识和外部描述性知识,外部结构性知识捕捉的是实体在知识图谱中邻域的结构信息,在向量意义上可以表示两个实体之间存在的隐式关系信息;而外部描述性知识捕捉的是实体本身的文本化的定义,从字符之间的潜在语义连接两个实体。在本实施例中,首先获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;然后初始化所述结构图的所述结点和所述边,得到结构图初始化结果;最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。本发明实施例通过上述方法得到实体关系抽取结果,提升文档级别关系抽取的性能,解决了正负样例不均衡的问题,具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。
示例性方法
本实施例提供一种基于文档结构和外部知识的文档级实体关系抽取方法,该方法可以应用于人工智能的智能终端。具体如图1所示,所述方法包括:
步骤S100、获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;
具体地,现有技术已有基于图神经网络的文档关系抽取模型,基于现有技术,本发明多角度挖掘文档内部的上下文信息组成文档图结构,其中包含的结点有:实体、实体提及、句子、章节以及文档,并根据结点直接存在的层级关系,构建对应结点之间的边。其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点,其中,所述具有内部结构信息的结点包括实体提及结点、实体结点、句子结点、章节结点、文档结点。在此图结构的基础上,本发明引入面向边的图神经网络进行关系抽取,加入的图结构信息能够更好地捕捉全局的上下文语义信息,面向边的图神经网络可以更好地处理具有非欧式特征的文档图结构数据以提升文档级别关系抽取的性能。为了提高关系抽取的性能,本发明也在基于文档结构的实体关系抽取基础上,引入了外部知识,形成结合外部知识的实体关系抽取。通过将外部知识具象化为结点的方式加入知识,模型能够比原有的知识增强方式具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。本发明引入了两种外部知识,丰富实体对在关系抽取中的语义信息,这两种外部知识分别为:外部结构性知识和外部描述性知识,外部结构性知识捕捉的是实体在知识图谱中邻域的结构信息,在向量意义上可以表示两个实体之间存在的隐式关系信息;而外部描述性知识捕捉的是实体本身的文本化的定义,从字符之间的潜在语义连接两个实体。
为了得到结构图,所述根据所述文档文本构建文档文本对应的结构图包括如下步骤:根据所述文档文本构建所述文档文本的结点;根据所述结点构建所述结点之间的边;根据所述结点和所述边,构建文档文本对应的结构图。
具体地,根据所述文档文本构建所述文档文本的结点;如图2所示,从文档具有内部结构信息的角度,结点包括:(1)实体提及结点(Mention Node,M),表示文档每个句子中出现的实体提及;(2)实体结点(Entity Node,E),表示对实体提及对应的知识图谱中标准化的实体;(3)句子结点(Sentence Node,S),将文档中出现的所有句子作为结点;(4)章节结点(Section Node,C),将文档中的标题和摘要作为不同的章节结点;(5)文档结点(Document Node,D),将整个文档作为一个结点。然后根据所述结点构建所述结点之间的边;
从实体具有的外部知识的角度,结点包括:(1)外部结构性知识结点(Knowledgeof Structure Node,KS),是外部知识图谱中的结点;(2)外部描述性知识结点(Knowledgeof Description Node,KD),将实体的描述性文本知识作为结点。
结点之间的边包括:(1)实体提及-句子(Mention-Sentence,MS),当实体提及出现在一个句子内时,那么对应的实体提及结点和句子结点之间存在边;(2)实体提及-实体提及(Mention-Mention,MM),当两个实体提及同时出现在同一个句子内时,这两个实体提及结点之间存在边;(3)实体提及-实体(Mention-Entity,ME),实体提及结点与其本身对应的实体的结点之间存在边;(4)句子-句子(Sentence-Sentence,SS),对于所有出现在文档里的句子结点,为了保证信息的完备,句子结点两两之间都存在边;(5)实体-句子(Entity-Sentence,ES),当一个实体e对应的实体提及m出现在一个句子s内时,实体e对应的结点和句子s对应的结点之间存在边;(6)句子-章节(Sentence-Section,SC),一个句子只会在一个章节内出现,要么是标题章节,要么是简介章节,那么句子结点与其所在的章节结点之间存在边,同时本文认为标题对整个文档起到概要的作用,因此将标题章节与所有的句子都相连;(7)章节-章节(Section-Section,CC),同一个文档中的两个章节结点之间存在边;(8)文档-章节(Document-Section,DC),章节结点与其所在的文档结点之间存在边;(9)将结构性知识结点与对应的实体结点连接(Entity-Knowledge of Structure,EKS);(10)将描述性知识结点连接到对应的实体结点上构建边(Entity-Knowledge of Description,EKD)。最后根据所述结点和所述边,构建文档文本对应的结构图。
得到文档文本对应的结构图后,就可以执行如图1中的如下步骤:S200、初始化所述结构图的所述结点和所述边,得到结构图初始化结果;
具体地,对结构图中的所述结点和所述边采用不同的初始化方式,以得到结构图初始化结果。
为了得到结构图初始化结果,所述初始化所述结构图的所述结点和所述边,得到结构图初始化结果包括如下步骤:
S201、对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量;
S202、对表征实体具有的外部知识的所述结点进行初始化处理,得到第二结点初始化向量;
S203、设置所述边的初始值,得到边初始化向量,并将所述边初始化向量作为结构图初始化结果。
具体地,对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量;相应的,为了得到第一结点初始化向量,所述对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量包括如下步骤:获取表征文档内部结构信息的所述结点对应的类型向量;将表征文档内部结构信息的所述结点进行求平均,得到结点平均向量;将所述类型向量和所述结点平均向量进行拼接,得到第一结点初始化向量。
具体地,先获取表征文档内部结构信息的所述结点对应的类型向量;然后将表征文档内部结构信息的所述结点进行求平均,得到结点平均向量;最后将所述类型向量和所述结点平均向量进行拼接,得到第一结点初始化向量。举例说明,实体提及结点(MentionNode,M),表示文档每个句子中出现的实体提及,将实体提及包括的所有单词
Figure 175289DEST_PATH_IMAGE001
经过BiLSTM或者RNN层得到的局部信息表示
Figure 623588DEST_PATH_IMAGE002
取平均,并与实体提及类型向量
Figure 934484DEST_PATH_IMAGE003
拼接得到实体提及结点的初始化表示
Figure 64114DEST_PATH_IMAGE004
;实体结点(Entity Node,E),表示对实体提及对应的知识图谱中标准化的实体,实体结点的初始化表示是对所有对应的实体提及结点的初始化表示求平均之后,拼接实体类型向量
Figure 409645DEST_PATH_IMAGE005
得到
Figure 28845DEST_PATH_IMAGE006
;句子结点(Sentence Node,S),将文档中出现的所有句子作为结点,句子结点的表示由句子中所有词
Figure 827036DEST_PATH_IMAGE007
的局部信息表示
Figure 760357DEST_PATH_IMAGE008
取平均,并与句子类型向量
Figure 957465DEST_PATH_IMAGE009
拼接得到
Figure 481987DEST_PATH_IMAGE010
;章节结点(Section Node,C),将文档中的标题和摘要作为不同的章节结点,首先将文档
Figure 33054DEST_PATH_IMAGE011
中所有句子结点
Figure 301224DEST_PATH_IMAGE012
的表示依次送入下一层BiLSTM或者RNN神经网络
Figure 559030DEST_PATH_IMAGE013
中得到
Figure 520033DEST_PATH_IMAGE014
,由此对所有句子进行全局信息的编码,章节结点的表示由其中包含的所有句子结点的表示求平均,并与章节类型向量
Figure 558396DEST_PATH_IMAGE015
拼接得到
Figure 364678DEST_PATH_IMAGE016
;文档结点(Document Node,D),将整个文档作为一个结点,文档结点的表示是通过章节结点的表示求平均
Figure 742570DEST_PATH_IMAGE017
得到,同时拼接文档类型向量
Figure 608895DEST_PATH_IMAGE018
得到
Figure 868975DEST_PATH_IMAGE019
得到第一结点初始化向量后,还需得到第二结点初始化向量;相应的,所述对表征实体具有的外部知识的所述结点进行初始化处理,得到第二结点初始化向量包括如下步骤:将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接,得到第二结点初始化向量。
具体地,将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接,得到第二结点初始化向量。举例说明,利用知识图谱嵌入技术在得到相应的实体表示
Figure 744527DEST_PATH_IMAGE020
后,通过拼接
Figure 976925DEST_PATH_IMAGE021
以及类型向量
Figure 279731DEST_PATH_IMAGE022
,得到结构性知识结点的初始化表示
Figure 27107DEST_PATH_IMAGE023
;通过拼接外部描述性知识的向量表示
Figure 440771DEST_PATH_IMAGE024
以及类型向量
Figure 527675DEST_PATH_IMAGE025
得到描述性知识结点的初始化表示
Figure 266961DEST_PATH_IMAGE026
得到第二结点初始化向量之后,设置所述边的初始值,得到边初始化向量,并将所述边初始化向量作为结构图初始化结果。如图3所示,举例说明,实体提及-句子(Mention-Sentence, MS),当实体提及出现在一个句子内时,那么对应的实体提及结点和句子结点之间存在边,边的表示
Figure 439317DEST_PATH_IMAGE027
;实体提及-实体提及(Mention-Mention, MM),当两个实体提及n1,n2同时出现在同一个句子内时,这两个实体提及结点之间存在边,边的表示包括两个实体提及的表示、两个实体提及在句子中相对距离的向量表示
Figure 656671DEST_PATH_IMAGE028
以及实体之间的注意力向量
Figure 863662DEST_PATH_IMAGE029
,得到
Figure 773849DEST_PATH_IMAGE030
,其中,注意力向量
Figure 233168DEST_PATH_IMAGE029
考虑了上下文对实体提及的重要性,计算方式为:
Figure 191896DEST_PATH_IMAGE031
Figure 50131DEST_PATH_IMAGE032
Figure 68903DEST_PATH_IMAGE033
Figure 278167DEST_PATH_IMAGE034
其中,
Figure 40587DEST_PATH_IMAGE035
表示该边连接的两个实体提及结点,
Figure 18907DEST_PATH_IMAGE036
是第
Figure 943001DEST_PATH_IMAGE037
个单词对实体提及对
Figure 373982DEST_PATH_IMAGE038
的注意力权重值,
Figure 736830DEST_PATH_IMAGE039
是句子中所有单词的表示,得到的
Figure 772919DEST_PATH_IMAGE029
是经过注意力机制之后的上下文表示;实体提及-实体(Mention-Entity,ME),实体提及结点与其本身对应的实体的结点之间存在边
Figure 930231DEST_PATH_IMAGE040
;句子-句子(Sentence-Sentence,SS),对于所有出现在文档里的句子结点,为了保证信息的完备,句子结点两两之间都存在边,句子结点之间边的表示除了考虑句子结点的表示,额外还考虑了句子
Figure 51771DEST_PATH_IMAGE041
Figure 218310DEST_PATH_IMAGE042
之间的距离向量
Figure 843327DEST_PATH_IMAGE043
以及句子结点表示之间差值的绝对值
Figure 437119DEST_PATH_IMAGE044
Figure 780376DEST_PATH_IMAGE045
,其中,借助句子结点之间的差值的绝对值
Figure 750606DEST_PATH_IMAGE046
,来衡量句子结点之间的距离,实现引入句子结点表示的交互信息,从而更好的提供实体提及的上下文信息;实体-句子(Entity-Sentence,ES),当一个实体
Figure 495708DEST_PATH_IMAGE047
对应的实体提及m出现在一个句子
Figure 260401DEST_PATH_IMAGE048
内时,实体
Figure 887692DEST_PATH_IMAGE047
对应的结点和句子
Figure 333717DEST_PATH_IMAGE048
对应的结点之间存在边
Figure 995642DEST_PATH_IMAGE049
;句子-章节(Sentence-Section, SC),一个句子只会在一个章节内出现,要么是标题章节,要么是简介章节,那么句子结点与其所在的章节结点之间存在边,同时本文认为标题对整个文档起到概要的作用,因此将标题章节与所有的句子都相连,
Figure 868920DEST_PATH_IMAGE050
;章节-章节(Section-Section, CC),同一个文档中的两个章节结点之间存在边
Figure 249086DEST_PATH_IMAGE051
;文档-章节(Document-Section,DC),章节结点与其所在的文档结点之间存在边
Figure 233222DEST_PATH_IMAGE052
。实体-结构性知识(Entity-Knowledge of Structure,EKS),
Figure 15234DEST_PATH_IMAGE053
;实体-描述性知识(Entity-Knowledge of Description,EKD),其初始化表示为:
Figure 59413DEST_PATH_IMAGE054
并利用不同的线性变换,由此保证不同类型的边的表示映射到相同的向量空间中。
Figure 926875DEST_PATH_IMAGE055
其中,z为下标,
Figure 714702DEST_PATH_IMAGE056
为不同的线性变换,由此保证不同类型的边的表示映射到向量空间,
Figure 371728DEST_PATH_IMAGE057
是可学习的参数矩阵,我们将由此得到的边的表示认为是结点之间深度为1的路径的表示
Figure 586809DEST_PATH_IMAGE058
得到结构图初始化结果后,可以执行如图1所示的如下步骤:步骤S300、基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
具体地,本发明将文档拆分成多个单独的句子,对每个句子
Figure 675987DEST_PATH_IMAGE059
中的词嵌入层依次送入一个BiLSTM或者RNN神经网络得到
Figure 267506DEST_PATH_IMAGE060
,由此对每个句子内的局部信息进行编码。为了处理文档中存在的正负关系样例不均衡问题,本发明采用了额外的损失函数,使得面向边的图神经网络模型能够自适应地、更针对性地解决该问题。本发明使用的损失函数不依赖人工设计的超参数,也不会改变数据本身的分布情况,该方法具有极佳的解决正负样例不均衡的效果。输入结构图、所述结构图初始化结果后,使得训练后的面向边的图神经网络模型性能更好,得到更新后的边,并将所述更新后的边输入分类器,得到文档文本的实体关系抽取结果。
为了得到文档文本的实体关系抽取结果,所述基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果包括如下步骤:
步骤S301、将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型,得到更新后的边;
步骤S302、将所述更新后的边输入分类器,得到文档文本的实体关系抽取结果。
具体地,先将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型,得到更新后的边;举例说明,通过Walk Aggregation Layer更新边的表示:
Figure 492951DEST_PATH_IMAGE061
其中,
Figure 941249DEST_PATH_IMAGE062
表示两个结点之间深度为
Figure 720987DEST_PATH_IMAGE063
的路径表示,
Figure 912934DEST_PATH_IMAGE064
是sigmoid激活函数,
Figure 196147DEST_PATH_IMAGE065
是逐元素乘积运算,
Figure 80927DEST_PATH_IMAGE066
是可学习的参数矩阵用以合并两个路径的表示,最终对结点
Figure 82381DEST_PATH_IMAGE067
和结点
Figure 78019DEST_PATH_IMAGE068
之间所有可能的深度为
Figure 215739DEST_PATH_IMAGE063
路径表示求和,得到深度为
Figure 271420DEST_PATH_IMAGE069
的路径表示:
Figure 556907DEST_PATH_IMAGE070
其中,
Figure 28340DEST_PATH_IMAGE071
用于控制深层路径信息的流入,通过漫游聚合层(Walk AggregationLayer),达到了结点之间边的表示,通过类似于游走所有可能的路径后进行更新的目的,从而做到每个边的表示都是考虑了特定的上下文后产生的独一无二的表示。将漫游聚合层(Walk Aggregation Layer)产生的最后一层边的表示作为最终分类层(ClassificationLayer)的输入,进行模型的学习和推理。
所述面向边的图神经网络模型是经过训练的,相应的,所述面向边的图神经网络模型的训练过程具体为:获取待测实体对;根据所述待测实体对,得到所述面向边的图神经网络模型的总损失函数;相应的,所述根据所述待测实体对,得到所述面向边的图神经网络模型的总损失函数包括如下步骤:根据所述待测实体对,得到所述实体对的关系概率;根据所述关系概率,得到所述边的交叉熵损失函数;获取正例软化的F值损失函数和负例软化的F值损失函数;将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加,得到所述面向边的图神经网络模型的总损失函数。
具体地,根据所述待测实体对,得到所述实体对的关系概率;举例说明,对输入的文档文本,通过匹配词表得到对应的编号(ID),然后将文本转化为词表中对应的序号ID序列,并将整个序号ID序列送入嵌入层(Embedding Layer)获得每个词的词嵌入表示;将嵌入层(Embedding Layer)的输出以句子为整体,将文档中的每个句子送入本地编码层(LocalEncoding Layer),利用其中的BiLSTM或者RNN神经网络,如图4所示,得到每个词在句子内的局部信息表示,并由此产生实体提及结点的表示、句子结点的表示以及实体结点的表示;利用本地编码层(Local Encoding Layer)和全局编码层(Global Encoding Layer)
中得到的结点,构建结点之间的边,并初始化为深度为1的路径表示,从而形成文档图结构。本说明通过将外部知识具象化为结点的方式加入到已有的文档图结构。对每个知识图谱或知识库
Figure 348463DEST_PATH_IMAGE072
,通过可行的手段获得其中每个实体
Figure 512728DEST_PATH_IMAGE073
的向量化表示
Figure 285512DEST_PATH_IMAGE074
,并作为额外的结点K连接到与文档图结构中的对应的实体结点E。为此,本说明引入了两种知识进行结合外部知识的实体关系抽取:外部结构性知识以及外部描述性知识。
外部结构性知识是对外部知识图谱经过知识图谱嵌入技术得到的实体向量化表示。通过知识图谱嵌入技术,保证存在关系的两个实体之间的得分函数值高于不存在关系的两个实体,从而使得知识图谱的结构性知识在实体表示中得以保留。
知识图谱嵌入技术根据得分函数设计原理的不同,可以分为翻译距离模型和语义匹配模型,本说明分别采用TransE以及RESCAL两种具有代表性知识图谱嵌入技术来获得知识图谱(如MeSH和BioChem4j)中的实体表示
Figure 357373DEST_PATH_IMAGE075
a)TransE作为翻译距离模型的代表,采用了朴素的思想学习知识图谱的嵌入表示,即<头实体h,关系r,尾实体t>满足
Figure 735265DEST_PATH_IMAGE076
的假设,从而保证具有关系的两个实体在嵌入空间中距离相近,从而利用加法的传递性隐式建模两个实体之间多跳关系,即若
Figure 867169DEST_PATH_IMAGE077
Figure 127249DEST_PATH_IMAGE078
之间存在关系
Figure 940484DEST_PATH_IMAGE079
Figure 235199DEST_PATH_IMAGE080
Figure 475688DEST_PATH_IMAGE081
之间存在关系
Figure 488643DEST_PATH_IMAGE082
,一直
Figure 105569DEST_PATH_IMAGE083
Figure 257721DEST_PATH_IMAGE084
之间存在关系
Figure 934690DEST_PATH_IMAGE085
,那么存在隐式的关系链
Figure 169362DEST_PATH_IMAGE086
使得:
Figure 121137DEST_PATH_IMAGE087
,
然而,TransE往往会受到复杂关系的影响,产生过度平滑的问题,模型过于信任假设,导致最终学习得到的嵌入表示没有区分度,失去了提供外部结构性知识的能力。TransE的目标函数采用了负采样的max-margin函数:
Figure 328128DEST_PATH_IMAGE088
,
其中,
Figure 972736DEST_PATH_IMAGE089
是事实三元组,而
Figure 632387DEST_PATH_IMAGE090
是通过采样得到的非事实三元组,
Figure 653433DEST_PATH_IMAGE091
通常为1,表示间隔参数(margin)。最终以学习到的
Figure 714930DEST_PATH_IMAGE092
作为
Figure 796018DEST_PATH_IMAGE093
b)RESCAL作为一种语义匹配模型,通过双线性函数捕捉两个实体之间的潜在语义,相比于TransE能够更好地处理具有实体之间存在复杂关系的知识图谱嵌入。RESCAL将实体关系的三元组表示为三维张量
Figure 739703DEST_PATH_IMAGE094
,如果
Figure 236544DEST_PATH_IMAGE095
则表示存在事实三元组<第
Figure 949285DEST_PATH_IMAGE096
实体,第
Figure 201275DEST_PATH_IMAGE097
个关系,第
Figure 835518DEST_PATH_IMAGE098
个实体>,并采用张量分解模型对关系进行隐式建模:
Figure 198367DEST_PATH_IMAGE099
其中,
Figure 968877DEST_PATH_IMAGE100
表示
Figure 391768DEST_PATH_IMAGE094
的第
Figure 513307DEST_PATH_IMAGE097
个分量,
Figure 148688DEST_PATH_IMAGE101
包含实体的潜在表示,
Figure 101601DEST_PATH_IMAGE102
是对称阵,用于对第
Figure 633076DEST_PATH_IMAGE097
个谓词中潜在的相互作用进行建模,RESCAL的目标函数是学习能够重建
Figure 38650DEST_PATH_IMAGE094
的隐式向量表示:
Figure 946563DEST_PATH_IMAGE103
最终以
Figure 753982DEST_PATH_IMAGE104
对应的分量作为
Figure 456359DEST_PATH_IMAGE105
在得到相应的实体表示
Figure 349228DEST_PATH_IMAGE106
后,通过拼接
Figure 529674DEST_PATH_IMAGE106
以及类型向量
Figure 188670DEST_PATH_IMAGE107
,得到结构性知识结点的初始化表示
Figure 124265DEST_PATH_IMAGE108
。将结构性知识结点与对应的实体结点连接(Entity-Knowledge of Structure,EKS),构建二者之间边的初始化表示:
Figure 442113DEST_PATH_IMAGE109
,并同样映射到与之前文档图结构中边的表示的相同空间中:
Figure 488567DEST_PATH_IMAGE110
,
通过知识图谱嵌入技术得到的实体表示仅代表了实体所在的知识图谱中的结构信息,仅靠该信息无法提供实体本身具有的语义信息,而这种缺少的语义信息往往是通过实体的定义表达的,本文称之为外部描述性知识。
在本说明中,使用了两种对描述性知识进行向量表示的方式:
a)Doc2vec方式(也叫Paragraph2vec),受到Word2vec训练得到词向量方式的启发,Tomas Mikolov进一步提出了Doc2vec,能够将一个句子或是一篇短文变成相应的固定长度的低维向量表示。原始的根据上下文预测中心词的CBOW(Continuous Bag-of-Words)形式的Word2vec的目标函数为:
Figure 208261DEST_PATH_IMAGE111
其中,
Figure 314757DEST_PATH_IMAGE112
为分类器给出的中心词
Figure 916640DEST_PATH_IMAGE113
预测概率,
Figure 704468DEST_PATH_IMAGE114
如图5所示给出了PV-DM(Distributed Memory Model of paragraph vectors)形式的Doc2vec训练方式,该训练方式与CBOW类似,首先从句子/短文中依照滑动窗口的策略得到固定长度的文本序列,将除去选定的目标中心词以外的词作为上下文输入,然后将段落(Paragraphid)作为Word2vec模型中额外的输入,并预测选定的目标中心词,通过多次移动滑动窗口进行训练的方式将句子与其中的单词关联起来。
在本章节中,首先对每个实体
Figure 340985DEST_PATH_IMAGE115
描述文本拆分成以句子为最小单元的描述集合
Figure 556066DEST_PATH_IMAGE116
,对所有实体的描述集合取并集得到
Figure 645245DEST_PATH_IMAGE117
,并对集合中的每个句子
Figure 236763DEST_PATH_IMAGE118
通过Doc2vec获得低维向量表示
Figure 462208DEST_PATH_IMAGE119
,则实体
Figure 910507DEST_PATH_IMAGE120
的外部描述性知识表示取
Figure 690244DEST_PATH_IMAGE121
中所有句子的低维向量表示的平均:
Figure 882191DEST_PATH_IMAGE122
,
b)端到端神经网络方式,如图6所示,通过复用嵌入层(Embedding Layer)和本地编码层(Local Encoding Layer)对描述文本进行编码得到描述性知识的表示,减少了所需要拟合的参数量,同时希望增强本地编码层(Local Encoding Layer)对局部信息的表示能力。具体来说,对实体
Figure 165405DEST_PATH_IMAGE123
的描述包含的句子序列
Figure 50184DEST_PATH_IMAGE124
,将句子
Figure 848376DEST_PATH_IMAGE125
首先依次经过嵌入层(Embedding Layer)和本地编码层(LocalEncoding Layer)中的BiLSTM或者RNN神经网络
Figure 516118DEST_PATH_IMAGE126
,得到局部表示
Figure 981734DEST_PATH_IMAGE127
,然后通过全局最大池(Global Max Pooling)得到当前句子内关键信息的表示
Figure 975098DEST_PATH_IMAGE128
Figure 260586DEST_PATH_IMAGE129
,
并对描述文本包含的所有句子的关键信息表示进行平均,得到最终的描述性知识表示
Figure 997597DEST_PATH_IMAGE130
Figure 317720DEST_PATH_IMAGE131
对每个句子进行全局最大池(Global Max Pooling),目的是捕捉句子内关键词的信息,通过对每个句子的关键信息进行平均,达到同时考虑可能的关键词的效果,而不会因为某个错误的关键词而影响总体的描述性知识表示效果。
c)词向量方式,如图6至图7所示,仅复用嵌入层(Embedding Layer)对描述性文本进行表示,目的是避免CTD中的文本和PubMed中的文本在用词上存在语义偏移等分布差异,无法直接共享本地编码层(Local Encoding Layer)带来的局部信息,因此仅使用嵌入层(Embedding Layer)共享底层文本的词向量表示。具体来讲,对于每个句子
Figure 216406DEST_PATH_IMAGE125
对应的词向量表示
Figure 254769DEST_PATH_IMAGE127
,利用线性变化矩阵
Figure 529893DEST_PATH_IMAGE132
将其映射到新的表示空间
Figure 707452DEST_PATH_IMAGE133
Figure 42618DEST_PATH_IMAGE134
并同样经过全局最大池(Global Max Pooling)得到句子的关键信息表示
Figure 37119DEST_PATH_IMAGE135
,最终对实体
Figure 178251DEST_PATH_IMAGE136
对应的描述文本包含的所有关键信息表示进行平均,得到描述性知识表示
Figure 410649DEST_PATH_IMAGE137
如图8所示,通过拼接外部描述性知识的向量表示
Figure 713454DEST_PATH_IMAGE138
以及类型向量
Figure 664093DEST_PATH_IMAGE139
得到描述性知识结点的初始化表示
Figure 343336DEST_PATH_IMAGE140
。将描述性知识结点连接到对应的实体结点上构建边(Entity-Knowledge of Description,EKD),其初始化表示为:
Figure 430240DEST_PATH_IMAGE141
Figure 903947DEST_PATH_IMAGE142
为权重,并映射到相同的边的表示空间中:
Figure 76302DEST_PATH_IMAGE143
然后根据所述关系概率,得到所述边的交叉熵损失函数;举例说明,通过对需要判断的实体对
Figure 559236DEST_PATH_IMAGE144
对应的表示送入分类器,得到每种关系的概率:
Figure 297385DEST_PATH_IMAGE145
其中,
Figure 145255DEST_PATH_IMAGE146
为逻辑回归函数,
Figure 867224DEST_PATH_IMAGE147
为权重,
Figure 825953DEST_PATH_IMAGE148
为深度为
Figure 949766DEST_PATH_IMAGE149
的路径表示,
Figure 968538DEST_PATH_IMAGE150
为常数。
采用分类的方式进行关系抽取,利用交叉熵损失函数:
Figure 912223DEST_PATH_IMAGE151
其中,
Figure 471380DEST_PATH_IMAGE152
是数据集中待抽取的关系总数加
Figure 387384DEST_PATH_IMAGE153
Figure 639374DEST_PATH_IMAGE154
是实体对
Figure 273617DEST_PATH_IMAGE155
之间的真实关系情况,
Figure 636466DEST_PATH_IMAGE156
是模型预测的概率。
然后获取正例软化的F值损失函数和负例软化的F值损失函数;举例说明,采用了软化的F值损失函数(Soft F-Measure Loss Function)作为关系抽取中额外的损失,具体来讲,该损失函数将原本计算F值需要用到的计数值:真正例数(TP)、假正例数(FP)、真负例数(TN)以及假负例数(FN)通过改用预测概率的方式进行软化,即:
Figure 406975DEST_PATH_IMAGE157
Figure 829867DEST_PATH_IMAGE158
Figure 685827DEST_PATH_IMAGE159
Figure 852366DEST_PATH_IMAGE160
,
其中,
Figure 742962DEST_PATH_IMAGE161
为训练时batch size的大小。由此,可以得到软化后的P、R和F值:
Figure 333825DEST_PATH_IMAGE162
,
Figure 677081DEST_PATH_IMAGE163
,
Figure 381732DEST_PATH_IMAGE164
,
Figure 126834DEST_PATH_IMAGE165
就是软化后的F值,所以软化后的F值损失函数为:
Figure 891528DEST_PATH_IMAGE166
本说明额外考虑了负例情况下的F值,具体来讲:
Figure 722081DEST_PATH_IMAGE167
Figure 964843DEST_PATH_IMAGE168
Figure 892348DEST_PATH_IMAGE169
Figure 765626DEST_PATH_IMAGE170
最后将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加,得到所述面向边的图神经网络模型的总损失函数。例如,最终改进后的总损失函数为:
Figure 880212DEST_PATH_IMAGE171
得到所述总损失函数后,就可以根据所述总损失函数,对预设的第一网络模型进行训练,当所述总损失函数满足预设的值时,如0.000001,训练结束,以得到面向边的图神经网络模型。
得到更新后的边后,将所述更新后的边输入分类器,得到文档文本的实体关系抽取结果。
示例性设备
如图9中所示,本发明实施例提供一种基于文档结构和外部知识的文档级实体关系抽取装置,该装置包括结构图构建单元401,结构图初始化结果获取单元402,文档文本的实体关系抽取结果获取单元403,其中:
结构图构建单元401,用于获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;
结构图初始化结果获取单元402,用于初始化所述结构图的所述结点和所述边,得到结构图初始化结果;
文档文本的实体关系抽取结果获取单元403,用于基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图10所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文档结构和外部知识的文档级实体关系抽取方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图10中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;
初始化所述结构图的所述结点和所述边,得到结构图初始化结果;
基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种基于文档结构和外部知识的文档级实体关系抽取方法,所述方法包括:
本发明实施例首先获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点包括具有内部结构信息的结点和具有外部知识的结点,所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点;然后初始化所述结构图的所述结点和所述边,得到结构图初始化结果;最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果;可见,本发明实施例中例通过上述方法得到实体关系抽取结果,提升文档级别关系抽取的性能,解决了正负样例不均衡的问题,具备更好的处理部分知识缺失的能力,同时具有较好的可扩展性。
基于上述实施例,本发明公开了一种基于文档结构和外部知识的文档级实体关系抽取方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述方法包括:
获取文档文本,并根据所述文档文本构建文档文本对应的结构图,其中,所述结构图包括所述文档文本的结点和所述结点之间的边;所述结点用于表征文档内部结构信息中的实体提及、实体、句子、信息、章节和文档以及实体具有的外部知识;
初始化所述结构图的所述结点和所述边,得到结构图初始化结果;
基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果。
2.根据权利要求1所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述根据所述文档文本构建文档文本对应的结构图包括:
根据所述文档文本构建所述文档文本的结点;
根据所述结点构建所述结点之间的边;
根据所述结点和所述边,构建文档文本对应的结构图。
3.根据权利要求1所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述初始化所述结构图的所述结点和所述边,得到结构图初始化结果包括:
对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量;
对表征实体具有的外部知识的所述结点进行初始化处理,得到第二结点初始化向量;
设置所述边的初始值,得到边初始化向量,并将所述边初始化向量作为结构图初始化结果。
4.根据权利要求3所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述对表征文档内部结构信息的所述结点进行初始化处理,得到第一结点初始化向量包括:
获取表征文档内部结构信息的所述结点对应的类型向量;
将表征文档内部结构信息的所述结点进行求平均,得到结点平均向量;
将所述类型向量和所述结点平均向量进行拼接,得到第一结点初始化向量。
5.根据权利要求4所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述对表征实体具有的外部知识的所述结点进行初始化处理,得到第二结点初始化向量包括:
将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接,得到第二结点初始化向量。
6.根据权利要求5所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型,得到更新后的边,并将所述更新后的边输入分类器,得到所述文档文本的实体关系抽取结果包括:
将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型,得到更新后的边;
将所述更新后的边输入分类器,得到文档文本的实体关系抽取结果。
7.根据权利要求6所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述面向边的图神经网络模型的训练过程具体为:
获取待测实体对;
根据所述待测实体对,得到所述面向边的图神经网络模型的总损失函数;
根据所述总损失函数,对预设的第一网络模型进行训练,以得到面向边的图神经网络模型。
8.根据权利要求7所述的基于文档结构和外部知识的文档级实体关系抽取方法,其特征在于,所述根据所述待测实体对,得到所述面向边的图神经网络模型的总损失函数包括:
根据所述待测实体对,得到所述实体对的关系概率;
根据所述关系概率,得到所述边的交叉熵损失函数;
获取正例软化的F值损失函数和负例软化的F值损失函数;
将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加,得到所述面向边的图神经网络模型的总损失函数。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中任意一项所述的方法。
CN202110597525.8A 2021-05-31 2021-05-31 一种基于文档结构和外部知识的文档级实体关系抽取方法 Active CN113032585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110597525.8A CN113032585B (zh) 2021-05-31 2021-05-31 一种基于文档结构和外部知识的文档级实体关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110597525.8A CN113032585B (zh) 2021-05-31 2021-05-31 一种基于文档结构和外部知识的文档级实体关系抽取方法

Publications (2)

Publication Number Publication Date
CN113032585A true CN113032585A (zh) 2021-06-25
CN113032585B CN113032585B (zh) 2021-08-20

Family

ID=76455902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110597525.8A Active CN113032585B (zh) 2021-05-31 2021-05-31 一种基于文档结构和外部知识的文档级实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN113032585B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN114610903A (zh) * 2022-03-29 2022-06-10 科大讯飞(苏州)科技有限公司 一种文本关系抽取方法、装置、设备以及存储介质
CN116069831A (zh) * 2023-03-28 2023-05-05 粤港澳大湾区数字经济研究院(福田) 一种事件关系的挖掘方法及相关装置
CN116663563A (zh) * 2023-07-27 2023-08-29 中国科学技术大学 基于多任务负采样的跨领域实体链接方法、装置及介质
WO2024179035A1 (zh) * 2023-02-27 2024-09-06 腾讯科技(深圳)有限公司 一种数据处理方法、设备、计算机可读存储介质及计算机程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
US20170060835A1 (en) * 2015-08-27 2017-03-02 Xerox Corporation Document-specific gazetteers for named entity recognition
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
US20200218988A1 (en) * 2019-01-08 2020-07-09 International Business Machines Corporation Generating free text representing semantic relationships between linked entities in a knowledge graph
CN112015904A (zh) * 2019-05-30 2020-12-01 百度(美国)有限责任公司 确定文档语料库的潜在主题的方法、系统和计算机可读介质
CN112307130A (zh) * 2020-10-21 2021-02-02 清华大学 一种文档级远程监督关系抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
US20170060835A1 (en) * 2015-08-27 2017-03-02 Xerox Corporation Document-specific gazetteers for named entity recognition
US20200218988A1 (en) * 2019-01-08 2020-07-09 International Business Machines Corporation Generating free text representing semantic relationships between linked entities in a knowledge graph
CN112015904A (zh) * 2019-05-30 2020-12-01 百度(美国)有限责任公司 确定文档语料库的潜在主题的方法、系统和计算机可读介质
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN112307130A (zh) * 2020-10-21 2021-02-02 清华大学 一种文档级远程监督关系抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAO LI 等: "KEoG: A knowledge-aware edge-oriented graph neural network for document-level relation extraction", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536795A (zh) * 2021-07-05 2021-10-22 杭州远传新业科技有限公司 实体关系抽取的方法、系统、电子装置和存储介质
CN114610903A (zh) * 2022-03-29 2022-06-10 科大讯飞(苏州)科技有限公司 一种文本关系抽取方法、装置、设备以及存储介质
WO2024179035A1 (zh) * 2023-02-27 2024-09-06 腾讯科技(深圳)有限公司 一种数据处理方法、设备、计算机可读存储介质及计算机程序产品
CN116069831A (zh) * 2023-03-28 2023-05-05 粤港澳大湾区数字经济研究院(福田) 一种事件关系的挖掘方法及相关装置
CN116069831B (zh) * 2023-03-28 2023-08-15 粤港澳大湾区数字经济研究院(福田) 一种事件关系的挖掘方法及相关装置
CN116663563A (zh) * 2023-07-27 2023-08-29 中国科学技术大学 基于多任务负采样的跨领域实体链接方法、装置及介质
CN116663563B (zh) * 2023-07-27 2023-11-17 中国科学技术大学 基于多任务负采样的跨领域实体链接方法、装置及介质

Also Published As

Publication number Publication date
CN113032585B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN113032585B (zh) 一种基于文档结构和外部知识的文档级实体关系抽取方法
CN111951805B (zh) 一种文本数据处理方法及装置
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN111368993B (zh) 一种数据处理方法及相关设备
CN112288075B (zh) 一种数据处理方法及相关设备
CN111488734A (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN111386524B (zh) 促进特定于域和客户端的应用程序接口推荐
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN112214604A (zh) 文本分类模型的训练方法、文本分类方法、装置及设备
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111344695B (zh) 促进特定于域和客户端的应用程序接口推荐
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
Bae et al. Flower classification with modified multimodal convolutional neural networks
CN112579883B (zh) 一种面向序列反馈的物品推荐方法、智能终端及存储介质
CN112347761B (zh) 基于bert的药物关系抽取方法
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN109885832A (zh) 模型训练、语句处理方法、装置、计算机设备及存储介质
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN111881292B (zh) 一种文本分类方法及装置
CN111368531A (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant