CN113032585A

CN113032585A - 一种基于文档结构和外部知识的文档级实体关系抽取方法

Info

Publication number: CN113032585A
Application number: CN202110597525.8A
Authority: CN
Inventors: 汤步洲; 李涛; 熊英; 陈清财
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-06-25
Anticipated expiration: 2041-05-31
Also published as: CN113032585B

Abstract

本发明公开了一种基于文档结构和外部知识的文档级实体关系抽取方法，所述方法包括：获取文档文本，并根据所述文档文本构建文档文本对应的结构图，初始化所述结构图的所述结点和所述边，得到结构图初始化结果；基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。本发明实施例通过上述方法得到实体关系抽取结果，提升文档级别关系抽取的性能，解决了正负样例不均衡的问题，具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。

Description

一种基于文档结构和外部知识的文档级实体关系抽取方法

技术领域

本发明涉及人工智能技术领域，尤其涉及的是一种基于文档结构和外部知识的文档级实体关系抽取方法。

背景技术

随着信息爆炸时代的来临，信息抽取在如今海量的非结构化文本数据的处理中具有重要地位。关系抽取是信息抽取的重要组成部分，在知识图谱、信息检索、问答系统、情感分析和文本挖掘等场景都有广泛应用，旨在从给定的文本中抽取两个实体对<实体1，实体2>之间特定种类的信息，从而输出结构化的三元组信息<实体1，关系，实体2>，是实体抽取和事件抽取之间的桥梁。

现有的关系抽取的研究主要针对句子级别的关系抽取展开，传统的关系抽取方式主要通过基于特征的方法和核方法等传统的统计模型进行关系分类，需要人工构建相应的特征，既费时又费力，且不具备可扩展性，效果上也并不令人满意。随着深度学习在自然语言处理技术中的普及，卷积神经网络CNN和循环神经网络RNN等神经网络因其能够自动提取文本特征而被大量采用。在关系抽取领域，通过使用这类神经网络对上下文的语义信息进行建模的方法在句子级别的关系抽取中取得了不错的效果。在此基础上，研究人员们扩展了许多新的方法，包括加入注意力机制、结合预训练语言模型和多任务学习等策略，并通过实验证明了有效性。

普通的句子级别的关系抽取无法满足在包含多个句子的冗长的文档中的应用需求，导致信息存在大量的丢失，使得后续任务的效果难以得到满足。文档级别的关系抽取作为句子级别关系抽取任务的超集，更加贴近实际应用场景，作为信息抽取中重要的一环，如何提升文档级别的关系抽取的效果具有重要研究意义。然而在文档级别的关系抽取中，在对每个实体提及对或实体对可能存在的关系进行分类时，不仅需要考虑每个实体提及所在的句子的信息，还需要结合其他实体提及的信息、其他句子的信息甚至是更高层次的主题信息进行综合判断，而每个实体对依赖的上下文信息数目往往是不同的，靠CNN和RNN等仅能在欧几里得空间中对上下文信息建模的能力无法满足文档上下文中复杂语义的建模需求，因此对非欧式空间数据建模的图神经网络也被提上研究热题，对图神经网络的研究早已存在，然而受限于当时的计算能力，并没有受到研究人员的广泛关注，随着深度学习的发展以及受到卷积神经网络的启发，图卷积神经网络以及其他的图神经网络开始蓬勃发展，并在自然语言处理领域开始生根发芽，基于图神经网络的文档关系抽取的研究也开始兴起。

在文档级别的关系抽取中，往往受到关系样例不均衡的困扰，实体对之间存在关系的情况的数目往往少于实体对之间不存在关系的情况的数目，且不同关系的数目差异也往往十分巨大，头部的几个关系往往出现较多，而长尾部分的关系出现次数十分稀少。而传统机器学习方法中依靠采样方式解决数据不平衡的方法并不能直接适用于文档级别的关系抽取场景。一篇文档中可能存在多个实体对的关系的情况，且会造成数据分布不同、信息浪费等问题，而现有的通过修改样本权重或者设计新的损失函数的解决数据不平衡的方法依赖人工，对超参数进行调整的方法费时又费力，带来的效果也不尽人意，因而，探索一种让网络自适应解决文档级别关系抽取任务中样例不均衡问题的方法具有重要研究意义。

普通的深度学习神经网络作为人工智能中联结主义的集大成者，通常依赖大量的训练样本来到达更好的模型性能，而以知识图谱为代表的知识驱动是符号主义的人工智能的分支，相比于联结主义具备更高的可解释性，但是存在推理层面应用困难的问题，因此将符号主义和联结主义结合的人工智能被研究人员们寄予了厚望。探索在神经网络中采用外部知识的合理性方法的研究愈演愈烈，其不但能够缓解神经网络中需要大量训练样本的问题，同时能够增加神经网络结果的可解释性。在实体关系抽取任务中，除了利用文档内部的上下文信息，实体本身存在一定的外部知识可以进一步利用，也就是通过知识图谱等外部知识增强实体的关系抽取效果。而以往利用知识图谱增强自然语言相关技术的方式存在不便于处理部分知识缺失以及可扩展性低等缺点，无法充分发挥外部知识具有的作用。

因此，现有技术还有待改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于文档结构和外部知识的文档级实体关系抽取方法，旨在解决现有技术中文档抽取方法需要人工构建相应的特征，既费时又费力，且不具备可扩展性，对超参数进行调整的方法费时又费力，不便于处理部分知识缺失以及可扩展性低等缺点，无法充分发挥外部知识具有的作用的问题。

本发明解决问题所采用的技术方案如下：

第一方面，本发明实施例提供一种基于文档结构和外部知识的文档级实体关系抽取方法，其中，所述方法包括：

获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；其中，所述具有内部结构信息的结点包括实体提及结点、实体结点、句子结点、章节结点、文档结点；

初始化所述结构图的所述结点和所述边，得到结构图初始化结果；

基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。

在一种实现方式中，其中，所述根据所述文档文本构建文档文本对应的结构图包括：

根据所述文档文本构建所述文档文本的结点；

根据所述结点构建所述结点之间的边；

根据所述结点和所述边，构建文档文本对应的结构图。

在一种实现方式中，其中，所述初始化所述结构图的所述结点和所述边，得到结构图初始化结果包括：

对表征文档内部结构信息的所述结点进行初始化处理，得到第一结点初始化向量；

对表征实体具有的外部知识的所述结点进行初始化处理，得到第二结点初始化向量；

设置所述边的初始值，得到边初始化向量，并将所述边初始化向量作为结构图初始化结果。

在一种实现方式中，其中，所述对表征文档内部结构信息的所述结点进行初始化处理，得到第一结点初始化向量包括：

获取表征文档内部结构信息的所述结点对应的类型向量；

将表征文档内部结构信息的所述结点进行求平均，得到结点平均向量；

将所述类型向量和所述结点平均向量进行拼接，得到第一结点初始化向量。

在一种实现方式中，其中，所述对表征实体具有的外部知识的所述结点进行初始化处理，得到第二结点初始化向量包括：

将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接，得到第二结点初始化向量。

在一种实现方式中，其中，所述基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果包括：

将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型，得到更新后的边；

将所述更新后的边输入分类器，得到文档文本的实体关系抽取结果。

在一种实现方式中，其中，所述面向边的图神经网络模型的训练过程具体为：

获取待测实体对；

根据所述待测实体对，得到所述面向边的图神经网络模型的总损失函数；

根据所述总损失函数，对预设的第一网络模型进行训练，以得到面向边的图神经网络模型。

在一种实现方式中，其中，所述根据所述待测实体对，得到所述面向边的图神经网络模型的总损失函数包括：

根据所述待测实体对，得到所述实体对的关系概率；

根据所述关系概率，得到所述边的交叉熵损失函数；

获取正例软化的F值损失函数和负例软化的F值损失函数；

将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加，得到所述面向边的图神经网络模型的总损失函数。

第二方面，本发明实施例还提供一种基于文档结构和外部知识的文档级实体关系抽取装置，其中，所述装置包括：

结构图构建单元，用于获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点用于表征文档内部结构信息中的实体提及、实体、句子、信息、章节和文档以及实体具有的外部知识；

结构图初始化结果获取单元，用于初始化所述结构图的所述结点和所述边，得到结构图初始化结果；

文档文本的实体关系抽取结果获取单元，用于基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。

第三方面，本发明实施例还提供一种智能终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的基于文档结构和外部知识的文档级实体关系抽取方法。

第四方面，本发明实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述中任意一项基于文档结构和外部知识的文档级实体关系抽取方法。

本发明的有益效果：本发明实施例首先获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；然后初始化所述结构图的所述结点和所述边，得到结构图初始化结果；最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果；可见，本发明实施例中通过上述方法得到实体关系抽取结果，提升文档级别关系抽取的性能，解决了正负样例不均衡的问题，具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于文档结构和外部知识的文档级实体关系抽取方法流程示意图。

图2为本发明实施例提供的文档结构中结点来源图。

图3为本发明实施例提供的文档内部结构图。

图4为本发明实施例提供的结点表示来源图。

图5为本发明实施例提供的doc2vec模型图。

图6为本发明实施例提供的复用词嵌入层和局部编码层的外部描述性知识表示结构图。

图7为本发明实施例提供的仅复用词嵌入层的外部描述性知识表示结构图。

图8为本发明实施例提供的为加入外部知识后的文档图结构示意图。

图9为本发明实施例提供的基于文档结构和外部知识的文档级实体关系抽取装置的原理框图。

图10为本发明实施例提供的智能终端的内部结构原理框图。

具体实施方式

本发明公开了基于文档结构和外部知识的文档级实体关系抽取方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

由于现有技术中，文档抽取方法需要人工构建相应的特征，既费时又费力，且不具备可扩展性，对超参数进行调整的方法费时又费力，不便于处理部分知识缺失以及可扩展性低等缺点，无法充分发挥外部知识具有的作用。

为了解决现有技术的问题，本实施例提供了一种基于文档结构和外部知识的文档级实体关系抽取方法，通过上述方法得到实体关系抽取结果，提升文档级别关系抽取的性能，解决了正负样例不均衡的问题，具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。具体实施时，首先获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；然后初始化所述结构图的所述结点和所述边，得到结构图初始化结果；最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。

举例说明，关系抽取是信息抽取的重要组成部分，在知识图谱、信息检索、问答系统、情感分析和文本挖掘等场景都有广泛应用，旨在从给定的文本中抽取两个实体对<实体1，实体2>之间特定种类的信息，从而输出结构化的三元组信息<实体1，关系，实体2>，是实体抽取和事件抽取之间的桥梁。该发明主要包括3部分：1）文档图结构的构建；2）采用损失函数自适应地解决样例不均衡问题；3）将结点运用到外部知识中。本发明提出基于文档结构的实体关系抽取模型，多角度挖掘文档内部的上下文信息，并组成文档图结构，其中包含的结点有：实体、实体提及、句子、章节以及文档，并根据结点直接存在的层级关系，构建对应结点之间的边。在此图结构的基础上，本发明采用面向边的图神经网络进行关系抽取，加入的图结构信息能够更好地捕捉全局的上下文语义信息，面向边的图神经网络可以更好地处理具有非欧式特征的文档图结构数据以提升文档级别关系抽取的性能。

本发明采用了额外的损失函数以处理文档中存在的正负关系样例不均衡问题，使得模型能够自适应地、更针对性地解决该问题。以往通过采样方式解决样例不均衡问题不适用于本文这种多示例学习下的关系抽取，因为采样方式认为每个实体对都是以独立的样本存在于数据集中的，从而可以通过采样改变正负样本的分布，而本发明针对的文档级别关系抽取中，一篇文档作为一个样本，其中存在许多实体对的样例，模型认为每个实体对都具有独一无二的信息，采样方式要么会丢失部分信息，要么会改变这种独一无二性。而通过改变权重来解决样例不均衡的问题，依赖研究人员对任务本身中的数据具有比较可靠的洞察和先验知识，且不具备迁移性，每更新一个数据集，就需要重新设计权重。本发明使用的损失函数不依赖人工设计的超参数，也不会改变数据本身的分布情况，具有极佳的解决正负样例不均衡的效果。

本发明也在基于文档结构的实体关系抽取基础上，采用了外部知识，形成结合外部知识的实体关系抽取。通过将外部知识具象化为结点的方式加入知识，模型能够比原有的知识增强方式具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。本发明采用了两种外部知识，丰富实体对在关系抽取中的语义信息，这两种外部知识分别为：外部结构性知识和外部描述性知识，外部结构性知识捕捉的是实体在知识图谱中邻域的结构信息，在向量意义上可以表示两个实体之间存在的隐式关系信息；而外部描述性知识捕捉的是实体本身的文本化的定义，从字符之间的潜在语义连接两个实体。在本实施例中，首先获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；然后初始化所述结构图的所述结点和所述边，得到结构图初始化结果；最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。本发明实施例通过上述方法得到实体关系抽取结果，提升文档级别关系抽取的性能，解决了正负样例不均衡的问题，具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。

示例性方法

本实施例提供一种基于文档结构和外部知识的文档级实体关系抽取方法，该方法可以应用于人工智能的智能终端。具体如图1所示，所述方法包括：

步骤S100、获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；

具体地，现有技术已有基于图神经网络的文档关系抽取模型，基于现有技术，本发明多角度挖掘文档内部的上下文信息组成文档图结构，其中包含的结点有：实体、实体提及、句子、章节以及文档，并根据结点直接存在的层级关系，构建对应结点之间的边。其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点，其中，所述具有内部结构信息的结点包括实体提及结点、实体结点、句子结点、章节结点、文档结点。在此图结构的基础上，本发明引入面向边的图神经网络进行关系抽取，加入的图结构信息能够更好地捕捉全局的上下文语义信息，面向边的图神经网络可以更好地处理具有非欧式特征的文档图结构数据以提升文档级别关系抽取的性能。为了提高关系抽取的性能，本发明也在基于文档结构的实体关系抽取基础上，引入了外部知识，形成结合外部知识的实体关系抽取。通过将外部知识具象化为结点的方式加入知识，模型能够比原有的知识增强方式具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。本发明引入了两种外部知识，丰富实体对在关系抽取中的语义信息，这两种外部知识分别为：外部结构性知识和外部描述性知识，外部结构性知识捕捉的是实体在知识图谱中邻域的结构信息，在向量意义上可以表示两个实体之间存在的隐式关系信息；而外部描述性知识捕捉的是实体本身的文本化的定义，从字符之间的潜在语义连接两个实体。

为了得到结构图，所述根据所述文档文本构建文档文本对应的结构图包括如下步骤：根据所述文档文本构建所述文档文本的结点；根据所述结点构建所述结点之间的边；根据所述结点和所述边，构建文档文本对应的结构图。

具体地，根据所述文档文本构建所述文档文本的结点；如图2所示，从文档具有内部结构信息的角度，结点包括：（1）实体提及结点（Mention Node，M），表示文档每个句子中出现的实体提及；（2）实体结点（Entity Node，E），表示对实体提及对应的知识图谱中标准化的实体；（3）句子结点（Sentence Node，S），将文档中出现的所有句子作为结点；（4）章节结点（Section Node，C），将文档中的标题和摘要作为不同的章节结点；（5）文档结点（Document Node，D），将整个文档作为一个结点。然后根据所述结点构建所述结点之间的边；

从实体具有的外部知识的角度，结点包括：（1）外部结构性知识结点（Knowledgeof Structure Node，KS），是外部知识图谱中的结点；（2）外部描述性知识结点（Knowledgeof Description Node，KD），将实体的描述性文本知识作为结点。

结点之间的边包括：（1）实体提及-句子（Mention-Sentence，MS），当实体提及出现在一个句子内时，那么对应的实体提及结点和句子结点之间存在边；（2）实体提及-实体提及（Mention-Mention，MM），当两个实体提及同时出现在同一个句子内时，这两个实体提及结点之间存在边；（3）实体提及-实体（Mention-Entity，ME），实体提及结点与其本身对应的实体的结点之间存在边；（4）句子-句子（Sentence-Sentence，SS），对于所有出现在文档里的句子结点，为了保证信息的完备，句子结点两两之间都存在边；（5）实体-句子（Entity-Sentence，ES），当一个实体e对应的实体提及m出现在一个句子s内时，实体e对应的结点和句子s对应的结点之间存在边；（6）句子-章节（Sentence-Section，SC），一个句子只会在一个章节内出现，要么是标题章节，要么是简介章节，那么句子结点与其所在的章节结点之间存在边，同时本文认为标题对整个文档起到概要的作用，因此将标题章节与所有的句子都相连；（7）章节-章节（Section-Section，CC），同一个文档中的两个章节结点之间存在边；（8）文档-章节（Document-Section，DC），章节结点与其所在的文档结点之间存在边；（9）将结构性知识结点与对应的实体结点连接（Entity-Knowledge of Structure，EKS）；（10）将描述性知识结点连接到对应的实体结点上构建边（Entity-Knowledge of Description，EKD）。最后根据所述结点和所述边，构建文档文本对应的结构图。

得到文档文本对应的结构图后，就可以执行如图1中的如下步骤：S200、初始化所述结构图的所述结点和所述边，得到结构图初始化结果；

具体地，对结构图中的所述结点和所述边采用不同的初始化方式，以得到结构图初始化结果。

为了得到结构图初始化结果，所述初始化所述结构图的所述结点和所述边，得到结构图初始化结果包括如下步骤：

S201、对表征文档内部结构信息的所述结点进行初始化处理，得到第一结点初始化向量；

S202、对表征实体具有的外部知识的所述结点进行初始化处理，得到第二结点初始化向量；

S203、设置所述边的初始值，得到边初始化向量，并将所述边初始化向量作为结构图初始化结果。

具体地，对表征文档内部结构信息的所述结点进行初始化处理，得到第一结点初始化向量；相应的，为了得到第一结点初始化向量，所述对表征文档内部结构信息的所述结点进行初始化处理，得到第一结点初始化向量包括如下步骤：获取表征文档内部结构信息的所述结点对应的类型向量；将表征文档内部结构信息的所述结点进行求平均，得到结点平均向量；将所述类型向量和所述结点平均向量进行拼接，得到第一结点初始化向量。

具体地，先获取表征文档内部结构信息的所述结点对应的类型向量；然后将表征文档内部结构信息的所述结点进行求平均，得到结点平均向量；最后将所述类型向量和所述结点平均向量进行拼接，得到第一结点初始化向量。举例说明，实体提及结点（MentionNode，M），表示文档每个句子中出现的实体提及，将实体提及包括的所有单词

经过BiLSTM或者RNN层得到的局部信息表示

取平均，并与实体提及类型向量

拼接得到实体提及结点的初始化表示

；实体结点（Entity Node，E），表示对实体提及对应的知识图谱中标准化的实体，实体结点的初始化表示是对所有对应的实体提及结点的初始化表示求平均之后，拼接实体类型向量

得到

；句子结点（Sentence Node，S），将文档中出现的所有句子作为结点，句子结点的表示由句子中所有词

的局部信息表示

取平均，并与句子类型向量

拼接得到

；章节结点（Section Node，C），将文档中的标题和摘要作为不同的章节结点，首先将文档

中所有句子结点

的表示依次送入下一层BiLSTM或者RNN神经网络

中得到

，由此对所有句子进行全局信息的编码，章节结点的表示由其中包含的所有句子结点的表示求平均，并与章节类型向量

拼接得到

；文档结点（Document Node，D），将整个文档作为一个结点，文档结点的表示是通过章节结点的表示求平均

得到，同时拼接文档类型向量

得到

。

得到第一结点初始化向量后，还需得到第二结点初始化向量；相应的，所述对表征实体具有的外部知识的所述结点进行初始化处理，得到第二结点初始化向量包括如下步骤：将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接，得到第二结点初始化向量。

具体地，将表征实体具有的外部知识的所述结点对应的实体向量和表征实体具有的外部知识的所述结点对应的类型向量进行拼接，得到第二结点初始化向量。举例说明，利用知识图谱嵌入技术在得到相应的实体表示

后，通过拼接

以及类型向量

，得到结构性知识结点的初始化表示

；通过拼接外部描述性知识的向量表示

以及类型向量

得到描述性知识结点的初始化表示

。

得到第二结点初始化向量之后，设置所述边的初始值，得到边初始化向量，并将所述边初始化向量作为结构图初始化结果。如图3所示，举例说明，实体提及-句子（Mention-Sentence, MS），当实体提及出现在一个句子内时，那么对应的实体提及结点和句子结点之间存在边，边的表示

；实体提及-实体提及（Mention-Mention, MM），当两个实体提及n1，n2同时出现在同一个句子内时，这两个实体提及结点之间存在边，边的表示包括两个实体提及的表示、两个实体提及在句子中相对距离的向量表示

以及实体之间的注意力向量

，得到

，其中，注意力向量

考虑了上下文对实体提及的重要性，计算方式为：

，

，

，

，

其中，

表示该边连接的两个实体提及结点，

是第

个单词对实体提及对

的注意力权重值，

是句子中所有单词的表示，得到的

是经过注意力机制之后的上下文表示；实体提及-实体（Mention-Entity，ME），实体提及结点与其本身对应的实体的结点之间存在边

；句子-句子（Sentence-Sentence，SS），对于所有出现在文档里的句子结点，为了保证信息的完备，句子结点两两之间都存在边，句子结点之间边的表示除了考虑句子结点的表示，额外还考虑了句子

和

之间的距离向量

以及句子结点表示之间差值的绝对值

，

，其中，借助句子结点之间的差值的绝对值

，来衡量句子结点之间的距离，实现引入句子结点表示的交互信息，从而更好的提供实体提及的上下文信息；实体-句子（Entity-Sentence，ES），当一个实体

对应的实体提及m出现在一个句子

内时，实体

对应的结点和句子

对应的结点之间存在边

；句子-章节（Sentence-Section, SC），一个句子只会在一个章节内出现，要么是标题章节，要么是简介章节，那么句子结点与其所在的章节结点之间存在边，同时本文认为标题对整个文档起到概要的作用，因此将标题章节与所有的句子都相连，

；章节-章节（Section-Section, CC），同一个文档中的两个章节结点之间存在边

；文档-章节（Document-Section，DC），章节结点与其所在的文档结点之间存在边

。实体-结构性知识（Entity-Knowledge of Structure，EKS），

；实体-描述性知识（Entity-Knowledge of Description，EKD），其初始化表示为：

。

并利用不同的线性变换，由此保证不同类型的边的表示映射到相同的向量空间中。

，

其中，z为下标，

为不同的线性变换，由此保证不同类型的边的表示映射到向量空间，

是可学习的参数矩阵，我们将由此得到的边的表示认为是结点之间深度为1的路径的表示

。

得到结构图初始化结果后，可以执行如图1所示的如下步骤：步骤S300、基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。

具体地，本发明将文档拆分成多个单独的句子，对每个句子

中的词嵌入层依次送入一个BiLSTM或者RNN神经网络得到

，由此对每个句子内的局部信息进行编码。为了处理文档中存在的正负关系样例不均衡问题，本发明采用了额外的损失函数，使得面向边的图神经网络模型能够自适应地、更针对性地解决该问题。本发明使用的损失函数不依赖人工设计的超参数，也不会改变数据本身的分布情况，该方法具有极佳的解决正负样例不均衡的效果。输入结构图、所述结构图初始化结果后，使得训练后的面向边的图神经网络模型性能更好，得到更新后的边，并将所述更新后的边输入分类器，得到文档文本的实体关系抽取结果。

为了得到文档文本的实体关系抽取结果，所述基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果包括如下步骤：

步骤S301、将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型，得到更新后的边；

步骤S302、将所述更新后的边输入分类器，得到文档文本的实体关系抽取结果。

具体地，先将所述结构图和所述结构图初始化结果输入至经过训练的所述面向边的图神经网络模型，得到更新后的边；举例说明，通过Walk Aggregation Layer更新边的表示：

，

其中，

表示两个结点之间深度为

的路径表示，

是sigmoid激活函数，

是逐元素乘积运算，

是可学习的参数矩阵用以合并两个路径的表示，最终对结点

和结点

之间所有可能的深度为

路径表示求和，得到深度为

的路径表示：

，

其中，

用于控制深层路径信息的流入，通过漫游聚合层（Walk AggregationLayer），达到了结点之间边的表示，通过类似于游走所有可能的路径后进行更新的目的，从而做到每个边的表示都是考虑了特定的上下文后产生的独一无二的表示。将漫游聚合层（Walk Aggregation Layer）产生的最后一层边的表示作为最终分类层（ClassificationLayer）的输入，进行模型的学习和推理。

所述面向边的图神经网络模型是经过训练的，相应的，所述面向边的图神经网络模型的训练过程具体为：获取待测实体对；根据所述待测实体对，得到所述面向边的图神经网络模型的总损失函数；相应的，所述根据所述待测实体对，得到所述面向边的图神经网络模型的总损失函数包括如下步骤：根据所述待测实体对，得到所述实体对的关系概率；根据所述关系概率，得到所述边的交叉熵损失函数；获取正例软化的F值损失函数和负例软化的F值损失函数；将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加，得到所述面向边的图神经网络模型的总损失函数。

具体地，根据所述待测实体对，得到所述实体对的关系概率；举例说明，对输入的文档文本，通过匹配词表得到对应的编号（ID），然后将文本转化为词表中对应的序号ID序列，并将整个序号ID序列送入嵌入层（Embedding Layer）获得每个词的词嵌入表示；将嵌入层（Embedding Layer）的输出以句子为整体，将文档中的每个句子送入本地编码层（LocalEncoding Layer），利用其中的BiLSTM或者RNN神经网络，如图4所示，得到每个词在句子内的局部信息表示，并由此产生实体提及结点的表示、句子结点的表示以及实体结点的表示；利用本地编码层（Local Encoding Layer）和全局编码层(Global Encoding Layer)

中得到的结点，构建结点之间的边，并初始化为深度为1的路径表示，从而形成文档图结构。本说明通过将外部知识具象化为结点的方式加入到已有的文档图结构。对每个知识图谱或知识库

，通过可行的手段获得其中每个实体

的向量化表示

，并作为额外的结点K连接到与文档图结构中的对应的实体结点E。为此，本说明引入了两种知识进行结合外部知识的实体关系抽取：外部结构性知识以及外部描述性知识。

外部结构性知识是对外部知识图谱经过知识图谱嵌入技术得到的实体向量化表示。通过知识图谱嵌入技术，保证存在关系的两个实体之间的得分函数值高于不存在关系的两个实体，从而使得知识图谱的结构性知识在实体表示中得以保留。

知识图谱嵌入技术根据得分函数设计原理的不同，可以分为翻译距离模型和语义匹配模型，本说明分别采用TransE以及RESCAL两种具有代表性知识图谱嵌入技术来获得知识图谱（如MeSH和BioChem4j）中的实体表示

。

a）TransE作为翻译距离模型的代表，采用了朴素的思想学习知识图谱的嵌入表示，即<头实体h，关系r，尾实体t>满足

的假设，从而保证具有关系的两个实体在嵌入空间中距离相近，从而利用加法的传递性隐式建模两个实体之间多跳关系，即若

与

之间存在关系

，

与

之间存在关系

，一直

与

之间存在关系

，那么存在隐式的关系链

使得：

,

然而，TransE往往会受到复杂关系的影响，产生过度平滑的问题，模型过于信任假设，导致最终学习得到的嵌入表示没有区分度，失去了提供外部结构性知识的能力。TransE的目标函数采用了负采样的max-margin函数：

,

其中，

是事实三元组，而

是通过采样得到的非事实三元组，

通常为1，表示间隔参数（margin）。最终以学习到的

作为

；

b）RESCAL作为一种语义匹配模型，通过双线性函数捕捉两个实体之间的潜在语义，相比于TransE能够更好地处理具有实体之间存在复杂关系的知识图谱嵌入。RESCAL将实体关系的三元组表示为三维张量

，如果

则表示存在事实三元组<第

实体，第

个关系，第

个实体>，并采用张量分解模型对关系进行隐式建模：

，

其中，

表示

的第

个分量，

包含实体的潜在表示，

是对称阵，用于对第

个谓词中潜在的相互作用进行建模，RESCAL的目标函数是学习能够重建

的隐式向量表示：

，

最终以

对应的分量作为

。

在得到相应的实体表示

后，通过拼接

以及类型向量

，得到结构性知识结点的初始化表示

。将结构性知识结点与对应的实体结点连接（Entity-Knowledge of Structure，EKS），构建二者之间边的初始化表示：

，并同样映射到与之前文档图结构中边的表示的相同空间中：

,

通过知识图谱嵌入技术得到的实体表示仅代表了实体所在的知识图谱中的结构信息，仅靠该信息无法提供实体本身具有的语义信息，而这种缺少的语义信息往往是通过实体的定义表达的，本文称之为外部描述性知识。

在本说明中，使用了两种对描述性知识进行向量表示的方式：

a）Doc2vec方式（也叫Paragraph2vec），受到Word2vec训练得到词向量方式的启发，Tomas Mikolov进一步提出了Doc2vec，能够将一个句子或是一篇短文变成相应的固定长度的低维向量表示。原始的根据上下文预测中心词的CBOW（Continuous Bag-of-Words）形式的Word2vec的目标函数为：

，

其中，

为分类器给出的中心词

预测概率，

，

如图5所示给出了PV-DM（Distributed Memory Model of paragraph vectors）形式的Doc2vec训练方式，该训练方式与CBOW类似，首先从句子/短文中依照滑动窗口的策略得到固定长度的文本序列，将除去选定的目标中心词以外的词作为上下文输入，然后将段落（Paragraphid）作为Word2vec模型中额外的输入，并预测选定的目标中心词，通过多次移动滑动窗口进行训练的方式将句子与其中的单词关联起来。

在本章节中，首先对每个实体

描述文本拆分成以句子为最小单元的描述集合

，对所有实体的描述集合取并集得到

，并对集合中的每个句子

通过Doc2vec获得低维向量表示

，则实体

的外部描述性知识表示取

中所有句子的低维向量表示的平均：

,

b）端到端神经网络方式，如图6所示，通过复用嵌入层（Embedding Layer）和本地编码层（Local Encoding Layer）对描述文本进行编码得到描述性知识的表示，减少了所需要拟合的参数量，同时希望增强本地编码层（Local Encoding Layer）对局部信息的表示能力。具体来说，对实体

的描述包含的句子序列

，将句子

首先依次经过嵌入层（Embedding Layer）和本地编码层（LocalEncoding Layer）中的BiLSTM或者RNN神经网络

，得到局部表示

，然后通过全局最大池（Global Max Pooling）得到当前句子内关键信息的表示

：

,

并对描述文本包含的所有句子的关键信息表示进行平均，得到最终的描述性知识表示

：

。

对每个句子进行全局最大池（Global Max Pooling），目的是捕捉句子内关键词的信息，通过对每个句子的关键信息进行平均，达到同时考虑可能的关键词的效果，而不会因为某个错误的关键词而影响总体的描述性知识表示效果。

c）词向量方式，如图6至图7所示，仅复用嵌入层（Embedding Layer）对描述性文本进行表示，目的是避免CTD中的文本和PubMed中的文本在用词上存在语义偏移等分布差异，无法直接共享本地编码层（Local Encoding Layer）带来的局部信息，因此仅使用嵌入层（Embedding Layer）共享底层文本的词向量表示。具体来讲，对于每个句子

对应的词向量表示

，利用线性变化矩阵

将其映射到新的表示空间

，

，

并同样经过全局最大池（Global Max Pooling）得到句子的关键信息表示

，最终对实体

对应的描述文本包含的所有关键信息表示进行平均，得到描述性知识表示

。

如图8所示，通过拼接外部描述性知识的向量表示

以及类型向量

得到描述性知识结点的初始化表示

。将描述性知识结点连接到对应的实体结点上构建边（Entity-Knowledge of Description，EKD），其初始化表示为：

，

为权重，并映射到相同的边的表示空间中：

。

然后根据所述关系概率，得到所述边的交叉熵损失函数；举例说明，通过对需要判断的实体对

对应的表示送入分类器，得到每种关系的概率：

。

其中，

为逻辑回归函数，

为权重，

为深度为

的路径表示，

为常数。

采用分类的方式进行关系抽取，利用交叉熵损失函数：

，

其中，

是数据集中待抽取的关系总数加

，

是实体对

之间的真实关系情况，

是模型预测的概率。

然后获取正例软化的F值损失函数和负例软化的F值损失函数；举例说明，采用了软化的F值损失函数（Soft F-Measure Loss Function）作为关系抽取中额外的损失，具体来讲，该损失函数将原本计算F值需要用到的计数值：真正例数（TP）、假正例数（FP）、真负例数（TN）以及假负例数（FN）通过改用预测概率的方式进行软化，即：

，

，

，

,

其中，

为训练时batch size的大小。由此，可以得到软化后的P、R和F值：

,

,

,

当

就是软化后的F值，所以软化后的F值损失函数为：

，

本说明额外考虑了负例情况下的F值，具体来讲：

，

，

，

，

最后将所述交叉熵损失函数、所述正例软化的F值损失函数和所述负例软化的F值损失函数进行相加，得到所述面向边的图神经网络模型的总损失函数。例如，最终改进后的总损失函数为：

。

得到所述总损失函数后，就可以根据所述总损失函数，对预设的第一网络模型进行训练，当所述总损失函数满足预设的值时，如0.000001，训练结束，以得到面向边的图神经网络模型。

得到更新后的边后，将所述更新后的边输入分类器，得到文档文本的实体关系抽取结果。

示例性设备

如图9中所示，本发明实施例提供一种基于文档结构和外部知识的文档级实体关系抽取装置，该装置包括结构图构建单元401，结构图初始化结果获取单元402，文档文本的实体关系抽取结果获取单元403，其中：

结构图构建单元401，用于获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；

结构图初始化结果获取单元402，用于初始化所述结构图的所述结点和所述边，得到结构图初始化结果；

文档文本的实体关系抽取结果获取单元403，用于基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图10所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文档结构和外部知识的文档级实体关系抽取方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图10中的原理图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

综上所述，本发明公开了一种基于文档结构和外部知识的文档级实体关系抽取方法，所述方法包括：

本发明实施例首先获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点包括具有内部结构信息的结点和具有外部知识的结点，所述具有外部知识的结点包括外部结构性知识结点和外部描述性知识结点；然后初始化所述结构图的所述结点和所述边，得到结构图初始化结果；最后基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果；可见，本发明实施例中例通过上述方法得到实体关系抽取结果，提升文档级别关系抽取的性能，解决了正负样例不均衡的问题，具备更好的处理部分知识缺失的能力，同时具有较好的可扩展性。

基于上述实施例，本发明公开了一种基于文档结构和外部知识的文档级实体关系抽取方法，应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述方法包括：

获取文档文本，并根据所述文档文本构建文档文本对应的结构图，其中，所述结构图包括所述文档文本的结点和所述结点之间的边；所述结点用于表征文档内部结构信息中的实体提及、实体、句子、信息、章节和文档以及实体具有的外部知识；

2.根据权利要求1所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述根据所述文档文本构建文档文本对应的结构图包括：

根据所述文档文本构建所述文档文本的结点；

根据所述结点构建所述结点之间的边；

根据所述结点和所述边，构建文档文本对应的结构图。

3.根据权利要求1所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述初始化所述结构图的所述结点和所述边，得到结构图初始化结果包括：

4.根据权利要求3所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述对表征文档内部结构信息的所述结点进行初始化处理，得到第一结点初始化向量包括：

获取表征文档内部结构信息的所述结点对应的类型向量；

5.根据权利要求4所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述对表征实体具有的外部知识的所述结点进行初始化处理，得到第二结点初始化向量包括：

6.根据权利要求5所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述基于结构图、所述结构图初始化结果、经过训练的面向边的图神经网络模型，得到更新后的边，并将所述更新后的边输入分类器，得到所述文档文本的实体关系抽取结果包括：

7.根据权利要求6所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述面向边的图神经网络模型的训练过程具体为：

获取待测实体对；

8.根据权利要求7所述的基于文档结构和外部知识的文档级实体关系抽取方法，其特征在于，所述根据所述待测实体对，得到所述面向边的图神经网络模型的总损失函数包括：

根据所述待测实体对，得到所述实体对的关系概率；

根据所述关系概率，得到所述边的交叉熵损失函数；

获取正例软化的F值损失函数和负例软化的F值损失函数；

9.一种智能终端，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任意一项所述的方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-8中任意一项所述的方法。