CN110196913A

CN110196913A - 基于文本生成式的多实体关系联合抽取方法和装置

Info

Publication number: CN110196913A
Application number: CN201910436234.3A
Authority: CN
Inventors: 鄂海红; 宋美娜; 肖思琪; 牛佩晴; 陈忠富; 张文静
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-03

Abstract

本申请提出一种基于文本生成式的多实体关系联合抽取方法和装置，其中，方法包括：将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量；对每个词的词嵌入向量进行特征抽取，获取每个词的高级特征表示向量；对高级特征表示向量进行解码，在每个时刻生成目标实体或关系词，以获取生成序列，生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。该方法通过将实体关系抽取任务转化为文本生成任务，将实体及关系词作为目标文本生成，并生成一组或多组关系三元组，以此实现实体和关系的联合抽取，实体可以重复出现在多个三元组中，解决了实体重叠及多关系下实体关系抽取问题。

Description

基于文本生成式的多实体关系联合抽取方法和装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于文本生成式的多实体关系联合抽取方法和装置。

背景技术

随着互联网技术的快速发展，信息呈爆炸式增长，如何准确高效地从这些文本中抽取出有效信息成为一个亟需解决的需求。实体关系抽取作为自然语言处理领域和信息抽取领域的核心任务之一，是从非结构化或者半结构化的文本中，通过关系抽取技术，提取事实类信息，如指定的实体、关系等，并以结构化的形式保存下来，同时作为优化搜索引擎、建立知识图谱、开发智能问答系统等应用的基础工作，受到了学术界和工业界的广泛关注，并在新闻、生物医药、金融、电子商务等许多领域中都进行了相关研究和应用。

相关技术中，主要针对一句话内简单情况进行讨论，并没有充分考虑实际文本(如新闻报道、电子文稿等)中存在的复杂情况。但是，目前大多数数据源以新闻报道、互联网文本等非结构化形式存在，句子内通常包含多关系(句子内包含多个关系三元组)及实体重叠(一个实体存在于多个关系三元组中)的场景。因此如何准确得抽取出句子内包含的多个有效实体及关系信息是当下面临的一个重要挑战。

发明内容

本申请提出一种基于文本生成式的多实体关系联合抽取方法和装置，用于解决相关技术中现实场景下语料包含的多关系及实体重叠的实体关系抽取问题。

本申请一方面实施例提出了一种基于文本生成式的多实体关系联合抽取方法，包括：

将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量；

对每个词的词嵌入向量进行特征抽取，获取每个词的高级特征表示向量；

对所述高级特征表示向量进行解码，在每个时刻生成目标实体或关系词，以获取生成序列，所述生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。

本申请实施例的基于文本生成式的多实体关系联合抽取方法，通过将实体关系抽取任务转化为文本生成任务，将实体及关系词作为目标文本生成，并生成一组或多组关系三元组，以此实现实体和关系的联合抽取，实体可以重复出现在多个三元组中，解决了实体重叠及多关系下实体关系抽取问题。

作为本申请一方面实施例一种可能的实现方式，所述将待处理句子中的每个词用编码向量表示之前，还包括：

对所述待处理句子进行预处理，所述预处理包括分词和去除停用词。

作为本申请一方面实施例一种可能的实现方式，所述将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量，包括：

将待处理句子中的每个词通过其对应的标识，映射为固定维度的词向量表示，得到每个词的词嵌入向量。

作为本申请一方面实施例一种可能的实现方式，所述编码器为双向长短期记忆网络，所述双向长短期记忆网络包括：前向长短期记忆网络和后向长短期记忆网络，所述将每个词的词嵌入向量通过编码器编码进行特征抽取，获取每个词的高级特征表示向量，包括：

分别用前向长短期记忆网络和后向长短期记忆网络，对每个词的词嵌入向量进行编码；

将每个词对应的所述前向长短期记忆网络输出的向量，与所述后向长短期记忆网络输出的向量进行拼接，获取每个词的隐藏编码向量，所述隐藏编码向量包含上下文语义信息。

作为本申请一方面实施例一种可能的实现方式，所述解码器为单向长短期记忆网络。

本申请另一方面实施例提出了一种基于文本生成式的多实体关系联合抽取装置，包括：

词嵌入模块，用于将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量；

特征抽取模块，用于对每个词的词嵌入向量进行特征抽取，获取每个词的高级特征表示向量；

生成模块，用于对所述高级特征表示向量进行解码，在每个时刻生成目标实体或关系词，以获取生成序列，所述生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。

本申请实施例的基于文本生成式的多实体关系联合抽取装置，通过将实体关系抽取任务转化为文本生成任务，将实体及关系词作为目标文本生成，并生成一组或多组关系三元组，以此实现实体和关系的联合抽取，实体可以重复出现在多个三元组中，解决了实体重叠及多关系下实体关系抽取问题。

作为本申请另一方面实施例一种可能的实现方式，该装置还包括：

预处理模块，用于对所述待处理句子进行预处理，所述预处理包括分词和去除停用词。

作为本申请另一方面实施例一种可能的实现方式，所述词嵌入模块，具体用于：

作为本申请另一方面实施例一种可能的实现方式，利用双向长短期记忆网络进行特征抽取，所述双向长短期记忆网络包括：前向长短期记忆网络和后向长短期记忆网络，所述特征抽取模块，具体用于：

分别用所述前向长短期记忆网络和所述后向长短期记忆网络，对每个词的词嵌入向量进行编码；

作为本申请另一方面实施例一种可能的实现方式，所述生成模块利用单向长短期记忆网络进行解码。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取方法的流程示意图；

图2为本申请实施例提供的实体关系抽取模型框架示意图；

图3为本申请实施例提供的另一种基于文本生成式的多实体关系联合抽取的流程示意图；

图4为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于文本生成式的多实体关系联合抽取方法和装置。

图1为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取方法的流程示意图。

本申请实施例的基于文本生成式的多实体关系联合抽取方法，是通过实体关系抽取模型实现的。其中，实体关系抽取模型包括词嵌入层、编码器和解码器，其中，编码器为特征抽取层。后续会对该模型进行详细阐述。

如图1所示，该基于文本生成式的多实体关系联合抽取方法包括：

步骤101，将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量。

本实施例中，可以根据标点符号对原始语料进行分句，经过分句处理后的句子，可以作为待处理句子。这里的是原始语料可以从非结构化或者半结构化的文本。

本实施例中，可通过实体关系抽取模型中的词嵌入层得到每个词的词嵌入向量，具体地，对每个待处理句子，可以将待处理句子中的每个词通过其对应的标识，映射为固定维度的词向量表示，得到每个词的词嵌入向量。其中，待处理句子中每个词具有唯一的标识，每个词对应的标识可以是该词在词表中的位置编号。

具体而言，将待处理句子中的词转换为其所对应的标识(每个词具有一个唯一的标识)，然后根据每个词的标识在词向量矩阵中映射为固定维度的词向量表示。其中，词向量矩阵可以通过Skip-gram或C-bow等方法预训练得到，或者在实体关系抽取模型初始化时随机生成，并随着实体关系抽取模型的训练过程进行参数的更新。通过预训练的方法得到的词向量矩阵，可以在一定程度上表达词与词之间的相似度关系，因此可采用预训练的方式获取词向量矩阵。

为了提高实体关系抽取的准确率，在对待处理句子的每个词用编码向量表示之前，可先进行预处理，如进行分词、去除停用词等数据预处理工作。

步骤102，对每个词的词嵌入向量进行特征抽取，获取每个词的高级特征表示向量。

本实施例中，将每个词的词嵌入向量进一步通过实体关系抽取模型中的特征抽取层进行编码来获取更高级的特征表示向量，即获取每个词的隐藏编码向量。在具体实现时，可以采用双向长短期记忆网络(Bidirectional Long Short-Term Memory，简称Bi-LSTM)作为特征抽取层，由此得到的每个词的隐藏编码向量可以包含该词的上下文中的语义信息。

长短期记忆网络(Long Short-Term Memory，简称LSTM)能够解决传统循环神经网络(Recurrent Neural Network，简称RNN)无法处理长期依赖的问题，同时避免了梯度消失和梯度爆炸。

本实施例中，Bi-LSTM包括：前向LSTM和后向LSTM。在进行特征抽取时，分别用前向LSTM和后向LSTM，对每个词的词嵌入向量进行编码，然后将每个词对应的前向LSTM输出的向量与后向LSTM输出的向量进行拼接，由此获取每个词的隐藏编码向量。其中，隐藏编码向量包含上下文语义信息。

也就是说，Bi-LSTM由两个分开的LSTM层构成，这两层分别从不同的方向进行编码：前向(从左至右)和后向(从右至左)，并将两层的输出拼接起来作为最终的隐藏编码向量。因此，通过Bi-LSTM得到的每个词的特征向量隐藏编码向量，能够包含其上下文的语义信息，使每个词都能获得更高级的编码向量表示。

步骤103，对所述高级特征表示向量进行解码，在每个时刻生成目标实体或关系词，以获取生成序列，生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。

本实施例中，通过实体关系抽取模型中的解码器对高级特征表示向量进行解码，解码器在每个时刻生成目标实体或关系词，在本申请中可约束解码器每3个时刻为一组来生成关系三元组。具体的，在第3n+1时刻生成关系，在3n+2时刻生成第一个实体，在3n+3时刻生成第二个实体。

在实际应用中，可设定0≤n≤19，由此设定解码器最多包含60步，即最多可生成20个关系三元组。

由于每个解码步之间存在一定的影响，为了使从前向后的顺序影响关系能够随时刻传播，本申请可采用单向LSTM作为解码器实现实体和关系的联合生成。

在解码阶段可以生成多个关系三元组，实体可以重复出现在多个三元组中，具有解决实体重叠及多关系等复杂场景下的实体关系抽取能力。

下面结合图2对上述提到的实体关系抽取模型进行详细阐述。图2为本申请实施例提供的实体关系抽取模型框架示意图。

本申请实施例的实体关系抽取模型融合了词嵌入部分、特征抽取部分以及生成部分等三部分。

本申请中的实体关系抽取模型采用带有指针的Sequence-to-Sequence框架。Sequence-to-Sequence是一种从序列到序列的转换模型框架，一般是通过Encoder-Decoder(编码-解码)框架实现。指针可以理解为是实体关系抽取模型在每一个解码时刻在源文本上计算的概率分布，以选择在当前时刻最有可能从源文本中‘复制’的词。

实体关系抽取模型的目标是根据源文本中的具体情况来生成一组或多组关系三元组，同时允许实体重复出现，模型通过指针可以从源文本中复制词，例如实体信息，也可以从预定义的词表中生成词，例如关系表示词。实体关系抽取模型采用Bi-LSTM作为编码器，解码器采用单向LSTM结合Attention机制来生成每个时刻的词。

同时，本申请还利用一个生成概率P_gen来选择当前解码时刻具有更大的概率从源输入中复制词，还是更有可能从词表中生成词。根据待处理句子输入中的具体情况，来生成一组或多组关系三元组，进而实现实体及关系的联合抽取，实体可以重复出现在多个三元组中，通过这个方式解决实体重叠、多关系的抽取问题。

在图2中，实体关系抽取模型直接以句子分词的结果作为输入，无需任何附加的人工特征工程。如图2所示，下方的矩形框为实体关系抽取模型的编码器，右侧矩形框为解码器，编码器上方高度不同的矩形为某一具体解码时刻在隐藏编码向量上计算的注意力权重，隐藏编码向量的加权和称为上下文向量(context vector)，由上下文向量、生成概率P_gen、词表概率分布(vocabulary distribution)共同计算得到最终概率分布(finaldistribution)，最终概率分布是待处理句子中每个词和词表中每个词对应的概率构成的概率分布，从最终概率分布中选取概率最大的词作为当前时刻的输出。比如，某解码时刻得到的最终概率分布中最大概率为0.92，对应的词为“Oakland”，则词“Oakland”为当前时刻的输出。

例如，针对源输入‘John,23,who lives in Oakland,California.’，实体关系抽取模型的同时生成这句话内包含的两个关系三元组，即关系‘lived_in’所对应的实体对‘John，Okaland’以及关系‘contains’所对应的实体对‘California，Okaland’。

下面分别描述词嵌入层、Bi-LSTM编码器和解码器。

对于词嵌入层，给定一个句子s＝[w₁,w₂,...,w_n]，w_i代表长度为n的句子中的第i个词，首先通过词嵌入层将具有onehot编码的词转换为词向量矩阵，得到e＝[x₁,x₂,...,x_n]，x_i∈R_d代表第i个词的词嵌入向量。词嵌入矩阵最开始是随机初始化得到的，然后随着实体关系抽取模型的训练更新矩阵内的参数。

这里，onehot可以理解为一个向量，长度等于所有词的个数(词表的长度)，每个onehot编码只有唯一的一位为1(这个位置是词在词表中的位置，因此是唯一的)，其余为0。因此，每个词的onehot编码可以唯一标识每个词。

本实施例中，将Bi-LSTM作为特征抽取层，Bi-LSTM包括前向LSTM和后向LSTM。由于LSTM相比传统的RNN能够处理序列中的长期依赖问题，实体关系抽取模型采用Bi-LSTM使用两个分开的LSTM结构分别从两个方向将词向量进一步编码。

具体地，前向LSTM层按照从x₁到x_n的顺序进行编码得到e＝[x₁,x₂,...,x_n]中每个词对应的向量，相对的，后向LSTM层按照从x_n到x₁的顺序进行编码得到e＝[x₁,x₂,...,x_n]中每个词对应的向量。然后，将每个词对应的从前向和后向编码对应的向量拼接，可以得到每个词的隐藏编码向量。

比如，表示按照从x₁到x_n的顺序编码时得到的第t个词的向量，表示按照从x_n到x₁的顺序进行编码时得到的第t个词的向量，那么连接和作为序列中第t个词的最终编码向量表示即隐藏编码向量，表示为通过这种方式，每一个词最后的编码向量表示都可以包含其上下文的语义信息。

LSTM的结构包括三个门：遗忘门，输入门和输出门。其中，遗忘门控制从之前的细胞状态中丢弃多少信息，输入门控制有多少新的信息会更新到细胞状态中，输出门控制新的细胞状态有多少会被输出给下一个时刻。

本实施例中的解码器用来生成序列，可由单向LSTM网络构成，如公式(1)所示：

其中，cell为LSTM单元，为加权编码向量，在训练过程中，x_t-1为目标输出序列中的前一个词的词向量；在测试阶段，它代表前一解码时刻中生成的词的词向量。s_t-1代表t-1解码时刻的隐藏状态。

在每个解码时刻，实体关系抽取模型采用Attention(注意力)机制来计算编码器中的每个隐藏向量对当前解码状态的影响权重，得到当前时刻的加权编码向量表示称为上下文向量，注意力权重也可以视为目标生成词在待处理句子上的一个概率分布。计算方法如公式(2)-(4)所示：

a^t＝softmax(e^t) (3)

其中v、W_h、W_s及b_attn均为模型中的可学习参数，tanh和softmax是非线性激活函数，h_i是编码器在时刻i获得的隐藏编码向量，也可称为隐藏编码状态，为了区分编码器和解码器的隐藏状态，解码器的隐藏状态也可以称为解码状态，s_t是解码器当前时刻的解码状态，是由当前解码状态s_t和隐藏编码状态h_i计算得到的分数，是经softmax激活函数归一化得到的权重。

上下文向量与隐藏解码状态相连输入到线性层中，计算在词表上的概率分布P_vocab，如公式(5)所示：

其中W_v、b_v是模型中的可学习参数，s_t是当前时刻的解码状态，是加权编码向量，softmax是非线性激活函数。

同时，为了使实体关系抽取模型具有从源文本中复制词的能力，又能够保留实体关系抽取模型通过预定义的词表选择词的能力，我们在每个解码时刻由上下文向量解码状态s_t以及当前解码时刻的输入x_t共同计算一个生成概率p_gen，计算方式如公式(6)所示：

其中，当前解码时刻的输入x_t是实体关系抽取模型前一刻的输出，是模型学习到的参数W_h、W_s、W_x的转置，p_gen用来选择当前解码时刻生成的词，具有更大的概率从源文本中复制还是更有可能从预定义的词表中生成。最终根据p_gen实体关系抽取模型获得一个基于预定义词表的混合概率分布P_(w)，计算公式如公式(7)所示：

实体关系抽取模型选择具有最大概率的词作为当前解码时刻生成的词。在测试阶段，这个词的词向量将会作为下一解码时刻的输出。

对于实体来说，实体关系抽取模型会倾向于从源输入中复制词，因此对于那些并没有出现在预定义的词表中的实体，实体关系抽取模型可具有正确识别的能力；对于关系表示词，实体关系抽取模型更倾向于从词表中进行选择。但是以上这些信息是由实体关系抽取模型在训练的过程中自主学习到的，实体关系抽取模型不会受到外界任何的约束条件影响。

下面来介绍实体关系抽取模型的训练和解码。

在训练阶段，给定一个具有B个句子的batch数据S＝{s₁,s₂,...,s_b}，它们对应的目标序列Y＝{y₁,y₂,...,y_b}，其损失函数采用负对数似然函数，定义如公式(8)所示。

解码阶段，模型采用集束搜索(BeamSearch)的思想来增加输出序列的准确性。BeamSearch的优点是在每一解码步模型都保留多个选择，以防局部最优解是不正确的，并且将所有的候选序列按照全局分数进行排序，通过这个方法避免错误的累积传播。

本申请实施例提出的基于编码器-解码器的多实体关系三元组的实体关系抽取模型，可以解决一句话内的实体重叠及多关系抽取问题，且编码器-解码器结构具有一定的扩展性，可以使用bert、强化学习等方法进行替代。

下面结合图3对本申请实施例的基于文本生成式的多实体关系联合抽取方法进行详细说明。图3为本申请实施例提供的另一种基于文本生成式的多实体关系联合抽取的流程示意图。

如图3所示，整个实体关系抽取流程分为4个部分：(1)预处理部分；(2)词嵌入部分；(3)特征抽取部分；(4)生成部分。

其中，预处理部分是对原始语料进行分割得到多个句子，再通过分词以对句子进行分割。

词嵌入部分是将句子中的每个词通过其对应的标识(每个词具有唯一的标识)映射到固定维度的词向量上形成初步的编码向量表示，即形成词嵌入向量。

特征抽取部分是将词嵌入向量进一步进行编码来获取更高级的特征表示向量，具体可以通过Bi-LSTM实现，通过这个部分之后得到的每个词的隐藏编码向量可以包含其上下文中的语义信息。

生成部分包括序列生成和关系抽取两个过程。序列生成过程可以通过指针生成网络实现，具体是由解码器在每一解码步中生成当前时刻的词，每一时刻生成的词可能是实体或关系表示词，由此得到生成序列，同时将生成序列中的每连续3个时刻生成的词构成一组实体关系三元组实现关系抽取，从而完成实体和关系的联合抽取工作。

为了实现上述实施例，本申请实施例还提出一种基于文本生成式的多实体关系联合抽取装置。图4为本申请实施例提供的一种基于文本生成式的多实体关系联合抽取装置的结构示意图。

如图4所示，该基于文本生成式的多实体关系联合抽取装置包括：

词嵌入模块410，用于将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量；

特征抽取模块420，用于对每个词的词嵌入向量进行特征抽取，获取每个词的高级特征表示向量；

生成模块430，用于对所述高级特征表示向量进行解码，在每个时刻生成目标实体或关系词，以获取生成序列，生成序列中每个连续3个时刻生成的词构成一组实体关系三元组。

在本申请实施例一种可能的实现方式中，该装置还包括：

在本申请实施例一种可能的实现方式中，上述词嵌入模块410，具体用于：

在本申请实施例一种可能的实现方式中，利用双向长短期记忆网络进行特征抽取，双向长短期记忆网络包括：前向长短期记忆网络和后向长短期记忆网络，上述特征抽取模块420，具体用于：

将每个词对应的前向长短期记忆网络输出的向量，与后向长短期记忆网络输出的向量进行拼接，获取每个词的隐藏编码向量，隐藏编码向量包含上下文语义信息。

在本申请实施例一种可能的实现方式中，上述生成模块430利用单向长短期记忆网络进行解码。

需要说明的是，上述对基于文本生成式的多实体关系联合抽取方法实施例的解释说明，也适用于该实施例的基于文本生成式的多实体关系联合抽取装置，故在此不再赘述。

Claims

1.一种基于文本生成式的多实体关系联合抽取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将待处理句子中的每个词用编码向量表示之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述将待处理句子中的每个词用编码向量表示，得到每个词的词嵌入向量，包括：

4.如权利要求1所述的方法，其特征在于，利用双向长短期记忆网络进行特征抽取，所述双向长短期记忆网络包括：前向长短期记忆网络和后向长短期记忆网络，所述对每个词的词嵌入向量进行特征抽取，获取每个词的高级特征表示向量，包括：

5.如权利要求1所述的方法，其特征在于，将单向长短期记忆网络作为解码器，对所述高级特征表示向量进行解码。

6.一种基于文本生成式的多实体关系联合抽取装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求6所述的装置，其特征在于，所述词嵌入模块，具体用于：

9.如权利要求6所述的装置，其特征在于，利用双向长短期记忆网络进行特征抽取，所述双向长短期记忆网络包括：前向长短期记忆网络和后向长短期记忆网络，所述特征抽取模块，具体用于：

10.如权利要求6所述的装置，其特征在于，所述生成模块利用单向长短期记忆网络进行解码。