CN111666427A

CN111666427A - 一种实体关系联合抽取方法、装置、设备及介质

Info

Publication number: CN111666427A
Application number: CN202010538132.5A
Authority: CN
Inventors: 曾道建; 谢依玲; 赵超; 田剑
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-15
Anticipated expiration: 2040-06-12
Also published as: CN111666427B

Abstract

本申请公开了一种实体关系联合抽取方法、装置、设备及介质，包括：获取训练样本数据；利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算；当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。这样，对包括自注意力层的实体关系抽取模型进行训练，能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响，从而提升实体关系抽取的准确度。

Description

一种实体关系联合抽取方法、装置、设备及介质

技术领域

本申请涉及自然语言处理领域，特别涉及一种实体关系联合抽取方法、装置、设备及介质。

背景技术

实体关系抽取作为信息抽取的关键技术，具有重要的理论意义和广阔的应用前景。从理论价值层面看，实体关系抽取涉及到机器学习、数据挖掘、自然语言处理等多个学科的理论和方法。从应用层面看，实体关系抽取可用于自动构建大规模知识库。实体关系抽取还能为信息检索和自动问答系统的构建提供数据支持。实体关系抽取还在篇章理解、机器翻译等方面具有重要的研究意义。在关系抽取中，已经有许多关于抽取关系的方法。

目前进行实体关系抽取的方法主要是串联的抽取方法，即把实体和关系的抽取分为两个子任务：先采用实体识别模型抽取实体，再采用分类器得到实体对之间的关系。然而由于串联的方法分为两个任务，实体识别的结果会进一步影响关系抽取的结果，导致误差累积，同时子任务之间相互独立忽视了两个任务之间的关联性。事实上，实体识别影响关系分类，关系分类也影响着实体识别；如果两个词具有某种关系，可以根据两个词之间关系的类型预测两个实体的类型。这两个任务是相互依赖的。基于此提出了联合抽取的方法，即通过联合模型将两个任务合二为一，将关系抽取看作从非结构化文本中提取出实体关系三元组的过程。目前存在的联合抽取方法虽然消除了串联方法中两个子任务相互独立的问题，但存在关系抽取不够准确的问题。

发明内容

有鉴于此，本申请的目的在于提供一种实体关系联合抽取方法、装置、设备及介质，能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响，从而提升实体关系抽取的准确度。其具体方案如下：

第一方面，本申请公开了一种实体关系联合抽取方法，包括：

获取训练样本数据；

利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算；

当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。

可选的，所述实体关系抽取模型，还包括BERT层、NER层以及表填充层；

相应的，所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，包括：

将所述训练样本数据输入至所述BERT层，通过所述BERT层对句子进行划分，并将划分出的每个词映射为对应的词向量，以得到句子的上下文表示；

通过所述NER层对所述词向量进行线性CRF计算，得到对应的预测实体标记序列，以及将所述预测实体标记序列转换为对应的标签嵌入序列；

对所述词向量和所述标签嵌入序列进行拼接，得到目标向量；

通过所述表填充层对所述目标向量进行实体关系预测，得到对应的预测实体关系；

将所述预测实体关系输入至所述自注意力层进行注意力计算，得到对应的注意力计算后实体关系；

对所述注意力计算后实体关系与预定义关系向量进行内积运算，然后通过多标签分类器进行分类，得到每个词对应的实体关系。

可选的，所述实体关系联合抽取方法，还包括：

利用标签序列损失函数计算标签序列损失；其中，所述标签序列损失函数为

其中，τ为训练集，所述训练集包括全部所述训练样本数据，y^*为词序列x的人工标注的正确关系，所述词序列为通过所述BERT层对句子进行划分，得到的序列，p(y^*|x)为y^*对应的概率值。

可选的，所述实体关系联合抽取方法，还包括：

利用表填充损失函数计算表填充损失；其中，所述表填充损失函数为

其中，L^RE为表填充损失，τ为训练集，所述训练集包括全部所述训练样本数据，x为训练集τ中句子对应的词序列，

为词x_i的训练集中人工标注的正确关系；

表示词x_i的第j个有关系的实体，

表示词x_i和

间的训练集中人工标注的正确关系，第k个关系表示为

为词x_i和

间有关系

的概率。

可选的，所述通过所述BERT层对句子进行划分，并将划分出的每个词映射为对应的词向量，包括：

通过所述BERT层对句子进行划分，将划分出的每个词转换为对应的向量，然后将转换出的向量输入至编码器编码，以得到所述词向量。

可选的，所述实体关系联合抽取方法，还包括：

计算训练损失；所述训练损失包括标签序列损失和表填充损失。

第二方面，本申请公开了一种实体关系联合抽取装置，包括：

数据获取模块，用于获取训练样本数据；

模型训练模块，用于利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算；

关系抽取模块，用于当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。

可选的，所述实体关系联合抽取装置，还包括训练损失计算模块，用于计算训练损失；所述训练损失包括标签序列损失和表填充损失。

第三方面，本申请公开了一种实体关系联合抽取设备，包括处理器和存储器；其中，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序以实现前述的实体关系联合抽取方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的实体关系联合抽取方法。

可见，本申请先获取训练样本数据，然后利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算，最后当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。这样，对包括自注意力层的实体关系抽取模型进行训练，能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响，从而提升实体关系抽取的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种实体关系联合抽取方法流程图；

图2为本申请公开的一种具体的实体关系联合抽取方法流程图；

图3为本申请公开的一种具体的实体关系联合抽取方法流程图；

图4为本申请公开的一种具体的实体关系联合抽取方法的实施框架图；

图5为本申请公开的一种实体关系联合抽取装置结构示意图；

图6为本申请公开的一种实体关系联合抽取设备结构图；

图7为本申请公开的一种电子终端结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前进行实体关系抽取的方法主要是串联的抽取方法，即把实体和关系的抽取分为两个子任务：先采用实体识别模型抽取实体，再采用分类器得到实体对之间的关系。然而由于串联的方法分为两个任务，实体识别的结果会进一步影响关系抽取的结果，导致误差累积，同时子任务之间相互独立忽视了两个任务之间的关联性。事实上，实体识别影响关系分类，关系分类也影响着实体识别；如果两个词具有某种关系，可以根据两个词之间关系的类型预测两个实体的类型。这两个任务是相互依赖的。基于此提出了联合抽取的方法，即通过联合模型将两个任务合二为一，将关系抽取看作从非结构化文本中提取出实体关系三元组的过程。目前存在的联合抽取方法虽然消除了串联方法中两个子任务相互独立的问题，但存在关系抽取不够准确的问题。为此，本申请提供了一种实体关系联合抽取方案，能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响，从而提升实体关系抽取的准确度。

参见图1所示，本申请实施例公开了一种实体关系联合抽取方法，包括：

步骤S11：获取训练样本数据。

步骤S12：利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算。

在具体的实施方式中，本实施例中的所述实体关系抽取模型，还包括BERT(即Bidirectional Encoder Representations from Transformers)层、NER(即named entityrecognition，命名实体识别)层以及表填充层；相应的，所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，包括：

步骤S121：将所述训练样本数据输入至所述BERT层，通过所述BERT层对句子进行划分，并将划分出的每个词映射为对应的词向量，以得到句子的上下文表示。

在具体的实施方式中，本实施例可以通过所述BERT层对句子进行划分，将划分出的每个词转换为对应的向量，然后将转换出的向量输入至编码器编码，以得到所述词向量。具体的，先将句子用Wordpiece tokenizer划分成词，每个词的输入表示由每个词的标记、段、位置嵌入的和构成，通过BERT层给第一个词加上特殊标记([CLS])。用x＝{x₁,x₂,...,x_n}表示句子的词序列，x_n表示句子中的词，其中，n为句子的长度。然后通过BERT将每个词映射成一个词向量：先通过嵌入层将每一个词转换成向量，再将向量输入到编码器编码得到每个词的连续嵌入表示z＝{z₁,z₂,...,z_n}。

也即，本实施例通过BERT得到训练样本数据中句子的上下文表示。

步骤S122：通过所述NER层对所述词向量进行线性CRF(即conditional randomfield，条件随机场)计算，得到对应的预测实体标记序列，以及将所述预测实体标记序列转换为对应的标签嵌入序列。

也即，本实施例通过NER层进行线性CRF计算，得到最有可能的实体标记序列，然后转化为对应的标签嵌入序列h＝{h₁,h₂,...,h_n}。

并且，每个词x_i得到每个实体标记的得分计算为：

s_i＝V₁f(W₁z_i+b^z)+b^s，

其中，f(·)是激活函数，W₁、V₁是转换矩阵，b^z、b^s是偏置向量，l是隐层数目。若预测实体标记序列为y＝{y₁,y₂,…,y_n}，利用公式

计算所述线性CRF得分；

其中，

是词x_i的实体标记为y_i的得分，x_i为第i个词，y_i为x_i对应的实体标记，

是实体标记y_i-1到实体标记y_i的过渡得分。

为过渡矩阵，并且，有

其中，y＝{y₁,y₂,…,y_n}为所述预测实体标记序列，n为实体标记数量，p(y|x)为利用softmax函数计算出的所述预测实体标记序列对应的概率值，s(x,y)为所述预测实体标记序列对应的线性CRF得分，

为词序列x对应的实体标记序列集。

也即，本申请实施通过对实体标记序列集中的全部序列进行线性CRF计算，得到对应的线性CRF得分，进而得到对应的概率值，从而确定出预测实体序列。

步骤S123：对所述词向量和所述标签嵌入序列进行拼接，得到目标向量。

步骤S124：通过所述表填充层对所述目标向量进行实体关系预测，得到对应的预测实体关系。

在具体的实施方式中，本实施例可以对BERT层输出的词向量z_k和NER层输出的标签嵌入h_k得到目标向量g_k，通过所述表填充层对所述目标向量进行实体关系预测。具体的，通过公式f(Ug_j+Wg_i+b^r)预测任意两个词x_i和x_j之间的关系，其中，U、W为转换矩阵，b^r为偏置向量。

步骤S125：将所述预测实体关系输入至所述自注意力层进行注意力计算，得到对应的注意力计算后实体关系。

在具体的实施方式中，自注意力层的输出矩阵计算为：

其中，Q、K、V是每个输入的关系向量的查询、键和值表示，Q＝K＝V，D为Q、K的维度，每个序列中的单元和该序列中所有单元进行attention计算。首先输入关系向量，然后初始化权重得到Q、K、V表示，利用K和Q之间取一个点积得到输入向量的注意力得分，再在所有注意力得分中使用softmax，最后将每个输入的softmaxed attention得分和相应的V相乘之后相加得到输出向量。

步骤S126：对所述注意力计算后实体关系与预定义关系向量进行内积运算，然后通过多标签分类器进行分类，得到每个词对应的实体关系。

在具体的实施方式中，将注意力计算后实体关系和每个预定义好的关系向量进行内积，通过sigmoid多标签分类器得到每个词与其所选实体间的关系，词x_i和词x_j具有关系r_k的得分定义为：

s^(r)(g_j,g_i,r_k)＝V^(k)f(Ug_j+Wg_i+b^r)，

其中，V、U、W是转换矩阵，b^r是偏置向量，g_j＝[z_j；h_j]是BERT的输出z_j和词x_j的标签嵌入h_j的拼接。在表填充中，评估词x_j是词x_i的头实体并且具有关系r_k的概率为：

p_r(x_j,r_k|x_i)＝δ(s^(r)(g_j,g_i,r_k))，δ表示sigmoid变换。

步骤S13：当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。

需要指出的是，通过表填充层可以有效的解决重叠关系抽取的问题。

可见，本申请实施例先获取训练样本数据，然后利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算，最后当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。这样，对包括自注意力层的实体关系抽取模型进行训练，能够在实体关系的抽取过程中考虑其他三元组对当前预测关系的影响，从而提升实体关系抽取的准确度。

参见图2所示，本申请实施例公开了一种具体的实体关系联合抽取方法，包括：

步骤S21：获取训练样本数据。

步骤S22：利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算。

在具体的实施方式中，所述实体关系抽取模型，还包括BERT层、NER层以及表填充层；相应的，所述利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，包括：将所述训练样本数据输入至所述BERT层，通过所述BERT层对句子进行划分，并将划分出的每个词映射为对应的词向量，以得到句子的上下文表示；通过所述NER层对所述词向量进行线性CRF计算，得到对应的预测实体标记序列，以及将所述预测实体标记序列转换为对应的标签嵌入序列；对所述词向量和所述标签嵌入序列进行拼接，得到目标向量；通过所述表填充层对所述目标向量进行实体关系预测，得到对应的预测实体关系；将所述预测实体关系输入至所述自注意力层进行注意力计算，得到对应的注意力计算后实体关系；对所述注意力计算后实体关系与预定义关系向量进行内积运算，然后通过多标签分类器进行分类，得到每个词对应的实体关系。

步骤S23：计算训练损失；所述训练损失包括标签序列损失和表填充损失。

在本实施例中，利用训练损失函数计算训练损失，对于联合抽取实体关系，损失函数定义为标签序列损失即NER损失和基于自注意力机制的表填充的损失之和：L^N+L^RE。

在具体的实施方式中，本申请可以利用标签序列损失函数计算标签序列损失；其中，所述标签序列损失函数为

其中，τ为训练集，所述训练集包括全部所述训练样本数据，y^*为词序列x的人工标注的正确关系，所述词序列为通过所述BERT层对句子进行划分，得到的序列,p(y^*|x)为y^*对应的概率值。p(y^*|x)的计算方法同前述实施例公开的p(y|x)的运算方法，在训练时，将人工标注的正确关系的负对数似然L^N最小化，通过查找一个嵌入层将标记转换为标签嵌入：对于序列y＝{y₁,y₂,…,y_n}，得到标签嵌入序列h＝{h₁,h₂,...,h_n}。

进一步的，本实施例可以利用表填充损失函数计算表填充损失；其中，所述表填充损失函数为

为词x_i的训练集中人工标注的正确关系；

表示词x_i的第j个有关系的实体，

表示词x_i和

间的训练集中人工标注的正确关系，第k个关系表示为

为词x_i和

间有关系

的概率。

步骤S24：当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。

也即，本申请实施例的实体关系抽取首先使用BERT对训练数据进行预处理，将预处理的数据进行向量化表示，对向量化的数据进行编码以捕获包含上下文信息的语义信息，然后通过NER层计算出句子最有可能的实体标记序列，再将其转化为标签嵌入，接下来通过表填充预测关系，然后将句子中预测的所有关系送入自注意力机制，综合考虑训练句子中其他所有三元组对当前预测关系的影响，最后通过sigmoid多标签分类器得到每个词与其所选实体间的关系。具体的，实体关系联合抽取模型主要包括BERT层、NER层、self-attention层和表填充层，BERT层先将句子进行划分，每个词的输入表示由每个词的标记、段、位置嵌入的和构成，然后BERT将每个词映射成一个词向量：先通过嵌入层将每一个词转换成向量，再将向量输入到编码器编码得到每个词的连续嵌入表示作为BERT层的输出。将经过BERT预处理后的词向量作为NER层的输入，使用线性CRF计算出最有可能的实体标记序列，然后将其转化为标签嵌入作为NER层的输出。将BERT模层的输出向量与NER层的输出向量拼接作为表填充层的输入，根据前预测关系的公式预测出关系；将预测的所有关系向量作为self-attention模块的输入，综合考虑句子中其他三元组对当前关系的影响，从而更准确的预测当前实体间的关系。表填充层通过sigmoid多标签分类器得到每个词与其所选实体间的关系并输出。例如，输入训练句子：输入：李华于1980年出生于上海；输出：(李华,1980,生日)、(李华,上海,出生地)。

可见，本申请实施例利用自注意力机制综合考虑句子中其他三元组对当前预测关系的影响，从而更好的预测出当前实体之间的关系。并且如果一个实体与其他多个实体之间存在关系，关系抽取时以表填充的方式来实现，表填充可以列举出一个句子中任意两个实体间的关系。通过本申请的抽取策略解决目前实体关系联合抽取的不足，同时提高了实体关系联合抽取的准确率和召回率。

例如，参见图3所示，图3为本申请实施例公开一种具体的实体关系联合抽取方法流程图。例如，参见图4所示，图4为本申请公开的一种具体的实体关系联合抽取方法的实施框架图。

参见图5所示，本申请实施例公开了一种体关系联合抽取装置，包括：

数据获取模块11，用于获取训练样本数据；

模型训练模块12，用于利用所述训练样本数据对预先搭建的实体关系抽取模型进行训练，得到训练后模型；其中，所述实体关系抽取模型中包括自注意力层；所述自注意力层用于在训练过程中基于句子中其他三元组对当前预测关系的影响进行注意力计算；

关系抽取模块13，用于当获取到待进行实体关系抽取的目标文本，利用所述训练后模型输出对应的实体关系抽取结果。

其中，所述实体关系抽取模型，还包括BERT层、NER层以及表填充层；

相应的，所述模型训练模块12具体用于将所述训练样本数据输入至所述BERT层，通过所述BERT层对句子进行划分，并将划分出的每个词映射为对应的词向量，以得到句子的上下文表示；通过所述NER层对所述词向量进行线性CRF计算，得到对应的预测实体标记序列，以及将所述预测实体标记序列转换为对应的标签嵌入序列；对所述词向量和所述标签嵌入序列进行拼接，得到目标向量；通过所述表填充层对所述目标向量进行实体关系预测，得到对应的预测实体关系；将所述预测实体关系输入至所述自注意力层进行注意力计算，得到对应的注意力计算后实体关系；对所述注意力计算后实体关系与预定义关系向量进行内积运算，然后通过多标签分类器进行分类，得到每个词对应的实体关系。

并且，所述实体关系联合抽取装置，还包括标签序列损失计算模块，用于利用标签序列损失函数计算标签序列损失；其中，所述标签序列损失函数为

所述实体关系联合抽取装置，还包括表填充损失计算模块，用于利用表填充损失函数计算表填充损失；其中，所述表填充损失函数为

为词x_i的训练集中人工标注的正确关系；

表示词x_i的第j个有关系的实体，

表示词x_i和

间的训练集中人工标注的正确关系，第k个关系表示为

为词x_i和

间有关系

的概率。

进一步的，所述模型训练模块12具体用于通过所述BERT层对句子进行划分，将划分出的每个词转换为对应的向量，然后将转换出的向量输入至编码器编码，以得到所述词向量。

所述实体关系联合抽取装置，还包括训练损失计算模块，用于计算训练损失；所述训练损失包括标签序列损失和表填充损失。

参见图6所示，本申请实施例公开了一种实体关系联合抽取设备，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，以实现前述实施例公开的实体关系联合抽取方法。

关于上述实体关系联合抽取方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

参见图7所示，本申请实施例公开了一种电子终端20，包括前述实施例中公开的处理器21和存储器22。关于上述处理器21具体可以执行的步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本实施例中的电子终端20，还可以具体包括电源23、通信接口24、输入输出接口25和通信总线26；其中，所述电源23用于为所述终端20上的各硬件设备提供工作电压；所述通信接口24能够为所述终端20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的实体关系联合抽取方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种实体关系联合抽取方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。