CN115934883A

CN115934883A - 一种基于语义增强的多特征融合的实体关系联合抽取方法

Info

Publication number: CN115934883A
Application number: CN202310010231.XA
Authority: CN
Inventors: 王文珂; 王洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-07

Abstract

本发明公开了一种基于语义增强的多特征融合的实体关系联合抽取方法，通过将实体关系联合抽取任务视为以关系作为条件通过主体映射客体的函数，采用先进行头实体识别，再在每一种关系下识别尾实体的抽取思路。采用先进行头实体信息识别，将经过RNN编码后的增强了序列依赖信息的特征利用指针网络识别头实体的开始和结束位置，并将头实体及其实体类型作为先验信息，将多特征与增强特征进行融合，获取增强语义表达能力的融合向量，减少模型对语义不相关实体的关注。本方法采用了注意力机制以使句子中的词更容易捕获到加入了头实体信息的全局特征，强化特征依赖，提高在复杂的重叠场景下抽取关系三元组性能。

Description

一种基于语义增强的多特征融合的实体关系联合抽取方法

技术领域

本发明属于自然语言处理信息抽取与深度学习领域，尤其涉及一种基于语义增强的多特征融合的实体关系联合抽取方法。

背景技术

随着计算机和互联网的快速发展，人类产生、创造的数据量呈爆炸式增长。如何对这些海量异构数据进行高效利用，是当前亟需解决的问题，也是信息抽取(InformationExtraction,IE)研究的重要内容之一。实体关系抽取(Entity-Relation Extraction,RE)是信息抽取领域的重要组成部分，目前已广泛应用于搜索引擎、智能推荐、机器翻译和问答服务等领域，其中包含两个子任务：实体识别和关系抽取。实体识别是信息抽取领域最基础的任务之一，旨在识别出文本中具有特定意义的词语，例如人名、地名、组织机构名等等。关系抽取任务是在命名实体识别任务的基础之上，抽取出实体之间存在的语义关系，并构建成关系三元组的形式。

国内外学者已经针对实体关系抽取任务进行了一些有意义的研究与探索。第一类是基于深度学习的管道式实体关系抽取方法：该类方法不需要人工抽取特征，可以通过神经网络自动捕捉输入文本的特征，然后用于实体关系抽取研究。但是管道式抽取方案其关系抽取的结果过度依赖于实体识别的结果，忽略了两个过程之间存在的关系，一定程度上影响了关系抽取的效果；同时，实体识别过程的错误也会传播到关系抽取过程中。第二类是基于深度学习的联合式实体关系抽取方法，联合关系抽取方法使用单个模型将命名实体识别和关系抽取两个过程结合在一起，以便在统一的模型中进行共同优化。虽然上述方法都取得了不错的效果，但是并不能完全解决重叠三元组问题，并且当句子中存在更为复杂的重叠情况时，这些方法仍然不能获得令人满意的结果。但是在近些年的研究中发现，现阶段的实体关系抽取方法中普遍存在以下问题：1)抽取模型语义表达能力差。现有的抽取模型大多使用BERT预训练模型获得编码向量，它虽然能为联合模型提供一种通用的包含了全文语境的词向量表示，但直接使用可能会忽视更细粒度的局部依赖信息，从而造成模型语义特征表达能力差的问题。2)语料中存在大量关系重叠现象。关系重叠是指一个实体参与到了多个关系三元组中，数据中有可能只有一个实体对及关系(Simple)，也有可能是一个实体同另一个实体之间存在着多种关系(EPO)，还有可能是一个实体与其他不同实体之间存在着多种关系(SEO)，因此增加了语料数据的复杂程度，致使现有的分类器无法有效的同时抽取出多个三元组。

发明内容

本发明的目的在于提出一种基于语义增强的多特征融合的实体关系联合抽取模型(MFF-WSE)来构建实体关系抽取任务以解决现阶段普遍存在的模型语义表达能力差和语料中存在大量关系重叠现象的问题。通过将实体关系联合抽取任务视为以关系作为条件通过主体映射客体的函数f_r(s)→o，采用先进行头实体识别，再在每一种关系下识别尾实体的抽取思路，避免了主体、客体只能映射为单一关系的局限性，可以有效解决实体重叠问题。所提出方法采用先进行头实体信息识别，将经过RNN编码后的增强了序列依赖信息的特征利用指针网络识别头实体的开始和结束位置，并将头实体及其实体类型作为先验信息，将多特征与增强特征进行融合，获取增强语义表达能力的融合向量，减少模型对语义不相关实体的关注。不同于传统融合方法中的简单的仅进行相加或拼接方式，本方法还采用了注意力机制以使句子中的词更容易捕获到加入了头实体信息的全局特征，强化特征依赖，从而提高模型在复杂的重叠场景下抽取关系三元组的性能。

因此，所提出方法的模型主要步骤如下：

步骤1：数据编码；将待进行实体关系抽取任务的数据输入到预训练模型中得到数据的句子共享编码向量矩阵和实体类型向量表示。

步骤2：上下文信息强化；将步骤1得到的共享编码向量矩阵输入到上下文信息强化模块，采用双向长短时记忆网络(BiLSTM)通过门控机制实现对输入数据中关键特征的保留和传递，实现对句子向量进行深层次特征提取，以学习到观测序列上的依赖关系，提高头实体识别的准确性。

步骤3：头实体信息识别；将步骤2经过上下文信息强化的的增强向量输入到头实体信息识别模块用于识别出句子中所有的头实体及其实体类型。具体地说，通过将步骤2的增强向量输入到两个相同的独立二元分类器(0/1)中进行解码，计算得到每个token作为开始和结束位置的概率，然后判断该概率值是否大于预设的阈值来决定是否为实体边界。若大于阈值则标记为1，是实体边界；否则标记为0，不是实体边界。在获得实体边界之后，将共享编码向量根据二元分类器标记为1的起始位置进行截取，以获得当前头实体的向量表示。然后将头实体向量输入到实体类型sigmoid分类器中进行类型识别操作，以得到对应实体的实体类型。

步骤4：多特征融合；在该步将头实体相关信息和共享编码向量进行融合，以得到用于标记尾实体和关系的融合特征。具体地说，首先根据步骤3得到的实体类型从步骤1中选取对应的实体类型向量和步骤3中截取出的头实体向量计算平均编码表示，再进行拼接融合。为了使得句子能够更好的学习到头实体先验信息，降低模型的学习难度，在该步为句中的单词赋予不同的注意力权重，通过使用注意力机制，使句子中的词更容易捕获到加入了头实体信息的全局特征，强化特征依赖。

步骤5：尾实体和关系的识别；将步骤4构建的融合向量进行尾实体和关系的识别，识别方式与步骤3中头实体的识别方式相同。区别在于，该步采用多层二元分类器，层数为预定义的关系种类个数，以实现在识别出头实体的基础上，识别每个关系下所有可能的尾实体。

与现有技术相比，本发明具有如下的有益效果：

1)通过在编码层后引入了可以加强序列信息依赖关系上下文信息强化模块，实现对输入数据中关键特征的保留和传递，以获得更细粒度的特征表示；

2)在头实体信息识别模块引入了实体类型的预测和向量融合来加强实体信息向量的表征能力，提高尾实体和关系识别的准确度；

3)在多特征融合层引入注意力机制计算融合向量各个单词参与到当前任务特征表示的概率，使得模型重点关注文本中和任务相关的重要部分，忽略其他与目标任务不相关的内容，为关系及尾实体的识别增强实体表达能力，提高了模型泛化能力；

4)在识别出头实体的基础上，通过采用指针网络解码的方式，可以识别出每一个关系下所有的可能尾实体，更为方便的解决关系重叠现象问题。

附图说明

图1本发明所设计方法的整体流程图。

图2为预训练词向量生成模型，BERT模型所用Transformer结构示意图。

图3为LSTM模型结构图。

图4为BiLSTM模型结构图。

具体实施方式

为了使本发明的目的、技术方案和特点更加清楚明白，以下结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。

步骤1：数据编码；

传统的文本编码模型在语义表征能力上有所欠缺，而由Devlin提出的BERT是基于双向语言模型来获取输入文本词向量表示的自编码语言模型，解决了Word2Vec和Glove等分布式词向量表示无法有效获取高维度特征的缺点。BERT模型实现了文本的双向特征表示，它利用大规模无标注语料进行训练，通过对每个单词的左右语境进行联合训练来学习深度表征，获得文本的包含丰富语义信息的表示，并且通过并行计算加速了模型训练，BERT预训练模型Transformer结构如图2所示。

本发明采用预训练BERT模型对输入的单个句子x进行编码，将其中的Transformer结构表示为Trans(x)。定义句子集合x＝{x₁，x₂，...x_n}、实体类型集合T＝{t₁，t₂，...，t_m}，对于每一条句子x_i和每一种实体类型t_i进行编码操作如式(1)、式(2)所示：

h₀＝w_token+w_Pos (1)

e＝Trans(h_i-1)，i∈[1，N] (2)

其中w_token和w_Pos分别表示词嵌入矩阵和位置嵌入矩阵，经过n层的Transformer编码后，N为字向量的最大长度，单个字的向量表示的维度为BERT隐藏层输出的维度，默认为768。最后一层输出的值即是文本编码的最终结果；输出句子向量表示h_x和实体类型向量表示h_type，定义句子向量为H＝{e₁，e₂，e₃，...，e_n}。

步骤2：上下文信息强化；

由于BERT编码器采用的是Transformer结构，在训练过程中弱化了位置相关信息，而在序列标注任务当中位置信息是很重要的。循环神经网络RNN在自然语言处理领域常用于序列化非线性特征的学习，针对RNN无法捕捉长距离信息和梯度消失的问题，长短时记忆网络(Long Short Term Memory，LSTM)通过引入记忆单元和门控机制对RNN作了一定程度的改进，在关系抽取任务中取得了较好的效果。长短时记忆网络的结构主要有输入门、输出门和遗忘门，然后通过这种结构来实现长期记忆能力，LSTM模型如图3所示。

LSTM模型公式如下：

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (3)

j_t＝σ(W_j·[h_t-1，x_t]+b_j) (4)

k_t＝σ(W_k·[h_t-1，x_t]+b_k) (5)

h_t＝k_ttanh(c_t) (8)

其中公式(3-6)的W_i和b_i分别表示不同的权重矩阵和偏置量，x_t表示在t时刻输入的变量，h_t-1表示在t-1时刻的隐藏状态，h_t表示t时刻隐藏层的隐藏状态，c_t表示t时刻的细胞状态，

表示t时刻候选细胞状态。i_t、j_t、k_t分别指输入门、遗忘门、输出门，σ是sigmoid激活函数，tanh是双曲正切激活函数。

单向的LSTM网络只能保留同一方向数据的相关信息，但现实应用往往需要同时考虑句子前后时序信息。因此该模块利用双向长短时记忆网络(BiLSTM)对句子向量进行深层次特征提取，以学习到观测序列上的依赖关系，提高头实体识别的准确性。BiLSTM的结构如图4所示，是由两个单向网络构成。在前向或者后向传播时，都会保留对应方向之前的隐藏层输出，最后得到两个方向的输出向量拼接作为最终输出，如公式(9)所示。

其中

表示前向传播的隐藏层输出，

是后向传播的隐藏层输出。

步骤3：头实体信息识别；

头实体信息识别模块旨在识别出句子中所有的头实体及其实体类型。首先利用指针网络来对上下文信息强化模块输出的结果进行检测，标记出主体词对应的开始位置和结束位置。具体地说，通过将BiLSTM最终输出的H编码向量输入到两个相同的独立二元分类器(0/1)中进行解码，计算得到每个token作为开始和结束位置的概率，然后判断该概率值是否大于预设的阈值来决定是否为实体边界。若大于阈值则标记为1，是实体边界；否则标记为0，不是实体边界。下式(10-11)即二元分类器计算公式。

其中h_i是输入句子中第i个单词经上下文强化模块处理后的向量，W(·)和b(·)分别代表训练权重和偏置向量，

和

是第i个token向量经过二元分类器计算得到的输出概率值。如果该值大于预设的阈值，那么该token所在位置将标记为1，否则将被标记为0。该阈值可在模型的训练过程中进行调整，最终找到一个最佳的阈值。对于文本中包含多个头实体时，本模型采用最近匹配原则，即为每一个起始位置开始从右匹配最近的结束位置，将起始位置和结束位置区间所对应文本片段识别为一个头实体。

在获得实体边界之后，将共享编码向量h_x根据二元分类器标记为1的起始位置进行截取，以获得当前头实体的向量表示h_sub。将头实体向量h_sub输入到实体类型分类器中进行类型识别操作，识别公式如下。

P^type＝sigmoid(W^typeh_sub+b^type) (12)

其中h_sub是识别出的头实体边界截取出的实体向量，P_type是预测出的type类型的概率，最终结果取概率最大值对应的实体类型。

步骤4：多特征融合；

为了强化模型头实体识别和尾实体识别的依赖性，在该步将头实体相关信息和句子向量进行融合，以得到用于标记尾实体和关系的融合特征。以往的实体关系抽取模型在关系特征融合的时候仅采用相加、相乘的方式，这些方式虽然很简便，但会破坏原始特征的语义，使模型学习关注到的特征重点模糊。因此为了使得句子能够更好的学习到头实体先验信息，降低模型的学习难度，在该层为句中的单词赋予不同的注意力权重，通过使用注意力机制，使句子中的词更容易捕获到加入了头实体信息的全局特征，强化特征依赖。

具体地说，首先根据得到的实体类型选取对应的实体类型向量和头实体向量计算平均编码表示，再进行融合。由于简单的对实体向量和类型向量进行相加操作，会破环两个向量原有的语义信息，因此在该步采用拼接的方式进行语义扩充的融合方式，最后得到该模块的输出向量h^cat，计算方式如下。

h^cat＝[h^sub':h^type] (15)

其中

分别表示第k个头实体对应的开始和结束位置字向量，

表示当前type类型的第i个字向量表示，h^sub'、h^type、h^cat分别是头实体向量、实体类型向量和头实体信息向量。

然后为了计算出句子中各个单词与头实体信息之间的相关性，我们将采用缩放点积的方式进行来计算，计算如式(16-18)所示。

α_i＝softmax(e_i) (17)

M＝[α_ih^s:h^cat] (18)

其中α_i是计算得到的第j个单词与头实体信息h_cat的相关性分数，将分数与原始向量相乘并与头实体信息h^cat进行拼接得到融合了头实体先验信息的尾实体-关系特征M。

步骤5：尾实体和关系的识别；

尾实体-关系识别层是在识别出头实体的基础上，识别出在每一个关系下所有可能的尾实体。在该步采用多层二元分类器，层数为预定义的关系种类个数。该层输入为融合了头实体先验信息的句子特征M，对M进行解码时，将同时为每个检测到的头实体标记出相应的尾实体，具体操作如式(19-20)所示。

其中

和

分别表示在当前头实体信息下，句子中第i个token是尾实体开始和结束位置的概率值，W(·)和b(·)分别代表训练权重和偏置向量。

实验设备与所需环境

实验使用GTX 2080Ti显卡运行代码，显存为11G，在Linux centos平台上进行实验，使用Python3.6/Keras 2.2.4/Tensorflow 1.1.14

实验结果与分析

采用关系抽取任务实验评估的数据集主要包括NYT纽约时报数据集、WebNLG数据集。NYT数据集最初是由远程监督的方法生成的新闻语料库，广泛用于重叠实体关系抽取任务。总共有24中预定义的关系，其中长度超过100和不存在三元组的句子被过滤掉，最终训练集、测试集和验证集分别包含56195、5000、5000。最初为自然语言生成任务而创建，但后来也应用于重叠实体关系抽取任务。WebNLG数据集包含246种预定义的关系，数据集中的每一个句子都包含多个三元组，其训练集、测试集和验证集分别包含5019、500、703。通过对NYT、WebNLG数据集中的数据进行分析和统计，总结了两个数据集中分别属于Normal、SEO和EPO句子数量。从表1中可以看出，有34.13％的NYT数据集包含了重叠三元组问题，其中EPO占比51％，76.8％的句子属于SEO。有68.2％的WebNLG数据集包含了重叠三元组问题，其中EPO的句子占比0.06％，99.5％的句子属于SEO。

采用的评价指标遵循Wei等论文中使用的的评价指标，认为当预测的三元组中的头实体、尾实体、关系都正确时，这个结果才被认定为正确三元组。同时使用精确率(Precision,P)、召回率(Recall,R)和F1值三个指标对抽取的关系三元组进行评价，如式(25-27)所示。

其中，T_P为预测正确的三元组数量，F_P为预测错误的三元组数量，T_P+F_P则为抽取的所有三元组个数，F_N为未抽取出的正确的三元组数量，T_P+F_N则为数据集中总的三元组个数。因此精确率就是正确抽取的三元组占总抽取三元组的比值，召回率的定义就是正确三元组个数占数据集包含的所有三元组的比值。

第一组实验将本发明所提出的模型与其它相关联合抽取模型进行对比。分别选用在该领域中比较常用的NovelTagging、ETL-Span、CopyRE和CasRel模型与该发明提出的MFF-WSE模型在NYT、WebNLG数据集上进行对比，实验效果如表2所示。

在几个对比的抽取模型中，CopyRE模型使用多个动态解码器来提取关系三元组，由于复制机制的限制会对模型造成较低的准确率，并且由于RNN展开的固有限制，导致生成的三元组有限。NovelTagging模型的采用单层标注的标记方法，对于每个字词只能分配一个标签，没有考虑到一个实体在上下文中可能与多个实体有不同的关系，因此无法识别出重叠的三元组，并且由于该模型考虑的是属于单一关系类型的所有实体，导致模型出现高精度与低召回率的情况。ELT-Span模型能够提取句子中的关系三元组，在WebNLG上的抽取结果有了很大程度的提升，但是无法处理EPO问题。CasRel模型上构造了一个全新的指针标注框架，抽取效果达到了领域内最优，但存在曝光偏差和误差传播的问题。我们的模型相比CasRel模型在两个数据集上的F1值分别提升了1.4％和0.5％，说明对预训练模型生成的原始嵌入采取上下文特征加强对头实体识别的准确性有着一定的提升，进一步缓解了误差传播问题，使得模型的精确度都较为领先；通过对实体信息的识别抽取并引入注意力机制进行多特征融合的方式强化了句子嵌入的表征能力，使得模型能够生成更多的三元组，最终使得我们模型的F1值达到了最优。

第二组实验为了探究模型在复杂程度不同的句子中的抽取性能，在NYT和WebNLG数据集上对不同三元组数量的句子进行了实验，实验结果如表3。可以看出，模型随着三元组数量的增加F1值呈现先高后降的趋势，但从实验结果中可以发现模型在五种复杂程度的句子上的抽取性能均优于基线模型CasRel和ETL-Span模型，实验结果表明，本章模型能更有效对包含多个三元组的句子建模并抽取三元组，具有更强的泛化能力。

第三组实验为了进一步探究重叠类型不同的模型抽取性能，在NYT和WebNLG数据集上划分Normal，EPO，SEO三种类型，比较了本模型、基线模型CasRel和ETL-Span模型在三种句式上的抽取性能的F1值，实验结果如表4所示。实验结果表明，模型在不同类型三元组的抽取效果上达到了最佳，证明能够更有效解决重叠三元组问题。

表1为对NYT、WebNLG数据集中的数据的分析和统计。

表2为在NYT、WebNLG数据集上分别与其它相关实体关系联合抽取模型在准确率(P)、召回率(R)、F1值上得对比。

表3为在NYT、WebNLG数据集上对不同三元组数量的句子进行了实验在F1值上得对比。

表4为在NYT、WebNLG数据集上对重叠类型不同的句子上的抽取性能在F1值上得对比。

表1实验数据统计

表2与现有的抽取模型对比实验

表3在不同数量三元组的句子上的实验结果

表4在不同重叠类型的句子上的实验结果

Claims

1.一种基于语义增强的多特征融合的实体关系联合抽取方法，其特征在于，包括如下步骤：

步骤1：数据编码；将待进行实体关系抽取任务的数据输入到预训练模型中得到数据的句子共享编码向量矩阵和实体类型向量表示；

步骤2：上下文信息强化；将步骤1得到的共享编码向量矩阵输入到上下文信息强化模块，采用双向长短时记忆网络BiLSTM通过门控机制实现对输入数据中关键特征的保留和传递，实现对句子向量进行深层次特征提取，以学习到观测序列上的依赖关系，提高头实体识别准确性；

步骤3：头实体信息识别；将步骤2经过上下文信息强化的的增强向量输入到头实体信息识别模块用于识别出句子中所有的头实体及其实体类型；

步骤4：多特征融合；将头实体相关信息和共享编码向量进行融合，以得到用于标记尾实体和关系的融合特征；

步骤5：尾实体和关系的识别；将步骤4构建的融合向量进行尾实体和关系的识别，采用多层二元分类器，层数为预定义的关系种类个数，以实现在识别出头实体的基础上，识别每个关系下所有可能的尾实体。

2.根据权利要求1所述的一种基于语义增强的多特征融合的实体关系联合抽取方法，其特征在于，步骤3中，通过将步骤2的增强向量输入到两个相同的独立二元分类器0/1中进行解码，计算得到每个token作为开始和结束位置的概率，然后判断该概率值是否大于预设的阈值来决定是否为实体边界；若大于阈值则标记为1，是实体边界；否则标记为0，不是实体边界；在获得实体边界之后，将共享编码向量根据二元分类器标记为1的起始位置进行截取，以获得当前头实体的向量表示；然后将头实体向量输入到实体类型sigmoid分类器中进行类型识别操作，以得到对应实体的实体类型。

3.根据权利要求1所述的一种基于语义增强的多特征融合的实体关系联合抽取方法，其特征在于，步骤4中，首先根据步骤3得到的实体类型从步骤1中选取对应的实体类型向量和步骤3中截取出的头实体向量计算平均编码表示，再进行拼接融合；为句中的单词赋予不同的注意力权重，通过使用注意力机制，使句子中的词更容易捕获到加入了头实体信息的全局特征，强化特征依赖。