CN116757218A

CN116757218A - 一种基于上下句关系预测的短文本事件共指消解方法

Info

Publication number: CN116757218A
Application number: CN202310563155.5A
Authority: CN
Inventors: 蔡世民; 曾重庆; 雍新有; 刘万里; 戴礼灿
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-09-15

Abstract

该发明公开了一种基于上下句关系预测的短文本事件共指消解方法，属于自然语言处理技术领域。本发明从问题建模角度，利用Bert包含NSP任务的特点，将事件共指消解建模成上下句关系预测任务，能构成上下句的事件对认为即存在共指关系，这也符合人类的语言习惯，在日常对话中连贯的上下句往往都是在描述同一事实；从特征提取角度来说，通过事件抽取识别出文本中如触发词、论元角色、事件类型、时态等关键信息作为分类的辅助特征，可以在一定程度上提高分类的准确度；从算法性能角度分析，相比于传统神经网络Bert预训练模型具有更小的训练代价，可以更快地收敛并达到更好的性能。

Description

一种基于上下句关系预测的短文本事件共指消解方法

技术领域

本发明属于自然语言处理技术领域，涉及一种基于大型预训练模型将短文本事件共指消解任务建模为上下句关系预测问题的方法。

背景技术

关键术语定义：

事件共指消解：一种判断两段事件描述是否指向客观世界中同一事件的方法，通过将文档中指向同一事件的所有提及聚为一类，形成事件链或事件簇。

BERT预训练模型：一种大型预训练语言模型，使用了Transformer模型的Encoder层来进行特征的提取，通过Masked Language Model任务和Next Sentence Prediction预训练任务来学习深度单词级和句子级的特征。通过在大量数据集上进行预训练，它能够被应用于多种自然语言处理任务中并取得良好效果。

上下句预测任务：判断两个句子是否存在上下文关系，即预测句子B能否作为句子A的下一句或者上一句。

事件抽取：一种把含有事件信息的非结构化文本以结构化形式呈现出来的方法，包含了事件检测、分类，触发词、论元角色抽取等多种关键技术，在自动文摘、自动问答等领域有广泛的应用。

事件共指消解作为构建事件图谱的重要一环，类似于知识图谱中的实体链指，通过将指向相同事件的节点聚类到一起，进一步完善补充事件的各个组成部分，并作为一个新节点保存在事件图谱中。除此之外，事件共指消解还被广泛应用于跟踪热点事件或某特定事件领域，通过将相同事件的不同描述文本根据时间或者人物串联起来就能得到对应的事件链，便于人们了解分析事件的来龙去脉或个人对某个事件造成的影响。

对此，有学者将事件共指消解任务建模为文本相似度计算问题，使用CNN、RNN等神经网络将两段文本表征成向量，通过计算向量间的相似度是否达到训练的阈值从而判断是否共指；随着Bert等预训练模型的出现，有学者使用预训练模型的输出作为文本表征后的向量从而计算相似度；也有学者采用孪生网络对事件对进行分类判断是否共指等等。这些算法在ACE2005、KBP等多个数据集上取得了优异的效果。

现有技术的缺点：

训练CNN、RNN等神经网络对文本进行向量表征需要从头训练参数，而且不适用于数据量较小的情况。相反预训练模型经过在大量语料中进行预训练之后，在实际使用中只需要进行微调，配合下游任务可以达到更快的收敛速度。同时，通过计算相似度是否达到阈值判断事件共指是有偏差的，因为该任务可能并不存在明显的分类间隔，导致分类阈值很难确定或者本身就不存在明显的分类间隔。使用Bert做文本表征或者孪生网络做文本分类等方法，也没有充分利用Bert本身就包含Next Sentence Prediction预训练任务的特点。此外，以上技术手段都只关注到事件描述文本的语义信息，忽略了事件触发词、事件主体等多种关键特征，造成特征缺失。

发明内容

本发明针对现有技术的不足，提出了一种基于上下句预测的短文本事件共指消解方法。本发明从问题建模角度，利用Bert包含NSP任务的特点，将事件共指消解建模成上下句关系预测任务，能构成上下句的事件对认为即存在共指关系，这也符合人类的语言习惯，在日常对话中连贯的上下句往往都是在描述同一事实；从特征提取角度来说，通过事件抽取识别出文本中如触发词、论元角色、事件类型、时态等关键信息作为分类的辅助特征，可以在一定程度上提高分类的准确度；从算法性能角度分析，相比于传统神经网络Bert预训练模型具有更小的训练代价，可以更快地收敛并达到更好的性能。

本发明公开的一种基于上下句关系预测的短文本事件共指消解方法，该方法具体包括以下步骤：

步骤1：事件分类；采用文本分类模块对文本中将要预测是否共指的事件对分别进行事件类型判断，并构建事件类型字典；其中，事件类型不存在即文本没有包含事件也视为一种类型；

所述文本分类模块包括：编码层和解码层，文本分类模块的输入由Token向量，Segment向量和Position向量组成，所述Token向量为针对字级别的原始词嵌入表示，Segment向量为用于区分不同的句子或段落的表示符，Position向量为Token向量内各字的位置关系表示；

所述编码层包括多层依次连接的Transformer Encoder结构，每个Encoder层都由多头自注意力机制和前向神经网络组成，每个Encoder层输入的Token向量与输入序列中其他向量进行自注意力计算，得到一个新的向量，然后传递到下一层；整个编码过程为：

上式中，W_i表示每一层的输入，m代表Transformer层数，[·||·]表示向量加和操作，代表第i个token经过第l层Transformer编码后输出的隐向量，W_h是隐向量加和的权重矩阵，n代表包含了特殊字符的输入序列长度；E_i是融合了全文语义信息的Token_i向量表示，E_context是整段文本的向量表示；

所述解码层为一个全连接层，采用Sigmoid函数为激活函数，损失函数为：

上式中，C代表类别数量，yⁱ表示真实标签序列，表示未经激活函数处理的预测标签序列；

步骤2：事件触发词抽取；在已知事件类型的情况下，采用序列标注模型抽取出事件触发的关键词，作为辅助特征之一；

步骤3：事件论元抽取；在已知事件类型的情况下，采用序列标注模型抽取事件论元，将抽取得到的事件论元作为辅助特征之一；

所述序列标注模块包括：编码层、线性层和解码层，输入由Token向量，Segment向量和Position向量组成；

所述编码层首先由ERNIE模型对文本初步编码，得到输出后再接入双向长短期记忆神经网络Bi-LSTM；Bi-LSTM分别从两个方向对ERNIE的输出进行编码，并都得到一个隐藏层输出，最终输出为两个方向的隐层向量拼接结果；

Bi-LSTM编码过程为：

其中，和/>分别表示字符i的前向和后向的隐向量表示，h_i表示前后向量拼接后的字符i的隐向量表示，Forward LSTM(W_e)和Backward LSTM(W_e)分别表示整个句子的正向和反向

LSTM隐藏层输出；

线性层为维度变换层，将输入数据的n维变换为k维，k表示标签的类别数；

所述解码层为：对于输入序列X＝{x₁,x₂,…,x_n}，预测序列y＝{y₁,y₂,…,y_n}，采用下式计算整个序列路径的分数Score(X,y)；

其中，表示第i个字转移到y_i的转移分数，/>表示y_j-1转移到y_j的转移分数；

采用SoftMax归一化处理后计算得到序列y的概率P(y|X)为：

其中，Υ表示单个字符可预测的BIO标签集合，y′表示某个可预测的标签；

模型训练目标是最大化对数似然函数，对于样本X，标签序列y，计算公式为：

最后解码层输出结果为分数最高的序列y^*：

y^*＝argmax_y′socre(x,y^′)

步骤4：生成新输入文本；新的文本输入由原始文本、事件类别、事件触发词、事件触发词相邻的上下文和事件论元组成；

步骤5：训练识别模型，该识别模块包括Bert模型和FCN层(全连接神经网络)；将两个待预测共指的新输入文本作为上下句预测任务输入网络中，两段文本之间使用SEP符号隔开；将Bert的输出作为全连接神经网络的输入，最终模型输出为事件共指消解的二分类结果；并在此网络结构上训练微调Bert和FCN层的网络参数；

步骤6：预测事件对是否共指；重复1-4步骤获取事件对的模型输入，并输入到训练好的识别模型中，识别模型输出即为该事件对是否共指的结果。

和现有技术相比，本发明的有益效果为：

1.本发明改变了传统的基于文本相似度计算的事件共指消解方法，将事件共指问题转化为上下句关系预测问题。相较于传统的文本相似度计算任务，上下句关系预测任务可以将两段文本同时作为一个模型的输入，即在训练过程中共享网络参数，语言模型可以更好地捕获句子之间的交互语义信息，并且得益于Transformer里包含的多头注意力机制，模型能够更好地发现两个事件描述之间的共性与差异性。而先对文本做向量表征再计算相似度的做法，生成文本向量的过程是独立的。

2.本发明不仅改进了文本特征的提取方式，还额外地将事件属性如事件类型、触发词、论元等事件特征纳入到特征构建过程中。经过实验论证，引入事件的属性信息可以大大提高共指消解的性能，两段自然文本是否描述同一客观事件往往与事件的参与者、时间、地点等息息相关。

3.本发明采用Bert预训练模型作为网络主体，相较于CNN、RNN等神经网络能够更快地收敛，且Bert本身包含NSP预训练任务，能够很好地适用于上下句预测任务中。较之前的技术而言，本发明能够在更小的训练代价下达到更好的效果。

附图说明

图1为生成新输入文本的网络模型结构示意图。

图2为本发明提出的模型主体结构示意图。

具体实施方式

为了使本发明的选拔流程、创新点更加清楚，以下结合附图对本发明进一步详细介绍。

图1可视化地展示了本发明将事件特征融入原始文本的过程。具体而言包括使用基于ERNIE进行文本分类和序列标注事件抽取两个模块，其中序列标注事件抽取部分主要包含使用词嵌入层获取文本语义信息、使用Bi-LSTM层解决长距离依赖信息丢失的问题和加入CRF层获取序列特征；

步骤1：事件分类。首先对将要预测是否共指的事件对分别进行事件类型判断，并构建事件类型字典。其中，事件类型不存在即文本没有包含事件也视为一种类型。

事件的类型是否一致对判断事件是否共指具有很大影响，在现实生活中共指的事件往往类型相同或者相近。通过训练语料划分出事件的所有类型，设已有的事件类别为N，则事件分类后得到的特征向量长度为N+1，即加上文本不包含事件的特殊情况。其中，有监督的文本分类方法现阶段已比较成熟，本文所采用的是基于BERT的文本分类模型。

步骤2：事件触发词抽取。在已知事件类型的情况下，采用序列标注模型抽取出事件触发的关键词，作为辅助特征之一。

事件的触发词是事件概念在词和短语层面的投射，是判定事件意义和类别的重要指示和标记，它也是判断事件同指的重要特征之一。触发词抽取使用基于ERNIE的序列标注方法进行抽取。首先为每一类事件构建触发词BIO标签，然后在已知事件类别的情况下，使用ERNIE预训练模型为待标注句子的每一个字符预测BIO标签，最终将B、I标签结合得到事件的触发词。综合考虑到触发词附近文本语义内容和文本长度，进一步选取触发词以及其前后5个字符作为触发词相关特征。

步骤3：事件论元抽取。在已知事件类型的情况下，采用序列标注模型抽取事件论元，例如Attack类型的事件包含Attacker，Victim，Tools，Time和Place等，将抽取得到的事件论元作为辅助特征之一。

利用预训练模型ERNIE生成文本符号的初始嵌入向量表示，通过构造Bi-LSTM(双向长短期记忆神经网络)为文本序列生成每个字符的特征向量表示，将字符的特征向量数据作为输入，采用CRF(条件随机场)模型输出每个符号的BIO标签预测结果。通过对比预测结果与真实标签之间的误差设置目标损失函数，训练更新网络参数。对于待抽取文本，利用训练好的网络模型抽取出事件论元。

步骤4：生成新的输入文本。新的文本输入由原始文本，事件类别、事件触发词以附近上下文和事件论元组成，中间用特殊分类符“[unused]”分隔开。

步骤5：微调Bert模型，训练网络。将两个待预测共指的新文本作为上下句预测任务输入网络中，两段文本之间使用SEP符号隔开；将Bert的输出作为全连接神经网络的输入，最终模型输出为事件共指消解的二分类结果。并在此网络结构上训练微调Bert和FCN(全连接神经网络)的网络参数。

首先将已加入事件信息的两段新文本合并成一段，中间采用“[SEP]”符号隔开，头部插入“[CLS]”符号，在此基础上使用Bert进行分类。通过查表得到每个字符的初始向量Token Embedding，再生成相应的位置向量Position Embedding和段向量SegmentEmbedding，其中位置向量用于Transformer模型捕获词序信息，段向量用于区分不同的文本段落来源。将上述三个向量相加作为Bert的输入，采用平均池化的策略，取Bert输出向量的平均值作为最后输出，即一个768维的输出向量，并以此作为全连接神经网络的输入，最后输出一个2维向量代表两个事件描述是否共指。

步骤6：预测事件对是否共指。重复1-4步骤获取事件对的模型输入，并输入到经过微调后的Bert模型中，最后FCN层的输出即为该事件对是否共指的结果。

1.对于文本分类模块而言，具体的编码和模型训练过程如下：

模型输入由三个向量累加而成：Token向量，Segment向量和Position向量；其中，Token向量是针对字级别的原始词嵌入表示，将这些向量拼接起来，就得到了整个序列的向量表示；为了帮助ERNIE更好地理解输入序列中不同部分的语义和上下文关系，加入Segment用于区分不同的句子或段落，在此分类模型中不存在分句分段的情况，故取值全部为0；加入Position Id是为了让模型更好地理解不同Token间的位置关系，从而获取序列信息。因此，输入层表示如公式(1)所示：

编码层以12层Transformer Encoder结构作为特征提取器，每个Encoder层都由多头自注意力机制(Multi-Head Self-Attention)和前向神经网络(Feed-Forward NeuralNetwork)组成。在每个Encoder层中，输入序列中的每个token向量会与序列中其他向量进行自注意力计算，从而得到一个新的向量表示，该向量表示包含了上下文信息，以及其他向量之间的交互信息。每一层都会对上一层的输出进行处理，以提取更高层次的语义信息，输出的E_i代表融合了全文语义信息的Token_i的向量表示，然后通过平均池化得到整段文本的向量表示E_context。故整个编码过程用公式表示如(2,3,4)所示；

上式中，m代表Transformer层数，[·||·]表示向量加和操作，代表第i个token经过第l层Transformer编码后输出的隐向量，W_h是隐向量加和的权重矩阵，n代表包含了特殊字符的输入序列长度；

解码层将文本的Embedding即E_context作为全连接层的输入，同时加入dropout层以防止过拟合，输出维度为k的特征向量，其中k等于事件子类别数目加一(不包含事件的情况)，最后通过Sigmoid激活函数计算得到每个类别的01标签概率；使用输出层与标签之间的Sigmoid交叉熵作为误差的衡量标准，损失函数定义如公式(5)所示：

上式中，C代表类别数量，yⁱ表示真实标签序列，表示未经激活函数处理的预测标签序列。

2.对于事件抽取模块而言，具体的编码和模型训练过程如下：

输入层与文本分类模块一致，故在此不重复赘述。

编码层在获得ERNIE输出后再接入双向长短期记忆神经网络Bi-LSTM。Bi-LSTM分别从两个方向对ERNIE的输出进行编码，并都得到一个隐藏层输出，最终输出为两个方向的隐层向量拼接结果。

Bi-LSTM编码过程如公式(6)所示

LSTM隐藏层输出。

接下来的线性层主要是为了将Bi-LSTM隐藏层输出维度由n变为k，k代表标签集中BIO标签的类别数，输出句子编码向量表示如下

加入CRF层能够考虑到句子局部特征的线性加权组合，避免不合理序列的出现。P为Bi-LSTM层的输出，P_i,j代表第i个字转移到第j个标签的转移分数，对于输入序列X，预测序列y＝{y₁,y₂,…,y_n}，可以得到整个序列路径的分数为：

式中A是转移分数矩阵，A_i,j存储了标签i转移到j的分数，另外增加START和END标签作为句子的开始和结尾，故A的维度扩展到k+2。

再采用SoftMax归一化处理后得到序列y的概率为：

其中，Υ表示单个字符可预测的BIO标签集合，y′表示某个可预测的标签。

最后解码层输出结果为分数最高的序列y^*：

y^*＝argmax_y′socre(x,y^′)#(11)

图2可视化地展示了本发明所提出模型的网络结构。首先两段事件描述文本通过新文本生成模块得到新的文本输入，输入层将两个新文本分别作为上句和下句输入到BERT中，然后经过BERT内部多层Transformer编码，得到每个字融合了上下文语义的向量表示，通过平均池化策略取得整段文本的向量表示；最后输入到全连接层分类器中，得到事件同指的置信度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形都应视为本发明的保护范围。

1.实验数据介绍

由于国内外面向中文的事件共指消解研究较少，故相关语料资源也比较缺乏。本发明使用的是CCKS(全国知识图谱与语义计算大会)2021年发布的面向通信领域的中文事件共指消解数据集。语料来源于华为公司的公开故障处理案例，该数据的特点是包含了大量复杂的领域长词、歧义事件、共享元素、事件元素表述多样化等。事件描述用文本对的形式表示，标签为True或False，代表是否共指。据统计，该数据集共包含15000条样例数据，将其以3：1：1比例随机划分成训练集、验证集、测试集。

2.实验环境和参数设置

相关实验运行在服务器上，所使用的环境配置如表1所示。

表1实验环境配置信息

实验参数方面，通过统计训练样本中的平均文本长度，将输入文本最大长度设置为256，batch_size设置为32，池化过程选择平均池化策略，Transformer层数为12层，多头注意力机制12个，隐藏层激活函数使用GeLU。另外为了防止过拟合，设置隐层Dropout概率为0.1。学习率设置为1e-5，训练轮次设置为5，每经过1/3个训练轮次开启一次验证，保存在验证集上F1分数最高的模型参数用于最终测试。

实验结果及分析

本发明将事件对的共指消解视为二分类任务，使用准确率、召回率、F1分数来评价模型。首先，在不加入事件特征的情况下，单纯将事件共指消解任务建模成上下句预测任务，经过5次重复实验，最终模型在测试集上的表现如下表2所示。

表2模型在测试集上的表现

表2中，Base Model是指没有加入事件特征的上下句关系预测事件共指消解模型；+Event Feature是指加入事件特征后的上下句关系预测事件共指消解模型。首先可以看出，两个模型都取得了较高的准确率和召回率；其次，通过比较二者结果可以发现，加入事件特征后，模型精准率和召回率都有所提升，其中召回率提升尤为明显，绝对值分别提升了2.2％和7.9％，在最终的F1分数上提升5.2％。分析原因是：事件是否共指很大程度上依赖于事件的各个主体是否一致，当事件描述文本中无关内容出现过多时会导致模型无法捕获到关键信息，以至于模型在没有显式得到事件特征“提示”情况下，倾向于将某些共指样例判定为非共指，而在加入事件特征后，模型对正样本的识别能力明显增强。

实验结果证明将事件共指消解任务建模成上下句关系预测任务是可行的，并且包含了NSP(Next Sentence Prediction)预训练任务的BERT模型能够很好地完成该任务，加入事件类别、触发词、论元等事件特征能够进一步显著提升事件共指模型的准确率与召回率。

Claims

1.一种基于上下句关系预测的短文本事件共指消解方法，该方法具体包括以下步骤：

步骤5：训练识别模型，该识别模块包括Bert模型和FCN层(全连接神经网络)；将两个待预测共指的新输入文本作为上下句预测任务输入网络中，两段文本之间使用SEP符号隔开；将Bert的输出作为全连接神经网络的输入，最终模型输出为事件共指消解的二分类结果；并

在此网络结构上训练微调Bert和FCN层的网络参数；

2.如权利要求1所述的一种基于上下句关系预测的短文本事件共指消解方法，其特征在于，所述步骤3中序列标注模块具体为：

Bi-LSTM编码过程为：

其中，和/>分别表示字符i的前向和后向的隐向量表示，h_i表示前后向量拼接后的字符i的隐向量表示，Forward LSTM(W_e)和Backward LSTM(W_e)分别表示整个句子的正向和反向LSTM隐藏层输出；

采用SoftMax归一化处理后计算得到序列y的概率P(y|X)为：

其中，Υ表示单个字符可预测的BIO标签集合，y′表示某个可预测的标签；模型训练目标是最大化对数似然函数，对于样本X，标签序列y，计算公式为：

最后解码层输出结果为分数最高的序列y^*：

y^*＝argmax_y′socre(x,y^′)。