CN113239142B

CN113239142B - 融合句法信息的无触发词事件检测方法

Info

Publication number: CN113239142B
Application number: CN202110451650.8A
Authority: CN
Inventors: 张亚飞; 汪翠; 郭军军; 高盛祥; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-09-23
Anticipated expiration: 2041-04-26
Also published as: CN113239142A

Abstract

本发明涉及融合句法信息的无触发词事件检测方法，属于自然语言处理技术领域。本发明首先获取预处理语料的句法依存信息以及进行BPE编码获取子词单元；将基于BPE子词单元的句子转为ID之后，再通过随机初始化获取句子中每个子词单元的向量表示；根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置，然后将每个单词映射为其父词的中间位置表示；采用transformer作为编码器，将句法信息与文本的语义信息进行融合；最后通过类型感知器获取局部的触发词特征，再将局部的触发词特征与全局的语义表征进行联合，来完成事件检测任务。本发明的检测方法更简便有效。

Description

融合句法信息的无触发词事件检测方法

技术领域

本发明涉及融合句法信息的无触发词事件检测方法，属于自然语言处理技术领域。

背景技术

事件检测是从非结构化的文本中识别出事件信息并对其进行分类。随着信息的快速增长，相关新闻报道也随之增多，检测新闻中所报道的相关事件，有助于准确、快速地把握热点新闻的事态动态，并做出有效的应对措施。

大多数现有的事件检测模型需要带标注的事件触发词和事件类型进行训练。这些方法根据输入的不同，可以分为基于语义表示的方法和基于句法依存表示的方法。其中，基于语义表示的方法只使用给定的句子作为模型的输入，在长距离依赖方面存在着低效率的问题。基于句法依存表示的方法通过在模型中融入句法信息能够准确定位与触发词最相关的信息，以及在单个句子中存在多个事件时，增强事件之间的信息流动性。现有的基于句法依存表示的模型通常采用邻接矩阵来表示原始的句法依赖关系，但邻接矩阵表示范围有限，只能捕获当前节点与相邻节点的关系。同时，邻接矩阵需要GCN网络对其进行编码以获取句法信息。但是，利用GCN编码会引入额外的训练参数，增加了模型的复杂度。此外，这些方法对触发词的标注会耗费大量的人力工程。

针对以上问题，提出了通过在模型源端以一种无参数的方式将句法依存树中依赖父词信息融入到依赖子词的单词嵌入使模型在编码源句子时关注到每个单词的父级依赖项及其上下文，而不需要采用GCN网络进行编码；以及采用基于多头注意力机制的类型感知器对句子中隐藏的触发词进行建模，以实现无触发词的事件检测。

发明内容

本发明提供了融合句法信息的无触发词事件检测方法，用于解决目前事件检测模型依赖于GCN网络对句法信息编码增加模型复杂度以及对触发词标注费时费力的问题。

本发明的技术方案是：融合句法信息的无触发词事件检测方法，所述融合句法信息的无触发词事件检测方法的具体步骤如下：

Step1、本发明语料收集是在ACE2005数据集上进行，并对ACE数据集进行了预处理；

Step2、获取预处理语料的句法依存信息以及进行BPE编码获取子词单元，并分配训练语料、测试语料和验证语料；

Step3、将基于BPE子词单元的句子转为ID之后，再通过随机初始化获取句子中每个子词单元的向量表示；

Steps4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置，然后将每个单词映射为其父词的中间位置表示。对新闻事件句进行BPE编码能获取基于BPE子词单元的新闻事件句；

Step5、采用基于transformer的语义表示层作为编码器，将句法信息与文本的语义信息进行融合，以编码获取句子的上下文语义表征。

Step6、最后通过类型感知器获取局部的触发词特征，再将局部的触发词特征与全局的语义表征进行联合，来完成事件检测任务。

作为本发明的优选方案，所述步骤Step1具体步骤为：

Step1.1、本发明的语料是在ACE2005数据集上进行的，ACE2005语料库包括8种事件类型，33种事件子类型。将33种事件子类型视为33个独立的事件类型，而忽略它们之间的层次结构。

Step1.2、ACE数据集预处理：删除数据集中触发词的标注，并为每一个句子分配一组标签，不包含任何事件时标注为NA。

作为本发明的优选方案，所述步骤Step2具体步骤为：

Step2.1、使用Stanford CoreNLP工具获取句子的句法依存信息。

Step2.2、使用BPE(Byte Pair Encoding)子词单元来缓解未登录词与罕见词问题，将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度；

Step2.3、将预处理后的ACE数据集，按照13：1：1的比例分配训练语料、测试语料和验证语料，具体的，将ACE数据集中40篇文章作为测试集，30篇文章作为开发集，剩余的529篇文章作为训练集。

作为本发明的优选方案，所述步骤Step3包括：

将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度，将其表示为X＝{x₁,x₂,…,x_i,…x_n}，n为句子长度。对X进行随机初始化后获得词向量W＝{w₁,w₂,…,w_i,…w_n}，其中，w_i为x_i的向量表示。

作为本发明的优选方案，所述步骤Step4中：

获取父级依赖词中间位置的处理步骤如图2所示，如：单词married被分成3个子词单元“mar@@”、“ri@@”、“ed@@”，位置分别为3、4、5，则该单词的中间位置为4.0；然后将给定单词的每个子词单元映射为其父词的中间位置4.0(词根的父词定义为自身)；从而为目标句子产生一个由父词的中间位置组成的向量表示P。

作为本发明的优选方案，所述步骤Step5中包括：

Step5.1、如图3所示，融合句法信息的无触发词事件检测模型的语义表示层由12层的transformer编码端组成。其中，在第一层transformer的局部自注意力层中融入了句法信息，而其他层的transformer则采用普通的自注意力层。融入句法信息的局部自注意力称为依赖缩放自注意力(parent-scaled self-attention，PASCAL)，其结构如图4所示。

Step5.2、在图4中，词向量W经过线性变换后，获得查询Q^h、键K^h和值V^h。先计算Q^h和所有K^h之间的点积，给出句子中每个单词对输入的其他部分放置多少焦点的分数。然后，这个分数除以

以缓解如果点积很大时出现的梯度消失问题，最后获得相似度权重S^h∈Rⁿ ^×n，如式(1)所示。

然后，通过父词的位置向量P来将句子中的每一个词关联到其父级依赖项。以x_i作为当前词，通过dist(p_i,j)计算出所有x_j到x_i的父词的距离来衡量x_i位于位置i的得分。如式(2)所示，p_i表示x_i的父词的中间位置，j表示句子所有词的绝对位置，输出的句法关联矩阵D∈R^n×n，D的每一行表示任意j到x_i的父词的中间位置p_i的距离。

之后，将相似度矩阵S^h、值V^h与句法关联矩阵D通过向量运算的方式进行融合。如式(3)和式(4)所示，序列相似度矩阵S^h与关联矩阵D对应元素相乘后得到中间向量N^h，对N^h应用Softmax后再与值V^h相乘，获得PASCAL每个头的输出M^h。这样便实现了以局部无参的方式将句法依赖信息融入到缺乏任何上下文的词嵌入中。

N^h＝S^hD (3)

M^h＝softmax(N^h)V^h，(1＜＝h＝8) (4)

将M^h拼接后获得PASCAL的最终输出M，之后M经过transformer后续的残差连接、归一化以及全连接层后获得M′。然后M′经过剩下的11层transformer编码器后获得句子的全局特征表示Z_global，如式(5)～(7)所示。

M＝Contact(M^h) (5)

M′＝Norm(W+M)+FeedFward(Norm(W+M)) (6)

Z_global＝Transformer¹¹(M′) (7)

作为本发明的优选方案，所述步骤Step6的具体步骤为：

Step6.1、如式(8)和式(9)所示，通过对全局特征Z_global和候选事件类型的词嵌入G进行头数为8的多头注意力机制，来给Z_global中潜在的触发词分配更高的权重。

Z_att＝Contact(A^t),(1<＝t<＝8) (9)

其中，Z_global为语义表示层的输出，G为候选事件类型的词嵌入，

是在输入向量上执行线性投影的参数，A^t表示多头注意力机制中每个头的最终输出；Z_att为A^t的拼接，表示包含触发词信息的局部特征。

Step6.2、为了获取全局的事件信息，将全局特征Z_global和局部特征Z_att进行加权求和后再执行平均池化操作，然后经过一个线性层后获得向量H；最后，对H执行softmax获取对应类别的分布概率，并根据概率分布的值来判断输入句子的事件类型，如式(10)～(12)所示。

H＝Linear(AvgPooling(Z_global+Z_att)) (10)

y＝softmax(WH+b) (11)

其中，H表示全局事件信息，W和b为权重和偏置，y表示输入句子是否为预标注类型的概率，

表示最终的预测值。

此优选方案设计对隐藏的触发器进行更好的建模，有助于更好的识别事件类型。

本发明首先将句法依存信息中父词及其上下文转换为位置标记向量后，并在模型源端以无参数的方式融入到依赖子词的单词嵌入来捕获候选触发词与相关实体之间的句法关联性，以及增强不同触发词之间的信息流动性；此外,针对触发词的标注费时费力，设计了基于多头注意力机制的类型感知器，其可以对句子中潜在的触发词进行建模。最后，将局部的触发词信息与全局的语义表征进行联合，以完成对新闻的事件检测。本发明的事件检测需要识别新闻中的事件信息并对其进行分类，针对目前的事件检测方法通常采用邻接矩阵来表示原始的句法依赖关系，但邻接矩阵表示范围有限，只能捕获当前节点与相邻节点的关系。同时，邻接矩阵需要GCN网络对其进行编码才能获取句法信息。因此，提出了将父词信息连接到依赖子词来表征句法依存树中的依赖关系，并在transformer的编码器中将非结构化的句法信息与结构化的语义信息进行融合，不破坏transformer原本的结构性、减少了GCN单独编码的额外参数，并且更加的简便有效。

由于标注触发词标注费时费力并且标注准率低，为了对句子中隐藏的触发词进行建模，本发明通过在多头注意力机制中引入候选事件类型来发现句子中隐藏的触发词，并根据识别的触发词信息来完成事件类型的分类。

本发明的有益效果是：

1、本发明的融合句法信息额无触发词事件检测方法，通过在transformer的局部自注意力机制中以一种无参的方式将父词信息融入到依赖子词的单词嵌入使模型在编码源句子时关注到每个单词的父级依赖项及其上下文，不需要借助GCN的编码便能获取句法信息，并提高事件检测的准确性。

2、本发明的融合句法信息的无触发词事件检测方法，针对触发词的标注费时费力，提出了基于多头注意力机制的类型感知器对句子中隐藏的触发词进行建模，以实现无触发词的事件检测。

附图说明

图1为本发明提出的融合句法信息的无触发词事件检测模型的流程图；

图2为本发明提出的融合句法信息的无触发词事件检测方法中的句法信息处理实例图；

图3为本发明提出的融合句法信息的无触发词事件检测模型结构图；

图4为本发明提出的融合句法信息的无触发词事件检测模型中语义表示层中的依赖缩放自注意力机制(PASCAL)结构图；

具体实施方式

实施例1：如图1-4所示，融合句法信息的无触发词事件检测方法，所述融合句法信息的无触发词事件检测方法的具体步骤如下：

Steps4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置，然后将每个单词映射为其父词的中间位置表示。

作为本发明的优选方案，所述步骤Step1具体步骤为：

作为本发明的优选方案，所述步骤Step2具体步骤为：

Step2.1、使用Stanford CoreNLP工具获取句子的句法依存信息。

作为本发明的优选方案，所述步骤Step3包括：

将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度，将其表示为X＝{x₁，x₂，…，x_i，…x_n}，n为句子长度。对X进行随机初始化后获得词向量W＝{w₁，w₂，…,w_i,…w_n}，其中，w_i为x_i的向量表示。

作为本发明的优选方案，所述步骤Step4中：

作为本发明的优选方案，所述步骤Step5中包括：

然后，通过父词的位置向量P来将句子中的每一个词关联到其父级依赖项。以x_i作为当前词，通过dist(p_i，j)计算出所有x_j到x_i的父词的距离来衡量x_i位于位置i的得分。如式(2)所示，p_i表示x_i的父词的中间位置，j表示句子所有词的绝对位置，输出的句法关联矩阵D∈R^n×n，D的每一行表示任意j到x_i的父词的中间位置p_i的距离。

N^h＝S^hD (3)

M^h＝softmax(N^h)V^h，(1＜＝h＝8) (4)

M＝Contact(M^h) (5)

M′＝Norm(W+M)+FeedFward(Norm(W+M)) (6)

Z_global＝Transformer¹¹(M′) (7)

作为本发明的优选方案，所述步骤Step6的具体步骤为：

Step6.1、由于本文任务没有标注触发词，为了对隐藏的触发词进行建模，通过在多头注意力机制中引入候选事件类型来发现句子中隐藏的触发词。如式(8)和式(9)所示，通过对全局特征Z_global和候选事件类型的词嵌入G进行头数为8的多头注意力机制，来给Z_global中潜在的触发词分配更高的权重。

Z_att＝Contact(A^t)，(1<＝t<＝8) (9)

H＝Linear(AvgPooling(Z_global+Z_att)) (10)

y＝softmax(WH+b) (11)

表示最终的预测值。

Step7、通过对训练数据的分析可知：

Step7.1、为了解决机器学习中的多标签问题：一个句子可能包含零个或多个事件；本文在模型中将多标签分类转化为多个二分类。如表1所示，假设句子s共有三个预定义的事件类型t₁，t₂，t₃，而句子s包含事件类型t₁，t₃。则可以转化为以下三个实例：

Table 1An example of two classifications of event sentence S

表1事件句S的二分类举例

这样的话，如果一个句子中包含多个事件，则可以产生多个正对，从而很好地解决了多标签问题。

Step7.2、模型训练的目标函数采用交叉熵损失，如式(13)所示：

其中，θ表示模型中需要更新的参数；N表示一个batch的样本数；K表示类别数，本文将其设置为2，即每个句子属于预标注类型或无类型—NA；y代表真实标签，值为0或1；

表示候选事件的预测概率。本文使用Adam优化函数来更新参数0。

Step8、结合本文模型分别做了与先进方法的对比试验和模块有效性分析实验，证明本方法在新闻事件检测上具有较好效果以及证明模型设置的合理性与高效性。

Step8.1、评估方法使用准确率(Precision,P)，召回率(Recall,R)，F1值(F1-score)作为评价指标。P、R、F1定义如式(14)～(16)所示。

Step8.2、本模型选择Pytorch框架进行开发，采用12层的transformer编码端作为编码器，本发明模型中用到的多头注意力机制的头数均设置为8，具体的超参数设置如表2所示。

Table 2Model hyperparameters

表2模型超参数

Step8.3、本文选用以下7个事件检测模型作为基线模型，其中前4种是基于语义表示的事件检测模型，后3种是基于句法依存表示的事件检测模型，它们都是当前事件检测方面经典或最新的方法，分别如下：

基于语义表示：

动态多池卷积神经网络(DMCNN)：使用动态多池层从纯文本中自动提取词汇级和句子级特征；

双向递归神经网络(JRNN)：采用双向递归神经网络的联合框架来进行事件抽取；

混合型神经网络(HNN)：将双向长短时记忆网络(Bi-LSTMs)和卷积神经网络(CNNs)相结合，获取来自特定上下文的序列和结构语义信息；

类型感知偏差注意机制神经网络(TBNNAM)：该方法基于目标事件类型对句子的表示进行编码。

基于句法依存表示：

多阶图注意力网络(MOGANED)：使用GCN网络对句法信息编码，并使用attention机制聚合句中多阶的句法信息。

门控机制(Bi-LSTM+GCN)：采用Bi-LSTM与GCN网络分别学习语义表示与句法表示，再利用门控将语义信息与句法信息动态融合。

多个潜在上下文感知图结构上的图卷积网络(MH-GCN)：通过在bert表示和邻接矩阵上应用注意力机制，再使用GCN网络生成多个潜在的上下文感知图结构，动态的保留与事件检测有关的信息而忽略无关信息。

为了验证本文提出的方法在事件检测任务上具有优势，将本文模型与以上7个基线模型进行了对比，实验结果如表3所示(前人工作的实验性能数据均引入相应参考文献中的公开数据)。

Table 3Performance of all methods

表3所有方法的性能

分析表3可知，本文模型的整体性能优于其他的方法，其中与基于语义表示的HNN方法相比F1值提升了7.1％，与基于句法依存表示的MH-GCN方法相比，F1提升了4.2％。

原因分析：

(1)基于语义表示的方法将文本嵌入作为模型的输入。然而，LSTM等神经网络模型固有的特性并不能很好的解决句子的长距离依赖问题。本文通过引入句法信息加强了事件信息之间的语义关联性以及增强了整个句子的上下文语义表征，因此实验效果得到明显提升。

(2)相比之前基于句法依存表示的方法通过采用GCN来编码邻接矩阵以获取句法信息，本文方法证明通过将父词信息连接到依赖子词也能有效的进行句法信息的表征。此外，相较于之前的方法采用GCN网络对句法信息编码后再与文本的语义信息进行融合。本文采用向量运算的方式将句法依赖的位置信息融入到句子的单词嵌入，减少了基于GCN网络编码的额外参数，一定程度上提升了模型的性能。

Step8.4、为了验证句法信息中父级依赖词的语境可以丰富句子中孤立的单词嵌入表示，在语义表示层中设置了如下两组实验：不设置PASCAL以及在不同的transformer层中设置PASCAL。其中，-PASCAL表示不融入句法信息，n+PASCAL表示分别在不同的transformer层中融入句法信息。

Table4 Test results of not setting PASCAL and setting PASCAL indifferent transformer layers

表4不设置PASCAL以及在不同transformer层中设置PASCAL的试验结果

如表4所示，在第一层设置PASCAL的实验性能比只采用句子进行编码的性能更优越。由此表明融入句法解析中的句法依赖关系可以使句中单词关注到语义上与之关联的其它单词。另外，当在不同的transformer中设置PASCAL时，在底层的效果明显优于高层，由此证明：在底层时，更多的注意力集中于句法关系的编码，而在高层中则偏向于语义任务。因此，我们可以推断，在第一层执行PASCAL时能充分利用句法依赖的位置信息来丰富孤立的单词嵌入表示；而在高层时由于已经初步编码到文本的语义表征，将导致模型偏向于文本的语义编码而忽略来自底层的句法位置信息。

Step8.5、本发明通过在transformer的编码器中融入句法信息有效捕获到了候选触发词与相关实体之间的句法关联性，以及增强了多事件句中不同触发词之间的信息流动性。同时，通过采用类型感知器发现了句子中潜在的触发词，实现了无触发词的事件检测。试验表明，本文模型在相比于其他事件检测方法取得了更优越的性能，

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.融合句法信息的无触发词事件检测方法，其特征在于：所述方法包括：

Step1、语料收集并进行预处理；

Step4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置，然后将每个单词映射为其父词的中间位置表示；

Step5、采用基于transformer的语义表示层作为编码器，将句法信息与文本的语义信息进行融合，以编码获取句子的上下文语义表征；

Step6、最后通过类型感知器获取局部的触发词特征，再将局部的触发词特征与全局的语义表征进行联合，来完成事件检测任务；

所述Step6的具体步骤如下：

Step6.1、如式(1)和式(2)所示，通过对全局特征Z_global和候选事件类型的词嵌入G进行头数为8的多头注意力机制，来给Z_global中潜在的触发词分配更高的权重；

Z_att＝Contact(A^t),1<＝t<＝8 (2)

是在输入向量上执行线性投影的参数，A^t表示多头注意力机制中每个头的最终输出；Z_att为A^t的拼接，表示包含触发词信息的局部特征；

Step6.2、为了获取全局的事件信息，将全局特征Z_global和局部特征Z_att进行加权求和后再执行平均池化操作，然后经过一个线性层后获得向量H；最后，对H执行softmax获取对应类别的分布概率，并根据概率分布的值来判断输入句子的事件类型，如式(3)～(5)所示：

H＝Linear(AvgPooling(Z_global+Z_att)) (3)

y＝soft max(WH+b) (4)

表示最终的预测值。

2.根据权利要求1所述的融合句法信息的无触发词事件检测方法，其特征在于：所述步骤Step1具体步骤为：

Step1.1、语料采用ACE2005数据集：ACE2005语料库包括8种事件类型，33种事件子类型，将33种事件子类型视为33个独立的事件类型，而忽略它们之间的层次结构；

3.根据权利要求1所述的融合句法信息的无触发词事件检测方法，其特征在于：所述Step2具体步骤为：

Step2.1、使用Stanford CoreNLP工具获取预处理语料的句法依存信息；

Step2.2、使用BPE子词单元来缓解未登录词与罕见词问题，将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度；

Step2.3、将预处理后的数据集，按照13：1：1的比例分配训练语料、测试语料和验证语料。

4.根据权利要求1所述的融合句法信息的无触发词事件检测方法，其特征在于：所述Step3包括：

将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度，将其表示为X＝{x₁,x₂,…,x_i,…x_n}，n为句子长度，对X进行随机初始化后获得词向量W＝{w₁,w₂,…,w_i,…w_n}，其中，w_i为x_i的向量表示。

5.根据权利要求1所述的融合句法信息的无触发词事件检测方法，其特征在于：所述Step5中：采用12层的transformer编码端组成编码器；其中，在第一层transformer的局部自注意力层中融入了句法信息，而其他层的transformer则采用普通的自注意力层。