CN114169447B

CN114169447B - 基于自注意力卷积双向门控循环单元网络的事件检测方法

Info

Publication number: CN114169447B
Application number: CN202111503580.2A
Authority: CN
Inventors: 王侃; 王孟洋; 刘鑫; 代翔; 崔莹; 潘磊; 刘伟
Original assignee: Xidian University; CETC 10 Research Institute
Current assignee: Xidian University; CETC 10 Research Institute
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-12-06
Anticipated expiration: 2041-12-10
Also published as: CN114169447A

Abstract

本发明提出了一种基于自注意力卷积双向门控循环单元网络的事件检测方法，解决现有技术在事件检测时文本特征提取不充分以及模型收敛速度慢的问题。本发明的实现步骤为：(1)生成训练集；(2)构建自注意力卷积双向门控循环单元网络；(3)训练自注意力卷积双向门控循环单元网络；(4)检测自然语言文本中的事件。本发明构建了自注意力卷积双向门控循环单元网络，使网络同时利用文本中的词汇级特征和句子级特征，并使用自注意力捕捉词汇级特征的全局信息，关注对事件检测更有效的句子级特征，提高了事件检测的准确率和效率。

Description

基于自注意力卷积双向门控循环单元网络的事件检测方法

技术领域

本发明属于计算机技术领域，更进一步涉及自然语言处理领域中的一种基于自注意力卷积双向门控循环单元网络的事件检测方法。本发明可用于检测自然语言文本中的事件，并对事件进行分类。

背景技术

事件检测是事件抽取的基础，主要研究从自然语言文本中发现事件并确定事件类型，在网络舆情分析、事件知识图谱等领域有着广泛应用。事件检测的目标是抽取文本中事件的触发词，并将其划分为特定的事件类型，分为触发词识别和触发词分类两个子任务。近年来，神经网络广泛应用于自然语言处理领域，能自动地从自然语言文本中提取特征，并在事件检测任务上非常有效。

杭州电子科技大学在其申请的专利文献“一种融合注意力机制的神经网络事件抽取方法”(申请号：201811428287.2，申请公布号：CN 109710919 A)中提出了一种基于注意力机制和双向门控循环单元网络(Bidirectional Gated Recurrent Unit,BiGRU)的事件检测方法。首先，该方法预处理训练样本和待提取事件文本，输出处理好的文本和对应的标注序列；然后，使用预处理好的训练样本训练协同上下文注意力机制的BiGRU网络；最后，将带提取时间文本输入到训练好的神经网络，输出提取出的触发词和预测的事件类型。该方法存在的不足之处是，利用BiGRU网络只能提取文本的句子级特征，无法得到句子中的每个词汇级特征，在事件检测时对文本特征提取不充分。

苗佳在其发表的论文“基于CNN-BiGRU模型的事件触发词抽取方法”(计算机工程Computer Engineering第47卷第9期2020年10月)中提出了一种基于组合神经网络的事件检测方法。首先，该方法预处理数据集，将文本序列中的每个词转换为向量；然后，使用卷积神经网络(Convolutional Neural Networks,CNN)和双向门控循环单元网络联合提取文本特征，通过CNN提取词汇级特征，通过BiGRU提取句子级特征；最后，将所提取词汇级特征和句子级特征拼接作为联合特征，通过分类器分类输出事件触发词和所属类型，完成事件检测任务。该方法存在的不足之处是，在提取文本特征时，CNN只能获取卷积窗口内的局部词汇级特征，无法捕捉文本中词语的全局信息；BiGRU提取的句子级特征繁琐，且存在无效的句子级特征。因此，该方法在事件检测时提取特征仍不够充分且模型收敛速度慢。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于自注意力卷积双向门控循环单元网络的事件检测方法，用于解决现有技术在事件检测时文本特征提取不充分以及模型收敛速度慢的问题。

实现本发明目的的思路是，本发明构建一个由卷积层、自注意力层组成的词汇级特征提取模块与一个由前向GRU层、反向GRU层、拼接层、自注意力层组成的句子级特征提取模块。在词汇级特征提取模块和句子级特征提取模块中均加入了由线性变换、点积和softmax操作组成的自注意力层。首先，该自注意力层对卷积层输出的文本词汇级特征和拼接层输出的句子级特征分别进行不同的线性变换，得到对应的查询矩阵、键矩阵和值矩阵；然后，通过点积操作计算查询矩阵和键矩阵的相关性矩阵，并通过softmax操作对相关性矩阵进行归一化，得到词汇级特征之间和句子级特征之间的相关程度；最后，根据归一化后的相关性矩阵和值矩阵的点积操作，得到词汇级特征的全局信息并赋予高相关性的句子特征更高的权重，使得事件检测时文本特征提取的更充分，模型的收敛速度更快。

为实现上述目的，本发明的实现的具体步骤如下：

步骤1，生成训练集：

(1a)对至少500篇自然语言文本中的每个事件句的事件触发词、事件触发词位置信息以及事件类型进行标注；

(1b)对自然语言文本中的每个句子进行预处理，将预处理后的所有句子矩阵组成训练集；

步骤2，构建自注意力卷积双向门控循环单元网络：

(2a)搭建一个由卷积层和自注意力层组成的词汇级特征提取模块；将卷积层中卷积核的个数设置为600，其中大小为3×300、4×300和5×300的卷积核个数各200个；自注意力层包括线性变换、点积和softmax操作，采用自注意力函数实现；

(2b)搭建一个由前向GRU层，反向GRU层，拼接层和自注意力层组成的句子级特征提取模块；将前向GRU层和反向GRU层的时间步长均设置为30，隐层个数均设置为100；将拼接层的拼接维度设置为200；自注意力层采用与步骤(2a)相同的自注意力函数实现；

(2c)搭建一个由拼接层，全连接层和softmax层组成的分类模块；将拼接层的拼接维度设置为24000；将全连接层的输出神经元个数设置为2；softmax层采用softmax函数实现；

(2d)将词汇级特征提取模块和句子级特征提取模块并联后再与分类模块级联，组成自注意力卷积双向门控循环单元网络；

步骤3，训练自注意力卷积双向门控循环单元网络：

将训练集输入到自注意力卷积双向门控循环单元网络中，利用反向传播梯度下降法，迭代更新网络中各层的参数，直到自注意力卷积双向门控循环单元网络的损失函数值能够使待训练参数逐渐趋向于使正确分类概率最大的数值，得到训练好的自注意力卷积双向门控循环单元网络；

步骤4，检测自然语言文本中的事件：

(4a)采用与步骤(1b)相同的方法，对待检测自然语言文本中的每个句子进行预处理，得到待检测文本中的每个句子的矩阵；

(4b)将每个句子的矩阵输入到训练好的自注意力卷积双向门控循环单元网络中，通过softmax层计算出每个句子被识别为各事件类型的概率值，将最高概率值对应的类别作为事件检测的结果。

本发明与现有技术相比有以下优点：

第一，由于本发明构建了一个词汇级特征提取模块，该模块通过自注意力层捕捉词汇的全局信息和上下文联系，克服了现有技术事件检测时卷积操作只能提取卷积窗口内局部词汇级特征的问题，使得本发明提出的技术充分提取词语的全局信息，事件检测的准确率更高。

第二，由于本发明构建了一个句子级特征提取模块，该模块通过自注意力层赋予句子级特征不同的权重，关注对事件检测任务更有效的句子级特征，克服了现有技术在事件检测时句子级特征繁琐带来的模型收敛慢的问题，从而使得本发明提出的技术在事件检测时效率更高。

附图说明

图1是本发明的流程图；

图2是本发明的自注意力双向门控循环单元网络的示意图。

具体实施方式

下面结合附图和实施例，对本发明做进一步的详细描述。

参照图1，对本发明的步骤做进一步的详细描述。

步骤1，生成训练集。

本发明的实施例生成训练集所采用的数据来自宾夕法尼亚大学的语言数据协会2006年2月发布的ACE2005英文语料，该英文语料中共包括599篇文档，每篇文档由多个句子组成，每个句子由多个词语组成。

将ACE2005英文语料的所有文档中的所有词语输入到开源词向量工具包Word2vec的Skip-gram模型中，输出每个词语的词向量。例如，ACE2005英文语料中的词语“police”与其他所有词语一起输入Word2vec的Skip-gram模型，输出该词语对应的一个300维的词向量。

将每个句子中的所有词语的词向量组成该句子对应的矩阵，其中矩阵的行数为该句子中词语的总数，列数为该句子对应的词向量的维度。例如，ACE2005英文语料一篇文档中的一个句子“A police offer was killed in New Jersey today”的9个词语分别为“A”、“police”、“offer”、“was”、“killed”、“in”、“New”、“Jersey”、“today”。每个词语对应一个300维的词向量，该句子可映射为一个9×300的矩阵。

对ACE2005英文语料中每个句子映射的矩阵进行补齐，如果矩阵超过30行则截取前30行，如果少于30行，则对矩阵下方补零至30行。例如，对句子“Apolice offer waskilled in New Jersey today”映射的9×300矩阵下方补零至30行，得到一个30×300的矩阵。

将对齐后的ACE2005英文语料中所有句子映射的矩阵组成训练集。

步骤2，构建自注意力卷积双向门控循环单元网络。

参照图2，对本发明构建的自注意力卷积双向门控循环单元网络做进一步的详细描述。

搭建一个由卷积层和自注意力层组成的词汇级特征提取模块。将卷积层中卷积核的个数设置为600，其中大小为3×300、4×300和5×300的卷积核个数各200个。自注意力层包括线性变换、点积和softmax操作，采用如下自注意力函数实现：

其中，Q、K、V分别表示卷积层的输出经过不同线性变换后的查询矩阵、键矩阵和值矩阵，QK^T表示查询矩阵Q和键矩阵K的相关性矩阵，d_K表示键矩阵K的列数，T表示转置操作，softmax(·)表示softmax函数。

搭建一个由前向GRU层，反向GRU层，拼接层和自注意力层组成的句子级特征提取模块。将前向GRU层和反向GRU层的时间步长均设置为30，隐层个数均设置为100；将拼接层的拼接维度设置为200；自注意力层采用与上述相同的自注意力函数实现。

搭建一个由拼接层，全连接层和softmax层组成的分类模块。将拼接层的拼接维度设置为24000；将全连接层的输出神经元个数设置为2；softmax层采用softmax函数实现。

将词汇级特征提取模块和句子级特征提取模块并联后再与分类模块级联，组成自注意力卷积双向门控循环单元网络。

步骤3，训练自注意力卷积双向门控循环单元网络。

将训练集输入到自注意力卷积双向门控循环单元网络中，利用反向传播梯度下降法，迭代更新网络中各层的参数，直到自注意力卷积双向门控循环单元网络的损失函数值能够使待训练参数逐渐趋向于使正确分类概率最大的数值，得到训练好的自注意力卷积双向门控循环单元网络。

自注意力卷积双向门控循环单元网络的损失函数由交叉熵损失函数表示，其表达式为：

其中，L表示网络的损失函数值，S表示输入训练样本的数量，log表示以10为底的对数操作，p_j为输入样本被识别为第j类样本的概率。

步骤4，检测自然语言文本中的事件。

采用与步骤1相同的方法，对待检测自然语言文本中的每个句子进行预处理，得到待检测文本中的每个句子的矩阵。

将每个句子的矩阵输入到训练好的自注意力卷积双向门控循环单元网络中，通过softmax层计算出每个句子被识别为各事件类型的概率值，将最高概率值对应的类别作为事件检测的结果。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件。

本发明的仿真实验的硬件平台为：处理器为AMD R7 4800H CPU，主频为2.9GHz，内存16GB。

本发明的仿真实验的软件平台为：Windows 10操作系统和python 3.6。

本发明仿真实验所使用的语料为ACE2005英文语料，该语料数据采集新闻、广播、论坛、博客等，由宾夕法尼亚大学的语言数据协会(Linguistic Data Consortium,LDC)于2006年2月发布，语料的标注格式采XML语言，共包括599篇文档，每篇文档由多个句子组成，每个句子由多个词语组成。

2.仿真内容及其结果分析。

本发明仿真实验是采用本发明和四个现有技术(最大熵MaxENT事件检测方法、动态多池化DMCNN事件检测方法、联合循环神经网络JRNN事件检测方法、跳窗卷积神经网络SCNN事件检测方法)分别对输入的语料进行文本特征提取并根据所提取文本特征进行分类，获得事件检测结果。

在仿真实验中，采用的四个现有技术是指：

现有技术最大熵MaxENT事件检测方法是指，AHN等人在“The Stage of EventExtraction,Proceedings of the Workshop on Annotating and Reasoning about Timeand Events.Sydney：Association for Computational Linguistics，2006：1-8.”中提出的事件检测方法，简称最大熵MaxENT事件检测方法。

现有技术动态多池化DMCNN事件检测方法是指，CHEN Y B等人在“EventExtraction via Dynamic Multi-Pooling Convolutional Neural Networks，Proceedings of the 53rd Annual Meeting of the Association for ComputationalLinguistics and the7th International Joint Conference on Natural LanguageProcessing.Beijing：Association for Computational Linguistics，2015：167-176.”中提出的事件检测方法，简称动态多池化DMCNN事件检测方法。

现有技术联合循环神经网络JRNN事件检测方法是指，NGUYEN等人在“Joint EventExtraction via Recurrent Neural Networks[C]//Proceedings of the2016Conference of the North American Chapter of the Association forComputational Linguistics：Human Language Technologies.San Diego：Associationfor Computational Linguistics，2016：300–309.”中提出的事件检测方法，简称联合循环神经网络JRNN事件检测方法。

现有技术跳窗卷积神经网络SCNN事件检测方法是指，ZHANG Z K等人在“JointEvent Extraction Based on Skip-Window Convolutional Neural Networks[C]//Proceedings of the 5th Conference on Natural Language Processing and ChineseComputing&the 24rth International Conference on Computer Processing ofOriental Languages.Kunming：Springer International Publishing，2016：324-334.”中提出的事件检测方法，简称跳窗卷积神经网络SCNN事件检测方法。

利用三个评价指标(准确率P、召回率R和F值)分别对五种方法的分类结果进行评价。利用下面公式，计算准确率P、召回率R和F值，将所有计算结果绘制成表1：

表1.仿真实验中本发明和各现有技术事件检测结果的定量分析表

从表1可以看出，基于神经网络的事件检测方法的性能普遍优于传统的事件检测方法(最大熵MaxENT事件检测方法)。这是因为神经网络能够自动学习和提取文本特征，避免了传统方法在使用复杂NLP工具人工提取词性、命名实体等特征是带来的误差传播。在触发词分类任务中，本文模型准确率达到82.6％，召回率为76.0％，F值为78.9％，均高于基线模型方法。在触发词分类任务中，本文模型保持了较高的准确率和召回率，同时取得了最高的F值76.0％。综上对比结果显示，本文模型性能较传统的事件检测方法和单一的CNN、RNN事件检测方法性能均得到了提升，这表明组合神经网络能充分提取词汇级特征和句子级特征，从而具有较好的事件检测性能。

以上仿真实验表明：本发明方法将句子对应的矩阵作为输入，通过词汇级特征提取模块提取不同粒度的词汇级特征，通过句子级特征提取模块提取句子级特征，使用自注意力捕捉词汇级特征的全局信息，赋予句子级特征不同的权重，关注对事件检测任务更有效的句子级特征。该模型避免了传统方法使用复杂的NLP工具带来的错误传播的问题，自动学习文本特征，比传事件检测方法表现更好。同时，该模型能充分提取文本的词汇级特征和句子级特征，性能比单一神经网络的事件检测模型有了进一步提升。

Claims

1.一种基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，构建由词汇级特征提取模块、句子级特征提取模块和分类模块组成的自注意力卷积双向门控循环单元网络；该方法的具体步骤包括如下：

步骤1，生成训练集：

步骤2，构建自注意力卷积双向门控循环单元网络：

步骤3，训练自注意力卷积双向门控循环单元网络：

步骤4，检测自然语言文本中的事件：

2.根据权利要求1所述的基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，步骤(1a)中所述的事件是指：发生在某个特定时间、某个特定地域的一个或多个角色参与的一个或多个动作。

3.根据权利要求1所述的基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，步骤(1a)中所述的事件触发词是指：事件信息中能准确代表事件和表示事件类型的关键词，事件由事件触发词触发。

4.根据权利要求1所述的基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，步骤(1a)中所述的事件触发词位置是指：事件触发词在事件句中的绝对位置，即事件触发词是事件句中第几个词语。

5.根据权利要求1所述的基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，步骤(1b)中所述预处理的步骤如下：

步骤1，利用词向量预训练工具，得到自然语言文本中的每个词语的词向量；

步骤2，将每个句子的所有词语的词向量组成该句子的矩阵，其中矩阵的行数为该句子中词语的总数，列数为该句子对应的词向量的维度；

步骤3，对每个矩阵进行对齐，如果该矩阵超过30行，则截取前30行，如果少于30行，则在矩阵下方补零至30行。

6.根据权利要求1所述的基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，步骤(2a)中所述的自注意力函数公式如下：

7.根据权利要求1所述的基于自注意力卷积双向门控循环单元网络的事件检测方法，其特征在于，步骤3中所述的交叉熵损失函数公式如下：