CN110210019A

CN110210019A - 一种基于递归神经网络的事件要素抽取方法

Info

Publication number: CN110210019A
Application number: CN201910425854.7A
Authority: CN
Inventors: 陈兴蜀; 蒋梦婷; 王海舟; 王文贤; 殷明勇; 唐瑞; 蒋术语; 马晨曦
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-06

Abstract

本发明公开了一种基于递归神经网络的事件要素抽取方法，包括以下步骤：步骤1：构建基于递归神经网络的事件要素抽取模型；步骤2：获取语料，训练词向量；步骤3：使用标注的语料训练特征向量，包括词性特征向量、命名实体特征向量、依存关系特征向量；步骤4：构造出训练集中所需的目标向量，将步骤2的词向量和步骤3特征向量训练步骤1构建的事件要素抽取模型；步骤5：采用步骤4训练得到的事件要素抽取模型对测试数据进行事件要素的预测；步骤6：对事件要素抽取模型输出的预测信息进行事件要素的提取。本发明方法对事件要素抽取的准确率较高。

Description

一种基于递归神经网络的事件要素抽取方法

技术领域

本发明涉及事件抽取技术领域，具体涉及一种基于递归神经网络的事件要素抽取方法。

背景技术

事件抽取(Event Extraction，EE)是指从丰富的文本信息中识别出具体类型的事件描述句，并针对这些事件描述句进行事件元素的确定和抽取。事件抽取包括两个主要步骤，一是对事件的检测，二是对检测出的事件进行事件要素的提取。事件检测是事件抽取的基础，而事件触发词是能清晰表示事件发生的词语，所以事件检测就是对事件触发词进行识别的过程。事件要素是描述事件的具体信息，包括时间、地点、人物等，事件要素就是获得事件描述句中某一事件的具体时间要素、地点要素、人物要素、对象要素等。事件要素抽取是在事件触发词识别任务的基础上完成的。事件要素抽取任务同样可以分为两个部分，分别是事件要素的检测和事件要素的分类。

近年来，互联网迅猛发展，我国网民的规模也迅速增长，互联网对人们的生活和社会影响力也日益加深。与传统信息传播媒体相比，网络媒体信息具规模大、传播快、信息丰富、实时性强、参与度高等显著特点。网络媒体每天会产生大量的文本数据，面对日益增长的海量互联网信息，快速定位到公众讨论的具体事件变得至关重要。这不仅可以帮助舆情监管人员快速定位到具体事件，了解事件的具体要素，还可以将事件抽取结果提供给其他自然语言处理任务，以进行更深入的分析和应用。国内针对中文事件要素抽取的研究起步较晚，针对中文的事件要素抽取研究还较少。

发明内容

本发明所要解决的技术问题是提供一种基于递归神经网络的事件要素抽取方法，在事件触发词识别任务的基础上，使用GRU神经网络和词性、命名实体、依存分析等特征，对事件要素进行抽取，识别准确率高。

为解决上述技术问题，本发明采用的技术方案是：

一种基于递归神经网络的事件要素抽取方法，包括以下步骤：

步骤1：构建基于递归神经网络的事件要素抽取模型；

所述事件要素抽取模型包括输入层、隐藏层和输出层；

输入层

事件要素抽取模型包括两个输入层；第一个输入层是将词向量、词性向量、命名实体向量、依存关系向量和触发词类别向量联接起来，作为词序列中每个词的向量表示，完成词序列W＝{w₀,w₁,w₂,...,w_n-1}到实数向量X＝{x₀,x₁,x₂,...,x_n-1}的编码转换，将实数向量X＝{x₀,x₁,x₂,...,x_n-1}作为递归神经网络的输入；第二个输入层是构造的事件触发词类型特征向量D＝{d₀,d₁,d₂,...,d_n-1}；

隐藏层

隐藏层为双向GRU递归神经网络，分别捕捉上文特征信息和下文特征信息，为上文特征信息，为下文特征信息；将上下文特征信息融合后，再将第二个输入层中的事件触发词类型输入特征联接起来，将所有特征信息传送到下一层，进行事件要素的检测和分类；

输出层

输出层为前馈式神经网络，使用softmax作为激活函数，得到每个词的类别概率分布P_t ^arg＝F^arg(y_t)，根据概率分布对事件要素的类别进行预测，公式为：type(t)＝argmax(P_t ^arg)；

步骤2：获取语料，训练词向量；

将语料经过分句分词后，句子由词序列W＝{w₀,w₁,w₂,...,w_n-1}表示，其中n为句长，w_i代表句子中的第i+1个词；词序列中的每个词w_i用词向量表示为[ν₀,ν₁,ν₂,...,ν_m-1]，m为词向量的维度大小；

步骤3：使用标注的语料训练特征向量，包括词性特征向量、命名实体特征向量、依存关系特征向量；

词性特征向量

对分词处理后的词序列进行词性标注，得到句子的词性序列，将词性标签转换为词性向量；

命名实体特征向量

对分词处理后的词序列中的命名实体进行标注，使用BIEO的标注模式，再将进行命名实体标注后的标签序列转换为命名实体向量；

依存关系特征向量

对分词处理后的词序列中的依存关系进行分析，得到一个依存句法关系树，将依存关系特征转换为两种特征向量；

步骤4：构造出训练集中所需的目标向量，将步骤2的词向量和步骤3特征向量训练步骤1构建的事件要素抽取模型；

目标向量代表了事件要素的抽取结果，它的形状为[length,9]；其中，length应与输入向量的长度保持一致，即与句子的词序列长度一致；9是每个词对应的向量长度，代表了9种事件要素标签；

步骤5：采用步骤4训练得到的事件要素抽取模型对测试数据进行事件要素的预测；

步骤6：对事件要素抽取模型输出的预测信息进行事件要素的提取。

进一步的，还包括步骤7：将事件要素组成一个描述事件的四元组<时间、地点、参与者、涉及对象>。

进一步的，在所述步骤3中，训练的词性特征向量为：

构建一个长度为25的词性标签字典；每个词对应一个长度为25的向量，向量只有一个1，对应该词的词性在词性字典中的位置，其余位置为0；设词w_i对应的词性特征向量为[pos₀,pos₁,...,pos_j,...,pos₂₄]，pos_j的设置方式为

进一步的，在所述步骤3中，训练的命名实体特征向量为：

使用一个长度为13的命名实体标签字典，每个词对应一个长度为13的向量，向量只有一个1，对应该词的命名实体标签在命名实体标签字典中的位置，其余位置为0；假设词w_i对应的命名实体特征向量为[ner₀,ner₁,...,ner_j,...,ner₁₂]，ner_j的设置方式为

进一步的，在所述步骤3中，将依存关系特征转换为两种特征向量为：

一是所依赖的父节点向量，每个词对应一个长度为所在句子长度加1的向量，如果当前词w_i依赖于词w_j，则将向量中词w_j所在的位置处设置为1，其余位置为0；假设词w_i所依赖的父节点向量为[f₀,f₁,...,f_j,...,f_n]，f_j的设置方式为

二是依存关系类型向量，已知依存关系类型共14种，构建一个长度为14的依存关系字典；每个词对应一个长度为14的向量，向量只有一个1，对应该词的依存关系类型在依存关系字典中的位置，其余位置为0；假设词w_i对应的依存关系特征向量为[dep₀,dep₁,...,dep_j,...,dep₁₃]，为dep_j的设置方式。

与现有技术相比，本发明的有益效果是：1)利用双向GRU递归神经网络，分别自动学习并捕获句子中上文和下文的特征信息；2)同时使用词性特征、命名实体特征和依存关系特征，提高对事件要素抽取的准确率；3)对事件描述句中包含多个事件时的事件要素抽取的准确率也较高；4)针对性强、识别准确率高。

附图说明

图1是本发明方法流程示意图；

图2是本发明中建立的事件要素抽取模型示意图；

图3是本发明中构建依存关系特征向量的依存语法树示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。如图1所示，一种基于递归神经网络的事件要素抽取方法，包括以下步骤：

步骤1：构建基于递归神经网络的事件要素抽取模型；

事件要素抽取模型包括输入层、隐藏层和输出层；

1、输入层

事件要素抽取模型包括两个输入层。其中，第一个输入层是将词向量、词性向量、命名实体向量、依存关系向量和触发词类别向量联接起来作为词序列中每个词的向量表示，完成词序列W＝{w₀,w₁,w₂,...,w_n-1}到实数向量X＝{x₀,x₁,x₂,...,x_n-1}的编码转换，将实数向量X＝{x₀,x₁,x₂,...,x_n-1}作为递归神经网络的输入。第二个输入层则是构造的事件触发词类型特征向量D＝{d₀,d₁,d₂,...,d_n-1}。

2、隐藏层

隐藏层为双向GRU递归神经网络，分别捕捉上文特征信息和下文特征信息，为上文特征信息，为下文特征信息。将上下文特征信息融合后，再将第二个输入层中的事件触发词类型输入特征联接起来，将所有特征信息传送到下一层，进行事件要素的检测和分类。

y_t＝[α_t,α_t',d_t]为隐藏层中生成的所有特征信息。

3、输出层

输出层为前馈式神经网络，使用softmax作为激活函数，得到每个词的类别概率分布P_t ^arg＝F^arg(y_t)，根据概率分布对事件要素的类别进行预测，公式为：type(t)＝argmax(P_t ^arg)。

步骤2：获取语料，训练词向量；

将语料经过分句分词后，句子由词序列W＝{w₀,w₁,w₂,...,w_n-1}表示，其中n为句长，w_i代表句子中的第i+1个词。词序列中的每个词w_i用词向量表示为[ν₀,ν₁,ν₂,...,ν_m-1]，m为词向量的维度大小。

步骤3：使用标注的语料训练特征向量(包括词性特征向量、命名实体特征向量、依存关系特征向量)；

1、词性特征向量

词性特征是由词性标注得来，词性标注是依据文本的上下文信息，对文本中的每个词作出相应的正确词性标记，即这个词是动词、名词、形容词还是其他词性。本发明对分词处理后的词序列进行词性标注，得到句子的词性序列；最后，将词性标签转换为词性向量。

语料中共使用到了25种词性，可构建一个长度为25的词性标签字典。每个词对应一个长度为25的向量，向量只有一个1，对应该词的词性在词性字典中的位置，其余位置为0。假设词w_i对应的词性特征向量为[pos₀,pos₁,...,pos_j,...,pos₂₄]，pos_j的设置方式为

例如：“3月18日上午8时30分，兴庆区丽景北街发生一起交通事故”分词之后的结果为“3月\18日\上午\8时\30分\，\兴庆区\丽景北街\发生\一\起\交通事故”，进行词性标注后的标签结果为“[nt,nt,nt,nt,nt,wp,ns,ns,v,m,q,n]”(nt表示时间名词，wp表示标点符号，ns表示地理名词，v表示动词，m表示数字，q表示量词，n表示普通名词)，其中，“交通事故”为普通名词(n)，那么它的词性向量为[0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

2、命名实体特征向量

对分词处理后的词序列中的命名实体进行标注，使用BIEO的标注模式，识别出句子中的人名、地名和机构名。再将进行命名实体标注后的标签序列转换为命名实体向量。

使用一个长度为13的命名实体标签字典，每个词对应一个长度为13的向量，向量只有一个1，对应该词的命名实体标签在命名实体标签字典中的位置，其余位置为0。假设词w_i对应的命名实体特征向量为[ner₀,ner₁,...,ner_j,...,ner₁₂]，ner_j的设置方式为

例如：“3月18日上午8时30分，兴庆区丽景北街发生一起交通事故”分词之后的结果为“3月\18日\上午\8时\30分\，\兴庆区\丽景北街\发生\一\起\交通事故”，进行命名实体标注后的标签序列为：“[O,O,O,O,O,O,B-Ns,E-Ns,O,O,O,O]”(B-Ns表示地名的开始，E-Ns表示地名的结束)。最后，将命名实体特征转换为命名实体向量。其中，“兴庆区”的标签为B-Ns，那么它的命名实体向量为[0,1,0,0,0,0,0,0,0,0,0,0,0]。

3、依存关系特征向量

对分词处理后的词序列中的依存关系进行分析，得到一个依存句法关系树。最后，将依存关系特征转换为两种特征向量。

将依存关系特征转换为两种特征向量。一种是所依赖的父节点向量，每个词对应一个长度为所在句子长度加1的向量，如果当前词w_i依赖于词w_j，那么将向量中词w_j所在的位置处设置为1，其余位置为0。假设词w_i所依赖的父节点向量为[f₀,f₁,...,f_j,...,f_n]，f_j的设置方式为

另一种是依存关系类型向量，已知依存关系类型共14种，可构建一个长度为14的依存关系字典。每个词对应一个长度为14的向量，向量只有一个1，对应该词的依存关系类型在依存关系字典中的位置，其余位置为0。假设词w_i对应的依存关系特征向量为[dep₀,dep₁,...,dep_j,...,dep₁₃]，为dep_j的设置方式。

以“3月18日上午8时30分，兴庆区丽景北街发生一起交通事故”的事件句为例，该事件句的依存关系以依存语法树的形式直观展示如图3所示。其中，“交通事故”一词依赖的父节点是“发生”(核心关系)，那么该词依赖的父节点向量为[0,0,0,0,0,0,0,0,0,1,0,0,0]。

此外，“交通事故”一词的依存关系类型为VOB(动宾关系)，那么它的依存关系向量为[0,0,0,0,0,0,0,1,0,0,0,0,0,0]。

步骤4：构造出训练集中所需的目标向量，将步骤2得到的的词向量和步骤3得到的特征向量训练步骤1构建的事件要素抽取模型；

目标向量代表了事件要素的抽取结果，它的形状应为[length,9]。其中，length应与输入向量的长度保持一致，即与句子的词序列长度一致；9是每个词对应的向量长度，代表了9种事件要素标签。

假设词w_i的事件要素类型目标向量为[arg₀,arg₁,...,arg_j,...,arg₈]，为arg_j的设置方式。

例如，“成都等四川多地也有明显震感”分词后为“成都\等\四川\多地\也\有\明显\震感”，其中“成都等四川多地”是地点要素，那么“成都”对应的目标向量应为[0,0,0,1,0,0,0,0,0]，“等”、“四川”、“多地”对应的目标向量都为[0,0,0,0,1,0,0,0,0]。

步骤6：对模型输出的预测信息进行事件要素的提取。

表1是使用本发明提出的事件要素抽取模型进行实验，分别得到时间(time)、地点(location)、参与者(participant)和涉及对象(object)四种事件要素抽取结果的准确率、召回率和F值。可以看出，本发明提出的事件要素抽取模型取得了较好的准确率。

表1

表2结合GRU递归神经网络和词性特征、命名实体特征和依存关系特征等分别设计了针对本发明对比实验。将GRU+词向量的模型作为baseline，模型中第一个输入仅包含词向量为128维；然后在baseline的基础上分别添加了词性特征、命名实体特征和依存关系特征，将各个模型中的第一个输入向量维度分别调整为153、141和259；最后添加全部特征后，模型的第一个输入向量维度为297。可以看出，仅仅使用GRU递归神经网络与词向量进行事件要素抽取任务，同时实现事件要素的检测和事件要素的分类，所得到的结果准确率、召回率都较低，要素分类的F值只有57.99％。证明了词性特征、命名实体特征和依存关系特征对事件要素抽取的贡献。最后将三种特征同时加入到模型中进行训练，最后得到的事件要素检测和分类结果的F值均达到了最优。

表2

表3结合LSTM递归神经网络、SVM分类设计针对事件要素抽取模型对比实验，可以看出使用LSTM递归神经网络和GRU递归神经网络的要素检测和要素分类的结果均优于SVM分类的方法，这说明了神经网络方法在事件要素抽取任务中具有一定的优势。其中，GRU神经网络能使该任务能到更好的F值，达到66.77％。基于神经网络的事件要素抽取方法不仅可以自动学习句子中的上下文特征信息，还可以结合本文构造的多种特征和相关的触发词，抽取出与该触发词相关的所有事件要素，并且在时间性能上大大优于SVM分类的方法。

表3

表4验证本发明在事件要素抽取任务上的性能，尤其是在事件描述句中包含多个事件的情况下的性能，可以看出，事件描述句中包含多个事件时的事件要素抽取的准确率、召回率和F值均优于事件描述句中只有一个事件的情况。

表4

可将本发明方法编为程序代码，通过计算机刻度存储介质存储该代码，将程序代码传输给处理器，通过处理器执行本发明方法。

本发明利用双向GRU递归神经网络，分别自动学习并捕获句子中上文和下文的特征信息，同时使用词性特征、命名实体特征和依存关系特征，提高对事件要素抽取的准确率。同时，模型对事件描述句中包含多个事件时的事件要素抽取的准确率也较高。该模型后续可以开展更多的研究。

Claims

1.一种基于递归神经网络的事件要素抽取方法，其特征在于，包括以下步骤：

步骤1：构建基于递归神经网络的事件要素抽取模型；

所述事件要素抽取模型包括输入层、隐藏层和输出层；

输入层

隐藏层

输出层

输出层为前馈式神经网络，使用softmax作为激活函数，得到每个词的类别概率分布P_t ^arg＝F^arg(y_t)，根据概率分布对事件要素的类别进行预测，公式为：type(t)＝arg max(P_t ^arg)；

步骤2：获取语料，训练词向量；

将语料经过分句分词后，句子由词序列W＝{w₀,w₁,w₂,...,w_n-1}表示，其中n为句长，w_i代表句子中的第i+1个词；词序列中的每个词w_i用词向量表示为[v₀,v₁,v₂,...,v_m-1]，m为词向量的维度大小；

词性特征向量

命名实体特征向量

依存关系特征向量

2.如权利要求1所述的一种基于递归神经网络的事件要素抽取方法，其特征在于，还包括步骤7：将事件要素组成一个描述事件的四元组<时间、地点、参与者、涉及对象>。

3.如权利要求1所述的一种基于递归神经网络的事件要素抽取方法，其特征在于，

在所述步骤3中，训练的词性特征向量为：

4.如权利要求1所述的一种基于递归神经网络的事件要素抽取方法，其特征在于，

在所述步骤3中，训练的命名实体特征向量为：

5.如权利要求1所述的一种基于递归神经网络的事件要素抽取方法，其特征在于，

在所述步骤3中，将依存关系特征转换为两种特征向量为：