CN110134720B

CN110134720B - 融合局部特征与深度学习的事件联合抽取方法

Info

Publication number: CN110134720B
Application number: CN201910412962.0A
Authority: CN
Inventors: 孔芳; 张俊青; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-02-09
Anticipated expiration: 2039-05-17
Also published as: CN110134720A

Abstract

本发明公开了一种融合局部特征与深度学习的事件联合抽取方法。本发明融合局部特征与深度学习的事件联合抽取方法，包括：抽取实体、词性与依存分析，利用PV‑DM模型训练文档向量；学习隐藏特征，进入GCN；再次，识别出事件元素与事件触发之间的记忆单元，帮助识别事件类型与事件论元；最后，使用CRF对最终的事件类型进行标注，全连接层中，用Softmax函数对事件元素进行识别。本发明的有益效果：借助文档向量学习文章中的主旨信息，其次利用图卷积网络挖掘事件之间的联系，最后利用记忆单元与局部特征学习事件类型与事件元素之间的信息，以此完成事件联合抽取，提高其识别性能。

Description

融合局部特征与深度学习的事件联合抽取方法

技术领域

本发明涉及事件抽取领域，具体涉及一种融合局部特征与深度学习的事件联合抽取方法。

背景技术

如何从互联网上海量的信息数据中快速、准确的抽取有价值的信息，已经成为人们面临的重大难题。在这背景下，信息抽取应运而生。信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等。信息为特定的人、物在特定时间与特定地点相互作用的客观事实。事件抽取是从非结构化信息中抽取出用户感兴趣的事件，以结构化的方式存储在数据库中供用户查看。

事件抽取的研究历史要追溯到20世纪80年代末。在MUC(消息理解会议)、ACE(自动内容抽取会议)及TAC(文本分析会议)等的推动下，事件抽取技术的研究得到蓬勃发展。早起的研究方法主要是通过在特定领域表现良好的模式匹配进行事件抽取；由于基于模式匹配的事件抽取方法可移植性较差，众多学者把目光集中于机器学习。近年来，随着深度学习在自然语言处理任务表现出众，已成为事件抽取研究的主流方法。

目前深度学习技术在事件抽取任务上应用最为广泛。其中典型的工作是Mihaylov等人的基于双向LSTM的事件触发词与事件类型识别[1]、Ferguson等人的基于结构特征的事件元素识别[2]和Nguyen等人[3]于2016年提出的基于循环神经网络的事件联合抽取。

(1)基于双向LSTM的事件触发词与事件类型识别

Mihaylov等人的序列到序列模型主要分为三步骤：

词表示层：该层包含词向量、词性向量、依存词向量与依存类型向量作为输入向量X。

双向LSTM层：对词表示层进行编码，获得隐藏特征，得到h。

SoftMax层：隐藏特征进入该层，对事件类型进行预测。

(2)基于结构特征的事件元素识别

该模型结合Evento、NomEvent和NewsSpike三个模型，当识别结果出现不同时，以Evento识别结果为标准。

Evento模型：先使用马尔科夫随机场进行实体抽取，然后利用条件随机场进行触发词识别与事件元素识别，所用特征如表1、表2和表3所示。

表1Evento模型实体抽取所用特征

表2Evento和NomEvent触发词识别所用特征

表3Evento事件元素识别所用特征

NomEvent模型：先使用CRF对实体进行抽取，所用特征为词性、NER标签与词，然后用L2逻辑回归模型对事件类型进行分类，所用特征如表2所示。

NewsSpike模型：基于开源事件抽取规则利用非监督方法进行事件抽取。

(3)基于循环神经网络的事件联合抽取

该模型框架如图1所示，对于输入语句W＝w₁w₂...w_n,n为句子长度，w_i表示句子的第i个词；E＝e₁e₂...e_n表示在该句子中的实体，k表示句子中实体的数量。

该模型的主要思想是先对语句中词、实体等信息进行编码，然后通过双向循环神经网络学习词之间的隐藏信息，最后通过局部特征与记忆单元对触发词与事件元素进行预测，记忆单元记录预测结果中事件元素与触发词类型之间的信息，以便于反馈到下次对触发词与事件元素的预测。下面对图中的每一层进行简要阐述：

语句编码层：输入向量X＝(x₁，x₂，...，x_n)由三部分连接而成：1)词w_i向量。2)w_i的实体类型向量。3)依存树中词之间的二元向量。

双向循环网络层：对于输入向量X,使用双向GRU作为表示层来获得x_i对应的上下文表示h_i。

局部特征：1)实体描述含有的词。2)触发词与事件子类型。3)实体类型与子类型、实体角色。4)实体描述头部。5)候选事件元素与触发词之间的词汇距离。6)事件元素与触发词之间的相对位置(前，后等)。7)是否为相同事件类型最近的候选事件元素。8)是否为语句中相同的实体类型。9)事件元素与触发词之间的依存路径。10)事件元素与触发词之间的成分分析树中的路径。11)事件元素与触发词在依存分析中之间的路径长度。12)根节点、根节点与候选事件元素的路径。13)事件元素与触发词是否出现在同一个语句中。

记忆单元：记忆单元主要分为三类：1)记忆事件触发词类型之间联系的单元，

在时刻i，当t＝t_i和

时，

2)记忆事件元素角色之间联系的单元，

在时刻i,当t_i≠other,a＝a_ij和

时，

3)记忆事件元素角色与触发词类型之间的单元，

在时刻i，当t_i≠other，t＝t_i和

时，

触发词预测：进入前馈网络softmax层的向量

由三部分拼接组成：1)双向GRU的输出向量h_i。2)w_i的上下文向量，

3)记忆单元，

通公式2.1得到最终触发词类型。

事件元素预测：进入前馈网络softmax层的向量

由四部分拼接组成：1)双向GRU的输出向量h_i对于词w_i，h_ij对于实体e_j。2)词w_i和实体e_j的上下文向量

3)前馈网络对二元向量V_ij编码的B_ij,由公式2.2所得。4)记忆单元

与

对事件元素最终的预测通过公式2.3所得。

B_ij＝F^binary(V_ij) (2.2)

损失函数：训练神经网络通过使事件触发词类型与实际元素联合损失函数C最小所得，如公式2.4所示。

[1]Mihaylov T,Frank A.AIPHES-HD system at TAC KBP 2016:Neural EventTrigger Span Detection and Event Type and Realis Disambiguation with WordEmbeddings[C]//TAC.2016.

[2]Ferguson J,Lockard C,Hawkins N,et al.University of Washington TAC-KBP 2016System Description[C]//TAC.2016.

[3]Nguyen T H,Cho K,Grishman R.Joint event extraction via recurrentneural networks[C]//Proceedings of the 2016Conference of the North AmericanChapter of the Association for Computational Linguistics:Human LanguageTechnologies.2016:300-309.

传统技术存在以下技术问题：

Mihaylov等人的基于双向LSTM的事件触发词与事件类型识别缺少文档级别信息；Ferguson等人的基于结构特征的事件元素识别在形成特征时，花费大量人力物力且无法挖掘词之间的隐藏特征，并且其管道模型存在错误传播问题；Nguyen等人的基于循环神经网络的事件联合抽取在针对多类型事件句时，无法有效识别所有事件。

发明内容

本发明要解决的技术问题是提供一种融合局部特征与深度学习的事件联合抽取方法，首先借助文档向量学习文章中的主旨信息，其次利用图卷积网络挖掘事件之间的联系，最后利用记忆单元与局部特征学习事件类型与事件元素之间的信息，以此完成事件联合抽取，提高其识别性能。

为了解决上述技术问题，本发明提供了一种融合局部特征与深度学习的事件联合抽取方法，包括：抽取实体、词性与依存分析，利用PV-DM模型训练文档向量；学习隐藏特征，进入GCN；再次，识别出事件元素与事件触发之间的记忆单元，帮助识别事件类型与事件论元；最后，使用CRF对最终的事件类型进行标注，全连接层中，用Softmax函数对事件元素进行识别；

给定语句，W＝w₁w₂...w_n，语句中实体E＝e₁e₂...e_k，在事件抽取中，对于语句中每个词w_i，判断是否为触发词，若是，再对其分配相应的事件类型，并且对候选实体分配相应的语义角色；

表示层：输入向量X主要由四部分拼接组成：W中w_i词向量、W中w_i的词性向量、E中e_j的实体向量和W的文档向量；文档向量由公式3.1所得。

Bi-LSTM层：对于输入向量X,经过双向LSTM模型编码得到隐藏向量h；

图卷积网络层：先利用StanfordCoreNLP获取事件间的依存联系，利用GCN(图卷积网络)处理依存数据；依存联系考察成图数据结构G＝(V，ε)，节点v_i为每个词，边(v_i，v_j)∈ε，为了减少训练参数，定义边总共有三种类型：正向、反向、环；

h为GCN的第一层输入向量，则最终的输出向量最终的输出向量

由公式3.2、公式3.3、公式3.4和公式3.5得到。

其中，W_H、b_H、W_T、b_T、

和

为相应的权重与偏置，Θ为元素积，σ为Sigmoid函数,K(v_i，v_j)为边的类型；

记忆单元：采用的记忆单元为G_i，处理事件子类型与事件元素之间的联系；

事件类型预测：对于词w_i，预测该词是否为某类事件类型的触发词，最终隐藏层特征表示有以下两部分向量组成：

·

GCN的输出向量。

·G_i-1[：][t]^T：先前步骤中的记忆事件触发词与事件元素之间联系。

通过拼接步骤，得到特征表示

然后进入CRF层，得到其概率

最大化事件类型即为该事件类型，

由公式3.6所得。

其中，

b_y，b_y′为相应的权重与偏差。

事件元素预测：对于事件元素预测阶段，首先检查该语句是否为事件句，即触发词已被识别出来。如果，不为事件句，跳过，继续下一个语句的事件元素检测；否则，对于事件句中每个实体进行事件元素的预测。最终隐藏层表示有以下三部分组成：

·

GCN的输出向量。

·

事件元素相关局部特征，如表5所示。

·G_i[j]：先前步骤中的记忆事件元素与事件触发词之间联系。

通过拼接步骤，得到特征表示

事件元素的预测通过全连接层得到，如公式3.7，公式3.8所示。

其中，W_j、b_j为相应的参数和偏置。

表5局部特征

在其中一个实施例中，利用SanfordCoreNLP工具抽取实体、词性与依存分析。

在其中一个实施例中，使用局部特征识别出事件元素与事件触发之间的记忆单元。

在其中一个实施例中，利用StanfordCoreNLP获取事件间的依存联系。

在其中一个实施例中，使用双向LSTM学习隐藏特征。

在其中一个实施例中，使用CRF对最终的事件类型进行标注。

在其中一个实施例中，假设(“died”，“fired”)＝along(正向)，则反向和自身环分布为(“fired”，“died”)＝opp(反向)，(“died”，“died”)＝loop(环)。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

借助文档向量学习文章中的主旨信息，其次利用图卷积网络挖掘事件之间的联系，最后利用记忆单元与局部特征学习事件类型与事件元素之间的信息，以此完成事件联合抽取，提高其识别性能。

附图说明

图1是本发明融合局部特征与深度学习的事件联合抽取方法背景技术中的Nguyen等的框架。

图2是本发明融合局部特征与深度学习的事件联合抽取方法的本发明框架示意图。

图3是本发明融合局部特征与深度学习的事件联合抽取方法的依存关系图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明的事件联合抽取研究框架如图2所示。首先利用SanfordCoreNLP工具抽取实体、词性与依存分析，利用PV-DM模型训练文档向量；其次，使用双向LSTM学习隐藏特征，进入GCN；再次，使用局部特征识别出事件元素与事件触发之间的记忆单元，帮助识别事件类型与事件论元；最后，使用CRF对最终的事件类型进行标注，全连接层中，用Softmax函数对事件元素进行识别。

给定语句，W＝w₁w₂...w_n，语句中实体E＝e₁e₂...e_k，在事件抽取中，对于语句中每个词w_i，判断是否为触发词，若是，再对其分配相应的事件类型，并且对候选实体分配相应的语义角色。

表示层：输入向量X主要由四部分拼接组成：W中w_i词向量、W中w_i的词性向量、E中e_j的实体向量和W的文档向量。文档向量由公式3.1所得。

Bi-LSTM层：对于输入向量X,经过双向LSTM模型编码得到隐藏向量h。

图卷积网络层：先利用StanfordCoreNLP获取事件间的依存联系，利用GCN(图卷积网络)处理依存数据。依存联系考察成图数据结构G＝(V，ε)，节点v_i为每个词，边(v_i，v_j)∈ε，为了减少训练参数，定义边总共有三种类型：正向、反向、环。假设(“died”，“fired”)＝along(正向)，则反向和自身环分布为(“fired”，“died”)＝opp(反向)，(“died”，“died”)＝loop(环)。

h为GCN的第一层输入向量，则最终的输出向量最终的输出向量

由公式3.2、公式3.3、公式3.4和公式3.5得到。

其中，W_H、b_H、W_T、b_T、

和

为相应的权重与偏置，Θ为元素积，σ为Sigmoid函数,K(v_i，v_j)为边的类型。

记忆单元：本发明采用的记忆单元为G_i，处理事件子类型与事件元素之间的联系，具体算法如表4所示。

表4 G_i生成算法

·

GCN的输出向量。

通过拼接步骤，得到特征表示

然后进入CRF层，得到其概率

最大化事件类型即为该事件类型，

由公式3.6所得。

其中，

b_y，b_y′为相应的权重与偏差。

·

GCN的输出向量。

·

事件元素相关局部特征，如表5所示。

通过拼接步骤，得到特征表示

其中，W_j、b_j为相应的参数和偏置。

表5局部特征

本发明实验在TAC KBP 2016测试集上进行验证，共进行七组实验，各组实验设置如表6所示，表7给出在事件识别上的实验结果，从结果可知本发明模型在触发词上提高了约3.36％，在事件类型上提高了约7.49％。表8给出了在事件元素识别上的结果，从中可知识别结果提高了约9.5％

表6各组实验设置

表7 TAC KBP 2016官方测评事件识别结果

表8 TAC KBP 2016官方测评事件元素识别结果

本发明以句子“In Baghdad,a cameraman died when an American tank firedon the Palestine hotel.”为例对输入的条件进行详细说明，其依存关系如图3所示：

Token:[“In”,“Baghdad”,“a”,“cameraman”,“died”,“when”,“an”,“American”,“tank”,“fired”,“on”,“the”,“Palestine”,“hotel”,“.”]

Pos:[“IN”,“NNP”,“DT”,“NN”,“”VBD”,“WRB”,“DT”,“JJ”,“NN”,“”VBD”,“IN”,“DT”,“NNP”,“NN”,“.”]

Colcc:[“case/gov＝1/dep＝0”,“nmod/gov＝5/dep＝1”,“punct/gov＝5/dep＝2”,“det/gov＝4/dep＝3”,“nsubj/gov＝5/dep＝4”,“advcl/gov＝5/dep＝10”,“advmod/gov＝10/dep＝6”,“det/gov＝9/dep＝7”,“amod/gov＝9/dep＝8”,“nsubj/gov＝10/dep＝9”,“nmod/gov＝10/dep＝14”,“case/gov＝14/dep＝11”,“det/gov＝14/dep＝12”,“compound/gov＝14/dep＝13”,“punct/gov＝10/dep＝15”]

Entity:[“Baghdad”,“a cameraman”,“an American tank”,“the Palsetinehotel”]

首先：对于该句的词性向量P,实体向量E,词向量W,文档向量D,拼接而成X＝[P:E:W:D]。

其次：X进入LSTM层，获得编码H。

再次：“died”和“fired”的依存联系为(“died”，“fired”)＝“along”，编码成向量M,H和M进入GCN得到表示R。

然后：根据R和记忆单元G，对事件类型进行识别成“Die”和“Attack”。

最后：根据R，局部特征与记忆单元，对相应的事件元素进行识别，并对记忆单元进行更新。

记忆单元更新如表9所示，以识别Baghdad该事件元素为例：其局部特征如表10所示。

表9 G更新流程

表10“Baghdad”的局部特征

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种融合局部特征与深度学习的事件联合抽取方法，其特征在于，包括：抽取实体、词性与依存分析，利用PV-DM模型训练文档向量；学习隐藏特征，进入GCN；再次，识别出事件元素与事件触发之间的记忆单元，帮助识别事件类型与事件论元；最后，使用CRF对最终的事件类型进行标注，全连接层中，用Softmax函数对事件元素进行识别；

表示层：输入向量X主要由四部分拼接组成：W中w_i词向量、W中w_i的词性向量、E中e_j的实体向量和W的文档向量；文档向量由公式3.1所得；