CN112183095A

CN112183095A - 一种事件抽取方法和装置

Info

Publication number: CN112183095A
Application number: CN201910590575.6A
Authority: CN
Inventors: 曹秀亭
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-01-05

Abstract

本发明实施方式提出一种事件抽取方法和装置。提取当前句子中的词并映射为词向量，提取当前句子中的实体类型并映射为实体类型向量，提取当前句子中的实体关系并映射为实体关系向量，将词向量、实体类型向量和实体关系向量连接为句子向量；将句子向量输入RNN，从所述RNN接收表达当前句子的语义的隐层向量；在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子所确定的、触发词之间的关系；基于之前句子所确定的、触发词与论元角色之间的关系；基于之前句子所确定的、论元角色之间的关系；对预测结果执行概率规划计算，以获取当前句子中的触发词和论元角色的概率分布。

Description

一种事件抽取方法和装置

技术领域

本发明属于自然语言处理(Natural Language Processing，NLP)技术领域，特别是一种事件抽取方法和装置。

背景技术

作为信息的一种表现形式，事件的定义为特定的人、物在特定时间和特定地点相互作用的客观事实，一般来说是句子级的。在话题检测与跟踪(Topic DetectionTracking，TDT)中，事件是指关于某一主题的一组相关描述，这个主题可以是由分类或聚类形成的

组成事件的各元素包括:触发词、事件类型、论元及论元角色。事件触发词：表示事件发生的核心词，多为动词或名词；事件类型：ACE2005定义了8种事件类型和33种子类型。其中，大多数事件抽取均采用33种事件类型。事件识别是基于词的34类(33类事件类型+None)多元分类任务，角色分类是基于词对的36类(35类角色类型+None)多元分类任务；事件论元：事件的参与者，主要由实体、值、时间组成。值是一种非实体的事件参与者，例如工作岗位；论元角色：事件论元在事件中充当的角色。共有35类角色，例如，攻击者、受害者等。

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件，并以结构化呈现给用户。事件抽取任务可分解为4个子任务：触发词识别、事件类型分类、论元识别和角色分类任务。其中，触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型，是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务，判断句子中任意一对触发词和实体之间的角色关系。

在现有技术中，通过基于传统机器学习的方法，将事件抽取任务转化为多阶段的分类问题(管道抽取)，重点在于识别触发词和论元。

目前基于统计的传统机器学习的方案建立在统计模型基础上，将事件抽取任务转化为多阶段分类问题(管道抽取)，需要顺序执行下面给的分类器：1.事件触发词分类器(Trigger Classifier)，判断词汇是否是事件触发词，以及事件类别；2.元素分类器(Argument Classifier)，判断词组是否是事件元素；3.元素角色分类器(RoleClassifier)，判定元素的角色类别；4.属性分类器(Attribute Classifier)，判定事件属性；5.可报告性分类器(Reportable-Event Classifier)，判定是否存在值得报告的事件实例。分类器可以使用MaxEnt，SVM等，重点在于提取和集成有区分性的特征，包括句子级信息和篇章级信息。

然而，传统的方法主要缺点是流程很长，因此存在的误差传递就显得格外严重，也就是误差传递导致了性能衰减；各个环节的预测任务独立，缺少关系网络，就会忽略事件触发词和事件元素之间的相互影响；无法处理全局的以来关系。

而且，传统的方法对外部NLP工具的依赖较高，进而加大了事件抽取的误差。

发明内容

本发明实施例提出一种事件抽取方法和装置。

本发明实施例的技术方案如下：

一种事件抽取方法，包括：

提取当前句子中的词并映射为词向量，提取当前句子中的实体类型并映射为实体类型向量，提取当前句子中的实体关系并映射为实体关系向量，将词向量、实体类型向量和实体关系向量连接为句子向量；

将句子向量输入循环神经网络(RNN)，从所述RNN接收表达当前句子的语义的隐层向量；

在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子所确定的、触发词之间的关系；基于之前句子所确定的、触发词与论元角色之间的关系；基于之前句子所确定的、论元角色之间的关系；

对预测结果执行概率规划计算，以获取当前句子中的触发词和论元角色的概率分布。

在一个实施方式中，所述循环神经网络为门控循环单元(GRU)网络。

在一个实施方式中，该方法还包括：

基于当前句子中的触发词和论元角色的概率分布，更新所述记忆向量。

一种事件抽取装置，包括：

映射模块，用于提取当前句子中的词并映射为词向量，提取当前句子中的实体类型并映射为实体类型向量，提取当前句子中的实体关系并映射为实体关系向量，将词向量、实体类型向量和实体关系向量连接为句子向量；

隐层向量获取模块，用于将句子向量输入循环神经网络RNN，从所述RNN接收表达当前句子的语义的隐层向量；

预测模块，用于使能在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子所确定的、触发词之间的关系；基于之前句子所确定的、触发词与论元角色之间的关系；基于之前句子所确定的、论元角色之间的关系；

概率规划计算模块，用于对预测结果执行概率规划计算，以获取当前句子中的触发词和论元角色的概率分布。

在一个实施方式中，所述循环神经网络为门控循环单元GRU网络。

在一个实施方式中，该方法还包括：

预测模块，还用于当前句子中的触发词和论元角色的概率分布，更新所述记忆向量。

一种事件抽取装置，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上任一项所述的事件抽取方法。

一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如上任一项所述的事件抽取方法。

从上述技术方案可以看出，提取当前句子中的词并映射为词向量，提取当前句子中的实体类型并映射为实体类型向量，提取当前句子中的实体关系并映射为实体关系向量，将词向量、实体类型向量和实体关系向量连接为句子向量；将句子向量输入RNN，从所述RNN接收表达当前句子的语义的隐层向量；在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子确定的触发词之间的关系；基于之前句子确定的触发词与论元角色之间的关系；基于之前句子所确定的论元角色之间的关系；对预测结果执行概率规划计算，以获取当前句子中的触发词和论元角色的概率分布。因此，本发明实施方式基于RNN网络的事件抽取技术方案，可以减少对外部NLP工具的依赖，甚至不依赖NLP工具，建立端到端的系统。

而且，本发明实施方式使用词向量作为输入，蕴含更为丰富的语言特征；自动提取句子特征，避免了人为特征设计的繁琐工作。

另外，通过RNN的联合学习，去掉了误差传递，增加了触发词和事件元素的关系网络，能够准确和广泛的抽取事件。

附图说明

图1是根据本发明事件抽取方法的流程示意图。

图2是根据本发明事件抽取过程的示意图。

图3是根据本发明事件抽取装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

本发明是基于RNN网络的事件抽取技术方案，可以减少对外部NLP工具的依赖，甚至不依赖NLP工具，建立端到端的系统。本发明实施方式使用词向量作为输入，蕴含更为丰富的语言特征；自动提取句子特征，避免了人为特征设计的繁琐工作。通过RNN的联合学习，去掉了误差传递，增加了触发词和事件元素的关系网络，能够准确和广泛的抽取事件。

图1是根据本发明事件抽取方法的流程示意图。

如图1所示，该方法包括：

步骤101：提取当前句子中的词并映射为词向量，提取当前句子中的实体类型并映射为实体类型向量，提取当前句子中的实体关系并映射为实体关系向量，将词向量、实体类型向量和实体关系向量连接为句子向量。

步骤102：将句子向量输入RNN，从RNN接收表达当前句子的语义的隐层向量。

步骤103：在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子确定的触发词之间的关系；基于之前句子确定的触发词与论元角色之间的关系；基于之前句子所确定的论元角色之间的关系。

步骤104：对预测结果执行概率规划计算，以获取当前句子中的触发词和论元角色的概率分布。

在一个实施方式中，循环神经网络为门控循环单元(GRU)网络。该方法还包括：该方法还包括：基于当前句子中的触发词和论元角色的概率分布，更新所述记忆向量。

图2是根据本发明事件抽取过程的示意图。

本发明实施方式中，首先准备数据语料，通过三个并行的方式预处理数据语料，其中数据语料中的每一段自然语言分别输入并行处理的各自模型中，三个并行的预处理方式分别是：词向量映射、实体类型抽取后的映射、实体之间的关系映射。

词向量映射用于产生包含在句子中的词的词向量，词向量是用来表示词的向量，也可被认为是词的特征向量。比如，词向量映射的工具可以采用word2vec模型、glove模型、ELMo模型或BERT模型，等等。

实体类型抽取后的映射用于产生句子中的实体类型向量。其中，可以采用基于已有知识库的方法抽取实体类型并产生实体类型向量，或基于模式匹配的方法抽取实体类型并产生实体类型向量，或基于机器学习的方法抽取实体类型并产生实体类型向量，或基于词语分布相似度的方法抽取实体类型并产生实体类型向量。

实体之间的关系映射用于产生句子中的实体关系向量。比如，可以使用递归神经网络来实现实体关系抽取。首先对句子进行句法解析，然后为句法树上的每个节点学习向量表示。通过递归神经网络，从句法树最低端的词向量开始，按照句子的句法结构迭代合并，最终得到该句子的向量表示，并用于关系分类。或者，采用词汇向量和词的位置向量作为卷积神经网络的输入，通过卷积层、池化层和非线性层得到句子表示。通过考虑实体的位置向量和其他相关的词汇特征，句子中的实体信息能够被较好地考虑到关系抽取中。

然后，将词向量、实体类型向量和实体关系向量连接为句子向量，并将句子向量输入到双向的循环神经网络(RNN)中，这里采用了RNN的一种变体GRU。GRU接收句子向量，生成隐层向量以表达句子的语义向量。GRU保持了LSTM的效果同时又使结构更加简单。

接着，在前馈神经网络中，基于隐层向量同时预测触发词(trigger)和论元角色(argument role)，并通过一个记忆向量(memory vector)去调节预测的过程。其中记忆向量包含：基于之前句子所确定的、触发词之间的关系，基于之前句子所确定的、触发词与论元角色之间的关系，以及基于之前句子所确定的、论元角色之间的关系。

最终，前馈神经网络输出事件抽取的结果。在训练过程中会通过结果与标签的对比进行反向传播不断去更新双向RNN和记忆向量的参数。

具体地：

(1)、在编码阶段：

用向量来表示每个句子，主要包含了词向量、实体类型向量和实体关系向量这三个向量。其中：词向量：主要是利用了已经预先训练好的词向量表来进行映射；实体类型向量：可以采用BIO的标注标准，进行命名实体识别抽取出实体，进而找到实体的类型；实体关系向量：其维数对应于依赖关系树中单词可能存在的关系。只有当的依赖关系树存在与W_i连接的一条对应边时，该维度的值才设为1，这个向量代表了依赖特征。

在这里没有采用相对位置特征，因为联合预测整个句子的触发词和元素角色，在句中是没有固定位置。

将每个句子的词向量、实体类型向量和实体关系向量连接为句子向量。各个句子的句子向量构成句子向量序列X(x₁,x₂,...x_n)。

针对其中当前句子的句子向量x_i，(其中i的取值范围为[1,n])，基于当前句子的句子向量x_i和上一个句子的隐层向量α_i-1生成当前句子的句子向量x_i的隐层向量α_i。使用非线性变换函数，在句子向量序列X上循环上述计算，以生成隐层向量序列。递归机制是一个重要的特征，它能自适应的将位置1到位置i的上下文向量积累到隐层向量α_i中，以丰富隐层向量α_i的表示。然而，采用一个α_i通常是不够的，还可以依赖从位置i到位置n的信息。为了解决这个问题，可以采用第二个RNN来生成第二个隐层向量序列，以得到从句子的最后位置n到句子的当前位置i的上下文向量。将这两个隐层向量序列连接起来，得到X的新表示，该X的新表示基本结合了整个句子的上下文信息。对于非线性函数，采用LSTM的一个变体GRU，能够通过门控制单元记忆句子信息。

(2)、对于预测阶段：

为了联合预测触发词(triggers)和论元角色(argument roles)，可以维护记忆向量G^Mem _i，G^Mem _i由三个向量加权得到，这三个向量分别为G^trg _i，G^arg _i和G^arg/trg _i。

G^trg _i代表的是基于之前句子所确定的、触发词之间的关系，表示在i之前已经识别出哪些子事件。比如，如果在当前句子之前已经检测到了死亡(Die)事件，那么很有可能当前句子会同时会出现攻击(attack)事件。

G^arg _i代表的是基于之前句子所确定的、论元角色之间的关系，表示在i之前已经识别出的论元角色之间的关系，总结了实体提及(entity mention)在过去扮演的论元角色信息。

G^arg/trg _i代表的是基于之前句子所确定的、触发词与论元角色之间的关系，表示entity mention在之前特定事件子类型(event subtypes)扮演过的论元。

其中，G^Mem _i＝A1×G^trg _i+A2×G^arg _i+A3×G^arg/trg _i。

A1、A2和A3分别为G^trg _i，G^arg _i和G^arg/trg _i的各自权重，而且G^trg _i，G^arg _i和G^arg/trg _i的初始值设置为0。预测中，可以随着X_i更新G^trg _i，G^arg _i和G^arg/trg _i。

在每个时间步骤中，执行X_i的triggers预测和论元角色预测。包括：在当前的预测阶段，首先计算特征表示向量R^trgi。R^trgi代表当前句子的上下文向量、当前句子的句子信息的隐层向量和之前的记忆向量这三个向量的连接向量。其中h_i表示当前句子X_i的全局句子信息的隐层向量；L^trg _i是从句子最后位置n到句子当前位置i的上下文向量，主要通过每个词向量的结合得到；G^Mem _i-1是之前的记忆向量。

R^trgi＝[h_i,L^trg _i,G^Mem _i-1]。

然后，将向量R^trgi＝[h_i,L^trg _i,G^Mem _i-1]和当前句子的句子向量X_i输入到前馈神经网络中，以预测该当前句子中的触发词和论元角色，最后使用softmax层来计算当前句子中的触发词和论元角色的概率分布。并且，基于得到的当前句子中的触发词和论元角色的概率分布，调整A1、A2和A3的具体数值。

图3是根据本发明事件抽取装置的结构图。

如图3所示，事件抽取装置，包括：

预测模块，用于使能在前馈神经网络中基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子确定的触发词之间的关系；基于之前句子确定的触发词与论元角色之间的关系；基于之前句子所确定的论元角色之间的关系；

在一个实施方式中，预测模块，还用于当前句子中的触发词和论元角色的概率分布，更新所述记忆向量。

本发明实施方式还提出了事件抽取装置。事件抽取装置包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上任一项所述的事件抽取方法。

其中，存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

综上所述，在本发明实施方式中，提取当前句子中的词并映射为词向量，提取当前句子中的实体类型并映射为实体类型向量，提取当前句子中的实体关系并映射为实体关系向量，将词向量、实体类型向量和实体关系向量连接为句子向量；将句子向量输入RNN，从所述RNN接收表达当前句子的语义的隐层向量；在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子确定的触发词之间的关系；基于之前句子确定的触发词与论元角色之间的关系；基于之前句子所确定的论元角色之间的关系；对预测结果执行概率规划计算，以获取当前句子中的触发词和论元角色的概率分布。

因此，本发明实施方式基于RNN网络的事件抽取技术方案，可以减少对外部NLP工具的依赖，甚至不依赖NLP工具，建立端到端的系统。本发明实施方式使用词向量作为输入，蕴含更为丰富的语言特征；自动提取句子特征，避免了人为特征设计的繁琐工作。通过RNN的联合学习，去掉了误差传递，增加了触发词和事件元素的关系网络，能够准确和广泛的抽取事件。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本文所述方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

以上所述，仅为本发明的较佳实施方式而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种事件抽取方法，其特征在于，包括：

将句子向量输入循环神经网络RNN，从所述RNN接收表达当前句子的语义的隐层向量；

2.根据权利要求1所述的事件抽取方法，其特征在于，所述循环神经网络为门控循环单元GRU网络。

3.根据权利要求2所述的事件抽取方法，其特征在于，该方法还包括：

4.一种事件抽取装置，其特征在于，包括：

预测模块，用于在前馈神经网络中，基于隐层向量与记忆向量预测该当前句子中的触发词和论元角色，其中记忆向量包含：基于之前句子所确定的、触发词之间的关系；基于之前句子所确定的、触发词与论元角色之间的关系；基于之前句子所确定的、论元角色之间；

5.根据权利要去4所述的事件抽取装置，其特征在于，所述循环神经网络为门控循环单元GRU网络。

6.根据权利要求4所述的事件抽取装置，其特征在于，

7.一种事件抽取装置，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1-3中任一项所述的事件抽取方法。

8.一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如权利要求1-3中任一项所述的事件抽取方法。