CN112597366B

CN112597366B - 基于Encoder-Decoder的事件抽取方法

Info

Publication number: CN112597366B
Application number: CN202011336692.9A
Authority: CN
Inventors: 胡浩; 胥小波; 范晓波; 徐舒霖; 康英来; 王伟
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-03-18
Anticipated expiration: 2040-11-25
Also published as: CN112597366A

Abstract

本发明公开了一种基于Encoder‑Decoder的事件抽取方法，S1，文本预处理，对开放域数据进行文本预处理，提取所需的正文内容，对预处理之后的数据进行词向量训练；S2，标注文本，对预处理之后的文本进行打标，标识句子对应的事件类型；S3，结合GRU+Attention机制来搭建并训练用于判定事件类型的Encoder‑Decoder模型，得到轻量级深度学习Encoder‑Decoder网络模型并持续训练，对事件抽取任务进行抽象与表征，得到预测结果；S4，基于步骤S3中已训练的轻量级深度学习Encoder‑Decoder网络来完成事件抽取任务，得出相应事件类型等；本发明具有领域适应能力强，抽象学习能力高，模型简洁，计算过程需要消耗少量的资源和时间等优点。

Description

基于Encoder-Decoder的事件抽取方法

技术领域

本发明涉及自然语言处理领域，更为具体的，涉及一种基于Encoder-Decoder的事件抽取方法。

背景技术

随着互联网的快速发展，尤其是移动互联网，互联网上的资源呈爆炸式增长。在如此海量的互联网资源信息中如何快速、准确的抽取有价值的信息，已经成为人们面临的重大难题。在如此背景之下，人们投入大量的精力到信息抽取中。事件抽取是一种复杂的信息抽取形式，它能够提供更高层次的内容处理抽象能力，主要指从非结构化数据中抽取出用户感兴趣的事件，以结构化的方式存储在数据库中供用户使用。

随着事件抽取技术的蓬勃发展，早期的研究方法主要通过在特定领域表现良好的模式匹配中进行。由于基于规则和模式匹配的事件抽取方法可移植性差，众多学者把目光集中于机器学习方法。近年来，随着深度学习在自然语言处理任务中的不断创新，已成为事件抽取研究的主流方法。

现有技术往往针对某一特定领域，存在领域适应能力，抽象学习能力较差，模型繁杂，计算过程需要消耗大量的资源和时间等问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于Encoder-Decoder的事件抽取方法，具有领域适应能力强，抽象学习能力高，模型简洁，计算过程需要消耗少量的资源和时间等优点。

本发明的目的是通过以下方案实现的：

一种基于Encoder-Decoder的事件抽取方法，包括步骤：

S1，文本预处理，对网络爬虫从互联网上爬取的开放域数据，进行文本预处理，预处理包括去除原始数据中的冗余标签，提取所需的正文内容，对预处理之后的数据进行词向量训练；

S2，标注文本，对预处理之后的文本进行打标，标识句子对应的事件类型；

S3，结合GRU+Attention机制来搭建并训练用于判定事件类型的Encoder-Decoder模型，得到轻量级深度学习Encoder-Decoder网络模型并持续训练，对事件抽取任务进行抽象与表征；

S4，基于步骤S3中已训练的轻量级深度学习Encoder-Decoder网络来完成事件抽取任务，得出相应事件类型。

进一步地，步骤S1包括：

S101，根据收集的网页URL链接，爬取网络中的目标文本消息；

S102，将爬取的文本进行提炼，去除冗余信息，保存所需正文内容；

S103，将每一条文本消息进行切词处理，然后输入到词向量训练模型中进行词向量训练。

进一步地，步骤S2中，除人工打标之外，将一些不属于用户指定任一事件类型的文本也添加到语料中单独作为一类，以增加神经网络模型的噪音，提高泛化能力。

进一步地，步骤S2中，包括对目标文本消息所属事件类型进行标注，其中事件类型的个数是有限的，由用户自定义所关注的相应事件类型。

进一步地，步骤S3中，

S301，Encoder过程：将标注好的语料，以训练好的词向量代表句子中的词语输入到GRU中进行编码，得到初始特征向量；

S302，Attention机制：将Encoder之后的特征向量进行Attention机制自学习，进一步表征特征向量；

S303，Decoder过程：将Attention机制表征的特征向量输入到另一个GRU模型中进行解码，最后接入全连接层，计算输出预测事件类型的概率。

进一步地，步骤S302包括：

S3021，基于上下文特征向量，将Encoder之后的特征向量经过全连接层输出，再经过softmax激活函数得到输出

其中全连接层输出，y＝W^Tx+b，W^T为权重系数，b为偏置，s为经过softmax函数输出结果，K为特征数量，y_i为特征向量；

S3022，通过上下文特征向量h_t与softmax激活函数输出结果s进行点乘，得到Attention之后的处理结果Att，即Att＝multiply([h_t,s])。

进一步地，步骤S303中，使用softmax激活函数计算预测事件类型的概率。

进一步地，步骤S4中，包括：

S401，读取待判定的文本语料，采用步骤S1对其进行预处理；

S402，将步骤S401处理后的待判定语料，输入到步骤S3中已训练的轻量级深度学习Encoder-Decoder网络模型进行预测，得出预测结果；

S403，循环步骤S401～S402，直至完成事件抽取任务。

进一步地，步骤S402中，设定事件类型判定的概率阈值，当输出的预测概率值大于阈值，即表明该文本属于该事件类型，一个文本能够对应多个事件类型；若小于阈值，则该文本则不属于任何事件类型。

进一步地，步骤S2中，采用人工标注文本，对预处理之后的文本进行人工打标，标识句子对应的事件类型。

本发明的有益效果是：

本发明具有领域适应能力强，抽象学习能力高，模型简洁，计算过程需要消耗少量的资源和时间等优点；具体的，针对开放领域构建模型，使用深度学习方法，采用GRU+Attention机制进行事件抽取。在Encoder阶段，GRU中使用词向量表征输入的词，相当于传统方法具有更好的抽象学习能力，除此之外，结合GRU的特性对句子级别的特征表达能力，具有更好的领域适应能力。在Decoder阶段，结合基于Encoder阶段的特征向量的表达，能更好的输出用户自定义的事件类型。相对于机器翻译和LSTM的复杂性，事件抽取任务采用GRU而非LSTM，在保证最终识别效果的同时，使整个模型结构更简洁，计算过程消耗的资源和时间都优于原始传统的Encoder-Decoder模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明事件抽取方法实施例流程示意图；

图2为Encoder-Decoder深度学习模型架构图；

图3为GRU模型示意图；

图4为Encoder阶段(GRU+Attention)详细流程图；

图5为Decoder阶段(GRU+MLP)输出详细流程图。

具体实施方式

本说明书中所有实施例公开的所有特征(包括任何附加权利要求、摘要和附图)，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1～5所示，一种基于Encoder-Decoder的事件抽取方法，包括步骤：

进一步地，步骤S1包括：

S101，根据收集的网页URL链接，爬取网络中的目标文本消息；

进一步地，步骤S3中，

进一步地，步骤S302包括：

其中全连接层输出，y＝W^Tx+b；y为，W^T为权重系数，T为，b为偏置，s为经过softmax函数输出结果，K为特征数量，y_i为特征向量；(注：W^T表示W转置，是对矩阵的一种操作)。

进一步地，步骤S4中，包括：

S401，读取待判定的文本语料，采用步骤S1对其进行预处理；

S403，循环步骤S401～S402，直至完成事件抽取任务。

在本发明的其他实施例中，如图1所示，本发明包括文本预处理、人工标注文本、轻量级Encoder-Decoder机制训练、事件抽取；文本预处理：对网络爬虫从互联网上爬取的开放域数据进行文本预处理，预处理包括去除原始数据中的冗余标签，只提取所需的正文内容，对预处理之后的数据进行词向量训练；人工标注文本：对预处理之后的文本进行人工打标，标识句子对应的事件类型；轻量级Encoder-Decoder机制：搭建并训练用于判定事件类型的Encoder-Decoder模型，网络结构基于GRU+Attention机制；事件抽取：基于上述Encoder-Decoder机制，针对未标记的文本，采取之前相同的文本预处理步骤，将训练好的模型对其进行识别，得出相应事件类型。

下面分别对各步骤进行详细说明。

1.文本预处理

整个预处理过程主要对网络爬虫从互联网上爬取的开放域数据进行文本预处理工作，包括去除原始数据中的冗余标签，只提取所需的正文内容，对预处理之后的数据进行词向量训练，下面逐一介绍。

(1)去除冗余标签

根据收集的网页URL链接，爬取网络中的目标文本消息，如中文、英文或其它语种的文本消息。将上述文本进行提炼，去除冗余信息，只保存所需正文内容；

(2)词向量训练

将每一条文本消息进行切词处理，如英文语料，直接以空格切分，如中文语料则需要用结巴分词工具进行分词，最后输入到Word2Vec进行词向量训练。

2.人工标注文本

用户自定义所关注的事件类型，对预处理之后的文本进行人工打标，标识句子对应的事件类型；除此之外，将一些不属于用户指定任一事件类型的文本也添加到语料中，以增加神经网络模型的噪音，提高泛化能力。

3.轻量级Encoder-Decoder机制训练模型

步骤1：Encoder过程：将标注好的语料，以训练好的词向量代表句子中的词语输入到GRU中进行编码，得到初始特征向量。

步骤2：Attention机制：将Encoder之后的特征向量进行Attention机制自学习，进一步表征特征向量。具体步骤：基于上下文特征向量h_t，将Encoder过程得到的初始特征向量经过全连接层，再经过softmax激活函数得到输出

其中全连接层输出，y＝W^Tx+b，最后通过上下文特征向量h_t与softmax激活函数输出结果s进行点乘，得到Attention之后的处理结果，即Att＝multiply([h_t,s])，

步骤3：Decoder过程：将Attention机制表征后的特征向量输入到另一个GRU模型中进行解码，最后接入一个全连接层并使用softmax激活函数预测事件类型的概率，方法同步骤1、2。

4.事件抽取

步骤1：读取待判定的文本语料，对其进行上述所述文本预处理；

步骤2：将待判定的语料按照上述模型训练的输入方式，输入已训练的深度学习Encoder-Decoder网络进行预测，得出预测结果。设定事件类型判定的概率阈值，当输出的预测概率值大于阈值，即表明该文本属于该事件类型，一个文本可以对应多个事件类型。若小于阈值，则该文本不属于任何事件类型。

步骤3：循环上述步骤，完成事件抽取任务。

本发明未详细阐述部分属于本领域公开技术。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备(可以是个人计算机，服务器，或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory，RAM)、随机存取存储器(Random Access Memory，RAM)等。

Claims

1.一种基于Encoder-Decoder的事件抽取方法，其特征在于，包括步骤：

S3，结合GRU+Attention机制来搭建并训练用于判定事件类型的Encoder-Decoder模型，得到轻量级深度学习Encoder-Decoder网络模型并持续训练，对事件抽取任务进行抽象与表征；步骤S3中，包括：

S303，Decoder过程：将Attention机制表征的特征向量输入到另一个GRU模型中进行解码，最后接入全连接层，计算输出预测事件类型的概率；

步骤S302包括：

S3022，通过上下文特征向量h_t与softmax激活函数输出结果s进行点乘，得到Attention之后的处理结果Att，即Att＝multiply([h_t,s])；

2.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S1包括：

S101，根据收集的网页URL链接，爬取网络中的目标文本消息；

3.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S2中，除人工打标之外，将一些不属于用户指定任一事件类型的文本也添加到语料中单独作为一类，以增加神经网络模型的噪音，提高泛化能力。

4.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S2中，包括对目标文本消息所属事件类型进行标注，其中事件类型的个数是有限的，由用户自定义所关注的相应事件类型。

5.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S303中，使用softmax激活函数计算预测事件类型的概率。

6.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S4中，包括：

S401，读取待判定的文本语料，采用步骤S1对其进行预处理；

S403，循环步骤S401～S402，直至完成事件抽取任务。

7.根据权利要求1所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S402中，设定事件类型判定的概率阈值，当输出的预测概率值大于阈值，即表明该文本属于该事件类型，一个文本能够对应多个事件类型；若小于阈值，则该文本则不属于任何事件类型。

8.根据权利要求6所述的基于Encoder-Decoder的事件抽取方法，其特征在于，步骤S2中，采用人工标注文本，对预处理之后的文本进行人工打标，标识句子对应的事件类型。