CN110135457B

CN110135457B - 基于自编码器融合文档信息的事件触发词抽取方法及系统

Info

Publication number: CN110135457B
Application number: CN201910288771.8A
Authority: CN
Inventors: 程学旗; 靳小龙; 席鹏弼; 郭嘉丰; 赵越
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-04-06
Anticipated expiration: 2039-04-11
Also published as: CN110135457A

Abstract

本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法，包括：以未标注自由文本语料生成训练集，训练GRU模型以构建该自编码器；对训练语料进行预处理和标签标注，提取待识别词；以该自编码器获取该待识别词在其所在文档内的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；将该上下文特征输入Bi‑GRU模型进行多分类，以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

Description

基于自编码器融合文档信息的事件触发词抽取方法及系统

技术领域

本发明属于互联网技术领域，具体涉及一种可用于知识图谱的事件触发词抽取方法。

背景技术

事件抽取任务旨在从非结构化的自由文本中抽取出结构化的事件信息，其中事件是由事件触发词、事件类型、事件论元和事件元素的角色组成的。触发词是能够触动事件发生且决定事件类型的最重要特征词，进而针对不同的事件类型，定义了不同的事件参与元素。因此事件抽取任务主要包括对事件触发词的抽取和对事件参与元素的识别，而触发词抽取作为其中的基础步骤，其识别性能直接影响事件抽取系统的准确性。

现有的触发词抽取方法大多以句子为单位进行句内词或词组的多分类，主要分为以下几个步骤，首先对输入的句子进行分词，接着对每一个词抽取局部的上下文特征，通常使用基于自然语言处理工具的构造特征和基于神经网络生成的表示特征，最后选取多元分类器判断当前词是否为触发词或其所属事件类别。中国国家发明“一种事件触发词识别方法及装置”(公布号：CN104598510A)，以原始语料中提取的训练语料，对条件随机场模型进行训练，并利用目标条件随机场模型对待测语料进行事件触发词的识别。中国国家发明“一种事件触发词识别方法及系统”(公布号：CN104778163A)，利用最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果。中国国家发明“一种事件触发词识别方法及装置”(公布号：CN105138520A)，是通过预先建立的二元分类器，对从原始语料及其翻译语料所确定的双语特征进行候选词进行分类，以确定当前候选词是否为事件触发词。中国国家发明“一种基于特征自动学习的生物医学事件触发词识别方法”(公布号：CN105512209A)，通过构建事件触发词词典和候选触发词实例，以卷积神经网络模型学习特征并进行神经网络模型训练，最终进行事件触发词分类。中国国家发明“一种基于文档级别注意力机制的事件触发词抽取方法”(公布号：CN108829801A)，使用PubMed数据库语料进行词向量训练，构建样本的分布式表示方式，构造基于BiLSTM-Attention的特征表示方式，使用CRF学习、获取当前文档序列的最优序列标注结果，完成事件触发词的抽取。中国国家发明“基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法”(公布号：CN108846017A)，进行Word Embedding的字级别语义特征表示，构建注意力权重的Bi-GRU字级别的句子特征编码模型，搭建基于注意力权重的Bi-GRU句子级别特征编码模型，使用分层Softmax实现端到端分类实现。

然而在一篇文档中，仅凭单个句子的上下文信息难以区分多义词的事件类型歧义，如“leave”既可以表示离开也可以表示离职，需要借助全局的语境和文档中关联的事件加以判断。因此引入篇章级别的特征进行全局上下文信息的约束是很有必要，但是传统的上下文特征并不足以表示文档的全局信息，构造特征中的依存关系不能有效分析长距离的依赖关系，表示特征中的词向量不能针对性地获取当前词所在的篇章信息。另一方面，由于事件结构繁多复杂，现有普遍使用的事件标注数据集规模很小，如通用新闻论坛领域的ACE2005数据集中仅包含599个英文文档、生物医学领域的MLEE(Multi-level EventExtraction)数据集中仅包含262个文档。在使用神经网络模型时，数据稀疏的问题很有可能导致模型抽取的触发词不全且不准的问题。有方法提出借助训练词向量的方法使用大量的未标注文本数据，引入外部的领域信息，但是词向量只关注了词的语义层面，不能有效捕捉句子层面和文档层面的上下文信息。

发明内容

针对现有技术中存在的问题，本发明利用篇章信息并增加标注数据，提出了一种基于自编码器融合文档信息的事件触发词抽取方法，利用自编码器语言模型抽取待识别词的局部上下文特征，并融合两类特征输入Bi-GRU模型进行事件类型的多分类，完成对句子中触发词的抽取。

具体来说，该方法包括：以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；对训练语料进行预处理和标签标注，提取待识别词；以该自编码器获取该待识别词在其所在文档的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；将该上下文特征输入Bi-GRU模型进行多分类，以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。

本发明所述的事件触发词抽取方法，其中通过对该未标注自由文本语料进行预处理以生成该训练集，预处理的过程包括：对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词，以及进行词形还原和缩略词还原，得到文档d，以构建该训练集；对文档d中的词进行统计，以构建语料词表。

本发明所述的事件触发词抽取方法，其中该自编码器包括编码器和解码器，其中该编码器为堆叠三层的GRU模型，该解码器为一层的GRU模型。

本发明所述的事件触发词抽取方法，其中训练GRU模型的过程包括：对该文档d进行分词，获取该文档d的第i个词w_i的词向量E_i，以及词w_i在文档d中的第一下标index_i；将该词向量E_i输入到该自编码器的编码器GRU_{three_layer_encoder}，得到该文档d的文档向量h_d，其中h_d＝GRU_{three_layer_encoder}(E₁,E₂,...,E_|d|)；将该文档向量h_d输入到该自编码器的解码器GRU_decoder，输出词w_i的隐层向量q'_i，以及词w_i在该语料词表中的第二下标index'_i，其中[q'₁,q'₂,...,q'_|d|]＝GRU_decoder(h_d)，index'_i＝argmax Softmax(q'_i),i＝1,2,...,|d|；获取该第一下标index_i与该第二下标index'_i的交叉熵分类误差，通过误差反传方法训练该自编码器。

本发明还提出一种基于自编码器融合文档信息的事件触发词抽取系统，包括：自编码器构建模块，用于以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；训练语料提取模块，用于对训练语料进行预处理和标签标注，提取待识别词；上下文特征获取模块，用于获取该待识别词的上下文特征，其中以该自编码器获取该待识别词在其所在文档的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；事件触发词提取模块，用于将该上下文特征输入Bi-GRU模型进行多分类，以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。

本发明所述的事件触发词抽取系统，其中该自编码器构建模块包括预处理模块，用于通过对该未标注自由文本语料进行预处理以生成该训练集，该预处理模块具体包括：预料处理模块，用于对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词，以及进行词形还原和缩略词还原，得到文档d，以构建该训练集；词表构建模块，用于对文档d中的词进行统计，以构建语料词表。

本发明所述的事件触发词抽取系统，其中该自编码器包括编码器和解码器，其中该编码器为堆叠三层的GRU模型，该解码器为一层的GRU模型。

本发明所述的事件触发词抽取系统，其中该自编码器构建模块还包括：GRU模型训练模块，用于训练GRU模型以构建该自编码器，具体包括：第一下标获取模块，用于对该文档d进行分词，获取该文档d的第i个词w_i的词向量E_i，以及词w_i在文档d中的第一下标index_i；文档向量获取模块，用于将该词向量E_i输入到该自编码器的编码器GRU_{three_layer_encoder}，得到该文档d的文档向量h_d，其中h_d＝GRU_{three_layer_encoder}(E₁,E₂,...,E_|d|)；第二下标获取模块，用于将该文档向量h_d输入到该自编码器的解码器GRU_decoder，输出词w_i的隐层向量q'_i，以及词w_i在该语料词表中的第二下标index'_i，其中[q'₁,q'₂,...,q'_|d|]＝GRU_decoder(h_d)，index'_i＝argmax Softmax(q'_i),i＝1,2,...,|d|；自编码器训练模块，用于获取第一下标index_i与第二下标index'_i的交叉熵分类误差，通过误差反传训练该自编码器。

本发明还提出一种可读存储介质，存储有可执行指令，该可执行指令用于执行如前述的基于自编码器融合文档信息的事件触发词抽取方法。

本发明还提出一种数据处理装置，包括如前述的可读存储介质，该数据处理装置调取并执行该可读存储介质中的可执行指令，以进行基于自编码器融合文档信息的事件触发词抽取操作。

本发明的基于自编码器融合文档信息的事件触发词抽取方法具有以下优点：一是充分利用大规模的未标注语料得到能还原文档语序和语义的自编码器语言模型，取得蕴含待识别词所在文档语境的分布式表达；二是引入文档级的特征表示，提高触发词抽取效果；三是自编码器语言模型预训练完成后，事件触发词抽取的流程是端到端的，避免了人工干预；四是事件触发词抽取的整体性能有所提高，尤其是在缺乏训练数据的场景中，本发明在ACE 2005语料的测试集上取得了71％的F1值。

附图说明

图1是本发明的事件触发词抽取方法整体框架图。

图2是本发明的事件触发词抽取方法流程图。

图3是本发明的事件触发词抽取方法的自编码器语言模型预训练流程图。

图4是本发明的事件触发词抽取方法的自编码器语言模型结构示意图。

图5是本发明的事件触发词抽取方法的上下文特征提取流程图。

图6是本发明的事件触发词抽取方法的事件触发词抽取过程示意图。

图7是本发明的事件触发词抽取系统的数据处理装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了克服现有技术中存在的不足，本发明提供了一种基于自编码器融合文档信息的事件触发词抽取方法。该方法利用大规模未标注的自由文本数据预训练文档级的自编码器语言模型，使得模型能够有效学习长文本的语序和语义信息，并通过训练完成的语言模型学习待识别句子所在的文档表示作为全局上下文特征，然后抽取待识别词的局部上下文特征，最后融合两类特征输入Bi-GRU模型进行事件类型的多分类，完成对句子中触发词的抽取。

本发明提出的事件触发词抽取方法包括以下步骤：

1)未标注语料预处理，使用的未标注语料选自Wiki英文自由文本，过滤网页标签，根据空格等标点符号进行分词，并进行词形还原和去除停用词，比如the，达到清洗文本消除噪音的效果，最后构造训练集；

2)使用Wiki语料进行自编码器预训练，将堆叠三层的GRU模型作为编码器进行特征提取，使用另一个GRU模型作为解码器，将提取到的特征解码为输入文本词，计算其与输入词的分类误差进行训练，以得到能建模文档语义信息的编码器模型；

3)持久化存储训练完成的自编码器模型参数，包括词向量、编码器模型参数和解码器模型参数，用于提取待识别句子所在文档的分布式表达；

4)训练语料预处理，使用的训练语料选自ACE 2005，提取出原始文档和标注文档中标注的事件触发词及事件类型、句中出现的实体词及其实体类型，对原始文档进行分词等操作，对事件触发词和实体标注进行BIO标签标注；

5)提取待识别词的上下文特征，包括全局特征和局部特征。其中全局特征为待识别句子前后的文档分布式表达，通过预训练的自编码器的编码器模型提取，局部特征为待识别词的词向量和实体类型分布式表达。将两部分特征直接进行向量拼接；

6)使用Bi-GRU模型抽取事件触发词，将5)中提取得到的特征按照语序依次输入模型，拼接待识别词的正向和反向的隐层表示，经过Softmax分类层进行多分类，识别其事件类型。

本发明通过篇章信息并增加标注数据，利用自编码器语言模型抽取待识别词的局部上下文特征，并融合两类特征输入Bi-GRU模型进行事件类型的多分类，完成对句子中触发词的抽取。

具体来说，本发明的基于自编码器融合文档信息的事件触发词抽取方法包括：通过对未标注自由文本语料进行预处理以生成训练集，预处理的过程包括：对未标注自由文本语料进行过滤网络标签、将大写字母转换为小写字母、去除停用词，以及进行词形还原和缩略词还原，得到文档d，以构建训练集，对文档d中的词进行统计，以构建语料词表；训练GRU模型以构建自编码器，自编码器包括编码器和解码器，其中编码器为堆叠三层的GRU模型，解码器为一层的GRU模型；对训练语料进行预处理和标签标注，提取待识别词；以自编码器获取待识别词在其所在文档的文档向量，作为待识别词的全局特征；以待识别词的词向量和实体类型分布式表达，作为待识别词的局部特征；将全局特征和局部特征进行向量拼接，获得待识别词的上下文特征；将待识别词的上下文特征输入Bi-GRU模型进行多分类，以判断待识别词是否为事件触发词及该待识别词的对应事件类型。

其中训练GRU模型的过程包括：对该文档d进行分词，获取该文档d的第i个词w_i的词向量E_i，以及词w_i在文档d中的第一下标index_i；将该词向量E_i输入到该自编码器的编码器GRU_{three_layer_encoder}，得到该文档d的文档向量h_d，其中h_d＝GRU_{three_layer_encoder}(E₁,E₂,...,E_|d|)；将该文档向量h_d输入到该自编码器的解码器GRU_decoder，输出词w_i的隐层向量q'_i，以及词w_i在该语料词表中的第二下标index'_i，其中[q'₁,q'₂,...,q'_|d|]＝GRU_decoder(h_d)，index'_i＝argmax Softmax(q'_i),i＝1,2,...,|d|；获取该第一下标index_i与该第二下标index'_i的交叉熵分类误差，通过误差反传方法训练该自编码器。

图1是本发明的事件触发词抽取方法整体框架图。如图1所示，本发明的事件触发词抽取方法主要包括自编码器语言模型预训练、训练文本预处理、上下文特征提取和事件触发词抽取四个部分。自编码器语言模型预训练是通过大规模未标注的文本语料训练编码器和解码器模型，使得编码器能得到蕴含文档上下文语境的向量表达，解码器能根据该向量表达重构原始文档的词与词序。训练文本预处理主要是转换事件触发词的标注格式为BIO模式，使其能处理触发词为词组的情况，如“take over”。上下文特征提取包括全局的文档分布式表达特征和局部的词分布式表达及实体类型分布式表达特征，通过约束语境减少带歧义触发词的分类错误率。事件触发词抽取部分是通过神经网络模型，输入提取得到的上下文特征，对待识别词进行多分类，从而得到事件类型。

图2是本发明的事件触发词抽取方法流程图。如图2所示，本发明的事件触发词抽取方法包括：

步骤S1、获取未标注自由文本语料并进行预处理，输入自编码器语言模型中进行预训练，并持久化存储训练完成的自编码器的模型参数，本发明的未标注自由文本语料采用了大规模的Wiki文本数据集。

步骤S2、对训练文本进行预处理，对训练文本中的原始文档进行分词等操作，对事件触发词表示的事件类型和实体类型进行BIO标签标注，本发明的训练文本采用了ACE2005训练数据集。

步骤S3、针对训练文本中的待抽取文档中每个句子中的候选词(待识别词)提取全局特征和局部特征，并将全局特征和局部特征进行向量拼接，生成候选词的上下文特征作为事件抽取模型的输入。

步骤S4、以句子为单位将候选词的上下文特征表示依次输入事件抽取模型，于本发明的实施例中，事件抽取模型采用Bi-GRU模型，通过事件抽取模型得到每个候选词的正向和反向的隐层表示，最后将隐层表示输入Softmax分类层进行多分类，完成事件触发词的抽取。

具体地，步骤S1包括多个子步骤：

自编码器语言模型的预训练主要包含三个步骤，图3是本发明的事件触发词抽取方法的自编码器语言模型预训练流程图。如图3所示：

步骤S101、预处理大规模的未标注自由文本语料。首先清洗文本，利用正则表达式去除Wiki文本中明显错误的片段，比如网页标签等，同时将文本均转化为小写。然后根据空格等标点符号进行分词并去除停用词(stop words)。为了减少存储空间和词表体量而避免信息损失，构建停用词表，自动过滤掉一些高频出现在大部分句子中的单词，如the、a等。之后进行词形还原和缩略词还原等特殊处理，并统计出未标注自由文本语料的语料词表。英文中的单词具有不同的形式，比如jumping和jumps都是jump的变体，词形还原就是为了将单词从不同的时态、派生形式还原。缩略词还原是指将英文中的简写词组还原，比如I'm变为Iam。最后随机抽取词长为100的文段(文档d)构造训练集。考虑到RNN类模型长时依赖的问题，文段若过长易导致较久之前的内容被模型遗忘，所以于本发明的实施例中，限制文段长度为100。

步骤S102、通常引入外部数据用于学习词语的分布式表达，虽然这样能捕捉到词语的语义内容，但是损失了句子的语序信息从而不能表达完整的篇章信息。因此本发明使用大规模的未标注自由文本语料训练自编码器语言模型，其中自编码器的编码器选择堆叠三层的GRU模型进行文档级长句的分布式表达提取，解码器选择GRU模型。如果解码器能将提取到的分布式表达按照一定顺序解码为输入文本的词语，那么可以认为编码器提取的文档分布式表达蕴含了整个文档的语义信息，从而可将该编码器用于提取待识别词语所在文档的分布式表达。

图4是本发明的事件触发词抽取方法的自编码器语言模型结构示意图。自编码器语言模型如图4所示，具体训练步骤如下：

(i)在词层面对文档d进行编码，输入文档d的分词结果，并随机初始化每个词w的词向量E，由此得到第i个词w_i的分布式表达(词向量)E_i，以及词w_i在文档d中的真实下标(第一下标)index_i。

(ii)将词向量E_i输入到自编码器语言模型的编码器中，由此得到文档的向量分布式表达(文档向量)h_d。

h_d＝GRU_{three_layer_encoder}(E₁,E₂,...,E_|d|,) (1)

于本发明的实施例中，编码器采用堆叠三层的GRU模型(GRU_{three_layer_encoder})；

(iii)将文档向量表达h_d输入自编码器语言模型的解码器中，经过解析得到文档d中第i个词的表示q'_i，并连接Softmax分类层，根据概率最大原则预测文档d中第i个词w_i在语料词表中的预测下标(第二下标)index'_i。

[q'₁,q'₂,...,q'_|d'|]＝GRU_decoder(h_d) (2)

index'_i＝argmaxSoftmax(q'_i),i＝1,2,...,|d| (3)

于本发明的实施例中，解码器采用一层的GRU模型；

(iiii)计算词w_i在语料词表中的第二下标index'_i与词w_i在文档d中的第一下标index_i的交叉熵分类误差，通过误差反传训练自编码器模型。

步骤S103、持久化存储训练完成的自编码器的模型参数，包括词向量、编码器的模型参数和解码器的模型参数，用于提取待识别句子所在文档的分布式表达。

进一步地，步骤S2包括：

同样地，针对带事件标注的训练语料d'进行预处理，主要包括分词、去除停用词、词形还原和标签转换。前三个步骤与自编码器语言模型中的预处理类似，第四步标签转换是为了使模型能预测多个词的事件触发词，采用BIO模式进行标注。因为大多数事件触发词都是能描述事件或动作发生的动词，其中不乏动词词组，尤其在英文中同一动词搭配不同介词可能蕴含截然不同的语义。BIO标签模式中包含三种类别的标记，分别是B(Begin)，表示该词为目标词组的起始；I(In)，表示该词为目标词组非起始的其他词语；O(Other)，表示该词并非目标词组。在实际标注中，如果触发词仅由单个词构成，则仅标注“B-事件类型”；如果由两个或两个以上的词构成，比如“takeover”，则标注“take”为“B-事件类型”，标注“over”为“I-事件类型”；对其他的非触发词词直接标注为“O”。

更进一步地，步骤S3具体包括多个子步骤：

针对训练语料d'中的待抽取文档中每个句子中的候选词w'(待识别词)提取全局特征和局部特征，并将全局特征和局部特征进行向量拼接，生成候选词的上下文特征作为事件抽取模型的输入。

图5是本发明的事件触发词抽取方法的上下文特征提取流程图。提取带事件标注的训练语料d'中的特征，特征提取的流程如图5所示，具体步骤如下：

步骤S301、全局特征是针对训练语料d'中待抽取句子向前向后取词长为100的文档段落，依次输入步骤S1中预训练完成的自编码器语言模型的编码器中，生成2个分布式表达用于描述待抽取句子中文档的上下文语境。实验中生成了2个300维的特征向量，将其拼接作为文档的分布式表达。

步骤S302、局部特征主要包括候选词的词向量和候选词的实体类型分布式表达。词向量是一种分布式表达，将词表示成一个定长的连续的稠密向量，相比于One-hot表示方法，不仅能表示词之间的相似关系，包含词语的语义信息，而且特征维度比较小，所需存储空间少。实验中采用Google预训练的300维词向量初始化。

词的实体类型分布式表达是对该词信息的信息补充，其中实体是指文档中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。实体类型分布式表达是对个类别随机生成一个向量，该向量在训练过程中不断修正。实验中采用150维的实体类型向量。

步骤S303、将每个候选词的词向量和实体类型分布式表达直接拼接，再拼接文档的文档向量，得到候选词的上下文特征。

最后，步骤S4包括：

将事件触发词的抽取看做是多分类任务，使用可建模连续时序数据的Bi-GRU模型，考虑到英语句型的灵活性，词的语义表达不仅与前面的词有关，也与之后的词有关，因此使用了双向的循环神经网络模型进行编码。图6是本发明的事件触发词抽取方法的事件触发词抽取过程示意图。如图6所示。

针对训练语料d'中句子s_i(i＝1,2,...,|d'|)，经过S3后提取出每个词w'_ij(j＝1,2,...,|s_i|)的上下文特征向量t_ij，输入Bi-GRU模型(GRU_event)中，将正向隐层表示

和反向隐层表示

拼接为隐层表示r_ij，

将隐层表示r_ij输入Softmax分类层进行多分类，识别其事件类型e_ij。

e_ij＝argmaxSoftmax(r_ij),i＝1,2,...,|d|,j＝1,2,...,|s_i| (5)

未标注的文本数据集Wiki中包含了374209个文档，训练集包含337945篇，验证集包含36264篇。训练数据集ACE2005中包含了599个文档，标注的事件类型分为8个大类，细分为33个小类。

图7是本发明的事件触发词抽取系统的数据处理装置示意图。如图7所示，本发明实施例还提供一种可读存储介质，以及一种数据处理装置。本发明的可读存储介质存储有计可执行指令，可执行指令被数据处理装置的处理器执行时，实现上述基于自编码器融合文档信息的事件触发词抽取方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

与已有技术相比，本发明方法具有以下优点：一是充分利用大规模的未标注语料得到能还原文档语序和语义的自编码器语言模型，取得蕴含待识别词所在文档语境的分布式表达；二是引入文档级的特征表示，提高触发词抽取效果；三是自编码器语言模型预训练完成后，事件触发词抽取的流程是端到端的，避免了人工干预。本发明在ACE 2005语料的测试集上取得了71％的F1值。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于自编码器融合文档信息的事件触发词抽取方法，其特征在于，包括：

以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；

对训练语料进行预处理和标签标注，提取待识别词；

以该自编码器获取该待识别词在其所在文档的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；

将该上下文特征输入Bi-GRU模型进行多分类，以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。

2.如权利要求1所述的事件触发词抽取方法，其特征在于，通过对该未标注自由文本语料进行预处理以生成该训练集，预处理的过程包括：

对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词，以及进行词形还原和缩略词还原，得到文档d，以构建该训练集；

对文档d中的词进行统计，以构建语料词表。

3.如权利要求2所述的事件触发词抽取方法，其特征在于，该自编码器包括编码器和解码器，其中该编码器为堆叠三层的GRU模型，该解码器为一层的GRU模型。

4.如权利要求3所述的事件触发词抽取方法，其特征在于，训练GRU模型的过程包括：

对该文档d进行分词，获取该文档d的第i个词w_i的词向量E_i，以及词w_i在文档d中的第一下标index_i；

将该词向量E_i输入到该自编码器的编码器GRU_{three_layer_encoder}，得到该文档d的文档向量h_d，其中h_d＝GRU_{three_layer_encoder}(E₁,E₂,...,E_|d|)；

将该文档向量h_d输入到该自编码器的解码器GRU_decoder，输出词w_i的隐层向量q'_i，以及词w_i在该语料词表中的第二下标index'_i，其中[q'₁,q'₂,...,q'_|d|]＝GRU_decoder(h_d)，index'_i＝argmax Softmax(q'_i),i＝1,2,...,|d|；

获取该第一下标index_i与该第二下标index'_i的交叉熵分类误差，通过误差反传方法训练该自编码器。

5.一种基于自编码器融合文档信息的事件触发词抽取系统，其特征在于，包括：

自编码器构建模块，用于以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；

训练文本预处理模块，用于对训练语料进行预处理和标签标注，提取待识别词；

上下文特征提取模块，用于获取该待识别词的上下文特征，其中以该自编码器获取该待识别词在其所在文档的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；

事件触发词抽取模块，用于将该上下文特征输入Bi-GRU模型进行多分类，以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。

6.如权利要求5所述的事件触发词抽取系统，其特征在于，该自编码器构建模块包括预处理模块，用于通过对该未标注自由文本语料进行预处理以生成该训练集，该预处理模块包括：

语料处理模块，用于对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词，以及进行词形还原和缩略词还原，得到文档d，以构建该训练集；

词表构建模块，用于对文档d中的词进行统计，以构建语料词表。

7.如权利要求6所述的事件触发词抽取系统，其特征在于，该自编码器包括编码器和解码器，其中该编码器为堆叠三层的GRU模型，该解码器为一层的GRU模型。

8.如权利要求7所述的事件触发词抽取系统，其特征在于，该自编码器构建模块还包括：

GRU模型训练模块，用于训练GRU模型以构建该自编码器，具体包括：

第一下标获取模块，用于对该文档d进行分词，获取该文档d的第i个词w_i的词向量E_i，以及词w_i在文档d中的第一下标index_i；

文档向量获取模块，用于将该词向量E_i输入到该自编码器的编码器GRU_{three_layer_encoder}，得到该文档d的文档向量h_d，其中h_d＝GRU_{three_layer_encoder}(E₁,E₂,...,E_|d|)；

第二下标获取模块，用于将该文档向量h_d输入到该自编码器的解码器GRU_decoder，输出词w_i的隐层向量q'_i，以及词w_i在该语料词表中的第二下标index'_i，其中[q'₁,q'₂,...,q'_|d|]＝GRU_decoder(h_d)，index'_i＝argmax Softmax(q'_i),i＝1,2,...,|d|；

自编码器训练模块，用于获取第一下标index_i与第二下标index'_i的交叉熵分类误差，通过误差反传训练该自编码器。

9.一种可读存储介质，存储有可执行指令，该可执行指令用于执行如权利要求1～4任一项所述的基于自编码器融合文档信息的事件触发词抽取方法。

10.一种数据处理装置，包括如权利要求9所述的可读存储介质，该数据处理装置调取并执行该可读存储介质中的可执行指令，以进行基于自编码器融合文档信息的事件触发词抽取操作。