CN110765231A

CN110765231A - 一种基于共指融合的篇章事件抽取方法

Info

Publication number: CN110765231A
Application number: CN201910964681.6A
Authority: CN
Inventors: 杨理想; 张侨; 王银瑞
Original assignee: Nanjing Shixing Intelligent Technology Co Ltd
Current assignee: Nanjing Xingyao Intelligent Technology Co.,Ltd.
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-02-07

Abstract

本发明提供了一种基于共指融合的篇章事件抽取的方法，用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题，具体为通过利用对根据相同的触发词进行人工标注的数据集，进行数据结构获取及预处理后，切分句子进行文本初始化特征提取，进行模型训练后，再进行事件融合处理的方法，通过此方法，可以将篇章文本中的相同事件进行融合，去除冗余信息，获取事件的更多要素信息，得到更加全面的事件描述，同时，可有效提高事件抽取效果，具有广泛的应用前景。

Description

一种基于共指融合的篇章事件抽取方法

技术领域

本发明属于自然语言处理领域，特别涉及一种基于共指融合的篇章事件抽取的方法。

背景技术

事件抽取是信息抽取的主要形式之一，它是从大量的自然文本中抽取人们感兴趣的结构化事件信息，如什么人，什么地方，什么时间，做了什么事。基于共指融合的篇章事件抽取是从篇章文本中找出共指事件进行融合，以达到抽取到更多事件信息以及事件融合的目的。

目前，业内的事件抽取方法主要是对单独的事件进行抽取，虽然这种方法取得了不错的成果，但自然语言本身的灵活性决定了这种事件抽取方法不足以很好地解决事件抽取的问题。

发明内容

有鉴于此，本发明提供了一种基于共指融合的篇章事件抽取的方法，用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题，具体步骤为：

(1)标注数据集

从待抽取事件的篇章文本中找出相同的触发词，即为相同类型的事件，人工标注出相同类型的事件分类信息，得到标注数据；

(2)获取数据结构

对标注数据进行处理，得到相同事件和不同事件的语料集合，获得需要的数据结构，每条数据包括：包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果；

(3)数据预处理

对步骤(2)中获得数据结构进行预处理，获得数据的位置特征编码信息；

(4)切分句子

根据触发词位置将一条文本数据在两个触发词处各切一刀，将一句话分为三部分，同时对位置向量也进行同样的切分操作；

(5)初始化处理

通过查找预先训练好的词嵌入，将每个输入词标记转换成向量，获取文本特征信息；

(6)特征提取

将位置特征编码信息和文本特征信息拼接，然后将上面三个数据分别通过CNN提取特征，提取出来的特征通过maxpooling层之后进行拼接后送入softmax层，经过全连接层进行二分类，最终得到两个事件的分类结果；

(7)模型训练

将构造的数据送进分段卷积神经网络模型进行训练；

(8)事件融合

提取篇章文本中的同一类型事件，经模型判断是否为同一事件，如果是同一事件，则将两个事件融合，抽取两个事件中的要素信息并互相补充，生成事件的结构化信息；如果经过判断，多个事件两两为同一事件，则将多个事件融合，事件要素生成一个事件的结构化信息。

作为改进，步骤(2)中，构造数据时，只标注最临近具有相同类型的事件分类信息事件。

作为改进，步骤(3)中，位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息，其中所述方向信息为左侧或右侧。

作为改进，模型的结构如下：进行语料信息切断处理成词，通过word2vec的Skip-gram模型将词表示成向量形式，与位置向量即各词语与两个实体的相对位置，进行拼接作为输入，之后通过卷积层得到feature map，在池化层通过两个实体位置将feature map分为三段进行池化，用于捕获两个实体间的结构化信息，最后，通过softmax层进行分类。

作为改进，步骤(7)中，切断语料信息时，只截取包含两个触发词的语句以及其中间语句。

有益效果：本发明提供的基于共指融合的篇章事件抽取的方法，通过此方法，可以将篇章文本中的相同事件进行融合，去除冗余信息，获取事件的更多要素信息，得到更加全面的事件描述，同时，可有效提高事件抽取效果，具有广泛的应用前景。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明方法的流程图。

图2为分段卷积神经网络模型的架构设计图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于共指融合的篇章事件抽取的方法，具体的步骤为：

A：从待抽取事件的篇章文本中找出相同的触发词，即为相同类型的事件。人工标注出相同类型的事件分类信息，是否属于同一个事件，得到标注数据集；

A1:标注事件时，只标注最邻近的同一事件，即如果A、B为同一事件，B、C为同一事件，则标注A和B，B和C，A和C不再标注。

B：对标注数据进行处理，得到相同事件和不同事件的语料集合，构造出我们需要的数据结构，每条数据包括：包含2个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果；

B1：构造数据，标注为同一事件的为正例，没有标注为同一事件的为负例。

C：数据预处理：首先对数据进行位置编码，按句子中各个词离触发词的距离进行编码，获得。由于句子中有两个触发词，所以这条句子就会产生两个和句子长度相同的编码；位置特征编码信息。

C1：此网络结构很注重触发词之间的距离信息，位置信息，以及触发词之间或者左右的信息。这些都是是事件抽取中最重要的特征。一般来说两个触发词之间距离越近，则他们有关系的可能性越大。而透露出触发词之间有关系的词一般会出现在两个触发词之间，左侧，或者右侧。

D：切分句子：根据触发词位置将一条文本数据在两个触发词处各切一刀，将一句话分为三部分，同时对位置向量也进行同样的切分操作，此修改提高了特征提取的能力；

E：通过查找预先训练好的词嵌入，将每个输入词标记转换成向量，获取文本特征信息；

F：特征提取：将位置特征编码信息和文本特征信息拼接，然后将上面三个数据分别通过CNN提取特征，提取出来的特征通过maxpooling层之后进行拼接后送入softmax层，经过全连接层进行二分类，最终得到两个事件的分类结果；

G：模型训练：将构造的数据送进分段卷积神经网络模型进行训练；模型的结构如下：进行语料信息切断处理成词，通过word2vec的Skip-gram模型将词表示成向量形式，与位置向量即各词语与两个实体的相对位置，进行拼接作为输入，之后通过卷积层得到feature map。在池化层通过两个实体位置将feature map分为三段进行池化，其目的是为了更好的捕获两个实体间的结构化信息。最后，通过softmax层进行分类，模型架构如图2；

H：事件融合：提取篇章文本中的同一类型事件，经模型判断是否为同一事件。如果是同一事件，则将两个事件融合，抽取两个事件中的要素信息并互相补充，生成事件的结构化信息；如果经过判断，多个事件两两为同一事件，则将多个事件融合，事件要素生成一个事件的结构化信息。

H1：事件要素抽取的流程：将待抽取事件的本文依次进行分句、分词、实体识别，然后通过正则匹配和句法和依存关系分析提取出事件的发生时间、主体、客体等事件要素，组成结构化信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于共指融合的篇章事件抽取方法，其特征在于：具体步骤为：

(1)标注数据集

从待抽取事件的篇章文本中找出相同的触发词，即为相同类型的事件，人工标注出相同类型的事件分类信息，得到标注数据集；

(2)获取数据结构

(3)数据预处理

(4)切分句子

(5)初始化处理

(6)特征提取

(7)模型训练

将构造的数据送进分段卷积神经网络模型进行训练；

(8)事件融合

2.根据权利要求1所述的基于共指融合的篇章事件抽取方法，其特征在于：步骤(2)中，构造数据时，只标注最临近具有相同类型的事件分类信息事件。

3.根据权利要求1所述的基于共指融合的篇章事件抽取方法，其特征在于：步骤(3)中，位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息，其中所述方向信息为左侧或右侧。

4.根据权利要求1所述的基于共指融合的篇章事件抽取方法，其特征在于：步骤(7)中，所述模型的结构如下：进行语料信息切断处理成词，通过word2vec的Skip-gram模型将词表示成向量形式，与位置向量即各词语与两个实体的相对位置，进行拼接作为输入，之后通过卷积层得到feature map；在池化层通过两个实体位置将feature map分为三段进行池化，用于捕获两个实体间的结构化信息；最后，通过softmax层进行分类。

5.根据权利要求4所述的基于共指融合的篇章事件抽取方法，其特征在于：切断语料信息时，只截取包含两个触发词的语句以及其中间语句。