CN112612885A

CN112612885A - 一种基于bert类模型的阅读理解式新闻文本事件抽取方法

Info

Publication number: CN112612885A
Application number: CN202011501132.4A
Authority: CN
Inventors: 贾宇; 郭先会; 张明亮; 董弋粲; 蒋彧忱; 沈宜
Original assignee: Chengdu 30kaitian Communication Industry Co ltd
Current assignee: Chengdu 30kaitian Communication Industry Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-06

Abstract

本发明提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法包括：收集中文新闻文本语料，并获得事件类型表和论元表；将事件类型表和论元表排序；根据论元表设计不同问题；划分训练集、验证集和测试集；标注标训练集和验证集；利用训练集和验证集输入BERT类模型进行训练和验证，分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型；使用事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测，得到测试集的事件类型以及对应的论元抽取的预测结果。本发明将事件抽取任务转化为机器阅读理解任务，提高了事件抽取的准确性，并且能够根据不同的需求设计不同的事件类型以及关注的论元，泛化能力强。

Description

一种基于BERT类模型的阅读理解式新闻文本事件抽取方法

技术领域

本发明涉及自然语言处理(NLP)领域，具体而言，涉及一种基于BERT 类模型的阅读理解式新闻文本事件抽取方法。

背景技术

随着网络的日益发达和自媒体的日益增多，人们每天接触到大量的信息，如何高效快速地从海量信息中获取有用的信息逐渐成为人们关注的焦点。事件抽取(EventExtraction)任务的目标是从非结构化信息中抽取出用户感兴趣的事件，并以结构化的方式呈现给用户，该任务包含两大子任务：(1) 事件的检测和类型识别，这是一个多分类任务；(2)事件论元的抽取。

目前主流的事件抽取技术有三种：基于特征抽取的模式匹配方法、基于机器学习的方法、基于深度学习的方法；基于模式匹配的方法需要人工总结出事件的模板，在预测阶段将代抽取的文本与已有的模板进行正则匹配，因此该方法在特定的领域能取得较高性能，但泛化能力很差；基于机器学习的方法将事件抽取任务的两个子任务转化为分类问题，利用传统的机器学习方法处理分类任务，该任务需要大规模的标注数据，但是泛化能力强；基于深度学习的方法仍然将事件抽取任务视为多分类任务，但是该方法能够自动提取和学习事件的特征，用于分类任务。BERT类模型是一种基于Transformer双向编码器提取特征的语言表征模型，目的是通过联合调节所有层的上下文来预先训练文本的深度双向表示，具有强大的特征抽取能力。根据不同的下游任务需求，预训练好的BERT类模型可以在不改变核心模型的情况下对网络结构进行微调，如问答任务和分类任务。阅读理解任务需要通过交互从书面文字中提取与构造文章语义，机器阅读理解考虑利用人工智能技术，使计算机具有和人类一样理解文章的能力。

发明内容

本发明旨在提供一种基于BERT类模型的阅读理解式新闻文本事件抽取方法，以解决上述目前主流的事件抽取技术中存在的问题。

本发明一个实施例提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法，包括如下步骤：

步骤1，收集中文新闻文本语料，并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表；

步骤2，将事件类型表中的事件类型和论元表中的论元按照顺序排列；

步骤3，根据论元表设计不同问题，问题的先后顺序与论元表中的论元先后顺序相同；

步骤4，将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集，并根据事件类型表和论元表对训练集和验证集进行标注；

步骤5，将标注好的训练集和验证集转换为指定格式数据；该指定格式数据包括两种形式：第一种形式的指定格式数据包含事件类型信息；第二种形式的指定格式数据包含论元信息；

步骤6，利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型；

步骤7，使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测，得到测试集的事件类型以及对应的论元抽取的预测结果。

在一个实施例中，步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。

在一个实施例中，给不同中文新闻文本语料一个独特的id标签。

在一个实施例中，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到事件类型多分类模型的方法为：

(1)在BERT类模型上层接上softmax层；

(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练，得到初始事件类型多分类模型；

(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型，根据初始事件类型多分类模型在验证集上的表现调整训练参数，得到最终的事件类型多分类模型。

在一个实施例中，第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案，答案的起止位置、问题的长度以及该问题是否有多个答案的信息。

在一个实施例中，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到问题有无答案的二分类模型的方法为：

(1)在BERT类模型上层接上softmax层；

(2)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练，经过训练得到初始问题有无答案的二分类模型；

(3)将验证集中第二种形式的指定格式数据输入初始问题有无答案的二分类模型，根据初始问题有无答案的二分类模型在验证集上的表现调整训练参数，得到最终的问题有无答案的二分类模型。

在一个实施例中，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到论元抽取模型的方法为：

(1)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练，得到初始论元抽取模型；

(2)将验证集中第二种形式的指定格式数据输入初始论元抽取模型，根据初始论元抽取模型在验证集上的表现调整训练参数，得到最终的初始论元抽取模型。

在另一个实施例中，所述新闻文本事件抽取方法还包括：

步骤8，对预测结果做事件类型和论元去重，得到测试集上事件类型和论元抽取的最终结果。

进一步的，对预测结果做事件类型和论元去重的方法为：将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中，每新存入一个事件类型或对应论元时，判断对应的列表中是否已经出现过要存入的事件类型或对应论元，若尚未出现过则存入列表，否则不存入，处理完成预测结果后，对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法中，通过训练BERT类模型将事件抽取任务拆分为事件类型预测任务、问题有无答案预测任务以及论元抽取任务。由于事件类型抽取任务比较简单，为了充分利用事件类型信息，将事件类型抽取任务任务转化为多分类预测任务；考虑到部分论元在文本中可能不存在，因此增加问题有无答案这一预测任务，使模型能够更加准确地定位到问题对应的答案；在论元抽取任务中，对文本每一个位置做二分类任务，预测该位置是否为该论元的起止位置。本发明将事件抽取任务转化为机器阅读理解任务，提高了事件抽取的准确性，并且能够根据不同的需求设计不同的事件类型以及关注的论元，泛化能力强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一个实施例的基于BERT类模型的阅读理解式新闻文本事件抽取方法的流程框图。

图2为本发明另一个实施例的基于BERT类模型的阅读理解式新闻文本事件抽取方法的流程框图

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

参见图1，本发明的一个实施例提出一种基于BERT类模型的阅读理解式新闻文本事件抽取方法，包括如下步骤：

步骤1，收集中文新闻文本语料，并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表；事件类型如“召开会议”事件、“死亡”事件等。根据中文新闻文本语料总结出不同事件的论元表。需要注意的是，不同事件的论元可能不同，同一事件的同一论元可能存在多个角色，如“死亡”事件中的“死者”这一论元可能存在多个人物。

下面以“召开会议”事件为例进行演示。示例中文新闻文本语料“8月 5日，联合国妇女署邀请包括中国在内的11个国家，会议内容就是讨论当下疫情，并且由中国在会议中作主旨发言。”中，涉及到的事件类型为“召开会议”，涉及到的论元为“会议时间”、“会议地点”、“举办方”、“参会方”，“会议主题”；由此，在总结出的论元表中，“召开会议”事件包含“会议时间”、“会议地点”、“举办方”、“参会方”、“会议主题”五个论元。

步骤2，将事件类型表中的事件类型和论元表中的论元按照顺序排列；如事件类型：“0召开会议”，论元：“0会议时间”、“1会议地点”、“2举办方”、“3参会方”、“4会议主题”；

步骤3，根据论元表设计不同问题，问题的先后顺序与论元表中的论元先后顺序相同；如“0事件发生的时间，包含年、月、日、天、周、时、分、秒等”、“1国家，城市，山川等抽象或具体的地点”、“2个人或者公司或者国家，商业机构，社会组织等组织机构”、“3个人或者公司或者国家，商业机构，社会组织等组织机构”、“4会议主题”；

步骤4，将步骤1收集的中文新闻文本语料按比例(如8:1:1)划分为训练集、验证集和测试集，并根据事件类型表和论元表对训练集和验证集进行标注；

每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。在一些实施例中，还可以给不同中文新闻文本语料一个独特的id标签，通过设置id标签，可以在对多个样本同时做事件抽取任务时，如果单个样本过长，需要将此样本切分为多个子样本，对子样本分别做事件抽取任务，再将子样本的预测结果合并得到此样本的预测结果，在合并时需要通过相同的id准确识别同一样本的子样本。如果逐个样本做事件抽取任务，则id不是必需的。另外，如果中文新闻文本语料中有未涉及到的论元不需要特别写出。如{"text":"8月5日，联合国妇女署邀请包括中国在内的11个国家，会议内容就是讨论当下疫情，并且由中国在会议中作主旨发言。","id":"15dhdhdyhcbhf17djddhfh", "event_list":"event_list":[{"arguments":[{"argument_start_index":0,"role":" 时间","argument":"8月5日"},{"argument_start_index":6,"role":"举办方", "argument":"联合国妇女署"}，{"argument_start_index":13,"role":"参会方", "argument":"包括中国在内的11个国家"},{"argument_start_index":32,"role": "会议主题","argument":"讨论当下疫情"},"event_type":"召开会议"}]}；

一般收集的中文新闻文本语料为txt格式，因此需要将其转换为指定格式数据npy。其中，第一种形式的指定格式数据包含的事件类型信息，是为了便于后续做事件类型抽取；第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案，答案的起止位置、问题的长度以及该问题是否有多个答案的信息，便于后续做论元抽取。

步骤6，利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型；具体地：

一、训练得到事件类型多分类模型的方法为：

(1)在BERT类模型上层接上softmax层；BERT类模型由12层 transformer encoder构建而成，通过有掩码的语言模型和下一句预测两个预训练任务，加强模型对文本的理解能力，特征提取能力很强。而由于由于同一个中文新闻文本语料中可能出现多个不同事件，因此事件类型预测是一个多分类任务，因此在BERT类模型上层接上softmax层即可得到分类结果；

(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练，得到初始事件类型多分类模型；由于训练集中第一种形式的指定格式数据包含事件类型信息，因此将训练集中第一种形式的指定格式数据输入BERT 类模型，通过softmax得到的分类结果即是事件类型分类结果，从而能够训练得到初始事件类型多分类模型；

二、训练得到问题有无答案的二分类模型的方法为：

(1)在BERT类模型上层接上softmax层；由于问题有无答案是二分类任务，因此在BERT类模型上层接上softmax层即可得到二分类结果；

(2)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练，经过训练得到初始问题有无答案的二分类模型；由于训练集中第二种形式的指定格式数据包含论元的对应问题有无答案的信息，因此将训练集中第二种形式的指定格式数据输入BERT类模型，通过softmax得到的分类结果即是问题有无答案的二分类结果，从而能够训练得到初始问题有无答案的二分类模型；

三、训练得到论元抽取模型的方法为：

(1)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练，得到初始论元抽取模型；论元抽取可以看做是机器阅读理解中的片段抽取问题，因此对中文新闻文本语料的每一个位置坐二分类预测任务，预测该位置是否为答案片段的起止位置，由于，由于训练集中第二种形式的指定格式数据包含论元的答案的起止位置、问题的长度以及该问题是否有多个答案的信息，因此将训练集中第二种形式的指定格式数据输入BERT类模型，能够训练得到初始论元抽取模型；

步骤7，使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测，得到测试集的事件类型以及对应的论元抽取的预测结果。如测试集的中文新闻文本语料示例“本报12日报道，计算机科学系创新实验室吴主任称，计科系科技兴趣小组组长将于周五举行特别会议，对人工智能对在线教育发展影响进行讨论。”，使用事件类型多分类模型可以预测出这一样本中包含“召开会议”事件，使用问题有无答案的二分类模型可以分别预测出“会议时间”这一问题在该测试集的中文新闻文本语料中有答案、“会议地点”这一问题在该测试集的中文新闻文本语料中没有答案、“举办方”这一问题在该测试集的中文新闻文本语料中有答案、“参会方”这一问题在该测试集的中文新闻文本语料中有答案、“会议主题”这一问题在该测试集的中文新闻文本语料中有答案。使用论元抽取模型可以抽取出各个论元对应的答案片段。

在另一个实施例中，参见图2，由于同一事件在中文新闻文本语料的不同位置可能重复出现，相同的事件类型和对应论元可能被反复抽取，因此所述新闻文本事件抽取方法还包括：

步骤8，对预测结果做事件类型和论元去重，得到测试集上事件类型和论元抽取的最终结果。对预测结果做事件类型和论元去重的方法为：将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中，每新存入一个事件类型或对应论元时，判断对应的列表中是否已经出现过要存入的事件类型或对应论元，若尚未出现过则存入列表，否则不存入，处理完成预测结果后，对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。

3.根据权利要求2所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，给不同中文新闻文本语料一个独特的id标签。

4.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到事件类型多分类模型的方法为：

(1)在BERT类模型上层接上softmax层；

5.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案，答案的起止位置、问题的长度以及该问题是否有多个答案的信息。

6.根据权利要求5所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到问题有无答案的二分类模型的方法为：

(1)在BERT类模型上层接上softmax层；

7.根据权利要求5所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到论元抽取模型的方法为：

8.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，所述新闻文本事件抽取方法还包括：

9.根据权利要求8所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，对预测结果做事件类型和论元去重的方法为：将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中，每新存入一个事件类型或对应论元时，判断对应的列表中是否已经出现过要存入的事件类型或对应论元，若尚未出现过则存入列表，否则不存入，处理完成预测结果后，对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。