CN114239536B

CN114239536B - 一种事件抽取方法、系统及计算机可读存储介质

Info

Publication number: CN114239536B
Application number: CN202210160088.8A
Authority: CN
Inventors: 马永亮; 石戈; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-06-21
Anticipated expiration: 2042-02-22
Also published as: CN114239536A

Abstract

本发明涉及自然语言技术领域，特别涉及一种事件抽取方法、系统及计算机可读存储介质，一种事件抽取方法，包括以下步骤：输入原始文本并判断原始文本中是否包含预设事件类型；若是，获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本；对事件文本进行处理以得到最终的结构化事件文本。本发明先判断输入的原始文本是否包含有预设事件类型，若包含有再进行事件抽取以提高准确性；区别于传统生成式事件抽取方法中人为设计任务提示的方法，事件类型特有前缀将该设计参数化并且能够通过训练自动优化，从而避免了人为设计会造成事件抽取结果质量不高的问题。

Description

一种事件抽取方法、系统及计算机可读存储介质

技术领域

本发明涉及自然语言处理技术领域，其特别涉及一种事件抽取方法、系统及计算机可读存储介质。

背景技术

事件识别和抽取研究如何从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来，包括其发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。一个事件蕴含事件触发词、事件参与元素等多个元素。现有事件抽取方法主要分为两类：抽取式事件抽取方法和生成式事件抽取方法。抽取式方法将事件抽取看作抽取问题，将事件抽取分为许多不同的子任务，如事件触发词抽取、实体抽取、事件元素抽取等；之后设计流水线式解码框架或多任务联合学习框架来完成事件的抽取。流水线式抽取方法通常采用序列化抽取方式，前序任务的错误结果会对后序任务造成影响，形成误差传递。而多任务联合学习框架需要人为根据任务、数据集等特性设计不同的子任务间信息共享模式，架构设计不灵活且容易造成次优问题。

为了解决上述问题，研究者近年来提出了生成式事件抽取方法，该类方法将事件抽取转化为序列生成任务，设计任务提示和事件模板，利用生成式预训练语言模型完成事件触发词、事件元素等结构化信息的生成，避免了抽取式方法采用的多任务分解抽取方式带来的误差传递、架构灵活性差等诸多问题。但生成式事件抽取方法通常依赖于人为设计任务提示，事件抽取结果的优劣极大程度上依赖于任务提示的质量，这样的抽取模式同样容易造成次优问题。

发明内容

为了解决事件抽取结果质量不高的问题，本发明提供一种事件抽取方法、系统及计算机可读存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种事件抽取方法，包括以下步骤：

输入原始文本并判断原始文本中是否包含预设事件类型；

若是，获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本；

对事件文本进行处理以得到最终的结构化事件文本；

其中获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本还包括以下步骤：

预设初始事件类型特有前缀的参数；

通过对参数进行运算得到事件类型的预测概率分布；

将预测概率分布与实际概率分布的交叉熵作为损失函数，通过损失反向传播，计算各参数对应的梯度，并基于该梯度对初始事件类型特有前缀的参数进行更新；

更新后的参数即为自动优化得到的最终的事件类型特有前缀；

基于所述事件类型特有前缀调用预设事件模板；

将原始文本向量化编码得到的向量以及事件类型特有前缀填充至预设事件模板中，得到事件文本。

优选地，输入原始文本并判断原始文本中是否包含预设事件类型的具体步骤为：

输入原始文本；

对原始文本进行语义向量化编码；

取出CLS部分向量，接入全连接层，进行二分类；

判断该原始文本中是否包含预设的事件类型。

优选地，所述事件抽取模型至少包括BART-large预训练语言模型。

优选地，对预设事件模板的填充采用约束解码的方式进行。

优选地，所述事件文本包括事件触发信息、事件参与信息、事件过程信息、事件发生信息其中的一种或多种信息的自然语言。

优选地，对事件文本进行处理以得到最终的结构化事件文本的具体步骤为：

基于每个事件文本生成多个文本序列；

采用Beam Search方式对每个文本序列进行概率预测；

选取预测概率最大的文本序列作为最终结果；

对最终结果进行进一步解析以得到最终的结构化事件。

本发明为解决上述技术问题，提供又一技术方案如下：一种事件抽取系统，包括以下模块：

判断模块：输入原始文本并判断原始文本中是否包含预设事件类型；

事件生成模块：包括事件抽取模型，获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本；其中获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本包括以下步骤：

预设初始事件类型特有前缀的参数；

通过对参数进行运算得到事件类型的预测概率分布；

基于所述事件类型特有前缀调用预设事件模板；

将原始文本向量化编码得到的向量以及事件类型特有前缀填充至预设事件模板中，得到事件文本；

处理模块：对事件文本进行处理以得到最终的结构化事件文本。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的事件抽取方法。

与现有技术相比，本发明所提供的一种事件抽取方法、系统及计算机可读存储介质，具有如下的有益效果：

1.本发明提供的一种事件抽取方法，可以理解地，在实际应用场景中，大量非结构化文本中并不包含用户所关注的事件，现有事件抽取模型在开放环境下往往存在过度抽取问题，若在抽取前不对文本进行过滤，则难以保证模型抽取的准确性，本发明先判断输入的原始文本是否包含有预设事件类型，若包含有再进行事件抽取以提高准确性，其中的事件类型特有前缀相当于对是事件类型建立一个特征以方便区分不同的事件类型，通过再将事件类型特有前缀参数化以方便对其进行自动优化，区别于传统生成式事件抽取方法中人为设计任务提示的方法，类型特有前缀将该设计参数化并且能够通过训练自动优化，从而避免了人为设计会造成事件抽取结果质量不高的问题，同时也减少了认为设计提示带来的工作量；最后再通过对事件文本进行处理即可得到最终的结构化事件文本。

2.本发明对原始文本进行语义向量化编码可以理解为，通过文本中一个词上下文语境来表示这个词的含义生成一个词向量，其中的CLS部分向量则是表示一些加了的CLS前缀的词向量，通过将其接入全连接层进行二分类，以此来判断出原始文本中是否包含有预设的事件类型。

3.本发明中的事件类型特有前缀是设计的连续化向量提示，不需要人为设计，可通过模型训练来进行自动调优，避免了人为设计任务提示造成的次优问题，同时减少了人为设计模板提示带来的工作量。

4.本发明通过将事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成训练数据以为之后的训练做好准备。

5.本发明采用约束解码的方式能够保证填充的内容是约束过的需要的内容，即强迫填充必须包含制定的内容，以提高最终得到的训练数据的精准度。

6.本发明中的Beam Search可包含一个参数k，表示每个时刻保留的概率最高的k个序列，然后通过这k个序列继续生成k₂个序列，并且同时预测这k₂个序列中每个序列的概率，以此类推，将最后生成的序列当中概率最高的序列作为最终的抽取结果，以获得最优的解码结果。

7.本发明实施例还提供一种事件抽取系统，具有与上述一种事件抽取方法相同的有益效果，在此不做赘述。

8.本发明实施例还提供一种计算机可读存储介质，具有与上述一种事件抽取方法相同的有益效果，在此不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的事件抽取方法的步骤流程图。

图2是本发明第一实施例提供的事件抽取方法之S1的步骤流程图。

图3是本发明第一实施例提供的事件抽取方法之S2的具体步骤流程图一。

图4是本发明第一实施例提供的事件抽取方法之S2的具体步骤流程图二。

图5是本发明第一实施例提供的事件抽取方法之S3的步骤流程图一。

图6是本发明第二实施例提供的事件抽取系统的框图。

图7是本发明第二实施例提供的计算机可读存储介质的框图。

附图标识说明：

1、事件抽取系统；2、计算机可读存储介质

11、判断模块；12、事件生成模块；13、处理模块。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明第一实施例提供一种事件抽取方法，包括以下步骤：

S1：输入原始文本并判断原始文本中是否包含预设事件类型；

S2：若是，获取事件类型特有前缀和事件类型模板，将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本；

S3：对事件文本进行处理以得到最终的结构化事件文本。

可以理解地，在实际应用场景中，大量非结构化文本中并不包含用户所关注的事件，现有事件抽取模型在开放环境下往往存在过度抽取问题，若在抽取前不对文本进行过滤，则难以保证模型抽取的准确性，本发明先判断输入的原始文本是否包含有预设事件类型，若包含有预设事件类型再进行事件抽取以提高准确性，其中的事件类型特有前缀相当于对是事件类型建立一个特征以方便区分不同的事件类型，通过再将事件类型特有前缀参数化以方便对其进行自动优化，区别于传统生成式事件抽取方法中人为设计任务提示的方法，类型特有前缀将该设计参数化并且能够通过训练自动优化，从而避免了人为设计会造成事件抽取结果质量不高的问题，同时也减少了认为设计提示带来的工作量；最后再通过对事件文本进行处理即可得到最终的结构化事件。

其中的“原始文本”为一段完整的语句或者是包括多个语句的文本。

其中的预设事件类型是提前设定好的，根据需要来预设事件类型，从而筛选出包含预设事件类型的文本。

在一些实施例中，在步骤S1中还包括一步骤：

判断原始文本中是否包含多个语句，若是，判断每个语句中是否包含预设事件类型，若否，将该语句过滤掉。

可以理解地，不包含预设事件类型的语句即为不需要的语句，通过抽取前对其进行过滤，以保证事件抽取的准确度。

其中的过滤可以理解为将该语句删除掉，或者是屏蔽掉，使其不进行下一步骤。

在一具体实施例中，事件抽取方法采用两个模形，其中一个模型为基于BERT预训练语言模型的二分类模型，该模型的主要目的就是判断一端文本中是否包含预设事件类型，另一个模型采用BART-large为基本的预训练语言模型，该模型中包含解码器和编码器，该模型的主要目的就是获得训练数据并且进行训练以生成最终的结构化事件文本。

可以理解地，其中步骤S2中的“事件抽取模型”即相当于上述的以BART-large为基本的预训练语言模型；其中的步骤S1通过上述的BERT预训练语言模型进行，之后将判断出的包括预设事件类型的原始文本传递至步骤S2中的事件抽取模型，由事件抽取模型完成事件的抽取。

进一步地，请参阅图2，步骤S1的具体步骤为：

S11：输入原始文本；

S12：对原始文本进行语义向量化编码；

S13：取出CLS部分向量，接入全连接层，进行二分类；

S14：判断该原始文本中是否包含预设的事件类型。

可以理解地，对原始文本进行语义向量化编码可以理解为，通过文本中一个词上下文语境来表示这个词的含义生成一个词向量，其中的CLS部分向量则是表示一些加了的CLS前缀的词向量，通过将其接入全连接层进行二分类，以此来判断出原始文本中是否包含有预设的事件类型。

可以理解地，其中步骤S11中的原始文本是输入至基于BERT预训练语言模型的二分类模型中，并且也是通过该模型对原始文本进行语义向量化编码的。

进一步地，请参阅图3，步骤S2中“获取事件类型特有前缀”的具体步骤为：

S21：预设初始事件类型特有前缀的参数；

S22：通过对参数进行运算得到事件类型的预测概率分布；

S23：将预测概率分布与实际概率分布的交叉熵作为损失函数，通过损失反向传播，计算各参数对应的梯度，并基于该梯度对初始事件类型特有前缀的参数进行更新；

S24：更新后的参数即为自动优化得到的最终的事件类型特有前缀。

可以理解地，其中的事件类型特有前缀是设计的连续化向量提示，不需要人为设计，可通过模型训练来进行自动调优，避免了人为设计任务提示造成的次优问题，同时减少了人为设计模板提示带来的工作量。

可以理解地，通过该事件类型特有前缀也可以直接区分不同的事件类型。

在一实施例中，将事件类型特有前缀看作一系列虚拟的词，词的数量可以作为参数由人为设定，词向量的维度和所采用的预训练语言模型中词表示的维度保持一致。用n表示特有前缀的数量，d表示特有前缀的维度，则特有前缀为n*d的矩阵。在训练初始阶段，随机初始化n*d的矩阵，通过前向传递的矩阵运算后，得到事件类型的预测概率分布，将该预测概率分布与实际概率分布的交叉熵作为损失函数，通过损失反向传播，计算各参数对应的梯度，并基于该梯度对n*d维的矩阵参数进行更新，以实现更好的预测。模型参数收敛后，得到的n*d维矩阵参数即为自动优化得到的最终的事件类型特有前缀。类型特有前缀的自动优化，避免了人为设计造成的次优问题。

其中的模型参数收敛即表示多次进行参数更新直至计算出的损失函数在预设范围内。

可以理解地，根据具体地实际情况不同设定的事件类型特有前缀参数不同。

进一步地，请参阅图4，步骤S2中“将所述事件类型特有前缀、事件类型模板及原始文本输入事件抽取模型以生成事件文本”包括以下步骤：

S25：基于所述事件类型特有前缀调用所述预设事件模板；

S26：将原始文本向量化编码得到的向量以及事件类型特有前缀填充至预设事件模板中，得到事件文本。

可以理解地，其中的事件模板就相当于是一个描述事件的模板，示例性的如：**公司在**地点**时间做了**。根据具体的实际情况不同事件模板也可以不同。

步骤S26中向量指的是一些词向量，可以理解为将一些词填充到事件模板的空缺处以形成完整的语句。

可以理解地，在一实施例中，事件抽取模型采用BART-large作为基本的预训练语言模型，其中该模型中包括解码器和编码器两个部分，编码器出入类型特有连续化前缀、事件类型模板和原始文本，通过解码器来生成事件文本。

其中步骤S26中的预设事件模板与输入至事件抽取模型的事件类型模板是一致的，其中的事件模板是从任务标注规范中获得。

进一步地，对预设事件模板的填充采用约束解码的方式进行。

可以理解地，约束解码的方式能够保证填充的内容是约束过的需要的内容，即强迫填充必须包含制定的内容，以提高最终得到的训练数据的精准度。

进一步地，事件文本为包括事件触发信息、事件参与信息、事件过程信息、事件发生信息其中的一种或多种信息的自然语言。

进一步地，请参阅图5，步骤S3的具体步骤为：

S31：基于事件文本生成多个文本序列；

S32：采用Beam Search方式对每个文本序列进行概率预测；

S33：选取预测概率最大的文本序列作为最终结果；

S34：对最终结果进行进一步解析以得到最终的结构化事件。

可以理解地，在生成文本的时候，通常需要进行解码操作。

可以理解地，其中Beam Search可包含一个参数k，表示每个时刻保留的概率最高的k个序列，然后通过这k个序列继续生成k₂个序列，并且同时预测这k₂个序列中每个序列的概率，以此类推，将最后生成的序列当中概率最高的序列作为最终的抽取结果，以获得最优的解码结果。

可以理解地，最后再根据相应的规则对最终抽取结果进行解析才能得到最终的结构化事件，其中的相应的规则可根据具体的情况进行设定，其中的解析可以是人为解析或者是程序解析。

进一步地，结构化事件包括事件触发信息、事件参与信息、事件过程信息、事件发生信息其中的一种或多种信息。

可以理解地，其中的事件触发信息则可以理解为这个事件为什么会发生的原因；事件参与信息包括参与该事件的人，事物等等；事件过程信息可以理解为这个事件的过程，事件发生信息可理解为地点，时间等信息。

综上所述，其中的原始文本可以是一篇新闻报道等等，但是该报道中有些内容是我们不需要的，通过将其先进行筛选以将那些不需要的信息的语句筛选出去，并且基于该文本中前后的语境对语句或词进行向量化，基于每个词或句的语义判定该类型的前缀，即通过该事件类型特有前缀即可判断出该语句表达的事件类型。

假设事件模板为：**于**时间在**地点***，基于事件类型特有前缀以及词向量并将词向量填充至事件模板中，则训练后生成的可以是：张三于下午两点时间在商场买衣服，最后的结构化事件可以是：事件关键人：张三；事件发生事件：下午两点；事件发生地点：商场；事件主要信息：买衣服。

请参阅图6，本发明第二实施例提供的一种事件抽取系统1，包括以下模块：

筛选模块11：输入原始文本并判断原始文本中是否包含预设事件类型；

事件生成模块12：获取事件类型特有前缀，基于原始文本、事件类型特有前缀生成事件文本；

处理模块13：对事件文本进行处理以得到最终的结构化事件文本。

可以理解，该事件抽取系统1的模块在运作时，需要利用到实施例一所述的一种事件抽取方法，因此无论将筛选模块11、事件生成模块12、处理模块13予于整合或者配置不同的硬件产生与本发明所实现效果相似的功能，均属于本发明的保护范围内

请参阅图7，本发明第三实施例提供的一种计算机存储介质3，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的事件抽取方法，具有与上述方法相同的有益效果，此处不再赘述。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供给的一种事件抽取方法、系统及计算机可读存储介质具有如下的有益效果：

1.本发明提供的一种事件抽取方法，可以理解地，在实际应用场景中，大量非结构化文本中并不包含用户所关注的事件，现有事件抽取模型在开放环境下往往存在过度抽取问题，若在抽取前不对文本进行过滤，则难以保证模型抽取的准确性，本发明先判断输入的原始文本是否包含有预设事件类型，若包含有再进行事件抽取以提高准确性，其中的事件类型特有前缀相当于对是事件类型建立一个特征以方便区分不同的事件类型，通过再将事件类型特有前缀参数化以方便对其进行自动优化，区别于传统生成式事件抽取方法中人为设计任务提示的方法，类型特有前缀将该设计参数化并且能够通过训练自动优化，从而避免了人为设计会造成事件抽取结果质量不高的问题，同时也减少了认为设计提示带来的工作量；最后再通过对训练数据进行训练即可得到最终的结构化事件。

以上对本发明实施例公开的一种事件抽取方法、系统及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种事件抽取方法，其特征在于：包括以下步骤：

输入原始文本并判断原始文本中是否包含预设事件类型；

对事件文本进行处理以得到最终的结构化事件文本；

预设初始事件类型特有前缀的参数；

通过对参数进行运算得到事件类型的预测概率分布；

基于所述事件类型特有前缀调用预设事件模板；

2.如权利要求1所述的事件抽取方法，其特征在于：输入原始文本并判断原始文本中是否包含预设事件类型的具体步骤为：

输入原始文本；

对原始文本进行语义向量化编码；

取出CLS部分向量，接入全连接层，进行二分类；

判断该原始文本中是否包含预设的事件类型。

3.如权利要求1所述的事件抽取方法，其特征在于：所述事件抽取模型至少包括BART-large预训练语言模型。

4.如权利要求1所述的事件抽取方法，其特征在于：对预设事件模板的填充采用约束解码的方式进行。

5.如权利要求1所述的事件抽取方法，其特征在于：所述事件文本包括事件触发信息、事件参与信息、事件过程信息、事件发生信息其中的一种或多种信息的自然语言。

6.如权利要求1所述的事件抽取方法，其特征在于：对训练数据进行训练以得到最终的结构化事件文本的具体步骤为：

基于每个事件文本生成多个文本序列；

采用Beam Search方式对每个文本序列进行概率预测；

选取预测概率最大的文本序列作为最终结果；

对最终结果进行进一步解析以得到最终的结构化事件。

7.一种事件抽取系统，其特征在于：包括以下模块：

筛选模块：输入原始文本并判断原始文本中是否包含预设事件类型；

预设初始事件类型特有前缀的参数；

通过对参数进行运算得到事件类型的预测概率分布；

基于所述事件类型特有前缀调用预设事件模板；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-6任一项所述的事件抽取方法。