CN115510180A

CN115510180A - 一种面向多领域的复杂事件要素抽取方法

Info

Publication number: CN115510180A
Application number: CN202211206614.6A
Authority: CN
Inventors: 潘磊; 戴礼灿; 廖泓舟; 谢达; 周滨; 高翔; 陈伟晴; 霍志浩
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-23

Abstract

本发明提供一种面向多领域的复杂事件要素抽取方法，属于信息抽取技术领域，解决了传统要素抽取模型应用领域单一，对复杂事件的抽取能力不足的问题；包括要素抽取模型的构建部分和要素抽取模型的应用部分；其中构建部分，根据事件要素标签体系，形成事件要素数据集，使用事件要素数据集，对预训练语言模型进行要素抽取任务的迭代训练，训练完成后即得到要素抽取模型；应用部分，将训练完成的要素抽取模型面向多领域进行应用，对多领域文本语料进行事件检测，得到事件句数据，使用要素抽取模型进行要素抽取工作，对要素抽取工作的结果进行确认后，开展要素抽取模型的增量优化训练；本发明能够实现模型的跨域迁移应用和复杂事件的要素抽取。

Description

一种面向多领域的复杂事件要素抽取方法

技术领域

本发明属于信息抽取技术领域，涉及到序列标注式的事件要素抽取技术，具体为一种面向多领域的复杂事件要素抽取方法。

背景技术

事件抽取是信息抽取中一项重要但具有挑战性的任务。事件作为一种特殊的信息形式，在特定的时间、地点发生，涉及一个或多个参与者，通常可以描述为状态的变化。事件抽取任务旨在将此类事件信息从非结构化纯文本中提取为结构化形式，主要描述现实世界中事件是何时、何地、为什么、如何发生的，及具体发生了什么，谁在其中参与等。在应用方面，事件抽取方便人们检索事件信息和分析人们的行为，常作为信息检索、推荐、智能问答、知识图谱构建和其他应用的上游任务。

传统的事件抽取方法一般以相关领域专家手工编写规则、指定模板匹配等方式实现；随着网络信息的爆炸式增加，传统方法开始无法胜任新的需求，基于统计的机器学习方法、深度学习模型等新的技术应运而生，大幅提高了事件抽取任务的效果。

传统的事件抽取方法中，基于模式匹配的事件抽取方法，一般需要领域专家人工构建规则与模板，这些规则与模板通常会以词典、正则、语法树等形式进行匹配。典型的事件抽取专家系统(如AutoSlog、PALKA)以及后续使用部分统计或学习方法来改善规则的系统(如CRYSTAL、AutoSlog-ST等)都是基于这种形式实现的抽取。基于模式匹配的方法通常包含构建与抽取两个步骤，即事先在语料上发掘出规则，然后将规则应用到新的待抽取文本上进行匹配。基于模式匹配的事件抽取方法虽然时间久远且限制较多，但它有着很好的可解释性，以及对精标注数据的数据量要求不高，即使在近期也有相关研究在推进，如GenPAM等系统。相比于经典的专家系统，这些较新的系统有一定的能力自动从通用语料和领域语料中自动挖掘或生成对应的模式，在一定程度上可以降低人力成本。但一般来说此类方法的准确率依然受限。

由于基于模式匹配的方法通常需要大量人力资源，且效果不佳，特别是在迁移到新的领域数据上时需要重新挖掘模式，因此基于统计机器学习的方法在20世纪后逐渐替代了传统的模式匹配方法。比较典型的统计机器学习方法包括最大熵模型(Maximum EntropyModel)、支持向量机(Support Vector Machine)、条件随机场(Conditional RandomField)等，一般来说此类工作的特点是作者会精心根据数据集和模型选择特征(如POS、bigram等)，并将问题视为分类问题，例如基于最大熵的事件抽取方法以“指示词”、POS、在两个指示词中间的动词等特征进行结合，送入最大熵模型进行分类以得到事件类型。如何选择或构建合适的特征，即特征工程对机器学习方法的效果有着决定性的影响；以及统计机器学习方法通常需要大规模的精标语料库，且容易收到语料类别不均衡、长尾数据等情况的影响；并且难以融入外部的先验知识，因此在近年深度学习技术高速发展的浪潮中逐渐被替代。

在近年来随着算力和数据的共同发展，深度学习在自然语言处理等领域得到了广泛的研究与应用，最新的事件抽取方法大都是基于深度学习模型所构建的。基于深度学习的事件抽取模型五花八门，并随着深度学习模型的发展而提出更多、更新的方法。例如，可以与TextCNN一样使用卷积神经网络(CNN，Convolutional Neural Network)来提取文本的特征，然后送入分类模型进行分类，或进行序列标注；也可以利用长短记忆神经网络(LSTM，Long Short Term Memory networks)的链式网络结构对句子中各个词的上下文关系进行建模，以提升效果。在传统卷积神经网络模型的基础，增加了动态多池机制来提高事件抽取任务的实验效果。这种方式将候选触发词、候选实体按照位置分割为三部分，相比最大池机制能够获取更抽象、深入的特征信息，可以帮助模型提高事件论元的识别和分类。而在传统卷积神经网络的基础上提出的另一种Skip-gram的卷积神经网络模型，能够帮助模型获取非连续短语的特征信息，进而提高事件类型判别的准确性。基于深度学习的事件要素抽取方法的局限之处在于其依赖大量的训练数据，且无论是从全局还是局部来说对文本事件的语义信息挖掘并不充分。

2018年谷歌提出了Transformer大规模预训练语言模型，在自然语言处理领域具有里程碑式意义。其后出现的BERT预训练模型在命名实体识别、文本分类、机器问答等多个任务上与RNN、CNN等深度学习模型相比，表现出了绝对的碾压优势。研究学者也将预训练语言模型用来处理事件要素抽取任务，如2019年提出的基于BERT的两阶段事件抽取模型，首先通过BERT的序列标注方式，对句子中的每个词进行分类，得到各个词能作为某一类触发词的可能性；然后将各个触发词与原句字一同送入论元抽取模型中，对每个词执行二分类，即可得到单个词作为指定触发词论元的概率，通过这种方式解决了一个词同时作为多个事件的论元的重叠(overlap)问题。预训练语言模型采用了自注意力机制，能够更好地捕获字词的语义信息，而且由于自注意力机制的特点可以实现长距离语义关系挖掘。预训练语言模型经过海量的文本数据无监督训练，模型本身已学习到了文本的深层语义信息，在迁移至事件抽取、文本分类、实体识别等任务时，仅需少量的训练语料进行微调即可，降低了模型对海量特定训练数据的要求。

综上所述，事件抽取技术经过多年研究，在开放域和限定域均取得了显著成果，但尚存在以下问题：

1、由于大多数事件要素抽取模型是针对性的解决某一领域问题，模型使用的训练语料便限定了模型的应用方向，在跨领域的事件抽取情况下，导致模型的要素抽取效果较差；

2、现有的多数方法可以很好地解决简单事件句的要素抽取与角色定义，但无法有效解决复杂长事件句的要素抽取，如嵌套的复合事件句、具有共同要素的并列长事件句等。

发明内容

针对现有的事件要素抽取方法所存在的模型迁移能力差、复杂事件的要素抽取不准确、要素抽取缺失问题，本发明公开了一种面向多领域的复杂事件要素抽取方法，通过预训练模型的语义特征挖掘能力、独特事件要素标注方式和人工修正后的模型增量训练，实现模型的跨域迁移应用和能对复杂事件进行准确全面的要素抽取的特点。

本发明采用了以下技术方案来实现目的：

一种面向多领域的复杂事件要素抽取方法，包括要素抽取模型的构建部分和要素抽取模型的应用部分；

所述要素抽取模型的构建部分，根据事件要素标签体系，形成事件要素数据集，使用所述事件要素数据集，对预训练语言模型进行要素抽取任务的迭代训练，训练完成后即得到所述要素抽取模型；

所述要素抽取模型的应用部分，将训练完成的要素抽取模型面向多领域进行应用，对多领域文本语料进行事件检测，得到事件句数据，使用所述要素抽取模型对所述事件句数据进行要素抽取工作，对要素抽取工作的结果进行确认后，开展所述要素抽取模型的增量优化训练。

进一步的，所述要素抽取模型为复杂事件要素抽取模型，所述复杂事件要素抽取模型的构建过程具体包括如下步骤：

S1、建立事件要素标签体系；

S2、获取复杂事件句数据集；

S3、依据事件要素标签体系，对复杂事件句数据集进行人工标注，形成复杂事件要素数据集；

S4、使用复杂事件要素数据集，对预训练语言模型进行训练，得出最优要素抽取模型；

S5、测试最优要素抽取模型的抽取结果准确率，当准确率满足指标要求后，即获得训练完成的要素抽取模型，完成复杂事件要素抽取模型的构建。

进一步的，所述步骤S1中，对事件要素标签体系的建立，通过参考序列标注任务的BIO标签定义方法，定义复杂事件句中存在的各类要素部分；

所述要素部分包括共有要素部分和多个子事件要素部分；所述共有要素部分包括共同主体、共同客体、共同时间、共同地点和共同触发词，所述子事件要素部分包括子事件主体、子事件客体、子事件事件、子事件地点和子事件触发词，其中对于多个子事件，所述子事件要素部分采用相同的序号对要素组成进行统一编号。

具体的，所述复杂事件要素抽取模型的构建过程的步骤S3中，进行人工标注，具体为：根据所述事件要素标签体系，对所述复杂事件句数据集中的每一个复杂事件句中的每一个要素，以人工方式标为共有要素部分或子事件要素部分，从而最终形成所述复杂事件要素数据集。

进一步的，所述步骤S4中，复杂事件要素数据集被划分为训练集、验证集和测试集；通过所述训练集对所述预训练语言模型进行训练，通过所述验证集从训练后的预训练语言模型中选出最优要素抽取模型；所述步骤S5中，通过所述测试集对所述最优要素抽取模型进行准确率测试。

进一步的，所述步骤S4中，通过所述训练集对所述预训练语言模型进行训练，具体包括如下步骤：

S4-1、将训练集中的人工标注前的复杂事件句数据集分割成多个特定大小的事件数据组；

S4-2、将一个事件数据组输入RoBERTa模型中，获得此事件数据组中每个事件句的语义特征向量矩阵；

S4-3、将语义特征向量矩阵输入线性分类器，获得每个事件句中每个要素所对应的要素标签概率，形成要素标签概率矩阵；

S4-4、将要素标签概率矩阵输入CRF模型，获得此事件数据组中每个事件句中每个要素所对应的要素标签；

S4-5、对要素标签与人工标注后的真实标签计算对数似然比损失，若损失值小于预设阈值，则判断当前事件数据组训练是否完成；

S4-6、当前事件组数据训练完成后，判断所有事件数据组训练是否完成，若没有完成，则更换下一组事件数据组，进行从步骤S4-2开始的操作；若判断所有事件数据组训练完成，则得到训练后的预训练语言模型。

具体的，所述步骤S4-5中，若损失值大于预设阈值，则通过反向传播迭代当前事件组数据，进行从步骤S4-2开始的操作，直至得到损失值小于预设阈值的结果。

具体的，通过所述测试集对所述最优要素抽取模型进行准确率测试，将准确率值记为F1值，准确率的指标要求值为85％，当准确率测试结果的F1值达到指标要求值后，得到训练完成的复杂事件要素抽取模型，实现复杂事件要素抽取模型的构建，并将所述复杂事件要素抽取模型面向多领域进行应用。

进一步的，在准确率测试过程中，若准确率测试结果的F1值未达到指标要求值，则对所述最优要素抽取模型进行人工修正后，对其开展与预训练语言模型相同训练过程的增量训练。

进一步的，使用训练完成的要素抽取模型面向多领域进行应用时，对不同领域的要素抽取工作的结果进行人工检查确认，修正不正确的要素结果，并将相应结果反馈至要素抽取模型的构建部分，依据该领域文本语料，对要素抽取模型开展增量优化训练过程，获得针对该领域优化更新后具有实际应用价值的要素抽取模型。

综上所述，由于采用了本技术方案，本发明的有益效果如下：

针对现有要素抽取方法在复杂事件要素抽取不准确、要素有缺失等方面的问题，本发明提出了序列标注式思路的复杂事件要素抽取方法，通过模型训练，能够有效实现嵌套事件句、复合长事件句等复杂句的要素准确定位与抽取，同时可完成复杂句中子事件句缺失要素的补充与完善，从而有力支撑后续的事件分析任务。

针对现有要素抽取模型跨领域迁移应用难、效率低等问题，本发明通过模型训练，建立了面向多领域的复杂事件要素抽取框架，通过序列标注式的事件要素标签体系定义方法，形成了通用性好、鲁棒性强的要素抽取机制，能够有效弥补不同领域间的鸿沟；同时，本发明建立了人工反馈修正与模型增量训练的搭配机制，可以使模型边用边更新，快速实现跨领域迁移应用，因此只要是有关文本事件要素抽取的工作内容，本发明都是可有效胜任的。

附图说明

图1为本发明的方法原理流程示意图；

图2为参考序列标注任务的BIO标签定义体系详情示意图；

图3为人工方式标注形成复杂事件要素标签体系的示意图；

图4为复杂事件要素抽取模型的训练流程示意图；

图5为面向多领域的复杂事件要素抽取模型的实际应用示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以按各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种面向多领域的复杂事件要素抽取方法，包括要素抽取模型的构建部分和要素抽取模型的应用部分；

要素抽取模型的构建部分，根据事件要素标签体系，形成事件要素数据集，使用事件要素数据集，对预训练语言模型进行要素抽取任务的迭代训练，训练完成后即得到要素抽取模型；

要素抽取模型的应用部分，将训练完成的要素抽取模型面向多领域进行应用，对多领域文本语料进行事件检测，得到事件句数据，使用要素抽取模型对事件句数据进行要素抽取工作，对要素抽取工作的结果进行确认后，开展要素抽取模型的增量优化训练。

本实施例中，要素抽取模型将以复杂事件为抽取对象，因此该模型为复杂事件要素抽取模型，其构建过程可具体包括如下步骤：

S1、建立事件要素标签体系；

S2、获取复杂事件句数据集；

具体而言，本实施例中，步骤S1对事件要素标签体系的建立，请参看图2，通过参考序列标注任务的BIO标签定义方法，定义复杂事件句中存在的各类要素部分；考虑到事件句的复杂性，要素部分将包括共有要素部分和多个子事件要素部分。

定义复杂事件句中的共有要素部分，例如共同主体(B_sub_c、I_sub_c)、共同客体(B_obj_c、I_obj_c)、共同时间(B_tim_c、I_tim_c)、共同地点(B_loc_c、I_loc_c)和共同触发词(B_trig_c、I_trig_c)；

定义复杂事件句中的子事件要素部分，对于多个子事件，子事件要素部分采用相同的序号对要素组成进行统一编号；例如事件1主体(B_sub_0、I_sub_0)、事件1客体(B_obj_0、I_obj_0)、事件1地点(B_loc_0、I_loc_0)和事件1触发词(B_trig_0、I_trig_0)，事件2主体(B_sub_1、I_sub_1)、事件2客体(B_obj_1、I_obj_1)、事件2地点(B_loc_1、I_loc_1)和事件2触发词(B_trig_1、I_trig_1)等，以此类推。

如图3所示，复杂事件要素抽取模型的构建过程的步骤S3中，进行人工标注，具体为：根据事件要素标签体系，对复杂事件句数据集中的每一个复杂事件句中的每一个要素，以人工方式标为共有要素部分或子事件要素部分，从而最终形成复杂事件要素数据集。

针对图3中的例句，将其中的共有要素部分和子事件要素部分分别标注相应的要素标签，从而得到可用于后续模型训练过程中进行计算对数似然比损失计算所需的真实标签。

紧接着，本实施例中所述的步骤S4中，复杂事件要素数据集将被划分为训练集、验证集和测试集；通过训练集对预训练语言模型进行训练，通过验证集从训练后的预训练语言模型中选出最优要素抽取模型；并在步骤S5中，通过测试集对最优要素抽取模型进行准确率测试。

如图4所示，步骤S4中使用训练集对预训练语言模型进行训练，具体细分为如下步骤：

S4-3、将语义特征向量矩阵输入线性分类器，获得每个事件句中每个要素所对应的要素标签概率，形成要素标签概率矩阵；本实施例中，线性分类器采用Sigmoid线性分类器；

其中，步骤S4-5中，若损失值大于预设阈值，则通过反向传播迭代当前事件组数据，进行从步骤S4-2开始的操作，直至得到损失值小于预设阈值的结果；若在判断时当前事件数据组训练未完成，则也继续迭代直至完成当前训练阶段。

前述步骤S5最终通过测试集对最优要素抽取模型进行准确率测试，将准确率值记为F1值，准确率的指标要求值为85％，当准确率测试结果的F1值达到指标要求值后，得到训练完成的复杂事件要素抽取模型，实现复杂事件要素抽取模型的构建，并将复杂事件要素抽取模型面向多领域进行应用，具体可参看图1示意。

本实施例中，在准确率测试过程中，若准确率测试结果的F1值未达到指标要求值，则对最优要素抽取模型进行人工修正后，对其开展与预训练语言模型相同训练过程的增量训练。

最后，使用训练完成的要素抽取模型面向多领域进行应用时，对不同领域的要素抽取工作的结果进行人工检查确认，修正不正确的要素结果，并将相应结果反馈至要素抽取模型的构建部分，依据该领域文本语料，对要素抽取模型开展增量优化训练过程，从而获得针对该领域优化更新后具有实际应用价值的要素抽取模型。

可参看图5，本实施例所示复杂事件要素采集方法，可面向多领域进行复杂事件要素抽取工作，基于RoBERTa模型和CRF条件随机场模型组成的最优要素抽取模型，不同领域的复杂事件句通过模型获得事件句要素标签，通过标签映射，获得最终的事件要素抽取结果，从而实现复杂事件要素抽取模型的构建和应用。在不同领域中进行应用时，事件要素抽取结果经过人工检查确认，修正不正确的要素结果并反馈给模型训练构建部分，增量优化训练要素抽取模型，实现复杂事件要素抽取模型的边用边更新，整体上更快速的实现跨领域迁移的应用能力，所需的计算训练量相对较小，并能实现复杂事件句的要素抽取。

Claims

1.一种面向多领域的复杂事件要素抽取方法，其特征在于：包括要素抽取模型的构建部分和要素抽取模型的应用部分；

2.根据权利要求1所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：所述要素抽取模型为复杂事件要素抽取模型，所述复杂事件要素抽取模型的构建过程具体包括如下步骤：

S1、建立事件要素标签体系；

S2、获取复杂事件句数据集；

3.根据权利要求2所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：所述步骤S1中，对事件要素标签体系的建立，通过参考序列标注任务的BIO标签定义方法，定义复杂事件句中存在的各类要素部分；

4.根据权利要求3所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：所述复杂事件要素抽取模型的构建过程的步骤S3中，进行人工标注，具体为：根据所述事件要素标签体系，对所述复杂事件句数据集中的每一个复杂事件句中的每一个要素，以人工方式标为共有要素部分或子事件要素部分，从而最终形成所述复杂事件要素数据集。

5.根据权利要求2所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：所述步骤S4中，复杂事件要素数据集被划分为训练集、验证集和测试集；通过所述训练集对所述预训练语言模型进行训练，通过所述验证集从训练后的预训练语言模型中选出最优要素抽取模型；所述步骤S5中，通过所述测试集对所述最优要素抽取模型进行准确率测试。

6.根据权利要求5所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：所述步骤S4中，通过所述训练集对所述预训练语言模型进行训练，具体包括如下步骤：

7.根据权利要求6所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：所述步骤S4-5中，若损失值大于预设阈值，则通过反向传播迭代当前事件组数据，进行从步骤S4-2开始的操作，直至得到损失值小于预设阈值的结果。

8.根据权利要求5所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：通过所述测试集对所述最优要素抽取模型进行准确率测试，将准确率值记为F1值，准确率的指标要求值为85％，当准确率测试结果的F1值达到指标要求值后，得到训练完成的复杂事件要素抽取模型，实现复杂事件要素抽取模型的构建，并将所述复杂事件要素抽取模型面向多领域进行应用。

9.根据权利要求8所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：在准确率测试过程中，若准确率测试结果的F1值未达到指标要求值，则对所述最优要素抽取模型进行人工修正后，对其开展与预训练语言模型相同训练过程的增量训练。

10.根据权利要求1所述的一种面向多领域的复杂事件要素抽取方法，其特征在于：使用训练完成的要素抽取模型面向多领域进行应用时，对不同领域的要素抽取工作的结果进行人工检查确认，修正不正确的要素结果，并将相应结果反馈至要素抽取模型的构建部分，依据该领域文本语料，对要素抽取模型开展增量优化训练过程，获得针对该领域优化更新后具有实际应用价值的要素抽取模型。