CN114490953B

CN114490953B - 训练事件抽取模型的方法、事件抽取的方法、装置及介质

Info

Publication number: CN114490953B
Application number: CN202210401413.5A
Authority: CN
Inventors: 王宇; 赵文; 李皓辰; 孙永荻; 冯添
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-19
Anticipated expiration: 2042-04-18
Also published as: CN114490953A

Abstract

本申请实施例提供了训练事件抽取模型、事件抽取的方法和目标事件抽取模型，该方法包括：对目标事件抽取模型的第i次训练过程包括如下步骤：根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码；将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码；基于所述融合论元角色编码对事件检测模块进行训练，以及基于所述融合训练文本编码对论元分类模块进行训练；其中，i为大于或等于1的整数。通过本申请的一些实施例能够实现无需使用触发词即可实现事件抽取任务，同时能够提高事件抽取任务的准确率。

Description

训练事件抽取模型的方法、事件抽取的方法、装置及介质

技术领域

本申请实施例涉及自然语言处理领域，具体涉及训练事件抽取模型、事件抽取的方法和目标事件抽取模型。

背景技术

相关技术中，事件抽取任务是信息提取过程中的重要任务之一，通常执行事件抽取任务的算法需要先识别触发词，之后再基于触发词进行事件抽取。但是，在许多文本中，事件触发词存在难以识别或者存在歧义的情况，因此，一旦触发词识别不准确则导致最终的事件抽取准确率降低。

因此，如何提高事件抽取的准确率成为需要解决的问题。

发明内容

本申请实施例提供训练事件抽取模型、事件抽取的方法和目标事件抽取模型，通过本申请的一些实施例至少能够实现无需使用触发词即可完成事件抽取任务，从而能够提高事件抽取的准确率。

第一方面，本申请提供了一种训练事件抽取模型的方法，所述事件抽取模型包括事件检测模块和论元分类模块，对所述事件抽取模型的第i次训练过程包括如下步骤：根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码；将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码；至少基于所述融合论元角色编码对事件检测模块进行训练，以及至少基于所述融合训练文本编码对论元分类模块进行训练；其中，i为大于或等于1的整数。

因此，本申请实施例通过标签语义特征（即所有实体标签）和注意力机制，能够实现无需触发词即可执行事件抽取任务，并且能够通过编码融合提升事件抽取任务的准确率。

结合第一方面，在本申请的一些实施例中，所述将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码，包括：通过所述注意力机制模块使所述所有论元角色编码学习所述目标训练文本编码中的特征，获得所述融合论元角色编码；以及使所述目标训练文本编码学习所述所有论元角色编码中的特征，获得所述融合训练文本编码。

因此，本申请实施例通过双通道注意力机制，模拟论元角色编码与目标训练文本编码之间的交互，能够在使用融合训练文本编码进行论元分类和使用融合论元角色编码进行事件检测的过程中，提升运行速度和事件抽取的准确率。

结合第一方面，在本申请的一些实施例中，所述根据所有实体标签获取目标训练文本编码，包括：获取训练文本，并且对所述训练文本进行编码获得训练文本编码，其中，所述训练文本编码由多个字段特征组成；根据所述训练文本编码和所述所有实体标签，获取与所述多个字段特征相对应的多个实体标签编码；将所述多个字段特征分别与相对应的实体标签编码进行加和计算，获得所述目标训练文本编码。

因此，本申请实施例通过将多个字段特征与相对应的实体标签编码进行加和计算的方式，使多个字段特征学习到相对应的实体标签编码的特征，从而能够在后续事件抽取的过程中，提升运行速度和准确率。

结合第一方面，在本申请的一些实施例中，在所述根据标签语义编码模块获取目标训练文本编码和所有论元角色编码之前，所述方法还包括：获取多个事件类型描述语句；提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签；对所述所有事件类型、所有论元角色和所述所有实体标签进行编码，获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码；其中，所述至少基于所述融合论元角色编码对所述事件检测模块进行训练，包括：基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练；所述根据所述训练文本编码和所述所有实体标签，获取与所述多个字段特征相对应的多个实体标签编码，包括：根据所述训练文本编码和所述所有实体标签编码，获取与所述多个字段特征相对应的多个实体标签编码。

因此，本申请实施例通过对所有事件类型等进行编码，能够预先在训练模型之前，将输入该模型的所有事件类型编码、所有论元角色编码和所有实体标签编码准备完成，能够节省运算时间，提升运算速度。

结合第一方面，在本申请的一些实施例中，所述基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练，包括：基于所述所有事件类型编码和所述融合论元角色编码，进行事件类型抽取，获得事件类型抽取结果；将所述事件类型抽取结果与正确事件抽取结果相比较，获得事件类型抽取准确率；根据所述事件类型抽取准确率调整所述事件检测模块的参数，其中，在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。

因此，本申请实施例通过融合论元角色编码对事件检测模块进行训练，能够增强事件检测模块的分类能力，提升事件类型抽取的准确率。

结合第一方面，在本申请的一些实施例中，所述基于所述融合训练文本编码对论元分类模块进行训练，包括：获取所述融合训练文本编码；基于所述融合训练文本编码，进行论元角色抽取，获得论元角色抽取结果；将所述论元角色抽取结果与正确论元抽取结果相比较，获得论元角色抽取准确率；根据所述论元角色抽取准确率调整所述论元分类模块的参数，其中，在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标论元分类模块。

因此，本申请实施例通过融合训练文本编码对论元分类模块进行训练，能够增强论元分类模块的分类能力，提升论元角色抽取的准确率。

第二方面，本申请提供了一种训练事件抽取模型的装置，所述装置包括:编码获取模块，被配置为根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码；编码融合模块，被配置为将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码；分类训练模块，被配置为至少基于所述融合论元角色编码对事件检测模块进行训练，以及至少基于所述融合训练文本编码对论元分类模块进行训练。

结合第二方面，在本申请的一些实施例中，所述编码融合模块还被配置为：通过所述注意力机制模块使所述所有论元角色编码学习所述目标训练文本编码中的特征，获得所述融合论元角色编码；以及使所述目标训练文本编码学习所述所有论元角色编码中的特征，获得所述融合训练文本编码。

结合第二方面，在本申请的一些实施例中，所述编码获取模块还被配置为：获取训练文本，并且对所述训练文本进行编码获得训练文本编码，其中，所述训练文本编码由多个字段特征组成；根据所述训练文本编码和所述所有实体标签，获取与所述多个字段特征相对应的多个实体标签；将所述多个字段特征分别与相对应的实体标签进行加和计算，获得所述目标训练文本编码。

结合第二方面，在本申请的一些实施例中，所述编码获取模块还被配置为：获取多个事件类型描述语句；提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签；对所述所有事件类型、所有论元角色和所述所有实体标签进行编码，获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码；基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练；根据所述训练文本编码和所述所有实体标签编码，获取与所述多个字段特征相对应的多个实体标签编码。

结合第二方面，在本申请的一些实施例中，所述分类训练模块还被配置为：获取所有事件类型编码和所述融合论元角色编码；基于所述所有事件类型编码和所述融合论元角色编码，进行事件类型抽取，获得事件类型抽取结果；将所述事件类型抽取结果与正确事件抽取结果相比较，获得事件类型抽取准确率；根据所述事件类型抽取准确率调整所述事件检测模块的参数，其中，在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。

结合第二方面，在本申请的一些实施例中，所述分类训练模块还被配置为：获取所述融合训练文本编码；基于所述融合训练文本编码，进行论元角色抽取，获得论元角色抽取结果；将所述论元角色抽取结果与正确论元抽取结果相比较，获得论元角色抽取准确率；根据所述论元角色抽取准确率调整所述论元分类模块的参数，其中，在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标事件抽取模块。

第三方面，本申请实施例提供了一种目标事件抽取模型，所述目标事件抽取模型包括：文本编码模块，被配置为：获取待抽取文本，并且对所述待抽取文本进行编码获得待抽取文本编码，其中，所述待抽取文本编码由多个字段特征组成；根据所述待抽取文本编码，获取与所述多个字段特征相对应的多个实体标签；将所述多个字段特征分别与相对应的实体标签进行加和计算，获得所述目标文本编码；注意力机制模块，被配置为：将所述目标文本编码和所有论元角色编码进行融合，获得融合论元角色编码和融合目标文本编码；目标事件抽取模块，被配置为：基于所述融合论元角色编码进行事件类型抽取，获得事件类型抽取结果；目标论元分类模块，被配置为：基于所述融合目标文本编码进行论元角色抽取，获得论元角色抽取结果。

结合第三方面，在本申请的一些实施例中，所述注意力机制模块，还被配置为：使所述所有论元角色编码学习所述目标文本编码中的特征，获得所述融合论元角色编码；以及使所述目标文本编码学习所述所有论元角色编码中的特征，获得所述融合目标文本编码。

因此，本申请实施例中通过注意力计算的方式，使所有论元角色编码学习目标文本编码的特征，以及使目标文本编码学习所有论元角色编码的特征，能够在事件分类和论元分类的过程中携带论元角色的编码，从而提升事件抽取的准确率。

结合第三方面，在本申请的一些实施例中，所述目标事件抽取模型还包括标签语义编码模块；所述标签语义编码模块，被配置为：获取多个事件类型描述语句；提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签；对所述所有事件类型、所有论元角色和所述所有实体标签进行编码，获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码。

因此，本申请实施例通过标签语义编码模块，能够预先在使用目标事件抽取模块之前将输入该模块的所有事件类型编码、所有论元角色编码和所有实体标签编码准备完成，能够节省运算时间，提升运算速度。

第四方面，本申请实施例提供了一种事件抽取的方法，所述方法包括：获取待抽取文本；将所述待抽取文本输入到通过第一方面任意实施例所述的方法训练获得目标事件抽取模型中，获得事件类型抽取结果和论元角色抽取结果。

第五方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线；所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如第一方面任意实施例所述方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被执行时实现如第一方面任意实施例所述方法。

附图说明

图1为本申请实施例示出的一种事件抽取的场景组成示意图；

图2为本申请实施例示出的目标事件抽取模型的结构图之一；

图3为本申请实施例示出的目标事件抽取模型的结构图之二；

图4为本申请实施例示出的一种事件抽取的方法流程图；

图5为本申请实施例示出的一种事件抽取的装置组成框图；

图6为本申请实施例示出的一种电子设备组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护范围。

事件抽取任务分为事件类型抽取和论元角色抽取两个任务。事件类型抽取是从文本中寻找包含事件的句子，并且将其分类至预定于的事件类型中。论元角色抽取是从文本中抽取出事件中的元素（例如，参与者、时间、地点等重要元素）。

本申请实施例可以应用于对待抽取文本进行事件抽取（例如，事件类型抽取和论元角色抽取）的场景。为了改善背景技术中的问题，在本申请的一些实施例中，通过注意力机制使待抽取文本所对应的编码中包括学习事件类型、论元角色和实体标签的特征，从而实现事件抽取。例如，在本申请的一些实施例中，电子设备至少被配置为：将目标训练文本编码和所有论元角色编码进行融合，获得融合论元角色编码和融合训练文本编码，之后根据融合论元角色编码和融合训练文本编码分别进行事件抽取，获得事件类型抽取结果和论元角色抽取结果。通过本申请实施例能够实现无需使用触发词即可实现事件抽取任务，同时能够提高事件抽取任务的准确率。

下面结合附图详细描述本申请实施例中的方法步骤。

图1提供了本申请一些实施例中的事件抽取场景的组成示意图，该场景包括用户110、客户端120和服务器130。具体的，用户110在客户端120中的输入界面中输入待抽取文本，客户端120在接收到待抽取文本后，由于客户端120的算力限制，因此将待抽取文本发送至服务器130，服务器130在接收到待抽取文本后，对待抽取文本进行事件抽取，获得事件类型抽取结果和论元角色抽取结果，之后服务器130将该事件类型抽取结果和论元角色抽取结果返回至客户端120进行显示。

与本申请实施例不同的是相关技术中，通常执行事件抽取任务的算法需要先识别触发词，之后再基于触发词进行事件抽取。但是，在许多文本中，事件触发词存在难以识别或者存在歧义的情况，因此，一旦触发词识别不准确则导致最终的事件抽取准确率降低。而本申请的实施例是通过将目标文本编码（目标文本编码是根据实体标签和待抽取文本获得的）与所有论元角色编码进行融合之后，再进行事件抽取，因此，本申请的实施例并不需要像相关技术中需要触发词进行事件抽取。

下文将示例性的描述本申请一些实施例提供的目标事件抽取模型。

如图2所示，事件抽取模型（或者目标事件抽取模型）包括：文本编码模块220、注意力机制模块230、目标事件抽取模块240和目标论元分类模块250。

需要说明的是，事件抽取模型的输入包括：输入到文本编码模块220的所有实体标签编码和用户输入的待抽取文本（包括训练过程的待抽取文本以及实际应用过程中的待抽取文本）；输入到注意力机制模块230的所有论元角色编码；输入到目标事件抽取模块240的所有事件类型编码。其中，所有实体标签编码、所有论元角色编码和所有事件类型编码的获取方式有两种：

在本申请的一种实施方式中，如图3所示，目标事件抽取模型还包括标签语义编码模块310，由标签语义编码模块生成上述所有实体标签编码、所有论元角色编码和所有事件类型编码。具体的，首先，获取多个事件类型描述语句。然后，提取多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签。最后，对所有事件类型、所有论元角色和所有实体标签进行编码，获得所有事件类型编码、所有论元角色编码和所有实体标签编码（例如，如图3所示，经过BERT模型编码获得所有事件类型编码、所有论元角色编码和所有实体标签编码）。其中，在一种具体的实施例中，所有论元角色320包括论元-B1、论元-B2、论元-B3和论元-B4。

在本申请的另一种实施方式中，在使用目标事件抽取模型之前，在数据库中已经保存了所有事件类型编码、所有论元角色编码和所有实体标签编码。在使用目标事件抽取模型时，直接从数据库中读取。

例如，本申请实施例通过标签语义编码模块，能够预先在使用目标事件抽取模型之前生成输入该模型的所有事件类型编码、所有论元角色编码和所有实体标签编码。

在本申请的一些实施例根据标签语义编码模块输出的所有事件类型编码、所有论元角色编码和所有实体标签编码进行时间抽取的过程包括：

如图2所示，在本申请的一些实施例中，目标事件抽取模型中的各模块所对应的实施方式，如下所示：

文本编码模块220被配置为：

文本编码模块220在获取得到待抽取文本之后，首先，使用相关技术中的预训练语言表征模型（Bidirectional Encoder Representation from Transformers，BERT）对待抽取文本进行编码，获得待抽取文本编码。可以理解的是，待抽取文本编码是由与待抽取文本相对应的多个字段的特征编码组成。

然后，文本编码模块220获取所有实体标签编码。提取多个字段的特征编码相对应的多个实体标签，之后在所有实体标签编码中找到与多个实体标签相对应的编码，获得多个实体标签编码。

最后，将多个实体标签编码与相对应的多个字段特征分别进行加和，获得目标文本编码。

例如，如图3所示，输入待抽取文本所对应的字段（即A1、A2、A3、A4、A5和A6），之后经过BERT模型编码，抽取多个字段的特征编码相对应的多个实体标签编码，再将多个实体标签编码与相对应的多个字段特征分别进行加和，获得目标文本编码Seq。

例如，待抽取文本为“小张下午2点在会议室开会”，则多个字段分别为“小张”、“下午2点”、“在会议室”和“开会”，与多个字段相对应的多个实体标签分别为人物、时间、地点和动作，之后在所有实体标签编码中查找到与上述多个实体标签相对应的编码，获得多个实体标签编码（即人物的编码、时间的编码、地点的编码和动作的编码）。

注意力机制模块230被配置为：

将目标文本编码和所有论元角色编码进行融合，获得融合论元角色编码和融合目标文本编码。

也就是说，将所有论元角色编码和在文本编码模块220得到的目标文本编码输入到注意力机制模块230中。注意力机制模块230使所有论元角色编码学习目标文本编码的特征，获取与所有论元角色的维度相同的融合论元角色编码；使目标文本编码学习所有论元角色编码的特征，获得与所目标文本编码的维度相同的融合目标文本编码。

例如，如图3所示，将所有论元角色编码和目标文本编码输入到注意力机制模块230中，获得融合论元角色编码和融合目标文本编码。

例如，输入的所有论元角色编码的维度为20，则输出的融合论元角色编码的维度也为20。输入的目标文本编码的维度为30，则输出的融合目标文本编码的维度也为30。

目标事件抽取模块240，被配置为：获取注意力机制模块230输出的融合论元角色编码，并且获取所有事件类型编码。之后将融合论元角色编码比对所有事件类型编码进行事件抽取操作，获得事件类型抽取结果。

作为本申请一具体实施例，如图3所示，将融合论元角色编码（即D1、D2、D3和D4）比对所有事件类型编码进行事件抽取操作，经过事件分类层，获得事件类型抽取结果，其中，使用1表示存在该事件类型，使用0表示不存在该事件类型。例如，存在天气预告事件、不存在教育事件以及不存在结婚事件。

需要说明的是，目标事件抽取模块240中使用的神经网络是本领域技术人员公知的网络，例如：全连接Softmax分类器，在此不再赘述。

目标论元分类模块250，被配置为：获取注意力机制模块230输出的融合目标文本编码，之后对融合目标文本编码进行论元角色的抽取，获得论元角色抽取结果。

作为本申请一具体实施例，如图3所示，将融合目标文本编码输入到目标论元分类模块250中，即将融合目标文本编码对应的多个向量（即C1、C2、C3、C4、C5和C6）输入到论元分类模块250包括的论元分类层中，输出表征论元是否存在的向量。

需要说明的是，论元分类模块250中使用的神经网络是本领域技术人员公知的网络，例如：全连接Softmax分类器，在此不再赘述。

上文描述了本申请一些实施例所采用的事件抽取模型的架构，下文将以一次训练过程（以第i次为例）示例性阐述由服务器执行的对事件抽取模型训练方法。

在本申请的一些实施例中，如图4所示，对目标事件抽取模型的第i次训练过程包括如下步骤：

S410，根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码。

在本申请的一种实施方式中，在S410之前还包括：获取所有事件类型编码、所有论元角色编码和所有实体标签编码。具体步骤如下所示：

步骤一：获取多个事件类型描述语句。

也就是说，获取包含有事件类型、论元角色和实体标签的定义或描述的多个句子，其中，以句子Q为例，由如下表达式（1）进行表示：

（1）

其中，Q表示多个句子中包括的句子Q，

表示能够表征句子Q整体语义的特征向量，

表示句子Q中被分割的各字段，

表示与其他句子的分隔符。

步骤二：提取多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签。

也就是说，在获取多个事件类型的描述语句之后，将多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签分离出来，并且按照类别归类。

步骤三：对所有事件类型、所有论元角色和所有实体标签进行编码，获得所有事件类型编码、所有论元角色编码和所有实体标签编码。

也就是说，通过BERT模型对所有事件类型、所有论元角色和所有实体标签进行编码，以对所有事件类型进行编码为例，编码过程通过如下表达式（2）进行表示：

（2）

其中

表示第

个事件类型编码，

表示所有事件类型的总数，

表示所有事件类型编码的向量维度。可以理解的是，向量维度由使用的BERT模型而决定，通常为768维，

表示多个句子中的任意一个句子。

在本申请的一种实施方式中，S410包括：将所有实体标签编码与训练文本进行融合，获得目标训练文本编码，具体步骤如下所示：

步骤一：获取训练文本，并且对训练文本进行编码获得训练文本编码，其中，训练文本编码由多个字段特征组成。

也就是说，获取的训练文本中包括多个句子，以句子S为例，句子

，其中

表示句子S包括的n个字段，使用BERT模型对句子S进行编码，获得训练文本编码，编码过程由如下表达式（3）进行表示：

（3）

其中，E表示句子S的训练文本编码，

表示句子S中的任意一个字段所对应的特征，n表示句子S中多个字段的个数，

表示训练文本编码的维度，由使用的BERT模型而决定，通常为768维。

句子

中的n个字段所对应的编码由如下表达式（4）进行表示：

（4）

其中，E表示句子S的训练文本编码，

表示句子S中的n个字段所对应的编码。

步骤二：根据训练文本编码，获取与多个字段特征相对应的多个实体标签编码。

也就是说，在获得训练文本编码后，提取训练文本中的多个字段特征中各字段特征对应的实体标签。之后，获取S410中生成的所有实体标签编码，并且在所有实体标签编码中寻找与各字段特征对应的实体标签，获得各字段特征对应的实体标签编码。

以句子S为例，句子S中每个字段

对应一个实体标签，例如，“北京市”对应的实体标签为地区。若句子S中的多个字段分别为：北京市、4点和召开会议，则句子S多个字段特征中各字段特征对应的实体标签为：地区、时间和动作，之后在所有实体标签编码中查找到与地区、时间和动作相对应的编码，即为与多个字段特征相对应的多个实体标签编码。

可以理解的是，提取文本中的实体标签是本领域人员根据开源程序能够获得的，本申请实施例中不对提取文本中的实体标签的方法进行限制。

步骤三：将多个字段特征分别与相对应的实体标签编码进行加和计算，获得目标训练文本编码。

也就是说，将在步骤一获得的多个字段特征分别与步骤二中获得的相对应的实体标签编码进行加和，获得目标训练文本编码。

以句子S为例，与句子S对应的目标训练文本编码由如下表达式（5）进行表示：

（5）

其中，

表示与句子S对应的目标训练文本编码，

表示任意一个与实体标签相对应的语义特征编码，

表示目标训练文本编码的维度，由使用的BERT模型而决定，通常为768维。

S420，将目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码。

也就是说，与相关技术不同的是，本申请实施例中的注意力机制模块采用的是双通道的注意力层来执行句子级的事件检测任务和词级别的参数提取任务。

在本申请的一种实施方式中，S420包括：

步骤一：使所有论元角色编码学习目标训练文本编码中的特征，获得融合论元角色编码。

也就是说，步骤一使用的是双通道中的其中一个，获得的融合论元角色编码用于进行事件类型检测。通过计算注意力机制计算的方式使所有论元角色编码学习目标训练文本编码中的特征。

具体的，获取所有论元角色编码和目标训练文本编码，将所有论元角色编码作为查询，将目标训练文本编码作为键和值。为增大参数量，引入参数矩阵

、

和

，之后将参数矩阵与所有论元角色编码和目标训练文本编码相乘，由如下表达式（6-8）所示：

（6）

（7）

（8）

其中，

表示查询矩阵，

表示所有论元角色编码，

表示查询参数矩阵，

表示所有论元角色编码中包括的论元角色的个数，

表示参数矩阵的维度，

表示键的矩阵，

表示目标训练文本编码，

表示键的参数矩阵，n表示目标训练文本编码中的字段个数，

表示值的矩阵，

表示值的参数矩阵，

表示目标训练文本编码的维度。

之后，将查询矩阵

、键的矩阵

和值的矩阵

输入到softmax函数中进行计算，获得融合论元角色编码，如表达式（9）所示：

（9）

其中，

表示融合论元角色编码，

表示查询矩阵，

表示键的矩阵，

表示值的矩阵，

表示参数矩阵的维度，

表示所有论元角色编码中包括的论元角色的个数，

表示目标训练文本编码的维度。

步骤二：使目标训练文本编码学习所有论元角色编码中的特征，获得融合训练文本编码。

也就是说，步骤二使用的是双通道中的另一个通道，获得的融合训练文本编码用于进行论元分类任务。通过计算注意力机制计算的方式使目标训练文本编码学习所有论元角色编码中的特征。

具体的，获取所有论元角色编码和目标训练文本编码，将目标训练文本编码作为查询，将所有论元角色编码作为键和值。为增大参数量，引入参数矩阵

、

和

，之后将参数矩阵与所有论元角色编码和目标训练文本编码相乘，由如下表达式（10-12）所示：

（10）

（11）

（12）

其中，

表示查询矩阵，

表示所有论元角色编码，

表示查询参数矩阵，

表示所有论元角色编码中包括的论元角色的个数，

表示参数矩阵的维度，

表示键的矩阵，

表示目标训练文本编码，

表示键的参数矩阵，n表示目标训练文本编码中的字段个数，

表示值的矩阵，

表示值的参数矩阵，

表示目标训练文本编码的维度。

之后，将查询矩阵

、键的矩阵

和值的矩阵

输入到softmax函数中进行计算，获得融合论元角色编码，如表达式（13）所示：

（13）

其中，

表示融合训练文本编码，

表示查询矩阵，

表示键的矩阵，

表示值的矩阵，

表示参数矩阵的维度，

表示所有论元角色编码中包括的论元角色的个数，

表示目标训练文本编码的维度。

可以理解的是，融合论元角色编码

是句子级的特征，融合训练文本编码

是词级别的特征。

可以理解的是，本申请实施例不限制S420中的步骤一和步骤二的执行顺序。在本申请的一种实施方式中，可以先执行步骤一，后执行步骤二。在本申请的另一种实施方式中，可以先执行步骤二，后执行步骤一。在本申请的再一种实施方式中，可以步骤一和步骤二同时执行。

S430，至少基于融合论元角色编码对事件检测模块进行训练以及至少基于融合训练文本编码对论元分类模块进行训练。

也就是说，在S420中的注意力机制模块获得融合论元角色编码和融合训练文本编码后，将融合论元角色编码输入到事件检测模块中，并且对事件检测模块进行训练，同时将融合训练文本编码输入到论元分类模块中，并且对论元分类模块进行训练。

在本申请的一种实施方式中，对事件检测模块进行训练的过程包括如下步骤：

步骤一：获取所有事件类型编码和融合论元角色编码。

步骤二：基于所有事件类型编码和融合论元角色编码，进行事件类型抽取，获得事件类型抽取结果。

也就是说，由于不同的事件类型对应不同的事件结构，即不同的事件类型包含了不同的论元，因此，使用掩码矩阵

将参数映射到相对应的事件，即可得到句子级事件特征

，由如下表达式（14）进行表示：

（14）

其中，

表示输入的训练文本的句子级事件特征，

表示事件类型的个数，

表示掩码矩阵，

表示融合论元角色编码。

具体的，使用一个双层的线性分类层作为事件类型分类器，在其中一层中将各事件类型编码

与句子级事件特征

相加，计算方法由如下表达式（15）和表达式（16）所示：

（15）

（16）

其中，

和

表示线性层的参数，

表示激活函数（即高斯误差线性单元（Gaussian Error Linerar Units，GELU），

表示所有事件类型编码中的各事件类型编码，

表示第一个线性层的中间结果，

表示第二个线性层输出的事件分类结果。

可以理解的是，由于每个句子可能包含多个类型的事件，因此本申请实施例中输出的事件分类结果为多个二分类结果，即输出的事件分类结果是由0和1组成的矩阵，0表示不存在相对应的事件类型，1表示存在相对应的事件类型。

步骤三:将事件类型抽取结果与正确事件抽取结果相比较，获得事件类型抽取准确率。

也就是说，将步骤二中输出的由0和1组成的矩阵，与正确分类的矩阵相对应，获得事件类型抽取的准确率。

步骤四：根据事件类型抽取准确率调整事件检测模块的参数。

在本申请的一种实施方式中，对论元分类模块进行训练的过程包括如下步骤：

步骤一：获取融合训练文本编码。

步骤二：基于融合训练文本编码，进行论元角色抽取，获得论元角色抽取结果。

也就是说，本申请实施例使用词级别的融合训练文本编码进行轮元角色分类，为了弥补融合训练文本编码不包含每个字段的词汇特征的缺点，因此本申请实施例在训练过程中添加了目标训练文本编码

。具体过程由如下表达式（17）、表达式（18）和表达式（19）所示：

（17）

其中，

表示融合训练文本编码和目标训练文本编码的组合序列，

表示融合训练文本编码中的第i个字段，

表示目标训练文本编码中的第i个字段。

本申请实施例对于每个论元角色，均使用单独的线性神经网络作为论元角色分类器。因此，首先将获得

个独立的分类器，其中任意一个分类器为：

（18）

其中，

和

表示第

个分类层的参数，

表示任意一个分类器的输出结果。

然后，获得由多个分类器输出结果组成的序列，该序列由如下表达式所示：

（19）

其中，

是由0和1组成的矩阵，0表示不存在相对应的论元角色，1表示存在相对应的论元角色。

步骤三：将论元角色抽取结果与正确论元抽取结果相比较，获得论元角色抽取准确率。

也就是说，将步骤二中输出的由0和1组成的矩阵，与正确分类的矩阵相对应，获得论元角色抽取的准确率。

步骤四：根据论元角色抽取准确率调整论元分类模块的参数。

可以理解的是，在S430中获得论元角色抽取准确率和事件类型抽取准确率之后，在确认论元角色抽取准确率和事件类型抽取准确率满足要求时，终止对论元分类模块和事件检测模块的训练，得到目标事件抽取模块和目标论元分类模块，即论元角色抽取准确率和事件类型抽取准确率，需要同时满足相对应的准确率阈值，则训练结束，获得目标事件抽取模型，否则将继续进行训练。

例如，事件类型抽取的准确率阈值为90%，论元角色抽取的准确率阈值为85%，则需要事件类型抽取的准确率大于或等于90%，并且论元角色抽取的准确率大于或等于85%，才能结束训练，否则继续进行下一循环的训练。

因此，本申请实施例通过语义标签嵌入（Semantic Tag Embedding）来获取事件类型、论元角色和实体标签的语义特征。构建了基于双通道注意力机制（Dual-channelAttention）的联合抽取模型，该模型跳过了触发识别的过程，直接对事件类型和论元角色进行联合抽取。

上文描述了本申请实施例中训练目标事件抽取模型的方法，下文将描述本申请实施例中一种事件抽取的装置。

如图5所示，本申请实施例中的一种事件抽取的装置500包括：编码获取模块510、编码融合模块520和分类训练模块530。

本申请提供了一种训练事件抽取模型的装置500，所述装置包括:编码获取模块510，被配置为根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码；编码融合模块520，被配置为将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码；分类训练模块530，被配置为至少基于所述融合论元角色编码对事件检测模块进行训练，以及至少基于所述融合训练文本编码对论元分类模块进行训练；其中，i为大于或等于1的整数。

在本申请的一些实施例中，所述编码融合模块520还被配置为：使所述所有论元角色编码学习所述目标训练文本编码中的特征，获得所述融合论元角色编码；以及使所述目标训练文本编码学习所述所有论元角色编码中的特征，获得所述融合训练文本编码。

在本申请的一些实施例中，所述编码获取模块510还被配置为：获取训练文本，并且对所述训练文本进行编码获得训练文本编码，其中，所述训练文本编码由多个字段特征组成；根据所述训练文本编码和所述所有实体标签，获取与所述多个字段特征相对应的多个实体标签；将所述多个字段特征分别与相对应的实体标签进行加和计算，获得所述目标训练文本编码。

在本申请的一些实施例中，所述编码获取模块510还被配置为：获取多个事件类型描述语句；提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签；对所述所有事件类型、所有论元角色和所述所有实体标签进行编码，获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码；基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练；根据所述训练文本编码和所述所有实体标签编码，获取与所述多个字段特征相对应的多个实体标签编码。

在本申请的一些实施例中，所述分类训练模块530还被配置为：获取所有事件类型编码和所述融合论元角色编码；基于所述所有事件类型编码和所述融合论元角色编码，进行事件类型抽取，获得事件类型抽取结果；将所述事件类型抽取结果与正确事件抽取结果相比较，获得事件类型抽取准确率；根据所述事件类型抽取准确率调整所述事件检测模块的参数，其中，在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。

在本申请的一些实施例中，所述分类训练模块530还被配置为：获取所有事件类型编码和所述融合训练文本编码；基于所述所有事件类型编码和所述融合训练文本编码，进行论元角色抽取，获得论元角色抽取结果；将所述论元角色抽取结果与正确论元抽取结果相比较，获得论元角色抽取准确率；根据所述论元角色抽取准确率调整所述论元分类模块的参数，其中，在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标事件抽取模块。

在本申请实施例中，图5所示模块能够实现图1至图4方法实施例中的各个过程。图5中的各个模块的操作和/或功能，分别为了实现图1至图4中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

如图6所示，本申请实施例提供一种电子设备600，包括：处理器610、存储器620和总线630，所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如上述所有实施例中任一项所述的方法，具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

其中，总线用于实现这些组件直接的连接通信。其中，本申请实施例中处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，简称CPU）、网络处理器（Network Processor，简称NP）等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。存储器中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，可以执行上述实施例中所述的方法。

可以理解，图6所示的结构仅为示意，还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法，具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种训练事件抽取模型的方法，其特征在于，所述事件抽取模型包括事件检测模块和论元分类模块，对所述事件抽取模型的第i次训练过程包括如下步骤：

根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码；

将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码；

至少基于所述融合论元角色编码对所述事件检测模块进行训练，以及至少基于所述融合训练文本编码对所述论元分类模块进行训练；

其中，i为大于或等于1的整数；

其中，通过计算注意力机制计算的方式使所述所有论元角色编码学习所述目标训练文本编码中的特征，获得所述融合论元角色编码，并且所述融合论元角色编码用于进行事件类型检测；

通过计算所述注意力机制计算的方式使所述目标训练文本编码学习所述所有论元角色编码中的特征，获得所述融合训练文本编码，并且所述融合训练文本编码用于论元分类任务；

其中，所述基于所述融合训练文本编码对论元分类模块进行训练，包括：

获取所述融合训练文本编码；基于所述融合训练文本编码进行论元角色抽取，获得论元角色抽取结果；将所述论元角色抽取结果与正确论元抽取结果相比较，获得论元角色抽取准确率；根据所述论元角色抽取准确率调整所述论元分类模块的参数，其中，在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标论元分类模块。

2.根据权利要求1所述的方法，其特征在于，所述根据所有实体标签获取目标训练文本编码，包括：

获取训练文本，并且对所述训练文本进行编码获得训练文本编码，其中，所述训练文本编码由多个字段特征组成；

根据所述训练文本编码和所述所有实体标签，获取与所述多个字段特征相对应的多个实体标签编码；

将所述多个字段特征分别与相对应的实体标签编码进行加和计算，获得所述目标训练文本编码。

3.根据权利要求2所述的方法，其特征在于，在所述根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码之前，所述方法还包括：

获取多个事件类型描述语句；

提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签；

对所述所有事件类型、所有论元角色和所述所有实体标签进行编码，获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码；

其中，

所述至少基于所述融合论元角色编码对所述事件检测模块进行训练，包括：基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练；

所述根据所述训练文本编码和所述所有实体标签，获取与所述多个字段特征相对应的多个实体标签编码，包括：根据所述训练文本编码和所述所有实体标签编码，获取与所述多个字段特征相对应的多个实体标签编码。

4.根据权利要求3所述的方法，其特征在于，所述基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练，包括：

基于所述所有事件类型编码和所述融合论元角色编码，进行事件类型抽取，获得事件类型抽取结果；

将所述事件类型抽取结果与正确事件抽取结果相比较，获得事件类型抽取准确率；

根据所述事件类型抽取准确率调整所述事件检测模块的参数，其中，在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。

5.一种目标事件抽取的装置，其特征在于，所述装置包括：

文本编码模块，被配置为：

获取待抽取文本，并且对所述待抽取文本进行编码获得待抽取文本编码，其中，所述待抽取文本编码由多个字段特征组成；

根据所述待抽取文本编码，获取与所述多个字段特征相对应的多个实体标签编码；

将所述多个字段特征分别与相对应的实体标签编码进行加和计算，获得目标文本编码；

注意力机制模块，被配置为：

将所述目标文本编码和所有论元角色编码进行融合，获得融合论元角色编码和融合目标文本编码；

其中，所述注意力机制模块还被配置为：使所述所有论元角色编码学习所述目标文本编码的特征，获取与所述所有论元角色的维度相同的所述融合论元角色编码；使所述目标文本编码学习所述所有论元角色编码的特征，获得与所述目标文本编码的维度相同的所述融合目标文本编码；

目标事件抽取模块，被配置为：

基于所述融合论元角色编码进行事件类型抽取，获得事件类型抽取结果；

目标论元分类模块，被配置为：

基于所述融合目标文本编码进行论元角色抽取，获得论元角色抽取结果；

其中，所述目标论元分类模块是通过如下方法训练获得的：

获取融合训练文本编码；基于所述融合训练文本编码进行论元角色抽取，获得论元角色抽取结果；将所述论元角色抽取结果与正确论元抽取结果相比较，获得论元角色抽取准确率；根据所述论元角色抽取准确率调整论元分类模块的参数，其中，在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到所述目标论元分类模块。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括标签语义编码模块；

所述标签语义编码模块，被配置为：

获取多个事件类型描述语句；

提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签；

对所述所有事件类型、所有论元角色和所有实体标签进行编码，获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码。

7.一种事件抽取的方法，其特征在于，所述方法包括：

获取待抽取文本；

将所述待抽取文本输入到通过权利要求1-4任一项所述的方法训练获得的目标事件抽取模型中，获得事件类型抽取结果和论元角色抽取结果。

8.一种事件抽取的装置，其特征在于，所述装置包括:

编码获取模块，被配置为根据所有实体标签获取目标训练文本编码，并且获取所有论元角色编码；

编码融合模块，被配置为将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合，获得融合论元角色编码和融合训练文本编码；

分类训练模块，被配置为至少基于所述融合论元角色编码对事件检测模块进行训练，以及至少基于所述融合训练文本编码对论元分类模块进行训练；

其中，所述分类训练模块还被配置为：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线；

所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如权利要求1-4任一项所述方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被执行时实现如权利要求1-4任一项所述方法。