CN114741516A

CN114741516A - 一种事件抽取方法和装置、电子设备及存储介质

Info

Publication number: CN114741516A
Application number: CN202210453775.9A
Authority: CN
Inventors: 马聿伯; 王泽昊; 李牧锴; 陈美琪; 王坤; 邵婧; 曹艺馨
Original assignee: Nanyang Technological University; Sensetime International Pte Ltd
Current assignee: Nanyang Technological University; Sensetime International Pte Ltd
Priority date: 2021-12-08
Filing date: 2022-04-24
Publication date: 2022-07-12

Abstract

本申请实施例公开了一种事件抽取方法及相关训练方法、装置、电子设备和存储介质，其中，该方法包括获取输入文本；其中，所述输入文本包括触发词和至少一个事件论元；通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合；获取与所述触发词对应的目标抽取模板；通过所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量；基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

Description

一种事件抽取方法和装置、电子设备及存储介质

相关申请的交叉引用

本申请要求申请号为10202113631X、于2021年12月08日向新加坡专利局提交的题为“一种事件抽取方法和装置、电子设备及存储介质”的新加坡专利申请的优先权，该新加坡专利申请的全部内容再此引用作为参考。

技术领域

本申请涉及自然语言处理技术领域，涉及但不限于一种事件抽取方法和装置、电子设备和存储介质。

背景技术

事件抽取是信息抽取领域中的重要问题。事件抽取指的是在预先给定的事件类型和论元角色的情况下，从文本中抽取出对应的触发词和事件论元。事件抽取模型在很多领域中都有重要的应用，例如在大规模特定领域(例如法律、医学和金融等)的文本中，抽取出对应的结构化信息，或在构建大规模知识图谱时，抽取相关的事件型知识。

但目前的事件抽取方法，很多集中在单句级别文本的抽取，把事件抽取任务视作问题回答任务。这些方法在文档级文本的事件抽取中被证明效果不佳。主要问题表现在：一方面，文档级文本的事件抽取中很多事件论元分布在文档中的多个句子中，现有模型还不能较好的建模句子之间的关系；另一方面，同一事件存在多个事件论元，而某些事件论元可能属于同一论元角色，现有模型在匹配事件论元和论元角色时，还不能较好的识别不同事件论元所对应的论元角色，同时，也很难实现同时抽取多个论元。

发明内容

有鉴于此，本申请实施例提供一种事件抽取方法、装置、设备和存储介质。

第一方面，本申请实施例提供一种事件抽取方法，所述方法包括：获取输入文本；其中，所述输入文本包括触发词和至少一个事件论元；通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合；获取与所述触发词对应的目标抽取模板；通过所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量；基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

第二方面，本申请实施例提供一种事件抽取模型的训练方法，所述事件抽取模型包括编码器、解码器和论元检测模块，所述方法包括：获取训练文本和与训练文本对应的目标抽取模板；通过所述编码器和解码器，提取所述训练文本对应的第一文本特征向量集合；通过所述解码器对所述目标抽取模板和所述训练文本进行编码，得到每一所述事件论元的论元特征向量；基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，通过所述论元检测模块，确定与每一所述事件论元对应的预测范围；匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围；基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值；基于所述损失函数值，训练所述事件抽取模型。

第三方面，本申请实施例提供一种事件抽取装置，所述装置包括：第一获取模块，用于获取输入文本；其中，所述输入文本包括触发词和至少一个事件论元；第一提取模块，用于通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合；第二获取模块，用于获取与所述触发词对应的目标抽取模板；第一解码模块，用于利用所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量；第一确定模块，用于基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

第四方面，本申请实施例提供一种事件抽取模型的训练装置，所述装置包括：第四获取模块，用于获取训练文本和与训练文本对应的目标抽取模板；第二提取模块，用于通过编码器和解码器，提取所述训练文本对应的第一文本特征向量集合；第二编码模块，用于通过所述解码器对所述目标抽取模板和所述训练文本进行编码，得到每一所述事件论元的论元特征向量；第六确定模块，用于基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，通过所述论元检测模块，确定与每一所述事件论元对应的预测范围；匹配模块，用于匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围；第七确定模块，用于基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值；训练模块，用于基于所述损失函数值，训练所述事件抽取模型。

第五方面，本申请实施例提供一种电子设备，所述设备包括：存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法中的步骤。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的步骤。

第七方面，本申请实施例提供一种计算机程序产品，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述方法中的步骤。

本申请实施例中，首先，通过编码器和解码器，提取了输入文本对应的第一文本特征向量集合，然后，通过解码器对目标抽取模板和输入文本进行解码，得到每一事件论元的论元特征向量。由于目标抽取模板和输入文本一同通过解码器解码，使得通过解码器解码得到的每一事件论元的论元特征向量融合了输入文本的信息，而第一文本特征向量集合为反映上下文的文本特征向量，这样，基于第一文本特征向量集合和每一事件论元的论元特征向量，确定的与每一事件论元对应的取值范围为反映上下文的取值范围，准确率更高，从而提高了抽取事件论元的准确性。此外，由于目标抽取模板中包含论元角色及论元角色之间的关系，实现了多个事件论元之间跨句关系的建立，如此一来，不仅解决了句子级和文档级文本事件抽取中事件论元之间的长距离问题，而且可以一次性预测多个事件论元，大幅度提高事件抽取的速度，在构建大规模事件知识图谱的情况下，提高事件知识图谱的构建效率和规模；同时，通过在目标抽取模板中为一个论元角色引入多个插槽，有效减少了事件抽取中无法较好匹配一个论元角色对应多个事件论元的情况，提高了匹配的准确性。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为本申请实施例提供的一种事件抽取方法的流程示意图；

图2为本申请实施例提供的另一种事件抽取方法的流程示意图；

图3为本申请实施例提供的一种确定每一事件论元对应取值范围的流程示意图；

图4为本申请实施例提供的一种事件抽取模型训练方法的流程示意图；

图5为本申请实施例提供的另一种事件抽取方法的流程示意图；

图6为本申请实施例提供的一种事件抽取装置的结构示意图；

图7为本申请实施例提供的一种事件抽取模型的训练装置的结构示意图；

图8为本申请实施例电子设备的一种硬件实体示意图。

具体实施方式

下面结合附图和实施例对本申请的技术方案进一步详细阐述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例提供一种事件抽取方法，如图1所示，所述方法包括：

S101：获取句子级或文档级文本的输入文本；其中，所述输入文本包括触发词和至少一个事件论元。

这里，输入文本用于描述事件内容，可以为句子级或文档级文本，句子级文本即为单句形式的文本，文档级文本即为多句形式的文本。

其中，事件的组成元素可以包括触发词、事件类型、事件论元和论元角色。其中，触发词指事件发生的核心词，多为动词和名词，例如，攻击、讨论等。事件类型指事件的类别，例如，运动事件、攻击事件等，不同的数据集所对应的事件类型的种类不同，例如，数据集ACE2005定义了8种事件类型和33种子类型，其中，大多数事件抽取均采用这33种事件类型。事件论元指事件的参与者，例如，张三(即具体的人物)、学校等。论元角色指事件论元在事件中充当的角色，例如，攻击者、位置、时间等。

下面以下述事件为例进行说明：The private Dogan news agency reportedthat more than 30 of those wounded in A,primarily children,were transferredto a hospital in B.

It showed footage of ambulances arriving at C hospital and medicalpersonnel<t>unloading</t>a girl on stretchers.

含义为：私人多安通讯社报道，在A地，受伤的30多人，被转移到B地的一家医院，其中，大部分为儿童。该报道显示了救护车抵达C医院，医务人员卸载担架上的一个女孩的镜头。

其中，事件类型是由触发词“unloading”触发的运动事件，事件论元分别是“A”，“ambulances”，“C hospital”，“medical personnel”，“a girl”，每个事件论元在此事件中都扮演了一个具体角色，分别为始发地(即A所指示的地点)、车辆(即ambulances所指示的车辆)、目的地(即C hospital所指示的地点)、运输者(即medical personnel所指示的运输者)和乘客(即a girl所指示的乘客)。

在一些实施例中，输入文本可以包括触发词和至少一个事件论元，其中，至少一个可以为一个或至少两个，可根据输入本文的内容而定。

实施时，首先制定一个事件抽取任务，然后预定义一系列的事件类型E，这里，预定义的事件类型可以基于数据集进行定义，例如对于数据集ACE2005，共有33种事件类型。每一个事件类型t∈E，每一个事件类型t包括一系列的论元角色R^t，其中，

为了方便描述，下文中将指示事件类型t的上角标去掉。

之后，获取句子级或文档级文本的输入文本X，其中，X＝{x₁,x₂,x₃……x_n}，这里，每一个x_i对应一个词元。在输入文本X为向量形式时，每一个x_i对应一个词元向量。其中，输入文本X包括触发词x_trig和至少一个事件论元A_ri，这里，事件论元集合A^t＝{A_r1,A_r2……A_rm}。事件抽取任务是在输入文本X中，为每个论元角色r_i抽取出其对应的事件论元A_ri，其中，每个事件论元A_ri是X中至少一个词元跨度对应的内容。例如，事件论元是“张三”，“张三”中的“张”、“三”、分别对应一个词元，则事件论元“张三”是“张”、“三”这两个词元跨度对应的内容。

S102：通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合。

这里，第一文本特征向量集合是反映上下文的文本特征向量，其中，每一词元对应特征向量是h维的向量。编码器和解码器可以采用Transformer模型中的编码器和解码器。Transformer模型是在2017年提出的一种自然语言处理(Natural Language Processing，NLP)经典模型，Transformer模型使用了自注意力(Self-Attention)机制。其中，编码器包括自注意力(Self-Attention)层，解码器包括自注意力层和交叉注意力层，自注意力层用来关注输入文本单个句子中多个词元之间的关系，而交叉注意力层用来关注输入文本多个句子之间的关系，输入文本通过注意力层的注意力机制，使输入文本中的不同词元之间产生交互，得到考虑上下文的第一文本特征向量集合。

在一些实施例中，编码器和解码器还可以采用BERT模型或者BART模型，其中，BERT模型是仅使用Transformer模型的编码器(即Transformer-Encoder)结构的预训练语言模型，BART模型是使用Transformer模型整体结构的预训练语言模型。

在一些实施例中，步骤S102的实施可以包括S1021和S1022：

S1021：获取所述输入文本的触发词，并标识输入文本的触发词；

这里，可以通过人工或设备自动识别并标识输入文本的触发词。在一些实施例中，可以采用特殊符号(参见下面例子)或其他方式标识触发词，本申请实施例对标识输入文本触发词的方式不做限定。

下面为标识触发词的例子：

The private Dogan news agency reported that more than 30 of thosewounded in A,primarily children,were transferred to a hospital in B.

其中，“unloading”为触发词，用<t>、</t>标识出来。

这里，对输入文本标识触发词的表达式可以为：

输入文本X＝{x₁,x₂,x₃……x_n}；

标识触发词之后的输入文本

S1022：通过编码器和解码器，提取标识后的输入文本对应的第一文本特征向量集合。

本申请实施例中，通过采用在输入文本中标识触发词的方法，可以有效提取出输入文本对应的第一文本特征向量集合。

S103：获取与所述触发词对应的目标抽取模板。

这里，目标抽取模板是基于事件类型中论元角色之间的关系，由论元角色拼接而成的模板，例如，攻击事件中的论元角色有攻击者、被攻击者和地点，则可以根据多个论元角色之间的关系拼接，得到目标抽取模板为：(攻击者)在(地点)攻击(被攻击者)。

触发词与目标抽取模板可以是一对一的关系，也可以是多对一的关系，即一个触发词对应一个目标抽取模板，或多个触发词对应一个目标抽取模板。例如，触发词为contact和negotiate，它们都对应一个目标抽取模板：participant communicated withparticipant about topic at place。其中，每一个论元角色对应的位置叫插槽，则上述目标抽取模板共有participant，participant，topic和place四个插槽，这里，两个插槽对应一个论元角色“participant”，即目标抽取模板中存在一个论元角色对应多个插槽的情况。

表1为目标抽取模板的例子：

表1

其中，带下划线的词表示每个插槽，括号表示N对1的论元角色(即一个论元角色对应多个事件论元)。

在一些实施例中，目标抽取模板中可以包括多个论元角色，且多个论元角色对应的多个事件论元可以分布在多个句子当中，例如输入文本是“The private Dogan newsagency reported that more than 30 of those wounded in A,primarily children,were transferred to a hospital in B.It showed footage of ambulances arrivingat C hospital and medical personnel<t>unloading</t>a girl on stretchers”.

其中，事件论元“A”在第一句中，事件论元“a girl”在第二句中，因此，当采用目标抽取模板抽取事件论元时，可以一次提取目标抽取模板中的多个事件论元，同时，在多个句子中进行抽取，从而解决句子级和文档级文本事件抽取中事件论元之间长距离和多事件论元的问题。

在一些实施例中，可以通过人工或设备自动获取与触发词对应的目标抽取模板。实施时，可以基于触发词，确定目标抽取模板。

对应地，步骤S103的实施之前可以包括S1031和S1032：

S1031：基于触发词，确定目标事件类型；

S1032：基于目标事件类型从预设的模板库中，确定目标抽取模板。

这里，步骤S1032“基于目标事件类型从预设的模板库中，确定目标抽取模板”的实施之前可以包括S103a至S103d：

S103a：确定文本集合对应的事件类型集合，所述事件类型集合中包括至少一种事件类型；

其中，文本集合为数据集中所有的文本数据。例如：数据集为ACE2005，对应的文本为400个，则文本集合包括这400个文本。

S103b：确定每一所述事件类型中的至少两个论元角色，以及所述至少两个论元角色之间的关系信息；

S103c：针对每一所述事件类型，基于所述至少两个论元角色之间的关系信息将所述至少两个论元角色进行拼接，得到每一所述事件类型的抽取模板；

S103d：基于所述事件类型集合中每一所述事件类型的抽取模板，形成所述预设的模板库。

S104：通过所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量。

这里，论元特征向量是融合输入文本信息的特征向量，每一个论元特征向量与每一论元角色相对应。其中，论元特征向量

R^h代表h维的向量，r_i代表论元角色，k代表目标抽取模板中的每一个插槽。需要说明的是，本申请实施例对一个论元角色，可在目标抽取模板中引入多个插槽，由于与每个插槽对应的每个论元特征向量是融合输入文本信息的特征向量，而每个插槽上下文之间存在细微的差异，例如，输入文本是“张三和李四在人民公园聊天”，由于“张三”对应的插槽和“李四”对应的插槽在上下文中的位置不同，因此，“张三”对应的插槽和“李四”对应的插槽上下文之间存在细微的差异，从而倾向于生成具有不同含义的论元特征向量，从而有利于识别一个论元角色对应多个事件论元的情况，更好的实现准确提取。

由于下述论元特征向量的起始搜索向量和结束搜索向量要和下述的第一文本特征向量中的每一个词元对应的向量求内积，所以，第一文本特征向量中的每一个词元对应的向量维度应该与起始搜索向量和结束搜索向量的维度相同，这里，输入文本后续会转化成向量形式(即下述的文本词向量集合)，再转化成第一文本特征向量，而论元特征向量会转化为起始搜索向量和结束搜索向量，所以，在一些实施例中，论元特征向量的维度可以与转化成向量形式的输入文本中一个词元对应的向量维度相同，以方便后续的运算处理。

在一些实施例中，输入文本可以是输入文本经过编码器编码之后得到的向量集合，解码器通过对目标抽取模板和所述向量集合进行解码，得到每一事件论元的论元特征向量。

S105：基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

这里，取值范围指事件论元A_ri对应的起始词元和结束词元在输入文本X中的索引。例如，事件论元A_ri起始词元和结束词元在输入文本X中的索引分别是3和4，则事件论元A_ri的取值范围是(3,4)。

在一些实施例中，可以根据每一事件论元A_ri的取值范围，从输入文本中确定该取值范围对应的每一个词，从而得到每一事件论元，例如输入文本是“张三和李四在人民公园聊天”，事件论元A_ri的取值范围是(1,2)，(1,2)对应输入文本中的“张三”，则事件论元A_ri为“张三”。

在一些实施例中，目标抽取模板中的论元角色可以多于输入文本中的论元角色，在此情况下，抽取出的事件论元A_ri的结果可能是没有答案。例如，目标抽取模板是“(参与者A)和(参与者B)在(地点)沟通(话题)”，输入文本是“张三和李四在人民公园聊天”，那么，论元角色“话题”对应的事件论元就是空，在抽取论元角色“话题”对应的事件论元的内容时，结果就是没有答案。

这里，抽取出的事件论元A_ri的表达式为：

其中，J_ri是论元角色r_i对应的事件论元A_ri的数量，

和

是第J_ri个事件论元A_ri对应的起始词元和结束词元在输入文本X中的索引。

同样以输入文本X是张三和李四在人民公园聊天为例进行说明，事件论元A_ri张三和李四对应的论元角色r_i都为参与者，则J_ri是论元角色r_i为参与者时,对应的事件论元A_ri的数量，即为2，对应张三和李四两个事件论元。在输入文本X中，张三是第1个事件论元，则

和

是第1个事件论元张三的起始词元和结束词元在输入文本X中的索引，例如，在输入文本X中，张是第一个词元，三是第二个词元，那么，

为(1,2)。

在一些实施例中，可以将每一事件论元的论元特征向量转化为表示起始位置的起始搜索向量和表示结束位置的结束搜索向量，通过将起始搜索向量和结束搜索向量分别与第一文本特征向量集合中每一词元对应特征向量求内积的方式，确定与每一事件论元对应的取值范围。

本申请实施例中，首先，通过编码器和解码器，提取了输入文本对应的第一文本特征向量集合，然后，通过解码器对目标抽取模板和输入文本进行解码，得到每一事件论元的论元特征向量。由于目标抽取模板和输入文本一同通过解码器解码，使得通过解码器解码得到的每一事件论元的论元特征向量融合了输入文本的信息，而第一文本特征向量集合为反映上下文的文本特征向量，这样，基于第一文本特征向量集合和每一事件论元的论元特征向量，确定的与每一事件论元对应的取值范围为反映上下文的取值范围，准确率更高，从而提高了抽取事件论元的准确性。此外，由于目标抽取模板中包含论元角色及论元角色之间的关系，实现了多个事件论元之间跨句关系的建立，如此一来，不仅解决了句子级和文档级文本事件抽取中事件论元之间的长距离问题；而且可以一次性预测多个事件论元，大幅度提高事件抽取的速度，在构建大规模事件知识图谱的情况下，提高事件知识图谱的构建效率和规模；同时，通过在目标抽取模板中为一个论元角色引入多个插槽，有效减少了事件抽取中无法较好匹配一个论元角色对应多个事件论元的情况，提高了匹配的准确性。

本申请实施例还提供一种事件抽取方法，如图2所示，所述方法包括S201至S209：

S201：获取输入文本；其中，所述输入文本包括触发词和至少一个事件论元。

S202：获取所述输入文本中的触发词，并标识输入文本中的触发词。

同上，例如：输入文本X＝{x₁,x₂,x₃……x_n}；

标识触发词之后的输入文本

S203：将标识触发词的输入文本转化为文本词向量集合。

这里，本申请实施例对文本词向量集合中每个词元的维度不做限定。例如，对于BART基础版模型，每个词元的维度可以是768维，对于BART加强版模型，每个词元的维度可以是1024维，其中，BART基础版模型使用了6层的编码器和解码器，BART加强版模型使用了12层的编码器和解码器。

S204：通过所述编码器对所述文本词向量集合进行编码，得到第二文本特征向量集合。

这里，第二文本特征向量集合是经过编码器中的自注意力层编码之后，融合输入文本信息的特征向量集合。

以BART模型中的编码器为例，第二文本特征向量集合的表达式为：

S205：通过所述解码器对所述文本词向量集合和所述第二文本特征向量集合进行解码，得到所述输入文本对应的第一文本特征向量集合。

这里，第一文本特征向量集合是经过解码器中的自注意力层和交叉注意力层解码之后，融合输入文本信息的特征向量集合。

以BART模型中的解码器为例，第一文本特征向量集合的表达式为：

S206：获取与所述触发词对应的目标抽取模板。

S207：将所述目标抽取模板转化为模板词向量集合。

这里，模板词向量集合中每个词元所对应的维度可以和文本词向量集合中每个词元的维度相同，例如文本词向量集合中每个词元的维度是768维，则模板词向量集合中每个词元所对应的维度也可以是768维，以方便后续的运算处理。

S208：通过所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到每一所述事件论元的论元特征向量。

S209：基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

这里，步骤S208和S209可参见步骤S104和S105。

本申请实施例中，通过将输入文本和目标抽取模板转化为文本词向量集合和模板词向量集合，再输入编码器和解码器中，方便编码器和解码器对数据的处理。同时，文本词向量集合输入编码器之后，会从编码器输出第二文本特征向量集合，再将第二文本特征向量集合输入解码器进行解码，得到第一文本特征向量集合和每一事件论元的论元特征向量。

在一些实施例中，步骤S208“通过所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到每一所述事件论元的论元特征向量”的实施包括S2081和S2082：

S2081：利用所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到融合输入文本信息的模板特征向量集合；

这里，由于模板特征向量集合是通过解码器对模板词向量集合和第二文本特征向量集合解码而来，而第二文本特征向量集合为融合输入文本信息的特征向量集合，所以，模板特征向量集合也融合了输入文本信息。

以BART模型中的解码器为例，模板特征向量集合的表达式为：

Pt^(dec)＝BART-Decoder(Pt^(t),H^(enc))；

其中，Pt^(t)为模板词向量集合。

S2082：基于所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量。

这里，模板词向量集合是将目标抽取模板转换为向量形式而来，而目标抽取模板中包括每一个论元角色的位置信息，因此，可以知道模板词向量集合中每一论元角色的位置信息。

同时，由于模板特征向量集合是解码器对模板词向量集合和第二文本特征向量集合解码而来，因此，可以通过模板词向量集合中每一论元角色的位置信息，在模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量。

例如，对于目标抽取模板“participant communicated with participant abouttopic at place”来说，第一个词元对应的位置是论元角色“participant”的位置，将目标抽取模板转换为模板词向量集合之后，可以在模板词向量集合中找第一个词元对应的向量，得到模板词向量集合中论元角色“participant”的位置信息。

模板词向量集合经过解码器解码之后得到模板特征向量集合，同理，可以在模板特征向量集合中找到模板词向量集合中论元角色“participant”所在的向量，即为论元角色“participant”对应的事件论元的论元特征向量。

在一些实施例中，步骤S2082“基于所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量”的实施包括S282a和S282b：

S282a：针对所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，提取出与所述论元角色对应的每一所述事件论元的特征向量；

S282b：针对每一所述事件论元的特征向量进行平均池化，得到所述事件论元的论元特征向量。

这里，平均池化的作用是将每一事件论元特征向量沿着文本长度的维度求平均，使每一事件论元特征向量的维度保持一致。由于每一事件论元包含的词元数量不同，例如，输入文本是“张三和李四在人民公园聊天”，其中，事件论元“张三”对应的词元数量可以是2，事件论元“人民公园”对应的词元数量可以是4，则事件论元“张三”和“人民公园”沿着文本长度的维度分别是2和4，平均池化之后，事件论元“张三”和“人民公园”沿着文本长度的维度可以是1。也就是说，在平均池化之后，事件论元“张三”和“人民公园”沿着文本长度的维度相同。在一些实施例中，每一事件论元特征向量沿着文本长度的维度可以与第一文本特征向量集合中每一词元沿着文本长度的维度相同。

本申请实施例中，通过对每一事件论元的特征向量进行平均池化，使每一事件论元特征向量的维度与第一文本特征向量集合中每一词元所对应向量的维度相同，以方便后续的运算处理。

在一些实施例中，步骤S105“基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围”的实施包括S1051和S1052：

步骤S1051：基于所述第一文本特征向量集合对应词元的数量，确定每一所述事件论元的至少一个候选起止范围；

这里，每一事件论元在第一文本特征向量集合中的起始位置应该小于每一事件论元在第一文本特征向量集合中的结束位置。

基于此，可以根据第一文本特征向量集合中对应词元的数量，确定每一事件论元的至少一个候选起止范围。例如，第一文本特征向量集合中对应词元的数量为5，则每一事件论元的至少一个候选起止范围可以为(1,2)，(1,3)，(1,4)，(1,5)，(2,3)，(2,4)，(2,5)，(3,4)，(3,5)，(4,5)，其中，括号内的数字代表第一文本特征向量集合中对应词元的索引，第一个数字代表起始位置对应的索引，第二个数字代表结束位置的索引。

步骤S1052：针对每一所述事件论元，基于所述事件论元的至少一个候选起止范围和所述事件论元的论元特征向量，确定与所述事件论元对应的取值范围。

在一些实施例中，如图3所示，步骤S1052“基于每一所述事件论元的至少一个候选起止范围和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围”的实施包括S1521至S1524：

步骤S1521：将每一所述事件论元的论元特征向量转换为表示起始位置的起始搜索向量和表示结束位置的结束搜索向量。

实施时，将每一事件论元的论元特征向量记为ψ_k，则起始搜索向量

和结束搜索向量

的表达式为：

其中，R^h代表h维的向量，w^(s)和w^(e)是两个可学习的参数，属于h维的向量，o代表逐元素乘法。

这里，由于论元特征向量ψ_k也属于R^h，因此，可以对论元特征向量ψ_k和w^(s)或w^(e)进行逐元素乘法，得到的

和

仍然属于R^h。

步骤S1522：确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述起始搜索向量的第一内积结果，得到每一所述事件论元候选起始位置的第一内积结果集合。

这里，由于第一文本特征向量集合中每一词元对应特征向量属于R^h，

也属于R^h，因此，可以对第一文本特征向量集合中每一词元对应特征向量和起始搜索向量

求内积，得到第一内积结果，而对每一事件论元求内积，得到每一事件论元候选起始位置的第一内积结果集合。

其中，求第一内积结果集合的表达式为：

这里，k为目标抽取模板中的每一个插槽，

L为第一文本特征向量集合对应的词元的数量。

步骤S1523：确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述结束搜索向量的第二内积结果，得到每一所述事件论元候选结束位置的第二内积结果集合。

也属于R^h，因此，可以对第一文本特征向量集合中每一词元对应特征向量和结束搜索向量

求内积，得到第二内积结果，而对每一事件论元求内积，得到每一事件论元候选结束位置的第二内积结果集合。

其中，求第二内积结果集合的表达式为：

这里，k为目标抽取模板中的每一个插槽，

L为第一文本特征向量集合对应的词元的数量。

步骤S1524：基于每一所述事件论元候选起始位置的第一内积结果集合和候选结束位置的第二内积结果集合，确定与每一所述事件论元对应的取值范围。

这里，可以通过求每一事件论元对应的每一候选起止范围中第一内积结果和第二内积结果之和，来确定与每一事件论元对应的取值范围。在一些实施例中，当候选起止范围中第一内积结果和第二内积结果之和最大时，对应该事件论元的取值范围。

例如，若候选起止范围是(1,2)，则用起始搜索向量

与第一文本特征向量集合中第一词元对应特征向量做内积，得到第一内积结果，用结束搜索向量

与第一文本特征向量集合中第二词元对应特征向量做内积，得到第二内积结果，将第一内积结果和第二内积结果相加，第一内积结果与第二内积结果之和最大对应的候选起止范围为对应事件论元的取值范围。

在一些实施例中，可以采用贪婪搜索在候选起止范围内确定与每一事件论元对应的取值范围。

这里，确定每一事件论元对应的取值范围的表达式可以为：

其中，

为找到的与每一事件论元对应的取值范围，L为第一文本特征向量集合对应的词元的数量，i代表每一事件论元起始位置在第一文本特征向量集合中对应词元的索引，j代表每一事件论元结束位置在第一文本特征向量集合中对应词元的索引。

本申请实施例中，通过将事件论元的论元特征向量转换为表示起始位置的起始搜索向量和表示结束位置的结束搜索向量，然后用起始搜索向量和结束搜索向量分别与第一文本特征向量集合中每一词元对应特征向量做内积，得到第一内积结果与第二内积结果，之后采用贪婪搜索在至少一个候选起止范围内确定第一内积结果与第二内积结果之和最大的起止范围，得到与该事件论元对应的起止范围，最后依次确定每一事件论元的起止范围，得到所有事件论元的起止范围，如此一来，不仅实现了对事件论元的准确抽取，而且加快了抽取的速度。

本申请实施例提供一种事件抽取模型的训练方法，其中，所述事件抽取模型包括编码器、解码器和论元检测模块，如图4所示，所述方法包括S401至S407：

S401：获取训练文本和与训练文本对应的目标抽取模板。

S402：通过所述编码器和解码器，提取所述训练文本对应的第一文本特征向量集合。

S403：通过所述解码器对所述目标抽取模板和所述训练文本进行编码，得到每一所述事件论元的论元特征向量。

S404：基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，通过所述论元检测模块，确定与每一所述事件论元对应的预测范围。

这里，步骤S401至步骤S404的实施可参见步骤S101至步骤S105。

S405：匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围。

这里，真值范围为每一事件论元对应的正确范围。在一些实施例中，可以采用二分图匹配的方法，将每一事件论元的预测范围与真值范围进行匹配，得到不同的匹配方案，再通过损失函数，评估出不同匹配方案对应的损失。

其中，第二预设条件可以为损失函数值最小，则基于满足损失函数值最小对应的匹配方案，可以得到与每一事件论元对应的最佳预测范围。

S406：基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值。

这里，可以采用交叉熵的方法确定事件抽取模型的损失函数值。

S407：基于所述损失函数值，训练所述事件抽取模型。

这里，损失函数值越小，事件抽取模型的效果越好。在一些实施例中，可以通过梯度下降法优化模型的参数，提高模型的效果。

在一些实施例中，步骤S405“匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围”的实施包括S4051至S4053：

S4051：采用二分图匹配法，匹配每一所述事件论元的预测范围与真值范围，得到候选匹配组，其中，所述候选匹配组包括至少一个匹配对，所述一个匹配对包括一个所述事件论元的预测范围与真值范围；

这里，可以将数据z(即输入文本X)中所有事件论元的真值范围记为

其中，r是论元角色；

将数据z中所有事件论元的预测范围记为

其中，m是在目标抽取模板中论元角色r出现的次数，即目标抽取模板中的插槽数量。

采用二分图匹配法，匹配每一事件论元的预测范围与真值范围，得到候选匹配组。例如，

可以得到2个候选匹配组，第一个候选匹配组为：(s₀,e₀)对应

(s₁,e₁)对应

第二个候选匹配组为：(s₀,e₀)对应

(s₁,e₁)对应

在第一个候选匹配组中，(s₀,e₀)和

是一个匹配对，(s₁,e₁)和

是一个匹配对。

S4052：确定每一所述候选匹配组的损失函数值；其中，所述损失函数用于表示所述候选匹配组内每一所述匹配对之间的距离之和；

这里，损失函数可以为

用于表示候选匹配组内每一匹配对之间的距离之和。其中，i为真值范围

中(s,e)的索引号。σ(i)为真值范围中第i个(s,e)对应预测范围中

的索引号。例如，真值范围中第一个(s,e)匹配预测范围中第二个

则σ(i)为2，

为

当真值范围中(s,e)的数量n大于预测范围中

的数量m时，N取m，则损失函数中只使用匹配好的(s,e)和

当真值范围中(s,e)的数量n小于预测范围中

的数量时，则在真值范围中插入(0,0)，使真值范围中(s,e)的数量与预测范围中

的数量相等，例如，预测范围中

的数量m是5，真值范围中(s,e)的数量n是3，则在真值范围内插入两个(0,0)，用来表示没有答案的情况，防止过预测。

S4053：选择损失函数值满足第二预设条件的所述候选匹配组，得到与每一所述事件论元对应的最佳预测范围。

其中，第二预设条件可以为损失函数值最小，则选择损失函数值最小对应的候选匹配组，得到与每一所述事件论元对应的最佳预测范围。

这里，选择损失函数值满足第二预设条件的候选匹配组的表达式为：

其中，i为真值范围

中(s,e)的索引号，σ(i)为真值范围中第i个(s,e)对应预测范围中

的索引号，Γ_N为N个(s,e)与

的匹配方式。

在一些实施例中，步骤S406“基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值”的实施包括S4061至S4063：

S4061：获取每一所述事件论元的最佳预测范围起始位置对应的第一内积结果和结束位置对应的第二内积结果；

实施时，例如，事件论元(8,9)₂对应的最佳预测范围是(8,10)₁，则获取(8,10)₁中起始位置8对应的第一内积结果和结束位置10对应的第二内积结果。

S4062：归一化所述第一内积结果和所述第二内积结果；

这里，可以采用softmax函数对获取的第一内积结果和第二内积结果进行归一化处理。

S4063：基于归一化的所述第一内积结果和所述第二内积结果，确定所述方法用于的模型的损失函数值。

这里，可以采用交叉熵计算模型的损失函数值，在一些实施例中，一个论元角色r对应的损失函数的表达式可以为：

其中，r是论元角色，z是数据，

代表最佳预测范围起始位置s_i对应的第一内积结果经过归一化处理之后的数值(即步骤S4062所得的结果)，

代表最佳预测范围结束位置e_i对应的第二内积结果经过归一化处理之后的数值(即步骤S4062所得的结果)，i为真值范围

中(s,e)的索引号。

对应地，所述方法用于的模型的损失函数表达式可以为：

其中，z是数据，r是论元角色。

即计算所有数据所有论元角色的损失函数值。

在本申请实施例中，通过二分图匹配损失的方法，找到与真值范围最佳匹配的预测范围，如此一来，可以更好的降低一个论元角色对应多个事件论元匹配错误的情况；同时，基于最佳匹配，采用交叉熵的方法，确定整个模型的损失函数值，来检验模型的有效性，方便对模型的训练和调整。

本申请实施例还提供一种事件抽取模型的训练方法，如图5所示，所述方法包括S501至S509：

步骤S501：获取训练文本和与训练文本对应的目标抽取模板；

这里，训练文本为“在第一场辩论中，李明反驳了韩梅梅关于拦截搜身在纽约被裁定违宪的言论”。

对应英文为：“In the first debate,Li Ming disputed Han Meimei’s commentthat stop and frisk was ruled unconstitutional in New York”。

在一些实施例中，可以在训练文本中标识出触发词，便于后续解码器有效的提取出训练文本对应的第一文本特征向量集合。

标识触发词之后的训练文本为：

“在第一场<t>辩论</t>中，李明反驳了韩梅梅关于拦截搜身在纽约被裁定违宪的言论”。

对应英文为：“In the first<t>debate</t>,Li Ming disputed Han Meimei’scomment that stop and frisk was ruled unconstitutional in New York”.

训练文本对应的目标抽取模板为“参与者1和参与者2沟通话题在地点”。

对应英文为：“participant communicated with participant about topic atplace”。其中，参与者1、参与者2、话题和地点对应论元角色。

在一些实施例中，可以将标识触发词的训练文本和与训练文本对应的目标抽取模板转化为向量形式，方便编码器和解码器的运算，其中，转化为向量形式的标识触发词的训练文本为文本词向量集合

转化为向量形式的目标抽取模板为模板词向量集合Pt^(t)。

步骤S502：通过编码器(Encoder)对文本词向量集合进行编码，得到第二文本特征向量集合；

这里，步骤S502可参考步骤S204。

步骤S503：通过解码器(Decoder)对所述文本词向量集合和所述第二文本特征向量集合进行解码，得到所述输入文本对应的第一文本特征向量集合；

这里，步骤S503可参考步骤S205。图5中101即为第一文本特征向量集合。

步骤S504：利用解码器对转换为向量形式的目标抽取模板和第二文本特征向量集合进行解码，得到融合输入文本信息的模板特征向量集合；

这里，步骤S504可参考步骤S2081。图5中102即为融合输入文本信息的模板特征向量集合。

步骤S505：基于所述转换为向量形式的目标抽取模板中每一论元角色的位置信息，从所述模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量。

这里，步骤S505可参考步骤S2082。目标抽取模板“参与者1和参与者2在地点沟通话题”中，前三个词元对应的位置是论元角色“参与者1(participant)”的位置，将目标抽取模板转换为模板词向量集合之后，可以在模板词向量集合中找前三个词元对应的向量，得到模板词向量集合中论元角色“参与者1”的位置信息。

模板词向量集合经过解码器解码之后得到模板特征向量集合，同理，可以在模板特征向量集合中找到模板词向量集合中论元角色“参与者1”所在的向量，即为论元角色“参与者1”对应的事件论元的论元特征向量，从而得到每一事件论元的论元特征向量。

在一些实施例中，步骤S505的实施可以包括：

S505a：基于所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，提取出与每一所述论元角色对应的每一所述事件论元的特征向量；

S505b：针对每一所述事件论元的特征向量进行平均池化，得到所述事件论元的论元特征向量。

这里，步骤S505a和步骤S505b可参考步骤S282a和步骤S282b。

图5中103即为每一事件论元的论元特征向量，其中，标号1是目标抽取模板中与第一个论元角色“参与者1”对应的事件论元的论元特征向量，标号2是目标抽取模板中与第二个论元角色“参与者2”对应的事件论元的论元特征向量，标号3是目标抽取模板中与第三个论元角色“话题(topic)”对应的事件论元的论元特征向量，标号4是目标抽取模板中与第四个论元角色“地点(palce)”对应的事件论元的论元特征向量。

步骤S506：基于第一文本特征向量集合和每一事件论元的论元特征向量，确定与每一事件论元对应的预测范围。

这里，步骤S506的实施可以包括：

步骤S5061：基于所述第一文本特征向量集合对应词元的数量，确定每一所述事件论元的至少一个候选起止范围；

这里，步骤S5061可参考步骤S1051。

步骤S5062：将每一所述事件论元的论元特征向量转换为表示起始位置的起始搜索向量和表示结束位置的结束搜索向量；

步骤S5063：确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述起始搜索向量的第一内积结果，得到每一所述事件论元候选起始位置的第一内积结果集合；

步骤S5064：确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述结束搜索向量的第二内积结果，得到每一所述事件论元候选结束位置的第二内积结果集合；

步骤S5065：基于每一所述事件论元候选起始位置的第一内积结果集合和候选结束位置的第二内积结果集合，确定与每一所述事件论元对应的预测范围。

这里，步骤S5062至步骤S5065可参考步骤S1521至步骤S1524。

在一些实施例中，当候选起止范围中第一内积结果和第二内积结果之和最大时，对应该事件论元的预测范围。

这里，步骤S506对应图5中的“多事件论元取值范围预测”。由图中可知，得到的预测范围分别为(8,10)，(6,7)，(11,11)，(18,20)，其中，预测范围对应的位置数为第一文本特征向量集合中对应词元的索引，(8,10)(6,7)(11,11)(18,20)分别对应“韩梅梅”，“李明”，“拦截搜身”，“纽约”，即第一个论元角色“参与者1”提取出的事件论元为“韩梅梅”，第二个论元角色“参与者2”提取出的事件论元为“李明”，第三个论元角色“话题”提取出的事件论元为“拦截搜身”，第四个论元角色“地点”提取出的事件论元为“纽约”。可以看出，预测范围中的论元角色“参与者1”和“参与者2”提取出的事件论元互掉了，实际上第一个论元角色“参与者1”提取出的事件论元应该为“李明”，第二个论元角色“参与者2”提取出的事件论元应该为“韩梅梅”。

步骤S507：匹配每一事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围。

在一些实施例中，步骤S507的实施可以包括：

S5071：采用二分图匹配法，匹配每一所述事件论元的预测范围与真值范围，得到候选匹配组，其中，所述候选匹配组包括至少一个匹配对，所述一个匹配对包括一个所述事件论元的预测范围与真值范围；

这里，将训练文本中所有事件论元的真值范围记为

(8,9)₂，(11,14)₃，(18,20)₄]，其中，r是论元角色；

将训练文本中所有事件论元的预测范围记为

(6,7)₂，(11,11)₃，(18,20)₄]。

采用二分图匹配法，匹配每一事件论元的预测范围与真值范围，得到N个候选匹配组。例如，其中一个候选匹配组可以为：真值范围内的(6,7)₁对预测范围内(6,7)₂，真值范围内的(8,9)₂对预测范围内(8,10)₁，真值范围内的(11,14)₃对预测范围内(11,11)₃，真值范围内的(18,20)₄对预测范围内(18,20)₄，这里，真值范围内的(6,7)₁和预测范围内的(6,7)₂是一个匹配对。

S5072：确定每一所述候选匹配组的损失函数值；其中，所述损失函数用于表示所述候选匹配组内每一所述匹配对之间的距离之和；

S5073：选择损失函数值满足第二预设条件的所述候选匹配组，得到与每一所述事件论元对应的最佳预测范围。

这里，步骤S5072和步骤S5073可参考步骤S4052和步骤S4053。

如图5所示，对于训练文本“在第一场辩论中，李明反驳了韩梅梅关于拦截搜身在纽约被裁定违宪的言论”，真值范围是(6,7)、(8,9)、(11,14)、(18,20)，通过上述二分图匹配损失方法，得到最佳预测范围是(6,7)、(8,10)、(11,11)、(18,20)，即第一个论元角色“参与者1”提取出的事件论元对应“李明”，第二个论元角色“参与者2”提取出的事件论元对应“韩梅梅”，改变了步骤S506中论元角色“参与者1”和“参与者2”的错误匹配。如此一来，可以有效降低了一个论元角色对应多个事件论元匹配错误的情况。

S508：基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值；

在一些实施例中，步骤S508的实施可以包括：

S5081：获取每一所述事件论元的最佳预测范围起始位置对应的所述第一内积结果和结束位置对应的所述第二内积结果；

S5082：归一化所述第一内积结果和所述第二内积结果；

S5083：基于归一化的所述第一内积结果和所述第二内积结果，确定所述方法用于的模型的损失函数值。

这里，步骤S5081至步骤S5083可参考步骤S4061至步骤S4063。

S509：基于所述损失函数值，训练所述事件抽取模型。

这里，步骤S509可参考步骤S407。

基于上述方法，针对ACE 2005、RAMS、WIKIEVENT三个数据集做了相应的验证：

其中，ACE 2005侧重于句子级文本的事件抽取(Sentence-Level Event ArgumentExtraction，S-EAE)，主要来自于新闻文章。RAMS和WIKIEVENT侧重于文档级文本的事件抽取(Document-Level Event Argument Extraction，D-EAE)，分别来自新闻和维基百科。表2显示了不同数据集在事件抽取过程中的详细统计数据。遵循相关技术中的数据集预处理和划分方法，但不需要任何实体的标定。

表2

数据集	ACE 2005	RAMS	WIKIEVENT
				事件论元数量
训练集	4859	17026	4552
				验证集	605	2188	428
测试集	576	2023	566
				事件类型	33	139	50
论元角色	36	65	59
				每个事件的事件论元数量	1.19	2.33	1.40

本申请实施例使用标准的要素识别F1分数(Arg-I)和要素分类F1分数(Arg-C)作为评估指标，其中，Arg-I用于衡量预测范围的位置，Arg-C用于衡量论元角色是否被正确预测。对于WIKIEVENT，还评估了中心词F1，只涉及中心词的匹配。

具体方法：在单张NVIDIA V100和1080Ti显卡上训练预训练模型(Pre-trainedLanguage Model，PLM)基础版或加强版的模型。本申请实施例选择AdamW作为优化方法，以预热率为0.1的线性学习率为调度策略。由于文档占用的内存较多，减少批量处理数，并将最大训练迭代次数从10000增加到20000。还以窗口大小为500左右个触发词来训练模型以适应图形处理器(Graphics Processing Unit，GPU)。训练过程中真值标定缺失率小于0.1％。为了公平比较，使用RAMS中的所有文档进行评估。S-EAE和D-EAE的学习率分别为4e^-5和3e^-5。

基准：选择以下基准原因，因为它们在事件论元提取(Event ArgumentExtraction，EAE)中实现了最先进的性能，并且也基于PLM：

1.EEQA为S-EAE任务设计的第一个基于(机器)阅读理解(Question Answering，QA)的模型。

2.FEAE通过知识蒸馏考虑事件论元交互，将基于QA的方法扩展到D-EAE。

3.ONEIE联合提取实体、关系和事件，与基于QA的模型不同，它们依赖于提取的实体作为候选参数。

4.BART-Gen通过序列到序列模型顺序生成事件论元，而不是从文章中抽取事件论元的起止范围。

表3显示了不同模型的整体性能。

表3

其中，BERT-B是BERT基础版，BERT-L是BERT加强版，BART-B是BART基础版，BART-L是BART加强版，PAIE-B是本申请实施例提供模型的基础版，PAIE-L是本申请实施例提供模型的加强版，Arg-I用于衡量预测范围的位置，Arg-C用于衡量论元角色是否被正确预测，Head-C用于衡量中心词的匹配。

这里，不同模型对应的不同数据集(ACE05、RAMS和WIKIEVENT)下的Arg-I、Arg-C和Head-C数值越高，说明预测的准确率越高，即Arg-I的数值越高，预测范围越准确，Arg-C的数值越高，论元角色被正确预测的概率越高，Head-C的数值越高，中心词的匹配越正确。

可以观察到：(1)在包括S-EAE和D-EAE任务在内的所有数据集上，PAIE与基准方法相比表现最好。这证明了本申请实施例提出的方法具有良好的泛化能力。它不仅继承了基础的基于QA的EAE模型的优点，而且成功地解决了特别是文档级文本事件抽取中事件论元之间长距离的问题。(2)作为PLM的主干网络，BART的性能比BERT好得多。本申请实施例提供的方法可以通过BART-L进一步实现改进，表明了采用模板解码能够带来很好的性能。(3)考虑事件论元交互的模型(FEAE、BART-Gen和PAIE)比其他模型表现更好，尤其是在D-EAE任务上。这一点与本申请实施例的预期相匹配，即跨句事件论元需要长距离依赖，而隐式或显式引入事件论元之间的依赖关系信息会提高模型预测的准确性。

基于前述的实施例，本申请实施例提供一种事件抽取装置，该装置包括所包括的各模块、以及各模块所包括的各子模块，各子模块所包括的各单元，以及各单元所包括的各子单元，都可以通过电子设备来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图6为本申请实施例提供的一种事件抽取装置的组成结构示意图，如图6所示，所述事件抽取装置600包括第一获取模块601、第一提取模块602、第二获取模块603，第一解码模块604和确定模块605，其中：

第一获取模块601，用于获取输入文本；其中，所述输入文本包括触发词和至少一个事件论元；

第一提取模块602，用于通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合；

第二获取模块603，用于获取与所述触发词对应的目标抽取模板；

第一解码模块604，用于利用解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量；

第一确定模块605，用于基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

在一些实施例中，所述装置还包括：第一转化模块606：用于分别将所述输入文本和所述目标抽取模板转化为文本词向量集合和模板词向量集合。

在一些实施例中，所述提取模块602包括：编码子模块，用于利用所述编码器对所述文本词向量集合进行编码，得到第二文本特征向量集合；第一解码子模块，用于利用所述解码器对所述文本词向量集合和所述第二文本特征向量集合进行解码，得到所述输入文本对应的第一文本特征向量集合。

对应地，所述解码模块604包括：第二解码子模块，用于利用所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到每一所述事件论元的论元特征向量。

在一些实施例中，所述第二解码子模块包括：解码单元，用于利用所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到融合输入文本信息的模板特征向量集合；第一确定单元，用于基于所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量。

在一些实施例中，所述第一确定单元包括：提取子单元，用于针对所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，提取出与每一所述论元角色对应的每一所述事件论元的特征向量；池化子单元，用于针对每一所述事件论元的特征向量进行平均池化，得到所述事件论元的论元特征向量。

在一些实施例中，所述装置还包括：第二确定模块，用于基于所述触发词，确定目标事件类型；第三确定模块，用于基于所述目标事件类型从预设的模板库中，确定目标抽取模板。

在一些实施例中，所述装置还包括：第四确定模块，用于确定文本集合对应的事件类型集合，所述事件类型集合中包括至少一种事件类型；第五确定模块，用于确定每一所述事件类型中的至少两个论元角色，以及所述至少两个论元角色之间的关系信息；拼接模块，用于针对每一所述事件类型，基于所述至少两个论元角色之间的关系信息将所述至少两个论元角色进行拼接，得到每一所述事件类型的抽取模板；形成模块，基于所述事件类型集合中每一所述事件类型的抽取模板，形成所述预设的模板库。

在一些实施例中，所述装置还包括：第三获取模块，用于获取所述输入文本的触发词，并标识输入文本的触发词；对应地，所述提取模块602，用于通过编码器和解码器，提取标识后的输入文本对应的第一文本特征向量集合。

在一些实施例中，所述第一确定模块605包括：第一确定子模块，用于基于所述第一文本特征向量集合对应词元的数量，确定每一所述事件论元的至少一个候选起止范围；第二确定子模块，用于针对每一所述事件论元，基于所述事件论元的至少一个候选起止范围和所述事件论元的论元特征向量，确定与所述事件论元对应的取值范围。

在一些实施例中，所述第二确定子模块包括：转化单元，用于将每一所述事件论元的论元特征向量转换为表示起始位置的起始搜索向量和表示结束位置的结束搜索向量；第二确定单元，用于确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述起始搜索向量的第一内积结果，得到每一所述事件论元候选起始位置的第一内积结果集合；第三确定单元，用于确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述结束搜索向量的第二内积结果，得到每一所述事件论元候选结束位置的第二内积结果集合；第四确定单元，用于基于每一所述事件论元候选起始位置的第一内积结果集合和候选结束位置的第二内积结果集合，确定与每一所述事件论元对应的取值范围。

图7为本申请实施例提供的一种事件抽取模型的训练装置的组成结构示意图，如图7所示，所述事件抽取模型的训练装置700包括：

第四获取模块701，用于获取训练文本和与训练文本对应的目标抽取模板；

第二提取模块702，用于通过编码器和解码器，提取所述训练文本对应的第一文本特征向量集合；

第二编码模块703，用于通过所述解码器对所述目标抽取模板和所述训练文本进行编码，得到每一所述事件论元的论元特征向量；

第六确定模块704，用于基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，通过所述论元检测模块，确定与每一所述事件论元对应的预测范围；

匹配模块705，用于匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围；

第七确定模块706，用于基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值；

训练模块707，用于基于所述损失函数值，训练所述事件抽取模型。

在一些实施例中，匹配模块705包括：匹配子模块，用于采用二分图匹配法，匹配每一所述事件论元的预测范围与真值范围，得到候选匹配组，其中，所述候选匹配组包括至少一个匹配对，所述一个匹配对包括一个所述事件论元的预测范围与真值范围；第三确定子模块，用于确定每一所述候选匹配组的损失函数值；其中，所述损失函数用于表示所述候选匹配组内每一所述匹配对之间的距离之和；选择子模块，用于选择损失函数值满足第二预设条件的所述候选匹配组，得到与每一所述事件论元对应的最佳预测范围。

在一些实施例中，所述第七确定模块706包括：获取子模块，用于获取每一所述事件论元的最佳预测范围起始位置对应的第一内积结果和结束位置对应的第二内积结果；归一化子模块，用于归一化所述第一内积结果和所述第二内积结果；第四确定子模块，用于基于归一化的所述第一内积结果和所述第二内积结果，确定所述方法用于的模型的损失函数值。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的事件抽取方法及相关训练方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、ROM(Read OnlyMemory，只读存储器)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例中提供的事件抽取方法及相关训练方法中的步骤。

对应地，本申请实施例提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述事件抽取方法及相关训练方法中的步骤。

这里需要指出的是：以上存储介质和平台实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和平台实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图8为本申请实施例电子设备的一种硬件实体示意图，如图8所示，该电子设备800的硬件实体包括：处理器801、通信接口802和存储器803，其中

处理器801通常控制电子设备800的总体操作。

通信接口802可以使电子设备800通过网络与其他平台或电子设备或服务器通信。

存储器803配置为存储由处理器801可执行的指令和应用，还可以缓存待处理器801以及电子设备800中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过FLASH(闪存)或随机访问存储器(Random AccessMemory，RAM)实现。

本申请实施例还提供一种计算机程序产品，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现前述方法中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种事件抽取方法，其特征在于，包括：

获取输入文本；其中，所述输入文本包括触发词和至少一个事件论元；

通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合；

获取与所述触发词对应的目标抽取模板；

通过所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量；

基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

2.根据权利要求1所述的方法，其特征在于，还包括：

分别将所述输入文本和所述目标抽取模板转化为文本词向量集合和模板词向量集合；

所述通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合，包括：

通过所述编码器对所述文本词向量集合进行编码，得到第二文本特征向量集合；

通过所述解码器对所述文本词向量集合和所述第二文本特征向量集合进行解码，得到所述输入文本对应的第一文本特征向量集合；

对应地，所述通过所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量，包括：

通过所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到每一所述事件论元的论元特征向量。

3.根据权利要求2所述的方法，其特征在于，所述通过所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到每一所述事件论元的论元特征向量，包括：

利用所述解码器对所述模板词向量集合和所述第二文本特征向量集合进行解码，得到融合输入文本信息的模板特征向量集合；

基于所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，确定与每一所述论元角色对应的每一所述事件论元的论元特征向量，包括：

针对所述模板词向量集合中每一论元角色的位置信息，从所述模板特征向量集合中，提取出与所述论元角色对应的每一所述事件论元的特征向量；

针对每一所述事件论元的特征向量进行平均池化，得到所述事件论元的论元特征向量。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

基于所述触发词，确定目标事件类型；

基于所述目标事件类型从预设的模板库中，确定目标抽取模板。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定文本集合对应的事件类型集合，所述事件类型集合中包括至少一种事件类型；

确定每一所述事件类型中的至少两个论元角色，以及所述至少两个论元角色之间的关系信息；

针对每一所述事件类型，基于所述至少两个论元角色之间的关系信息将所述至少两个论元角色进行拼接，得到每一所述事件类型的抽取模板；

基于所述事件类型集合中每一所述事件类型的抽取模板，形成所述预设的模板库。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

获取所述输入文本的触发词，并标识所述输入文本的触发词；

通过编码器和解码器，提取标识后的输入文本对应的第一文本特征向量集合。

8.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围，包括：

基于所述第一文本特征向量集合对应词元的数量，确定每一所述事件论元的至少一个候选起止范围；

针对每一所述事件论元，基于所述事件论元的至少一个候选起止范围和所述事件论元的论元特征向量，确定与所述事件论元对应的取值范围。

9.根据权利要求8所述的方法，其特征在于，所述针对每一所述事件论元，基于所述事件论元的至少一个候选起止范围和所述事件论元的论元特征向量，确定与所述事件论元对应的取值范围，包括：

将每一所述事件论元的论元特征向量转换为表示起始位置的起始搜索向量和表示结束位置的结束搜索向量；

确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述起始搜索向量的第一内积结果，得到每一所述事件论元候选起始位置的第一内积结果集合；

确定所述第一文本特征向量集合中每一词元对应特征向量与每一所述结束搜索向量的第二内积结果，得到每一所述事件论元候选结束位置的第二内积结果集合；

基于每一所述事件论元候选起始位置的第一内积结果集合和候选结束位置的第二内积结果集合，确定与每一所述事件论元对应的取值范围。

10.一种事件抽取模型的训练方法，其特征在于，所述事件抽取模型包括编码器、解码器和论元检测模块，包括：

获取训练文本和与训练文本对应的目标抽取模板；

通过所述编码器和解码器，提取所述训练文本对应的第一文本特征向量集合；

通过所述编码器对所述目标抽取模板和所述训练文本进行编码，得到每一所述事件论元的论元特征向量；

基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，通过所述论元检测模块，确定与每一所述事件论元对应的预测范围；

匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围；

基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值；

基于所述损失函数值，训练所述事件抽取模型。

11.根据权利要求10所述的方法，其特征在于，所述匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围，包括：

采用二分图匹配法，匹配每一所述事件论元的预测范围与真值范围，得到候选匹配组，其中，所述候选匹配组包括至少一个匹配对，所述一个匹配对包括一个所述事件论元的预测范围与真值范围；

确定每一所述候选匹配组的损失函数值；其中，所述损失函数值用于表示所述候选匹配组内每一所述匹配对之间的距离之和；

选择损失函数值满足第二预设条件的所述候选匹配组，得到与每一所述事件论元对应的最佳预测范围。

12.根据权利要求10或11所述的方法，其特征在于，所述基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值，包括：

获取每一所述事件论元的最佳预测范围起始位置对应的第一内积结果和结束位置对应的第二内积结果；

归一化所述第一内积结果和所述第二内积结果；

基于归一化的所述第一内积结果和所述第二内积结果，确定所述方法用于的模型的损失函数值。

13.一种事件抽取装置，其特征在于，包括：

第一获取模块，用于获取句子级或文档级文本的输入文本；其中，所述输入文本包括触发词和至少一个事件论元；

第一提取模块，用于通过编码器和解码器，提取所述输入文本对应的第一文本特征向量集合；

第二获取模块，用于获取与所述触发词对应的目标抽取模板；

第一解码模块，用于利用所述解码器对所述目标抽取模板和所述输入文本进行解码，得到每一所述事件论元的论元特征向量；

第一确定模块，用于基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，确定与每一所述事件论元对应的取值范围。

14.一种事件抽取模型的训练装置，其特征在于，包括：

第四获取模块，用于获取训练文本和与训练文本对应的目标抽取模板；

第二提取模块，用于通过所述编码器和解码器，提取所述训练文本对应的第一文本特征向量集合；

第二编码模块，用于通过所述编码器对所述目标抽取模板和所述训练文本进行编码，得到每一所述事件论元的论元特征向量；

第六确定模块，用于基于所述第一文本特征向量集合和每一所述事件论元的论元特征向量，通过所述论元检测模块，确定与每一所述事件论元对应的预测范围；

匹配模块，用于匹配每一所述事件论元的预测范围与真值范围，得到损失函数值满足第二预设条件的与每一所述事件论元对应的最佳预测范围；

第七确定模块，用于基于每一所述事件论元的最佳预测范围，确定所述事件抽取模型的损失函数值；

训练模块，用于基于所述损失函数值，训练所述事件抽取模型。

15.一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至12任一项所述方法中的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至12任一项所述方法中的步骤。