CN112528676A

CN112528676A - 文档级别的事件论元抽取方法

Info

Publication number: CN112528676A
Application number: CN202011506990.8A
Authority: CN
Inventors: 温延龙; 王嘉贤; 张莹; 蔡祥睿; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-19
Anticipated expiration: 2040-12-18
Also published as: CN112528676B

Abstract

本发明提出了一种文档级别的事件论元抽取方法，本发明公开的方法是以非结构化的文档文本作为输入数据，构建基于深度学习的文档级别事件论元抽取模型，包含两个阶段，一个预训练阶段用于微调训练好的文本表示模型，一个抽取模型的训练和预测阶段用于学习各类事件角色的特征和生成预测结果，在两个阶段中均利用了事件角色的语义信息作为文本特征的扩充，以生成更加准确的事件论元抽取结果。对于普遍使用的文档级别事件论元抽取数据集，本发明的方法效果显著优于目前现有的文档级别事件论元抽取方法，证明事件角色的语义信息有助于从文档中进行事件论元的抽取。

Description

文档级别的事件论元抽取方法

技术领域

本发明属于人工智能技术领域，具体涉及一种从文档即包含多个句子作为输入的文本中抽取事件论元的技术。

背景技术

随着大数据时代的到来，越来越多的信息以非结构化文本的形式呈现在互联网中，如何从这些海量的文本中寻找有用信息，抽取出对应知识的需求变得越来越强烈。

文档级别的事件论元抽取任务作为信息抽取领域的一项重要子任务，旨在从文档中识别出与特定事件相关的论元以及它们在事件中扮演的角色类别，从而形成结构化的事件知识。一个性能良好的事件论元抽取系统能够促进许多下游应用，如基于事件的知识图谱构建，风险预测分析以及决策支持系统构建。

文档级别的事件论元抽取任务近年来得到了广泛的研究。传统的事件论元抽取研究主要采用基于特征工程的机器学习方法，这类方法以人为设计好的语言学文本特征作为前提，训练相应的机器学习模型；近些年来的研究尝试利用深度学习模型来学习不同的文本表示向量，以提升事件论元抽取的效果。然而，这些方法都只考虑了文本的语义特征而忽略了事件角色类别所包含的语义信息。

在事件论元的抽取任务中，每个事件论元均有一个事件角色与之对应，这些事件角色描述了事件论元和它们所参与的事件之间的关系。除此之外，事件角色还描述了一类事件论元均具备的抽象属性等。

这些关系以及抽象属性的描述均属于事件角色语义信息的一部分，对这些信息显式地利用将有助于提升文档级别的事件论元抽取效果。例如，袭击类事件共包含5种事件角色：袭击者个体、袭击者组织、袭击目标、受害者以及袭击工具，其中，根据事件角色语义信息，袭击者个体和受害者表示这两个类别的事件论元应该指代一个人而非一个物体。借助这些事件角色语义信息，在进行文档级别的事件论元抽取时，对指代人的单词，将更容易地将这些单词与袭击者个体和受害者这两类事件角色相关联，然后根据文本的上下文语义，能更加准确地识别出这些单词对应的事件角色。

综上所述，结合事件角色语义信息进行文档级别的事件论元抽取是一个创新的研究思路，具有重要的研究意义和应用价值。

发明内容

本发明的目的是解决现有的文档级别的事件论元抽取方法对事件角色语义信息考虑不足的问题，提出一种结合事件角色语义信息的文档级别的事件论元抽取方法。该方法以序列标注模型为基本框架，在两个阶段的训练任务中结合事件角色语义信息，使文档级别的事件论元抽取更加准确和完整。

本发明的技术方案

文档级别的事件论元抽取方法，该方法构建一个融合事件角色语义的序列标注模型，在不同粒度的文本语义信息基础上结合事件角色的语义信息，最终提升文档级别的事件论元抽取效果。本发明提出的方法的具体步骤如下：

步骤1、文本表示模型微调；

该阶段的目标是将文本的语义空间和事件角色所描述的语义空间进行关联。因为预训练好的文本表示模型没有将事件角色的语义特征考虑在内，而论元的文本语义不一定包含对事件角色的描述信息，所以需要将文本和事件角色在语义空间上进行关联，以丰富文本的表示。

步骤1.1、生成论元与事件角色匹配/非匹配对；

给定一个文档d通常由多个句子组成，即d＝{s₁，s₂，...，s_n}，其中，n是句子的数量。每一个句子又可以被表示一个符号序列，如第i个句子可以表示为

其中，x表示文本经分词器分词处理后得到的不同符号，l_i表示第i个句子中符号的数量。

对于每一个事件论元，记其在文档中对应的符号序列为x_a，其分配的事件角色为r_t，其中t表示该事件角色为m个事件角色中的第t个。通过组合x_a和r_t生成论元与事件角色的匹配对。对于每一个生成的匹配对，从文档中随机选择一个和x_a具有相同长度的符号序列x_na，要求该符号序列不对应任何事件论元。通过组合x_na和r_t生成论元与事件角色的非匹配对。为保证数据的平衡性，匹配对和非匹配对的数量保持一致。

步骤1.2、利用论元与事件角色对微调文本表示模型；

本发明中利用上下文表示模型BERT生成符号的原始嵌入向量表示，文本表示模型微调的目标是利用事件角色语义信息微调原始训练好的BERT模型。根据匹配/非匹配对的使用方式，本发明中设计了两种不同的微调策略。一种是基于符号序列分类的微调策略TC，另一种是基于符号序列和角色标签关系预测的微调策略TLP。

TC微调策略中将事件角色视作简单的标记，通过对符号序列的分类来微调训练好的BERT模型。对于匹配和非匹配对，此微调策略在符号序列x_a和x_na的头部添加分类符号[CLS]，以及在尾部添加分割符号[SEP]。此微调策略中以这些扩充得到的符号序列作为BERT的输入，然后根据BERT模型最后一层中对[CLS]符号的表示进行输出。对于匹配对，其输出应为匹配对中事件角色所对应的标记下标，如下标0表示袭击类事件中的袭击者个体这一事件角色；对于任意非匹配对，其输出应为非事件角色这一固定标记的下标。至此，TC微调策略的优化目标为：对符号序列分类其正确的事件角色标记下标。

TLP微调策略中将匹配对/非匹配对中的事件角色替换为描述性文本，这些描述性文本是对不同事件角色的简要描述，例如，袭击者个体这一事件角色的描述性文本为“发动袭击的个人”。记事件角色r_t的描述性文本为r_dt。对于匹配和非匹配对，此微调策略在符号序列的头部添加分类符号[CLS]，在符号序列和事件角色的描述性文本之间添加分割符号[SEP]，以及在事件角色的描述性文本尾部添加分割符号[SEP]。TLP微调策略中以这些扩充得到的序列作为BERT的输入，然后根据BERT模型最后一层中对[CLS]符号的表示进行输出。对于匹配对，其输出应为0，表示输入的符号序列和事件角色描述性文本是相关的；对于非匹配对，其输出应为1，表示输入的符号序列与事件角色描述性文本无关。至此，TLP微调策略的优化目标为：对符号序列和事件角色描述性文本预测其正确的关系。

步骤2、生成文本的上下文特征表示；

步骤1将文本的语义空间和事件角色所描述的语义空间进行关联，接下来利用这种关联来引导文档级别的事件论元抽取。整体抽取模型以序列标注模型为基础，首先生成包含上下文语义的文本特征表示。因为以序列标注模型为基础，所以原始的标注数据被转变为符号和BIO标签对的格式，这些符号和BIO标签分别作为抽取模型的输入和输出。

为捕获文本序列的双向特征，本发明采用BiLSTM网络模型生成文本的上下文表示。经过步骤1微调过的BERT模型后，输入抽取模型的第i个句子被表示为一个向量序列的集合，记为

其中，

表示不同符号的嵌入向量。这些向量序列作为BiLSTM模型的输入。BiLSTM模型包括正向LSTM和反向LSTM两个模型，这两个LSTM模型的计算遵循相同的公式和过程，区别在于输入序列的顺序不同。

因为在句子层面和文档层面分别表达了不同的上下文语义信息，所以对输入抽取模型的文档文本，分别建立句子层面和文档层面的文本上下文表征模型。这些上下文表征模型结构相同，均为BiLSTM，区别在于输入的文本长度不同，前者以单一句子作为输入，后者以多个句子作为输入。

步骤2.1、生成句子级别的文本上下文特征表示；

考虑句子层面的上下文语义特征，本发明构建以单一句子作为输入的BiLSTM模型，记为BiLSTM_Single。通过该模型，生成单一句子级别的文本上下文特征表示

步骤2.2、生成文档级别的文本上下文特征表示；

文档比单一句子具有更广的上下文，且表达了不同的上下文信息，本发明构建以多个连续的句子作为输入的BiLSTM模型，记为BiLSTM_Multi。利用该模型，生成文档级别的文本上下文特征表示

步骤3、融合文本上下文特征和事件角色语义特征；

步骤2生成的特征表示涵盖了文本的上下文信息，为充分利用步骤1中关联的事件角色语义信息，通过构建事件角色语义的注意力模块生成事件角色语义特征向量，并将文本上下文特征向量和事件角色语义特征向量进行融合，丰富各符号的语义信息。

步骤3.1、生成事件角色语义特征向量；

在文本表示层之上，构建事件角色语义注意力模块以捕获各符号对不同的事件角色语义的注意度。因为步骤2中对每个符号的文本上下文表示包括句子级别和文档级别的，因此分别为不同粒度的文本上下文表示生成对应的事件角色语义特征向量。此过程为每个事件角色生成其对应的简要描述文本，该文本与步骤1.2中TLP微调策略使用的描述性文本相同。这些描述性文本经过微调后的文本表示模型，生成的向量结果即为不同的事件角色语义。

给定符号

和事件角色语义r_t，它们之间的注意力分值通过向量内积计算得出，即两个向量中对应位置的元素相乘并对相乘后的结果进行求和。给定符号

对不同事件角色语义的注意力权重通过softmax函数计算得出，该函数将符号

和各事件角色语义的注意力分值映射为区间[0，1]之间的实数，并保证归一化后的数值加和为1。如给定符号

对第t个事件角色r_t的注意力权重

计算为：

其中，m为事件角色的数量。

与符号

对应的事件角色语义特征向量通过对各个事件角色语义进行加权求和得到：

对于句子级别和文档级别的文本上下文表示，通过两个独立的注意力模块计算出不同粒度下的事件角色晤义特征向量，分别记作

和

与

和

对应。

步骤3.2、融合不同粒度的文本上下文特征向量和事件角色语义特征向量；

经过步骤2生成文本上下文特征向量和3.1步生成事件角色语义特征向量后，每个句子均有两种粒度的文本上下文表示，以及两种粒度的事件角色语义特征表示。通过拼接的方式将同一粒度的文本上下文表示和事件角色语义特征表示进行结合，得到完整的句子级别特征和文档级别特征，分别记作

和

即：

由于不同粒度下的特征对最终预测结果有着不同程度的影响，需要对句子级别的特征和文档级别的特征进行融合。通过门控融合策略将两种粒度下的特征表示进行融合，其计算过程如下：

其中，W₁，W₂和b是模型的超参数，符号⊙表示逐元素进行乘积运算。

步骤4、基于融合特征输出预测标签，训练整个抽取模型的参数；

步骤3融合得到的特征包括了不同粒度的文本上下文信息以及事件角色语义信息，为实现合理的抽取结果，本发明运用条件随机场(conditional randomfield，CRF)模块，基于融合后的特征表示，输出每个符号的BIO标签预测结果。

为了满足CRF模块的输入，通过一个线性层将融合后的特征向量映射成长度为M的向量z，其中，M表示BIO标签的数量。向量z中的各个值分别表示当前符号对不同BIO标签的评分。在输入序列

和候选的BIO标签序列y，该标签序列的分值通过以下过程进行计算：

其中，T是模型的超参数，表示CRF模块中计算得到的转移矩阵，其中的元素

表示由BIO标签y_p-1转换为BIO标签y_p分值。之后，通过softmax函数输出具有最高分值的BIO标签序列。

训练阶段的模型优化目标是令真实的BIO标签序列y_gold在所有BIO标签序列中具有最大似然概率，且基于Score函数计算得到的损失变化满足设定阈值。测试阶段模型输出具有最大似然概率的BIO标签序列作为预测结果。

步骤5、抽取未知文档的事件论元；

利用训练集的已知标注数据对整体抽取模型的参数进行训练学习后，以未知的待抽取文档作为测试集数据，从中抽取相关的事件论元。

对待测试的未知文档，使用和训练集数据相同的处理方式，通过分词器将文档转换为符号序列，然后输入至此前训练得到的抽取模型中，输出具有最大似然概率的BIO标签序列。在得到BIO标签序列之后，将同一类BIO标签对应的连续符号重新组合成单词或短语，也就是根据BIO标签还原文本中的单词或短语，即可得到未知文档中的事件论元抽取结果。

本发明的优点和积极效果：

本发明开创性地提出一个结合事件角色语义信息的文档级别的事件论元抽取方法，通过微调预训练好的文本表示模型来关联文本语义和事件角色语义的空间，然后分别生成两种粒度的文本上下文特征向量和事件角色语义特征向量，并通过门控融合策略融合两种粒度下的特征表示，基于融合后的特征进行文档级别的事件论元抽取。特别的，为充分利用在微调文本表示模型阶段关联的事件角色语义信息，在生成文本上下文特征向量的基础上，通过构建注意力模块生成事件角色语义特征向量，丰富各符号的语义信息，以此实现更加准确的抽取效果。本发明重点关注事件角色语义信息对文档级别的事件论元抽取任务的影响，通过两个阶段的模型训练充分利用事件角色语义信息，以此提升从文档中抽取事件论元的效果，同时令抽取的论元短语更加完整。

附图说明

图1为文档级别的事件论元抽取方法的流程图。

图2为文档级别的事件论元抽取定义图。

图3为用于事件论元抽取的结合了事件角色语义的序列标注模型。

图4为基于MUC-4数据集的事件论元抽取的宏平均结果示意图。

图5为基于核心词匹配评估的各类事件角色上的抽取结果示意图。

图6为基于完全匹配评估的各类事件角色上的召回数量结果示意图。

图7为基于不同句子数量作为输入的抽取结果示意图。

具体实施方式

本发明提出了一种文档级别的事件论元抽取方法，方法的主要流程如图1所示。

本发明的具体实施过程分为五个步骤，其中第2到4步是基于如图3所示的结合了事件角色语义的序列标注模型执行的。下面结合附图详细说明本发明的具体实施方式。

本发明解决从文档中抽取出与特定事件相关的论元这一研究问题，图2为该问题的定义图，左侧为待抽取的非结构化文档文本，要求通过事件论元抽取技术，从文档中抽取出预先定义好结构的事件的特定论元。例如，应当从文档中抽取出“youngmen”这一短语，并识别其在袭击事件中扮演的事件角色为袭击者个体。

本发明提出的文档级别的事件论元抽取方法，在实施阶段采用了普遍使用的文档级别事件论元抽取数据集MUC-4，此数据集是由MessageUnderstandingConferences(MUCs)会议公开的标准信息抽取数据集，包括了关于袭击事件的大量新闻报道以及不同事件类型的模板。该数据集最初公布的划分文件中共包含5个集合，分别是DEV，TST1，TST2，TST3和TST4。其中，DEV集合包含了1300篇文档以及对应事件模板的标注结果；TST1，TST2，TST3和TST4这几个集合分别包含100篇文档以及对应的标注。

在获得事件论元抽取的文档数据集后，设置从文档中应抽取的属于何种事件角色的论元。遵循在MUC-4数据集上一致的研究设定，从MUC-4标注的事件模板中，选择5个事件角色，分别是袭击者个体、袭击者组织、袭击目标、受害者以及袭击工具。同样地，遵循在MUC-4数据集上一致的数据划分设定，将DEV集合作为模型的训练集，TST1和TST2集合作为模型的验证集，TST3和TST4集合作为测试集。这样就得到了用于模型训练，参数选择以及测试的数据。

第1步、文本表示模型微调

预训练好的文本表示模型BERT中没有包含事件角色所描述的语义信息，为了关联文本的语义信息，构建文本表示模型的微调模型来使得生成的文本表示携带有事件角色语义信息。从MUC-4数据集的训练集中，将标注的格式转换为事件论元与事件角色相对应的匹配对x_a-r_t。为了让生成的文本表示能够区分事件论元和非事件论元，在生成每个匹配对的同时，生成非匹配对x_na-r_t。使用相同数量的匹配对和非匹配对作为微调模型训练的输入，能够避免微调模型过拟合于事件论元或非事件论元。

本发明提供两种微调模型：基于符号序列分类的TC微调模型，以及基于符号序列和角色标签关系预测的TLP微调模型。

TC微调模型在符号序列的首部和尾部分别添加分类符号和分割符号，并以此作为输入，然后在BERT模型最后一层中对分类符号[CLS]的表示向量之上，构建全连接层以输出此符号序列对应的事件角色(或属于非事件角色)，所以该微调模型的优化目标是令符号序列对应的事件角色(或非事件角色)具有最大的输出概率，通过这样的方式从事件论元的文本表示中学习事件角色的语义特征。

TLP微调模型与TC不同，为每个事件角色r_t生成描述性文本r_dt，将此描述性文本通过BERT产生的向量作为事件角色的语义信息，然后通过预测符号序列和事件角色语义信息的关系来关联文本语义空间和事件角色语义空间。具体的，将x_a-r_dt合并为一个序列，然后在首部添加分类符号，在x_a和r_dt之间以及序列尾部添加分割符号，以此作为TLP的输入。同样基于BERT模型中最后一层对[CLS]的表示向量，构建全连接层来输出符号序列和事件角色之间的关系，其中，以匹配对作为输入时，输出应为0表示符号序列和事件角色是相关的；以非匹配对作为输入时，输出应为1表示它们之间是不相关的。所以TLP的优化目标是令正确的关系表示具有最大的输出概率，以此为文本表示关联事件角色语义信息。

第2步、生成文本的上下文特征表示

经过微调后的文本表示模型，其生成的文本嵌入向量表示隐式地携带了不同的事件角色语义信息。为捕获输入文本所在句子和文档中的不同上下文信息，构建两个BiLSTM网络来捕获不同粒度的文本上下文语义特征。

对于文档中的第i个至第k个句子{X_i，...，X_k}，分别以句子为单位输入至一个BiLSTM中，以此生成每个符号在句子级别的文本上下文特征

另一方面，对于输入文档的第i个至第k个句子{X_i，...，X_k}，同时将这些句子输入至另一个BiLSTM网络中，由此生成文档级别的文本上下文特征

该BiLSTM网络所输入的句子数量作为模型的超参数。

第3步、融合文本上下文和事件角色语义特征

经过两个BiLSTM网络后，抽取模型已经学习到了不同粒度的文本上下文特征，同时隐式地包含了事件角色语义特征。为了更加充分和显式地利用事件角色语义信息，抽取模型在生成文本上下文特征表示后，通过事件角色语义的注意力模块(RoleSemanticsAttention，RSA)生成对应粒度的事件角色语义特征向量

和

之前隐式包含的事件角色语义特征将会在一定程度上引导RSA模块生成更加有效的事件角色语义特征向量。经过文本表示模块和RSA模块，已经得到了分别在句子级别和文档级别的文本特征向量以及事件角色语义特征向量，接下来考虑如何有效地结合这些特征向量以生成表征多粒度文本语义及事件角色语义的特征向量。

为生成不同粒度的特征向量，模型通过拼接的方式结合此前生成的事件角色语义特征向量和上一步生成的文本上下文特征向量，形成如下的特征向量：

为生成表征多粒度文本语义和事件角色语义的特征向量，模型通过门控融合(GatedFusion，GF)模块为不同粒度的特征向量分配不同的权重并将它们进行融合：

融合得到的特征向量S_i即为输入文档的第i个句子的特征向量表示，它同时包含了句子级别和文档级别的文本语义信息及事件角色语义信息。

第4步、基于融合特征输出预测标签，训练更新整个抽取模型的参数

经融合后得到的特征向量同时表达了文本的语义信息以及事件角色的语义信息，同时还考虑了句子层面的上下文信息和文档层面的上下文信息。为利用这些丰富的语义信息从文档中抽取事件论元，模型通过CRF模块为文档中的每个符号预测BIO格式的标签。CRF模块要求预测得到的BIO标签序列符合序列标注模型中符号序列之间的关系，由此保证输出结果的合理性。为使得预测的BIO标签序列更加准确，需要对抽取模型中所有超参数的集合H进行训练，模型的训练目标是令真实的BIO标签序列y_gold在所有候选的BIO标签序列中具有最大似然概率，且令基于Score函数计算的损失变化达到阈值或达到最优值。通过有监督的方式对模型进行训练，以预测的BIO标签序列分值和真实BIO标签序列分值之间的误差设置目标损失函数，训练更新整个抽取模型的参数，使得最终得到的模型能够从文档中更加准确且更加完整地抽取出与5种选定事件角色相对应的事件论元。

第5步、针对未知的待抽取文档，利用训练好的抽取模型抽取出其中的事件论元

对于测试集中未知的待抽取文档数据，使用和训练集数据相同的处理方式，将待抽取文档通过分词器转换为符号序列。将处理后的符号序列输入至此前通过训练集训练得到的抽取模型中，生成相应的BIO预测标签序列。基于得到的BIO预测标签序列，将描述同一个事件角色的BIO标签所对应的符号进行合并，还原得到待抽取文档中对应的单词或短语，即可获得未知文档中所包含的事件论元。

在MUC-4数据集上验证了本发明提出的文档级别的事件论元抽取方法，设置两种类别的共计八个方法作为对比实验：第一组方法为基于特征工程的传统事件论元抽取方法，即GLACIER、TIER、Coh-Ext；第二组为近期基于不同深度学习模型的事件论元抽取方法，即SSR、CR、MGR、GTT、DYGIE++。我们以精确率(Precision)、召回率(Recall)和F1值作为事件论元抽取效果的衡量指标：F1值越高，表明模型整体的抽取效果越好；F1值越低，表示模型整体的抽取效果越差。精确率、召回率和F1值的计算方式有两种：一种是基于完全匹配进行评估，它评估抽取出的短语和标注的论元短语是否完全一致；第二种是基于核心词匹配进行评估，它评估抽取出的短语中是否包含了标注论元短语的核心词。第一种评估方式反映模型抽取完整的事件论元短语的效果，第二种则反映模型抽取事件论元核心词的效果。

图4展示了基于MUC-4数据集的事件论元抽取的宏平均结果。通过图4能够发现，本发明提出的方法RSA(TC)和RSA(TLP)在MUC-4数据集上取得了优于所有对比方法的抽取效果，基于完全匹配评估和核心词匹配评估的最高F1值分别为58.36和63.04。相比于最优的对比方法，分别实现了6％和4％的提升。由此可见，本发明提出的模型方法能取得不错的抽取效果。图5展示了基于核心词匹配评估的各类事件角色上的抽取结果，通过图5能够发现，本发明提出的方法在4个事件角色上的抽取效果明显优于对比方法，在袭击工具这一事件角色上，取得了和对比方法相接近的抽取效果。图6展示了基于完全匹配评估的各类事件角色上的召回数量结果，由图6可知，本发明提出的方法能够在4个事件角色中召回最多的完整论元短语，在袭击者组织这一事件角色上能召回和最优对比方法相近数量的完整论元短语，该结果说明本发明提出的方法能够抽取出更多完整的事件论元。图7展示了基于不同句子数量作为输入的抽取结果，输入抽取模型的句子的数量作为本发明方法的一个超参数，影响着文档级别的特征表示，根据图7的结果，发现同时输入模型的句子数量为3时能达到最好的抽取效果。以上对比结果充分说明了本发明提出的方法在文档级别的事件论元抽取任务上取得了不错的效果。

Claims

1.一种文档级别的事件论元抽取方法，其特征在于：包括以下步骤：

步骤1、从训练集的文档标注数据中，构造论元与事件角色的匹配/非匹配对，进而微调预先训练好的文本表示模型；

步骤2、将训练集的标注数据格式转换为符号和BIO标签对，利用第1步微调好的模型生成文本符号的初始嵌入向量表示，通过构造两个不同输入序列长度的BiLSTM网络为符号序列生成句子级别和文档级别的文本上下文特征表示；

步骤3、基于第2步生成的上下文特征表示，通过事件角色语义注意力模块生成与不同粒度上下文特征表示相对应的事件角色语义特征向量，融合这些特征向量生成每个符号的特征向量表示；

步骤4、基于融合后的每个符号的特征向量数据作为输入，采用CRF模块输出每个符号的BIO标签预测结果，通过BIO标签预测结果与步骤2中训练集中对应的真实BIO标签之间的误差设置目标损失函数，训练更新步骤2至4的整个抽取模型的参数；

步骤5、针对未知的待抽取文档，利用训练好的抽取模型抽取出其中的事件论元。

2.根据权利要求1所述的文档级别的事件论元抽取方法，其特征在于：步骤1中，预先训练好的文本表示模型采用BERT文本表示模型。

3.根据权利要求1所述的文档级别的事件论元抽取方法，其特征在于：步骤1中，微调预训练好的文本表示模型的具体方法是：

从原始数据中选择事件论元的符号序列，以及标注的事件角色，构建匹配对x_a-r_t，并通过非事件论元的符号序列构建非匹配对x_na-r_t；

对预先训练好的文本表示模型，通过基于符号序列分类的TC策略来进行微调：

对于匹配和非匹配对，在符号序列x_a和x_na的头部添加分类符号[CLS]，以及在尾部添加分割符号[SEP]，以这些扩充得到的符号序列作为预先训练好的文本表示模型的输入，然后根据模型最后一层中对[CLS]符号的表示进行输出，得到文本符号序列相对应的事件角色类别。

4.根据权利要求1所述的文档级别的事件论元抽取方法，其特征在于：步骤1中，微调预训练好的文本表示模型的具体方法是：

对预先训练好的文本表示模型，通过基于符号序列和角色标签关系预测的TLP策略来进行微调：

对于匹配和非匹配对，在符号序列的头部添加分类符号[CLS]，在符号序列和事件角色的描述性文本之间添加分割符号[SEP]，以及在事件角色的描述性文本尾部添加分割符号[SEP]，以这些扩充得到的序列作为预先训练好的文本表示模型的输入，然后根据模型最后一层中对[CLS]符号的表示进行输出，得到文本符号序列与事件角色描述性文本之间的相关关系。

5.根据权利要求1所述的文档级别的事件论元抽取方法，其特征在于：步骤2生成文本的上下文特征表示的具体方法是：

经过第1步微调好的模型生成文本符号的初始嵌入向量表示，第i个句子被表示为一个向量序列的集合，记为