CN116227603A

CN116227603A - 一种事件推理任务的处理方法、设备及介质

Info

Publication number: CN116227603A
Application number: CN202310518601.0A
Authority: CN
Inventors: 王华杰
Original assignee: Jinan Yunwei Software Technology Co ltd; Shandong University of Finance and Economics
Current assignee: Jinan Yunwei Software Technology Co ltd; Shandong University of Finance and Economics
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-06

Abstract

本发明公开了一种事件推理任务的处理方法、设备及介质，属于自然语言处理技术领域，用于解决如下技术问题：现有的事件推理任务的预测准确率低。方法包括：在事件推理任务中抽取第一预设数量的前提条件，并确定第二预设数量的结果选项；将所述前提条件分别与所述结果选项中的一个进行组合，构建事件特征；通过所述事件特征，遍历语言模型池，使用语言模型池中的语言模型对所述事件特征进行预测；根据预测结果，选定处理所述事件推理任务的语言模型；对选定的所述语言模型进行三阶训练，并使用训练完成的所述语言模型处理所述事件推理任务。

Description

一种事件推理任务的处理方法、设备及介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种事件推理任务的处理方法、设备及介质。

背景技术

事件推理任务指的是基于已有的事件序列，对未知的合理事件进行预测，对于事件风险预测、事件演化挖掘等现实落地场景，能够起到一定的参考意义。通俗来讲，事件推理任务也就是根据过去发生的事件来预测未来事件。

现有研究表明，语言模型能够在训练过程中提取到语义特征，而利用这些语义特征可以进行事件推理任务的预测处理。但这种处理方法，由于训练语料不充分等原因，导致事件推理任务的预测准确率不高。

发明内容

本申请实施例提供了一种事件推理任务的处理方法、设备及介质，用于解决如下技术问题：现有的事件推理任务的预测准确率低。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供了一种事件推理任务的处理方法，所述方法包括：在事件推理任务中抽取第一预设数量的前提条件，并确定第二预设数量的结果选项；将所述前提条件分别与所述结果选项中的一个进行组合，构建事件特征；通过所述事件特征，遍历语言模型池，使用语言模型池中的语言模型对所述事件特征进行预测；根据预测结果，选定处理所述事件推理任务的语言模型；对选定的所述语言模型进行三阶训练，并使用训练完成的所述语言模型处理所述事件推理任务。

在一种可行的实施方式中，使用语言模型池中的语言模型对所述事件特征进行预测，具体包括：所述语言模型为Bert模型时，对所述事件特征中包含的结果选项进行遮挡；对被遮挡的所述结果选项进行重建；将重建结果与所述结果选项进行对比，并根据对比结果确定所述事件特征的预测得分。

在一种可行的实施方式中，使用语言模型池中的语言模型对所述事件特征进行预测，具体包括：所述语言模型为XLNet模型时，所述XLNet模型中包含自回归语言模型与自编码语言模型；通过所述自回归语言模型学习所述事件特征的上下文依赖关系；对所述事件特征中的结果选项进行遮挡；根据所述上下文依赖关系，通过所述自编码语言模型对被遮挡的所述结果选项进行重建；将重建结果与所述结果选项进行对比，并根据对比结果确定所述事件特征的预测得分。

在一种可行的实施方式中，使用语言模型池中的语言模型对所述事件特征进行预测，具体包括：所述语言模型为GPT模型时，所述GPT模型中包含自回归语言模型；通过所述自回归语言模型学习所述事件特征的下文对上文的依赖关系；对所述事件特征中的结果选项进行遮挡；根据所述下文对上文的依赖关系，对被遮挡的所述结果选项进行重建；将重建结果与所述结果选项进行对比，并根据对比结果确定所述事件特征的预测得分。

在一种可行的实施方式中，对选定的所述语言模型进行三阶训练，具体包括：通过词汇编码器将所述事件特征中的每个字符串映射为对应的词向量；通过双向注意力编码器将所述词向量映射为上下文向量；根据所述上下文向量构建因果关系图谱，并在所述因果关系图谱中提取因果关系对；通过所述因果关系对，有监督的训练所述语言模型。

在一种可行的实施方式中，构建事件特征，具体包括：将所述第一预设数量的前提条件进行合并，构建上下文信息；所述合并的依据为所述前提条件在所述事件推理任务中的出现顺序；通过分隔标签，将所述上下文信息与所述第二预设数量的结果选项分别进行拼接，得到事件输入；在所述事件输入的句首添加分类标签，以及在所述事件输入的句尾添加结束标签；添加完成后，得到所述事件特征。

在一种可行的实施方式中，使用语言模型池中的语言模型对所述事件特征进行预测，具体还包括：通过所述语言模型的分词器Tokenizer对所述事件特征进行分词；之后传递给编码器Encoder，并获取所述编码器输出的特征向量；将所述特征向量输入至所述语言模型的全连接层；通过所述全连接层得到所述事件特征对应的预测得分。

在一种可行的实施方式中，在事件推理任务中抽取第一预设数量的前提条件之后，所述方法还包括：确定所述前提条件的字符串数；在所述字符串数大于预设阈值时，对所述前提条件进行从句截断。

第二方面，本申请实施例还提供了一种事件推理任务的处理设备，所述设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有能够被所述至少一个处理器执行的指令，以使所述至少一个处理器能够执行如上述的一种事件推理任务的处理方法。

第三方面，本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行如上述的一种事件推理任务的处理方法。

本申请实施例提供了一种事件推理任务的处理方法、设备及介质，具有以下有益效果：很多特定业务领域，因为训练语料不充分，只存在事件元组或者知识图谱元组时，通过本发明中的语言模型仍然能够依靠其在预训练中捕捉的语义对事件推理任务进行很好的预测识别，具有较高的预测准确性，同时，通过引入模型的三阶训练框架，对语言模型增加了针对外部因果知识进行因果任务相关的有监督训练，也给下游的事件推理任务的预测结果带来较好的改善。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例提供的一种事件推理任务的处理方法流程图；

图2为本申请实施例提供的一种Bert模型的三阶训练框架示意图；

图3为本申请实施例提供的一种事件推理任务的处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请实施例提供了一种事件推理任务的处理方法，通过使用多种语言模型对事件推理任务进行预测比较，提升事件推理任务的预测准确度，同时，在模型训练过程中引入有监督训练，进一步提升了事件推理任务的执行准确率。

下面通过附图对本申请实施例中的事件推理任务的处理方法进行解释。

图1为本申请实施例提供的一种事件推理任务的处理方法流程图。如图1所示，本申请实施例中的事件推理任务的处理方法至少包括以下执行步骤：

步骤101、在事件推理任务中抽取第一预设数量的前提条件，并确定第二预设数量的结果选项。

事件推理任务是根据历史事件推理未来事件的一种任务，因此，在进行推理之前，首先需要在由历史事件构建的语料中抽取前提条件，所谓前提条件指的就是影响未来事件发生的语句等，在抽取前提条件之前，还需要确定结果选项，所谓结果选项就是指可能发生的未来事件。

在本申请实施例的一种或多种可能实现方式中，由于抽取的个别前提条件会存在过长的情况，例如，抽取出来的实体为“a former employee of the company , whowashes his shirts and jackets with the company logo”，抽取出来的前提条件为一个主句+从句的形式，这会导致拼接上下文信息后得到的事件特征过长，从而导致事件特征的表示向量过于稀疏，影响语言模型训练效果。因此，本申请实施例中对抽取的过长的前提条件采取从句截断等方式，来保证密集的特征向量输入，这会有利于提高模型预测准确率，缩短训练时间及节约计算资源。

需要说明的是，上述被抽取出来的前提条件，可以是在其包含的字符串数量大于等于预设阈值时，认为成前提条件过长。

步骤102、将所述前提条件分别与所述结果选项中的一个进行组合，构建事件特征。

在本申请实施例的一种或多种可能实现方式中，在完成上述前提条件的抽取之后，将前提条件按照在历史事件中的发生顺序合并成上下文信息，之后，将上下文信息分别与前述结果选项进行组合拼接，构成一句话，也即事件输入，在本申请的一个示例中，在将上下文信息与结果选项进行拼接时，会通过一个分隔标签进行连接，同时，对于拼接得到的事件输入，还需要在句首添加分类标签以及在句末添加结束标签。标签添加完成之后，完成事件特征的构建。

例如，事件推理任务抽取出来8个前提条件，并确定出5个结果选项，将 8个前提条件合并成上下文信息，该上下文信息分别和5个结果选项构成5句话，上下文信息和5个选项分别以分隔标签[SEP]进行拼接，并且句首添加有特定的分类符号[CLS]，句末添加有结束标签[SEP]，得到事件特征的具体形式如下：

[CLS]e0...e7[SEP]c0[SEP]

[CLS]e0...e7[SEP]c1[SEP]

[CLS]e0...e7[SEP]c2[SEP]

[CLS]e0...e7[SEP]c3[SEP]

[CLS]e0...e7[SEP]c4[SEP]

在上述事件特征中，e0...e7为8个前提条件构建的上下文信息，c0...c4为4个结果选项。

步骤103、通过所述事件特征，遍历语言模型池，使用语言模型池中的语言模型对所述事件特征进行预测。

目前存在多种语言模型，本申请实施例中选取可以被用来进行事件推理任务预测的语言模型，放入语言模型池中，之后，遍历语言模型池中包含的所有语言模型，使用语言模型对事件特征进行预测，具体地，需要首先使用语言模型的分词器Tokenizer，比如Bert模型的Tokenizer，然后将其输出传递给编码器Encoder，比如Bert模型的Encoder，之后取编码后特征事件的向量值作为每个特征事件的特征向量，再通过全连接层Dense Layer输出最终的预测得分。

在本申请实施例的一种或多种可能实现方式中，前述语言模型池中的语言模型可以包含Bert模型、XLNet模型以及GPT模型，因此，通过语言模型对事件特征进行预测，还可以包括如下过程：

1）使用Bert模型对事件特征进行预测：

Bert模型采用两阶段训练模型，在第一阶段完成模型预训练任务，Bert模型通过使用Books Corpus（8亿单词）和英文维基百科（25亿单词）进行预训练，形成了BERTBASE（L=12, H=768, A=12,参数数量=110M）和 BERTLARGE（L=24, H=1024,A=16,参数数量=340M）；第二阶段可以根据端对端任务进行微调（Fine-Tune）。

Bert模型在各项自然语言处理任务中均取得了很好的成绩，Bert模型的预训练使用了自编码模型，对输入的事件特征中包含的结果选项进行遮挡，并使用模型进行结果选项的重建，之后通过将重建结果与原本的结果选项进行对比，获得预测得分。由于输入Bert模型的事件特征有5个，因此Bert模型会得到5个预测得分，在这5个预测得分中选取得分最高的一个，作为最终的事件推理任务的预测结果。

2）使用XLNet模型对事件特征进行预测：

XLNet模型中引入了自回归语言模型（Autoregressive LM）和自编码语言模型（Autoencoder LM）。自回归语言模型无法同时利用上文和下文的语义特征，视为缺点，但是在对应下游生成式任务的过程中，比如阅读理解和文本摘要以及本文关注的场景预测，由于自回归语言模型的方向，通常是自左至右，因此在XLNet模型的训练过程和应用层面的预测过程较为一致，相比较上述Bert 模型来说较为适应生成式任务。XLNet模型使用Permutation Language Model 将自回归语言模型和自编码语言模型的优点结合起来。另外，很多XLNet模型之前的自回归语言模型是没有考虑语序的，类似词袋模型（Bag-Of-Words），而语序恰恰是语言模型很重要的，这类模型在提升了文本语料的概率分布期望的同时却人为造成了无序的归纳偏见，而XLNet模型通过Positional Encodings 来保持语序，同时有效地利用了自回归语言模型来学习双向的上下文。

XLNet模型和Bert模型都使用了部分预测（Partial Predication），也就是说，只预测一个句子的一部分Token，通过充分的上下文信息进行部分预测也降低了优化的难度，加快了拟合的速度。对上述Bert模型来说，如果所有的 Token都被遮掩，也就无法进行任何有意义的预测了。但是Bert模型由于存在独立性假设，实际上把预测目标间的关系依赖给忽略了。而XLNet模型则通过自回归语言模型可以捕捉到上下文的依赖关系。

因此，在使用XLNet模型进行预测时，也会将事件特征中的结果选项进行遮挡，但与Bert模型不同的是，遮挡之后的重建过程中，考虑了自回归语言模型学习到的上下文依赖关系，通过这个上下文依赖关系去对被遮挡部分进行重建，之后，通过将重建结果与原本的结果选项进行对比，获得预测得分。由于输入XLNet模型的事件特征有5个，因此XLNet模型会得到5个预测得分，在这5个预测得分中选取得分最高的一个，作为最终的事件推理任务的预测结果。

3）使用GPT模型对事件特征进行预测：

GPT模型中也使用了自回归语言模型，并且采用从左至右的语言顺序，因此只能捕捉到下文对上文的依赖关系，这样一来，在通过GPT模型进行预测时，仍然是对事件特征中的结果选项进行遮挡，但在对被遮挡的结果选项进行重建时，考虑到的是下文对上文的依赖关系，也即，根据下文对上文的依赖关系，对被遮挡的结果选项进行重建，之后通过将重建结果与原本的结果选项进行对比，获得预测得分。由于输入GPT模型的事件特征有5个，因此GPT模型会得到5个预测得分，在这5个预测得分中选取得分最高的一个，作为最终的事件推理任务的预测结果。

至此，完成语言模型池对事件特征的预测。

步骤104、根据预测结果，选定处理所述事件推理任务的语言模型。

由于在使用上述多种语言模型对事件特征进行预测时，都选取了得分最高的结果作为预测结果，因此，本申请实施例中可以对比不同模型的最高预测得分，选取三个最高预测得分中的最高者（前述采用了三个语言模型进行事件特征的预测），并将该得分对应的语言模型选取为最终处理事件推理任务的模型，进行后续的三阶训练。

步骤105、对选定的所述语言模型进行三阶训练，并使用训练完成的所述语言模型处理所述事件推理任务。

在上述过程中确定出了最终的语言模型，例如Bert模型，之后，对该Bert模型进行三阶训练，再使用训练完成后的Bert模型进行事件特征的预测。本申请实施例中的三阶训练，其实就是在传统Bert模型预训练阶段和微调（Fine-Tune）阶段中间增加了第二层预训练，这一层的预训练针对外部因果知识进行因果任务相关的监督任务训练。

图2为本申请实施例提供的一种Bert模型的三阶训练框架示意图。如图2所示，最底层是大规模非监督的预训练任务，例如训练语言模型以及其他关联任务，比如NextSentence Prediction（NSP）任务，在本申请的一个示例中，最底层用来实现Bert模型的预训练，中间层是因果语义相关的事件推理监督任务，用来做进一步的Bert模型预训练，这个监督任务也可以叫作迁移任务（Transfer Task）。最顶层的是目标任务，例如故事结尾预测，它也是一种监督任务，在本申请实施例中进行最终的事件推理任务预测。简单来说，这三层从下到上可分别理解为非监督预训练层、监督预训练层以及监督微调 (Fine-Tune)层。

在本申请的一个示例中，X是输入的一句话也即事件特征，通过词汇编码器Lexicon Encoder，记做 L1，被映射为低维的连续向量空间，组成词向量的序列，再进一步输入到编码器Encoder，记做 L2，捕捉到上下文信息并生成一个上下文向量序列。

具体地，词汇编码器（Lexicon Encoder，记做 L1）：输入X = {x1, ..., xn} 是一个长度为n的Token序列。第一个Token x1是一个特殊的[CLS] Token。另外如果X是由两个句子X1和X2拼接而成的，那么会有另外一个分割符[SEP]。LexiconEncoder将X的每个Token映射为一个词向量，之后组成新的词向量序列。

双向注意力编码器（Bidirectional Transformer Encoder，记做 L2）：Bert模型使用一个多层的双向注意力Transformer模型将从L1输入的词向量映射为句子的上下文向量，V ∈ R d×n (d 是词向量维度)。并且，Bert模型会在预训练的阶段会学习LexiconEncoder和Bidirectional Transformer Encoder的参数。

第二层预训练，也即本申请实施例中增加的一阶训练记做L3，希望通过训练监督任务，使Bert模型掌握因果关系等外部知识，通过因果任务相关的监督模型学习相应的参数。具体地，根据前述上下文向量构建的因果关系图谱，之后在因果关系图谱中获取真实的因果关系对与虚假的因果关系对，通过获取到的这些因果关系对，对语言模型也即Bert模型进行监督训练。

在上述训练过程完成之后，就可以使用训练完成的语言模型处理事件推理任务。

除此之外，本申请实施例还提供了一种事件推理任务的处理设备，其结构如图3所示。

图3为本申请实施例提供的一种事件推理任务的处理设备结构图。如图3所示，本申请实施例中的事件推理任务的处理设备300具体包括：至少一个处理器301；以及，与至少一个处理器301通信连接（通过总线302连接）的存储器303；其中，存储器303存储有能够被至少一个处理器301执行的指令，以使至少一个处理器301能够执行如上述实施例所记载的一种事件推理任务的处理方法。

在本申请实施例的一种或多种可能实现方式中，前述处理器用于，在事件推理任务中抽取第一预设数量的前提条件，并确定第二预设数量的结果选项；将所述前提条件分别与所述结果选项中的一个进行组合，构建事件特征；通过所述事件特征，遍历语言模型池，使用语言模型池中的语言模型对所述事件特征进行预测；根据预测结果，选定处理所述事件推理任务的语言模型；对选定的所述语言模型进行三阶训练，并使用训练完成的所述语言模型处理所述事件推理任务。

并且，本申请实施还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行如上述实施例所记载的一种事件推理任务的处理方法。

在本申请实施例的一种或多种可能实现方式中，前述计算机可执行指令被设置为执行，在事件推理任务中抽取第一预设数量的前提条件，并确定第二预设数量的结果选项；将所述前提条件分别与所述结果选项中的一个进行组合，构建事件特征；通过所述事件特征，遍历语言模型池，使用语言模型池中的语言模型对所述事件特征进行预测；根据预测结果，选定处理所述事件推理任务的语言模型；对选定的所述语言模型进行三阶训练，并使用训练完成的所述语言模型处理所述事件推理任务。

本申请实施例提供的事件推理任务的处理方法，首先使用多个语言模型对事件推理任务的预测结果进行了比较，提升了事件推理相关测试的准确率，取得了明显高出之前的准确率，这说明语言模型能够依靠其在预训练中捕捉的语义对事件推理任务进行很好的预测识别。考虑到让语言模型进一步掌握外部知识，比如因果关系、常识性知识等来进一步提高预测的准确率，本申请中引入了三阶段训练模型的框架，在传统的模型预训练阶段和微调阶段之间增加了第二层预训练，这一层的预训练针对外部因果知识进行因果任务相关的监督任务训练，这样一来，使用训练完成的语言模型再去处理事件推理任务，就能够达到较好的预测效果，也即达到较高的预测准确率。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种事件推理任务的处理方法，其特征在于，所述方法包括：

在事件推理任务中抽取第一预设数量的前提条件，并确定第二预设数量的结果选项；

将所述前提条件分别与所述结果选项中的一个进行组合，构建事件特征；

通过所述事件特征，遍历语言模型池，使用语言模型池中的语言模型对所述事件特征进行预测；

根据预测结果，选定处理所述事件推理任务的语言模型；

对选定的所述语言模型进行三阶训练，并使用训练完成的所述语言模型处理所述事件推理任务。

2.根据权利要求1所述的一种事件推理任务的处理方法，其特征在于，使用语言模型池中的语言模型对所述事件特征进行预测，具体包括：所述语言模型为Bert模型时，

对所述事件特征中包含的结果选项进行遮挡；

对被遮挡的所述结果选项进行重建；

将重建结果与所述结果选项进行对比，并根据对比结果确定所述事件特征的预测得分。

3.根据权利要求1所述的一种事件推理任务的处理方法，其特征在于，使用语言模型池中的语言模型对所述事件特征进行预测，具体包括：所述语言模型为XLNet模型时，所述XLNet模型中包含自回归语言模型与自编码语言模型；

通过所述自回归语言模型学习所述事件特征的上下文依赖关系；

对所述事件特征中的结果选项进行遮挡；

根据所述上下文依赖关系，通过所述自编码语言模型对被遮挡的所述结果选项进行重建；

4.根据权利要求1所述的一种事件推理任务的处理方法，其特征在于，使用语言模型池中的语言模型对所述事件特征进行预测，具体包括：所述语言模型为GPT模型时，所述GPT模型中包含自回归语言模型；

通过所述自回归语言模型学习所述事件特征的下文对上文的依赖关系；

对所述事件特征中的结果选项进行遮挡；

根据所述下文对上文的依赖关系，对被遮挡的所述结果选项进行重建；

5.根据权利要求1所述的一种事件推理任务的处理方法，其特征在于，对选定的所述语言模型进行三阶训练，具体包括：

通过词汇编码器将所述事件特征中的每个字符串映射为对应的词向量；

通过双向注意力编码器将所述词向量映射为上下文向量；

根据所述上下文向量构建因果关系图谱，并在所述因果关系图谱中提取因果关系对；

通过所述因果关系对，有监督的训练所述语言模型。

6.根据权利要求1所述的一种事件推理任务的处理方法，其特征在于，构建事件特征，具体包括：

将所述第一预设数量的前提条件进行合并，构建上下文信息；所述合并的依据为所述前提条件在所述事件推理任务中的出现顺序；

通过分隔标签，将所述上下文信息与所述第二预设数量的结果选项分别进行拼接，得到事件输入；

在所述事件输入的句首添加分类标签，以及在所述事件输入的句尾添加结束标签；

添加完成后，得到所述事件特征。

7.根据权利要求6所述的一种事件推理任务的处理方法，其特征在于，使用语言模型池中的语言模型对所述事件特征进行预测，具体还包括：

通过所述语言模型的分词器Tokenizer对所述事件特征进行分词；

之后传递给编码器Encoder，并获取所述编码器输出的特征向量；

将所述特征向量输入至所述语言模型的全连接层；

通过所述全连接层得到所述事件特征对应的预测得分。

8.根据权利要求1所述的一种事件推理任务的处理方法，其特征在于，在事件推理任务中抽取第一预设数量的前提条件之后，所述方法还包括：

确定所述前提条件的字符串数；

在所述字符串数大于预设阈值时，对所述前提条件进行从句截断。

9.一种事件推理任务的处理设备，其特征在于，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有能够被所述至少一个处理器执行的指令，以使所述至少一个处理器能够执行根据权利要求1-8任一项所述的一种事件推理任务的处理方法。

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为执行根据权利要求1-8任一项所述的一种事件推理任务的处理方法。