CN111611409A

CN111611409A - 一种融入场景知识的事例分析方法及相关设备

Info

Publication number: CN111611409A
Application number: CN202010554296.7A
Authority: CN
Inventors: 蔡飞; 张鑫; 郑建明; 毛彦颖; 宋城宇; 王祎童; 凌艳香; 陈皖玉; 陈洪辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-01
Anticipated expiration: 2040-06-17
Also published as: CN111611409B

Abstract

本说明书一个或多个实施例提供的一种融入场景知识的事例分析方法及相关设备，包括：获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量；对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量；根据所述第三向量进行语篇关系训练，生成第四向量；根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量；根据所述最终向量生成分析结果，输出所述分析结果。本说明书一个或多个实施例通过多步微调并结合场景知识的方式，使事例分析及推断的精确度大幅度提高，大幅提高了对事例的表征能力和推理能力。

Description

一种融入场景知识的事例分析方法及相关设备

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种融入场景知识的事例分析方法及相关设备。

背景技术

事例指有多个分事例组成的一件完整的事，例如：去饭店吃饭是整个事例，包含点餐、用餐、付钱、离开等多个分事例构成。在一个发生的事例条件下，人类可以很容易推断出下个分事例或者推断上一个分事例，但是对于机器却很难实现这样的事例推理。

现有技术中，主要求助于联合训练，它通过一个简单的损失函数求和用于整合各个水平的训练损失，然而这种训练方式极易陷入一个局部最优解。此外，在事例链条中，场景知识并未很好的应用于事例表示中。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种融入场景知识的事例分析方法及相关设备。

基于上述目的，本说明书一个或多个实施例提供的一种融入场景知识的事例分析方法，包括：

获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量；

对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量；

根据所述第三向量进行语篇关系训练，生成第四向量；

根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量；

根据所述最终向量生成分析结果，输出所述分析结果。

在一些实施方式中，所述获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，包括：

基于bert-base-uncased模型，采用Gigaword语料库作为预训练语料库对所述文本信息进行处理。

在一些实施方式中，所述对所述第一向量进行随机遮挡训练生成第二向量，包括：

在所述第一向量中随机选取词汇向量，并通过遮挡标签进行遮挡，建立遮挡语言模型，根据公式一进行所述遮挡语言模型最优解计算，得到所述第二向量；

其中，loss^1st为遮挡语言模型损失函数，通过训练得到loss^1st的最小值确定最优解，

为单个被遮挡的词，[mask]为一组被遮挡的词，

为被遮挡词

在bert-base-uncased模型下的出现概率，λ为预先定义的权重参数，L(θ₁)为设定参数θ₁的L2正则化项。

在一些实施方式中，所述对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，具体为：

x_i＝e_f，i+ea_，i+e_p，i 公式二

其中，x_i为分事例内部具体的词向量，e_f,i为输入的第二向量，e_a,i为属性向量中的词性向量，e_p,i为属性向量中的位置向量；

其中，X为分事例内部全部的词向量，x_i∈X，Transformer()为一个一层的transformer模型，Hⁱ(i∈{1,2,…,l})为第i层transformer块所得的隐式向量。

在一些实施方式中，所述再次进行随机遮挡训练生成第三向量，包括：

在所述第二向量中随机选取词汇向量，并通过遮挡标签进行遮挡，建立遮挡语言模型，根据公式四进行所述遮挡语言模型最优解计算，得到所述第三向量；

其中，loss^2nd为遮挡语言模型损失函数，通过训练得到loss^2nd的最小值确定最优解，

为单个被遮挡的词，[mask]为一组被遮挡的词，λ为预先定义的权重参数，L(θ₂)为设定参数θ₂的L2正则化项；

其中，

为隐式向量H^l和词性a条件下的词概率，

为被遮挡词的属性概率。

在一些实施方式中，所述根据所述第三向量进行语篇关系训练，生成第四向量，包括：

基于Event-TransE模型，根据公式六进行Event-TransE模型最优解计算，得到所述第四向量；

其中，loss^3rd为Event-TransE模型损失函数，通过训练得到loss^3rd的最小值确定最优解，T和T^*为事例的全部正关系三元组和负关系三元组，t和t^*为事例的一个正关系三元组和负关系三元组，δ为边界参数，λ为预先定义的权重参数，L(θ₃)为设定参数θ₃的L2正则化项；

其中，e_h,r_h,t,e_t分别为正关系三元组中的头分事例、关系和尾分事例，

分别为负关系三元组中的头分事例、关系和尾分事例，f_transe(x)为以x为输入的TransE函数，运算符

为p阶欧式距离。

在一些实施方式中，所述根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量，包括：

通过所述第四向量生成分事例链条，根据所述分事例链条的统计性隐式变量的先验分布和后验概率通过公式八计算证据最低阈值，再根据所述证据最低阈值通过公式九进行场景表征模型最优解计算，得到所述最终向量；

其中，L^ELBO(θ₄,θ₅)为证据最低阈值，

和

分别为分事例链条{e₁,e₂,…,e_n}的先验分布

和后验概率

z_i为统计性隐式变量，n为分事例链条{e₁,e₂,…,e_n}中分事例的数量，

为后验概率

和先验分布

之间的Kullback-Leibler差异值，

为

在后验概率

下的期望值；

其中，

为场景表征模型损失函数，通过训练得到

的最小值确定最优解，λ为预先定义的权重参数，L(θ₄,θ₅)为设定参数θ₄,θ₅的L2正则化项。

基于同一构思，本说明书一个或多个实施例还提供了一种融入场景知识的事例分析设备，包括：

第一训练模块，获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量；

第二训练模块，对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量；

第三训练模块，根据所述第三向量进行语篇关系训练，生成第四向量；

第四训练模块，根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量；

输出模块，根据所述最终向量生成分析结果，输出所述分析结果。

基于同一构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的方法。

基于同一构思，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一所述方法。

从上面所述可以看出，本说明书一个或多个实施例提供的一种融入场景知识的事例分析方法及相关设备，包括：获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量；对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量；根据所述第三向量进行语篇关系训练，生成第四向量；根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量；根据所述最终向量生成分析结果，输出所述分析结果。本说明书一个或多个实施例通过多步微调并结合场景知识的方式，使事例分析及推断的精确度大幅度提高，大幅提高了对事例的表征能力和推理能力。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提出的整个事例叙述事例链条的示意图；

图2为本说明书一个或多个实施例提出的一种融入场景知识的事例分析方法的流程示意图；

图3为本说明书一个或多个实施例提出的一种融入场景知识的事例分析设备的结构示意图；

图4为本说明书一个或多个实施例提出的电子设备结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本说明书进一步详细说明。

需要说明的是，除非另外定义，本说明书实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同，而不排除其他元件、物件或者方法步骤。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，观察一个事例，人根据所观察到的事例可以很容易预测和推断未发生事例的原因，也就是：在这事例之前也许发生了什么，在这个事例之后也许发生了什么，并且这两个事例是如何通过原因和影响联系在一起。例如，考虑到事实“一个男人破了个记录”，人可以直观地推断出“他获得奖励”这一事例比起“他被逮捕”是更有可能发生的。然而，表征上述知识(也称之为“脚本”)为一个机器可读格式是在人工智能领域中一项非常具有挑战性的任务，它可以支撑一系列的下游任务，例如：自动问答，语篇理解和信息抽取等等。如图1所示，整个事例包括7个分事例，即{e₁,e₂,…,e₇}，展示了一个在三个水平下的事例链条的例子，也就是：事例内部水平，事例之间水平和场景水平。事例内部水平，包含了事例内部成分；事例之间水平，聚焦于事例对和它们之间的联系；场景水平考虑的是整个事例链条。现有技术在事例表示的工作可以划分为三大类，也就是：基于事例内部的，基于事例之间的和基于外部知识的方法。这些方法要么聚焦于事例内部的多重交互，或者探索事例关系，或者寻求外部常识知识来丰富事例表示的额外背景。然而，现有的方法在训练阶段要么采用一种单一水平损失(例如：内部事例损失、事例之间损失等等)要么是一种联合训练损失。这种简单相加的损失可能很容易陷入局部最优解，尽管联合概率损失是合理并且能够捕捉到不同水平的损失。局部最优解是由于当参数过多时，由于参数初始化不合理，损失函数过早收敛，导致模型整体性能并未达到最优解的情况。

此外，先前工作并未很好地调查场景知识，也就是所谓的事例背景。而事例链条的发展是由事例的场景所引导的。在不同的事例场景下，相同的起始事例可以朝不同的方向发展。例如：考虑到两个场景(1)抢劫和(2)急救，和一个起始事例“A打坏了一个窗户”，对于这两个场景而言可以有两个相反的随后事件，例如：抢劫场景中的“A偷了一个包”，而急救场景中的“A救了昏迷的司机”。虽然现有技术已经开始探究场景知识的结合对语义的影响，但是现有技术所获取到的语义只是针对于单独的分事例，并没有考虑到整个事例。

结合上述实际情况，本说明书一个或多个实施例提出一种融入场景知识的事例分析方案，通过多步微调并结合场景知识的方式，使事例分析及推断的精确度大幅度提高，大幅提高了对事例的表征能力和推理能力。

以下，通过具体的实施例来详细说明本说明书一个或多个实施例的技术方案。

参考图2，本说明书一个实施例的融入场景知识的事例分析方法，包括以下步骤：

步骤201，获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量。

本步骤旨在，对事例的文本信息进行预处理抽取出事例链条，提取事例链条中的各个分事例中的词生成词向量，使每个分事例都由若干个词向量组成，生成第一向量，之后利用随机遮挡训练初步确定每个事例的内部表示向量，作为第二向量。其中，事例与分事例在背景技术中已进行了解释，事例的文本信息也就是描述整个事例的全部文字内容，其获取的形式可以是用户语言输入后进行转换的，也可以是用户直接输入的文字信息等等。

之后，预训练语言模型是指能够对事例进行每个句子的提取生成分事例，并能将每个语句中的每个词转换成词向量的词表征模型，例如：Word2vec模型、GloVe模型及bert-base-uncased模型等等，同时，模型所使用的语料库可以是不同种类的语料库，例如：BooksCorpus语料库、英文版维基百科语料库、Gigaword语料库等等，语料库主要用于准确识别出事例中的每个词。模型的输入一般为文本信息，例如：一句话或一整篇文章等等，输出是词向量，输出词向量的形式可以是以一个词为单位的一个个单独的词向量；也可以是以一句话为单位的一个个词向量组等等。

最后，将前面模型的输出作为随机遮挡训练模型的输入进行再次计算生成第二向量。其中，随机遮挡训练模型的工作方式为在所述第一向量中随机选取词汇向量，并通过遮挡标签进行遮挡，建立遮挡语言模型，根据公式一进行所述遮挡语言模型最优解计算，得到所述第二向量；

其中，

为遮挡语言模型损失函数，通过训练得到

的最小值确定最优解，

为单个被遮挡的词，[mask]为一组被遮挡的词，

为被遮挡词

在bert-base-uncased模型下的出现概率，λ为预先定义的权重参数，L(θ₁)为设定参数θ₁的L2正则化项，log的底数为e，本说明书一个或多个实施例中若log未标明底数，则都为自然常数e。

步骤202，对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量。

本步骤旨在，得到文本信息中每个词的属性向量，与第二向量进行结合之后，再次进行随机遮挡训练生成第三向量。其中，属性向量即为每个词的词性属性，例如：给定一条事例链条，即：{e₁,e₂,…,e_n}，每个分事例e一般由三个事例内部成分组成，即：谓语(pred(e))，主语(subj(e))和宾语(obj(e))，每个成分即为一个词或是一个短语的属性向量，这些都是从原文本中抽取所得。例如，给定一个例子“凯文正在吃饼干”，可以抽取一个事例“(吃，凯文，饼干)”。进而对于一整个事例或一个事例链条，可以通过下式进行表征：

[CLS]pred(e₁),subj(e₁),obj(e₁),[mask],…，obj(e_n)

其中，[CLS]是一个起始标签，pred(e_i)、subj(e_i)、obj(e_i)分别是第i个分事例e_i的谓语，主语和宾语。用标签[mask]来替换遮挡此序列中的一些词语。结合上一步骤模型输出的向量，最终每个分事例内部的词x_i可以表示为：

x_i＝e_f，i+e_a，i+e_p，i 公式二

其中，e_f,i、e_a,i、e_p,i分别表示为每个分事例内部第i个词的原文本向量(即第二向量)、属性向量(即词性向量)和位置向量。

之后，将所有分事例内部词系列X(x_i∈X)传入多重transformer块(即多重transformer模型，Transformer模型是谷歌团队提出的一种NLP(Natural LanguageProcessing，自然语言处理)经典模型)来获得隐式向量，完成结合：

其中，Transformer()指的是一个一层的transformer块，而Hⁱ(i∈{1,2,…,l})指的是第i层transformer块所得的隐式向量。

最后，再次进行随机遮挡训练生成第三向量的方式为在所述第二向量中随机选取词汇向量，并通过遮挡标签进行遮挡，建立遮挡语言模型，根据公式四进行所述遮挡语言模型最优解计算，得到所述第三向量，即分事例内各词向量的隐式向量；

其中，

为遮挡语言模型损失函数，通过训练得到

的最小值确定最优解，

其中，

为隐式向量H^l和词性a条件下的词概率，

为被遮挡词的属性概率。

步骤203，根据所述第三向量进行语篇关系训练，生成第四向量。

本步骤旨在，利用语篇关系训练模型对第三向量进行微调生成第四向量。其中，语篇关系训练模型用于标注两个分事例之间的关系，例如：事例组合模型、Event-TransE模型等等。

在具体应用场景中，为了更有效率的表征两分事例之间的关系，选用Role-factor模型(一种基于事例内部的模型，它是基于一个张量网络，模型化了事例内部成分的多重交互)进行事例表征。给定一个事例e，让p(e)，s(e)，o(e)分别表示谓语，主语和宾语向量。然后，事例表征可以表示如下：

e＝W_sT(s(e)，p(e))+W_oT(o(e)，p(e))

其中，W_s和W_o分别是主语角色和宾语角色的调和矩阵。T(a,b)是一个张量网络，它是基于一个三维向量T，以a和b作为输入。

之后，基于Event-TransE模型，根据公式六进行Event-TransE模型最优解计算，得到所述第四向量，即分事例表示向量；

其中，

为Event-TransE模型损失函数，通过训练得到

的最小值确定最优解，T和T^*为事例的全部正关系三元组和负关系三元组，t和t^*为事例的一个正关系三元组和负关系三元组，δ为边界参数，λ为预先定义的权重参数，L(θ₃)为设定参数θ₃的L2正则化项；

为p阶欧式距离。其中，头分事例和尾分事例是前后相连的两个分事例，例如：A给B上了菜，B进行吃饭两个分事例。

步骤204，根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量。

本步骤旨在，场景表征模型对第四向量进行场景知识的微调，生成最终的分事例表示向量。其中场景表征模型是可以将场景概念引入并进行语义理解的模型，例如：tensor-based composition models模型、Pair-LSTM模型等等。给定一个事例链条{e₁,e₂,…,e_n}，统计性隐式变量z_i的先验分布

和后验概率

可以如下表示：

其中，

是一个多维整天分布，μ_p为均值，∑_p为方差。先验分布是受到历史分事例所约束，而后验分布不仅以历史分事例还以下一个分事例为条件约束。

在解码阶段，事例转化从e_i-1到e_i是由一个关系表征r_i-1,i所连接的。此外，对于事例e_i的解码是根据之前观测到的事例序列{e₁,e₂,…,e_i-1}和从先验分布中所获得的统计性变量z_i-1进行的。这些因素表示为context，即context＝{z_i-1,r_i-1,i,e₁,…,e_i-1}。因此，我们可以为下一个分事例的解码设计如下：

其中，c₁、c₂、c₃分别是pred(e_i)、subj(e_i)、obj(e_i)。这个解码过程类似于对话生成中的编码-解码过程。

之后，通过所述第四向量生成分事例链条，根据所述分事例链条的统计性隐式变量的先验分布和后验概率通过公式八计算证据最低阈值，再根据所述证据最低阈值通过公式九进行场景表征模型最优解计算，得到所述最终向量；

其中，L^ELBO(θ₄,θ₅)为证据最低阈值，

和

分别为分事例链条{e₁,e₂,…,e_n}的先验分布

和后验概率

为后验概率

和先验分布

之间的Kullback-Leibler差异值(相对熵散度)，

为log

在后验概率

下的期望值；

其中，

为场景表征模型损失函数，通过训练得到

步骤205，根据所述最终向量生成分析结果，输出所述分析结果。

本步骤旨在，根据最终向量在知识图谱等数据库中查找对应的分析结果，并输出这个分析结果。其中分析结果是指对整个事例的分析预测结果，例如：“吉姆打破了短跑记录”这个事例，分析结果可以是，“这是一个对吉姆有利的事件”，“吉姆会得到表彰或奖励”，“吉姆是短跑项目最为优秀的人”等等。即，一种事例分析及推断结果。

之后，将这个结果进行输出，用以存储、展示或再加工分析结果。根据不同的应用场景和实施需要，具体的对于分析结果的输出方式可以灵活选择。

例如，对于本实施例的方法在单一设备上执行的应用场景，可以将分析结果直接在当前设备的显示部件(显示器、投影仪等)上以显示的方式输出，使得当前设备的操作者能够从显示部件上直接看到分析结果的内容。

又如，对于本实施例的方法在多个设备组成的系统上执行的应用场景，可以将分析结果通过任意的数据通信方式(有线连接、NFC、蓝牙、wifi、蜂窝移动网络等)发送至系统内的其他作为接收方的预设设备上，以使得接收到分析结果的预设设备可以对其进行后续处理。可选的，该预设设备可以是预设的服务器，服务器一般设置在云端，作为数据的处理和存储中心，其能够对分析结果进行存储和分发；其中，分发的接收方是终端设备，该些终端设备的持有者或操作者可以是用户、事例中提及的人员、和事例提及内容相关的机构工作人员等等。

再如，对于本实施例的方法在多个设备组成的系统上执行的应用场景时，可以将分析结果通过任意的数据通信方式直接发送至预设的终端设备，终端设备可以是前述段落列举中的一种或多种。

通过应用本说明书一个或多个实施例提供的一种融入场景知识的事例分析方法，包括：获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量；对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量；根据所述第三向量进行语篇关系训练，生成第四向量；根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量；根据所述最终向量生成分析结果，输出所述分析结果。本说明书一个或多个实施例通过多步微调并结合场景知识的方式，使事例分析及推断的精确度大幅度提高，大幅提高了对事例的表征能力和推理能力。

在具体应用场景中，将前述实施例提出的方案形成的模型称之为UniFA-S模型，其中UniFA为一个统一的微调框架，包含了步骤201至步骤203，为一种多步微调的方式。第一步微调对应步骤201，缩小了预训练好的bert-base-uncased模型和所抽取的语料库；第二步微调对应步骤202，减少了事例内部向量序列和所抽取语料库的领域差异，然后进一步促进第一步微调；第三部微调对应步骤203，减少了事例之间向量序列和事例内部向量序列的差异，并且进一步改善第二步微调。之后，S为S-VAE(Situational-VariationalAutoencoders)，为一个场景水平的变分自编码器，应用了一个统计性的变量来隐式地表征场景水平的知识，对应步骤204。

相比于联合训练，这种级联式地微调方法不仅可以更好地捕捉每一模块之间的联系，而且可以避免人为相加的损失函数所带来的局部最优解。如果一次性微调所有层所有模块，这种级联式微调可能会造成级联式地遗忘。为了解决这个问题，模仿在化学中阶段加热的过程，提出了一种阶段加热的微调策略。例如，有一个已加热列表C_h，和一组将要进行微调的模块C_r，它们都是严格按照从低到高的顺序排列而成。在每一次微调周期，在当前阶段首先从将要加热列表C_r中推出结构最高的模块C_temp，并将其推入已加热列表C_h。在整个微调过程中，只有在已加热列表中的模块将会被微调，而其余模块则会保持不变。不同于，LMfine-tuning模型(“逐步解冻”模型)和DeepMoji模型(“融化链条”模型)，两者要么一次性将一层推入“融化层”中，要么同时训练一层，微调策略是每次添加一个独立的模块，这样可以提升微调的效率同时保护模块的完整性。

此外，知识更为普遍，微调的速率相应地应该更慢，基于此提出了指数下降的学习率来捕捉不同层的信息。也就是说，网络中每降低一层，学习率将会以一定速率降低，即：

其中，

指的是在第i个模块第j层的学习率，α和β是要学习的参数。在这里，上标和下标是按从低端到顶端以递增的顺序排列的。

之后，通过建立多个现有模型与本方案进行比较，检验本方案对事例的表征能力和推理能力。分别建立以下7个模型：Event-comp：一种基于事例内部的模型，它是基于一个全连接网络由事例内部成分组成的。Role-factor：一种基于事例内部的模型，它是基于一个张量网络，模型化了事例内部成分的多重交互。SAM-Net：一种基于事例之间的模型，它探索事例块间的联系。Event-TransE：一种基于事例之间的模型，它是基于语篇关系探索事例之间的关系。FEEL：一种基于外部知识的模型，它引入了情感和活跃度信息。IntSent：一种基于外部知识的模型，它引入了意图和情感信息。UniFA-S：一种组合模型，它是将S-VAE(场景水平的变分自编码器)作为模块加入UniFA，即本方案提出的模型。

由表1可以看出各个模型的表征能力，由表2可以看出各个模型的推理能力。

表1.各模型表征能力对照表

表2.各模型推理能力对照表

对于表1中的各个基准模型，在精确度(％)和ρ方面的表征性能。可以看出基于外部知识的模型，例如FEEL模型及IntSent模型在表征任务上呈现出优于其他模型，即困难相似任务及句子转移相似任务。例如：IntSent模型相比于EventTransE模型在Original和Extended上的困难相似任务上分别显示出近44.1％及30.6％的改进。而在句子转移相似性任务上，IntSent模型相比于EventTransE模型显示出13.9％的改进基于评价指标ρ。另外，IntSent模型对于基于事例内部的方法相较于对于基于事例之间的方法改善相对更高。这种显著的优势可解释为结合外部知识可提供附加的语境信息，由此可很好的解决在语义匮乏事例上的稀疏的表达，进而提升表达能力。在基于外部知识的模型之后，基于事例之间模型普遍优于基于事例内部模型在这两个任务上。这表明了研究基于事例之间关系相较于事例内部的交互能更好的区别事例之间的差异。

接下来聚焦于本方案所提模型与最好基准模型IntSent模型之间的比较。首先，在表1中可以发现，在两个任务上，UniFA普遍优于S-VAE。例如：对于S-VAE，UniFA在困难相似性和转移句子相似性任务上分别表现出10.0％，3.2％和2.9％的性能提升，这意味着与场景水平的训练相比，事例内部和事例之间的训练可以更好地生成事例表示，返回更高的精确度和ρ分数。然而，分别比较这两个单独模型和最好的基准模型，UniFA和S-VAE都略显不足。这意味着单单只模型化事例内部和事例之间的关系并不能赶上外部知识所带来的红利。然而，综合模型UniFA-S最终可以打败IntSent模型，在两个任务上分别展现出1.2％，2.1％和1.4％的评价指标性能提升。

对于表2中的各个基准模型，其中，MCNC为多选叙事完型任务的精确度，MCNS-V为多选叙事序列任务的精确度，Base为贪心转移概率决定任务的精确度，Sky为分解独立决定任务的精确度，MCNE-V为多选叙事解释任务的精确度。首先聚焦于基准模型，不同于在表1中的表征能力，评估推断能力占据主导的基准模型是EventTransE模型，即基于事例之间的模型。特别地，在不同的任务的精确度方面，EventTransE模型比起Role-factor模型(即基于事例内部组中的最优者)和IntSent模型(即基于外部知识表示组中的最优者)分别展现出了近30.5-108.0％和12.9-33.1％的性能提升。这也许是因为事例之间的关系也许可以知道事例之间的转移，以此来促进推断能力。此外，还发现基于外部知识的模型对于基于事例内部的模型展现出了优越性。

之后，关注于比较本方案所提模型和基准模型的结果。比起最优的基准模型，即EventTransE模型，在MCNC、MCNS-V、Base、Sky和MCNE-V上，UniFA分别展现出2.4％，6.2％，7.4％，2.0％，4.1％的精确度方面的性能提升。在Base上获得了最大的提升，其归因于Base是通过贪婪地选择最优的转移，而这个数据集上，UniFA可以放大事例内部的潜能。关于S-VAE，虽然赢过了基于事例内部的模型但是输给了EventTransE模型，意味着与探索事例内部联系相比仅仅表征场景水平知识不能更好地提升推理能力。之后，综合模型UniFA-S可以普遍的胜过EventTransE模型，与EventTransE模型，UniFA和S-VAE相比，分别呈现出近4.1-8.2％，0.7-2.1％，7.3-13.1％的精确度提升。这说明当结合了本方案所提出的统一微调框架，即UniFA，模型化场景水平知识才能更合理。

在本说明书的可选实施例中，为了准确抽取出事例中的事例链条。所述获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，包括：

在本说明书的可选实施例中，为了防止直接应用bert-base-uncased模型于事例表示将会遭受源领域和目标领域不一致的问题。所述对所述第一向量进行随机遮挡训练生成第二向量，包括：

其中，

为遮挡语言模型损失函数，通过训练得到

的最小值确定最优解，

为单个被遮挡的词，[mask]为一组被遮挡的词，

为被遮挡词

在本说明书的可选实施例中，所述对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，具体为：

x_i＝e_f,i+e_a,i+e_p,i 公式二

其中，x_i为分事例内部具体的词向量，e_f,i为输入的第二向量，e_a,i为属性向量中的词性向量，e_p,i为属性向量中的位置向量。

在本说明书的可选实施例中，为了准确确定每个分事例内部各个词或短语之间的关系。所述再次进行随机遮挡训练生成第三向量，包括：

其中，

为遮挡语言模型损失函数，通过训练得到

的最小值确定最优解，

其中，

为隐式向量H^l和词性a条件下的词概率，

为被遮挡词的属性概率。

在本说明书的可选实施例中，为了探索事例之间的关系来丰富事例表示，并使处理过程更有效率。所述根据所述第三向量进行语篇关系训练，生成第四向量，包括：

其中，

为Event-TransE模型损失函数，通过训练得到

为p阶欧式距离。

在本说明书的可选实施例中，为了在事例分析过程中引入场景知识，并可以准确掌握整个事例的语义。所述根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量，包括：

其中，L^ELBO(θ₄,θ₅)为证据最低阈值，

和

分别为分事例链条{e₁,e₂,…,e_n}的先验分布

和后验概率

为后验概率

和先验分布

之间的Kullback-Leibler差异值，

为log

在后验概率

下的期望值；

其中，

为场景表征模型损失函数，通过训练得到

基于同一构思，本说明书一个或多个实施例还提供了一种融入场景知识的事例分析设备。参考图3所示，包括：

第一训练模块301，获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，生成第一向量，对所述第一向量进行随机遮挡训练生成第二向量；

第二训练模块302，对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，再次进行随机遮挡训练生成第三向量；

第三训练模块303，根据所述第三向量进行语篇关系训练，生成第四向量；

第四训练模块304，根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量；

输出模块305，根据所述最终向量生成分析结果，输出所述分析结果。

作为一个可选的实施例，所述第一训练模块301获取事例的文本信息，通过预训练语言模型对所述文本信息进行处理，包括：

作为一个可选的实施例，所述第一训练模块301对所述第一向量进行随机遮挡训练生成第二向量，包括：

其中，

为遮挡语言模型损失函数，通过训练得到

的最小值确定最优解，

为单个被遮挡的词，[mask]为一组被遮挡的词，

为被遮挡词

作为一个可选的实施例，所述第二训练模块302对所述文本信息进行属性分析生成属性向量，将所述属性向量与所述第二向量结合，具体为：

x_i＝e_f，i+e_a，i+e_p，i 公式二

作为一个可选的实施例，所述第二训练模块302再次进行随机遮挡训练生成第三向量，包括：

其中，

为遮挡语言模型损失函数，通过训练得到

的最小值确定最优解，

其中，

为隐式向量H^l和词性a条件下的词概率，

为被遮挡词的属性概率。

作为一个可选的实施例，所述第三训练模块303根据所述第三向量进行语篇关系训练，生成第四向量，包括：

其中，

为Event-TransE模型损失函数，通过训练得到

为p阶欧式距离。

作为一个可选的实施例，所述第四训练模块304根据场景表征模型对所述第四向量进行场景知识优化，生成最终向量，包括：

其中，L^ELBO(θ₄,θ₅)为证据最低阈值，

和

分别为分事例链条{e₁,e₂,…,e_n}的先验分布

和后验概率

为后验概率

和先验分布

之间的Kullback-Leibler差异值，

为log

在后验概率

下的期望值；

其中，

为场景表征模型损失函数，通过训练得到

上述实施例的设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备。该电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的融入场景知识的事例分析方法。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器410、存储器420、输入/输出接口430、通信接口440和总线450。其中处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。

处理器410可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器420可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器420中，并由处理器410来调用执行。

输入/输出接口430用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口440用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线450包括一通路，在设备的各个组件(例如处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

基于同一发明构思，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行日上任意一实施例所述的融入场景知识的事例分析方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出设备，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图设备的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。