CN113887836B

CN113887836B - 一种融合事件环境信息的叙述性事件预测方法

Info

Publication number: CN113887836B
Application number: CN202111297889.0A
Authority: CN
Inventors: 袁晓洁; 王施超; 蔡祥睿; 张莹
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2024-04-19
Anticipated expiration: 2041-11-04
Also published as: CN113887836A

Abstract

本发明属于人工智能技术领域，特别是一种融合事件环境信息的叙事性事件预测方法。包括：首先通过叙事性事件与非结构文本之间的内在关系，获得与叙事性事件直接相关的环境描述；其次，通过多头注意力机制利用事件的语义信息从环境描述中抽取出局部与全局的事件环境特征；再次，通过事件预测模型编码模块将叙事性事件特征与环境特征互相编码得到融合事件环境的事件演化特征；最后，叙事性事件预测解码模块根据演化特征，从候选项中选择出正确的下一叙事性事件，完成事件预测任务。本发明能够解决叙事性事件预测任务中对事件环境信息利用不充分的问题，事件环境信息能够为叙事性事件提供更加完善的上下文信息，提高事件预测模型对事件演化的理解水平。

Description

一种融合事件环境信息的叙述性事件预测方法

技术领域

本发明属于人工智能技术领域，具体涉及自然语言处理，特别是针对文本数据的事件预测方法，一种融合事件环境信息的叙述性事件预测方法。

背景技术

随着进入大数据时代，越来越多的信息以非结构化文本的存储在互联网中，这些文本中，特别是新闻文本，叙述了大量现实世界中发生的事件。对于此类以叙述口吻记录的事件称之为叙述性事件(Narrative event)。由一连串的叙述性事件构成的事件链中包含了事件链中的各个事件及其演化关系。通过对叙述性事件链的建模能够帮助人工智能系统理解更加复杂多样的现实事件。对事件演化的良好建模，能够促进许多下游应用，如基于事件的知识图谱构建，风险决策系统构建。

在叙述性事件预测任务中，当给定一系列从非结构化文本中抽取的事件序列后，模型需要根据输入的事件链，从给定的候选事件集合中选择出最有可能发生的下一事件。近年来，叙述性事件预测方法得到了广泛的研究。传统的叙述性事件预测方法集中于对叙述性事件链中的事件及其内部顺序关系的建模。这类方法以基于预训练的语言学文本特征构建单个叙述性事件的特征向量，通过深度神经网络捕捉事件链中的演化关系，训练对应的深度学习模型。

然而这些方法忽略了事件环境中包含的语义信息。在叙述性事件预测任务中，每一事件抽取自文档中某一特定的句子，该句子不仅包含了当前事件的主要元素(主语、谓语、宾语)，还包含了诸如事件发生地环境的描述、人物行为的语义等信息，利用好这些事件环境信息能够提升叙述性事件预测效果。例如，在不同的环境中人物会做出不同的行为：在吵闹的环境中，事件中的人物更可能做出激烈的行为；而在安静的环境中，人物更可能做出冷静，稳健的行为。借助这些事件环境信息进行叙述性事件预测时，预测模型能够更好地理解事件链中的演化关系，从而更加准确地从候选集合中预测出下一个将要发生的事件。

综上所述，融合事件环境的叙述性事件预测方法是一个创新的研究方法，具有重要的研究意义的应用价值。

发明内容

本发明解决现有叙述性事件预测任务中对事件环境信息利用不充分这一问题。本发明提出一种融合事件环境信息的叙述性事件预测方法。该方法以深度神经网络为基础，从局部以及全局两个层次抽取出事件环境信息特征。预测模型根据抽取出的事件环境信息特征以及叙述性事件链特征，使得模型能够更好地理解事件的演化规律，得到更好的预测效果。

为实现上述目的，本发明提供了如下技术方案：

一种融合事件环境信息的叙述性事件预测方法，包括以下步骤，

步骤1、生成具有事件环境的叙述性事件预测数据集；

步骤2、获得叙事性事件特征、事件环境特征以及二者的融合特征；

步骤3、根据基于叙述性事件特征与事件环境特征的融合表示和候选事件特征，通过解码模块得到候选事件得分。

本技术方案进一步的优化，所述步骤1包括，

步骤1.1、抽取叙述性事件；

步骤1.2、生成叙述性事件链；

步骤1.3、生成干扰性候选项。

本技术方案进一步的优化，所述步骤S2包括，

步骤2.1、获取事件特征的向量；

步骤2.2、获取事件环境特征的向量；

步骤2.3、叙述性事件特征与事件环境特征进行融合，得到融合特征。

本技术方案更进一步的优化，所述步骤S2.1中事件特征向量，叙述性事件e中的主语、谓语、宾语由字符构成的序列，主语、谓语、宾语的单词向量s(e)＝ ArgRepr(V_subj)，p(e)＝ArgRepr(V_pred)，o(e)＝ArgRepr(V_obj)。其中ArgRepr(V)＝ [MAX(V)；AVG(V)]，

整个叙述性的事件的向量特征则由上述三个特征向量共同构成：

e(e)＝g(W_ss(e)+W_pP(e)+W_oo(e)+b₁)

g(x)＝W_xtanh x+b₂

其中{W_i|i∈{s,p,o,x}}，都是模型可学习矩阵，{b_i|i∈{1,2}}都是的偏置向量，tanh是双曲正切函数。

本技术方案更进一步的优化，所述步骤S2.2从局部以及全局两个层面提出不同的事件环境特征c(e)∈{c_l(e),c_g(e)}，通过步骤2.1中描述的词嵌入技术以及基于双向LSTM的句子表示学习方法可以得到融合上下文的句子特征：

其中|sent_i|表示句子的长度，

对于一个事件特征e(e_i)以及句子特征S(e_i)，利用多头注意力机制可以的从句子中“查询”出和事件紧密相关的内容作为当前事件的局部环境信息：

c_l(e_i)＝MultiheadAttention(e(e_i),S(e_i),S(e_i))

其中多头注意力机制可以具体表示为：

MultiheadAttention(Q,K,V)＝[head₁,head₁,…,head_|head|]W_o

其中{W_i ^j|j∈{Q,K,V}}以及W_o都是模型中可学习的参数矩阵，d_h代表向量维度，|head|为注意力头个数；

基于叙述性事件链中所有事件的局部环境信息，应用多头注意力机制后，可以得到当前事件的全局环境信息：

c_g(e_i)＝MultiheadAttention(e(e_i),C_l,C_l)

其中C_l＝[c_l(e₁)；c_l(e₂)；…；c_l(e_n)]∈R^n×100，基于多头注意力机制得到的全局环境特征实际上是所有事件链中所有局部事件链的加权平均。

本技术方案更进一步的优化，，所述步骤S2.3融合表示层由一个Transformer编码器构成，编码器的输入由叙述性事件特征与事件环境特征拼接而成，通过编码器后得到叙述性事件链E＝[e(e₁)；e(e₂)；…e(e_n)]与事件环境特征C＝[c(e₁)；c(e₂)；…c(e_n)]的融合表示：

Transformer编码器包含多个结构相同但不共享参数的神经网络构成，每层由多头自注意力机制、残差链接、正则化层以及全连接前馈网络构成。

本技术方案进一步的优化，所述步骤S3包括，

步骤3.1、计算候选叙述性事件得分；

步骤3.2、模型优化目标。

本技术方案更进一步的优化，所述步骤3.1基于叙述性事件特征与事件环境特征的融合表示和候选事件特征，通过一个Transformer解码器模块就能够得到各个候选事件的得分s，Transformer解码器与编码器类似，每层都由多头自注意力机制、残差链接、正则化层以及全连接前馈网络构成：

候选项的得分s通过softmax函数后就能够得到选择各个选项的概率：

其中为第i个候选项的概率。

本技术方案更进一步的优化，所述步骤3.2中预测模型通过最小化交叉熵损失函数来更新模型参数：

其中y表示一个正确选项的独热向量，通过梯度下降算法，模型能够以最小化损失函数的目标更新模型参数。

本技术方案更进一步的优化，，所述为避免模型过拟合，本方法同时将模型参数的L₂范数作为优化的目标之一：

最终的优化目标是上述二者的联合误差：

其中α是二者的平衡系数。

区别于现有技术，上述技术方案的优点和积极效果：

本发明开创性地提出将事件环境信息融合进叙述性事件预测任务，并且提出两种不同层次的事件环境特征抽取方法。本发明不需要额外的数据源，仅需要原始非结构化文本就能够抽取事件环境特征。抽取出的事件环境特征提高了模型对事件演化的建模能力，极大地提升了叙述性事件预测的准确率。

附图说明

图1是融合事件环境信息的叙事性事件预测方法的流程图；

图2是多头注意力机制模块示意图；

图3是Transformer编码器、解码器网络结构示意图；

图4是基于Gigaword纽约时报(NYT)部分数据集的叙事性事件预测结果比较图；

图5是事件环境注意力权重图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

基于非结构化文本抽取叙事性事件以及文本抽取事件环境，并将其作为输入数据，构建融合事件环境特征的叙事性事件预测模型，根据给出的叙事性事件链，从候选事件集合中选择出正确的选项。本方法首先通过叙事性事件与非结构文本之间的内在关系，获得与叙事性事件直接相关的环境描述；其次，通过多头注意力机制利用事件的语义信息从环境描述中抽取出局部与全局的事件环境特征；再次，通过事件预测模型编码模块将叙事性事件特征与环境特征互相编码得到融合事件环境的事件演化特征；最后，叙事性事件预测解码模块根据演化特征，输出各个候选项得分，并从候选项中选择出正确的下一叙事性事件，完成事件预测任务。本方法能够解决叙事性事件预测任务中对事件环境信息利用不充分的问题，事件环境信息能够为叙事性事件提供更加完善的上下文信息，提高事件预测模型对事件演化的理解水平。

请参阅图1所示，为融合事件环境信息的叙事性事件预测方法的流程图。该方法具体步骤如下：

步骤1生成具有事件环境的叙述性事件预测数据集；

该阶段的目标是将从非结构化的文本中抽取出叙述性事件以及对应非结构化句子，并根据事件发生的先后顺序构成叙述性事件链，同时根据目标事件生成具有干扰性的候选集合。叙述性事件链、事件对应的非结构化文本以及干扰性候选项集合共同组成了模型的输入数据。

步骤1.1抽取叙述性事件；

叙述性事件e被形式化描述为由主语(subj)、谓语(pred)、宾语(obj)构成的三元组e＝(subj,pred,obj)，其中主语和宾语通常由文本中出现的实体表述构成，包含该事件的句子记为s_e。本方法通过斯坦福大学自然语言处理开源工具CoreNLP对原始文本进行词性标注、命名实体识别、共指消解、语法依赖关系分析，基于分析结果应用启发式算法来得到该文本中所有的叙述性事件集合E。

步骤1.2生成叙述性事件链；

通过对文本进行共指消解，能够得到该文本中所有实体集合以及每个实体在文本中的所有表述形式。对于每一个实体，根据它在文本中的表述的出现的先后顺序，就能够得到该实体在文本中的共指消解链。对于共指消解链中的每一个实体的表述可以从步骤1.1抽取的叙述性事件集合ε中找出包含该实体表述的事件e。依此，实体的共指消解链被转化为叙述性事件链。

步骤1.3生成干扰性候选项；

对于每一条叙事性事件链[e₁,e₂,…,e_n]，其中e_i表示该事件链中的第i个叙述性事件，将最后一个叙事性事件作为将要预测的目标，同时从所有叙事性事件集合E中进行随机采样|Μ|-1个候选事件，通过替换主语、谓语、宾语中的任一元素，生成具有干扰性的候选项。最终将生成由|Μ|个叙述性事件构成的候选集合Μ。

步骤2获得叙事性事件特征、事件环境特征以及二者的融合特征；

该阶段的目标是将抽取出的叙述性事件嵌入向量空间，并根据事件与非结构化文本之间的内在关系获得与叙述性事件直接相关的环境特征，并融合二者得到融合事件环境信息的演化特征。

步骤2.1获得事件特征的向量；

叙述性事件e中的主语、谓语、宾语都可以看作是一个由字符构成的序列，以主语为例，subj＝[w₁；w₂；…；w_|subj|]，其中w_i是主语中的第i个单词，[·；·]表示向量拼接操作，|s|是主语中包含的单词个数。本方法利用斯坦福大学公开的100维Glove预训练词向量将每一个单词w_i转换为一个向量v_i，构成主语的单词向量可以表示为V_subj＝ [v₁；v₂；…；v_|subj|]。本方法利用最大池化技术和平均池化技术，将变长的文本转换为定长 100维的向量。由此可以得到主语、谓语、宾语的单词向量s(e)＝ArgRepr(V_subj)， p(e)＝ArgRepr(V_pred)，o(e)＝ArgRepr(V_obj)。其中ArgRepr(V)＝[MAX(V)；AVG(V)]。

e(e)＝g(W_ss(e)+W_pp(e)+W_oo(e)+b₁)

g(x)＝W_xtanh x+b₂

步骤2.2获得事件环境特征的向量；

本发明从局部以及全局两个层面提出不同的事件环境特征c(e)∈{c_l(e),c_g(e)}。

对于叙述性事件链中任意一个叙述性事件e都一个包含该事件的句子se与其对应，同时该句子描述了与该事件紧密相关的事件环境信息。通过步骤2.1中描述的词嵌入技术以及基于双向LSTM的循环神经网络每个单词w_i可以得到融合上下文的表示特征h_i：

其中|sent_i|表示句子的长度，v_i是第i个单词嵌入后的向量表示，

c_l(e_i)＝MultiheadAttention(e(e_i),S(e_i),S(e_i))

其中多头注意力机制如图2所示可以具体表示为：

MultiheadAttention(Q,K,V)＝[head₁,head₁,…,head_|head|]W_o

其中{W_i ^j|j∈{Q,K,V}}以及W_o都是模型中可学习的参数矩阵，d_h代表向量维度，|head|为注意力头个数。

除了直接描述当前事件的句子外，当前事件所在的上下句同样会包含于事件相关的环境描述。基于叙述性事件链中所有事件的局部环境信息，应用多头注意力机制后，可以得到当前事件的全局环境信息：

c_g(e_i)＝MultiheadAttention(e(e_i),C_l,C_l)

步骤2.3叙述性事件与事件环境特征的融合；

本发明的融合表示层由一个Transformer编码器构成，Transformer编码器结构如图3 上方所示。编码器的输入由叙述性事件特征与事件环境特征拼接而成，通过编码器后得到叙述性事件链E＝[e(e₁)；e(e₂)；…e(e_n)]与事件环境特征C＝[e(e₁)；e(e₂)；…c(e_n)]的融合表示：

Transformer编码器包含多个结构相同但不共享参数的神经网络构成，每层由多头自注意力机制、残差链接、正则化层以及全连接前馈网络构成。本方法使用的编码器由单层的Transformer编码器构成。

步骤3根据候选事件特征，输出候选项得分；

该步骤将根据步骤2中抽取出的融合事件环境信息的演化特征以及候选项事件特征，计算出各个候选项的得分，并根据得分输出预测结果以及优化模型参数。

步骤3.1计算候选叙述性事件得分；

基于叙述性事件特征与事件环境特征的融合表示和候选事件特征，通过一个Transformer解码器模块就能够得到各个候选事件的得分s。Transformer解码器结构如图3下方所示，与编码器类似，每层解码器都由多头自注意力机制、残差链接、正则化层以及全连接前馈网络构成。

其中为第i个候选项的概率。

步骤3.2模型优化目标

本方法所提出的预测模型通过最小化交叉熵损失函数来更新预测模型参数，更新的是前文定义的所有模型参数，包括步骤2以及步骤3中的所有参数：

为避免模型过拟合，本方法同时将模型参数的L₂范数作为优化的目标之一：

本方法最终的优化目标是上述二者的联合误差：

其中α是二者的平衡系数，本方法将其设置为0.8。

本发明提出的叙事性事件预测模型在Gigaword纽约时报(NYT)部分与其他6种叙事性事件预测模型进行了对比，并使用预测正确率作为模型预测的评价指标。结果比较如图4所示，前6行分别对应Event-Comp、SGNN、SAM-Net、EventTransE、HeterEvent、 UniFA-S比较模型，CircEvent代表本发明所描述的模型方法。从结果图中可以看出本发明预测的正确率显著高于比较模型，印证了本发明提高了事件预测任务的预测效果。图5 展示了所抽取的事件环境信息，从中我们可以看出，本发明提出的事件环境不仅能够发现诸如“abalone”这样的主题词，还能够注意到类似“illegal”，“largest”这样带有强烈语义信息的单词。一定程度上解释了本发明提高事件预测任务准确率的内因。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种融合事件环境信息的叙述性事件预测方法，其特征在于，包括以下步骤，

步骤1、生成具有事件环境的叙述性事件预测数据集；

所述事件特征向量，叙述性事件e中的主语、谓语、宾语由字符构成的序列，主语、谓语、宾语的单词向量s(e)＝ArgRepr(V_subj)，p(e)＝ArgRepr(V_pred)，o(e)＝ArgRepr(V_obj)，其中ArgRepr(V)＝[MAX(V)；AVG(V)]，

e(e)＝g(W_ss(e)+W_pp(e)+W_oo(e)+b₁)

g(x)＝W_xtanhx+b₂

其中{W_i|i∈{s,p,o,x}}，都是模型可学习矩阵，{b_i|i∈{1,2}}都是的偏置向量，tanh是双曲正切函数；

所述事件环境特征从局部以及全局两个层面提出不同的事件环境特征c(e)∈{c_l(e),c_g(e)}，通过步骤2.1中描述的词嵌入技术以及基于双向LSTM的句子表示学习方法得到融合上下文的句子特征：

S(e_i)＝[h₁,h₂,…,h_|senti|]

其中|sent_i|表示句子的长度，

对于一个事件特征e(e_i)以及句子特征S(e_i)，利用多头注意力机制从句子中得出和事件紧密相关的内容作为当前事件的局部环境信息：

c_l(e_i)＝MultiheadAttention(e(e_i),S(e_i),S(e_i))

其中多头注意力机制具体表示为：

MultiheadAttention(Q,K,V)＝[head₁,head₁,…,head_|head|]W_O

其中以及W_O都是模型中可学习的参数矩阵，d_h代表向量维度，|head|为注意力头个数；

基于叙述性事件链中所有事件的局部环境信息，应用多头注意力机制后，得到当前事件的全局环境信息：

c_g(e_i)＝MultiheadAttention(e(e_i),C_l,C_l)

其中C_l＝[c_l(e₁)；c_l(e₂)；…；c_l(e_n)]∈R^n×100，基于多头注意力机制得到的全局环境特征实际上是所有事件链中所有局部事件链的加权平均；

所述叙事性事件特征和事件环境特征的融合表示层由一个Transformer编码器构成，编码器的输入由叙述性事件特征与事件环境特征拼接而成，通过编码器后得到叙述性事件链E＝[e(e₁)；e(e₂)；…e(e_n)]与事件环境特征C＝[c(e₁)；c(e₂)；…c(e_n)]的融合表示：

Transformer编码器包含多个结构相同但不共享参数的神经网络构成，每层由多头自注意力机制、残差链接、正则化层以及全连接前馈网络构成；

2.如权利要求1所述的融合事件环境信息的叙述性事件预测方法，其特征在于，所述步骤1包括，

步骤1.1、抽取叙述性事件；

步骤1.2、生成叙述性事件链；

步骤1.3、生成干扰性候选项。

3.如权利要求1所述的融合事件环境信息的叙述性事件预测方法，其特征在于，所述步骤S2包括，

步骤2.1、获取事件特征的向量；

步骤2.2、获取事件环境特征的向量；

4.如权利要求1所述的融合事件环境信息的叙述性事件预测方法，其特征在于，所述步骤S3包括，

步骤3.1、计算候选叙述性事件得分；

步骤3.2、模型优化目标。

5.如权利要求4所述的融合事件环境信息的叙述性事件预测方法，其特征在于，所述步骤3.1基于叙述性事件特征与事件环境特征的融合表示和候选事件特征，通过一个Transformer解码器模块就能够得到各个候选事件的得分s，Transformer解码器与编码器类似，每层都由多头自注意力机制、残差链接、正则化层以及全连接前馈网络构成：

其中为第i个候选项的概率。

6.如权利要求5所述的融合事件环境信息的叙述性事件预测方法，其特征在于，所述步骤3.2中预测模型通过最小化交叉熵损失函数来更新模型参数：

7.如权利要求5所述的融合事件环境信息的叙述性事件预测方法，其特征在于，为避免模型过拟合，同时将模型参数的L₂范数作为优化的目标之一：

最终的优化目标是上述二者的联合误差：

其中α是二者的平衡系数。