CN113157859B

CN113157859B - 一种基于上位概念信息的事件检测方法

Info

Publication number: CN113157859B
Application number: CN202110367116.9A
Authority: CN
Inventors: 孙新; 饶东来; 侯超旭; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2023-04-18
Anticipated expiration: 2041-04-06
Also published as: CN113157859A

Abstract

本发明提出一种基于上位概念信息的事件检测方法，包括S1、输入的语句S，通过第一模型构建所述语句的上位概念信息向量表示Zs；S2、将所述语句S和所述向量表示Zs输入第二模型，获取所述语句的事件触发词和的事件类别。本发明充分考虑了现实中单个触发词可能触发多种不同事件类型的情况，利用不同事件类别之间存在的层次关联关系，并将这种关联关系当作额外的监督信息融入事件检测过程，为触发词的识别以及分类提供了辅助的决策，且不会引入额外的噪声信息，同时能够有效提升事件检测的效果。

Description

一种基于上位概念信息的事件检测方法

技术领域

本发明涉及自然语言处理和深度学习技术领域，尤其涉及一种基于上位概念信息的事件检测方法。

背景技术

事件检测技术是从语句中识别出能够清晰表达出事件发生的关键词语(事件触发词)，并对识别出来的关键词语进行分类。事件检测能够将事件分类到预定义好的类别当中，从而能够在大量的非结构化文本当中提取人们感兴趣的信息，并辅助完成其他自然语言处理的任务。事件检测技术在自动文摘、个性化新闻系统以及金融分析等领域都有着广泛的应用。事件检测的方法主要分为四大类：基于统计的事件识别方法、基于规则的事件识别方法、基于机器学习的事件识别方法和基于深度学习的事件识别方法。

基于统计方法的是指人工统计出语句或文本中的所有触发词，构建一个较为完整的触发词字典，通过此字典来判断其它词语是否为触发词。主要通过统计的方法手动构建字典，结合手工管理的字典和机器学习方法来整理相关的触发词和参数，通过构建以及修整依赖图的结构从而识别触发词。但当数据集较大时，手工管理过程会耗费大量的人力物力，与此同时，通过统计构建的字典含有大量的非触发词信息，给事件识别任务带来了较大的噪音。基于统计的触发词识别方法虽然简单可行、技术上要求不高，但要求训练语料足够大且经典，在事实上，由于非遍历性为首统计语料的限制，此方法并不能保证统计结果和测试结果的正确性，且统计过程费时费力，效率过低。

基于规则的事件识别方法需要人为构造一个模板以及一些规则去从一个语句中寻找触发词。这是一种偏理论性的方法，只有在理想的情况下定义出涵盖所有语言特征的规则才能保证该方法的有效性。并且规则的定义过程需要消耗大量的人力，如果规则定义得不够好，也可能过滤掉一些本身可以充当触发词的词语，导致识别准确率的低下。

基于机器学习的触发词识别能够基于训练集进行自动化学习，主要利用统计特征分类的方法对文本进行关键特征提取，例如字、词特征、N-Gram等，然后通过训练分类器从而把触发词的识别问题转化为分类问题。基于机器学习的触发词识别方法引入了自动化的模式，节省了人力与物力的投入。但是，机器学习需要足够量的特征集来训练分类器，即要求训练语料和测试语料必须满足一定的规模才能够保证结果的准确率，机器学习本质上也是一种统计学习方法，不可能照顾到每个具体的实例。

基于深度网络模型的迅猛发展，事件触发词识别任务产生了新的研究思路，深度学习的重要特点就是能够通过多层的网络结构自动获取数据的特征表示，且该特征表示能够具有泛化性，能够适应于不同的任务。基于神经网络和词向量的触发词识别工作可以减少人工设计复杂特征的代价；同时很好地解决了词与词之间缺乏语义信息的问题。该类方法主要通过神经网络中复杂的非线性结构自动学习一些抽象的特征，捕捉词之间的语义信息。最常用的深度学习模型为卷积神经网络(CNN)和循环神经网络(RNN)。除此之外，由于图卷积神经网络(Graph Neural Network，GNN)在近些年来的发展迅猛，图卷积神经网络也被引入到了事件检测的任务当中。

当前主流的事件检测方法大都更注重单个事件触发词只触发单个事件类型的情况，忽略了单个触发词可能存在的“一词多义”问题。如在下面两个例句E1和E2当中，单词fired都作为事件触发词出现在了语句中。然而，在例句E1中，单词fire(解雇)触发的事件类型为EndPosition(离职)事件；对应的在例句E2中，触发的事件类型则为Attack(袭击)事件。这种单词触发词存在的“一词多义”现象对事件检测的准确率会产生极大的影响。

E1:The airline fired_EndPosition that pilot for falult in work.

(因为工作疏忽，航空公司解雇了那名飞行员)

E2:An American tank fired_Attack on the Palestine Hotel.

(一辆美军坦克朝着Palestine酒店开火了)

传统的解决方法通常是将语句中的每个单词单独进行事件类别的分析，忽略了事件类型之间可能存在的层次关联关系。而事实上，事件与事件间不仅常常存在着层次上的关联，并且这种层次关联关系能够在一定程度上为事件检测任务提供辅助决策信息。

因此，针对实际情况下单个触发词可能会触发多种不同事件的现象，提高这种“一词多义”情况下事件触发词分类的准确率，是亟待解决的问题。

发明内容

为了解决上述问题，本发明提供一种基于上位概念信息的事件检测方法，包括：

S1、对于输入的语句S，通过第一模型构建所述语句的上位概念信息向量表示Zs；

S2、将所述语句S和所述向量表示Zs输入第二模型，获取所述语句的事件类别。

进一步的，所述步骤S1中第一模型的训练方法包括：

S11、将数据集中的语句转换为融合语义特征的句向量X；

S12、将所述句向量X输入第一双向LSTM网络，获取语句融合上下文信息的句向量表示H；

S13、将所述句向量表示H输入多头自注意力机制，获得包含上下文语义信息以及单词间语义关系信息的多头自注意力向量R；

S14、为语句构建基于依赖解析的异构图；

S15、将语句的异构图输入图卷积神经网络，获得异构图中每个单词节点、语句节点融合语义信息以及句法结构信息的向量表示Z。

S16、将句向量表示Z_s输入第一分类器，输出为语句的事件类别，将语句自带的事件类别作为标准与所述第一分类器输出的语句事件类别进行比较，并通过反向传播训练第一双向LSTM网络、多头自注意力机制、图卷积神经网络和第一分类器的各个参数。

进一步的，所述步骤S11之前还包括：

构建数据集，所述数据集格式为：

D＝{(S₁|L),(S₂|L),…,(S_n|L)}

其中S代表语句，L代表当前语句的事件类别集合。

进一步的，所述步骤S11包括：

将数据集中的语句，通过查找词嵌入矩阵将语句中的单词转化为包含语义信息的向量表示，单词的向量表示包括：词义特征、词性特征、实体特征。

进一步的，所述步骤S13中所述多头自注意力机制的计算公式如下：

R＝Concat(head₁,head₂,…head_hc)W⁰ (2)

其中，H＝(h₁,h₂,…,h_n)为语句每个单词融合上下文语义信息的向量序列，其中h_i(i∈1～n)表示每个单词融合上下文语义的向量表示；hc代表多头注意力机制中头的数目；W_i ^Q、W_i ^K、W_i ^V分别表示在不同的注意力机制头attention_i(i∈1～hc)下，对于输入的向量H做线性变换的权重矩阵，以上三个矩阵作为神经网络的参数训练获得；head_i(i∈1～hc)表示在第i个注意力头下得到的注意力向量；head_i＝(h_i1,h_i2,…h_in)，其中h_ij表示语句中每个单词在第i个注意力头attention_i下进行语义信息挖掘后得到的向量表示，n为语句中单词的数量；Q_i＝(q_i1,q_i2,…,q_in),K_i＝(k_i1,k_i2,…,k_in),V_i＝(v_i1,v_i2,…,v_in)分别表示在第i个注意力头下经过线性变换后得到的查询矩阵、键值矩阵以及值矩阵；其中q_ij、k_ij，v_ij分别表示语句中每个单词经过线性变换后得到的查询向量、键值向量以及值向量，n为语句中单词的数目；d_k表示输入向量的维度；Attention为注意力机制权重，计算过程如下：

head_im＝∑_tα_m,tV_it (7)

其中，

为第i个注意力头attention_i下语句中第m个单词与语句中t的单词之间的注意力权重的值，head_im表示在第i个注意力头attention_i下语句中第m个单词进行语义信息挖掘后得到的向量表示；将hc个不同的注意力头得到的注意力向量head_i进行拼接，然后通过参数矩阵W⁰进行线性变换得到最终的多头自注意力向量R；参数矩阵W⁰为神经网络的参数。

进一步的，在所述步骤S14包括：

通过依赖解析得到语句的语法依赖树；

对语句的语法依赖树进行解析，得到单词间依赖关系的列表；

将语句中每个单词作为单词节点，单词和单词之间的依赖关系作为边，将语句抽象为一个语句节点，并将语句节点与语句中每个单词节点相连接，得到异构图。

进一步的，在所述异构图中：

使用所述多头注意力向量R为单词节点赋值；

语句节点使用one-hot向量赋值；

边的权重通过邻接矩阵赋值，邻接矩阵A的计算方法如下：

进一步的，所述步骤S15包括：

将数据集中每个语句的异构图输入图卷积神经网络中，输出异构图中每个节点融合语义信息以及句法信息的向量表示Z；其中图卷积神经网络通过下式来学习每个节点的表示：

其中

为单位正则化后的异构图的邻接矩阵，D为异构图的度矩阵，D_ii＝∑_jA_ij，W⁰为参数矩阵，ρ为ReLU激活函数，ρ(x)＝max(0,x)；

优选的，图卷积神经网络采用多层堆叠的方式，具体过程如下式：

其中j表示的是第j层图卷积层，L⁰＝R，

优选的，使用双层的图卷积神经网络，公式如下所示：

其中W₀和W₁为参数矩阵，Z为节点融合语义信息以及句法结构信息的向量表示。

进一步的，在所述步骤S16中，第一模型损失函数如下式：

其中γ_D代表的是所有语句节点的集合；F是每个语句节点特征向量的维度，等价于最终的类别数目；L_df代表每个语句的真实事件类别，

代表第一模型输出的事件类别。

进一步的，所述步骤S2包括：

S21、通过第二双向LSTM网络，获取所述语句S的融入上下文信息以及语句语义结构信息的向量表示T；

S22、通过多层感知机，将所述向量表示Zs和向量表示T拼接后的向量转换为融合向量表示ε；

S23、将融合向量ε输入第二分类器，输出所述语句的事件触发词和的事件类别。

优选的，所述第二双向LSTM网络、多层感知机、第二分类器通过反向传播算法进行训练，损失函数计算公式为：

其中

代表训练集的所有数据，x_k表示数据集和，y_k表示标签集合；O(y_i)代表事件诱导函数；若当前训练集数据带有标签信息，则O(y_i)＝1，否则O(y_i)＝0。β为大于0的常数；||θ||为正则化项，θ为模型中所有参数的集合。

本发明所述的一种基于上位概念信息的事件检测方法，与现有的事件检测方法相比，具有如下有益效果：

(1)本发明充分考虑了现实中单个触发词可能触发多种不同事件类型的情况，利用不同事件类别之间存在的层次关联关系，并将这种关联关系当作额外的监督信息融入事件检测过程，为触发词的识别以及分类提供了辅助的决策，且不会引入额外的噪声信息，同时能够有效提升事件检测的效果。

(2)本发明提出了基于依赖解析的异构图自注意力网络来学习事件的上位概念信息，通过依赖解析挖掘语句的句法信息，通过自注意力机制挖掘语句的语义关联信息，能够更加准确完整地获取语句所包含的事件信息。

(3)本发明在信息融合阶段，通过将语句的上位概念向量与单词的融合上下文语义的向量进行拼接后再通过多层感知机映射到另外的向量空间，能够对两部分向量进行更有效地融合，能获取比单纯将两部分向量拼接所得向量更加准确完整的事件信息，提升最终事件分类的正确率。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为根据本发明一个实施例的第一模型的训练流程示意图；

图2为例句E1的依赖解析的示意图；

图3为例句E1异构图的示意图，其中数字代表单词节点，数字的值表示对应单词为句子中的第几个单词；S代表句子节点，相连的边代表节点间的依赖关系；

图4为根据本发明一个实施例的第二模型的训练流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清查、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明作进一步说明。

为了使本申请实例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实例可以相互结合。

本发明提供一种基于上位概念信息的事件检测方法，该方法包括如下步骤：

S1、输入的语句S，通过第一模型构建语句的上位概念信息向量表示Zs；

S2、将语句S和向量表示Zs输入第二模型，获取语句的事件类别。

在步骤S1中，第一模型包括第一双向LSTM网络、多头自注意力机制、异构图、图卷积神经网络和第一分类器。第一模型的训练方法如图1所示，包括：

S11、将语句转换为融合语义特征的句向量X；

S14、为数据集中语句构建基于依赖解析的异构图；

S16、将句向量表示Z_s输入第一分类器，输出为语句的事件类别，将语句自带的事件类别作为标准与所述第一分类器输出的语句事件类别进行比较，并通过反向传播训练第一双向LSTM网络、多头自注意力机制、卷积神经网络和第一分类器的各个参数。

在步骤S11中，将数据集中的语句转换为融合语义特征的句向量X，具体包括：

对于数据集中的语句S，其中包含有个n个单词w₁,w₂,…,w_n，通过查找词嵌入矩阵(词嵌入矩阵就是将单词从one-shot形式转化为固定维数的向量时所需的转换矩阵，属于现有技术，此处不再描述)，将语句中的每个单词w_i转化为一个包含语义信息的向量表示。每个单词w_i的向量表示都由如下这几个部分组成：词义特征、词性特征、实体特征。

(1)w_i的词义特征：可以使用Glove等工具预训练词向量，以获得单词的词义特征向量，Glove是斯坦福大学NLP组提出的一种基于全局词频统计的词表征工具。

(2)w_i的词性特征：将每个单词的词性(名词、动词等)通过向量的方式表示出来，可以使用随机初始化的方式进行。

(3)w_i的实体特征：将单词表示的实体类型通过向量的方式表示，同样可以采用随机初始化的方式。对于例句E1中的单词airline(航空公司)，其实体类型为公司，通过实体特征向量的数字序列表示其公司的实体特征。

通过上述的方式，将每个单词w_i的词义特征、词性特征、实体特征合并后并转化为特征向量x_i。此时，输入的语句将被转化为一系列的向量表示X＝(x₁,x₂,…,x_n),n为语句中单词的个数。其中，x_i＝{x_word；x_pos；x_entity}(i∈1…n)表示单词w_i的向量表示，x_word、x_pos、x_entity分别表示单词的词义特征向量、单词的词性特征向量和单词实体特征向量。

在步骤S11之前，即训练开始前，要构建训练用的数据集，即步骤S10：将传统的事件抽取数据集中包含的潜在层次关联关系以标签的形式融入数据中，使得这种层次关联关系能够作为一种额外的监督信息来辅助事件检测过程。具体说明如下：

传统的事件抽取数据形式如背景技术中例句E1和E2所示，格式为(语句，触发词，事件类别)，在一定程度上忽略触发词对整个语句表示的影响。所以，将真实触发词信息以及事件类别标签去除，将具有层次关联关系的上级事件类别作为语句的标签。在一个实施例中，使用ACE2005数据集(ACE2005数据集中包含较为完整的英语训练数据，用于2005年自动内容提取技术的评估。数据集中包含大量由实体、关系和事件注释所组成的各种类型的数据，这些数据由语言数据联盟标注并提供。数据集共包含599篇标注后的文档语料和约6000条标注后的事件语料，语料大多来源于广播新闻、广播对话、新闻组等媒介)，此数据集中自带语句的上级事件类别，例如：

E1：The airline fired thatpilot for fault in work 语句事件类别:Personnel

E2：An American tank fired on the Palestine Hotel 语句事件类别:Conflict

示例中将具有层次关联关系的上级事件类别Personnel和Conflict作为语句的标签信息，将整个事件抽取数据集构建为下列格式：

D＝{(S₁|L),(S₂|L),…,(S_n|L)}

其中S代表语句，L代表当前语句的事件类别标签集合。由于一个语句中可能存在着多个触发词，所以每个语句会有一个或者多个事件类别标签。

在步骤S12、将句向量X输入第一双向LSTM网络，获取融合上下文信息的句向量表示H＝(h₁,h₂,…h_n)，其中h_i表示语句中第i个单词融合上下文信息的向量表示。第一双向LSTM网络通过TensorFlow神经网络编程框架编写代码获得，其参数在和多头自注意力机制、图卷积神经网络、第一分类器共同训练后获得。

在步骤S13中，将句向量表示H通过多头自注意力机制转换为多头自注意力向量R。本步骤中，通过多头自注意力机制挖掘单词之间的深层次语义关系，多头自主力机制注重发掘语句中关键单词间相互影响的权重，在例句E1中，fire(解雇)与airline(航空公司)间的关系比较重要，故计算出的注意力权重相对较高；反之，fire(解雇)与a(不定冠词)间的关系不重要，故计算出的注意力权重相对较低。

具体计算公式如下，通过下述公式的训练过程，能够得到从多种不同角度挖掘而来的单词语义信息。

R＝Concat(head₁,head₂,…head_hc)W⁰ (2)

其中，H＝(h₁,h₂,…,h_n)为输入语句每个单词融合上下文语义信息的向量序列，其中h_i(i∈1～n)表示每个单词融合上下文语义的向量表示。hc代表多头注意力机制中头的数目，其中每个头可以挖掘语句中的一种语义信息。

分别表示在不同的注意力机制头attention_i(i∈1～hc)下，对于输入的向量H做线性变换的权重矩阵，以上三个矩阵作为神经网络的参数训练获得。head_i(i∈1～hc)表示在第i个注意力头下得到的注意力向量。head_i＝(h_i1,h_i2,…h_in)，其中h_ij表示语句中每个单词在第i个注意力头attention_i下进行语义信息挖掘后得到的向量表示，n为语句中单词的数量。Q_i＝(q_i1,q_i2,…,q_in),K_i＝(k_i1,k_i2,…,k_in),V_i＝(v_i1,v_i2,…,v_in)分别表示在第i个注意力头下经过线性变换后得到的查询矩阵，键值矩阵以及值矩阵。其中q_ij、k_ij，v_ij分别表示该语句中每个单词经过线性变换后得到的查询向量、键值向量以及值向量，n为语句中单词的数目。d_k表示输入向量的维度。Attention为注意力机制权重，计算方法如下：

head_im＝∑_tα_m,tV_it (7)

其中，

为第i个注意力头attention_i下语句中第m个单词与语句中t的单词之间的注意力权重的值，head_im表示在第i个注意力头attention_i下语句中第m个单词进行语义信息挖掘后得到的向量表示。将hc个不同的注意力头得到的注意力向量head_i进行拼接，然后通过参数矩阵W⁰进行线性变换得到最终的多头自注意力向量R。参数矩阵W⁰为神经网络的参数，由训练获得。多头自注意力向量R＝(r₁,r₂,…,r_n),r_i(i∈1～n)表示语句中每个单词包含上下文语义信息以及单词间语义信息关系的向量表示。

多头自注意机制的引入，能够使模型更加清楚地理解语句中单词间语义上的联系，并给予在语句中包含语义信息较多即注意力分数较大的单词更多的额外关注，提升最终模型对于触发词识别和相应事件分类的准确率。通过多头自注意力机制，得到的多头自注意力向量R＝(r₁,r₂,…,r_n)，将作为后续异构图图卷积神经网络的输入，用以学习语句的表示。

在步骤S14中，为数据集中的每个语句构建异构图。首先利用斯坦福大学开源的文本处理工具stanfordcorenlp,通过依赖解析得到输入语句S的语法依赖树。再利用斯坦福的自然语言处理工具stanfrdcorenlp对语句的语法依赖树进行解析，如图2所示，得到单词间依赖关系的列表，然后将语句中每个单词作为单词节点，单词和单词之间的依赖关系作为边，同时将整个语句抽象为一个语句节点，并将该语句节点与语句中每个单词节点相连接，最终得到一张异构图(如图3所示)：

G＝(V,E) (8)

其中，G表示根据依赖解析图构建出的异构图，V表示节点的集合，E表示边的集合。节点集合V中包括了单词结点V_word和语句结点V_sent，边集合E中包括了单词与单词的边E_ww和语句与单词的边E_sw。依赖解析注重分析语句中单词间的句法关系，对于例句E1，airline(航空公司)与fire(解雇)间存在句法关系，故两个单词间有一条表示语法关系相连的边；反之airline(航空公司)与work(工作)间没有句法关系，故两者之间不存在表示语法关系相连的边。

将多头自注意力向量R作为异构图G中单词节点的初始化表示，异构图G中的语句节点的使用one-hot向量来初始化。异构图G中边的权重的初始化通过邻接矩阵来进行赋值，邻接矩阵A的计算方法如下：

单词节点与单词节点之间边的权重通过依赖解析结果进行初始化：若单词i和单词j之间存在有依赖关系，则初始化的权重为1。为了使每个节点不光能够学习从其依赖节点传递过来的信息，同时还融入节点本身的信息，给所有的单词节点添加一条指向本身的边，其权重赋值为1。采用TF-IDF算法对单词节点和语句节点之间边的权重进行赋值。其中TF表示词频(TermFrequency)，指的是某一给定的单词在该文件中出现的次数。IDF表示逆向文件频率(InverseDocumentFrequency)，其核心思想是：如果包含某个特定给定词语的语句数量越少，则IDF越大，说明当前词语具有很好的类别区分能力。在得到构建好的邻接矩阵后，邻接矩阵中的值即为异构图中对应节点之间边的权重大小。

为数据集中所有语句都构建异构图。

在步骤S15中，利用图卷积神经网络得到异构图中每个节点融合语义信息以及句法信息的向量表示Z。图卷积神经网络属于现有技术，通过TensorFlow神经网络编程框架编写代码构建而来。具体来说，是将数据集中每个语句的异构图的邻接矩阵输入图卷积神经网络中，输出为异构图中每个节点(包括单词节点与语句节点)融合语义信息以及句法信息的向量表示。图卷积神经网络通过下式来学习每个节点的表示：

其中

为单位正则化后的邻接矩阵，D为异构图G的度矩阵，D_ii＝∑_jA_ij，W⁰为参数矩阵，在训练过程中不断优化得到。ρ为ReLU激活函数，ρ(x)＝max(0,x)。优选的，图卷积神经网络采用多层堆叠的方式，具体过程如下式：

其中j表示的是第j层图卷积层，L⁰＝R。优选的，使用双层的图卷积神经网络，公式如下所示：

其中W₀和W₁为参数矩阵，由训练获得。Z为最终每个节点融合语义信息以及句法结构信息的向量表示。通过之前的算法描述，已经得到了异构图G中每个节点最终的向量表示Z，其中Z又包含了Z_w和Z_s，Z_w代表所有单词节点的向量表示，Z_s代表所有语句节点的向量表示。

在步骤S16中，对异构图中所有的语句节点进行分类，将其分类到对应的层次关联事件，即数据集中的语句分类中，具体过程如下：

通过交叉熵损失函数计算第一模型的损失，通过梯度反向传播来训练第一模型中的参数矩阵W₀和W₁，第一模型损失函数如下式：

其中γ_D代表的是所有语句节点的集合；F是每个语句节点特征向量的维度，等价于最终的类别数目；L_df代表每个语句的真实标签向量，即真是的语句事件分类，L_df代表第一分类器输出的事件分类。第一模型通过迭代训练，最终使得模型损失最小。

在步骤S2中，如图4所示，包括如下步骤：

S21、对于上述的语句序列(w₁,w₂,…,w_n)，通过第二双向LSTM网络，获取语句融入上下文信息以及语句语义结构信息的向量表示T＝(t₁,t₂,…,t_n)，t_i为语句序列中每个单词融合上下文信息以及语句语义信息的向量表示。

S22、将上位概念信息向量表示Z_s和融合上下文信息以及语句语义结构信息的向量表示T进行拼接，通过多层感知机将拼接的向量转换到一个新的、与原来向量维度一致的多维向量空间中，得到融合向量表示ε，即对两部分向量进行有效融合，融合后的向量比单纯地将两个向量拼接能够更好地表示向量所代表的语义信息，提升最终事件触发词识别与相应事件分类的准确率。

S23、将融合向量ε输入第二分类器，输出语句的事件类别。

对于语句S＝{w₁,w₂,…,w_n}，其中w_i代表语句中的每个单词，通过第二双向LSTM网络，得到每个单词融入上下文信息以及语句语义结构信息的向量表示T＝(t₁,t₂,…,t_n)。第二双向LSTM网络的训练方法属于现有技术，但在发明中，它将和步骤S22的多层感知机、步骤S23的第二分类器共同训练。

在步骤S22中，将句向量T与语句中的上位概念信息Zs做拼接，具体过程如下：

ω_ij＝Concat(Z_i，T_ij)(16)

其中i表示第i个语句，j表示语句中的第j个单词。Z_i表示步骤S1中得到的第i个语句的包含上文概念信息的向量表示；T_ij表示语句i中第j个单词通过步骤S2得到的单词融入上下文信息以及语句语义结构信息的向量表示。使用本步骤构建的多层感知机将得到的向量ω映射到一个新的，与拼接后的向量维度一致的向量空间中，使两部分向量能够有效的融合，具体过程如下：

∈_ij＝MLP(ω_ij) (17)

MLP(x)＝W_θ2ρ(W_θ1X+b₁)+b₂ (18)

其中∈_ij表示经过融合后的向量表示，W_θ1，W_θ2为参数矩阵，通过训练获得；b₁，b₂为偏置向量，ρ为激活函数。

在步骤S23中，通过第二分类器，将信息融合模块得到的每个单词融合上下文信息和上位概念信息的向量表示∈分类到对应的事件类别中去。

第二分类器参数的计算公式如下：

Y＝σ(Wε+b)(19)

其中Y是预测分类向量；W是权重矩阵，b是偏置向量，都经由数据集中训练获取。σ为sigmoid激活函数，用于将输出值限定在(0,1)之间。其中向量Y中的每个元素都代表当前单词从属于某一个类别的概率。

为了使得模型更专注于那些带有事件标签的语句，针对损失函数，本发明提出了一种新的偏置损失函数，主要原因有一下两点。

(1)带有事件标签的语句远远少于不带标签的语句：例如在新闻报道中，能明确表明事件类型的往往只有少数的几句话，而其它的描述更多知识对所提及事件进行进一步的叙述，这样导致再训练过程中，只有少数的训练数据由明确的标签信息，而剩余的大部分训练数据则没有包含任何事件信息。如果将那些没有包含事件信息的语句不加区分引入模型中，会给模型带来过多的噪音信息，影响模型的有效性。

(2)带有信息标签的语句包含有更多有用的信息：相对于没有标签的数据，那些有标签的数据往往有明确的事件提及，可以为模型提供更有价值的事件信息，从而提升模型的准确率。

故此，将第二模型的损失函数定义如下：

其中

代表训练集的所有数据，x_k表示数据集和，y_k表示标签集合。O(y_i)代表事件诱导函数。若当前训练集数据带有标签信息，则O(y_i)＝1，否则O(y_i)＝0。β为大于0的常数，数值越大表示该模型对带有标签信息的数据重的重视程度越高。||θ||为正则化项，θ为模型中所有参数的集合。

经过上述步骤，就可以得到融合上位概念信息和上下文语义信息的语句向量表示，提升触发词所触发事件的分类正确率。

下面以ACE2005数据集中的数据为例，说明基于上位概念信息的事件检测方法。

在具体训练模型前，首先将ACE2005数据集按步骤S10进行预处理和重标注工作，并分割为训练数据集与验证数据集。然后将训练数据集输入第一模型中，通过反向传播算法得到第一模型中第一双向LSTM、多头自注意力机制、异构图卷积神经网络、第一分类器的相关参数，训练完成第一模型并输出训练数据集中语句的上位概念信息向量表示Z_s。然后将训练数据集中的语句和语句对应的上位概念信息表示向量Z_s输入第二模型，通过反向传播算法得到第二模型中第二双向LSTM、多层感知机、第二分类器的相关参数，训练完成第二模型，从而输出语句的对应事件类别。通过上述步骤训练完成整个模型后，利用分割好的验证集对模型进行验证对比实验，得到的实验结果如表1所示。可以看到本发明所提出的基于上位概念信息的事件检测方法，相较于早期的DMCNN模型，F1值提升了7.3；相较于引入论元信息的ANN模型，本发明所提模型在没有引入任何外部信息的前提下获得了更为准确的效果，F1值提升了4.7；相较于最新提出的基于对抗学习的Adv模型以及图网络相关模型，F1值评测方面都有一定的提升。

表1实验结果图(最后一行为采用本发明方法的实验结果)

需要说明的是，本文中“第一”和“第二”仅仅用来区分名称相同的实体或操作，并不暗示这些实体或操作之间顺序或关系。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于上位概念信息的事件检测方法，其特征在于，所述方法包括：

S2、将所述语句S和所述向量表示Zs输入第二模型，获取所述语句的事件类别；

所述步骤S1中第一模型的训练方法包括：

S11、将数据集中的语句转换为融合语义特征的句向量X；

S12、将所述句向量X输入第一双向LSTM网络，获取融合上下文信息的句向量表示H；

S14、为语句构建基于依赖解析的异构图；

S15、将语句的异构图输入图卷积神经网络，获得异构图中每个单词节点、语句节点融合语义信息以及句法结构信息的向量表示Z；

S16、将句向量表示Z_s输入第一分类器，输出为语句的事件类别，将语句自带的事件类别作为标准与所述第一分类器输出的语句事件类别进行比较，并通过反向传播训练第一双向LSTM网络、多头自注意力机制、图卷积神经网络和第一分类器的各个参数；

在所述步骤S14包括：

通过依赖解析得到语句的语法依赖树；

2.根据权利要求1所述的方法，其特征在于，所述步骤S11之前还包括：

构建数据集，所述数据集格式为：

D＝{(S₁|L),(S₂|L),…,(S_n|L)}

其中S代表语句，L代表当前语句的事件类别集合。

3.根据权利要求2所述的方法，其特征在于，所述步骤S11包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤S13中所述多头自注意力机制的计算公式如下：

R＝Concat(head₁,head₂,…head_hc)W⁰ (2)

其中，H＝(h₁,h₂,…,h_n)为语句每个单词融合上下文语义信息的向量序列，其中h_i(i∈1～n)表示每个单词融合上下文语义的向量表示；hc代表多头注意力机制中头的数目；W_i ^Q、

分别表示在不同的注意力机制头attention_i(i∈1～hc)下，对于输入的向量H做线性变换的权重矩阵；head_i(i∈1～hc)表示在第i个注意力头下得到的注意力向量；head_i＝(h_i1,h_i2,…h_in)，其中h_ij表示语句中每个单词在第i个注意力头attention_i下进行语义信息挖掘后得到的向量表示，n为语句中单词的数量；Q_i＝(q_i1,q_i2,…,q_in),K_i＝(k_i1,k_i2,…,k_in),V_i＝(v_i1,v_i2,…,v_in)分别表示在第i个注意力头下经过线性变换后得到的查询矩阵、键值矩阵以及值矩阵；其中q_ij、k_ij，v_ij分别表示语句中每个单词经过线性变换后得到的查询向量、键值向量以及值向量，n为语句中单词的数目；d_k表示输入向量的维度；Attention为注意力机制权重，计算过程如下：

head_im＝∑_tα_m,tV_it (7)

其中，

为第i个注意力头attention_i下语句中第m个单词与语句中t的单词之间的注意力权重的值，head_im表示在第i个注意力头attention_i下语句中第m个单词进行语义信息挖掘后得到的向量表示；将hc个不同的注意力头得到的注意力向量head_i进行拼接，然后通过参数矩阵W⁰进行线性变换得到所述多头自注意力向量R；参数矩阵W⁰为神经网络的参数。

5.根据权利要求1所述的方法，其特征在于，在所述异构图中：

使用所述多头注意力向量R为单词节点赋值；

语句节点使用one-hot向量赋值；

边的权重通过邻接矩阵赋值，邻接矩阵A的计算方法如下：