CN112148832A

CN112148832A - 一种基于标签感知的双重自注意力网络的事件检测方法

Info

Publication number: CN112148832A
Application number: CN201910563185.XA
Authority: CN
Inventors: 贺瑞芳; 赵文丽; 贺迎春; 朱永凯; 韩玉桂
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2020-12-29
Anticipated expiration: 2039-06-26
Also published as: CN112148832B

Abstract

本发明公开一种基于标签感知的双重自注意力网络的事件检测方法,为了学习事件标签的一致性信息，学习了事件标签嵌入(label embedding)并利用了一个注意力函数去度量单词和事件标签的相关性，这主要为了确保相关事件标签的注意力值总是大于非相关的；然后通过注意力值对标签嵌入加权求和得到每个单词的在标签空间中的表示。最后利用了一个双重自注意力机制去同时捕获任意两个单词在单词空间和标签空间上的相互依赖，包括词级自注意力和标签级自注意力，其中词级自注意力捕获了指示事件类型的单词之间的关系线索，标签级自注意力隐式地建模了事件标签之间的相关性。本发明方法同时考虑了标签信息以及相互依赖，从而增强了单词表示的能力。

Description

一种基于标签感知的双重自注意力网络的事件检测方法

技术领域

本发明涉及自然语言处理以及信息抽取技术领域，具体为一种基于标签感知的双重自注意力网络的事件检测方法。

背景技术

随着计算机的普及和互联网的迅猛发展，大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们从海量信息中快速、准确地提取出感兴趣的信息。信息抽取正是在这种需求背景下应运而生的，而事件抽取作为信息抽取中最具挑战性的任务之一，受到越来越多学者的关注，其主要任务是从非结构化的信息中抽取出用户感兴趣的事件，并以结构化的形式呈现给用户，例如事件的类型，事件的参与者，发生的时间和地点等。

在信息化产业的快速发展和推动下，事件抽取已经成为多学科发展和应用的需要。它涉及到自然语言处理、数据挖掘、机器学习、数据库等多个学科的技术和方法，在自动文摘、信息检索等领域仍有着广泛的应用。因此，事件抽取任务的研究具有重要的现实意义。

从事件抽取的发展历程来看，它几乎与信息抽取的研究同时开始。20世纪七、八十年代，耶鲁大学就针对新闻报道如地震、工人罢工等领域或场景，开展有关故事理解的研究，并根据故事脚本理论建立了一个信息抽取系统，而进一步发展的动力主要是相关评测会议的推动，如信息理解研讨会(Message Understanding for Comprehension，MUC)、自动内容抽取评测(Automatic Content Extraction，ACE)等，其中前者为事件抽取研究奠定了坚实的基础，后者则把事件抽取技术引向新的高度。目前大多数研究都是围绕ACE会议提出的事件抽取框架展开的。ACE2005会议定义了8种事件类型及33种子类型，并为每种事件类型制定了唯一的事件元素角色模板，共涉及35种角色。一个事件通常由一个触发词(trigger)和若干事件元素(argument)组成，其中触发词是指文本中最能体现事件发生的词语，大多为动词或名词，事件元素包含了事件的属性和参与者。根据上述定义，事件抽取可以分成两个子任务，分别是：事件检测(也叫触发词检测)和事件元素识别。本发明关注于事件检测任务，它的目标是识别出表示事件发生的核心词并将其分类为特定的事件类型。例如：在句子“Three boys were hacked to death by a tribal mob.”中，事件检测器应该能够识别两个事件：由“hacked”触发的“Attack”事件和“death”唤醒的“Die”事件。然而，在有限的训练数据中，它仍然是具有挑战性的，因为在不同的上下文中，同一事件可能以不同的触发词形式出现，而相同触发词也可能表示为不同事件。尤其是很多触发词作为特定的事件类型仅出现几次(比如：上面句子中的“hacked”)，它们被称为稀有触发词。

目前，事件检测的相关研究主要分为两类：(1)基于特征的传统方法；(2)基于表示的神经网络方法。前者采用各种策略将分类线索(比如：词性标记、依存关系)转换为特征向量或者设计复杂的推理规则，然后通过传统的机器学习方法(如最大熵、支持向量机等模型)得到最终的分类器；后者采用分布式表示作为输入，接着将其喂入各种神经网络中来自动学习相关的特征以完成事件检测。相比于前者，后者的优势在于：(1)避免了复杂的特征工程问题；(2)不需要借助其它自然语言处理工具(词性标注器、句法分析器等)，降低了错误传播带来的影响。

尽管以上方法已经取得了不错的性能，但仍然存在着不同程度的数据稀疏问题，为了解决该问题，有些工作利用额外资源去扩大语料，但仍受限于样本空间，而忽略了标签空间的潜在信息；有些工作显式地设计了跨实体/事件/句子的线索，但仍然不能捕获到上下文中潜在的内部依存关系。因为(1)句子中的每个单词都语义对应着它特定的标签，而标签又富含稠密且指示性的线索，可以帮助捕获事件类型特定的上下文，尤其对稀有触发词是有用的；(2)任意两个词之间的直接依赖关系有助于捕获句子的内部结构信息，所以，丰富的标签信息和潜在的语义依存可以为事件检测任务提供有利的线索。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于标签感知的双重自注意力网络的事件检测方法，为了学习事件标签的一致性信息，学习了事件标签嵌入(labelembedding)并利用了一个注意力函数去度量单词和事件标签的相关性，这主要为了确保相关事件标签的注意力值总是大于非相关的；然后通过注意力值对标签嵌入加权求和得到每个单词的在标签空间中的表示。最后利用了一个双重自注意力机制去同时捕获任意两个单词在单词空间和标签空间上的相互依赖，包括词级自注意力和标签级自注意力，其中词级自注意力捕获了指示事件类型的单词之间的关系线索，标签级自注意力隐式地建模了事件标签之间的相关性，该方法相比于当前最优的模型在F1值评价指标上是具有竞争性的。

本发明的目的是通过以下技术方案实现的：

一种基于标签感知的双重自注意力网络的事件检测方法，包括以下步骤：

(101)构建嵌入层：嵌入层内包括词嵌入和事件标签嵌入，通过在嵌入空间中建模事件标签并学习事件标签嵌入以捕获事件类型的上下文，所述事件标签是事件提及的抽象和指示性表达；如果在事件分类期间只将事件标签视为预测目标，并将它们表示为独立且无意义的独热向量(one-hot vector)，则会丢失很多有价值的信息。因此，类似于词嵌入^[1]，在嵌入空间中建模事件标签并学习有效的事件标签嵌入去捕获事件类型特定的上下文是非常有必要的。

(102)对候选事件提及进行序列编码；对于每个单词x_i，结合历史信息和未来信息能够更好的增强其嵌入w_i的语义丰富性。而相比于传统的循环神经网络，双向的长短期记忆网络(BiLSTM)^[2]能够更好的捕获单词的序列语义，因此，本发明仍然采用BiLSTM进行序列编码，它不仅能够捕获当前词的历史信息，还能编码它的未来信息。

(103)建立事件标签感知的注意力交互模型；每个单词都对应有特定的事件标签，而事件标签又充满着类特定的线索，引入事件标签感知的注意力机制将单词空间的词嵌入映射到标签空间中去建模单词与事件标签的交互关系，从而捕获单词内在的事件标签属性，以便利用事件标签的一致性信息；

(104)建立双重自注意力模型：自注意力^[3]将单个序列中不同位置的元素关联起来，通过计算每个单词对之间的注意力来得到其序列表示，它对于建立局部和全局依存是很具有表达性和灵活性的。采用双重自注意力机制建立词级自注意力和标签级自注意力模型，分别采用词级自注意力和标签级自注意力模型学习单词空间和标签空间的内部结构以及语义特性，详细地说，词级自注意力捕获了指示事件类型的单词之间的关系线索，标签级自注意力则隐式地建模了事件标签之间的相关性；

(105)整合动态信息；使用门控注意力机制动态整合词级和标签级信息作为每个单词最终的表示；

(106)预测事件类型。

8.进一步的，步骤(101)中具体包括：给定一个事件提及句子X＝(x₁,x₂,…,x_i,…,x_n)，其中n是单词个数，x_i是第i个单词，将每个单词x_i看作候选触发词，同时用每个单词x_i对应的300维的词嵌入向量w_i来初始化；所有的事件标签表示为C＝(c₁,c₂,…,c_j,…,c_m)，m是事件标签的个数，c_j是第j个事件标签，采用事件标签嵌入向量l_j来初始化。

进一步的，步骤(102)具体包括：

对于每个单词x_i，结合历史信息和未来信息以增强其向量w_i的语义丰富性，采用BiLSTM进行序列编码，给定候选事件提及序列嵌入矩阵W＝(w₁,w₂,…,w_i,…,w_n)，分别通过运行

(前向LSTM)和

(后向LSTM)得到整个序列的隐表示矩阵

和

其中每个向量

和

分别通过公式(1)和公式(2)计算得到；

前向LSTM和后向LSTM分别捕获了第i个单词的历史信息和未来信息；最后通过拼接向量

和

的操作得到了句子中第i个单词的序列语义向量，即

其中

表示拼接符号，则整个句子的语义表示为矩阵H＝(h₁,h₂,…,h_n)。

进一步的，步骤(103)具体包括：

在单词空间中的词嵌入向标签空间映射的过程中，考虑到每个事件标签对每个单词的贡献度不同，故利用贡献度对所有的事件标签嵌入进行加权求和得到句子中每个单词在标签空间中的表示，即矩阵T＝(t₁,t₂,…,t_i,…,t_n)，其中向量t_i是第i个单词在标签空间中的表示，其计算见公式(3)，

公式(3)中的α_i,j度量了第i个词表示和第j个标签表示之间的相关性，即第j个标签对第i个词的贡献度，其采用了余弦相似度函数进行计算见公式(4)，

公式(4)中的

是h_i的转置，此外，对第i个词构建了标准的标签感知的注意力信号为向量

以对相关事件标签赋予更大的注意力，最后，利用平方差作为注意力的损失函数E_l(α^*,α)，见公式(5)，

公式(5)中的

是第i个词对第j个事件标签的标准注意力信号值。

进一步的，步骤(104)具体包括：

自注意力机制可将句子序列中不同位置的元素关联起来，公式(6)描述了自注意力机制的形式，其缩放因子d设置为1，

为查询矩阵，

为键矩阵，

为值矩阵，其中n是事件提及句子中单词的个数，h是BiLSTM中隐藏层的单元个数，

a)词级自注意力：

给定由BiLSTM得到的序列编码矩阵H＝(h₁,h₂,…,h_n)，H_q，H_k，H_v均等于H，并且分别对应公式(6)中的Q，K，V；

首先执行H_q和H_k转置之间的矩阵相乘，接着通过softmax归一化指数函数，得到词级注意力矩阵

其中每个注意力值A_i,j的计算见公式(7)，

公式(7)中的A_i,j度量了H_q中第j个单词对H_k中第i个单词的影响，其中

是H_q中第j个单词表示，

是H_k中第i个单词表示；接着执行A和H_v之间的矩阵相乘来得到整个句子最终的词级表示矩阵

其中每个单词的最终的表示

的计算见公式(8)，

公式(8)中的向量

代表了第i个单词最终的词级表示，富含局部和全局依赖而不会受到距离远近的影响，其中

是H_v中第j个单词表示；

b)标签级自注意力：

为了隐式地捕获标签之间的相互依赖，类似于单词空间的词级自注意力，给定由事件标签感知的注意力交互模型得到的句子中每个单词在标签空间中的表示矩阵

T_q，T_k，T_v同样与T相等，并且分别对应公式(6)中的Q，K，V；经过一系列与单词级自注意力相同的操作后得到整个句子富含全局依赖的标签级表示矩阵

其中每个单词的标签级表示计算过程见公式(9)和(10)；

公式(9)中的B_i,j度量了T_q中第j个单词对T_k中第i个单词的影响，其中

是T_q中第j个单词在标签空间中的表示，

是T_k中第i个单词在标签空间中的表示；公式(10)中的向量

代表了第i个单词最终在标签空间中的表示，即第i个单词的标签级表示。

进一步的，步骤(105)具体包括：

a)通过一个单层神经网络建模由词级信息提供的置信度g_i见公式(11)，

公式(11)中W_g是一个权重矩阵，b_g是偏差向量，σ是S型(sigmoid)函数；

b)通过使用向量g_i和1-g_i作为权重去组合

和

以得到最终的表示f_i见公式(12)，⊙代表元素对应相乘操作；

进一步的，步骤(106)具体包括：通过将向量f_i输入带有softmax层的前馈神经网络得到最终m维归一化的标签概率向量o_i＝(o_i,1,o_i,2,…,o_i,j,…,o_i,m)，其中o_i,j表示将x_i分类为第j个事件类型的概率值，假设o_i,j的概率值最大，则将第j个事件类型作为该候选触发词x_i的事件类型，最后将该预测概率分布与真实事件类型分布不断的比较，使得预测事件类型与真实事件类型一致，形式化如下；

给定一个由n个单词组成的事件提及句子时，对于每个单词x_i的输入用向量w_i表示，输出则用向量y_i来表示，其中y_i＝(y_i,1,y_i,2,…,y_i,j,…,y_i,m)表示候选触发词x_i的真实事件类型分布，将损失函数定义为真实事件类型分布和预测概率值分布的交叉熵错误

见公式(13)；

公式(13)中的y_i,j是候选触发词x_i在第j个事件类型上的真实概率值，其值见公式(14)；

最后结合公式(5)和(13)，定义了整体事件检测模型的联合损失函数见公式(15)，其中λ是权衡

和Ε的超参数；

与现有技术相比，本发明的技术方案所带来的有益效果是：

(1)为了解决数据稀疏性尤其是稀有触发词问题，本发明方法不仅考虑了标签信息的一致性和相关性，还考虑了指示事件类型的单词之间的关系线索，从而增强了单词表示的能力。

(2)为了捕获丰富的标签信息，本发明方法学习了标签嵌入并利用了标签感知的注意力交互模型将单词空间中的单词嵌入映射到标签空间中以建立单词和标签之间的联系。

(3)为了挖掘句子的内部结构，使用双重自注意力机制去同时学习单词空间和标签空间上的局部和全局依存，前者倾向于捕获指示事件类型的单词之间的关系线索，后者则隐式地建模了标签信息之间的相关性。在ACE 2005数据集上的实验结果表明本发明方法的有效性以及证明了标签信息的一致性与相关性对于事件检测任务的有效性。

附图说明

图1为本发明提供的基于标签感知的双重注意力网络的事件检测方法框架示意图。

图2为ACE 2005语料测试集中稀有触发词占比最大的十种事件类型；

图3为“hacked”的标准和预训练的标签感知注意力的实例(句子中的第四个词)；

图4为自注意力机制的计算图；

图5为每种变体中稀有和常见触发词的召回率，分别对应着左轴和右轴；

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以ACE 2005数据集为例来给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括输入预处理、事件提及的序列语义编码、结合标签影响力到事件检测方法框架、建模双重的相互依赖关系并动态整合到事件检测方法框架、事件类型预测这几个步骤。

具体步骤如下：

(1)输入预处理

为了公平比较，在ACE 2005^[4]语料上使用了与前人相同的数据分割：40篇新闻文档作为测试集，来自不同类别的30篇文档作为验证集，剩下的529篇文档作为训练集。接下里按照以下步骤对原始语料进行处理：(1)分句—将每个文档按照句子结束符(句号、问号、叹号和省略号)进行分句，得到每个文档的句子列表；(2)分词—采用StanfordCoreNLP工具进行分词；(3)移除单词数少于4的句子，并将单词数大于80的部分截断；(4)采用在纽约时语料^[5]上使用skip-gram模型预训练的词向量来对单词和标签进行初始化，对没有出现在预训练词表中的单词，从一个标准的高斯分布中随机采样来初始化。表1展示了各个集合预处理完后的详细统计信息。训练集共有12785个句子，包括4393个触发词；测试集共有633个句子，包括424个触发词；验证集共有715个句子，包含501个触发词。根据测试集中触发词在训练集中的出现情况，我们将其划分为稀有触发词和常见触发词并统计了稀有触发词占比最大的十种事件类型见图2，其中圆点代表稀有触发词，小竖线表示常见触发词，里面的数字展示了每个类型的实例数。

表1各个集合预处理完后的详细统计信息

集合	文档数	句子数	触发词数
				训练集	529	12785	4393
测试集	40	633	424
				验证集	30	715	501

2)事件提及的序列语义编码

按照上一步得到的词表示，我们用BiLSTM去编码它们的局部序列语义，如下：

其中向量w_i是第i个单词的词嵌入，向量

和

分别代表了第i个单词的历史信息和未来信息。之后将两者拼接作为该单词的序列语义向量，即

3)结合标签感知的交互关系到事件检测方法框架

为了计算标签对词表示的影响力，首先采用余弦相似度计算所有标签与单词的相似度

然后通过标签嵌入的加权求和来得到标签感知的词表示

最后为了保证相关标签的注意力值更大，构建了标准的标签感知的注意力信号

如图3所示。

其中向量l_j是第j个标签嵌入，α_i,j度量了第i个词表示和第j个标签表示之间的相关性，向量t_i是第i个单词在标签空间的表示。

4)建模双重的相互依赖关系并动态整合到事件检测方法框架

为了更好的捕获词之间的依赖关系，采用自注意力如图4分别将词空间和标签空间中单个序列的各个元素联系起来以得到每个单词富含局部和全局依赖关系的词表示和标签表示：

其中

和

是分别查询矩阵H_q和T_q中第i个单词表示，

和

分别是键矩阵H_k和T_k中第i个单词表示，

和

分别是值矩阵H_v和T_v中第j个单词表示，A_i,j度量了H_q中第j个单词对H_k中第i个单词的影响，B_i,j度量了T_q中第j个单词对T_k中第i个单词的影响，

代表了第i个单词最终的词级表示，

代表了第i个单词的标签级表示。

使用门控注意力机制去动态整合上面得到的两种信息来作为每个单词最终的表示，

其中向量g_i是由单层神经网络为词级信息提供的置信度，向量f_i是整合了词级信息和标签级信息的最终的表示。

5)事件类型预测

通过上一步得到的最终表示f_i，之后我们利用带有softmax层的前馈神经网络来得到单词所属事件类型的概率分布。具体目标函数如下：

其中o_i,j和y_i,j分别是候选触发词x_i在第j个事件类型上的预测概率值和真实概率值。

在具体实施过程中，通过提前设定各种超参数，即单词表示w_i和标签表示l_j的维度均为300，其动态更新度分别为0.4和0.2，隐层大小为150，块大小为20，学习率为0.5，损失函数中的λ为1。通过运行本发明方法50次，得到事件检测的结果。表2展示了在这50次运行过程中，整体目标函数的损失值′(θ)的变化。

表2 50次运行过程中，整体目标函数损失值′(θ)在训练集上的变化

为了验证本发明方法的有效性，将本发明方法(LADSA)与当前先进并具有代表性的模型(Cross-Entity、Joint Local+Global、JRNN、DLRNN、DMCNN+DS、ANN+Att+FN、GMLATT)以及本发明方法的四个变种(BiLSTM、BiLSTM+LA、BiLSTM+LA+WLA、BiLSTM+LA+LLA)进行对比，大致可以分为两类：

基于特征的模型

1)Cross-Entity：使用了实体一致性作为关键特征去预测事件提及。

2)Joint Local+Global：基于联合波束搜索的结构化感知机抽取了事件。

基于表示的模型

3)JRNN：使用了一个双向RNN并设计了离散结构去联合抽取事件触发词和事件元素。

4)DLRNN：通过连接词向量和文档向量自动抽取跨句子的线索。

5)DMCNN+DS：通过远程监督在FreeBase中标记新的训练数据。

6)ANN+Att+FN：显式地利用了事件元素信息和从FrameNet中抽取出的额外的数据。

7)GMLATT：利用了多语数据中的一致性和补充性信息。

8)BiLSTM：仅使用词嵌入作为特征。

9)BiLSTM+LA：除了词嵌入以外，也使用了标签感知的词表示。

10)BiLSTM+LA+WLA：在9)的基础上，使用词级别的自注意力去捕获词空间上的全局依存。

11)BiLSTM+LA+LLA：与10)类似，采用标签级自注意力去捕获标签空间的全局依存。

12)LADSA：同时采用词级和标签级的全局依存作为特征。

具体评价指标采用P、R、F1值进行实验性能的评价。

表3展示了各种方法在测试集上的整体性能，F1分数值越高表示该模型性能越好,其中前两行是基于特征的方法，余下的都是基于表示的方法。

表示利用了跨句子级的线索，

意味着模型使用了额外的资源，“*”则代表本发明的方法及其变体。

表3本发明方法与其他方法在测试集上的性能比较

从表3的实验结果可看出，通过标签感知以及双重自注意力，本发明提供的方法性能得到较大的提升。另外，图5展示了本发明方法及其变体在稀有和常见触发词上的召回率，说明本发明提出的基于标签感知的双重自注意力网络的事件检测方法的有效性，其中BiLSTM+LA简写为LA，其它的类似。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Mikolov T,Yih WT,Zweig G.Linguistic regularities in continuousspace word representations.In Proceedings of the North American Chapter ofthe Association for Computational Linguistics.2013:746-751.

[2]Schuster M,Paliwal KK.Bidirectional recurrent neural networks.TheJournal of IEEE Transactions on Signal Processing.1997:2673-2681.

[3]Vaswani A,Shazeer N,Parmar N,etc.Attention is all you need.InProceedings of Advances in Neural Information Processing Systems.2017:5998-6008.

[4]http://projects.ldc.upenn.edu/ace/.

[5]https://catalog.ldc.upenn.edu/LDC2008T19.

Claims

1.一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，包括以下步骤：

(101)构建嵌入层：嵌入层内包括词嵌入和事件标签嵌入，通过在嵌入空间中建模事件标签并学习事件标签嵌入以捕获事件类型的上下文，所述事件标签是事件提及的抽象和指示性表达；

(102)对候选事件提及进行序列编码；

(103)建立事件标签感知的注意力交互模型；每个单词都对应有特定的事件标签，引入事件标签感知的注意力机制将单词空间的词嵌入映射到标签空间中去建模单词与事件标签的交互关系，从而捕获单词内在的事件标签属性，以便利用事件标签的一致性信息；

(104)建立双重自注意力模型：采用双重自注意力机制建立词级自注意力和标签级自注意力模型，分别采用词级自注意力和标签级自注意力模型学习单词空间和标签空间的内部结构以及语义特性，词级自注意力捕获了指示事件类型的单词之间的关系线索，标签级自注意力隐式地建模了事件标签之间的相关性；

(106)预测事件类型。

2.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，步骤(101)中具体包括：给定一个事件提及句子X＝(x₁，x₂，...，x_i，...，x_n)，其中n是单词个数，x_i是第i个单词，将每个单词x_i看作候选触发词，同时用每个单词x_i对应的300维的词嵌入向量w_i来初始化；所有的事件标签表示为C＝(c₁，c₂，...，c_j，...，c_m)，m是事件标签的个数，c_j是第j个事件标签，采用事件标签嵌入向量l_j来初始化。

3.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，步骤(102)具体包括：

对于每个单词x_i，结合历史信息和未来信息以增强其向量w_i的语义丰富性，采用BiLSTM进行序列编码，给定候选事件提及序列嵌入矩阵W＝(w_i，w₂，...，w_i，...，w_n)，分别通过运行

(前向LSTM)和

(后向LSTM)得到整个序列的隐表示矩阵

和

其中每个向量

和

分别通过公式(1)和公式(2)计算得到；

和

的操作得到了句子中第i个单词的序列语义向量，即

其中

表示拼接符号，则整个句子的语义表示为矩阵H＝(h₁，h₂，...，h_n)。

4.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，步骤(103)具体包括：

在单词空间中的词嵌入向标签空间映射的过程中，考虑到每个事件标签对每个单词的贡献度不同，故利用贡献度对所有的事件标签嵌入进行加权求和得到句子中每个单词在标签空间中的表示，即矩阵T＝(t₁，t₂，...，t_i，..，t_n)，其中向量t_i是第i个单词在标签空间中的表示，其计算见公式(3)，

公式(3)中的α_i，j度量了第i个词表示和第j个标签表示之间的相关性，即第j个标签对第i个词的贡献度，其采用了余弦相似度函数进行计算见公式(4)，

公式(4)中的

以对相关事件标签赋予更大的注意力，最后，利用平方差作为注意力的损失函数E_l(α^*，α)，见公式(5)，

公式(5)中的

是第i个词对第j个事件标签的标准注意力信号值。

5.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，步骤(104)具体包括：

为查询矩阵，

为键矩阵，

a)词级自注意力：

给定由BiLSTM得到的序列编码矩阵H＝(h₁，h₂，...，h_n)，H_q，H_k，H_v均等于H，并且分别对应公式(6)中的Q，K，V；

其中每个注意力值A_i，j的计算见公式(7)，

公式(7)中的A_i，j度量了H_q中第j个单词对H_k中第i个单词的影响，其中

是H_q中第j个单词表示，

其中每个单词的最终的表示

的计算见公式(8)，

公式(8)中的向量

是H_v中第j个单词表示；

b)标签级自注意力：

其中每个单词的标签级表示计算过程见公式(9)和(10)；

公式(9)中的B_i，j度量了T_q中第j个单词对T_k中第i个单词的影响，其中

是T_q中第j个单词在标签空间中的表示，

是T_k中第i个单词在标签空间中的表示；公式(10)中的向量

6.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，步骤(105)具体包括：

b)通过使用向量g_i和1-g_i作为权重去组合

和

以得到最终的表示f_i见公式(12)，⊙代表元素对应相乘操作；

7.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法，其特征在于，步骤(106)具体包括：通过将向量f_i输入带有softmax层的前馈神经网络得到最终m维归一化的标签概率向量o_i＝(o_i，1，o_i，2，...，o_i，j，...，o_i，m)，其中o_i，j表示将x_i分类为第j个事件类型的概率值，假设o_i，j的概率值最大，则将第j个事件类型作为该候选触发词x_i的事件类型，最后将该预测概率分布与真实事件类型分布不断的比较，使得预测事件类型与真实事件类型一致，形式化如下；

给定一个由n个单词组成的事件提及句子时，对于每个单词x_i的输入用向量w_i表示，输出则用向量y_i来表示，其中y_i＝(y_i，1，y_i，2，...，y_i，j，...，y_i，m)表示候选触发词x_i的真实事件类型分布，将损失函数定义为真实事件类型分布和预测概率值分布的交叉熵错误

见公式(13)；

公式(13)中的y_i，j是候选触发词x_i在第j个事件类型上的真实概率值，其值见公式(14)；

和E的超参数；

。