CN115392248A

CN115392248A - 一种基于上下文和图注意力的事件抽取方法

Info

Publication number: CN115392248A
Application number: CN202210712691.2A
Authority: CN
Inventors: 王衍洋; 唐文忠; 孙书玮
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-25

Abstract

本发明涉及自然语言处理领域，尤其涉及一种基于上下文和图注意力的事件抽取方法，包括事件检测和事件论元抽取两大步骤。事件检测中，对预处理后的文本进行事件检测，判断出事件触发词和事件类型，所述事件检测模型提取句子间上下文特征；事件论元抽取中，基于获取的事件触发词和事件类型，通过图神经网络进行编码得到句法依赖信息，获取事件类型和论元信息。本发明的事件抽取方法整体性能高、召回率高、效率高。

Description

一种基于上下文和图注意力的事件抽取方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于上下文和图注意力的事件抽取方法，能够从文本中抽取事件信息，包括事件类型信息和事件论元信息。

背景技术

传感器种类复杂、分布零散、产生的数据量巨大，传统的信息组织和管理方式已经无法适用，知识图谱作为一种新的信息组织方式，能够组织和表达各种实体以及实体之间的复杂关系，在组织和管理信息上具备天然的优势。事件抽取技术能够从文本中抽取事件信息，是构建事件知识图谱的关键技术之一。

目前事件抽取研究主要关注模型整体性能(F1值)的提升，缺少结合实际问题对模型特定性能指标的关注，也忽视了对模型效率的要求。事件抽取面向的是网络文本信息，具有以下两个特点，其一：网络文本规模巨大，但大量文本中不包含目标事件信息，导致事件信息稀疏，而事件信息价值又十分巨大，这就要求模型应该尽可能全、尽可能多地挖掘和抽取出目标事件信息，而可以容许其中存在一定的误判；其二：网络信息变化迅速，可能出现新的事件类型和新的语言表述方式，模型需要能迅速地适应变化，及时进行完善和更新。针对传感器的文本信息的以上两个特点，事件抽取模型必须满足以下两个要求，其一：在保证模型整体性能(F1值)的前提下，更加关注召回率(查全率)的提升；其二：模型效率要高，即训练速度快、需要计算资源、语料资源少。当前通用的事件抽取模型无法完全满足上述要求，无法胜任事件抽取任务。

发明内容

针对现有问题，本发明提出了一种基于上下文和图注意力的事件抽取方法，包括事件检测和事件论元抽取两大步骤，该方法整体性能高、召回率高、效率高。具体技术方案如下：

S1：事件检测，对预处理后的文本进行事件检测，判断出事件触发词和事件类型，所述事件检测模型提取句子间上下文特征；

S2：事件论元抽取，基于所述步骤S1中获取的事件触发词和事件类型，通过图神经网络进行编码得到句法依赖信息，获取事件类型和论元信息。

进一步的，步骤S1包括：

S101：文本预处理，对文本进行分句、分词、词性标注、命名实体识别、句法依存分析，将文本转化为格式统一的词嵌入矩阵，得到句法依赖树；

S102：根据S101中所述句法依赖树构建句法图，采用双向长短时记忆力网络和多阶图注意力网络提取句子内文本特征，得到句子内信息嵌入；

S103：使用词嵌入矩阵表示句子间上下文特征，得到句子间上下文嵌入；

S104：将所述句子内信息嵌入与所述句子间上下文嵌入连接，得到最终嵌入h_i，sentCtx＝ [h_i，h_{i_sentCtx}]，其中h_i代表第i个句子的自身嵌入信息，h_{i_sentCtx}代表这句话的上下文嵌入；

S105：将S104得到的最终嵌入输入全连接层后，输入softmax分类器，输出事件触发词和事件类型。

进一步的，步骤S103具体包括：

将当前句子的上下文句子分别记作为Sentpre和Sentnext，根据词嵌入矩阵获取上下文句子中每个词的嵌入表示，得到上下文句子嵌入序列分别为：W_pre＝[w₁，w₂，...，w_n]表示前一个句子的句子内信息嵌入表示，其中w₁，w₂，...，w_n表示句子中的n个单词， W_next＝[w′₁，w′₂，...，w′_m]表示后一个句子的句子内信息嵌入表示，其中w′₁，w′₂，...，w′_m表示句子中的m个单词；用上下文句子的词嵌入序列的平均值作为上下文句子的句嵌入，分别为：前一个句子的平均信息嵌入

其中h_pre，i表示前一个句子的每个单词的嵌入表示， N_pre表示前一个句子的单词数量，后一个句子的平均信息嵌入

其中h_next，i表示下一个句子的每个单词的嵌入表示，N_next表示下一句话的单词数量，将二者拼接得到句子间上下文嵌入

进一步的，步骤S2具体包括：

S201：将当前句子输入预训练语言模型中，得到词嵌入矩阵、词性嵌入矩阵、实体嵌入矩阵、位置嵌入矩阵，并借助于Stanford Core NLP工具包得到句法依赖树，并且根据步骤S1 判断出的事件触发词得到事件触发词在当前句子中所处位置；

S202：将步骤S201中得到的词嵌入矩阵、位置嵌入矩阵、词性嵌入矩阵、实体类型嵌入矩阵作为双向长短时记忆网络BiLSTM的输入，根据步骤S201得到的句法依赖树构建句法图，提取实例特征，并得到对应的候选论元；

S203：计算事件触发词注意力加权特征；

S204：将所述实例特征、所述事件触发词注意力加权特征求和作为综合特征；

S205：根据所述候选论元和事件触发词的位置对步骤S204中得到的综合特征进行特征聚合，得到最终嵌入；

S206：将步骤S205得到的最终嵌入输入全连接层后，输入softmax分类器，判断候选触发词的事件类型。

进一步的，步骤S202中：

提取实例特征时，将步骤S201中得到的词嵌入矩阵、位置嵌入矩阵、词性嵌入矩阵、实体类型嵌入矩阵输入双向长短时记忆网络BiLSTM，得到每个词的综合嵌入；

根据步骤S201中得到的句法依赖树构建句法图，句子W的句法依赖树表示为有向图 G＝(V，E)，V和E分别表示结点和边的集合，结点v_i对应句子W中单词w_i，边(v_i，v_j)对应句法依赖树中单词w_i到单词w_j的有向句法弧；

使用正向句法弧(along)、反向句法弧((rev)、自循环边((loop)三种类型作为边类型，构建句法图如下：

其中(v_i，v_j)∈ε表示该有向边属于句法图中，其中ε表示句法图。

在更新结点i时，采用MLP方式计算注意力得分，先计算不考虑句法图下的注意力系数 e_ij＝a(Ch_i，Ch_j)，其中a表示单层前馈神经网络计算，C为权重矩阵，h_i表示节点i的嵌入， h_j表示节点j的嵌入，然后利用句法图进行mask操作，仅将注意力分配到结点i的邻居结点集 N_i上，并使用softmax操作对邻居结点的注意力进行归一化，公式为：

α_ij代表邻居节点的注意力，e_ij代表注意力系数，在得到邻居结点的注意力后，每个结点 i的特征可用所有邻居结点的特征进行更新，结点更新计算如以下公式为：

其中h′_i代表当前节点更新后的嵌入表示，σ表示一个sigmoid激活函数。

进一步的，步骤S203中：

计算事件触发词注意力加权特征，使用Bert得到句中各词的词嵌入M＝[m₁，m₂，...，m_n]；

根据事件触发词和其他单词的嵌入向量计算注意力得分，事件触发词嵌入向量为m_t、其他词嵌入向量为m_i，采用内积方式计算其他单词和事件触发词语义上的相关性：

其中，

表示其它词的嵌入的均值，F表示对两个向量做内积的函数；

用softmax进行归一化操作计算各单词的注意力得分：

其中，n表示句子中单词的个数。

将通过内积计算后的事件触发词语义乘以注意力得分得到基于事件触发词注意力的加权后的嵌入向量p_i＝s_i·α_i。

相比于现有技术，本发明具有以下有益效果：

1.本发明的基于上下文和图注意力的事件抽取方法，具有实现整体性能高、召回率高、效率高的特点。

2.本发明使用句子间上下文信息对原有的事件检测模型改进，解决触发词歧义问题，提升了事件检测整体性能和召回率；

3.本发明使用图注意力网络和以触发词为中心的注意力机制对原有的事件论元抽取模型改进，提升了事件论元抽取整体性能和召回率，而且模型可移植性增强；

附图说明

为了更清楚地说明本发明中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明中进行事件检测和事件论元抽取的步骤的示例；

图2为本发明中进行事件检测的模型结构图；

图3为本发明中进行事件论元抽取的模型结构图；

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例1

以本发明的一种基于上下文和图注意力的事件抽取方法处理网络文本为例，包括事件检测和事件论元抽取两大步骤。

S1：事件检测

S101：文本预处理，对文本进行分句、分词、词性标注、命名实体识别、句法依存分析。分句中，如果当前句子存在前后句子，则以前后句子作为当前句子的句子间上下文，如果当前句子不存在前后句子，则以空字符串作为句子间上下文。利用Stanford Core NLP工具包将网络文本转化为格式统一的词嵌入矩阵，获得句法依赖树。词嵌入矩阵使用预训练的词嵌入矩阵进行初始化，词典中未登录词用UNK表示，填充词用PAD表示。词性嵌入矩阵、实体嵌入矩阵均采用随机初始化。此外，还需要记录每个词的位置信息，位置嵌入矩阵也采用随机初始化。

S102：提取句子内文本特征时，将S1中得到的词嵌入、位置嵌入、词性嵌入、实体类型嵌入作为双向长短时记忆网络BiLSTM的输入，得到每个词的综合嵌入。再根据S101中得到的句法依赖树构建句法图，并使用多阶图注意力网络根据句法图对句子进行编码，都得到句子内文本特征。

S103：提取句子间上下文特征时，将当前句子的上下文句子分别记作为Sent_pre、Sent_next，根据词嵌入矩阵获取句中每个词的嵌入表示，得到上下文句子嵌入序列分别为：

W_pre＝[w₁，w₂，...，w_n]、W_next＝[w′₁，w′₂，...，w′_m]

用句子词嵌入序列的平均值作为前后句子的句嵌入，分别为：

将二者拼接得到句子间上下文嵌入

S104：将句子内信息嵌入与句子间上下文嵌入连接得到最终嵌入 h_i，sentCtx＝[h_i，h_{i_sentCtx}]。

S105：将S103得到的最终嵌入输入全连接层后，输入softmax分类器，判断候选触发词的事件类型。

S2：事件论元抽取

先使用上述事件检测方法对句子进行事件检测，如果包含事件才进行接下来的事件论元抽取步骤。通过上述事件检测，可以获取事件触发词和事件类型，作为下列事件论元抽取的输入信息。

S201：文本预处理，对文本进行分句、分词、词性标注、命名实体识别、句法依存分析。记录句子内字索引与词索引的对应关系。将句子作为中文预训练语言模型Bert的输入，得到每个字的向量表示，根据字与词的对应关系，将同属于一个词的所有字的向量表示求和作为词的向量表示。词性嵌入矩阵、实体嵌入矩阵、位置嵌入矩阵均采用随机初始化。

S202：提取实例特征时，将S1中得到的词嵌入、位置嵌入、词性嵌入、实体类型嵌入作为双向长短时记忆网络BiLSTM的输入，得到每个词的综合嵌入。再根据S1中得到的句法依赖树构建句法图，句子W的句法依赖树可以表示为有向图G＝(V，E)，V和E分别表示结点和边的集合，结点v_i对应句中单词w_i，边(v_i，v_j)则对应句法树中单词w_i到w_j的有向句法弧。使用正向句法弧(along)、反向句法弧((rev)、自循环边((loop)三种类型作为边类型，句法依赖树中本身存在的句法弧称为正向句法弧；为了允许信息反向流动，新添加的与原句法弧相反的边称为反向句法弧；结点指向自己的边称为自循环边，如以下公式所示。

在更新结点i时，采用MLP方式计算注意力得分，先计算不考虑句法图下的注意力系数 e_ij＝a(Ch_i，Ch_j)，其中a表示单层前馈神经网络计算，C为权重矩阵，然后利用句法图进行 mask操作，仅将注意力分配到结点i的邻居结点集N_i上，并使用softmax操作对邻居结点的注意力进行归一化，公式为：

在得到邻居结点的注意力后，每个结点i的特征可用所有邻居结点的特征进行更新，结点更新计算如以下公式为：

S203：计算触发词注意力加权特征。使用Bert得到句中各词的词嵌入M＝[m₁，m₂，...，m_n]。根据触发词和其他单词的嵌入向量计算注意力得分，触发词嵌入向量为m_t、其他词嵌入向量为m_i，采用内积方式计算单词和触发词语义上的相关性：

用softmax 进行归一化操作计算各单词的注意力得分：

将通过内积计算后的事件触发词语义乘以注意力得分得到基于事件触发词注意力的加权后的嵌入向量 p_i＝s_i·α_i。

S204：将S2得到的实例特征和S3得到的触发词注意力加权特征求和作为综合特征。

S205：根据候选论元和触发词的位置对S4中特征进行特征聚合。将候选论元左侧最大特征向量记为x_left，将论元到触发词之间最大特征向量记为x_mid，将触发词右侧最大特征向量记为x_right，将x_left、x_mid、x_right、候选论元的上下文词嵌入、触发词的上下文词嵌入连接为最终的嵌入向量x′，用于输入分类器判断候选论元的分类标签。

S206：将S5得到的最终嵌入输入全连接层后，输入softmax分类器，判断候选触发词的事件类型。

事件检测模型中加入句子间上下文信息，有助于解决触发词分类歧义问题。本发明通过加入当前句子的句子间上下文信息来消除触发词歧义，提升事件检测的效果。

在考虑句法依赖信息后，不再仅根据单词在词序列中的位置来衡量单词间的距离，单词间的句法弧可充当“捷径”，跳跃式地连接单词，通过句法弧的跳数也能反映图中单词间的距离，这样就能减小某些相关单词间的距离。句法依赖信息能够通过图神经网络进行编码，本发明选择图注意力网络作为编码器，通过句法依赖信息构建图，提升事件论元抽取模型的整体性能和召回率。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文和图注意力的事件抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的事件抽取方法，其特征在于，步骤S1包括：

S104：将所述句子内信息嵌入与所述句子间上下文嵌入连接，得到最终嵌入h_i,sentCtx＝[h_i,h_{i_sentCtx}]，其中h_i代表第i个句子的自身嵌入信息，h_{i_sentCtx}代表这句话的上下文嵌入；

3.根据权利要求2所述的事件抽取方法，其特征在于，步骤S103具体包括：

将当前句子的上下文句子分别记作为Sentpre和Sentnext，根据词嵌入矩阵获取上下文句子中每个词的嵌入表示，得到上下文句子嵌入序列分别为：W_pre＝[w₁,w₂,…,w_n]表示前一个句子的句子内信息嵌入表示，其中w₁,w₂,…,w_n表示句子中的n个单词，W_next＝[w′₁,w′₂,…,w′_m]表示后一个句子的句子内信息嵌入表示，其中w′₁,w′₂,…,w′_m表示句子中的m个单词；用上一句和下一句话的词嵌入序列的平均值作为上下文句子的句嵌入，分别为：前一个句子的平均信息嵌入

其中h_pre,i表示前一个句子的每个单词的嵌入表示，N_pre表示前一个句子的单词数量，后一个句子的平均信息嵌入

其中h_next,i表示下一个句子的每个单词的嵌入表示，N_next表示下一句话的单词数量，将二者拼接得到句子间上下文嵌入

4.根据权利要求3所述的事件抽取方法，其特征在于，步骤S2具体包括：

S201：将当前句子输入预训练语言模型中，得到词嵌入矩阵、词性嵌入矩阵、实体嵌入矩阵、位置嵌入矩阵，并借助于Stanford Core NLP工具包得到句法依赖树，并且根据步骤S1判断出的事件触发词得到事件触发词在当前句子中所处位置；

S203：计算事件触发词注意力加权特征；

5.根据权利要求4所述的网络事件抽取方法，其特征在于，步骤S202中：

根据步骤S201中得到的句法依赖树构建句法图，句子W的句法依赖树表示为有向图G＝(V,E)，V和E分别表示结点和边的集合，结点ν_i对应句子W中单词w_i，边(v_i,v_j)对应句法依赖树中单词w_i到单词w_j的有向句法弧；

使用正向句法弧(along)、反向句法弧((rev)、自循环边((loop)三种类型作为边类型，构建句法图如下，其中(v_i,v_j)∈ε表示该有向边属于句法图中，其中ε表示句法图：

在更新结点i时，采用MLP方式计算注意力得分，先计算不考虑句法图下的注意力系数e_ij＝a(Ch_i,Ch_j)，其中a表示单层前馈神经网络计算，C为权重矩阵，h_i表示节点i的嵌入，h_j表示节点j的嵌入，然后利用句法图进行mask操作，仅将注意力分配到结点i的邻居结点集N_i上，并使用softmax操作对邻居结点的注意力进行归一化，公式为：

α_ij代表邻居节点的注意力，e_ij代表注意力系数，在得到邻居结点的注意力后，每个结点i的特征可用所有邻居结点的特征进行更新，结点更新计算如以下公式为：

6.根据权利要求5所述的网络事件抽取方法，其特征在于，步骤S203中：

计算事件触发词注意力加权特征，使用Bert得到句中各词的词嵌入M＝[m₁,m₂,…,m_n]；

其中，

表示其它词的嵌入的均值，F表示对两个向量做内积的函数；

用softmax进行归一化操作计算各单词的注意力得分：

其中，n表示句子中单词的个数；