CN113158667B

CN113158667B - 基于实体关系级别注意力机制的事件检测方法

Info

Publication number: CN113158667B
Application number: CN202110381780.9A
Authority: CN
Inventors: 汤景凡; 曹祥彪; 张旻; 姜明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-03-01
Anticipated expiration: 2041-04-09
Also published as: CN113158667A

Abstract

本发明公开了一种基于实体关系级别注意力机制的事件检测方法。本发明步骤：首先利用依存Tree‑LSTM获取实体关系级别表示和双向LSTM获取词汇级别表示，然后利用实体关系级别注意力和词汇级别注意力捕获对于当前候选触发词有重要影响的实体关系信息和句子语义信息。再针对候选触发词，对语义信息、实体关系信息、根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接，然后进行触发词识别和分类。本发明不仅可以捕获较重要的句子语义信息，而且可以减少无关的实体关系特征对当前触发词的影响，从而提高了事件检测模型的性能。

Description

基于实体关系级别注意力机制的事件检测方法

技术领域

本发明涉及事件检测方法，具体来讲是一种基于实体关系级别注意力机制的事件检测方法，属于自然语言处理领域。

背景技术

随着海量文本信息的出现以及深度学习技术的快速发展，如何快速、准确的获取用户感兴趣的事件信息，逐渐成为信息抽取领域的最具挑战的难题，而事件检测是信息抽取任务的重要环节，主要是为了从文本中找出引发事件的触发词，并为其分配正确的事件类型。此外，事件检测技术已应用于新闻消息归类、社会舆情分析等。

发明内容

本发明主要针对于在触发词识别过程中，不能同时捕获重要的实体关系特征和词汇特征的问题提出的一种基于实体关系级别注意力机制的事件检测方法。

基于实体关系级别注意力机制的事件检测方法，按照如下步骤进行：

步骤1、对原始文本中的单词和实体关系进行编码，分别获取词汇级别向量序列和实体关系级别向量序列；

步骤2、将步骤1的词汇级别向量序列输入依存Tree-LSTM，获取句子的词汇级别表示；

步骤3、将步骤1的实体关系级别向量序列输入双向LSTM，获取实体关系级别表示；

步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重

将句中的词汇级别表示加权平均，获取句子完整的语义信息

步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个候选触发词的影响权重

将句中每个实体关系级别表示加权平均，获取句中完整的实体关系信息

步骤6、针对第t个候选触发词，对语义信息

实体关系信息

根节点词汇级别表示

以及候选触发词的词汇级别表示

进行拼接，然后进行触发词识别和分类；

进一步的，步骤1具体实现如下：

1-1.从KBP 2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词。KBP 2017英文数据集一共定义了19种事件类型和21种实体关系(其中都包含“空”类型)。利用Stanford CoreNLP工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构。然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表，其中在每个向量表中定义”空”类型对应的向量。随机初始化这些向量，在训练的时候更新这些向量。

1-2.首先查询预训练的Glove词向量矩阵、词性向量表、实体类型向量表。分别获取句子中每个词的词向量w_i、词性向量w_pos、实体类型向量w_e。然后查询实体关系向量表，获取句子中出现的每个实体关系对应的向量r。

1-3.每个单词真值向量为x_i＝{w_i,w_pos,w_e}，所以句子词汇级别向量序列W＝{x₁,x₂,...,x_n-1,x_n},实体关系级别向量序列R＝{r₁,r₂,...,r_k-1,r_k}。其中n是句子的长度、k为实体关系的个数(k有可能为0)。

进一步的，步骤2具体实现如下：

2-1.为了获取句子中每个单词的词汇级别表示，利用Stanford CoreNLP工具解析每个句子生成依存树结构，其中，每个单词对应依存树结构中的一个节点。在依存树结构基础上构建依存Tree-LSTM，将W＝{x₁,x₂,...,x_n-1,x_n}作为依存Tree-LSTM的输入，获取每个单词的词汇级别表示，例如，第i个单词的词汇级别表示为

以及包含整个句子信息的根节点的词汇级别表示为

因此，句子的词汇级别表示序列

其中i,root∈[1,n],n是句子的长度。

进一步的，步骤3具体实现如下：

3-1.为了获取句子中实体关系级别表示，将句中实体关系级别向量序列R＝{r₁,r₂,...,r_k-1,r_k}输入双向LSTM，获取每个实体关系对应的前向隐含状态向量和后向隐含状态向量，例如，

和

分别表示第j(j∈k)个实体关系对应的前向隐含状态向量和后向隐含状态向量。为了和步骤2中依存Tree-LSTM的每个单词的词汇级别表示维度一致，采用求平均的方式获取第j个实体关系级别表示

因此，句子的实体关系级别表示序列

其中，k是句子实体关系的个数。

进一步的，步骤4具体实现如下：

4-1.利用词汇级别注意力机制捕获重要的上下文信息，而候选触发词及其周围的单词应该获得更高的注意力权重。首先利用公式1计算候选触发词的词汇级别表示

和第i个单词的词汇级别表示

的相似度。

s_t,i＝tanh(h_t ^wW^w(h_i ^w)^T+b^w) 公式1

其中，W^w和b^w分别是相似度计算公式的权重矩阵和偏置项。然后根据s_t,i，获取第i个单词对第t个候选触发词的影响权重

这里的s_t,m表示句中第m个单词的词汇级别表示

与候选触发词的词汇级别表示

的相似度，其中，1≤m≤n。

对于第t个候选触发词,将句中每个单词的词汇级别表示加权平均获取句中完整的语义信息

进一步的，步骤5具体实现如下：

5-1.句子中往往包含多对实体关系，不同的实体关系对第t个候选触发词的影响不同。首先利用公式3计算候选触发词的词汇级别表示

和第j个实体关系的实体关系级别表示

的相似度：

其中，W^r和b^r分别表示相似度计算公式的权重矩阵和偏置项。然后根据s_t,j，获取第j个实体关系对第t个候选触发词的影响权重：

这里的s_t,l表示句中第l个实体关系的实体关系级别表示h_l ^r与候选触发词的词汇级别表示

的相似度，其中，1≤l≤k，而对于第t个候选触发词,将句中实体关系级别表示序列加权平均获取句中完整的实体关系信息

进一步的，步骤6具体实现如下：

6-1.触发词检测和识别是一个多分类的过程，针对第t个候选触发词，对步骤4的

步骤5的

根节点词汇级别表示

以及候选触发词的词汇级别表示

进行拼接，然后带入公式5进行触发词识别和分类：

ET_t＝argmax(P_t) 公式6

其中，W_t和b_t是触发词多分类的权重矩阵和偏置项，P_t表示第t个候选触发词触发事件类型的概率分布，而ET_t则表示第t个候选触发词触发的事件类型。

本发明有益效果如下：

针对现有技术的不足，提出一种基于实体关系级别注意力机制的事件检测方法。首先利用依存Tree-LSTM获取实体关系级别表示和双向LSTM获取词汇级别表示，然后利用实体关系级别注意力和词汇级别注意力捕获对于当前候选触发词有重要影响的实体关系信息和句子语义信息。该模型不仅可以捕获较重要的句子语义信息，而且可以减少无关的实体关系特征对当前触发词的影响，从而提高了事件检测模型的性能。

附图说明

图1是本发明的整体实施流程图。

图2是本发明模型网络结构图。

具体实施方式

附图非限制性地公开了本发明所涉及优选实例的流程示意图；以下将结合附图详细地说明本发明的技术方案。

事件抽取是信息抽取研究的重要组成部分，是新闻热点抽取和社会舆情分析的常用技术基础。事件抽取就是从大量文本中找出事件提及，由事件触发词和事件论元组成。因此事件抽取主要包含事件检测和论元识别两个子任务。事件检测希望找出句子的所有触发词并为其分配正确的事件类型，事件检测结果的好坏直接影响论元识别和分类的性能。先前的工作直接将标注好的实体关系编码成词表示的一部分，结合词汇级别注意力获取重要的语义信息来提高事件检测模型的性能。但是，他们忽略了句子中往往有多对实体关系，和单词一样，不同的实体关系对候选触发词在识别过程中的影响不同。因此，为了同时获取重要的词汇级别特征和实体关系级别特征信息，我们提出了基于实体关系级别注意力机制的事件检测方法。

如图2所示，基于实体关系级别注意力机制的事件检测方法，按照如下步骤进行：

将句中的词汇级别表示加权平均，获取句子完整的语义信息

步骤6、针对第t个候选触发词，对语义信息

实体关系信息

根节点词汇级别表示

以及候选触发词的词汇级别表示

进行拼接，然后进行触发词识别和分类；

进一步的，步骤1具体实现如下：

进一步的，步骤2具体实现如下：

以及包含整个句子信息的根节点的词汇级别表示为

因此，句子的词汇级别表示序列

其中i,root∈[1,n],n是句子的长度。

进一步的，步骤3具体实现如下：

和

因此，句子的实体关系级别表示序列

其中，k是句子实体关系的个数。

进一步的，步骤4具体实现如下：

和第i个单词的词汇级别表示

的相似度。

s_t,i＝tanh(h_t ^wW^w(h_i ^w)^T+b^w) 公式1

这里的s_t,m表示句中第m个单词的词汇级别表示

与候选触发词的词汇级别表示

的相似度，其中，1≤m≤n。

进一步的，步骤5具体实现如下：

和第j个实体关系的实体关系级别表示

的相似度：

进一步的，步骤6具体实现如下：

步骤5的

根节点词汇级别表示

以及候选触发词的词汇级别表示

进行拼接，然后带入公式5进行触发词识别和分类：

ET_t＝argmax(P_t) 公式6

Claims

1.基于实体关系级别注意力机制的事件检测方法，其特征在于包括如下步骤：

将句中的词汇级别表示加权平均，获取句子完整的语义信息

步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个选触发词的影响权重

步骤6、针对第t个候选触发词，对语义信息

实体关系信息

根节点词汇级别表示

以及候选触发词的词汇级别表示

进行拼接，然后进行触发词识别和分类。

2.根据权利要求1所述的基于实体关系级别注意力机制的事件检测方法，其特征在于步骤1具体实现如下：

1-1.从KBP 2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词；利用Stanford CoreNLP工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构；然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表，其中在每个向量表中定义”空”类型对应的向量；随机初始化这些向量，在训练的时候更新这些向量；

1-2.首先查询预训练的Glove词向量矩阵、词性向量表、实体类型向量表；分别获取句子中每个词的词向量w_i、词性向量w_pos、实体类型向量w_e；然后查询实体关系向量表，获取句子中出现的每个实体关系对应的向量r；

1-3.每个单词真值向量为x_i＝{w_i,w_pos,w_e}，所以句子词汇级别向量序列W＝{x₁,x₂,...,x_n-1,x_n},实体关系级别向量序列R＝{r₁,r₂,...,r_k-1,r_k}；其中n是句子的长度、k为实体关系的个数。

3.根据权利要求2所述的基于实体关系级别注意力机制的事件检测方法，其特征在于步骤2具体实现如下：

2-1.为了获取句子中每个单词的词汇级别表示，利用Stanford CoreNLP工具解析每个句子生成依存树结构，其中，每个单词对应依存树结构中的一个节点；在依存树结构基础上构建依存Tree-LSTM，将W＝{x₁,x₂,...,x_n-1,x_n}作为依存Tree-LSTM的输入，获取每个单词的词汇级别表示，第i个单词的词汇级别表示为