CN109933801B

CN109933801B - 基于预测位置注意力的双向lstm命名实体识别方法

Info

Publication number: CN109933801B
Application number: CN201910225622.7A
Authority: CN
Inventors: 罗森林; 周妍汝; 潘丽敏; 尹继泽; 吴舟婷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2022-03-29
Anticipated expiration: 2039-03-25
Also published as: CN109933801A

Abstract

本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法，属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示，组合构成混合特征向量；再使用BLSTM模型对混合特征向量进行编码提取全局文本信息，在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息，得到的特征向量序列用于判别标签值；最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff‑3 MSRA中文命名实体识别语料上实验，结果表明本发明能达到较好的识别效果。

Description

基于预测位置注意力的双向LSTM命名实体识别方法

技术领域

本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法，属于自然语言处理与机器学习领域。

背景技术

目前针对命名实体识别(NER)任务主要使用深度模型抽取特征，其中RNN循环神经网络及其变种LSTM网络代表的深度学习方法在命名实体识别领域内取得较好的结果。

与此同时，始于图像领域的注意力机制(attention)模型被推广应用到自然语言处理领域中。基于注意力机制的深度神经网络特征抽取方法，为提升命名实体识别效果提供了新的思路。传统的注意力模型主要考虑输入序列的所有源表征与目标表征之间的相关程度，据此计算每个源表征的权重。

现有的基于注意力机制的深度神经网络在应用到中文命名实体识别任务中时一般只搜索单一级别的文本组成要素，忽视了中文文本组成要素分为句子、词、字符三个层次，因而不能灵活地搜索中文文本、获得与目标类别(命名实体或非命名实体类)相关的部分。

其次，在通过注意力机制模型抽取文本特征时通常忽略了字符序列的前后顺序位置信息，即关注点和其他部分之间的相对距离所带来的影响。距离关注点较近的部分应该分配以更高的权重。

综上所述，现有的命名实体识别方法主要存在以下问题：(1)模型的输入文本组成要素层次单一，忽视了中文文本组成要素分为句子、词、字符三个层次；(2)特征抽取过程中忽略了字符序列的前后顺序位置信息的影响。

发明内容

本发明的目的是针对现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题，提出了基于预测位置对齐注意力机制的双向LSTM(BLSTM)命名实体识别方法。

本发明的设计原理为：首先，利用LSTM学习得到字符、词、句三种不同级别的特征向量表示，组合构成混合特征向量；再使用BLSTM模型对混合特征向量进行编码提取全局文本信息，在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息，得到的特征向量序列用于判别标签值，最后根据标签值输出文本中的命名实体。

本发明的技术方案是通过如下步骤实现的：

步骤1，使用LSTM学习得到字符、词、句三种不同级别的特征向量表示组合构成混合特征向量。

步骤2，使用BLSTM模型抽取全局文本信息，对混合特征向量进行编码。

步骤3，在解码阶段，使用预测对齐位置的局部注意力模型来提取文本局部特征，解码器是一个前向CNN网络。

步骤4，使用CRF对输出的特征向量序列进行标注，然后根据标签输出命名实体。

有益效果

相比于单一的字符级别文本嵌入结合深度特征抽取的命名实体识别模型，本发明采用的基于预测位置注意力的双向LSTM命名实体识别方法，能够更加灵活地利用句子、词、字符三种层次信息，提高了识别准确率。

相比于原始基于注意力机制的BLSTM模型，本发明采用的基于预测位置注意力的双向LSTM命名实体识别方法，能够有效地利用字符序列的前后顺序位置信息，提高了识别准确率。

附图说明

图1为本发明基于预测位置注意力的双向LSTM命名实体识别方法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验数据采用SIGHAN bakeoff-3MSRA中文命名实体识别语料。实验数据的具体分配见表1：

表1.命名实体识别实验数据(条)

方法的损失函数为

实验采用准确率(Precision，P)、召回率(Recall，R)和F1-测度值(F1-measure，F1)对结果进行评价。

准确率P的计算方法见下式：

召回率R的计算方法见下式：

F1的计算方法见下式：

其中，out_cor表示输出的正确识别的实体数，out_all表示输出的所有识别的实体数，this_all表示样本的实体数。

本次实验在一台计算机和一台服务器上进行，计算机的具体配置为：Inter i7-6700，CPU 2.40GHz，内存4G，操作系统是windows 7，64位；服务器的具体配置为：E7-4820v4，RAM 256G，操作系统是Linux Ubuntu 64位。

本次实验的具体流程为：

步骤1，利用LSTM学习得到字符、词、句三种不同级别的特征向量表示组合构成混合特征向量。

步骤1.1，对原始中文文本分词，得到词序列输出；对原始中文文本分句，得到句子序列输出。

步骤1.2，使用0/1特征自动标注1.1中的分词、分句结果，每个词的首字符标注0，其余字符标注1；每个句子的首字符标注0，其余字符标注1，最终分别输出字符级别的0/1特征序列。

步骤1.3，通过查找字符向量表，结合1.2的输出，构成两个字符级别向量序列输入，分别经过不同的LSTM处理，得到词级别特征向量序列和句子级别特征向量序列的输出。

步骤1.4，利用Lattice LSTM抽取字符级别特征。

步骤1.5，字向量序列、词向量序列、句子向量序列有着对应关系，即一个字包含于某个词，而该词又包含于某个句子。将经过1.1-1.4步骤得到的不同级别特征向量序列中对应的特征向量组合在一起，构成混合特征向量。

步骤2.1，BLSTM网络包括正向和反向两个循环网络，读取所得到的混合向量序列，其中正向网络以从左到右的顺序读取序列，而反向网络从右向左读取。

步骤2.2，在j时刻连接前后向LSTM得到的隐状态

和

然后获得文本全局特征向量h_j。其中，h_j的表示方法为

步骤3，在解码阶段采用预测对齐位置的局部注意力模型来提取文本局部特征，解码器是一个前向CNN网络。

步骤3.1，在步骤2的基础上计算各个特征向量权重α_t(s)。记解码器时刻t的目标隐藏状态为h_t，编码器的隐藏状态为

s＝1,2,…,T，则权重α_t(s)的表示方式为：

其中D是CNN网络的窗口大小。对齐函数计算公式为：

评分函数为：

其中W^T、W⁽¹⁾、b⁽¹⁾和b都为模型的参数。

步骤3.2，依据预测函数预测当前解码时要对齐的源语言端的位置p_t，计算公式为：

W_p和v_p是模型的参数，S是source sentence的长度。

步骤3.3，对特征向量表示加权得到注意力模型的当前状态，即输出的新特征向量，加权公式为：

⊙为Hadamard乘积(Hadamard product)符号，该特征向量包含文本全局和局部特征。

步骤4，使用CRF对输出的特征向量序列进行标注，然后根据标签输出命名实体。输入s＝{v₁v₂…v_T}，输出y＝{l₁l₂…l_T}，最终输出利用Viterbi解码得到。

测试结果：实验基于预测位置注意力的双向LSTM命名实体识别方法，对SIGHANbakeoff-3MSRA中文命名实体识别语料进行了命名实体识别，识别准确率为88.33％，召回率为85.24％，F值为86.76，取得了很好的效果。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于预测位置注意力的双向LSTM命名实体识别方法，其特征在于所述方法包括如下步骤：

步骤1，通过不同的LSTM模型处理得到字符、词、句三种不同级别的特征向量，利用字符包含于词，词包含于句的相互对应关系，将不同级别特征向量序列中对应的特征向量组合在一起，构成混合特征向量

步骤2，使用BLSTM模型抽取全局文本信息，对混合特征向量进行编码，解码器是一个前向CNN网络，在解码阶段使用预测对齐位置的局部注意力机制提取文本局部特征，记解码器时刻t的目标隐藏状态为h_t，编码器的隐藏状态为

对于其中任意

其权重α_t(s)的表示方式为：

其中D是CNN网络的窗口大小；对齐函数计算公式为：

评分函数为：

其中W^T、W⁽¹⁾、b⁽¹⁾和b都为模型的参数；

当前解码时要对齐的源隐藏状态的位置p_t的预测函数计算公式为：

W_p和v_p是模型的参数，S是source sentence的长度；

步骤3，对特征向量表示加权得到注意力模型的当前状态，即输出新特征向量c_t，加权公式为：

⊙为Hadamard乘积符号，该特征向量包含文本全局和局部特征；