CN110619124B

CN110619124B - 一种结合注意力机制与双向lstm的命名实体识别方法及系统

Info

Publication number: CN110619124B
Application number: CN201910906582.2A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-06-16
Anticipated expiration: 2039-09-19
Also published as: CN110619124A

Abstract

本发明公开了一种结合注意力机制与双向LSTM的命名实体识别方法及系统，包括：获取文本的文字信息，基于文字信息获得文字序列；将文字序列中的文字分别转换为各自对应的特征向量，获得文字特征向量序列；使用注意力机制对每个文字特征向量进行变换，获得变换后的文字特征向量序列；对变换后的文字特征向量序列进行循环卷积变换，获得循环卷积变换后的文字特征向量序列；解码循环卷积变换后的文字特征向量序列，基于解码结果预测最优的标注序列，基于最优的标注序列获得文本的命名实体识别结果。本发明在双向长短期记忆模型(Bi‑LSTM)与CRF理论的基础上增加了注意力机制来进一步提高命名实体识别的准确率。

Description

一种结合注意力机制与双向LSTM的命名实体识别方法及系统

技术领域

本发明涉及自然语言处理序列标注领域，具体地，涉及一种结合注意力机制与双向LSTM的命名实体识别方法及系统。

背景技术

本发明中涉及的专业术语中英文对照有：

命名实体识别(named entity recognition,NER)

自然语言处理(NLP)

循环神经网络(RNN)

长短期记忆模型(LSTM)

条件随机场(CRF)

双向长短期记忆模型(Bi-LSTM)

多头自注意力(multi-head attention)

命名实体识别是信息抽取的核心任务之一，其目的是从给定文本中找到命名实体的边界线索及所属类别，广泛应用于构建知识图谱、问答系统和推荐系统中。作为循环神经网络(RNN)的典型代表，长短期记忆模型(LSTM)充分考虑了上下文信息，广泛被应用于命名实体识别问题。条件随机场(CRF)理论与LSTM相结合的命名实体识别技术已经成为解决实体识别问题的主流技术。由于中文文字边界不清晰以及文字多义性等特征，现有的命名实体识别方法不能进行有效识别且识别准确率不高，提高中文实体识别的准确率是研究人员的一项长期挑战。

发明内容

为了对文本的命名实体进行有效识别，本发明在双向长短期记忆模型(Bi-LSTM)与CRF理论的基础上增加了注意力机制来进一步提高命名实体识别的准确率。

为实现上述发明目的，本发明一方面提供了一种结合注意力机制与双向LSTM的命名实体识别方法，所述方法包括：

获取文本的文字信息，基于文字信息获得文字序列；

将文字序列的文字分别转换为各自对应的特征向量，获得文字特征向量序列；

使用注意力机制对每个文字特征向量进行变换，获得变换后的文字特征向量序列；

对变换后的文字特征向量序列进行循环卷积变换，获得循环卷积变换后的文字特征向量序列；

解码循环卷积变换后的文字特征向量序列，基于解码结果预测最优的标注序列，基于最优的标注序列获得文本的命名实体识别结果。

其中，本方法在双向长短期记忆模型(Bi-LSTM)与CRF理论的基础上增加了注意力机制来提高文本实体识别的准确率。

优选的，文字序列为：x₁,x₂,…,x_n，通过word2vec方式将文字转换为对应的文字特征向量e₁,e₂,…,e_n，word2vec技术是NLP中常用的将文字转换成其对应特征的技术。

优选的，在本方法中，使用双向LSTM对变换后的文字特征向量序列进行循环卷积变换。长短期记忆模型是RNN的一种，主要解决长序列在训练过程中不易收敛的问题。使用双向LSTM同时考虑了输入文本的正序上下文信息和输入文本的倒序上下文信息。

优选的，在本方法中，使用条件随机场模型解码循环卷积变换后的文字特征向量序列，这是一种动态规划的求解方式，其目的是通过依次计算当前状态和当前状态转移到的下一状态找到最有可能的观测序列。

优选的，在本方法中，在Bi-LSTM-CRF模型基础上增加注意力机制，注意力机制通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系：

其中，d_k为Key对应特征向量的维度，Q、K和V同为输入的特征向量，Q＝K＝V＝x，T表示取K的转置形式。在本文实现的模型中，直接对由word2vec转换得到的文字特征向量使用注意力机制，具体使用自注意力机制，即不考虑其他词的特征，只考虑词本身特征的注意力，所以公式中的Q＝K＝V＝x，x为文字特征向量。

另一方面，与本发明中的方法对应，本发明还提供了一种结合注意力机制与双向LSTM的命名实体识别系统，所述系统包括：

文字序列获取单元，用于获取文本的文字信息，基于文字信息获得文字序列；

特征向量转换单元，用于将文字序列的文字分别转换为各自对应的特征向量，获得文字特征向量序列；

注意力机制变换单元，用于使用注意力机制对每个文字特征向量进行变换，获得变换后的文字特征向量序列；

循环卷积变换单元，用于对变换后的文字特征向量序列进行循环卷积变换，获得循环卷积变换后的文字特征向量序列；

解码单元，用于解码循环卷积变换后的文字特征向量序列，基于解码结果预测最优的标注序列，基于最优的标注序列获得文本的命名实体识别结果。

优选的，在本系统中，文字序列为：x₁,x₂,…,x_n，通过word2vec方式将文字转换为对应的文字特征向量e₁,e₂,…,e_n，word2vec技术是NLP中常用的将文字转换成其对应特征的技术。

优选的，在本系统中，使用双向LSTM对变换后的文字特征向量序列进行循环卷积变换。长短期记忆模型是RNN的一种，主要解决长序列在训练过程中不易收敛的问题。使用双向LSTM同时考虑了输入文本的正序上下文信息和输入文本倒序上下文信息。

优选的，在本系统中，使用条件随机场模型解码循环卷积变换后的文字特征向量序列，这是一种动态规划的求解方式，其目的是通过依次计算当前状态和当前状态转移到的下一状态找到最有可能的观测序列。

优选的，在本系统中，在Bi-LSTM-CRF模型基础上增加注意力机制，注意力机制通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系：

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明在对文本进行命名实体识别时，在Bi-LSTM-CRF模型的基础上，加入了注意力机制，注意力机制是一种对输入特征序列的加权方法，对输入序列中比较重要的某个(些)文字的特征加入大一点的权值，即加大该特征的注意力，能够有效提升识别准确率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1为一种结合注意力机制与双向LSTM的命名实体识别模型示意图；

图2a-图2b为实验得到的命名实体识别效果图；

图3是本发明中一种结合注意力机制与双向LSTM的命名实体识别系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1为本方案中提出的加入注意力机制的命名实体识别模型。具体流程为：

(1)x₁,x₂,…,x_n为输入文本的文字；

(2)通过word2vec方式将文字转换为对应的文字特征向量e₁,e₂,…,e_n；

(3)对于每个文字特征向量e_i,i＝1,2,…,n，使用注意力机制变换得到变换后的文字特征向量a₁,a₂,…,a_n；

(4)再使用双向LSTM(Bi-LSTM)对a₁,a₂,…,a_n进行循环卷积变换，得到o₁,o₂,…,o_n；

(5)使用CRF解码o₁,o₂,…,o_n，预测最优的标注序列。

其中，步骤(3)为在原有Bi-LSTM-CRF模型的基础上增加注意力机制。注意力机制即为通过将查询(Query)和键(Key)之间的相关程度作为值(Value)的权重得到输入和输出之间的映射关系：

其中，d_k为Key对应特征向量的维度，本方法中加入多头自注意力(multi-headattention)，Q、K和V同为输入的特征向量，Q＝K＝V＝x。

为了验证本方法和本系统的效果，本发明实施例进行了相应的实验，在实验中，使用4000条标注数据对投诉的企业或店铺进行实体识别，其中：训练数据为3500条，验证数据为500条，采用BIOES标注方式。实验得到的效果图如图2所示，图2(a)中实线表示使用Bi-LSTM-CRF模型训练时损失loss随epoch的变化图，虚线表示加入attention机制后损失loss随epoch的变化图。由图2(a)可知，在epoch相同时，加入attention机制可以使得loss更小。图2(b)中实线表示使用Bi-LSTM-CRF模型训练时验证集的F1-score随epoch的变化图，虚线表示加入attention机制后F1-score随epoch的变化图。由图2(b)可知，在epoch相同时，加入attention机制可以使得F1-score增大。

请参考图3，本发明实施例提供了一种结合注意力机制与双向LSTM的命名实体识别系统，所述系统包括：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种结合注意力机制与双向LSTM的命名实体识别方法，其特征在于，所述方法包括：

获取文本的文字信息，基于文字信息获得文字序列；

使用双向LSTM对变换后的文字特征向量序列进行处理，获得处理后的文字特征向量序列；

使用条件随机场模型对处理后的文字特征向量序列进行变换，基于变换结果预测最优的标注序列，基于最优的标注序列获得文本的命名实体识别结果。

2.根据权利要求1所述的一种结合注意力机制与双向LSTM的命名实体识别方法，其特征在于，文字序列为：x₁,x₂,…,x_n，通过word2vec方式将文字转换为对应的文字特征向量e1,e2,…,e_n。

3.根据权利要求1-2中任意一个所述的一种结合注意力机制与双向LSTM的命名实体识别方法，其特征在于，在Bi-LSTM-CRF模型基础上增加注意力机制，注意力机制即通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系：

其中，d_k为Key对应特征向量的维度，Q、K和V同为输入的特征向量，Q＝K＝V＝x，T表示取K的转置形式。

4.一种结合注意力机制与双向LSTM的命名实体识别系统，其特征在于，所述系统包括：

双向LSTM变换单元，用于使用双向LSTM对变换后的文字特征向量序列进行处理，获得处理后的文字特征向量序列；

条件随机场模型变换单元，使用条件随机场模型对处理后的文字特征向量序列进行变换，基于变换结果预测最优的标注序列，基于最优的标注序列获得文本的命名实体识别结果。

5.根据权利要求4所述的一种结合注意力机制与双向LSTM的命名实体识别系统，其特征在于，文字序列为：x₁,x₂,…,x_n，通过word2vec方式将文字转换为对应的文字特征向量e₁,e₂,…,e_n。

6.根据权利要求4-5中任意一个所述的一种结合注意力机制与双向LSTM的命名实体识别系统，其特征在于，在Bi-LSTM-CRF模型基础上增加注意力机制，注意力机制即通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系：