CN116306652A

CN116306652A - 一种基于注意力机制和BiLSTM的中文命名实体识别模型

Info

Publication number: CN116306652A
Application number: CN202310247389.9A
Authority: CN
Inventors: 吴晓鸰; 陈奕全; 凌捷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-23

Abstract

本发明公开的属于信息科学技术领域，具体为一种基于注意力机制和BiLSTM的中文命名实体识别模型，包括：嵌入层，用于获取字符集嵌入、上下文编码层，用于抽取上下文特征、特征融合层，用于利用注意力机制进行融合、解码层，用于利用条件随机场进行解码，所述嵌入层与所述上下文编码层相连接，所述上下文编码层与所述特征融合层相连接，所述特征融合层与所述解码层相连接，本发明通过使用改进的Transformer编码器和双向长短期记忆网络可以同时获得全局语义信息和方向信息，同时词向量嵌入方法是RoBERTa预训练模型，这种模型可以获得更多的上下文语义信息和词汇信息，增强实体识别效果。

Description

一种基于注意力机制和BiLSTM的中文命名实体识别模型

技术领域

本发明涉及信息科学技术领域，具体为一种基于注意力机制和BiLSTM的中文命名实体识别模型。

背景技术

命名实体识别是自然语言处理中的一项基础任务，主要用于识别文本中实体的类别和边界。传统的命名实体识别方法都是基于规则和统计学习的。传统方法虽然取得了一定的效果，但是有着人工特征构建困难、高度依赖专业领域知识、模型难以迁移等问题。

“命名实体”最早是在第六届信息理解会议(MUC-6)上使用，用于识别文本中人名、地名和组织机构名等。在早期，命名实体识别的方法都是基于规则和统计学习的。传统方法虽然取得了一定的效果，但是有着人工特征构建困难、高度依赖专业领域知识、模型难以迁移等问题。近些年随着计算机的计算能力不断增长，基于深度学习的命名实体识别方法已逐步取代传统方法成为主流。基于预训练词向量，深度神经网络能够自动抽取文本中的特征信息，不再需要人工干预，从而提升了特征表达和数据拟合能力。为了具备双向表征能力，Graves等提出了双向LSTM(BiLSTM)模型，可以充分考虑当前词的上、下文信息对文本进行建模。

随着深度神经网络的发展，2017年Vaswani等提出了Transformer模型，它使用注意力(Attention)机制构造出编码器-解码器(Encoder-decoder)框架。由于具有强大的并行计算能力和长距离特征捕获能力，因此在机器翻译、预训练语言模型Bert、文本摘要等语言理解任务中表现出色，Transformer编码器也常用于特征抽取。

随着中文命名实体识别方法的发展，有论文提出了一种基于Transformer编码器和BiLSTM的字集别中文命名实体识别方法，将字向量与位置编码向量拼接成联合向量作为字表示层，避免了字向量信息的损失和位置信息的丢失；利用BiLSTM为联合向量融入方向性信息，引入Transformer编码器进一步抽取字间关系特征。

虽然现有的技术提出Transformer编码器和BiLSTM的字集别中文命名实体识别方法，但这种技术使用的词向量嵌入方法是Word2Vec的Skip-gram模型，这种模型不考虑上下文信息和无法有效学习低频词向量。

因此，发明一种基于注意力机制和BiLSTM的中文命名实体识别模型。

发明内容

鉴于上述和/或现有一种基于注意力机制和BiLSTM的中文命名实体识别模型中存在的问题，提出了本发明。

因此，本发明的目的是提供一种基于注意力机制和BiLSTM的中文命名实体识别模型，能够解决上述提出现有的问题。

为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：

一种基于注意力机制和BiLSTM的中文命名实体识别模型，其包括：

嵌入层，用于获取字符集嵌入；

上下文编码层，用于抽取上下文特征；

特征融合层，用于利用注意力机制进行融合；

解码层，用于利用条件随机场进行解码；

所述嵌入层与所述上下文编码层相连接，所述上下文编码层与所述特征融合层相连接，所述特征融合层与所述解码层相连接。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述嵌入层是由Word2Vector词向量和预训练模型组成。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述预训练模型为RoBERTa模型。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述上下文编码层是由改进的Transformer编码器和双向长短期记忆网络组成。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述Transformer编码器的改进过程如下：

原始的Transformer编码器使用绝对编码的方式来生成位置编码，第t个字符的位置编码可以用以下等式表示：

PE_t，2i+1＝sin(t/1000^2i/d)

PE_t，2i+1＝cos(t/1000^2i/d)

将得到的位置编码和词向量按位相加得到多头自注意力层的输入矩阵H∈R^1×d，其中l为序列长度，d为输入词向量维度，将H映射为Q，K，V，方式如下：

Q，K，V＝HW_q，HW_k，HW_v

其中，W_q，W_k，W_v都是维度为

的可变权重矩阵，其中d_k为超参数，可以通过以下等式计算缩放点积注意力：

使用相对位置编码和修改注意力计算公式对原始的Transformer编码器进行改进，首先将H映射为Q，K，V时，K不进行线性变换，目的是打破对称性，加强距离感知，变换公式如下：

其中，W_q，W_v的维度为

d_k为其中一个的特征维度，/>

为H分配给每个head的向量，其次，将绝对编码中的cos函数用sin函数代替，则新的相对位置编码如下：

其中，t是目标字符的索引，j是上下文字符的索引，在计算注意力分数的时候，把将词向量与相对位置编码分开计算，并且加了偏置项，计算公式如下：

最后在计算注意力时，不进行缩放，计算公式如下：

Attn(K，Q，V)＝softmax(A^rel)V

在进行了以上修改后，提升了Transformer编码器的位置感知和方向感知，使得Transformer编码器适用于中文命名实体识别任务。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述双向长短期记忆网络对于嵌入层输出的字符集嵌入分别采用前向和后向输入，通过计算得到前向向量和后向向量。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述特征融合层是根据门控机制使用注意力机制来动态融合Transformer编码器和双向长短期记忆网络抽取的上下文特征，实现优势互补。

作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案，其中：所述解码层为条件随机场。

与现有技术相比：

通过使用改进的Transformer编码器和双向长短期记忆网络可以同时获得全局语义信息和方向信息，同时词向量嵌入方法是RoBERTa预训练模型，这种模型可以获得更多的上下文语义信息和词汇信息，增强实体识别效果。

附图说明

图1为本发明模型整体结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明提供一种基于注意力机制和BiLSTM的中文命名实体识别模型，请参阅图1，包括：嵌入层，用于获取字符集嵌入、上下文编码层，用于抽取上下文特征、特征融合层，用于利用注意力机制进行融合、解码层，用于利用条件随机场进行解码；

嵌入层与上下文编码层相连接，上下文编码层与特征融合层相连接，特征融合层与解码层相连接；

工作原理：模型首先将文本输入到嵌入层获取字符集嵌入，然后在上下文编码层分别使用Transformer编码器和双向长短期记忆网络抽取上下文特征，一起送入特征融合层使用注意力机制进行融合，最后在解码层使用条件随机场进行解码输出标签。

嵌入层：

嵌入层是由Word2Vector词向量和预训练模型组成，预训练模型为RoBERTa模型，假设模型初始输入为句子S，使用RoBERTa模型输出为字符集嵌入R，使用Word2Vector词向量时，同样地得到字符集嵌入b和二元字符集嵌入c，将两者拼接起来得到最后的词向量：Vec＝[c；b]。

上下文编码层：

上下文编码层是由改进的Transformer编码器和双向长短期记忆网络组成；

改进的Transformer编码器：

Transformer编码器的改进过程如下：

PE_t，2i+1＝sin(t/1000^2i/d)

PE_t，2i+1＝cos(t/1000^2i/d)

Q，K，V＝HW_q，HW_k，HW_v

其中，W_q，W_k，W_v都是维度为

其中，W_q，W_v的维度为

d_k为其中一个的特征维度，/>

最后在计算注意力时，不进行缩放，计算公式如下：

Attn(K，Q，V)＝softmax(A^rel)V

在进行了以上修改后，提升了Transformer编码器的位置感知和方向感知，使得Transformer编码器适用于中文命名实体识别任务；

双向长短期记忆网络：

长短期记忆网络是一种特殊的循环神经网络，长短期记忆网络可以缓解传统循环神经网络遇到的梯度消失和梯度爆炸的问题。在长短期记忆网络中引入遗忘门控制信息流从而有选择地记忆信息，在中文命名实体识别任务中，对于目标字符我们不仅需要上文的信息还需要下文的信息，所以使用双向长短期记忆网络作为上下文编码器，双向长短期记忆网络对于嵌入层输出的字符集嵌入分别采用前向和后向输入，通过计算得到前向向量和后向向量。

特征融合层：

Transformer编码器可以建模任意距离的依赖，但对位置和方向信息不太敏感，双向长短期记忆网络可以很好地捕获方向信息，但是不能捕捉到全局信息，特征融合层是根据门控机制使用注意力机制来动态融合Transformer编码器和双向长短期记忆网络抽取的上下文特征，实现优势互补。

解码层：

为了利用不同标签之间的依赖性，解码层为条件随机场。

其中，可以使用注意力机制和双向长短期记忆网络用于文本情感分类，也可以在字符嵌入层使用其他预训练模型用于命名实体识别。

虽然在上文中已经参考实施方式对本发明进行了描述，然而在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本发明并不局限于文中公开的特定实施方式，而是包括落入权利要求的范围内的所有技术方案。