CN110175330A

CN110175330A - 一种基于注意力机制的命名实体识别方法

Info

Publication number: CN110175330A
Application number: CN201910455412.7A
Authority: CN
Inventors: 黄志春; 张定国; 周志勇; 伍宇文; 其他发明人请求不公开姓名
Original assignee: Guangzhou Weihong Intelligent Technology Co Ltd
Current assignee: Guangzhou Weihong Intelligent Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-27
Anticipated expiration: 2039-05-29
Also published as: CN110175330B

Abstract

本发明公开了一种基于注意力机制的命名实体识别方法，包括以下步骤：S1、对文本数据进行数据预处理；S1.1、对文本进行分句，分字符处理；S1.2、对句子、字符和标签进行统计，形成句表、字符表和标签表；S1.3、通过查询预训练好的字符向量表得到字符表中每个字符的字符向量表示，本发明利用注意力机制替代了编码‑解码架构中常用的递归神经网络和卷积神经网络，更容易捕获“长距离依赖信息”，能够提升命名实体任务的准确率，并且基于注意力机制的网络架构更易于并行处理，计算效率得到巨大的提升，解决现有技术中的模型无法考虑长距离的上下文信息和上下文信息相关性的问题，从而使得识别的准确率受到限制的技术问题。

Description

一种基于注意力机制的命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种基于注意力机制的命名实体识别方法。

背景技术

命名实体是任何一个可以被专有名称指代的事物，命名实体识别任务是在文本中找出构成专有名称的文本片段，并标记它们所指向的实体类别，通用的命名实体识别系统主要关注人名、地名和机构名的识别，特定领域的命名实体识别系统会提取具有特定意义的实体，譬如基因名、设备名、设备型号和金融资产等等，命名实体识别是多数信息提取程序的首要任务，在问答系统、情感分析、机器翻译等领域有重要应用。

目前命名实体识别的解决方案，主要有两类：基于特征的统计学习方法和基于神经网络的深度学习方法。基于特征的统计学习方法主要包括隐马尔可夫模型(HMM)和条件随机场模型(CRF)，基于神经网络的深度学习方法主要包括卷积神经网络(CNN)和LSTM神经网络。

现有技术中基于特征的统计学习方法无法考虑长距离的上下文信息，基于神经网络的深度学习方法在决定一个单词所对应实体类别时，所用的上下文信息是整句话的信息，这种获取上下文信息方式存在着较多的冗余信息，这些冗余信息所带来的噪音在决定该单词所对应的实体类别时会产生负面影响。

发明内容

本发明提供一种基于注意力机制的命名实体识别方法，可以有效解决上述背景技术中提出现有技术中基于特征的统计学习方法无法考虑长距离的上下文信息，基于神经网络的深度学习方法在决定一个单词所对应实体类别时，所用的上下文信息是整句话的信息，这种获取上下文信息方式存在着较多的冗余信息，这些冗余信息所带来的噪音在决定该单词所对应的实体类别时会产生负面影响的问题。

为实现上述目的，本发明提供如下技术方案：一种基于注意力机制的命名实体识别方法，包括以下步骤：

S1、对文本数据进行数据预处理；

S2、将字符序列(x₁，...，x_n)输入到编码器，得到字符序列的

其中n>1，d_m＝512，编码器由1个输入表示层和6个结构相同的编码层依次叠加而成；

每一层的输出分别记为X^((l))，其中l＝0，...，6；

X⁽⁰⁾就是输入表示层的输出，作为第一个编码层的输入，然后每一个编码层的输出X^(l)作为下一个编码层的输入，然后得到输出X^(l+1)，1≤l≤6；

S3、给定编码器的输出解码器依次生成输出标签序列(y₁，…，y_n)的每一个字符，在第t个时间步生成第t个标签字符y_t，其中1≤t≤n；

解码器由1个输出表示层、6个结构相同的解码层和1个分类层依次叠加而成；

每一层的输出分别记为Y^(l)，l＝0，…，6，Y⁽⁰⁾就是输出表示层的输出，作为第一个解码层的输入，然后每一个解码层的输出Y^(l)作为下一个解码层的输入，然后得到输出Y^(l ⁺¹⁾，其中1≤l≤6，最后一个解码层的输出Y⁽⁶⁾作为分类层的输入，分类层输出预测标签在标签表中的序号；

S4、为了编码器和解码器更快地收敛，自注意力层、编码-解码注意力层和前馈神经网络层之后都会再连接一个残差连接层和一个标准化层；

自注意力层、编码-解码注意力层和前馈神经网络层的输入为X，输出为Y，那么经过残差连接层和标准化层后得到的输出为Z，它的第l个行向量分别为：

Z_i＝LayerNorm(X_l+Y_l)，

其中l＝1,…,n，其中LayerNorm是对向量的标准化操作，即：

根据上述技术方案，所述步骤S1的具体步骤如下：

S1.1、对文本进行分句，分字符处理；

S1.2、对句子、字符和标签进行统计，形成句表、字符表和标签表；

S1.3、通过查询预训练好的字符向量表得到字符表中每个字符的字符向量表示。

根据上述技术方案，所述步骤S2中输入表示层的结构如下：

S2.1.1、对于每个字符x_i，通过查询预训练好的字符向量表，得到一个字符表示向量

S2.1.2、通过对x_i在序列(x₁，…，x_n)中的位置进行编码，得到它的一个位置表示向量它的第j个分量p_ij的计算公式如下:

其中j＝1，…，d_m；

S2.1.3、输入表示层的输出X⁽⁰⁾的第i个行向量为

根据上述技术方案，所述步骤S2中编码层的输入为编码层的结构如下：

S2.2.1、构造查询矩阵Q_i，键矩阵K_i和值矩阵V_i，进一步得到自注意力矩阵A，它们的计算公式如下：

A＝(A₁,…,A_h)W^O；

其中i＝1，…，h＝8，softmax是针对矩阵每一个行向量做的，即：

S2.2.2、将注意力矩阵A的每一个行向量A_l输入到一个全连接前馈神经网络,得到：

F_l＝max(0,A_lW₁+b₁)W₂+b₂)，

其中记F＝[F₁；…；F_n]。

根据上述技术方案，所述步骤S3中第t个时间步，解码器的输出表示层的输出为其中矩阵的第l个行向量为：

其中是第l个标签字符在第t-1个时间步，解码器最后一层解码层的输出，p_l是字符序列(x₁,…,x_t)第l个位置的位置编码表示，1≤l≤t。

根据上述技术方案，所述步骤S3中解码层的输入为解码层的结构如下：

构造查询矩阵Q_i，键矩阵K_i和值矩阵V_i，进一步得到自注意力矩阵A，它们的计算公式如下：

A＝(A₁,...,A_h)W^O；

其中这里和编码层不一样的是，多了一步mask矩阵操作，它将矩阵的对角线右上方的元素全置为负无穷-∞，使得第i个位置的编码表示是前i个位置的值向量表示的加权求和；

其中矩阵的对角线不包括对角线上的元素，第i个位置包括其自身的第i个位置。

根据上述技术方案，所述步骤S4中编码层不同的是，多了一个编码-解码注意力层，改注意力层的键矩阵和值矩阵由编码器的输出Z得到：

其中I＝1，…，h＝8。

根据上述技术方案，所述步骤S4中将编码-解码注意力矩阵的每一个行向量输入到一个全连接前馈神经网络,得到

其中记F＝[F₁；…；F_n]。

根据上述技术方案，所述步骤S4中将解码器最后一层解码层的输出Y⁽⁶⁾，输入到分类层，分类层输出的是每个标签表中每个标签字符为第t个字符x_t的标签的概率，分类层的结构如下：

P＝softmax(Y⁽⁶⁾W+b)；

其中这里d_c是标签表的标签字符个数；解码器的输出就是概率最大的标签字符。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，利用注意力机制替代了编码-解码架构中常用的递归神经网络和卷积神经网络，更容易捕获“长距离依赖信息”，能够提升命名实体任务的准确率，并且基于注意力机制的网络架构更易于并行处理，计算效率得到巨大的提升，解决现有技术中的模型无法考虑长距离的上下文信息和上下文信息相关性的问题，从而使得识别的准确率受到限制的技术问题。

具体实施方式

应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：本发明提供技术方案，一种基于注意力机制的命名实体识别方法，包括以下步骤：

S1、对文本数据进行数据预处理；

S2、将字符序列(x₁，…，x_n)输入到编码器，得到字符序列的

每一层的输出分别记为X^((l))，其中l＝0，…，6；

S3、给定编码器的输出解码器依次生成输出标签序列(y₁，…，y_n)的每一个字符，在第t个时间步生成第t个标签字符yt，其中1≤t≤n；

Z_i＝LayerNorm(X_l+Y_l)，

其中l＝1,…,n，其中LayerNorm是对向量的标准化操作，即：

根据上述技术方案，步骤S1的具体步骤如下：

S1.1、对文本进行分句，分字符处理；

根据上述技术方案，步骤S2中输入表示层的结构如下：

其中j＝1，…，d_m；

S2.1.3、输入表示层的输出X⁽⁰⁾的第i个行向量为

根据上述技术方案，步骤S2中编码层的输入为编码层的结构如下：

A＝(A₁,…,A_h)W^O；

其中 softmax是针对矩阵每一个行向量做的，即：

F_l＝max(0,A_lW₁+b₁)W₂+b₂)，

其中记F＝[F₁；…；F_n]。

根据上述技术方案，步骤S3中第t个时间步，解码器的输出表示层的输出为其中矩阵的第l个行向量为：

根据上述技术方案，步骤S3中解码层的输入为解码层的结构如下：

A＝(A₁,…,A_h)W^O；

根据上述技术方案，步骤S4中编码层不同的是，多了一个编码-解码注意力层，改注意力层的键矩阵和值矩阵由编码器的输出Z得到：

其中

根据上述技术方案，步骤S4中将编码-解码注意力矩阵的每一个行向量输入到一个全连接前馈神经网络,得到

其中记F＝[F₁；…；F_n]。

根据上述技术方案，步骤S4中将解码器最后一层解码层的输出Y⁽⁶⁾，输入到分类层，分类层输出的是每个标签表中每个标签字符为第t个字符x_t的标签的概率，分类层的结构如下：

P＝softmax(Y⁽⁶⁾W+b)；

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的命名实体识别方法，其特征在于：包括以下步骤：

S1、对文本数据进行数据预处理；

S2、将字符序列(x₁，…，x_n)输入到编码器，得到字符序列的编码表示

每一层的输出分别记为X^((l))，其中l＝0，…，6；

每一层的输出分别记为Y^(l)，l＝0，…，6，Y⁽⁰⁾就是输出表示层的输出，作为第一个解码层的输入，然后每一个解码层的输出Y^(l)作为下一个解码层的输入，然后得到输出Y^(l+1)，其中1≤l≤6，最后一个解码层的输出Y⁽⁶⁾作为分类层的输入，分类层输出预测标签在标签表中的序号；

Z_i＝LayerNorm(X_l+Y_l)，

其中l＝1,…,n，其中LayerNorm是对向量的标准化操作，即：

2.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S1的具体步骤如下：

S1.1、对文本进行分句，分字符处理；

3.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S2中输入表示层的结构如下：

其中j＝1，…，d_m；

S2.1.3、输入表示层的输出X⁽⁰⁾的第i个行向量为

4.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S2中编码层的输入为编码层的结构如下：

Q_i＝XW_i ^Q，K_i＝XW_i ^K，V_i＝XW_i ^V；

A＝(A₁,…,A_h)W^O；

F_l＝max(0,A_lW₁+b₁)W₂+b₂)，

其中l＝1,...,n，记F＝[F₁；...；F_n]。

5.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S3中第t个时间步，解码器的输出表示层的输出为其中矩阵的第l个行向量为：

其中是第l个标签字符在第t-1个时间步，解码器最后一层解码层的输出，p_l是字符序列(x₁,...,x_t)第l个位置的位置编码表示，1≤l≤t。

6.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S3中解码层的输入为解码层的结构如下：

Q_i＝XW_i ^Q，K_i＝XW_i ^K，V_i＝XW_i ^V；

A＝(A₁,...,A_h)W^O；

其中I＝1,...,h＝8，这里和编码层不一样的是，多了一步mask矩阵操作，它将矩阵的对角线右上方的元素全置为负无穷-∞，使得第i个位置的编码表示是前i个位置的值向量表示的加权求和；

7.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S4中编码层不同的是，多了一个编码-解码注意力层，改注意力层的键矩阵和值矩阵由编码器的输出Z得到：

其中I＝1，...，h＝8。

8.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S4中将编码-解码注意力矩阵的每一个行向量输入到一个全连接前馈神经网络,得到

其中l＝1,...,n，记F＝[F₁；…；F_n]。

9.根据权利要求1所述的一种基于注意力机制的命名实体识别方法，其特征在于：所述步骤S4中将解码器最后一层解码层的输出Y⁽⁶⁾，输入到分类层，分类层输出的是每个标签表中每个标签字符为第t个字符x_t的标签的概率，分类层的结构如下：

P＝softmax(Y⁽⁶⁾W+b)；