CN111026847B

CN111026847B - 一种基于注意力网络和长短期记忆网络的文本情感识别方法

Info

Publication number: CN111026847B
Application number: CN201911251502.0A
Authority: CN
Inventors: 周锋; 盖志勇; 石华峰; 李小勇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2022-04-26
Anticipated expiration: 2039-12-09
Also published as: CN111026847A

Abstract

本发明提供了一个基于注意力网络和长短期记忆网络的文本情感识别方法。包括以下步骤：步骤101，将文本数据划分为训练集和测试集，每条数据包含一段话和对应类别代码。步骤102，嵌入层中存储了每个汉字对应的向量，将文本数据经过嵌入层转变为字向量。步骤103，将字符统一变为长度512个字，并进行遮罩操作。步骤104，将每个类别用两个字构成的词表示，拼接对应字向量得到该类别的类别向量。步骤105，构造3层结构长短期记忆网络和12层注意力网络。步骤106，结合长短期记忆网络和注意力网络的输出，得到最终预测结果。步骤107，根据损失函数，测量网络预测值和真实值的误差。步骤108，根据误差和学习率对网络进行梯度下降。

Description

一种基于注意力网络和长短期记忆网络的文本情感识别方法

技术领域

本发明涉及注意力网络和长短期记忆网络(LSTM)的模型集成领域，特别是涉及一种基于注意力网络(BERT)的文本情感识别方法。

背景技术

神经网络是一种基于机器学习方法，网络由若干层神经单元组成，每层神经单元对上一层输入进行矩阵乘法操作后，再经过激活函数得到非线性输出作为下一层的输入。

长短期记忆网络(LSTM)是循环神经网络(RNN)的一种，用来处理长度不一致的文本数据，可以解决训练神经网络过程中的梯度消失和梯度爆炸问题。相比传统神经网络，长短期记忆网络在更长的文本数据中有更好的表现。长短期记忆网络每个神经单元输入和输出都是双通道，隐状态通道和记忆细胞通道。神经单元内部由3个门运算构成，分别代表忘记、记忆选择和输出选择。由于比其他神经单元多了一个通道，所以使得文本中的关键信息可以保留更长的时间，提升了网络在长文本中的处理效果。

注意力网络(BERT)是基于注意力机制的神经网络，相比循环神经网络，注意力网络运算速度更快，网络层数和神经单元数量是循环神经网络的十多倍，可以捕捉更深更复杂的语义信息。注意力网络每层由三个模块组成，键模块、值模块和查询模块。上一层输入经过三个模块得到三个矩阵，键矩阵和查询矩阵经过矩阵乘法得到注意力向量，值矩阵乘以注意力向量得到输出作为下一层的输入。这种计算机制也叫注意力机制，注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标是从众多信息中选择出对当前任务目标更关键的信息。

文本情感识别属于多分类标签(multi-label)任务，可以同时识别一段文本中的多种情感倾向，此类任务已经取得良好的成果。但在情感类别相近时，语言表述和所用词汇比较接近，传统方法的识别率比较低。这是因为单凭长短期记忆网络或传统机器学习方法，难以捕捉高层语义信息，也就难以识别一些细微情感和曲折表述。目前的识别方法中还没有同时利用长短期记忆网络和注意力网络，同时提取文本的低层语义和高层语义，用于文本情感识别。目前情况下，由于缺乏处理高层语义信息，如果情感类别比较相近，面临识别准确率低的问题。

发明内容

本发明设计了一种基于注意力网络和长短期记忆网络的情感识别方法

1、步骤概述

步骤101，输入文本数据并划分为训练样本和测试样本；

步骤102，对文本数据进行文本清洗和字粒度划分，将每个字映射为多维度字向量；

步骤103，字向量序列经过填充(padding)和遮罩(mask)，分别进入长短期记忆网络和注意力网络；

步骤104，将每个分类表示简化为两个字构成的词，拼接对应字向量得到每个类别的类别向量；

步骤105，建立长短期记忆网络结构和注意力网络的多标签任务分类层；

步骤106，对注意力网络输出y1和长短期记忆网络输出y2结果进行加权线性组合y＝0.9*y1+0.1*y2，得到最后的输出结果y；

步骤107，设定损失函数(lossFunction)为交叉熵公式，根据预测值和真实值，使用交叉熵公式计算损失值(loss)；

步骤108，确定网络学习率变化方式，根据学习率和损失值对网络进行梯度更新。

步骤103中，将文本数据通过填充特定字符或过长截断，统一变为512个字的文本长度；遮罩操作指，对每个文本向量构造一个长为512的向量，向量由0或1组成，1代表该位置是文本字符，0代表该位置是填充字符，在计算注意力向量时，填充字符位置的对应数值为0，也就避免了分配注意力给填充字符。

步骤105中长短期记忆网络整体为3层结构，每层都是双向神经单元。提取每层最后时间步的输出进行拼接作为句向量，句向量经过全连接层得到分类概率1，将最后一层各时间步输出乘以类别向量得到分类概率2，将分类概率1和分类概率2经过全连接层，得到网络最终输出。

步骤105中注意力网络整体为12层结构，每层由一个自注意力层和两个全连接层构成，每个全连接层有512*1024个神经元，而自注意力层由键矩阵、值矩阵和查询矩阵组成，共3*256*512个神经单元；查询矩阵的输出和键矩阵的输出进行矩阵乘法得到注意力向量，注意力向量和值矩阵的输出得到自注意力层输出。

步骤105中文本数据进过12层得到句子向量表示后，进入注意力网络任务层，任务层和任务类型相关，本任务层是一个全连接层，输入是512，输出是情感类别数量，所有全连接层输出都要经过数据归一化(batchNorm)、随机丢失操作(dropout)和激活函数，数据归一化是指将输出数据均值归0，方差归1，随机丢失操作是指以一定概率(通常是10％)将数据输出置0。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。本发明的目标及特征考虑到如下结合附图的描述将更加明显，附图中：

图1为根据本发明的一种基于注意力网络和长短期记忆网络的文本情感识别方法的训练流程图。

图2为根据本发明的注意力网络结构图。

图3为根据本发明的长短期记忆网络结构图

具体实施方式

为了更好地解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。为了更好的理解本发明实施例的方案，以下对本发明实施例的装置进行概述说明。

本操作中采用了反向传播算法来训练神经网络，所述反向传播算法包括正向传播和反向传播过程组成。正向传播过程中，训练数据通过嵌入层经过注意力网络和长短期记忆网络，逐层处理传到输出层。如果在输出层中输出的预测值和实际的真实值不同，则根据损失函数计算误差，转入反向传播。按照与输入相反的方向，从输出层开始，逐层计算损失函数相对于各个神经元权值的偏导数，构成损失函数对权值向量的梯度，作为修改权值的依据，网络的学习即是指不断的进行权值修改，直到损失函数的值达到期望范围内，此时网络学习结束，得到对文本情感识别的注意力网络和长短期记忆网络结构。

图2展示了注意力网络的自注意力层结构图，自注意力层由键矩阵、值矩阵和查询矩阵组成，共3*256*512个神经单元。查询矩阵输出和键矩阵输出进行矩阵乘法得到注意力向量，注意力向量和值矩阵输出得到自注意力层输出。

本操作中涉及的全连接层均使用了数据归一化(batchNorm)、随机丢失操作(dropout)和激活函数。数据归一化将输出数据均值归0，方差归1，有助于减缓梯度遗忘和梯度爆炸现象，使网络层数可以比较多，捕捉更高层的语义信息。随机丢失操作，有助于提高网络在验证集上的表现，提高网络的泛化性能。激活函数是一种非线性的函数，用于获取非线性输出，可以更灵活获取文本的特征表示。本实施中，每层均使用ReLU函数作为激活函数。

图3展示了长短期记忆网络的神经元内部结构。双通道输入输出，包括隐状态通道和记忆细胞通道。神经单元内部由3个门运算构成，分别代表忘记、记忆选择和输出选择。由于比其他神经单元多了一个通道，所以使得文本中的关键信息可以保留更长的时间，提升了网络在长文本中的处理效果。其中

σ(x)＝1/(1+e^-x)

tanh(x)＝(e^x-e^-x)/(e^x+e^-x)

虽然本发明已经参考特定的说明性实施例进行了描述，但是不会受到这些实施例的限定而仅仅受到附加权利要求的限定。本领域技术人员应当理解可以在不偏离本发明的保护范围和精神的情况下对本发明的实施例能够进行改动和修改。

Claims

1.一种基于注意力网络和长短期记忆网络的情感识别方法，其特征在于包括如下步骤：

步骤101，输入文本数据并划分为训练样本和测试样本；

遮罩操作指，对每个文本向量构造一个长为512的向量，向量由0或1组成，1代表该位置是文本字符，0代表该位置是填充字符，在计算注意力向量时，填充字符位置的对应数值为0，也就避免了分配注意力给填充字符；

步骤106，对注意力网络输出y1和长短期记忆网络输出y2结果进行加权线性组合y＝0.9×y1+0.1×y2，得到最后的输出结果y；

2.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法，其特征在于步骤103中将文本数据通过填充特定字符或过长截断，统一变为512个字的文本长度。

3.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法，其特征在于步骤105中构建长短期记忆网络的具体方法为：长短期记忆网络整体为3层结构，每层都是双向神经单元；提取每层最后时间步的输出进行拼接作为句向量，句向量经过全连接层得到分类概率1，将最后一层各时间步输出乘以类别向量得到分类概率2，将分类概率1和分类概率2经过全连接层，得到网络最终输出。

4.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法，其特征在于步骤105中构建注意力网络的具体方法为：注意力网络整体为12层结构，每层由一个自注意力层和两个全连接层构成，每个全连接层有512*1024个神经元，而自注意力层由键矩阵、值矩阵和查询矩阵组成，共3*256*512个神经单元；查询矩阵的输出和键矩阵的输出进行矩阵乘法得到注意力向量，注意力向量和值矩阵的输出得到自注意力层输出。

5.根据权利要求1所述的一种基于注意力网络和长短期记忆网络的情感识别方法，其特征在于步骤105中构建注意力网络任务层的具体方法为：文本数据经过12层得到句子向量表示后，进入注意力网络任务层，任务层和任务类型相关，本任务层是一个全连接层，输入是512，输出是情感类别数量，所有全连接层输出都要经过数据归一化(batchNorm)、随机丢失操作(dropout)和激活函数，数据归一化是指将输出数据均值归0，方差归1，随机丢失操作是指以10％概率将数据输出置0。