CN113779966A

CN113779966A - 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Info

Publication number: CN113779966A
Application number: CN202111069944.0A
Authority: CN
Inventors: 苏依拉; 韩春晖; 郭晨雨; 朱苏东; 仁庆道尔吉; 吉亚图
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-10

Abstract

本发明公开了一种基于注意力的双向CNN‑RNN深度模型的蒙文情感分析方法，主要针对普通DNN模型训练时间开销过大，以及特征提取层的特征空间维度过高、梯度爆发等问题，将以前的单向序列深度模型改进为双向CNN‑RNN情感分析深度模型，其中RNN模型采用变体LSTM和GRU，将注意力机制从RNN模型内部分割开来，将循环神经网络处理后的结果输入注意力模型，以达到提高舆情检测效率、提升情感分析准确度的目的。

Description

一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法

技术领域

本发明属于人工智能与自然语言处理(NLP)技术领域，涉及舆情检测以及情感分析，特别涉及一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法。

背景技术

情感分析是近十年来自然语言处理和数据挖掘领域的一个研究热点，通常采用普通的DNN模型来进行情绪分析，以获得有希望的结果。但是DNN模型的序列长度具有任意性，导致了高位的特征向量空间重复性高的结果。

当下基于注意力机制的BERT已经成为NLP任务的预训练的起点，基于静态嵌入的模式成为了过去式。但是BERT模型也有一定的缺点，预训练过程时间开销大，收敛得比left-to-right模型要慢。

另有基于注意力的RNN模型，虽然其舆情检测领域的表现良好，但是由于其引入了多头注意力机制，所以在训练过程中会产生超参数化问题。不仅如此，高维的向量空间会使模型有过拟合的问题，甚至陷入局部收敛。学习率预热阶段实际上有助于避免这个问题。在优化的初始化阶段，学习率必须设置为一个恰当的值，并进行不断的尝试，选取最优值。所以，本发明创新性地引用了RNN的变体LSTM和GRU，将RNN框架与注意力机制分隔开来，这样不仅避免了超参数化，而且由于注意力模型的输入是双向LSTM层与双向RNN层的输出进行特征联合所得到的向量，所以序列词汇向量表征考虑了上下文之间的依赖关系。

同时，对于蒙古语等小语种，其语料匮乏，进行情感分析的难度更大。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法，主要针对普通DNN模型训练时间开销过大，以及特征提取层的特征空间维度过高、梯度爆发等问题，将以前的单向序列深度模型改进为双向CNN-RNN情感分析深度模型，其中RNN模型采用变体LSTM和GRU，将注意力机制从RNN模型内部分割开来，将循环神经网络处理后的结果输入注意力模型，以达到提高舆情检测效率、提升情感分析准确度的目的。

为了实现上述目的，本发明采用的技术方案是：

一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法，其特征在于，包括如下步骤：

第一步，用输入层读取待分析的蒙语句子w，将其拆分成n个词汇向量w₁,w₂,w₃,...w_n-1,w_n，将所述词汇向量全部传入预先训练好的Glove模型(google提出的词嵌入模型)进行训练，Glove模型中的Glove嵌入注释矩阵为

e为嵌入维度，

为实数域向量空间，W_g用于嵌入注释向量

得到静态词嵌入向量c_t，即：

c_t＝W_gw_t,t∈[1,m]

m为填充长度，w_t为第t个词汇向量；

第二步，将静态词嵌入向量c_t输入到两个并行的双向LSTM层和双向GRU层(双向LSTM与双向GRU均为双向RNN的变种，双向LSTM层由正向长短期记忆网络和反向长短期记忆网络组成，双向GRU层由正向门控循环单元和反向门控循环单元组成)中，用来处理任意长度的序列，并提取前向和后向的长相关性，以使LSTM和GRU层里的隐藏层对静态词嵌入向量c_t进行处理后能够记住这些序列，得到新的词向量，公式如下：

其中，

为静态词嵌入向量c_t经过正向LSTM层得到的词向量，

为静态词嵌入向量c_t经过反向LSTM层得到的词向量，

为静态词嵌入向量c_t经过正向GRU层得到的词向量，

为静态词嵌入向量c_t经过反向GRU层得到的词向量；

第三步，将新的词向量

和

进行特征联合，即，将前向神经网络提取的特征信息和后向神经网络提取的特征信息进行融合，连接前向和后向上下文来获得特征向量

和

公式如下：

第四步，将特征向量

和

分别输入到两个独立的注意力模型中，注意力模型和每个词汇的特征向量一一进行交互，提取信息词并修改特征向量，从而计算出

的隐藏表征向量

和

的隐藏表征向量

使用隐藏表征向量

与上下文向量

进行相似性运算得到

的重要性系数，使用隐藏表征向量

与上下文向量

进行相似性运算得到

的重要性系数，然后分别运用softmax运算进行归一化得到重要性权重

和

分别将

和

进行加权和聚合得到注释向量s_LSTM和s_GRU，注释向量s_LSTM和s_GRU用于总结注释中单词的所有信息，公式如下：

其中

是注意力模型自己学习到的参数；

第五步，将注释向量s_LSTM和s_GRU分别输入到两个独立的CNN分支(卷积神经网络)中，其中每个CNN分支分别采用两个具有不同内核大小的并行卷积层，四个卷积层通过各自的线性滤波器提取注释单词向量s_LSTM和s_GRU的局部特征，降低输入数据的维数，输出四个特征图向量，将四个特征图向量分别放入最大池化层和平均池化层进行下采样操作，得到八个最终表征向量Lc_i＝[lc₁,lc₂,...,lc_f],i∈[1,8]，f为滤波器数量；

第六步，将最终表征向量连接，形成最终文档向量Lc＝[lc₁,lc₂,...,lc₈]；

第七步，将最终文档向量Lc输入全连接层，全连接层将最终文档向量Lc转换成高层情感表征h_d，公式如下：

h_d＝Relu(W_dh_p+b_d)

其中h_p是通过对池化层的串联应用批处理规范化而获得的隐藏表征，W_d和b_d是全连接层在训练过程中学习的参数；

第八步，将高层情感表征h_d传到具有sigmoid函数的输出层进行二值分类，通过分类的输出得到正面或者负面的结果，判断蒙语句子w的情感。

现有技术大多采用深度神经网络模型来处理情感分析任务，以获得有希望的结果。而现有用于情感分析的各种神经结构中，长短期记忆模型(LSTM，RNN变体)和选通递归单元(GRU，RNN变体)采用的最多，尽管这些模型能够处理任意长度的序列，但在深度神经网络的特征提取层中使用它们会使特征空间具有高维性。这种模型的另一个缺点是，它们认为不同的特征同样重要，本发明基于注意力的双向CNN-RNN深度模型则可解决上述问题。通过利用独立的双向LSTM层和GRU层，基于注意力的双向CNN-RNN将通过考虑两个方向上的时间信息流来提取过去和未来的上下文。此外，注意力机制被应用与双向CNN-RNN模型的输出，或多或少地强调不同的单词。为了降低特征的维数并提取位置不变的局部特征，双向CNN-RNN模型利用卷积和池机制，与普通的两个用于情绪分析的DNN结果进行比较，双向CNN-RNN模型在情感分析结果分类实验方面取得了先进的结果。

附图说明

图1是基于注意力的双向RNN-CNN深度模型示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明为一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法，其采用了词嵌入模型、两个分别独立的LSTM模型GRU模型、注意力模型和卷积神经网络模型，其中词嵌入模型(Glove)充当了编码器的作用。

参考图1，本发明基于注意力的双向CNN-RNN深度模型在架构上由输入层、词嵌入层、双向RNN层、拼接层、注意力模型、卷积层、全连接层和输出层组成。

输入层主要是用来接收蒙语句子w，并将其拆分为多个词汇向量。情感分析首先要将源语言转换成计算机能够理解的向量或者矩阵，即将词映射为实数域向量，即词嵌入(Word Embedding)技术。本发明的词嵌入层采用静态词嵌入，通过使用googole的glove模型来处理输入的词汇向量，glove模型采用了平方损失，并通过词向量拟合预先训练基于整个数据集计算得到的全局统计信息。但是glove模型得到的带有注释的词汇向量是静态的，与上下文无关。情感分析应该与上下文进行结合，所以本发明又引入了两个独立的双向LSTM层与双向GRU层。

双向循环神经网络涉及复制网络中的第一个循环层，使得有两层并排，然后将输入序列原样提供给第一层的输入，并将输入序列的反向副本提供给第二层。即，将正向状态的部分和反向状态的部分分割成正常的循环神经网络单元。双向提供序列的使用情感分析领域是合理的，因为有证据表明整个话语的上下文用于解释所说的内容而不是线性解释。即双向网络比单向网络更有意义，情感分析需要双向RNN层来捕捉上下文之间的依赖。注意力模型中一系列的归一化及其他操作主要是为了将双向RNN层中得到的词特征向量进行注释。这样更便于后续的CNN层提取局部特征进行分类。

CNN层主要用于局部特征的捕捉，全连接层主要进行矩阵相乘的操作降低维度从而获取结果进行最终的二值分类。

这些层组合在一起形成了本发明基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法，完整步骤如下：

第一步，用输入层读取待分析的蒙语句子w，将其拆分成n个词汇向量w₁,w₂,w₃,...w_n-1,w_n，将这些词汇向量全部传入预先训练好的利用基于语境化的预训练词嵌入模型Glove(google提出的词嵌入模型)进行训练，通过归一化的方法，将待分析的蒙语句子w转换为机器可以识别的静态词嵌入向量。

具体地，Glove模型中的Glove嵌入注释矩阵为

e为嵌入维度，

为实数域向量空间，W_g用于嵌入注释向量

得到静态词嵌入向量c_t，即：

c_t＝W_gw_t,t∈[1,m]

m为填充长度，w_t为第t个词汇向量；

本发明的拆分采用词组对照法，首先把蒙语句子w中出现的词组标注出来，然后再将蒙语句子w分解为多个词组进行标注，表示为：w₁,w₂,w₃......w_n→w，w₁，w₂,w₃......w_n表示蒙语句子w的词组，例如：上下文句子为“我七点钟到台湾大学”，“我七点钟到台湾大学”又可以切分为“w₁＝我”、“w₂＝七点钟”、“w₃＝到”、“w₄＝台湾大学”四个词组。在蒙语语境将句子分解成词组的切分方法相同，并且子词组可以与源词组相关联。

其中，

为静态词嵌入向量c_t经过正向LSTM层得到的词向量，

为静态词嵌入向量c_t经过反向LSTM层得到的词向量，

为静态词嵌入向量c_t经过正向GRU层得到的词向量，

为静态词嵌入向量c_t经过反向GRU层得到的词向量。

在本步骤中，没有直接使用RNN(循环神经网络)，而是使用两个并行的RNN的变体LSTM和GRU，从而可以处理RNN面临的消失/爆炸问题。LSTM与其他类型的RNN一样，根据当前时间步长的输入和前一时间步长的输出生成其输出，并将当前输出发送到下一时间步长，用于提取相关性。

其中，双向长短期记忆网络中，中间隐藏层公式为：

其中

为正向输出向量，

为反向输出向量。

或者，双向长短期记忆网络中，每个记忆单元内设置有一个层sigmoid函数，用于对输入输出进行判别，以此来进行双向累加运算。最终得到新的词汇向量。

即，情感分析不包含学习率处理阶段，在词嵌入层的输出中应用分别独立的LSTM和GRU提取n-gram特征，然后将这些特征用作CNN层的输入，并进行单标签多类分类。

第三步，将新的词向量

和

和

公式如下：

第四步，将特征向量

和

的隐藏表征向量

和

的隐藏表征向量

使用隐藏表征向量

与上下文向量

进行相似性运算得到

的重要性系数，使用隐藏表征向量

与上下文向量

进行相似性运算得到

和

分别将

和

其中

是注意力模型自己学习到的参数。

第五步，将注释向量s_LSTM和s_GRU分别输入到两个独立的CNN分支(卷积神经网络)中，其中每个CNN分支分别采用两个具有不同内核大小的并行卷积层，四个卷积层通过各自的线性滤波器提取注释单词向量s_LSTM和s_GRU的局部特征，降低输入数据的维数，输出四个特征图向量，将四个特征图向量分别放入最大池化层和平均池化层进行下采样操作，得到八个最终表征向量Lc_i＝[lc₁,lc₂,...,lc_f],i∈[1,8]，f为滤波器数量。

第六步，将最终表征向量连接，形成最终文档向量Lc＝[lc₁,lc₂,...,lc₈]。

h_d＝Relu(W_dh_p+b_d)

在本发明一个具体的实施例中，首先运用网络爬虫的方式在新华网蒙古文网站爬虫获取了蒙文数据集，该数据集包括来自伊利集团的175283条产品评论，以及来自骑士乳业的87995条产品评论。

把这些产品评论的数据集集丢进基于注意力的双向CNN-RNN模型中，输入层对这些蒙语评论句子进行编码，编码后的新的数据集由很多个句子向量即蒙语句子w构成，将这些向量传入输入层，输入层将w拆分成w₁,w₂,w₃......w_n。然后传入词嵌入模型Glove中进行静态词嵌入，然后Glove模型将输出的新的词向量进行特征融合后传入两个独立的双向RNN层进行一系列与上下文相关的操作以及softmax运算，分别输出两个注释向量，将注释向量传入CNN层进行局部特征提取得到八个最终表征向量，将最终表征向量连接生成文档向量Lc后通过全连接层，全连接层将文档向量Lc转化成高层情感表征h_d，将高层情感表征进行二值分类最终的输出结果为：伊利集团评论数据集为1(正向情感)，骑士乳业评论数据集为0(负面情感)，并且多次实验该模型的loss在0.238-0.319之间，误差方面明显优于普通的深度循环神经网络。

Claims

1.一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法，其特征在于，包括如下步骤：

第一步，用输入层读取待分析的蒙语句子w，将其拆分成n个词汇向量w₁,w₂,w₃,...w_n-1,w_n，将所述词汇向量全部传入预先训练好的Glove模型进行训练，Glove模型中的Glove嵌入注释矩阵为

为实数域向量空间，e为嵌入维度，W_g用于嵌入注释向量

得到静态词嵌入向量c_t，即：

c_t＝W_gw_t,t∈[1,m]

m为填充长度，w_t为第t个词汇向量；

第二步，将静态词嵌入向量c_t输入到两个并行的双向LSTM层和双向GRU层中，用来处理任意长度的序列，并提取前向和后向的长相关性，以使LSTM和GRU层里的隐藏层对静态词嵌入向量c_t进行处理后能够记住这些序列，得到新的词向量，公式如下：

其中，

为静态词嵌入向量c_t经过正向LSTM层得到的词向量，

为静态词嵌入向量c_t经过反向LSTM层得到的词向量，

为静态词嵌入向量c_t经过正向GRU层得到的词向量，

为静态词嵌入向量c_t经过反向GRU层得到的词向量；

第三步，将新的词向量

和

进行特征联合，获得特征向量

和

公式如下：

第四步，将特征向量

和

的隐藏表征向量

和

的隐藏表征向量

使用隐藏表征向量

与上下文向量

进行相似性运算得到

的重要性系数，使用隐藏表征向量

与上下文向量

进行相似性运算得到

和

分别将

和

其中

是注意力模型自己学习到的参数；

第五步，将注释向量s_LSTM和s_GRU分别输入到两个独立的CNN分支中，其中每个CNN分支分别采用两个具有不同内核大小的并行卷积层，四个卷积层通过各自的线性滤波器提取注释单词向量s_LSTM和s_GRU的局部特征，降低输入数据的维数，输出四个特征图向量，将四个特征图向量分别放入最大池化层和平均池化层进行下采样操作，得到八个最终表征向量Lc_i＝[lc₁,lc₂,...,lc_f],i∈[1,8]，f为滤波器数量；

h_d＝Relu(W_dh_p+b_d)