CN111368088A

CN111368088A - 一种基于深度学习的文本情感分类方法

Info

Publication number: CN111368088A
Application number: CN202010245891.2A
Authority: CN
Inventors: 冯翱; 宋馨宇; 王维宽; 徐天豪
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-03

Abstract

本发明涉及一种基于深度学习的文本情感分类方法，基于标注数据集或自行采集的数据集，通过GloVe将数据集的文本转换为词向量表示，并构造词向量字典，从词向量字典中查找对应词的词向量并输入构建好的混合神经网络模型中，通过一维卷积来提取文本的n‑gram特征，通过一维卷积得到的特征图可以保持与输入文本相同的维度，将语义信息的损失降到最小；然后采用双向LSTM进行特征提取，获取从前到后与从后往前的时序信息，将将一维卷积提取出的N‑grams特征按时间顺序整合，本发明技术方案能够更好的挖掘特征之间的时序关系以及全局语义信息，提高文本情感分类的准确性。

Description

一种基于深度学习的文本情感分类方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于深度学习的文本情感分类方法。

背景技术

随着互联网和社交媒体的蓬勃发展，网络用户不再仅仅局限于浏览信息，更多的人开始表达自己的观点，分享知识并创作内容。互联网中产生了大量用户制造的信息，例如对热点新闻事件的评论、对特定商品的评价、对电影的评分等。这些评论信息都包含了人们各种复杂的情感色彩或情感倾向，如喜怒哀乐和否定、赞同等。因此，企业、机构或个人希望整合这些带有主观色彩的评论，来解析和跟踪大众舆论对于某一对象或某一事件的看法。由于互联网中这类评论信息的激增，仅靠人工难以在海量的非结构文本数据中收集和挖掘出有价值的情感相关信息，因此需要设计情感分析算法，利用计算机来帮助用户快速、有效地获取对于某一对象的情感倾向。这就是文本情感分类的主要任务。

深度学习已经成为一种主流而且性能优异的机器学习方法，它可以学习数据的多层特征表示，并在很多领域取得优于传统方法的结果。近年来，随着深度学习图像处理、机器翻译等领域的成功，深度学习也被用于文本情感分类任务中。卷积神经网络(Convolutional Neural Network，CNN)是一种常见的多层神经网络，由于能够有效地捕获时间和空间结构的相关性，其广泛应用于计算机视觉和自然语言处理等领域。在文本情感分类任务中，CNN 逐渐取代传统基于文本统计信息的机器学习方法，成为主流方法之一。

目前，基于CNN的文本情感分类方法大多是利用文本局部的最大语义特征进行情感极性判别。最常见的方法是通过二维卷积获取文本的局部语义特征，再经过最大池化层获得当前标签下最显著的语义特征，使用全连接层组合多个特征来判断情感倾向。

现有技术方案有使用word2vec作为词向量输入，通过二维卷积核在句子不同位置提取n-gram特征，并通过池化操作学习短、长程的上下文关系，最后经过softmax得到情感分类结果。该方法基于原始Skip-gram模型进行了几个扩展。在训练过程中，对高频词(frequent words)进行二次采样会导致显着的加速(大约2-10倍)，并提高频率较低的词汇表征(word representation)的准确性。此外，该方法还包含一种用于训练Skip-gram 模型的简化NCE(Noise Contrastive Estimation/噪声对比估计)。结果表明，与更复杂的分层softmax相比，它有更快的训练速度，而且高频词(frequent words)的向量表征(vectorrepresentation)也更好。词汇表征(words representation)天生受限于习惯用语(idiomatic phrases)的表示。例如，“Boston Globe/波士顿环球报”是报纸，它不是“Boston/波士顿”和 “Globe/地球”的含义的自然组合。因此，用向量来表示整个短语会使Skip-gram模型更具表现力。其他旨在通过组合单词向量(例如递归自动编码器/recursive autoencoders)来表示句子意义的技术也将受益于使用 phrase vectors而不是word vectors。这种方案的不足在于：对输入文本使用基本的二维卷积会使特征图的维度减小，无法通过多层的卷积结构来提取高层的文本特征。这种CNN模型可以看作从文本中捕获包含情感的关键词或词组，通过这些关键词判断情感倾向，但最大池化处理仅仅是提取了最明显的特征，并未考虑文本中的语义关系。

还有另一种方案：使用GloVe作为词向量输入，是考虑了共现矩阵(相比word2vec考虑了word_pairs之间的距离因素)的基础上的计数模型，主要目标是使向量之间尽可能的多蕴含语义和语法信息，采用一维卷积核提取文本的局部语义特征，通过k-max池化后，仅保留语义最显著的k个n-gram 特征。不足在于：该方案虽然使用了一维卷积核，但仅保留了最显著的k个 n-gram特征，损失了很多语义信息。同时用卷积操作，只能提取到局部语义信息，对于全局语义的识别能力不足。

因此，如何结合上下文语义，尤其是全局语义来进行文本情感分类，成为语言处理领域需要解决的技术难题。

发明内容

针对现有技术之不足，本发明提出一种基于深度学习模型的文本情感分类方法，所述方法包括：

步骤1：准备标准数据集或自行采集数据；

步骤2：若选择自行采集数据，需要对采集到的文本数据进行预处理，所述预处理包括：数据清洗、分词和词性标注；

步骤3：将标准数据集或预处理后的采集数据集划分为训练集、验证集和测试集，划分比例分别为60％，20％，20％；

步骤4：将预处理好的数据集的文本均转换为词向量表示，并利用GloVe 构造词向量字典；

步骤5：根据步骤4得到的词向量字典，将数据集中的每个词查字典，把得到的对应词向量作为输入，将其输入到构建好的一维卷积混合神经网络模型中，进行特征提取和预测分类，所述一维卷积混合神经网络模型自底向上由五层结构组成，包括输入层、一维卷积层、池化层、循环神经网络层和 Softmax层，词向量进入所述混合神经网络模型后经过所述循环神经网络层得到平均输出值γ，并将所述平均输出值γ输出到Softmax层；

步骤6：预测文本的情感分类，将所述平均输出值β_t输入到所述模型的第五层Softmax层，用Softmax作为分类器，得到输入文本在各个情感类别下的概率；

步骤7：在网络超参数不变的前提下，将训练集中的数据分批进行多轮训练，以调整网络参数，直到达到最大迭代次数或满足提前截止条件；

步骤8：在验证集上运行步骤7得到的网络，并使用不同的超参数进行多次训练，选择在验证集上取得最高精度的超参数；

步骤9：使用步骤8的超参数训练得到的网络在测试集上运行，得到最终的分类精度指标。

根据一种优选的实施方式，步骤5具体包括：

步骤51：将词向量输入到所述模型的第一层输入层，从步骤4中学习的词向量字典查找词w_i，得到对应的词向量x_i∈R^k，k为词向量的维度；

步骤52：将词向量x_i输入到所述混合神经网络模型的第二层一维卷积层，一维卷积层用于提取文本的n-gram特征，并使得特征维度与输入文本保持一致，词向量每一维分别使用不同的一维卷积，一组一维卷积核表示为 w_c∈R^h×k，可生成一个特征图c，h为滑动窗口大小；

步骤53：将所述特征图c输入到所述混合神经网络的第三层池化层，池化操作的目标是选取文本各个位置最重要的特征，对于每一个特征图c，第i 列的最大特征值

经过池化层得到其中一个特征向量

其中，c_i∈R^k，L为文本长度；

步骤54：经过池化层得到特征向量构成的矩阵V＝[v₁,...,v_N]，将其按列展开为[α₁,...,α_L]，N表示特征向量v的数量，将矩阵V输入到所述模型的第四层循环神经网络层中，循环神经网络层使用双向LSTM网络，向量α_t作为双向LSTM网络t时刻的输入，由式(2)和式(3)分别求得t时刻前向和后向的隐藏状态

和

其中，

表示t时刻前向网络的单元状态，

表示t时刻后向网络的单元状态，

和

表示t时刻前后向网络的单元隐藏状态，

表示t-1时刻前向网络的单元状态，

表示t-1时刻后向网络的单元状态，

表示t-1时刻前向网络的单元隐藏状态，

表示t-1时刻后向网络的单元隐藏状态，x_t表示：池化层输出对应本层t时刻的输入数据；

并输出为：

其中，β_t表示：对前后向状态加权、偏置后的输出，b_y表示：偏置，

和

表示：对前后向隐藏状态进行加权的权值，β_t∈R^d，d为隐藏状态 h_t的维度。各个时刻的输出取平均值得到平均输出值：

将所述平均输出值γ输入到所述混合神经网络模型的第五层Softmax层进行分类。

根据一种优选的实施方式，步骤4具体包括：

步骤41：基于所述训练集、验证集和测试集，通过计算得到词的词向量并构成共现矩阵X，所述共现矩阵X的元素X_ij表示单词i和单词j共同出现在同一个统计窗口的次数；

步骤42：调用GloVe训练共现矩阵X中的文本词向量，根据所述共现矩阵X，可得到固定维度的词向量和词向量字典。

与现有技术相比，本发明的有益效果在于：

1、本发明通过一维卷积得到的特征图可以保持与输入文本相同的维度，将语义信息的损失降到最小；并且，词向量可以认为是神经网络训练语言模型的副产物，词向量各维的值可以看作隐含层各个神经元的输出，词向量的各个维度之间相互独立，卷积应该分别进行，而不是将它们简单地进行加权求和，因此通过一维卷积神经网络提取到文本的n-gram特征，拥有更丰富的语义信息，同时，保留更丰富的局部语义特征。

2、由于现有的LSTM无法捕捉从后到前的信息，所以不适合进行更细粒度的情感分类，通过双向LSTM(Bi-directional Long Short-Term Memory) 可以更好的捕捉双向的语义依赖。双向LSTM可获取从前到后与从后往前的时序信息，因此能够得到特征的时序关系，采用双向LSTM将一维卷积提取出的N-grams特征按时间顺序整合，挖掘特征之间的时序关系以及全局语义信息，提高文本情感分类的准确性。

附图说明

图1是本发明情感判别方法的流程图；

图2是一种词向量表示方法的示意图；

图3是构造共现矩阵的一种具体实施方式；和

图4是本发明一维卷积混合神经网络的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

LSTM：Long Short Term Memory长短时记忆网络。

本发明针对情感分类中二维卷积特征提取能力不足的问题，提出一种基于一维卷积神经网络和循环神经网络的混合模型。该模型使用一维卷积替换二维卷积以保留更丰富的局部语义特征，通过循环神经网络层，提取文本的全局语义。在多个标准数据集上的实验表明，此模型的分类性能与主流的传统机器学习和深度学习算法相比有明显的提升。

步骤1：准备标准数据集或自行采集数据。

标准数据集可采用斯坦福情感树库影评情感分类数据集(Stanford SentimentTreebank)，斯坦福情感树库(SST)是第一个具有完全标记的解析树的语料库，可以完整地分析语言中情感的成分效应。该语料库基于Pang 和Lee(2005)引入的数据集，包括从电影评论中提取的11,855个单句，使用斯坦福解析器(Stanford Parser)解析，包括来自那些解析树的总共215,154 个独特短语，每个短语由3个人类专家注释。这个数据集使我们能够分析情感的复杂性并捕捉复杂的语言现象。自行采集数据可通过网络爬虫等技术从网络上采集多个文本数据构成数据集。

步骤2：若选择自行采集数据，需要对采集到的文本数据进行预处理，预处理包括：数据清洗、分词和词性标注；

对数据进行清洗主要是处理掉数据集中的残缺数据、错误数据和重复数据，使用工具如jieba分词、NLPIR等对数据集进行处理，完成句子分词和分词后各部分的词性标注。

对自行采集的文本数据进行预处理的目的是使处理后数据集包含模型训练所需的语义信息。如果直接采用斯坦福情感树影评情感分类数据，其自身就具备了模型训练所需的语义信息，所以无需进行数据预处理。

其中，训练集用于模型的参数训练，验证集用于调整模型超参数、初步验证模型效果避免过拟合，测试集用来测试模型的最终效果。

步骤4：将预处理好的数据集的文本均转换为词向量表示，并利用GloVe 构造词向量字典。

将文本数据集转化为词向量表示，是为了转化成计算机能识别的数据。将数据集中的每个词都转换为词向量，共现矩阵统计的是两个词共同出现的次数，GloVe通过训练共现矩阵词向量得到词之间的共现概率。

图2是一种词向量表示方法的示意图。词向量只是对词的一种表示，如图2所示，词“love”向量化后就是<2 0 0 1 1 0>，统计与n个词的共现次数，则维度为n，上图n＝6。GloVe算法根据共现矩阵词向量训练后，得出的共现概率，相当于算法把次数转换概率，也是对词的一种表示，所以训练词向量，得到的也是词向量。

词向量：通过统计一个预先指定大小的窗口内的词共出现的次数，以词周边的共现词的次数作为当前词的向量，本发明通过共现矩阵来表示词向量，数据集中的词的词向量构成共现矩阵。

步骤41：基于训练集、验证集和测试集，通过计算得到词的词向量并构成共现矩阵X，共现矩阵X的元素X_ij表示单词i和单词j共同出现在同一个统计窗口的次数；

图3是构造共现矩阵的一种具体实施方式。设有语料库：i love you but youlove him i am sad，这个小小的语料库只有1个句子，涉及到7个单词：i、 love、you、but、him、am、sad。

如果我们采用一个窗口宽度为5(左右长度都为2)的统计窗口，那么就有如图2所示的内容，窗口0、1长度小于5是因为中心词左侧内容少于2 个，同理窗口8、9长度也小于5。以窗口5为例说明如何构造共现矩阵：

中心词为love，语境词为but、you、him、i；则执行：

X_love,but+＝1

X_but,love+＝1(矩阵中对称元素+1，以下同)

X_love,you+＝1

X_love,him+＝1

X_love,i+＝1

使用窗口将整个语料库遍历一遍，即可得到共现矩阵X。

步骤42：调用GloVe训练共现矩阵X中的文本词向量，根据共现矩阵X，可得到固定维度的词向量和词向量字典。词向量字典就是对于单词表中的每一个词学习得到一个对应的固定词向量，因此可以认为这是个词到向量的字典。得到固定维度的词向量是便于标准化输入，保证数据长度相同，又能够使得到的词向量能够充分考虑到语料库的全局特征。

步骤5：根据步骤4得到的词向量字典，将数据集中的每个词查字典，把得到的对应词向量作为输入，将其输入到构建好的一维卷积混合神经网络模型中，进行特征提取和预测分类，一维卷积混合神经网络模型自底向上由五层结构组成，包括输入层、一维卷积层、池化层、循环神经网络层和Softmax 层，词向量进入混合神经网络模型后经过循环神经网络层得到平均输出值γ，并将平均输出值γ输出到Softmax层。

步骤51：将词向量输入到模型的第一层输入层，从步骤4中学习的词向量字典查找词w_i，得到对应的词向量x_i∈R^k，k为词向量的维度。在文本开始和末尾分别补零，以保证卷积后句子长度不变。

步骤52：将词向量输入到混合神经网络模型的第二层一维卷积层，一维卷积层用于提取文本的n-gram特征，并使得特征维度与输入文本保持一致，词向量每一维分别使用不同的一维卷积。一组一维卷积核表示为w_c∈R^h×k，可生成一个特征图c，h为滑动窗口大小。经过卷积，数据集中第i个词的第 j维得到的特征值为：

c_ji＝f(w_cj·x_j,i:i+h-1+b) (1)

其中，w_cj∈R^h表示词向量第j维上的一维卷积核。词向量的每一维表示每一行。

一维卷积层提取的文本的n-gram特征，拥有更丰富的语义信息。N-gram 表示一个长度为N的词语组成的序列,该模型假设第N个词的出现只与前面 N-1个词相关，而与其它任何词都不相关，序列的概率就是各个词出现概率的乘积。

选用一维卷积替换二维卷积有两点考虑。其一，通过一维卷积得到的特征图可以保持与输入文本相同的维度，将语义信息的损失降到最小；其二，词向量可以认为是神经网络训练语言模型的副产物，词向量各维的值可以看作隐含层各个神经元的输出，词向量的各个维度之间相互独立，卷积应该分别进行，而不是将它们简单地进行加权求和。

步骤53：将特征图c输入到混合神经网络的第三层池化层，池化操作的目标是选取文本各个位置最重要的特征，对于每一个特征图c，第i列的最大特征值

经过池化层得到其中一个特征向量

其中，c_i∈R^k，L为文本长度。文本是指数据集中某条文本数据，比如影评集中的某条影评，各条长度是不一样的，但是通过设置窗口，保证了词向量长度一致。

步骤54：经过池化层得到特征向量构成的矩阵V＝[v₁,...,v_N]，将其按列展开为[α₁,...,α_L]，N表示特征向量v的数量，将矩阵V输入到模型的第四层循环神经网络层中，循环神经网络层使用双向LSTM网络，向量α_t作为双向LSTM网络t时刻的输入，由式(2)和式(3)分别求得t时刻前向和后向的隐藏状态

和

其中，

表示t时刻前向网络的单元状态，

表示t时刻后向网络的单元状态，

和

表示t时刻前后向网络的单元隐藏状态，

表示t-1时刻前向网络的单元状态，

表示t-1时刻后向网络的单元状态，

表示t-1时刻前向网络的单元隐藏状态，

表示t-1时刻后向网络的单元隐藏状态，x_t表示：池化层输出对应本层t时刻的输入数据。

并输出为：

和

卷积操作虽然可以将相邻词或特征的语义进行组合，但无法有效地识别和表示时序信息。为解决这一问题，采用双向LSTM将一维卷积提取出的 N-grams特征按时间顺序整合，挖掘特征之间的时序关系以及全局语义信息。

因为LSTM无法捕捉从后到前的信息，所以不适合进行更细粒度的情感分类，通过双向LSTM(Bi-directional Long Short-Term Memory)可以更好的捕捉双向的语义依赖。双向LSTM可获取从前到后与从后往前的时序信息，因此能够得到特征的时序关系。

步骤5根据步骤4得到的文本词向量，词向量的每个维度进行一维卷积操作，采用双向LSTM将一维卷积提取出的N-grams特征按时间顺序整合，挖掘特征之间的时序关系以及全局语义信息。

步骤6：预测文本的情感分类，将平均输出值β_t输入到模型的第五层 Softmax层，用Softmax作为分类器，得到输入文本在各个情感类别下的概率。

步骤7：在网络超参数不变的前提下，将训练集中的数据分批进行多轮训练，以调整网络参数，直到达到最大迭代次数或满足提前截止条件。

步骤8：在验证集上运行步骤7得到的网络，并使用不同的超参数进行多次训练，选择在验证集上取得最高精度的超参数。

本发明实验中的超参数如表3-1所示。

本发明使用GloVe预训练的词嵌入向量作为混合神经网络初始的输入，维度为300。对于一维卷积层，采用1、2、3这三种尺寸的卷积核，每种尺寸的卷积核数量均设置为4，确保卷积网络从不同维度不同位置提取多种文本特征。循环神经网络层使用双向LSTM，记忆单元的维度为150，词向量和双向LSTM后均设置0.5的dropout。训练批次大小为50，学习率为5E-4，进行反向传播的参数增加0.001的L2正则约束，选择Adam作为优化器，训练阶段最大迭代次数为100。输入的词向量会根据反向传播微调，在1000个批次内验证集上的准确度没有提升会提前停止训练，设置梯度截断为3。

表3-1实验参数设置

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于深度学习模型的文本情感分类方法，其特征在于，所述方法包括：

步骤1：准备标准数据集或自行采集数据；

步骤4：将预处理好的数据集的文本均转换为词向量表示，并利用GloVe构造词向量字典；

步骤5：根据步骤4得到的词向量字典，将数据集中的每个词查字典，把得到的对应词向量作为输入，将其输入到构建好的一维卷积混合神经网络模型中，进行特征提取和预测分类，所述一维卷积混合神经网络模型自底向上由五层结构组成，包括输入层、一维卷积层、池化层、循环神经网络层和Softmax层，词向量进入所述混合神经网络模型后经过所述循环神经网络层得到平均输出值γ，并将所述平均输出值γ输出到Softmax层；

步骤6：预测文本的情感分类，将所述平均输出值γ输入到所述模型的第五层Softmax层，用Softmax作为分类器，得到输入文本在各个情感类别下的概率；

2.如权利要求1所述的文本情感判别方法，其特征在于，步骤5具体包括：

步骤52：将词向量x_i输入到所述混合神经网络模型的第二层一维卷积层，一维卷积层用于提取文本的n-gram特征，并使得特征维度与输入文本保持一致，词向量每一维分别使用不同的一维卷积，一组一维卷积核表示为w_c∈R^h×k，可生成一个特征图c，h为滑动窗口大小；

步骤53：将所述特征图c输入到所述混合神经网络的第三层池化层，池化操作的目标是选取文本各个位置最重要的特征，对于每一个特征图c，第i列的最大特征值

经过池化层得到其中一个特征向量

其中，c_i∈R^k，L为文本长度；

步骤54：经过池化层得到特征向量构成的矩阵V＝[v₁，...，v_N]，将其按列展开为[α₁，...，α_L]，N表示特征向量v的数量，将矩阵V输入到所述模型的第四层循环神经网络层中，循环神经网络层使用双向LSTM网络，向量α_t作为双向LSTM网络t时刻的输入，由式(2)和式(3)分别求得t时刻前向和后向的隐藏状态