CN111309909B

CN111309909B - 一种基于混合模型的文本情感分类方法

Info

Publication number: CN111309909B
Application number: CN202010091064.2A
Authority: CN
Inventors: 王丹; 余悦任; 杜金莲; 付利华; 苏航; 李童
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2021-07-30
Anticipated expiration: 2040-02-13
Also published as: CN111309909A

Abstract

一种基于混合模型的文本情感分类方法属于计算机软件领域。该方法主要包含数据处理层、机器学习处理层、CNN处理层、LSTM‑Attention处理层、自适应决策层。待分类数据经过机器学习处理层、CNN处理层和LSTM‑Attention处理层分别处理，最后将其处理结果一同输入到自适应决策层中，自适应决策层根据不同处理层以往的分类结果自适应调整各层结果所占的权重，从而得到最终的分类结果。相比单一的机器学习和单一的深度学习方法，该方法处理效果明显，并且结果具有良好的可解释性，应用前景广泛。

Description

一种基于混合模型的文本情感分类方法

技术领域

本发明设计一种基于卷积神经网络、循环神经网络、注意力机制的文本情感分类方法，属于计算机软件领域。

背景技术

在当今社交网络环境中，网民可以通过新闻跟帖、微博、贴吧、论坛等多种形式，针对某一热点事件发表个人观点，表达自己的情感倾向性。如果通过情感分析技术，从海量在线评论文本中获取网民的情感倾向，无论是对政府部门有效地进行舆情监控，还是其他相关团体从中提取有价值的信息，都有非常重要的现实意义。因此，这一类自然语言处理问题已引起研究者的普遍关注。

目前常用的文本情感分类方法包括基于词典的情感分类、基于传统机器学习的情感分类和基于深度学习的分类方法。前两种分类方法对人工先验知识要求较高，需要人工提取特征和构建情感词典等，处理效果较为理想，但过程繁琐。后一种由深度学习自动提取特征，处理过程简便，但是结果不具有可解释性，效果也差一些。

综上所述，当下需要一种处理结果简便，具有效果良好且可解释性的文本情感分类方法。

发明内容

本发明的内容为：

①提出了一种基于混合模型的文本情感分类方法，该模型能够很好的融合传统机器学习情感分类和深度学习情感分类方法，分类效果良好，并且具有可解释性。

②提出了一种高效的自适应决策方法，根据多个分类器的决策结果及历史表现进行决策判定。

③对相关模型和判断方法进行了测试，验证了其有效性。

本发明采用深度学习技术卷积神经网络(Convolutional Neural Network,CNN)提取数据隐藏高维空间特征，长短期记忆(Long short-term memory,LSTM)提取数据时间特征并通过Attention对不同词语赋予不同的权重，同时借鉴集成学习的分类结果，最终经过自适应决策进行二分类，实现分类功能。

为达到以上发明目的，经过研究讨论和反复实践，检测方案最终如下。

1、方案总体设计

本方案主要分为数据处理层、机器学习处理层、CNN处理层、LSTM-Attention处理层和自适应决策层。

(1)数据处理层：文本向量化，即将文本数据映射为高维实数向量。采用Word2vec文本向量化方法，对原始文本进行向量化处理。

(2)机器学习处理层：利用主成分分析(PCA)、潜在语意分析(LSI)和独立成分分析(ICA)对文本进行特征提取，通过传统机器学习进行特征学习。

(3)CNN处理层：使用三个卷积层，卷积核逐渐减小，缩小特征的范围，全面提取文本向量数据的空间特征。同时最大池化、激励层的使用可以降低特征维度，加快模型收敛速度，得到依据隐藏高维特征分类结果。

(4)LSTM-Attention处理层：t时刻的输出，由t-k,t-k+1,...,t-1等k个时刻的历史输出和t时刻的输入共同决定，每一个时刻对最终输出结果的影响是不同的。

使用Attention来对不同时刻的前k个历史序列赋予不同的权重，灵活捕捉局部和全局的联系，增强模型可解释性，提高检测准确率。

(5)自适应决策层：自适应调整机器学习处理层、CNN处理层和LSTM-Attention处理层的处理结果对最终结果的影响权重，提高检测准确率。

2、运行环境

本方案采用Python语言实现，用深度学习框架TensorFlow实现核心部分编写。实验环境为：Windows10 64bit，经验证，在Windows 10 64bit,Ubuntu 18.04LTS 64bit以及macOS 10.13.6运行良好。

一种基于混合模型的文本情感分类方法，其特征在于，包括如下步骤：

步骤1.对原始数据进行预处理，将文本数据转换为文本向量：包含如下几步：

1.1.加载原始文本数据data；

1.2.对原始文本进行分词；

1.3.依据上一步的分词词频进行编号；

1.4.将每个样本中的每个词转换为数字列表；

1.5.将每条样本划分为相同长度maxlen；

1.6.得到预处理文本向量数据D；

步骤2.机器学习处理层，采用机器学习的方法对原始文本数据data进行分类，具体步骤为：

2.1.运用朴素贝叶斯对文本进行分类，得到其分类结果R1；

2.2.运用梯度下降对文本进行分类，得到其分类结果R2；

2.3.运用支持向量机对文本进行分类，得到其分类结果R3；

步骤3.CNN处理层，包含采用三层卷积层、两层dropout层、一层最大池化以及两层全连接层，对步骤1得到的文本向量数据D进行隐藏高维特征提取，并依据这些特征对文本情感进行分类，具体网络结构为：

3.1.第1层卷积层滤波器为256、卷积核为5、步长为1，激活函数relu；

3.2.第2层dropout层，dropout值为0.1；

3.3.第3层卷积层滤波器为128、卷积核为5、步长为1，激活函数relu；

3.4.第4层dropout层，dropout值为0.1；

3.5.第5层卷积层滤波器为64、卷积核为5、步长为1、激活函数relu；

3.6.第6层最大池化层池化核为3、步长为3；

3.7.第7层Flatten层，展平数据；

3.8.第8层全连接层神经元个数为128；

3.9.第9层全连接层神经元个数为1，激活函数sigmoid，得到分类结果R4；

步骤4.LSTM-Attention处理层，对步骤1得到的文本向量数据D采用带有注意力机制的LSTM网络进行时间序列特征提取，并依据这些特征对文本情感进行分类，其过程为：

4.1.计算D中每条文本向量的实际长度；

4.2.将数据加载到LSTM-Attention处理；

4.3.输出分类结果R5；

步骤5.自适应决策层，对步骤2的结果R1，R2，R3，步骤3的结果R4，步骤4的结果R5自适应加权得到最终分类结果，具体步骤如下：

5.1.加载R1-R5；

5.2.初始化R1-R5的权重W_j向量；

5.3.开始拟合训练；

5.4.根据R1-R5的错误率更新W_j的值；

5.5.保存模型。

步骤4.1.中每条文本向量的实际长度，其计算方法为maxlen-count0，其中maxlen与步骤1.5中相同，count0为当前文本向量末尾0的个数；步骤4.2.中LSTM计算公式如(1)、(2)、(3)、(4)所示：

f_t＝σ(W_f×[h_t-1,x_t]+b_f) (1)

i_t＝σ(W_i×[h_t-1,x_t]+b_i) (2)

其中，f_t为遗忘门参数，c_t为细胞状态更新参数，h_t-1和c_t-1分别为隐层输出和t-1时刻的细胞状态，x_t为t时刻输入的文本向量，

是细胞状态的更新备选值，i_t为输入门参数，W_f为LSTM模型内待训练的遗忘门权重参数，b_f为LSTM模型内待训练的遗忘门偏置参数，W_i为LSTM模型内待训练的输入门权重参数，b_i为LSTM模型内待训练的输入门偏置参数，W_C为LSTM模型内待训练的细胞状态更新权重参数，b_C为LSTM模型内待训练的细胞状态更新偏置参数，σ为sigmoid激活函数；在该模型中i_t＝1-βf_t，β为调节系数取值

调节遗忘门和输入门对下一个时刻状态的影响权重，即遗忘门参数f_t同时决定旧细胞遗忘的信息与新细胞加入的信息，细胞状态的更新公式，如公式(5)所示:

从(5)中可以看出，遗忘门参数f_t是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的，针对该加权系数采用自注意力机制来获取，即通过训练注意力模型中的参数来获取细胞自身状态中的信息，从而更新为新的细胞状态，因此，遗忘门参数f_t,可通过公式(6)得到，

f_t＝σ(V_f×tanh(W_f×c_t-1)) (6)

其中，V_f为遗忘门内注意力机制待训练参数，tanh为激活函数；

时序特征维度的注意力加权详细步骤为：LSTM模型输出的最后一个时刻记为o_L与整个输出记为o_t作注意力运算的参数，将获取的加权系数作用在o_t的时间维度上，并在时间维度上求和作为输出，如公式(7)、(8)所示：

s_t＝softmax(o_L×(o_t×w_t)^T) (7)

其中，s_t表示时间维度上的注意力加权系数，o_L是LSTM模型最后一个时刻的输出值，w_t是o_t在时间维度上的权重系数，·表示Hadamard乘法；out_t为时间维度上求和后的时间加权输出，s_t与o_t表示时间维度的信息相乘；时间维度上的加权和out_t即为LSTM-Attention处理层的输出R5。

步骤5.2.中，各个分类器(朴素贝叶斯、随机梯度下降、支持向量机、CNN、LSTM-Attention)的初始化权重为0.2，计算方法为：

其中W_j为第j个分类器的权重，N＝5表示分类器个数；步骤5.3.中，学习率lr为0.001，迭代次数epochs为300，若损失值loss在m代没有下降，将提前结束训练否则迭代300次结束，m值为10；步骤5.4.中动态更新W_j的算法为

其中e_j为第j个分类器的错误率，最后根据公式(9)得到最后检测结果，其中g_j(x)为第j个分类器，∑对各个分类器乘以权重求和得到最终分类结果；

本方案具有较强的通用性，在设计之初就考虑了对其他操作系统的支持，最大程度做到平台无关性。

本方案依赖的核心库包括：TensorFlow1.14,numpy1.17.3,pandas0.25.3,jieba0.39,matplotlib3.1.1,由于Python对跨平台支持友好，这些库在不同平台上都能够安装运行。

附图说明

图1模型架构设计图

图2LSTM结构图

具体实施方案

本方案的原理是文本数据经过预处理转换为文本向量，然后经过CNN处理层和LSTM-Attention处理层并行处理，最后与机器学习训练的分类器一并经过自适应决策层实现情感分类，模型架构设计如图1所示。

5.1数据处理层

数据预处理主要将文字特征转换为数字特征；将每条文本转换为数字列表；将每条文本设置为相同长度；将每个词编码转换为词向量。处理算法描述如算法1所示：

步骤1中data单条记录格式为一段长度不超140的文本，并标有积极或消极标签；步骤2中采用已有分词库jieba进行分词操作；步骤4中样本的相同长度maxlen值为50，这里50是样本长度的中位数，可以根据样本实际情况进行调整超过部分截掉，不足部分用0补齐；步骤5中得到的预处理数据D为具有相同长度的文本向量。

5.2机器学习处理层

机器学习处理层，其主要功能为运用已有传统机器学习方法，朴素贝叶斯、随机梯度下降(SGD)、支持向量机(SVM)等传统算法，计算情感类别，其分类结果分别为R1,R2,R3，最后将结果一同输入到自适应决策层中。

5.3CNN处理层

CNN处理层包含三层卷积层、两层dropout层、最大池化层和两层全连接层，负责提取文本向量中隐含的高维特征，采用滤波器不断减小的三层卷积层，局部特征和全局特征全都覆盖到，同时采用最大池化层，保留最明显的特征同时降低数据维度，加快模型收敛速度，CNN处理层的算法描述如算法2所示：

上述算法步骤0中，滤波器大小为256，卷积核大小为5，步长为1，通道数为1，激活函数为relu；骤1中dropout值为0.1；步骤2中滤波器大小为128，卷积核大小为5，步长为1，激活函数为relu；步骤3中dropout值为0.1；步骤4中滤波器大小为64，卷积核大小为5，步长1，激活函数为relu；步骤5中池化核大小为3，步长为3；步骤7中，全连接层神经元个数为128个；步骤8中，全连接层神经元个数为1，激活函数为sigmoid。

5.4LSTM-Attention处理层

循环神经网络(Recurrent Neural Network,RNN)是一种处理时间序列问题并获得良好效果的神经网络。进一步讲，当处理后续输入数据时，之前输入序列所携带的信息可以保存在网络内。RNN在语音识别、机器翻译和自然语言处理等任务中被广泛应用。但是，RNN在长时间序列预测中，存在梯度消失和梯度爆炸的问题，由此限制了RNN处理长时间序列信息的能力。LSTM作为RNN的扩展，通过一种特殊的记忆单元设计来学习长期依赖，每个单元包含四部分分别为：循环连接单元、输入门、输出门和遗忘门，其结构如图2所示。

在长时间的序列预测中，随着时间的进展不同词语对预测结果的贡献度是不一致的。

因此需要通过注意力机制的方式动态调整每个词在单条样本中对应的权重。其原理是不同的词语对最终结果的贡献度不同，通过提高贡献度高的词语权重，从而提高分类的准确率。

LSTM-Attention处理层的算法描述如算法3所示：

算法3步骤1中，数据片段实际有效长度是不包含末尾0的长度，可以通过算法1中maxlen减末尾零的个数获得；步骤2，LSTM-Attention处理过程是算法3的关键，详细说明如下，LSTM包含循环连接单元、输入门、输出门和遗忘门，其中遗忘门是LSTM可以处理长时间序列信息的关键。通过Attention优化LSTM模型中的遗忘门计算方式，在LSTM模型中的遗忘门用来决定什么样的信息应该丢弃，什么样的数据应该保留，它会直接参与新细胞状态更新的计算中。在LSTM模型中，遗忘门与细胞状态的更新状态只与上一时刻隐藏层数据与当前时刻输入有关，该遗忘门的计算方式，如公式(10)所示：

f_t＝σ(W_f×[h_t-1,x_t]+b_f) (10)

该细胞更新状态，如公式(11)、(12)、(13)所示：

i_t＝σ(W_i×[h_t-1,x_t]+b_i) (11)

其中，f_t为遗忘门参数，c_t为细胞状态更新参数，h_t-1和c_t-1分别为隐层输出和t-1时刻的细胞状态，x_t为t时刻的输入，

是细胞状态的更新备选值，i_t为输入门参数，W_f为LSTM模型内待训练的遗忘门权重参数，b_f为LSTM模型内待训练的遗忘门偏置参数，W_i为LSTM模型内待训练的输入门权重参数，b_i为LSTM模型内待训练的输入门偏置参数，W_C为LSTM模型内待训练的细胞状态更新权重参数，b_C为LSTM模型内待训练的细胞状态更新偏置参数，σ为sigmoid激活函数。在该模型中i_t＝1-βf_t，β为调节系数，调节遗忘门和输入门对下一个时刻状态的影响权重，β取值为0.5其值越大遗忘门对下一时刻状态的影响权重越大。即f_t同时决定旧细胞遗忘的信息与新细胞加入的信息，细胞状态的更新公式，如公式(14)所示:

从(14)中可以看出，遗忘门参数f_t是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的，针对该加权系数采用自注意力机制来获取，即通过训练注意力模型中的参数来获取细胞自身状态中的信息，从而更新为新的细胞状态，因此，遗忘门参数f_t,可通过公式(15)得到，

f_t＝σ(V_f×tanh(W_f×c_t-1)) (15)

其中，V_f为遗忘门内注意力机制待训练参数，tanh为激活函数。

时序特征维度的注意力加权详细步骤为：LSTM模型输出的最后一个时刻记为o_L与整个输出记为o_t作注意力运算的参数，将获取的加权系数作用在o_t的时间维度上，并在时间维度上求和作为输出，如公式(16)、(17)所示：

s_t＝softmax(o_L×(o_t×w_t)^T) (16)

其中，s_t表示时间维度上的注意力加权系数，w_t是o_t在时间维度上的权重系数，·表示Hadamard乘法；out_t为时间维度上求和后的时间加权输出，s_t与o_t表示时间维度的信息相乘。时间维度上的加权和out_t即为LSTM-Attention处理层的输出R5，也是自适应决策层的一个输入。

5.5自适应决策层：

该层采用自适应决策算法,基于分类器正确率的表现动态调整各个分类器所占的权重，其算法描述如算法4所示：

上述算法，步骤1中各个分类器(朴素贝叶斯、SGD、SVM、CNN、LSTM-Attention)所占的权重相同即

W_j为第j个分类器的权重，N为分类器个数；步骤2中需要设定学习率lr为0.001，随着训练轮数增加可适当降低学习率从而避免震荡，迭代次数epochs为300，若损失值loss在m轮没有下降，将提前结束训练但最大迭代次数为300，m这里取10表示10个epoch内损失没有下降结束训练；步骤3中动态更新W_j的算法为

其中e_j为第j个分类器的错误率，W_j随着e_j的减小而增大，也就是说误差率越小的分类器所占权重越大，最后根据公式(18)得到最后检测结果，其中g_j(x)为第j个分类器，∑对各个分类器乘以权重求和得到最终分类结果。

保存模型，然后退出。

最后输入待分类情感文本，经过已保存的模型中处理，输出当前情感文本的分类结果，即是积极情感还是消极情感。

3、为了测试提出的基于混合模型的文本情感分类方法，本次实验采用Github开源数据集simplifyweibo，是带有情感标注的微博数据集。训练集的总样本个数为361744，正样本个数为199496，负样本个数为162248，标签由积极和消极两种情感类型组成。实验随机抽取20000条正样本和19000条负样本，并且样本集按照8:2的比例划分为训练集和测试集进行模型的训练和测试。

通过使用simplifyweibo数据集对朴素贝叶斯、随机梯度下降、支持向量机等机器学习方法以及CNN和LSTM-Attention等深度学习方法进行实验，结果如下表所示：

本专利自适应决策方法在F1度量值以及准确率方面在测试中均取得良好效果，原因在于自适应决策结合了朴素贝叶斯、SGD、SVM、CNN、LSTM-Attention多个模型的优点，自适应调整不同模型在最终分类结果中的权重；在可解释性方面，自适应决策方法可以依据模型的权重向量W对分类结果进行解释。

综上所述，本发明基于混合模型，采用机器学习和深度学习相结合的分类方法，模型准确率得到提高，同时分类结果具有良好的解释性。

Claims

1.一种基于混合模型的文本情感分类方法，其特征在于，包括如下步骤：

1.1.加载原始文本数据data；

1.2.对原始文本进行分词；

1.3.依据上一步的分词词频进行编号；

1.4.将每个样本中的每个词转换为数字列表；

1.5.将每条样本划分为相同长度maxlen；

1.6.得到预处理文本向量数据D；

2.1.运用朴素贝叶斯对文本进行分类，得到其分类结果R1；

2.2.运用梯度下降对文本进行分类，得到其分类结果R2；

2.3.运用支持向量机对文本进行分类，得到其分类结果R3；

3.2.第2层dropout层，dropout值为0.1；

3.4.第4层dropout层，dropout值为0.1；

3.6.第6层最大池化层池化核为3、步长为3；

3.7.第7层Flatten层，展平数据；

3.8.第8层全连接层神经元个数为128；

4.1.计算D中每条文本向量的实际长度；

4.2.将数据加载到LSTM-Attention处理；

4.3.输出分类结果R5；

5.1.加载R1-R5；

5.2.初始化R1-R5的权重W_j向量；

5.3.开始拟合训练；

5.4.根据R1-R5的错误率更新W_j的值；

5.5.保存模型。

2.根据权利要求1所述的基于混合模型的文本情感分类方法，其特征在于：步骤4.1.中每条文本向量的实际长度，其计算方法为maxlen-count0，其中maxlen与步骤1.5中相同，count0为当前文本向量末尾0的个数；步骤4.2.中LSTM计算公式如(1.1)、(1.2)、(1.3)、(1.4)所示：

f_t＝σ(W_f×[h_t-1,x_t]+b_f) (1.1)

i_t＝σ(W_i×[h_t-1,x_t]+b_i) (1.2)

调节遗忘门和输入门对下一个时刻状态的影响权重，即遗忘门参数f_t同时决定旧细胞遗忘的信息与新细胞加入的信息，细胞状态的更新公式，如公式(1.5)所示:

从(1.5)中可以看出，遗忘门参数f_t是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的，针对该加权系数采用自注意力机制来获取，即通过训练注意力模型中的参数来获取细胞自身状态中的信息，从而更新为新的细胞状态，因此，遗忘门参数f_t,可通过公式(1.6)得到，

f_t＝σ(V_f×tanh(W_f×c_t-1)) (1.6)

时序特征维度的注意力加权详细步骤为：LSTM模型输出的最后一个时刻记为o_L与整个输出记为o_t作注意力运算的参数，将获取的加权系数作用在o_t的时间维度上，并在时间维度上求和作为输出，如公式(1.7)、(1.8)所示：

s_t＝softmax(o_L×(o_t×w_t)^T) (1.7)

3.根据权利要求1所述的基于混合模型的文本情感分类方法，其特征在于：步骤5.2.中，各个分类器：朴素贝叶斯、随机梯度下降、支持向量机、CNN、LSTM-Attention的初始化权重为0.2，计算方法为：

其中e_j为第j个分类器的错误率，最后根据公式(1.9)得到最后检测结果，其中g_j(x)为第j个分类器，∑对各个分类器乘以权重求和得到最终分类结果；