CN111814453B

CN111814453B - 基于BiLSTM-TextCNN的细粒度情感分析方法

Info

Publication number: CN111814453B
Application number: CN202010655517.XA
Authority: CN
Inventors: 刘慧君; 李文轼; 邬小燕
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-08-08
Anticipated expiration: 2040-07-09
Also published as: CN111814453A

Abstract

本发明提供了基于BiLSTM‑TextCNN的细粒度情感分析方法，步骤如下：S1、输入的数据只以单词向量为目标进行加权，不对词向量求和，从而得到输入层数据V_i；S2、V_i经由BiLSTM产生前向隐向量h_li和后向隐向量h_ri，h_li与h_ri维度相同，将他们在同一维度上拼接可得向量矩阵h_i；S3、BiLSTM生成的低层次特征h_i，作为TextCNN网络的输入运算，通过卷积和池化后生成特征向量F_i，卷积池化的过程同标准的TextCNN网络；S4、考虑到细粒度分析是多标签分类任务，全连接层这里没有使用Softmax回归，而是使用Sigmoid加以替代。本发明为准确地提取诸如汽车评论等领域数据中的关键信息和关键特征，更有效地提高分类效果，进一步促进深度学习技术在细粒度情感分类上的研究和应用提供了又一理想方法。

Description

基于BiLSTM-TextCNN的细粒度情感分析方法

技术领域

本发明涉及信息检索领域，具体涉及一种领域化词向量的细粒度情感分析方法。

背景技术

随着互联网的迅速发展，网络上出现的社区、论坛、微博等多种形式的媒体平台，为评论文本数据提供了可靠的来源支持，人们也越来越愿意在网络上分享自己的或是对他人的看法或评价观点。网络上的情感、舆论和观点，影响我们对产品、实体的看法和选择，也会给其他人提供帮助和意见，群体之间的用户相互影响，使人们的联系更加紧密。以这些网络媒体上获取的用户评论为基础，对其中的情感等信息进行分析、挖掘以及合理使用，建立行之有效的细粒度主题-情感模型，已经成为近年来研究的热点之一。

数据处理实质是将文本内容表达成数据，网络模型则是将数据信息转换成可以学习的知识。以现如今文本分类的研究来看，对文本信息的提取大致可分为关键词提取、关联关系提取(长文本)、扩展信息提取(短文本)。正如词袋模型和一些基于统计特征的机器学习那样，关键词的提取对几乎所有的文本分类都行之有效，而针对长短文本的优化处理是一种此消彼长的效果。建立的模型过度关注长文本，会丢失短文本信息的提取，而对短文本的过度优化会导致长文本产生冗杂信息，根据现有的网络模型，分析他们在文本分类上的表现情况，网络模型对比优劣情况大致如下：1、RNN：能保留历史状态，长距离学习能力较差。2、LSTM：选择性保留状态，避免了长期依赖问题。3、GRULSTM简化版：减少了门结构。4、Bi-LSTM：双向的LSTM，同时保留前项和后项的信息。5、TextCNN：高效获取关键词等局部特征，池化筛选特征。6、Attention：抓取关键词特征，比CNN保留特征更多。7、Capsule：抓取关键词特征以及位置特征等。

从以上分析归纳可以看出，RNN、LSTM及其变种等原本用作时序预测的网络，能更好的获取文本的前后关联性，适合用于复杂网络模型的第一层，TextCNN、Attention、Capsule等网络及其变种，能更好的抓取关键词特征。TextCNN因为其结构轻巧，在短文本分类中对重要的特征的提取率高，效率极快，相比而言Attention虽然也能提取重要特征但是难以筛除掉低分特征影响效果，Capsule计算复杂度更高，但是可以获取更多有效的特征。

而现有技术中，Yang等组合了LSTM和Attention两种网络模型，将长句子按照标点符号划分成若干条子句，每条句子使用Attention抽取单词特征，再对所有重要的句子做特征抽取后使用MLP分类。这种组合模型的效果被证明显著优于单一结构的网络模型，因为他从多个角度按照层次化结构来表达文章，不仅仅像传统意义上的神经网络只关注句向量。然而对于丰富多彩的网络数据信息，还需要更多的多方位、高效而又准确的分析方法。

发明内容

本发明提供了一种基于BiLSTM-TextCNN的细粒度情感分析方法，其通过结合LSTM和改进后的TextCNN，为准确地提取网络数据中的关键信息和关键特征，更有效地提高分类效果，进一步促进深度学习技术在细粒度情感分类上的研究和应用提供了又一理想方法。

为实现上述目的，本发明采用了如下的技术方案：

本发明提供基于BiLSTM-TextCNN的细粒度情感分析方法，其步骤如下：

S1、构建网络的输入，输入的数据只以单词向量为目标进行加权，不对词向量求和，从而得到输入层数据V_i；

S2、将V_i作为输入层，V_i经由BiLSTM产生前向隐向量h_li和后向隐向量h_ri，h_li与h_ri维度相同且在同一维度上拼接得到向量矩阵h_i；

S3、BiLSTM生成的低层次特征h_i作为TextCNN网络的输入运算，通过卷积和池化后生成特征向量F_i，卷积池化的过程同标准的TextCNN网络；

S4、全连接层使用Sigmoid回归，计算出最终结果标签L的表达式。

相比于现有技术，本发明具有如下有益效果：本发明结合了LSTM和TextCNN的优点，并对TextCNN进行了改进，有效地保留了语句的前后关联信息以及语义信息，分类结果优于单一的网络模型，解决了错误样本加入训练和同一样本不同标签的问题。修改模型的全连接层激活函数及使用的目标函数，使模型对此类多分类任务有更好的适应性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明实施例中的输入向量的生成图；

图2为本发明实施例的网络模型图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与作用更加清楚及易于了解，下面结合附图和具体实施方式对本发明作进一步阐述：

本实施例基于本发明的主要构思，详细地介绍了基于BiLSTM-TextCNN的细粒度情感分析方法的实施过程，主要包括LSTM并深度融合了本发明改进后的TextCNN，其具体包括以下步骤：

S1、构建网络的输入，只以单词向量为目标进行加权，不对词向量求和。这是因为按照句向量加权的方式会丢失单词特征，按照字符级别的加权没有实际意义，三种词向量的加权方法如公式所示：

W_ij为第i个样本的第j个单词转换而成的向量，分别代表了原词向量、tf-idf加权词向量和tf-chi加权词向量，使用group操作将三种词向量组合求解如下：

第i个样本的向量矩阵V_i计算方法如公式所示：

C_ij代表第i个样本的第j个字符转换而成的向量。k与l分别代表单词级别和字符级别的句子最大长度，V_i实质上是对两种文档向量表示方法的组合，将两个文档表示矩阵首尾拼接，增加第一层网络BiLSTM能获取到的信息量，其如图1所示。

S2、V_i作为输入层，经由BiLSTM产生前向隐向量h_li和后向隐向量h_ri，h_li与h_ri维度相同，将他们在同一维度上拼接可得向量矩阵h_i：

S3、LSTM生成的低层次特征h_i，作为TextCNN网络的输入运算，通过卷积和池化后生成特征向量F_i，卷积池化的过程同标准的TextCNN网络，其如图2所示。

F_i＝maxpooling(conv(H))

S4、考虑到细粒度分析是多标签分类任务，全连接层这里没有使用Softmax回归，而是使用Sigmoid加以替代。Sigmoid将结果规约到每一维取值范围[0,1]之内的输出向量，比起Softmax将输出转换为和为1的输出向量，更易于设定阈值优化结果。

先验概率S_n同时表示第n个标签的统计频率，可通过既定领域的已知主题情感数量表算出，S为所有主题-情感标签的频率向量，作为预测结果y_pred的加权项，y_pred＝Sigmoid(W*(F_i)^T+b)。例如对于汽车评论而言，其主题—情感数量分布表常见的可如下表：

主题	数量(正/中/负)	主题	数量(正/中/负)
				价格	[333,2319,255]	内饰	[339,612,254]
动力	[859,4469,858]	外观	[249,592,254]
				安全性	[214,871,224]	操控	[282,1373,683]
油耗	[311,1809,341]	空间	[148,495,334]
				舒适性	[572,1290,251]	配置	[345,1319,264]

本发明中，计算过程的加权式为线性加法，argmax保留概率值大于0.5的标签项，常数项N取值与主题总数相等，可以根据不同数据集微调，最终结果标签L计算公式如下：

S＝[S₁,S₂,…,S₃₀]^T

L＝argmax(S/N+y_pred)

此外，本发明还宜使用EarlyStopping和ReduceLROnPlateau方法提升精度，亦即步骤S5，其中，前者保证当loss值不再减少超过2次时，终止模型的训练；后者在loss值不再减小时，减少模型的学习率，这两种方法均是为了减少模型在训练数据上过拟合对预测数据产生影响，也能扩充神经网络模型在新的文本分类中的数据集，对汽车评论文本来说，数据集同时存在长样本和短样本。虽然TextCNN在长样本的分类任务中往往表现较差，但通过第一层结构LSTM的过滤和分析，第二层的TextCNN能发挥自身的优势，提取关键信息和关键特征，有效提高分类效果，为后续对汽车评论文本乃至其他类型主题文本的研究提供了参考依据，促进了深度学习技术在细粒度情感分类上的研究和应用，为了减少模型在训练数据上过拟合对预测数据产生影响。

以上实施例中可见，本发明的方法有效地保留了语句的前后关联信息以及语义信息，分类结果优于单一的网络模型。合并了主题标签和情感标签，使用了主题-情感标签表示法，解决了错误样本加入训练和同一样本不同标签的问题。回译法和拷贝复制法两种数据增强方式扩充了样本数量和样本语义特征，分别从同义转换和内容累加两个方面，弥补样本数量较少的不足。考虑到平均句向量在LSTM丢失了临近位置信息，将主题分类模型中的多权值方案稍作修改，结合字符和单词两种级别的输入词向量，在输入层提供了更多的可提取内容。分析停用词在汽车评论文本上的功效，对比了数据预处理前后对实验结果造成的影响。修改模型的全连接层激活函数及使用的目标函数，使模型对此类多分类任务有更好的适应性。分析了样本类间分布特点，将标签占比作为先验概率对预测结果加权，使得分类结果更符合样本的真实分布情况。最后使用约束条件减少模型过拟合情况，分析了多种神经网络及相关数据处理造成的影响。

进一步地，为了更加客观而清晰地解释本发明与一些同类现有技术的区别和产生的上述有益效果，在此，特别深入而具体地作出了分析说明：长短记忆网络(LSTM)最早在二十多年前就已经被提出，他的原始模型RNN也在各个领域取得研究进展，能根据先前的信息预测下一个词。但是RNN在上下文有关联且距离非常远的情况下丧失学习能力，而LSTM很好的解决了这个问题，因此本发明融合了LSTM。LSTM改进了RNN的tanh层结构，将模块内部改为4个结构进行交互，解决了长距离训练困难的问题。LSTM模型中的重复结构被称为细胞，细胞内的四种结构包含三个开关门，开关用来控制细胞状态的长期信息。忘记门决定接受还是丢弃信息，输入门决定更新哪一些状态值，输出门控制长期记忆对当前输出的影响。LSTM能够在上文距离较远的情况下保留语义信息，而其双向结构(BiLSTM)不仅能保留上文信息，还能保留下文内容，这种网络结构在文本分类上适合前后语义关联紧密或需要前后内容联想的语境。

卷积神经网络在二十世纪八十年代就被提出来，但直到2014年，Kim将卷积神经网络引入到文本分类中，并为其取名为TextCNN，才宣布了卷积神经网络正式进入自然语言处理领域。TextCNN使用多种不同大小的卷积核来提取句子的关键信息，能够更好地掌握句子的局部相关性，整体结构简单，只包含一个卷积层、一个最大池和一个全连接层。

与普通的卷积神经网络不同，TextCNN卷积核数量非常之多，高度取值一般在2-5之间，宽度始终与输入的文档向量等长。因为文本不同于图片，一幅图像的任意两个相邻或对角像素点联合在一起都可能表达一个重要特征，文本输入的词向量本身是为了表达词与词之间的关系，但词向量内部每一个维度的值之间没有太大的相关性，使用普通卷积神经网络的小卷积核意义不明显，宽度与词向量等长的卷积核能更好的获取相邻词语信息。

虽然TextCNN在长样本的分类任务中往往表现较差，但通过第一层结构LSTM的过滤和分析，第二层的TextCNN能发挥自身的优势，提取关键信息和关键特征，有效提高分类效果。结合使用BiLSTM和TextCNN构建网络能够提升长样本的分类性能，在BiLSTM-TextCNN网络中，输入的数据只以单词向量为目标进行加权，不对词向量求和。这是因为按照句向量加权的方式会丢失单词特征，按照字符级别的加权没有实际意义，LSTM生成的低层次特征h_i，作为TextCNN网络的输入运算，通过卷积和池化后生成特征向量F_i，卷积池化的过程同标准的TextCNN网络。

Claims

1.基于BiLSTM-TextCNN的细粒度情感分析方法，其特征在于，按以下步骤进行：

S4、全连接层使用Sigmoid回归，计算出最终结果标签L的表达式；

步骤S1中，词向量的加权方法为：其中，W_ij为第i个样本的第j个单词转换而成的向量，/> 分别对应代表了原词向量、tf-idf加权词向量、tf-chi加权词向量，使用group操作将三种词向量组合求解：/>第i个样本的向量矩阵V_i计算公式为：/>其中，C_ij代表第i个样本的第j个字符转换而成的向量，k与l分别代表单词级别和字符级别的句子最大长度，V_i是对两种文档向量表示方法的组合，亦即得到输入层数据V_i；

向量矩阵

在计算最终结果标签L时，预测结果y_pred＝Sigmoid(W*(F_i)^T+b)，具体地，先验概率S_n表示为第n个标签的统计频率，S为所有主题-情感标签的频率向量，则S＝[S₁,S₂,…,S₃₀]^T，且S作为预测结果y_pred的加权项，其加权式为线性加法，argmax保留概率值大于0.5的标签项，常数项N取值与主题总数相等，则最终结果标签L计算公式为：L＝argmax(S/N+y_pred)。

2.根据权利要求1所述基于BiLSTM-TextCNN的细粒度情感分析方法，其特征在于，

所述特征向量F_i为：F_i＝maxpooling(conv(H))。

3.根据权利要求2所述基于BiLSTM-TextCNN的细粒度情感分析方法，其特征在于，还包括步骤S5，所述步骤S5为使用EarlyStopping和ReduceLROnPlateau方法防止过拟合。

4.根据权利要求3所述基于BiLSTM-TextCNN的细粒度情感分析方法，其特征在于，使用EarlyStopping保证当loss值不再减少的次数超过2次时终止模型的训练，并使用ReduceLROnPlateau确保在loss值不再减小时，减少模型的学习率。