CN113159831A

CN113159831A - 一种基于改进的胶囊网络的评论文本情感分析方法

Info

Publication number: CN113159831A
Application number: CN202110315537.7A
Authority: CN
Inventors: 杨科华; 杨祝武
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-23

Abstract

本发明涉及自然语言处理技术领域，公开了一种基于改进的胶囊网络的评论文本情感分析方法，包括评论文本搜集、评论文本预处理、文本建模将评论文本转为向量数据，利用改进的胶囊网络提取局部特征，并通过构建LSTM模型，提取文本上下文信息，最后通过softmax函数进行文本情感分类。与现有技术相比，本发明首先改进了胶囊网络的squash方法与dynamic‑Routing方法，与原有的方法相比更具有分辨性，具有更优的性能。然后基于改进的CapsNet‑LSTM模型进行评论文本的情感分析，有效的提高了评论文本情感分析的准确率，提高了情感分类的精度，该方法在酒店评论文本情感分析实验中相较于其他方法都具有较明显的优势。

Description

一种基于改进的胶囊网络的评论文本情感分析方法

技术领域

本发明涉及自然语言处理技术,具体涉及一种基于改进的胶囊网络的评论文本情感分析方法。

背景技术

随着互联网技术的飞速发展,尤其是4G、5G通信技术的成熟,带动了移动互联网时代的到来。电子商务、通信技术的发展以及普及,使得网民不再是单纯的信息接收者,更是网络数据信息的主要制造者。信息时代的便利,越来越多的网民选择在网络上评论自己对某件事情的看法。例如,在网上对住宿的酒店进行评价,这些评论往往包含了对商品质量以及服务体验的一些观点,表明用户的情感立场。在电子商务的使用场景中,其他用户的评论是用户选择该商品或者服务的重要依据,一般而言,用户在购买某项服务或某种商品前,会参考其他用户的评论来了解该商品的真实情况,从而作出自己的决定。与此同时,商家也会基于用户的评论来了解用户需求,以便于更好地制定营销策略,获取更大的利润。

评论文本情感分析方法主要有以下两种,一是基于情感词典的情感分析,二是基于机器学习的情感分析。基于情感词典的方法主要通过计算词库中标注的词语极性来计算文本的总体情感倾向,基于机器学习的情感分析主要是通过构建文本的特征向量,使用机器学习中的分类算法模型来进行评论文本的情感倾向分类。Kim等人在2014年提出卷积神经网络模型，并将其用于英文情感分类。Siwei Lai等人提出的RCNN模型，综合考虑了CNN与RNN的优点，该模型先是使用双向循环神经网络得到上下文表示，再经过卷积、池化操作后输出分类结果。总的来说，在大部分情感分类任务中，基于深度学习的分类模型比基于机器学习的分类模型有着更好的表现。但CNN模型存在的局限性仍无法避免，CNN中的卷积计算是通过低级特征的加权和来表示的，因此，它很难描述高级复杂对象的多个特征，卷积计算计算量非常大，CNN模型编码效率低。尽管CNN使用池化层来处理这些问题，但池化操作同样存在些许不足。虽然池化操作可以降低卷积计算的复杂度，但池化操作更像是一种静态路由，在池化过程中特征间的上下文信息会丢失，无法反映出特征的部分-整体这一映射关系。

胶囊网络(Capsule network)采用胶囊来表示特征，使用动态路由机制来代替CNN中的池化操作，动态路由对提取到的所有特征进行加权平均，而不像CNN最大池化那样只将最好的特征传递给上层，从一定程度上克服了CNN的弊端。胶囊网络在图像识别方向的研究较多，在自然语言处理方向的应用较少。本发明针对文本情感分类特性，提出了一种适用于情感分析的胶囊网络模型。

发明内容

发明目的:针对现有技术中存在的不足问题,本发明提供了一种基于改进的胶囊网络的评论文本情感分析方法,改进了胶囊网络的squash方法、dynamic-Routing方法，以及提出了一种基于改进后的胶囊网络的CapsNet-LSTM模型来进行情感分析,该模型有效的提高了短文本情感分析分类的准确率。

技术方案:本发明提供了一种基于改进后的胶囊网络的评论文本情感分析分类方法,包括如下步骤:

步骤1:获取酒店评论数据集,并进行数据预处理,包括数据清洗,设置标签,保留情感语义词；

步骤2:对预处理后的评论文本使用word2vec进行词嵌入向量化建模,将文本转化为包含特征的词向量；

步骤3:对步骤2中所述文档词向量利用胶囊网络构建局部语义特征提取模型，进行局部语义特征提取，所述局部语义提取模型包括一层卷积层，两层胶囊层，卷积层通过卷积操作来提取各个位置的局部特征，胶囊层使用动态路由进行特征聚类；

步骤4:根据步骤3中输出的特征信息，构建LSTM模型，对步骤3中输出的文本特征向量进行上下文信息提取；

步骤5:通过softmax函数进行文本分类。

进一步地,所述步骤1中获取酒店评论数据集包括:

(1)获取要爬取数据的酒店ID；

(2)获取相应的COOKIE,HEADER参数；

(3)运行爬虫程序,数据自动保存在txt文件中。

进一步地,所述步骤1中数据预处理包括:

(1)过滤数据中的标点符号、emijo表情、英文字母、特殊字符；

(2)使用jieba分词对其进行分词,使用停词表去除无意义的词语；

(3)使用word2vec将文本转化为向量。

进一步地,所述步骤3中语义特征提取模型包括标准的卷积层、主胶囊层以及附胶囊层。标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征；卷积胶囊层将卷积操作中的标量输出替换为矢量输出,保留词向量的空间位置特征关系；主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入，最后通过动态路由算法来输出父胶囊。

进一步地,所述步骤3中局部语义特征提取模型进行特征提取的详细步骤包括:

1)标准的卷积层

该层卷积层通过卷积在文本的不同位置提取N-gram特征,若X为文本中的一条文本,其长度为L,词嵌入大小为V,即X的维度大小为L×V,X_i为文本X中的第i个词语,X_i的维度为V；设N-gram滑动大小为K₁,W^α为卷积运算操作的滤波器,则W^α的维度为K₁×V,滤波器每次移动的单词窗口为X_i至X_i+K1-1产生的特征为m^α,其维度为L-K₁+1,则每个单词特征m_i的特征如下:

其中，b₀为偏置项，f()为非线性激活函数，若有B个滤波器，即α＝1，2，...B，则所得的特征M的维度为(L-K₁+1)×B；

2)卷积胶囊层

设胶囊的维度为d,p_i为N-gram产生的实例化参数,M_i为每个滑动窗口的向量其维度B,W_b表示为不同的滑动窗口的共享滤波器,其维度为B×d；生成胶囊P的维度为(L-K₁+1)×d,则P_i的表示如下:

p_i＝g(W_bM_i+b₁)

其中，g()表示非线性压缩函数，b₁为胶囊的偏置项，对于所有的滤波器C来说，胶囊特征P可以表示为如下所述:

其中,P的维度为(L-K₁+1)×d×C

3)主胶囊层

主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入，最后通过动态路由算法来输出父胶囊。

进一步地，所述步骤3中改进的胶囊网络模型的具体内容包括：

1)改进了CapsuleNet的squash方法：

改进后的函数在胶囊模长很小时也能起到放大作用，而不像原来的函数那样全局都压缩，实验证明改进后的函数具有更优的性能。

2)改进了CasuleNet的dynamic-Routing方法：

初始化b_ij＝0

迭代r次：

c_j←leaky-softmax(b_i)；

v_j←squash(s_j)；

返回v_j。

改进后的dynamic-Routing方法使用leak-softmax()方法，以及使用

来更新b_ij，在模型训练时比原路由算法的准确率更高。

进一步地，所述步骤3中标准的卷积层采用滤波器为3×100,4×100,5×100大小滤波器各128个,进行卷积运算。

进一步地，所述步骤4中LSTM模型以将胶囊网络提取的局部特征作为输入，设置32层隐藏层，激活函数为sigmoid，通过隐藏层提取上下文信息。

进一步地，将LSTM层提取的上下文信息使用softmax函数进行分类。

有益效果:

本发明提供一种改进胶囊网络的CapsNet-LSTM混合模型进行评论文本情感分析分类,该方法首先改进了胶囊网络的squash方法和动态路由算法，使得改进后的胶囊网络具有更优越的性能，然后针对自然语言处理任务的特殊性设置了适合情感分析任务的CaspsNet-LSTM模型，实验证明，改进的动态路由算法在评论文本情感分析任务中比原有路由算法的准确率更高，与其他模型相比，CapsNet-LSTM模型的分类效果也比较好。

附图说明

图1为改进的胶囊网络用与文本分类模型结构图；

图2为CapsNet-LSTM混合模型框图；

图3为卷积操作工作原理示意图；

图4为LSTM模型图；

图5为基于改进的CapsNet-LSTM混合模型情感分析流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种基于改进胶囊网络的评论文本情感分析分类方法，包括如下步骤：

步骤1：使用预置配置信息爬虫获得评论文本数据并设定文本标签，进行数据预处理，去除噪声，保留具有语义特征的词汇。去除噪声主要包括：

(2)使用jieba分词工具对其进行分词；

(3)将所述文本数据使用停词表去除没有具体语义的停用词；

(4)将所述文本标签数据转化为数值型数据。

步骤2：对去除了噪声的文本数据进行文本建模，将文本数据中的词汇转化成词向量，本发明通过Word2vec将文本中的词汇转化成词向量，Word2vec将每个词映射到一个高维向量中，训练所得的向量可以表示词对词之间的关系。Word2Vec主要依赖词袋模型(Continues Bagof Words，CBOW)或跳字模型(Skip-gram)将不可计算的非结构化的文本词汇转化成可计算的结构化的高维实数向量。

通过Word2vec将文本中的词汇转化成词向量，设置文本预处理词向量维度为300，然后将词向量进行拼接，形成文档向量，如下所示：

其中，W_(i)表示词语，V(W_(i))表示词语对应的词向量。S_ij表示词向量矩阵，

表示词向量的拼接操作。

步骤3：对步骤2中词向量利用改进的胶囊网络构建局部语义特征提取模型，进行语义特征提取，语义特征提取模型包括一层卷积层和两层胶囊层，卷积层通过卷积操作来提取各个位置的局部特征，胶囊层使用动态路由操作对卷积层提取到的特征进行聚类耦合，输出特征的聚类中心。

语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层，标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征，卷积胶囊层将卷积操作中的标量输出替换为矢量输出，保留了词向量的空间位置特征关系，主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入，最后通过动态路由算法来输出父胶囊。

1)标准的卷积层

2)卷积胶囊层

p_i＝g(W_bM_i+b₁)

其中,P的维度为(L-K₁+1)×d×C。

3)主胶囊层

主胶囊层的胶囊维度与文本分类的词向量特征相关，每一层都代表了实体包含特征的概率，主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入，最后通过动态路由算法来输出父胶囊。

本发明中，卷积层采用滤波器为3×100，4×100，5×100大小滤波器各128个，进行卷积运算，通过卷积操作来提取各个位置的局部特征。

O_ij＝Conv(S_ij)

其中，O_ij表示Conv层的输出。使用动态路由代替池化操作，进行两次胶囊层的特征提取。

g_ij＝CapsNet(O_ij)

其中，g_ij表示CapsNet的输出。

步骤4:使用步骤3中CapsNet的输出构建LSTM模型，设置32层隐藏层，激活函数为sigmoid，提取上下文信息。

步骤5:将步骤4中LSTM层提取到的上下文信息softmax函数进行情感分类。

以下结合一个具体的酒店评论文本情感分析过程的例子来说明本发明基于改进的胶囊网络的CapsNet-LSTM模型进行情感分析的优势。实验采用的数据集为某网站上爬取的24000条酒店评论数据。

实验开发平台环境如下：操作系统为Ubuntu18.04.5 LTS 64位，CPU为Intel Corei5-7300HQ，GPU为GeForce GTX1050Ti，开发工具为PyCharm，开发语言为python，使用Keras框架。

词向量取300维，文本长度取固定长度300，选用Adam作为优化函数，损失函数使用Categorical_crossentropy。具体模型参数设置如表1所示。

表1.模型参数设置

参数	设置值
		词向量	300
文本长度	300
		LSTM隐藏层节点	32
CapsNet隐藏节点	64
		CapsNet节点个数	32
Loss	Categorical_crossentropy
		Optimzer	Adam
Batch_size	10
		Dropout	0.2

实验一共对比了5组模型，其中包括卷积神经网络(Convolutional NeuralNetwork，CNN)、LSTM、BiLSTM、CapsuleNetwork、和本文提出的CapsNet-LSTM模型。从准确率、精确率、召回率和F1值四个评价指标进行比较。实验结果如表2所示。

表2.粗粒度情感分析结果

模型	准确率	精确率	召回率	F1
					CNN	0.8933	0.8915	0.8921	0.8951
LSTM	0.9580	0.9533	0.9517	0.9521
					BiLSTM	0.9657	0.9681	0.9608	0.9621
CapsuleNetwork	0.9510	0.9503	0.9322	0.9461
					CapsNet-LSTM	0.9775	0.9712	0.9633	0.9

从表2中可知，本文提出的模型在进行粗粒度情感分析的实验时相对于其他模型在各项评价指标中都达到了最好的结果。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进胶囊网络的评论文本情感分类方法，其特征在于，包括如下步骤：

步骤1：使用爬虫技术获取评论数据并设置相对应的标签，进行数据清洗等预处理，去除噪声信息，保留具有情感语义特征等词汇；

步骤2：对步骤1中预处理后的评论文本数据进行词嵌入建模，形成词向量；

步骤3：对步骤2中所述文档词向量利用改进对胶囊网络构建局部语义特征提取模型，进行局部语义特征提取，所述局部语义特征提取模型包括一层卷积层、两层胶囊层，卷积层通过卷积操作来提取各个位置的局部特征，胶囊层使用动态路由进行特征聚类；

步骤4：构建LSTM模型，对所述步骤3中胶囊网络输出的文本向量进行上下文信息提取；

步骤5：通过softmax函数进行分本分类。

2.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析方法，其特征在于，所述步骤1中数据获取包括：

(1)酒店评论获取的相关技术；

(2)爬虫过程中所用到的相应配置信息。

3.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析方法，其特征在于，所述步骤1中数据预处理包括：

(1)数据清洗时删除掉数据中的标点符号、特殊字符、英文字母以及emoji表情；

(2)由于中文文本的特殊性，使用jieba分词工具进行分词，并且在哈工大停词表的基础上构建酒店行业相关的特殊停词表，在分词时使用；

(3)使用word2dev算法将预处理后的评论文本数据转化为包含文本特征的词向量模型。

4.根据权利要求1中所述基于改进的胶囊网络的酒店评论文本情感分析分类方法，其特征在于，包括标准的卷积层、卷积胶囊层以及主胶囊层，标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征；卷积胶囊层将卷积操作中的标量输出替换为矢量输出，保留词向量的空间位置特征关系；主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入，最后通过动态路由算法来输出父胶囊。

5.根据权利要求1中所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法，其特征在于改进了胶囊网络原有的squash方法，使其模长很接近于0时起到放大作用，而不像原来的函数那样全局都压缩，实验结果证明改进后的squash方法可以取得更高的效果。

6.根据权利要求1中所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法，其特征在于改进了胶囊网络(CapsNet)的动态路由(dynamic-Routing)方法，使其具有更优的性能。

7.根据权利要求4所述的基于改进胶囊网络的文本分类方法，其特征在于，所述局部语义特征提取模型进行特征提取的详细步骤包括：

(1)标准的卷积层

该层卷积层通过卷积在文本的不同位置提取N-gram特征，若X为文本中的一条文本，其长度为L，词嵌入大小为V，即X的维度大小为L×V，X_i为文本X中的第i个词语，X_i的维度为V；设N-gram滑动大小为K₁,W^a为卷积运算操作的滤波器，则W^a的维度为K₁×V,滤波器每次移动的单词窗口为X_i至

产生的特征为m^a，其维度为L-K₁+1,则每个单词特征m_i的表示如下：

其中，b₀为偏置项，f()为非线性激活函数，若有B个滤波器，即a＝l，2,...B，则所得的特征M的维度为(L-K₁+l)×B；

(2)卷积胶囊层

设胶囊的维度为d,p_i为N-gram产生的实例化参数，M_i为每个滑动窗口的向量其维度B,W_b表示为不同的滑动窗口的共享滤波器,其维度为B×d，生成胶囊P的维度为(L-K₁+1)×d,则p_i的表示如下：

p_i＝g(W_bM_i+b₁)

其中，g()表示非线性压缩函数，b₁为胶囊的偏置项，对于所有的滤波器C来说，胶囊特征P可以表示为如下所述：

其中，P的维度为(L-K₁+1)×d×C；

(3)主胶囊层

主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量，然后与耦合系数相乘得到胶囊层的总输入，最后通过动态路由算法来输出父胶囊。

8.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法，其特征在于，使用了32个胶囊来提取特征，每个胶囊的维度为64维。

9.根据权利要求1至5任一所述的基于改进胶囊网络的文本分类方法，其特征在于，所述LSTM模型以将局部语义特征提取模型的输出作为输入，设置隐藏层，激活函数为sigmoid，通过所述32层隐藏层提取文本的上下文信息。