CN111523319B

CN111523319B - 基于情景lstm结构网络的微博情感分析方法

Info

Publication number: CN111523319B
Application number: CN202010281342.0A
Authority: CN
Inventors: 赵一; 沈金伟; 段兴
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2023-06-30
Anticipated expiration: 2040-04-10
Also published as: CN111523319A

Abstract

本发明提供一种基于情景LSTM结构网络的微博情感分析方法，所述方法包括如下步骤：基于LSTM模型，加入主题转移参数生成主题转移LSTM模型，所述主题转移参数用于在记忆细胞中的状态值中提取真正主题；所述主题转移LSTM模型中，词从底部输入LSTM输入层，经过普通的词向量和副词向量，然后联合成主题转移后的句向量，然后通过LSTM模型中的cell计算出每个词向量的输出向量，并通过Softmax层输出，最后进行主题情感分类；基于LSTM主题转移模型，在计算每个词向量时使其不仅与词语的语义信息相关也与它的情感信息关联，从而得到基于主题转移和极性转移的LSTM模型；通过基于主题转移和极性转移的LSTM模型输出情感倾向预测概率。本方法能够在微博情感分析中起到良好效果。

Description

基于情景LSTM结构网络的微博情感分析方法

技术领域

本发明主要涉及大数据分析相关技术领域，具体是一种基于情景 LSTM结构网络的微博情感分析方法。

背景技术

目前，每天在腾讯微博、Twitter、Facebook、Stack overflow等社交网络各类热点话题互相交流，大量的个人情感信息被汇集到一起，如果能分析出用户的情感偏好等信息，就能将这些数据转化为财富。近年来 RNN、LSTM等神经网络的算法在语言模型建立、手写文字生成、文本特征学习和文本情感分析方向上名声大振。传统文本建模主要有两种：词袋模型(bag-of-words model)、序列化模型(sequence model)。微博评论是以自然语言描述的非结构化文本，由于自然语言与机器语言之间有词汇鸿沟，导致使用计算机直接处理和分析非结构化文本的效率较低。

在自然语言处理中，词袋模型和序列化模型存在着以下缺点：1.获取文本的特征是无序的，忽略语法和单词的顺序，传统基于词袋的建模的算法有贝叶斯模型、LDA、SVM、K-means，虽然模型简单，可解释性强，同时该此类模型的缺点也十分明显，因为它们忽略了文本语义，所以很难获取文本深层的语义信息。2.序列化模型则将文本看作是有序的词语序列，此模型考虑了文本的有序性以及词语间的关联性可学习到词袋模型无法学到的语义信息，如word2vec模型，一种简单的三层神经网络结构，虽然考虑了单词上下文的词序关系，但没法考虑句子之间的关系。

想要准确表达非结构化文本中的情感信息，目前文本结构化技术大多采用基于规则的处理方式，然而由于微博评论中相同单词的句子，由于句式组成不同所表达的情感却是完全不一样，所以若想制定出一种适合所有微博情感的结构化规则十分困难。

针对上述长句型近年来不少研究者都提出了不少改进建模方法，其中被证明比较有效的方法是RNN方法和LSTM-RNN方法，并证明了在一定程度上解决了剃度消失问题，然而上面的两种方法都存在着少许的缺陷，比如RNN递归神经网络，它理论上是可以利用任意长的序列信息，但实际上只能回馈一定的时间步错误信号，并不能传递到足够远的过去；LSTM-RNN算法虽然加强了长程依赖问题，但此模型还是一种链式网络并不能利用文本的结构化信息。

发明内容

为解决目前技术的不足，本发明结合现有技术，从实际应用出发，提供一种基于情景LSTM结构网络的微博情感分析方法，其能够在微博情感分析中起到良好效果。

为实现上述目的，本发明的技术方案如下：

基于情景LSTM结构网络的微博情感分析方法，所述方法包括如下步骤：

S1、基于LSTM模型，加入主题转移参数生成主题转移LSTM模型，所述主题转移参数用于在记忆细胞中的状态值中提取真正主题；

所述主题转移LSTM模型中，词从底部输入LSTM输入层，经过普通的词向量和副词向量，然后联合成主题转移后的句向量，然后通过LSTM模型中的cell计算出每个词向量的输出向量，并通过Softmax 层输出，最后进行主题情感分类；

S2、基于LSTM主题转移模型，在计算每个词向量时使其不仅与词语的语义信息相关也与它的情感信息关联，从而得到基于主题转移和极性转移的LSTM模型；

S3、通过基于主题转移和极性转移的LSTM模型输出情感倾向预测概率。

进一步的，所述LSTM模型包括CEC系统、遗忘门、输入门、输出门、记忆细胞以及当前隐藏层输出，其中，通过遗忘门对CEC系统的状态值进行控制，其对应公式为：

遗忘门：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (1)

输入门：

i_t＝σ(W_xi+W_hih_t-1+W_cic_t-1+b_i) (2)

输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (3)

记忆细胞：

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (4)

当前隐藏层输出：

h_t＝o_ttanh(c_t) (5)

其中，b为偏执项，σ是一个sigmoid激活函数，上述遗忘门和记忆细胞允许LSTM模块自适应地遗忘和记忆内容，控制着多少先前网络内的信息会被保留。

进一步的，步骤S1中，所述基于LSTM模型，加入主题转移参数生成主题转移LSTM模型，具体步骤包括：

S11、当信息传入遗忘门时，选择遗忘过去某些信息，当遇到特定副词信息，则进行主题确认，其中Adv为副词状态值，对应公式为：

f_t＝σ(W_xfx_t+W_cfc_t-1+W_cfc_t-1+b_f+W_TfT_t-1·Adv) (6)；

S12、记忆现在的某些信息，对应公式为：

i_t＝σ(W_xi+W_hih_t-1+W_cic_t-1+b_i+W_TiT_t-1·Adv) (7)

S13、将过去与现在的记忆进行合并，对应公式为：

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c+W_ciT_t-1·Adv) (8)

S14、信息经过输出门，对应公式为：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o+W_ToT_t-1·Adv) (9)

上述，W_TfT_t-1·Adv、W_TiT_t-1·Adv、W_ciT_t-1·Adv、W_ToT_t-1·Adv分别表示信息经过遗忘门、输入门、记忆细胞、输出门时，对前一时刻的信息做判断，如果是对应列表中出现的副词则Adv状态值取1，否则，取0，取1时出现主题转移，重新开始计算。

进一步的，步骤S2中，加入当前词为副词，如果是强调副词则取值为正数m，若为否定副词取值为负数n，转折副词的取值为前面副词极性相反，这样就形成了新的公式：

h_t＝o_ttanh(c_t) (14)

通过上述公式，能够对每个主题转移且极性也转移的词进行准确感知

通过反馈网络就可以使得/>

捕获到对应的情感极性的主题极性转移模型，其中*＝t,i,c,o。

进一步的，步骤S3中，将整条微博视作一个整体输入，分析其内在的情感转移逻辑和最终的情感倾向；再加上对微博主题倾向的逻辑划分，形成细粒度的微博情感模型。

进一步的，步骤S3中，对于每个词向量x，r_x是每个词向量x通过基于主题转移和极性转移的LSTM模型训练得到特征向量表示 Softmax回归的输入得到的情感标签，r_x是基于主题转移和极性转移的 LSTM模型的输入偏置向量，设y是词x对应的情感，则词x的情感极性为Pr(x_t+1|r_t)的概率为：

上述公式表示如果该条微博评论输入向量x_t经过k个层，则第k 层在时间t进行情感标签分类，每个x_t对应一个情感标签预测值r_t。

本发明的有益效果：

本发明引入情景到LSTM模型中，为长句子的情感预测提供了主题环境，可以分析出长句子的主旨段落，为分析长句子要表达的主要情感提供了依据；构建情感极性转移、并列和递进模型，从而更好地利用文本上下文信息、结构化信息和情感语义信息来解决文本长句子分析这一问题。实验证明，本发明通过在LSTM模型上修改和添加了主题转移和极性转移模型，在中文微博情感分析上取得了良好的效果，这种模型是基于传统的LSTM模型框架添加主题转移参数和词性转移参数，使得 LSTM网络功能更加完善。

附图说明

图1为本发明LSTM模型内部结构图。

图2为本发明主体转移的LSTM模型结构图。

图3为本发明基于主题转移和极性转移的LSTM模型结构图。

图4为本发明各种方法对应不同主题-情感转移的平均准确率。

图5为本发明各种方法对应不同主题-情感转移的平均召回率。

图6为本发明各种方法对应不同主题-情感转移的平均F率。

具体实施方式

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

本发明所提供的微博情感分析方法是通过在LSTM模型上修改和添加了主题转移和极性转移模型，在中文微博情感分析上取得了不错的效果。这种模型是基于传统的LSTM模型框架添加主题转移参数和词性转移参数，使得LSTM网络功能更加完善。

针对具有主题和极性转移的长句子，LSTM神经网络可以学习到不同长度、句法结构的特征表示，LSTM为了克服剃度消失问题，先假设仅仅只有一个神经元与自己连接，即t时刻到t+1时刻，权值为ω_ij。根据误差信号计算如下：

如果令 f_j(x)＝x,ω_ij＝1.0,就可以获得常数误差流，称为CEC。LSTM模型中最重要的就是Constant Error Carousel系统，它解决了RNN训练时的剃度消失和剃度爆炸问题，但是LSTM结构的缺点就是CEC的状态值是一条y＝x的直线表示该神经元的激活函数是线性的，自连接权重为1.0，所以可能会一直增大下去，所以这里使用了遗忘门(forget gate)对CEC的状态值进行控制。其结构如图1:

其中遗忘门(forget gate)：选择忘记过去某些信息：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (1)

输入门(input gate):

i_t＝σ(W_xi+W_hih_t-1+W_cic_t-1+b_i) (2)

输出门(output gate):

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (3)

记忆细胞(cell memory):

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (4)

当前隐藏层输出：

h_t＝o_ttanh(c_t) (5)

b为偏执项，σ是一个sigmoid激活函数。上述遗忘门和记忆细胞允许LSTM单元自适应地遗忘和记忆内容，控制着多少先前网络内的信息会被保留。

本发明在原有LSTM模型中加入主题转移参数，该参数的作用是要在记忆细胞中的状态值中提取真正主题，T是主题topic。具体步骤：

当信息传入遗忘门时，选择遗忘过去某些信息，这里遇到特定副词信息，则进行主题确认。Adv为副词状态值。

f_t＝σ(W_xfx_t+W_cfc_t-1+W_cfc_t-1+b_f+W_TfT_t-1·Adv) (6)；

记忆现在的某些信息：

i_t＝σ(W_xi+W_hih_t-1+W_cic_t-1+b_i+W_TiT_t-1·Adv) (7)

将过去与现在的记忆进行合并：

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c+W_ciT_t-1·Adv) (8)

信息经过输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o+W_ToT_t-1·Adv) (9)

其中以参数W_TfT_t-1·Adv为例，它表示信息进过遗忘门时，对前一时刻的信息做判断，如果是对应列表(表1)中出现的副词则Adv 状态值取1，若没有出现表1中副词，则取0，取1时出现主题转移，重新开始计算。

转折副词表如下表1所示：

表1副词表

其中长句中出现了表1的转折副词，adv值取1，若是没有出现或者出现的是其他副词的情况则adv取值为0.5，因为1代表主题转移， 0代表主题无关，0.5代表副词影响因子。通过上面公式6到9可以设计出图2所示的主题转移LSTM模型，词从底部输入LSTM输入层，经过普通的词向量和副词向量，然后联合成主题转移后的句向量，然后通过LSTM中的cell计算出每个词向量的输出向量，并通过Softmax 层输出，最后进行主题情感分类。

完成了主题转移模型后，第二步是要实现极性转移，在中文语言中，极性转移对于文本情感分析是一个极大的挑战。句子中的一些否定词、程度副词等的使用都可能会使得句子的极性发生偏转。通过对极性转移现象进行研究分析，将其分为三类，本发明根据其研究列出分类如下(表2)

表2副词表例子

由表2可以看出，情感极性转移大致可以分为三类：强调、否定和转折。但其实这种情感极性转移现象是和前后词本身的情感极性密切相关的。本发明针对这种语言现象对LSTM主题转移模型进行进一步的优化，在计算每个词向量时使其不仅与词语的语义信息相关也与它的情感信息关联，从而得到基于主题转移和极性转移的模型 TPLSTM(topicpolarity LSTM),假定文本情感标签为 P_o＝{Negative,Positive}，加入当前词为副词，如果是强调副词则取值为正数m，若为否定副词取值为负数n，转折副词的取值为前面副词极性相反，这样就形成了新的公式：

h_t＝o_ttanh(c_t) (14)

这样的公式能够对每个主题转移且极性也转移的词进行准确感知

通过反馈网络就可以使得/>

捕获到对应的情感极性的主题极性转移模型。

TPLSTM模型在情感分析中的应用：

比如例句：“莎士比亚的诗歌影响了欧美文学，不过本发明今天要谈论的是美国浪漫主义思潮时期先驱爱伦坡，他对于欧美文学有极大的贡献”。如何对上述主题转移的句子进行建模，与英文相比，中文的语法不够严谨，而网络中微博语言具有随意性，使得依据细致的语法分析进行句子的倾向性分析比较困难。为此，考虑放弃建立复杂的语法模型，而对句子的内部构造进行整合。目前的研究多是将整条微博当成一个句子进行处理，所以可以将整条微博视作一个整体输入，探讨其内在的情感转移逻辑和最终的情感倾向；再加上对微博主题倾向的逻辑划分，形成细粒度的微博情感模型。以一条微博为例，其情感分析的框架结构如图3所示：

其中r_x是每个词向量x通过TPLSTM模型训练得到特征向量表示 Softmax回归的输入得到的情感标签，r_x是TPLSTM的输入偏置向量。设 y是词x对应的情感，则词x的情感极性为Pr(x_t+1|r_t)的概率为:

公式含义为如果该条微博评论输入向量x_t经过k个层，则第k层在时间t进行情感标签分类，每个x_t对应一个情感标签预测值r_t。而计算序列损失函数，本发明以负对数的形式来训练网络：

这样可以快速计算反向传播，这样可以使用剃度下降来训练反馈网络。

模型的算法描述如下所示：

针对本发明所提出的微博情感分析方法，本发明实施例提供了相应的实验方法和结果分析。其具体包括：

为了验证模型的有效性，本发明选用豆瓣评论和淘宝用户真实评论，该数据集的标签分为三类好评(negative)、中评(neutral)、差评 (positive),共有22107个句子，平均每个句子包含由30个词语组成，选择其中有主题和极性转移的句子10872句，因为是从主流社交评论网站爬取的数据集，所以句子本身已经被标注了情感，这里就有了标准集。数据集真实情感分配为：正面10109条，占比例45.7％；负面 10028条，占比例45.3％；中评为1970条，占比例9％。

在预处理阶段由于用户评论的随意性，存在很多噪声词，比如表情符号、语气助词等，为此本发明使用了去除噪声数据的决策进行数据处理，首先根据剪裁策略中制定的字符去除特殊字符，随后利用停用词词典去除停用词，从而规范模板中文字的表述；同时利用同义词词典修正错误表述，同时配合人工校正方式删除结构化结果的多余信息，从而除去噪声数据。这里本发明选用了ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System)分词系统对已经预处理的文档进行分词；然后使用谷歌的word2vec工具对完成分词的文档进行词向量转换处理；生成词向量表示的词语；在生成了词向量后本发明开始用python与Anaconda2构建LSTM神经网络，使用神经网络工具包Keras，具体参数设置步骤为：

(1)设置词向量(word embedding)的维数和隐藏层的维数，使用默认值。

(2)设置参数U的正则权重，U为隐藏层h_t到输出层的参数。

(3)随机剃度下降使用固定学习速率0.5，训练周期为10，并设置迭代次数为1000。

(4)当梯度规模超过临界值10，进行梯度裁剪。

(5)设置词典规模模型训练中使用单独GPU(Tesla K80m,GK1024b),处理速度每秒1000-1500条微博。

结果分析：

为了能够更好地获取统计信息，本发明从两个数据集中选取了符合要求的主题和情感极性转移的句子，根据准确率和召回率，这种广泛用于信息检索和统计学分类领域的度量值，它常用于评价结果的质量。本发明实验中，准确率表示在所有主题和极性转移句子中，检索出来的句子有多少是准确的，其计算公式如下：

准确率表示在所有主题和极性转移句子中，所有准确的句子有多少被检索出来，其计算公式如下：/>

F值是准确率和召回率的调和平均值，可以综合反映本发明改进 TPLSTM方法查找结果的好坏计算公式如下：/>

本实施例将提出的模型与其他研究者提出的模型进行同一数据集上的对比并分析其产生实验结果提高的原因，我们通过本文算法先找到真正主题，并确定中心词，然后使用剃度下降的方法来最小化损失函数L(x)，根据参数的调整来优化损失函数。从表3中得到，本文改进方法和其他研究者改进LSTM以及根据斯坦福情感库资料进行对比，其中Binary为情感两分类准确率，Four-grained为四分类准确率， Five-grained为五分类准确率。表2中二分类准确率平均有80％以上的准确度，但是在四分类和五分类时，准确率就会下降，而且下降的非常明显，五分类时准确率约为40％，而七分类时准确率会很低，表示神经网络深度学习的方法和有监督学习的机器学习方法一样会随着类别增多准确率降低，表中LSTM算法比RNN和CNN算法要准确，RNN 算法效果是最低的，主要原因是RNN有记忆遗忘问题，记忆无法传递很远；CNN虽然也能解决词向量的上下关联问题，但是也没办法理解长句子；所以LSTM的准确率要高。

表3不同算法在多分类上对比

同样，本文要验证神经网路的深度，这里选取3层神经网络进行处理。其中关于主题转移情况的召回率：

表4不同算法在多分类上对比

从表4中可以看出，在不同微博不同领域的长句中应用本文算法都能得到比较满意的结果，其中电影评论和淘宝评论，因为主题有指定范围，所以准确率较高分别为86.9和93.3，其他类别的微博内容则因为主题设计范围广，因此准确率相对低。情感转移准确率在各种类别中相对稳定。

综合上所述，可以得到图4～图6相关对比图形，可知，本发明应用于微博情感分析中，具有良好的效果。

Claims

1.基于情景LSTM结构网络的微博情感分析方法，其特征在于，所述方法包括如下步骤：

所述主题转移LSTM模型中，词从底部输入LSTM输入层，经过普通的词向量和副词向量，然后联合成主题转移后的句向量，然后通过LSTM模型中的cell计算出每个词向量的输出向量，并通过Softmax层输出，最后进行主题情感分类；

S3、通过基于主题转移和极性转移的LSTM模型输出情感倾向预测概率；

所述LSTM模型包括CEC系统、遗忘门、输入门、输出门、记忆细胞以及当前隐藏层输出，其中，通过遗忘门对CEC系统的状态值进行控制，其对应公式为：

遗忘门：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (1)

输入门：

i_t＝σ(W_xi+W_hih_t-1+W_cic_t-1+b_i) (2)

输出门：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (3)

记忆细胞：

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (4)

当前隐藏层输出：

h_t＝o_ttanh(c_t) (5)

其中，b为偏执项，σ是一个sigmoid激活函数，上述遗忘门和记忆细胞允许LSTM模块自适应地遗忘和记忆内容，控制着多少先前网络内的信息会被保留；W_xfx_t表示当前时刻神经元的状态，W_hfh_t-1表示上一时刻神经元的状态；W_cfc_t-1表示上一时刻神经元的Cell state状态C_t-1；W_xi表示当前状态输入；W_hih_t-1表示上一时刻神经元的输入；W_cic_t-1表示上一时刻神经元的Cell stated的输入C_t-1，W_xox_t表示当前状态输出，W_hoh_t-1表示上一时刻神经元的输出，W_coc_t表示当前状态cell state输出，W_xcx_t表示当前cell state状态；W_hch_t-1存储每一个LSTMcell的输出结果；

步骤S1中，所述基于LSTM模型，加入主题转移参数生成主题转移LSTM模型，具体步骤包括：

f_t＝σ(W_xfx_t+W_cfc_t-1+W_cfc_t-1+b_f+W_TfT_t-1·Adv) (6)；

S12、记忆现在的某些信息，对应公式为：

i_t＝σ(W_xi+W_hih_t-1+W_cic_t-1+b_i+W_TiT_t-1·Adv) (7)

S13、将过去与现在的记忆进行合并，对应公式为：

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c+W_ciT_t-1·Adv) (8)

S14、信息经过输出门，对应公式为：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o+W_ToT_t-1·Adv) (9)

2.根据权利要求1所述的基于情景LSTM结构网络的微博情感分析方法，其特征在于，步骤S2中，加入当前词为副词，如果是强调副词则取值为正数m，若为否定副词取值为负数n，转折副词的取值为前面副词极性相反，这样就形成了新的公式：

h_t＝o_ttanh(c_t) (14)

通过反馈网络就可以使得/>

捕获到对应的情感极性的主题极性转移模型，其中*＝t，i，c，o。

3.根据权利要求2所述的基于情景LSTM结构网络的微博情感分析方法，其特征在于，步骤S3中，将整条微博视作一个整体输入，分析其内在的情感转移逻辑和最终的情感倾向；再加上对微博主题倾向的逻辑划分，形成细粒度的微博情感模型。

4.根据权利要求3所述的基于情景LSTM结构网络的微博情感分析方法，其特征在于，步骤S3中，对于每个词向量x，r_x是每个词向量x通过基于主题转移和极性转移的LSTM模型训练得到特征向量表示Softmax回归的输入得到的情感标签，r_x是基于主题转移和极性转移的LSTM模型的输入偏置向量，设y是词x对应的情感，则词x的情感极性为Pr(x_t+1|r_t)的概率为：

上述公式表示如果该条微博评论输入向量x_t经过k个层，则第k层在时间t进行情感标签分类，每个x_t对应一个情感标签预测值r_t；

x_t(h_i，k)为该条微博评论输入当前词向量x_t经过k层，则第k层在时间t时的情感标签分类；

x_t+1(h_i，k)为该条微博评论输入下一个词向量x_t+1经过k层，则第k层在时间t+1时的情感标签分类。