CN114416969A

CN114416969A - 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统

Info

Publication number: CN114416969A
Application number: CN202111447487.4A
Authority: CN
Inventors: 孙钦东; 王开宇; 丁明凯
Original assignee: Sichuan Digital Economy Industry Development Research Institute; Xian Jiaotong University
Current assignee: Sichuan Digital Economy Industry Development Research Institute; Xian Jiaotong University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-29

Abstract

本发明公开了一种基于背景增强的LSTM‑CNN在线评论情感分类方法及系统，将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示，利用融合词性与位置信息的TF‑IDF算法提取新闻文本特征，使用卷积神经网络提取出评论文本的局部特征，将新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量，将评论文本作为语言背景，将其作为评论文本情感分析的特征，加入到情感分类模型中，提高了模型在不同背景下情感分析判断能力，使用TF‑IDF结合词性与位置信息进行新闻文本特征提取，融合特征向量然后进入全连接层分类训练得到新闻评论情感分类模型，能够提高新闻评论情感分类的准确率。

Description

一种基于背景增强的LSTM-CNN在线评论情感分类方法及系统

技术领域

本发明属于自然语言处理和深度学习领域，具体涉及一种基于背景增强的 LSTM-CNN在线评论情感分类方法及系统。

背景技术

随着信息科技的快速发展以及互联网普及率的持续提升，网络已经逐步成为大众日常生活中获取社会信息和参与社会热点讨论的主要方式，并且在经济政治社会生活中发挥着越来越重要的影响。2017年到2020年我国网络新闻的用户规模以及在网民总数中的占比都在逐渐增加，这充分体现了我国大多数网民愿意主动了解社会热点新闻，对于网络新闻事件的关注度越来越高，这说明了网民乐于对各种新闻表达自己的想法，对于参与网络话题的热情很高。互联网时代使得网络信息爆炸性增长，面对海量的在线评论数据进行研究具有重要的现实意义。

在当前网民拥有相对自由的话语权的环境下，舆情在网络新媒体中愈演愈烈，在新媒体平台上发布一条热点事件，短时间内就会产生成千上万的评论，公众畅所欲言，充斥着公正性、针对性、虚假性、煽动性、误导性等的多类型言论，如果不严格把控言论、了解民意，将会造成事件的恶化，舆论的激化。因此有效挖掘新闻在线评论，对于评论走向，舆情发展都有很重要的作用。

当前主流的在线评论情感分类方法包括基于情感词典的情感分类、基于传统机器学习的情感分类和基于深度学习的分类方法。前面两种情感分类方法需要较多的人工先验知识的辅助，通过提取大量人工特征和构建情感词典完成情感分类任务。虽然这两种方法处理效果较为理想，但过程繁琐。而基于深度学习的情感分类方法能够自动提取特征，处理过程简便，且情感分类效果更好，因此，越来越多的人采用基于深度学习的方法处理情感分类问题。新闻在线评论的内容具有迫切的现实意义，主要是针对当前重要的新闻事件和现实生活中的问题包括人民群众中的某些热点、难点问题发表意见。在线评论与群众紧密相连，反映了大众对于事件的要求和呼声，也代表群众的特点和需要。新闻评论往往含有对于某件事情的态度，不同于对产品发表的评论，新闻评论中的情感倾向往往需要依赖新闻文本作为背景来综合考虑，分析没有上下文的新闻评论的情感非常困难，很可能会误解句子的真正情感信息，并且某种程度上还会造成情感极性的误解，因此，急需一种能够快速准确实现评论情感分类的方法，将在线评论进行有效分类归结，了解事件动态发展。

发明内容

本发明的目的在于提供一种基于背景增强的LSTM-CNN在线评论情感分类方法及系统，以克服现有技术的不足。

一种基于背景增强的LSTM-CNN在线评论情感分类方法，包括以下步骤：

S1，采集新闻文本与其对应的在线评论文本并进行预处理；

S2，将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示；

S3，将预处理后的新闻文本作为新闻文本特征提取通道的输入，利用融合词性与位置信息的TF-IDF算法提取新闻文本特征；

S4，将在线评论文本的词向量表示作为评论特征提取通道的输入，利用长短期记忆网络提取在线评论文本的上下文时序特征，再使用卷积神经网络提取出评论文本的局部特征；

S5，将新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量，利用评论文本特征向量训练得到新闻评论情感分类模型，利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类。

进一步的，从新闻软件中爬取获得新闻文本与其对应的在线评论文本数据，对采集的新闻文本以及评论文本进行预处理，具体使用正则表达式清洗数据中的特殊字符，利用jieba分词工具对新闻文本与评论文本进行分词处理与词性标注，根据停用词词典对分词结果进行过滤。

进一步的，利用Word2vec工具对经过预处理的新闻的在线评论文本进行训练。

进一步的，采用CBOW语言模型获得词向量表示，将在线评论文本中的每个词转化为一个K维空间的稠密向量。

进一步的，根据新闻文本中词语的TF-IDF权重、词语词性权重和词语位置权重计算新闻文本中每个词语的权重，获得新闻文本特征向量表示。

进一步的，一个词的词性为名词或者动名词权重为1，如果是其他词性权重为0.5；新闻文本中词语位置权重：位置信息用词跨度表示，词跨度是指同一个词第一次出现和最后一次出现的距离，将词跨度进行归一化并转换成权重值。

进一步的，将新闻评论文本词向量表示作为长短时记忆网络的输入，利用长短时记忆网络较强的上下文特征提取能力捕捉在线评论文本的上下文语义信息，保留句子间的时序信息，加强文本内部之间的联系。

进一步的，利用评论文本特征向量训练得到新闻评论情感分类模型，将情感倾向分为积极和消极两种情况。

进一步的，将两种情感倾向中概率最大值所属的情感倾向当作本发明所提模型对新闻评论文本句子情感极性的预测结果；

y＝soft max(W^Tx+b)

y_i＝soft max(w_jx+b_j)

式中，x为全连接层的输入，W_n×k为权重，b为偏置项，y为softmax输出的概率。

一种在线评论情感分类系统，包括预处理模块，特征提取融合模块和分类模块；

预处理模块用于对采集的新闻文本与其对应的在线评论文本进行预处理，并将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示；

特征提取融合模块用于将预处理后的新闻文本作为新闻文本特征提取通道的输入，利用融合词性与位置信息的TF-IDF算法提取新闻文本特征；将在线评论文本的词向量表示作为评论特征提取通道的输入，利用长短期记忆网络提取在线评论文本的上下文时序特征，再使用卷积神经网络提取出评论文本的局部特征；

分类模块用于根据新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量，利用评论文本特征向量训练得到新闻评论情感分类模型，利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种基于背景增强的LSTM-CNN在线评论情感分类方法，通过采集新闻文本与其对应的在线评论文本并进行预处理，将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示，将预处理后的新闻文本作为新闻文本特征提取通道的输入，利用融合词性与位置信息的TF-IDF算法提取新闻文本特征，使用卷积神经网络提取出评论文本的局部特征，将新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量，将评论文本作为语言背景，并将其作为评论文本情感分析的特征，加入到情感分类模型中，从而提高了模型在不同背景下情感分析判断能力，使用TF-IDF结合词性与位置信息进行新闻文本特征提取，使用LSTM-CNN进行新闻评论特征提取，融合特征向量然后进入全连接层分类训练得到新闻评论情感分类模型，能够提高新闻评论情感分类的准确率。

进一步的，利用jieba分词工具对新闻文本与评论文本进行分词处理与词性标注，根据停用词词典对分词结果进行过滤，完成去停用词操作，再对评论数据集进行情感标注，为避免个人主观理解造成的标记偏差问题。

附图说明

图1为本发明具体实施方式中的分类方法的流程图。

图2为本发明具体实施方式中分类模型的结构图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1所示，一种基于背景增强的LSTM-CNN在线评论情感分类方法，包括以下步骤：

S1，采集新闻文本与其对应的在线评论文本并进行预处理；

S2，利用Word2vec工具将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示；

S3，构造新闻文本特征提取通道：将预处理后的新闻文本作为新闻文本特征提取通道的输入，利用融合词性与位置信息的TF-IDF算法提取新闻文本特征；

S4，构造在线评论文本特征提取通道：将在线评论文本的词向量表示作为评论特征提取通道的输入，利用长短期记忆网络提取在线评论文本的上下文时序特征，再使用卷积神经网络提取出评论文本的局部特征；

S5，将新闻文本特征提取通道所得的新闻文本特征C1与在线评论文本特征提取通道所得的评论文本特征C2拼接在一起，然后得到基于背景增强的评论文本特征向量C，利用评论文本特征向量C训练得到新闻评论情感分类模型，利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类。

具体的，新闻文本与其对应的在线评论文本的获取与预处理。具体包括以下步骤：

步骤1.1)、首先设计python爬虫程序从新闻软件中爬取数据，新闻软件采用新浪微博，百度或今日头条；数据分为两部分内容，第一部分为新浪微博新闻文本，第二部分为新浪微博新闻对应的评论文本，两部分内容存储在 mysql数据库的两个表中，利用新闻ID作为两个表的连接。

步骤1.2)、对采集的新闻文本以及评论文本进行预处理，具体使用正则表达式清洗数据中的特殊字符，诸如@\[]以及标点符号等字符，这些字符对于情感倾向的判断无任何实际意义。

步骤1.3)、利用jieba分词工具对新闻文本与评论文本进行分词处理与词性标注，根据停用词词典对分词结果进行过滤；统计评论文本长度，通过扩充或截断确保评论文本句长的统一。

利用Word2vec工具对经过预处理的新闻的在线评论文本进行训练，本发明使用CBOW语言模型获得词向量表示，将在线评论文本中的每个词转化为一个K维空间的稠密向量。

构造新闻文本特征提取通道：将预处理后的新闻文本作为新闻文本特征提取通道的输入，利用融合词性与位置信息的TF-IDF算法提取新闻文本特征。具体包括以下步骤：

步骤3.1)、根据新闻文本中词语的TF-IDF权重、词语词性权重和词语位置权重计算新闻文本中每个词语的权重，获得新闻文本特征向量表示。

具体的，采用TF-IDF方法获取新闻文本中词语的TF-IDF权重；

词语词性权重的设置，在本申请中，一个词的词性为名词或者动名词权重为1，如果是其他词性权重为0.5；

新闻文本中词语位置权重：位置信息用词跨度表示，词跨度是指同一个词第一次出现和最后一次出现的距离，将词跨度进行归一化并转换成权重值，来判断这个词对文档的重要性。

步骤4、构造在线评论文本特征提取通道，将评论文本的词进行向量表示。

为评论特征提取通道的输入，首先利用长短期记忆网络提取在线评论文本的上下文时序特征；再使用卷积神经网络提取出评论文本的局部特征。具体包括以下步骤：

步骤4.1)、将新闻评论文本词向量表示作为长短时记忆网络的输入，利用长短时记忆网络较强的上下文特征提取能力捕捉在线评论文本的上下文语义信息，保留句子间的时序信息，加强文本内部之间的联系。长短时记忆网络(LSTM) 包含3个门：输入门、遗忘门、输出门，它们用来控制网络中信息的传递与保留。LSTM模型的计算公式可以表示为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

a_t＝tanh(W_C·[h_t-1，x_t]+b_C)

C_t＝f_t*C_t-1+i_t*a_t

O_t＝σ(W_o[h_t-1，x_t]+b_o)

h_i＝O_t*tanh(C_t)

式中，C_t代表t时刻记忆单元的输出，σ(·)代表sigmoid激活函数，t表示当前所处的时刻，t-1表示上一个时刻，i_t表示t时刻长短时记忆网络输入门的输出，o_t表示t时刻长短时记忆网络输出门的输出，f_t表示t时刻长短时记忆网络遗忘门的输出。

步骤4.2)、将LSTM层输出的新编码的向量作为卷积神经网络的输入，通过不同size的多个filter进行卷积操作，提取不同的特征向量c_i，然后通过最大池化层筛选最大的特征

然后将这些最大值拼接成一个特征向量z，最后将不同窗口的特征向量拼接，得到卷积层的输出向量Z。

c_i＝f(w·x_i：i+h-1+b)

C＝[c₁，c₂，...c_n-h+1]

Z＝(z₁，z₂，z₃)

式中，x_ii+h-1代表由输入矩阵的第i行到第i+h-1行所组成的一个大小为 h×k的窗口，由x_i、x_i+1、...、x_i+h-1拼接而成。h表示窗口中的单词数，w为 h×k维的权重矩阵(因此一个filter需要学习的参数个数是hk个)，b为偏置参数，f为非线性激活函数Relu。

步骤4.3)、将池化层输出的结果作为Flatten层的输入，将输入作“压平” 操作，即把多维的输入一维化。

步骤5、将新闻文本特征提取通道所得的新闻文本特征C₁与在线评论文本特征提取通道所得的评论文本特征C₂拼接在一起，然后得到基于背景增强的评论文本特征向量C：

C＝(C₁，C₂)

利用评论文本特征向量C训练得到新闻评论情感分类模型，利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类，具体包括以下步骤：

步骤5.1)、以评论文本特征向量为训练集，通过Dropout层，在神经网络的传播过程中，让某个神经元以一定的概率停止工作，从而增加模型的泛化能力；

步骤5.2)、通过全连接层，使用Softmax激活函数输出每个类别的概率，同时为了防止过拟合，加一个L2正则，得到评论文本中每个句子对应的情感倾向的概率分布，本发明针对2分类的情感分类任务，将情感倾向分为积极和消极两种情况。

步骤5.3)、将两种情感倾向中概率最大值所属的情感倾向当作本发明所提模型对新闻评论文本句子情感极性的预测结果。

y＝soft max(W^Tx+b)

y_i＝soft max(w_jx+b_j)

如图2所示，一种在线评论情感分类系统，包括预处理模块，特征提取融合模块和分类模块；

本发明所提的一种基于背景增强的LSTM-CNN在线评论情感分类方法将交叉熵当做损失函数，Adam当作优化器。若假设y代表评论文本句子情感倾向的实际概率分布，y代表本发明所提方法预测的评论文本句子情感倾向的概率分布。本发明所提方法的训练目标是竭尽所能地减少评论文本句子情感倾向的实际概率分布y和利用本发明所提的一种基于背景增强的LSTM-CNN 在线评论情感分类方法进行预测所得的评论文本句子情感倾向分布y之间的交叉熵损失。

本实例选取人民日报和央视新闻两大微博用户，它们作为具有影响力的两大媒体，新闻发布量大，用户关注度高，拥有大量的评论。采集该两大媒体的 1000条新闻事件，以及对应的各10条在线评论数据，一共1万条在线评论数据集，数据集按6:2:2的比例分为训练集、验证集和测试集，使用一种基于背景增强的LSTM-CNN在线评论情感分类方法对文本情感进行分析，具体步骤如下所示：

1.对采集的新闻文本以及对应评论文本数据集通过正则表达式清洗数据，去除特殊无用的字符，然后使用jieba分词工具对文本语料进行分词处理以及词性标注，并利用哈工大停用词表对语料中没有意义的词语过滤掉，

2.完成去停用词操作，再对评论数据集进行情感标注，为避免个人主观理解造成的标记偏差问题，邀请了三位同学对本文所收集到的真实新闻评论数据集分别进行分类打标，当三位同学意见一致后确定对评论文本的初步打标结果；

3.对评论文本数据集进行统计，通过截断或补充确定句长。然后将在线评论文本表示为特征向量化形式，使用CBOW语言模型获得词向量表示，将语料中的每个词转化为一个200维空间的稠密向量；

4.利用结合词性与位置信息的TF-IDF方法计算新闻文本中每个词的权重，构造新闻文本的特征向量。

5.利用由长短时记忆网络与卷积神经网络组成的混合神经网络对评论文本语料进行特征学习，得到多层次的特征向量。其中，长短时记忆网络隐藏层的神经元个数设置为200，保证输入到卷积神经网络的词向量维度也为 200；卷积神经网络的卷积核大小设置为2,3,4，个数设置为128，Dropout 率设置为0.5，防止过拟合情况出现。

6.将两个通道所得到的特征进行合并，最终进入全连接层使用softmax 函数进行分类，得到实验结果。为验证本发明所提的基于背景增强的 LSTM-CNN在线评论情感分类方法的优越性，对相同数据集设置了4组对比实验，比较准确率、召回率、F1值，结果如下表所示。

从表中可以看出，本发明所提方法的精确率对于新闻在线评论数据集最高，达到了89.3714％，对情感分类结果具有较好的解释性。

本发明一种基于背景增强的LSTM-CNN在线评论情感分类方法，将评论的相关新闻或帖子作为其背景，并将其作为评论文本情感分析的特征，加入到情感分类模型中，从而提高了模型在不同背景下情感分析判断能力。使用 TF-IDF结合词性与位置信息进行新闻文本特征提取，使用LSTM-CNN进行新闻评论特征提取，融合特征向量然后进入全连接层分类训练得到新闻评论情感分类模型，通过实验对比分析，本发明提出的模型对于新闻评论情感分类具有较高的准确率。

Claims

1.一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，包括以下步骤：

S1，采集新闻文本与其对应的在线评论文本并进行预处理；

2.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，从新闻软件中爬取获得新闻文本与其对应的在线评论文本数据，对采集的新闻文本以及评论文本进行预处理，具体使用正则表达式清洗数据中的特殊字符，利用jieba分词工具对新闻文本与评论文本进行分词处理与词性标注，根据停用词词典对分词结果进行过滤。

3.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，利用Word2vec工具对经过预处理的新闻的在线评论文本进行训练。

4.根据权利要求3所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，采用CBOW语言模型获得词向量表示，将在线评论文本中的每个词转化为一个K维空间的稠密向量。

5.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，根据新闻文本中词语的TF-IDF权重、词语词性权重和词语位置权重计算新闻文本中每个词语的权重，获得新闻文本特征向量表示。

6.根据权利要求5所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，一个词的词性为名词或者动名词权重为1，如果是其他词性权重为0.5；新闻文本中词语位置权重：位置信息用词跨度表示，词跨度是指同一个词第一次出现和最后一次出现的距离，将词跨度进行归一化并转换成权重值。

7.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，将新闻评论文本词向量表示作为长短时记忆网络的输入，利用长短时记忆网络较强的上下文特征提取能力捕捉在线评论文本的上下文语义信息，保留句子间的时序信息，加强文本内部之间的联系。

8.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，利用评论文本特征向量训练得到新闻评论情感分类模型，将情感倾向分为积极和消极两种情况。

9.根据权利要求8所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法，其特征在于，将两种情感倾向中概率最大值所属的情感倾向当作本发明所提模型对新闻评论文本句子情感极性的预测结果；

y＝soft max(W^Tx+b)

y_i＝soft max(w_jx+b_j)

10.一种基于权利要求1所述方法的在线评论情感分类系统，其特征在于，包括预处理模块，特征提取融合模块和分类模块；