CN111143549A

CN111143549A - 一种基于主题的舆情情感演化的方法

Info

Publication number: CN111143549A
Application number: CN201910536657.2A
Authority: CN
Inventors: 夏小玲; 石秀金; 王绍宇; 吴永博
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2020-05-12

Abstract

本发明提供一种基于主题的舆情情感演化的方法，涉及自然语言处理领域。该方法主要步骤：利用爬虫技术从网络上获取舆情语料数据；对语言数据的预处理；对预料信息进行词向量训练并且判断出词向量间相似度，并且进行离散的时间片划分；通过计算不同时间片内舆情的话题热度以及话题相对熵等度量指标，判断舆情热点热度变化以及相邻时间片内的舆情主题内容相关性；结合舆情信息的特点，将舆情主题作为增强特征，与文本特征结合起来输入到联合深度神经网络模型中进行情感分类；根据舆情话题演化模型获得的热点话题，对各热点话题不同评价对象的情感倾向进行抽取；对不同时间片内热点话题各评论对象的情感倾向进行对比分析。

Description

一种基于主题的舆情情感演化的方法

技术领域

本发明涉及一种基于主题的舆情情感演化的方法，属于自然语言处理及深度学习领域。

背景技术

情感分析也被称为情感挖掘、意见挖掘、观点抽取等，是指用自然语言处理、文本挖掘的方法来对文本信息中包含主管情感极性的文本信息进行分析、处理，然后归纳总结并推理，最终挖掘出作者的观点、情感、评价、态度等信息的过程。近些年来文本情感分析受到学术界越来越高的重视，例如国外有著名的国际语义评测会议(SemEval)每年都会有对文本进行情感倾向性判断的测评任务。在国内，由于中文文本的复杂性导致研究起步较晚，但在中文分词技术得到提高后，发展速度开始变快，也出现了类似的中文情感倾向性测评会议(COAE)。这些测评会议发布的评测任务促进了国内外文本情感分析的发展。目前中文文本情感倾向分析主要分为以情感词典和语义规则为主和以机器学习为主两种方法，随着深度学习的迅速发展，深度学习方法也被应用于自然语言处理研究中，并取得了突出的研究成果。

在传统的基于文本统计和知识字典的研究方法中不考虑词语之间的关联，把文本当作是词语的集合，首先对情感词典进行构建，然后根据词典将目标文本中的情感词进行抽取，对目标文本进行段落拆解、句法分析，基于制定好的情感计算规则将文本中的词语与情感词典进行匹配，根据结果得到文本的情感分类。因此如何构造一个高质量的情感词典至关重要。目前构造情感词典的方法主要分为人工标注和自动构建两种方法，中文常用的情感词典主要有知网的HowNet和哈工大的《同义词词林》等。

但是基于情感词典的分析方法并不再适用于当今各种网络词语大量涌现的时代，它过度依赖于情感词典的构建，而如今很难对构建好的情感词典进行更新和完善，人工添加的方法费时费力，同时这种方法忽略了上下文之间信息的关联，因此准确性也很低。

Pang等人最先使用不同的机器学习算法来解决情感分析问题，分类结果高于基于词典的方法。由于机器学习分类方法是有监督的学习，因此需要对语料进行大量标注然后再进行模型训练，不依赖于情感词典的构建，可以自动提取文本特征。常用的机器学习模型有逻辑回归模型、支持向量机、最大熵模型等方法。 Boiy等人使用最大熵模型等多种机器学习方法对情感信息进行挖掘；Ye等人对不同的机器学习算法进行比较，发现使用支持向量机和N-grame模型的准确率远远高于其他机器学习算法；Wang等人根据文本主题将数据集分割，在每个主题的数据集上单独进行机器学习的模型训练，有效的提高了文本的分类准确率；魏晶晶等利用SVM算法进行电商购物评论的情感分析，结果表明比一般的统计方法准确率有所提高。以上为有监督的机器学习算法，依赖于人工标注文本分类，无监督的机器学习方法有K-means、 OPTICS(OrderingPointToIdentifytheClusterStructure)等聚类方法，通过自动学习数据之间潜在的相似性来进行分类，不需要人工标注特征。如Zagibalov等人通过自动选择种子词，实现了对中国商品评论的无监督情感分类。该方法降低了人工标注所浪费的人力物力，但是准确率与有监督的机器学习方法相比要低。

虽然近些年很多研究人员采用不同的机器学习分类模型进行训练和预测都取得了很好的分类结果，但是在基于机器学习的情感分类过程中，要通过人工来设计特征。特征的好坏十分重要，人工容易导致误差，并且词袋模型将每个词作为独立的特征表达，无法对词与词之间的序列关系进行建模，忽略了上下文之间的关系，因此对一些有歧义的、表达较为复杂的句子不能获得很高的分类准确率。随着人工智能的发展，深度学习技术在图像处理、语音识别等方面的发展日益成熟，它可以解决机器学习难以提取文本特征的难题，通过复杂的函数变换将数据抽象成高层的特征表达，自动学习到深层特征，因此逐渐进入了自然语言处理领域的视野当中。

发明内容

本发明要解决的技术问题是：在基于机器学习的情感分类过程对一些有歧义的、表达较为复杂的句子不能获得很高的分类准确率。

为了解决上述技术问题，本发明的技术方案是提供了一种基于主题的舆情情感演化的方法，其特征在于，包括以下步骤：

步骤1、利用爬虫技术从网络上获取舆情语料数据；

步骤2、使用jieba分词工具对舆情语料数据进行预处理，获得语料信息；

步骤3、利用word2vec对语料信息进行词向量训练并且判断出词向量间相似度，并且进行离散的时间片划分；

步骤4、搭建舆情主题演化模型，通过计算不同时间片内舆情的度量指标，判断舆情热点热度变化以及相邻时间片内的舆情主题内容相关性；

步骤5、搭建舆情情感演化模型，结合舆情信息的特点，将舆情主题作为增强特征，与文本特征结合起来输入到联合深度神经网络模型中进行情感分类，联合深度神经网络模型由word2vec、卷积神经网络CNN及长短期记忆网络LSTM 构成；

步骤6、根据舆情主题演化模型获得的不同时间片内的热点话题，对各热点话题不同评价对象的情感倾向进行抽取，舆情语料根据时间片和热度值划分热点主题；

步骤7、对舆情内容演化及舆情热度演化进行分析；

步骤8、对不同时间片内热点话题各评论对象的情感倾向进行对比分析。

优选地，步骤4中，搭建舆情主题演化模型包括以下步骤：

步骤401、以y为时间粒度将语料信息D分散到各时间窗口，最终划分为n个时间窗，则D＝{D1,D2,...,Di,...,Dn}，式中，Di表示第i个时间窗口的语料，第i 个时间窗口定义为时间片ti；

步骤402、将时间片ti的语料Di定义为：Di＝{d1,d2,...,dj,...,dm}，dj表示语料Di中第j个文档，根据评论数和点赞量计算dj的文档热度hj，

式中，c表示话题评论数量，l表示话题点赞数量，热度越高的文档所讨论的舆情话题则受到越多人的关心和讨论；

步骤403、重复步骤402，直至遍历语料Di的所有文档；

步骤404、重复步骤402、403，直至遍历所有时间片的语料；

步骤405、对于时间片ti的语料Di进行LDA主题模型训练，通过计算文档中主题和词语的狄利克雷和多项式的共轭分布，得到文本-主题概率分布；

步骤406、通过文档dj的文档-主题概率分布和文档热度hj的计算，得到时间片ti内各主题z的热度值Hz；

步骤407、重复步骤405、406直至遍历语料Di的所有文档，对语料Di内的相同主题热度求和，得到热度值最高的p个热点主题；

步骤408、重复步骤405、406、407直至遍历所有时间片的语料；

步骤409、对每个时间片内的p个热点主题以及热度值进行对比分析，得到热点话题舆情热度演化结果；

步骤410、根据具体情况细粒度化时间片，对相邻时间片的文本进行LDA模型训练得到主题-词概率分布，循环计算相邻时间片内各子话题的KL距离，判断主题内容是否存在演化关系，得到舆情内容演化结果

优选地，步骤5中，搭建舆情情感演化模型包括以下步骤：

步骤501、对于时间片ti的语料Di进行LDA主题模型训练进行LDA主题模型训练，通过计算文档中主题和词语的狄利克雷和多项式的共轭分布，得到文本 -主题概率分布和词-主题概率分布；

步骤502、根据文本-主题概率分布p(z|dj)，取max(p(z|dj))，得到文本dj 的评价对象zx，p(z|dj)表示主题z在文档dj中的文本-主题概率分布；

步骤503、将文档dj的词序列与词所属主题分别输入Word2Vec模型中进行词向量训练，设文档dj共包含l个词语，则可以得到词向量+主题向量WZ_j：

式中，w_l表示文档dj中的第l个词语，

表示第l个词语对应的主题；

步骤504、将词向量+主题向量WZ_j输入到联合深度神经网络模型中进行情感分类训练，通过卷积神经网络CNN操作提取高维特征序列，再将高维特征序列输入到长短期记忆网络LSTM中对文本序列特征继续学习，输出结果通过全连接层进行特征组合，最后使用sigmoid函数作为结果分类器，得到文档dj的评价对象zx以及主题情感倾向Ezx；

步骤505、重复步骤502、503、504直至遍历语料Di的所有文档，对相同评价对象的正负情感倾向分别进行合并，得到当前时间片内各评价对象的正负情感倾向；

步骤506、重复步骤501、502、503、504直至遍历所有时间片的语料；

步骤507、对各热点主题的不同评价对象的情感倾向值进行对比分析，得到各热点主题的舆情情感演化的结果。

优选地，步骤504中，在模型训练阶段，将标注的文本情感分类结果也输入模型中，将模型分类结果与标注的情感分类结果进行比较，计算损失函数，并使用L2正则化减少过拟合，通过反向传播对权值进行更新，得到训练后的联合深度神经网络模型。

本发明提供的一种基于主题的舆情情感演化的方法利用Word2Vec中的 Skip-gram模型进行词向量训练，然后对分词、去重以及分别用两个停用词表进行曲停用词的语料数据进行模型训练，可以较为准确地提取文本特征，使得基于机器学习的情感分类对一些有歧义的、表达较为复杂的句子能获得很高的分类准确率。

附图说明

图1为实施例第三步的实验结果表；

图2为实施例第五步的划分结果表；

图3为热点话题关键词的大致变化图；

图4及图5为热度词计算结果图；

图6为部分热门话题的热度演化图；

图7为计算相邻时间片的KL距离的结果；

图8为关注点变化；

图9为主题各评价对象的情感分类结果；

图10为本发明的流程图。

具体实施方式

下面结合附图，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本实施例公开的一种基于主题的舆情情感演化的方法包括以下步骤：

第一步：由于舆情数据的庞大性，因此采用网络爬虫的方式爬取各大网站的数据。爬取2018年6月20日至7月30日新浪新闻、网易新闻、腾讯新闻网页内容以及每日微博榜单前100条微博以及网页和微博评论数据做为实验数据，新闻文档长度一般在1000个词之内，评论数据长度一般在在50个词左右。

第二步：获取到的舆情数据中含有大量噪声，因此需要对舆情数据进行预处理。去掉重复的数据、去除少于5个字的短文本，使用正则表达式将数字、表情符号和网页地址等直接删除。

第三步：采用jieba分词包中的精准模式(jieba.cut_all＝false)对实验数据进行分词，并且包含2080个情感词语的知网情感词典进行分词，使得舆情信息中的情感词可以更准确的被提出来，最后对分词后的数据进行去停用词，实验结果如图1所示。

第四步：确定最优主题数，在搭建舆情主题演化模型过程中，首先应该确定模型的超参数α和β以及最优主题数K。目前对于主题模型性能进行评价的指标主要为困惑度，困惑度和模型的性能成反比，困惑度越小意味着有更高的效率，主题分类效果更好。若Nd表示文本中所包含的所有词语数，wd,i表示文本中第i 个词语，则困惑度perplexity可以表示为：

式中，lnp(w_d,i)表示文本中第i个词语的概率的熵。可以根据困惑度 perplexity确定模型的主题数，首先可以根据经验对模型主题数确定大概的个数范围，然后对不同主题数下的模型进行主题分类，则获得较低困惑度的模型分类性能较好，获得较低困惑度的模型对应的主题数则可确定为最优主题数。经过不同主题数下模型性能的对比，得到当主题数逐渐增大困惑度逐渐减小，当主题数增大到10时模型困惑度基本保持平稳，因此确定本模型的主题数K为10。

第五步：热点主题提取，舆情的热度一般至少持续在五天左右，因此本文以五天作为时间粒度对舆情数据进行时间划分，6月20日至7月20日共30天的语料数据被划分到六个时间片内。结果如图2所示、

第六步：主题分析，根据话题评论数以及点赞量对各时间片内的舆情数据标注热度，并使用LDA模型进行主题分析，通过model—parameter.txt文件对模型训练参数进行设置。最终模型训练输出分为四部分：

model—tassign.txt：输出文本中各个词所属的主题；

model—theta.txt：输出文本与主题的概率分布，一行代表一个文本对象；

model—phi.txt：输出词与主题的概率分布，是一个K*Nd矩阵，K为设定主题数(本实验中设置为10)，Nd表示文本中所有词数；

model—tword.txt：将每个主题下词概率由高到低排序，输出前topN个。

对各时间片内文本进行热度计算并标注对应热度，然后将预处理后的文本放入LDA模型中计算各文本所属主题，根据舆情主题演化模型中的热度计算公式计算各主题热度值Hzk。通过热度值计算得到每个时间片的最热主题，根据model —tword.txt中每个主题下前topN个词的输出，得到不同时间片内公众讨论最多的话题内容，选取每个时间片内最热话题的关键词进行不同时间片的主题演化对比，热点话题关键词的大致变化如图3所示。

由图3可知每个时间片的舆情热点都有所不同，其中有热度一直持续不减的世界杯话题，也有在各个时间片内曝出来的重大舆情事件，热度保持时间久的舆论影响范围广泛，关注度更高，舆情传播范围更广。在图中突然出现又消失的舆情话题表明热度突然升高又下降，说明民众关注度不高，或者在有关部门及企业的舆论控制下将舆论影响力尽可能的降低。

经过计算后得到的部分时间片热度值最高的前五个主题和对主题进行描述的前八个词以及话题对应的热度值计算后的结果如图4及图5所示。

根据时间片t2和t3中舆情热度主题的提取以及舆情主题热度值的计算，提取出了6月25日至7月5日的舆情热点话题，根据主题关键词可以得到这段时间内主要发生的热点事件。根据事实调查，热点事件分类结果与事实舆论热点相符，证明了该模型中通过舆情话题提取与文本热度值共同计算出话题热度值的有效性。

第七步：通过对不同时间片内不同话题的舆情热度进行计算，得到各话题的舆情热度值，对不同时间片内热度值最高的五个话题进行提取后，对不同时间片的舆情热度变化进对比分析，部分热门话题的热度演化图如图6所示。

一般突发事件的舆情信息热度值基本持续在1到2个时间片以内，也就是5 到10天左右，如6.28日发生的某热点事件在t2时的热度值突然爆发到达顶峰，到t3时，热度值已经下降到很低。图6中7.5日下午五点发生的某热点事件的变化可知，在t3时热度值已经升高很多，因为t3最后一天正好为7.5日，而在短短几个小时之内热度值已经升至很高，这表明该事件在短时间内引起了极大的关注。

本案例的时间片划分粒度为五天，为了更好的对某一舆情话题的子话题进行分析，将时间片粒度减小，以天为粒度进行时间片划分，计算相邻时间片的KL 距离。结果如图7所示。

根据相邻事件片的KL距离可以看出事件片w2、w3和w4、w5之间的KL 距离值较大，即表明w2、w3和w4、w5之间的主题相似性较低，认为在时间片 w2和w5由于新话题的产生导致公众的关注点发生了变化。

结合图8，在时间片w3出现了“张皓峰”、“船长”等新词，出现了张皓峰舍己救人事件产生了新的热点话题；同时在时间片w3事故发生的船长否认了对于自己的指控，引起了公众讨论话题从打捞、搜救到事故责任指控的转变；在时间片w5出现了“赔偿”、“家属”等词，表明了公众对于当天的发言以及对于家属赔偿问题的关注，从总体上看也是对沉船事件话题关注点的一次转移。

第八步：本案例将继续使用舆情情感演化模型对该事件进行情感演化分析，对不同时间片的舆情评论文本进行情感分类，对评价对象进行抽取，得到关于该主题各评价对象的情感分类结果如图9所示。

Claims

1.一种基于主题的舆情情感演化的方法，其特征在于，包括以下步骤：

步骤1、利用爬虫技术从网络上获取舆情语料数据；

步骤5、搭建舆情情感演化模型，结合舆情信息的特点，将舆情主题作为增强特征，与文本特征结合起来输入到联合深度神经网络模型中进行情感分类，联合深度神经网络模型由word2vec、卷积神经网络CNN及长短期记忆网络LSTM构成；

步骤7、对舆情内容演化及舆情热度演化进行分析；

2.如权利要求1所述的一种基于主题的舆情情感演化的方法，其特征在于，步骤4中，搭建舆情主题演化模型包括以下步骤：

步骤401、以y为时间粒度将语料信息D分散到各时间窗口，最终划分为n个时间窗，则D＝{D1，D2，...，Di，...，Dn}，式中，Di表示第i个时间窗口的语料，第i个时间窗口定义为时间片ti；

步骤402、将时间片ti的语料Di定义为：Di＝{d1，d2，...，dj，...，dm}，dj表示语料Di中第j个文档，根据评论数和点赞量计算dj的文档热度hj，

步骤403、重复步骤402，直至遍历语料Di的所有文档；

步骤404、重复步骤402、403，直至遍历所有时间片的语料；

步骤408、重复步骤405、406、407直至遍历所有时间片的语料；

3.如权利要求2所述的一种基于主题的舆情情感演化的方法，其特征在于，步骤5中，搭建舆情情感演化模型包括以下步骤：

步骤501、对于时间片ti的语料Di进行LDA主题模型训练进行LDA主题模型训练，通过计算文档中主题和词语的狄利克雷和多项式的共轭分布，得到文本-主题概率分布和词-主题概率分布；

步骤502、根据文本-主题概率分布p(z|dj)，取max(p(z|dj))，得到文本dj的评价对象zx，p(z|dj)表示主题z在文档dj中的文本-主题概率分布；

式中，w_l表示文档dj中的第l个词语，

表示第l个词语对应的主题；

4.如权利要求3所述的一种基于主题的舆情情感演化的方法，其特征在于，步骤504中，在模型训练阶段，将标注的文本情感分类结果也输入模型中，将模型分类结果与标注的情感分类结果进行比较，计算损失函数，并使用L2正则化减少过拟合，通过反向传播对权值进行更新，得到训练后的联合深度神经网络模型。