CN104978308A

CN104978308A - 一种微博主题情感演化分析方法

Info

Publication number: CN104978308A
Application number: CN201510263378.5A
Authority: CN
Inventors: 黄发良; 李超雄; 李璇; 元昌安
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2015-10-14
Anticipated expiration: 2035-05-22
Also published as: CN104978308B

Abstract

本发明涉及一种微博主题情感演化分析方法，包括以下步骤：步骤1、设置本方法相关的循环控制参数C₁、C₂、C₃与C₄，以及情感词典；步骤2、初始化微博消息集中的词语情感极性与主题归属；步骤3、根据设定时间粒度TG计算微博消息的所属时间片编号；步骤4：利用主题情感演化模型TSEM不断对变量、、和进行迭代更新；步骤5、通过判断每条发表于时间片d内的微博m的情感极性。该方法能够有效发现隐藏于微博消息中的主题情感演化模式。

Description

一种微博主题情感演化分析方法

技术领域

本发明涉及网络舆情分析技术领域，特别涉及一种应用于Web2.0环境下微博消息的主题情感演化分析方法。

背景技术

微博是Web2.0时代兴起的一种集成化、开放化的互联网社交服务，它让用户能够向公众发布简短的文本消息。由于其简便的特点，日益受到互联网用户的青睐。目前新浪微博用户规模已经超过3亿，每天都有大量的微博消息发布。在这些海量的微博消息中，有许多饱含个人情感的资源，如何从这些微博消息中高效自动地提取主题与情感，并且对主题与情感进行演化分析，是一个很具有研究价值的热点。

网络文本情感挖掘的算法大致可归纳为三类：有监督的情感挖掘、无监督的情感挖掘与半监督的情感挖掘。有(半)监督的情感挖掘方法一般具有较高的分类准确率，但是它们都需要人工标注的训练语料来训练生成文本情感分类器，而获得人工标注的训练语料是十分耗时耗力的。传统的无监督情感挖掘方法是利用情感词典对文本进行情感分类，这种方法对情感词典具有极强的依赖性，而好的情感词典却很难获得。因此，以JST、S-LDA与DPLDA等为代表的无监督情感分类方法近年来备受青睐，此类方法不仅能有效地避免传统无监督情感分类方法具有的情感词典依赖性缺点，达到较好的情感分类效果，而且这类方法还可以很好的对文本进行主题挖掘。然而，现有的这些LDA主题情感模型都还不能很好的展示微博主题与情感的演化，下面以例加以说明。

例1：给定用户A的两条微博：

A1：和朋友一起看NBA总决赛，很喜欢马刺队，团队篮球必胜！--2014.06.15

A2：今天晚上和朋友通宵看世界杯了，C罗又帅气又有实力！--2014.07.13

针对这两条微博，虽然JST、S-LDA与ASUM可以获取A1的主题(NBA)与情感极性(积极)还有A2的主题(世界杯)与情感极性(积极)，但是JST、S-LDA与ASUM却无法表示A1、A2的主题出现的时间，更无法确切地分析用户A关注的主题从NBA到世界杯的演化，这是由于没有融入时间参数，3个模型会默认A1与A2的主题是在同一时间出现的。

微博主题演化近几年吸引了不少人对其进行研究，其中基于LDA模型的主题演化模型备受研究者瞩目，较具代表性的有：动态主题模型DTM、增量LDA模型ILDA、在线LDA模型OLDA，扩展OLDA模型等。然而这些模型只考虑了主题随时间的演化却没有考虑情感随时间的演化，导致这些模型无法很好地解释下列微博。

例2：给定用户B的两条微博：

B1：林俊杰的新歌《可惜没有如果》真是太好听了，非常喜欢，强力推荐！--2015.03.01

B2：浙江卫视的节目《奔跑吧兄弟》第二季又要开始了，又可以看见喜欢的邓超了。--2015.03.08

B3：突然觉得《可惜没有如果》这首歌很难听！！！--2015.03.15

DTM、ILDA、OLDA虽然可以捕获B1(歌)，B2(节目)，B3(歌)的主题与主题随时间的演化，可是这些模型却无法捕获B1、B2、B3的情感还有B1(积极)、B3(消极)的主题情感演化。

从上述分析可知，现有LDA主题情感模型没有很好地从时间维的角度考虑主题与情感的演化机制，而已有的LDA主题演化模型没有将情感很好地融入，这两种情况都可能导致无法有效捕获隐含于微博消息中的主题情感演化趋势。

发明内容

本发明的目的在于提供一种微博主题情感演化分析方法，该方法能够有效发现隐藏于微博消息中的主题情感演化模式。

为实现上述目的，本发明的技术方案是：一种微博主题情感演化分析方法，包括以下步骤：

步骤1、设置本方法相关的循环控制参数，以及情感词典；

步骤2、初始化微博消息集中的词语情感极性与主题归属：若微博消息集里的词语在所述情感词典中出现，则将所述词语的情感极性赋为情感词典定义的情感极性值，否则为所述词语随机分配情感极性l；若词语所在微博消息具有以特殊符号“#”标记的微博用户明确定义的主题，则将所述主题作为所述词语的所属主题，否则为所述词语随机指定主题；

步骤3、根据设定时间粒度TG计算微博消息的所属时间片编号：假定微博消息集里的所有消息发布时间序列为{ut ₁, ut ₂, ... , ut _m}，对于发布时间为ut _i的消息i，根据计算出其所在的时间片编号为k；

步骤4：利用主题情感演化模型TSEM不断对变量、、和进行迭代更新；其中，表示时间片d内发布的消息m的句子s中主题t属于情感极性l的频数，表示时间片d内发布的消息m的句子s中属于情感极性l的主题总频数，表示词语w同时属于主题t、情感极性l和时间片d的频数，表示所有同时属于主题t、情感极性l和时间片d的词语的总频数，表示时间片d内发布的消息m中情感极性l出现的频数，表示时间片d内发布的消息m中情感极性l的总频数，表示时间片d内发布的所有消息中词语w同时属于主题t和情感极性l的概率；表示时间片d内发布的消息m的句子s中主题t属于情感极性l的概率；表示时间片d内发布的消息m中情感极性l出现的概率；

步骤5、通过判断每条发表于时间片d内的消息m的情感极性：若，其中l ₁为积极情感，l ₂为消极情感，则判定消息m的情感极性为积极情感，反之为消极情感。

进一步的，所述主题情感演化模型TSEM的建立方法为：

步骤A1、初始化主题情感演化模型TSEM的分布参数Π={A，B，H}，其中，A为(时间，消息，句子，情感)-主题分布，表示在时间片d内发布的消息m中的情感标签为l的句子s的主题为t的概率，B为(时间，情感，主题)-词语分布，表示词语w出现在时间片d内且情感标签与主题分别为l和t的概率，H为(时间，消息)-情感分布，表示在时间片d内发布的消息m具有情感l的概率；A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η)，其中α是指主题t在时间片d内发布的消息m的句子s中出现的先验次数，β是指词语在时间片d内发布的消息集中出现的先验次数，η是指情感标签l在时间片d内发布的消息m中出现的先验次数；

步骤A2、重复如下操作直到生成一条微博消息中的所有词语：在确定的时间片d内，首先从(时间，消息)-情感分布H中选出一个情感标签l，然后根据产生的情感标签l从(时间，消息，句子，情感)-主题分布A中选出一个主题t，最后根据选出的情感标签l与主题t从(时间，情感，主题)-词语分布B中选择一个词语w；

步骤A3、重复步骤A2直到微博消息集中的所有消息生成完毕。

进一步的，利用主题情感演化模型TSEM对变量、、和进行迭代更新的方法为：设置本方法相关的循环控制参数C₁、C₂、C₃和C₄，以及分别对应于循环控制参数C₁、C₂、C₃与C₄的阈值D、X、Md和Wm，然后按以下步骤进行4层迭代更新：

步骤B1、如果C₁大于阈值D，则结束迭代，根据判断每条发表于时间片d内的消息m的情感极性，否则转步骤B2；

步骤B2、如果C₂大于阈值X，则令C₁加1，并置C₂=0，然后转步骤B1，否则转步骤B3；

步骤B3、如果C₃大于阈值Md，则更新、和，并令C₂加1，置C₃=0，然后转步骤B2，否则转步骤B4；

步骤B4、如果C₄大于阈值Wm，则令C₃加1，并置C₄=0，然后转步骤B3，否则从变量TmpVar中除去当前词语w所属的情感标签和主题，再给词语w重新赋一个情感标签和主题，并更新变量TmpVar，令C₄加1，然后重复步骤B4。

本发明的有益效果是提供了一种微博主题情感演化分析方法，相较于传统的微博主题情感分析方法，本发明方法通过捕获不同时间片中微博消息集的主题和情感，追踪不同时间片内主题与情感的变化趋势，从而实现主题和情感的演化分析，能更好地反映微博主题情感的动态特征，发现与微博用户真实感受更相符合的情感观点，克服了现有的微博主题情感挖掘方法无法动态跟踪微博用户的主题偏好与观点漂移的缺陷，可广泛应用于以新浪、腾讯等各种微博平台，可以提升信息主动服务质量、增强网络文化安全等。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中主题情感混合模型TSEM的图模型。

图3是本发明实施例中TSEM检测的主题演化图。

图4是本发明实施例中TSEM检测的主题强度演化图。

图5是本发明实施例中TSEM检测的主题积极情感强度演化图。

图6是本发明实施例中TSEM检测的主题消极情感强度演化图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。为了更好地描述本发明的技术方案，现将本发明技术方案的相关符号进行列表说明，参见表1。

表1 模型符号说明

为了方便详细阐述本发明，首先对LDA主题模型与情感周期性理论进行简介。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集中潜藏的主题信息。它采用了词袋（bag of words）表示方法，将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数学对象，每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。LDA通过概率推导方法来寻找文档集的语义结构，具体可描述为文档单词生成过程：对每一篇文档都从主题分布中抽取一个主题，然后从与该主题所对应的单词分布中抽取一个单词，重复上述过程直至遍历文档中的每一个单词。

社会心理学研究结果表明，人的情感内部存在着某些动力特性(如强度性、稳定性、偏好性、效能性等)，这些特性随着时间的变化而呈现周期性的变化，能准确地制约和控制着人的感情、欲望与情绪的变化，使得人的情感表现出周期性。

本发明的微博主题情感演化分析方法，综合主题模型LDA与情感周期性理论实现微博主题情感的动态挖掘与演化分析，如图1所示，包括以下步骤：

步骤1、设置本方法相关的循环控制参数，以及情感词典；

其中，所述主题情感演化模型TSEM的建立方法为：

步骤A3、重复步骤A2直到微博消息集中的所有消息生成完毕。

利用主题情感演化模型TSEM对变量、、和进行迭代更新的方法为：设置本方法相关的循环控制参数C₁、C₂、C₃和C₄，以及分别对应于循环控制参数C₁、C₂、C₃与C₄的阈值D、X、Md和Wm，然后按以下步骤进行4层迭代更新：

步骤B4、如果C₄大于阈值Wm，则令C₃加1，并置C₄=0，然后转步骤B3，否则从变量TmpVar中除去当前词语w所属的情感标签和主题，再利用公式（5）给词语w重新赋一个情感标签和主题，并更新变量TmpVar，令C₄加1，然后重复步骤B4。

下面参考图2来说明本发明方法中的主题情感混合模型TSEM。

尽管主题模型LDA有着牢固的数学基础与良好的扩展性，但情感层的缺失使其无法完成文档情感的分析。基于此，我们对LDA进行改造，通过在LDA中嵌入情感层与时间层构造一个用以分析微博主题情感演化模式的概率图模型TSEM(图2)，在TSEM中，情感标签与三者(主题标签、词语与微博时间片编号)关联，主题标签与三者（情感标签、微博内嵌分句与词语）关联，词语同时与主题和情感标签关联。

对于消息集C={m₁，m₂，...，m_M}，其中M为集合的基数，与消息集C对应的词典大小为W，消息m_i是由Vi个单词组成的序列，即m_i={v₁，v₂，...，v_Vi}。TSEM产生消息集C的过程可简单归结为如下两个步骤： 1) 初始化TSEM的分布参数Π={A，B，H}，A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η)。α是指主题在时间片d内发布的消息m的句子s中出现的先验次数，β是指单词在时间片d内发布的消息集Cd中出现的先验次数，η是指情感标签在时间片d内发布的消息m中出现的先验次数；2) 概率生成消息集C中的单词，此生成过程可简单描述如下：首先在确定的时间片d下从(时间，消息)-情感分布H中选出一个情感标签l，接着根据产生的情感标签l从(时间，消息，句子，情感)-主题分布A中选出一个主题t，最后根据选出的情感标签l与主题t从(时间，情感，主题)-词语分布B中选择一个单词w。 TSEM重复以上过程次。

由于A是一个D*M*S*L*T的矩阵，生成A需要循环D*M*S*L*T次，所以产生A的时间复杂度是O(D*M*S*L*T)。由于B是一个D*L*T*W的矩阵，所以产生B的时间复杂度是O(D*L*T*W)。由于H是一个D*M*L的矩阵，所以产生H的时间复杂度是O(D*M*L) 。对于产生消息集C中每个单词的过程，重复这个过程次，所以这个过程的时间复杂度是。

TSEM模型推导

TSEM模型利用吉布斯采样技术对概率分布进行推导，吉布斯采样是一种快速高效的MCMC(Markov chain Monte Carlo)采样方法，它通过迭代的采样方式对复杂的概率分布进行推导。为了得到我们所需要的分布A、B与H，我们需要计算联合分布，其中t _-i，l _-i分别是指除了时间片d内发布的消息m中第i个词以外的其他词的主题与情感极性。联合分布可以拆分为如下项：

(1)

通过对上述式子进行展开可得：

(2)

其中n _{d，l，t，w}表示单词w同时属于主题t、情感极性l和时间片d内的频数，n _d，l，t表示所有同时属于主题t、情感极性l和时间片d内的单词总的频数，Γ(*)表示伽马函数。

(3)

其中n _{d，m，s，l，t}表示时间片d内发布的消息m的句子s中主题t属于情感极性l的频数，n _{d，m，s，l}表示时间片d内发布的消息m的句子s中属于情感极性l的主题总频数。

(4)

其中n _d，m，l表示时间片d内发布的消息m中情感极性l出现的频数，n _d，m表示时间片d内发布的消息m中情感极性总频数，即消息m总单词数。

有了上述式子后，我们就可以计算吉布斯采样的联合概率：

(5)

其中，表示除了当前单词外，时间片d内发布的所有消息中单词w同时属于主题t和情感极性l的频数，表示除了当前单词外，时间片d内发布的所有消息中所有属于主题t和情感极性l的单词总频数。表示时间片d内发布的消息m的句子s中，除了当前单词外，主题t属于情感极性l的频数，表示时间片d内发布的消息m的句子s中，除了当前单词外，属于情感极性l的所有主题的总频数。表示除了当前单词外，时间片d内发布的消息m中情感极性l的频数，表示除了当前单词外，时间片d内发布的消息m中情感极性标签的总频数，即消息m的单词总数。

进一步利用最大似然估计方法对参数Π={A，B，H}进行估计，其可形式化为公式(6)、(7)与(8)。

(6)

(7)

(8)

其中，表示时间片d内发布的所有微博中词语w同时属于主题t和情感极性l的概率，表示时间片d内发布的消息m的句子s中，主题t属于情感极性l的概率，表示时间片d内发布的消息m中情感极性l出现的概率。

对于一条需要进行主题情感分析的微博，我们可以根据来算出微博m在时间片d内属于l情感极性的概率(l为积极情感或消极情感)，若该微博属于积极情感的概率大于其属于消极情感的概率，则判断该微博的情感极性为积极，反之，则判断该微博的情感极性为消极。

TSEM模型内嵌算法的流程：

1）初始化TSEM的分布参数Π={A，B，H}，A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η)。α是指主题t在时间片d内发布的消息m的句子s中出现的先验次数，β是指单词在时间片d内发布的消息集中出现的先验次数，η是指情感标签l在时间片d内发布的消息m中出现的先验次数；

2）重复如下操作直到生成一条微博消息中的所有单词：在确定的时间片d下，首先从(时间，消息)-情感分布H中选出一个情感标签l，接着根据产生的情感标签l从(时间，消息，句子，情感)-主题分布A中选出一个主题t；最后根据选出的情感标签l与主题t从(时间，情感，主题)-词语分布B中选择一个单词w；

3）重复2）直到微博消息集中的所有消息生成完毕。

性能评测

为了定量地分析TSEM模型的性能，我们选择短文本主题情感分析的代表性算法JST、S-LDA、DPLDA模型与我们的TSEM模型在新浪微博数据集进行微博消息情感极性分类准确性比较，然后分别从主题演化、主题热度演化与主题情感演化三方面对TSEM模型进行定量分析。实验环境为：CPU为Intel Core i5-2450M CPU，内存4G，OS为Windows 7。

准确率分析

我们从10000条新浪微博中随机抽选9600条(正负情感各4800条)，再把9600条微博按随机抽取的方式均分为8组，其中每组正负情感各600条，然后我们用这8组微博消息集进行情感分类准确率实验，实验结果如表2所示：

表2 情感极性分类准确率

从表2可以看出，尽管在个别消息集上TSEM的分类准确率要低于其他模型，如消息集7上的JST和消息集6上的S-LDA分类准确率要高于TSEM，但是在大部分消息集上TSEM的分类准确率都要高于其他模型，并且平均分类准确率也是最高的，这反映了TSEM对我们的微博消息集有更好的情感极性分类性能。从平均值来看，TSEM的分类准确率相对于其他3个模型有不少提升，JST的分类准确率略高于S-LDA，而DPLDA的分类准确率是最低的。在消息集3上，TSEM取得了最高分类准确率，并且分类准确率也是所有模型在8组消息数据上的分类准确率最大值，这也说明了TSEM可以更好地对我们的微博消息集进行情感极性分类。

主题演化分析

微博主题演化分析能帮助用户快速准确地理解主题脉络结构、跟踪主题发展情况，并根据主题演化做出相应的预测。由于主题可表示为一系列特征词的概率分布，故可采用KL距离(公式(10))来衡量两个主题的相似度。我们用D(P||Q)表示KL距离，计算公式如下：

(9)

其中P(w)与Q(w)指不同主题中单词w的出现概率，当两个概率分布完全相同时(P(W)=Q(W))，其KL距离为0，即这两个主题是一样的主题。D(P||Q)越大表示主题之间的相似度越低。

表3 主题3在每个时间片的关键词

本实验抽取热度最高的主题3做主题演化分析实验。从表3与图3可以看出，主题3在第1-3天的主题相似度较高，从关键词中的红包、抢、天猫、11、双等可以看出主题3在前3天主要是针对双11抢红包还有购物等的讨论。第3-4天的KL距离突然增大，由关键词可看出，第4天出现了第3天未出现的支付、宝、送等关键词，由此推断在第4天主题3增加了对支付宝充值送红包或优惠卷等活动的讨论。主题3第6-7天的KL距离出现峰值，表明了主题3在第7天相对于第6天出现了较大的变化，从关键词中可以看出，第6天主要集中于买东西和光棍节的讨论，第7天则转向了发货、客服还有交易额等的讨论，从第8天开始主题3从前面的买东西转向了物流和收到东西后的评价。由以上分析可以看出，光棍节前(1-5)主题3主要是对红包、双11、购物等的讨论，而随着光棍节的到来(6)，光棍节也作为关键词出现了，等到光棍节和双11活动结束(7-10)，用户们讨论的热点也从购物、红包、双11、光棍节转为快递、客服、买到的东西等。

主题热度演化分析

从图4与表4可以看出，主题3的热度高于其他主题，从关键词可以看出，主题3主要与双11有关。主题3的概率在第6天(11.11)达到了峰值，恰好这天是11.11，是双11讨论热度最高的时候。从主题1的关键词可以看出，主题1主要是对关于北京或上海工作的讨论，主题1的热度经历了上升—下降—上升的浮动。主题2的热度相对来说较为平稳，从关键词可以看出，主题2主要是关于光棍节的讨论，主题2在光棍节(11.11)这一天的热度相比前后两天也有上升。主题4的热度浮动较大，从一开始的最低持续上升到最后几天的第二高，从关键词来看，是与电影有关的话题，可能是光棍节前后有较多的电影上映，导致主题4的热度不断升高。从主题5的关键词推断，应该是有关浙江卫视“奔跑吧兄弟”这个节目的，主题5的热度在第7天达到了峰值，可能恰好是这档节目播出的时间。

表4 不同主题的关键词

主题情感演化分析

从图5与图6可以看出，主题1的积极情感与消极情感都经历了明显的上下浮动，由于主题1是工作相关的话题，对这个话题每个人每天的看法都不同，总体来看，主题1的积极情感要高于消极情感，由此推断用户对于工作还是持乐观态度的。主题2是关于光棍节的讨论，主题2的消极情感在第6天(11.11)相比第5天突然上升，可能由于第6天正好是11.11，用户们对光棍节还是负面情绪较多，导致消极情感突然上升，从总体来看，主题2的积极情感一直低于消极情感，可以得出用户们对于光棍节比较厌恶。主题3的积极情感在第一天出现了峰值，之后基本呈现下降趋势，并在第7天(11.12)达到了最低值，而消极情感在前7天从第一天的最低值上升到了第7天的峰值，由于主题3是讨论双11活动的，而第7天正好是双11结束的第一天，用户们的心情也从最开始的开心抢红包、选商品、购物变成了对客服、物流甚至是自己买的商品的不满。主题4是对电影的讨论，主题4的消极情感在第6天(11.11)达到了最低值，可能是11.11的电影票很难买到，导致许多用户爆发不满，而第6天开始积极情感与消极情感都有上升的趋势，可能是由于11.11后有较多的电影上映，从而获得了更多的关注，而用户们对电影褒贬不一。从主题5的积极情感趋势图可以明显看出，主题5的积极情感从第6天明显上升并且在第7天达到了峰值，主题5是讨论浙江卫视“奔跑吧兄弟”这档节目的，可能那时恰好是节目播出的时间，而从积极情感的巨大上升来看，用户们还是比较喜欢这档节目的，在最后一天，主题5的积极情感出现最低值，消极情感出现最高值，从这个变化可以推断那天可能出现了关于这档节目的负面新闻或那一天是情感周周期中人们情感较为消极的一天。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种微博主题情感演化分析方法，其特征在于，包括以下步骤：

步骤1、设置本方法相关的循环控制参数，以及情感词典；

2.根据权利要求1所述的一种微博主题情感演化分析方法，其特征在于，所述主题情感演化模型TSEM的建立方法为：

步骤A3、重复步骤A2直到微博消息集中的所有消息生成完毕。

3.根据权利要求1或2所述的一种微博主题情感演化分析方法，其特征在于，利用主题情感演化模型TSEM对变量、、和进行迭代更新的方法为：设置本方法相关的循环控制参数C₁、C₂、C₃和C₄，以及分别对应于循环控制参数C₁、C₂、C₃与C₄的阈值D、X、Md和Wm，然后按以下步骤进行4层迭代更新：