CN104484437B

CN104484437B - 一种网络短评情感挖掘方法

Info

Publication number: CN104484437B
Application number: CN201410813173.5A
Authority: CN
Inventors: 黄发良; 李超雄; 元昌安; 汪焱; 姚志强
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2018-07-20
Anticipated expiration: 2034-12-24
Also published as: CN104484437A

Abstract

本发明涉及一种网络短评情感挖掘方法，包括以下步骤：步骤1、设置本方法相关的循环控制参数以及情感词典；步骤2、利用情感词典对短评数据集进行情感极性先验处理：若短评数据集里的单词在情感词典中出现，则将该单词的情感极性赋为情感词典定义的情感极性值；步骤3、对先验处理后的短评数据集的单词情感极性与主题偏好进行初始化；步骤4、利用主题情感混合模型不断对Tempθ、、和进行迭代更新；步骤5、通过判断每篇短评d的情感极性：对于短评d，若，其中l ₁为积极情感，l ₂为消极情感，则判定短评d的情感极性为积极情感，反之为消极情感。该方法能够有效挖掘出隐藏于短评中的用户真实情感与观点。

Description

一种网络短评情感挖掘方法

技术领域

本发明涉及网络舆情分析技术领域，特别涉及一种应用于Web2.0环境下社交网络的网络短评情感挖掘方法。

背景技术

以自由开放共享为核心精神的Web 2.0使得用户成为互联网的主角，诸如社交网站、微博和BBS论坛之类的平台为网民发表意见和交流情感提供了经济便捷的渠道。一般来说，用户在这些平台上发表的言论比较简短却又饱含着丰富的个人情感与主观倾向性，例如，不同读者对于同一条新闻事件持有不同的看法，不同用户对于某款手机有着其个性化的用户体验，不同影视爱好者对于同一部电影会留下不同的观影评论，等等。研究如何高效挖掘隐藏于这些鱼目混杂的社会媒体网络言论中的观点与情感即文本情感挖掘有助于各级政府机构、企业组织与理性个体的管理决策，例如，政府机构可以对网络舆论进行实时监测与导向、网上商家能够根据用户反馈意见及时调整生产服务实现利润最大化、个体网民可以敏捷获取目标信息，等等。

网络短评情感挖掘正在吸引着来自人工智能、数据挖掘、自然语言处理等不同领域研究者的广泛关注，涌现出的各种算法大致可归纳为三类：有监督的情感挖掘、无监督的情感挖掘与半监督的情感挖掘。有（半）监督的情感挖掘方法不同程度地利用训练语料来训练生成文本情感分类器，一般具有较高的分类准确率，但获取训练样本的昂贵代价极大地限制此类方法的应用性。因此，以JST、S-LDA与ASUM等为代表的无监督情感分类方法近年来备受青睐，此类方法能有效地避免传统无监督情感分类方法具有的情感词典依赖性缺点，能达到较好的情感识别效果。然而，现有的这些LDA情感主题模型还不能完全捕获网络短评用户的真实情感，下面以手机评论为例加以说明。

例如，给定某款手机的网络评论MR为“I have bought a good phone. Thephotos are very clear although the button is a little hard.”。根据文献可知，JST建模MR生成过程的方法是先判断MR中每个词的情感极性（如：good的情感极性为积极），然后判断MR中每个词的主题（如：phone的主题为手机）；S-LDA是先判断MR中每个词的主题，然后判断MR中每个词的情感极性； ASUM是先判断MR中每个句子的情感极性（如：判定第一句的情感极性为积极），然后再判断评论中每个句子的主题（如：判定第一句的主题为手机）。从上述建模过程可以看出，虽然JST、S-LDA与ASUM都可以获取评论中每个词（句子）的主题与情感极性，但是对于评论中的每一句话，短评-情感-主题分布都是相同的（如：第一句话的phone和第二句话的photos属于主题“手机”的概率是相同的），这可能导致这两个词的主题不能正确地被捕获，因为根据网络短评的写作习惯，如果第一句话的主题是手机整体质量，那么第二句话的主题依然是手机整体质量的概率会相对较低。还有AUSM采用的捕获句子主题和情感极性的方法可能导致无法捕获积极词与消极词共存的句子的真实情感，例如对于MR 中的含有情感积极词（clear）与情感消极词（hard）的第二句话，AUSM可能无法正确判断该句话的情感极性。另外，S-LDA的建模过程是采用先判断词语主题再确定词语情感极性的方法，这也不符合Web用户短评行为习惯.

总之，现有的基于LDA情感主题模型的情感分析技术没有很好地考虑用户写短评时的行为习惯，只是简单地假设短评中所有句子的主题概率分布都相同，这与Web用户短评行为习惯相悖，从而不同程度地偏离了用户的真实情感，因而不适合从网络短评中挖掘出用户的真实情感。

发明内容

本发明的目的在于提供一种网络短评情感挖掘方法，该方法能够有效挖掘出隐藏于短评中的用户真实情感与观点。

为实现上述目的，本发明的技术方案是：一种网络短评情感挖掘方法，包括以下步骤：

步骤1、设置本方法相关的循环控制参数X、Y与Z，以及情感词典；

步骤2、利用情感词典对短评数据集中的单词情感极性与主题偏好进行初始化：若短评数据集里的单词在情感词典中出现，则将该单词的情感极性赋为情感词典定义的情感极性值，否则随机分配情感极性l，对短评数据集里的单词w随机分配主题k，并更新向量，其中表示在短评d中的第s个句子里主题k属于情感极性l的频数，n _dsl表示在短评d中的第s个句子里主题k属于情感极性l的所有主题的总频数，表示单词v同时属于主题k和情感极性l的频数，n _lk所有属于主题k和情感极性l的单词总频数，表示短评d中情感极性l的频数，n _d短评d中的单词总数；

步骤3、利用主题情感混合模型TSCM不断对Tempθ、、和进行迭代更新：重复如下操作直到迭代次数大于最大迭代次数Z：对每篇短评d中的每个单词w，计算并更新向量Tempθ，循环这个过程X次，从第X+1次开始，若迭代次数每增加Y次，则更新、和的值，并判断迭代次数是否大于Z；其中，为联合分布，z _-i与l _-i分别表示除短评d中第i个词以外的其他词的主题与情感极性；表示短评d中的第s个句子中，主题k属于情感极性l的概率，表示词语v同时属于主题k和情感极性l的概率，表示短评d中情感极性l出现的概率；

步骤4、通过判断每篇短评d的情感极性：对于短评d，若，其中l ₁为积极情感，l ₂为消极情感，则判定短评d的情感极性为积极情感，反之为消极情感。

进一步的，所述主题情感混合模型TSCM的建立方法为：

1）利用以β为参数的狄利克雷分布函数随机生成（情感，话题-单词）先验概率分布；

2）利用以γ为参数的狄利克雷分布函数随机生成（短评-情感）先验分布；

3）利用以α为参数的狄利克雷分布函数随机生成(短评，短评，情感)-话题先验分布；

4）重复如下操作直到生成一篇短评中的所有单词：对每一篇短评首先利用（短评-情感）先验分布生成一个情感标签l，然后情感标签l从(短评，句子，情感)-话题分布生成一个主题标签z，最后根据选出的情感l与主题z，从(情感，主题)-词语分布产生单词w；

5）重复步骤4）直到短评数据集中的所有短评生成完毕。

本发明的有益效果是提供了一种网络短评情感挖掘方法，相较于传统的网络短评情感挖掘方法，本发明方法将整篇评论中每个句子的主题概率分布视为不同，能更好地反映Web用户的短评写作行为习惯，发现与短评作者真实感受更相符合的情感观点，克服了现有的情感挖掘方法不能有效发现隐藏于短评中的用户真实情感与观点的缺陷，可广泛应用于以微博网络、邮件网络、BBS论坛网络等各种社交平台，可以提升信息主动服务质量、增强网络文化安全等。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中主题情感混合模型TSCM的图模型。

图3是本发明实施例中三种模型（JST、S-LDA与TSCM）对不同数据集的情感极性分类准确率示意图。

图4是本发明实施例中TSCM就主题数而言的鲁棒性示意图。

图5是本发明实施例中主题数鲁棒性的比较（Movie）示意图。

图6是本发明实施例中主题数鲁棒性的比较（Books）示意图。

图7是本发明实施例中主题数鲁棒性的比较（Music）示意图。

图8是本发明实施例中主题数鲁棒性的比较（Electronics）示意图。

图9是本发明实施例中Movie数据集中提取的主题词示意图。

图10是本发明实施例中Books数据集中提取的主题词示意图。

图11是本发明实施例中Music数据集中提取的主题词示意图。

图12是本发明实施例中Electronics数据集中提取的主题词示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

为了方便详细阐述本发明，首先对LDA主题模型与互联网短评行为理论进行简介。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集中潜藏的主题信息。它采用了词袋（bag of words）表示方法，将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数学对象，每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。LDA通过概率推导方法来寻找文档集的语义结构，具体可描述为文档单词生成过程：对每一篇文档都从主题分布中抽取一个主题，然后从与该主题所对应的单词分布中抽取一个单词，重复上述过程直至遍历文档中的每一个单词。

根据互联网社会学相关研究表明，互联网用户对商品、服务、新闻等对象进行评价有着一个基本模式：用户在发表评论时往往会先确定评论的情感极性，然后再对评价对象的各个方面进行评价，即先确定情感极性，再确定各个句子的主题。以淘宝宝贝评价为例：

淘客A在淘宝网成功地买了一台电脑，A在收到电脑后可以根据自己对这台电脑的喜爱程度、实际收到的电脑与卖家描述是否符合等对其进行评论。首先淘客A可以选择“好评”、“中评”、“差评”三类评价，即确定评论的情感极性，然后淘客A可以根据自己收到的电脑对电脑的各方面(显示器、风扇、摄像头等)进行评论或者在电脑使用一段时间后对电脑的实际使用情况进行评论，即确定各个句子的主题。

本发明的网络短评情感挖掘方法，综合主题模型LDA与互联网短评行为理论实现网络短评的情感挖掘，如图1所示，包括以下步骤：

步骤3、利用主题情感混合模型TSCM不断对Tempθ、、和进行迭代更新：重复如下操作直到迭代次数大于最大迭代次数Z：对每篇短评d中的每个单词w，计算并更新向量Tempθ，循环这个过程X次，从第X+1次开始，若迭代次数每增加Y次，则更新、和的值，并判断迭代次数是否大于Z；其中，为联合分布，z _-i与l _-i分别表示除短评d中第i个词以外的其他词的主题与情感极性；、和表示短评d中的第s个句子中，主题k属于情感极性l的概率，表示词语v同时属于主题k和情感极性l的概率，表示短评d中情感极性l出现的概率；

进一步的，所述主题情感混合模型TSCM的建立方法为：

4）重复如下操作直到生成一篇短评中的所有单词：对每一篇短评首先利用（短评-情感）先验分布生成一个情感标签l，然后情感标签l从(短评，句子，情感)-话题分布生成一个主题标签z，最后根据选出的情感l与主题z，从(情感，主题)-词语分布产生单词w

5）重复4）直到短评数据集中的所有短评生成完毕。

下面参考图2来说明本发明方法中的主题情感混合模型TSCM。

尽管主题模型LDA有着牢固的数学基础与良好的扩展性，但情感层的缺失使其无法完成文档情感的分析。基于此，我们对LDA进行改造，通过在LDA中嵌入情感层构造一个用以分析文档情感的四层模型TSCM(图2)，在TSCM中，情感标签与文档关联，主题标签与句子关联，在此基础上，主题又与情感标签关联，词语同时与主题和情感标签关联。

对于短评集C={d₁,d₂,…,d_M}，其中M为集合的基数，与短评集C对应的词典的大小为W，短评d_i是由N_d个单词组成的序列，即d_i={w₁,w₂, …,w_Nd}。TSCM产生短评集C的过程可简单归结为如下两个步骤：1) 初始化TSCM模型的先验分布参数，具体地，μ、π与θ分别服从狄利克雷分布Dir(β)、Dir(γ)与Dir(α)，其中β是指单词在短评集C中出现的先验次数，γ是指情感极性标签在短评d中出现的先验次数，θ服从Dir(α)分布，α是指主题在短评d的句子s中出现的先验次数；2) 概率生成短评集C中的单词，此生成过程可简单描述如下：首先从短评-情感分布π_d中选出一个情感标签l，l服从Mul(π_d)分布 (Mul(*)表示多项分布)；接着根据产生的情感标签l，从(短评，句子，情感)-主题分布θ_dsl中选出一个主题z，z服从Mul(θ_dsl)分布，这里θ与LDA的θ不同，LDA中一篇短评只有一个θ，而TSCM里一篇短评里θ的个数是短评句子数与情感极性种类数的乘积，即S_d*L；最后根据选出的情感l与主题z，从(情感，主题)-词语分布μ_lz中选择一个单词w，w服从Mul(μ_lz)分布。TSCM重复以上过程D*N_d次。

由于μ是一个L*K*W的矩阵，生成μ需要循环L*K*W次，所以产生μ的时间复杂度是O(L*K*W)，由于π是一个M*L的矩阵，所以产生π的时间复杂度是O(M*L)，由于θ 是一个M*Sd*L*K的矩阵，所以产生θ的时间复杂度是O(M*Sd*L*K) (Sd为短评d的句子数)。对于产生语料库C中每个单词的过程，TSCM重复这个过程M*Nd次，所以这个过程的时间复杂度是O(M*Nd)。由于O(M*L)<O(M*Sd*L*K)<O(L*K*W)<O(M*Nd)，所以TSCM算法的时间复杂度为O(M*Nd)。

TSCM模型推导

TSCM模型的推导采用吉布斯采样(Gibbs Sampling)的方法，吉布斯采样是一种快速高效的MCMC(Markov chain Monte Carlo)采样方法，它是通过迭代的采样方式对复杂的概率分布进行推导。为了要得到我们所需要的θ，μ，π分布，我们需要计算联合分布，其中z _-i与l _-i分别是指除了短评d中第i个词以外的其他词的主题与情感极性。联合分布可以拆分为如下项：

通过对上述式子进行欧拉展开，可得：

(1)

其中表示单词v同时属于主题k和情感极性l的频数，表示所有同时属于主题k和情感极性l的单词总的频数，表示伽马函数。

(2)

其中表示在短评d中的第s个句子中主题k属于情感极性l的频数，表示属于情感极性l的主题出现在短评d中的第s个句子中的总频数。

(3)

其中表示在短评d中情感极性l出现的频数，n _d表示短评d中情感极性标签的总频数，即短评d总的单词数。

有了上述式子后，我们就可以计算吉布斯采样的联合概率：

(4)

其中，表示短评d中的第s个句子里，除了当前单词i外，主题k属于情感极性l的频数，表示短评d中的第s个句子里，除了当前单词i外，属于情感极性l的所有主题的总频数。表示除了当前单词外，单词v同时属于主题k和情感极性l的频数，表示除了当前单词外，所有属于主题k和情感极性l的单词总频数。表示除了当前单词外，短评d中情感极性l的频数，表示除了当前单词外，短评d中情感极性标签的总频数，即短评d中的单词总数。

进一步利用最大似然估计方法对参数进行估计，其可形式化为公式(5)，(6)与(7)。

(5)

(6)

(7)

其中，表示短评d中的第s个句子中，主题k属于情感极性l的概率表示词语v同时属于主题k和情感极性l的概率，表示短评d中情感极性l出现的概率。

对于一篇需要进行情感分析的短评，我们可以根据P(l)来算出该短评属于l情感极性的概率(l为积极情感或消极情感)，若短评属于积极情感的概率大于短评属于消极情感的概率，则判断该短评的情感极性为积极，反之，则判断该短评的情感极性为消极。

TSCM模型内嵌算法的流程：

3）利用以α为参数的狄利克雷分布函数随机生成(短评，句子，情感)-话题先验分布；

4）重复如下操作直到生成一篇短评中的所有单词：对每一篇短评首先从短评-情感分布中选出一个情感标签l，然后情感标签l从(短评，句子，情感)-话题分布，最后根据选出的情感l与主题z，从(情感，主题)-词语分布中选择一个单词w；

5）重复步骤4）直到短评集中的所有短评生成完毕。

性能评测：

为了定量地分析和比较不同模型的性能，我们选择情感混合模型中具有代表性的JST、S-LDA模型与我们的TSCM模型进行比较，利用不同的基准数据集对三种模型进行实验.然后分别从情感分类准确率、主题数对准确率的影响以及主题提取三方面对三种模型进行分析和比较。实验环境为：CPU为Intel Core i5-2450M CPU，内存4G，OS为Windows 7。

本发明的实验是以4个真实网络短评数据集（Movie评论，Amazon公司发布的书籍类Books，音乐类Music与电子产品类Electronics评论)为数据集。Movie评论数据集是Pang等人最先整理出来的用于情感极性分析实验的数据集，是目前应用比较广泛的情感极性分析实验数据集，它由2000篇电影评论组成，其中积极情感电影评论与消极情感电影评论各占1000篇。亚马逊商品评论数据集是亚马逊公司(Amazon.com)收集的消费者对相关商品的星级打分与评论数据，其中包含书籍类，音乐类，电子产品类，体育用品类，杂志类等不同类别商品的评论。实验数据集的具体描述见表2，Pos表示积极情感评论数，Neg表示消极情感评论数，AveLen表示评论平均长度，VocSize表示单词个数，+表示预处理前，*表示预处理后.从表1的中列(AveLen+)与列(AveLen*)可以看出，Movie数据集的评论相对较长（我们称这样的数据集为长评论集），而其他数据的评论相对较短（我们称这样的数据集为短评论集）

表1实验数据集

数据集情感极性先验处理

研究表明，充分利用各种情感词典中的情感倾向性显著的词能有效提高短评情感分析算法的性能。基于此，我们在进行网络短评情感挖掘之前先进行数据集情感极性先验处理.首先在Movie数据集中人工提取具有强烈情感极性的种子(seed)情感词构造Movie数据集情感种子词表(表2)，该表包含积极情感词与消极情感词各21个。然后运用情感词典HowNet对Movie和Amazon数据集进行情感极性先验处理，即若数据集里的单词在HowNet中出现，则将该词的情感极性赋为HowNet中的情感极性值。HowNet情感词典一共含有2345个积极情感词和2862个消极情感词，先验处理后的数据集情感词出现情况如表3所示.

表2 Movie数据集情感种子词

表3先验处理后的数据集情感词出现情况

准确率分析

为了更好地比较各种模型情感的分类准确率，我们对含混矩阵Confusion Matrix进行列向量化，JST、S-LDA和TSCM在情感极性先验处理后的各数据集的实验结果见表4.在表4，TP表示积极情感被正确分类的数量，FP表示积极情感被错误分类的数量，TN表示消极情感被正确分类的数量，FN表示消极情感被错误分类的数量.根据表4与公式(8)可计算各模型在各数据集上的分类准确率(图3)。公式(8)中的Total表示各数据集的大小.

Accuracy = (TP + TN)/Total (8)

由图3可以看出：1) 三种模型都在长评论集Movie具有相对较高的分类准确率，而在短评论集Amazon的分类准确率相对较低，这说明三种模型在情感分析时都存在着信息量丰富度更大的评论的偏好；2) 和JST与S-LDA相比较，除了在数据集Music上，TSCM的分类正确率在其他所有的数据集上都要明显高于前二者，尤其在长评论集上TSCM的优势表现特别突出，即使是数据集Music，TSCM在分类正确性上也与前二个模型表现相当；3)对比Movie数据集在不同词典下的准确率发现，HowNet先验处理方法导致的情感分类准确率要高于seed先验处理方法，这可能是某些情感词的HowNet预定情感极性值与其在Movie中的实际情感极性值存在差异，从而影响了模型对情感极性的判断.

对比表4中同一算法的TP和TN可以看出，TSCM对所有数据集的积极情感评论的分类准确率都要高于对应的消极情感评论分类准确率，而JST与S-LDA则不同，对于Movie、Books和Electronics数据集，JST对消极情感评论的分类准确率高于对积极情感评论的分类准确率，而对于Music数据集则相反。S-LDA对Movie和Books数据集消极情感评论的分类准确率高于积极情感评论的分类准确率，对Music和Electronics则是积极情感评论的分类准确率高于消极情感评论的分类准确率。由此可见，TSCM对积极情感评论具有偏好，而JST与S-LDA没有这种偏好.进一步对比表4中不同算法的TP和TN可以看出，TSCM的TP值，而S-LDA的TN值最高，这也进一步验证了TSCM对积极情感评论的偏好性.

通过上述分析，不难得出如下结论：

1）TSCM可以有效地提高网络短评情感极性分类的准确率；

2）和JST与S-LDA相比较，TSCM更适合对较长评论进行情感极性分类，同时TSCM也存在种子情感词的域相关问题。

表4 三种模型对不同极性短评的分类准确率

主题数对准确率的影响

考虑到TSCM模型的主题情感混合特性，在此对主题数对情感极性分类准确率产生的影响展开实验分析。首先在数据集(Movie，Books，Music，Electronics)上考察TSCM，实验结果如图4所示。

从图4可以看出，尽管TSCM的分类准确率在随着主题数的改变而发生波动，但在多数数据集上的波动幅度是比较小的，除了个别特殊情形外(主题数为5和25的Movie数据集)，从而可知，主题数对TSCM情感极性分类准确率产生的影响度相对较小.另一个很值得关注的有趣观测是：TSCM在数据集Movie、Music、Books与Electronics上达到最高分类准确率时所对应的主题数分别为35、50、60与75，也就是说，TSCM出现准确率最高值时的主题数满足：#Topic(Movie)<#Topic(Music)< #Topic(Books)< #Topic(Electronics)，而这恰好是数据集平均文本长度(AveLength)的长短关系。对TSCM来说，数据集平均文本长度越大，其准确率最高值所对应的主题数越小。在主题情感混合模型中，准确率最高值所对应的主题数是否与平均文本长度存在某种关联关系，目前还没有相关的理论研究，我们将此作为未来的工作。

接着，我们在上述4个数据上对JST和S-LDA进行类似实验，以进一步比较分析主题数对TSCM、JST和S-LDA的影响度，实验结果见图5、图6、图7与图8。由这些图可知，在4个实验数据集中，TSCM的准确率几乎在所有不同主题数下都比JST和S-LDA高，只有极少数情形(主题数为5、25的Movie，主题数为XX的Music)。这表明了我们提出的TSCM具有比JST和S-LDA更好的性能。

主题提取

主题情感混合模型TSCM能同步进行评论的主题和情感分析，本实验利用TSCM模型从(Movie，Books，Music，Electronics)数据集中分别提取积极情感与消极情感主题词，并以此来评估提取出的单词对于判断情感极性是否有用。实验结果如图9、图10、图11与图12所示，在此仅列出出现概率最高的20个单词。图中红色边框内的主题词具有积极情感，黑色边框内的主题词具有消极情感，主题词的颜色是随机产生的，主题词出现的频率越高，主题词的字体越大.

从图9可以看出，Movie数据集中提取的主题词存在较多的情感词，比如，积极情感词good、amaz、pretty等与消极情感词bad、bore、worst、wast、aw、unfunny等，积极情感词中good出现的频率最高，而消极情感词中bad与bore出现频率最高。此外在Movie数据集下也提取出与电影有关的主题词(如：积极情感下的director、actor应是与电影的导演与演员有关)。从图10、图11与图12可以看出，从Books、Music和Electronics数据集中提取的主题词则较少出现情感词，具体地说，在Books中提取的主题词主要与书名或书的内容有关(如：积极情感下出现频率最高的词Fair应该是描述书里经常出现的集市。消极情感下的Whitomb应是书中出现的惠特科姆酒店，Mosley应是与书中出现的名叫莫斯利的人有关)。在Music数据集中提取的主题词主要与乐器、歌名或歌的内容有关(如：积极情感下出现频率相对较低的Piano、Rain可能是描述韩国钢琴家李闰珉弹的钢琴曲kiss the rain。而消极情感下出现频率较高的life、woman可能指代一些描述女人生活的歌曲)。在Electronics数据集中提取的主题词主要是电子产品的品牌、属性等(积极情感下的HONDA、Nissan都是汽车品牌，还有积极情感下出现频率最高的两个词Quality与Power应是描述某些电器的质量与功率。而消极情感下的sound、quality则可能是描述一款耳机的声音质量)。由此可见，TSCM提取主题词对我们理解短评内容与短评情感极性都有重要的作用，因而其有效实现了主题发现与情感分析的完美结合。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种网络短评情感挖掘方法，其特征在于，包括以下步骤：

步骤2、利用情感词典对短评数据集中的单词情感极性与主题偏好进行初始化：若短评数据集里的单词在情感词典中出现，则将该单词的情感极性赋为情感词典定义的情感极性值，否则随机分配情感极性l，对短评数据集里的单词w随机分配主题k，并更新向量其中表示在短评d中的第s个句子里主题k属于情感极性l的频数，n_dsl表示在短评d中的第s个句子里主题k属于情感极性l的所有主题的总频数，表示单词v同时属于主题k和情感极性l的频数，n_lk所有属于主题k和情感极性l的单词总频数，表示短评d中情感极性l的频数，n_d短评d中的单词总数；

步骤3、利用主题情感混合模型TSCM不断对Tempθ、和进行迭代更新：重复如下操作直到迭代次数大于最大迭代次数Z：对每篇短评d中的每个单词w，计算p(z_i＝z，l_i＝l|z_-i，l_-i，w)并更新向量Tempθ，循环这个过程X次，从第X+1次开始，若迭代次数每增加Y次，则更新和的值，并判断迭代次数是否大于Z；其中，p(z_i＝z，l_i＝l|z_-i，l_-i，w)为联合分布，z_-i与l_-i分别表示除短评d中第i个词以外的其他词的主题与情感极性；表示短评d中的第s个句子中，主题k属于情感极性l的概率，表示词语v同时属于主题k和情感极性l的概率，表示短评d中情感极性l出现的概率；

步骤4、通过判断每篇短评d的情感极性：对于短评d，若其中l₁为积极情感，l₂为消极情感，则判定短评d的情感极性为积极情感，反之为消极情感；

所述主题情感混合模型TSCM的建立方法为：

1)利用以β为参数的狄利克雷分布函数随机生成(情感，话题-单词)先验概率分布；

2)利用以γ为参数的狄利克雷分布函数随机生成(短评-情感)先验分布；

3)利用以α为参数的狄利克雷分布函数随机生成(短评，短评，情感)-话题先验分布；

4)重复如下操作直到生成一篇短评中的所有单词：对每一篇短评首先利用(短评-情感)先验分布生成一个情感标签l，然后情感标签l从(短评，句子，情感)-话题分布生成一个主题标签z，最后根据选出的情感l与主题z，从(情感，主题)-词语分布产生单词w；

5)重复步骤4)直到短评数据集中的所有短评生成完毕。