CN104199845A

CN104199845A - 基于主体模型的网上评论情感分类方法

Info

Publication number: CN104199845A
Application number: CN201410389465.0A
Authority: CN
Inventors: 姜明; 王建; 陈婵; 王兴起; 张旻; 汤景凡; 胡宏宇
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2014-12-10
Anticipated expiration: 2034-08-08
Also published as: CN104199845B

Abstract

本发明涉及一种基于主体模型的网上评论情感分类方法。本发明首先提取网站的评论。其次使用中文分词包对评论进行分词，去除人称代词、助词、数字、字母以及标点符号。然后选定各个模型参数以及需要进行分类的情感数，并进行建立模型。最后将建立的模型应用于评论的情感分类，根据情感分布来判断每篇文档的情感值。本发明代替了人力来进行评论的情感分类，解放了双手，并且效率更高，更快。

Description

基于主体模型的网上评论情感分类方法

技术领域

本发明涉及一种主题类评论情感自动分类方法，具体是一种基于视频网站的主题类评论情感自动分类方法。

背景技术

随着Web2.0技术的出现和发展，互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。与客观性文本不同的是，这些主观色彩浓厚的评论信息蕴含着大众舆论对上述目标实体的看法，对潜在用户、商家以及政府部门等具有十分重要的参考价值。比如当我们计划旅行或者准备购买某件商品时，通常会利用网络查看相关评论信息，并以此来辅助我们的最终决策。潜在用户可能会根据这些评论信息做出是否购买的决定，商家需要了解用户使用其产品的反馈意见或者其他商家的竞争情报，政府各职能部门需要全面掌握大众对其所辖区域的新闻事件的思想动态。然而，如果采用人工方式对这些海量信息进行收集和分析，显然是成本高昂、低效和困难的。利用计算机对非结构化的文本评论进行分类和提取的文本情感分析技术(TextSentiment Analysis)应运而生。

发明内容

本发明针对现有技术的不足，提供一种基于主题模型的面向网站评论的情感自动分类方法。

本发明具体包括以下步骤：

步骤(1)提取网站的评论，具体是：分析某门户网站以及某购物网站网页源代码，利用正则表达式获取评论栏，记录该主题属于哪一类别，并按照每类每条评论一个文本文件存储。

步骤(2)使用中文分词包对评论进行分词，具体是：选定中文分词包以及分词方法，选定要求是尽可能的保持原文的语义环境，这里使用的是最大粒度细分的方法。

步骤(3)去除人称代词、助词、数字、字母以及标点符号。

步骤(4)选定各个模型参数以及需要进行分类的情感数，具体是：

4-1、选定模型的超参数α，γ，将其设置为1。

4-2、设定模型参数T，即主题的数目。

4-3、设置另外一个超参数β，β设置为T/50。

4-4、设置情感数S。

步骤(5)建立模型，具体是：本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯，假设一句话只表达一个情感值，故对句子进行情感标签采样，建立文档-句子-情感关系。同样的，每句话也只表达一个主题，对句子进行主题采样，建立文档-句子-主题关系。

步骤(6)将步骤(5)中建立的模型应用于评论的情感分类，具体是：根据预处理的网上评论，也就是文档生成过程的最终结果—-主题情感词，逆向工程，求出在文档生成过程中发挥重要作用的三个概率分布变量，主题分布θ，情感分布П和主题-情感词分布Ψ，然后根据情感分布П来判断每篇文档的情感值。

本发明的有益效果：

第一，本发明代替了人力来进行评论的情感分类，解放了双手，并且效率更高，更快。

第二，本发明改进了主题模型使其在提取主题词的同时能提取情感词，在后期使用的时候，可以通过观察主题情感词来获取用户对某方面的舆情。

附图说明

图1为模型针对评论情感分类的流程图。

图2为模型的示意图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，本发明具体包括以下步骤：

1)提取网站的评论；

(2)使用中文分词包对评论进行分词；

(3)去除人称代词(你，我，他)，助词(的，了，呢)、数字、字母等无关停用词以及标点符号；

(4)选定各个模型参数以及需要进行分类的情感数。

(5)将数据导入模型，计算，分析输出结果。

所述的提取网站的评论，包括如下步骤：

A)分析某门户网站以及某购物网站网页源代码，利用正则表达式获取评论栏，记录该主题属于哪一类别，并按照每类每条评论一个文本文件存储；

所述的使用中文分词包对评论进行分词，包括如下步骤：

B)选定中文分词包以及分词方法，选定要求是尽可能的保持原文的语义环境，这里使用的是最大粒度细分的方法；

所述的去除人称代词(你，我，他)，助词(的，了，呢)、数字、字母等无关停用词以及标点符号，包括如下步骤：

C)因为中文不像英文有天然的空格作为分隔符，所以要去除对语义环境影响不大的各种助词(的、了、呢之类)、数字、字母、无意义的符号以及相关的人称代词；

所述的选定各个模型参数以及需要进行分类的情感数，包括如下步骤：

D)首先选定模型的超参数α，α的选取没有特别的规则，一般是根据实验经验，这里将其设置为1；

E)接着要设定模型参数T，即主题的数目。所谓主题数，和所要分析的评论类别有关，比如笔记本电脑，涉及到的主题可能有内存，显示器，键盘，外壳，散热等话题，要根据类别分别设置；

F)然后是另外一个超参数β，β的设置和主题数T息息相关，一般设置为T/50；

G)再者设置超参数γ，γ同α类似，根据经验设为1；

H)最后是情感数S，这里要分类的情感只有两种，正面和负面，所以S为2；

所述的将数据导入模型，模型如图2所示：

I)本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯，假设一句话只表达一个情感值(转折句除外)，故对句子进行情感标签采样，建立文档-句子-情感关系。同样的，每句话也只表达一个主题，对句子进行主题采样，建立文档-句子-主题关系。

J)下面步骤讲述的是本模型模拟文档(评论)生成的过程：

1.首先，根据先验狄利克雷分布Dirichlet(β)生成对应主题z和相应情感s的主题-情感词分布Ψ_zs；

2.对每篇文档(评论)：

i)根据先验狄利克雷分布Dirichlet(γ),生成该文档的情感分布Пd

ii)对于每个情感s，根据先验狄利克雷分布Dirichlet(α),生成文档的主题分布θ_ds

iii)对文档(评论)中的每句话：

根据情感分布П_d选择一个情感s；

给定情感s后，根据主题-情感分布θ_ds，选择一个主题；

根据所选的主题z和情感s，从主题-情感词分布Ψ_zs中，选择一个主题-情感词。

将模型应用于评论情感分类，计算，分析输出结果。包括如下步骤：

K)将上述模型应用于评论的情感分类，需要做的是根据已有的、预处理的网上评论，也就是文档生成过程的最终结果—-主题情感词，逆向工程，求出在文档生成过程中发挥重要作用的三个概率分布变量，主题分布θ，情感分布П和主题-情感词的分布Ψ，然后根据情感分布П来判断每篇文档的情感值。

L)使用Gibbs sampling算法来估计分布变量θ，Ψ，П，马卡洛夫链的每次转移中，第i个句子的情感标签和主题标签是根据以下的条件概率来抽取的：

P (z_{i} = t, s_{i} = j | S_{- i}, Z_{- i}, W) &Proportional; \frac{{Count (s, t)}_{- i} + α}{Count {(s)}_{- i} + Tα} \frac{Γ (Count (s, t) + β)}{Γ (Count (s, t) + Vβ + m_{i})} Π_{w = 1}^{V} \frac{Γ (Count (s, t) + β {+ m}_{i})}{Γ (Count (s, t) + β)} \frac{Countg (d, s) + γ}{Count (d) + Sγ}

其中Count(s,t)表示情感标签为s，主题标签为t的句子数，下标-i表示去除当前句子的计数；Count(d,s)表示文档d中情感标签为s的句子数；Count(d)为文档的总数量，m_i则表示该句子单词数。那么三个参数θ、π、ψ的近似估计如下：

\begin{matrix} θ_{st} = \frac{Count (s, t) + α}{Count (s) + Tα} & π_{ds} = \frac{Count (s, d) + γ}{Count (d) + Sγ} & ψ_{wst} = \frac{Count (w, s, t) + β}{Count (s, t) + Vβ} \end{matrix}

其中Count(s)为情感标签为s的词的总数，Count(s,d)为文档d中情感标签为s的词的总数，Count(w,s,t)为情感标签为s，主题标签为t的词的总数。T为主题总数，S为情感值总数，V为文档的单词集大小。

M)将评论数据导入模型进行计算，获取模型输出的П分布，它所代表的是每篇文档(每条评论)属于对应S种情感的概率，根据公式

S_{d} = \arg \max_{s} {π_{ds} | s &Element; [1, . ., S]}

(其中S_d表示文档d对应的情感，П_ds表示文档d属于情感s的概率值，argmax表示在众多情感s中，选取概率值П_ds最大者)，选择概率最大的情感值，即为模型判断文档d所属的情感值。

下面结合实施例，对本发明实现评论的情感分类做进一步说明：

1、下面以某点评网站为例，获取网站关于某个类别的主题结构信息，根据首页URL页面源码，通过正则表达式可以获取评论信息，并将评论进行前期处理，去除停用词，以及标点符号。

2、然后根据图2和表1，设置模型的各个参数。

表1

参数	含义	参数	含义
				α	主题分布的超参数	ψ	词的分布
β	单词分布的超参数	π	文档的情感分布
				γ	情感分布的超参数	S	情感类别数
w	文档中的词	s	情感值
				θ	文档的主题分布	z	主题值
T	主题数	M	每篇文档的句子数
				D	文档数	N	每篇文档的单词总数

3、运行模型，获取输出结果。

4、分析输出结果。根据表2(部分结果)中可以看到，结果一共有四列，对应值分别是文档序号，文档名，文档属于情感1(正面)的概率值,以及文档属于情感2(负面)的概率值。通过比较两种情感的概率大小就能轻易获得文档的情感倾向了。

表2

文档序号	文档名	情感1(正面)	情感2(负面)
				doc_0	doc1	0.843511	0.156489
doc_1	doc2	0.059387	0.940613
				doc_2	doc3	0.258969	0.741031
doc_3	doc4	0.304270	0.695730
				doc_4	doc5	0.838542	0.161458
doc_5	doc6	0.090747	0.909253
				doc_6	doc7	0.362953	0.637047

Claims

1. 基于主体模型的网上评论情感分类方法，其特征在于包括如下步骤：

步骤（1）提取网站的评论，具体是：分析某门户网站以及某购物网站网页源代码，利用正则表达式获取评论栏，记录该主题属于哪一类别，并按照每类每条评论一个文本文件存储；

步骤（2）使用中文分词包对评论进行分词，具体是：选定中文分词包以及分词方法，选定要求是尽可能的保持原文的语义环境，这里使用的是最大粒度细分的方法；

步骤（3）去除人称代词、助词、数字、字母以及标点符号；

步骤（4）选定各个模型参数以及需要进行分类的情感数，具体是：

4-1、选定模型的超参数α，γ，将其设置为1；

4-2、设定模型参数T，即主题的数目；

4-3、设置另外一个超参数β，β设置为T/50；

4-4、设置情感数S；

步骤（5）建立模型，具体是：本模型在主题模型的基础上加入了情感因素的考量；按照自然语言的表达习惯，假设一句话只表达一个情感值，故对句子进行情感标签采样，建立文档-句子-情感关系；同样的，每句话也只表达一个主题，对句子进行主题采样，建立文档-句子-主题关系；

步骤（6）将步骤（5）中建立的模型应用于评论的情感分类，具体是：根据预处理的网上评论，也就是文档生成过程的最终结果—-主题情感词，逆向工程，求出在文档生成过程中发挥重要作用的三个概率分布变量，主题分布θ，情感分布П和主题-情感词分布Ψ，然后根据情感分布П来判断每篇文档的情感值。