CN104199845A - 基于主体模型的网上评论情感分类方法 - Google Patents

基于主体模型的网上评论情感分类方法 Download PDF

Info

Publication number
CN104199845A
CN104199845A CN201410389465.0A CN201410389465A CN104199845A CN 104199845 A CN104199845 A CN 104199845A CN 201410389465 A CN201410389465 A CN 201410389465A CN 104199845 A CN104199845 A CN 104199845A
Authority
CN
China
Prior art keywords
emotion
model
theme
comment
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410389465.0A
Other languages
English (en)
Other versions
CN104199845B (zh
Inventor
姜明
王建
陈婵
王兴起
张旻
汤景凡
胡宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201410389465.0A priority Critical patent/CN104199845B/zh
Publication of CN104199845A publication Critical patent/CN104199845A/zh
Application granted granted Critical
Publication of CN104199845B publication Critical patent/CN104199845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于主体模型的网上评论情感分类方法。本发明首先提取网站的评论。其次使用中文分词包对评论进行分词,去除人称代词、助词、数字、字母以及标点符号。然后选定各个模型参数以及需要进行分类的情感数,并进行建立模型。最后将建立的模型应用于评论的情感分类,根据情感分布来判断每篇文档的情感值。本发明代替了人力来进行评论的情感分类,解放了双手,并且效率更高,更快。

Description

基于主体模型的网上评论情感分类方法
技术领域
本发明涉及一种主题类评论情感自动分类方法,具体是一种基于视频网站的主题类评论情感自动分类方法。
背景技术
随着Web2.0技术的出现和发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。与客观性文本不同的是,这些主观色彩浓厚的评论信息蕴含着大众舆论对上述目标实体的看法,对潜在用户、商家以及政府部门等具有十分重要的参考价值。比如当我们计划旅行或者准备购买某件商品时,通常会利用网络查看相关评论信息,并以此来辅助我们的最终决策。潜在用户可能会根据这些评论信息做出是否购买的决定,商家需要了解用户使用其产品的反馈意见或者其他商家的竞争情报,政府各职能部门需要全面掌握大众对其所辖区域的新闻事件的思想动态。然而,如果采用人工方式对这些海量信息进行收集和分析,显然是成本高昂、低效和困难的。利用计算机对非结构化的文本评论进行分类和提取的文本情感分析技术(TextSentiment Analysis)应运而生。
发明内容
本发明针对现有技术的不足,提供一种基于主题模型的面向网站评论的情感自动分类方法。
本发明具体包括以下步骤:
步骤(1)提取网站的评论,具体是:分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储。
步骤(2)使用中文分词包对评论进行分词,具体是:选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法。
步骤(3)去除人称代词、助词、数字、字母以及标点符号。
步骤(4)选定各个模型参数以及需要进行分类的情感数,具体是:
4-1、选定模型的超参数α,γ,将其设置为1。
4-2、设定模型参数T,即主题的数目。
4-3、设置另外一个超参数β,β设置为T/50。
4-4、设置情感数S。
步骤(5)建立模型,具体是:本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯,假设一句话只表达一个情感值,故对句子进行情感标签采样,建立文档-句子-情感关系。同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系。
步骤(6)将步骤(5)中建立的模型应用于评论的情感分类,具体是:根据预处理的网上评论,也就是文档生成过程的最终结果—-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布θ,情感分布П和主题-情感词分布Ψ,然后根据情感分布П来判断每篇文档的情感值。
本发明的有益效果:
第一,本发明代替了人力来进行评论的情感分类,解放了双手,并且效率更高,更快。
第二,本发明改进了主题模型使其在提取主题词的同时能提取情感词,在后期使用的时候,可以通过观察主题情感词来获取用户对某方面的舆情。
附图说明
图1为模型针对评论情感分类的流程图。
图2为模型的示意图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1所示,本发明具体包括以下步骤:
1)提取网站的评论;
(2)使用中文分词包对评论进行分词;
(3)去除人称代词(你,我,他),助词(的,了,呢)、数字、字母等无关停用词以及标点符号;
(4)选定各个模型参数以及需要进行分类的情感数。
(5)将数据导入模型,计算,分析输出结果。
所述的提取网站的评论,包括如下步骤:
A)分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储;
所述的使用中文分词包对评论进行分词,包括如下步骤:
B)选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法;
所述的去除人称代词(你,我,他),助词(的,了,呢)、数字、字母等无关停用词以及标点符号,包括如下步骤:
C)因为中文不像英文有天然的空格作为分隔符,所以要去除对语义环境影响不大的各种助词(的、了、呢之类)、数字、字母、无意义的符号以及相关的人称代词;
所述的选定各个模型参数以及需要进行分类的情感数,包括如下步骤:
D)首先选定模型的超参数α,α的选取没有特别的规则,一般是根据实验经验,这里将其设置为1;
E)接着要设定模型参数T,即主题的数目。所谓主题数,和所要分析的评论类别有关,比如笔记本电脑,涉及到的主题可能有内存,显示器,键盘,外壳,散热等话题,要根据类别分别设置;
F)然后是另外一个超参数β,β的设置和主题数T息息相关,一般设置为T/50;
G)再者设置超参数γ,γ同α类似,根据经验设为1;
H)最后是情感数S,这里要分类的情感只有两种,正面和负面,所以S为2;
所述的将数据导入模型,模型如图2所示:
I)本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯,假设一句话只表达一个情感值(转折句除外),故对句子进行情感标签采样,建立文档-句子-情感关系。同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系。
J)下面步骤讲述的是本模型模拟文档(评论)生成的过程:
1.首先,根据先验狄利克雷分布Dirichlet(β)生成对应主题z和相应情感s的主题-情感词分布Ψzs
2.对每篇文档(评论):
i)根据先验狄利克雷分布Dirichlet(γ),生成该文档的情感分布Пd
ii)对于每个情感s,根据先验狄利克雷分布Dirichlet(α),生成文档的主题分布θds
iii)对文档(评论)中的每句话:
根据情感分布Пd选择一个情感s;
给定情感s后,根据主题-情感分布θds,选择一个主题;
根据所选的主题z和情感s,从主题-情感词分布Ψzs中,选择一个主题-情感词。
将模型应用于评论情感分类,计算,分析输出结果。包括如下步骤:
K)将上述模型应用于评论的情感分类,需要做的是根据已有的、预处理的网上评论,也就是文档生成过程的最终结果—-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布θ,情感分布П和主题-情感词的分布Ψ,然后根据情感分布П来判断每篇文档的情感值。
L)使用Gibbs sampling算法来估计分布变量θ,Ψ,П,马卡洛夫链的每次转移中,第i个句子的情感标签和主题标签是根据以下的条件概率来抽取的:
P ( z i = t , s i = j | S - i , Z - i , W ) ∝ Count ( s , t ) - i + α Count ( s ) - i + Tα Γ ( Count ( s , t ) + β ) Γ ( Count ( s , t ) + Vβ + m i ) Π w = 1 V Γ ( Count ( s , t ) + β + m i ) Γ ( Count ( s , t ) + β ) Countg ( d , s ) + γ Count ( d ) + Sγ
其中Count(s,t)表示情感标签为s,主题标签为t的句子数,下标-i表示去除当前句子的计数;Count(d,s)表示文档d中情感标签为s的句子数;Count(d)为文档的总数量,mi则表示该句子单词数。那么三个参数θ、π、ψ的近似估计如下:
θ st = Count ( s , t ) + α Count ( s ) + Tα π ds = Count ( s , d ) + γ Count ( d ) + Sγ ψ wst = Count ( w , s , t ) + β Count ( s , t ) + Vβ
其中Count(s)为情感标签为s的词的总数,Count(s,d)为文档d中情感标签为s的词的总数,Count(w,s,t)为情感标签为s,主题标签为t的词的总数。T为主题总数,S为情感值总数,V为文档的单词集大小。
M)将评论数据导入模型进行计算,获取模型输出的П分布,它所代表的是每篇文档(每条评论)属于对应S种情感的概率,根据公式
S d = arg max s { π ds | s ∈ [ 1 , . . , S ] }
(其中Sd表示文档d对应的情感,Пds表示文档d属于情感s的概率值,argmax表示在众多情感s中,选取概率值Пds最大者),选择概率最大的情感值,即为模型判断文档d所属的情感值。
下面结合实施例,对本发明实现评论的情感分类做进一步说明:
1、下面以某点评网站为例,获取网站关于某个类别的主题结构信息,根据首页URL页面源码,通过正则表达式可以获取评论信息,并将评论进行前期处理,去除停用词,以及标点符号。
2、然后根据图2和表1,设置模型的各个参数。
表1
参数 含义 参数 含义
α 主题分布的超参数 ψ 词的分布
β 单词分布的超参数 π 文档的情感分布
γ 情感分布的超参数 S 情感类别数
w 文档中的词 s 情感值
θ 文档的主题分布 z 主题值
T 主题数 M 每篇文档的句子数
D 文档数 N 每篇文档的单词总数
3、运行模型,获取输出结果。
4、分析输出结果。根据表2(部分结果)中可以看到,结果一共有四列,对应值分别是文档序号,文档名,文档属于情感1(正面)的概率值,以及文档属于情感2(负面)的概率值。通过比较两种情感的概率大小就能轻易获得文档的情感倾向了。
表2
文档序号 文档名 情感1(正面) 情感2(负面)
doc_0 doc1 0.843511 0.156489
doc_1 doc2 0.059387 0.940613
doc_2 doc3 0.258969 0.741031
doc_3 doc4 0.304270 0.695730
doc_4 doc5 0.838542 0.161458
doc_5 doc6 0.090747 0.909253
doc_6 doc7 0.362953 0.637047

Claims (1)

1. 基于主体模型的网上评论情感分类方法,其特征在于包括如下步骤:
步骤(1)提取网站的评论,具体是:分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储;
步骤(2)使用中文分词包对评论进行分词,具体是:选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法;
步骤(3)去除人称代词、助词、数字、字母以及标点符号;
步骤(4)选定各个模型参数以及需要进行分类的情感数,具体是:
4-1、选定模型的超参数α,γ,将其设置为1;
4-2、设定模型参数T,即主题的数目;
4-3、设置另外一个超参数β,β设置为T/50;
4-4、设置情感数S;
步骤(5)建立模型,具体是:本模型在主题模型的基础上加入了情感因素的考量;按照自然语言的表达习惯,假设一句话只表达一个情感值,故对句子进行情感标签采样,建立文档-句子-情感关系;同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系;
步骤(6)将步骤(5)中建立的模型应用于评论的情感分类,具体是:根据预处理的网上评论,也就是文档生成过程的最终结果—-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布θ,情感分布П和主题-情感词分布Ψ,然后根据情感分布П来判断每篇文档的情感值。
CN201410389465.0A 2014-08-08 2014-08-08 基于主体模型的网上评论情感分类方法 Active CN104199845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389465.0A CN104199845B (zh) 2014-08-08 2014-08-08 基于主体模型的网上评论情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389465.0A CN104199845B (zh) 2014-08-08 2014-08-08 基于主体模型的网上评论情感分类方法

Publications (2)

Publication Number Publication Date
CN104199845A true CN104199845A (zh) 2014-12-10
CN104199845B CN104199845B (zh) 2018-05-29

Family

ID=52085138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389465.0A Active CN104199845B (zh) 2014-08-08 2014-08-08 基于主体模型的网上评论情感分类方法

Country Status (1)

Country Link
CN (1) CN104199845B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866651A (zh) * 2015-04-29 2015-08-26 昆明理工大学 一种基于agent网络人工社会模型的建模仿真方法
CN105893432A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 视频评论分类方法、视频评论显示系统以及服务器
CN105955957A (zh) * 2016-05-05 2016-09-21 北京邮电大学 一种商家总体评论中方面评分的确定方法及装置
CN106202181A (zh) * 2016-06-27 2016-12-07 苏州大学 一种情感分类方法、装置及系统
CN107193836A (zh) * 2016-03-15 2017-09-22 腾讯科技(深圳)有限公司 一种识别方法及装置
CN109145151A (zh) * 2018-06-20 2019-01-04 北京达佳互联信息技术有限公司 一种视频的情感分类获取方法及装置
CN110929026A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866651A (zh) * 2015-04-29 2015-08-26 昆明理工大学 一种基于agent网络人工社会模型的建模仿真方法
CN105893432A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 视频评论分类方法、视频评论显示系统以及服务器
CN107193836A (zh) * 2016-03-15 2017-09-22 腾讯科技(深圳)有限公司 一种识别方法及装置
CN107193836B (zh) * 2016-03-15 2021-08-10 腾讯科技(深圳)有限公司 一种识别方法及装置
CN105955957A (zh) * 2016-05-05 2016-09-21 北京邮电大学 一种商家总体评论中方面评分的确定方法及装置
CN105955957B (zh) * 2016-05-05 2019-01-25 北京邮电大学 一种商家总体评论中方面评分的确定方法及装置
CN106202181A (zh) * 2016-06-27 2016-12-07 苏州大学 一种情感分类方法、装置及系统
CN109145151A (zh) * 2018-06-20 2019-01-04 北京达佳互联信息技术有限公司 一种视频的情感分类获取方法及装置
CN110929026A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN110929026B (zh) * 2018-09-19 2023-04-25 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质

Also Published As

Publication number Publication date
CN104199845B (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
Mishra et al. Sentiment analysis of Twitter data: Case study on digital India
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
Trupthi et al. Sentiment analysis on twitter using streaming API
Devi et al. A feature based approach for sentiment analysis by using support vector machine
Venugopalan et al. Exploring sentiment analysis on twitter data
Basiri et al. A framework for sentiment analysis in persian
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN107862343A (zh) 基于规则和神经网络的商品评论属性级情感分类方法
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
Lloret et al. A novel concept-level approach for ultra-concise opinion summarization
CN104778209A (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN105183715B (zh) 一种基于词分布和文档特征的垃圾评论自动分类方法
Garg et al. Sentiment analysis of twitter feeds
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN104850617A (zh) 短文本处理方法及装置
Bouchlaghem et al. A machine learning approach for classifying sentiments in Arabic tweets
Arif et al. A machine learning based approach for opinion mining on social network data
Khemani et al. A review on reddit news headlines with nltk tool
Jha et al. Hsas: Hindi subjectivity analysis system
CN104572613A (zh) 数据处理装置、数据处理方法和程序
Kim et al. Comparing machine learning classifiers for movie WOM opinion mining
Khan et al. Sentiment analysis at sentence level for heterogeneous datasets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20141210

Assignee: Hangzhou Xinye Transmission Technology Co. Ltd.

Assignor: Hangzhou Electronic Science and Technology Univ

Contract record no.: 2019330000035

Denomination of invention: On-line comment sentiment classification method based on agent model

Granted publication date: 20180529

License type: Common License

Record date: 20190320

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20191014

Address after: 310000 23 / F, Shimao center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Xinye Transmission Technology Co. Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street

Patentee before: Hangzhou Electronic Science and Technology Univ

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 310000 floor 23, Shimao center, No. 857, Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address