CN109684647A - 电影评论情感分析方法及装置 - Google Patents
电影评论情感分析方法及装置 Download PDFInfo
- Publication number
- CN109684647A CN109684647A CN201910122560.7A CN201910122560A CN109684647A CN 109684647 A CN109684647 A CN 109684647A CN 201910122560 A CN201910122560 A CN 201910122560A CN 109684647 A CN109684647 A CN 109684647A
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- sentiment
- film
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
电影评论情感分析方法及装置,属于数据分析领域,具体涉及一种评论的分析方法及装置。为了解决利用现有的情感分析方法对电影评论进行情感分析存在准确度低的问题。本发明首先对影评语料进行分词等预处理并进行句法分析;判断词是否属于影评属性特征词词典中的词,并查询判断该词的父节点的兄弟节点,获取句子中距离该词最近的节点对应的词,作为情感词;遍历W‑SVM情感词典和SO‑VEC情感词典,并判断情感词属于情感词典中的哪一类,并记录词语情感值;最后根据该词与情感词之间的否定词数量更新词语情感值;最终根据词语情感值确定影评细粒度情感。本发明适用于电影评论的情感分析。
Description
技术领域
本发明属于数据分析领域,具体涉及一种评论的分析方法及装置。
背景技术
随着网络技术的发展,越来越多的互联网用户喜欢通过互联网观看电影、电视节目或欣赏音乐等,一般的网站或者客户端都会提供评论区,供用户进行评论。也有一些用户仍然选择在网上选座订票,在电影院或者音乐厅等实体场馆看定影或者欣赏音乐。也有一些用户会选择在电影院或者音乐厅等实体场馆直接购买相应的服务。无论哪种方式,有很多网站或者客户端都会选择提供一个关于服务以及供应内容的评论机制,以便网站或者客户端的运营商能够收集信息,能够真实知道用户的真实感受,运营商或者商家可以通过大数据分析有针对性的进行供应内容筛选和更新,进而提升服务质量或者增加客户的粘性。
搜集评论内容对影视行业的意义更加重要。随着电影、电视、视频行业的发展,各个视频网站或影视公司都在努力获取用户的喜好,从而提供或者制作符合更多人口味的商业片或视频。也有很多客户端或者影院的官网都会提供相应的评论区搜集用户的评论指导排片或者推荐内容。例如某达官网会根据电影评论进行分析,对影评比较好的电影进行延期供应,对影评不好的内容选择尽快下线;再例如某奇艺、某酷等视频网站会根据所有用户的影评进行分析,从而指导内容的排序。实际上每个用户也是有着自己的喜好的,目前已经有很多网站开始提供差异化服务,就是针对不同用户推动不同的内容,想要实现这一点,只需根据每个用户的历史影评进行分析,从而分析出用户的喜好并有针对性的推送。实际上这也是大数据分析的一个方向。
往往不同行业针对评论分析都会有各自的侧重和关注点,所以进行分析的手段和方式都会有所差别。针对电影评论而言,用户留下的评论包含了用户的体验与感受,这些信息比较复杂,但它通常包含强烈的情感色彩并且包含很大的价值,但是目前的情感分析方法往往并不能对电影评论中强烈的情感色彩进行有效的分析,其分析的准确度往往比较低,所以目前的分析方法不能完全适用电影评论分析。
发明内容
本发明为了解决利用现有的情感分析方法对电影评论进行情感分析存在准确度低的问题。
电影评论情感分析方法,包括以下步骤:
(1)爬取待分析的电影评论语料,并利用扩充结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;针对每个句子生成预处理之后的词语集合wordlist[j],所有句子的预料集合为wordlist;同时,按照分词结果对句子进行句法分析;
(2)对于句子中的每一个词Wi∈wordlist[j],查询特征词词典featureDict,判断Wi 是否属于影评属性特征词词典featureDict中的词;若是,跳向步骤(3);否则,另j+1;
(3)基于句法分析,判断Wi的父节点是否是“NN”或“NR”或“PN”,如果是,遍历这个父节点的父节点的兄弟节点找到标记为“VA”的节点;否则,返回步骤(2);
NN为常用名词,NR为固有名词,PN为代词,VA为表语形容词;
(4)获取句子中距离Wi最近的“VA”的节点对应的词,作为情感词p;
(5)遍历W-SVM情感词典和SO-VEC情感词典,若p属于褒义词情感词典,词语情感值VWi=1;若p属于贬义词情感词典,VWi=-1;
所述褒义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的褒义词情感词典,所述贬义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的贬义词情感词;
(6)判断Wi与p之间的词mk是否属于否定词词典,并记录mk的数量λ,同时更新词语情感值VWi=VWi*(-1)λ;最终根据词语情感值VWi确定影评细粒度情感;
所述的否定词词典为否定词构成的词典。
进一步地,步骤(1)中所述的扩充结巴分词词典的构建过程如下:
构建扩充结巴分词词典:在结巴分词的词库中添加以下词库内容:
a、搜狗细胞词库的内容;
b、使用NLPIR平台发现新词功能处理语料后得到的新词;
将添加内容后的结巴分词词库作为扩充结巴分词词典。
进一步地,步骤(2)中所述的特征词词典featureDict的构建过程如下:
步骤1.1、爬取语料,利用扩充的结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;
将预处理之后的语料保存为word2vec模型能够识别的文件格式并对word2vec模型进行训练,得到word2vec模型结构;
步骤1.2、对预处理之后的语料进行TF-IDF统计,基于统计结果抽取电影评价的x1个属性种子词;
步骤1.3、构建影评属性特征词词典featureDict:
将电影评价的x1个属性种子词输入word2vec模型,得到扩展词集合,对扩展词集合进行人工筛选,剔除非影评词,得到影评属性特征词词典featureDict。
进一步地,步骤(5)所述W-SVM情感词典的构建过程如下:
步骤2.1、构建词典:
构建基础情感词典:将HowNet词典与《情感词汇本体》词典进行归总并去除重复词条;筛选构造的基础情感词典,去除中性词;
步骤2.2、构建W-SVM情感词典:
抽取具有情感倾向且与基础情感词典重复的情感词作为情感种子词,记为SVM情感种子词,包括x2个褒义情感种子词、x3个贬义情感种子词;
将x1个属性种子词和SVM情感种子词分别输入word2vec模型,提取具有最接近的相似度的前m个词作为SVM候选词;
同时基于TF-IDF统计结果,根据词频挑选若干个基准褒义词和若干个基准贬义词;将基准词的词向量作为训练集进行SVM分类器的训练,利用训练好的SVM分类器模型对SVM候选词的褒贬分类,对分类的结果再进行二次人工矫正;
将经过人工矫正后的褒义词和贬义词加入到基础情感词典中,得到电影评论的W-SVM情感词典。
进一步地,步骤(5)所述SO-VEC情感词典的构建过程如下:
构建SO-VEC情感词典:
对预处理之后的语料进行词性标注工作,提取词性为形容词、成语、动词、语气词以及非语素词的词语,将提取的词语集合记为f-word;
对f-word中的词语输入word2vec模型,提取具有最接近的相似度的前n个词,作为VEC候选词,集合记为F-word;
将F-word中的词语与基础情感词典做交集,并对交集中的词进行词频统计;F-word 中的词语与基础情感词典没有相交的部分的集合记为new,对new中的词语进行人工筛选,剔除没有意义的词语,剩下的词语集合记为word1;
从与基础情感词典的褒义词典相交的部分中筛选出高词频中前n1个词语作为褒义情感种子词,记为VEC褒义情感种子词,集合记为pword;
从与基础情感词典的贬义词典相交的部分中筛选出高词频中前n2个词语作为贬义情感种子词,记为VEC贬义情感种子词,集合记为nword;
pword和nword构成VEC情感种子词集合;
采用SO-PMI算法对word1中的每个词语进行计算,若SO-PMI大于0则为褒义词,小于0则为贬义词,等于0的词语即中性词,不作任何处理;
最后对结果展开手动纠正,将纠正后的褒义词和贬义词加入到基础情感词典中,得到SO-VEC情感词典。
进一步地,所述采用SO-PMI算法对word1中的每个词语进行计算的过程如下:
word1中的第i1个词语,采用如下公式计算SO-PMI值,
公式中的word1i1为集合word1中的词语,pwordj1为集合pword中的词语,nwordj2为集合nword中的词语;count(word1i1,pwordj1)表示针对当前计算的词语word1i与 pword中的某个词语pwordj1同时出现在一个句子中的次数,count(word1i1,nwordj2)针对当前计算的词语word1i1与nword中的某个词语nwordj2同时出现在一个句子中的次数;q表示变量。
进一步地,所述n1=n2。
进一步地,步骤(6)所述否定词典中的否定词包括:不、非、无、未、不曾、不能、不怎么、不怎么样、没、没法、没有、请勿、不用、无须、并非、毫无、决不、休想、不是、永不、失去、未尝、未曾、毋、莫、无法、不会、从不、从未、从未有过、尚未、并未、尚无、从来不、从没、绝非、切莫、绝不、毫不、不必、忌、否、弗、木有、表、不足、木油、不要、未必、不太、不算、不可、不再、有待、尚待。
本发明的有益实施效果为:
针对于电影评论这种包含复杂内容和复杂情感信息的评论,本发明能够有效的对这些包含复杂内容和复杂情感信息的评论进行分析,经过与某网站电影评分的数据的比对分析,本发明能够准确的得到大众对某部电影的情感倾向。通过本发明可以实现对电影评论信息的分析,帮助电影行业或者视频行业真实知道用户的真实感受,进而指导行业发展或者根据用户的喜好制作并提供资源。
附图说明
图1为利用本发明对《九层妖塔》短评进行电影评论情感分析的结果。
具体实施方式
具体实施方式一:
电影评论情感分析方法,包括以下步骤:
步骤1、构建词典:
构建基础情感词典:
将HowNet词典与《情感词汇本体》词典进行归总并去除重复词条;
归总并去除重复词条的过程如下:
归总并去除HowNet中正面词与《情感词汇本体》中标注极性是1的词语的重复词条,组成基础情感词典中褒义词;归总并去除HowNet中负面词与《情感词汇本体》中标注极性是2的词语的重复词条,组成基础情感词典的贬义词;
人工筛选本发明构造的基础情感词典,本发明研究构造的词典中不考虑中性词,所以去除中性词;
构建扩充结巴分词词典:
结巴分词虽有发现新词的功能,但网络语言日新月异,为减少分词错误对接下来实验的影响,加入用户自定义词典,以实现分词的准确性。用户自定义词典构建过程如下:
在结巴分词的词库中添加以下词库内容:
a、搜狗细胞词库中“中外电影名称大全”、“网络流行新词”等词库的内容;
b、使用NLPIR平台发现新词功能处理语料后得到的新词;
NlpirParser平台新词智能发现系统可应用于文本挖掘、字典编辑、监测舆情等多种应用中,可以识别出词典中没有出现过的新词、流行用语等,可以对分词技术进行有效的提升和补充。将原始语料输入到该平台中,进行新词识别,通过该平台获取到一些新词并将它们添加到分词器的自定义字典中。
将添加内容后的结巴分词词库作为扩充结巴分词词典;
步骤2、爬取豆瓣网的语料,利用扩充结巴分词词典对爬取的语料进行分词,并进行去停用词等预处理,得到预处理之后的语料,将其保存为word2vec模型能够识别的文件格式并对word2vec模型进行训练,得到word2vec模型结构;
对word2vec模型进行训练的具体过程如下:
(1)加载python第三方gensim模块,以实现word2vec模型的训练;
(2)将保存为word2vec模型能够识别的文件格式的文件读入word2vec模型;
(3)输入如下命令进行词向量模型的训练:
model=word2vec.Word2Vec(sentences,window=5,size=200)
其中,sentences为输入的语料库,window为模型的词汇窗口大小参数,size为模型中词向量的维数。默认使用skip-gram模型。
步骤3、对预处理之后的语料进行TF-IDF统计,基于统计结果抽取电影评价的80个属性种子词;例如“导演、角色、演技、结尾、摄影”等;
步骤4、构建影评属性特征词词典featureDict:
将电影评价的80个属性种子词输入word2vec模型,得到扩展词集合,对扩展词集合进行人工筛选,剔除非影评词(剔除与内容无关的影评词语),得到影评属性特征词词典featureDict;
在本发明中,为了方便实验分析及个性化推荐策略,将电影评价属性归纳总结为四部分,包括:故事,主题,角色,技术。
故事是电影的基础,也是评价电影的主要标准。因为电影和小说、戏曲这些艺术一样,最重要、最基本的就是要讲一个能够吸引人并且完整的故事。故事这一评价属性包括故事本身的质量及电影导演、编辑讲故事的技巧。电影作品中传递的思想和其所表达的主题大多情况下能够引起人们更深入地思考,并且让一部电影升华到更高的层次。在带给我们享受的同时,也给予了我们内心深处极大的震撼。其实,电影和小说一样,并不单单只是有娱乐的功能,更重要的是还有教育和宣传的作用。所以,电影的主题也是本发明构造的评价属性中的一个关键组成部分。电影从本质上来讲属于表演的艺术。经典的荧幕形象比一部经典的电影更容易让人记住,如何塑造一个成功的角色是所有电影制作过程中需要慎重思考的问题。电影毕竟是一门艺术,且是一种形式感很强的艺术,摄影、剪辑等技术是这门艺术的重要组成部分,这些也构成了电影与音乐、文学等其他艺术样式最显著的区别。采用各种技术对电影的前三个评价属性进行美化包装,从而才能达到更佳的展现效果。将抽取的电影评论属性聚类于故事、主题、角色和技术四个部分。
影评属性特征词词典featureDict示例如下表所示:
表1电影评价属性特征词词典部分示例
步骤5、构建电影评论的W-SVM情感词典:
基于word2vec中词语相似度的计算可发现文本中包含的未知情感倾向的新词,再将其采用支持向量机进行分类,可以得到文本中发现的新词的情感倾向,这样就可以得到W-SVM情感词典;
若将预处理之后的语料中所有的词语输入word2vec模型,计算相似度得到情感新词,不仅会造成耗时过长,空间消耗过大的问题,还会产生过量的无意义词语,对其进行筛选将消耗大量的人力物力。
抽取具有情感倾向且与基础情感词典重复的情感词作为情感种子词,记为SVM情感种子词,包括30个褒义情感种子词、30个贬义情感种子词;这里抽取有情感倾向且与基础情感词典重复的情感词作为情感种子词的过程中,并不是在80个属性种子词中抽取具有情感倾向且与基础情感词典重复的情感词;
将80个属性种子词和60个SVM情感种子词分别输入word2vec模型,提取具有最接近的相似度的前m个词作为SVM候选词;在提取实验中,80个属性种子词和60个情感种子词,这140个词是一个一个输入的,要运行140遍。每一遍输出的结果数都不同,例如第一个词得到50个结果,相似度是从0.9到0.5的降序,只要提取相似度在0.8之上的30 个;第二个词得到60个结果,相似度是从0.8到0.5的降序,提取相似度到0.7之上的10 个,以此类推进行提取。
如果只用80个属性种子词,获取到的新词不够完整,所以要再从情感词方面进行扩充实验,这样得到的结果更加完整。例如:“这部电影的背景音乐真是棒呆,太完美了,牛*牛*。好听的简直人神共愤。”在这句话里,“背景音乐”属于属性种子词,“好听”属于褒义种子词,“牛*”“人神共愤”这两个词属于待识别的新词,也就是实验最终的结果。在word2vec模型进行训练的具体过程中,window=5,也就是模型在训练的时候,当前词与目标词之间的最大距离是5。如果只使用80个属性种子词进行实验,“背景音乐”只能识别出“牛*”这一个词,“人神共愤”超出激计算距离无法识别。所以添加情感种子词,“好听”就可以识别出“人神共愤”。这样两个待识别词就都获取到了。
同时基于TF-IDF统计结果,根据词频挑选100个基准褒义词和100个基准贬义词;将 200个基准词的词向量作为训练集进行SVM分类器的训练,利用训练好的SVM分类器模型对SVM候选词的褒贬分类,对分类的结果再进行二次人工矫正;
将经过人工矫正后的褒义词和贬义词加入到基础情感词典中,得到电影评论的W-SVM 情感词典;
数据获取及预处理实验
通过设计爬虫程序,本实施方式对350部电影的短评进行爬取,共爬取96118条短评,其中高分影评与低分影评均等。
预处理抓取到的短评,包括:(1)词语替换。因为本发明只对中文文本进行处理,但影评数据中夹杂着大量的英文及英文缩略词,而有些英文词语同样属于本发明的研究内容,所以对影评数据中的部分英文词语进行替换,例如“BGM”替换为“背景音乐”,“OST”替换为“原声带”等。(2)分词。本发明分词工具选用扩充后的结巴分词。(3) 去停用词。预处理工作结束后的影评数据就是词典构建工作的语料库。
实验环境采用JetBrainsPyCharm编译器,python2.7,python3.6。其中用到了gensim、 jieba、BeautifulSoup等类库。gensim是一个python主题模型包,主要的应用就是计算文本的相似度,这个库中包含了word2vec模型。BeautifulSoup也是python的一个库,其最主要的功能是通过解析文档从网页上抓取数据。在进行SVM分类时,本发明采用libsvm3.22,在python中进行调用。
实验结果:
将语料输入word2vec模型并经过人工筛选,共生成717个候选词语。采用libsvm分类器对未知褒贬倾向的候选词进行归类,部分分类实验的结果如下表所示。
表2SVM褒贬分类结果
减一星 | -1 |
燃爆 | 1 |
出乎意料 | 1 |
昏昏欲睡 | -1 |
出戏 | -1 |
酱油 | -1 |
最烦 | -1 |
增色 | 1 |
黑马 | 1 |
对分类的结果再进行二次人工矫正,本发明最终获取扩展词典包括褒义词425个,贬义词292个。最后把整理得到的基础情感词典和扩展情感词典相结合,得到电影评论 W-SVM情感词典。表3列出了一些扩充的情感词。
表3扩充的情感词
步骤6、构建SO-VEC情感词典:
计算词语SO-PMI值的首要条件就是得到候选的情感词汇,SO-PMI算法不能自己对一个词语是否属于情感词进行判别,有些词语经常与情感词搭配使用同时出现,其共现率自然会高,例如“电影”在语料中经常与“好看”、“精彩”等词语同时出现,该词会被误判为情感词,所以要对情感词进行预选。情感词的预选采用基于词性标注的结果进行,但不同词语在不同的领域,不同的语境中,词性也会有所变化,这会造成部分待识别词语未被选中为候选情感词。为了减少词性标注错误的影响,再利用word2vec对预选情感词展开进一步的判别,将基于词性的预选情感词输入词向量模型,得到与预选情感词最接近的词,将这些词用作扩展候选情感词。最后,对获得的候选情感词展开二次人工筛选处理。
对预处理之后的语料进行词性标注工作,提取词性为形容词(a)、成语(y)、动词(v)、语气词(i)以及非语素词(x)的词语,将提取的词语集合记为f-word;
对f-word中的词语输入word2vec模型,提取具有最接近的相似度的前n个词,作为VEC候选词,集合记为F-word;
将F-word中的词语与基础情感词典做交集,并对交集中的词进行词频统计;F-word 中的词语与基础情感词典没有相交的部分的集合记为new,对new中的词语进行人工筛选,剔除没有意义的词语,剩下的词语集合记为word1;
从与基础情感词典的褒义词典相交的部分中筛选出高词频中前n1个词语作为褒义情感种子词,记为VEC褒义情感种子词,集合记为pword;
从与基础情感词典的贬义词典相交的部分中筛选出高词频中前n2个词语作为贬义情感种子词,记为VEC贬义情感种子词,集合记为nword;
pword和nword构成VEC情感种子词集合;
采用SO-PMI算法对word1中的每个词语进行计算,若SO-PMI大于0则为褒义词,小于0则为贬义词,等于0的词语即中性词,不作任何处理;
最后对结果展开手动纠正,将纠正后的褒义词和贬义词加入到基础情感词典中,得到 SO-VEC情感词典;
本实施方式实验中,数据的获取及预处理等步骤与前述处理相同,在此不做累述。
对候选情感词和基础种子词计算他们之间的SO-PMI值,下表部分实验结果:
表4 SO-PMI褒贬分类结果
经过实验,最终获得的扩展词典共含有褒义词533个,贬义词464个。将扩展的情感词典与基础情感词典结合,得到了电影评论SO-VEC情感词典。表5是部分SO-VEC扩展词汇。
表5 SO-VEC扩充的部分情感词
步骤7、影评细粒度情感分析:
基于分析对象与任务之间的差异,情感分析可以分为两种粒度类型:粗粒度与细粒度。情感分析的分析对象可以是主题、文章级别、句子级别和词汇级别。细粒度情感分析作为情感分析工作的主要研究内容,它的主旨是挖掘产品的固有特征、情感词汇以及它们对应情感倾向等等。通过细粒度情感分析,可以发现用户对评价对象局部细节的情感态度,对改进评价对象、发掘潜在用户以及为其他用户提供决策意见起着极其重要的作用。举一个例子,句子“这部电影中背景音乐真是太加分了。”,对这个句子提取出来的细粒度信息包括:评价的属性对象“背景音乐”,评价情感词“加分”。经过分析可以得到结论,在这句话里面,经过“加分”这一情感词对属性“背景音乐”的修饰,它的情感倾向是褒义的。而评论属性和修饰其的情感词的组合抽取的实现需要基于依存句法分析来完成。
观察影评数据发现,影评中大量存在没有价值的句子,例如描述电影具体情节的句子。而此类句子对于本发明研究内容而言,属于干扰项,并且由于句子过长,不仅会影响运行速度,也会影响运行效果,所以在预处理阶段对影评进行断句,并筛选包含电影评论属性的相关句子。对筛选出的电影评论句子进行一系列的预处理,接下来分别使用本发明的情感词典结合电影情感分析算法以推导出电影评论属性词的情感倾向。
(1)爬取待分析的电影评论语料,并利用扩充结巴分词词典对爬取的语料进行分词,并进行去停用词等预处理,得到预处理之后的语料;针对每个句子生成预处理之后的词语集合wordlist[j],所有句子的预料集合为wordlist;同时,利用句法分析工具分析按照分词结果对句子进行句法分析;
(2)对于句子中的每一个词Wi∈wordlist[j],查询特征词词典featureDict,判断Wi 是否属于影评属性特征词词典featureDict中的词,即判断Wi的评价属性;若是,跳向步骤 (3);否则,另j+1;
(3)句法分析工具分析之后,整个句子自动生成一颗词树,会标注父节点子节点,基于句法分析,判断Wi的父节点是否是“NN”或“NR”或“PN”,如果是,遍历这个父节点的父节点的兄弟节点找到标记为“VA”的节点,这段程序就是实现找到一句话中的t 特征词和与之相关联的情感词;否则,返回步骤(2);
NN为常用名词,NR为固有名词,PN为代词,VA为表语形容词;
(4)获取句子中距离Wi最近的“VA”的节点对应的词,作为情感词p;
(5)遍历W-SVM情感词典和SO-VEC情感词典,若p属于褒义词情感词典,词语情感值VWi=1;若p属于贬义词情感词典,VWi=-1;
所述褒义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的褒义词情感词典,所述贬义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的贬义词情感词;
(6)判断Wi与p之间的词mk是否属于否定词词典,并记录mk的数量λ,同时更新词语情感值VWi=VWi*(-1)λ;最终根据词语情感值VWi确定影评细粒度情感;
所述的否定词词典为否定词构成的词典。
在对分析对象判断情感倾向时,如果否定词在情感词之前出现,那么这个词语的情感倾向就会产生转变。而中文表达中又存在着多种修饰手法,例如“双重否定”等,在这样的情况下,情感词的褒贬倾向又将发生转变。
基于上述情况,为了更好的完成情感分析任务,本发明在分析中添加构建了否定词词典。如下表所示:
表6否定词词典
为了验证本发明的效果,针对爬取待分析的电影评论语料,本实施方式事先基于依存句法分析对影评句子中包含的评论对象及评论情感词进行了标注,以便计算每一个电影评论属性的情感倾向。
具体实验数据
通过爬虫程序爬取电影《九层妖塔》短评300条,对爬取的数据进行断句、筛选相关句子、分词等预处理,得到本实施方式的实验数据。
本实施方式实验环境为Java,调用了stanford-parser-3.5.2-models.jar、stanford-parser.jar等jar包对句子进行词性标注及细粒度情感分析。
影评细粒度情感分析实验
对预处理之后的电影评论展开本实施方式细粒度的情感分析,分析效果如下表所示。
表7电影评论细粒度情感分析结果
本实施方式进行了四组对比试验,包括:
实验baseline:基于基础情感词典的细粒度情感分析;
实验2:基于W-SVM情感词典的细粒度情感分析;
实验3:基于SO-VEC情感词典的细粒度情感分析;
实验4:基于综合情感词典(两种扩展情感词典的综合)的细粒度情感分析。实验对比结果以人工抽取的结果为标准结果,进行测评。四组对比试验结果如表8所示。
表8实验对比结果
从实验结果表8可以看出,本发明提出的两种情感词典扩建方法相对于基础情感词典,得到不错的实验结果,各项测评指标得到明显提升。细粒度情感分析下,本发明提出的两种方法扩充的情感词典相对于基础情感词典的召回率和F值得到明显提升,准确率也有所提升。证明本发明的W-SVM与SO-VEC扩展方法是有效可行的。实验四表明将两种情感词典组合之后的分析效果更优。所以本发明接下来的实验将基于合并的情感词典进行。
将细粒度情感分析结果结合电影评价属性体系进行归纳汇总,对《九层妖塔》短评分析的结果如图1所示,针对于故事、主题、角色和技术的分析结果,从分析结果可以看出,正面得分总计72,负面得分总计-87,负面得分稍大于正面得分,而这部电影在豆瓣网站中的大众综合评分是4.2分,这也表明本发明所进行的情感分析工作与大众对电影的普遍接受程度一致。在这里我们需要对豆瓣电影用户的豆瓣评分做一个解释,豆瓣评分2分最差,10分最高,6分为合格分。如果一部电影的平均分低于6分,则说明这部电影比较不符合大众观影期待。
具体实施方式二:
本实施方式步骤6所述采用SO-PMI算法对word1中的每个词语进行计算的过程如下:
word1中的第i1个词语,采用如下公式计算SO-PMI值,
公式中的word1i1为集合word1中的词语,pwordj1为集合pword中的词语,nwordj2为集合nword中的词语;count(word1i1,pwordj1)表示针对当前计算的词语word1i与 pword中的某个词语pwordj1同时出现在一个句子中的次数,count(word1i1,nwordj2)针对当前计算的词语word1i1与nword中的某个词语nwordj2同时出现在一个句子中的次数;在固定的语料库中,a为一个常数,优选地n1=n2;q表示变量。
其他步骤和参数与具体实施方式一相同。
具体实施方式三:
电影评论情感分析装置,所述装置用于执行具体实施方式一或二所述的电影评论情感分析方法。
Claims (10)
1.电影评论情感分析方法,其特征在于,包括以下步骤:
(1)爬取待分析的电影评论语料,并利用扩充结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;针对每个句子生成预处理之后的词语集合wordlist[j],所有句子的预料集合为wordlist;同时,按照分词结果对句子进行句法分析;
(2)对于句子中的每一个词Wi∈wordlist[j],查询特征词词典featureDict,判断Wi是否属于影评属性特征词词典featureDict中的词;若是,跳向步骤(3);否则,另j+1;
(3)基于句法分析,判断Wi的父节点是否是“NN”或“NR”或“PN”,如果是,遍历这个父节点的父节点的兄弟节点找到标记为“VA”的节点;否则,返回步骤(2);
NN为常用名词,NR为固有名词,PN为代词,VA为表语形容词;
(4)获取句子中距离Wi最近的“VA”的节点对应的词,作为情感词p;
(5)遍历W-SVM情感词典和SO-VEC情感词典,若p属于褒义词情感词典,词语情感值VWi=1;若p属于贬义词情感词典,VWi=-1;
所述褒义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的褒义词情感词典,所述贬义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的贬义词情感词;
(6)判断Wi与p之间的词mk是否属于否定词词典,并记录mk的数量λ,同时更新词语情感值VWi=VWi*(-1)λ;最终根据词语情感值VWi确定影评细粒度情感;
所述的否定词词典为否定词构成的词典。
2.根据权利要求1所述的电影评论情感分析方法,其特征在于,步骤(1)中所述的扩充结巴分词词典的构建过程如下:
构建扩充结巴分词词典:在结巴分词的词库中添加以下词库内容:
a、搜狗细胞词库的内容;
b、使用NLPIR平台发现新词功能处理语料后得到的新词;
将添加内容后的结巴分词词库作为扩充结巴分词词典。
3.根据权利要求2所述的电影评论情感分析方法,其特征在于,步骤(2)中所述的特征词词典featureDict的构建过程如下:
步骤1.1、爬取语料,利用扩充的结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;
将预处理之后的语料保存为word2vec模型能够识别的文件格式并对word2vec模型进行训练,得到word2vec模型结构;
步骤1.2、对预处理之后的语料进行TF-IDF统计,基于统计结果抽取电影评价的x1个属性种子词;
步骤1.3、构建影评属性特征词词典featureDict:
将电影评价的x1个属性种子词输入word2vec模型,得到扩展词集合,对扩展词集合进行人工筛选,剔除非影评词,得到影评属性特征词词典featureDict。
4.根据权利要求3所述的电影评论情感分析方法,其特征在于,步骤1.1所述对word2vec模型进行训练的具体过程如下:
加载python第三方gensim模块;
将保存为word2vec模型能够识别的文件格式的文件读入word2vec模型;
输入如下命令进行词向量模型的训练:
model=word2vec.Word2Vec(sentences,window=5,size=200)
其中,sentences为输入的语料库,window为模型的词汇窗口大小参数,size为模型中词向量的维数。
5.根据权利要求3或4所述的电影评论情感分析方法,其特征在于,步骤(5)所述W-SVM情感词典的构建过程如下:
步骤2.1、构建词典:
构建基础情感词典:将HowNet词典与《情感词汇本体》词典进行归总并去除重复词条;筛选构造的基础情感词典,去除中性词;
步骤2.2、构建W-SVM情感词典:
抽取具有情感倾向且与基础情感词典重复的情感词作为情感种子词,记为SVM情感种子词,包括x2个褒义情感种子词、x3个贬义情感种子词;
将x1个属性种子词和SVM情感种子词分别输入word2vec模型,提取具有最接近的相似度的前m个词作为SVM候选词;
同时基于TF-IDF统计结果,根据词频挑选若干个基准褒义词和若干个基准贬义词;将基准词的词向量作为训练集进行SVM分类器的训练,利用训练好的SVM分类器模型对SVM候选词的褒贬分类,对分类的结果再进行二次人工矫正;
将经过人工矫正后的褒义词和贬义词加入到基础情感词典中,得到电影评论的W-SVM情感词典。
6.根据权利要求5所述的电影评论情感分析方法,其特征在于,步骤(5)所述SO-VEC情感词典的构建过程如下:
构建SO-VEC情感词典:
对预处理之后的语料进行词性标注工作,提取词性为形容词、成语、动词、语气词以及非语素词的词语,将提取的词语集合记为f-word;
对f-word中的词语输入word2vec模型,提取具有最接近的相似度的前n个词,作为VEC候选词,集合记为F-word;
将F-word中的词语与基础情感词典做交集,并对交集中的词进行词频统计;F-word中的词语与基础情感词典没有相交的部分的集合记为new,对new中的词语进行人工筛选,剔除没有意义的词语,剩下的词语集合记为word1;
从与基础情感词典的褒义词典相交的部分中筛选出高词频中前n1个词语作为褒义情感种子词,记为VEC褒义情感种子词,集合记为pword;
从与基础情感词典的贬义词典相交的部分中筛选出高词频中前n2个词语作为贬义情感种子词,记为VEC贬义情感种子词,集合记为nword;
pword和nword构成VEC情感种子词集合;
采用SO-PMI算法对word1中的每个词语进行计算,若SO-PMI大于0则为褒义词,小于0则为贬义词,等于0的词语即中性词,不作任何处理;
最后对结果展开手动纠正,将纠正后的褒义词和贬义词加入到基础情感词典中,得到SO-VEC情感词典。
7.根据权利要求6所述电影评论情感分析方法,其特征在于,所述采用SO-PMI算法对word1中的每个词语进行计算的过程如下:
word1中的第i1个词语,采用如下公式计算SO-PMI值,
公式中的word1i1为集合word1中的词语,pwordj1为集合pword中的词语,nwordj2为集合nword中的词语;count(word1i1,pwordj1)表示针对当前计算的词语word1i与pword中的某个词语pwordj1同时出现在一个句子中的次数,count(word1i1,nwordj2)针对当前计算的词语word1i1与nword中的某个词语nwordj2同时出现在一个句子中的次数;q表示变量。
8.根据权利要求7所述电影评论情感分析方法,其特征在于,所述n1=n2。
9.根据权利要求1所述电影评论情感分析方法,其特征在于,步骤(6)所述否定词典中的否定词包括:不、非、无、未、不曾、不能、不怎么、不怎么样、没、没法、没有、请勿、不用、无须、并非、毫无、决不、休想、不是、永不、失去、未尝、未曾、毋、莫、无法、不会、从不、从未、从未有过、尚未、并未、尚无、从来不、从没、绝非、切莫、绝不、毫不、不必、忌、否、弗、木有、表、不足、木油、不要、未必、不太、不算、不可、不再、有待、尚待。
10.电影评论情感分析装置,其特征在于,所述装置用于执行权利要求1至9之一所述的电影评论情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910122560.7A CN109684647B (zh) | 2019-02-19 | 2019-02-19 | 电影评论情感分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910122560.7A CN109684647B (zh) | 2019-02-19 | 2019-02-19 | 电影评论情感分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684647A true CN109684647A (zh) | 2019-04-26 |
CN109684647B CN109684647B (zh) | 2020-07-24 |
Family
ID=66195950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910122560.7A Active CN109684647B (zh) | 2019-02-19 | 2019-02-19 | 电影评论情感分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684647B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502744A (zh) * | 2019-07-15 | 2019-11-26 | 同济大学 | 一种针对历史公园评价的文本情感识别方法及装置 |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111061876A (zh) * | 2019-12-10 | 2020-04-24 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111191614A (zh) * | 2020-01-02 | 2020-05-22 | 中国建设银行股份有限公司 | 一种单据分类方法和装置 |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111259661A (zh) * | 2020-02-11 | 2020-06-09 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111310444A (zh) * | 2020-01-16 | 2020-06-19 | 北京大学 | 一种公园景观服务识别方法 |
CN111353044A (zh) * | 2020-03-09 | 2020-06-30 | 重庆邮电大学 | 一种基于评论的情感分析方法及系统 |
CN111832313A (zh) * | 2020-06-09 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本中情感搭配集合的生成方法、装置、设备和介质 |
CN113327140A (zh) * | 2021-08-02 | 2021-08-31 | 深圳小蝉文化传媒股份有限公司 | 基于大数据分析的视频广告投放效果智能分析管理系统 |
CN117649242A (zh) * | 2023-12-14 | 2024-03-05 | 联通(江苏)产业互联网有限公司 | 一种基于nlp模型的质检服务智能监管系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN107305539A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
US10002371B1 (en) * | 2013-01-02 | 2018-06-19 | Codeq, Llc | System, method, and computer program product for searching summaries of online reviews of products |
-
2019
- 2019-02-19 CN CN201910122560.7A patent/CN109684647B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10002371B1 (en) * | 2013-01-02 | 2018-06-19 | Codeq, Llc | System, method, and computer program product for searching summaries of online reviews of products |
CN107305539A (zh) * | 2016-04-18 | 2017-10-31 | 南京理工大学 | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 |
CN106503049A (zh) * | 2016-09-22 | 2017-03-15 | 南京理工大学 | 一种基于svm融合多种情感资源的微博情感分类方法 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
Non-Patent Citations (2)
Title |
---|
IKE PERTIWI WINDASARI 等: "Sentiment Analysis on Twitter Posts", 《2017 4TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY, COMPUTER, AND ELECTRICAL ENGINEERING (ICITACEE)》 * |
KAI ZHAO 等: "A Hybrid Method for Sentiment Classification in Chinese", 《2015 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502744A (zh) * | 2019-07-15 | 2019-11-26 | 同济大学 | 一种针对历史公园评价的文本情感识别方法及装置 |
CN110598219A (zh) * | 2019-10-23 | 2019-12-20 | 安徽理工大学 | 一种面向豆瓣网电影评论的情感分析方法 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111221962B (zh) * | 2019-11-18 | 2023-05-26 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111221962A (zh) * | 2019-11-18 | 2020-06-02 | 重庆邮电大学 | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 |
CN111061876A (zh) * | 2019-12-10 | 2020-04-24 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111061876B (zh) * | 2019-12-10 | 2023-06-13 | 中国建设银行股份有限公司 | 事件舆情数据分析方法及装置 |
CN111191614A (zh) * | 2020-01-02 | 2020-05-22 | 中国建设银行股份有限公司 | 一种单据分类方法和装置 |
CN111191614B (zh) * | 2020-01-02 | 2023-08-29 | 中国建设银行股份有限公司 | 一种单据分类方法和装置 |
CN111310444A (zh) * | 2020-01-16 | 2020-06-19 | 北京大学 | 一种公园景观服务识别方法 |
CN111259661A (zh) * | 2020-02-11 | 2020-06-09 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111259661B (zh) * | 2020-02-11 | 2023-07-25 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111353044A (zh) * | 2020-03-09 | 2020-06-30 | 重庆邮电大学 | 一种基于评论的情感分析方法及系统 |
CN111353044B (zh) * | 2020-03-09 | 2022-11-11 | 重庆邮电大学 | 一种基于评论的情感分析方法及系统 |
CN111832313B (zh) * | 2020-06-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 文本中情感搭配集合的生成方法、装置、设备和介质 |
CN111832313A (zh) * | 2020-06-09 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本中情感搭配集合的生成方法、装置、设备和介质 |
CN113327140B (zh) * | 2021-08-02 | 2021-10-29 | 深圳小蝉文化传媒股份有限公司 | 基于大数据分析的视频广告投放效果智能分析管理系统 |
CN113327140A (zh) * | 2021-08-02 | 2021-08-31 | 深圳小蝉文化传媒股份有限公司 | 基于大数据分析的视频广告投放效果智能分析管理系统 |
CN117649242A (zh) * | 2023-12-14 | 2024-03-05 | 联通(江苏)产业互联网有限公司 | 一种基于nlp模型的质检服务智能监管系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109684647B (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684647A (zh) | 电影评论情感分析方法及装置 | |
CN105975558B (zh) | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 | |
CN108287922B (zh) | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 | |
Jakob et al. | Beyond the stars: exploiting free-text user reviews to improve the accuracy of movie recommendations | |
JP4148522B2 (ja) | 表現検出システム、表現検出方法、及びプログラム | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
KR101074215B1 (ko) | 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법 | |
Na et al. | Comparing sentiment expression in movie reviews from four online genres | |
Mihalcea et al. | What men say, what women hear: Finding gender-specific meaning shades | |
CN103995853A (zh) | 基于关键句的多语言情感数据处理分类方法及系统 | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN110119443A (zh) | 一种面向推荐服务的情感分析方法 | |
Othman et al. | Using NLP approach for opinion types classifier | |
Andrushchenko et al. | Using parsed and annotated corpora to analyze parliamentarians' talk in Finland | |
Pappas et al. | Multilingual visual sentiment concept matching | |
CN112527963B (zh) | 基于词典的多标签情感分类方法及装置、设备、存储介质 | |
Golubev et al. | Transfer learning for improving results on Russian sentiment datasets | |
Ammari et al. | Semantically enriched machine learning approach to filter YouTube comments for socially augmented user models | |
KR101265467B1 (ko) | 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
Tanawongsuwan | Product review sentiment classification using parts of speech | |
CN114817533A (zh) | 基于时间特征的弹幕情感分析方法 | |
Alnajjar et al. | When a computer cracks a joke: Automated generation of humorous headlines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |