CN102855276A - 一种判定评论文本极性的方法及其应用 - Google Patents

一种判定评论文本极性的方法及其应用 Download PDF

Info

Publication number
CN102855276A
CN102855276A CN2012102525823A CN201210252582A CN102855276A CN 102855276 A CN102855276 A CN 102855276A CN 2012102525823 A CN2012102525823 A CN 2012102525823A CN 201210252582 A CN201210252582 A CN 201210252582A CN 102855276 A CN102855276 A CN 102855276A
Authority
CN
China
Prior art keywords
polarity
word
comment
comment text
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102525823A
Other languages
English (en)
Inventor
徐戈
王厚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2012102525823A priority Critical patent/CN102855276A/zh
Publication of CN102855276A publication Critical patent/CN102855276A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公布了一种判定评论文本极性的方法,所述方法可以应用于网络舆情监控。将评论文本用汉语分词工具进行分词和词性标注;根据词性标注结果,选出形容词集合;对形容词集合中的单词分别进行形容词极性判定;比较正极性单词的个数与负极性单词的个数:如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。本工作主要从语言学的角度来考察极性的非对称性,并将这些非对称性应用到自然语言处理的情感分析中。“不”、“有点”两个极性指示器具有充分的语言学解释。

Description

一种判定评论文本极性的方法及其应用
技术领域
本发明提供一种判定评论文本的极性的方法,具体涉及一种形容词的极性判定方法,属于计算语言学领域,该方法可以应用于网络舆情监控。
背景技术
网络舆情监测是一项重要的工作。对于网上发布的各种新闻事件所产生的影响进行分析,有助于及时正确地进行相应处理。在很多情况下,针对某个新闻事件,我们希望了解究竟是正面评价多还是负面评价多。比如,以下一则新闻(见图1,详见http://edu.sina.com.cn/gaokao/2012-06-28/1700346332.shtml)引起了网民的热烈评论。
为了获得正负面评论的比例,传统的作法是采用人工分析。比如说,根据人工阅读判断得知,对该新闻中“文史哲祸害社会”论调的态度分布分别是:66%不同意、24%同意,此外10%持中立态度。人工对评论文本进行极性分类的准确度较高,但是极为耗时,不利于大批量的文本处理。
本文提出的方法,首先对评论文本中出现的形容词进行极性判定,然后再根据判定的结果对热点新闻的评论文本进行极性判定,确定该评论文本是正面评论、负面评论还是中性评论。需要指出,本文采用的方法,完全自动完成,适合大批量文本处理。
本发明中用来判断形容词极性的方法与已有授权专利《一种词汇语义褒贬获得方法、系统及装置》(申请号:200710099802.2)在总体框架上类似。该专利和本文都采用了Turney所提出的用互信息值对单词极性判定的框架(PMI-IR)。本发明方法与该专利有三点不同:
1.已有专利中的方法用到了搜索引擎中的AND运算符,而本申请专利的方法不需要使用AND运算符。可以排除诸如“美丽但骄傲”、“悲伤和欢乐”等噪声。因为,对于AND运算符来说,这些极性相反的单词(“美丽”为正极性,“骄傲”为负极性;“悲伤”为负极性,“欢乐”为正极性)都是影响最终结果的噪声。因此本发明方法能够获得更高的准确度。
2.本方法是从语言分析的实际出发,考虑到了形容词和其它词性的差异,也说明本方法更加有针对性。
3.本申请专利选择的极性指示器为“不”和“有点”,而不需要如该专利中根据经验选择PWords(正极性范例词集合)和NWords(负极性范例词集合),这种根据经验进行的选择容易带来结果的不确定性。
发明内容
本发明的目的是提供一种新的方法,能够自动判定评论文本的极性。发明内容包括两部分:判定形容词的极性和判定评论文本的极性。其中,形容词极性的判定是评论文本极性判定的基础环节。
本发明提供的技术方案如下:
一种判定形容词极性的方法,其特征是,对于给定形容词word,判断其极性的步骤如下:
1)在搜索引擎中用精确匹配模式查找“不word”,记下返回结果数目,得到hits(“不word”);
2)在搜索引擎中用精确匹配模式查找“有点word”,记下返回结果数目,得到hits(“有点word”);
3)在搜索引擎中用精确匹配模式查找“不”,记下返回结果数目,得到hits(“不”);
4)在搜索引擎中用精确匹配模式查找“有点”,记下返回结果数目,得到hits(“有点”);
5)计算word的极性SO-PMI-IR:
Figure BDA00001910475000021
6)若极性SO-PMI-IR(word)>0,则word为正极性,否则word为负极性;
其中,hits(query)是提交查询串query到搜索引擎后返回的命中记录数,即返回结果数目。
所述的判定形容词极性的方法,其特征是,为了避免运算溢出,当出现命中记录数为零时,用0.01替换。
本发明同时提供一种判定评论文本极性的方法,其特征是,对于给定的评论文本,判定其极性的步骤如下:
a)将评论文本用汉语分词工具进行分词和词性标注;
b)根据词性标注结果,选出形容词集合;
c)用上面所述的方法对形容词集合中的单词分别进行形容词极性判定;
d)比较正极性单词的个数与负极性单词的个数:如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。
所述的判定评论文本极性的方法,其特征是,所述汉语分词工具为中国科学院计算技术研究所汉语词法分析系统ICTCLAS。
上面所述方法可以应用于网络舆情监控,方法为,对于带有用户评论功能的某一条网络新闻,执行如下步骤:对于该新闻的每一条用户评论,用上面所述的方法自动判别所述用户评论文本的极性;展示所述网络新闻的用户评论的极性(即正面评价、中立评价、负面评价)情况。
所述的网络舆情监控方法,其特征是,展示的内容包括正面评价、中立评价以及负面评价的数量和/或百分比;展示方式为文本或者图形(如柱状图、饼状图等)。
所述的网络舆情监控方法,其特征是,展示的对象为普通读者,展示的位置为该网络新闻页面。
所述的网络舆情监控方法,其特征是,展示的对象为舆情监控部门。
所述的网络舆情监控方法,其特征是,对于已经计算过极性的用户评论,其极性结果自动保存;当有新的用户评论产生时,仅计算新的评论的极性,并更新展示结果。
所述的网络舆情监控方法,其特征是,所用到的分词、单词极性判定、评论文本极性判定、以及最后的展示均由计算机程序自动完成。
本工作主要从语言学的角度来考察极性的非对称性,并将这些非对称性应用到自然语言处理的情感分析中。“不”、“有点”两个极性指示器具有充分的语言学解释。
附图说明
图1实施例用图:新闻截图。
图2本发明中判定评论文本极性的流程图。
图3本发明中判定形容词极性的流程图。
图4实施例用图:新闻评论文本。
图5实施例用图:标注结果。
具体实施方式
针对判定形容词的极性和判定评论文本的极性两个部分,分别采用例子进行说明,以便理解具体实施过程。
A.判定评论文本的极性
针对图1中的新闻,假设有评论文本如图4。
判定该评论文本极性的流程图如图2所示。具体实施过程如下:
步骤一:将其中的文字用ICTCLAS(中国科学院计算技术研究所汉语词法分析系统Institute ofComputing Technology,Chinese Lexical Analysis System)进行分词和词性标注后得到结果如图5所示(换用其它合理完善的汉语词法分析系统进行分词和词性标注也可以,本发明并不仅限于ICTCLAS);
步骤二:在图5所示结果中,/a为形容词的词性标记,根据词性选出形容词集合为:“少”、“浅薄”、“狂妄”、“科学”。
步骤三:对以上四个单词分别进行形容词极性判定(见B判定形容词的极性),得到的结果为1个正极性(“科学”)和3个负极性(“少”,“浅薄”,“狂妄”)。
步骤四:由于正极性单词的个数小于负极性单词的个数,因此判定该评论是对新闻中“文史哲祸害社会”论调的负面评价。
通过自动的页面抽取工具,对该新闻已有的152条评论进行抽取,并按照上面的方法进行自动分析,得到的结果是:负面评价121,正面评价19,中立评价8;人工统计的结果是:负面评价119,正面评价18,中立评价15;由此可以看出使用本发明所得结果和人工统计结果基本吻合。这说明本文提出的方法具有较强的实用性,且能够极大地节省人工成本。需要注意,有一些评论文本经过ICTCLAS分词和词性标注后,其中不含形容词,这类评论在分析时不作考虑(例如,上述统计结果中有4个评论未考虑)。
B.判定形容词的极性
给定形容词word;选定某个搜索引擎,判定word的极性的流程图如图3所示。
以两个具体的例子解释实施方式。
例1:假设待判定极性的形容词为“美丽”,选择即刻搜索引擎(www.jike.com)。判定步骤如下:
步骤一:在即刻搜索引擎中输入“不美丽”(注意有双引号),返回记录1,820,000条,即hits(“不美丽”)=1,820,000;
步骤二:在即刻搜索引擎中输入“有点美丽”(注意有双引号),返回记录28,000条,即hits(“有点美丽”)=28,000;
步骤三:在即刻搜索引擎中输入“不”(注意有双引号),返回记录10,500,000,000条,即hits(“不”)=10,500,000,000;
步骤四:在即刻搜索引擎中输入“有点”(注意有双引号),返回记录663,000,000条,即hits(“有点”)=663,000,000;
步骤五:
Figure BDA00001910475000051
Figure BDA00001910475000052
步骤六:由于SO-PMI-IR(美丽)=2.03>0,因此,“美丽”的极性为正,这个结果与事实相符。
查询串"不word"是在待判定极性的单词“word”前加“不”,注意中间没有空格。双引号操作符("")是为了保证搜索引擎采用精确匹配,而非部分匹配。百度、谷歌等主流搜索引擎都采用双引号操作符进行文本串的精确匹配。
例2:假设待判定极性的形容词为“丑陋”,选择即刻搜索引擎(www.jike.com,当然,选用其它所有引擎也可以,例如,www.baidu.com,www.google.com等)。判定步骤如下:
步骤一:在即刻搜索引擎中输入“不丑陋”(注意有双引号),返回记录75,100条,即hits(“不丑陋”)=75,100;
步骤二:在即刻搜索引擎中输入“有点丑陋”(注意有双引号),返回记录46,900条,即hits(“有点丑陋”)=46,900;
步骤三:在即刻搜索引擎中输入“不”(注意有双引号),返回记录10,500,000,000条,即hits(“不”)=10,500,000,000;
步骤四:在即刻搜索引擎中输入“有点”(注意有双引号),返回记录663,000,000条,即hits(“有点”)=663,000,000;
步骤五:
Figure BDA00001910475000053
Figure BDA00001910475000054
步骤六:由于SO-PMI-IR(丑陋)=-3.30<0,因此,“丑陋”的极性为负,这与事实相符。
本发明所述的方法可以应用到网络舆情监控,例如:对于某一篇网络新闻,其用户评论往往是存在数据库中的,实施者需要在后台(即服务器端)做一个计算机程序,使用本发明所述方法,使之可以自动判断并对该新闻的所有用户评论的极性,迅速判断出该新闻的舆情走向,从而为相关部门进行及时决策提供有力的支持。为了显示更加直观,可以在新闻网页页面提供关于该新闻评价极性数量和/或图形的显示,当有新评论时自动更新该显示或人工驱动更新显示。

Claims (10)

1.一种判定形容词极性的方法,其特征是,对于给定形容词word,判断其极性的步骤如下:
1)在搜索引擎中用精确匹配模式查找“不word”,记下返回结果数目,得到hits(“不word”);
2)在搜索引擎中用精确匹配模式查找“有点word”,记下返回结果数目,得到hits(“有点word”);
3)在搜索引擎中用精确匹配模式查找“不”,记下返回结果数目,得到hits(“不”);
4)在搜索引擎中用精确匹配模式查找“有点”,记下返回结果数目,得到hits(“有点”);
5)计算word的极性SO-PMI-IR:
6)若极性SO-PMI-IR(word)>0,则word为正极性,否则word为负极性;
其中,hits(query)是提交查询串query到搜索引擎后返回的命中记录数,即返回结果数目。
2.如权利要求1所述的判定形容词极性的方法,其特征是,为了避免运算溢出,当出现命中记录数为零时,用0.01替换。
3.一种判定评论文本极性的方法,其特征是,对于给定的评论文本,判定其极性的步骤如下:
a)将评论文本用汉语分词工具进行分词和词性标注;
b)根据词性标注结果,选出形容词集合;
c)用权利要求1所述的方法对形容词集合中的单词分别进行形容词极性判定;
d)比较正极性单词的个数与负极性单词的个数:如果正极性单词的个数大于负极性单词的个数,则判定该评论文本为正面评价;如果正极性单词的个数等于负极性单词的个数,则判定该评论文本为中立评价;如果正极性单词的个数小于负极性单词的个数,则判定该评论文本为负面评价。
4.如权利要求3所述的判定评论文本极性的方法,其特征是,所述汉语分词工具为中国科学院计算技术研究所汉语词法分析系统ICTCLAS。
5.一种网络舆情监控方法,其特征是,对于带有用户评论功能的某一条网络新闻,执行如下步骤:对于该新闻的每一条用户评论,用权利要求3所述的方法自动判别所述用户评论文本的极性;展示所述网络新闻的用户评论的极性情况。
6.如权利要求5所述的网络舆情监控方法,其特征是,展示的内容包括正面评价、中立评价以及负面评价的数量和/或百分比;展示方式为文本或者图形。
7.如权利要求6所述的网络舆情监控方法,其特征是,展示的对象为普通读者,展示的位置为该网络新闻页面。
8.如权利要求6所述的网络舆情监控方法,其特征是,展示的对象为舆情监控部门。
9.如权利要求5所述的网络舆情监控方法,其特征是,对于已经计算过极性的用户评论,其极性结果自动保存;当有新的用户评论产生时,仅计算新的评论的极性,并更新展示结果。
10.如权利要求5所述的网络舆情监控方法,其特征是,所用到的分词、单词极性判定、评论文本极性判定、以及最后的展示均由计算机程序自动完成。
CN2012102525823A 2012-07-20 2012-07-20 一种判定评论文本极性的方法及其应用 Pending CN102855276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102525823A CN102855276A (zh) 2012-07-20 2012-07-20 一种判定评论文本极性的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102525823A CN102855276A (zh) 2012-07-20 2012-07-20 一种判定评论文本极性的方法及其应用

Publications (1)

Publication Number Publication Date
CN102855276A true CN102855276A (zh) 2013-01-02

Family

ID=47401864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102525823A Pending CN102855276A (zh) 2012-07-20 2012-07-20 一种判定评论文本极性的方法及其应用

Country Status (1)

Country Link
CN (1) CN102855276A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389971A (zh) * 2013-07-04 2013-11-13 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN104657425A (zh) * 2014-10-06 2015-05-27 中华电信股份有限公司 一种议题管理式网络舆情评价管理系统与方法
US9953077B2 (en) 2015-05-29 2018-04-24 International Business Machines Corporation Detecting overnegation in text
CN109118243A (zh) * 2017-06-26 2019-01-01 阿里巴巴集团控股有限公司 一种产品分享、有用评价识别、推送方法和服务器
CN110134856A (zh) * 2019-04-12 2019-08-16 平安国际智慧城市科技股份有限公司 应用程序评论的监控方法、装置及存储介质、计算机设备
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
CN100593783C (zh) * 2007-05-30 2010-03-10 北大方正集团有限公司 一种词汇语义褒贬获得方法、系统及装置
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
CN100593783C (zh) * 2007-05-30 2010-03-10 北大方正集团有限公司 一种词汇语义褒贬获得方法、系统及装置
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨超等: "基于情感词典扩展技术的网络舆情倾向性分析", 《小型微型计算机系统》 *
杨频、李涛、赵奎: "一种网络舆情的定量分析方法", 《计算机应用研究》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389971B (zh) * 2013-07-04 2017-03-29 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN103389971A (zh) * 2013-07-04 2013-11-13 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN104657425B (zh) * 2014-10-06 2019-02-22 中华电信股份有限公司 一种议题管理式网络舆情评价管理系统与方法
CN104657425A (zh) * 2014-10-06 2015-05-27 中华电信股份有限公司 一种议题管理式网络舆情评价管理系统与方法
US10650316B2 (en) 2014-10-06 2020-05-12 Chunghwa Telecom Co., Ltd. Issue-manage-style internet public opinion information evaluation management system and method thereof
US9953077B2 (en) 2015-05-29 2018-04-24 International Business Machines Corporation Detecting overnegation in text
US10275517B2 (en) 2015-05-29 2019-04-30 International Business Machines Corporation Detecting overnegation in text
US10902040B2 (en) 2015-05-29 2021-01-26 International Business Machines Corporation Detecting overnegation in text
CN109118243A (zh) * 2017-06-26 2019-01-01 阿里巴巴集团控股有限公司 一种产品分享、有用评价识别、推送方法和服务器
CN109118243B (zh) * 2017-06-26 2022-09-30 阿里巴巴集团控股有限公司 一种产品分享、有用评价识别、推送方法和服务器
CN110134856A (zh) * 2019-04-12 2019-08-16 平安国际智慧城市科技股份有限公司 应用程序评论的监控方法、装置及存储介质、计算机设备
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法

Similar Documents

Publication Publication Date Title
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN102855276A (zh) 一种判定评论文本极性的方法及其应用
Mehri et al. The complex networks approach for authorship attribution of books
Stab et al. Argumentation Mining in Persuasive Essays and Scientific Articles from the Discourse Structure Perspective.
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN104915446A (zh) 基于新闻的事件演化关系自动提取方法及其系统
Raharjana et al. User story extraction from online news for software requirements elicitation: A conceptual model
Al-Zaidy et al. Automatic summary generation for scientific data charts
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
CN107832781A (zh) 一种面向多源数据的软件缺陷表示学习方法
CN113076735B (zh) 目标信息的获取方法、装置和服务器
CN113656805A (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
KR20170120389A (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
CN110096681A (zh) 合同条款分析方法、装置、设备及可读存储介质
Ojokoh et al. A feature–opinion extraction approach to opinion mining
TWI698794B (zh) 專利文件的圖形資料之導覽內容的自動化得出顯示設備
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
Ishihara et al. Transforming Japanese archives into accessible digital books
Gąsior et al. The IPIPAN team participation in the check-worthiness task of the CLEF2019 CheckThat! Lab
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN111191413A (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
TW201316186A (zh) 中文數位反抄襲偵測比對系統與方法
CN115238093A (zh) 一种模型训练的方法、装置、电子设备及存储介质
KR101544142B1 (ko) 화제도 기반의 검색 제공 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130102