CN104731812A - 一种基于文本情感倾向识别的舆情检测方法 - Google Patents
一种基于文本情感倾向识别的舆情检测方法 Download PDFInfo
- Publication number
- CN104731812A CN104731812A CN201310717168.XA CN201310717168A CN104731812A CN 104731812 A CN104731812 A CN 104731812A CN 201310717168 A CN201310717168 A CN 201310717168A CN 104731812 A CN104731812 A CN 104731812A
- Authority
- CN
- China
- Prior art keywords
- participle
- emotion
- text
- words
- polarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本情感倾向识别的舆情检测方法。本方法为:1)建立一情感特征词库,用于存储情感特征词语及其属性信息,所述属性信息包括:情感强度、类别和极性;2)利用分词工具将待处理文本内容进行分词,并对分词结果进行过滤、排重处理;3)将处理后的分词与所述情感特征词库进行匹配,提取匹配的分词及其属性信息,得到一匹配分词集合;4)根据所述匹配分词集合中的分词属性确定该待处理文本内容的情感倾向;5)根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆情信息。与现有技术相比,本发明降低了情感特征词匹配的时间复杂度,提高了运算效率。
Description
技术领域
本发明涉及一种基于文本的情感倾向识别的舆情检测方法,尤其涉及自然语言的情感分析,属于自然语言分析领域和网络信息安全领域。
背景技术
随着web2.0不断发展,尤其是博客、微博、论坛等自媒体产生了用户的参与、评价、体验、以及用户一些不满的情绪,这部分信息随着时间的积累将迅速的膨胀,依靠人工的方式难以收集判断并整理。此类研究逐渐成为一个研究热点,比如专利名称一种从互联网海量信息中发现热点的方法,专利号:200910028939.8;以及专利名称网络热点和舆情的检测方法,专利号:200910308542.4的技术文献;该发明通过搜集指定时间范围内的网络论坛和博客系统的文档、提取本征特征、进行褒贬倾向性分析等步骤,获知网名对热点事件的舆情观点。
2011年,佛蒙特大学计算实验室的项目Hedonometer在过去的五年中每天都会对Twitter上面的千万条Tweet进行情感分析,并将其结果记录了下来。通过分析它会在人们的Tweet中寻找一些反映正面情绪或者负面情绪的关键词。
2012年5月29日,联合国“全球脉动”(Global Pulse)计划发布《大数据开发:机遇与挑战》报告,阐述了大数据带来的机遇、主要挑战和大数据应用。Global Pulse计划是希望利用“大数据”来促进全球经济发展,使用自然语言解密软件来对社交网站和文本消息中的信息进行“情绪分析”,帮助预测某个给定地区的失业率、支出削减或是疾病爆发等现象。
目前在自然语言分析领域,由于国外的语言结构与国内的语言结构有着本质上的差异,中文与英文的语法结构存在很大的差异,汉语的博大精深,国外的一些分析技术很难应用到中文领域,特别在语义的识别上存在着一些误差。目前国内的常用的计算文本中抽取的关键词和种子词的相似度来对文本的情感倾向性进行判别(SO-PMI算法)、虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定。基于svm算法,前提是训练一套较好的分析模型需要较长的时间,从实际角度来讲对于新词的扩展需要重新进行测试训练,会增加扩展的复杂度。本方法基于词性的统计以及情感强度的计算,具有较好的识别性能及准确度,同时方便于对情感词典的扩展。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于文本情感倾向识别的舆情检测方法,实现了对文本情感倾向的快速分析、统计、判定,进行舆情监控、信息预测等多个领域。
本发明的方法主要是通过对一段文字信息进行分词处理过滤,抽取情感特征词,然后与情感词库进行匹配查找,得到的词条对应的情感强度、分类以及极性,得出一段文字或一句话的情感倾向及程度。
本发明的舆情检测方法流程图如附图所示,其步骤为:
1)建立一个情感特征词库,用于存储基本的情感特征词语及其情感强度、类别、极性等属性信息。其中(1,9)区间表示正面的情感强度,(-1,-9)区间表示负面情感强度,绝对值越大,表示情感强度越大;
2)对指定时间范围内或指定信息源中的每一待处理文本内容进行去杂处理,去除文本内容中的干扰的杂质,例如url、email、数字、特殊符号、以及HTML标签。其中特殊字符包括\r,\n,\t,HTML标签包括<body>、<style>、<title>、<br/>等带有尖括号闭合的标签。
3)分词处理,这里采用scws中文分词工具,将一段内容切分成若干个带有词性标注的单词,例如:词性n表示名词,a表示形容词,v表示动词。
4)根据分词到的结果进行过滤,排重处理。具体方法是:
a)过滤:为了提高词库的查询效率,通过scws分词得到的结果,按词性先过滤一部分与情感特征词无关的词性,例如:人名、地名、机构、时间词、代词等。
b)排重:由于信息源是人为产生的,很可能有带有强烈的个人情感色彩,对情感强度的判定会有一定干扰,以微博为例,例如汶川地震相关的评论,评论内容出现连续多个[泪],这种情况将多个连续重复出现的单词计为1个单词。
5)与情感特征词库进行匹配查找,抽取情感特征词以及对应的属性,得出对应的分类、情感强度以及极性。
6)根据情感强度以及极性的求和计算,可以反应出一段文字的情感倾向为正面或是负面的
7)根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆情信息。
进一步的,所述情感特征的词典为一个数组,每个词条属性包括:情感强度、分类、极性。
进一步的,所述情感词分类包括:乐、哀、惧、惊、恶、赞六类。
进一步的,所取得情感强度的计算方法为E=∑(t1,t2,…,tk);tk为每个情感特征词的情感强度。
进一步的,根据当前一段文字返回情感分类,其方法为:
a)通过scws分词工具得到一个分词后的结果数组,结果的属性包括(关键词、词性、tf、idf、权重),通过去杂、排重、过滤以后,与情感词库做匹配查找,将匹配到的结果对应的情感分类进行统计,每个分类统计出不同的情感分类以及所占有的比重,例如乐>赞>哀>惧>恶>惊,那么作为比较高的分类乐最接近真实分类,由此可以分析出一段文字的情感分类属性。
b)如果未能提取出情感特征词,说明此段文字情感倾向为中性,不具有明显的情感倾向。与现有技术相比,本发明的积极效果为:本发明通过对一段文字的情感特征词抽取和高效的过滤机制,降低了情感特征词匹配的时间复杂度,提高了运算效率。
附图说明
附图为本发明的方法流程图。
具体实施方式
下面对本发明的实施方式进行进一步的描述:
1.情感词典的建立,操作方法:
建立情感特征词典数组。本专利采用scws1.2.2专用词库,按按词性进行提取,可提取的词性为名词(n),动词(v),形容词(a),副词(d),成语(i),以及常用的网络词语进行抽取和标注,其中正面的词汇用正整数数[1-9]表示,用负数[-1--9]表示负面词汇,数值的绝对值越大,情感强度越强。
2.情感词的分类
目前常用的分类可以按情感色彩分类,分为乐、怒、哀、惧、惊,赞。也可以按情感极性分类,分为正、负两级,正面表示积极的情绪,负面表示消极的情绪。
表1:情感特征词典结构
特征词 | 分类 | 强度 | 极性 |
开心 | 乐 | 5 | 正 |
难过 | 哀 | 5 | 负 |
害怕 | 惧 | 6 | 负 |
惊奇 | 惊 | 5 | 负 |
可恨 | 恶 | 5 | 负 |
优秀 | 赞 | 5 | 正 |
3.根据情感特征词建立查找索引(本文采用php结构语言)
通过建立一个以特征词为索引的二位数组存放内存当中,结构简单,减少存储空间,查询高效,并且可维护易于修改。
$word_dict=array(
‘开心’=>array(‘class’=>‘乐’,‘strong’=>5,‘polarity’=>1),
‘难过’=>array(‘class’=>‘哀’,‘strong’=>5,‘polarity’=>0),
‘害怕’=>array(‘class’=>‘惧’,‘strong’=>6,‘polarity’=>0),
‘惊奇’=>array(‘class’=>‘惊’,‘strong’=>5,‘polarity’=>0),
‘可恨’=>array(‘class’=>‘恶’,‘strong’=>5,‘polarity’=>0),
‘优秀’=>array(‘class’=>‘赞’,‘strong’=>5,‘polarity’=>1),
);
function search_word($word){
global$word_dict;
if(is_set($word_dict[$word]){
return$dict_word[$word];
}else{
return array();
}
}
4.对进行文本分析的文本预处理,进行二层过滤。
对一段文本处理,在分词之前要对特殊的字符以及数字做过滤处理;
在分词之后产生的结果,首先先按词性做过滤处理,过滤不相关的分词,其次要对其做去重处理,这样做的目的是避免重复多余的词汇产生干扰,提高查询速度;
5.对情感强度以及极性统计。
对一段文字的分词之后,通过正向查的方式查询情感特征词库的强度、分类以及极性。
A强度的计算:E=∑(t1,t2,…,tk);tk为每个情感特征词的强度。
B分类的计算:对每个情感特征词的分类,分别统计每个分类出现的比例,比例最高的分类最接近这个分类属性。
C极性的计算:对每个情感特征词的极性,分别统计每个极性出现的比例,比例最高的极性最接近这个极性。
6.根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆情信息。
Claims (7)
1.一种基于文本情感倾向识别的舆情检测方法,其步骤为:
1)建立一情感特征词库,用于存储情感特征词语及其属性信息,所述属性信息包括:情感强度、类别和极性;
2)利用分词工具对指定时间范围内或指定信息源中的每一待处理文本内容进行分词,并对分词结果进行过滤、排重处理;
3)将处理后的分词与所述情感特征词库进行匹配,提取匹配的分词及其属性信息,得到一匹配分词集合;
4)根据所述匹配分词集合中的分词属性确定该待处理文本内容的情感倾向;
5)根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆情信息。
2.如权利要求1所述的方法,其特征在于所述情感倾向包括该待处理文本内容的情感类别、情感强调和极性。
3.如权利要求2所述的方法,其特征在于对所述匹配分词集合中的分词按照分词的类别进行统计,将分词数目最多的类别作为该待处理文本内容的情感类别;对所述匹配分词集合中分词的情感强度进行求和,得到该待处理文本内容的情感强调;对所述匹配分词集合中的分词按照分词的极性进行统计,将分词数目最多的极性作为该待处理文本内容的极性。
4.如权利要求3所述的方法,其特征在于所述情感类别包括乐、哀、惧、惊、恶、赞六类;所述极性包括正面、负面;所述情感强度的取值区间为(1,9)。
5.如权利要求1~4任一所述的方法,其特征在于步骤2)之前先对待处理文本内容进行去杂处理,包括去除待处理文本内容中的url、email、数字、特殊符号、以及html标签。
6.如权利要求5所述的方法,其特征在于所述分词为具有词性标注的分词,根据词性对分词结果进行过滤,从词性为名词的分词中识别出设定的与情感特征词无关的单词。
7.如权利要求6所述的方法,其特征在于所述与情感特征词无关的单词包括:人名、地名、机构、时间词和代词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310717168.XA CN104731812A (zh) | 2013-12-23 | 2013-12-23 | 一种基于文本情感倾向识别的舆情检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310717168.XA CN104731812A (zh) | 2013-12-23 | 2013-12-23 | 一种基于文本情感倾向识别的舆情检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104731812A true CN104731812A (zh) | 2015-06-24 |
Family
ID=53455709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310717168.XA Pending CN104731812A (zh) | 2013-12-23 | 2013-12-23 | 一种基于文本情感倾向识别的舆情检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104731812A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022845A (zh) * | 2015-08-26 | 2015-11-04 | 苏州大学张家港工业技术研究院 | 一种基于特征子空间的新闻分类方法及系统 |
CN105117385A (zh) * | 2015-09-09 | 2015-12-02 | 北京中润普达信息技术有限公司 | 一种以矩阵计算为基础进行舆论信息抽取的方法及系统 |
CN106095757A (zh) * | 2016-06-15 | 2016-11-09 | 河南工业大学 | 一种文本负向情感识别与自动化情感抚慰方法与系统 |
CN106447507A (zh) * | 2016-10-16 | 2017-02-22 | 广东聚联电子商务股份有限公司 | 一种社交网络的信息处理系统和方法 |
CN107704513A (zh) * | 2017-08-31 | 2018-02-16 | 四川长虹电器股份有限公司 | 一种网络舆情监控方法及系统 |
CN107741929A (zh) * | 2017-10-18 | 2018-02-27 | 网智天元科技集团股份有限公司 | 舆情分析方法及装置 |
CN108268448A (zh) * | 2018-01-24 | 2018-07-10 | 闽南师范大学 | 一种基于网络新闻的舆情分析方法、系统及介质 |
CN108388601A (zh) * | 2018-02-02 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 故障的分类方法、存储介质及计算机设备 |
CN108475261A (zh) * | 2016-01-27 | 2018-08-31 | Mz知识产权控股有限责任公司 | 确定聊天数据中的用户情绪 |
CN109359181A (zh) * | 2018-09-27 | 2019-02-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
CN109446409A (zh) * | 2018-09-19 | 2019-03-08 | 杭州安恒信息技术股份有限公司 | 一种疑似传销行为的目标对象的识别方法 |
CN111104418A (zh) * | 2019-12-23 | 2020-05-05 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
WO2020245745A1 (en) * | 2019-06-07 | 2020-12-10 | International Business Machines Corporation | Sentiment detection using medical clues |
CN112446217A (zh) * | 2020-11-27 | 2021-03-05 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040243554A1 (en) * | 2003-05-30 | 2004-12-02 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN101901212A (zh) * | 2010-07-23 | 2010-12-01 | 北京航空航天大学 | 一种基于认知评价理论的汉语文本情感识别方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
-
2013
- 2013-12-23 CN CN201310717168.XA patent/CN104731812A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040243554A1 (en) * | 2003-05-30 | 2004-12-02 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN101901212A (zh) * | 2010-07-23 | 2010-12-01 | 北京航空航天大学 | 一种基于认知评价理论的汉语文本情感识别方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022845A (zh) * | 2015-08-26 | 2015-11-04 | 苏州大学张家港工业技术研究院 | 一种基于特征子空间的新闻分类方法及系统 |
CN105117385A (zh) * | 2015-09-09 | 2015-12-02 | 北京中润普达信息技术有限公司 | 一种以矩阵计算为基础进行舆论信息抽取的方法及系统 |
CN105117385B (zh) * | 2015-09-09 | 2017-12-19 | 北京中润普达信息技术有限公司 | 一种以矩阵计算为基础进行舆论信息抽取的方法及系统 |
CN108475261A (zh) * | 2016-01-27 | 2018-08-31 | Mz知识产权控股有限责任公司 | 确定聊天数据中的用户情绪 |
CN106095757B (zh) * | 2016-06-15 | 2019-04-23 | 河南工业大学 | 一种文本负向情感识别与自动化情感抚慰方法与系统 |
CN106095757A (zh) * | 2016-06-15 | 2016-11-09 | 河南工业大学 | 一种文本负向情感识别与自动化情感抚慰方法与系统 |
CN106447507A (zh) * | 2016-10-16 | 2017-02-22 | 广东聚联电子商务股份有限公司 | 一种社交网络的信息处理系统和方法 |
CN107704513A (zh) * | 2017-08-31 | 2018-02-16 | 四川长虹电器股份有限公司 | 一种网络舆情监控方法及系统 |
CN107741929A (zh) * | 2017-10-18 | 2018-02-27 | 网智天元科技集团股份有限公司 | 舆情分析方法及装置 |
CN108268448A (zh) * | 2018-01-24 | 2018-07-10 | 闽南师范大学 | 一种基于网络新闻的舆情分析方法、系统及介质 |
CN108388601A (zh) * | 2018-02-02 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 故障的分类方法、存储介质及计算机设备 |
CN109446409A (zh) * | 2018-09-19 | 2019-03-08 | 杭州安恒信息技术股份有限公司 | 一种疑似传销行为的目标对象的识别方法 |
CN109359181A (zh) * | 2018-09-27 | 2019-02-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
CN109359181B (zh) * | 2018-09-27 | 2021-11-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
WO2020245745A1 (en) * | 2019-06-07 | 2020-12-10 | International Business Machines Corporation | Sentiment detection using medical clues |
GB2599042A (en) * | 2019-06-07 | 2022-03-23 | Ibm | Sentiment detection using medical clues |
GB2616369A (en) * | 2019-06-07 | 2023-09-06 | Merative Us L P | Sentiment detection using medical clues |
CN111104418A (zh) * | 2019-12-23 | 2020-05-05 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN111104418B (zh) * | 2019-12-23 | 2023-08-29 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN112446217A (zh) * | 2020-11-27 | 2021-03-05 | 广州三七互娱科技有限公司 | 情感分析方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731812A (zh) | 一种基于文本情感倾向识别的舆情检测方法 | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN113378565B (zh) | 多源数据融合的事件分析方法、装置、设备及存储介质 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
Negi et al. | A study of suggestions in opinionated texts and their automatic detection | |
CN102096680A (zh) | 信息有效性分析的方法和装置 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
Khasawneh et al. | Sentiment analysis of Arabic social media content: a comparative study | |
Das et al. | Sarcasm detection on flickr using a cnn | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
Gautam et al. | Sgg: Spinbot, grammarly and glove based fake news detection | |
CN109815401A (zh) | 一种应用于Web人物搜索的人名消歧方法 | |
Tang et al. | Evaluation of Chinese sentiment analysis APIs based on online reviews | |
Sandhiya et al. | A review of topic modeling and its application | |
Kilroy et al. | Using machine learning to improve lead times in the identification of emerging customer needs | |
Jariwala | Optimal feature extraction based machine learning approach for sarcasm type detection in news headlines | |
Suhas Bharadwaj et al. | A novel multimodal hybrid classifier based cyberbullying detection for social media platform | |
Sohail et al. | Anti-social behavior detection in urdu language posts of social media | |
CN112434163A (zh) | 风险识别方法及模型构建方法、装置、电子设备和介质 | |
Zhong et al. | Identification of opinion spammers using reviewer reputation and clustering analysis | |
Thanos et al. | Combined deep learning and traditional NLP approaches for fire burst detection based on twitter posts | |
Khan et al. | Fake news detection of South African COVID-19 related tweets using machine learning | |
Tahmasebi et al. | A Convergence of Methodologies: Notes on Data-Intensive Humanities Research. | |
CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 | |
Flores et al. | Tracking researcher mobility on the web using snippet semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150624 |