CN107038249A - 基于词典的网络舆情信息情感分类方法 - Google Patents
基于词典的网络舆情信息情感分类方法 Download PDFInfo
- Publication number
- CN107038249A CN107038249A CN201710298795.2A CN201710298795A CN107038249A CN 107038249 A CN107038249 A CN 107038249A CN 201710298795 A CN201710298795 A CN 201710298795A CN 107038249 A CN107038249 A CN 107038249A
- Authority
- CN
- China
- Prior art keywords
- score value
- emotion
- text
- word
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词典的网络舆情信息情感分类方法,包括构建词典、待分类文本拆分、计算意群情感分值和计算文本情感分值4个步骤。本发明通过基于构建的词典库,结合文本篇章结构、句法分析内容,充分考虑意群子句中否定词、程度词的作用和情感词词性的影响,能够更为准确地计算出文本篇章所表述出的情感倾向性,能更好地适用于网络舆情信息情感分类。
Description
技术领域
本发明涉及一种基于词典的网络舆情信息情感分类方法。
背景技术
随着网络舆论成为社会舆论的一种重要表现形式,网络舆情也逐渐对有关部门的决策产生了影响。但由于网络舆论是个“自由超市”,加上内容“把关人”的缺席,网络舆论的局限性比起传统媒体环境中一般意义上的局限更甚。因此,必须对网络舆论信息进行有效的汇集以及整理,以作进一步的引导和控制。
舆情工作者每天面对海量的舆论信息,想要及时发现负面敏感信息是非常困难的,亟需完善的文本情感分类方法。近年来,网络舆情信息情感的分类方法也在不断被研究人员推陈出新,现有的主要计算方法有:
1)基于贝叶斯分类器的分类方法
收集一定比例的正面、中性、负面情感文本语料库,将文本通过分词工具预处理,得到每一种情感分类下的词汇集合和相应的概率。通过贝叶斯分类器进行机器学习,在待分类文本到来时,分别计算文本属于正面、中性、负面三类集合的概率,得到概率值后,认定文本属于概率值较大的一类,得到情感倾向分析结果。
2)基于词典和极性的分类方法
人工构建情感词典库,其中标注有词汇、分值、极性,同时引入极性判断规则,在文本极性发生变化时,相应的情感得分值会取反。在待分类文本到来时,参考预置的情感词典库,对每一个情感词汇计算得分值,汇总所有的情感词汇分值后,比对预先测算出的阈值,判断目标值所处的区间,以得到文本所属的情感分类。
现有技术的缺点如下:
1)贝叶斯分类器模型依赖于其学习的语料库,语料库的收集和全面性是一大难题。另外,汉语言的复杂性、语境问题也使得分类结果会产生较大偏差。
2)舆情领域的情感词典随着经验的积累会相对完善,但单纯考虑情感词极性对篇章情感的影响不够全面,忽略了词性、语义这些对情感结果作用的因素。
发明内容
本发明要解决的技术问题是提供一种基于词典的网络舆情信息情感分类方法。该方法通过基础情感词典库,对待分类文本进行分词后,结合词典分值、篇章结构、语义和句法多种因素对待分类文本进行情感分类,以得到相对更准确的情感分类结果。
为了解决上述技术问题,本发明采用的技术方案是,基于词典的网络舆情信息情感分类方法,包括以下步骤:
一、构建词典
通过人工收集和标注的形式构建情感词词典、否定词词典、程度词词典库;
情感词词典包含词汇、词性、情感强度、极性四个属性;否定词词典包含词汇一个属性;程度词词典包含词汇、强度两个属性;
二、待分类文本拆分
按照篇章-段落-句子-意群子句的结构对待分类文本进行拆分,得到若干意群子句;
三、计算意群情感分值
对每一意群子句采用HanLP分词包分词,得到词汇和词性信息,记为词汇组;
遍历词汇组中的每一个词汇,同时标记程度词和否定词出现的位置,依据词性类别从情感词典中取出情感强度,记为得分值,在词汇极性为负面时取反;如果情感词前出现程度词,则分值在原有基础上乘以程度词强度值;如果情感词前出现否定词,则分值在原有基础上取反,否定词作用可累加;词汇组中每一个词汇得分值累加后得到的是意群情感分值;
四、计算文本情感分值
将意群子句情感分值按照文本篇章结构逆向合并即可得到文本情感分值,过程如下:
1)将句子中各意群子句分值累加得到句子分值;
2)将段落中各句子分值取均值得到段落分值;
3)将篇章中各段落分值取均值得到文本篇章分值;
4)由文本篇章分值落入的区间范围,判定文章情感倾向性。
本发明的有益效果是:
通过基于构建的词典库,结合文本篇章结构、句法分析内容,充分考虑意群子句中否定词、程度词的作用和情感词词性的影响,能够更为准确地计算出文本篇章所表述出的情感倾向性,能更好地适用于网络舆情信息情感分类。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明基于词典的网络舆情信息情感分类方法实施例的结构示意图。
图2是本发明基于词典的网络舆情信息情感分类方法实施例的意群子句情感分值计算的流程图。
图3是本发明基于词典的网络舆情信息情感分类方法实施例的意群子句逆向合并得到文本篇章情感值的过程示意图。
具体实施方式
一种基于词典的网络舆情信息情感分类方法,包括以下步骤:
一、构建词典
通过人工收集和标注的形式构建情感词词典(sentiLib)、否定词词典(negativeLib)、程度词词典(degreeLib)库。
情感词词典包含词汇(word)、词性(feature)、情感强度(strength)、极性(polar)四个属性;否定词词典包含词汇(word)一个属性;程度词词典包含词汇(word)、强度(strength)两个属性。
二、待分类文本拆分
按照篇章-段落-句子-意群子句的结构对待分类文本进行拆分,得到若干意群子句。主要包含以下步骤(图1):
1)将文本按照篇章结构拆分成段落集合Ps=[P1,P2,…,Pn];
2)对每一个段落按照句子结构拆分成句子集合Sts=[St1,St2,…,Stm];
3)对每一个句子按照逗号“,”分隔符拆分成意群子句集合Gs=[G1,G2,…,Gk]。
三、计算意群情感分值
对每一意群子句Gi采用HanLP分词包分词,得到词汇和词性信息,记为词汇组WordArray=[word1,word2,…,wordn]。
意群子句Gi情感分值Sg由词汇组得分值合并得来,遍历词汇组中的每一个词汇word[i],按照以下规则计算分值:
1)将情感词典中标注的情感强度记为得分值ws,在词汇极性为负面时取反ws=ws*(-1);
2)如果情感词前出现程度词,则分值在原有基础上乘以程度词强度值ws=ws*degree;
3)如果情感词前出现否定词,则分值在原有基础上取反ws=ws*(-1);如连续出现否定词,则依次取反ws=ws*(-1);
4)将当前词汇得分值纳入意群子句分值中Sg=Sg+ws。重复以上步骤直至本意群子句中所有词汇分值计算结束。
图2是上述意群子句情感分值计算的流程图。
四、计算文本情感分值
将意群子句情感分值按照文本篇章结构逆向合并即可得到文本情感分值。如图3所示,过程如下:
1)将句子中各意群子句分值累加得到句子分值Sc=Sg[0]+Sg[1]+…+Sg[k];
2)将段落中各句子分值取均值得到段落分值Sp=(Sc[0]+Sc[1]+…Sc[n])/m;
3)将篇章中各段落分值取均值得到文本篇章分值S=(Sp[0]+Sp[1]+…Sp[n])/n;
4)由文本篇章分值落入的区间范围,判定文章情感倾向性。S∈(-∞,-1]时,文本情感倾向于负面;S∈(-1,5]时,文本情感倾向于中性;S∈(5,+∞)时,文本情感倾向于正面。
案例
假定要对文本:“记者在基层调研发现,受利益驱使,企业环保数据造假的行为仍旧屡禁不止。不断涌现出来的环保数据造假使数据失真,进而影响环保治理决策,长此以往终究危及环境。”进行情感分类,如图2所示,过程如下:
1、构建词典
通过人工收集和标注的形式构建情感词词典sentiLib、否定词词典negativeLib、程度词词典库degreeLib。
2、待分类文本拆分
1)段落集合Ps=[P1],其中P1=“记者在基层调研发现,受利益驱使,企业环保数据造假的行为仍旧屡禁不止。不断涌现出来的环保数据造假使数据失真,进而影响环保治理决策,长此以往终究危及环境。”;
2)句子集合Sts=[St1,St2],其中St1=“记者在基层调研发现,受利益驱使,企业环保数据造假的行为仍旧屡禁不止。”,St2=“不断涌现出来的环保数据造假使数据失真,进而影响环保治理决策,长此以往终究危及环境。”;
3)意群子句集合Gs1=[G11,G12,G13],Gs2=[G21,G22,G23],其中G11=“记者在基层调研发现”,G12=“受利益驱使”,以此类推。
3、计算意群情感分值
1)对意群子句G11采用Hanlp分词包分词,得到WordArray=[记者/nnt,在/p,基层/n,调研/vn,发现/v];
2)依规则计算得到Sg=ws1+ws2+ws3+ws4+ws5=1.0;
3)重复以上步骤,计算出所有的Sg。
4、计算文本情感分值
1)句子分值Sc[0]=Sg1[0]+Sg1[1]+Sg1[2]=-9.0,
Sc[1]=Sg2[0]+Sg2[1]+Sg2[2]=-5.0;
2)段落分值Sp[0]=(Sc[0]+Sc[1])/2=-7.0;
3)文本篇章分值S=(Sp[0])/1=-7.0;
4)本例中S∈(-∞,-1],文本情感倾向于负面。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
Claims (1)
1.基于词典的网络舆情信息情感分类方法,包括以下步骤:
一、构建词典
通过人工收集和标注的形式构建情感词词典、否定词词典、程度词词典库;
情感词词典包含词汇、词性、情感强度、极性四个属性;否定词词典包含词汇一个属性;程度词词典包含词汇、强度两个属性;
二、待分类文本拆分
按照篇章-段落-句子-意群子句的结构对待分类文本进行拆分,得到若干意群子句;
三、计算意群情感分值
对每一意群子句采用HanLP分词包分词,得到词汇和词性信息,记为词汇组;
遍历词汇组中的每一个词汇,同时标记程度词和否定词出现的位置,依据词性类别从情感词典中取出情感强度,记为得分值,在词汇极性为负面时取反;如果情感词前出现程度词,则分值在原有基础上乘以程度词强度值;如果情感词前出现否定词,则分值在原有基础上取反,否定词作用可累加;词汇组中每一个词汇得分值累加后得到的是意群情感分值;
四、计算文本情感分值
将意群子句情感分值按照文本篇章结构逆向合并即可得到文本情感分值,过程如下:
1)将句子中各意群子句分值累加得到句子分值;
2)将段落中各句子分值取均值得到段落分值;
3)将篇章中各段落分值取均值得到文本篇章分值;
4)由文本篇章分值落入的区间范围,判定文章情感倾向性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710298795.2A CN107038249A (zh) | 2017-04-28 | 2017-04-28 | 基于词典的网络舆情信息情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710298795.2A CN107038249A (zh) | 2017-04-28 | 2017-04-28 | 基于词典的网络舆情信息情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107038249A true CN107038249A (zh) | 2017-08-11 |
Family
ID=59536980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710298795.2A Pending CN107038249A (zh) | 2017-04-28 | 2017-04-28 | 基于词典的网络舆情信息情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107038249A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN108268448A (zh) * | 2018-01-24 | 2018-07-10 | 闽南师范大学 | 一种基于网络新闻的舆情分析方法、系统及介质 |
CN108563630A (zh) * | 2018-03-21 | 2018-09-21 | 上海蔚界信息科技有限公司 | 一种文本分析知识库的构建方法 |
CN108984517A (zh) * | 2018-06-11 | 2018-12-11 | 杜泽壮 | 一种媒体数据处理方法、装置、介质和设备 |
CN109284499A (zh) * | 2018-08-01 | 2019-01-29 | 数据地平线(广州)科技有限公司 | 一种行业文本情感获取方法、装置及存储介质 |
CN109885687A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种文本的情感分析方法、装置、电子设备及存储介质 |
CN110826317A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 基于词典与规则的文本情感分析方法 |
CN111522913A (zh) * | 2020-04-16 | 2020-08-11 | 山东贝赛信息科技有限公司 | 一种适用于长文本和短文本的情感分类方法 |
CN111831824A (zh) * | 2020-07-16 | 2020-10-27 | 民生科技有限责任公司 | 一种舆情正负面分类方法 |
CN112182332A (zh) * | 2020-09-25 | 2021-01-05 | 科大国创云网科技有限公司 | 一种基于爬虫采集的情感分类方法及系统 |
CN112231472A (zh) * | 2020-09-18 | 2021-01-15 | 昆明理工大学 | 融入领域术语词典的司法舆情敏感信息识别方法 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
US20150286627A1 (en) * | 2014-04-03 | 2015-10-08 | Adobe Systems Incorporated | Contextual sentiment text analysis |
CN106202584A (zh) * | 2016-09-20 | 2016-12-07 | 北京工业大学 | 一种基于标准词典和语义规则的微博情感分析方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106296282A (zh) * | 2016-08-08 | 2017-01-04 | 南京大学 | 一种基于用户评论和历史评分的网购产品评估方法 |
-
2017
- 2017-04-28 CN CN201710298795.2A patent/CN107038249A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
US20150286627A1 (en) * | 2014-04-03 | 2015-10-08 | Adobe Systems Incorporated | Contextual sentiment text analysis |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106296282A (zh) * | 2016-08-08 | 2017-01-04 | 南京大学 | 一种基于用户评论和历史评分的网购产品评估方法 |
CN106202584A (zh) * | 2016-09-20 | 2016-12-07 | 北京工业大学 | 一种基于标准词典和语义规则的微博情感分析方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945033A (zh) * | 2017-11-14 | 2018-04-20 | 李勇 | 一种网络舆情的分析方法、系统及相关装置 |
CN108268448A (zh) * | 2018-01-24 | 2018-07-10 | 闽南师范大学 | 一种基于网络新闻的舆情分析方法、系统及介质 |
CN108563630A (zh) * | 2018-03-21 | 2018-09-21 | 上海蔚界信息科技有限公司 | 一种文本分析知识库的构建方法 |
CN108984517A (zh) * | 2018-06-11 | 2018-12-11 | 杜泽壮 | 一种媒体数据处理方法、装置、介质和设备 |
CN109284499A (zh) * | 2018-08-01 | 2019-01-29 | 数据地平线(广州)科技有限公司 | 一种行业文本情感获取方法、装置及存储介质 |
CN109885687A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种文本的情感分析方法、装置、电子设备及存储介质 |
CN110826317A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 基于词典与规则的文本情感分析方法 |
CN111522913A (zh) * | 2020-04-16 | 2020-08-11 | 山东贝赛信息科技有限公司 | 一种适用于长文本和短文本的情感分类方法 |
CN111831824A (zh) * | 2020-07-16 | 2020-10-27 | 民生科技有限责任公司 | 一种舆情正负面分类方法 |
CN111831824B (zh) * | 2020-07-16 | 2024-02-09 | 民生科技有限责任公司 | 一种舆情正负面分类方法 |
CN112231472A (zh) * | 2020-09-18 | 2021-01-15 | 昆明理工大学 | 融入领域术语词典的司法舆情敏感信息识别方法 |
CN112231472B (zh) * | 2020-09-18 | 2022-07-29 | 昆明理工大学 | 融入领域术语词典的司法舆情敏感信息识别方法 |
CN112182332A (zh) * | 2020-09-25 | 2021-01-05 | 科大国创云网科技有限公司 | 一种基于爬虫采集的情感分类方法及系统 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN114385894B (zh) * | 2021-12-30 | 2024-05-31 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038249A (zh) | 基于词典的网络舆情信息情感分类方法 | |
CN107066446B (zh) | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN108763353B (zh) | 基于规则和远程监督的百度百科关系三元组抽取方法 | |
CN108038205B (zh) | 针对中文微博的观点分析原型系统 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN103942191B (zh) | 一种基于内容的恐怖文本识别方法 | |
CN112100999B (zh) | 一种简历文本相似度匹配方法和系统 | |
CN106294326B (zh) | 一种新闻报道情感倾向分析方法 | |
CN110287323A (zh) | 一种面向目标的情感分类方法 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
Ahmed et al. | A novel approach for Sentimental Analysis and Opinion Mining based on SentiWordNet using web data | |
CN106599824B (zh) | 一种基于情感对的gif动画情感识别方法 | |
CN109241534A (zh) | 一种基于文本ai学习的考题自动生成方法和装置 | |
CN109522396A (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
DE202023102803U1 (de) | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen | |
CN107451116A (zh) | 一种移动应用内生大数据统计分析方法 | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
CN110232124A (zh) | 一种情感分析系统 | |
CN108804412A (zh) | 基于社会媒体的多层级情感分析方法 | |
CN116186422A (zh) | 基于社交媒体和人工智能的疾病相关舆情分析系统 | |
CN108763487A (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zheng Zhonghua Inventor after: Hu Gan Inventor before: Yang Dong Inventor before: Zhou Yinxing Inventor before: Dong Zhengjiang Inventor before: Hu Gan Inventor before: Chen Huan Inventor before: Zheng Zhonghua |
|
CB03 | Change of inventor or designer information | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170811 |
|
WD01 | Invention patent application deemed withdrawn after publication |