CN110826317A - 基于词典与规则的文本情感分析方法 - Google Patents
基于词典与规则的文本情感分析方法 Download PDFInfo
- Publication number
- CN110826317A CN110826317A CN201911084093.XA CN201911084093A CN110826317A CN 110826317 A CN110826317 A CN 110826317A CN 201911084093 A CN201911084093 A CN 201911084093A CN 110826317 A CN110826317 A CN 110826317A
- Authority
- CN
- China
- Prior art keywords
- emotion
- value
- text
- negative
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 151
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000002996 emotional effect Effects 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词典与规则的文本情感分析方法,包括以下步骤:文本分割:将文本按符号进行切割,分成多个意群;意群预处理:对意群进行分词,结合情感词典获取情感关键词,并标注该情感关键词的权重;计算意群情感值:按照预定规则和情感关键词权重计算意群的情感值;计算文本情感值:对意群的情感值进行综合计算,得出文本的情感倾向值。基于本方法能够对文本的情感倾向进行分析,判断文本对一目标对象的支持倾向或反对倾向,便于后续的数据分析。
Description
技术领域
本发明涉及文本数据分析领域,尤其涉及基于词典与规则的文本情感分析方法。
背景技术
在现实生活中真实发生的事件过程中,叙述者在新闻事件中表现出来的立场、态度和情感,能够表示出该新闻的主观性。对于新闻数据分析领域,往往需要提取新闻性的情感倾向,以便于进行分类,一般而言同一篇文章,对同一目标对象的情感是唯一的。因此急需一种针对文本的情感分析方法,提取文本的情感倾向。
发明内容
为了解决上述问题,本发明提出了一种基于词典与规则的文本情感分析方法,包括以下步骤:
文本分割:将文本按符号进行切割,分成多个意群;
意群预处理:对意群进行分词,结合情感词典获取情感关键词,并标注该情感关键词的权重;
计算意群情感值:按照预定规则和情感关键词权重计算意群的情感值;
计算文本情感值:对意群的情感值进行综合计算,得出文本的情感倾向值。
优选的,所述标注采用四元组对情感词汇进行标注,定义为:
sentimentword(name,polarity,pos,weight)
其中,name表示该词汇的名称,polarity表示极性,pos表示词性,weight代表该词的权重。优选的,所述情感词典包括正负面情感词典、转折归总词词典、程度词典或否定词词典中的一种或多种。
优选的,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量。
优选的,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,m为修饰该正负面情感词的否定词的个数。
优选的,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,d表示修饰该正负面情感词汇的程度词的权重。
优选的,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,d表示修饰该正负面情感词汇的程度词的权重,α为根据否定词和程度词的前后位置关系预设的权重。优选的,当意群包含转折、归总词汇时,意群情感值计算规则为:
w=1.2×wori
其中w为意群的情感值,wori为意群不包含转折、归总词汇时的意群的情感值。
优选的,所述文本分割将文本依次分割为段落、句子和意群,所述文本情感值按照以下规则计算:
其中,w为意群的情感值,s为该句子的情感值,P为段落的情感值,n为文本情感值,K为该句意群总数,M为该段落句子总数,Q为该篇章段落总数。
优选的,根据句子与文本标题的相似度,对句子情感值进行调整:
s=β×sori
其中,s为该句子的最终情感值,β为相似度权重,sori为调整前的句子情感值。
本发明的有益效果在于:基于本方法能够对文本的情感倾向进行分析,判断文本对一目标对象的支持倾向或反对倾向,便于后续的数据分析。
附图说明
图1是本方法示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
如图1所示,本发明提出了一种基于词典与规则的文本情感分析方法,包括以下步骤:
文本分割:将文本按符号进行切割,分成多个意群;
意群预处理:对意群进行分词,结合情感词典获取情感关键词,并标注该情感关键词的权重;
计算意群情感值:按照预定规则和情感关键词权重计算意群的情感值;
计算文本情感值:对意群的情感值进行综合计算,得出文本的情感倾向值。
以下实施例以新闻文体作为分析对象进行说明。
过对新闻文体的分析研究发现,对新闻情感分析起到关键作用的文本位置为:
标题:标题是新闻作者主观意志的直接表达,是文章主旨的高度浓缩,能够直接陈述新闻的概要。当标题含有明显的情感倾向时,它应该被赋予较高的权重,同时可以将其他语句与标题进行相似度计算,进而得到句子与新闻主旨的的相似性。与主旨越相似则就越接近文章作者的情感。
段首与段尾:段首与段尾是新闻作者的开篇与总结。通过观察研究,段首与段尾是表达作者情感的主观句最常出现的位置,而且新闻文本的结构是一种“倒金字塔”式的结构。
其他位置:对于其他位置的句子,如果与标题不相关,则按照普通方式进行情感倾向计算,不再附加额外权重。
在对文本进行分割时,可将文本Doc按照换行符“/r”或者“/n”切割成段落Para,再按照[“。”,“?”,“!”]将段落Para分为句子Sen,最后按照[“,”]将Sen切割为多个意群SenGroup。
对意群预处理时,具体地采用每个意群使用FudanNLP进行分词,合情感词典获取情感关键词,并标注该情感关键词的权重。所述标注采用四元组对情感词汇进行标注,定义为:
sentimentword(name,polarity,pos,weight)
其中,name表示该词汇的名称,polarity表示极性,pos表示词性,weight代表该词的权重。name和pos通过文本分词工具FudanNLP获取,polarity和weight则通过定义好的情感词典获取。
在本实施例中,所述情感词典包括正负面情感词典、转折归总词词典、程度词典或否定词词典中的一种或多种。本方法以HowNet为主体,合并中文负面情感词语和中文负面评价词语去重后构建负面基础情感词典,合并中文正面情感词语和中文正面评价词语去重后构建正面基础情感词典,以中文程度级别词语作为描述情感词的程度词语词典,考虑否定词、转折词和新闻中的各类归总词语,分别构建否定词典、转折归总词典。HowNet所包含的情感词汇有限,采用哈工大同义词词林和TW大学NTUSD简体中文版本进行去重、剔除歧义词汇之后,分别加入正/负面基础情感词典。
在程度词典构建中,不同级别的词语会产生不同级别的情感倾向。例如:这个人极其讨厌和这个人很讨厌,同样是对“讨厌”进行修饰,但是“极其”所表达的情感倾向比“很”更加强烈。针对这些能够对情感倾向产生巨大作用的词汇,借助HowNet提供的中文程度级别词语,构建了程度词语词典。HowNet对程度词语进行了级别分类,具体分为6个等级:最(most)、很(very)、较(more)、稍(ish)、欠(insufficiently)和超(over)。按照修饰程度的不同为这6个级别的程度词分别赋予不同的权重值,具体如下表所示:
级别 | 词语 | 权重 |
最 | 非常、极度… | 0.25 |
超 | 过于、何止… | 0.20 |
很 | 尤其、格外… | 0.18 |
较 | 较为、进一步… | 0.15 |
稍 | 略微、稍… | 0.12 |
欠 | 不大、相对… | 0.10 |
否定词在文本分析中起到置反情感倾向的作用,所以在分析文本情感倾向时也应该将否定词作为重要的分析对象,在本实施例中,使用28个否定副词,这些词包括:不、没、无、非、莫、弗、勿、毋、未、否、别、無、休、不要、没有、未必、难以、未曾、不能等。由于否定词在进行情感判断时具有置反作用,所以将其权值设置为-1。
文本中会存在很多转折句型,在转折句型中往往会发生情感反转,将前一部分表达的情感弱化,从而突出转折之后的情感。同样,文本中可能也会包含对作者观点进行总结的归总类词汇,包含这类词汇的分句更能够表达作者的情感倾向,所以需要赋予更高的权重比例。在本实施例中,选择但、但是、却、然而、不过、只是、就是、总之、总而言之、总体来看、认为、觉得、总结、综上所述等作为转折归总词汇。
情感词典的构建可以把情感词语从句子中孤立出来,但是如果孤立地看待这些词语,并不能正确地反映新闻的情感倾向。为了提高分析的准确度,必须将上下文的联系考虑进来。因此,在词语情感计算的基础上,应该考虑上下文中能够改变词语情感倾向或者情感强度的语义规则信息。在本实施例中,结合新闻文体的特点,综合情感词典、情感句位置、标题等元素定义了多种语义规则用于情感句的倾向性计算。与情感表达有关的规则有如下几种:
规则1:只包含情感词汇而不包含其他修饰词汇的意群,例如:今天心情不错。例子当中只包含“不错”一个情感词,该类别的意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量。
规则2:包含否定修饰词意群,例如:今天我不高兴!例子中存在否定词“不”来修饰情感词“高兴”,那么句子的倾向性发生了反转,由正面变成了负面。该类别的意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,m为修饰该正负面情感词的否定词的个数。
规则3:包含程度修饰词的意群,例如:今天我很高兴!例子中存在“很”这样一个程度词来修饰“高兴”,那么本来的意群情感倾向在经过修饰后得到了明显的加强。该类别的意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,d表示修饰该正负面情感词汇的程度词的权重。
规则4:包含否定词、程度词和情感词汇的意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,d表示修饰该正负面情感词汇的程度词的权重,α为根据否定词和程度词的前后位置关系预设的权重。其中否定词位于程度词之前,例如:今天我不是很高兴。这种句型当中,否定词将程度词的情感程度有所弱化,α可取0.8;中否定词位于程度词之后,例如:今天我很不高兴。这种句型当中,否定词将程度词的情感倾向明显加强,α可取1.2。
规则5:当意群包含转折、归总词汇时,其情感值计算的权重要增强,意群情感值计算规则为:
w=1.2×wori
其中w为意群的情感值,wori为意群不包含转折、归总词汇时的意群的情感值。
根据上述规则可以计算出每个句子的意群情感倾向值,由此可以计算句子、段落以及篇章的最终情感值所述文本情感值按照以下规则计算:
其中,w为意群的情感值,s为该句子的情感值,P为段落的情感值,n为文本情感值,K为该句意群总数,M为该段落句子总数,Q为该篇章段落总数。
其中,通过规则对意群加权得到句子的情感值之后需要再次计算该句子与标题的文本相似度,具体地,采用SimHash算法进行相似度计算,生成标题和要对比句子的Hash值,再通过计算两个Hash值的海明距离判断相似度,根据句子与文本标题的相似度,对句子情感值进行调整:
s=β×sori
其中,s为该句子的最终情感值,β为相似度权重,sori为调整前的句子情感值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.基于词典与规则的文本情感分析方法,其特征在于,包括以下步骤:
文本分割:将文本按符号进行切割,分成多个意群;
意群预处理:对意群进行分词,结合情感词典获取情感关键词,并标注该情感关键词的权重;
计算意群情感值:按照预定规则和情感关键词权重计算意群的情感值;
计算文本情感值:对意群的情感值进行综合计算,得出文本的情感倾向值。
2.根据权利要求1所述的基于词典与规则的文本情感分析方法,其特征在于,所述标注采用四元组对情感词汇进行标注,定义为:
sentimentword(name,polarity,pos,weight)
其中,name表示该词汇的名称,polarity表示极性,pos表示词性,weight代表该词的权重。
3.根据权利要求1所述的基于词典与规则的文本情感分析方法,其特征在于,所述情感词典包括正负面情感词典、转折归总词词典、程度词典或否定词词典中的一种或多种。
8.根据权利要求4-7任意一项所述的基于词典与规则的文本情感分析方法,其特征在于,当意群包含转折、归总词汇时,意群情感值计算规则为:
w=1.2×wori
其中w为意群的情感值,wori为意群不包含转折、归总词汇时的意群的情感值。
10.根据权利要求9所述的基于词典与规则的文本情感分析方法,其特征在于,根据句子与文本标题的相似度,对句子情感值进行调整:
s=β×sori
其中,s为该句子的最终情感值,β为相似度权重,sori为调整前的句子情感值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911084093.XA CN110826317A (zh) | 2019-11-07 | 2019-11-07 | 基于词典与规则的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911084093.XA CN110826317A (zh) | 2019-11-07 | 2019-11-07 | 基于词典与规则的文本情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826317A true CN110826317A (zh) | 2020-02-21 |
Family
ID=69553258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911084093.XA Pending CN110826317A (zh) | 2019-11-07 | 2019-11-07 | 基于词典与规则的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826317A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378578A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食药舆情分析方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090126862A (ko) * | 2008-06-05 | 2009-12-09 | 주식회사 다이퀘스트 | 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체 |
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN104008091A (zh) * | 2014-05-26 | 2014-08-27 | 上海大学 | 一种基于情感值的网络文本情感分析方法 |
CN105138506A (zh) * | 2015-07-09 | 2015-12-09 | 天云融创数据科技(北京)有限公司 | 一种金融文本情感分析方法 |
CN106469145A (zh) * | 2016-09-30 | 2017-03-01 | 中科鼎富(北京)科技发展有限公司 | 文本情感分析方法及装置 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
US20190179900A1 (en) * | 2017-12-07 | 2019-06-13 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method, device and computer readable storage medium for presenting emotion |
CN110399603A (zh) * | 2018-04-25 | 2019-11-01 | 北京中润普达信息技术有限公司 | 一种基于意群划分的文本处理技术方法和系统 |
-
2019
- 2019-11-07 CN CN201911084093.XA patent/CN110826317A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090126862A (ko) * | 2008-06-05 | 2009-12-09 | 주식회사 다이퀘스트 | 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체 |
WO2012134180A2 (ko) * | 2011-03-28 | 2012-10-04 | 가톨릭대학교 산학협력단 | 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN104008091A (zh) * | 2014-05-26 | 2014-08-27 | 上海大学 | 一种基于情感值的网络文本情感分析方法 |
CN105138506A (zh) * | 2015-07-09 | 2015-12-09 | 天云融创数据科技(北京)有限公司 | 一种金融文本情感分析方法 |
CN106469145A (zh) * | 2016-09-30 | 2017-03-01 | 中科鼎富(北京)科技发展有限公司 | 文本情感分析方法及装置 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
US20190179900A1 (en) * | 2017-12-07 | 2019-06-13 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method, device and computer readable storage medium for presenting emotion |
CN110399603A (zh) * | 2018-04-25 | 2019-11-01 | 北京中润普达信息技术有限公司 | 一种基于意群划分的文本处理技术方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378578A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食药舆情分析方法 |
CN113378578B (zh) * | 2021-05-08 | 2023-04-18 | 重庆航天信息有限公司 | 食药舆情分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iacobelli et al. | Large scale personality classification of bloggers | |
Froud et al. | Stemming and similarity measures for Arabic Documents Clustering | |
CN108062300A (zh) | 一种基于中文文本进行情感倾向分析的方法及装置 | |
Phani et al. | Authorship attribution in bengali language | |
Treis | Switch-reference and Omotic-Cushitic language contact in Southwest Ethiopia | |
CN110826317A (zh) | 基于词典与规则的文本情感分析方法 | |
CN112200674B (zh) | 一种证券市场情绪指数智能计算信息系统 | |
CN115146031B (zh) | 一种基于深度学习和辅助特征的短文本立场检测方法 | |
JPH08166965A (ja) | 日本語テキスト自動分類方法 | |
Jiwanggi et al. | Topic summarization of microblog document in Bahasa Indonesia using the phrase reinforcement algorithm | |
Islam et al. | Automatic authorship detection from Bengali text using stylometric approach | |
Al-Radaideh et al. | Arabic text summarization using aggregate similarity | |
Damova et al. | Query-based summarization: A survey | |
Jiang et al. | Describing and classifying post-mortem content on social media | |
Karuna et al. | Comparison of methods for automatic classification of Russian-language texts | |
Dereza | Lemmatisation for under-resourced languages with sequence-to-sequence learning: A case of early irish | |
Haileslasie et al. | Tigrinya dialect identification | |
Tapsai et al. | Thai Language Segmentation by Automatic Ranking Trie with Misspelling Correction | |
Shimizu et al. | Metric learning for synonym acquisition | |
Demirel | The Use of Hedging Strategies in Research Articles: A Corpus Comparison of Native and Non-Native Researchers | |
Ruiz Martínez | Dictionaries of Japanese mimetic words: defining the mimetic category by the selection of lexical items | |
Engsheden | Verbal semantics and differential object marking in Lycopolitan Coptic. | |
Khaw | Kelantan and Sarawak Malay dialects: Parallel dialect text collection and alignment using hybrid distance-statistical-based phrase alignment algorithm | |
Liu et al. | Cross-Language Information Matching Technology Based on Term Extraction | |
Kurdi | Content-Dependent Versus Content-Independent Features for Gender and Age Range Identification in Different Types of Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |