CN103838712B - 一种针对词语级别的汉语情感词极性强度量化方法 - Google Patents
一种针对词语级别的汉语情感词极性强度量化方法 Download PDFInfo
- Publication number
- CN103838712B CN103838712B CN201310576097.6A CN201310576097A CN103838712B CN 103838712 B CN103838712 B CN 103838712B CN 201310576097 A CN201310576097 A CN 201310576097A CN 103838712 B CN103838712 B CN 103838712B
- Authority
- CN
- China
- Prior art keywords
- word
- emotion word
- emotion
- basis
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种针对词语级别的汉语情感词极性强度量化方法,属于计算机自然语言处理领域。首先获取情感词典中每个字的情感倾向值,然后根据字的情感倾向值获取所测基础情感词的极性强度度量值,最后根据基础情感词的极性强度度量值获取复合情感词的极性强度度量值。本发明对比现有技术,通过采用高斯分布函数修正统计得出的字的情感倾向值误差,大幅提高了基础情感词极性强度度量的准确率。在此基础上对复合情感词详细分类,分别设计经Sigmoid函数倒推得出的计算公式,大幅提高了复合情感词的极性强度度量准确率。另外引入Sim(A,B)函数,利用HowNet对副词自动分类,减轻了手工标注的工作量,提高了工作效率。
Description
技术领域
本发明属于计算机自然语言处理领域,涉及应用于汉语文本情感分析中的一种针对词语级别的汉语情感词极性强度量化方法。
背景技术
随着互联网技术的不断进步,特别是Web2.0技术的逐渐普及,网络表现出了强大的数据处理能力,网络社会也变得纷繁复杂。在百度贴吧、天涯论坛等各大网站上都可以看到大量网民对新闻、产品、服务等的各种评论信息和意见,在此背景下兴起了基于网络文本的情感倾向性分析研究,对信息检索、电子商务、网络舆情预警等领域有着重要意义。
目前,对文本情感分析的研究对象主要分为词语级别、句子级别、篇章级别三种,而基于词语级别的文本情感分析主要依赖于模糊情感词的极性强度度量值。已有的情感词极性强度量化方法主要有Ku等人在AAAI’2006人工智能顶级国际会议上发表论文阐述的利用汉字的情感统计来计算词的情感极性强度度量值。
上述情感词极性强度量化方法主要包括基础情感词的极性强度量化和复合情感词的极性强度量化两个环节,主要包括以下几个步骤:首先计算情感词典中每个字的情感倾向值;然后计算每个基础情感词的极性强度度量值;之后计算每个复合情感词的极性强度度量值。
现有的情感词极性强度量化方法主要存在以下几个方面的不足:一是在进行文本情感分析时,主要依赖于情感词典规模,这样仅仅基于统计得到每个字的情感倾向值,准确率较低;二是针对复合情感词的极性强度量化方法设计简单,虽易于实现,但准确率较低,影响了文本情感分析效果。
发明内容
本发明的目的是为了克服现有技术存在的缺陷,为有效解决当前在汉语文本情感分析过程中,针对词语级别的汉语情感词进行极性强度量化时准确率低的问题,提出一种有效的极性强度量化方法。
本发明方法所采用的技术方案如下:
一种针对词语级别的汉语情感词极性强度量化方法,包括以下步骤:
步骤一、获取情感词典中每个字的情感倾向值。首先,统计每个字在情感词典中作为褒义词、贬义词的权重。
然后,根据每个字的褒义词、贬义词的权重,获得情感词典中每个字的情感倾向值,具体过程如下:
定义一个Random(ηs(μ,δ))函数,其中,ηs(μ,δ)是高斯密度函数,Random(ηs(μ,δ))表示在此高斯分布函数上随机选取一个值。鉴于字的情感倾向值度量满足高斯分布,每个字的情感倾向值计算公式如下:
其中,Sci为每个字的情感倾向值;若Sci值为正数,ci为褒义字,若Sci值为负数,则ci为贬义字;Sci值越接近0,ci越趋近于中性字。ηs((Pci-Nci),δ)是一个高斯密度函数,(Pci-Nci)和δ是对应的均值和误差。Random(ηs((Pci-Nci),δ))是之前定义的随机函数,表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值。
步骤二、根据步骤一得到的字的情感倾向值,获取所测基础情感词的极性强度度量值。
步骤三、根据步骤二得到的所测基础情感词的极性强度度量值,获取复合情感词的极性强度度量值。
首先,定义词语A和词语B的语义相似度Sim(A,B),利用HowNet计算出两个词语A和B之间的语义相似度。
当复合情感词为程度副词∪基础情感词时(如w=非常漂亮),先用Sim(A,B)函数计算出程度副词(“非常”)的情感极性强度度量值Sx2,再计算出基础情感词(“漂亮”)的情感极性强度度量值计算公式为:
其中,Δμ为位移指数,取0.5,下同。
当复合情感词为频度副词∪基础情感词时(如w=偶尔马虎),经过Sim(A,B)函数先计算出频度副词(“偶尔”)的情感极性强度度量值Sx2,再计算出基础情感词(“马虎”)的情感极性强度度量值也采用公式(3)计算得到。
当复合情感词为基础情感词∪基础情感词时(如w=简单大方),先计算出前一个基础情感词(“简单”)的情感极性强度度量值再计算出后一个基础情感词(“大方”)的情感极性强度度量值Sx2,计算公式为:
当复合情感词为重叠情感词时(如w=“快快乐乐”),则对重叠情感词进行抽取到基础情感词(“快乐”),其极性强度度量值为计算公式为:
当复合情感词为否定词∪基础情感词时(如w=不完善),先计算出基础情感词(“完善”)的情感极性强度度量值计算公式为:
当复合情感词为否定词∪程度/频度副词∪基础情感词时(如w=不太认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强度度量值,分别为Sx2、再采用如下计算公式:
当复合情感词为程度/频度副词∪否定词∪基础情感词时(如w=太不认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强 度度量值,分别为Sx2、再采用如下计算公式:
至此,就完成对词语级别的汉语情感词极性强度量化。
有益效果
本发明对比现有技术,通过采用高斯分布函数修正统计得出的字的情感倾向值误差,大幅提高了基础情感词极性强度度量的准确率。在此基础上对复合情感词详细分类,分别设计经Sigmoid函数倒推得出的计算公式,大幅提高了复合情感词的极性强度度量准确率。另外,引入Sim(A,B)函数,利用HowNet对副词自动分类,减轻了手工标注的工作量,提高了工作效率。
具体实施方式
下面结合实施例对本发明的具体实施方式做进一步详细说明。
一种针对词语级别的汉语情感词极性强度量化方法,包括以下步骤:
步骤一、获取情感词典中每个字的情感倾向值。
首先,统计每个字在情感词典中作为褒义词、贬义词的权重。可采用如下公式:
其中,Pci为字ci作为褒义词的权重,Nci为字ci作为贬义词的权重;fpci为字ci出现在褒义词表中的频率,fnci为字ci出现在贬义词表中的频率;n为褒义词表 中出现的所有字的个数,m为贬义词表中出现的所有字的个数;另外,为了平衡情感词典中褒义词与贬义词之间的个数差异,上述两个公式还对每个字在褒贬词表中出现的频率进行了归一化处理。
然后,根据每个字的褒义词、贬义词的权重,获得情感词典中每个字的情感倾向值。具体过程如下:
定义一个Random(ηs(μ,δ))函数,其中,ηs(μ,δ)是高斯密度函数,Random(ηs(μ,δ))表示在此高斯分布函数上随机选取一个值。鉴于字的情感倾向值度量满足高斯分布,每个字的情感倾向值计算公式如下:
其中,Sci为每个字的情感倾向值;若Sci值为正数,ci为褒义字,若Sci值为负数,则ci为贬义字;Sci值越接近0,ci越趋近于中性字。ηs((Pci-Nci),δ)是一个高斯密度函数,(Pci-Nci)和δ是对应的均值和误差。Random(ηs((Pci-Nci),δ))是之前定义的随机函数,表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值。
步骤二、根据步骤一得到的字的情感倾向值,获取所测基础情感词的极性强度度量值。
为计算每个基础情感词的极性强度度量值,采用词中字平均值方法,公式如下:
其中,Sw为所测词w的情感极性强度度量值。p为词w中字的个数。Sc1、Sc2、···、Scp为词w中每个字经步骤一得出的情感倾向值。
步骤三、根据步骤二得到的所测基础情感词的极性强度度量值,获取复合情感词的极性强度度量值。
首先,定义词语A和词语B的语义相似度Sim(A,B),利用HowNet计算出两个词语A和B之间的语义相似度。
当复合情感词为程度副词∪基础情感词时(如w=非常漂亮),先用Sim(A,B)函 数计算出程度副词(“非常”)的情感极性强度度量值Sx2,再计算出基础情感词(“漂亮”)的情感极性强度度量值计算公式为:
其中,Δμ为位移指数,取0.5,下同。
当复合情感词为频度副词∪基础情感词时(如w=偶尔马虎),经过Sim(A,B)函数先计算出频度副词(“偶尔”)的情感极性强度度量值Sx2,再计算出基础情感词(“马虎”)的情感极性强度度量值也采用公式(12)计算得到。
当复合情感词为基础情感词∪基础情感词时(如w=简单大方),先计算出前一个基础情感词(“简单”)的情感极性强度度量值再计算出后一个基础情感词(“大方”)的情感极性强度度量值Sx2,计算公式为:
当复合情感词为重叠情感词时(如w=“快快乐乐”),则对重叠情感词进行抽取到基础情感词(“快乐”),其极性强度度量值为计算公式为:
当复合情感词为否定词∪基础情感词时(如w=不完善),先计算出基础情感词(“完善”)的情感极性强度度量值计算公式为:
当复合情感词为否定词∪程度/频度副词∪基础情感词时(如w=不太认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强度度量值,分别为Sx2、再采用如下计算公式:
当复合情感词为程度/频度副词∪否定词∪基础情感词时(如w=太不认真),先计算出程度/频度副词(此处为“太”)和基础情感词(“认真”)的情感极性强 度度量值,分别为Sx2、再采用如下计算公式:
至此,就完成对词语级别的汉语情感词极性强度量化。
实施例
假定要计算情感词“漂亮”的极性强度度量值。首先统计每个字在情感词典中作为褒义词和贬义词的权重,经过计算,P漂=0.760,N漂=0.412。
因现有方法在计算每个字的情感倾向值时完全利用统计值Pci、Nci计算,没有考虑到误差修正。鉴于字的情感倾向值度量满足高斯分布,经过计算,得出S 漂,S亮的值,程序按照公式随机取值,其值不可见。
为计算每个基础情感词的极性强度度量值,采用词中字平均值方法,经过计算,S漂亮=0.675。
基础情感词“漂亮”的极性强度度量值计算完毕,然后计算复合情感词“相当漂亮”、“偶尔马虎”的极性强度度量值。
复合情感词“相当漂亮”属于程度副词∪基础情感词形式,这里基准程度副词为(稍微,比较,恰好,很,非常),值为(0.1,0.3,0.5,0.7,0.9)。经过Sim(A,B)函数,先计算出“相当”与基准词“非常”语义相似度最大,故“相当”的情感极性强度度量值与“非常”相同,Sx2=0.9,上述步骤已计算出“漂亮”的情感极性强度度量值因此“相当漂亮”的极性强度度量值为0.813。
复合情感词“偶尔马虎”属于频度副词∪基础情感词形式,这里基准频度副词为(几乎从不,偶尔,有时,经常,总是),值为(0.1,0.3,0.5,0.7,0.9)。经过Sim(A,B)函数,先计算出“偶尔”与基准词“偶尔”语义相似度最大,故“偶尔”的情感极性强度度量值Sx2=0.3,仿照“漂亮”的情感极性强度度量计算步骤,得出“马虎”的情感极性强度度量值计算得出“偶尔马虎”的极性强度度量值为-0.177。
复合情感词“简单大方”属于基础情感词∪基础情感词形式,先计算出“简单”的情感极性强度度量值,再计算出“大方”的情感极性强度度量值Sx2=0.427,代入公式(6)计算得出“简单大方”的极性强度度量值为0.557。
复合情感词“快快乐乐”属于重叠情感词形式,先抽取出基础情感词“快 乐”,计算其极性强度度量值计算得出“快快乐乐”的极性强度度量值为0.960。
复合情感词“不完善”属于否定词∪基础情感词形式,先计算出基础词“完善”的情感极性强度度量值计算得出“不完善”的极性强度度量值为-0.606。
复合情感词“不太认真”属于否定词∪程度/频度副词∪基础情感词形式,先计算出“太”和“认真”的情感极性强度度量值,分别为Sx2=0.9,Sx1=0.353,计算得出“不太认真”的极性强度度量值为0.218。
复合情感词“太不认真”属于程度/频度副词∪否定词∪基础情感词形式,先计算出“太”和“认真”的情感极性强度度量值,分别为Sx2=0.9,Sx1=0.353,计算得出“太不认真”的极性强度度量值为-0.475。
Claims (1)
1.一种针对词语级别的汉语情感词极性强度量化方法,其特征在于,包括以下步骤:
步骤一、获取情感词典中每个字的情感倾向值;
首先,统计每个字在情感词典中作为褒义词、贬义词的权重;
然后,根据每个字的褒义词、贬义词的权重,获得情感词典中每个字的情感倾向值,具体过程如下:
定义一个Random(ηs(μ,δ))函数,其中ηs(μ,δ)是高斯密度函数,Random(ηs(μ,δ))表示在此高斯分布函数上随机选取一个值;鉴于字的情感倾向值度量满足高斯分布,每个字的情感倾向值计算公式如下:
其中,Sci为每个字的情感倾向值;若Sci值为正数,ci为褒义字,若Sci值为负数,则ci为贬义字;Sci值越接近0,ci越趋近于中性字;ηs((Pci-Nci),δ)是一个高斯密度函数,(Pci-Nci)和δ是对应的均值和误差;Random(ηs((Pci-Nci),δ))是之前定义的随机函数,表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值;
步骤二、根据步骤一得到的字的情感倾向值,获取所测基础情感词的极性强度度量值;
步骤三、根据步骤二得到的所测基础情感词的极性强度度量值,获取复合情感词的极性强度度量值;
首先,定义词语A和词语B的语义相似度Sim(A,B),利用HowNet计算出两个词语A和B之间的语义相似度;
当复合情感词为程度副词∪基础情感词时,先用Sim(A,B)函数计算出程度副词的情感极性强度度量值再计算出基础情感词的情感极性强度度量值复合情感词的极性强度度量值的计算公式为:
其中,Δμ为位移指数,取0.5,下同;
当复合情感词为频度副词∪基础情感词时,经过Sim(A,B)函数先计算出频度副词的情感极性强度度量值再计算出基础情感词的情感极性强度度量值复合情感词的极性强度度量值采用以下公式计算得到:
当复合情感词为基础情感词∪基础情感词时,先计算出前一个基础情感词的情感极性强度度量值再计算出后一个基础情感词的情感极性强度度量值复合情感词的极性强度度量值的计算公式为:
当复合情感词为重叠情感词时,则对重叠情感词进行抽取到基础情感词,
其极性强度度量值为复合情感词的极性强度度量值的计算公式为:
当复合情感词为否定词∪基础情感词时,先计算出基础情感词的情感极性强度度量值复合情感词的极性强度度量值的计算公式为:
Sw=-Sx1 (5)
当复合情感词为否定词∪程度/频度副词∪基础情感词时,先计算出程度副词、频度副词和基础情感词的情感极性强度度量值,分别为Sx2、Sx3、再采用如下计算公式计算复合情感词的极性强度度量值:
当复合情感词为程度/频度副词∪否定词∪基础情感词时,先计算出程度副词、频度副词和基础情感词的情感极性强度度量值,分别为再分别采用如下计算公式计算复合情感词的极性强度度量值:
至此,就完成对词语级别的汉语情感词极性强度量化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310576097.6A CN103838712B (zh) | 2013-11-18 | 2013-11-18 | 一种针对词语级别的汉语情感词极性强度量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310576097.6A CN103838712B (zh) | 2013-11-18 | 2013-11-18 | 一种针对词语级别的汉语情感词极性强度量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103838712A CN103838712A (zh) | 2014-06-04 |
CN103838712B true CN103838712B (zh) | 2017-01-04 |
Family
ID=50802228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310576097.6A Expired - Fee Related CN103838712B (zh) | 2013-11-18 | 2013-11-18 | 一种针对词语级别的汉语情感词极性强度量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838712B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480135B (zh) | 2017-07-31 | 2022-01-07 | 京东方科技集团股份有限公司 | 数据处理方法、医学用语处理系统和医学诊疗系统 |
CN107526831B (zh) | 2017-09-04 | 2020-03-31 | 华为技术有限公司 | 一种自然语言处理方法和装置 |
CN108664469B (zh) * | 2018-05-07 | 2021-11-19 | 首都师范大学 | 一种情感类别确定方法、装置及服务器 |
CN110990572A (zh) * | 2019-12-03 | 2020-04-10 | 深圳市豪斯莱科技有限公司 | 一种基于主题下的情感分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880600A (zh) * | 2012-08-30 | 2013-01-16 | 北京航空航天大学 | 基于通用知识网络的词语语义倾向性预测方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996210B2 (en) * | 2007-04-24 | 2011-08-09 | The Research Foundation Of The State University Of New York | Large-scale sentiment analysis |
-
2013
- 2013-11-18 CN CN201310576097.6A patent/CN103838712B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880600A (zh) * | 2012-08-30 | 2013-01-16 | 北京航空航天大学 | 基于通用知识网络的词语语义倾向性预测方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
Non-Patent Citations (2)
Title |
---|
在线评论的情感极性分类研究综述;王洪伟 等;《情报科学》;20120831;第30卷(第8期);1263-1271、1276 * |
细粒度情感分析研究;施寒潇;《中国博士学位论文全文数据库 信息科技辑》;20130915;I138-36 * |
Also Published As
Publication number | Publication date |
---|---|
CN103838712A (zh) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528642B (zh) | 一种基于tf-idf特征提取的短文本分类方法 | |
CN103617157B (zh) | 基于语义的文本相似度计算方法 | |
CN105912625B (zh) | 一种面向链接数据的实体分类方法和系统 | |
CN107862087B (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN103164540B (zh) | 一种专利热点发现与趋势分析方法 | |
CN108108433A (zh) | 一种基于规则和数据网络融合的情感分析方法 | |
CN106095996A (zh) | 用于文本分类的方法 | |
CN103838712B (zh) | 一种针对词语级别的汉语情感词极性强度量化方法 | |
CN104317965B (zh) | 基于语料的情感词典构建方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN105069072A (zh) | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 | |
CN106055673A (zh) | 一种基于文本特征嵌入的中文短文本情感分类方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN102033964A (zh) | 基于块划分及位置权重的文本分类方法 | |
CN105022805A (zh) | 一种基于so-pmi商品评价信息的情感分析方法 | |
CN103559174B (zh) | 语义情感分类特征值提取方法及系统 | |
CN102436480B (zh) | 一种面向文本的知识单元关联关系挖掘方法 | |
CN102682130A (zh) | 一种文本情感分类方法及系统 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN112966526A (zh) | 一种基于情感词向量的汽车在线评论情感分析方法 | |
CN104794108A (zh) | 网页标题抽取方法及其装置 | |
CN103744838A (zh) | 一种用于度量主流情感信息的中文情感文摘系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170104 Termination date: 20191118 |