CN102929860A - 一种基于上下文语境的中文分句情感极性判别方法 - Google Patents

一种基于上下文语境的中文分句情感极性判别方法 Download PDF

Info

Publication number
CN102929860A
CN102929860A CN2012103881492A CN201210388149A CN102929860A CN 102929860 A CN102929860 A CN 102929860A CN 2012103881492 A CN2012103881492 A CN 2012103881492A CN 201210388149 A CN201210388149 A CN 201210388149A CN 102929860 A CN102929860 A CN 102929860A
Authority
CN
China
Prior art keywords
subordinate sentence
chinese
feeling polarities
context
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103881492A
Other languages
English (en)
Other versions
CN102929860B (zh
Inventor
张宇
朱卫祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201210388149.2A priority Critical patent/CN102929860B/zh
Publication of CN102929860A publication Critical patent/CN102929860A/zh
Application granted granted Critical
Publication of CN102929860B publication Critical patent/CN102929860B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于上下文语境的中文分句情感极性判别方法,包括如下步骤:(1)对中文分句进行中文分词和词性的标注,获取每个中文分句中各自的特征值、否定词、副词以及情感词,将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性;(2)根据中文分句中的副词计算每个中文分句的情感强烈程度;(3)提取中文分句中的连接词,对于相邻的三个中文分句,根据连接词以及与其相邻的中文分句的情感强烈程度修正步骤(1)中获得的中文分句情感极性。本发明基于上下文语境的中文分句情感极性判别方法,能够显著降低人工参与的工作量,在复杂的语言环境中有效地提高中文分句情感判别的准确性。

Description

一种基于上下文语境的中文分句情感极性判别方法
技术领域
本发明涉及中文分句情感计算领域,具体涉及一种基于上下文语境的中文分句情感极性判别方法。 
背景技术
随着Web2.0时代的到来,互联网交互技术取得迅猛发展,网络上出现了大量带有主观情感的评论信息。这些评论信息往往反映了人们对事物或事件的观点和看法。例如在电子商务平台上,一笔交易可能会对应一条文字评论,这些评论通常表明了买家对产品质量、卖家服务、物流速度等多个方面的看法,因此这些评论中包含了大量有用的信息,对商家的广告投放、市场营销、商业决策以及买家的购物选择都具有重要的参考价值和实际意义。目前单纯采用人工分析筛选的方法已经无法满足海量数据处理的需求,因此利用计算机进行情感分析的技术应运而生。 
面向文本的情感极性判别通常可被划分为四个级别:词语级情感极性判别、分句级情感极性判别、篇章级情感极性判别以及海量数据级的情感极性判别。 
申请号为201010238370.0的发明公开了一种汉语文本情感识别方法,包括下列步骤:1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;3)根据情感识别变量的赋值方法确定情感识别变量的取值;4)根据情感规则确定句子表达的情感类型。 
目前学术界关于词语级、篇章级和海量数据级的情感极性判别研究较多,但是分句级的情感判别研究则很少有人涉及。而目前现有的分句级情 感极性判别多采用基于词表的严格匹配算法、统计预测或机器学习等方法,而很少关注中文语法规则在情感计算当中的作用,特别是缺少基于上下文语境判别情感极性的方法。 
发明内容
本发明提供了一种基于上下文语境的中文分句情感极性判别方法,综合竞拍规则和上下文语境判别中文分句的情感极性,提高中文分句情感极性判断的准确性。 
一种中文分句的情感极性判别方法,包括如下步骤: 
(1)对中文分句进行中文分词和词性的标注,获取每个中文分句中各自的特征值、否定词、副词和情感词,将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性; 
(2)根据中文分句中的副词计算每个中文分句的情感强烈程度; 
(3)提取中文分句中的连接词,对于相邻的三个中文分句,根据连接词以及与其相邻的中文分句的情感强烈程度修正步骤(1)中获得的中文分句情感极性。 
通常情况下,中文分词的准确率与所处的领域密切相关,因此,先建立领域专有词汇表,在中文分词过程时,执行专有词汇优先结合原则,提高中文分词的准确率和精度,确保中文分词的正确性。 
依据词性可以将中文分句划分为名词、动词、形容词、副词以及代词等,根据情感极性判别的需求,依据词性对中文分词结果进行筛选,去掉停用词以及无用词,从而获得精简的中文分词序列。 
对中文分句进行中文分词和词性标注后,每个分句都被降维映射为一个四维向量,该四维向量包括特征值、否定词、副词以及情感词。 
其中,特征值用于确定所关注对象的特征;否定词用于实现语义的翻转;副词用于描述情感的强烈程度;情感词用语确定情感极性。 
将四维向量中的情感词与情感词表进行匹配,确定该情感词的情感极性,从而得到中文分句的情感极性。 
如果中文分句中出现否定词,则该中文分句的情感极性反转。例如依 据情感词的情感极性判断中文分句情感极性为正面,如果分句中存在一个否定词,则相应的中文分句情感极性变为负面。 
由于中文分句的情感极性除了与中文分句自身所表达的内容有关,大多情况下,还与其上下文的情感语境有关,因此,若要准确判别中文分句的情感极性,还需要考虑与其相邻的中文分句的情感语境。 
本发明中依据相邻三个中文分句各自的情感极性以及中文分句间的连接词综合确定中文分句的情感极性。 
依据获得的每个中文分句的副词计算每个中文分句的情感强烈程度。 
连接词的上下文关系可以分为两种:承上和启下。承上表明该连接词所在的中文分句与前一分句有语义上的关联,启下表明该连接词所在的中文分句与后一分句有语义上的关联。 
连接词情感极性关系可以分为两种:转折和顺承。转折表明利用该连接词连接的两中文分句的情感极性相反,顺承表明利用该连接词连接的两中文分句的情感极性相同。 
对连接词分别进行上下文关系以及情感极性关系的标注。 
相邻三个中文分句分别记为第一分句、第二分句以及第三分句,基于上下文关系以及情感极性修正中文分句情感极性有以下几种情况: 
(1)若第一个分句与第二个分句存在明显的上下文关系,而第二个分句与第三个分句不存在明显的上下文关系,则第二个分句的情感极性只根据第一个分句进行判别; 
(2)若第一个分句与第二个分句存不在明显的上下文关系,而第二个分句与第三个分句存在明显的上下文关系,则第二个分句的情感极性只根据第三个分句进行判别; 
(3)若第一个分句与第二个分句存在明显的上下文关系,第二个分句与第三个分句也存在明显的上下文关系,则第二个分句的情感极性判别细分为以下两种情况: 
3-1、若依据第一分句和第三分句判别得到的第二分句的情感极性结果一致,则该情感极性结果即为第二分句的情感极性; 
3-2、若依据第一分句和第三分句判别得到的第二分句的情感极性结 果不一致,则依据第一分句和第三分句中情感强烈程度更强的确定第二分句的情感极性。 
本发明中文分句的情感极性判别方法,能够显著降低人工参与的工作量,在复杂的语言环境中能够有效地提高中文分句情感判别的准确性。 
附图说明
图1为本发明一种基于上下文语境的中文分句情感极性判别方法流程图; 
图2为本发明一种基于上下文语境的中文分句情感极性判别方法示意图。 
具体实施方式
下面结合附图,对本发明一种中文分句的情感极性判别方法做详细说明。 
原始中文分句文本: 
“非常的喜欢,但是你确定你的技术部不是花瓶吗?” 
“囧,不过真的已经很好啦。” 
如图1所示,(1)对中文分句进行中文分词和词性的标注; 
“非常/d的/u喜欢/v,/w但是/c你/r确定/v你/r的/u技术部/n不/d是/v花瓶/n吗/y?/w” 
“囧/x,/w不过/c真/a的/u已经/d很/d好/a啦/y。/w” 
(2)根据情感极性判别的需求,依据词性对中文分词结果进行筛选,去掉停用词和无用词,获得精简的分词序列; 
“非常/d喜欢/v,/w但是/c确定/v技术部/n不/d是/v花瓶/n?/w” 
“囧/x,/w不过/c真/a已经/d很/d好/a”。 
(3)将上述获得的分词结果序列按照词性和语法降维映射得到四维向量{特征值、否定词、副词、情感词},并标记每个中文分句中的连接词,结果见表1; 
表1 
  原分句   否定词   副词   情感词   特征值   连接词
  非常的喜欢     非常   喜欢    
  但是你确定你的技术部   不       技术部   但是
 
  不是花瓶吗          
  囧          
  不过真的已经很好啦     很   好     不过
(4)将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性,判别结果见表2; 
表2 
Figure BDA00002249323400051
第一分句存在明显的情感词“喜欢”,同时没有否定词,因此,判断情感极性为正面; 
第二分句和第三分句都不存在明显的情感词,因此暂无法判断其情感极性; 
第四分句存在明显的情感词“好”,同时没有否定词,因此,判断情感极性为正面; 
(5)根据步骤(4)中相邻的三个分句的情感极性、情感强烈程度和连接词修正步骤(4)中的情感极性判别结果。 
第二分句中有连接词“但是”,“但是”表示第二分句与第一分句的情感极性相反,第一分句的情感极性为正面,因此,第二分句的情感极性为负面。 
第四分句中有连接词“不过”,“不过”表示第四分句与第三分句的情感极性相反,第四分句的情感极性为正面,因此,第三分句的情感极性为负面。 

Claims (6)

1.一种基于上下文语境的中文分句情感极性判别方法,其特征在于,包括如下步骤:
(1)对中文分句进行中文分词和词性的标注,获取每个中文分句中各自的特征值、否定词、副词和情感词,将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性;
(2)根据中文分句中的副词计算每个中文分句的情感强烈程度;
(3)提取中文分句中的连接词,对于相邻的三个中文分句,根据连接词以及与其相邻的中文分句的情感强烈程度修正步骤(1)中获得的中文分句情感极性。
2.如权利要求1所述的基于上下文语境的情感极性判别方法,其特征在于,所述步骤(1)中,建立领域专有词汇表,在中文分词时执行专有词汇优先结合原则。
3.如权利要求2所述的基于上下文语境的情感极性判别方法,其特征在于,所述步骤(1)中,依据词性对中文分词结果进行筛选,去掉停用词以及无用词。
4.如权利要求3所述的基于上下文语境的情感极性判别方法,其特征在于,所述步骤(1)中,如果中文分句中出现否定词,则中文分句的情感极性反转。
5.如权利要求4所述的基于上下文语境的情感极性判别方法,其特征在于,所述步骤(3)中,对连接词分别进行上下文关系以及情感极性关系的标注。
6.如权利要求5所述的基于上下文语境的情感极性判别方法,其特征在于,依据连接词的上下文关系以及情感极性关系判断与相邻中文分句的关系,
(1)若第一个分句与第二个分句存在明显的上下文关系,而第二个分句与第三个分句不存在明显的上下文关系,则第二个分句的情感极性只根据第一个分句进行判别;
(2)若第一个分句与第二个分句不存在明显的上下文关系,而第二个分句与第三个分句存在明显的上下文关系,则第二个分句的情感极性只根据第三个分句进行判别;
(3)若第一个分句与第二个分句存在明显的上下文关系,第二个分句与第三个分句也存在明显的上下文关系,则第二个分句的情感极性判别细分为以下两种情况:
3-1、若依据第一分句和第三分句判别得到的第二分句的情感极性结果一致,则该情感极性结果即为第二分句的情感极性;
3-2、若依据第一分句和第三分句判别得到的第二分句的情感极性结果不一致,则依据第一分句和第三分句中情感强烈程度更强的确定第二分句的情感极性。
CN201210388149.2A 2012-10-12 2012-10-12 一种基于上下文语境的中文分句情感极性判别方法 Expired - Fee Related CN102929860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210388149.2A CN102929860B (zh) 2012-10-12 2012-10-12 一种基于上下文语境的中文分句情感极性判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210388149.2A CN102929860B (zh) 2012-10-12 2012-10-12 一种基于上下文语境的中文分句情感极性判别方法

Publications (2)

Publication Number Publication Date
CN102929860A true CN102929860A (zh) 2013-02-13
CN102929860B CN102929860B (zh) 2015-05-13

Family

ID=47644661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210388149.2A Expired - Fee Related CN102929860B (zh) 2012-10-12 2012-10-12 一种基于上下文语境的中文分句情感极性判别方法

Country Status (1)

Country Link
CN (1) CN102929860B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005552A (zh) * 2014-04-22 2015-10-28 北京四维图新科技股份有限公司 一种信息处理方法及装置
CN105528339A (zh) * 2014-10-20 2016-04-27 联想(新加坡)私人有限公司 基于上下文的文本校正的方法和设备
CN106384245A (zh) * 2016-09-06 2017-02-08 合肥工业大学 产品特征分析方法和系统
CN106528533A (zh) * 2016-11-08 2017-03-22 浙江理工大学 一种基于动态情感词和特殊修饰词的文本情感分析方法
CN106985137A (zh) * 2017-03-09 2017-07-28 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及系统
CN107943787A (zh) * 2017-11-16 2018-04-20 北京百度网讯科技有限公司 收集用户反馈的方法、装置、设备及计算机可读介质
CN109545245A (zh) * 2018-12-21 2019-03-29 斑马网络技术有限公司 语音处理方法及装置
CN112686034A (zh) * 2021-03-22 2021-04-20 华南师范大学 一种情感分类方法、装置及设备
CN117521680A (zh) * 2024-01-04 2024-02-06 深圳和成视讯科技有限公司 一种记录仪的在线翻译方法及记录仪

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
CN102323944A (zh) * 2011-09-02 2012-01-18 苏州大学 基于极性转移规则的情感分类方法
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
JP2011204226A (ja) * 2010-03-25 2011-10-13 Nec (China) Co Ltd 文の配列に基づく文書感情分類システムおよび方法
CN102323944A (zh) * 2011-09-02 2012-01-18 苏州大学 基于极性转移规则的情感分类方法
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005552A (zh) * 2014-04-22 2015-10-28 北京四维图新科技股份有限公司 一种信息处理方法及装置
CN105005552B (zh) * 2014-04-22 2019-01-08 北京四维图新科技股份有限公司 一种信息处理方法及装置
CN105528339A (zh) * 2014-10-20 2016-04-27 联想(新加坡)私人有限公司 基于上下文的文本校正的方法和设备
CN106384245A (zh) * 2016-09-06 2017-02-08 合肥工业大学 产品特征分析方法和系统
CN106528533A (zh) * 2016-11-08 2017-03-22 浙江理工大学 一种基于动态情感词和特殊修饰词的文本情感分析方法
CN106985137A (zh) * 2017-03-09 2017-07-28 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及系统
CN107943787A (zh) * 2017-11-16 2018-04-20 北京百度网讯科技有限公司 收集用户反馈的方法、装置、设备及计算机可读介质
CN109545245A (zh) * 2018-12-21 2019-03-29 斑马网络技术有限公司 语音处理方法及装置
CN112686034A (zh) * 2021-03-22 2021-04-20 华南师范大学 一种情感分类方法、装置及设备
CN117521680A (zh) * 2024-01-04 2024-02-06 深圳和成视讯科技有限公司 一种记录仪的在线翻译方法及记录仪

Also Published As

Publication number Publication date
CN102929860B (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
Novikova et al. The E2E dataset: New challenges for end-to-end generation
Hamouda et al. Reviews classification using sentiwordnet lexicon
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN104331394A (zh) 一种基于观点的文本分类方法
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
CN103744953A (zh) 一种基于中文文本情感识别的网络热点挖掘方法
Bhaskar et al. Enhanced sentiment analysis of informal textual communication in social media by considering objective words and intensifiers
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
KR20120109943A (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN102609424B (zh) 评价信息抽取方法和设备
Zabha et al. Developing cross-lingual sentiment analysis of Malay Twitter data using lexicon-based approach
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
CN107909014A (zh) 一种基于深度学习的视频理解方法
CN110543547A (zh) 一种汽车口碑语义情感分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150513

Termination date: 20151012

EXPY Termination of patent right or utility model