CN102929860B - 一种基于上下文语境的中文分句情感极性判别方法 - Google Patents
一种基于上下文语境的中文分句情感极性判别方法 Download PDFInfo
- Publication number
- CN102929860B CN102929860B CN201210388149.2A CN201210388149A CN102929860B CN 102929860 B CN102929860 B CN 102929860B CN 201210388149 A CN201210388149 A CN 201210388149A CN 102929860 B CN102929860 B CN 102929860B
- Authority
- CN
- China
- Prior art keywords
- subordinate sentence
- chinese
- feeling polarities
- emotion
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000008909 emotion recognition Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 4
- 238000012552 review Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于上下文语境的中文分句情感极性判别方法,包括如下步骤:(1)对中文分句进行中文分词和词性的标注,获取每个中文分句中各自的特征值、否定词、副词以及情感词,将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性;(2)根据中文分句中的副词计算每个中文分句的情感强烈程度;(3)提取中文分句中的连接词,对于相邻的三个中文分句,根据连接词以及与其相邻的中文分句的情感强烈程度修正步骤(1)中获得的中文分句情感极性。本发明基于上下文语境的中文分句情感极性判别方法,能够显著降低人工参与的工作量,在复杂的语言环境中有效地提高中文分句情感判别的准确性。
Description
技术领域
本发明涉及中文分句情感计算领域,具体涉及一种基于上下文语境的中文分句情感极性判别方法。
背景技术
随着Web2.0时代的到来,互联网交互技术取得迅猛发展,网络上出现了大量带有主观情感的评论信息。这些评论信息往往反映了人们对事物或事件的观点和看法。例如在电子商务平台上,一笔交易可能会对应一条文字评论,这些评论通常表明了买家对产品质量、卖家服务、物流速度等多个方面的看法,因此这些评论中包含了大量有用的信息,对商家的广告投放、市场营销、商业决策以及买家的购物选择都具有重要的参考价值和实际意义。目前单纯采用人工分析筛选的方法已经无法满足海量数据处理的需求,因此利用计算机进行情感分析的技术应运而生。
面向文本的情感极性判别通常可被划分为四个级别:词语级情感极性判别、分句级情感极性判别、篇章级情感极性判别以及海量数据级的情感极性判别。
申请号为201010238370.0的发明公开了一种汉语文本情感识别方法,包括下列步骤:1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;3)根据情感识别变量的赋值方法确定情感识别变量的取值;4)根据情感规则确定句子表达的情感类型。
目前学术界关于词语级、篇章级和海量数据级的情感极性判别研究较多,但是分句级的情感判别研究则很少有人涉及。而目前现有的分句级情感极性判别多采用基于词表的严格匹配算法、统计预测或机器学习等方法,而很少关注中文语法规则在情感计算当中的作用,特别是缺少基于上下文语境判别情感极性的方法。
发明内容
本发明提供了一种基于上下文语境的中文分句情感极性判别方法,综合竞拍规则和上下文语境判别中文分句的情感极性,提高中文分句情感极性判断的准确性。
一种中文分句的情感极性判别方法,包括如下步骤:
(1)对中文分句进行中文分词和词性的标注,获取每个中文分句中各自的特征值、否定词、副词和情感词,将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性;
(2)根据中文分句中的副词计算每个中文分句的情感强烈程度;
(3)提取中文分句中的连接词,对于相邻的三个中文分句,根据连接词以及与其相邻的中文分句的情感强烈程度修正步骤(1)中获得的中文分句情感极性。
通常情况下,中文分词的准确率与所处的领域密切相关,因此,先建立领域专有词汇表,在中文分词过程时,执行专有词汇优先结合原则,提高中文分词的准确率和精度,确保中文分词的正确性。
依据词性可以将中文分句划分为名词、动词、形容词、副词以及代词等,根据情感极性判别的需求,依据词性对中文分词结果进行筛选,去掉停用词以及无用词,从而获得精简的中文分词序列。
对中文分句进行中文分词和词性标注后,每个分句都被降维映射为一个四维向量,该四维向量包括特征值、否定词、副词以及情感词。
其中,特征值用于确定所关注对象的特征;否定词用于实现语义的翻转;副词用于描述情感的强烈程度;情感词用语确定情感极性。
将四维向量中的情感词与情感词表进行匹配,确定该情感词的情感极性,从而得到中文分句的情感极性。
如果中文分句中出现否定词,则该中文分句的情感极性反转。例如依据情感词的情感极性判断中文分句情感极性为正面,如果分句中存在一个否定词,则相应的中文分句情感极性变为负面。
由于中文分句的情感极性除了与中文分句自身所表达的内容有关,大多情况下,还与其上下文的情感语境有关,因此,若要准确判别中文分句的情感极性,还需要考虑与其相邻的中文分句的情感语境。
本发明中依据相邻三个中文分句各自的情感极性以及中文分句间的连接词综合确定中文分句的情感极性。
依据获得的每个中文分句的副词计算每个中文分句的情感强烈程度。
连接词的上下文关系可以分为两种:承上和启下。承上表明该连接词所在的中文分句与前一分句有语义上的关联,启下表明该连接词所在的中文分句与后一分句有语义上的关联。
连接词情感极性关系可以分为两种:转折和顺承。转折表明利用该连接词连接的两中文分句的情感极性相反,顺承表明利用该连接词连接的两中文分句的情感极性相同。
对连接词分别进行上下文关系以及情感极性关系的标注。
相邻三个中文分句分别记为第一分句、第二分句以及第三分句,基于上下文关系以及情感极性修正中文分句情感极性有以下几种情况:
(1)若第一个分句与第二个分句存在明显的上下文关系,而第二个分句与第三个分句不存在明显的上下文关系,则第二个分句的情感极性只根据第一个分句进行判别;
(2)若第一个分句与第二个分句存不在明显的上下文关系,而第二个分句与第三个分句存在明显的上下文关系,则第二个分句的情感极性只根据第三个分句进行判别;
(3)若第一个分句与第二个分句存在明显的上下文关系,第二个分句与第三个分句也存在明显的上下文关系,则第二个分句的情感极性判别细分为以下两种情况:
3-1、若依据第一分句和第三分句判别得到的第二分句的情感极性结果一致,则该情感极性结果即为第二分句的情感极性;
3-2、若依据第一分句和第三分句判别得到的第二分句的情感极性结果不一致,则依据第一分句和第三分句中情感强烈程度更强的确定第二分句的情感极性。
本发明中文分句的情感极性判别方法,能够显著降低人工参与的工作量,在复杂的语言环境中能够有效地提高中文分句情感判别的准确性。
附图说明
图1为本发明一种基于上下文语境的中文分句情感极性判别方法流程图;
图2为本发明一种基于上下文语境的中文分句情感极性判别方法示意图。
具体实施方式
下面结合附图,对本发明一种中文分句的情感极性判别方法做详细说明。
原始中文分句文本:
“非常的喜欢,但是你确定你的技术部不是花瓶吗?”
“囧,不过真的已经很好啦。”
如图1所示,(1)对中文分句进行中文分词和词性的标注;
“非常/d的/u喜欢/v,/w但是/c你/r确定/v你/r的/u技术部/n不/d是/v花瓶/n吗/y?/w”
“囧/x,/w不过/c真/a的/u已经/d很/d好/a啦/y。/w”
(2)根据情感极性判别的需求,依据词性对中文分词结果进行筛选,去掉停用词和无用词,获得精简的分词序列;
“非常/d喜欢/v,/w但是/c确定/v技术部/n不/d是/v花瓶/n?/w”
“囧/x,/w不过/c真/a已经/d很/d好/a”。
(3)将上述获得的分词结果序列按照词性和语法降维映射得到四维向量{特征值、否定词、副词、情感词},并标记每个中文分句中的连接词,结果见表1;
表1
(4)将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性,判别结果见表2;
表2
第一分句存在明显的情感词“喜欢”,同时没有否定词,因此,判断情感极性为正面;
第二分句和第三分句都不存在明显的情感词,因此暂无法判断其情感极性;
第四分句存在明显的情感词“好”,同时没有否定词,因此,判断情感极性为正面;
(5)根据步骤(4)中相邻的三个分句的情感极性、情感强烈程度和连接词修正步骤(4)中的情感极性判别结果。
第二分句中有连接词“但是”,“但是”表示第二分句与第一分句的情感极性相反,第一分句的情感极性为正面,因此,第二分句的情感极性为负面。
第四分句中有连接词“不过”,“不过”表示第四分句与第三分句的情感极性相反,第四分句的情感极性为正面,因此,第三分句的情感极性为负面。
Claims (3)
1.一种基于上下文语境的中文分句情感极性判别方法,其特征在于,包括如下步骤:
(1)对中文分句进行中文分词和词性的标注,获取每个中文分句中各自的特征值、否定词、副词和情感词,其中,特征值用于确定所关注对象的特征;否定词用于实现语义的翻转;副词用于描述情感的强烈程度;情感词用于确定情感极性;将中文分句的情感词与情感词表进行匹配,确定情感词的情感极性,得到中文分句的情感极性,如果中文分句中出现否定词,则该中文分句的情感极性反转;
(2)根据中文分句中的副词计算每个中文分句的情感强烈程度;
(3)提取中文分句中的连接词,对连接词分别进行上下文关系以及情感极性关系的标注,对于相邻的三个中文分句,根据连接词以及与其相邻的中文分句的情感强烈程度修正步骤(1)中获得的中文分句情感极性,相邻三个中文分句分别记为第一分句、第二分句以及第三分句,基于上下文关系以及情感极性修正中文分句情感极性有以下几种情况:
3-1若第一个分句与第二个分句存在明显的上下文关系,而第二个分句与第三个分句不存在明显的上下文关系,则第二个分句的情感极性只根据第一个分句进行判别;
3-2若第一个分句与第二个分句不存在明显的上下文关系,而第二个分句与第三个分句存在明显的上下文关系,则第二个分句的情感极性只根据第三个分句进行判别;
3-3若第一个分句与第二个分句存在明显的上下文关系,第二个分句与第三个分句也存在明显的上下文关系,则第二个分句的情感极性判别细分为以下两种情况:
3-3-1、若依据第一分句和第三分句判别得到的第二分句的情感极性结果一致,则该情感极性结果即为第二分句的情感极性;
3-3-2、若依据第一分句和第三分句判别得到的第二分句的情感极性结果不一致,则依据第一分句和第三分句中情感强烈程度更强的确定第二分句的情感极性。
2.如权利要求1所述的基于上下文语境的情感极性判别方法,其特征在于,所述步骤(1)中,建立领域专有词汇表,在中文分词时执行专有词汇优先结合原则。
3.如权利要求2所述的基于上下文语境的情感极性判别方法,其特征在于,所述步骤(1)中,依据词性对中文分词结果进行筛选,去掉停用词以及无用词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210388149.2A CN102929860B (zh) | 2012-10-12 | 2012-10-12 | 一种基于上下文语境的中文分句情感极性判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210388149.2A CN102929860B (zh) | 2012-10-12 | 2012-10-12 | 一种基于上下文语境的中文分句情感极性判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102929860A CN102929860A (zh) | 2013-02-13 |
CN102929860B true CN102929860B (zh) | 2015-05-13 |
Family
ID=47644661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210388149.2A Expired - Fee Related CN102929860B (zh) | 2012-10-12 | 2012-10-12 | 一种基于上下文语境的中文分句情感极性判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102929860B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005552B (zh) * | 2014-04-22 | 2019-01-08 | 北京四维图新科技股份有限公司 | 一种信息处理方法及装置 |
US20160110327A1 (en) * | 2014-10-20 | 2016-04-21 | Lenovo (Singapore) Pte. Ltd. | Text correction based on context |
CN106384245B (zh) * | 2016-09-06 | 2018-06-19 | 合肥工业大学 | 产品特征分析方法和系统 |
CN106528533A (zh) * | 2016-11-08 | 2017-03-22 | 浙江理工大学 | 一种基于动态情感词和特殊修饰词的文本情感分析方法 |
CN106985137B (zh) * | 2017-03-09 | 2019-11-08 | 北京光年无限科技有限公司 | 用于智能机器人的多模态交互方法及系统 |
CN107943787A (zh) * | 2017-11-16 | 2018-04-20 | 北京百度网讯科技有限公司 | 收集用户反馈的方法、装置、设备及计算机可读介质 |
CN109545245A (zh) * | 2018-12-21 | 2019-03-29 | 斑马网络技术有限公司 | 语音处理方法及装置 |
CN112686034B (zh) * | 2021-03-22 | 2021-07-13 | 华南师范大学 | 一种情感分类方法、装置及设备 |
CN117521680B (zh) * | 2024-01-04 | 2024-06-21 | 深圳和成视讯科技有限公司 | 一种记录仪的在线翻译方法及记录仪 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101639824A (zh) * | 2009-08-27 | 2010-02-03 | 北京理工大学 | 一种针对不良信息的基于情感倾向性分析的文本过滤方法 |
CN102033865A (zh) * | 2009-09-25 | 2011-04-27 | 日电(中国)有限公司 | 基于子句关联的文本情感分类系统和方法 |
CN102200969A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 基于句子顺序的文本情感极性分类系统和方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
CN102682130A (zh) * | 2012-05-17 | 2012-09-19 | 苏州大学 | 一种文本情感分类方法及系统 |
-
2012
- 2012-10-12 CN CN201210388149.2A patent/CN102929860B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101639824A (zh) * | 2009-08-27 | 2010-02-03 | 北京理工大学 | 一种针对不良信息的基于情感倾向性分析的文本过滤方法 |
CN102033865A (zh) * | 2009-09-25 | 2011-04-27 | 日电(中国)有限公司 | 基于子句关联的文本情感分类系统和方法 |
CN102200969A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 基于句子顺序的文本情感极性分类系统和方法 |
JP2011204226A (ja) * | 2010-03-25 | 2011-10-13 | Nec (China) Co Ltd | 文の配列に基づく文書感情分類システムおよび方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
CN102682130A (zh) * | 2012-05-17 | 2012-09-19 | 苏州大学 | 一种文本情感分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102929860A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
Singla et al. | Statistical and sentiment analysis of consumer product reviews | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
Hamouda et al. | Reviews classification using sentiwordnet lexicon | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN108038725A (zh) | 一种基于机器学习的电商产品客户满意度分析方法 | |
CN108388660B (zh) | 一种改进的电商产品痛点分析方法 | |
CN108269125B (zh) | 评论信息质量评估方法及系统、评论信息处理方法及系统 | |
CN102682130B (zh) | 一种文本情感分类方法及系统 | |
Shirsat et al. | Document level sentiment analysis from news articles | |
CN107944911B (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
Hamouda et al. | Building machine learning based senti-word lexicon for sentiment analysis | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
Bhaskar et al. | Enhanced sentiment analysis of informal textual communication in social media by considering objective words and intensifiers | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
Syed | Applying sentiment and emotion analysis on brand tweets for digital marketing | |
CN110706028A (zh) | 基于属性特征的商品评价情感分析系统 | |
CN103995853A (zh) | 基于关键句的多语言情感数据处理分类方法及系统 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN111091000A (zh) | 一种抽取用户细粒度典型意见数据处理系统及方法 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN109255022A (zh) | 一种用于网络文章的摘要自动提取方法 | |
Saranya et al. | A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis. | |
CN106445914A (zh) | 微博情感分类器的构建方法及构建装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150513 Termination date: 20151012 |
|
EXPY | Termination of patent right or utility model |