CN102999485A - 一种基于公众汉语网络文本的现实情感分析方法 - Google Patents

一种基于公众汉语网络文本的现实情感分析方法 Download PDF

Info

Publication number
CN102999485A
CN102999485A CN2012104314329A CN201210431432A CN102999485A CN 102999485 A CN102999485 A CN 102999485A CN 2012104314329 A CN2012104314329 A CN 2012104314329A CN 201210431432 A CN201210431432 A CN 201210431432A CN 102999485 A CN102999485 A CN 102999485A
Authority
CN
China
Prior art keywords
emotion
degree
rule
word
emoticon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104314329A
Other languages
English (en)
Inventor
张钫炜
陈贤
陆月明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2012104314329A priority Critical patent/CN102999485A/zh
Publication of CN102999485A publication Critical patent/CN102999485A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提出一种基于公众汉语网络文本的现实情感分析方法。方法主要包括几个步骤:第一,对网络文本进行预处理,检测特殊字符,获得基本语法结构。第二,概念排歧,根据错别字表,替换与情感有关的特定的有用词汇。第三,根据现实情感特征词库对情感词进行基于规则的情感值赋值。第四,根据制定的规则分析得到情感指向、情感状态、情感程度。该分析方法能准确的分析出公众汉语网络文本的现实情感信息。

Description

一种基于公众汉语网络文本的现实情感分析方法
技术领域
本发明涉及一种以公众汉语为主的网络文本的现实情感分析方法,涉及语言学、自然语言处理和数据挖掘领域。 
背景技术
Web2.0技术在过去几年的快速发展使得以公众汉语形式出现的网络文本越来越多,是我们最容易获取的最丰富的一种交互资源。这些网络文本的结构灵活松散,语言风格多样和质量良莠不齐,在此背景下兴起的基于网络文本的情感分析对信息检索、电子商务、舆情监控等领域有着重要的研究意义。 
国内针对汉语网络文本的情感分析主要集中在情感倾向性分析,一般分为褒义、贬义和中性三种,还包括倾向性的强烈程度。例如,“谴责”的强度远远超过“批评”和“指责”,而这种强度很难界定。基于网络文本的情感分析应当全面而丰富,不仅包括倾向性分析,还应分析当事人的主观情绪状态,以及情感程度。 
James Robert Martin从认识论的角度,将情感成分分为现实类情感和非现实类情感。非现实类情感关涉的是说话人的情感倾向,而现实情感则是某种状态。现实类情感分为12个典型状态,每个状态从情感指向又分为“对己”和“对人”两个次类,较多的层次表现力更强,更能体现语言的细微差别。 
本专利所指的情感分析属于现实类情感,指人的主观情绪,分析结果是一种情感状态和情感程度。例如,是否愉快,如是幸福还是痛苦,是反感还是好感,是开心还是郁闷;其情感程度是多少。 
鉴于上述背景,针对以公众汉语为主的网络文本,提出一种现实情感模型的情感分析方法,对于细致的情感计算,甚至赋予计算机类似于人一样的观察、理解和生成各种情感特征能力有着很强的现实意义。 
发明内容
本发明“一种基于公众汉语网络文本的现实情感分析方法”旨在提供一种针对以公众汉语为主的网络文本的现实情感分析方法,能准确的分析得到文本的情感状态信息,包括三个部分:对己/对人,情感状态,情感程度。 
本发明提出的基于公众汉语网络文本的现实情感分析方法包含 以下步骤: 
(1)利用汉语分词软件对文本进行预处理,得到基本语法结构。 
(2)检测文本中的歧义词、标点符号、感叹词、程度副词、否定词和情感符号等。 
(3)根据歧义词表将关于情感的有用的特定词汇更正。 
(4)根据现实情感特征词库对情感词进行基于规则的赋值处理。 
(5)根据是否含有标点符号或者情感符等计算最终情感程度,得到最终情感分析结果。 
对于上述步骤的方法、现实情感特征词库和计算方法解释如下: 
I.汉语分词软件能进行词性标注、命名实体识别和新词识别,得到句子的基本语法信息。 
II.检测文本中的歧义词、标点符号、感叹词、程度副词、否定词和情感符,解释及其使用规则依次如下: 
a.歧义词是指常见错别字、网络新词、省略词等,我们根据错别字表进行替换更正,同时加入新鲜的网络词汇。 
我们只关心与情感相关的有用的特定词汇,包括与特征词库相关的错别字、有关情感的网络新词等,而不会关心比如“酱紫/这样子”、“886/拜拜了”这样不影响情感判断的词。这样能减轻数据统计量,更加准确分析句子情感状态和情感程度。例如,下面是我们关心的词汇表: 
落莫 兴高彩烈 毛骨耸然 灰常 稀饭 8错
落寞 兴高采烈 毛骨悚然 非常 喜欢 不错
b.标点符号、感叹词的判断规则:我们认为出现感叹号,问号或者重复的标点符号等具有强烈感情色彩的符号会加深情感程度,具体规则为在最终的情感程度上乘符号或者感叹词的程度系数。一般感叹词的出现会伴随具有很强感情色彩的符号,比如“啊!!!”,在判断其程度系数时,我们取两者甲的最大值。 
下表为标点符号和感叹词的程度系数举例: 
标号/叹词 !! ??? 天哪 哎呀
程度系数 1.1 1.2 1.1 1.1 1.1
c.程度副词的判断规则:根据分词结果,得到表征现实情感的情感词,程度副词修饰情感词时,情感词的情感值乘程度副词的程度系数的结果作为被修饰情感词的程度值;程度副词没有修饰任何情感词时,将其情感程度系数置为0。程度副词只影响其修饰的情感词,不参与整个句子的情感程度计算。下表为程度副词举例: 
极其 非常 稍微 有点 不得不
1.3 1.1 1.2 1.1 1.1 1.2
d.情感符的判断规则:网络文本的结构松散,形式多样,句子中经常含有各种各样表达情感的符号,比如笑脸符,能贴切的反映文本的情感状态。当出现多个情感符时,各个情感符的情感状态一 致则取程度系数最大的一个作为该句子的情感符;当同一个情感符重复出现时,适当调高其程度系数,表明其情感程度加深;情感状态不一致时,将所有的情感符程度系数置0;当情感符反映的情感状态和情感词反映的情感状态不一致时,将表征该句的情感符的程度系数置0。例如,情感符的程度系数表: 
Figure BSA00000798886500051
III.根据情感特征词库对情感词进行情感程度赋值。人为设置合理 情感值的意义在于符合人的直观感受。例如,情感特征词库如下: 
Figure BSA00000798886500061
Figure BSA00000798886500071
Figure BSA00000798886500081
IV.情感分析的规则如下: 
规则一:本发明在各处提到的情感程度系数置为0,是指不讨论该情感状态和情感程度。 
规则二:无任何情感词库里的情感词出现时,将这样的句子认定为非现实情感句。 
规则三:情感分析首先判断情感状态,然后分析情感程度。情感状态决定情感指向为“对人/对己”。最后的分析结果形式为“对人/对己,情感状态,情感程度”。 
规则四:若多个情感词表征多个情感状态,或者表征同一情感状态,分别计算各个情感词对应的情感值,取情感程度最高的一个作为当前的情感状态和情感值。如果有情感值相同的情况,则均保留 并参与下一步骤。 
规则五:语法结构中有否定词修饰情感词时,将该情感词的情感值置为0。但是,例如“不得不”、“不会不”这样的词汇归为程度副词,会加深情感程度。 
规则六:由当前情感状态和情感值结合句子中的标点符号、感叹词、情感符等计算得出最终的情感值,同时列出分析结果。 
综上所述,本发明提出的现实情感分析方法简单有效的实现了基于公众汉语网络文本的现实情感分析,结果符合人的直观感受。 
附图说明
附图1是基于公众汉语网络文本的现实情感分析流程图 
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清晰、完整的描述,所描述的实施例仅仅是本发明的一部分实施例,非全部实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 
为了说明基于公众汉语网络文本的现实情感分析方法,这里给出几个例句,具体分析展示本发明的技术要点。 
(1)他一生默默无闻,也没有享受过充裕的物质生活。 
这是一个非现实情感句,不含任何现实情感特征词库中的情感 词,句子表达出的意思不含有任何人的主观情绪和情感状态。 
(2)这次网购经历很开心。我灰常喜欢这款表的风格,从见到它就爱不释手,虽然有点烦它的重量很沉。 
这句话中能判断出的现实情感词有“微笑”、“喜欢”、“爱不释手”、“烦”,与情感判断有关的歧义词“灰常”,将其替换为“非常”,那么程度副词有“非常”、“有点”、“很”。“很开心”中的“很”修饰“开心”;“很沉”中的“很”作为程度副词,没有修饰情感词,将其情感程度系数置为0。我们通过一个表来分析其情感状态和程度,如下: 
Figure BSA00000798886500101
(3)他喜滋滋地看着妻子怀孕的短信,下一条信息却告知他因公司裁员被解雇了。他本身就因经济的窘迫坐立不安、忧心忡忡,甚至头痛不已。他长长的叹气一声,“唉!!!”,小心地给妻子回了一个笑脸符
Figure BSA00000798886500102
尽管他极度讨厌经理盛气凌人的样子,但还是忐忑地去找经理争取挽回工作机会。 
这段话中的情感词很多,包括“喜滋滋”、“坐立不安”、“忧心忡忡”、“头痛”、“(极度)讨厌”、“小心”、“忐忑”;程度副词“极度”修饰“讨厌”;感叹词“唉”,伴随感叹号“!!!”;情感符为 
Figure BSA00000798886500111
我们先分析情感状态,然后判断情感程度。 
如下表: 
我们根据感叹词“唉”和感叹号“!!!”的程度系数规则,取最大“!!!”对应的程度系数“1.2”。情感符对应的情感状态为“喜爱”,和我们根据情感词判断的不一致,故置其情感程度系数为0。最终我们得到的情感程度为0.6*1.2=0.72。 
那么这段话的现实情感形式为“对己,不安,0.72”。尽管这段话很复杂,判断出的情感指向、情感状态、情感程度和我们的直观感受是一致的,说明本发明的现实情感分析方法具有有效性。 
本发明的优势
本发明提出的基于公众汉语网络文本的现实情感分析方法,通过现实情感特征词库和一系列的规则来分析网络文本,客观描述出文本中人的主观情绪、情感指向和情感程度。 
本发明的优点主要有: 
(1)根据现实情感分类,我们将网络文本中人的主观情绪(某种情感状态)分析得准确,细致。 
(2)在整个分析规则中,不用考虑情感指向的判断,只要分析情感状态就知道其对应的情感指向是“对人/对己”。 
(3)概念排歧的过程目标明确,只针对性的替换与情感判断相关的特定有用词汇,减少了计算量。 
(4)对程度副词的处理,程度副词只会影响其修饰的情感词,情感程度判断准确。 
(5)情感程度的计算规则简单,概念清晰,容易实现,能客观反映出人的主观情绪状态的程度。 

Claims (6)

1.本发明提出一种基于公众汉语网络文本的现实情感分析方法,包含以下步骤:
(1)利用汉语分词软件对文本进行预处理,得到基本语法结构。
(2)检测文本中的歧义词、标点符号、感叹词、程度副词、否定词和情感符号等。
(3)根据歧义词表将关于情感的有用的特定词汇更正。
(4)根据现实情感特征词库对情感词进行基于规则的赋值处理。
(5)根据是否含有标点符号或者情感符等计算最终情感程度,得到最终情感分析结果。
2.根据权利要求1所述方法,其特征在于,所述步骤(2)包括对标点符号、感叹词、程度副词和情感符的赋值处理,用于表征对最终情感程度的影响。
3.根据权利要求1所述方法,其特征在于,所述步骤(2)对于标点符号、感叹词、程度副词和情感符的处理规则如下:
规则1:如果检测到具有强烈感情色彩的标点符号或感叹词,在最终的情感程度上乘标点符号或者感叹词的程度系数。伴随感叹词出现具有很强感情色彩的标点符号,在判断程度系数时,我们取两者中的最大值。
规则2:如果检测到程度副词,程度副词在修饰情感词时,情感词的情感值为乘程度副词的程度系数的结果;程度副词不修饰情感词时,将程度副词的情感程度系数置为0。程度副词只影响其修饰的情感词。
规则3:如果检测到多个情感符时,各个情感符的情感状态一致则取程度系数最大的一个作为表征该句子的情感符,情感状态不一致时,将所有的情感符的程度系数置0。
规则4:如果同一个情感符重复出现时,适当调高其程度系数,表明其情感程度加深。
规则5:如果表征句子的情感符反映的情感状态和情感词反映的情感状态不一致时,将表征该句的情感符的程度系数置0。
4.根据权利要求1所述方法,其特征在于,所述步骤(3)对于歧义词的处理规则如下:
规则6:如果检测到歧义词,将只与情感相关的有用的特定词汇替换,而不关心和情感判断无关的词汇。
5.根据权利要求1所述方法,其特征在于,所述步骤(4)对于情感特征词的赋值处理规则如下:
规则7:如果无任何情感特征词库里的情感词出现时,将这样的句子认定为非现实情感句。
规则8:根据情感特征词判断情感状态,有程度副词修饰时,根据程度副词的处理规则得到当前情感特征词的程度值;当有否定词修饰时,将当前情感特征词的程度值置0。
规则9:如果多个情感词表征多个情感状态,或者表征同一情感状态,分别计算各个情感词对应的情感值,取情感值最高的一个作为当前的情感状态和情感值,当出现情感值相同的情况,均保留参与下一步骤。
规则10:如果判断出情感状态,则相应判断出情感指向为“对人/对己”。
6.根据权利要求1所述方法,其特征在于,所述步骤(5)对于最终情感分析的规则如下:
规则11:如果句子有情感符、感叹词等,将判断出的最终情感状态对应的情感值乘上情感符等的程度系数,得到最终的情感值。情感分析结果表征为“对人/对己,情感状态,情感程度”。
CN2012104314329A 2012-11-02 2012-11-02 一种基于公众汉语网络文本的现实情感分析方法 Pending CN102999485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104314329A CN102999485A (zh) 2012-11-02 2012-11-02 一种基于公众汉语网络文本的现实情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104314329A CN102999485A (zh) 2012-11-02 2012-11-02 一种基于公众汉语网络文本的现实情感分析方法

Publications (1)

Publication Number Publication Date
CN102999485A true CN102999485A (zh) 2013-03-27

Family

ID=47928067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104314329A Pending CN102999485A (zh) 2012-11-02 2012-11-02 一种基于公众汉语网络文本的现实情感分析方法

Country Status (1)

Country Link
CN (1) CN102999485A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427858A (zh) * 2015-11-06 2016-03-23 科大讯飞股份有限公司 实现语音自动分类的方法及系统
WO2016197577A1 (zh) * 2015-06-12 2016-12-15 百度在线网络技术(北京)有限公司 评论信息的标注方法、装置和计算机设备
WO2017024553A1 (zh) * 2015-08-12 2017-02-16 浙江核新同花顺网络信息股份有限公司 一种信息情感分析方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030368A (zh) * 2006-03-03 2007-09-05 国际商业机器公司 在保持情感的同时跨通道进行通信的方法和系统
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030368A (zh) * 2006-03-03 2007-09-05 国际商业机器公司 在保持情感的同时跨通道进行通信的方法和系统
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李斌 等: "汉语褒贬词语的褒贬指向问题初探", 《第四届全国学生计算语言学研讨会会议论文集》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197577A1 (zh) * 2015-06-12 2016-12-15 百度在线网络技术(北京)有限公司 评论信息的标注方法、装置和计算机设备
WO2017024553A1 (zh) * 2015-08-12 2017-02-16 浙江核新同花顺网络信息股份有限公司 一种信息情感分析方法和系统
US10437871B2 (en) 2015-08-12 2019-10-08 Hithink Royalflush Information Network Co., Ltd. Method and system for sentiment analysis of information
US10831808B2 (en) 2015-08-12 2020-11-10 Hithink Royalflush Information Network Co., Ltd. Method and system for sentiment analysis of information
US11481422B2 (en) 2015-08-12 2022-10-25 Hithink Royalflush Information Network Co., Ltd Method and system for sentiment analysis of information
US11868386B2 (en) 2015-08-12 2024-01-09 Hithink Royalflush Information Network Co., Ltd. Method and system for sentiment analysis of information
CN105427858A (zh) * 2015-11-06 2016-03-23 科大讯飞股份有限公司 实现语音自动分类的方法及系统

Similar Documents

Publication Publication Date Title
Wang et al. Multiple affective attribute classification of online customer product reviews: A heuristic deep learning method for supporting Kansei engineering
Mohammad # Emotional tweets
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
Trilla et al. Sentence-based sentiment analysis for expressive text-to-speech
CN103995803B (zh) 一种细粒度文本情感分析方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN103544246A (zh) 互联网多种情感词典构建方法及系统
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
Perikos et al. Recognizing emotion presence in natural language sentences
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN104462408B (zh) 一种基于主题建模的多粒度情感分析方法
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN110083829A (zh) 情感极性分析方法及相关装置
CN102867028B (zh) 一种应用于搜索引擎的情感映射方法与情感句型分析方法
CN106055633A (zh) 一种中文微博主客观句分类方法
CN109284389A (zh) 一种文本数据的信息处理方法、装置
Jabreel et al. Sentirich: Sentiment analysis of tweets based on a rich set of features
Langlet et al. Modelling user’s attitudinal reactions to the agent utterances: focus on the verbal content
CN106202047A (zh) 一种基于微博文本的人物性格刻画方法
CN102999485A (zh) 一种基于公众汉语网络文本的现实情感分析方法
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Zhang Fangwei

Document name: Notification of Publication and of Entering the Substantive Examination Stage of the Application for Invention

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130327