CN102163191A - 一种基于HowNet的短文本情感识别方法 - Google Patents

一种基于HowNet的短文本情感识别方法 Download PDF

Info

Publication number
CN102163191A
CN102163191A CN2011101218626A CN201110121862A CN102163191A CN 102163191 A CN102163191 A CN 102163191A CN 2011101218626 A CN2011101218626 A CN 2011101218626A CN 201110121862 A CN201110121862 A CN 201110121862A CN 102163191 A CN102163191 A CN 102163191A
Authority
CN
China
Prior art keywords
emotion
former
sentence
hownet
justice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101218626A
Other languages
English (en)
Inventor
毛峡
江琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2011101218626A priority Critical patent/CN102163191A/zh
Publication of CN102163191A publication Critical patent/CN102163191A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于HowNet的短文本情感识别方法,包括以下步骤:(1)构建情感词典;(2)利用词法分析系统ICTCLAS2011对句子分词;(3)根据词的不同词性,对分词结果进行处理;(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。

Description

一种基于HowNet的短文本情感识别方法
(一)技术领域
本发明涉及一种文本情感识别方法,主要涉及自然语言处理领域以及情感计算领域。
(二)背景技术
现阶段人机交互接口主要基于自然语言,而用于人机交互的文本都属于短文本。短文本具有简洁、灵活,。因此对于文本得情感推理研究可以促进人机交互接口向着更智能的方向发展。同时对于文本的情感识别可以为其他形式的情感识别提供辅助作用,比如说语音及表情。
PAD模型是Mehrabian和Russell提出的情感维度测量模型。该模型将情绪分为:愉悦度(Pleasure)——表示个体情感状态的正负特性,激活度(Arousal)——表示个体神经生理激活水平;优势度(Dominance)——表示个体对情境和他人的控制状态。PAD模型不但给出了对情感空间进行描述的理论构想,同时采用量化的方法试图建立情感空间中各种情绪范畴的定位和关系。
HowNet(知网)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。
对于文本的情感识别方法目前主要有关键词定位法,词法关系法。对于关键词定位法对于包含情感词汇的句子有很好的识别效果,但对于无情感词汇的句子失效。而词法关系仅仅考虑了词汇表面的关系,未深入考虑其语义关系。而结合HowNet常识库以及PAD模型可以解决文本情感识别缺乏语义基础及情感模型的问题。因此,提出一种精确、高效的文本情感识别方法具有很强的现实意义。
(三)发明内容
本发明要解决的问题是提供一种准确识别短文本情感的方法。
本发明提供了一种基于HowNet的短文本情感识别方法,包括以下步骤:
(1)构建情感词典;
(2)利用词法分析系统ICTCLAS2011对句子分词;
(3)根据词的不同词性,对分词结果进行处理;
(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;
(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。
在上述方法中步骤(1)中情感词典的建立如下所述:
从HowNet中的10类义原中选取下列类型义原:Event|事件、Entity|实体、Attribute|属性、Attribute Value|属性值、Secondary Feature|次要特征,并从中选取表征情感的义原对其进行PAD值的标注,标注范围为[-1,1]。而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数。
除了HowNet中的义原,叹词、拟声词、语气词也会纳入情感词典。对这些词汇,则根据其情感表达方式选择其对PAD中哪一个值有影响作用,并赋予相应的情感系数,形式如<factor,category>。
情感词典的结构如下所示:
  词名   属性   值
  激动   Event|事件   0.6/0.8/0.2
  香   Attribute Value|属性值   0.5/0.6/0.2
  嗜好物   Entity|实体   -0.6/0.6/-0.5
  哇   语气词   <1.5,A>
在上述方法步骤(2)中,利用ICTCLAS2011进行分词后,可以得到句子的基本成分。在这里选择其分词的形式为细粒度分词,并采用计算所二级标注。在上述方法步骤(3)中,根据分词结果对不同词性的词语进行处理。由于短文本自身的特点,对于形容词、动词、名词、代词应该进行着重处理,而副词、语气词则作为辅助作用。而对于其他一些标点符号及数量词则进行冗余处理去除。通过对结果进行处理可以得到对句子情感有决定性作用的词汇组。
在上述方法步骤(4)中,首先将步骤(3)词汇组中的词汇在HowNet中检索得到其义原,并从情感词典中得到义原的PAD值。在这里我们根据HowNet知网描述语言中的符号及其动态语义角色,制定一系列的义原抽取规则(Extraction Rules,ER),以便能够精确表示词汇的情感特征。
ER1:对于形容词,若在HowNet中的DEF项类型为Attribute Value|属性值,则选取其DEF项的第三个义原作为该词汇的最终义原表示。
ER2:对于名词,若在HowNet中的DEF项中出现*、%、#,则选择其后面的义原作为其最终义原。
ER3:对于动词,若在HowNet中的DEF项第一个为BeUnable|无能,则对其赋予一个否定系数-1,然后在从其他义原中选取合适的义原。
ER4:对于动词,若在HowNet中的DEF项中出现如下动态语义角色:manner、patient、content、isa、ResultIsa、ResultWhole、cause、StateFin、degree、purpose、state,则选择其后的义原作为最终义原,若同时出现多个动态语义角色,则优先选择排在前面的动态语义角色后面的义原。
在上述步骤(5)中,根据句子中不同词性词语的数量来决定其句子类型,并根据相应的情感产生规则,得出句子最终的PAD值。
若句子中只有名词、代词、形容词,认为句子为主观句,即直接抒发个人的情感,这时选择形容词的PAD值作为主导,其对句子最终情感的影响系数为0.7,其他词对句子最终情感影响系数分别为0.3/其他词的个数。
若句子中出现动词,则认为句子为评价句,即对事实进行陈述。这时选择动词和名词作为情感产生的主要源头。首先,对形容词和名词的PAD值取平均数,得出名词的PAD值。而对于动词和名词,采取如下规则产生句子的最终PAD值。
  动词   名词   句子
  正值   正值   正值,且为二者平均数
  正值   负值   负值,且为二者绝对值平均
  负值   正值   负值,且为二者绝对值平均
  负值   负值   正值,且为二者绝对值平均
本发明提供的短文本情感识别方法有效解决了中文短文本识别中缺乏语义基础的问题。该方法有如下优点:考虑了短文本固有的特点,建立相应的文本处理模型,并以HowNet作为基础,提高了识别的准确性,采用PAD值作为评判标准,更好的反映了文本的情感状态。
(四)附图说明
图1短文本情感识别模型
(五)具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明三个实施例的网络文本情感识别方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的基本思想是通过对短文本进行分词处理,并通过查找HowNet得到义原表示,然后通过情感词典获取义原PAD值,根据相应的情感规则,最终得到句子的PAD值,实现对句子情感的识别。
根据以上思想,本发明的流程图如图1所示。
下面通过三个具体的实例说明短文本的情感识别方法。
(1)可见其名声之糟糕。
(2)我也爱莫能助
(3)我打碎了那个漂亮的花瓶
根据张华平博士研制的汉语词法分析系统ICTCLAS2011,我们可以得到句子的基本结构及词性标注。
(1)首先对其进行分词处理,结果如下:
可见/c其/rz名声/n之/uzhi糟糕/a
然后对其进行冗余处理,去掉之/uzhi、可见/c,最终得到短文本的词汇组为:其,名声,糟糕。显然这里的主导词位糟糕,通过查找HowNet,得到各个词的DEF定义:其:{ThirdPerson|他,mass|众},名声:attribute|属性,reputation|名声,&human|人,&organization|组织,糟糕:aValue|属性值,GoodBad|好坏,bad|坏,undesired|莠。则根据义原抽取规则,名声的义原即为名声,糟糕的义原为坏。在情感词典中获取两者的PAD值如下:名声:0.3/0.1/0.1,糟糕:-0.6/-0.3/0.2。根据情感规则可得句子的PAD值为0.3*(名声)+0.7*(糟糕),最终结果为:-0.33/-0.18/0.17。
(2)首先对其进行分词处理如下:
我/rr也/d爱莫能助/vl
然后对其进行冗余处理,去掉也/d,得到句子的短文本词汇组为:我,爱莫能助。这里显然爱莫能助是一个成语,在HowNet中找到其DEF定义:BeUnable|无能,content=help|帮助,根据ER3、ER4,可知其义原为-help|帮助,其中“-”表示对义原的值取反。在情感词典中得到帮助的PAD值为:0.5/0.3/0.6,所以最终句子的PAD值即为:-0.5/-0.3/-0.6。
(3)首先对其进行分词处理如下:
我/rr打碎/v了/ule那个/rz漂亮/a的/ude1花瓶/n
然后对其进行冗余处理,去掉了/ule,那个/rz,的/udel。得到其词汇组为:我,打碎,漂亮,花瓶。首先从HowNet中得到各个词语的DEF定义:打碎:bump|撞,StateFin=OutOfOrder|坏掉,漂亮:aValue|属性值,GoodBad|好坏,good|好,desired|良,花瓶:tool|用具,cubic|体,*put|放置,#FlowerGrass|花草。根据义原抽取规则,选择各个词的义原分别为:打碎——>坏掉,漂亮——>好,花瓶——>花草。然后通过漂亮和花瓶得出花瓶的最终PAD值为:0.6/0.5/0.1。而坏掉的PAD值为-0.6/-0.1/0.2,因此句子最终的PAD值为-0.6/-0.3/0.15。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导和限制。

Claims (6)

1.一种基于HowNet的短文本情感识别方法,包括以下步骤:
(1)构建情感词典;
(2)利用词法分析系统ICTCLAS2011对句子分词;
(3)根据词的不同词性,对分词结果进行处理;
(4)根据义原抽取规则,从HowNet中抽取词汇义原,并从情感词典中获取PAD值;
(5)根据情感产生规则识别句子的PAD值,用来表征句子情感。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)从HowNet中的10类义原中选取下列类型义原:Event|事件、Entity|实体、Attribute|属性、AttributeValue|属性值、Secondary Feature|次要特征,并从中选取表征情感的义原对其进行PAD值的标注,标注范围为[-1,1];而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数;对叹词、拟声词、语气词根据其情感表达方式选择其对PAD中哪一个值有影响作用,并赋予相应的情感系数,形式如<factor,category>。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)利用ICTCLAS2011进行分词后,可以得到句子的基本成分,在这里选择其分词的形式为细粒度分词,并采用计算所二级标注。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)对于形容词、动词、名词、代词进行着重处理,而副词、语气词则作为辅助作用。而对于其他一些标点符号及数量词则进行冗余处理去除。
5.根据权利要求1所述的方法,其特征在于,所述步骤(4)对义原的抽取规则如下:
ER1:对于形容词,若在HowNet中的DEF项类型为Attribute Value|属性值,则选取其DEF项的第三个义原作为该词汇的最终义原表示;
ER2:对于名词,若在HowNet中的DEF项中出现*、%、#,则选择其后面的义原作为其最终义原;
ER3:对于动词,若在HowNet中的DEF项第一个为BeUnable|无能,则对其赋予一个否定系数-1,然后在从其他义原中选取合适的义原;
ER4:对于动词,若在HowNet中的DEF项中出现如下动态语义角色:manner、patient、content、isa、ResultIsa、ResultWhole、cause、StateFin、degree、purpose、state,则选择其后的义原作为最终义原,若同时出现多个动态语义角色,则优先选择排在前面的动态语义角色后面的义原。
6.根据权利要求1所述的方法,其特征在于,所述步骤(5)对句子的处理规则如下:
若句子中只有名词、代词、形容词,认为句子为主观句,即直接抒发个人的情感,这时选择形容词的PAD值作为主导,其对句子最终情感的影响系数为0.7,其他词对句子最终情感影响系数分别为0.3/其他词的个数;
若句子中出现动词,则认为句子为评价句,即对事实进行陈述。这时选择动词和名词作为情感产生的主要源头;首先,对形容词和名词的PAD值取平均数,得出名词的PAD值;而对于动词和名词,采取相与的规则产生句子的最终PAD值。
CN2011101218626A 2011-05-11 2011-05-11 一种基于HowNet的短文本情感识别方法 Pending CN102163191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101218626A CN102163191A (zh) 2011-05-11 2011-05-11 一种基于HowNet的短文本情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101218626A CN102163191A (zh) 2011-05-11 2011-05-11 一种基于HowNet的短文本情感识别方法

Publications (1)

Publication Number Publication Date
CN102163191A true CN102163191A (zh) 2011-08-24

Family

ID=44464424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101218626A Pending CN102163191A (zh) 2011-05-11 2011-05-11 一种基于HowNet的短文本情感识别方法

Country Status (1)

Country Link
CN (1) CN102163191A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541840A (zh) * 2011-12-23 2012-07-04 中科鼎富(北京)科技发展有限公司 一种针对短文本的倾向性分析的系统与方法
CN103123633A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 评价参数的生成方法以及基于评价参数的信息搜索方法
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103593054A (zh) * 2013-11-25 2014-02-19 北京光年无限科技有限公司 一种结合情绪识别及输出的问答系统
CN103955452A (zh) * 2014-05-21 2014-07-30 北京邮电大学 一种基于文本信息的幸福感智能检测方法和设备
CN104090864A (zh) * 2014-06-09 2014-10-08 合肥工业大学 一种情感词典建立与情感计算方法
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN108021548A (zh) * 2016-10-28 2018-05-11 北京国双科技有限公司 一种情感特征的识别方法及装置
CN108984533A (zh) * 2018-08-03 2018-12-11 清华大学 一种词汇义原预测方法及装置
CN109446518A (zh) * 2018-10-09 2019-03-08 清华大学 语言模型的解码方法及解码器
CN111538834A (zh) * 2020-01-21 2020-08-14 中国银联股份有限公司 情感词典构建方法和系统、情感识别方法和系统以及存储介质
CN112966514A (zh) * 2021-03-13 2021-06-15 北京理工大学 一种基于义原的自然语言情感分类方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123633A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 评价参数的生成方法以及基于评价参数的信息搜索方法
CN102541840B (zh) * 2011-12-23 2018-08-10 中科鼎富(北京)科技发展有限公司 一种针对短文本的倾向性分析的系统与方法
CN102541840A (zh) * 2011-12-23 2012-07-04 中科鼎富(北京)科技发展有限公司 一种针对短文本的倾向性分析的系统与方法
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN103544246A (zh) * 2013-10-10 2014-01-29 清华大学 互联网多种情感词典构建方法及系统
CN103593054A (zh) * 2013-11-25 2014-02-19 北京光年无限科技有限公司 一种结合情绪识别及输出的问答系统
CN103955452A (zh) * 2014-05-21 2014-07-30 北京邮电大学 一种基于文本信息的幸福感智能检测方法和设备
CN104090864A (zh) * 2014-06-09 2014-10-08 合肥工业大学 一种情感词典建立与情感计算方法
CN104090864B (zh) * 2014-06-09 2018-02-06 合肥工业大学 一种情感词典建立与情感计算方法
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104516947B (zh) * 2014-12-03 2017-08-22 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN108021548A (zh) * 2016-10-28 2018-05-11 北京国双科技有限公司 一种情感特征的识别方法及装置
CN108984533A (zh) * 2018-08-03 2018-12-11 清华大学 一种词汇义原预测方法及装置
CN109446518A (zh) * 2018-10-09 2019-03-08 清华大学 语言模型的解码方法及解码器
CN111538834A (zh) * 2020-01-21 2020-08-14 中国银联股份有限公司 情感词典构建方法和系统、情感识别方法和系统以及存储介质
CN112966514A (zh) * 2021-03-13 2021-06-15 北京理工大学 一种基于义原的自然语言情感分类方法

Similar Documents

Publication Publication Date Title
CN102163191A (zh) 一种基于HowNet的短文本情感识别方法
CN107480122B (zh) 人工智能交互方法及人工智能交互装置
CN104516947B (zh) 一种融合显性和隐性特征的中文微博情感分析方法
CN104484411B (zh) 一种基于词典的语义知识库的构建方法
JP6466952B2 (ja) 文章生成システム
Agirre et al. Improving parsing and PP attachment performance with sense information
JP2021096873A (ja) 通信システム、通信制御方法およびプログラム
Nakov et al. Semantic interpretation of noun compounds using verbal and other paraphrases
CN103268339A (zh) 微博消息中命名实体识别方法及系统
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN105488098B (zh) 一种基于领域差异性的新词提取方法
Huber Syntactic and variational complexity in British and Ghanaian English
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
Kavitha et al. Chatbot for healthcare system using Artificial Intelligence
CN107943786A (zh) 一种中文命名实体识别方法及系统
CN106372056A (zh) 一种基于自然语言的主题与关键词的提取方法和系统
Zavarella et al. Fss-timex for tempeval-3: Extracting temporal information from text
Thelwall This! Identifying new sentiment slang through orthographic pleonasm online: Yasss slay gorg queen ilysm
CN110096696A (zh) 一种中文长文本情感分析方法
Pitkänen-Heikkilä Adjectives as terms
Peng et al. Research on tree kernel-based personal relation extraction
CN104346336A (zh) 一种基于机器文本对骂的情感发泄方法及系统
CN106202033B (zh) 一种基于依存约束和知识的副词词义消歧方法和装置
Bel Handling of Missing Values in Lexical Acquisition.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110824