CN101901212A - 一种基于认知评价理论的汉语文本情感识别方法 - Google Patents

一种基于认知评价理论的汉语文本情感识别方法 Download PDF

Info

Publication number
CN101901212A
CN101901212A CN2010102383700A CN201010238370A CN101901212A CN 101901212 A CN101901212 A CN 101901212A CN 2010102383700 A CN2010102383700 A CN 2010102383700A CN 201010238370 A CN201010238370 A CN 201010238370A CN 101901212 A CN101901212 A CN 101901212A
Authority
CN
China
Prior art keywords
polarity
emotion
assignment
word
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102383700A
Other languages
English (en)
Inventor
毛峡
易寒飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2010102383700A priority Critical patent/CN101901212A/zh
Publication of CN101901212A publication Critical patent/CN101901212A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种汉语文本情感识别方法,包括下列步骤:1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;3)根据情感识别变量的赋值方法确定情感识别变量的取值;4)根据情感规则确定句子表达的情感类型。根据本发明的汉语文本情感识别方法对汉语文本情感的识别准确率较高,识别情感类型达到22种。

Description

一种基于认知评价理论的汉语文本情感识别方法
(一)技术领域
本发明涉及模式识别领域,具体涉及一种汉语文本情感识别方法。
(二)背景技术
随着互联网的飞速发展,文本信息已经成为人类最常用的交互方法之一。研究文本中蕴含的情感信息已成为人机交互领域的研究热点。文本情感信息的提取在诸如语音合成、信息安全、智能机器人、个性化文本等领域也有着广泛的应用前景。
传统的文本情感识别模型主要通过分析文本的字面特征提取句子的情感倾向,这些方法的准确率很大程度上受到情感语料库和常识库的影响,目前较为常用的汉语文本常识库有HowNet,而汉语文本情感语料库则较为匮乏。另外由于人类语言的复杂性,仅仅考虑字面特征而不区分概念之间的逻辑关系很难精确识别文本情感信息。
根据认知评价理论,情感是人们对某个其主观上认为重要的事件进行评价而产生的。在评价理论中最有影响力的是Ortony、Clore和Collins提出的OCC理论。OCC模型是第一个以计算机实现为目的发展起来的模型。OCC模型认为情感来源于人们对由事件(Event)、智能体(Agent)和对象(Object)组成的情境的认知评价。OCC理论的基本原理是:根据一组评价标准将人对特定情境的反应区分为正面或负面,然后根据评价标准的不同取值组合确定相应的情感类型。OCC模型共定义了22种情感类型。
在汉语文本情感识别方面,目前绝大多数方法仅能识别褒义和贬义两种情感极性,这对于汉语文本所表达的丰富的情感信息是远远不够的。将OCC模型应用于汉语文本情感识别,可以有效解决汉语文本情感识别领域存在的情感识别类别少,识别准确度不高等问题。因此,针对汉语文本研究一种能够准确识别多种情感的方法具有重要的现实意义。
(三)发明内容
本发明要解决的技术问题是提供一种能够准确识别多种情感的汉语文本情感识别方法。
根据本发明的一个方面,提供了一种基于认知评价理论的汉语文本情感识别方法,包括下列步骤:
1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;
2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;
3)根据情感识别变量的赋值方法确定情感识别变量的取值;
4)根据情感规则确定句子表达的情感类型。
在上述方法中,所述步骤3)还包括:
31)对HowNet常识库的义原添加情感极性标注,根据词语情感极性的赋值方法得到词语的情感极性。
在上述方法中,所述步骤2)中情感识别变量如表1所示。
表1情感识别变量
Figure BSA00000207357800021
在上述方法中,所述步骤2)中情感识别变量的确定方法包括:
情感主体考察句子的主语部分,利用句法分析工具可以得到句子的主谓宾关系。根据主语的特征进行赋值,第一人称赋值为self,其它人称赋值为other,非人称的事物赋值为object;
主体极性考察取值为other的情感主体及其相关的定语修饰词;
事物极性考察取值为object的情感主体及其相关的定语修饰词;
事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构,其中谓语部分由谓语和状语构成,宾语部分由宾语和定语构成;
事件状态考察句子中的状语部分,采用关键词识别的方法确定取值;
自身反应考察句子中具有明显情感倾向的词语,采用关键词识别的方法确定取值。
在上述方法中,所述步骤31)中词语情感极性的赋值方法包括:
对HowNet中所有义原的极性进行标注,分为正面、负面、中性和无极性4种;
完成义原的情感极性标注后,采用下述公式得到词语的情感极性:
Figure BSA00000207357800022
表示词语W的情感极性,其值为正表示正面情感,为负表示负面情感,为零表示中性情感,n表示词语W包含的义原总个数,Si表示词语W的第i个义原,Polarity(Si)表示义原Si的极性,其中正面赋值1,负面赋值-1,中性和无极性赋值为0,αi表示义原Si在词语W情感极性中的权重,主要针对HowNet中采用动态角色与特征标注的复杂词语,取值为0或1。
在上述方法中,所述步骤3)中情感识别变量的赋值方法包括:
主体极性考察取值为other的情感主体及其相关的定语修饰词,利用词语情感极性的判别方法判断情感主体和相关修饰词的极性即Orientation(W1)和Orientation(W2)。若无相关修饰词,则Orientation(W2)=0,若Orientation(W1)和Orientation(W2)的极性相矛盾,以修饰词的极性为准。其它情况则将Orientation(W1)和Orientation(W2)相加,为正则将主体极性赋值positive,为负则赋值negative,为零则赋值neutral。
事物极性考察取值为object的情感主体及其相关的定语修饰词,采用与主体极性一样的判定,结果为正值将事物极性赋值为attractive,负值赋值为unattractive,零值赋值为neutral。
事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构。谓语部分的极性考察谓语和相关的状语修饰词的极性,宾语部分的极性考察宾语和相关的定语修饰词的极性。两者均采用与主体极性一样的判定,结果为正值将极性赋值为positive,负值赋值为negative,零值赋值为neutral。
对于事件或者行为极性的判定,采用以下规则:
如果谓语部分或宾语部分的极性均为neutral,则事件或行为的极性赋值为neutral;
如果谓语部分或宾语部分的极性有且仅有一个为neutral,则事件或行为的极性与另一个的极性赋值相同;
如果谓语部分的极性和宾语部分的极性相同,则事件或行为的极性赋值为positive;
如果谓语部分的极性和宾语部分的极性不同,则事件或行为的极性赋值为negative。
在HowNet中,Event类中包含Static和Act两种子类,对于谓语中的义原属于Static类的结构,定义该结构为一个事件,对于谓语中义原属于Act类的结构,定义该结构为一个行为,另外,对于谓语中义原属于Act类的结构,如果该结构是被动语态,则视为一个事件。
通过以上规则,若谓宾结构是事件,根据极性判定值positive、negative和neutral分别将事件极性赋值为desirable、undesirable和neutral,若谓宾结构是行为,根据极性判定值positive、negative和neutral分别将行为极性赋值为praiseworthy、blameworthy和neutral。
事件状态考察句子中的状语部分,采用关键词识别的方法确定取值。根据《哈工大信息检索研究室同义词词林扩展版》,对于状语中表达“未确定”含义的词语,将事件状态赋值为unconfirmed,对于状语中表达“已确定”含义的词语,将事件状态赋值为confirmed,对于状语中表达“已否定”含义的词语,将事件状态赋值为disconfirmed。
自身反应考察句子中具有明显情感倾向的词语,依据HowNet发布的中文正面情感词语数据库和负面情感词语数据库,采用关键词识别的方法确定取值。对于正面情感赋值为pleased,对于负面情感赋值为displeased。
在上述方法中,所述步骤4)中情感规则如表2所示。
表2情感规则
Figure BSA00000207357800041
*符号定义:&表示条件与,|表示条件或,NA表示该变量不存在。
本发明提供的汉语文本情感识别方法有效解决了汉语文本情感识别领域存在的情感识别类别少,识别准确度不高等问题。该方法有如下优点:所使用的常识知识库中的概念只需要包含正负情感权值;考虑了句子结构对情感判断的影响,准确率提高;基于规则的判定准则在理论上受到大众认可,情感分类更加详细。
(四)附图说明
图1汉语文本情感识别框图。
图2句子成分及其依存关系。
(五)具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明三个实施例的汉语文本情感识别方法进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的基本思想是通过分析句子结构,找到符合定义的情感识别变量,根据具有情感信息的HowNet常识库对情感识别变量赋值,再通过定义的情感规则识别句子所表达的情感类型。
根据以上思想,本发明的流程框图如图1所示。
下面通过三个具体的实施例说明汉语文本情感的识别方法。
(1)李小姐得到了1000元钱的奖金。
(2)我明天可能被他们邀请参加舞会。
(3)我为我救起一名落水儿童的行为感到高兴。
通过哈尔滨工业大学信息检索研究中心的语言技术平台可以得到句子的成分及其之间的依存关系,如图2所示。
(1)主语:小姐;谓语:得到;宾语:奖金;定语:李(修饰小姐)。
(2)主语:我;谓语:邀请;宾语:舞会;状语:可能(修饰邀请)、被(修饰邀请,被动态)。
(3)该句为两个句子嵌套结构。主句,主语:我;谓语:感到;补语:高兴(修饰感到);子句,主语:我;谓语:救起;宾语:儿童;定语:落水(修饰儿童)。
根据情感变量的考察方法得到:
(1)情感主体:李小姐;事件或行为:得到奖金。
(2)情感主体:我;事件或行为:可能被邀请舞会。
(3)主句,情感主体:我;事件或行为:感到高兴;子句,情感主体:我;事件或行为:救起落水儿童;
根据情感变量的赋值方法:
(1)情感主体的判定:“小姐”为其它人称,则Emotion_subject=other;“李小姐”的极性判定:Orientation(小姐)=0,Orientation(李)=0,则Subject_polarity=neutral;“得到奖金”的极性判定:谓语部分“得到”的极性为neutral,宾语部分“奖金”的极性为positive,由于“得到”在HowNet中从属于Event类下的Static子类,判定“得到奖金”为一个事件,则Event_polarity=desirable。
(2)情感主体的判定:“我”为第一人称,则Emotion_subject=self,此时不需要再作情感主体的极性判定;“可能被邀请舞会”的极性判定:谓语部分“邀请”的极性为neutral,宾语部分“舞会”的极性为positive,虽然“邀请”在HowNet中从属于Event类下的Act子类,但由于被动态,判定“被邀请舞会”为一个事件,则Event_polarity=desirable;由于状语“可能”表达了未确定的状态,则Event_status=unconfirmed。
(3)对于主句,情感主体的判定:“我”为第一人称,则Emotion_subject=self;“感到高兴”的极性判定:谓语部分“感到”的极性为neutral,无宾语部分,由于“感到”的义原“心怀”和“认为”在HowNet中均从属于Event类下的Static子类,判定“感到高兴”为一个事件,则Event_polarity=neutral;由于补语“高兴”表达了明显的正面情感,则Self_reaction=pleased。对于子句,情感主体的判定:“我”为第一人称,则Emotion_subject=self;“救起落水儿童”的极性判定:谓语部分“救起”的极性为positive,宾语部分“落水儿童”的极性为neutral,由于“救起”的义原“帮助”和“救助”在HowNet中均从属于Event类下的Act子类,判定“救起落水儿童”为一个行为,则Action_polarity=praiseworthy。
综合以上情感变量的取值得到:
(1)Emotion_subject=other;Subject_polarity=neutral;Event_polarity=desirable。由规则得到此句子表达了“欣喜”的情感。
(2)Emotion_subject=self;Event_polarity=desirable;Event_status=unconfirmed。由规则得到此句子表达了“希望”的情感。
(3)Emotion_subject=self;Event_polarity=neutral;Self_reaction=pleased;Action_polarity=praiseworthy。由于Event_polarity=neutral不属于22条规则中的任何一条规则的判定变量,则舍去,由规则得到此句子表达了“满意”的情感。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导和限制。

Claims (7)

1.一种基于认知评价理论的汉语文本情感识别方法,包括下列步骤:
1)使用自然语言处理工具对汉语文本进行预处理,得到句子成分之间的依存关系;
2)根据情感识别变量的确定方法确定句子所包含的情感识别变量并将句子成分赋值给情感识别变量;
3)根据情感识别变量的赋值方法确定情感识别变量的取值;
4)根据情感规则确定句子表达的情感类型。
2.根据权利要求1所述的方法,其特征在于,所述步骤3)还包括对HowNet常识库的义原添加情感极性标注,根据词语情感极性的赋值方法得到词语的情感极性。
3.根据权利要求1所述的方法,其特征在于,所述步骤2)中情感识别变量包括:Emotion_subject(情感主体)、Subject_polarity(主体极性)、Object_polarity(事物极性)、Event_polarity(事件极性)、Event_status(事件状态)、Action_polarity(行为极性)和Self_reaction(自身反应)。
4.根据权利要求1所述的方法,其特征在于,所述步骤2)中情感识别变量的确定方法包括:情感主体考察句子的主语部分,根据主语的特征进行赋值,第一人称赋值为self,其它人称赋值为other,非人称的事物赋值为object;主体极性考察取值为other的情感主体及其相关的定语修饰词;事物极性考察取值为object的情感主体及其相关的定语修饰词;事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构;事件状态考察句子中的状语部分;自身反应考察句子中具有明显情感倾向的词语。
5.根据权利要求2所述的方法,其特征在于,词语情感极性的赋值方法包括:对HowNet中所有义原的极性进行标注,分为正面、负面、中性和无极性4种;并采用下述公式得到词语的情感极性:
Figure FSA00000207357700011
其中Orientation(W)表示词语W的情感极性,其值为正表示正面情感,为负表示负面情感,为零表示中性情感,n表示词语W包含的义原总个数,Si表示词语W的第i个义原,Polarity(Si)表示义原Si的极性,其中正面赋值1,负面赋值-1,中性和无极性赋值为0,αi表示义原Si在词语W情感极性中的权重,主要针对HowNet中采用动态角色与特征标注的复杂词语,取值为0或1。
6.根据权利要求1所述的方法,其特征在于,所述步骤3)中情感识别变量的赋值方法包括:
主体极性考察取值为other的情感主体及其相关的定语修饰词,利用词语情感极性的判别方法判断情感主体和相关修饰词的极性即Orientation(W1)和Orientation(W2);若无相关修饰词,则Orientation(W2)=0,若Orientation(W1)和Orientation(W2)的极性相矛盾,以修饰词的极性为准;其它情况则将Orientation(W1)和Orientation(W2)相加,为正则将主体极性赋值positive,为负则赋值negative,为零则赋值neutral;
事物极性考察取值为object的情感主体及其相关的定语修饰词,采用与主体极性一样的判定,结果为正值将事物极性赋值为attractive,负值赋值为unattractive,零值赋值为neutral;
事件极性和行为极性均考察句子的谓语部分和宾语部分组成的结构;谓语部分的极性考察谓语和相关的状语修饰词的极性,宾语部分的极性考察宾语和相关的定语修饰词的极性;两者均采用与主体极性一样的判定,结果为正值将极性赋值为positive,负值赋值为negative,零值赋值为neutral;
对于事件或者行为极性的判定,采用以下规则:
如果谓语部分或宾语部分的极性均为neutral,则事件或行为的极性赋值为neutral;
如果谓语部分或宾语部分的极性有且仅有一个为neutral,则事件或行为的极性与另一个的极性赋值相同;
如果谓语部分的极性和宾语部分的极性相同,则事件或行为的极性赋值为positive;
如果谓语部分的极性和宾语部分的极性不同,则事件或行为的极性赋值为negative;
在HowNet中,Event类中包含Static和Act两种子类,对于谓语中的义原属于Static类的结构,定义该结构为一个事件,对于谓语中义原属于Act类的结构,定义该结构为一个行为,另外,对于谓语中义原属于Act类的结构,如果该结构是被动语态,则视为一个事件;
通过以上规则,若谓宾结构是事件,根据极性判定值positive、negative和neutral分别将事件极性赋值为desirable、undesirable和neutral,若谓宾结构是行为,根据极性判定值positive、negative和neutral分别将行为极性赋值为praiseworthy、blameworthy和neutral;
事件状态考察句子中的状语部分,采用关键词识别的方法确定取值;根据《哈工大信息检索研究室同义词词林扩展版》,对于状语中表达“未确定”含义的词语,将事件状态赋值为unconfirmed,对于状语中表达“已确定”含义的词语,将事件状态赋值为confirmed,对于状语中表达“已否定”含义的词语,将事件状态赋值为disconfirmed;
自身反应考察句子中具有明显情感倾向的词语,依据HowNet发布的中文正面情感词语数据库和负面情感词语数据库,采用关键词识别的方法确定取值;对于正面情感赋值为pleased,对于负面情感赋值为displeased;
7.根据权利要求1所述的方法,其特征在于,所述步骤4)中情感规则如表1所示。
表1情感规则
*符号定义:&表示条件与,|表示条件或,NA表示该变量不存在。
CN2010102383700A 2010-07-23 2010-07-23 一种基于认知评价理论的汉语文本情感识别方法 Pending CN101901212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102383700A CN101901212A (zh) 2010-07-23 2010-07-23 一种基于认知评价理论的汉语文本情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102383700A CN101901212A (zh) 2010-07-23 2010-07-23 一种基于认知评价理论的汉语文本情感识别方法

Publications (1)

Publication Number Publication Date
CN101901212A true CN101901212A (zh) 2010-12-01

Family

ID=43226755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102383700A Pending CN101901212A (zh) 2010-07-23 2010-07-23 一种基于认知评价理论的汉语文本情感识别方法

Country Status (1)

Country Link
CN (1) CN101901212A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
CN102929863A (zh) * 2012-11-06 2013-02-13 苏州两江科技有限公司 通过计算机智能分析汉语文字情感倾向的方法
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN104750699A (zh) * 2013-12-25 2015-07-01 伊姆西公司 用于管理意见数据的方法和设备
CN106096664A (zh) * 2016-06-23 2016-11-09 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN108231059A (zh) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
CN102737013B (zh) * 2011-04-02 2015-11-25 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
CN102929863A (zh) * 2012-11-06 2013-02-13 苏州两江科技有限公司 通过计算机智能分析汉语文字情感倾向的方法
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN104750699A (zh) * 2013-12-25 2015-07-01 伊姆西公司 用于管理意见数据的方法和设备
US10614089B2 (en) 2013-12-25 2020-04-07 EMC IP Holding Company LLC Managing opinion data
CN106096664A (zh) * 2016-06-23 2016-11-09 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN106096664B (zh) * 2016-06-23 2019-09-20 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法
CN108231059A (zh) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
CN101901212A (zh) 一种基于认知评价理论的汉语文本情感识别方法
CN102737013B (zh) 基于依存关系来识别语句情感的设备和方法
CN104050256B (zh) 基于主动学习的问答方法及采用该方法的问答系统
Maratsos How the acquisition of nouns may be different from that of verbs
CN104484411B (zh) 一种基于词典的语义知识库的构建方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN106484664A (zh) 一种短文本间相似度计算方法
Huang et al. Teenchat: a chatterbot system for sensing and releasing adolescents’ stress
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN103729456B (zh) 一种基于微博群环境的微博多模态情感分析方法
CN103995803A (zh) 一种细粒度文本情感分析方法
Díaz et al. Interpretable and uninterpretable features in the acquisition of Spanish past tenses
CN104794208A (zh) 基于微博文本上下文信息的情绪分类方法及系统
Liu et al. Exploiting syntactic structures for humor recognition
Küçük et al. Stance detection on tweets: An svm-based approach
CN109299272B (zh) 一种用于神经网络输入的大信息量文本表示方法
Atmadja et al. Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
Miyazaki et al. Automatic conversion of sentence-end expressions for utterance characterization of dialogue systems
Yaghoobian et al. Sarcasm detection: A comparative study
Ren et al. Translation of English idioms from the perspective of cultural context
Yao The present perfect and the preterite in Australian English
Fenogenova et al. A general method applicable to the search for anglicisms in russian social network texts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101201