CN102163191A

CN102163191A - 一种基于HowNet的短文本情感识别方法

Info

Publication number: CN102163191A
Application number: CN2011101218626A
Authority: CN
Inventors: 毛峡; 江琳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-05-11
Filing date: 2011-05-11
Publication date: 2011-08-24

Abstract

本发明提供了一种基于HowNet的短文本情感识别方法，包括以下步骤：(1)构建情感词典；(2)利用词法分析系统ICTCLAS2011对句子分词；(3)根据词的不同词性，对分词结果进行处理；(4)根据义原抽取规则，从HowNet中抽取词汇义原，并从情感词典中获取PAD值；(5)根据情感产生规则识别句子的PAD值，用来表征句子情感。

Description

一种基于HowNet的短文本情感识别方法

(一)技术领域

本发明涉及一种文本情感识别方法，主要涉及自然语言处理领域以及情感计算领域。

(二)背景技术

现阶段人机交互接口主要基于自然语言，而用于人机交互的文本都属于短文本。短文本具有简洁、灵活，。因此对于文本得情感推理研究可以促进人机交互接口向着更智能的方向发展。同时对于文本的情感识别可以为其他形式的情感识别提供辅助作用，比如说语音及表情。

PAD模型是Mehrabian和Russell提出的情感维度测量模型。该模型将情绪分为：愉悦度(Pleasure)——表示个体情感状态的正负特性，激活度(Arousal)——表示个体神经生理激活水平；优势度(Dominance)——表示个体对情境和他人的控制状态。PAD模型不但给出了对情感空间进行描述的理论构想，同时采用量化的方法试图建立情感空间中各种情绪范畴的定位和关系。

HowNet(知网)是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识，为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。

对于文本的情感识别方法目前主要有关键词定位法，词法关系法。对于关键词定位法对于包含情感词汇的句子有很好的识别效果，但对于无情感词汇的句子失效。而词法关系仅仅考虑了词汇表面的关系，未深入考虑其语义关系。而结合HowNet常识库以及PAD模型可以解决文本情感识别缺乏语义基础及情感模型的问题。因此，提出一种精确、高效的文本情感识别方法具有很强的现实意义。

(三)发明内容

本发明要解决的问题是提供一种准确识别短文本情感的方法。

本发明提供了一种基于HowNet的短文本情感识别方法，包括以下步骤：

(1)构建情感词典；

(2)利用词法分析系统ICTCLAS2011对句子分词；

(3)根据词的不同词性，对分词结果进行处理；

(4)根据义原抽取规则，从HowNet中抽取词汇义原，并从情感词典中获取PAD值；

(5)根据情感产生规则识别句子的PAD值，用来表征句子情感。

在上述方法中步骤(1)中情感词典的建立如下所述：

除了HowNet中的义原，叹词、拟声词、语气词也会纳入情感词典。对这些词汇，则根据其情感表达方式选择其对PAD中哪一个值有影响作用，并赋予相应的情感系数，形式如<factor，category>。

情感词典的结构如下所示：

词名	属性	值
			激动	Event\|事件	0.6/0.8/0.2
香	Attribute Value\|属性值	0.5/0.6/0.2
			嗜好物	Entity\|实体	-0.6/0.6/-0.5
哇	语气词	<1.5，A>

在上述方法步骤(2)中，利用ICTCLAS2011进行分词后，可以得到句子的基本成分。在这里选择其分词的形式为细粒度分词，并采用计算所二级标注。在上述方法步骤(3)中，根据分词结果对不同词性的词语进行处理。由于短文本自身的特点，对于形容词、动词、名词、代词应该进行着重处理，而副词、语气词则作为辅助作用。而对于其他一些标点符号及数量词则进行冗余处理去除。通过对结果进行处理可以得到对句子情感有决定性作用的词汇组。

在上述方法步骤(4)中，首先将步骤(3)词汇组中的词汇在HowNet中检索得到其义原，并从情感词典中得到义原的PAD值。在这里我们根据HowNet知网描述语言中的符号及其动态语义角色，制定一系列的义原抽取规则(Extraction Rules，ER)，以便能够精确表示词汇的情感特征。

ER1：对于形容词，若在HowNet中的DEF项类型为Attribute Value|属性值，则选取其DEF项的第三个义原作为该词汇的最终义原表示。

ER2：对于名词，若在HowNet中的DEF项中出现*、％、#，则选择其后面的义原作为其最终义原。

ER3：对于动词，若在HowNet中的DEF项第一个为BeUnable|无能，则对其赋予一个否定系数-1，然后在从其他义原中选取合适的义原。

ER4：对于动词，若在HowNet中的DEF项中出现如下动态语义角色：manner、patient、content、isa、ResultIsa、ResultWhole、cause、StateFin、degree、purpose、state，则选择其后的义原作为最终义原，若同时出现多个动态语义角色，则优先选择排在前面的动态语义角色后面的义原。

在上述步骤(5)中，根据句子中不同词性词语的数量来决定其句子类型，并根据相应的情感产生规则，得出句子最终的PAD值。

若句子中只有名词、代词、形容词，认为句子为主观句，即直接抒发个人的情感，这时选择形容词的PAD值作为主导，其对句子最终情感的影响系数为0.7，其他词对句子最终情感影响系数分别为0.3/其他词的个数。

若句子中出现动词，则认为句子为评价句，即对事实进行陈述。这时选择动词和名词作为情感产生的主要源头。首先，对形容词和名词的PAD值取平均数，得出名词的PAD值。而对于动词和名词，采取如下规则产生句子的最终PAD值。

动词	名词	句子
			正值	正值	正值，且为二者平均数
正值	负值	负值，且为二者绝对值平均
			负值	正值	负值，且为二者绝对值平均
负值	负值	正值，且为二者绝对值平均

本发明提供的短文本情感识别方法有效解决了中文短文本识别中缺乏语义基础的问题。该方法有如下优点：考虑了短文本固有的特点，建立相应的文本处理模型，并以HowNet作为基础，提高了识别的准确性，采用PAD值作为评判标准，更好的反映了文本的情感状态。

(四)附图说明

图1短文本情感识别模型

(五)具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明三个实施例的网络文本情感识别方法进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的基本思想是通过对短文本进行分词处理，并通过查找HowNet得到义原表示，然后通过情感词典获取义原PAD值，根据相应的情感规则，最终得到句子的PAD值，实现对句子情感的识别。

根据以上思想，本发明的流程图如图1所示。

下面通过三个具体的实例说明短文本的情感识别方法。

(1)可见其名声之糟糕。

(2)我也爱莫能助

(3)我打碎了那个漂亮的花瓶

根据张华平博士研制的汉语词法分析系统ICTCLAS2011，我们可以得到句子的基本结构及词性标注。

(1)首先对其进行分词处理，结果如下：

可见/c其/rz名声/n之/uzhi糟糕/a

然后对其进行冗余处理，去掉之/uzhi、可见/c，最终得到短文本的词汇组为：其，名声，糟糕。显然这里的主导词位糟糕，通过查找HowNet，得到各个词的DEF定义：其：{ThirdPerson|他，mass|众}，名声：attribute|属性，reputation|名声，&human|人，&organization|组织，糟糕：aValue|属性值，GoodBad|好坏，bad|坏，undesired|莠。则根据义原抽取规则，名声的义原即为名声，糟糕的义原为坏。在情感词典中获取两者的PAD值如下：名声：0.3/0.1/0.1，糟糕：-0.6/-0.3/0.2。根据情感规则可得句子的PAD值为0.3^*(名声)+0.7^*(糟糕)，最终结果为：-0.33/-0.18/0.17。

(2)首先对其进行分词处理如下：

我/rr也/d爱莫能助/vl

然后对其进行冗余处理，去掉也/d，得到句子的短文本词汇组为：我，爱莫能助。这里显然爱莫能助是一个成语，在HowNet中找到其DEF定义：BeUnable|无能，content＝help|帮助，根据ER3、ER4，可知其义原为-help|帮助，其中“-”表示对义原的值取反。在情感词典中得到帮助的PAD值为：0.5/0.3/0.6，所以最终句子的PAD值即为：-0.5/-0.3/-0.6。

(3)首先对其进行分词处理如下：

我/rr打碎/v了/ule那个/rz漂亮/a的/ude1花瓶/n

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导和限制。

Claims

1.一种基于HowNet的短文本情感识别方法，包括以下步骤：

(1)构建情感词典；

(2)利用词法分析系统ICTCLAS2011对句子分词；

(3)根据词的不同词性，对分词结果进行处理；

(5)根据情感产生规则识别句子的PAD值，用来表征句子情感。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)从HowNet中的10类义原中选取下列类型义原：Event|事件、Entity|实体、Attribute|属性、AttributeValue|属性值、Secondary Feature|次要特征，并从中选取表征情感的义原对其进行PAD值的标注，标注范围为[-1，1]；而对于义原中表示程度级别的词语则根据其对情感的影响程度赋予相应的系数；对叹词、拟声词、语气词根据其情感表达方式选择其对PAD中哪一个值有影响作用，并赋予相应的情感系数，形式如<factor，category>。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)利用ICTCLAS2011进行分词后，可以得到句子的基本成分，在这里选择其分词的形式为细粒度分词，并采用计算所二级标注。

4.根据权利要求1所述的方法，其特征在于，所述步骤(3)对于形容词、动词、名词、代词进行着重处理，而副词、语气词则作为辅助作用。而对于其他一些标点符号及数量词则进行冗余处理去除。

5.根据权利要求1所述的方法，其特征在于，所述步骤(4)对义原的抽取规则如下：

ER1：对于形容词，若在HowNet中的DEF项类型为Attribute Value|属性值，则选取其DEF项的第三个义原作为该词汇的最终义原表示；

ER2：对于名词，若在HowNet中的DEF项中出现*、％、#，则选择其后面的义原作为其最终义原；

ER3：对于动词，若在HowNet中的DEF项第一个为BeUnable|无能，则对其赋予一个否定系数-1，然后在从其他义原中选取合适的义原；

6.根据权利要求1所述的方法，其特征在于，所述步骤(5)对句子的处理规则如下：

若句子中只有名词、代词、形容词，认为句子为主观句，即直接抒发个人的情感，这时选择形容词的PAD值作为主导，其对句子最终情感的影响系数为0.7，其他词对句子最终情感影响系数分别为0.3/其他词的个数；

若句子中出现动词，则认为句子为评价句，即对事实进行陈述。这时选择动词和名词作为情感产生的主要源头；首先，对形容词和名词的PAD值取平均数，得出名词的PAD值；而对于动词和名词，采取相与的规则产生句子的最终PAD值。