CN101174272A

CN101174272A - 汉语文本情感数据的组织及提取方法

Info

Publication number: CN101174272A
Application number: CNA2007101764101A
Authority: CN
Inventors: 毛峡; 李峥; 包海燕
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2007-10-26
Filing date: 2007-10-26
Publication date: 2008-05-07

Abstract

本发明一种汉语文本情感数据的组织及提取方法，其中汉语文本情感数据的组织方法是：(1)定义汉语文本情感标记语言标签；(2)在标签<interjection>下加入情感感叹词数据；(3)在标签<emoticon>下加入情感图标数据；(4)在标签<emotionchar>下加入情感字符数据；(5)在标签<emotionword>下加入情感词汇数据；(6)采用调查问卷的方式确定上述4种数据所表达情感的强度；(7)在标签<modifier>下加入情感词汇修饰语数据。其中汉语文本情感的提取方法是：(1)对汉语文本进行断句分词处理；(2)基于汉语文本情感数据库实现情感提取；(3)情感强度的确定。本发明成功的解决了国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的问题，同时实现了对汉语文本多种细腻情感的提取。本发明将促进情感化人机交互的发展。

Description

汉语文本情感数据的组织及提取方法

(一)技术领域：

本发明涉及一种汉语文本情感数据的组织及提取方法，属于信息技术领域。

(二)背景技术：

人机交互是研究人与计算机之间的信息交换，其模式已从语言命令阶段(CUI)、图像用户界面(GUI)交互阶段发展到自然和谐的感性用户界面(PUI)交互阶段。情感在人类决策、感知、学习以及其它一些类似的行为中发挥着重要作用，因此越来越多的研究者意识到要想真正实现人与计算机之间的和谐感性交互，就要将情感因素融入其中。麻省理工大学的皮卡德(Picard)于1997年提出了情感计算的概念，也就是赋予计算机类似于人类一样的观察、理解和生成各种情感特征的能力，最终使计算机像人一样能进行自然、亲切和生动的交互。文本信息是人与计算机交互的常用手段，其中蕴含着丰富的情感信息，对应着人类相应的心理状态。文本情感提取的研究在情感计算和智能交互领域有着重要意义，它使计算机能够从文本信息中体会人类的喜怒哀乐并做出恰当的反应，可用于人机对话系统、仿生代理交互系统，还可实现文本到情感语音的合成(Text-to-speech)。

目前的情感文本数据库大致分为两类。一类为基于美国心理学家埃克曼(Ekman)提出的6种基本情感(分别为高兴、悲伤、惊讶、生气、嫌恶和害怕)的数据库。例如，麻省理工大学的文本情感数据库和英国波恩茅斯大学的文本情感数据库均包含了上述6种基本情感。而另一类情感文本数据库基于伊泽德(Izard)所定义的9种情感(分别为生气、嫌恶、害怕、内疚、好奇、高兴、悲伤、害羞和惊讶)的数据库。例如，日本东京大学所建立的情感文本数据库包含了上述9种情感。但是，国外的情感文本数据库不仅包含的情感种类有限，没有考虑到更加细腻的情感，而且数据库中的数据都是英文或者日文，国内目前也没有专门针对汉语的情感文本数据库，这些都极大的限制了汉语文本情感提取研究的发展。

对汉语文本情感信息的处理是对汉语文本中所蕴含的情感信息进行提取，进而判断人类相应的心理情绪状态，如快乐、惊奇、愤怒、害怕和悲伤等。汉语文本情感提取的研究在国内基本还是空白。而国外针对英文文本的情感提取通常是基于关键词定位和基于常识的方法，其所提取的情感种类有待提高。

(三)发明内容：

本发明一种汉语文本情感数据的组织及提取方法，其目的是：①针对国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的现状，设计基于可扩展标记语言XML(Extensible Markup Language)的汉语文本情感标记语言CATML(Chinese Affective TextMarkup Language)组织汉语情感文本数据，提供一个较为全面的汉语文本情感数据库；②提出了基于此汉语情感文本数据库的汉语文本情感提取方法，实现了汉语文本情感识别。

本发明一种汉语文本情感数据的组织及提取方法：

其中该汉语文本情感数据的组织方法是：基于可扩展标记语言XML(Extensible MarkupLanguage)设计汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)组织汉语情感文本数据，提供一个较为全面的汉语文本情感数据库，包含情感感叹词、情感图标、情感字符、情感词汇和修饰语，涉及单一情感30种，混合情感6种。

该汉语文本情感的提取方法是：对待进行情感提取的文本文件进行断句分词处理，然后基于汉语文本情感数据库实现情感提取及所表达情感强度的确定。

汉语文本情感数据设定的单一情感、混合情感说明如下：单一情感包括：高兴、嫉妒、幸灾乐祸、遗憾、满意、悲观、放松、失望、快乐、悲伤、骄傲、害羞、羡慕、责备、自满、悔恨、感激、生气、喜欢、厌恶、同情、害怕、为难、发愁、尴尬、赞美、信任、鄙夷、憎恨和希望。混合情感包括：愤怒悲伤、悲伤高兴、惊奇高兴、惊奇害怕、悲伤憎恨和生气憎恨。

其中关于汉语文本情感数据的组织方法；其步骤如下：

步骤1：基于可扩展标记语言XML(Extensible Markup Language)对汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)的标签(包括元素和属性)进行定义；

步骤2：在标签<interjection>下加入情感感叹词数据，并按照上述的单一情感或混合情感进行分类；

步骤3：在标签<emoticon>下加入情感图标数据，并按照上述的单一情感或混合情感进行分类；

步骤4：在标签<emotionchar>下加入情感字符数据，并按照上述的单一情感或混合情感进行分类；

步骤5：在标签<emotionword>下加入情感词汇数据，并按照上述的单一情感或混合情感进行分类；

步骤6：采用调查问卷的方式确定上述4种数据所表达情感的强度，按照高、中、低分别确定其intensity属性的值；

步骤7：在标签<modifier>下加入情感词汇修饰语数据，并按照加强情感强度、减弱情感强度和对情感取反确定其polarity属性的值。

关于汉语文本情感的提取方法；其步骤如下：

步骤1：对待进行情感提取的文本文件进行断句分词处理；

步骤2：根据所建立的汉语文本情感数据库对汉语文本进行情感提取，确定每个句子所表达情感的类型；

步骤3：根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感类型取反。

为了方便实现汉语文本情感提取，基于上述汉语文本情感数据库和汉语文本情感提取方法开发了汉语文本情感提取软件，该软件的流程框图如图1所示。首先载入待提取情感的文本文件，对该文本文件进行断句分词处理，然后依据汉语文本情感数据库实现汉语文本的情感提取并确定其所表达情感的强度。

本发明的积极效果和优点在于：

1.成功的解决了国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的问题，采用基于可扩展标记语言XML(Extensible Markup Language)的汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)组织汉语情感文本数据，提供了一个较为全面的汉语文本情感数据库，包含情感感叹词、情感图标、情感字符、情感词汇和修饰语，涉及单一情感30种，混合情感6种；

2.提出了基于此汉语文本情感数据库的汉语文本情感提取方法，该方法简单易用，具有较强的汉语文本情感提取及情感强度分类能力。

(四)附图附表说明：

图1汉语文本情感提取软件流程框图。

图2汉语情感文本标记语言DTD定义。

图3测试文本示例。

图4汉语文本情感提取结果。

图5情感图标数据

图6情感字符示例

(五)具体实施方式：

本发明一种汉语文本情感数据的组织及提取方法，包括汉语文本情感数据的组织方法及汉语文本情感的提取方法；其中，

一、汉语文本情感数据的组织方法，该组织方法步骤如下：

步骤1：基于可扩展标记语言XML(Extensible Markup Language)对汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)的元素及属性进行定义。如图2所示，该汉语文本情感标记语言主要定义了<interjection>、<emoticon>、<emotionchar>、<emotionword>和<modifier>5个标签来组织情感感叹词、情感图标、情感字符、情感词汇和修饰语数据。每个标签又定义了子标签及属性来确定每个数据所属的情感类型、编号、内容及其所表达情感的强度等。

步骤2：在标签<interjection>下加入情感感叹词数据，如“哈哈”、“呜呜”、“切”，并按照上述的单一情感或混合情感进行分类，具体组织方式如下所示：

...

</emotion>

...

</emotion>

...

</emotion>

...

</interjection>

其中id表示此感叹词的编号，cont为感叹词内容，intensity表示该感叹词所表达情感的强度；

步骤3：在标签<emoticon>下加入情感图标数据，并按照上述的单一情感或混合情感进行分类，见图5。

具体组织方式如下所示：

...

</emotion>

...

</emotion>

...

</emoticon>

其中id表示此情感图标的编号，source为该情感图标所存放的路径，intensity表示该情感图标所表达情感的强度；

步骤4：在标签<emotionchar>下加入情感字符数据，并按照上述的单一情感或混合情感进行分类，见图6。

具体组织方式如下所示：

...

</emotion>

</emotion>

...

</emotionchar>

其中id表示此情感字符的编号，cont为情感字符内容，intensity表示该情感字符所表达情感的强度；

步骤5：在标签<emotionword>下加入情感词汇数据，如“泪眼愁眉”、“磨不开”、“惊喜不已”等，并按照上述的单一情感或混合情感进行分类。具体组织方式如下所示：

...

</emotion>

...

</emotion>

...

</emotion>

...

</emotionword>

其中id表示此情感词汇的编号，cont为情感词汇内容，intensity表示该情感词汇所表达情感的强度；

步骤6：采用调查问卷的方式确定上述4种数据所表达情感的强度，按照高、中、低分别确定其intensity属性的值。具体方法是让被调查者对本数据库中的每个情感感叹词、情感图标、情感字符和情感词汇所表达情感的强度做出0-1分(得分越高则此数据所表达的情感强度越强烈)的评价，未做出评价的一律计为0分。在这里，20位调查者对数据库中的每一个数据进行评价，由式(1)计算出每个数据的平均得分：

x^{(k)} = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{(k)}

j＝1，2，…，20；k＝1，2，…(1)

式中x^(k)为第k个数据所获得的情感强度平均得分；N＝20表示对20个样本求均值。然后根据得分确定该数据所对应的情感强度，分为低、中、高三个等级。得分0-0.4的强度为低，得分0.4-0.6的强度为中，得分0.6-1分的强度为高(得分等于0.6与0.4分别归为中和低)。例如对于词汇惊讶、震惊和触目惊心同属于情感惊奇，其平均得分分别为0.2、0.5和0.9，因此强度分别为低、中和高，如下所示：

步骤7：在标签<modifier>下加入情感词汇修饰语数据，如“非常”、“有点”、“不”，并按照加强情感强度、减弱情感强度和对情感取反确定其polarity属性的值。具体组织方式如下所示：

...

</modifier>

其中id表示修饰语的编号，cont为修饰语的内容，polarity表示该修饰语为加强、减弱情感词汇所表达的情感强度或者对此情感词汇所表达的情感取反。

二、汉语文本情感的提取方法，该提取方法步骤如下：

步骤1：对待进行情感提取的文本文件进行断句分词处理，断句分词的结果同样以XML文件的方式保存；

步骤2：根据所建立的汉语文本情感数据库对汉语文本进行情感提取，采用微软MSXML.DLL动态链接库中提供的XML简单接口SAX(Simple APIs for XML)遍历断句分词结果文件以及汉语文本情感数据库文件，确定每个句子所表达情感的类型；

步骤3：根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感类型取反。例如对于“非常惊讶”，原先所定义的惊讶的强度为低，由于有“非常”做修饰语，该情感强度提升为“中”；同理，对于“有点震惊”，因为“有点”作为修饰语，其情感强度由“中”降为“低”。另外，汉语文本中还存在着大量的否定句，例如文本“我很不开心”，开心在数据库中属于快乐的情感，因为有否定词“不”，该文本表达了不快乐的情感。

图3为验证此汉语文本情感提取方法的测试文本；图4是测试文本经过汉语文本情感提取软件处理后的结果。从图4所示的提取结果中可以看出，该汉语文本情感提取方法在汉语文本情感数据库的基础上实现了汉语文本细腻情感的提取和所表达情感强度的标注以及根据修饰语对情感强度进行调整和对含有否定词的汉语文本情感取反。

Claims

1.一种汉语文本情感数据的组织及提取方法，其特征在于：该方法包括汉语文本情感数据的组织及汉语文本情感的提取；其中：

(1)汉语文本情感数据的组织，其方法步骤如下：

步骤1：基于可扩展标记语言XML对汉语文本情感标记语言CATML的标签进行定义；

步骤2：在标签interjection下加入情感感叹词数据，并按照上述的单一情感或混合情感进行分类；

步骤3：在标签emoticon下加入情感图标数据，并按照上述的单一情感或混合情感进行分类；

步骤4：在标签emotionchar下加入情感字符数据，并按照上述的单一情感或混合情感进行分类；

步骤5：在标签emotionword下加入情感词汇数据，并按照上述的单一情感或混合情感进行分类；

步骤7：在标签modifier下加入情感词汇修饰语数据，并按照加强情感强度、减弱情感强度和对情感取确定其polarity属性的值；

(2)汉语文本情感的提取，其方法步骤如下：

步骤1：对待进行情感提取的文本文件进行断句分词处理；