CN101174272A - 汉语文本情感数据的组织及提取方法 - Google Patents

汉语文本情感数据的组织及提取方法 Download PDF

Info

Publication number
CN101174272A
CN101174272A CNA2007101764101A CN200710176410A CN101174272A CN 101174272 A CN101174272 A CN 101174272A CN A2007101764101 A CNA2007101764101 A CN A2007101764101A CN 200710176410 A CN200710176410 A CN 200710176410A CN 101174272 A CN101174272 A CN 101174272A
Authority
CN
China
Prior art keywords
emotion
data
text
chinese
emotional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101764101A
Other languages
English (en)
Inventor
毛峡
李峥
包海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CNA2007101764101A priority Critical patent/CN101174272A/zh
Publication of CN101174272A publication Critical patent/CN101174272A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种汉语文本情感数据的组织及提取方法,其中汉语文本情感数据的组织方法是:(1)定义汉语文本情感标记语言标签;(2)在标签<interjection>下加入情感感叹词数据;(3)在标签<emoticon>下加入情感图标数据;(4)在标签<emotionchar>下加入情感字符数据;(5)在标签<emotionword>下加入情感词汇数据;(6)采用调查问卷的方式确定上述4种数据所表达情感的强度;(7)在标签<modifier>下加入情感词汇修饰语数据。其中汉语文本情感的提取方法是:(1)对汉语文本进行断句分词处理;(2)基于汉语文本情感数据库实现情感提取;(3)情感强度的确定。本发明成功的解决了国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的问题,同时实现了对汉语文本多种细腻情感的提取。本发明将促进情感化人机交互的发展。

Description

汉语文本情感数据的组织及提取方法
(一)技术领域:
本发明涉及一种汉语文本情感数据的组织及提取方法,属于信息技术领域。
(二)背景技术:
人机交互是研究人与计算机之间的信息交换,其模式已从语言命令阶段(CUI)、图像用户界面(GUI)交互阶段发展到自然和谐的感性用户界面(PUI)交互阶段。情感在人类决策、感知、学习以及其它一些类似的行为中发挥着重要作用,因此越来越多的研究者意识到要想真正实现人与计算机之间的和谐感性交互,就要将情感因素融入其中。麻省理工大学的皮卡德(Picard)于1997年提出了情感计算的概念,也就是赋予计算机类似于人类一样的观察、理解和生成各种情感特征的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。文本信息是人与计算机交互的常用手段,其中蕴含着丰富的情感信息,对应着人类相应的心理状态。文本情感提取的研究在情感计算和智能交互领域有着重要意义,它使计算机能够从文本信息中体会人类的喜怒哀乐并做出恰当的反应,可用于人机对话系统、仿生代理交互系统,还可实现文本到情感语音的合成(Text-to-speech)。
目前的情感文本数据库大致分为两类。一类为基于美国心理学家埃克曼(Ekman)提出的6种基本情感(分别为高兴、悲伤、惊讶、生气、嫌恶和害怕)的数据库。例如,麻省理工大学的文本情感数据库和英国波恩茅斯大学的文本情感数据库均包含了上述6种基本情感。而另一类情感文本数据库基于伊泽德(Izard)所定义的9种情感(分别为生气、嫌恶、害怕、内疚、好奇、高兴、悲伤、害羞和惊讶)的数据库。例如,日本东京大学所建立的情感文本数据库包含了上述9种情感。但是,国外的情感文本数据库不仅包含的情感种类有限,没有考虑到更加细腻的情感,而且数据库中的数据都是英文或者日文,国内目前也没有专门针对汉语的情感文本数据库,这些都极大的限制了汉语文本情感提取研究的发展。
对汉语文本情感信息的处理是对汉语文本中所蕴含的情感信息进行提取,进而判断人类相应的心理情绪状态,如快乐、惊奇、愤怒、害怕和悲伤等。汉语文本情感提取的研究在国内基本还是空白。而国外针对英文文本的情感提取通常是基于关键词定位和基于常识的方法,其所提取的情感种类有待提高。
(三)发明内容:
本发明一种汉语文本情感数据的组织及提取方法,其目的是:①针对国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的现状,设计基于可扩展标记语言XML(Extensible Markup Language)的汉语文本情感标记语言CATML(Chinese Affective TextMarkup Language)组织汉语情感文本数据,提供一个较为全面的汉语文本情感数据库;②提出了基于此汉语情感文本数据库的汉语文本情感提取方法,实现了汉语文本情感识别。
本发明一种汉语文本情感数据的组织及提取方法:
其中该汉语文本情感数据的组织方法是:基于可扩展标记语言XML(Extensible MarkupLanguage)设计汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)组织汉语情感文本数据,提供一个较为全面的汉语文本情感数据库,包含情感感叹词、情感图标、情感字符、情感词汇和修饰语,涉及单一情感30种,混合情感6种。
该汉语文本情感的提取方法是:对待进行情感提取的文本文件进行断句分词处理,然后基于汉语文本情感数据库实现情感提取及所表达情感强度的确定。
汉语文本情感数据设定的单一情感、混合情感说明如下:单一情感包括:高兴、嫉妒、幸灾乐祸、遗憾、满意、悲观、放松、失望、快乐、悲伤、骄傲、害羞、羡慕、责备、自满、悔恨、感激、生气、喜欢、厌恶、同情、害怕、为难、发愁、尴尬、赞美、信任、鄙夷、憎恨和希望。混合情感包括:愤怒悲伤、悲伤高兴、惊奇高兴、惊奇害怕、悲伤憎恨和生气憎恨。
其中关于汉语文本情感数据的组织方法;其步骤如下:
步骤1:基于可扩展标记语言XML(Extensible Markup Language)对汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)的标签(包括元素和属性)进行定义;
步骤2:在标签<interjection>下加入情感感叹词数据,并按照上述的单一情感或混合情感进行分类;
步骤3:在标签<emoticon>下加入情感图标数据,并按照上述的单一情感或混合情感进行分类;
步骤4:在标签<emotionchar>下加入情感字符数据,并按照上述的单一情感或混合情感进行分类;
步骤5:在标签<emotionword>下加入情感词汇数据,并按照上述的单一情感或混合情感进行分类;
步骤6:采用调查问卷的方式确定上述4种数据所表达情感的强度,按照高、中、低分别确定其intensity属性的值;
步骤7:在标签<modifier>下加入情感词汇修饰语数据,并按照加强情感强度、减弱情感强度和对情感取反确定其polarity属性的值。
关于汉语文本情感的提取方法;其步骤如下:
步骤1:对待进行情感提取的文本文件进行断句分词处理;
步骤2:根据所建立的汉语文本情感数据库对汉语文本进行情感提取,确定每个句子所表达情感的类型;
步骤3:根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感类型取反。
为了方便实现汉语文本情感提取,基于上述汉语文本情感数据库和汉语文本情感提取方法开发了汉语文本情感提取软件,该软件的流程框图如图1所示。首先载入待提取情感的文本文件,对该文本文件进行断句分词处理,然后依据汉语文本情感数据库实现汉语文本的情感提取并确定其所表达情感的强度。
本发明的积极效果和优点在于:
1.成功的解决了国外文本情感数据库情感种类较少以及国内汉语文本情感数据库匮乏的问题,采用基于可扩展标记语言XML(Extensible Markup Language)的汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)组织汉语情感文本数据,提供了一个较为全面的汉语文本情感数据库,包含情感感叹词、情感图标、情感字符、情感词汇和修饰语,涉及单一情感30种,混合情感6种;
2.提出了基于此汉语文本情感数据库的汉语文本情感提取方法,该方法简单易用,具有较强的汉语文本情感提取及情感强度分类能力。
(四)附图附表说明:
图1汉语文本情感提取软件流程框图。
图2汉语情感文本标记语言DTD定义。
图3测试文本示例。
图4汉语文本情感提取结果。
图5情感图标数据
图6情感字符示例
(五)具体实施方式:
本发明一种汉语文本情感数据的组织及提取方法,包括汉语文本情感数据的组织方法及汉语文本情感的提取方法;其中,
一、汉语文本情感数据的组织方法,该组织方法步骤如下:
步骤1:基于可扩展标记语言XML(Extensible Markup Language)对汉语文本情感标记语言CATML(Chinese Affective Text Markup Language)的元素及属性进行定义。如图2所示,该汉语文本情感标记语言主要定义了<interjection>、<emoticon>、<emotionchar>、<emotionword>和<modifier>5个标签来组织情感感叹词、情感图标、情感字符、情感词汇和修饰语数据。每个标签又定义了子标签及属性来确定每个数据所属的情感类型、编号、内容及其所表达情感的强度等。
步骤2:在标签<interjection>下加入情感感叹词数据,如“哈哈”、“呜呜”、“切”,并按照上述的单一情感或混合情感进行分类,具体组织方式如下所示:
<interjection>
     <emotion type=″高兴″>
        <word id=″1″cont=″哈哈″intensity=″低″/>
        ...
     </emotion>
     <emotion type=″悲伤″>
        <word id=″1″cont=″呜呜″intensity=″低″/>
        ...
     </emotion>
     <emotion type=″鄙夷″>
        <word id=″1″cont=″切″intensity=″低″/>
        ...
     </emotion>
     ...
</interjection>
其中id表示此感叹词的编号,cont为感叹词内容,intensity表示该感叹词所表达情感的强度;
步骤3:在标签<emoticon>下加入情感图标数据,并按照上述的单一情感或混合情感进行分类,见图5。
具体组织方式如下所示:
<emoticon>
   <emotion type=″高兴″>
      <icon id=″1″source=″emotions\regular_smilel.gif″intensity=″低″/>
   ...
   </emotion>
   <emotion type=″悲伤″>
      <icon id=″1″source=″emotions\sad l.gif″intensity=″中″/>
   ...
   </emotion>
   ...
</emoticon>
其中id表示此情感图标的编号,source为该情感图标所存放的路径,intensity表示该情感图标所表达情感的强度;
步骤4:在标签<emotionchar>下加入情感字符数据,并按照上述的单一情感或混合情感进行分类,见图6。
具体组织方式如下所示:
<emotionchar>
   <emotion type=″生气″>
      <char id=″1″cont=″:-(″intensity=″低″/>
      ...
   </emotion>
   <emotion type=″惊讶″>
      <char id=″1″cont=″:O″intensity=″低″/>
   </emotion>
   ...
</emotionchar>
其中id表示此情感字符的编号,cont为情感字符内容,intensity表示该情感字符所表达情感的强度;
步骤5:在标签<emotionword>下加入情感词汇数据,如“泪眼愁眉”、“磨不开”、“惊喜不已”等,并按照上述的单一情感或混合情感进行分类。具体组织方式如下所示:
<emotionword>
   <emotion type=″发愁″>
      <word id=″4″cont=″泪眼愁眉″intensity=″低″/>
      ...
   </emotion>
   <emotion type=″为难″>
      <word id=″4″cont=″磨不开″intensity=″中″/>
      ...
   </emotion>
   <emotion type=″惊奇高兴″>
      <word id=″4″cont=″惊喜不已″intensity=″高″/>
      ...
   </emotion>
   ...
</emotionword>
其中id表示此情感词汇的编号,cont为情感词汇内容,intensity表示该情感词汇所表达情感的强度;
步骤6:采用调查问卷的方式确定上述4种数据所表达情感的强度,按照高、中、低分别确定其intensity属性的值。具体方法是让被调查者对本数据库中的每个情感感叹词、情感图标、情感字符和情感词汇所表达情感的强度做出0-1分(得分越高则此数据所表达的情感强度越强烈)的评价,未做出评价的一律计为0分。在这里,20位调查者对数据库中的每一个数据进行评价,由式(1)计算出每个数据的平均得分:
x ( k ) = 1 N &Sigma; j = 1 N x j ( k )
j=1,2,…,20;k=1,2,…(1)
式中x(k)为第k个数据所获得的情感强度平均得分;N=20表示对20个样本求均值。然后根据得分确定该数据所对应的情感强度,分为低、中、高三个等级。得分0-0.4的强度为低,得分0.4-0.6的强度为中,得分0.6-1分的强度为高(得分等于0.6与0.4分别归为中和低)。例如对于词汇惊讶、震惊和触目惊心同属于情感惊奇,其平均得分分别为0.2、0.5和0.9,因此强度分别为低、中和高,如下所示:
<word id=″4″cont=″惊讶″intensity=″低″/>
<word id=″31″cont=″震惊″intensity=″中″/>
<word id=″50″cont=″触目惊心″intensity=″高″/>
步骤7:在标签<modifier>下加入情感词汇修饰语数据,如“非常”、“有点”、“不”,并按照加强情感强度、减弱情感强度和对情感取反确定其polarity属性的值。具体组织方式如下所示:
<modifier>
   <word id=″1″cont=″非常″polarity=″加强″/>
   <word id=″2″cont=″有点″polarity=″减弱″/>
   <word id=″3″cont=″不″polarity=″取反″/>
   ...
</modifier>
其中id表示修饰语的编号,cont为修饰语的内容,polarity表示该修饰语为加强、减弱情感词汇所表达的情感强度或者对此情感词汇所表达的情感取反。
二、汉语文本情感的提取方法,该提取方法步骤如下:
步骤1:对待进行情感提取的文本文件进行断句分词处理,断句分词的结果同样以XML文件的方式保存;
步骤2:根据所建立的汉语文本情感数据库对汉语文本进行情感提取,采用微软MSXML.DLL动态链接库中提供的XML简单接口SAX(Simple APIs for XML)遍历断句分词结果文件以及汉语文本情感数据库文件,确定每个句子所表达情感的类型;
步骤3:根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感类型取反。例如对于“非常惊讶”,原先所定义的惊讶的强度为低,由于有“非常”做修饰语,该情感强度提升为“中”;同理,对于“有点震惊”,因为“有点”作为修饰语,其情感强度由“中”降为“低”。另外,汉语文本中还存在着大量的否定句,例如文本“我很不开心”,开心在数据库中属于快乐的情感,因为有否定词“不”,该文本表达了不快乐的情感。
图3为验证此汉语文本情感提取方法的测试文本;图4是测试文本经过汉语文本情感提取软件处理后的结果。从图4所示的提取结果中可以看出,该汉语文本情感提取方法在汉语文本情感数据库的基础上实现了汉语文本细腻情感的提取和所表达情感强度的标注以及根据修饰语对情感强度进行调整和对含有否定词的汉语文本情感取反。

Claims (1)

1.一种汉语文本情感数据的组织及提取方法,其特征在于:该方法包括汉语文本情感数据的组织及汉语文本情感的提取;其中:
(1)汉语文本情感数据的组织,其方法步骤如下:
步骤1:基于可扩展标记语言XML对汉语文本情感标记语言CATML的标签进行定义;
步骤2:在标签interjection下加入情感感叹词数据,并按照上述的单一情感或混合情感进行分类;
步骤3:在标签emoticon下加入情感图标数据,并按照上述的单一情感或混合情感进行分类;
步骤4:在标签emotionchar下加入情感字符数据,并按照上述的单一情感或混合情感进行分类;
步骤5:在标签emotionword下加入情感词汇数据,并按照上述的单一情感或混合情感进行分类;
步骤6:采用调查问卷的方式确定上述4种数据所表达情感的强度,按照高、中、低分别确定其intensity属性的值;
步骤7:在标签modifier下加入情感词汇修饰语数据,并按照加强情感强度、减弱情感强度和对情感取确定其polarity属性的值;
(2)汉语文本情感的提取,其方法步骤如下:
步骤1:对待进行情感提取的文本文件进行断句分词处理;
步骤2:根据所建立的汉语文本情感数据库对汉语文本进行情感提取,确定每个句子所表达情感的类型;
步骤3:根据intensity属性及修饰语调整每个句子所表达情感的强度或对所表达的情感类型取反。
CNA2007101764101A 2007-10-26 2007-10-26 汉语文本情感数据的组织及提取方法 Pending CN101174272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101764101A CN101174272A (zh) 2007-10-26 2007-10-26 汉语文本情感数据的组织及提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101764101A CN101174272A (zh) 2007-10-26 2007-10-26 汉语文本情感数据的组织及提取方法

Publications (1)

Publication Number Publication Date
CN101174272A true CN101174272A (zh) 2008-05-07

Family

ID=39422787

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101764101A Pending CN101174272A (zh) 2007-10-26 2007-10-26 汉语文本情感数据的组织及提取方法

Country Status (1)

Country Link
CN (1) CN101174272A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876974A (zh) * 2009-04-30 2010-11-03 日电(中国)有限公司 文本情感极性分类系统和方法
CN101976344A (zh) * 2010-09-19 2011-02-16 北京航空航天大学 基于人体动作学的脸状情感图标分类方法
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
CN102385579A (zh) * 2010-08-30 2012-03-21 腾讯科技(深圳)有限公司 互联网信息分类方法和系统
CN102541839A (zh) * 2010-12-15 2012-07-04 日电(中国)有限公司 基于文本集合的隐性情绪词典建立方法和装置
CN102054116B (zh) * 2009-10-30 2013-11-06 财团法人资讯工业策进会 情绪分析方法、情绪分析系统及情绪分析装置
CN103678607A (zh) * 2013-12-16 2014-03-26 合肥工业大学 一种情感标注系统的构建方法
CN104298659A (zh) * 2014-11-12 2015-01-21 广州出益信息科技有限公司 一种语义识别方法及装置
CN106354036A (zh) * 2016-08-30 2017-01-25 广东美的制冷设备有限公司 家电控制方法和装置
CN113112987A (zh) * 2021-04-14 2021-07-13 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876974B (zh) * 2009-04-30 2014-07-02 日电(中国)有限公司 文本情感极性分类系统和方法
CN101876974A (zh) * 2009-04-30 2010-11-03 日电(中国)有限公司 文本情感极性分类系统和方法
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN102054116B (zh) * 2009-10-30 2013-11-06 财团法人资讯工业策进会 情绪分析方法、情绪分析系统及情绪分析装置
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
CN102385579A (zh) * 2010-08-30 2012-03-21 腾讯科技(深圳)有限公司 互联网信息分类方法和系统
CN102385579B (zh) * 2010-08-30 2018-06-15 深圳市世纪光速信息技术有限公司 互联网信息分类方法和系统
CN101976344A (zh) * 2010-09-19 2011-02-16 北京航空航天大学 基于人体动作学的脸状情感图标分类方法
CN102541839A (zh) * 2010-12-15 2012-07-04 日电(中国)有限公司 基于文本集合的隐性情绪词典建立方法和装置
CN102541839B (zh) * 2010-12-15 2014-08-27 日电(中国)有限公司 基于文本集合的隐性情绪词典建立方法和装置
CN103678607A (zh) * 2013-12-16 2014-03-26 合肥工业大学 一种情感标注系统的构建方法
CN103678607B (zh) * 2013-12-16 2016-08-31 合肥工业大学 一种情感标注系统的构建方法
CN104298659A (zh) * 2014-11-12 2015-01-21 广州出益信息科技有限公司 一种语义识别方法及装置
CN106354036A (zh) * 2016-08-30 2017-01-25 广东美的制冷设备有限公司 家电控制方法和装置
CN106354036B (zh) * 2016-08-30 2019-04-30 广东美的制冷设备有限公司 家电控制方法和装置
CN113112987A (zh) * 2021-04-14 2021-07-13 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置
CN113112987B (zh) * 2021-04-14 2024-05-03 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN101174272A (zh) 汉语文本情感数据的组织及提取方法
Leite et al. A strategy for conceptual model acquisition
Biber On the complexity of discourse complexity: A multidimensional analysis
Handford What can a corpus tell us about specialist genres?
Valitutti et al. Developing affective lexical resources.
Carrió-Pastor A contrastive study of the variation of sentence connectors in academic English
Grinevald On constructing a working typology of the expression of path
CN101937430A (zh) 一种汉语句子中事件句式的抽取方法
Dehkordi et al. Evidentiality in academic writing
Vo Style, structure and ideology in English and Vietnamese business hard news reporting: a comparative study.
Kholmanova et al. PAREMIOLOGICAL UNITS (PROVERBS AND SAYINGS) AS A SOURCE OF LINGUISTIC AND CULTURAL INFORMATION
Porter et al. Discourse Analysis and the Greek New Testament: Text-Generating Resources
Farahani Writer-reader interaction by Metadiscourse features: English-Persian translation in legal and political texts
Zarei et al. Metadiscursive distinction between Persian and English: An analysis of computer engineering research articles
Sgall Language in its multifarious aspects
Scharf Modeling pāṇinian grammar
Zhang et al. Semi-automatic emotion recognition from textual input based on the constructed emotion thesaurus
Gair Studies in South Asian Linguistics: Sinhala and Other South Asian Languages
Benini et al. The logic of the arguer. representing natural argumentative discourse in adpositional argumentation
Maia et al. An emotional word analyzer for Portuguese
Shehzad How to end an introduction in a computer science article? A corpus-based approach
Zarei et al. Are English and Persian distinct in their discursive elements: An analysis of applied linguistics texts
Wishart The Future of New Testament Lexicography: Remodeling Relational Semantics and Componential Analysis through Distributional Corpus Analysis’
JP4342235B2 (ja) アンケート分析装置およびアンケート分析プログラム
Hudson Perspectives on fixedness: applied and theoretical

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080507