CN104346326A - 一种情绪文本的情绪特征确定方法及装置 - Google Patents
一种情绪文本的情绪特征确定方法及装置 Download PDFInfo
- Publication number
- CN104346326A CN104346326A CN201410571054.3A CN201410571054A CN104346326A CN 104346326 A CN104346326 A CN 104346326A CN 201410571054 A CN201410571054 A CN 201410571054A CN 104346326 A CN104346326 A CN 104346326A
- Authority
- CN
- China
- Prior art keywords
- mood
- text
- feature words
- word
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本申请提供的情绪文本的情绪特征确定方法及装置,通过在确定的情绪文本中,提取情绪词的特征词集合,并依据情绪文本集合及特征词集合构建分类器,利用分类器对待确定情绪文本进行分类,获得分类结果,依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是一种情绪词文本的情绪特征确定方法及装置。
背景技术
当今,互联网已经成为信息的重要载体,尤其是近些年,随着电子商务及社交网站的兴起,互联网上出现了大量的评论,评论中一般包含情绪词,包含情绪词的文本可以称为情绪文本。研究情绪文本的情绪信息有助于了解和分析人们对事物或事件的观点态度,例如,包含开心、高兴等情绪词的文本表达的是对事物或事件的支持,相反,包含生气、烦恼等情绪词的文本标的是反对。在此背景下,情绪分析正逐渐称为自然语言处理领域中一项越来越受关注的研究课题。
目前,利用现有的情绪词表对情绪文本的情绪进行确定,即若情绪文本中出现了情绪词表中的某个情绪词,则认为该情绪文本具有该类情绪特征。例如,情绪文本出现了情绪词表中包含的“开心”,则确定该文本具有“开心”的情绪特征。
然而,现实的情绪文本中经常存在情绪隐藏的情况,即虽然情绪文本中出现了某个情绪词,但并未真正表达该情绪,例如“要是你在的话,她可能就开心了”。因此,利用现有的情绪确定方法确定出来的情绪特征存在误差,准确性较差。
发明内容
有鉴于此,本发明提供了一种情绪文本的情绪特征确定方法及装置,用以解决现有技术中的情绪特征确定方法准确性较差的技术问题。为实现所述发明目的,本发明提供的技术方案如下:
一种情绪文本的情绪特征确定方法,包括:
在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
依据所述情绪文本集合及所述特征词集合,生成分类器;
利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
可选地,上述的情绪文本的情绪特征确定方法,所述依据所述情绪文本集合及所述特征词集合,生成分类器,包括:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,上述的情绪文本的情绪特征确定方法,所述利用所述训练集对所述特征词集合进行训练,获得分类器,包括:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
可选地,上述的情绪文本的情绪特征确定方法,所述贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;
其中,所述利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率正分类值;
利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率负分类值;
将所述正分类值第一后验概率及所述负分类值第二后验概率中的较大值确定为分类结果。
可选地,上述的情绪文本的情绪特征确定方法,所述依据所述分类结果,确定所述待确定情绪文本的情绪特征,包括:
当所述分类结果为正分类值第一后验概率时,确定所述待确定情绪文本的情绪特征为情绪发生;
当所述分类结果为负分类值第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。
可选地,上述的情绪文本的情绪特征确定方法,所述特征词集合包括:段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语;
所述句子特征词集合包含的是与所述情绪词在同一句子的词语;
所述子句特征词集合包含的是与所述情绪词在同一子句的词语;
所述关键词集合包含的是表达预设假设含义的词语。
本申请还提供了一种情绪文本的情绪特征确定装置,包括:
情绪文本确定模块,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
分类器构建模块,用于依据所述情绪文本集合及所述特征词集合,生成分类器;
分类器分类模块,用于利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
情绪特征确定模块,用于依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
可选地,上述的情绪文本的情绪特征确定装置,所述分类器构建模块包括:
训练集获得单元,用于对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
分类器生成单元,用于利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,上述的情绪文本的情绪特征确定装置,所述分类器生成单元包括:
标注子单元,用于依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
训练子单元,用于针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
可选地,上述的情绪文本的情绪特征确定装置,所述训练子单元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;其中,所述分类器分类模块包括:
正分类值第一后验概率计算单元,用于利用所述预设先验概率及正训练子集对应的概率,计算正分类值第一后验概率;
负分类值第二后验概率计算单元,用于利用所述预设先验概率及负训练子集对应的概率,计算负分类值第二后验概率;
分类结果确定单元,用于将所述正分类值第一后验概率及所述负分类值第二后验概率中的较大值确定为分类结果。
本发明提供的情绪文本的情绪特征确定方法及装置,通过在确定的情绪文本中,提取情绪词的特征词集合,并依据情绪文本集合及特征词集合构建分类器,利用分类器对待确定情绪文本进行分类,获得分类结果,依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的情绪文本的情绪特征确定方法的流程图;
图2为本发明实施例提供的情绪文本的情绪特征确定装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,其示出了本发明实施例提供的一种情绪文本的情绪特征确定方法,具体包括以下步骤:
步骤S101:在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本。
其中,情绪文本集合是从各种文本中提取到的,需要说明的是,情绪文本集合中包含多个情绪文本,情绪文本是指包含情绪词的文本。确定情绪文本集合的方式可以是利用包含情绪词的词表在各种文本中进行提取,即当文本中包含情绪词表中的情绪词时,将该文本提取出来。
当前判断的情绪词为目标情绪词,本发明实施例的目的即是判断包含目标情绪词的情绪文本中的情绪是否发生。例如:目标情绪词为“开心”,则包含“开心”的情绪文本为待确定的情绪文本,即判断待确定情绪文本中包含的“开心”是否发生。
步骤S102:在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语。
其中,本发明实施例利用现有的分词工具将待确定情绪文本划分为多个词语。根据自然语言的语法特征,词语按照一定的语法规则拼接成文本。同理,待确定情绪文本由多个划分为的词语组成,其中包含情绪词,与情绪词具有上下文关联关系的词语即是特征词语。需要说明,确定出的特征词语包含情绪词本身。
例如:待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”,与“开心”具有上下文关联关系的特征词语分别为“今天”“天气”“很”“晴朗”“非常”“适合”“郊游”“要是”“她”“也”“来了”“我”“就”“非常”“开心”。
需要说明,上述示例中将组成段落的词语作为特征词,当然,特征词还可以是其他多种形式,详见下文说明。
步骤S103:依据所述情绪文本集合及所述特征词集合,生成分类器。
其中,分类器本质是数学模型,用于数据分析与预测。其通过自动学习后,可自动将数据分到已知类别。本实施例中,分类器可以是贝叶斯分类器、最大熵分类器等。生成分类器的方式可以是,依据情绪文本集合确定出训练集,利用训练集对各个特征词进行训练,从而生成分类器。其中,分类器中包含各个特征词训练得到的概率。
步骤S104:利用所述分类器对所述待确定情绪文本进行分类,获得分类结果。
其中,分类器可以识别出多个类,将待确定情绪文本作为分类器的输入信息,进而分类器可以判断出待确定情绪文本具体属于哪个类。本实施例中构建的分类器是对情绪特征进行确定,即确定情绪发生与否,因此,本实施例中的分类器可以识别的类为两个,即情绪发生、情绪未发生(或称为情绪隐藏)。
利用分类器中训练得到的概率对待确定情绪文本进行分类,从而获得分类结果。分类过程中生成每个类别各自对应的概率值,将最大的概率值确定为分类结果,也就是说,分类结果是某个类别对应的概率。
步骤S105:依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
其中,将分类结果即最大概率值对应的类别确定为待确定情绪文本的情绪特征。例如,最大概率值对应的类为情绪发生,则待确定情绪文本的情绪特征为情绪发生。
由以上的技术方案可知,本实施例提供的情绪文本的情绪特征确定方法,通过在确定的情绪文本中,提取情绪词的特征词集合,并依据情绪文本集合及特征词集合构建分类器,利用分类器对待确定情绪文本进行分类,获得分类结果,依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。
上述实施例中,步骤S102中提取的特征词集合可以是段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语。
例如,待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”。段落特征词集合包含的是:“今天”“天气”“很”“晴朗”“非常”“适合”“郊游”“要是”“她”“也”“来了”“我”“就”“非常”“开心”。
所述句子特征词集合包含的是与所述情绪词在同一句子的词语。
例如,待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”。确定的句子特征词集合包含的是:“要是”“她”“也”“来了”“我”“就”“非常”“开心”。
所述子句特征词集合包含的是与所述情绪词在同一子句的词语。
例如,待确定情绪文本为“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”当前确定判断的情绪词为“开心”。确定的子句特征词集合包含的是:“我”“就”“非常”“开心”。
所述关键词集合包含的是包含的是表达预设假设含义的词语。
其中,预设假设含义可以是假设、希望、条件等连接词,因此,关键词集合包含的是表达假设、希望、条件等含义的词语。本实施例中可以预设包含关键词表,详见表1。当然,关键词表的具体形式包括但不限于此。
表1
具体地,待确定情绪文本为由至少三个句子组成的段落时,特征词语集合可以包含段落特征词集合及句子特征词集合。当然,句子中包含子句时,还可以包括子句特征词集合。进一步地,当情绪词文本中包含表达预设假设含义的词语时,还可以包括关键词集合。
需要说明,当特征词集合中包含多种特征词集合时,例如,包含段落特征词集合、句子特征词集合、子句特征词集合及关键词集合四类时,每种类型的特征词具有各自的标签,从而与其他类中的特征词进行区分。
需要说明,上述实施例中步骤S103依据所述情绪文本集合及所述特征词集合,生成分类器的具体实现方式可以是:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正类标注或负标注。
具体地,情绪文本集合中包含多个情绪文本,例如,包含多个段落。当然,每个情绪文本中均包含情绪词,但不一定都包含当前判断的情绪词。
在情绪文本集合中提取部分情绪文本,可以是任意提取,提取的数量可以是预先设置的数值,例如任意提取出两个段落。人工对提取出来的部分情绪文本进行批注,其中包括正批注及负批注。其中,正批注指的是若情绪文本中情绪词表达的情绪发生,则将该情绪文本批注为正;负批注指的是若情绪文本中情绪词表达的情绪未发生,则将该情绪文本批注为负。
例如,提取的情绪文本包括:“能和朋友一起去看演唱会,我感到很高兴。”该情绪文本中情绪词“高兴”表达的情绪实际发生了,因此,将该情绪文本进行正批注。又如,提取的情绪文本包括:“今天天气很晴朗,非常适合郊游。要是她也来了,我就非常开心。”该情绪文本中情绪词“开心”表达的情绪未实际发生,因此,对该情绪文本进行负批注。
其中,批注可以是对情绪文本进行标记,正批注的文本标记为1,负批注的文本标记为0。
利用所述训练集对所述特征词集合进行训练,获得分类器。
其中,训练指的是对特征词集合中的各个特征词在训练集中出现的概率进行统计,得到分类器。若使用的训练方法为贝叶斯训练方法,则获得的分类器为贝叶斯分类器。具体地,获得贝叶斯分类器的具体方式可以是:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
其中,经过标注的训练集可以根据正负标注两种类型划分为正负两个训练子集,即正训练子集中包含的是具有正标注的情绪文本,负训练子集包含的是具有负标注的情绪文本。贝叶斯分类器中包含各个特征词的概率,因此,针对特征词集合中的每个特征词,分别计算其在两个训练子集中出现的概率。其中,出现的概率指的是出现的次数与该集合中的词语总量的比值。
例如,特征词为“我”,且该特征词为句子特征词,统计句子特征词“我”出现的次数为1,正训练子集中的词语总数为1000,则句子特征词“我”的概率为0.001。
需要说明,当特征词集合中的特征词在训练集中出现的次数为0时,则默认将该特征词的概率设置为预设的极小数值。
同时,需要说明的是,特征词是具有标签的特征词,统计概率时并不是对所有的特征词都进行统计,而是统计具有相应标签的特征词。因为同一词语的词语可能出现在多个句子中,不仅仅只是包含当前目标情绪词的句子。
例如,“非常”为句子特征词集合“要是”“她”“也”“来了”“我”“就”“非常”“开心”中的特征词,但是,训练集中包含的“今天天气很晴朗,非常适合郊游。”句子中同样包含“非常”,但是该句中的“非常”并不具有句子特征词标签,因此,并不统计该句中的“非常”。
利用上述实施例确定出的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率,进而,利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。
具体地,贝叶斯分类器的数学模型为:
其中:ci包括正训练子集及负训练子集;P(ci)为待确定情绪文本中,各个特征词集合中特征词k出现在ci中的先验概率;P(tki)为待确定情绪文本中,各个特征词集合中的特征词k出现在ci中的概率;∏P(tki)为各个P(tki)的乘积;是指每个ci各自对应的P(ci)[∏P(tki)]中的最大值。
需要说明,在本实施例中,预设先验概率P(ci)为1/2,且P(tki)的值在训练过程中获得,即为训练中统计的各个特征词在ci中出现的概率。
例如,待确定情绪文本对应的特征词集合为:“我”“就”“非常”“开心”,每个特征词在正训练子集中的概率分别为0.1、0.2、0.05及0.003,每个特征词在负训练子集中的概率分别为0.12、0.03、0.007及0.002,则P(ci)[∏P(tki)]对应的正训练子集概率总乘积为0.000003,对应的负训练子集概率总乘积为0.000000504,显然前者较大,则将前者数值确定为分类结果。
进而,上述实施例中的依据所述分类结果,确定所述待确定情绪文本的情绪特征的具体实现方式可以是:
当所述分类结果为第一后验概率时,确定所述待确定情绪文本的情绪特征为情绪发生;当所述分类结果为第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。
也就是说,根据最大概率值出自正训练子集还是负训练子集,如果是出自正分类子集,则可知情绪特征为情绪发生,否则,情绪特征为情绪隐藏。
为了体现本发明中各个实施例的确定准确率较高,现提供以下实验数据作为佐证。
本实验使用一定的训练语料和测试语料进行训练和测试。实验中使用的语料是从Sinica语料库中使用一系列情绪关键词匹配得到的4000条语料,每条语料包含三个句子,即情绪关键词所在的句子,以及所在句子的前一句和后一句。由于语料中含有两种以上情绪的语料很少,因此,我们确保每条语料只含有一种情绪。然后,根据情绪关键词所表达的情绪在文中发生与否,对语料进行标注,分为情绪词所表达的情绪发生(正训练子集)和情绪词所表达的情绪隐藏(负训练子集)。选用正负训练子集各自的20%作为测试语料,并在剩余的语料中选取训练样本。
本文采用准确率Acc作为分类效果的衡量标准,计算方式为,分类正确的样本数量与总样本数量的比值。具体的测试结果参见下表2。
表2
训练样本量 | 段落特征词 | 添加子句特征词 | 添加句子特征词 | 添加关键词 |
20% | 0.7029 | 0.7115 | 0.7255 | 0.7422 |
40% | 0.7128 | 0.7285 | 0.7423 | 0.7543 |
60% | 0.7278 | 0.7395 | 0.7523 | 0.7668 |
80% | 0.7378 | 0.7488 | 0.7662 | 0.7852 |
从表2可以看出,随着特征词的逐渐添加,分类结果准确率不断上升,并且,随着语料规模的增大,准确率还进一步地提升,这为提高基于情绪词典的文本分类效果提供了有效依据。
下面对本发明实施例提供的情绪文本的情绪特征确定装置进行介绍,需要说明,有关情绪文本的情绪特征确定装置可以参见上文的情绪文本的情绪特征确定方法,以下并不做赘述。
参见图2,其示出了本发明实施例提供的情绪文本的情绪特征确定装置的结构,具体包括:情绪文本确定模块101、特征词提取模块102、分类器构建模块103、分类器分类模块104及情绪特征确定模块105。其中:
情绪文本确定模块101,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块102,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
分类器构建模块103,用于依据所述情绪文本集合及所述特征词集合,生成分类器;
分类器分类模块104,用于利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
情绪特征确定模块105,用于依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
由以上的技术方案可知,本实施例提供的情绪文本的情绪特征确定装置,特征词提取模块102通过在确定的情绪文本中,提取情绪词的特征词集合,分类器构建模块103依据情绪文本集合及特征词集合构建分类器,分类器分类模块104利用分类器对待确定情绪文本进行分类,获得分类结果,情绪特征确定模块105依据分类结果确定出待确定情绪文本的情绪特征为情绪发生或情绪隐藏。需要说明,本实施例中确定出的特征词集合是与情绪词具有上下文关联特征的特征词,利用所述特征词构建分类器,因此,构建的分类器充分考虑上下文对情绪表达的影响,相较于现有技术简单机械地利用情绪词表对情绪特征确定的方式,本实施例确定的准确率大大提高。
可选地,上述的情绪文本的情绪特征确定装置中的分类器构建模块103可以包括:
训练集获得单元,用于对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
分类器生成单元,用于利用所述训练集对所述特征词集合进行训练,获得分类器。
可选地,分类器生成单元包括:
标注子单元,用于依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
训练子单元,用于针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
当然,若训练子单元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;则分类器分类模块104可以包括:
第一后验概率计算单元,用于利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;
第二后验概率计算单元,用于利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;
分类结果确定单元,用于将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。
有关本装置的实验结果数据可参见上文表2,通过表2中的数据可知,各个装置的准确率均可以达到0.7以上,分类效果较好。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种情绪文本的情绪特征确定方法,其特征在于,包括:
在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
依据所述情绪文本集合及所述特征词集合,生成分类器;
利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
2.根据权利要求1所述的情绪文本的情绪特征确定方法,其特征在于,所述依据所述情绪文本集合及所述特征词集合,生成分类器,包括:
对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
利用所述训练集对所述特征词集合进行训练,获得分类器。
3.根据权利要求2所述的情绪文本的情绪特征确定方法,其特征在于,所述利用所述训练集对所述特征词集合进行训练,获得分类器,包括:
依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
4.根据权利要求3所述的情绪文本的情绪特征确定方法,其特征在于,所述贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;
其中,所述利用所述分类器对所述待确定情绪文本进行分类,获得分类结果,包括:
利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;
利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;
将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。
5.根据权利要求4所述的情绪文本的情绪特征确定方法,其特征在于,所述依据所述分类结果,确定所述待确定情绪文本的情绪特征,包括:
当所述分类结果为第一后验概率时,确定所述待确定情绪文本的情绪特征为情绪发生;
当所述分类结果为第二后验概率时,确定所述待确定情绪文本的情绪特征为情绪隐藏。
6.根据权利要求1所述的情绪文本的情绪特征确定方法,其特征在于,所述特征词集合包括:段落特征词集合、句子特征词集合、子句特征词集合及关键词集合中的任意一个或多个的组合;其中:
所述段落特征词集合包含的是与所述情绪词在同一段落的词语;
所述句子特征词集合包含的是与所述情绪词在同一句子的词语;
所述子句特征词集合包含的是与所述情绪词在同一子句的词语;
所述关键词集合包含的是表达预设假设含义的词语。
7.一种情绪文本的情绪特征确定装置,其特征在于,包括:
情绪文本确定模块,用于在情绪文本集合中,确定待确定情绪文本;其中,所述待确定情绪文本为包含目标情绪词的情绪文本;
特征词提取模块,用于在所述待确定情绪文本中,提取所述情绪词的特征词集合;其中,所述特征词集合包含的是与所述情绪词具有上下文关联关系的特征词语;
分类器构建模块,用于依据所述情绪文本集合及所述特征词集合,生成分类器;
分类器分类模块,用于利用所述分类器对所述待确定情绪文本进行分类,获得分类结果;
情绪特征确定模块,用于依据所述分类结果,确定所述待确定情绪文本的情绪特征;其中,所述情绪特征为情绪发生或情绪隐藏。
8.根据权利要求7所述的情绪文本的情绪特征确定装置,其特征在于,所述分类器构建模块包括:
训练集获得单元,用于对所述情绪文本集合中的部分情绪文本进行标注,获得训练集;其中,所述标注为正标注或负标注;
分类器生成单元,用于利用所述训练集对所述特征词集合进行训练,获得分类器。
9.根据权利要求8所述的情绪文本的情绪特征确定装置,其特征在于,所述分类器生成单元包括:
标注子单元,用于依据所述正标注及所述负标注,将所述训练集划分为正负两个训练子集;
训练子单元,用于针对所述特征词集合中每个特征词,计算分别在所述正负两个训练子集中出现的概率,获得贝叶斯分类器。
10.根据权利要求9所述的情绪文本的情绪特征确定装置,其特征在于,所述训练子单元获得的贝叶斯分类器包含预设先验概率及正负两个训练子集各自对应的概率;其中,所述分类器分类模块包括:
第一后验概率计算单元,用于利用所述预设先验概率及正训练子集对应的概率,计算第一后验概率;
第二后验概率计算单元,用于利用所述预设先验概率及负训练子集对应的概率,计算第二后验概率;
分类结果确定单元,用于将所述第一后验概率及所述第二后验概率中的较大值确定为分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410571054.3A CN104346326A (zh) | 2014-10-23 | 2014-10-23 | 一种情绪文本的情绪特征确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410571054.3A CN104346326A (zh) | 2014-10-23 | 2014-10-23 | 一种情绪文本的情绪特征确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104346326A true CN104346326A (zh) | 2015-02-11 |
Family
ID=52501959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410571054.3A Pending CN104346326A (zh) | 2014-10-23 | 2014-10-23 | 一种情绪文本的情绪特征确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104346326A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488025A (zh) * | 2015-11-24 | 2016-04-13 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
CN106294476A (zh) * | 2015-06-05 | 2017-01-04 | 北京搜狗科技发展有限公司 | 一种特征词关系获取方法及装置 |
CN106294346A (zh) * | 2015-05-13 | 2017-01-04 | 厦门美柚信息科技有限公司 | 一种论坛帖子识别方法及装置 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN106919661A (zh) * | 2017-02-13 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN107636648A (zh) * | 2015-05-21 | 2018-01-26 | 微软技术许可有限责任公司 | 基于情绪标识来构造响应 |
CN107679153A (zh) * | 2017-09-27 | 2018-02-09 | 国家电网公司信息通信分公司 | 一种专利分类方法及装置 |
CN108563688A (zh) * | 2018-03-15 | 2018-09-21 | 西安影视数据评估中心有限公司 | 一种影视剧本人物情绪识别方法 |
CN113192484A (zh) * | 2021-05-26 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于文本生成音频的方法、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100262454A1 (en) * | 2009-04-09 | 2010-10-14 | SquawkSpot, Inc. | System and method for sentiment-based text classification and relevancy ranking |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
-
2014
- 2014-10-23 CN CN201410571054.3A patent/CN104346326A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100262454A1 (en) * | 2009-04-09 | 2010-10-14 | SquawkSpot, Inc. | System and method for sentiment-based text classification and relevancy ranking |
CN103544242A (zh) * | 2013-09-29 | 2014-01-29 | 广东工业大学 | 面向微博的情感实体搜索系统 |
Non-Patent Citations (3)
Title |
---|
BIN SHI ET AL.: "Mining Chinese Reviews", 《SIXTH IEEE INTERNATIONAL CONFERENCE ON DATA MINING - WORKSHOPS》 * |
李逸薇 等: "含情绪词文本的情绪识别方法研究", 《第十五届汉语词汇语义学国际研讨会》 * |
陈培文 等: "基于SVM的文本情感极性分类研究", 《广东工业大学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294346A (zh) * | 2015-05-13 | 2017-01-04 | 厦门美柚信息科技有限公司 | 一种论坛帖子识别方法及装置 |
CN107636648B (zh) * | 2015-05-21 | 2021-10-22 | 微软技术许可有限责任公司 | 基于情绪标识来构造响应 |
CN107636648A (zh) * | 2015-05-21 | 2018-01-26 | 微软技术许可有限责任公司 | 基于情绪标识来构造响应 |
US10997226B2 (en) | 2015-05-21 | 2021-05-04 | Microsoft Technology Licensing, Llc | Crafting a response based on sentiment identification |
CN106294476A (zh) * | 2015-06-05 | 2017-01-04 | 北京搜狗科技发展有限公司 | 一种特征词关系获取方法及装置 |
CN105488025B (zh) * | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
CN105488025A (zh) * | 2015-11-24 | 2016-04-13 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
US10061762B2 (en) | 2015-11-24 | 2018-08-28 | Xiaomi Inc. | Method and device for identifying information, and computer-readable storage medium |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN106919661B (zh) * | 2017-02-13 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN106919661A (zh) * | 2017-02-13 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN107679153A (zh) * | 2017-09-27 | 2018-02-09 | 国家电网公司信息通信分公司 | 一种专利分类方法及装置 |
CN108563688A (zh) * | 2018-03-15 | 2018-09-21 | 西安影视数据评估中心有限公司 | 一种影视剧本人物情绪识别方法 |
CN108563688B (zh) * | 2018-03-15 | 2021-06-04 | 西安影视数据评估中心有限公司 | 一种影视剧本人物情绪识别方法 |
CN113192484A (zh) * | 2021-05-26 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于文本生成音频的方法、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104346326A (zh) | 一种情绪文本的情绪特征确定方法及装置 | |
Jain et al. | Application of machine learning techniques to sentiment analysis | |
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
Chowdhury et al. | Performing sentiment analysis in Bangla microblog posts | |
Mishra et al. | Sentiment analysis of Twitter data: Case study on digital India | |
CN106649519B (zh) | 一种产品特征的挖掘与评价方法 | |
CN103631961B (zh) | 一种情感词与评价对象的关系识别方法 | |
CN106919673A (zh) | 基于深度学习的文本情绪分析系统 | |
CN107977362B (zh) | 一种用于中文文本定级以及计算中文文本难度评分的方法 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN104298665A (zh) | 一种中文文本中评价对象的识别方法及装置 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN104317965A (zh) | 基于语料的情感词典构建方法 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
Stavrianou et al. | NLP-based feature extraction for automated tweet classification | |
Ljubešić et al. | Discriminating between closely related languages on twitter | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
Tsapatsoulis et al. | Feature extraction for tweet classification: Do the humans perform better? | |
JP2018163660A (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN106445914B (zh) | 微博情感分类器的构建方法及构建装置 | |
CN105183807A (zh) | 一种基于结构句法的情绪原因事件识别方法及系统 | |
Saralegi et al. | Cross-lingual projections vs. corpora extracted subjectivity lexicons for less-resourced languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150211 |