CN102682130B - 一种文本情感分类方法及系统 - Google Patents
一种文本情感分类方法及系统 Download PDFInfo
- Publication number
- CN102682130B CN102682130B CN2012101543326A CN201210154332A CN102682130B CN 102682130 B CN102682130 B CN 102682130B CN 2012101543326 A CN2012101543326 A CN 2012101543326A CN 201210154332 A CN201210154332 A CN 201210154332A CN 102682130 B CN102682130 B CN 102682130B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- sorted
- emotion
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本情感分类方法,包括:对照预置的情感词表,在待分类文本中找出情感词,并依据情感词表获取与情感词对应的情感极性;使用两个极性转变规则判断情感词是否发生极性转变,依据情感词的情感极性及情感词的极性转变结果,计算待分类文本中各个词出现在每一种极性的文本中的概率;依据待分类文本中各个词出现在每一种极性的文本中的概率,利用贝叶斯分类器模型对待分类文本进行分类。本申请提供的文本情感分类方法,分类效果远远高于传统的文本情感分类方法,避免了发生情感极性转变的情感词对文本分类效果带来的不利影响,提高了文本情感分类的正确率。
Description
技术领域
本发明涉及自然语言处理技术及模式识别领域,更具体地说,涉及一种文本情感词分类方法及系统。
背景技术
随着互联网应用的普遍发展,互联网(如博客、论坛等)上产生了大量的用户参与的,对于人物、事件、产品等的评论信息,这些评论信息表达了用户的各种情感色彩和情感倾向性,这不仅为商家提供了一个信息展示的平台,也为消费者(即用户)提供了产品使用体验交流的平台。如何从这些海量文本中提取这一类带有情感的文本,并对其进行文本情感的分析和研究,具有很强的应用价值,例如,用户可以根据商品的评论了解商品的信息,选择合适产品;商家根据用户的评论改进商品的品质,争取更大的市场等。
所谓文本情感分析,就是借助计算机帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中,文本情感分类是文本情感分析的一项基本任务,文本情感分类是指将文本分为正面文本或者负面文本,例如,“我很喜欢这个产品”,通过情感分类,这句话将被分为正面文本,而“这本书实在太差了”,将被分类为负面文本。
现有的文本情感分类方法是基于机器学习的分类方法,该方法将人工标注的一定规模的正面文本和负面文本作为训练样本,通过对待分类文本中正面情感词和负面情感词进行统计计数,根据待分类文本中,正面情感词和负面情感词的统计情况对文本进行分类,这种文本情感分类方法实现简单,但其分类效果差,例如“我不喜欢这个产品”这句话中,包括一个正面情感词“喜欢”,应用现有的文本分类方法,很可能将这句话分为正面文本,但是这句话的整体情感极性却是负面的,因此,通过情感词统计计数的方法得到的分类结果的正确率低。
发明内容
本发明的目的是提供一种文本情感分类方法,以解决现有的文本情感分类方法分类结果的正确率低的问题。
为实现上述目的,本发明提供了如下技术方案:
一种文本情感分类方法,包括:
参考预置的情感词表,在待分类文本中查找情感词,并确定与所述情感词对应的情感极性;
使用两个极性转变规则判断所述情感词是否发生极性转变,所述两个极性转变规则包括:基于句子内结构的极性转变规则和基于句子间转折结构的极性转变规则;
计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种极性的文本中的概率;
依据所述待分类文本中各个中性词即各个情感词出现在每一种极性的文本中的概率,利用贝叶斯分类器模型对所述待分类文本进行分类,所述贝叶斯分类器模型为:
当所述P的取值为待分类文本中词wk出现在正面文本中的概率值时,所述待分类文本为正面文本;当所述P的取值为待分类文本中词wk出现在负面文本中的概率值时,所述待分类文本为负面文本。
上述方法,优选的,所述基于句子内结构的极性转变规则包括:
基于否定结构的极性转变规则,基于模态结构的极性转变规则和基于隐含结构的极性转变规则。
上述方法,优选的,所述基于否定结构的极性转变规则包括:
若所述情感词所在的句子中出现了预设的否定结构的关键词,则所述情感词发生极性转变。
上述方法,优选的,所述基于模态结构的极性转变规则包括:
若所述情感词所在的句子中,在所述情感词的前边出现了预设的模态结构的关键词,则所述情感词发生极性转变。
上述方法,优选的,所述基于隐含结构的极性转变规则包括:
若所述情感词所在的句子中出现预设的隐含结构的关键词,则所述情感词发生极性转变。
上述方法,优选的,所述基于句子间转折结构的极性转变规则包括:
若所述情感词所在的句子的后一句或后一段文本中出现预设的转折结构的关键词,则所述情感词发生极性转变。
上述方法,优选的,所述计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率包括:
P(wk|ci)=α·Pe(wk|ci)+(1-α)·Pf(wk|ci)
其中,P(wk|ci)为在待分类文本中,词wk出现在ci类文本中的概率,ci包括正面和负面;α为预设的权重值;Pe(wk|ci)为通过待分类文本计算词wk属于情感类别的后验概率;Pf(wk|ci)为通过词wk在文本中所有词中情况来计算词wk属于情感类别的后验概率,k的取值可以为-1,0,1,w1表示正面情感词,w-1表示负面情感词,w0表示中性词。
一种文本情感分类系统,包括:
查找单元,用于参考预置的情感词表,在待分类文本中查找情感词,并确定与所述情感词对应的情感极性;
判断单元,用于判断所述情感词是否发生极性转变,所述极性转变包括:基于句子内结构的极性转变和基于句子间转折结构的极性转变;
计算单元,用于计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率;
分类单元,用于依据所述待分类文本中各个中性词及各个情感词出现在每一种类别的文本中的概率,利用贝叶斯分类器模型对所述待分类文本进行分类,所述贝叶斯分类器模型为:
当所述P的取值为待分类文本中词wk出现在正面文本中的概率值时,所述待分类文本为正面文本;当所述P的取值为待分类文本中词wk出现在负面文本中的概率值时,所述待分类文本为负面文本。
通过以上方案可知,相对于现有技术,本申请提供的一种文本情感分类方法及系统,充分考虑句子内的及句子间的情感极性转变现象,使用两大不同类型的规则去组合判断情感词是否发生极性转变,结合贝叶斯机器学习模型对文本进行分类,由于每一种情感转变规则都有其独特的判断规则,而且在后续的分类过程中,文本发生极性转变的比例也是不一样的,更能真实反映文本情感极性转变的情况,本申请提供的文本情感分类方法,分类效果远远高于现有的文本情感分类方法,避免了发生情感极性转变的情感词对文本分类效果带来的不利影响,提高了文本情感分类的正确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本情感分类方法的流程图;
图2为本申请实施例提供的一种文本情感分类方法的逻辑图;
图3为本申请实施例提供的一种文本情感分类系统的结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请同时参阅图1和图2,图1为本申请实施例提供的一种文本情感分类方法的流程图,图2为本申请实施例提供的一种文本情感分类方法的逻辑图;本申请实施例提供的一种文本情感分类方法包括:
步骤S11:参考预置的情感词表,在待分类文本中查找情感词,并确定与所述情感词对应的情感极性;
预置的情感词表可以如表1所示,一个词,它有三种可能性:正面词、负面词或中性词(即没有情感极性的词),表中只列举了部分有情感极性的词及其情感极性,当然,情感词表中的词并不限于表中列举的这些词,还可以有其它的词。
表1
情感极性 | 情感词 |
正面 | 喜欢,乐意,满意,好,很好 |
负面 | 讨厌,厌烦,伤心,坏 |
步骤S12:判断所述情感词是否发生极性转变,所述极性转变包括:基于句子内结构的极性转变和基于句子间转折结构的极性转变;
使用两个极性转变规则判断所述情感词是否发生极性转变,所述两个极性转变规则包括:基于句子内结构的极性转变规则和基于句子间转折结构的极性转变规则;
本申请实施例提供的方案中,情感词极性的转变只针对有情感极性的词,即正面词和负面词,因此本申请实施例所说的极性转变是指词正面词转变为负面词或负面词转变为正面词,中性词不参与极性转变的判断。
优选的,基于句子内结构的极性转变规则可以包括:
基于否定结构的极性转变规则、基于模态结构的极性转变规则和基于隐含结构的极性转变规则;具体的:
基于否定结构的极性转变规则可以为:若所述情感词所在的句子中出现了预设的否定结构的关键词,则该情感词发生极性转变;
基于模态结构的极性转变规则可以为:若所述情感词所在的句子中,在所述情感词的前边出现了预设的模态结构的关键词,则所述情感词发生极性转变;
基于隐含结构的极性转变规则可以为:若所述情感词所在的句子中出现预设的隐含结构的关键词,则所述情感词发生极性转变;
需要说明的是,基于句子内结构的极性转变规则并不限于上述四种,还可以为基于其它结构的极性转变规则,这里不做具体限定。
基于句子间转折结构的极性转变规则可以为:若所述情感词所在的句子的后一句或后一段文本中出现预设的转折结构的关键词,则所述情感词发生极性转变;
为了便于理解,对于上述提到的否定结构的关键词、模态结构的关键词、隐含结构的关键词和转折结构的关键词,本申请实施例对每一种结构的关键词进行了举例说明,如表2所示,但并不限于表中所列举的这些,还可以包括其它的关键词。
表2
下面将结合表2对上述提到的两个极性转变规则进行举例说明:
1、基于句子内结构的极性转变规则:
1)基于否定结构的极性转变规则:
否定结构是语言现象中普遍存在的现象,用于否定句子中的某个表达。在否定结构中,一个清楚明确的触发词,称之为否定关键词,在同一个句子中被用来转变情感词的极性。
否定结构的转变规则具体为:若所述情感词所在的句子中出现了预设的否定结构的关键词,则所述情感词发生极性转变;例如:
例1:我不喜欢这个产品。
在例1句子中,若情感词为“喜欢”,且该句子中出现了否定结构的关键词“不”,则情感词“喜欢”发生了极性转变。
2)基于模态结构的极性转变规则:
模态与评论者的态度有关,接近于他/她在确定的程度,可靠的程度,主体的程度,信息来源以及观点的程度上的表述,属于情感分类研究的一个范畴。
基于模态结构的极性转变规则为:若所述情感词所在的句子中,在所述情感词的前边出现了预设的模态结构的关键词,则所述情感词发生极性转变;下面结合具体例子对该规则进行说明。
①一个句子表达的是评论者过去的看法,而非现在的观点,例如:
例2:我曾经以为它的质量很好。
在例2句子中,若情感词为“很好”,且在情感词“很好”前边出现了模态结构的关键词“曾经”,说明这个情感表达的是过去的想法,而非现在的想法,则情感词“很好”发生极性转变。
②一个句子描述的是一种假设的情况或者在条件假设句中情感的表达是一种假定的情况,例如:
例3:要是颜色是红色的就好了。
在例3句子中,若情感词为“好”,且所在句子中,在情感词“好”的前边出现了模态结构的关键词“要是”,则情感词“好”发生了极性转变。
③一个句子的表达声明是不确定的情况,例如:
例4:它可能会带来坏的效果。
在例4句子中,若中文情感词为“坏”,且所在句子中,在情感词“坏”前出现了模态结构的关键词“可能”,则情感词“坏”发生了极性转变。
3)基于隐含结构的极性转变规则:
一般情况下,评论者针对评论对象发表自己的观点,有的时候,在一句话中,这个评论者或是评论对象并不一定是文本所描述或关心的重点,在这种情况下,尽管这个观点(评论)是别人活是有关别的评论对象,但是,这有时也隐含了与其真正关心的评论对象的相关性。这表现在三方面:评论者、评论对象和观点表达。
基于隐含结构的极性转变规则为:若所述情感词所在的句子中出现预设的隐含结构的关键词,则所述情感词发生极性转变。例如:
例5:别人认为这是一个好产品。
在例5句子中,若情感词为“好”,且所在句子中,出现了隐含结构的关键词“本人”,则情感词“好”发生极性转变。
2、基于句子间的转折结构的极性转变规则:
转折结构可用户表达段与段之间,句子与句子之间,分句与分句之间,词与词之间的矛盾对比关系,它通过不同的关键词区别于其他的类型的转换结构,转折结构的关键词如:但、但是、不过等等。
转折结构的关键词与否定结构的关键词的区别在于二者所引起的极性转变范围不同,在一个句子中,一个转折结构的关键词不但可以改变该一个句子中的情感词的极性,而且可以改变另外的句子中,甚至是不同段落中的情感词的极性,而否定结构的关键词可能仅仅只是改变了否定结构的关键词所在的句子中情感词的极性。
基于句子间转折结构的极性转变规则为:若所述情感词所在的句子的后一句或后一段文本中出现预设的转折结构的关键词,则所述情感词发生极性转变。例如,
例6:我喜欢这个产品的想法,但是这个质量我不能接受。
在例6句子中,若中文情感词为“喜欢”,但其所在句子的下一句中出现了转折结构的关键词“但是”,则情感词“喜欢”发生极性转变。
步骤S13:计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率;
为了便于理解,这里用P(wk|ci)表示在待分类文本中,词wk出现在ci类文本中的概率;在本实施例中,词wk分为三种,分别为正面、负面和中性(即没有情感极性),其中,k的取值可以为-1,0,1,具体的,可以用w1表示正面情感词,用w-1表示负面情感词,用w0表示无情感的中性词。
而文本的类别ci只考虑正面和负面两种类型,也就是说,对于文本的分类,本申请实施例只将文本分为正面文本或是负面文本,其中,i的取值可以为1,正面情感词、负面情感词和中性词)中的情况来计算词wk出现在ci类文本的后验概率。
优选的,Pe(wk|ci)可以通过公式(2)进行计算:
其中,S为已知文本类别的,同一类别的文本的个数;T为已知文本类别的,同一类别的文本中,含有词wk的文本的个数;因本方案在对待分类文本进行分类时,是基于一定规模的正面文本和负面文本作为训练样本的,因此,当利用训练样本,通过本方案确定一个待分类文本的类别时,将已知文本类别的待分类文本加入到训练样本中,因此,公式(2)中的S也就是加入已知文本类别的待分类文本以后的训练样本中,同一类别的文本的个数;T为加入已知文本类别的待分类文本以后的训练样本中,同一类别的文本中,含有词wk的文本的个数
具体的,Pe(wk|ci)可通过公式公式(3)进行计算:
其中,S1表示已知文本类别的正面文本总数;S2已知文本类别的负面文本总数;T1表示正面文本中,含有正面情感词w1的正面文本的个数;T2表示负面文本中,含有正面情感词w1的负面文本的个数;T3表示正面文本中,含有负面情感词w-1的正面文本的个数;T4表示负面文本中,含有负面情感词w-1的负面文本的个数;T5表示正面文本中,含有中性词w0的正面文本的个数;T6表示负面文本中,含有中性词w0的负面文本的个数。
Pf(wk|ci)的计算具体可以通过公式(4)、公式(5)、公式(6)或公式(7)进行计算:
公式(4)表示正面情感词w1出现在正面文本或是负面情感词w-1出现在负面文本中的概率。
公式(5)表示正面情感词w1出现在负面文本或是负面文本词w-1出现在正面文中的概率。
公式(6)表示无情感极性的中性词出现在正面文本中的概率。
公式(7)表示无情感极性的中性词出现在负面文本中的概率。
其中,在公式(4)—公式(7)所示的四个公式中:
r表示正面词出现在正面文本的概率与出现在负面文本中的概率之比,在本实施例中,r=100。
为了便于对公式中其它参数进行阐述,定义如下参数:
V:所有词的集合,即是指待分类文本中的所有词,包括正面情感词、负面情感词和无情感的中性词
P:正面词集合,即是指待分类文本中所包含的所有正面词
N:负面词集合,即是指待分类文本中所包含的所有负面词
U:中性词集合,即(V-(P+N))
基于上述定义,公式(4)—公式(7)所示的四个公式中,
m:V中所含有词的个数;
p:P中所含词的个数;
n:N中所含词的个数;
步骤S14:依据所述待分类文本中各个中性词及各个情感词出现在每一种类别的文本中的概率,利用贝叶斯分类器模型对所述待分类文本进行分类。
具体的,根据每个文本中所含的每个词出现在不同类别的文本中的概率,以及待分类文本属于不同类别的先验概率,计算待分类文本中所有词出现在每一类文本中的概率总和,根据概率总和中的最大值,判断待分类文本的类别。例如,如果概率总和的最大值是待分类文本中所有词出现在正面文本中的概率总和,则所述待分类文本为正面文本;如果概率总和的最大值是待分类文本中所有词出现在负面文本中的概率总和,则所述待分类文本为负面文本。
优选的,贝叶斯分类器模型可以如公式(8)所示,
其中,P为待分类文本属于某一极性的文本的概率;P(ci)为待分类文本中,词wk出现在ci类文本中的先验概率,ci包括正面和负面;具体,在本申请实施例中,P(tki)为待分类文本中,词wk出现在不同类别的文本中的后验概率,具体的,因为考虑了情感极性转变情况,所以,对词wk的出现在不同类别文本中的后验概率P(tki)要考虑分析不同的情况,具体如公式(9)所示:
具体的,当正面情感词发生极性转变时,
当负面情感词发生极性转变时,
而中性词不用考虑分析情感极性转变问题,所以,中性词的概率计算只有两种,即
P(w0|c-1)和P(w0|c1)。
在具体计算时,根据统计的两种极性转变规则判断情感词的概率取值,
当所述公式(8)的取值为待分类文本中wk出现在正面文本中的概率值时,说明待分类文本为正面文本;
当所述公式(8)的取值为待分类文本中wk出现在负面文本中的概率值时,说明待分类文本为负面文本。
本申请实施例提供的一种文本情感分类方法及系统,充分考虑句子内的及句子间的情感极性转变现象,使用量大不同类型的规则去组合判断情感词是否发生极性转变,结合贝叶斯机器学习模型对文本进行分类,由于每一种情感转变规则都有其独特的判断规则,而且在后续的分类过程中,文本发生极性转变的比例也是不一样的,更能真实反映文本情感极性转变的情况,本申请提供的文本情感分类方法,分类效果远远高于现有的文本情感分类方法,避免了发生情感极性转变的情感词对文本分类效果带来的不利影响,提高了文本情感分类的正确率。
为了将本申请实施例提供的一种文本情感分类方法与现有的文本情感分类方法进行比较,这里采用了一些领域内的评论语料作为待分类文本,分别对这两种分类方法进行了测试。
测试中使用的语料为两个领域的数据,分别为关于酒店和电脑的评论,每一个领域各选择300篇正面评论和300篇负面评论作为测试语料。实验选用的评价标准是准确率(Accuracy),准确率是评价一般分类问题的综合评价标准,对于每一个领域,标准率的计算为Accuracy=(TP+NP)/A,其中,TP指正面文本分类正确的样本总数,NP指负面文本分类正确的样本总数,A指选择的分类正确的总的样本数,即A=600。
需要说明的是,对待分类文本的极性的正确性进行判定,具体判定内容是,在正面文本中,若正面情感词数目比负面情感词数目多,则正面文本分类正确;在正面文本中,若正面情感词数目比负面情感词数目少或数目相等,则正面文本分类不正确;在负面文本中,若负面情感词数目比正面情感词数目多,则负面文本分类正确;在负面文本中,若负面情感词数目比正面情感词数目少或数目相等,则负面文本分类不正确。
如表3所示,为采用本发明提供的方案和采用现有技术对文本进行分类的结果比较:
表3
“传统分类方法”表示没有考虑词的情感极性是否发生转移而对文本进行分类的分类结果;“否定结构”表示仅考虑基于否定结构的情感极性转变规则计算情感词的概率,进而计算文本情感极性类别值对文本进行分类;“模态结构”表示仅考虑基于模态结构的极性转变规则计算情感词的概率,进而计算文本情感极性类别值对文本进行分类;“隐含结构”表示仅考虑基于隐含结构的极性转变规则计算情感词的概率,进而计算文本情感极性类别值对文本进行分类;“转折结构”表示仅考虑基于转折结构的情感极性转变规则计算情感词的概率,进而计算文本情感极性类别值对文本进行分类;“四种结构”表示同时考虑上述四种结构的情感极性转变规则计算情感词的概率,进而计算文本情感极性类别值进行文本分类。
从表3数据可以看出,应用本申请实施例提供的文本情感分类方法分类的准确率,要远远高于传统的文本情感分类方法的准确率,提高的幅度最高可超过3个百分点,再次证明本实施例提供的情感分类方法的准确率高,避免了发生情感极性转变的情感词对文本分类结果带来的不利影响,有利于提高文本的分类效果。
本申请实施例提供的一种文本情感分类系统的结构示意图如图3所示,包括:
查找单元31,用于参考预置的情感词表,在待分类文本中查找情感词,并确定与所述情感词对应的情感极性;
判断单元32,用于判断所述情感词是否发生极性转变,所述极性转变包括:基于句子内结构的极性转变和基于句子间转折结构的极性转变。
优选的,
判断所述情感词是否发生基于否定结构的极性转变可以包括:
若所述情感词所在的句子中出现了预设的否定结构的关键词,则所述情感词发生极性转变。
判断所述情感词是否发生基于模态结构的极性转变可以包括:
若所述情感词所在的句子中,在所述情感词的前边出现了预设的模态结构的关键词,则所述情感词发生极性转变。
判断所述情感词是否发生基于隐含结构的极性转变可以包括:
若所述情感词所在的句子中出现预设的隐含结构的关键词,则所述情感词发生极性转变。
判断所述情感词是否发生基于句子间转折结构的极性转变可以包括:
若所述情感词所在的句子的后一句或后一段文本中出现预设的转折结构的关键词,则所述情感词发生极性转变。
计算单元33,用于计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率;
具体的,可以通过下式计算所述待分类文本中各个词出现在每一类文本中的概率:
P(wk|ci)=α·Pe(wk|ci)+(1-a)·Pf(wk|ci)
其中,P(wk|ci)为在待分类文本中,词wk出现在ci类文本中的概率;α为预设的值;Pe(wk|ci)为通过待分类文本计算词wk属于情感类别的后验概率;Pf(wk|ci)为通过词wk在文本中所有词中情况来计算词wk属于情感类别的后验概率。
分类单元34,用于依据所述待分类文本中各个中性词及各个情感词出现在每一种类别的文本中的概率,利用贝叶斯分类器模型对所述待分类文本进行分类。
具体的,可以利用如下贝叶斯分类器模型对所述待分类文本进行分类:
其中,P为待分类文本属于某一极性的文本的概率;为待分类文本中,词wk出现在ci类文本中的先验概率,ci包括正面和负面;P(tki)为待分类文本中,词wk出现在ci类文本中的概率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种文本情感分类方法,其特征在于,包括:
参考预置的情感词表,在待分类文本中查找情感词,并确定与所述情感词对应的情感极性;
判断所述情感词是否发生极性转变,所述极性转变包括:基于句子内结构的极性转变和基于句子间转折结构的极性转变;
计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率;
依据所述待分类文本中各个中性词及各个情感词出现在每一种类别的文本中的概率,利用贝叶斯分类器模型对所述待分类文本进行分类,所述贝叶斯分类器模型为:
当所述P的取值为待分类文本中词wk出现在正面文本中的概率值时,所述待分类文本为正面文本;当所述P的取值为待分类文本中词wk出现在负面文本中的概率值时,所述待分类文本为负面文本;
所述计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率包括:
P(wk|ci)=α·Pe(wk|ci)+(1-α)·Pf(wk|ci),
P(wk|ci)为在待分类文本中,词wk出现在ci类文本中的概率,ci包括正面和负面;α为预设的权重值;Pe(wk|ci)为通过待分类文本计算词wk属于情感类别的后验概率;Pf(wk|ci)为通过词wk在文本中所有词中情况来计算词wk属于情感类别的后验概率,k的取值可以为-1,0,1,w1表示正面情感词,w-1表示负面情感词,w0表示中性词;
Pe(wk|ci)的计算具体为:
其中,S是加入已知文本类别的待分类文本以后的训练样本中,同一类别的文本的个数;T为加入已知文本类别的待分类文本以后的训练样本中,同一类别的文本中,含有词wk的文本的个数,
Pf(wk|ci)的计算具体为:
正面情感词w1出现在正面文本或是负面情感词w-1出现在负面文本中的概率为:
正面情感词w1出现在负面文本或是负面文本词w-1出现在正面文中的概率为:
r表示正面词出现在正面文本的概率与出现在负面文本中的概率之比;
p表示待分类文本中包含的所有正面情感词的个数;
n表示待分类文本中包含的所有负面情感词的个数;
m表示待分类文本中包含的所有正面情感词、负面情感词、无情感极性的中性词的个数。
2.根据权利要求1所述的方法,其特征在于,所述基于句子内结构的极性转变包括:
基于否定结构的极性转变,基于模态结构的极性转变和基于隐含结构的极性转变。
3.根据权利要求2所述的方法,其特征在于,所述判断所述情感词是否发生基于否定结构的极性转变包括:
若所述情感词所在的句子中出现了预设的否定结构的关键词,则所述情感词发生极性转变。
4.根据权利要求2所述的方法,其特征在于,所述判断所述情感词是否发生基于模态结构的极性转变包括:
若所述情感词所在的句子中,在所述情感词的前边出现了预设的模态结构的关键词,则所述情感词发生极性转变。
5.根据权利要求2所述的方法,其特征在于,所述判断所述情感词是否发生基于隐含结构的极性转变包括:
若所述情感词所在的句子中出现预设的隐含结构的关键词,则所述情感词发生极性转变。
6.根据权利要求1所述的方法,其特征在于,所述判断所述情感词是否发生基于句子间转折结构的极性转变包括:
若所述情感词所在的句子的后一句或后一段文本中出现预设的转折结构的关键词,则所述情感词发生极性转变。
7.一种文本情感分类系统,其特征在于,包括:
查找单元,用于参考预置的情感词表,在待分类文本中查找情感词,并确定与所述情感词对应的情感极性;
判断单元,用于判断所述情感词是否发生极性转变,所述极性转变包括:基于句子内结构的极性转变和基于句子间转折结构的极性转变;
计算单元,用于计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率;
分类单元,用于依据所述待分类文本中各个中性词及各个情感词出现在每一种类别的文本中的概率,利用贝叶斯分类器模型对所述待分类文本进行分类,所述贝叶斯分类器模型为:
当所述P的取值为待分类文本中词wk出现在正面文本中的概率值时,所述待分类文本为正面文本;当所述P的取值为待分类文本中词wk出现在负面文本中的概率值时,所述待分类文本为负面文本;
所述计算所述待分类文本中各个中性词出现在每一种类别的文本中的概率,并依据所述情感词的情感极性及所述情感词的极性转变结果,计算所述待分类文本中各个情感词出现在每一种类别的文本中的概率包括:
P(wk|ci)=α·Pe(wk|ci)+(1-α)·Pf(wk|ci),
P(wk|ci)为在待分类文本中,词wk出现在ci类文本中的概率,ci包括正面和负面;α为预设的权重值;Pe(wk|ci)为通过待分类文本计算词wk属于情感类别的后验概率;Pf(wk|ci)为通过词wk在文本中所有词中情况来计算词wk属于情感类别的后验概率,k的取值可以为-1,0,1,w1表示正面情感词,w-1表示负面情感词,w0表示中性词;
Pe(wk|ci)的计算具体为:
其中,S是加入已知文本类别的待分类文本以后的训练样本中,同一类别的文本的个数;T为加入已知文本类别的待分类文本以后的训练样本中,同一类别的文本中,含有词wk的文本的个数,
Pf(wk|ci)的计算具体为:
正面情感词w1出现在正面文本或是负面情感词w-1出现在负面文本中的概率为:
正面情感词w1出现在负面文本或是负面文本词w-1出现在正面文中的概率为:
无情感极性的中性词出现在负面文本中的概率为:
r表示正面词出现在正面文本的概率与出现在负面文本中的概率之比;
p表示待分类文本中包含的所有正面情感词的个数;
n表示待分类文本中包含的所有负面情感词的个数;
m表示待分类文本中包含的所有正面情感词、负面情感词、无情感极性的中性词的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101543326A CN102682130B (zh) | 2012-05-17 | 2012-05-17 | 一种文本情感分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101543326A CN102682130B (zh) | 2012-05-17 | 2012-05-17 | 一种文本情感分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102682130A CN102682130A (zh) | 2012-09-19 |
CN102682130B true CN102682130B (zh) | 2013-11-27 |
Family
ID=46814055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101543326A Active CN102682130B (zh) | 2012-05-17 | 2012-05-17 | 一种文本情感分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102682130B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929860B (zh) * | 2012-10-12 | 2015-05-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN103559233B (zh) * | 2012-10-29 | 2017-05-31 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及系统 |
CN103559176B (zh) * | 2012-10-29 | 2016-08-17 | 中国人民解放军国防科学技术大学 | 微博情感演化分析方法及系统 |
CN103020249A (zh) * | 2012-12-19 | 2013-04-03 | 苏州大学 | 分类器的构建方法及装置、中文文本情感分类方法及系统 |
CN103678720B (zh) * | 2014-01-02 | 2017-02-22 | 中国标准化研究院 | 用户反馈数据处理方法和装置 |
CN104572616B (zh) * | 2014-12-23 | 2018-04-24 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
CN104778240B (zh) * | 2015-04-08 | 2019-10-18 | 重庆理工大学 | 基于多特征融合的微博文本数据分类方法 |
CN104809232B (zh) * | 2015-05-11 | 2018-06-01 | 苏州大学 | 一种基于句子间情绪转移概率的句子级情绪分类方法 |
CN106294355A (zh) * | 2015-05-14 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种业务对象属性的确定方法及设备 |
CN105205044A (zh) * | 2015-08-26 | 2015-12-30 | 苏州大学张家港工业技术研究院 | 一种情感与非情感问题的分类方法及系统 |
WO2018182501A1 (en) * | 2017-03-30 | 2018-10-04 | Agency For Science, Technology And Research | Method and system of intelligent semtiment and emotion sensing with adaptive learning |
CN107688651B (zh) * | 2017-08-31 | 2021-11-16 | 平安科技(深圳)有限公司 | 新闻情感方向判断方法、电子设备及计算机可读存储介质 |
US11100287B2 (en) | 2018-10-30 | 2021-08-24 | International Business Machines Corporation | Classification engine for learning properties of words and multi-word expressions |
CN112883145B (zh) * | 2020-12-24 | 2022-10-11 | 浙江万里学院 | 一种面向中文评论的情感多倾向分类方法 |
CN112800233B (zh) * | 2021-04-13 | 2021-06-18 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556987B1 (en) * | 2000-05-12 | 2003-04-29 | Applied Psychology Research, Ltd. | Automatic text classification system |
CN101770580A (zh) * | 2009-01-04 | 2010-07-07 | 中国科学院计算技术研究所 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5156428B2 (ja) * | 2008-02-13 | 2013-03-06 | Kddi株式会社 | コンテンツ分類装置、プログラム、および記録媒体 |
-
2012
- 2012-05-17 CN CN2012101543326A patent/CN102682130B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556987B1 (en) * | 2000-05-12 | 2003-04-29 | Applied Psychology Research, Ltd. | Automatic text classification system |
CN101770580A (zh) * | 2009-01-04 | 2010-07-07 | 中国科学院计算技术研究所 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
Non-Patent Citations (3)
Title |
---|
JP特开2009-193239A 2009.08.27 |
一种基于情感词典和朴素贝叶斯的中文文本情感分类方法;杨鼎等;《计算机应用研究》;20101031;第27卷(第10期);第3737-3739、3743页 * |
杨鼎等.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法.《计算机应用研究》.2010,第27卷(第10期),第3737-3739、3743页. |
Also Published As
Publication number | Publication date |
---|---|
CN102682130A (zh) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102682130B (zh) | 一种文本情感分类方法及系统 | |
Harris | Detecting deceptive opinion spam using human computation | |
Kenyon-Dean et al. | Sentiment analysis: It’s complicated! | |
Abercrombie et al. | Putting sarcasm detection into context: The effects of class imbalance and manual labelling on supervised machine classification of twitter conversations | |
Smeureanu et al. | Applying supervised opinion mining techniques on online user reviews | |
Kim | Predicting L2 Writing Proficiency Using Linguistic Complexity Measures: A Corpus-Based Study. | |
CN102682124B (zh) | 一种文本的情感分类方法及装置 | |
Sehgal et al. | Sops: stock prediction using web sentiment | |
CN103631961B (zh) | 一种情感词与评价对象的关系识别方法 | |
Persing et al. | Why Can't You Convince Me? Modeling Weaknesses in Unpersuasive Arguments. | |
KR20120109943A (ko) | 문장에 내재한 감정 분석을 위한 감정 분류 방법 | |
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN103064971A (zh) | 一种基于评分和中文情感分析的垃圾评论检测方法 | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN102880600A (zh) | 基于通用知识网络的词语语义倾向性预测方法 | |
Gautam et al. | Sgg: Spinbot, grammarly and glove based fake news detection | |
Huang et al. | Chain of explanation: New prompting method to generate quality natural language explanation for implicit hate speech | |
CN103020249A (zh) | 分类器的构建方法及装置、中文文本情感分类方法及系统 | |
CN104778240A (zh) | 基于多特征融合的微博文本数据分类方法 | |
CN105183808A (zh) | 一种问题分类方法及装置 | |
Jayasanka et al. | Sentiment analysis for social media | |
Hua | Understanding BERT performance in propaganda analysis | |
Das et al. | A hybrid deep learning technique for sentiment analysis in e-learning platform with natural language processing | |
KR20130103249A (ko) | 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |