CN103116637A

CN103116637A - 一种面向中文Web评论的文本情感分类方法

Info

Publication number: CN103116637A
Application number: CN 201310050250
Authority: CN
Inventors: 李千目; 倪铭; 印杰; 侯君
Original assignee: JIANGSU POLICE INSTITUTE; Wuxi Nanligong Technology Development Co Ltd
Current assignee: JIANGSU POLICE INSTITUTE; Wuxi Nanligong Technology Development Co Ltd
Priority date: 2013-02-08
Filing date: 2013-02-08
Publication date: 2013-05-22

Abstract

本发明属于数据处理技术领域，公开了一种面向中文Web评论的文本情感分类方法。本发明包括训练过程和分类过程，训练过程为：训练文本预处理→特征选择→文本的向量化表示→训练分类器；分类过程为：测试文本预处理→特征选择→分类器分类→输出分类结果。本方法在原始文档分类方法的基础上加入使用文档频率（DF）、信息增益（IG）以及建立否定词、程度副词和动态情感词的情感词典判别各特征中文词语的情感倾向进行选取特征词、计算特征权值并构建特征向量，并使用NaiveBayes分类算法来训练得到分类器，对文本进行情感分类，为使用者提供有效的数据挖掘从而进行分析处理。

Description

一种面向中文 Web 评论的文本情感分类方法

技术领域

本发明属于数据处理技术领域，具体地涉及一种面向中文Web评论的文本情感分类方法。

背景技术

文本作为一种重要的信息交互媒介，主要的功能是传情达意，基于内容的研究已经很成熟，近些年来越来越多的研究开始集中到“传情”上即情感分析，主要的研究内容包括词语的语义倾向识别、基于情感的文本分类、观点提取、主观性分析等。对一篇文档而言，能对其语义倾向起到决定性作用的主要是构成这篇文档所用的词语。所以，对文本进行基于情感的文本分类的基础是判定词的语义倾向。但是目前，不论是英语还是汉语，都没有一个完整的涵盖词语语义倾向的词典，也不可能有这样的一个完备的词典，因为很多的词语在不同语境中它的语义倾向也不尽相同。Hatzivassiloglou等根据词语之间关系来判定其语义倾向，他们注意到形容词的语义倾向受连接它们的连接词“and”、“but”等约束，知道其中一个词的语义倾向，就可以推测出另一个。如“excellent and X”，可以推测X也是褒义的。根据语言学上连接词对语义倾向约束性的分析，他们提出了一种四步法的有监督学习算法来判断一个形容词的语义倾向。Turney在其论文中介绍了两种利用词语与具有明显语义倾向的种子词语之间统计关系来自动识别词语语义倾向的方法: PMI2IR和LSA。Esuli 通过对一个词语的注释(从词典中获得)进行训练和分类，从而判断其他词语的语义倾向。

基于情感的文本分类研究大多是通过统计正面或负面语义倾向的词语特征数目来对文本进行分类。如Turney就使用一无指导学习方法，利用前面提到的PMI2IR方法计算出文本中出现的符合规则的短语的语义倾向，通过对文档中所有短语的语义倾向的平均值的正负来判断文档描述的对象是否值得推荐。PangBo最早利用机器学习方法来解决基于情感的文本分类问题，应用朴素贝叶斯、最大熵、SVM对电影评论进行分类。SVM在几种分类方法中效果最好，分类准确率最高达到约80%。

事实上，对一篇文章而言，它表达的情感的正面或负面是通过主观语句体现出来的，如“产品质量好!”。但是像“它的售价刚好是50元!”这样的客观语句，虽然有“好”这一特征词，但并不应该能起到任何作用。但是如果能区分一篇文章中的主观语句和客观语句，只对主观语句进行特征选择，会对分类的准确率有很大提高。Bruce、Wiebe等利用贝叶斯分类器对句子的主客观性进行分类。PangBo把主客观语句分类转换成求图的最小截问题，实现一个Cut2based分类器，对主客观语句进行分类。

近年，基于情感的文本分类逐渐被应用到更多的领域中。例如，微软公司开发的商业智能系统Pulse，它能够从大量的评论文本数据中，利用文本聚类技术提取出用户对产品细节的看法;产品信息反馈系统OpinionObserver，利用网络上丰富的顾客评论资源，对评论的主观内容进行分析处理，提取产品各个特征及消费者对其的评价，并给出一个可视化结果；Sanjiv从网络上的股评信息中获取某只股票的市场评价，对股票的价格进行预测。

中文的基于情感的文本分类研究还不是很多。基于HowNet，朱嫣岚在其论文中提出了两种词语语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。Yuen通过计算词语和具有强烈感情色彩的语素或单个汉字之间在LI2VAC文集上的统计关系来判定词语语义倾向。T’sou利用词语的语义倾向来计算新闻文本的语义倾向，衡量公众对名人的评价。

发明内容

1、本发明的目的。

本发明的目的在于提出一种面向中文Web评论的文本情感分类方法，有效地应用于中文评论文本的情感分析。

2、本发明所采用的技术方案

1.一种面向中文Web评论的文本情感分类方法，整个过程可分为两个部分：训练过程和分类过程；

训练过程按照以下步骤进行：

步骤一、训练文本预处理；

步骤二、特征选择：用频数等统计量来计算文本中的词条在类别中的分布情况，经过特征选择，得到该类别的局部特征，所有类别的局部特征词集合的并集构成训练集的全局特征词集合；

步骤三、文本的向量化表示：将每个类别映射到全局特征词集合上，进行向量化表示，便可得到类别的特征向量，特征向量包括权重和特征词个数；

步骤四、训练分类器。

分类过程按照以下步骤进行：

测试文本预处理→特征选择→分类器分类→输出分类结果，具体处理如下:

步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量；

步骤二、特征选择；

步骤三、分类器分类：选择相应的分类方法，计算待测文本向量和类别向量之间的相似度，相似度值最大的类别就是待测样本最终的分类；

步骤四、输出分类结果。

优选的，所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。

优选的，所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重，将所有评论文本表示为向量。

优选的，所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。

优选的，所述的特征选择方法和权重计算方法如下：

步骤一、使用文档频率的方法对文档进行初步特征选择，并计算各特征的权重，即文档频率。

步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性，在特征词的文档频率的统计过程中，运用混合单词特征，否定词特征，情感修饰特征，情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重。

步骤三、通过信息增益的方法筛选出对文档情感倾向影响较大的特征词，设定一个阈值，从原始特征空间中移除低于特定阈值的词条，保留高于阈值的词条作为表示文档的特征。

3、本发明的有益效果。

本发明提出了一种面向中文Web评论的文本情感分类方法，通过训练过程和分类过程将文本情感进行有效的分类，为使用者提供有效的数据挖掘从而进行分析处理。

附图说明

图1是文本分类流程图。

图2是文本预处理流程图。

具体实施方式

实施例1

文本情感分类的总体过程如图1所示。整个过程可分为两个部分：训练过程和分类过程。

训练过程的基本流程为：训练文本预处理→特征选择→文本的向量化表示→训练分类器。具体处理如下:

1、给定经过人工分类的训练文本集

，对其进行一些预处理，如中文分词，停用词过滤等。

2、用频数等统计量来计算文本中的词条在类别中的分布情况，经过特征选择，得到该类别的局部特征.设所选特征词的集合

，其中

为类别

中的第个特征词，

表示该类别的特征词总数。所有类别的局部特征词集合的并集

构成训练集的全局特征词集合

。

3、将每个类别映射到

上，进行向量化表示，便可得到类别的特征向量

，其中

表示全局特征词

在类别

中的权重（用某一特征权重计算方法得到），n表示中的特征词个数。

分类过程的基本流程为：测试文本预处理→特征选择→分类器分类→输出分类结果。具体处理如下:

1、将测试文本

化成特征空间

上的特征向量，得到特征向量

，其中，

表示特征词

在文本的权重。

2、选择相应的分类方法，计算待测文本向量和类别向量之间的相似度，相似度值最大的类别就是待测样本最终的分类。

整个过程中，关键问题有以下几点：文本预处理、特征选择、文本的向量化表示和分类器的选取。根据文本分类流程，本方法步骤如下：

1、使用中文分词器、去除停用词等文本预处理方法对评论数据集进行预处理；

2、通过一定的特征选择方法和权重计算方法选择特征以及计算特征权重，将所有评论文本表示为向量；

3、通过手工标注褒贬类别(正面和负面)的评论文本对NaiveBayes分类器进行训练；

4、在允许一定误差的情况下，使用训练好的分类器实现评论的情感分析。

在上述步骤2中的特征选择方法和权重计算方法如下：

1、使用文档频率（DF）的方法对文档进行初步特征选择，并计算各特征的权重，即文档频率。

2、针对中文词组、语句在不同环境下情感倾向不同的特殊性，在特征词的文档频率的统计过程中，运用混合单词特征，否定词特征，情感修饰特征，情感转移特征等各类句法特征的情感分析方法来动态改变特征值的词性或者特征的权重。

3、通过信息增益（IG）的方法筛选出对文档情感倾向影响较大的特征词，设定一个阈值，从原始特征空间中移除低于特定阈值的词条，保留高于阈值的词条作为表示文档的特征。

实施例2、向量空间模型

向量空间模型（Vector Space Model，VSM）,由哈佛大学的Salton等人在1975提出,并首先作为一种索引方式得到应用。

VSM的基本思想是用词袋（Bag of words，Bow）表示文本，每个词条作为特征空间坐标系的一维，将文本看作特征空间的一个向量，用两个向量之间的夹角来衡量两个文本之间的相似度。

在VSM中，每篇文档被映射到一组规范正交化特征向量张成的向量空间中的一个点。假设由n个特征项词条组成的集合为F=(t1,t2,…,tn)，则文档试形式化为n维空间的一个向量di=(wi1,wi2,…,wik,…,win)，wik表示di的第k个特征项词条tk的权重。向量每一维的值表示了特征项在文档中的权重，用以刻画该特征项在描述此文档内容时所起作用的重要程度，权值越大，表示该特征项在文档中的分量越重，即该特征项越能反映试的内容。

二、文档频率

文档频率（Document Frequency，DF）指词条t在训练语料中出现该词条的文档数。文档频率通过设置阀值去掉了低频词，当低频词为噪音时，的确可提高分类效果，但低频词也可能带有很大信息量，这时直接去掉低频词会损失一部分特征，会影响分类效果。但是文档频率方法具有实现简单、算法复杂度低等优点，能够胜任大规模的分类任务。

三、信息增益

信息增益（Information Gain，IG）通常指该特征在文本中出现前后的信息嫡之差，用来衡量特征中包含的类别信息。对于词条t和文档类别c，IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益。我们采用如下的定义式：

其中表示

类文档在语料中出现的概率，

表示语料中包含词条

的文档的概率，

表示文档包含词条

时属于

类的条件概率，

表示语料中不包含词条

的文档的概率，

表示文档不包含词条

时属于

的条件概率，C表示类别数。

本次实验对在语料中出现的每个词条计算其信息增益值，从原始特征空间中移除低于特定阀值的词条，保留高于阀值的词条作为表示文档的特征。IG不但考虑了类别信息，而且考虑了低频词对分类结果的影响，因此一般情况下分类效果较好。

四、NaïveBayes分类器

NaïveBayes分类器是一种概率分类器，它利用类别的先验概率和特征分布相对于类别的条件概率来计算未知文档属于某一类别的概率。假设文档中特征分布相互独立，NaïveBayes分类器用数学形式来表示，即：

对于不同的类别,上式的分母不变，故只要选择使得分子最大的类别,即认为是待分类文档的目标类别。通过对训练样本的学习，得到

和

的估计：

NaïveBayes分类器最根本的特点是假设文档中词语的出现是互相独立的，这样的概率方法很简单但确是一种有效的文本分类方法。基于情感的文本分类同样采用文本向量空间模型来表示一个文档，表示为属性值形式，因此可以应用NaïveBayes分类器，一个文档正负面分类就是该文档中的词语在此处被观察到的概率最大的分类。

五、构建词典

加载常用评价字典、否定字典、程度字典。建立如下情感字典：

领域常用评价字典：因为不同的领域有不同的情感字典，领域情感字典的建立需要大量的资源，目前系统只包含宾馆酒店常用评价词，日后逐步建立相关领域结构体系，完善对应评价字典。

否定字典：文本的情感倾向主要取决于其中的情感词，但是如果仅仅根据情感词来判断是不够的，因为有时候情感词在文本跟其他一些词搭配会表现出与原倾向截然相反的倾向。例：“该房间采光不好”，这个例子中含有情感词“好”，从情感词词典中可以判断该词为褒义，仅从情感词角度分析就会得出文本为褒义，但是由于前面有修饰词“不”，表示的是否定的转义，所以句子最终倾向应为贬义。由此可知在构建特征权值是，需要对出现此类情况的词和词组进行单独考虑。本方法的否定词词典是通过HowNet和人工整理获得的，在HowNet词典中寻找含有否定意义的义原，例如:{neg|否}、{deny|否认}、{impossible|不会}等，通过这些义原，查询到含有否定意义的否定词，并结合数据集评论文本出现频率较高的否定词，经过人工整理得到了以下的否定副词辞典：不、没、没有、不用、甭、未、勿、休、否、否认、不必、不够、无、非、不是、并非、失、免、缺等。

程度字典：基于Hownet提供的中文情感分析用词语集中的程度级别词语表，其包含6个程度级别的程度词共219个，经过人工过滤和调整，保留原来的4个级别分类，减少了生僻字词，只保留最常用的程度词114 个，程度词级别及其自定义强度如表1所示。

表1 程度副词

六、构建特征向量

1、文本预处理，流程如图2所示，过程如下：

（1）分词。使用中科院ICTCLAS2011分词器对文本进行中文分词，并进行词性标注。

（2）停用词过滤。首先利用ICTCIAS分词系统的词性标注，通过词性筛选过滤掉文本中大部分无意义词条，来达到初次降低词语维数的目的；然后利用通过总结得到的针对中文Web评论特征的停用词表，进一步过滤文本中的停用词。

2、特征选择并构建向量，过程如下：

（1）将经过预处理的文本按照词组统计各词组的文档频率，在统计的过程中，根据构建的词典对每个词组进行情感倾向判断，并根据不同的情感倾向以及可能对文本最终情感分类的影响改变该特征词组的权值。方法为：若该词组为否定词，则将下一个词组与该词组连接成一个新的词组作为一个特征词组，这样即可将类似“不好”、“不错”、“不便宜”等词的原意表示在特征词中。若该词组为程度词，则改变下一个词组的权值，将下一次词组的权重值乘上该程度词的强度值作为新的权重。

（2）计算各特征权值的信息增益值（IG），设定特定的阈值，从原始特征向量中移除低于特定阀值的词条，保留高于阀值的词条作为表示文档的特征。

上述实施例不以任何方式限制本发明，凡是采用等同替换或等效变换的方式获得的技术方案均落在本发明的保护范围内。

Claims

1.一种面向中文Web评论的文本情感分类方法，其特征在于：整个过程可分为两个部分：训练过程和分类过程；

训练过程按照以下步骤进行：

步骤一、训练文本预处理；

步骤四、训练分类器；

分类过程按照以下步骤进行：

测试文本预处理→特征选择→分类器分类→输出分类结果；具体处理如下:

步骤二、特征选择；

步骤四、输出分类结果。

2.根据权利要求1所述的面向中文Web评论的文本情感分类方法，其特征在于：所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。

3.根据权利要求1或2所述的面向中文Web评论的文本情感分类方法，其特征在于：所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重，将所有评论文本表示为向量。

4.根据权利要求1所述的面向中文Web评论的文本情感分类方法，其特征在于：所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。

5.根据权利要求3所述的面向中文Web评论的文本情感分类方法，其特征在于：所述的特征选择方法和权重计算方法如下：

步骤一、使用文档频率的方法对文档进行初步特征选择，并计算各特征的权重，即文档频率；

步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性，在特征词的文档频率的统计过程中，运用混合单词特征，否定词特征，情感修饰特征，情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重；