CN107423371A

CN107423371A - 一种文本正负类情感分类方法

Info

Publication number: CN107423371A
Application number: CN201710532502.2A
Authority: CN
Inventors: 李光敏; 林志伟; 王晖; 魏欣
Original assignee: Hubei Normal University
Current assignee: Hubei Normal University
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-12-01
Anticipated expiration: 2037-07-03
Also published as: CN107423371B

Abstract

本发明是一种文本正负类情感分类方法，包括步骤：对文本集合中的所有文本进行预处理，形成无噪音的正负例文本集合，对正负例文本进行unigram分词和bigram分词，并去掉停用词后，形成无重复的多维特征向量空间，对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算，最后结合已标注的正负情感类别标签，将形成的词项‑文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子，进行训练后得到最终的文本线性分类器预测模型，即可为新的未知文本进行情感分类。本发明有效利用已标注语料中的情感词先天具备分类能力的特征，提出新的计算方法来最大化这些情感词的类别区分度，提高了计算机对文本情感分类的精确度。

Description

一种文本正负类情感分类方法

技术领域

本发明涉及自然语言处理及机器学习领域，特别涉及一种文本正负类情感分类方法。

背景技术

随着互联网的飞速发展，Web文本成为交流情感、发表观点的主要载体和热点话题的信息源。用户通过社会化媒体(论坛、博客、微博)分享对所购商品的使用感受、新上映电影的评论、当前热点新闻的个人看法等，这些言论往往包含有喜、怒、哀、乐、肯定、否定、中立等个人丰富的情感和观点。正是这些包含丰富情感的Web评论文本的涌现，一方面可帮助生产厂商通过网络口碑(Electronic Word-of-mouth)了解产品优势和不足，以改进产品设计和服务，调整广告投放策略，获得市场竞争优势；另一方面可帮助消费者了解产品性能，缩短购买决策时间。如果仅靠手工对这些日益增长的海量信息进行归纳、分类，显然是不现实的。因此结合信息检索、自然语言处理、机器学习等领域知识对非结构化的文本进行提取和分类的情感分析技术(Sentiment Analysis)便应运而生。这种研究不仅帮助消费者全面、综合地了解其他消费者对产品的评价和生产厂商来获悉产品的优势以及产品性能在消费者心目中的地位和受欢迎程度，有广阔的市场应用价值，而且有助于推动自然语言处理技术在短文文本情感分析方面的进一步发展，有一定的研究价值。

TFIDF是情感分类任务中最常用的特征权重计算方法，国内外不少学者提出了各种TFIDF变体实现，包括delta TF-IDF[1]，TF-RF[2]，SentiStrength[3]，TF-KL[4]，但是这些技术方案主要存在的问题如下：1)未能有效捕获情感表达中的语义信息；2)未能反映出字词本身所携带的情感分类能力。其中Martineau and Finin提出的delta TF-IDF方案能够有效地计算字词分值并通过Support Vector Machine(支持向量机)分类器来提高文本的情感分类准确率，但是这种方式没有考虑到IDF的平滑因子，如果某个情感词没有出现在正类或负类的文本中时，就出现被零除的错误。Tam T提出的TF-RF监督式term权重计算方法有意识地提高了term在正类文本中的重要程度，对文本的正负分类起到了很好的分类效果，但是对于训练样本不足的类的term权重分配很低，这种问题在不平衡语料的分类任务中表现的尤为突出。

[1]Justin Martineau and Tim Finin.2009.Delta TFIDF:An ImprovedFeature Space for Sentiment Analysis.9(2009),106.00183.

[2]M.Lan,C.L.Tan,J.Su,and Y.Lu.2009.Supervised and Traditional TermWeighting Methods for Automatic Text Categorization.IEEE Transactions onPattern Analysis and Machine Intelligence 31,4(April 2009),721–735.

[3]Mike Thelwall,Kevan Buckley,Georgios Paltoglou,Di Cai,and ArvidKappas.2010.Sentiment Strength Detection in Short Informal Text.61,12(2010),2544–2558.00739.

[4]Tam T.Nguyen,Kuiyu Chang,and Siu Cheung Hui.2011.Supervised termweighting for sentiment analysis.In IEEE International Conference onIntelligence and Security Informatics.89–94.

发明内容

本发明的目的在于克服上述不足，提供一种文本正负类情感分类方法，解决了传统词袋语言模型仅根据情感词是否出现或出现次数的方法所带来的对文本情感分类性能的影响，提高了计算机对文本情感分类的精确度。

为实现上述技术目的，本发明提供的方案是：一种文本正负类情感分类方法，包括如下步骤。

步骤一，对文本集合中的所有文本进行预处理，形成无噪音的正负例文本集合。

步骤二，使用词袋语言模型，对正负例文本分别进行unigram分词和bigram分词，形成无重复的多维特征向量空间。

步骤三，采用参数可调化的特征权重计算方法，对多维特征向量空间中的各维特征向量进行变体词频逆文本频率计算，具体如下。

正例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前正例文本d_(j,+)中出现的总次数，tfmax(d+)表示取正例文本中的所有词项出现次数的最大值，N₊表示正例文本总数，表示所有包含词t_i的正例文本总数，+1是为了避免所有正例文本均不含词t_i而导致分母为0的情况，α表示平滑因子，是范围在0和1之间的实数值，log表示自然对数，表示词项在正类文本中的逆文档频率值。

负例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前负例文本d_(j,-)中出现的总次数，tfmax(d-)表示取负例文本中的所有词项出现次数的最大值，N_-表示负例文本总数，表示所有包含词t_i的负例文本总数，+1是为了避免所有负例文本均不含词t_i而导致分母为0的情况，表示词项在负类文本中的逆文档频率值。

步骤四，计算多维特征向量空间中第i个词在第j个文本中的特征值V(i，j)，公式为如果V(i，j)大于0，判定词t_i属于正例情感词，如果V(i，j)小于0，判定词t_i属于负例情感词，如果V(i，j)等于0，判定词t_i对文本情感的分类没有区分度，最后形成词项-文档矩阵。

步骤五，将词项-文档矩阵作为监督分类器支持向量机(LinearSVC)和逻辑回归(Logistic Regression)的输入因子，进行训练后得到最终的文本线性分类器预测模型，为新的未知文本进行情感分类。

优选的，步骤一中所述文本集合表示为D＝{d₁，d₂，…，d_m}，其中d_m表示文本集合D中第m个句子或篇章。

优选的，步骤一中所述预处理包括去掉HTML标记、标点符号、表情符号和数字。

优选的，步骤三中所述特征向量表示为V＝{υ₁，υ₂，...，υ_n}，其中V表示n个特征值所组成的特征向量，用来表示当前的文本。V_n表示特征值集合中第n个特征值。

优选的，所述平滑因子α取0.15为实验最佳值。

优选的，所述方法全部由Python语言编写实现，所使用的Scikit-Learn工具包是通用的开源机器学习工具包，与其他的机器学习工具包(如：Mahout、Shogun和Weka等)相比，它提供简单易用的API接口，同时通过对Scipy、Numpy等科学计算工具的封装，更适合用于数据分析，提高科学计算的效率。

本发明的有益效果在于：灵活结合unigram和bigram分词技术，不仅能够充分利用多词组合的词序对提升分类效果，而且避免停用词表中的否定词对分类效果的影响；充分利用已标注语料中的情感词先天具备分类能力的特征，并提出新的计算方法来最大化这些情感词的类别区分度，摒弃区分能力弱的情感词，提高分类器的学习效率，提高文本情感分类精确度的同时，还加强了分类模型的可移植性和可解释性。

具体实施方式

下面结合实施例对本发明作进一步说明。

本实施例提供一种文本正负类情感分类方法，包括如下步骤。

步骤一，对文本集合中的所有文本进行预处理，包括去掉HTML标记、标点符号、表情符号和数字，形成无噪音的正负例文本集合。所述文本集合表示为D＝{d₁，d₂，…，d_m}，其中d_m表示文本集合D中第m个句子或篇章。

正例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前正例文本d_(j,+)中出现的总次数，tfmax(d+)表示取正例文本中的所有词项出现次数的最大值，N₊表示正例文本总数，表示所有包含词t_i的正例文本总数，+1是为了避免所有正例文本均不含词t_i而导致分母为0的情况，α表示平滑因子，是范围在0和1之间的实数值，平滑因子α取0.15可获得最佳分类效果，log表示自然对数，表示词项在正类文本中的逆文档频率值。

所述特征向量表示为V＝{υ₁，υ₂，...，υ_n}，其中V表示n个特征值所组成的特征向量，用来表示当前的文本。V_n表示特征值集合中第n个特征值。

进一步的，前述方法全部由Python语言编写实现，所使用的Scikit-Learn工具包是目前通用的开源机器学习工具包，与其他的机器学习工具包(如：Mahout、Shogun和Weka等)相比，它提供简单易用的API接口，同时通过对Scipy、Numpy等科学计算工具的封装，更适合用于数据分析，提高科学计算的效率。

实验数据准备如下：Polarity Dataset V2.0语料库(RT-2k)包含1000个正类评价文本和1000个负类评价文本，每个文本属于长文本。IMDB电影评论数据集，数据集中包含25000条正类评价，25000条负类评价以及50000条未标注评价，正类评价文本和负类评价文本在训练集和测试集中各是12500条。MR电影评论数据集包含正负类评价文本各5331条，除了IMDB数据集是预先已划分训练集和测试集之外，其他数据集在试验中均采用10折交叉验证法来分析分类效果。运用本发明分类的结果和其他分类结果对比如表1所示。

表1

表1中的数据表示分类精确度，其数值越大越好，加粗的文字表示在该数据集上应用我们提出的新的特征权重计算方法后，通过当前线性分类器验证具有最佳的分类效果，可以看出本发明在三个数据集上的分类性能表现都很好。

实验证明，运用本发明提供的方法在三套影评数据集(RT-2K，IMDB，MR)上进行的文本正负类情感分类的精确度比表中所列的分类算法表现优越。

本实施例提供了一种基于变体TFIDF特征值计算的文本情感分类方法的思路，具体的特征计算、分类器选择及惩罚因子参数选择方法和途径有很多，本实施例中未明确的各组成部分均可用现有技术加以实现。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种文本正负类情感分类方法，包括如下步骤：

步骤一，对文本集合中的所有文本进行预处理，形成无噪音的正负例文本集合；

步骤二，使用词袋语言模型，对正负例文本分别进行unigram分词和bigram分词，并去掉停用词后，形成无重复的多维特征向量空间；

步骤三，采用参数可调化的特征权重计算方法，对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算，

正例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前正例文本d_(j,+)中出现的总次数，tf_max(d₊)表示取正例文本中的所有词项出现次数的最大值，N₊表示正例文本总数，表示所有包含词t_i的正例文本总数，α表示平滑因子，是范围在0和1之间的实数值，log表示自然对数；

负例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前负例文本d_(j,-)中出现的总次数，tf_max(d_-)表示取负例文本中的所有词项出现次数的最大值，N_-表示负例文本总数，表示所有包含词t_i的负例文本总数；

步骤四，计算多维特征向量空间中第i个词在第j个文本中的特征值V_(i，j)，公式为如果V_(i，j)大于0，判定词t_i属于正例情感词，如果V_(i，j)小于0，判定词t_i属于负例情感词，如果V_(i，j)等于0，判定词t_i对文本情感的分类没有区分度，最后形成词项-文档矩阵；

步骤五，将词项-文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子，进行训练后得到最终的文本线性分类器预测模型，为新的未知文本进行情感分类。

2.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：步骤一中所述文本集合表示为D＝{d₁，d₂，…，d_m}，其中d_m表示文本集合D中第m个句子或篇章。

3.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：步骤一中所述预处理包括去掉HTML标记、标点符号、表情符号和数字。

4.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：步骤三中所述特征向量表示为V＝{υ₁，υ₂，...，υ_n}，其中V表示n个特征值所组成的特征向量，用来表示当前的文本。V_n表示特征值集合中第n个特征值。

5.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：所述平滑因子α取0.15。

6.根据权利要求1～5中任一所述的一种文本正负类情感分类方法，其特征在于：所述方法全部由Python语言编写实现，所使用的Scikit-Learn工具包是通用的开源机器学习工具包。