CN107423371A - 一种文本正负类情感分类方法 - Google Patents
一种文本正负类情感分类方法 Download PDFInfo
- Publication number
- CN107423371A CN107423371A CN201710532502.2A CN201710532502A CN107423371A CN 107423371 A CN107423371 A CN 107423371A CN 201710532502 A CN201710532502 A CN 201710532502A CN 107423371 A CN107423371 A CN 107423371A
- Authority
- CN
- China
- Prior art keywords
- text
- positive
- word
- negative
- represent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种文本正负类情感分类方法,包括步骤:对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合,对正负例文本进行unigram分词和bigram分词,并去掉停用词后,形成无重复的多维特征向量空间,对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算,最后结合已标注的正负情感类别标签,将形成的词项‑文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子,进行训练后得到最终的文本线性分类器预测模型,即可为新的未知文本进行情感分类。本发明有效利用已标注语料中的情感词先天具备分类能力的特征,提出新的计算方法来最大化这些情感词的类别区分度,提高了计算机对文本情感分类的精确度。
Description
技术领域
本发明涉及自然语言处理及机器学习领域,特别涉及一种文本正负类情感分类方法。
背景技术
随着互联网的飞速发展,Web文本成为交流情感、发表观点的主要载体和热点话题的信息源。用户通过社会化媒体(论坛、博客、微博)分享对所购商品的使用感受、新上映电影的评论、当前热点新闻的个人看法等,这些言论往往包含有喜、怒、哀、乐、肯定、否定、中立等个人丰富的情感和观点。正是这些包含丰富情感的Web评论文本的涌现,一方面可帮助生产厂商通过网络口碑(Electronic Word-of-mouth)了解产品优势和不足,以改进产品设计和服务,调整广告投放策略,获得市场竞争优势;另一方面可帮助消费者了解产品性能,缩短购买决策时间。如果仅靠手工对这些日益增长的海量信息进行归纳、分类,显然是不现实的。因此结合信息检索、自然语言处理、机器学习等领域知识对非结构化的文本进行提取和分类的情感分析技术(Sentiment Analysis)便应运而生。这种研究不仅帮助消费者全面、综合地了解其他消费者对产品的评价和生产厂商来获悉产品的优势以及产品性能在消费者心目中的地位和受欢迎程度,有广阔的市场应用价值,而且有助于推动自然语言处理技术在短文文本情感分析方面的进一步发展,有一定的研究价值。
TFIDF是情感分类任务中最常用的特征权重计算方法,国内外不少学者提出了各种TFIDF变体实现,包括delta TF-IDF[1],TF-RF[2],SentiStrength[3],TF-KL[4],但是这些技术方案主要存在的问题如下:1)未能有效捕获情感表达中的语义信息;2)未能反映出字词本身所携带的情感分类能力。其中Martineau and Finin提出的delta TF-IDF方案能够有效地计算字词分值并通过Support Vector Machine(支持向量机)分类器来提高文本的情感分类准确率,但是这种方式没有考虑到IDF的平滑因子,如果某个情感词没有出现在正类或负类的文本中时,就出现被零除的错误。Tam T提出的TF-RF监督式term权重计算方法有意识地提高了term在正类文本中的重要程度,对文本的正负分类起到了很好的分类效果,但是对于训练样本不足的类的term权重分配很低,这种问题在不平衡语料的分类任务中表现的尤为突出。
[1]Justin Martineau and Tim Finin.2009.Delta TFIDF:An ImprovedFeature Space for Sentiment Analysis.9(2009),106.00183.
[2]M.Lan,C.L.Tan,J.Su,and Y.Lu.2009.Supervised and Traditional TermWeighting Methods for Automatic Text Categorization.IEEE Transactions onPattern Analysis and Machine Intelligence 31,4(April 2009),721–735.
[3]Mike Thelwall,Kevan Buckley,Georgios Paltoglou,Di Cai,and ArvidKappas.2010.Sentiment Strength Detection in Short Informal Text.61,12(2010),2544–2558.00739.
[4]Tam T.Nguyen,Kuiyu Chang,and Siu Cheung Hui.2011.Supervised termweighting for sentiment analysis.In IEEE International Conference onIntelligence and Security Informatics.89–94.
发明内容
本发明的目的在于克服上述不足,提供一种文本正负类情感分类方法,解决了传统词袋语言模型仅根据情感词是否出现或出现次数的方法所带来的对文本情感分类性能的影响,提高了计算机对文本情感分类的精确度。
为实现上述技术目的,本发明提供的方案是:一种文本正负类情感分类方法,包括如下步骤。
步骤一,对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合。
步骤二,使用词袋语言模型,对正负例文本分别进行unigram分词和bigram分词,形成无重复的多维特征向量空间。
步骤三,采用参数可调化的特征权重计算方法,对多维特征向量空间中的各维特征向量进行变体词频逆文本频率计算,具体如下。
正例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前正例文本d(j,+)中出现的总次数,tfmax(d+)表示取正例文本中的所有词项出现次数的最大值,N+表示正例文本总数,表示所有包含词ti的正例文本总数,+1是为了避免所有正例文本均不含词ti而导致分母为0的情况,α表示平滑因子,是范围在0和1之间的实数值,log表示自然对数,表示词项在正类文本中的逆文档频率值。
负例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前负例文本d(j,-)中出现的总次数,tfmax(d-)表示取负例文本中的所有词项出现次数的最大值,N-表示负例文本总数,表示所有包含词ti的负例文本总数,+1是为了避免所有负例文本均不含词ti而导致分母为0的情况,表示词项在负类文本中的逆文档频率值。
步骤四,计算多维特征向量空间中第i个词在第j个文本中的特征值V(i,j),公式为如果V(i,j)大于0,判定词ti属于正例情感词,如果V(i,j)小于0,判定词ti属于负例情感词,如果V(i,j)等于0,判定词ti对文本情感的分类没有区分度,最后形成词项-文档矩阵。
步骤五,将词项-文档矩阵作为监督分类器支持向量机(LinearSVC)和逻辑回归(Logistic Regression)的输入因子,进行训练后得到最终的文本线性分类器预测模型,为新的未知文本进行情感分类。
优选的,步骤一中所述文本集合表示为D={d1,d2,…,dm},其中dm表示文本集合D中第m个句子或篇章。
优选的,步骤一中所述预处理包括去掉HTML标记、标点符号、表情符号和数字。
优选的,步骤三中所述特征向量表示为V={υ1,υ2,...,υn},其中V表示n个特征值所组成的特征向量,用来表示当前的文本。Vn表示特征值集合中第n个特征值。
优选的,所述平滑因子α取0.15为实验最佳值。
优选的,所述方法全部由Python语言编写实现,所使用的Scikit-Learn工具包是通用的开源机器学习工具包,与其他的机器学习工具包(如:Mahout、Shogun和Weka等)相比,它提供简单易用的API接口,同时通过对Scipy、Numpy等科学计算工具的封装,更适合用于数据分析,提高科学计算的效率。
本发明的有益效果在于:灵活结合unigram和bigram分词技术,不仅能够充分利用多词组合的词序对提升分类效果,而且避免停用词表中的否定词对分类效果的影响;充分利用已标注语料中的情感词先天具备分类能力的特征,并提出新的计算方法来最大化这些情感词的类别区分度,摒弃区分能力弱的情感词,提高分类器的学习效率,提高文本情感分类精确度的同时,还加强了分类模型的可移植性和可解释性。
具体实施方式
下面结合实施例对本发明作进一步说明。
本实施例提供一种文本正负类情感分类方法,包括如下步骤。
步骤一,对文本集合中的所有文本进行预处理,包括去掉HTML标记、标点符号、表情符号和数字,形成无噪音的正负例文本集合。所述文本集合表示为D={d1,d2,…,dm},其中dm表示文本集合D中第m个句子或篇章。
步骤二,使用词袋语言模型,对正负例文本分别进行unigram分词和bigram分词,形成无重复的多维特征向量空间。
步骤三,采用参数可调化的特征权重计算方法,对多维特征向量空间中的各维特征向量进行变体词频逆文本频率计算,具体如下。
正例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前正例文本d(j,+)中出现的总次数,tfmax(d+)表示取正例文本中的所有词项出现次数的最大值,N+表示正例文本总数,表示所有包含词ti的正例文本总数,+1是为了避免所有正例文本均不含词ti而导致分母为0的情况,α表示平滑因子,是范围在0和1之间的实数值,平滑因子α取0.15可获得最佳分类效果,log表示自然对数,表示词项在正类文本中的逆文档频率值。
负例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前负例文本d(j,-)中出现的总次数,tfmax(d-)表示取负例文本中的所有词项出现次数的最大值,N-表示负例文本总数,表示所有包含词ti的负例文本总数,+1是为了避免所有负例文本均不含词ti而导致分母为0的情况,表示词项在负类文本中的逆文档频率值。
所述特征向量表示为V={υ1,υ2,...,υn},其中V表示n个特征值所组成的特征向量,用来表示当前的文本。Vn表示特征值集合中第n个特征值。
步骤四,计算多维特征向量空间中第i个词在第j个文本中的特征值V(i,j),公式为如果V(i,j)大于0,判定词ti属于正例情感词,如果V(i,j)小于0,判定词ti属于负例情感词,如果V(i,j)等于0,判定词ti对文本情感的分类没有区分度,最后形成词项-文档矩阵。
步骤五,将词项-文档矩阵作为监督分类器支持向量机(LinearSVC)和逻辑回归(Logistic Regression)的输入因子,进行训练后得到最终的文本线性分类器预测模型,为新的未知文本进行情感分类。
进一步的,前述方法全部由Python语言编写实现,所使用的Scikit-Learn工具包是目前通用的开源机器学习工具包,与其他的机器学习工具包(如:Mahout、Shogun和Weka等)相比,它提供简单易用的API接口,同时通过对Scipy、Numpy等科学计算工具的封装,更适合用于数据分析,提高科学计算的效率。
实验数据准备如下:Polarity Dataset V2.0语料库(RT-2k)包含1000个正类评价文本和1000个负类评价文本,每个文本属于长文本。IMDB电影评论数据集,数据集中包含25000条正类评价,25000条负类评价以及50000条未标注评价,正类评价文本和负类评价文本在训练集和测试集中各是12500条。MR电影评论数据集包含正负类评价文本各5331条,除了IMDB数据集是预先已划分训练集和测试集之外,其他数据集在试验中均采用10折交叉验证法来分析分类效果。运用本发明分类的结果和其他分类结果对比如表1所示。
表1
表1中的数据表示分类精确度,其数值越大越好,加粗的文字表示在该数据集上应用我们提出的新的特征权重计算方法后,通过当前线性分类器验证具有最佳的分类效果,可以看出本发明在三个数据集上的分类性能表现都很好。
实验证明,运用本发明提供的方法在三套影评数据集(RT-2K,IMDB,MR)上进行的文本正负类情感分类的精确度比表中所列的分类算法表现优越。
本实施例提供了一种基于变体TFIDF特征值计算的文本情感分类方法的思路,具体的特征计算、分类器选择及惩罚因子参数选择方法和途径有很多,本实施例中未明确的各组成部分均可用现有技术加以实现。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也应视为本发明的保护范围。
Claims (6)
1.一种文本正负类情感分类方法,包括如下步骤:
步骤一,对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合;
步骤二,使用词袋语言模型,对正负例文本分别进行unigram分词和bigram分词,并去掉停用词后,形成无重复的多维特征向量空间;
步骤三,采用参数可调化的特征权重计算方法,对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算,
正例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前正例文本d(j,+)中出现的总次数,tfmax(d+)表示取正例文本中的所有词项出现次数的最大值,N+表示正例文本总数,表示所有包含词ti的正例文本总数,α表示平滑因子,是范围在0和1之间的实数值,log表示自然对数;
负例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前负例文本d(j,-)中出现的总次数,tfmax(d-)表示取负例文本中的所有词项出现次数的最大值,N-表示负例文本总数,表示所有包含词ti的负例文本总数;
步骤四,计算多维特征向量空间中第i个词在第j个文本中的特征值V(i,j),公式为如果V(i,j)大于0,判定词ti属于正例情感词,如果V(i,j)小于0,判定词ti属于负例情感词,如果V(i,j)等于0,判定词ti对文本情感的分类没有区分度,最后形成词项-文档矩阵;
步骤五,将词项-文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子,进行训练后得到最终的文本线性分类器预测模型,为新的未知文本进行情感分类。
2.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:步骤一中所述文本集合表示为D={d1,d2,…,dm},其中dm表示文本集合D中第m个句子或篇章。
3.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:步骤一中所述预处理包括去掉HTML标记、标点符号、表情符号和数字。
4.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:步骤三中所述特征向量表示为V={υ1,υ2,...,υn},其中V表示n个特征值所组成的特征向量,用来表示当前的文本。Vn表示特征值集合中第n个特征值。
5.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:所述平滑因子α取0.15。
6.根据权利要求1~5中任一所述的一种文本正负类情感分类方法,其特征在于:所述方法全部由Python语言编写实现,所使用的Scikit-Learn工具包是通用的开源机器学习工具包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710532502.2A CN107423371B (zh) | 2017-07-03 | 2017-07-03 | 一种文本正负类情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710532502.2A CN107423371B (zh) | 2017-07-03 | 2017-07-03 | 一种文本正负类情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423371A true CN107423371A (zh) | 2017-12-01 |
CN107423371B CN107423371B (zh) | 2020-09-08 |
Family
ID=60426855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710532502.2A Expired - Fee Related CN107423371B (zh) | 2017-07-03 | 2017-07-03 | 一种文本正负类情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423371B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228569A (zh) * | 2018-01-30 | 2018-06-29 | 武汉理工大学 | 一种基于松散条件下协同学习的中文微博情感分析方法 |
CN108615124A (zh) * | 2018-05-11 | 2018-10-02 | 北京窝头网络科技有限公司 | 基于词频分析的企业评价方法及系统 |
CN109299357A (zh) * | 2018-08-31 | 2019-02-01 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
CN109873755A (zh) * | 2019-03-02 | 2019-06-11 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN110362807A (zh) * | 2018-03-26 | 2019-10-22 | 中国科学院信息工程研究所 | 基于自编码器的变体词识别方法及系统 |
CN111723179A (zh) * | 2020-05-26 | 2020-09-29 | 湖北师范大学 | 基于概念图谱的反馈模型信息检索方法、系统及介质 |
CN113743980A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 一种广告投放调整方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060149558A1 (en) * | 2001-07-17 | 2006-07-06 | Jonathan Kahn | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN105183717A (zh) * | 2015-09-23 | 2015-12-23 | 东南大学 | 一种基于随机森林和用户关系的osn用户情感分析方法 |
-
2017
- 2017-07-03 CN CN201710532502.2A patent/CN107423371B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060149558A1 (en) * | 2001-07-17 | 2006-07-06 | Jonathan Kahn | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN105183717A (zh) * | 2015-09-23 | 2015-12-23 | 东南大学 | 一种基于随机森林和用户关系的osn用户情感分析方法 |
Non-Patent Citations (1)
Title |
---|
宋佳颖: ""基于词语情感隶属度特征的情感极性分类"", 《北京大学学报(自然科学版)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228569A (zh) * | 2018-01-30 | 2018-06-29 | 武汉理工大学 | 一种基于松散条件下协同学习的中文微博情感分析方法 |
CN110362807A (zh) * | 2018-03-26 | 2019-10-22 | 中国科学院信息工程研究所 | 基于自编码器的变体词识别方法及系统 |
CN108615124A (zh) * | 2018-05-11 | 2018-10-02 | 北京窝头网络科技有限公司 | 基于词频分析的企业评价方法及系统 |
CN108615124B (zh) * | 2018-05-11 | 2022-02-01 | 北京窝头网络科技有限公司 | 基于词频分析的企业评价方法及系统 |
CN109299357A (zh) * | 2018-08-31 | 2019-02-01 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
CN109299357B (zh) * | 2018-08-31 | 2022-04-12 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
CN109873755A (zh) * | 2019-03-02 | 2019-06-11 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN109873755B (zh) * | 2019-03-02 | 2021-01-01 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN111723179A (zh) * | 2020-05-26 | 2020-09-29 | 湖北师范大学 | 基于概念图谱的反馈模型信息检索方法、系统及介质 |
CN111723179B (zh) * | 2020-05-26 | 2023-07-07 | 湖北师范大学 | 基于概念图谱的反馈模型信息检索方法、系统及介质 |
CN113743980A (zh) * | 2021-07-29 | 2021-12-03 | 深圳市东信时代信息技术有限公司 | 一种广告投放调整方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107423371B (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423371A (zh) | 一种文本正负类情感分类方法 | |
CN108763326B (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
Taj et al. | Sentiment analysis of news articles: a lexicon based approach | |
CN107862343B (zh) | 基于规则和神经网络的商品评论属性级情感分类方法 | |
Bramsen et al. | Extracting social power relationships from natural language | |
Ortega et al. | SSA-UO: unsupervised Twitter sentiment analysis | |
Fattah | New term weighting schemes with combination of multiple classifiers for sentiment analysis | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN107908715A (zh) | 基于Adaboost和分类器加权融合的微博情感极性判别方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN110728153A (zh) | 基于模型融合的多类别情感分类方法 | |
Zhang et al. | Sentiment classification for Chinese reviews using machine learning methods based on string kernel | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
Dou et al. | Improving word embeddings for antonym detection using thesauri and sentiwordnet | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Saggionα et al. | Interpreting SentiWordNet for opinion classification | |
CN107818173A (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
Kumar et al. | NITP-AI-NLP@ Dravidian-CodeMix-FIRE2020: A Hybrid CNN and Bi-LSTM Network for Sentiment Analysis of Dravidian Code-Mixed Social Media Posts. | |
Pimpalkar et al. | Evaluation of tweets for content analysis using machine learning models | |
KR20110044112A (ko) | 상품 속성별 리뷰의 마이닝을 위한 패턴 데이터베이스의 반자동적인 구축 방법 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
Sun | Research on product attribute extraction and classification method for online review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200908 Termination date: 20210703 |
|
CF01 | Termination of patent right due to non-payment of annual fee |