CN112667817B - 一种基于轮盘赌属性选择的文本情感分类集成系统 - Google Patents

一种基于轮盘赌属性选择的文本情感分类集成系统 Download PDF

Info

Publication number
CN112667817B
CN112667817B CN202011640409.1A CN202011640409A CN112667817B CN 112667817 B CN112667817 B CN 112667817B CN 202011640409 A CN202011640409 A CN 202011640409A CN 112667817 B CN112667817 B CN 112667817B
Authority
CN
China
Prior art keywords
word
text
roulette
feature
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011640409.1A
Other languages
English (en)
Other versions
CN112667817A (zh
Inventor
张忠良
张晨玥
雒兴刚
蔡灵莎
苑嘉航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011640409.1A priority Critical patent/CN112667817B/zh
Publication of CN112667817A publication Critical patent/CN112667817A/zh
Application granted granted Critical
Publication of CN112667817B publication Critical patent/CN112667817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:S1:获取在线文本和对应的情感类别数据;S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;S6:集成后的系统通过聚合策略得到情感类别预测结果。本发明可以有效解决多分类问题模型复杂,难于求解的问题。

Description

一种基于轮盘赌属性选择的文本情感分类集成系统
技术领域
本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统。
背景技术
随着信息技术和移动通讯技术的飞速发展,上网的人越来越多。据统计,全球已有超过46亿互联网用户,互联网用户数量继续快速增长。很多互联网用户会在各种网站上发布在线文本来表达他们对社会问题的意见,分享他们对产品或服务的体验。这些在线文本所代表的人们的态度可以对政府、公司的决策产生较大的影响。因此,分析在线文本的情感类别是一件有意义的事情。
为了处理浩如烟海的在线文本,我们采用数据挖掘的方式对在线文本进行处理和分类。但原始文本中所含的信息量过于庞大,内容太多冗杂,需要从中提取出更有用的关键词以更好的分析相应的情感信息。文本的情感分类最常用的是正向和负向的两分类,但这在实际应用之中过于绝对,不适合对人类复杂的情感进行简单而过于绝对的判断。因此多类别文本情感分类对文本更具有实际意义。然而人类的情感复杂多样,所撰写的文本内所包含的情感也涉及到多个类别。现有的分类器在处理多分类问题时往往不能获得预期的效果。将复杂的多分类问题分解成多个一对一的子问题进行处理是数据挖掘领域针对解决多分类问题的有效途径。而对于单个问题,集成学习通过构建并结合多个分类器来完成分类任务,通常可以获得比单一分类器显著优越的性能。
综上所述,本发明利用数据挖掘技术结合文本情感分类系统,将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类问题,然后对每个子问题分别建立多个分类器进行集成,接着采用聚合策略,如投票法、加权投票法,将两类分类器组合成多分类器,提出了一种基于轮盘赌属性选择的文本情感分类集成系统。
发明内容
为了解决上述技术问题,本发明设计了一种基于轮盘赌属性选择的文本情感分类集成系统。
为实现以上技术目的,本发明采用以下技术方案::
一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果。
进一步的,步骤S1包括有:选定研究对象,获取相应的在线文本内容和对应的情感类别标签。
进一步地,步骤S2包括以下步骤:
S21:使用词袋法将获取的在线文本内容转化成特征向量;
S22:使用统计方法进行预处理,如使用词频-逆向文件频率(TF-IDF)等方法,TF-IDF的计算方法为:
Figure BDA0002879907720000021
Figure BDA0002879907720000022
TF-IDF=TF*IDF (3)
统计方法通过评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,以得到便于处理的特征向量。
进一步地,步骤S3将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为
Figure BDA0002879907720000023
个一对一问题。
进一步地,步骤S4包括以下步骤:
S41:对每个一对一问题,计算每个词的信息增益(information gain,IG),IG的计算方法为:
Figure BDA0002879907720000024
其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
因此对于系统中所含变量类别C(可能取值为C1,C2,……,Cn,n为类别总数)来说,分类系统的熵就能够表示为:
Figure BDA0002879907720000025
其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
Figure BDA0002879907720000026
由此可得固定词T时系统的条件熵为:
Figure BDA0002879907720000027
其中,t代表词T出现,
Figure BDA0002879907720000028
代表词T不出现;P(t)表示词T出现的概率;
Figure BDA0002879907720000029
表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵;
Figure BDA00028799077200000210
表示词T不出现时系统的条件熵;
因此特征词T给系统带来的信息增益就能够写成系统原本的熵与固定特征T后的条件熵之差:
Figure BDA00028799077200000211
信息增益能考察特征对整个系统的贡献,而在相对应的子问题中使用信息增益来进行特征选择,则能得到特征对该一对一问题的贡献;
S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征(共有m个特征,b<m)被选中的可能性为:
Figure BDA00028799077200000212
其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;从而得到a种不全相同的数据集。
进一步地,步骤S5包括以下步骤:
S51:使用a种不全相同的数据集训练c种分类器(如决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯等);
S52:从而挑选出a个性能最好的基分类器,共得到
Figure BDA0002879907720000031
个基分类器,并集成形成一个完整的系统。
进一步地,步骤S6包括以下步骤:
S61:输入一条文本内容到步骤S52集成后形成的系统中,能得到
Figure BDA0002879907720000032
个结果;
S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
Figure BDA0002879907720000033
其中,
Figure BDA0002879907720000034
对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
rij+rji=1
S63:根据得分矩阵从而输出情感类别预测结果。
与现有技术相比,本发明的有益效果为:
本发明对文本中的特征根据其信息增益使用轮盘赌进行了选择;将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类子问题,可以有效解决多分类问题模型复杂,难于求解的问题;对于每个子问题采用了分类器集成的方法;采用聚合策略组合两类分类器,从而建立多分类器;设计了完整的实验来验证该策略的有效性;通过特征选择,多分类问题分解和分类器集成,能获得较为准确的分类结果,运用本发明的系统,可以为政府、企业对文本进行情感分类提供帮助。
附图说明
图1是本发明中具体流程的总体示例图。
具体实施方式
下面结合实例对本发明的具体实施方式做详细说明。
本实施例一种基于轮盘赌属性选择的文本情感分类集成系统,包括如下步骤:
S1:选定了电影评论数据集中的四个情感尺度数据集作为研究对象,并获取其在线文本内容和情感类别数据,每个数据集各有一种3分类的情感分类和4分类的情感分类,此后皆以Dennis Schwartz的评论的四分类方式为例;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S21:对电影评论内容使用词袋模型处理,转化为特征向量;
S22:使用TF-IDF进行处理,得到一个1027×17901的稀疏矩阵为数据集;
S3:先提取出数据集中的1/10作为测试样本用于后续的测试,再对剩余的数据集按照标签类别进行划分,每两类为一个新的子问题,共得到
Figure BDA0002879907720000041
个新问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S41:对每个新问题的每个词进行信息增益的计算;
S42:根据其得到的每个词的信息增益使用轮盘赌进行属性选择,共进行40次,每次选择1000个属性以减少特征向量的维度,从而得到新的数据集,并从每个数据集中提取出其中的3/10用于后续验证;
S5:进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S51:使用特征选择后的40个数据集训练五种分类器(决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯);
S52:对6个子问题的40个数据集中的每一个,使用步骤S42中提取出的用于验证的部分找到五个训练好的分类器中效果最佳的分类器。每个子问题得到40个基分类器,共得到240个基分类器,集成形成一个完整的系统;
S6:集成后的系统通过聚合策略得到情感类别预测结果;
S61:每次输入测试样本中的一个样本到系统中,从而获得240个结果;
S62:通过投票法聚合形成一个4×4的得分矩阵;
S63:根据得分矩阵的结果输出最后预测结果。
该具体实施方式得到如下结果:
表1电影评论情感分类预测准确率
Figure BDA0002879907720000042

Claims (4)

1.一种基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果;
步骤S3具体是:将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为
Figure FDA0003540235600000011
个一对一问题;
步骤S4包括以下步骤:
S41:对每个一对一问题,计算每个词的信息增益IG,IG的计算方法为:
Figure FDA0003540235600000012
其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
对于系统中所含变量类别C来说,分类系统的熵表示为:
Figure FDA0003540235600000013
C取值为C1,C2,……,Cn,n为类别总数;
其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
Figure FDA0003540235600000014
由此得到固定词T时系统的条件熵为:
Figure FDA0003540235600000015
其中,t代表词T出现,
Figure FDA0003540235600000016
代表词T不出现;P(t)表示词T出现的概率;
Figure FDA0003540235600000017
表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵;
Figure FDA0003540235600000018
表示词T不出现时系统的条件熵;
特征词T给系统带来的信息增益为:
Figure FDA0003540235600000019
S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征被选中的可能性为:
Figure FDA00035402356000000110
共有m个特征,b<m;
其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;
从而得到a种不全相同的数据集。
2.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S2包括以下步骤:
S21:使用词袋法将获取的在线文本内容转化成特征向量;
S22:使用统计方法进行预处理;其中,统计方法为词频-逆向文件频率TF-IDF;
TF-IDF的计算方法如下:
Figure FDA0003540235600000021
Figure FDA0003540235600000022
TF-IDF=TF*IDF (3)。
3.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S5包括以下步骤:
S51:使用a种不全相同的数据集训练c种分类器;
S52:挑选出a个性能最好的基分类器;共得到
Figure FDA0003540235600000023
个基分类器,并集成形成一个完整的系统。
4.根据权利要求3所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S6包括以下步骤:
S61:输入一条文本内容到集成后形成的系统中,得到
Figure FDA0003540235600000024
个结果;
S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
Figure FDA0003540235600000025
其中,
Figure FDA0003540235600000026
对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
rij+rji=1
S63:根据得分矩阵从而输出情感类别预测结果。
CN202011640409.1A 2020-12-31 2020-12-31 一种基于轮盘赌属性选择的文本情感分类集成系统 Active CN112667817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011640409.1A CN112667817B (zh) 2020-12-31 2020-12-31 一种基于轮盘赌属性选择的文本情感分类集成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011640409.1A CN112667817B (zh) 2020-12-31 2020-12-31 一种基于轮盘赌属性选择的文本情感分类集成系统

Publications (2)

Publication Number Publication Date
CN112667817A CN112667817A (zh) 2021-04-16
CN112667817B true CN112667817B (zh) 2022-05-31

Family

ID=75413935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011640409.1A Active CN112667817B (zh) 2020-12-31 2020-12-31 一种基于轮盘赌属性选择的文本情感分类集成系统

Country Status (1)

Country Link
CN (1) CN112667817B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN107291723A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN108509421A (zh) * 2018-04-04 2018-09-07 郑州大学 基于随机游走和粗糙决策置信度的文本情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN107291723A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN108509421A (zh) * 2018-04-04 2018-09-07 郑州大学 基于随机游走和粗糙决策置信度的文本情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于遗传算法的文本特征选择";刘成锴等;《科学技术与工程》;20191130;302-307 *

Also Published As

Publication number Publication date
CN112667817A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
Alshamsi et al. Sentiment analysis in English texts
CN111160037A (zh) 一种支持跨语言迁移的细粒度情感分析方法
Althagafi et al. Arabic tweets sentiment analysis about online learning during COVID-19 in Saudi Arabia
Abbas et al. Twitter sentiment analysis using an ensemble majority vote classifier
Pinto et al. Real time sentiment analysis of political twitter data using machine learning approach
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
Bikku et al. Deep learning approaches for classifying data: a review
Aliane et al. A genetic algorithm feature selection based approach for Arabic sentiment classification
Mishra et al. Twitter sentiment analysis using naive bayes algorithm
Dabade Sentiment analysis of Twitter data by using deep learning And machine learning
CN111159405B (zh) 基于背景知识的讽刺检测方法
Mahmud et al. A support vector machine mixed with statistical reasoning approach to predict movie success by analyzing public sentiments
Abbas et al. Sentiment Analysis for Automated Email Response System
CN112667817B (zh) 一种基于轮盘赌属性选择的文本情感分类集成系统
Rajput et al. Analysis of various sentiment analysis techniques
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Nsaif et al. Political Post Classification based on Firefly and XG Boost
Al-Onazi et al. Modified Seagull Optimization with Deep Learning for Affect Classification in Arabic Tweets
Perevalov et al. Question embeddings based on shannon entropy: Solving intent classification task in goal-oriented dialogue system
Pierina et al. Bag of Embedding Words for Sentiment Analysis of Tweets.
Yamada et al. Onomatopoeia Search System Focused on Attributes Based on Sensibility and Various Sounds
Wikarsa et al. Automatic Generation Of Word-Emotion Lexicon For Multiple Sentiment Polarities On Social Media Texts
Alruwais et al. Modified arithmetic optimization algorithm with Deep Learning based data analytics for depression detection
Deepa et al. Sentiment analysis of twitter data using machine learning
Kongyoung et al. Thai Language Tweet Emotion Prediction based on Use of Emojis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant