CN112667817B - 一种基于轮盘赌属性选择的文本情感分类集成系统 - Google Patents
一种基于轮盘赌属性选择的文本情感分类集成系统 Download PDFInfo
- Publication number
- CN112667817B CN112667817B CN202011640409.1A CN202011640409A CN112667817B CN 112667817 B CN112667817 B CN 112667817B CN 202011640409 A CN202011640409 A CN 202011640409A CN 112667817 B CN112667817 B CN 112667817B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- roulette
- feature
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:S1:获取在线文本和对应的情感类别数据;S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;S6:集成后的系统通过聚合策略得到情感类别预测结果。本发明可以有效解决多分类问题模型复杂,难于求解的问题。
Description
技术领域
本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统。
背景技术
随着信息技术和移动通讯技术的飞速发展,上网的人越来越多。据统计,全球已有超过46亿互联网用户,互联网用户数量继续快速增长。很多互联网用户会在各种网站上发布在线文本来表达他们对社会问题的意见,分享他们对产品或服务的体验。这些在线文本所代表的人们的态度可以对政府、公司的决策产生较大的影响。因此,分析在线文本的情感类别是一件有意义的事情。
为了处理浩如烟海的在线文本,我们采用数据挖掘的方式对在线文本进行处理和分类。但原始文本中所含的信息量过于庞大,内容太多冗杂,需要从中提取出更有用的关键词以更好的分析相应的情感信息。文本的情感分类最常用的是正向和负向的两分类,但这在实际应用之中过于绝对,不适合对人类复杂的情感进行简单而过于绝对的判断。因此多类别文本情感分类对文本更具有实际意义。然而人类的情感复杂多样,所撰写的文本内所包含的情感也涉及到多个类别。现有的分类器在处理多分类问题时往往不能获得预期的效果。将复杂的多分类问题分解成多个一对一的子问题进行处理是数据挖掘领域针对解决多分类问题的有效途径。而对于单个问题,集成学习通过构建并结合多个分类器来完成分类任务,通常可以获得比单一分类器显著优越的性能。
综上所述,本发明利用数据挖掘技术结合文本情感分类系统,将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类问题,然后对每个子问题分别建立多个分类器进行集成,接着采用聚合策略,如投票法、加权投票法,将两类分类器组合成多分类器,提出了一种基于轮盘赌属性选择的文本情感分类集成系统。
发明内容
为了解决上述技术问题,本发明设计了一种基于轮盘赌属性选择的文本情感分类集成系统。
为实现以上技术目的,本发明采用以下技术方案::
一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果。
进一步的,步骤S1包括有:选定研究对象,获取相应的在线文本内容和对应的情感类别标签。
进一步地,步骤S2包括以下步骤:
S21:使用词袋法将获取的在线文本内容转化成特征向量;
S22:使用统计方法进行预处理,如使用词频-逆向文件频率(TF-IDF)等方法,TF-IDF的计算方法为:
TF-IDF=TF*IDF (3)
统计方法通过评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,以得到便于处理的特征向量。
进一步地,步骤S4包括以下步骤:
S41:对每个一对一问题,计算每个词的信息增益(information gain,IG),IG的计算方法为:
其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
因此对于系统中所含变量类别C(可能取值为C1,C2,……,Cn,n为类别总数)来说,分类系统的熵就能够表示为:
其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
由此可得固定词T时系统的条件熵为:
因此特征词T给系统带来的信息增益就能够写成系统原本的熵与固定特征T后的条件熵之差:
信息增益能考察特征对整个系统的贡献,而在相对应的子问题中使用信息增益来进行特征选择,则能得到特征对该一对一问题的贡献;
S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征(共有m个特征,b<m)被选中的可能性为:
其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;从而得到a种不全相同的数据集。
进一步地,步骤S5包括以下步骤:
S51:使用a种不全相同的数据集训练c种分类器(如决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯等);
进一步地,步骤S6包括以下步骤:
S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
其中,
对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
rij+rji=1
S63:根据得分矩阵从而输出情感类别预测结果。
与现有技术相比,本发明的有益效果为:
本发明对文本中的特征根据其信息增益使用轮盘赌进行了选择;将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类子问题,可以有效解决多分类问题模型复杂,难于求解的问题;对于每个子问题采用了分类器集成的方法;采用聚合策略组合两类分类器,从而建立多分类器;设计了完整的实验来验证该策略的有效性;通过特征选择,多分类问题分解和分类器集成,能获得较为准确的分类结果,运用本发明的系统,可以为政府、企业对文本进行情感分类提供帮助。
附图说明
图1是本发明中具体流程的总体示例图。
具体实施方式
下面结合实例对本发明的具体实施方式做详细说明。
本实施例一种基于轮盘赌属性选择的文本情感分类集成系统,包括如下步骤:
S1:选定了电影评论数据集中的四个情感尺度数据集作为研究对象,并获取其在线文本内容和情感类别数据,每个数据集各有一种3分类的情感分类和4分类的情感分类,此后皆以Dennis Schwartz的评论的四分类方式为例;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S21:对电影评论内容使用词袋模型处理,转化为特征向量;
S22:使用TF-IDF进行处理,得到一个1027×17901的稀疏矩阵为数据集;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S41:对每个新问题的每个词进行信息增益的计算;
S42:根据其得到的每个词的信息增益使用轮盘赌进行属性选择,共进行40次,每次选择1000个属性以减少特征向量的维度,从而得到新的数据集,并从每个数据集中提取出其中的3/10用于后续验证;
S5:进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S51:使用特征选择后的40个数据集训练五种分类器(决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯);
S52:对6个子问题的40个数据集中的每一个,使用步骤S42中提取出的用于验证的部分找到五个训练好的分类器中效果最佳的分类器。每个子问题得到40个基分类器,共得到240个基分类器,集成形成一个完整的系统;
S6:集成后的系统通过聚合策略得到情感类别预测结果;
S61:每次输入测试样本中的一个样本到系统中,从而获得240个结果;
S62:通过投票法聚合形成一个4×4的得分矩阵;
S63:根据得分矩阵的结果输出最后预测结果。
该具体实施方式得到如下结果:
表1电影评论情感分类预测准确率
Claims (4)
1.一种基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果;
步骤S4包括以下步骤:
S41:对每个一对一问题,计算每个词的信息增益IG,IG的计算方法为:
其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
对于系统中所含变量类别C来说,分类系统的熵表示为:
C取值为C1,C2,……,Cn,n为类别总数;
其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
由此得到固定词T时系统的条件熵为:
特征词T给系统带来的信息增益为:
S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征被选中的可能性为:
共有m个特征,b<m;
其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;
从而得到a种不全相同的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011640409.1A CN112667817B (zh) | 2020-12-31 | 2020-12-31 | 一种基于轮盘赌属性选择的文本情感分类集成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011640409.1A CN112667817B (zh) | 2020-12-31 | 2020-12-31 | 一种基于轮盘赌属性选择的文本情感分类集成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112667817A CN112667817A (zh) | 2021-04-16 |
CN112667817B true CN112667817B (zh) | 2022-05-31 |
Family
ID=75413935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011640409.1A Active CN112667817B (zh) | 2020-12-31 | 2020-12-31 | 一种基于轮盘赌属性选择的文本情感分类集成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667817B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN101710333A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
CN107291723A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN108491377A (zh) * | 2018-03-06 | 2018-09-04 | 中国计量大学 | 一种基于多维度信息融合的电商产品综合评分方法 |
CN108509421A (zh) * | 2018-04-04 | 2018-09-07 | 郑州大学 | 基于随机游走和粗糙决策置信度的文本情感分类方法 |
-
2020
- 2020-12-31 CN CN202011640409.1A patent/CN112667817B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN101710333A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
CN107291723A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN107679580A (zh) * | 2017-10-21 | 2018-02-09 | 桂林电子科技大学 | 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法 |
CN108491377A (zh) * | 2018-03-06 | 2018-09-04 | 中国计量大学 | 一种基于多维度信息融合的电商产品综合评分方法 |
CN108509421A (zh) * | 2018-04-04 | 2018-09-07 | 郑州大学 | 基于随机游走和粗糙决策置信度的文本情感分类方法 |
Non-Patent Citations (1)
Title |
---|
"基于遗传算法的文本特征选择";刘成锴等;《科学技术与工程》;20191130;302-307 * |
Also Published As
Publication number | Publication date |
---|---|
CN112667817A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alshamsi et al. | Sentiment analysis in English texts | |
CN111160037A (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
Althagafi et al. | Arabic tweets sentiment analysis about online learning during COVID-19 in Saudi Arabia | |
Abbas et al. | Twitter sentiment analysis using an ensemble majority vote classifier | |
Pinto et al. | Real time sentiment analysis of political twitter data using machine learning approach | |
CN109062958B (zh) | 一种基于TextRank和卷积神经网络的小学作文自动分类方法 | |
Bikku et al. | Deep learning approaches for classifying data: a review | |
Aliane et al. | A genetic algorithm feature selection based approach for Arabic sentiment classification | |
Mishra et al. | Twitter sentiment analysis using naive bayes algorithm | |
Dabade | Sentiment analysis of Twitter data by using deep learning And machine learning | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
Mahmud et al. | A support vector machine mixed with statistical reasoning approach to predict movie success by analyzing public sentiments | |
Abbas et al. | Sentiment Analysis for Automated Email Response System | |
CN112667817B (zh) | 一种基于轮盘赌属性选择的文本情感分类集成系统 | |
Rajput et al. | Analysis of various sentiment analysis techniques | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Nsaif et al. | Political Post Classification based on Firefly and XG Boost | |
Al-Onazi et al. | Modified Seagull Optimization with Deep Learning for Affect Classification in Arabic Tweets | |
Perevalov et al. | Question embeddings based on shannon entropy: Solving intent classification task in goal-oriented dialogue system | |
Pierina et al. | Bag of Embedding Words for Sentiment Analysis of Tweets. | |
Yamada et al. | Onomatopoeia Search System Focused on Attributes Based on Sensibility and Various Sounds | |
Wikarsa et al. | Automatic Generation Of Word-Emotion Lexicon For Multiple Sentiment Polarities On Social Media Texts | |
Alruwais et al. | Modified arithmetic optimization algorithm with Deep Learning based data analytics for depression detection | |
Deepa et al. | Sentiment analysis of twitter data using machine learning | |
Kongyoung et al. | Thai Language Tweet Emotion Prediction based on Use of Emojis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |