CN112667817B

CN112667817B - 一种基于轮盘赌属性选择的文本情感分类集成系统

Info

Publication number: CN112667817B
Application number: CN202011640409.1A
Authority: CN
Inventors: 张忠良; 张晨玥; 雒兴刚; 蔡灵莎; 苑嘉航
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-05-31
Anticipated expiration: 2040-12-31
Also published as: CN112667817A

Abstract

本发明涉及数据挖掘及产品技术领域，尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统，包括以下步骤：S1：获取在线文本和对应的情感类别数据；S2：通过对获取的在线文本特征提取，将获取的在线文本转化为特征向量并进行预处理；S3：将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题；S4：对每个一对一问题，计算每个词的信息增益后，使用轮盘赌进行特征选择；S5：将进行过特征选择的数据集用于训练分类器，将分类器进行集成；S6：集成后的系统通过聚合策略得到情感类别预测结果。本发明可以有效解决多分类问题模型复杂，难于求解的问题。

Description

一种基于轮盘赌属性选择的文本情感分类集成系统

技术领域

本发明涉及数据挖掘及产品技术领域，尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统。

背景技术

随着信息技术和移动通讯技术的飞速发展，上网的人越来越多。据统计，全球已有超过46亿互联网用户，互联网用户数量继续快速增长。很多互联网用户会在各种网站上发布在线文本来表达他们对社会问题的意见，分享他们对产品或服务的体验。这些在线文本所代表的人们的态度可以对政府、公司的决策产生较大的影响。因此，分析在线文本的情感类别是一件有意义的事情。

为了处理浩如烟海的在线文本，我们采用数据挖掘的方式对在线文本进行处理和分类。但原始文本中所含的信息量过于庞大，内容太多冗杂，需要从中提取出更有用的关键词以更好的分析相应的情感信息。文本的情感分类最常用的是正向和负向的两分类，但这在实际应用之中过于绝对，不适合对人类复杂的情感进行简单而过于绝对的判断。因此多类别文本情感分类对文本更具有实际意义。然而人类的情感复杂多样，所撰写的文本内所包含的情感也涉及到多个类别。现有的分类器在处理多分类问题时往往不能获得预期的效果。将复杂的多分类问题分解成多个一对一的子问题进行处理是数据挖掘领域针对解决多分类问题的有效途径。而对于单个问题，集成学习通过构建并结合多个分类器来完成分类任务，通常可以获得比单一分类器显著优越的性能。

综上所述，本发明利用数据挖掘技术结合文本情感分类系统，将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类问题，然后对每个子问题分别建立多个分类器进行集成，接着采用聚合策略，如投票法、加权投票法，将两类分类器组合成多分类器，提出了一种基于轮盘赌属性选择的文本情感分类集成系统。

发明内容

为了解决上述技术问题，本发明设计了一种基于轮盘赌属性选择的文本情感分类集成系统。

为实现以上技术目的，本发明采用以下技术方案：：

一种基于轮盘赌属性选择的文本情感分类集成系统，包括以下步骤：

S1：获取在线文本和对应的情感类别数据；

S2：通过对获取的在线文本特征提取，将获取的在线文本转化为特征向量并进行预处理；

S3：将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题；

S4：对每个一对一问题，计算每个词的信息增益后，使用轮盘赌进行特征选择；

S5：将进行过特征选择的数据集用于训练分类器，将分类器进行集成；

S6：集成后的系统通过聚合策略得到情感类别预测结果。

进一步的，步骤S1包括有：选定研究对象，获取相应的在线文本内容和对应的情感类别标签。

进一步地，步骤S2包括以下步骤：

S21：使用词袋法将获取的在线文本内容转化成特征向量；

S22：使用统计方法进行预处理，如使用词频-逆向文件频率(TF-IDF)等方法，TF-IDF的计算方法为：

TF-IDF＝TF*IDF (3)

统计方法通过评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度，以得到便于处理的特征向量。

进一步地，步骤S3将预处理后文本的特征向量涉及到的n分类的多分类问题，转化为

个一对一问题。

进一步地，步骤S4包括以下步骤：

S41：对每个一对一问题，计算每个词的信息增益(information gain，IG)，IG的计算方法为：

其中，X表示特征；n表示类别总数；i表示第i个类别；P_i表示X取第i个类别的概率；

因此对于系统中所含变量类别C(可能取值为C₁，C₂，……，C_n，n为类别总数)来说，分类系统的熵就能够表示为：

其中，C_i表示第i个变量类别；P(C_i)表示类别为C_i的概率；

当特征X被固定时，特征X有x₁,x₂，……，x_i值，其条件熵为：

由此可得固定词T时系统的条件熵为：

其中，t代表词T出现，

代表词T不出现；P(t)表示词T出现的概率；

表示词T不出现的概率；H(C|t)表示词T出现时系统的条件熵；

表示词T不出现时系统的条件熵；

因此特征词T给系统带来的信息增益就能够写成系统原本的熵与固定特征T后的条件熵之差：

信息增益能考察特征对整个系统的贡献,而在相对应的子问题中使用信息增益来进行特征选择，则能得到特征对该一对一问题的贡献；

S42：对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样，每个特征(共有m个特征，b<m)被选中的可能性为：

其中，T_i表示第i个词；IG(T_i)表示第i个词的信息增益值；从而得到a种不全相同的数据集。

进一步地，步骤S5包括以下步骤：

S51：使用a种不全相同的数据集训练c种分类器(如决策树，BP神经网络，支持向量机，k近邻，朴素贝叶斯等)；

S52：从而挑选出a个性能最好的基分类器，共得到

个基分类器，并集成形成一个完整的系统。

进一步地，步骤S6包括以下步骤：

S61：输入一条文本内容到步骤S52集成后形成的系统中，能得到

个结果；

S62：通过投票法或加权投票法，得到一个n×n的得分矩阵：

其中，

对每个r_ij，v_i为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数，且有：

r_ij+r_ji＝1

S63：根据得分矩阵从而输出情感类别预测结果。

与现有技术相比，本发明的有益效果为：

本发明对文本中的特征根据其信息增益使用轮盘赌进行了选择；将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类子问题，可以有效解决多分类问题模型复杂，难于求解的问题；对于每个子问题采用了分类器集成的方法；采用聚合策略组合两类分类器，从而建立多分类器；设计了完整的实验来验证该策略的有效性；通过特征选择，多分类问题分解和分类器集成，能获得较为准确的分类结果，运用本发明的系统，可以为政府、企业对文本进行情感分类提供帮助。

附图说明

图1是本发明中具体流程的总体示例图。

具体实施方式

下面结合实例对本发明的具体实施方式做详细说明。

本实施例一种基于轮盘赌属性选择的文本情感分类集成系统，包括如下步骤：

S1：选定了电影评论数据集中的四个情感尺度数据集作为研究对象，并获取其在线文本内容和情感类别数据，每个数据集各有一种3分类的情感分类和4分类的情感分类，此后皆以Dennis Schwartz的评论的四分类方式为例；

S21：对电影评论内容使用词袋模型处理，转化为特征向量；

S22：使用TF-IDF进行处理，得到一个1027×17901的稀疏矩阵为数据集；

S3：先提取出数据集中的1/10作为测试样本用于后续的测试，再对剩余的数据集按照标签类别进行划分，每两类为一个新的子问题，共得到

个新问题；

S41：对每个新问题的每个词进行信息增益的计算；

S42：根据其得到的每个词的信息增益使用轮盘赌进行属性选择，共进行40次，每次选择1000个属性以减少特征向量的维度，从而得到新的数据集，并从每个数据集中提取出其中的3/10用于后续验证；

S5：进行过特征选择的数据集用于训练分类器，将分类器进行集成；

S51：使用特征选择后的40个数据集训练五种分类器(决策树，BP神经网络，支持向量机，k近邻，朴素贝叶斯)；

S52：对6个子问题的40个数据集中的每一个，使用步骤S42中提取出的用于验证的部分找到五个训练好的分类器中效果最佳的分类器。每个子问题得到40个基分类器，共得到240个基分类器，集成形成一个完整的系统；

S6：集成后的系统通过聚合策略得到情感类别预测结果；

S61：每次输入测试样本中的一个样本到系统中，从而获得240个结果；

S62：通过投票法聚合形成一个4×4的得分矩阵；

S63：根据得分矩阵的结果输出最后预测结果。

该具体实施方式得到如下结果：

表1电影评论情感分类预测准确率