CN111709463A

CN111709463A - 基于指数协同度量的特征选择方法

Info

Publication number: CN111709463A
Application number: CN202010474513.1A
Authority: CN
Inventors: 周红芳; 马一鸣; 李想
Original assignee: Xian University of Technology
Current assignee: Beijing Lanqiao Technology Co.,Ltd.
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-25
Anticipated expiration: 2040-05-29
Also published as: CN111709463B

Abstract

本发明公开了一种基于指数协同度量的特征选择方法，具体按照以下步骤实施：步骤1、获取数据集并进行预处理；步骤2、设置最优特征子集的大小为C，并对获取的数据集进行降维处理；步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集，并对测试集进行分类；步骤4、使用Macro‑F1和Micro‑F1评价准则对分类器的分类结果进行评估。解决了实际应用中数据集类别大小不平衡的问题，更加强调术语t_i出现在正类中的文档频率的重要性。ECM算法弥补了MMR的不足之处，提高了特征选择的准确率以及分类的效率。

Description

基于指数协同度量的特征选择方法

技术领域

本发明应用于数据挖掘中文本分类技术领域，涉及一种基于指数协同度量的特征选择方法。

背景技术

随着移动网络和信息技术的不断普及，全球范围内产生的数据量正呈指数级速度增长。不同以往，现如今数据中非结构化类型数据的比重增大，其中以文本类型居多。对文本进行分类，可以大大提高计算机检索信息的速度。文本分类问题是自然语言领域的一个非常典型的问题，现已广泛应用到情感分析、舆情分析和邮件过滤等方面。

文本分类指的是将待分类文档标记为一个或者多个预定义类别的任务，例如在邮件检测中，把邮件分类为垃圾邮件和非垃圾邮件；在社交媒体上，把用户发表的文本进行分类，分析用户的情感；在新闻平台，根据文本的内容，将文本划分到不同的新闻类别中。文本分类在其他方面也有应用，可以使运营商更好地服务用户，促进企业的发展。

文本分类主要包括预处理、特征选择、构造分类模型、对待分类文档进行分类等过程。预处理是对训练集进行分词、去除停用词的操作。由于文本是由自然语言表示的，经过预处理，可以提取文本的特征，将其转换成计算机可以理解的方式。同时需要设置阈值，删除出现次数太多或者在各类中分布太广的特征项。文本中存在的大量冗余特征对分类结果有很大的影响，因此对经过预处理的数据集进行特征选择是必要的。选择相对重要的特征，去除不相关以及冗余的特征能够提高分类的正确性和效率。之后使用分类器构造分类模型，对待分类文档进行分类操作。最终可以通过查准率、查全率以及F1等度量方法验证特征选择算法的性能以及分类模型的好坏。

特征选择算法分为过滤式、包裹式和嵌入式三种类型，其中过滤式方法简单、易于运行，并且计算开销要小的多，所以在文本分类中运用最为广泛。过滤式算法为每一个特征项打分并排序，最终选择分数高的一系列特征作为输出的特征子集。经典的算法有信息增益(IG)，优势率(OR),卡方检验(CHI)，基尼系数(GINI)等。

通过对经典的特征选择算法的研究，我们发现这些算法最终输出的特征项更偏向于与所含文档数量较大的类别有关的术语，它们获得了更高的排名。由于一些类别的文档数量少，就不太考虑对该类别的文档具有高区分能力的特征词。在实际应用中，需要处理的数据集大多是不平衡的，因此，需要提出一种基于指数协同度量的特征选择方法。

发明内容

本发明的目的是提供一种基于指数协同度量的特征选择方法，解决大部分算法在进行特征降维时忽略类别的相对大小导致算法精度下降的问题。

本发明所采用的技术方案是，一种基于指数协同度量的特征选择方法，具体按照以下步骤实施：

步骤1、获取数据集并进行预处理；

步骤2、设置最优特征子集的大小为C，并对获取的数据集进行降维处理；

步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集，并对测试集进行分类；

步骤4、使用Macro-F1和Micro-F1评价准则对分类器的分类结果进行评估。

步骤1中数据集包括RE0、RE1、R52、R8、20 News-groups。

步骤1中预处理具体为，删除在文档中出现次数小于等于3篇和超过总文档数25％比例的术语。

本发明的特点还在于：

步骤2具体为：

步骤2.1：根据公式(1-2)计算每一个术语t_i对应于类别c_k的真阳性率tpr和假阳性率fpr；

其中，tp表示属于类别c_k并且包含术语t_i的文档数量，fn表示属于类别c_k并且不包含术语t_i的文档数量，fp表示不属于类别c_k并且包含术语t_i的文档数量，tn表示不属于类别c_k并且不包含术语t_i的文档数量；

步骤2.2：根据公式(3)计算术语t_i对应于类别c_k的最大最小比率λ_i，k；

步骤2.3：根据公式(4)计算术语t_i的权重值ECM(t_i)，并根据权重值对特征进行排序，输出最优特征子集；

其中，M代表数据集中类别的总数，p(c_k)表示属于类别c_k的文档数在整个数据集中所占的比例，k表示类别编号，p(t_i)表示在整个数据集中包含特征词t_i的文档数占总文档数的比例，α控制最大最小比率λ_i，k对整个算法的影响权重，通过将α分别置为1，10，50，100和500进行测试发现α值为50时算法性能达到最大；

步骤3采用朴素贝叶斯和支持向量机算法进行分类器训练进行分类。

步骤4中Macro-F1计算过程如下：

其中，P_k表示类别c_k的查准率，R_k表示类别c_k的查全率，k表示类别编号；

Micro-F1计算过程如下：

其中，TP表示实际属于正例且分类结果也为正例的文档数量，FP表示实际为反例、分类结果为正例的文档数量，FN代表的是实际为正例、分类结果为反例的文档数量，TN代表的是实际属于反例、分类结果也为反例的文档数量。

本发明的有益效果是：

本发明的有益效果是解决了实际应用中数据集类别大小不平衡的问题，更加强调术语t_i出现在正类中的文档频率的重要性。ECM算法弥补了MMR的不足之处，提高了特征选择的准确率以及分类的效率。

附图说明

图1是本发明基于指数协同度量的特征选择方法的流程图；

图2是本发明基于指数协同度量的特征选择方法在RE0数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图；

图3是本发明基于指数协同度量的特征选择方法在RE1数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图；

图4是本发明基于指数协同度量的特征选择方法在R52数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图；

图5是本发明基于指数协同度量的特征选择方法在R8数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图；

图6是本发明基于指数协同度量的特征选择方法在20 News-groups数据集上与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法Micro-F1值、Macro-F1值的对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，一种基于指数协同度量的特征选择方法，具体按照以下步骤实施：

步骤1、获取数据集并进行预处理；

步骤1中数据集包括RE0、RE1、R52、R8、20News-groups。

本发明引入指数协同方法，将MMR算法中的最大最小比率放在自然指数幂的位置，避免分母为0时出现数值不连续，在计算术语t_i的权值时，除以包含术语t_i的文档在整个数据集中所占比例来解决正类文档频率和负类文档频率被等同对待的问题。

步骤2具体为：

步骤4中Macro-F1计算过程如下：

Micro-F1计算过程如下：

由于文本数据的高维度特性，即使经过预处理依然无法直接用于分类操作，必须利用特征选择对特征空间进行降维。根据数据集不同的规模，对于RE0、RE1、R52和R8，特征维度分别设置为10、20、50、100、200、500、1000、1500进行实验，由于20 New-groups数据集的术语和文本数量比较大，特征维度选择为500、1000、1500、2000、2500、3000、4000、5000。通过计算特征词的权值对特征进行排序，选择分数较高的一组术语作为算法输出的特征子集。本发明ECM将真阳性率和假阳性率的最大最小值比率作为自然指数的幂，解决了MMR算法中由于分母可能为0导致数值不连续的问题，即在ECM中当真阳性率tpr或者假阳性率fpr为0时，指数值将为1。通过除以包含特征词的文档数在整个数据集中所占比例的方法，正负类文档频

率价值相似问题得到了解决。

本发明使用朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machines)分类算法训练分类模型并进行分类操作。朴素贝叶斯是一种概率分类器，通过设定属性之间条件独立的前提来估计后验概率，分类效果显著并且易于实现，使用较广泛；支持向量机算法是以统计理论作为分类依据，本发明使用的LibSVM用于默认线性核设置的SVM分类器。

如图2-6所示，本发明与Odds、MI、GINI、CHI、MMR、CMFS以及IG算法进行对比结果如下：

使用朴素贝叶斯作为分类器时，对于Macro-F1测量结果，本发明得分最高的情况所占比例为82.5％，对于Micro-F1测量结果，该比例为55％，本发明平均得分最高情况所占比例为68.75％。当使用支持向量机作为分类器时，对于Macro-F1测量结果，本发明得分最高的情况占比67.5％，对于Micro-F1测量结果，该占比为50％，平均占比为58.75％；在所有实验结果下本发明得分最高的情况占比为63.75％。由以上结果可以知晓，本发明具是可靠的特征选择算法。