CN106021929A

CN106021929A - 基于子类问题分类能力度量的Filter特征选取方法

Info

Publication number: CN106021929A
Application number: CN201610342864.0A
Authority: CN
Inventors: 王淑琴; 梁颖
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2016-10-12

Abstract

本发明公开了一种基于子类问题分类能力度量的Filter特征选取方法。该方法与大多现有方法的最主要区别在于不是使用以单一值作为特征的分类能力评价标准，而是用特征对各个子问题分类能力及它们的加权平均值来度量,特别看重特征对子类问题的分类能力。该方法既能确保总分类能力强的特征被选择，也能确保对子类问题分类能力强但总分类能力不强的特征也被选择，从而获得特征分类能力更准确的排序评价，也就获得了更好的特征子集，以有效减少冗余特征，提高分类预测准确率。本发明的方法可用于癌症数据集的分类预测，改进预测准确率，有利于发现癌症标志物，进而促进癌症的早期诊断和治疗癌症的靶向药物的研制。

Description

基于子类问题分类能力度量的Filter特征选取方法

本发明得到项目号，15JCYBJC46600, 52XB1002的支持。

技术领域

本发明属于机器学习和模式识别技术领域，涉及一种合理有效的特征子集选取方法。更具体的说是一种基于子类问题分类能力度量的Filter特征选取方法。

背景技术

特征选取是维数约简的两个主要方法之一。它在机器学习和模式识别中起着至关重要的作用，也是其中研究的基础问题之一，是构造分类器中关键的数据预处理步骤。特征选取是根据一些评价标准在原有的特征集合上选取对分类有意义的特征子集从而去除无关或冗余特征，从而将原空间的维数降至远小于原维数的m维。随着互联网和高通量技术的迅速发展，当下已进入大数据时代，数据呈数量巨大且纷繁复杂特点，这也使得特征选取方法研究在当今社会更为重要。近年来，特征选取方法的研究已成为应用于含有成千上万个特征的数据集时所面临的主要焦点问题之一。特征选取可以使数据更易于理解，降低度量和存储要求，减少训练和实现时间，改进预测性能等。在这个研究方向中，如何评价特征的分类能力并获得有效的特征子集的选取方法是一个关键。

近年来，国内学者对特征选取开展了大量的研究工作，国内期刊上也刊发了大量研究成果。这些特征选取方法都存在一个共同之处，即各种分类能力度量方法都是对于一个特征或特征子集给出描述该特征或者特征子集的分类能力大小的一个分值，如信息熵、互信息、增益比、Relief、相关性等指标。通常认为分值大的特征比分值小的特征的分类能力强，因而分值大的特征也就会被优先选取。然而，一些工作已经表明一些分值小的特征也应该被选取，而且一些有较高分类能力值的特征的组合也不总是得到好的分类结果。以单一值表示特征分类能力大小仅仅是对这个特征分类能力的综合评价，而忽略了各个特征对于不同类别的分类能力不同的评价。

发明内容

本发明为了解决上述现有方法中的问题，提出一种新的基于子类问题分类能力度量的Filter特征选取方法。本发明使用各个特征对不同子类问题的分类能力及他们的加权和作为各个特征的分类能力评价指标。本发明适用于多类且样本个数远小于特征个数的数据集如癌症数据集等的分类预测。在具体实施方式中将以数据集为例说明本发明的有效性。

本发明为解决上述问题所采取的技术方案是：

基于子类问题分类能力度量的Filter特征选取方法，其特征在于，该方法的具体步骤如下：

第一步：计算所有特征对各子类问题的分类能力；

第二步：计算各个子类问题中特征分类能力的阈值，本方法中将子类问题的特征分类能力曲线的拐点作为阈值；

第三步：采用Round-Robin方法计算各子类问题中分类能力大于阈值的特征的并集，对各子类问题中同一级的特征按照他们对各子类问题的分类能力的加权平均值降序排序；

其中所述特征对各子类问题的分类能力的计算步骤如下：

对于具有个样本的分类问题为特征集合，为类别属性，首先采用形式将其转化为由任意两类组成的个两分类子问题，其中再采用信息增益作为特征对子问题分类区分能力值，简称值，分别计算每个特征个子问题的分类区分能力；最后再根据下述阈值计算方法获得每个子类问题的类区分能力的阈值。

所述子类问题阈值的计算步骤如下：

由于各个特征对各子类问题的分类能力有所不同，因此对每个子类问题分别计算阈值，这样可以得到个阈值，设由类构成的子类问题的编号记为以计算由类构成的第个子类问题的阈值为例，其中来说明阈值的计算过程；

首先对所有特征按分类区分能力进行降序排序，设降序排序后的序号，然后求使得由离散点构成的曲线中曲率最大的点（简称为拐点）所对应的属性序号t。先用最小二乘法对所有离散点进行曲线拟合，设拟合函数为y＝Z(r)，则

其中，

那么Z(t)即为所求阈值，即为θ_j。

所述方法和特征对各子类问题的分类能力的加权平均值降序排序的方法步骤如下：

确定阈值后，使用方法依次选择各子类问题中分类区分能力大于阈值的特征的并集，即首先依次选择各子类问题中排在第一且未被选择的特征，再选择排在第二且未被选择的特征，依此类推，直到所有子问题中分类能力大于阈值的特征都被选择。其中对属于各子类问题同一等级的特征的选择次序按照其对各子类问题的分类能力的加权平均值从大到小进行。将特征对各子类问题的分类能力的加权平均值作为特征的总分类能力，记为其计算公式为

其中类所构成的子问题中所含样本的个数。

按照上述方法就得到了各特征的分类能力的降序序列。

本发明进一步公开了基于子类问题分类能力度量的Filter特征选取方法在提高分类预测的准确率方面的应用。特别是用于癌症数据集的分类预测，改进预测准确率，有利于发现癌症标志物，进而促进癌症的早期诊断和治疗癌症的靶向药物的研制。

与本发明有关的概念和定义。

1.子类问题

设给定具有个样本的分类问题为特征集合，为类别属性，采用形式将其转化为由任意两类组成的个两分类子问题，其中将其中的每个两分类子问题称为子类问题。

2.特征分类能力

是某个特征对分类问题的分类能力的度量。

本发明采用特征的信息增益作为特征的分类能力值，特征个子类问题中的分类能力值值，其中是类别属性，是分类问题中特征是条件熵。

3.拐点

设为分类能力函数，拐点应是曲线上曲率最大的点，即满足

其中，

即拐点之后的所有属性的分类能力值变化很小。

因此每个子类问题中拐点属性之前的属性应是与分类相关的属性，而其它的属性与分类相关性不大。用于分类最好的子集也一定是拐点之前属性集合的子集。

4.属性的总分类能力

其中类所构成的子问题中所含样本的个数，类构成的子问题的编号。即属性是它对各个子类问题的分类能力的加权平均。

本发明公开的基于子类问题分类能力度量的Filter特征选取方法与现有技术相比所具有的积极效果在于：

（1）本发明的选取方法能充分考虑每个特征对于不同类别的分类能力不同的评价，进而能更准确评价每个特征的分类能力，获得更好的基于分类能力的特征排序序列，从而获得更好的特征子集，以有效减少冗余特征，提高分类预测的准确率。

（2）本发明的选取方法可以解决现有的特征选取方法中以单一值作为特征分类能力度量，而忽略了每个特征对于不同类别的分类能力不同的评价的问题，使得综合分类能力弱但对某个子问题分类能力很强的特征先被选择。实验结果证明本发明的选取方法能提高分类预测的准确率，是有效的。

（3）本发明可用于癌症数据集的分类预测，改进预测准确率，有利于发现癌症标志物，进而促进癌症的早期诊断和治疗癌症的靶向药物的研制。

附图说明

图1分类问题数据集

图2是本发明方法与InfoGain、GainRatio、Relief方法在Breast数据集上的准确率比较；

图3是本发明方法与InfoGain、GainRatio、Relief方法在DLBCL数据集上的准确率比较；

图4本发明方法与InfoGain、GainRatio、Relief方法在Leukemia3数据集上的准确率比较。

具体实施方式

下面通过具体的实施方案叙述本发明。除非特别说明，本发明中所用的技术手段均为本领域技术人员所公知的方法。另外，实施方案应理解为说明性的，而非限制本发明的范围，本发明的实质和范围仅由权利要求书所限定。对于本领域技术人员而言，在不背离本发明实质和范围的前提下，对这些实施方案中的物料成分和用量进行的各种改变或改动也属于本发明的保护范围。

实施例1

(1)读取分类问题数据集：

通常分类问题数据集是一个二维矩阵，例如具有个样本的分类问题的数据集如图1所示，其中表示第i个样本的类别。表1显示了乳腺癌Breast数据集中部分样本的部分特征基因的表达值，其中第二行为样本类别，第三行为第一个特征在各个样本上的表达值，其他行依此类推，一列表示一个样本，即某个人的各特征基因表达值及类别。将数据集中各样本的所有特征值读到二维数组中，

中，

将各样本的类别读到一维数组C＝(c₁，c₂，...，c_n)中。

(2)计算各个特征对每个子类问题的分类区分能力值。

表1 乳腺癌breast数据集中部分样本的部分特征基因的表达值

首先采用形式将多类分类问题转化为由任意两类组成的个两分类子问题，其中再采用信息增益作为特征对子问题分类区分能力值，简称两个特征的信息增益的计算公式如下：

IG(X，Y)＝H(X)-H(X|Y),

其中是特征X的熵，

而H(X|Y)，是特征X和Y的条件熵。

按照上述计算方法，分别计算每个特征，其中，的计算公式如下：

其中个子问题中的子集，个子问题中类别属性。

这样可以获得各个特征对各个子问题的分类能力矩阵。

(3)计算各个子类问题中特征分类能力的阈值，本方法中将子类问题的特征分类能力曲线的拐点作为阈值。

首先对所有特征按分类区分能力进行降序排序，设降序排序后的序号，然后求使得由离散点构成的曲线中曲率最大的点（简称为拐点）所对应的属性序号先用最小二乘法对所有离散点进行曲线拟合，设拟合函数为则

其中

那么Z(t)即为所求阈值，即为θ_j。

(4)采用Round-Robin方法计算各子类问题中分类能力大于阈值的特征的并集，对各子类问题中同一级的特征按照他们对各子类问题的分类能力的加权平均值降序排序。

确定阈值后，使用Round-Robin方法依次选择各子类问题中分类区分能力大于阈值的特征的并集，即首先依次选择各子类问题中排在第一且未被选择的特征，再选择排在第二且未被选择的特征，依此类推，直到所有子问题中分类能力大于阈值的特征都被选择。其中对属于各子类问题同一等级的特征的选择次序按照其对各子类问题的分类能力的加权平均值从大到小进行。将特征对各子类问题的分类能力的加权平均值作为特征的总分类能力，记为其计算公式为

其中类构成的子问题中样本的个数。

按照上述方法就得到了各特征的分类能力的降序序列。

本发明中的基于子类问题分类能力度量的Filter特征选取方法的算法如算法1所示：

算法1：基于子类问题分类能力度量的Filter特征选取方法

输入：

输出：按分类能力从大到小排列的属性子集

对中的每一个属性和每个子类问题计算

对每个子类问题

a. 降序排序所有属性的分类能力

b. 计算该子类问题的拐点

do

实施例2

本发明的实验结果和数据：

本发明的实验数据集-乳腺癌(Breast)、DLBCL和Leukemia3，于2007年下载自http://www.ccbm.jhu.edu/，参见参考文献。表2给出了这些数据集中含有的类别数、特征数及样本数。采用传统的客观评价指标来测试算法的性能，主要有选取特征的个数及分类预测准确率，其中特征选取的个数是指使用特征选取方法选取的特征的个数，分类预测准确率是将选取的特征子集作为分类器的输入获得的准确率。为了验证本发明提出的方法的有效性，将本发明方法(简称为RRSPFS)与现有的InfoGain、GainRatio、Relief等Filter属性选择方法进行比较。使用的分类器有朴素贝叶斯（NB）、支持向量机（SVM）、k近邻（KNN）、决策树（C4.5）和简单分类与回归树（SCart）。

为了能够合理地比较这些方法的实验结果，选择每种方法获得的特征排序结果中相同个数的特征使用不同分类器进行分类预测，相应实验结果显示在图2、图3和图4中，其中横坐标为选择排在前面的特征的个数，纵坐标为选择特征后使用上述五中分类器进行分类预测获得的准确率的平均值。

图2中显示了使用本发明提出的方法和已有方法在Breast数据集上的实验结果。从图2可以看出本发明提出的方法与已有方法相比使得预测准确率达到最大值的速度最快，本发明方法在选择10几个特征的时候就达到最大，二Relief方法是在30多个特征的时候才达到最大，而其它两种方法在图中显示选择的特征个数中都未达到这个最大值。还可以看出本发明方法在大多数情况下的准确率都高于其它3中方法。

图3和图4分别显示了使用本发明提出的方法和已有方法在数据集DLBCL和Leukemia3上的实验结果。同样可以看出本发明提出的方法与已有方法相比使得预测准确率达到最大值的速度最快，且在大多数情况下的准确率都高于其它3中方法。

从图2可以看出本发明方法最好，其次是Relief方法，然后是InfoGain方法，最后是GainRatio方法。图3和图4中的曲线比较相似，本发明方法仍然最好，但排在第二的却是InfoGain方法，然后是Relief方法，最后是GainRatio方法，这也表明本发明方法是最稳定的。

所有这些都表明了本发明提出的方法是有效的，可以获得较好的特征子集。

表2 多类基因表达数据集

参考文献：

A.C. Tan, D.Q. Naiman, L. Xu, R.L.Winslow, D. Geman, Simple decisionrules for classifying human cancers from gene expression profiles,Bioinformatics, 2005, 21(20):3896–3904。

Claims

1.基于子类问题分类能力度量的Filter特征选取方法，其特征在于，该方法的具体步骤如下：

第一步：计算所有特征对各子类问题的分类能力；

第二步：计算各个子类问题中特征分类能力的阈值，将子类问题的特征分类能力曲线的拐点作为阈值；

其中所述特征对各子类问题的分类能力的计算步骤如下：

对于具有个特征个样本的分类问题为特征集合，为类别属性，首先采用形式将其转化为由任意两类组成的个两分类子问题，其中再采用信息增益作为特征对子问题分类区分能力值，简称值，分别计算每个特征个子问题的分类区分能力最后再根据下述阈值计算方法获得每个子类问题的类区分能力的阈值；

所述子类问题阈值的计算步骤如下：

其中,那么Z(t)即为所求阈值，即为θ_j，

确定阈值后，使用方法依次选择各子类问题中分类区分能力大于阈值的特征的并集，即首先依次选择各子类问题中排在第一且未被选择的特征，再选择排在第二且未被选择的特征，依此类推，直到所有子问题中分类能力大于阈值的特征都被选择，其中对属于各子类问题同一等级的特征的选择次序按照其对各子类问题的分类能力的加权平均值从大到小进行，将特征对各子类问题的分类能力的加权平均值作为特征的总分类能力，记为其计算公式为

其中N(p，q)是p类和q类所构成的子问题中所含样本的个数；

按照上述方法就得到了各特征的分类能力的降序序列。

2.权利要求1所述的基于子类问题分类能力度量的Filter特征选取方法在提高分类预测的准确率方面的应用。

3.权利要求2所述的应用，其中的分类预测的准确率指的是用于特征个数远大于样本个数数据集如癌症数据集的分类预测，可改进预测准确率，应用于癌症数据集还有利于发现癌症标志物，进而促进癌症的早期诊断和治疗癌症的靶向药物的研制。