CN105279520B

CN105279520B - 基于分类能力结构向量互补的最优特征子集选取方法

Info

Publication number: CN105279520B
Application number: CN201510621401.3A
Authority: CN
Inventors: 王淑琴
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2018-07-24
Anticipated expiration: 2035-09-25
Also published as: CN105279520A

Abstract

本发明针对大多现有方法以单一值作为特征或特征子集的分类能力评价标准，提出一种新的基于分类能力结构向量互补的最优特征子集选取方法。该方法通过定义二进制形式的特征分类能力结构向量及分类能力结构向量互补特征，采用二分法计算各个子类问题中特征分类区分能力的阈值，并在此基础上按照所选特征子集中不同特征的结构互补性最大化原则和贪心策略进行最优特征子集选取。这种方法不仅充分考虑每个特征对于不同类别的分类能力不同的评价，而且也在特征选取过程中遵循分类能力结构互补性最大化的原则。它既符合优势互补的自然规律，也能将特征分类信息发挥到极致，从而获得更好的特征子集，以有效减少冗余特征，提高分类预测准确率。

Description

基于分类能力结构向量互补的最优特征子集选取方法

技术领域

本发明属于机器学习和模式识别技术领域，具体提出一种合理有效的特征子集选取方法。

背景技术

特征选取是维数约简的两个主要方法之一。它在机器学习和模式识别中起着至关重要的作用，也是其中研究的基础问题之一，是构造分类器中关键的数据预处理步骤。特征选取是根据一些评价标准在原有的特征集合上选取对分类有意义的特征子集从而去除无关或冗余特征，从而将原空间的维数降至远小于原维数的m维。随着互联网和高通量技术的迅速发展，当下已进入大数据时代，数据呈数量巨大且纷繁复杂特点，这也使得特征选取方法研究在当今社会更为重要。近年来，特征选取方法的研究已成为应用于含有成千上万个特征的数据集时所面临的主要焦点问题之一。特征选取可以使数据更易于理解，降低度量和存储要求，减少训练和实现时间，改进预测性能等。在这个研究方向中，如何评价特征的分类能力并获得有效的特征子集的选取方法是一个关键。

近年来，国内学者对特征选取开展了大量的研究工作，国内期刊上也刊发了大量研究成果。这些特征选取方法都存在一个共同之处，即各种分类能力度量方法都是对于一个特征或特征子集给出描述该特征或者特征子集的分类能力大小的一个分值。通常认为分值大的特征比分值小的特征的分类能力强，因而分值大的特征也就会被优先选取。然而，一些工作已经表明一些分值小的特征也应该被选取，而且一些有较高分类能力值的特征的组合也不总是得到好的分类结果。以单一值表示特征分类能力大小仅仅是对这个特征分类能力的综合评价，而忽略了各个特征对于不同类别的分类能力不同的评价。

发明内容

本发明为了解决上述现有方法中的问题，提出一种新的基于分类能力结构向量互补的最优特征子集选取方法。本发明通过评价各个特征对不同子类问题的分类能力而获得相应向量化分类能力，即用多个值表示特征对不同子类问题的区分能力，再按照分类能力结构向量互补的原则选取特征或特征子集。本发明适用于多类且样本个数远小于特征个数的数据集如癌症数据集等的分类预测。在具体实施方式中将以乳腺癌数据集为例说明本发明的有效性。

本发明通过定义基于二进制形式的特征分类能力结构向量及分类能力结构互补的特征，采用二分法分别计算各个子类问题的阈值，并在此基础上按照所选特征子集中不同特征的结构互补性最大化原则和贪心策略进行最优特征子集选取。这种方法既符合优势互补的自然规律，也能将特征分类信息发挥到极致，从而获得更好的特征子集。因此，研究考虑分类能力结构互补性的特征选取方法是有很大意义的。

为实现上述目的，本发明公开了如下的技术内容：

一种基于分类能力结构向量互补的最优特征子集选取方法，其特征在于该方法首先要进行基于二进制形式的特征分类能力结构向量的定义，并完成各个特征分类能力结构向量的计算，具体步骤如下：

对于具有个特征类的分类问题，首先采用1-vs-1形式将其转化为由任意两类组成的个两分类子问题，其中，再采用Fisher判别率作为特征对子问题分类区分能力值，简称FDR值，记为，分别计算每个特征对第个子问题的分类区分能力，其中，；最后再根据下述阈值计算方法获得类区分能力的阈值将所有转化为0或1，从而得到每个特征对各个子问题的分类区分能力结构向量。

其中采用二分法分别计算各个子类问题的阈值，具体步骤如下：

由于各个特征对各子类问题的分类能力有所不同，因此对每个子类问题分别计算阈值，这样可以得到个阈值，为了减小阈值计算的时间复杂度，采用较简单的二分搜索方法，以计算由类构成的第个子类问题的阈值为例，来说明阈值的计算过程；

首先设置阈值的初值为，即为所有特征对第个子类问题的分类区分能力的均值；对所有特征按分类区分能力进行降序排序，并将最大值和最小值赋给变量；

在此基础上再进行基于贪心策略和分类能力结构互补的最优特征子集选取。具体步骤如下：

确定阈值后，将所有子问题中分类区分能力大于阈值的属性的并集作为初始特征子集。对于初始特征子集中每个特征，及其分类能力结构向量，计算其总的区分能力，即，对其结构向量分量为1的子问题的FDR值求加权和，作为总分类能力。按总分类能力大小对初始子集的特征降序排序。

从前往后依次选取对初始特征子集中的每个特征并与已选取的特征子集的所有特征进行比较，如果与所选特征子集中所有特征的分类能力结构向量都互补，则直接选取进入特征子集，即；否则，对于所有分类能力结构向量覆盖的特征，分别计算每个特征的样本误击向量与样本总误击向量或运算后，选择可使样本总误击向量中1的个数增加最多的特征进入特征子集，如果所有特征均不能使样本总误击向量变化，则不选。反复执行上述过程直到样本总误击向量为单位向量为止，则特征子集为选取的最优特征子集。

与本发明有关的概念和定义。

子类问题：

设给定具有个特征类的分类问题, 为特征集合，为类别，采用1-vs-1形式将其转化为由任意两类组成的个两分类子问题，其中。将其中的每个两分类子问题称为子类问题。

特征分类能力：

是某个特征对分类问题的分类能力的度量。本发明采用特征的Fisher判别率，即作为特征对子问题的分类能力值，简称为FDR值，其中样本中特征的平均值，而类样本中特征的平均值，分别是特征在两类样本上的方差。

特征分类能力结构向量：

某个特征对所有子问题的分类能力FDR值就构成了一个向量，这个向量被称为这个特征的分类能力结构向量。为了简化计算的复杂度，本发明采用基于二进制形式的分类能力结构向量，记为：

。

需要设置阈值将每个特征对各个子问题的分类能力FDR值转化为0或1。

本发明中特征的分类能力结构向量中对子问题的分量的计算公式定义如下：

样本误击向量：

为了分别计算各子类问题的阈值及特征子集选择还引入了样本误击向量，以使得所选取的子集能分类所有的样本。

如果一个属于1类的样本，其特征值在2类所有样本的特征值的最小值和最大值之间的话，则认为该1类样本被特征否则为击中。

则第个子问题中特征的样本误击向量记为：

，0表示该分量所对应样本被误击，1表示击中。且唯一确定。

将特征的全部子问题的样本误击向量连接进来，作为特征的样本误击向量。

1.覆盖：

假设两个特征和的结构向量分别为，如果有

那么就称特征覆盖了特征，记为，否则特征没有覆盖特征，记为。

2.分类能力结构向量互补特征：

对于特征和，如果成立，则称这两个特征是分类能力结构向量互补特征，记为。

3.初始特征子集和最优特征子集

初始特征子集：确定阈值后，将所有子问题中分类区分能力大于阈值的属性的并集作为初始特征子集。

最优特征子集：在初始特征子集中按照特征分类能力结构向量互补性最大化原则和贪心策略选取的特征子集称为最优特征子集。

本发明公开的基于分类能力结构向量互补的特征子集选取方法与现有技术相比所具有的积极效果在于：

（1）本发明的选取方法不仅充分考虑每个特征对于不同类别的分类能力不同的评价，而且也在特征选取过程中遵循分类能力结构互补性最大化的原则。这种方法既符合优势互补的自然规律，也能将特征分类信息发挥到极致，从而获得更好的特征子集，以有效减少冗余特征，提高分类预测的准确率。

（2）本发明的选取方法可以解决现有的特征选取方法中分类能力度量方法都是以单一值作为一个特征或特征子集的分类能力的综合评价，而忽略了每个特征对于不同类别的分类能力不同的评价的问题。实验结果证明基于分类能力结构向量互补的特征子集选取方法能有效减少冗余特征，提高分类预测的准确率，是有效的。

（3）本发明可用于癌症数据集的分类预测，改进预测准确率，有利于发现引起癌症发生的重要基因，以至于更好的研究治疗癌症的靶向药物。

附图说明

图1分类问题数据集；

图2 为基于二分法计算阈值的算法流程图。

具体实施方式

为了更充分的解释本发明的实施，下面通过附图及实施例对本发明做进一步描述。这些实施实例仅仅是解释、而不是限制本发明的范围。

实施例1

1. 读取分类问题数据集。

通常分类问题数据集是一个二维矩阵，例如具有例如具有个特征类个样本的分类问题的数据集如图1所示，其中表示第个样本的第个特征的特征值，表示第个样本的类别。表1显示了乳腺癌breast数据集中部分样本的部分特征基因的表达值，其中第二行为样本类别，第三行为第一个特征在各个样本上的表达值，其他行依此类推，一列表示一个样本，即某个人的各特征表达值及类别。将数据集中各样本的所有特征值读到二维数组，将各样本的类别读到一维数组中。

表1 乳腺癌breast数据集中部分样本的部分特征基因的表达值

2.计算各个特征对每个子类问题的分类区分能力值，即。

首先采用1-vs-1形式将多类分类问题转化为由任意两类组成的个两分类子问题，其中。再采用Fisher判别率作为特征对子问题分类区分能力值，

则特征：

对第个子问题的分类区分能力，记为,设第个子问题中包含类别为样本，则

计算公式如下：

，

其中类样本中特征的平均值，而类样本中特征的平均值，分别是特征在两类样本上的方差。

按照上述计算方法，分别计算每个特征对第个子问题的分类区分能力，其中，。这样每个特征对各个子问题的分类区分能力就构成了一个向量，，称为特征分类能力结构向量。

3.采用二分法分别计算各个子类问题的阈值。

由于各个特征对各子类问题的分类能力有所不同，因此对每个子类问题分别计算阈值，这样可以得到个阈值，为了减小阈值计算的时间复杂度，采用较简单的二分搜索方法。以计算由构成的第个子类问题的阈值为例，来说明阈值的计算过程，其相应算法流程图如图2所示。

首先设置阈值的初值为；对所有特征按分类区分能力值进行降序排序，并将其最大值和最小值赋给变量

取所有特征对该子类问题的FDR值的均值为初始阈值，Flag=0。

将所有值小于此阈值的特征的分类能力结构向量中对应子问题的分量清为0，而大于此阈值的特征所对应的分类能力结构向量的对应分量置为1。

对所有分类能力结构分量为1的特征，计算它们误击向量的或，即如果是单位向量且Flag=0，则取全部结构分量为1的特征的值的均值为新阈值，将所有值小于此阈值的特征的分类能力结构向量中对应子问题的分量清为0。否则如果不是单位向量，则取全部结构分量为0的特征的值的均值为阈值，Max更新为原，将大于此阈值的特征所对应的分类能力结构向量的对应分量置为1，同时Flag=1。

再对所有分类能力结构分量为1的特征，计算它们误击向量的或，即。

反复执行这个过程直到使得是单位向量且Flag=1为止。则此时的阈值记为最后阈值。

4.基于贪心策略和分类能力结构互补的最优特征子集选取，其算法如算法1所示。

每个子问题的阈值确定后，将所有子问题中分类区分能力大于阈值的属性的并集作为初始特征子集。对于初始特征子集中每个特征及其分类能力结构向量，计算其总的区分能力，即，对其结构向量分量为1的子问题的FDR值求加权和，作为总分类能力。按总分类能力大小对初始子集的特征降序排序。

按分类能力结构向量，计算特征计算特征对全部样本的误击向量，即，对于某一子问题若该特征对应的结构向量分量为1，则此子问题样本对应的误击向量即为前者算法中的误击向量若结构向量分量为0，则其对应的子问题的误击向量为0向量。将全部子问题的误击向量连接进来，作为特征的误击向量。

从前往后依次选取对初始特征子集中的每个特征，并与已选取的特征子集的所有特征进行比较，如果与所选特征子集中所有特征的分类能力结构向量都互补，则直接选取进入特征子集，即否则对于所有分类能力结构向量覆盖的特征，分别计算每个特征的样本误击向量与样本总误击向量或运算后，选择可使样本总误击向量中1的个数增加最多的特征进入特征子集。如果所有特征均不能使样本总误击向量变化，则不选。反复执行上述过程直到样本总误击向量为单位向量为止，则特征子集为选取的最优特征子集。

算法1：基于贪心策略和分类能力结构互补的最优特征子集选取

输入：各个子问题的分类区分能力阈值；

输出：最优特征子集

初始化集合样本总误击向量Hit为0向量；

For 每个特征 if then

For 每个特征

计算其总的区分能力

按总分类能力大小对初始子集的特征降序排序

计算CF中每个特征对全部样本的误击向量

do

For 每个特征 then

if特征的误击向量

else

max=样本总误击向量的或运算后向量中1的个数，

For 每个特征

if then

计算特征的样本误击向量与样本总误击向量的或运算后向量中1的个数b

If b>max then

if 特征的误击向量

while

实施例2

本发明的实验结果和数据：

本发明的实验数据集-乳腺癌(breast)，于2007年下载自http://www.ccbm.jhu.edu/，参见参考文献。breast数据集含有5个类别、9216个特征及54个样本。采用传统的客观评价指标来测试算法的性能，主要有选取特征的个数及分类预测准确率，其中特征选取的个数是指使用特征选取方法选取的特征的个数，分类预测准确率是将选取的特征子集作为分类器的输入获得的准确率。为了验证本发明提出的方法的有效性，将它与现有的FCBF、CFS、mrMr、Relief等属性选择方法进行比较。由于mrMr和Relief方法只是对特征进行评价并给出排序结果，而不是特征子集，为了能与本发明方法选取的特征子集分类结果进行比较，分别将CFS、mrMr和Relief中特征评价方法与FCBF特征子集选取方法结合得到CFS_FCBF、mrMr_FCBF和Relief_FCBF特征子集选取方法。为了展现特征选取的必要性，也将本发明提出的方法与直接使用全部特征进行分类预测(Orig)的结果进行比较。使用的分类器有朴素贝叶斯（NB）、支持向量机（SVM）、k近邻（KNN）、决策树（C4.5）、随机森林（RF）和简单分类与回归树（SCart）。

表2中显示了使用本发明提出的方法在breast数据集上选取的最优特征子集中的特征、特征所在子问题中的排名和FDR总值的排名，及这些特征在其他比较方法中的排名与是否被选择。从表2中可以看出本发明提出的方法选择的特征中都是在子问题中排名在前面，但是部分特征却在总排名中及其他现有方法排名的后面。例如特征8715_A8715、9063_A9063，虽然在总排名中名次靠后，但是在子问题中排名在前，故被本发明提出的方法选取，但其他方法未被选取。

表3给出了不同方法在breast数据集上选取特征的个数的比较。表4显示了本发明提出的方法与其他方法分类预测准确率的比较。

从表3和表4 中可以看出本发明提出的方法优于其它四种方法。本发明提出的方法不仅选择了相对较少的特征，而且在各个分类器上都获得了最高的分类精度。还可以看出使用特征选取方法选择特征子集后进行分类预测的结果优于未使用特征选取的。

所有这些都表明了本发明提出的方法是有效的，可以获得较好的特征子集。

参考文献：

A.C. Tan, D.Q. Naiman, L. Xu, R.L.Winslow, D. Geman, Simple decisionrules for classifying human cancers from gene expression profiles,Bioinformatics, 2005, 21(20):3896–3904.

表2 本发明提出的方法在breast数据集上选取的最优特征子集

表3 不同方法在breast数据集上选取特征的个数

表4本发明提出的方法与其他方法分类预测准确率的比较

Claims

1.基于分类能力结构向量互补的最优特征子集选取方法，其特征在于，该方法具体步骤如下：

第一步：定义基于二进制形式的特征分类能力结构向量及分类能力结构互补特征，计算各个特征分类能力结构向量；

第二步：采用二分法分别计算各个子类问题的特征分类能力阈值；

第三步：在上述步骤基础上按照所选特征子集中不同特征的结构互补性最大化原则和贪心策略进行最优特征子集选取；

其中所述特征分类能力结构向量的计算步骤如下：

对于具有个特征类的分类问题，为特征集合，为类别，首先采用1-vs-1形式将其转化为由任意两类组成的个两分类子问题，其中再采用Fisher判别率作为特征对子问题分类区分能力值，简称FDR值，记为,分别计算每个特征对第个子问题的分类区分能力，其中，，最后再根据下述阈值计算方法获得类区分能力的阈值将所有值转化为0或1，从而得到每个特征对各个子问题的分类能力结构向量；

所述子类问题阈值的计算步骤如下：

由于各个特征对各子类问题的分类能力有所不同，因此对每个子类问题分别计算阈值，这样可以得到个阈值，为了减小阈值计算的时间复杂度，采用较简单的二分搜索方法，以计算由类和类构成的第个子类问题的阈值为例，来说明阈值的计算过程；

首先设置阈值的初值为即为所有特征对第个子类问题的分类区分能力的均值；对所有特征按分类区分能力进行降序排序，并将最大值和最小值赋给变量取所有特征对该子类问题的FDR值的均值为初始阈值Flag=0；

将所有值小于此阈值的特征的分类能力结构向量中对应子问题的分量清为0，而大于此阈值的特征所对应的分类能力结构向量的对应分量置为1；

对所有分类能力结构分量为1的特征计算它们样本误击向量的或，即其中样本误击向量的定义如下：

如果一个属于1类的样本，其特征值在2类所有样本的特征值的最小值和最大值之间的话，则认为该1类样本被特征误击，否则为击中；则第个子问题中特征的样本误击向量记为， 0表示该分量所对应样本被误击，1表示击中；且唯一确定；将特征的全部子问题的样本误击向量连接起来构成的向量就是特征的样本误击向量；

如果是单位向量且Flag=0，则取全部结构分量为1的特征的值的均值为新阈值将所有值小于此阈值的特征的分类能力结构向量中对应子问题的分量清为0；

否则如果不是单位向量，则取全部结构分量为0的特征的值的均值为阈值更新为原将大于此阈值的特征所对应的分类能力结构向量的对应分量置为1，同时Flag=1；再对所有分类能力结构分量为1的特征，计算它们样本误击向量的或，即；反复执行这个过程直到使得是单位向量且Flag=1为止；则此时的阈值记为最后阈值；

所述最优特征子集选取方法步骤如下：

确定阈值后，将所有子问题中分类区分能力大于阈值的属性的并集作为初始特征子集；

对于初始特征子集中每个特征，及其分类能力结构向量，计算其总的区分能力，即，对其结构向量分量为1的子问题的FDR值求加权和，作为总分类能力；

按总分类能力大小对初始子集的特征降序排序；

从前往后依次选取对初始特征子集中的每个特征，并与已选取的特征子集的所有特征进行比较，如果与所选特征子集中所有特征的分类能力结构向量都互补，则直接选取进入特征子集，即否则，对于所有分类能力结构向量覆盖的特征，分别计算每个特征的样本误击向量与样本总误击向量或运算后，选择可使样本总误击向量中1的个数增加最多的特征进入特征子集，如果所有特征均不能使样本总误击向量变化，则不选；

反复执行上述过程直到样本总误击向量为单位向量为止，则特征子集为选取的最优特征子集。