CN102945238A

CN102945238A - 一种基于模糊isodata的特征选取方法

Info

Publication number: CN102945238A
Application number: CN201210324487XA
Authority: CN
Inventors: 刘全金; 赵志敏; 俞晓磊; 汪东华; 李颖新
Original assignee: JIANGSU INSTITUTE OF STANDARDIZATION; Nanjing University of Aeronautics and Astronautics
Current assignee: JIANGSU INSTITUTE OF STANDARDIZATION; Nanjing University of Aeronautics and Astronautics
Priority date: 2012-09-05
Filing date: 2012-09-05
Publication date: 2013-02-27

Abstract

本发明提出了一种基于模糊ISODATA的特征选取方法，属于机器学习领域。该方法利用分类和聚类算法的互补性，基于模糊ISODATA(Interactive Self-Organizing Data)的灵敏度分析方法，从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类，由此分析特征对聚类类别隶属度的灵敏度，并据此在递归特征选取过程中产生候选特征子集，然后根据候选特征子集在校验集中的分类和聚类结果选出类别信息最丰富的候选特征子集为最佳特征子集。本发明方法在选取出具有较强分类和聚类能力的关键特征的同时，特征选取的效率也比较高，对于不同数据集的特征选取也有较好的适应性，特征选取结果总体上优于传统方法。

Description

一种基于模糊ISODATA的特征选取方法

技术领域

本发明涉及特征选取方法，尤其涉及高维集数据的特征选取方法，属于机器学习领域。

背景技术

特征选取是机器学习中样本分类和识别的重要环节之一，其目的是降低特征维数，选取对样本分类至关重要的具有丰富类别信息的关键特征，提高分类质量和效率。特征选取具有很高的实际应用价值，对样本分类、聚类及亚型发现，特别是生物信息学领域的基因表达谱样本的类型识别有重要的作用。

为满足特征选取实际运用的需要，目前有大量的特征选取方法，其中绝大部分为将filter和wrapper方法相结合，基于分类模型进行的特征选取方法。(1)Guyon等人提出基于支持向量机的特征选取方法，I.Guyon，J.Weston，S.Barnhill，et al.，Gene selection for cancerclassification using support vector machines，Machine Learning，2002，46(1-3)，他们对两个基因表达谱数据集进行了特征基因选取。(2)Cai等人提出基于互信量技术的特征选取方法，R.C.Cai，Z.F.Hao，X.W.Yang，W.Wen，An efficient gene selection algorithm based on mutualinformation，Neurocomputing，2009(72)，对基因表达谱数据集进行了特征基因选取。

近年来，有文献研究如何融合分类算法和聚类算法的优势，利用二者的互补性进行特征选取和分类。(1)Yousef等人提出基于递归聚类剔除过程的选取特征基因选取方法，M.Yousef，S.Jung，LC Showe，MK Showe，Recursive Cluster Elimination(RCE)for classification and featureselection from gene expression data，BMC Bioinformatics，2007，8(1)144，这种方法在特征选取过程中引入聚类算法。(2)Cai等人提出分类和聚类算法相结合的学习框架，W.L.Cai，S.C.Chen，and D.Q.Zhang，A simultaneous learning framework for clustering and classification，Pattern Recognition，2009，42(7)，这种方法以聚类时类内数据的紧密程度为参数，完成对聚类和分类的目标函数的合并和补充。

上述方法选取的关键特征有较强的分类能力，但聚类能力相对较弱。

发明内容

本发明针对上述特征选取方法的不足，利用分类和聚类算法的互补性，提出基于模糊ISODATA(Interactive Self-Organizing Data，又称模糊C均值聚类算法)的灵敏度分析方法，从高维数据集中选取出具有较强分类和聚类能力的关键信息特征。

本发明方法的流程如图1所示，该方法主要包括如下四个步骤：

第一步骤：数据集分割步骤，将数据集随机分成训练集、校验集和独立测试集，训练集用于生成候选特征子集，校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集，独立测试集用于进一步测试最佳特征子集的分类和聚类性能；

第二步骤：特征灵敏度分析步骤，在递归特征选取过程中，对训练集样本进行模糊ISODATA聚类，分析特征对聚类类别隶属度的灵敏度，逐级筛选高灵敏度的特征组成候选特征子集；

特征灵敏度分析方法分为如下几步：

已知：训练集n个样本分别属于s个类别，每个样本有m个特征，第k个样本X_k＝{x_k1，...，x_kj，...，x_km}，其中x_kj为样本X_k的第j个特征。经模糊ISODATA聚类后，样本X_k对第i个聚类类别的隶属度

u_{ik} = {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 1} / Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1},

第i个聚类中心的第j个特征值

v_{ij} = \frac{Σ_{k = 1}^{n} {(u_{ik})}^{2} x_{kj}}{Σ_{k = 1}^{n} {(u_{ik})}^{2}} .

步骤1：对训练集样本进行模糊ISODATA聚类，根据样本对聚类类别的隶属度，分析特征对类别隶属度的灵敏度

其中x_pj为样本X_p的第j个特征值；

步骤2：样本X_k第j个特征对隶属度u_ik的灵敏度计算公式为：

当k＝p时，

\frac{{&PartialD; u}_{ik}}{&PartialD; x_{pj}} |_{k = p} = \frac{2}{{(Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1})}^{2}} {Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1} \cdot {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 2} (x_{kj} - v_{ij}) (\frac{{&PartialD; v}_{ij}}{&PartialD; x_{pj}})

+ {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 1} \cdot Σ_{t = 1}^{s} [{(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 2} \cdot (x_{kj} - v_{tj})] - Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1} \cdot {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 2} \cdot {(x_{kj} - v_{ij})}^{- 1}

- (Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2}) \cdot Σ_{t = 1}^{s} [{(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 2} (x_{kj} - v_{tj}) (\frac{&PartialD; v_{tj}}{&PartialD; x_{pj}})]},

当k≠p时，

\frac{{&PartialD; u}_{ik}}{&PartialD; x_{pj}} |_{k &NotEqual; p} = \frac{2}{{(Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1})}^{2}} {Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1} \cdot {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 2} (x_{kj} - v_{ij}) (\frac{{&PartialD; v}_{ij}}{&PartialD; x_{pj}})

- {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 1} \cdot Σ_{t = 1}^{s} [{(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 2} (x_{kj} - v_{tj}) (\frac{&PartialD; v_{tj}}{&PartialD; x_{pj}})]},

式中

{&PartialD; v}_{ij} / &PartialD; x_{pj} = {(u_{ip})}^{2} / Σ_{k = 1}^{n} {(u_{ik})}^{2} .

步骤3：计算第j个特征对隶属度的灵敏度：

第三步骤：候选特征子集校验步骤，根据候选特征子集在校验集中的分类和聚类结果选择分类和聚类结果最佳的候选特征子集为最佳特征子集，校验步骤分为：

步骤1：分类校验，用支持向量机(Support Vector Machine，SVM)和K近邻(K-nearestneighbor algorithm，KNN)两个分类器检验候选特征子集的分类能力，先在训练集中训练分类器，再用训练过的分类器对校验集样本分类；

步骤2：聚类校验，用层次聚类(Hierarchical Clustering，Clustering)算法检验候选特征子集的聚类能力，对校验集样本聚类；

步骤3：最佳特征子集选择，以候选特征子集F在校验集中的分类和聚类正确率作为选择最佳特征子集的目标函数Object(F)＝right_SVM(F)+right_KNN(F)+right_Clustering(F)，其中right_SVM(F)为支持向量机对校验集样本的分类正确率，right_KNN(F)为K近邻对校验集样本的分类正确率，right_Clustering(F)为层次聚类算法对校验集样本的聚类正确率，以目标函数衡量候选特征子集所含的类别信息，选择目标函数最高的候选特征子集为最佳特征子集。

第四步骤：最佳特征子集测试步骤，用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力，分类器和聚类算法与第三步骤的分类器和聚类算法相同，用训练集数据训练过的分类器对独立测试集的样本分类，用聚类算法对独立测试集的样本聚类，分类和聚类结果直观反映最佳特征子集的分类和聚类能力。

技术效果：

本发明是在对数据集样本进行模糊ISODATA聚类的基础上，分析特征对样本聚类类别的灵敏度并生成候选特征子集，用分类和聚类结果构建目标函数以选取最佳特征子集。本发明方法选取的最佳特征子集在具有较好分类和聚类能力的同时也因基于聚类算法选取特征而较好地保存了数据集的原始数据结构，对发现新的样本亚型有潜在的促进作用。另外，因为模糊ISODATA算法的低复杂度，所以本发明方法的运行效率比较高。同时，本发明对于不同数据集的特征选取也有较好的适应性。

附图说明

图1：本发明方法的流程图

图2：不同特征选取方法所选最佳特征子集在独立测试集中的分类和聚类结果

图3：不同特征选取方法选取特征的平均耗时

具体实施方式

下面对本发明方法作进一步说明。本发明方法的流程如图1所示，包括以下四个步骤：

第一步骤：按4∶1∶1将数据集随机分成训练集、校验集和独立测试集；

第二步骤：在递归特征选取过程中，对训练集样本进行模糊ISODATA聚类，分析特征对聚类类别隶属度的灵敏度，并据此生成候选特征子集；

具体步骤为：

步骤1：根据被选特征数据对训练集样本进行模糊ISODATA聚类；

步骤2：根据聚类结果计算特征对聚类类别隶属度的灵敏度；

步骤3：根据特征的灵敏度值逐级过滤灵敏度低的特征，生成嵌套的候选特征基因子集。

第三步骤：用校验集对候选特征子集做分类和聚类校验，以校验结果构建目标函数，选出目标函数最高的候选特征子集作为最佳特征子集；

第四步骤：用独立测试集样本检测第三步骤选出的最佳特征子集的分类和聚类能力。

为了证明本发明的特征选取效果，我们对5个基因表达谱数据集进行特征选取实验验证，实验采用MATLAB语言编程实现。

我们分别用T检验(T-test)过滤方法、Relief过滤(Relief)方法、基于剪枝策略的互信息特征选取方法(MIGS-Pruning)、基于SVM的特征选取(SVM-RFE)方法和本发明基于模糊ISODATA的特征选取(ISODATA-RFE)方法在5个基因表达谱数据集中进行20次特征选取实验。5种特征选取方法选取的特征集合在独立测试集中的分类和聚类实验结果(错分和错聚样本数的平均值±标准差)如图2所示。

图3列出了5种特征选取方法在5个基因表达谱数据集上特征选取实验的平均耗时。

图2和图3表明，本发明基于模糊ISODATA的特征选取方法在5个基因表达谱数据集中选取的特征集合的分类和聚类结果优于其他4种特征选取方法，耗用的时间相对较少。同时，本发明对不同的类型的数据集也具较好的适应性。

Claims

1.一种基于模糊ISODATA的特征选取方法，其特征在于，包括如下步骤：

第二步骤：特征灵敏度分析步骤，在递归特征选取过程中，对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self-Organizing Data，又称模糊C均值聚类算法)，分析特征对聚类类别隶属度的灵敏度，并由灵敏度值较高的特征组成候选特征子集；

第三步骤：候选特征子集校验步骤，以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F)，以目标函数Object(F)衡量候选特征子集所含的类别信息，选择目标函数最大的候选特征子集为最佳特征子集；

2.根据权利要求1所述的基于模糊ISODATA的特征选取方法，其特征在于，上述第二步骤中的特征灵敏度计算分析方法，包括如下步骤：

u_{ik} = {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 1} / Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1},

第i个聚类中心的第j个特征值

v_{ij} = \frac{Σ_{k = 1}^{n} {(u_{ik})}^{2} x_{kj}}{Σ_{k = 1}^{n} {(u_{ik})}^{2}} .

其中x_pj为样本X_p的第j个特征值；

步骤2：样本X_k第j个特征对隶属度u_ik的灵敏度

计算公式为：

当k＝p时，

\frac{{&PartialD; u}_{ik}}{&PartialD; x_{pj}} |_{k = p} = \frac{2}{{(Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1})}^{2}} {Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1} \cdot {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 2} (x_{kj} - v_{ij}) (\frac{{&PartialD; v}_{ij}}{&PartialD; x_{pj}})

+ {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 1} \cdot Σ_{t = 1}^{s} [{(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 2} \cdot (x_{kj} - v_{tj})] - Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1} \cdot {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 2} \cdot {(x_{kj} - v_{ij})}^{- 1}

- (Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2}) \cdot Σ_{t = 1}^{s} [{(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 2} (x_{kj} - v_{tj}) (\frac{&PartialD; v_{tj}}{&PartialD; x_{pj}})]};

当k≠p时，

\frac{{&PartialD; u}_{ik}}{&PartialD; x_{pj}} |_{k &NotEqual; p} = \frac{2}{{(Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1})}^{2}} {Σ_{t = 1}^{s} {(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 1} \cdot {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 2} (x_{kj} - v_{ij}) (\frac{{&PartialD; v}_{ij}}{&PartialD; x_{pj}})

- {(Σ_{j = 1}^{m} {(x_{kj} - v_{ij})}^{2})}^{- 1} \cdot Σ_{t = 1}^{s} [{(Σ_{j = 1}^{m} {(x_{kj} - v_{tj})}^{2})}^{- 2} (x_{kj} - v_{tj}) (\frac{&PartialD; v_{tj}}{&PartialD; x_{pj}})]},

式中，

{&PartialD; v}_{ij} / &PartialD; x_{pj} = {(u_{ip})}^{2} / Σ_{k = 1}^{n} {(u_{ik})}^{2};

步骤3：计算第j个特征对隶属度的灵敏度：

3.根据权利要求1所述的基于模糊ISODATA的特征选取方法，其特征在于，上述第三步骤具体包括如下步骤：