CN102945238A - 一种基于模糊isodata的特征选取方法 - Google Patents

一种基于模糊isodata的特征选取方法 Download PDF

Info

Publication number
CN102945238A
CN102945238A CN201210324487XA CN201210324487A CN102945238A CN 102945238 A CN102945238 A CN 102945238A CN 201210324487X A CN201210324487X A CN 201210324487XA CN 201210324487 A CN201210324487 A CN 201210324487A CN 102945238 A CN102945238 A CN 102945238A
Authority
CN
China
Prior art keywords
sigma
classification
clustering
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210324487XA
Other languages
English (en)
Inventor
刘全金
赵志敏
俞晓磊
汪东华
李颖新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU INSTITUTE OF STANDARDIZATION
Nanjing University of Aeronautics and Astronautics
Original Assignee
JIANGSU INSTITUTE OF STANDARDIZATION
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU INSTITUTE OF STANDARDIZATION, Nanjing University of Aeronautics and Astronautics filed Critical JIANGSU INSTITUTE OF STANDARDIZATION
Priority to CN201210324487XA priority Critical patent/CN102945238A/zh
Publication of CN102945238A publication Critical patent/CN102945238A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于模糊ISODATA的特征选取方法,属于机器学习领域。该方法利用分类和聚类算法的互补性,基于模糊ISODATA(Interactive Self-Organizing Data)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类,由此分析特征对聚类类别隶属度的灵敏度,并据此在递归特征选取过程中产生候选特征子集,然后根据候选特征子集在校验集中的分类和聚类结果选出类别信息最丰富的候选特征子集为最佳特征子集。本发明方法在选取出具有较强分类和聚类能力的关键特征的同时,特征选取的效率也比较高,对于不同数据集的特征选取也有较好的适应性,特征选取结果总体上优于传统方法。

Description

一种基于模糊ISODATA的特征选取方法
技术领域
本发明涉及特征选取方法,尤其涉及高维集数据的特征选取方法,属于机器学习领域。
背景技术
特征选取是机器学习中样本分类和识别的重要环节之一,其目的是降低特征维数,选取对样本分类至关重要的具有丰富类别信息的关键特征,提高分类质量和效率。特征选取具有很高的实际应用价值,对样本分类、聚类及亚型发现,特别是生物信息学领域的基因表达谱样本的类型识别有重要的作用。
为满足特征选取实际运用的需要,目前有大量的特征选取方法,其中绝大部分为将filter和wrapper方法相结合,基于分类模型进行的特征选取方法。(1)Guyon等人提出基于支持向量机的特征选取方法,I.Guyon,J.Weston,S.Barnhill,et al.,Gene selection for cancerclassification using support vector machines,Machine Learning,2002,46(1-3),他们对两个基因表达谱数据集进行了特征基因选取。(2)Cai等人提出基于互信量技术的特征选取方法,R.C.Cai,Z.F.Hao,X.W.Yang,W.Wen,An efficient gene selection algorithm based on mutualinformation,Neurocomputing,2009(72),对基因表达谱数据集进行了特征基因选取。
近年来,有文献研究如何融合分类算法和聚类算法的优势,利用二者的互补性进行特征选取和分类。(1)Yousef等人提出基于递归聚类剔除过程的选取特征基因选取方法,M.Yousef,S.Jung,LC Showe,MK Showe,Recursive Cluster Elimination(RCE)for classification and featureselection from gene expression data,BMC Bioinformatics,2007,8(1)144,这种方法在特征选取过程中引入聚类算法。(2)Cai等人提出分类和聚类算法相结合的学习框架,W.L.Cai,S.C.Chen,and D.Q.Zhang,A simultaneous learning framework for clustering and classification,Pattern Recognition,2009,42(7),这种方法以聚类时类内数据的紧密程度为参数,完成对聚类和分类的目标函数的合并和补充。
上述方法选取的关键特征有较强的分类能力,但聚类能力相对较弱。
发明内容
本发明针对上述特征选取方法的不足,利用分类和聚类算法的互补性,提出基于模糊ISODATA(Interactive Self-Organizing Data,又称模糊C均值聚类算法)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键信息特征。
本发明方法的流程如图1所示,该方法主要包括如下四个步骤:
第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;
第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类,分析特征对聚类类别隶属度的灵敏度,逐级筛选高灵敏度的特征组成候选特征子集;
特征灵敏度分析方法分为如下几步:
已知:训练集n个样本分别属于s个类别,每个样本有m个特征,第k个样本Xk={xk1,...,xkj,...,xkm},其中xkj为样本Xk的第j个特征。经模糊ISODATA聚类后,样本Xk对第i个聚类类别的隶属度 u ik = ( Σ j = 1 m ( x kj - v ij ) 2 ) - 1 / Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 , 第i个聚类中心的第j个特征值 v ij = Σ k = 1 n ( u ik ) 2 x kj Σ k = 1 n ( u ik ) 2 .
步骤1:对训练集样本进行模糊ISODATA聚类,根据样本对聚类类别的隶属度,分析特征对类别隶属度的灵敏度
Figure BSA00000773433200023
其中xpj为样本Xp的第j个特征值;
步骤2:样本Xk第j个特征对隶属度uik的灵敏度计算公式为:
当k=p时,
∂ u ik ∂ x pj | k = p = 2 ( Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 ) 2 { Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 · ( Σ j = 1 m ( x kj - v ij ) 2 ) - 2 ( x kj - v ij ) ( ∂ v ij ∂ x pj )
+ ( Σ j = 1 m ( x kj - v ij ) 2 ) - 1 · Σ t = 1 s [ ( Σ j = 1 m ( x kj - v tj ) 2 ) - 2 · ( x kj - v tj ) ] - Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 · ( Σ j = 1 m ( x kj - v ij ) 2 ) - 2 · ( x kj - v ij ) - 1
- ( Σ j = 1 m ( x kj - v ij ) 2 ) · Σ t = 1 s [ ( Σ j = 1 m ( x kj - v tj ) 2 ) - 2 ( x kj - v tj ) ( ∂ v tj ∂ x pj ) ] } ,
当k≠p时,
∂ u ik ∂ x pj | k ≠ p = 2 ( Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 ) 2 { Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 · ( Σ j = 1 m ( x kj - v ij ) 2 ) - 2 ( x kj - v ij ) ( ∂ v ij ∂ x pj )
- ( Σ j = 1 m ( x kj - v ij ) 2 ) - 1 · Σ t = 1 s [ ( Σ j = 1 m ( x kj - v tj ) 2 ) - 2 ( x kj - v tj ) ( ∂ v tj ∂ x pj ) ] } ,
式中 ∂ v ij / ∂ x pj = ( u ip ) 2 / Σ k = 1 n ( u ik ) 2 .
步骤3:计算第j个特征对隶属度的灵敏度:
Figure BSA00000773433200034
第三步骤:候选特征子集校验步骤,根据候选特征子集在校验集中的分类和聚类结果选择分类和聚类结果最佳的候选特征子集为最佳特征子集,校验步骤分为:
步骤1:分类校验,用支持向量机(Support Vector Machine,SVM)和K近邻(K-nearestneighbor algorithm,KNN)两个分类器检验候选特征子集的分类能力,先在训练集中训练分类器,再用训练过的分类器对校验集样本分类;
步骤2:聚类校验,用层次聚类(Hierarchical Clustering,Clustering)算法检验候选特征子集的聚类能力,对校验集样本聚类;
步骤3:最佳特征子集选择,以候选特征子集F在校验集中的分类和聚类正确率作为选择最佳特征子集的目标函数Object(F)=rightSVM(F)+rightKNN(F)+rightClustering(F),其中rightSVM(F)为支持向量机对校验集样本的分类正确率,rightKNN(F)为K近邻对校验集样本的分类正确率,rightClustering(F)为层次聚类算法对校验集样本的聚类正确率,以目标函数衡量候选特征子集所含的类别信息,选择目标函数最高的候选特征子集为最佳特征子集。
第四步骤:最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。
技术效果:
本发明是在对数据集样本进行模糊ISODATA聚类的基础上,分析特征对样本聚类类别的灵敏度并生成候选特征子集,用分类和聚类结果构建目标函数以选取最佳特征子集。本发明方法选取的最佳特征子集在具有较好分类和聚类能力的同时也因基于聚类算法选取特征而较好地保存了数据集的原始数据结构,对发现新的样本亚型有潜在的促进作用。另外,因为模糊ISODATA算法的低复杂度,所以本发明方法的运行效率比较高。同时,本发明对于不同数据集的特征选取也有较好的适应性。
附图说明
图1:本发明方法的流程图
图2:不同特征选取方法所选最佳特征子集在独立测试集中的分类和聚类结果
图3:不同特征选取方法选取特征的平均耗时
具体实施方式
下面对本发明方法作进一步说明。本发明方法的流程如图1所示,包括以下四个步骤:
第一步骤:按4∶1∶1将数据集随机分成训练集、校验集和独立测试集;
第二步骤:在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类,分析特征对聚类类别隶属度的灵敏度,并据此生成候选特征子集;
具体步骤为:
步骤1:根据被选特征数据对训练集样本进行模糊ISODATA聚类;
步骤2:根据聚类结果计算特征对聚类类别隶属度的灵敏度;
步骤3:根据特征的灵敏度值逐级过滤灵敏度低的特征,生成嵌套的候选特征基因子集。
第三步骤:用校验集对候选特征子集做分类和聚类校验,以校验结果构建目标函数,选出目标函数最高的候选特征子集作为最佳特征子集;
第四步骤:用独立测试集样本检测第三步骤选出的最佳特征子集的分类和聚类能力。
为了证明本发明的特征选取效果,我们对5个基因表达谱数据集进行特征选取实验验证,实验采用MATLAB语言编程实现。
我们分别用T检验(T-test)过滤方法、Relief过滤(Relief)方法、基于剪枝策略的互信息特征选取方法(MIGS-Pruning)、基于SVM的特征选取(SVM-RFE)方法和本发明基于模糊ISODATA的特征选取(ISODATA-RFE)方法在5个基因表达谱数据集中进行20次特征选取实验。5种特征选取方法选取的特征集合在独立测试集中的分类和聚类实验结果(错分和错聚样本数的平均值±标准差)如图2所示。
图3列出了5种特征选取方法在5个基因表达谱数据集上特征选取实验的平均耗时。
图2和图3表明,本发明基于模糊ISODATA的特征选取方法在5个基因表达谱数据集中选取的特征集合的分类和聚类结果优于其他4种特征选取方法,耗用的时间相对较少。同时,本发明对不同的类型的数据集也具较好的适应性。

Claims (3)

1.一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:
第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;
第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self-Organizing Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;
第三步骤:候选特征子集校验步骤,以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F),以目标函数Object(F)衡量候选特征子集所含的类别信息,选择目标函数最大的候选特征子集为最佳特征子集;
第四步骤:最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。
2.根据权利要求1所述的基于模糊ISODATA的特征选取方法,其特征在于,上述第二步骤中的特征灵敏度计算分析方法,包括如下步骤:
已知:训练集n个样本分别属于s个类别,每个样本有m个特征,第k个样本Xk={xk1,...,xkj,...,xkm},其中xkj为样本Xk的第j个特征。经模糊ISODATA聚类后,样本Xk对第i个聚类类别的隶属度 u ik = ( Σ j = 1 m ( x kj - v ij ) 2 ) - 1 / Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 , 第i个聚类中心的第j个特征值 v ij = Σ k = 1 n ( u ik ) 2 x kj Σ k = 1 n ( u ik ) 2 .
步骤1:对训练集样本进行模糊ISODATA聚类,根据样本对聚类类别的隶属度,分析特征对类别隶属度的灵敏度
Figure FSA00000773433100013
其中xpj为样本Xp的第j个特征值;
步骤2:样本Xk第j个特征对隶属度uik的灵敏度
Figure FSA00000773433100014
计算公式为:
当k=p时,
∂ u ik ∂ x pj | k = p = 2 ( Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 ) 2 { Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 · ( Σ j = 1 m ( x kj - v ij ) 2 ) - 2 ( x kj - v ij ) ( ∂ v ij ∂ x pj )
+ ( Σ j = 1 m ( x kj - v ij ) 2 ) - 1 · Σ t = 1 s [ ( Σ j = 1 m ( x kj - v tj ) 2 ) - 2 · ( x kj - v tj ) ] - Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 · ( Σ j = 1 m ( x kj - v ij ) 2 ) - 2 · ( x kj - v ij ) - 1
- ( Σ j = 1 m ( x kj - v ij ) 2 ) · Σ t = 1 s [ ( Σ j = 1 m ( x kj - v tj ) 2 ) - 2 ( x kj - v tj ) ( ∂ v tj ∂ x pj ) ] } ;
当k≠p时,
∂ u ik ∂ x pj | k ≠ p = 2 ( Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 ) 2 { Σ t = 1 s ( Σ j = 1 m ( x kj - v tj ) 2 ) - 1 · ( Σ j = 1 m ( x kj - v ij ) 2 ) - 2 ( x kj - v ij ) ( ∂ v ij ∂ x pj )
- ( Σ j = 1 m ( x kj - v ij ) 2 ) - 1 · Σ t = 1 s [ ( Σ j = 1 m ( x kj - v tj ) 2 ) - 2 ( x kj - v tj ) ( ∂ v tj ∂ x pj ) ] } ,
式中, ∂ v ij / ∂ x pj = ( u ip ) 2 / Σ k = 1 n ( u ik ) 2 ;
步骤3:计算第j个特征对隶属度的灵敏度:
Figure FSA00000773433100027
3.根据权利要求1所述的基于模糊ISODATA的特征选取方法,其特征在于,上述第三步骤具体包括如下步骤:
步骤1:分类校验,用支持向量机(Support Vector Machine,SVM)和K近邻(K-nearestneighbor algorithm,KNN)两个分类器检验候选特征子集的分类能力,先在训练集中训练分类器,再用训练过的分类器对校验集样本分类;
步骤2:聚类校验,用层次聚类(Hierarchical Clustering,Clustering)算法检验候选特征子集的聚类能力,对校验集样本聚类;
步骤3:最佳特征子集选择,以候选特征子集F在校验集中的分类和聚类正确率作为选择最佳特征子集的目标函数Object(F)=rightSVM(F)+rightKNN(F)+rightClustering(F),其中rightSVM(F)为支持向量机对校验集样本的分类正确率,rightKNN(F)为K近邻对校验集样本的分类正确率,rightClustering(F)为层次聚类算法对校验集样本的聚类正确率,以目标函数衡量候选特征子集所含的类别信息,选择目标函数最高的候选特征子集为最佳特征子集。
CN201210324487XA 2012-09-05 2012-09-05 一种基于模糊isodata的特征选取方法 Pending CN102945238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210324487XA CN102945238A (zh) 2012-09-05 2012-09-05 一种基于模糊isodata的特征选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210324487XA CN102945238A (zh) 2012-09-05 2012-09-05 一种基于模糊isodata的特征选取方法

Publications (1)

Publication Number Publication Date
CN102945238A true CN102945238A (zh) 2013-02-27

Family

ID=47728184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210324487XA Pending CN102945238A (zh) 2012-09-05 2012-09-05 一种基于模糊isodata的特征选取方法

Country Status (1)

Country Link
CN (1) CN102945238A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825081A (zh) * 2016-04-20 2016-08-03 苏州大学 一种基因表达数据分类方法及分类系统
CN107729916A (zh) * 2017-09-11 2018-02-23 湖南中森通信科技有限公司 一种基于isodata的干扰源分类识别算法及装置
CN108414472A (zh) * 2018-01-25 2018-08-17 宜宾学院 纯羊毛制品识别的近红外光谱方法
CN109660656A (zh) * 2018-11-20 2019-04-19 重庆邮电大学 一种智能终端应用程序识别方法
CN109740650A (zh) * 2018-12-20 2019-05-10 齐鲁工业大学 面向啤酒质量检测的模糊knn分类改进方法及系统
CN110647943A (zh) * 2019-09-26 2020-01-03 西北工业大学 基于演化数据聚类分析的切削刀具磨损监测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060535A (zh) * 2006-04-21 2007-10-24 深圳Tcl工业研究院有限公司 一种数字家庭网络设备自动分组的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060535A (zh) * 2006-04-21 2007-10-24 深圳Tcl工业研究院有限公司 一种数字家庭网络设备自动分组的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QUANJIN LIU ET AL: ""Feature selection based on sensitivity analysis of fuzzy ISODATA"", 《CONTENTS LISTS AVAILABLE AT SCIVERSE SCIENCEDIRECT NEUROCOMPUTING JOURNAL HOMEPAGE: WWW.ELSEVIER.COM/LOCATE/NEUCOM》, 22 February 2012 (2012-02-22), pages 29 - 37 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825081A (zh) * 2016-04-20 2016-08-03 苏州大学 一种基因表达数据分类方法及分类系统
CN105825081B (zh) * 2016-04-20 2018-09-14 苏州大学 一种基因表达数据分类方法及分类系统
CN107729916A (zh) * 2017-09-11 2018-02-23 湖南中森通信科技有限公司 一种基于isodata的干扰源分类识别算法及装置
CN107729916B (zh) * 2017-09-11 2021-11-19 湖南中森通信科技有限公司 一种基于isodata的干扰源分类识别算法
CN108414472A (zh) * 2018-01-25 2018-08-17 宜宾学院 纯羊毛制品识别的近红外光谱方法
CN109660656A (zh) * 2018-11-20 2019-04-19 重庆邮电大学 一种智能终端应用程序识别方法
CN109740650A (zh) * 2018-12-20 2019-05-10 齐鲁工业大学 面向啤酒质量检测的模糊knn分类改进方法及系统
CN110647943A (zh) * 2019-09-26 2020-01-03 西北工业大学 基于演化数据聚类分析的切削刀具磨损监测方法

Similar Documents

Publication Publication Date Title
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN102945238A (zh) 一种基于模糊isodata的特征选取方法
CN103150498B (zh) 基于单分类支持向量机的硬件木马识别方法
CN105159948A (zh) 一种基于多特征的医疗保险欺诈检测方法
CN101976360B (zh) 基于多级分类的稀疏表征人脸识别方法
CN105389593A (zh) 基于surf特征的图像物体识别方法
CN101980202A (zh) 不平衡数据的半监督分类方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN110414548A (zh) 基于脑电信号进行情感分析的层级Bagging方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN101540000A (zh) 基于纹理基元统计特性分析的虹膜分类方法
CN105893876A (zh) 芯片硬件木马检测方法和系统
CN109388816A (zh) 一种复杂岩性的分级识别方法
CN104809476A (zh) 一种基于分解的多目标进化模糊规则分类方法
CN104615789A (zh) 一种数据分类方法及装置
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN103679207A (zh) 一种手写体数字识别方法及系统
CN105354583A (zh) 基于局部均值的不平衡数据分类方法
Wani Microarray classification using sub-space grids
Yu et al. Estimating harmfulness of class imbalance by scatter matrix based class separability measure
CN102332087A (zh) 一种基于稀疏表示的人脸识别方法
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
CN110516741A (zh) 基于动态分类器选择的类别重叠不平衡数据分类方法
Chandrasekhar et al. Performance analysis of enhanced clustering algorithm for gene expression data
CN103886007A (zh) 一种基于相互约束的模糊数据分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130227