CN106203515A - 多准则融合应用于高维小样本数据特征选择的方法 - Google Patents
多准则融合应用于高维小样本数据特征选择的方法 Download PDFInfo
- Publication number
- CN106203515A CN106203515A CN201610549968.9A CN201610549968A CN106203515A CN 106203515 A CN106203515 A CN 106203515A CN 201610549968 A CN201610549968 A CN 201610549968A CN 106203515 A CN106203515 A CN 106203515A
- Authority
- CN
- China
- Prior art keywords
- feature selection
- feature
- sample data
- cluster
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 206010008190 Cerebrovascular accident Diseases 0.000 claims description 4
- 208000006011 Stroke Diseases 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000000714 time series forecasting Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种多准则融合应用于高维小样本数据特征选择的方法包,其括以下步骤:1)初始化样本数据集并对其进行聚类;2)用Fisher Ratio方法与ReliefF法,分别对完成聚类的样本进行特征选取;3)融合特征选择结果并对各个类加以不同的惩罚因子,然后采用融合结果训练PSVM分类器;4)采用完成训练的分类器对样本数据集进行回归,并剔除相关性最小的特征,更新样本数据集;5)判断编码是否结束;如果是,则结束迭代;若果否,则重复步骤2~4,直到实现特征选择。本多准则融合应用于高维小样本数据特征选择的方法,于高维小样本数据特征选择领域,显著的加快了特征选择的速度和效率,并大大提高了特征选择结果的稳定性。
Description
技术领域
本发明涉及一种特种选择方法,特别涉及一种多准则融合应用于高维小样本数据特征选择的方法。
背景技术
特征选择是模式识别领域的核心问题之一,其研究得到了世界各国学者的重视。特征选择算法通过合理选择有效特征达到减少特征维数的目的,不但可以消除信息冗余,提高分类效率,加快运算速度,而且还可以降低分类器的复杂性和分类错误率。目前,特征选择方法已广泛应用到图像检索、文本分类和基因分析等方面。然而当前大多数特征选择算法的选择结果对于训练集的变化非常敏感,即算法稳定性较差。对于给定的数据集,某个具体的特征选择算法构成的模型可以得到最好的分类准确率,但当训练数据集发生变化时,特征选择算法需要重新训练才能有较好的分类结果。这种过拟合现象与特征选择方法及分类算法均有关。这个问题在高维小样本数据集上尤为突出,具体表现为训练数据集即使只发生了稍微改变,得到的最优特征子集也会出现较大的差异,分类模型的性能也会发生较大的变化。因此,为了提高分类性能的可信度,在对高维小样本数据集降维的同时,我们需要选用稳定性高的特征选择算法。
发明内容
本发明要解决的技术问题是如何克服现有技术的上述缺陷,基于聚类和信息融合的思想,提出一种新颖的特征选择方法——基于多准则融合的多项式核支持向量机(MCF-PSVM),并以此为基础,提供一种多准则融合应用于高维小样本数据特征选择的方法。
为解决上述技术问题,本多准则融合应用于高维小样本数据特征选择的方法包括以下步骤:
步骤1):初始化样本数据集并对其进行聚类;
步骤2):用Fisher Ratio方法与ReliefF法,分别对完成聚类的样本进行特征选取;
步骤3):融合特征选择结果并对各个类加以不同的惩罚因子,然后采用融合结果训练PSVM分类器;
步骤4):采用完成训练的分类器对样本数据集进行回归,并剔除相关性最小的特征,更新样本数据集;
步骤5):判断编码是否结束;如果是,则结束迭代;如果否,则重复步骤2~4,直到实现特征选择。
作为进一步具体说明:步骤1)所述聚类具体方法为,采用k-均值聚类方法对训练样本进行聚类,其中第k个群聚用集合Gk来表示,假设Gk包含n笔资料{x1,x2,…xn},k-均值聚类的任务便是找到一组m个代表点Y={y1,y2,…ym}使目标函数越小越好,其中yk是的Gk聚类中心,聚类的数目采用实验的方法确定。
作为进一步具体说明:步骤3)所述PSVM分类器为多项式核支持向量机分类器,其具体算法为,
其中,a是拉格朗日乘子,class1,…,classN指聚类后的类别,class Index指类别的标记,l1,l2,…ln指每类中的样本点数目,Ci表示每类的惩罚因子。
作为优化选择:步骤1)所述k的值为8。
如此设计的理论在于:以往的研究中,往往只对单一特征选择算法进行鲁棒性、稳定性的研究,对多种特征选择算法融合的研究比较少。Marina Skurichina认为特征选择后那些未被选择的特征中可能存在有用的信息。由于对这些特征的忽略可能会导致特征选择及模式识别的性能变差,建议使用融合的方法对被忽略特征中的有用信息进行利用。但是并不是所有的特征选择准则都能进行融合。如果两种特征选择的准则相似,那么这两种准则的融合对于提高选择算法的稳定性作用不大。因此我们在选取特征选择准则时,准则的多样性是必须考虑的问题。特性互异的准则既可以相互补充又可以避免发生重叠。显然,我们没有必要也不可能对所有的特征选择准则进行融合。为了简化计算,降低计算量,同时达到保证选择准则多样性的目的,本发明选取Fisher Ratio方法与ReliefF法的选择准则进行融合。Fisher Ratio方法属于特征选择Filter类中的一种基本方法,它的评估标准直接由数据集求得,具有计算代价小,效率高等特点。ReliefF则是一种权值搜索的特征子集选择方法。考虑到多项式核支持向量机(Polynomial Support Vector Machine,PSVM)是一种新的基于统计学习理论的机器学习方法,它具有很强大的容错能力和泛化能力。研究表明,PSVM的泛化能力不会随着阶数的增加而降低。它克服了传统机器学习中过学习、欠学习、局部最小值、维数灾难等问题。所以本发明选取多项式核支持向量机作为特征选择的分类器。在对大量数据进行模式分类和时间序列预测时,如何提高算法数据处理的实时性,缩短样本的训练时间,仍是亟待解决的问题。k-均值聚类作为机器学习领域中最具代表性的分类方法之一,它的特点是在大量高维的资料点中找出具有代表性的资料点作为群中心,用这些少数点代表特定类别的资料,降低资料量及计算量,避免其他无关信息的影响,最终可提高特征选择的速度和效率。
本多准则融合应用于高维小样本数据特征选择的方法,首先对样本数据进行预处理并将其聚合成K类;然后采用两种特性各异的特征选择方法对完成聚类的样本数据集进行特征选择;为了保证特征选择的稳定性,同时达到平衡样本分布,降低训练的资料量及计算量的目的,该方法接着对各类数据样本加以不同的惩罚因子并将前一步骤得到的特征选择结果进行融合用以训练PSVM分类器;其次采用完成训练的分类器对样本数据集进行回归,剔除相关性最小的特征;最后对数据集进行特征重组,实现特征选择。其有益效果在于,应用于高维小样本数据选择领域,显著的加快了特征选择的速度和效率,并大大提高了特征选择结果的稳定性。
附图说明
下面结合附图对本发明本多准则融合应用于高维小样本数据特征选择的方法进一步说明:
图1是对照例中四种方法在进行特征选择时的识别误差;
图2是对照例中四种方法的AUC值;
图3是对照例中四种方法的标准差;
图4是种方法的稳定性度量的对比图;
具体实施方式
实施例:本多准则融合应用于高维小样本数据特征选择的方法包括以下步骤:
步骤1):步骤1)所述聚类具体方法为,采用k-均值聚类方法对训练样本进行聚类,其中第k个群聚用集合Gk来表示,假设Gk包含n笔资料{x1,x2,…xn},k-均值聚类的任务便是找到一组m个代表点Y={y1,y2,…ym}使目标函数越小越好,其中yk是的Gk聚类中心,聚类的数目采用实验的方法确定。本实施例所述k的值为8。
步骤2):用Fisher Ratio方法与ReliefF法,分别对完成聚类的样本进行特征选取;
步骤3):融合特征选择结果并对各个类加以不同的惩罚因子,然后采用融合结果训练PSVM分类器;所述PSVM分类器为多项式核支持向量机分类器,其具体算法为,
其中,a是拉格朗日乘子,class1,…,classN指聚类后的类别,class Index指类别的标记,l1,l2,…ln指每类中的样本点数目,Ci表示每类的惩罚因子。
步骤4):采用完成训练的分类器对样本数据集进行回归,并剔除相关性最小的特征,更新样本数据集;
步骤5):判断编码是否结束;如果是,则结束迭代;若果否,则重复步骤2~4,直到实现特征选择。
对照例:本对照例采用普林斯顿大学提供的结肠癌数据进行仿真实验。该数据集包含62个样本,其中22个为正常样本,40个为肿瘤样本,每个样本包含有2000个基因,这2000个基因是Alon等根据一定的准则从原始数据6500个基因中挑选出来的具有代表性的基因。针对该高维小样本数据集,本对照例将从识别误差、AUC值、标准差以及稳定性等四个方面对本实施例提出方法、FisherRatio方法、ReliefF以及PSVM做特征提取性能评价。
如图1所示:本实施例所提出方法的特征识别精度优于其他三种方法,它仅提取了150个特征便实现了最低的识别误差,此时的识别误差为12.96%。而Fisher Ratio方法,ReliefF以及PSVM在提取到第150个特征时,它们各自的识别误差分别为14.70%,14.73%,15.93%。
本对照例考虑到,ROC曲线下的面积(AUC)通常会被用来度量分类性能。AUC值越大,表示分类性能越好。故本对照例在进行仿真实验时采用AUC来评价几种特征选择方法的分类性能。
如图2所示,结合图1所示的各个方法的识别误差值可以看出,当提取到150个特征时,本实施例提出方法的AUC值大于其它三种方法,表明在对特征实现最精确选择时,MCF-PSVM的分类性能也同时优于其他三种方法。
如图3所示,通过分析该仿真结果可知,本实施例提出方法的性能优于其它三种特征提取方法。当提取到第150个特征时,本实施例方法的标准差仅为0.0446。而识别精度仅次于本实施例提出方法的RliefF,它的标准差此时为0.050;Fisher Ratio方法的标准差为0.0451;PSVM的最大,达到了0.0561。
如图3所示,通过分析该仿真结果可知,本实施例所提出方法的稳定性优于多项式核支持向量机和ReliefF方法,但较Fisher Ratio方法差。这是因为本实施例提出的算法是一种嵌入式的特征选择算法。与Fisher Ratio方法相比,它在进行特征选择时更加充分地考虑了特征之间的依赖性,这样处理的结果是可以更加精确地提取特征,实现模式的识别。图1中的前三个仿真结果也充分证实了这一点。而ReliefF作为一种filter式的特征选择方法,它在进行特征选择时虽然也考虑了特征之间的相关性,但它的特征选择稳定性明显低于本如图3所示,提出的方法。与PSVM相比,仿真结果表明,如图3所示,所提方法的稳定性明显优于前者。
值得一提的是,在评价一个特征选择方法的性能时,我们需要综合考虑方法对于特征识别的精度、效率及稳定性。基于此并结合以上仿真分析结果,我们可以得出结论:在对高维小样本数据进行特征选择时,本实施例提出的MCF-PSVM方法其综合性能优于其它三种方法。
上述实施方式旨在举例说明本发明可为本领域专业技术人员实现或使用,对上述实施方式进行修改对本领域的专业技术人员来说将是显而易见的,故本发明包括但不限于上述实施方式,任何符合本权利要求书或说明书描述,符合与本发明所公开的原理和新颖性、创造性特点的方法,均落入本发明的保护范围之内。
Claims (4)
1.一种多准则融合应用于高维小样本数据特征选择的方法,其特征是:该方法包括以下步骤:
步骤1):初始化样本数据集并对其进行聚类;
步骤2):用Fisher Ratio方法与ReliefF法,分别对完成聚类的样本进行特征选取;
步骤3):融合特征选择结果并对各个类加以不同的惩罚因子,然后采用融合结果训练PSVM分类器;
步骤4):采用完成训练的分类器对样本数据集进行回归,并剔除相关性最小的特征,更新样本数据集;
步骤5):判断编码是否结束;如果是,则结束迭代;如果否,则重复步骤2~4,直到实现特征选择。
2.根据权利要求1所述的多准则融合应用于高维小样本数据特征选择的方法,其特征是:步骤1)所述聚类具体方法为,采用k-均值聚类方法对训练样本进行聚类,其中第k个群聚用集合Gk来表示,假设Gk包含n笔资料{x1,x2,…xn},k-均值聚类的任务便是找到一组m个代表点Y={y1,y2,…ym}使目标函数越小越好,其中yk是的Gk聚类中心,聚类的数目采用实验的方法确定。
3.根据权利要求1所述的多准则融合应用于高维小样本数据特征选择的方法,其特征是:步骤3)所述PSVM分类器为多项式核支持向量机分类器,其具体算法为:
其中,a是拉格朗日乘子,class1,…,classN指聚类后的类别,class Index指类别的标记,l1,l2,…ln指每类中的样本点数目,Ci表示每类的惩罚因子。
4.根据权利要求2所述的多准则融合应用于高维小样本数据特征选择的方法,其特征是:步骤1)所述k的值为8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610549968.9A CN106203515A (zh) | 2016-07-13 | 2016-07-13 | 多准则融合应用于高维小样本数据特征选择的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610549968.9A CN106203515A (zh) | 2016-07-13 | 2016-07-13 | 多准则融合应用于高维小样本数据特征选择的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106203515A true CN106203515A (zh) | 2016-12-07 |
Family
ID=57478130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610549968.9A Pending CN106203515A (zh) | 2016-07-13 | 2016-07-13 | 多准则融合应用于高维小样本数据特征选择的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106203515A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052720A (zh) * | 2017-12-07 | 2018-05-18 | 沈阳大学 | 一种基于迁移聚类的轴承性能退化评估方法 |
CN109657727A (zh) * | 2018-12-20 | 2019-04-19 | 四川新网银行股份有限公司 | 一种机器学习模型的动态融合方法及装置 |
CN110210403A (zh) * | 2019-06-04 | 2019-09-06 | 电子科技大学 | 一种基于特征构造的sar图像目标识别方法 |
CN111666275A (zh) * | 2020-06-10 | 2020-09-15 | 创新奇智(广州)科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
-
2016
- 2016-07-13 CN CN201610549968.9A patent/CN106203515A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052720A (zh) * | 2017-12-07 | 2018-05-18 | 沈阳大学 | 一种基于迁移聚类的轴承性能退化评估方法 |
CN109657727A (zh) * | 2018-12-20 | 2019-04-19 | 四川新网银行股份有限公司 | 一种机器学习模型的动态融合方法及装置 |
CN110210403A (zh) * | 2019-06-04 | 2019-09-06 | 电子科技大学 | 一种基于特征构造的sar图像目标识别方法 |
CN110210403B (zh) * | 2019-06-04 | 2022-10-14 | 电子科技大学 | 一种基于特征构造的sar图像目标识别方法 |
CN111666275A (zh) * | 2020-06-10 | 2020-09-15 | 创新奇智(广州)科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN111666275B (zh) * | 2020-06-10 | 2023-06-09 | 创新奇智(广州)科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103745200B (zh) | 一种基于词袋模型的人脸图像识别方法 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
Mouchere et al. | Icdar 2013 crohme: Third international competition on recognition of online handwritten mathematical expressions | |
CN103309953B (zh) | 一种基于多rbfnn分类器集成的多样化图像标注和检索方法 | |
CN105808524A (zh) | 一种基于专利文献摘要的专利自动分类方法 | |
CN105913296A (zh) | 一种基于图的个性化推荐方法 | |
CN106845717A (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN103258210B (zh) | 一种基于字典学习的高清图像分类方法 | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN106203515A (zh) | 多准则融合应用于高维小样本数据特征选择的方法 | |
CN103116762A (zh) | 一种基于自调制字典学习的图像分类方法 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN103632168A (zh) | 一种机器学习中的分类器集成方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN109961093A (zh) | 一种基于众智集成学习的图像分类方法 | |
CN106055661A (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN109857864A (zh) | 文本情感分类方法、装置、计算机设备及存储介质 | |
CN101295362A (zh) | 结合支持向量机以及近邻法的模式分类方法 | |
CN104598774A (zh) | 基于logistic与相关信息熵的特征基因选择方法 | |
CN110533316A (zh) | 一种基于大数据的产品生命周期分析方法、系统及存储介质 | |
CN105469063A (zh) | 鲁棒的人脸图像主成分特征提取方法及识别装置 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN105574213A (zh) | 一种基于数据挖掘技术的微博推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |