CN114547405A - 一种低成本、高准确率的特征选择方法 - Google Patents

一种低成本、高准确率的特征选择方法 Download PDF

Info

Publication number
CN114547405A
CN114547405A CN202210160725.1A CN202210160725A CN114547405A CN 114547405 A CN114547405 A CN 114547405A CN 202210160725 A CN202210160725 A CN 202210160725A CN 114547405 A CN114547405 A CN 114547405A
Authority
CN
China
Prior art keywords
cost
population
feature selection
accuracy
individuals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210160725.1A
Other languages
English (en)
Inventor
孙庚�
李家辉
于文玉
康辉
王爱民
梁爽
纪柏
刘剑桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202210160725.1A priority Critical patent/CN114547405A/zh
Publication of CN114547405A publication Critical patent/CN114547405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种低成本、高准确率的特征选择方法,包括:步骤一、获取数据集以及获取特征所需的费用集,进行数据提取;步骤二、对提取到的数据集进行标准化处理;步骤三、将特征选择和目标成本构建成为一个多目标优化问题;步骤四、将所述多目标优化问题映射为一个二进制解空间的优化问题;步骤五、通过多目标优化算法对所述优化问题进行求解;步骤六、当所述算法经过多次迭代获得最优特征子集时,则筛选出符合要求的目标解;否则重复步骤五。通过多目标优群优化算法对优化问题进行求解,并经过多次迭代后得到最优特征子集,从而实现目标成本最小化的特征选择,不仅可以降低特征数目、提高分类准确率,还能够完成最小化特征来源的获取成本。

Description

一种低成本、高准确率的特征选择方法
技术领域
本发明涉及一种低成本、高准确率的特征选择方法,属于智能优化算法领域。
背景技术
随着计算机技术和信息系统应用的日益广泛,不同的行业的海量设备会产生大量、大维度的数据集合。这些大型数据集合促进了机器学习在许多学科的应用,研究人员从大型数据集中抽取特征用于分类和聚类,从而将海量的数据转化为有用的信息。但大型数据集中包含部分不相关、冗余的特征。这些情况会导致及其学习算法在分类等操作下消耗过多的计算资源,并导致其分类精度的下降。
对高维数据集进行降维处理一直是数据挖掘领域和交叉学科领域的重要研究内容。但该方向的研究发展处于较慢的状态,一方面,大多学者仅仅旨在考虑减少特征数目和分类准确率,新方法相较先前工作的提升并不大。另一方面,由于缺少对特征来源的成本问题的合适处理方式,导致研究仅仅处于理论阶段,无法给工业界或其他行业给予实际的帮助。
特征选择方法是解决上述问题的一种有效方法,其通过建立特征数目和分类精度的优化模型,不断缩减数据的维度,大幅度降低了处理的成本。但是在其优化过程中只关注数据本身,未能观察到数据与实际生活的联系,仍存在一定的局限性。
发明内容
本发明设计开发了一种低成本、高准确率的特征选择方法,通过多目标群智能优化算法对数据优化问题进行求解,并经过多次迭代后得到最优特征子集,从而实现目标成本最小化的特征选择,不仅可以降低特征数目、提高分类准确率,还能够完成最小化特征来源的获取成本,从而发现并剔除数据冗余和无用特征。
本发明提供的技术方案为:
一种低成本、高准确率的特征选择方法,包括:
步骤一、从公用的UC Irvine机器学习知识库中获取数据集以及获取特征所需的费用集,进行数据提取;
步骤二、对提取到的数据集进行标准化处理;
步骤三、将特征选择和目标成本构建成为一个多目标优化问题;
步骤四、将所述多目标优化问题映射为一个二进制解空间的优化问题;
步骤五、通过多目标优化算法对所述优化问题进行求解;
步骤六、当所述算法经过多次迭代获得最优特征子集时,则筛选出符合要求的目标解;
当所述算法迭代次数不够时,则重复步骤五。
优选的是,所述步骤二中通过fit_transform()函数对提取到的数据集进行归一化处理。
优选的是,所述步骤三包括:
通过KNN分类器获得个体特征选择的分类准确率,根据个体的二进制数的个数得到所选特征数目,根据个体所选特征对应的花费获得成本数目,确定三个目标的函数值作为个体的适应度函数值;
其中,三个目标包括:特征选择的分类准确率的值、所选择的特征数目、所选特征对应的花费金额之和。
优选的是,所述步骤四包括:
对解更新方法中更新后的种群内个体位置使用Sigmoid函数进行解映射,获得特征选择的二进制解,包括:
Figure BDA0003513913990000021
f1=1-faccuracy
Figure BDA0003513913990000022
Figure BDA0003513913990000023
Figure BDA0003513913990000031
s.t.C1:xi∈{0,1},i=1,2,...,Ncol
C2:1<Ncol′<Ncol
C3:0≤faccuracy≤1;
C4:0<Costi
Figure BDA0003513913990000032
Figure BDA0003513913990000033
优选的是,所述步骤五中使用NSGA-II方法对所述多目标问题进行求解,包括:
步骤1、随机产生规模为N的种群,对种群内个体位置进行二进制映射;
步骤2、计算种群内个体适应度函数值,种群内进行非支配排序,得到非支配性排序集合;
步骤3、对种群进行选择、交叉,变异三个基本操作获得第一代子代种群;
步骤4、将子代种群与父代种群进行合并得到新种群;
步骤5、对新种群进行非支配排序,同时对每个非支配层间的个体进行拥挤度计算;
步骤6、根据非支配关系以及个体的拥挤度选取匹配的个体组成新的父代种群;
步骤7、当达到迭代次数时,迭代终止;
当未达到迭代次数时,重复步骤2~步骤6。
本发明所述的有益效果:
本发明提供的低成本、高准确率的特征选择方法,不仅可以降低特征数目、提高诊断准确率,还旨在最小化特征来源的获取成本,从而发现并剔除数据集中冗余和无用的特征,降低数据集的获取成本,是促进行业智能化的一种尝试。并且,低成本、高准确率的特征选择方法能够节省大量的计算资源,提高计算效率,有利于达成“碳中和”愿景和目标。
附图说明
图1为一种低成本、高准确率的特征选择方法的示意图
图2为一种低成本、高准确率的特征选择方法的流程图
图3为步骤五中NSGA-II算法求解最优特征子集的流程图
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1-3所示,本发明提供一种低成本、高准确率的特征选择方法,通过多目标群智能优化算法对优化问题进行求解,并经过多次迭代后得到最优特征子集,从而实现目标成本最小化的特征选择,不仅可以降低特征数目、提高分类准确率,还能够完成最小化特征来源的获取成本,从而发现并剔除冗余和无用特征,包括:
步骤一、获取数据集以及获取特征所需的费用集,进行数据提取;
从公用的UC Irvine机器学习知识库中进行数据集选择,并且获取对应的获取特征花费集,将数据集与花费集转换成csv文件进行数据提取:
步骤二、对提取到的数据集进行标准化处理;
对提取到的数据集进行标准化处理,利用fit_transform()函数进行归一化预处理,使得特征提取的结果不会被某些维度过大的特征值所主导:
在本发明中,作为一种优选,从Python中sklearn库中数据预处理函数fit_transform(),目的是先拟合数据,然后转化它将其转化为标准形式;
步骤三、将特征选择和目标成本构建成为一个多目标优化问题;
根据特征选择问题的特性,将特征选择和目标成本构建成一个多目标优化问题,利用KNN分类器获得个体特征选择的分类准确率,根据个体的二进制数的个数得到所选特征数目,根据个体所选特征对应的花费获得成本数目,确定三个目标的函数值作为个体的适应度函数值:
步骤四、将所述多目标优化问题映射为一个二进制解空间的优化问题;
步骤五、通过多目标优化算法对所述优化问题进行求解;
步骤六、当所述算法经过多次迭代获得最优特征子集时,则筛选出符合要求的目标解;否则重复步骤五。
其中,如果没有选择出合适的解,根据NFL原理,不存在任何一种算法可以适用于所有的优化问题,则通过修改步骤五中的最大迭代次数,种群大小或者更换新的多目标优化算法来获得更加符合预计期望的解。
其中,在步骤四中,对解更新方法中更新后的种群内个体位置使用Sigmoid函数进行解映射,获得特征选择的二进制解:包括:
Figure BDA0003513913990000051
(1)
f1=1-faccuracy (2)
Figure BDA0003513913990000052
Figure BDA0003513913990000053
Figure BDA0003513913990000054
s.t.C1:xi∈{0,1},i=1,2,...,Ncol
C2:1<Ncol′<Ncol
C3:0≤faccuracy≤1
C4:0<Costi
Figure BDA0003513913990000055
Figure BDA0003513913990000056
在(1)式中,faccuracy表示特征子集的分类准确率,其中,TP指的是被分类器判定为正样本事实上为正样本的样本数目,TN是被分类器判定为负样本事实上为负样本的样本数目,FP是被分类器判定为正样本事实上为负样本的样本数目,FN是被分类器判定为负样本事实上为正样本的样本数目。
在(2)式中,f1表示获得特征子集的分类错误率,其中,faccuracy表示获得特征子集的分类准确率。
在(3)式中,f2表示所选特征的比例,其中,Ncol′表示被选择的特征数目,Ncol表示特征总数。
在(4)式中,f3表示获得所选特征需花费的成本数目的总和,i表示每个被选择的特征,Costi表示获得i特征所花费的成本数目。
在(5)式中,F表示所构建的三目标函数。其中,C1表示解的每个维度得取值范围的限制条件,C2表示选择特征数目的限制条件,C3表示分类准确率的限制条件,C4表示获得所选特征所花费的成本数目的限制条件。
在(6)式中,xsig表示Sigmoid函数,其中t表示算法迭代次数。
在(7)式中,xbinary表示特征选择问题转换后的二进制解,其中rand表示作为阈值的随机数。
在本发明的步骤五中,作为一种优选,使用NSGA-II方法对上述多目标问题进行求解,包括:
步骤1、随机产生规模为N的种群,对种群内个体位置进行二进制映射;
步骤2、计算种群内个体适应度函数值,种群内进行非支配排序,得到非支配性排序集合;
步骤3、对种群进行选择、交叉,变异三个基本操作获得第一代子代种群;
步骤4、将子代种群与父代种群进行合并得到新种群;
步骤5、对新种群进行非支配排序,同时对每个非支配层间的个体进行拥挤度计算;
步骤6、根据非支配关系以及个体的拥挤度选取匹配的个体组成新的父代种群;
步骤7、判断是否满足迭代终止条件:
当达到迭代次数时,迭代终止;
如果不满足,则重复步骤2~步骤6。
实施例
针对低成本、高准确率的特征选择方法,本发明还给出了低成本工业故障检测功能的一种基本实现。随着现代工业生产规模的日益扩大,系统内部不同部分之间相互关联的增加,系统的可靠性、安全性和有效性显得更加重要,系统一旦发生事故就会造成人员和财产的巨大损失,所以故障检测变得尤为重要。但故障检测需要花费大量金钱和时间成本,本方法的目的就是降低故障检测的成本的同时,保证故障检测的高准确率,从而促进智慧工业的构建。
在本发明中低成本工业故障检测功能包括,1.获取工业故障检查报告的数据集,并且根据数据集中的每个特征即每个检查手段所花费的金额,构建对应的特征花费集;2.对数据集进行标准化处理;3.初始化所选择的多目标优化算法参数及其分类器;4.随机初始化种群个体;5.算法进行迭代,分类器计算出个体的分类准确率和分类数目,再根据特征花费集计算出个体的花费总和;6.对个体进行非支配排序,不断迭代更新种群;7.算法迭代结束后获得最优特征子集。8.根据最优特征子集可以选择符合实际要求的低成本的工业故障检测方案。低成本工业故障检测功能测试及实验结果参阅表1,可以看到每一项功能都正常运行,并且得到了预期的结果。
实验表明本发明提供的低成本、高准确率的特征选择方法,不仅可以降低特征数目、提高诊断准确率,还旨在最小化特征来源的获取成本,从而发现并剔除数据集中冗余和无用的特征,降低数据集的获取成本,是促进行业智能化的一种尝试,并且,低成本、高准确率的特征选择方法能够节省大量的计算资源,提高计算效率,有利于达成“碳中和”愿景和目标。
表1为本发明中低成本工业故障检测功能测试及实验结果;
Figure BDA0003513913990000071
Figure BDA0003513913990000081
从表1中可以看出,多目标问题是NP-难问题,不存在唯一一个最优解,所得到最优特征子集包含9个检测方案所对应的数据值,工作人员可以根据具体情况来选择合适的方案,在保证最低准确率的要求下,尽可能选择使用技术小,成本较低的检测方案。
在工业故障排查中,获得检查报告的数据集,并且获得数据集中的每个特征即每个检查手段所花费的金额,该金额对应建立获取特征花费集,进行特征提取。针对故障调查所产生的数据集,通过使用本发明提供的方法能够选择出所需费用低的检查方法来确定所产生的故障,帮助工作人员准确诊断故障的前提下,尽可能减少检测成本。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (5)

1.一种低成本、高准确率的特征选择方法,其特征在于,包括:
步骤一、从公用的UC Irvine机器学习知识库中获取数据集以及获取特征所需的费用集,进行数据提取;
步骤二、对提取到的数据集进行标准化处理;
步骤三、将特征选择和目标成本构建成为一个多目标优化问题;
步骤四、将所述多目标优化问题映射为一个二进制解空间的优化问题;
步骤五、通过多目标优化算法对所述优化问题进行求解;
步骤六、当所述算法经过多次迭代获得最优特征子集时,则筛选出符合要求的目标解;
当所述算法迭代次数不够时,则重复步骤五。
2.根据权利要求1所述的低成本、高准确率的特征选择方法,其特征在于,所述步骤二中通过fit_transform()函数对提取到的数据集进行归一化处理。
3.根据权利要求2所述的低成本、高准确率的特征选择方法,其特征在于,所述步骤三包括:
通过KNN分类器获得个体特征选择的分类准确率,根据个体的二进制数的个数得到所选特征数目,根据个体所选特征对应的花费获得成本数目,确定三个目标的函数值作为个体的适应度函数值;
其中,三个目标包括:特征选择的分类准确率的值、所选择的特征数目、所选特征对应的花费金额之和。
4.根据权利要求3所述的低成本、高准确率的特征选择方法,其特征在在于,所述步骤四包括:
对解更新方法中更新后的种群内个体位置使用Sigmoid函数进行解映射,获得特征选择的二进制解,包括:
Figure FDA0003513913980000011
f1=1-faccuracy
Figure FDA0003513913980000021
Figure FDA0003513913980000022
Figure FDA0003513913980000023
s.t.C1:xi∈{0,1},i=1,2,...,Ncol
C2:1<Ncol′<Ncol
C3:0≤faccuracy≤1;
C4:0<Costi
Figure FDA0003513913980000024
Figure FDA0003513913980000025
5.根据权利要求4所述的低成本、高准确率的特征选择方法,其特征在于,所述步骤五中使用NSGA-II方法对所述多目标问题进行求解,包括:
步骤1、随机产生规模为N的种群,对种群内个体位置进行二进制映射;
步骤2、计算种群内个体适应度函数值,种群内进行非支配排序,得到非支配性排序集合;
步骤3、对种群进行选择、交叉,变异三个基本操作获得第一代子代种群;
步骤4、将子代种群与父代种群进行合并得到新种群;
步骤5、对新种群进行非支配排序,同时对每个非支配层间的个体进行拥挤度计算;
步骤6、根据非支配关系以及个体的拥挤度选取匹配的个体组成新的父代种群;
步骤7、当达到迭代次数时,迭代终止;
当未达到迭代次数时,重复步骤2~步骤6。
CN202210160725.1A 2022-02-22 2022-02-22 一种低成本、高准确率的特征选择方法 Pending CN114547405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210160725.1A CN114547405A (zh) 2022-02-22 2022-02-22 一种低成本、高准确率的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210160725.1A CN114547405A (zh) 2022-02-22 2022-02-22 一种低成本、高准确率的特征选择方法

Publications (1)

Publication Number Publication Date
CN114547405A true CN114547405A (zh) 2022-05-27

Family

ID=81676838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210160725.1A Pending CN114547405A (zh) 2022-02-22 2022-02-22 一种低成本、高准确率的特征选择方法

Country Status (1)

Country Link
CN (1) CN114547405A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667466A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种带钢表面质量缺陷多分类的多目标优化特征选择方法
CN111709186A (zh) * 2020-06-16 2020-09-25 四川大学 一种退役动力锂电池健康状态的集成估计方法
CN112733451A (zh) * 2021-01-12 2021-04-30 北京航空航天大学 一种mbd模型的关键检验特性识别及其提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667466A (zh) * 2020-05-26 2020-09-15 湖北工业大学 一种带钢表面质量缺陷多分类的多目标优化特征选择方法
CN111709186A (zh) * 2020-06-16 2020-09-25 四川大学 一种退役动力锂电池健康状态的集成估计方法
CN112733451A (zh) * 2021-01-12 2021-04-30 北京航空航天大学 一种mbd模型的关键检验特性识别及其提取方法

Similar Documents

Publication Publication Date Title
Aliniya et al. A novel combinatorial merge-split approach for automatic clustering using imperialist competitive algorithm
US20050100209A1 (en) Self-optimizing classifier
CN114021799A (zh) 风电场日前风电功率预测方法及系统
CN110853703A (zh) 一种对蛋白质二级结构进行半监督学习预测方法
He et al. Novel discriminant locality preserving projection integrated with Monte Carlo sampling for fault diagnosis
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
Deng et al. Dual threshold based unsupervised face image clustering
CN111444937A (zh) 一种基于集成tsk模糊分类器的众包质量提升的方法
CN107886130A (zh) 一种基于聚类和相似度加权的kNN快速分类方法
Chen et al. A unified framework for layout pattern analysis with deep causal estimation
Shen et al. Equiangular basis vectors
CN114547405A (zh) 一种低成本、高准确率的特征选择方法
CN110674882A (zh) 一种基于傅立叶函数变换的异常点检测方法
CN116720095A (zh) 一种基于遗传算法优化模糊c均值的电特性信号聚类方法
Muthukumaran et al. Feature Selection with Optimal Variational Auto Encoder for Financial Crisis Prediction.
CN115587301A (zh) 一种基于动态交互的模糊互信息特征选择方法
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
Wang et al. Shapelet classification algorithm based on efficient subsequence matching
CN111401783A (zh) 一种电力系统运行数据集成特征选择方法
CN112580606B (zh) 基于聚类分组的大规模人体行为识别方法
Huang et al. Effects of SVM parameter optimization based on the parameter design of Taguchi method
WO2022083047A1 (zh) 细胞分类模型的获取方法、装置及计算机可读存储介质
CN113469695B (zh) 基于核监督哈希模型的电子欺诈交易识别方法、系统、装置
Du et al. Protein Secondary Structure Prediction with Dynamic Self-Adaptation Combination Strategy Based on Entropy
Tamer et al. A comparative study on Bioinformatics Feature Selection and Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination