CN114547405A

CN114547405A - 一种低成本、高准确率的特征选择方法

Info

Publication number: CN114547405A
Application number: CN202210160725.1A
Authority: CN
Inventors: 孙庚�; 李家辉; 于文玉; 康辉; 王爱民; 梁爽; 纪柏; 刘剑桥
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明公开了一种低成本、高准确率的特征选择方法，包括：步骤一、获取数据集以及获取特征所需的费用集，进行数据提取；步骤二、对提取到的数据集进行标准化处理；步骤三、将特征选择和目标成本构建成为一个多目标优化问题；步骤四、将所述多目标优化问题映射为一个二进制解空间的优化问题；步骤五、通过多目标优化算法对所述优化问题进行求解；步骤六、当所述算法经过多次迭代获得最优特征子集时，则筛选出符合要求的目标解；否则重复步骤五。通过多目标优群优化算法对优化问题进行求解，并经过多次迭代后得到最优特征子集，从而实现目标成本最小化的特征选择，不仅可以降低特征数目、提高分类准确率，还能够完成最小化特征来源的获取成本。

Description

一种低成本、高准确率的特征选择方法

技术领域

本发明涉及一种低成本、高准确率的特征选择方法，属于智能优化算法领域。

背景技术

随着计算机技术和信息系统应用的日益广泛，不同的行业的海量设备会产生大量、大维度的数据集合。这些大型数据集合促进了机器学习在许多学科的应用，研究人员从大型数据集中抽取特征用于分类和聚类，从而将海量的数据转化为有用的信息。但大型数据集中包含部分不相关、冗余的特征。这些情况会导致及其学习算法在分类等操作下消耗过多的计算资源，并导致其分类精度的下降。

对高维数据集进行降维处理一直是数据挖掘领域和交叉学科领域的重要研究内容。但该方向的研究发展处于较慢的状态，一方面，大多学者仅仅旨在考虑减少特征数目和分类准确率，新方法相较先前工作的提升并不大。另一方面，由于缺少对特征来源的成本问题的合适处理方式，导致研究仅仅处于理论阶段，无法给工业界或其他行业给予实际的帮助。

特征选择方法是解决上述问题的一种有效方法，其通过建立特征数目和分类精度的优化模型，不断缩减数据的维度，大幅度降低了处理的成本。但是在其优化过程中只关注数据本身，未能观察到数据与实际生活的联系，仍存在一定的局限性。

发明内容

本发明设计开发了一种低成本、高准确率的特征选择方法，通过多目标群智能优化算法对数据优化问题进行求解，并经过多次迭代后得到最优特征子集，从而实现目标成本最小化的特征选择，不仅可以降低特征数目、提高分类准确率，还能够完成最小化特征来源的获取成本，从而发现并剔除数据冗余和无用特征。

本发明提供的技术方案为：

一种低成本、高准确率的特征选择方法，包括：

步骤一、从公用的UC Irvine机器学习知识库中获取数据集以及获取特征所需的费用集，进行数据提取；

步骤二、对提取到的数据集进行标准化处理；

步骤三、将特征选择和目标成本构建成为一个多目标优化问题；

步骤四、将所述多目标优化问题映射为一个二进制解空间的优化问题；

步骤五、通过多目标优化算法对所述优化问题进行求解；

步骤六、当所述算法经过多次迭代获得最优特征子集时，则筛选出符合要求的目标解；

当所述算法迭代次数不够时，则重复步骤五。

优选的是，所述步骤二中通过fit_transform()函数对提取到的数据集进行归一化处理。

优选的是，所述步骤三包括：

通过KNN分类器获得个体特征选择的分类准确率，根据个体的二进制数的个数得到所选特征数目，根据个体所选特征对应的花费获得成本数目，确定三个目标的函数值作为个体的适应度函数值；

其中，三个目标包括：特征选择的分类准确率的值、所选择的特征数目、所选特征对应的花费金额之和。

优选的是，所述步骤四包括：

对解更新方法中更新后的种群内个体位置使用Sigmoid函数进行解映射，获得特征选择的二进制解，包括：

f₁＝1-f_accuracy；

s.t.C1：x_i∈{0，1}，i＝1，2，...，N_col；

C2：1＜N_col′＜N_col；

C3：0≤f_accuracy≤1；

C4：0＜Cost_i；

优选的是，所述步骤五中使用NSGA-II方法对所述多目标问题进行求解，包括：

步骤1、随机产生规模为N的种群，对种群内个体位置进行二进制映射；

步骤2、计算种群内个体适应度函数值，种群内进行非支配排序，得到非支配性排序集合；

步骤3、对种群进行选择、交叉，变异三个基本操作获得第一代子代种群；

步骤4、将子代种群与父代种群进行合并得到新种群；

步骤5、对新种群进行非支配排序，同时对每个非支配层间的个体进行拥挤度计算；

步骤6、根据非支配关系以及个体的拥挤度选取匹配的个体组成新的父代种群；

步骤7、当达到迭代次数时，迭代终止；

当未达到迭代次数时，重复步骤2～步骤6。

本发明所述的有益效果：

本发明提供的低成本、高准确率的特征选择方法，不仅可以降低特征数目、提高诊断准确率，还旨在最小化特征来源的获取成本，从而发现并剔除数据集中冗余和无用的特征，降低数据集的获取成本，是促进行业智能化的一种尝试。并且，低成本、高准确率的特征选择方法能够节省大量的计算资源，提高计算效率，有利于达成“碳中和”愿景和目标。

附图说明

图1为一种低成本、高准确率的特征选择方法的示意图

图2为一种低成本、高准确率的特征选择方法的流程图

图3为步骤五中NSGA-II算法求解最优特征子集的流程图

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1-3所示，本发明提供一种低成本、高准确率的特征选择方法，通过多目标群智能优化算法对优化问题进行求解，并经过多次迭代后得到最优特征子集，从而实现目标成本最小化的特征选择，不仅可以降低特征数目、提高分类准确率，还能够完成最小化特征来源的获取成本，从而发现并剔除冗余和无用特征，包括：

步骤一、获取数据集以及获取特征所需的费用集，进行数据提取；

从公用的UC Irvine机器学习知识库中进行数据集选择，并且获取对应的获取特征花费集，将数据集与花费集转换成csv文件进行数据提取：

步骤二、对提取到的数据集进行标准化处理；

对提取到的数据集进行标准化处理，利用fit_transform()函数进行归一化预处理，使得特征提取的结果不会被某些维度过大的特征值所主导：

在本发明中，作为一种优选，从Python中sklearn库中数据预处理函数fit_transform()，目的是先拟合数据，然后转化它将其转化为标准形式；

根据特征选择问题的特性，将特征选择和目标成本构建成一个多目标优化问题，利用KNN分类器获得个体特征选择的分类准确率，根据个体的二进制数的个数得到所选特征数目，根据个体所选特征对应的花费获得成本数目，确定三个目标的函数值作为个体的适应度函数值：

步骤五、通过多目标优化算法对所述优化问题进行求解；

步骤六、当所述算法经过多次迭代获得最优特征子集时，则筛选出符合要求的目标解；否则重复步骤五。

其中，如果没有选择出合适的解，根据NFL原理，不存在任何一种算法可以适用于所有的优化问题，则通过修改步骤五中的最大迭代次数，种群大小或者更换新的多目标优化算法来获得更加符合预计期望的解。

其中，在步骤四中，对解更新方法中更新后的种群内个体位置使用Sigmoid函数进行解映射，获得特征选择的二进制解：包括：

(1)

f₁＝1-f_accuracy (2)

s.t.C1：x_i∈{0，1}，i＝1，2，...，N_col

C2：1＜N_col′＜N_col

C3：0≤f_accuracy≤1

C4：0＜Cost_i

在(1)式中，f_accuracy表示特征子集的分类准确率，其中，TP指的是被分类器判定为正样本事实上为正样本的样本数目，TN是被分类器判定为负样本事实上为负样本的样本数目，FP是被分类器判定为正样本事实上为负样本的样本数目，FN是被分类器判定为负样本事实上为正样本的样本数目。

在(2)式中，f₁表示获得特征子集的分类错误率，其中，f_accuracy表示获得特征子集的分类准确率。

在(3)式中，f₂表示所选特征的比例，其中，N_col′表示被选择的特征数目，N_col表示特征总数。

在(4)式中，f₃表示获得所选特征需花费的成本数目的总和，i表示每个被选择的特征，Cost_i表示获得i特征所花费的成本数目。

在(5)式中，F表示所构建的三目标函数。其中，C1表示解的每个维度得取值范围的限制条件，C2表示选择特征数目的限制条件，C3表示分类准确率的限制条件，C4表示获得所选特征所花费的成本数目的限制条件。

在(6)式中，x_sig表示Sigmoid函数，其中t表示算法迭代次数。

在(7)式中，x_binary表示特征选择问题转换后的二进制解，其中rand表示作为阈值的随机数。

在本发明的步骤五中，作为一种优选，使用NSGA-II方法对上述多目标问题进行求解，包括：

步骤4、将子代种群与父代种群进行合并得到新种群；

步骤7、判断是否满足迭代终止条件：

当达到迭代次数时，迭代终止；

如果不满足，则重复步骤2～步骤6。

实施例

针对低成本、高准确率的特征选择方法，本发明还给出了低成本工业故障检测功能的一种基本实现。随着现代工业生产规模的日益扩大，系统内部不同部分之间相互关联的增加，系统的可靠性、安全性和有效性显得更加重要，系统一旦发生事故就会造成人员和财产的巨大损失，所以故障检测变得尤为重要。但故障检测需要花费大量金钱和时间成本，本方法的目的就是降低故障检测的成本的同时，保证故障检测的高准确率，从而促进智慧工业的构建。

在本发明中低成本工业故障检测功能包括，1.获取工业故障检查报告的数据集，并且根据数据集中的每个特征即每个检查手段所花费的金额，构建对应的特征花费集；2.对数据集进行标准化处理；3.初始化所选择的多目标优化算法参数及其分类器；4.随机初始化种群个体；5.算法进行迭代，分类器计算出个体的分类准确率和分类数目，再根据特征花费集计算出个体的花费总和；6.对个体进行非支配排序，不断迭代更新种群；7.算法迭代结束后获得最优特征子集。8.根据最优特征子集可以选择符合实际要求的低成本的工业故障检测方案。低成本工业故障检测功能测试及实验结果参阅表1，可以看到每一项功能都正常运行，并且得到了预期的结果。

实验表明本发明提供的低成本、高准确率的特征选择方法，不仅可以降低特征数目、提高诊断准确率，还旨在最小化特征来源的获取成本，从而发现并剔除数据集中冗余和无用的特征，降低数据集的获取成本，是促进行业智能化的一种尝试，并且，低成本、高准确率的特征选择方法能够节省大量的计算资源，提高计算效率，有利于达成“碳中和”愿景和目标。

表1为本发明中低成本工业故障检测功能测试及实验结果；

从表1中可以看出，多目标问题是NP-难问题，不存在唯一一个最优解，所得到最优特征子集包含9个检测方案所对应的数据值，工作人员可以根据具体情况来选择合适的方案，在保证最低准确率的要求下，尽可能选择使用技术小，成本较低的检测方案。

在工业故障排查中，获得检查报告的数据集，并且获得数据集中的每个特征即每个检查手段所花费的金额，该金额对应建立获取特征花费集，进行特征提取。针对故障调查所产生的数据集，通过使用本发明提供的方法能够选择出所需费用低的检查方法来确定所产生的故障，帮助工作人员准确诊断故障的前提下，尽可能减少检测成本。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。