CN114707578A

CN114707578A - 特征选择方法、特征选择装置、存储介质和设备

Info

Publication number: CN114707578A
Application number: CN202210252083.8A
Authority: CN
Inventors: 余函; 罗小舟
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-07-05
Also published as: WO2023173402A1

Abstract

本发明公开了一种特征选择方法、特征选择装置、存储介质和设备。该方法包括：计算当前代种群中每个样本的适应度；根据适应度筛选出部分样本形成操作样本群；将操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群，统计第一样本群中各个样本的每个特征位的特征值的分布概率，根据分布概率抽样生成每个特征位的新特征值，形成第二样本群，对操作样本群进行若干次交叉操作，以形成第三样本群，对操作样本群进行突变操作，获得第四样本群，各个样本群组合形成下一代种群，在满足进化终止条件时，输出最后一代种群的所对应的特征。利用高适应度的样本生成更多高适应度的新样本，以利于搜索到全局最优的特征子集。

Description

特征选择方法、特征选择装置、存储介质和设备

技术领域

本发明属于电子信息技术领域，具体地讲，涉及一种特征选择方法、特征选择装置、计算机可读存储介质和计算机设备。

背景技术

特征选择是构建模型前的操作，目的是剔除掉和问题无关的特征，选择最有效的特征子集输入到模型里面，以提高模型的预测能力。而经典的预测方法如前向搜索和后向搜索方法，只考虑了每一步获得的局部最优解，最后得到的特征子集是局部最优的特征子集。而以启发式搜索为代表的算法的发展，为特征选择提供了一个新的思路。代表性的一类启发式搜索算法为遗传算法，它主要是通过模仿生物进化过程中自然选择和遗传的机制来寻找更优解，已经被广泛应用于各类的优化问题，如最优特征子集的选取。但由于经典的交叉操作和突变操作搜索能力有限，算法搜索过程很容易陷入局部最优解提前收敛到局部最优值，为了保证算法的稳定性，因此在一些方案中，采用精英操作，即在每一轮中都保留适应度最高的精英样本，一代代往下传递，保证遗传算法的稳定性，但如何充分利用这些样本，挖掘特征的分布信息，寻找更优的解，就成为了亟待解决的问题。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是：如何从多角度优化遗传算法的搜索过程，尤其是通过优化精英操作以搜索适应度更高的解，从而搜索到全局最优的特征子集，用于构建后续的预测模型。

(二)本发明所采用的技术方案

一种特征选择方法，所述特征选择方法包括：

计算当前代种群中每个样本的适应度，所述种群的每个样本由不同特征组合形成；

根据每个所述样本的适应度从所述当前代种群筛选出部分样本形成操作样本群；

将所述操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群，所述第一阈值小于所述第二阈值；

统计所述第一样本群中各个样本的每个特征位的特征值的分布概率，根据所述分布概率抽样生成每个特征位的新特征值，形成第二样本群，其中所述特征值和所述新特征值为0或1，所述分布概率为所述特征值在所述各个样本的同一个特征位出现的次数与所述第一样本群的样本数量的比值；

对所述操作样本群进行若干次交叉操作，以形成第三样本群，其中每次所述交叉操作产生两个新样本；

对所述操作样本群进行突变操作，获得第四样本群；

将所述第一样本群、所述第二样本群、所述第三样本群和所述第四样本群组合形成下一代种群；

若不满足进化终止条件，则对所述下一代种群重复上述操作直至满足进化终止条件；

在满足进化终止条件时，输出最后一代种群的各个样本所对应的特征。

优选地，每次所述交叉操作包括：

从所述操作样本群中随机选择两个样本，判断所述两个样本的交叉长度和差异度是否均大于相应的阈值，差异度为所述两个样本在同一特征位上出现不同特征值的总次数与所述样本的样本长度的比值；

若是，则对所述两个样本按照所述交叉长度进行交叉，生成两个新样本；若否，则重复上述步骤直至生成两个新样本。

优选地，对所述操作样本群进行突变操作，获得第四样本群的方法包括：

从突变概率集中随机选择一种概率值并从所述随机选择一个样本，其中所述突变概率集中具有多种不同概率值；

对所选样本的各个特征值以所选概率值进行取反，以生成新样本；

重复上述步骤若干次，以形成若干新样本，组成第四样本群。

优选地，根据每个所述样本的适应度从所述当前代种群筛选出部分样本形成操作样本群的方法包括：

将所述当前代种群中适应度大于预定适应度的样本全部筛选出来，共同形成操作样本群。

优选地，所述特征选择方法还包括：

每隔若干进化代数时，随机形成若干新样本并计算所述新样本的适应度，将若干所述新样本随机替换当前代种群的若干样本；

从替换后的当前代种群中筛选适应度大于预定适应度的样本，以形成操作样本群。

优选地，将所述操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群的方法包括：

将所述操作样本群中适应度最小的样本全部替换为适应度最大的样本，以形成第一样本群。

优选地，是否满足所述进化终止条件的判断方法包括：

每当形成下一代种群之后，计算所述下一代之前的K代种群的适应度平均值M1以及所述下一代之前的第H代种群至第G代种群的适应度平均值M2，其中G-H＝K；

若M1大于或等于M2时，则不满足进化终止条件；若M1小于M2，则满足进化终止条件。

本申请还提供了一种特征选择装置，所述特征选择装置包括：

计算单元，计算当前代种群中每个样本的适应度，所述种群的每个样本由不同特征组合形成；

筛选单元，用于根据每个所述样本的适应度从所述当前代种群筛选出部分样本形成操作样本群；

复制单元，用于将所述操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群；

超级精英单元，统计所述第一样本群中各个样本的每个特征位的特征值的分布概率，根据所述分布概率抽样生成每个特征位的新特征值，形成第二样本群，其中所述特征值和所述新特征值为0或1，所述分布概率为所述特征值在所述各个样本的同一个特征位出现的次数与所述第一样本群的样本数量的比值；

交叉操作单元，用于对所述操作样本群进行若干次交叉操作，以形成第三样本群，其中每次所述交叉操作产生两个新样本；

突变操作单元，用于对所述操作样本群进行突变操作，获得第四样本群；

生成单元，用于将所述第一样本群、所述第二样本群、所述第三样本群和所述第四样本群组合形成下一代种群；

若不满足进化终止条件，则对所述下一代种群重复上述操作直至不满足；

输出单元，用于在满足进化终止条件时输出最后一代种群的各个样本所对应的特征。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有特征选择程序，所述特征选择程序被处理器执行时实现上述的特征选择方法。

本申请还提供了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的特征选择程序，所述特征选择程序被处理器执行时实现上述的特征选择方法。

(三)有益效果

本发明公开了一种特征选择方法、特征选择装置、存储介质和设备，相对于现有技术，具有如下技术效果：

在融合了多种遗传操作的基础上，利用高适应度的样本来生成更多高适应度的新样本，有利于搜索到适应度更好的解，以利于搜索到全局最优的特征子集。

附图说明

图1为本发明的实施例一的特征选择方法的流程图；

图2为本发明的实施例一的复制操作示意图；

图3为本发明的实施例一的超级精英操作示意图；

图4为本发明的实施例一的交叉操作示意图；

图5为本发明的实施例一的突变操作示意图；

图6为本发明的实施例一的替换操作示意图；

图7为本发明的实施例二的特征选择装置的原理框图；

图8为本发明的实施例四的计算机设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：现有技术中采用遗传算法进行特征选择时，采用精英操作来克服经典的交叉操作和突变操作所带来的具有最优解提前收敛问题，传统的精英操作是直接保留适应度最高的个体作为精英样本，然后将精英样本代代传递，但是由于每一代的精英样本基本相同，这也限制了搜索到适应度更高的解，为此本方案提出的特征选择方法，通过传统的复制操作形成适应度较高的第一样本群，进一步统计第一样本群中各个特征位的特征值的分布，具体为每个特征位0或1样本数占总样本数的比例，得到相应的分布概率，根据分布概率随机抽样生成新特征值，生成新样本，构成第二样本群，该第二样本群具有与第一样本群相当的适应度，这样通过生成相当适应度的更多新样本，有利于搜索到适应度更好的解，同时也结合交叉操作和突变操作生成第三样本群、第四样本群，这样通过结合多种进化操作，有利于搜索到全局最优的特征子集。

在展开阐述本实施例一的方法之前，对样本的定义进行说明。本实施例一中种群的样本是由多个不同特征组合形成的，样本在遗传算法研究领域又称作是染色体或个体，特征又称为基因。每个样本具有多个特征位，每个特征位上具有特征值，特征位在遗传算法研究中又称作是基因位，特征值又称作是基因型。本实施例一的样本采用二进制编码方式，如果某特征位的特征值为1，则表示对应的特征未被选择，当特征值为0时，则表示对应的特征被选择。关于编码内容，本领域技术人员已熟知，在此不进行赘述。

具体地，如图1所示，本实施例一的特征选择方法包括如下步骤：

步骤S10：计算当前代种群中每个样本的适应度，种群的每个样本由不同特征组合形成；

步骤S20：根据每个样本的适应度从当前代种群筛选出部分样本形成操作样本群；

步骤S301：将所述操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群，第一阈值小于第二阈值；

步骤S302：统计第一样本群中各个样本的每个特征位的特征值的分布概率，根据分布概率抽样生成每个特征位的新特征值，形成第二样本群，其中特征值和新特征值为0或1，分布概率为特征值在各个样本的同一个特征位出现的次数与第一样本群的样本数量的比值；

步骤S303：对操作样本群进行若干次交叉操作，以形成第三样本群，其中每次交叉操作产生两个新样本；

步骤S304：对操作样本群进行突变操作，获得第四样本群；

步骤S40：将第一样本群、第二样本群、第三样本群和第四样本群组合形成下一代种群；

若不满足进化终止条件，则对下一代种群重复上述操作直至满足进化终止条件，

步骤S50：在满足进化终止条件时，输出最后一代种群的各个样本所对应的特征组合。

在步骤S10中，当前代种群由前一次进化操作得到，若当前代种群为初代种群，可从要进行测试的数据集中提取不同特征，随机选取不同特征进行组合，并转换为对应的二进制编码，特征值为1表示选择该特征，特征值为0表示选择该特征，这样可形成多个样本，最后组成初代种群。

进一步地，在进行适应度计算时，基于每个样本的特征组合构建机器学习模型，十折交叉验证，将通常分类或回归问题的评价指标为标准，如准确率、马修斯相关系数、皮尔逊相关系数等，作为每个样本的适应度。适应度的计算过程为本领域技术人员所熟知，在此不进行赘述。

示例性地，在步骤S20，在计算完成当前代种群各个样本的适应度后，按照从高到低的顺序排序，将适应度大于预定适应度的样本全部筛选出来，共同形成操作样本群。即选择适应度较前的样本作为操作样本群A，例如选择适应度排在前20％样本，操作样本群作为后续步骤中多种操作的原始样本群。需要说明的是，本方案对操作样本群A的选择比例并不局限于20％，即预定适应度的大小可根据实际需求进行设置。

在步骤S301中，通过复制操作，将适应度较低的样本删除，用适应度较高的样本进行代替，以增强遗传算法进化过程中的稳定性，其中第一阈值和第二阈值的大小可根据实际需求进行设置。在实际复制操作过程中，可将操作样本群A中适应度最小的样本全部替换为适应度最大的样本，以形成第一样本群。

示例性地，在另一实施方式中也可仅对部分样本进行复制操作。例如从操作样本群A中筛选出适应度靠前的I个样本构成样本群B1，将样本群B1中适应度最高的样本复制N次，替换样本群B1中适应度最低的N个样本，形成第一样本群B，具体的复制操作过程如图2所示。在图2中，作为示例，样本的长度为5，即具有5个特征位，每个样本前的数值0.9、0.8、0.5、0.4表示适应度，例如样本10011的适应度为0.9，以此类推。

在步骤S302中，统计第一样本群B中各个样本的每个特征位的特征值的分布概率，根据所述分布概率抽样生成每个特征位的新特征值，形成第二样本群，其中特征值和新特征值为0或1，分布概率为所述特征值在各个样本的同一个特征位出现的次数与第一样本群的样本数量的比值。示例性地，如图3所示，对于四个样本10011、01101、11100、10100，在特征值1在第一特征位上出现了3次，那么特征值1在第一特征位的分布概率为0.75，特征值0在第一特征位上出现了1次，那么特征值0在第一特征位的分布概率为0.25，以此类推可计算各个特征位的特征值的分布概率。计算得到分布概率之后，例如对于第一特征位，以0.75的概率生成新特征值1和以0.25的概率生成新特征值0，以此类推，形成多个新样本，构成第二样本群C，第二样本群C的数量与第一样本群的数量相同，且由于第二样本群C中各个新样本的特征值是融合了第一样本群B中各个样本的信息，因此第二样本群C中各新样本的适应度平均值与第一样本群B中各样本的适应度平均值相当，这样相当于增加了更多高适应度的不同样本，有利于搜索适应度更高的解，相对于传统的精英操作，本实施例一的步骤S302增加了精英样本的多样性。需要说明的是，在其他实施方式中，在步骤S302也可仅仅对第一样本群B的部分样本进行上述操作，参与上述操作的样本数量可根据实际需求进行选择，并不进行限定。

在步骤S303中，对操作样本群进行若干次交叉操作，以形成第三样本群，D其中每次交叉操作的方法包括：从操作样本群中随机选择两个样本，判断所述两个样本的交叉长度和差异度是否大于阈值，交叉长度为两个样本交叉的长度，差异度为两个样本在同一特征位上出现不同特征值的总次数与所述样本的样本长度的比值；若是，则对两个样本按照预定交叉长度进行交叉，生成两个新样本，若否，则重复步骤直至生成两个合适的新样本。例如，如图4所示，对于适应度为0.9的样本10011和适应度为0.8的样本01101，随机选择后4位，两个样本在同一特征位出现不同特征值的次数为4，分别是第一、第二、第三、第四特征位，交叉长度为4，那么差异度为0.8。假设交叉长度的阈值为3，差异度的阈值为0.5，这时选择到的两个样本的交叉长度和差异度都大于相应的阈值，对这两个样本进行交叉，其它两种不满足交叉长度或差异度的例子也如图4所展示，样本交叉长度为2或者差异度为0.4，均没有达到阈值要求则不交叉。图4中虚线框的交叉操作选取了四个特征位，即预定交叉长度为样本长度的80％，将同一个特征位的特征值进行交换，形成两个完全不同的新样本11101、00011。相对于传统交叉操作直接选择两个样本进行交叉，本实施例一通过筛选出满足差异度要求的两个样本进行交叉，差异度越大，表明两个样本越不相似，通过交叉操作能获得更多差异信息。

在步骤304中，对操作样本群进行突变操作，获得第四样本群的方法包括：从突变概率集中随机选择一种概率值并从所述随机选择一个样本，其中所述突变概率集中具有多种不同概率值；对所选样本的各个特征值按照所选概率值进行取反，以生成新样本；重复上述步骤若干次，以形成若干新样本，组成第四样本群。示例性地，如图5所示，突变概率集具有四种不同概率值0.005、0.01、0.02、0.05，随机选择到概率值0.005，对随机选到的适应度为0.8的样本01101各个特征值按照0.005的概率进行取反，形成新样本11101。重复若干次，形成第四样本群E。相对于传统的突变操作采用固定突变概率进行突变，本申请采用随机选取的不同概率值进行突变，有利于提高局部搜索能力。

进一步地，在步骤S40将第一样本群B、第二样本群C、第三样本群D和第四样本群E组合形成下一代种群，因此第一样本群B、第二样本群C、第三样本群D和第四样本群E的数量可根据实际需求进行调整，只要使得下一代种群的样本总量与当前代种群的样本总量保持不变。

进一步地，为了保证遗传算法收敛到稳定值并停止，需要设置相应的进化终止条件，是否满足进化终止条件的判断方法包括：每当形成下一代种群之后，计算下一代之前的K代种群的适应度平均值M1以及下一代之前的第H代种群至第G代种群的适应度平均值M2，其中G-H＝K；若M1大于或等于M2时，则不满足进化终止条件；若M1小于M2，则满足进化终止条件。示例性地，在形成下一代种群之后，计算下一代之前的10代种群的适应度平均值M1以及下一代之前的第20代种群至第30代种群的适应度平均值M2，若M1<M2，说明此时种群的适应度已趋于稳定，停止进化；若M1≥M2，则说明此时种群的适应度还未趋于稳定，可以继续进化。

在另一实施方式中，为了避免遗传算法陷入局部最优解，还可增加替换操作。每隔若干进化代数时，随机形成若干新样本并计算新样本的适应度，在进行步骤S20之前，将若干新样本随机替换当前代种群的若干样本；从替换后的当前代种群中筛选适应度大于预定适应度的样本，以形成操作样本群。示例性地，在每隔5代之后进行替换操作，如图6所示，随机生成适应度为0.4的样本10100，随机替换适应度为0.5的样本11100。

在实际运行过程中，可将步骤S10中每个样本的适应度计算过程分别部署到CPU的各个核上同时运行，再将各个计算结果联合起来进行后续的操作，提高算法的计算效率。

在步骤S50中，当满足进化终止条件时，输出最后一代种群的各个样本进行解码，选取解码后所对应的各个特征组合，即为从数据集中提取到的最优特征子集。利用该最优特征子集进行相应模型的构建和训练。

本实施例一公开的特征选择方法，在融合了多种遗传操作的基础上，利用高适应度的样本来生成更多高适应度的新样本，有利于搜索到适应度更好的解，以利于搜索到全局最优的特征子集。

如图7所示，实施例二还公开了一种特征选择装置，该特征选择装置包括计算单元10、筛选单元20、复制单元30、超级精英单元40、交叉操作单元50、突变操作单元60、生成单元70、输出单元80。其中，计算单元10用于计算当前代种群中每个样本的适应度，种群的每个样本由不同特征组合形成；筛选单元20用于根据每个样本的适应度从当前代种群筛选出部分样本形成操作样本群；复制单元30用于将操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群；超级精英单元40统计第一样本群中各个样本的每个特征位的特征值的分布概率，根据分布概率抽样生成每个特征位的新特征值，形成第二样本群，其中特征值和新特征值为0或1，分布概率为特征值在各个样本的同一个特征位出现的次数与第一样本群的样本数量的比值；交叉操作单元50，对操作样本群进行若干次交叉操作，以形成第三样本群，其中每次所述交叉操作产生两个新样本；突变操作单元60用于对操作样本群进行突变操作，获得第四样本群；生成单元70用于将第一样本群、第二样本群、第三样本群和第四样本群组合形成下一代种群；若未满足进化终止条件，则对下一代种群重复上述操作直至满足进化终止条件；输出单元80用于在满足进化终止条件时输出最后一代种群的各个样本所对应的特征。各个单元的具体工作过程可参见实施例一的描述，在此不进行赘述。

实施例三还公开了一种计算机可读存储介质，计算机可读存储介质存储有特征选择程序，特征选择程序被处理器执行时实现上述的特征选择方法。

进一步地，实施例四还公开了一种计算机设备，在硬件层面，如图8所示，该计算机设备包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。计算机可读存储介质11上存储有特征选择程序，手部关节角度估计程序被处理器执行时实现上述的特征选择方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种特征选择方法，其特征在于，所述特征选择方法包括：

对所述操作样本群进行突变操作，获得第四样本群；

在满足进化终止条件时，输出最后一代种群的各个样本所对应的特征组合。

2.根据权利要求1所述的特征选择方法，其特征在于，每次所述交叉操作包括：

从所述操作样本群中随机选择两个样本，判断所述两个样本的叫交叉长度和差异度是否均大于相应的阈值，差异度为所述两个样本在同一特征位上出现不同特征值的总次数与所述样本的样本长度的比值；

若是，则对所述两个样本按照预定交叉长度进行交叉，生成两个新样本；若否，则重复上述步骤直至生成两个新样本。

3.根据权利要求1所述的特征选择方法，其特征在于，对所述操作样本群进行突变操作，获得第四样本群的方法包括：

对所选样本的各个特征值按照所选概率值进行取反，以生成新样本；

4.根据权利要求1所述的特征选择方法，其特征在于，根据每个所述样本的适应度从所述当前代种群筛选出部分样本形成操作样本群的方法包括：

5.根据权利要求4所述的特征选择方法，其特征在于，所述特征选择方法还包括：

6.根据权利要求1所述的特征选择方法，其特征在于，将所述操作样本群中适应度小于第一阈值的样本替换为适应度大于第二阈值的样本，形成第一样本群的方法包括：

7.根据权利要求1所述的特征选择方法，其特征在于，是否满足所述进化终止条件的判断方法包括：

8.一种特征选择装置，其特征在于，所述特征选择装置包括：

输出单元，用于在满足进化终止条件时输出最后一代种群的对应的特征组合。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有特征选择程序，所述特征选择程序被处理器执行时实现权利要求1至7任一项所述的特征选择方法。

10.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的特征选择程序，所述特征选择程序被处理器执行时实现权利要求1至7任一项所述的特征选择方法。