CN113095424A

CN113095424A - 特征选择方法、装置、计算机设备及存储介质

Info

Publication number: CN113095424A
Application number: CN202110431229.0A
Authority: CN
Inventors: 李越; 邵俊; 李骏琪
Original assignee: Shenzhen Suoxinda Data Technology Co ltd
Current assignee: Shenzhen Suoxinda Data Technology Co ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-09

Abstract

本申请公开了一种特征选择方法、装置、计算机设备及存储介质，该方法包括：获取待选特征集，对所述待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体；对所述染色体进行随机划分，得到多个初始种群；对多个所述初始种群进行自然选择，以确定候选种群名单；采用基因算法对所述名单中候选种群的染色体进行进化操作，得到进化后的目标种群；根据所述目标种群得到目标特征组合。本申请能够节省计算资源，提升特征选择的准确度。

Description

特征选择方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种特征选择方法、装置、计算机设备及存储介质。

背景技术

使用原始数据训练机器学习模型并不是合适的选择，这是因为原始数据包含冗余信息，一方面这些冗余信息对模型训练并无帮助，无法提高模型性能，另一方面这些冗余信息在模型训练时会消耗大量内存和计算能力，因此，特征选择至关重要。特征选择，也称特征子集选择，或属性选择，是指从多个特征中选出部分具有代表性的特征，以降低特征的维度，减少后续进行机器学习的计算量。

目前，常用的特征选择方法有人工挖掘，然而人工挖掘方式繁琐且耗时，准确性也不高。而其他的一些自动选择特征的方法，多是对低效特征组合的重复计算，有限的计算资源难以支持，且准确性难以保证。

发明内容

本申请实施例提供一种特征选择方法、装置、计算机设备及存储介质，旨在节省计算资源，提升特征选择的准确度。

第一方面，本申请实施例提供了一种特征选择方法，包括：

获取待选特征集，对所述待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体；

对所述染色体进行随机划分，得到多个初始种群；

对多个所述初始种群进行自然选择，以确定候选种群名单；

采用基因算法对所述名单中候选种群的染色体进行进化操作，得到进化后的目标种群；

根据所述目标种群得到目标特征组合。

第二方面，本申请实施例还提供了一种特征选择装置，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行上述的特征选择方法。

第三方面，本申请实施例还提供了一种计算机设备，所述计算机设备包括上述的特征选择装置。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时使所述处理器实现上述的特征选择方法。

本申请实施例提供了一种特征选择方法、装置、计算机设备及存储介质，该特征选择方法获取待选特征集，然后对待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体；对染色体进行随机划分，得到多个初始种群，再对多个初始种群进行自然选择，以确定候选种群名单，进一步采用基因算法对候选种群名单中候选种群的染色体进行进化操作，得到进化后的目标种群，最终根据进化后的目标种群得到目标特征组合，通过借鉴自然界中的进化过程实现特征选择，避免了对低效特征组合的重复计算，节省了计算资源，提高了特征选择的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请特征选择方法一实施例的流程示意图；

图2是本申请特征选择方法另一实施例的流程示意图；

图3是本申请特征选择方法又一实施例的流程示意图；

图4是本申请特征选择方法再一实施例的流程示意图；

图5是本申请一实施例提供的一种特征选择装置的示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请一实施例提供的特征选择方法的流程示意图。其中，该特征选择方法可以应用于上述的特征选择装置、计算机设备中。以下将以特征选择方法应用于计算机设备中为例进行详细说明。

如图1所示，该特征选择方法具体包括步骤S101至步骤S105。

S101、获取待选特征集，对所述待选特征集中的待选特征进行二进制编码得到编码后的待选特征，并将编码后的待选特征作为染色体。

其中，待选特征集能代表参与机器学习运算的数据样本。示例性的，获取待选特征集方式可以是计算机设备加载输入界面，从而获取用户在输入界面输入的待选特征集，也可以是接收其他设备发送的待选特征集。

需要说明的是，待选特征集中的待选特征用向量表示，每个待选特征包含多个特征元素，每个特征元素都可能影响机器学习结果。而基因算法中的基因是染色体的组成部分，为了将基因算法应用到特征选择上，对待选特征集中的待选特征进行二进制编码，将编码后的待选特征视为染色体，也就是说染色体(编码后的待选特征)以二进制表示；编码后的待选特征的每个特征元素则视为基因，也就是说染色体中第n个基因与编码后的特征中第n个特征元素一对一映射。如此，采用二进制表示基因(即特征元素)，可以反映基因是否被选择，当基因值为1时，表示该基因被选择(这意味着选择了特征中的第一个元素)，当为0时，则忽略它。

S102、对所述染色体进行随机划分，得到多个初始种群；

基因算法从初始种群开始。对染色体进行随机划分，将染色体划分为多个初始种群，初始种群的个数(规模)可以预先设定，以P₀表示初始种群的个数(规模)。

S103、对多个所述初始种群进行自然选择，以确定候选种群名单。

基因算法基于达尔文的“适者生存理论”，借鉴“适者生存理论”对多个初始种群进行自然选择，可以理解为从初始种群中选择基因(特征元素)表达能力更为强大的父母辈，从而得到候选种群名单(父母辈名单)。后续便可基于候选种群名单进行若干轮次的进化操作，将表达能力更为强大的更优或者更更合适基因(特征元素)作为特征选择的基础，能显著提升特征选择的准确性。可以理解的是，总进化轮次可以预先进行设定，用N表示。

在一实施例中，如图2所示，步骤S103具体可以包括子步骤S1031和子步骤S1032。

子步骤S1031、利用机器学习模型获得各个所述初始种群对应的适应度。

借鉴“适者生存理论”对多个初始种群进行自然选择时，先对各个初始种群进行评估，可以采用适应度度量。利用机器学习模型获得各个初始种群对应的适应度，机器学习模型以一个初始种群作为输入，然后输出这个初始种群对应适应度，也就是这个初始种群包含的所有染色体对应的适应度的均值。示例性的，可以利用支持向量机(SVC)获得各个初始种群对应的适应度。

子步骤S1032、根据各个所述初始种群对应的适应度对多个所述初始种群进行自然选择，以确定候选种群名单。

之后，便可根据各个初始种群对应的适应度，针对多个初始种群进行自然选择，从而确定候选种群名单，实现种群个数(规模)的缩小。

在一实施例中，如图3所示，为了实现根据各个初始种群对应的适应度，对多个初始种群进行自然选择，步骤S101之前，包括确定适应度阈值的步骤，具体为步骤S106至步骤S107。

步骤S106、利用机器学习模型获得待选特征集对应的适应度。

利用机器学习模型获得待选特征集对应的适应度，即，将待选特征集输入至机器学习模型中，得到机器学习模型输出的待选特征集中所有待选特征对应的适应度的均值，作为待选特征集对应的适应度。

步骤S107、将所述待选特征集对应的所述适应度作为适应度阈值。

可以理解的是，待选特征集对应的适应度代表了待选特征集中所有待选特征的平均适应度水平，将待选特征集对应的适应度作为适应度阈值，用来作为衡量各个初始种群的适应度的判定阈值。

在一实施例中，子步骤S1032，具体为：将各个所述初始种群对应的适应度与所述适应度阈值进行比对；对于适应度小于所述适应度阈值的初始种群，按照预设淘汰概率算法进行淘汰；将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群划分为亲本种群和非亲本种群；按照预设交叉概率分别从所述亲本种群和所述非亲本种群中随机选取候选种群组成候选种群名单。

根据各个初始种群对应的适应度对多个初始种群进行自然选择，具体是将各个初始种群对应的适应度与适应度阈值进行比对，对于适应度小于适应度阈值的初始种群，按照预设淘汰概率算法进行淘汰，也就是按照一定的概率随机淘汰掉适应度小于适应度阈值的一部分初始种群，由此，实现种群个数(规模)的缩小。

示例性的，按照如下所示预设淘汰概率算法对适应度小于适应度阈值的初始种群进行淘汰：

p＝0.5+i*P/(2N*P₀)

其中，p为淘汰概率，i为当前进化轮次，N为总进化轮次，P为当前种群个数(规模)，P₀为初始种群个数(规模)。

将淘汰后剩余的初始种群和适应度大于等于适应度阈值的初始种群划分为亲本种群和非亲本种群，按照预设交叉概率(表示为Pc)分别从亲本种群和非亲本种群中随机选取候选种群组成候选种群名单，完成父母辈种群的选取，由此，进一步实现种群个数(规模)的缩小。其中，预设交叉概率Pc可以根据实际情况预先进行灵活设置。

在一实施例中，所述将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群划分为亲本种群和非亲本种群的步骤，具体为：将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群进行适应度排序；按照适应度从大到小的顺序，从淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群中选取预设个数的种群作为亲本种群；将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群中的其余种群作为非亲本种群。

即，将淘汰后剩余的初始种群和适应度大于等于适应度阈值的初始种群所对应的适应度进行排序，然后按照适应度从大到小的顺序，从淘汰后剩余的初始种群和适应度大于等于适应度阈值的初始种群中选取预设个数(用K表示)的种群作为亲本种群，其中，预设个数K为预先设置的保留亲本个数，远小于初始种群个数P₀，换而言之，就是按照适应度从大到小的顺序，从淘汰后剩余的初始种群和适应度大于等于适应度阈值的初始种群中选取排名前K位的种群作为亲本种群，那么对于淘汰后剩余的初始种群和适应度大于等于适应度阈值的初始种群中的其余种群则就作为非亲本种群。

步骤S104、采用基因算法对所述名单中候选种群的染色体进行进化操作，得到进化后的目标种群。

其中，基因算法是一种基于进化生物学概念的最优化搜索算法，它借鉴了自然界中的进化过程，并通过允许染色体的基因通过“交叉”和“变异”来进化得到更优的染色体及种群，其还结合了自然界中的竞争理念，即仅允许更合适或更优的基因“生存”下来并“繁殖”其后代，经过种群的迭代，逐渐缩小种群的个数(规模)。得到候选种群名单后，即采用基因算法对候选种群名单进行若干轮次的进化操作，得到进化后的目标种群。

在一些实施例中，如图4所示，步骤S104具体可以包括子步骤S1041和子步骤S1044。

子步骤S1041、对所述名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群。

采用基因算法对候选种群名单进行进化操作，可以是对候选种群名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群。

在一实施例中，所述子步骤S1041，具体为：对所述名单中每一候选种群的染色体与前一候选种群的染色体进行基因双点交叉和基因翻转突变，得到进化后的后代种群。

对于候选种群名单中候选种群的染色体进行基因双点交叉，双点交叉是交叉算子的一种，即在染色体上确定两个位置，使得两个参与本次交叉的染色体交换中间对应的基因片段。然后进一步基因双点交叉后的染色体进行基因翻转突变，示例性的，可以是每个染色体上的每个基因都以预设变异率Pm进行取反，即可得到进化后的后代种群，其中，预设变异率Pm可以预先根据实际情况进行灵活设置。例如，假设Pm取0.2时，就以0.2的概率将染色体上值为1的基因翻转为值为0、值为0的基因翻转为值为1。

子步骤S1042、判断是否满足进化终止条件，其中，所述进化终止条件包括达到预设进化轮次和/或后代种群的数量达到预设数量。

得到进化后的后代种群后，判断当前轮进化是否满足进化终止条件，该进化终止条件包括达到预设进化轮次N和/或后代种群的数量达到预设数量(比如P＝1)。

子步骤S1043、若不满足进化终止条件，对所述后代种群进行自然选择，以确定候选种群名单，并返回对所述名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群的步骤。

如果不满足进化终止条件，对后代种群进行自然选择，以确定候选种群名单。需要说明的是，若当前种群的个数(规模)P小于或等于K，自然选择时更新K为P-1。故此，每进行一轮自然选择，就实现种群的个数(规模)的进一步缩小。之后，返回子步骤S1041的步骤进行下一轮次的进化。

子步骤S1044、若满足进化终止条件，将进化后的后代种群作为进化后的目标种群。

如果满足进化终止条件，那么就将进化后的后代种群作为进化后的目标种群。

综上，首轮进化在经过自然选择的初始种群上进行，仅允许更合适或更优的基因(特征元素)“生存”下来并通过“交叉”和“变异”的进化“繁殖”其后代，后续每一轮进化都是在前一轮进化得到的后代种群的基础上进行，从而逐渐缩小种群的个数(规模)，实现种群的迭代进化，避免了对特征的重复计算，最终只将迭代进化完成后得到的优质种群作为目标种群。

步骤S105、根据所述目标种群得到目标特征组合。

将进化后的目标种群中的染色体进行二进制解码，即得到目标特征组合，目标特征组合可以说是更优的特征集，由于经过种群的持续进化迭代，表达能力更强，由此提高了特征选择的准确性。

上述实施例提供的特征选择方法，首先获取待选特征集，然后对待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体；对染色体进行随机划分，得到多个初始种群，再对多个初始种群进行自然选择，以确定候选种群名单，进一步采用基因算法对候选种群名单中候选种群的染色体进行进化操作，得到进化后的目标种群，最终根据所述目标种群得到目标特征组合，通过借鉴自然界中的进化过程实现特征选择，避免了对低效特征组合的重复计算，节省了计算资源，提高了特征选择的准确性。

请参阅图5，图5为本申请实施例提供的一种特征选择装置的示意性框图。如图5所示，特征选择装置500可以包括处理器510和存储器520。处理器510和存储器520通过总线连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器510可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(Central Processing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

具体地，存储器520可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现如下步骤：

对所述染色体进行随机划分，得到多个初始种群；

对多个所述初始种群进行自然选择，以确定候选种群名单；

根据所述目标种群得到目标特征组合。

在一些实施例中，所述处理器在实现所述对多个所述初始种群进行自然选择，以确定候选种群名单时，用于实现：

利用机器学习模型获得各个所述初始种群对应的适应度；

根据各个所述初始种群对应的适应度对多个所述初始种群进行自然选择，以确定候选种群名单。

在一些实施例中，所述处理器在实现所述采用基因算法对所述名单中候选种群的染色体进行进化操作，得到进化后的目标种群时，用于实现：

对所述名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群；

判断是否满足进化终止条件，其中，所述进化终止条件包括达到预设进化轮次和/或后代种群的数量达到预设数量；

若不满足进化终止条件，对所述后代种群进行自然选择，以确定候选种群名单，并返回对所述名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群的步骤；

若满足进化终止条件，将进化后的后代种群作为进化后的目标种群。

在一些实施例中，所述处理器在实现所述获取待选特征集，对所述待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体之前，用于实现：

利用机器学习模型获得待选特征集对应的适应度；

将所述待选特征集对应的所述适应度作为适应度阈值。

在一些实施例中，所述处理器在实现所述根据各个所述初始种群对应的适应度对多个所述初始种群进行自然选择，以确定候选种群名单时，用于实现：

将各个所述初始种群对应的适应度与所述适应度阈值进行比对；

对于适应度小于所述适应度阈值的初始种群，按照预设淘汰概率算法进行淘汰；

将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群划分为亲本种群和非亲本种群；

按照预设交叉概率分别从所述亲本种群和所述非亲本种群中随机选取候选种群组成候选种群名单。

在一些实施例中，所述处理器在实现所述将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群划分为亲本种群和非亲本种群时，用于实现：

将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群进行适应度排序；

按照适应度从大到小的顺序，从淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群中选取预设个数的种群作为亲本种群；

将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群中的其余种群作为非亲本种群。

在一些实施例中，所述处理器在实现所述对所述名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群时，用于实现：

对所述名单中每一候选种群的染色体与前一候选种群的染色体进行基因双点交叉和基因翻转突变，得到进化后的后代种群。

本申请的实施例中还提供一种计算机设备，该计算机设备包括上述实施例中的特征选择装置500。计算机设备通过获取待选特征集，对所述待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体；对所述染色体进行随机划分，得到多个初始种群；对多个所述初始种群进行自然选择，以确定候选种群名单；采用基因算法对所述名单中候选种群的染色体进行进化操作，得到进化后的目标种群；根据所述目标种群得到目标特征组合。具体操作可参考本申请实施例提供的特征选择方法的步骤，在此不再赘述。

由于该计算机设备可以执行本申请实施例所提供的任一种特征选择方法，因此，可以实现本申请实施例所提供的任一种特征选择方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现上述实施例提供的特征选择方法的步骤。例如，该计算机程序被处理器加载，可以执行如下步骤：

对所述染色体进行随机划分，得到多个初始种群；

对多个所述初始种群进行自然选择，以确定候选种群名单；

根据所述目标种群得到目标特征组合。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，计算机可读存储介质可以是前述实施例的特征选择装置或计算机设备的内部存储单元，例如特征选择装置或计算机设备的硬盘或内存。计算机可读存储介质也可以是特征选择装置或计算机设备的外部存储设备，例如特征选择装置或计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种特征选择方法，因此，可以实现本申请实施例所提供的任一种特征选择方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种特征选择方法，其特征在于，包括：

对所述染色体进行随机划分，得到多个初始种群；

对多个所述初始种群进行自然选择，以确定候选种群名单；

根据所述目标种群得到目标特征组合。

2.根据权利要求1所述的方法，其特征在于，所述对多个所述初始种群进行自然选择，以确定候选种群名单，包括：

利用机器学习模型获得各个所述初始种群对应的适应度；

3.根据权利要求1所述的方法，其特征在于，所述采用基因算法对所述名单中候选种群的染色体进行进化操作，得到进化后的目标种群，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取待选特征集，对所述待选特征集中的待选特征进行二进制编码得到编码后的待选特征，将编码后的待选特征作为染色体之前，包括：

利用机器学习模型获得待选特征集对应的适应度；

将所述待选特征集对应的所述适应度作为适应度阈值。

5.根据权利要求4所述的方法，其特征在于，所述根据各个所述初始种群对应的适应度对多个所述初始种群进行自然选择，以确定候选种群名单，包括：

6.根据权利要求5所述的方法，其特征在于，所述将淘汰后剩余的初始种群和适应度大于等于所述适应度阈值的初始种群划分为亲本种群和非亲本种群，包括：

7.根据权利要求3所述的方法，其特征在于，所述对所述名单中候选种群的染色体进行基因交叉和基因变异的操作，得到进化后的后代种群，包括：

8.一种特征选择装置，其特征在于，所述特征选择装置包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7中任一项所述的特征选择方法。

9.一种计算机设备，其特征在于，所述计算机设备包括如权利要求8所述的特征选择装置。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的特征选择方法。