CN113283472A

CN113283472A - 一种基于零阶优化的数据特征选择方法

Info

Publication number: CN113283472A
Application number: CN202110421943.1A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 庞江圣
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-08-20

Abstract

本发明公开一种基于零阶优化的数据特征选择方法，包括：数据采样，得到采样值；基于采样值进行训练，来得到采样值的评价，最后基于评价与采样值来更新优化算法采样空间；将数据特征选择作为一个采样空间的取值，训练出对应的模型性能指标作为评价来优化采样空间；采样空间是一个向量，以数据的特征数作为采样空间的维度，对采样空间的每维进行二值离散化，以此作为优化算法的配置；之后，进行预设轮次的循环。本发明保留包裹式方法在性能上优势的同时，在选择特征中引入了零阶优化算法，有效的减少了模型训练的次数，使其效率与准确度均有良好的表现有更高的效率。另外，本发明对多种模型都可适用，应用场景广泛，具有更强的鲁棒性。

Description

一种基于零阶优化的数据特征选择方法

技术领域

本发明涉及一种基于零阶优化的数据特征选择方法，涉及机器学习中数据预处理技术领域。

背景技术

数据特征选择指从数据原始特征中选择并保留一些最有效特征的过程，是一种很重要的数据预处理过程，它通常在正式进行训练模型之前进行。特征选择使得数据维度减少，从而一定程度上缓解了维数灾难问题，这个角度考虑，特征选择与降维有相似的动机；另外，特征选择通过剔除不相关特征，只留下关键的特征，使得学习更加高效，以达到降低学习任务难度的目的。

常见的数据特征选择方法主要有三类：嵌入式、过滤式和包裹式。嵌入式方法将特征选择算法本身作为组成部分嵌入到训练模型中里，其中最常用的一种是，在模型训练中加入正则化项，训练后得到稀疏解，并以此达到特征选择的目的，但是此类方法对所使用的模型有很大的限制，需要训练模型时能够得到特征系数或者得到特征重要度，导致嵌入式方法的应用场景有限，容易过拟合，无法面对较复杂的使用场景。过滤式方法按照特征的发散性或者相关性对其进行评分，直接完成特征选择。Relief(Relevant Features)是一种著名的过滤式方法，其运行效率高，能够较快的得到特征选择结果。不足的是，过滤式方法的评价标准独立于特定的学习算法，使得分类准确率通常低于包裹式方法。包裹式方法以模型训练结果作为特征选择的评价指标。

在现有的三类特征选择方法中，嵌入式方法对训练模型有一定的限制，使得应用场景小，容易过拟合；过滤式方法脱离实际使用的模型，在实际的表现中往往不够理想；包裹式方法在性能上有良好表现，但此方法耗时巨大，且结果往往不稳定，不易控制。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种新的基于零阶优化的数据特征选择方法。此方案属于一种包裹式方法，不同与其他包裹式方法，保留包裹式方法在性能上优势的同时，在选择特征中引入了零阶优化算法，有效的减少了模型训练的次数，使其效率与准确度均有良好的表现有更高的效率。另外，本发明对多种模型都可适用，应用场景广泛，具有更强的鲁棒性。

技术方案：一种基于零阶优化的数据特征选择方法，数据特征选择完成的任务是对一个数据矩阵如n*m(n为数据量，m为特征数)的数据集进行特征维度上的缩减，去除不相关的特征，降低了学习任务的难度。同时一定程度上缓解维数灾难等问题。数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵(k<m，k经过特征选择后的特征数)。

本发明基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后，就可以进行数据采样。可以多次执行以下流程：数据采样，得到采样值；基于采样值进行训练，来得到采样值的评价，最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑。

将具体的数据特征选择方案作为一个采样空间的取值，训练出对应的模型性能指标作为评价来优化采样空间。具体来说，采样空间是一个向量，以数据的特征数作为采样空间的维度，对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择)，以此作为优化算法的配置。之后，进行预设轮次的循环。其中，一轮采样训练优化的循环过程如：首先，基于配置好的优化算法进行数据采样，得到采样值；之后，基于采样值还原数据进行训练；最后，基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后，就得到了过程中表现最优的数据特征选择方案。

主要实施流程如下：

对数据进行特征选择，以实现数据分类任务，以RACOS算法作为优化算法设置，有以下流程(其中学习模型可以为实际使用场景下的模型)。

步骤1，首先进行采样空间的构建，基于给定的训练数据来生成对应特征数维度的采样空间。如训练数据特征为：

x₁＝{x₁₁,x₁₂,…,x_1m,label₁}

x₂＝{x₂₁,x₂₂,…,x_2m,label₂}

…

x_n＝{x_n1,x_n2,…,x_nm,label_n}

生成的对应采样空间的向量形式如：

s＝{s₁,s₂,…,s_m}

其中，每一个元素代表特征对应维度位置的采样值。

步骤2，对训练数据进行划分训练集与验证集，训练数据取前a％作为训练集，后b％作为验证集(a+b<1调整此参数可以适当减少训练数据，加快特征选择过程)；

步骤3，基于RACOS优化算法进行采样空间的采样得到的取值，并基于取值s得到特征选择后的数据集，基于步骤2划分后，使用训练集对分类模型进行训练，之后用验证集进行验证得到一个分类准确率；

步骤4，基于这个采样值和准确率进行一轮优化算法的优化；

步骤5，重复步骤2-4直到流程结束(达到预设重复轮数)，最终得到一组经过特征选择的数据集，并以此作为最终的分类模型的数据集。

综上完成了本方案提出的基于零阶优化的数据特征选择方法过程。

有益效果：与现有技术相比，本发明提供的基于零阶优化的数据特征选择方法，相较过滤式方法有更好的准确度，相较普通的包裹式方法在产生新的特征子集中引入了优化，使得效率与准确度均有良好表现，另外相较于嵌入式方法有更强的鲁棒性。另外，方法中使用的优化算法可进行同类型算法的互相替换，采样训练优化的过程亦可进行调度算法的改进，来进行加速，使得本技术方案拓展性强、过程可控、具有广阔的使用前景。

附图说明

图1为本发明所述的零阶优化算法过程示意图；

图2为本发明所述的基于零阶优化的特征选择示意图；

图3为本发明所述的基于零阶优化的特征选择方案流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于零阶优化的数据特征选择方法，基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后，就可以进行数据采样。可以多次执行以下流程：数据采样，得到采样值；基于采样值进行训练，来得到采样值的评价，最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑，另外，对于解决不可导的、非凸问题下的其他形式的优化算法，也可进行替换。

如图2所示，将具体的数据特征选择方案作为一个采样空间的取值，训练出对应的模型性能指标作为评价来优化采样空间。具体来说，采样空间是一个向量，以数据的特征数作为采样空间的维度，对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择)，以此作为优化算法的配置。之后，进行预设轮次的循环。其中，一轮采样训练优化的循环过程如：首先，基于配置好的优化算法进行数据采样，得到采样值；之后，基于采样值还原数据进行训练；最后，基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后，就得到了过程中表现最优的数据特征选择方案。

以分类任务场景下来进行具体特征选择过程的实施方式的讲述。另外，使用的优化算法为Racos优化算法。为了方便存储能保存多个特征选择结果，维护一个指定空间t的优先队列Q来进行结果的存储。

数据集的形式如下：

x₁＝{x₁₁,x₁₂,…,x_1m,label₁}

x₂＝{x₂₁,x₂₂,…,x_2m,label₂}

…

x_n＝{x_n1,x_n2,…,x_nm,label_n}

生成的对应采样空间的向量形式如：

s＝{s₁,s₂,…,s_m}

取数据集训练数据取前a％作为训练集，后b％作为验证集(a+b<1调整此参数可以适当减少训练数据，加快一次模型训练过程)。

流程如图3所示

步骤1，初始化，基于数据特征维度生成对应维度的采样空间(如上述)，以此对优化算法进行配置；对训练数据进行训练集、验证集的划分；另外初始化一个优先队列Q用于存储结果(设定为最小堆，优先级为分类准确率，并排入t个小值结果)；

步骤2，基于优化算法进行采样，得到采样值s，基于此值还原出特征选择后的数据集(分训练集与验证集)；

步骤3，基于所得训练集进行模型训练，并基于验证集验证得到一个分类准确率；

步骤4，将采样值与分类准确率放入RACOS优化算法中更新优化算法；

步骤5，判断队列Q队头分类准确率是否小于此次分类准确率，若是，则对优先队列Q进行一次出队操作，并将此次结果排入优先队列Q中，若否，则跳过；

步骤6，循环执行步骤2-5过程，直至循环次数满足；

步骤7，按顺序保存优先队列Q队头结果并执行出队操作，直到队列Q为空，得到t个表现以递增排列的特征选择结果。

综上所述，完成讲述本发明所提出的基于零阶优化的特征选择方法。此项技术主要应用于数据预处理中的特征选择过程。也可以应用于如随机森林等，需要进行特征随机选择的算法过程。同时本技术方案对模型没有要求，且整个过程可控，有使用方便、易于应用、可控性强、拓展性强等特点，因此，本技术具有很高的推广价值。

Claims

1.一种基于零阶优化的数据特征选择方法，用于数据的预处理，数据特征选择完成的任务是对一个数据矩阵为n*m的数据集进行特征维度上的缩减，去除不相关的特征，数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵，k＜m，k经过特征选择后的特征数；其特征在于，包括：数据采样，得到采样值；基于采样值进行训练，来得到采样值的评价，最后基于评价与采样值来更新优化算法采样空间；

将数据特征选择作为一个采样空间的取值，训练出对应的模型性能指标作为评价来优化采样空间；采样空间是一个向量，以数据的特征数作为采样空间的维度，对采样空间的每维进行二值离散化，以此作为优化算法的配置；之后，进行预设轮次的循环。

2.根据权利要求1所述的基于零阶优化的数据特征选择方法，其特征在于，一轮采样训练优化的循环过程为：首先，基于配置好的优化算法进行数据采样，得到采样值；之后，基于采样值还原数据进行训练；最后，基于训练所得评价与采样值对优化算法进行采样空间的优化；循环结束后，就得到了过程中表现最优的数据特征选择方案。

3.根据权利要求1所述的基于零阶优化的数据特征选择方法，其特征在于，在数据分类任务中，对数据进行特征选择，以实现数据分类任务，包括以下流程：

步骤1，首先进行采样空间的构建，基于给定的训练数据来生成对应特征数维度的采样空间；若训练数据特征为：

x₁＝{x₁₁，x₁₂，…，x_1m，label₁}

x₂＝{x₂₁，x₂₂，...，x_2m，label₂}

…

x_n＝{x_n1，x_n2，…，x_nm，label_n}

则生成的对应采样空间的向量形式如：

s＝{s₁，s₂，…，s_m}

其中，每一个元素代表特征对应维度位置的采样值；

步骤2，对训练数据进行划分训练集与验证集，训练数据取前a％作为训练集，后b％作为验证集；

步骤3，基于优化算法进行采样空间的采样得到的取值，并基于取值s得到特征选择后的数据集，基于步骤2划分后，使用训练集对分类模型进行训练，之后用验证集进行验证得到一个分类准确率；

步骤4，基于所述采样值和准确率进行一轮优化算法的优化；

步骤5，重复步骤2-4到达到预设重复轮数，最终得到一组性能表现良好的经过特征选择的数据集，并以此作为最终的分类模型的数据集。

4.根据权利要求1所述的基于零阶优化的数据特征选择方法，其特征在于，所述a+b＜1。

5.根据权利要求1所述的基于零阶优化的数据特征选择方法，其特征在于，所述优化算法为Racos优化算法。