CN113283472A - 一种基于零阶优化的数据特征选择方法 - Google Patents

一种基于零阶优化的数据特征选择方法 Download PDF

Info

Publication number
CN113283472A
CN113283472A CN202110421943.1A CN202110421943A CN113283472A CN 113283472 A CN113283472 A CN 113283472A CN 202110421943 A CN202110421943 A CN 202110421943A CN 113283472 A CN113283472 A CN 113283472A
Authority
CN
China
Prior art keywords
data
sampling
training
optimization algorithm
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110421943.1A
Other languages
English (en)
Inventor
俞扬
詹德川
周志华
庞江圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110421943.1A priority Critical patent/CN113283472A/zh
Publication of CN113283472A publication Critical patent/CN113283472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于零阶优化的数据特征选择方法,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。本发明保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本发明对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。

Description

一种基于零阶优化的数据特征选择方法
技术领域
本发明涉及一种基于零阶优化的数据特征选择方法,涉及机器学习中数据预处理技术领域。
背景技术
数据特征选择指从数据原始特征中选择并保留一些最有效特征的过程,是一种很重要的数据预处理过程,它通常在正式进行训练模型之前进行。特征选择使得数据维度减少,从而一定程度上缓解了维数灾难问题,这个角度考虑,特征选择与降维有相似的动机;另外,特征选择通过剔除不相关特征,只留下关键的特征,使得学习更加高效,以达到降低学习任务难度的目的。
常见的数据特征选择方法主要有三类:嵌入式、过滤式和包裹式。嵌入式方法将特征选择算法本身作为组成部分嵌入到训练模型中里,其中最常用的一种是,在模型训练中加入正则化项,训练后得到稀疏解,并以此达到特征选择的目的,但是此类方法对所使用的模型有很大的限制,需要训练模型时能够得到特征系数或者得到特征重要度,导致嵌入式方法的应用场景有限,容易过拟合,无法面对较复杂的使用场景。过滤式方法按照特征的发散性或者相关性对其进行评分,直接完成特征选择。Relief(Relevant Features)是一种著名的过滤式方法,其运行效率高,能够较快的得到特征选择结果。不足的是,过滤式方法的评价标准独立于特定的学习算法,使得分类准确率通常低于包裹式方法。包裹式方法以模型训练结果作为特征选择的评价指标。
在现有的三类特征选择方法中,嵌入式方法对训练模型有一定的限制,使得应用场景小,容易过拟合;过滤式方法脱离实际使用的模型,在实际的表现中往往不够理想;包裹式方法在性能上有良好表现,但此方法耗时巨大,且结果往往不稳定,不易控制。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种新的基于零阶优化的数据特征选择方法。此方案属于一种包裹式方法,不同与其他包裹式方法,保留包裹式方法在性能上优势的同时,在选择特征中引入了零阶优化算法,有效的减少了模型训练的次数,使其效率与准确度均有良好的表现有更高的效率。另外,本发明对多种模型都可适用,应用场景广泛,具有更强的鲁棒性。
技术方案:一种基于零阶优化的数据特征选择方法,数据特征选择完成的任务是对一个数据矩阵如n*m(n为数据量,m为特征数)的数据集进行特征维度上的缩减,去除不相关的特征,降低了学习任务的难度。同时一定程度上缓解维数灾难等问题。数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵(k<m,k经过特征选择后的特征数)。
本发明基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后,就可以进行数据采样。可以多次执行以下流程:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑。
将具体的数据特征选择方案作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间。具体来说,采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择),以此作为优化算法的配置。之后,进行预设轮次的循环。其中,一轮采样训练优化的循环过程如:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后,就得到了过程中表现最优的数据特征选择方案。
主要实施流程如下:
对数据进行特征选择,以实现数据分类任务,以RACOS算法作为优化算法设置,有以下流程(其中学习模型可以为实际使用场景下的模型)。
步骤1,首先进行采样空间的构建,基于给定的训练数据来生成对应特征数维度的采样空间。如训练数据特征为:
x1={x11,x12,…,x1m,label1}
x2={x21,x22,…,x2m,label2}
xn={xn1,xn2,…,xnm,labeln}
生成的对应采样空间的向量形式如:
s={s1,s2,…,sm}
其中,每一个元素代表特征对应维度位置的采样值。
步骤2,对训练数据进行划分训练集与验证集,训练数据取前a%作为训练集,后b%作为验证集(a+b<1调整此参数可以适当减少训练数据,加快特征选择过程);
步骤3,基于RACOS优化算法进行采样空间的采样得到的取值,并基于取值s得到特征选择后的数据集,基于步骤2划分后,使用训练集对分类模型进行训练,之后用验证集进行验证得到一个分类准确率;
步骤4,基于这个采样值和准确率进行一轮优化算法的优化;
步骤5,重复步骤2-4直到流程结束(达到预设重复轮数),最终得到一组经过特征选择的数据集,并以此作为最终的分类模型的数据集。
综上完成了本方案提出的基于零阶优化的数据特征选择方法过程。
有益效果:与现有技术相比,本发明提供的基于零阶优化的数据特征选择方法,相较过滤式方法有更好的准确度,相较普通的包裹式方法在产生新的特征子集中引入了优化,使得效率与准确度均有良好表现,另外相较于嵌入式方法有更强的鲁棒性。另外,方法中使用的优化算法可进行同类型算法的互相替换,采样训练优化的过程亦可进行调度算法的改进,来进行加速,使得本技术方案拓展性强、过程可控、具有广阔的使用前景。
附图说明
图1为本发明所述的零阶优化算法过程示意图;
图2为本发明所述的基于零阶优化的特征选择示意图;
图3为本发明所述的基于零阶优化的特征选择方案流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于零阶优化的数据特征选择方法,基于评价不断优化采样空间的算法过程。对优化算法进行采样空间的配置后,就可以进行数据采样。可以多次执行以下流程:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间。以上为基于零阶优化的数据特征选择方法的使用逻辑,另外,对于解决不可导的、非凸问题下的其他形式的优化算法,也可进行替换。
如图2所示,将具体的数据特征选择方案作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间。具体来说,采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化(代表每一元素其对应位置的特征是否被选择),以此作为优化算法的配置。之后,进行预设轮次的循环。其中,一轮采样训练优化的循环过程如:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化。循环结束后,就得到了过程中表现最优的数据特征选择方案。
以分类任务场景下来进行具体特征选择过程的实施方式的讲述。另外,使用的优化算法为Racos优化算法。为了方便存储能保存多个特征选择结果,维护一个指定空间t的优先队列Q来进行结果的存储。
数据集的形式如下:
x1={x11,x12,…,x1m,label1}
x2={x21,x22,…,x2m,label2}
xn={xn1,xn2,…,xnm,labeln}
生成的对应采样空间的向量形式如:
s={s1,s2,…,sm}
取数据集训练数据取前a%作为训练集,后b%作为验证集(a+b<1调整此参数可以适当减少训练数据,加快一次模型训练过程)。
流程如图3所示
步骤1,初始化,基于数据特征维度生成对应维度的采样空间(如上述),以此对优化算法进行配置;对训练数据进行训练集、验证集的划分;另外初始化一个优先队列Q用于存储结果(设定为最小堆,优先级为分类准确率,并排入t个小值结果);
步骤2,基于优化算法进行采样,得到采样值s,基于此值还原出特征选择后的数据集(分训练集与验证集);
步骤3,基于所得训练集进行模型训练,并基于验证集验证得到一个分类准确率;
步骤4,将采样值与分类准确率放入RACOS优化算法中更新优化算法;
步骤5,判断队列Q队头分类准确率是否小于此次分类准确率,若是,则对优先队列Q进行一次出队操作,并将此次结果排入优先队列Q中,若否,则跳过;
步骤6,循环执行步骤2-5过程,直至循环次数满足;
步骤7,按顺序保存优先队列Q队头结果并执行出队操作,直到队列Q为空,得到t个表现以递增排列的特征选择结果。
综上所述,完成讲述本发明所提出的基于零阶优化的特征选择方法。此项技术主要应用于数据预处理中的特征选择过程。也可以应用于如随机森林等,需要进行特征随机选择的算法过程。同时本技术方案对模型没有要求,且整个过程可控,有使用方便、易于应用、可控性强、拓展性强等特点,因此,本技术具有很高的推广价值。

Claims (5)

1.一种基于零阶优化的数据特征选择方法,用于数据的预处理,数据特征选择完成的任务是对一个数据矩阵为n*m的数据集进行特征维度上的缩减,去除不相关的特征,数据特征选择的最终所得的结果为n*k的经过特征选择的数据矩阵,k<m,k经过特征选择后的特征数;其特征在于,包括:数据采样,得到采样值;基于采样值进行训练,来得到采样值的评价,最后基于评价与采样值来更新优化算法采样空间;
将数据特征选择作为一个采样空间的取值,训练出对应的模型性能指标作为评价来优化采样空间;采样空间是一个向量,以数据的特征数作为采样空间的维度,对采样空间的每维进行二值离散化,以此作为优化算法的配置;之后,进行预设轮次的循环。
2.根据权利要求1所述的基于零阶优化的数据特征选择方法,其特征在于,一轮采样训练优化的循环过程为:首先,基于配置好的优化算法进行数据采样,得到采样值;之后,基于采样值还原数据进行训练;最后,基于训练所得评价与采样值对优化算法进行采样空间的优化;循环结束后,就得到了过程中表现最优的数据特征选择方案。
3.根据权利要求1所述的基于零阶优化的数据特征选择方法,其特征在于,在数据分类任务中,对数据进行特征选择,以实现数据分类任务,包括以下流程:
步骤1,首先进行采样空间的构建,基于给定的训练数据来生成对应特征数维度的采样空间;若训练数据特征为:
x1={x11,x12,…,x1m,label1}
x2={x21,x22,...,x2m,label2}
xn={xn1,xn2,…,xnm,labeln}
则生成的对应采样空间的向量形式如:
s={s1,s2,…,sm}
其中,每一个元素代表特征对应维度位置的采样值;
步骤2,对训练数据进行划分训练集与验证集,训练数据取前a%作为训练集,后b%作为验证集;
步骤3,基于优化算法进行采样空间的采样得到的取值,并基于取值s得到特征选择后的数据集,基于步骤2划分后,使用训练集对分类模型进行训练,之后用验证集进行验证得到一个分类准确率;
步骤4,基于所述采样值和准确率进行一轮优化算法的优化;
步骤5,重复步骤2-4到达到预设重复轮数,最终得到一组性能表现良好的经过特征选择的数据集,并以此作为最终的分类模型的数据集。
4.根据权利要求1所述的基于零阶优化的数据特征选择方法,其特征在于,所述a+b<1。
5.根据权利要求1所述的基于零阶优化的数据特征选择方法,其特征在于,所述优化算法为Racos优化算法。
CN202110421943.1A 2021-04-20 2021-04-20 一种基于零阶优化的数据特征选择方法 Pending CN113283472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421943.1A CN113283472A (zh) 2021-04-20 2021-04-20 一种基于零阶优化的数据特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421943.1A CN113283472A (zh) 2021-04-20 2021-04-20 一种基于零阶优化的数据特征选择方法

Publications (1)

Publication Number Publication Date
CN113283472A true CN113283472A (zh) 2021-08-20

Family

ID=77276902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421943.1A Pending CN113283472A (zh) 2021-04-20 2021-04-20 一种基于零阶优化的数据特征选择方法

Country Status (1)

Country Link
CN (1) CN113283472A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059852A (zh) * 2019-03-11 2019-07-26 杭州电子科技大学 一种基于改进随机森林算法的股票收益率预测方法
CN110138784A (zh) * 2019-05-15 2019-08-16 重庆大学 一种基于特征选择的网络入侵检测系统
CN112416603A (zh) * 2020-12-09 2021-02-26 北方工业大学 一种基于雾计算的联合优化系统和方法
CN112633346A (zh) * 2020-12-17 2021-04-09 西安理工大学 一种基于特征交互性的特征选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059852A (zh) * 2019-03-11 2019-07-26 杭州电子科技大学 一种基于改进随机森林算法的股票收益率预测方法
CN110138784A (zh) * 2019-05-15 2019-08-16 重庆大学 一种基于特征选择的网络入侵检测系统
CN112416603A (zh) * 2020-12-09 2021-02-26 北方工业大学 一种基于雾计算的联合优化系统和方法
CN112633346A (zh) * 2020-12-17 2021-04-09 西安理工大学 一种基于特征交互性的特征选择方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NAN LI, RONG JIN, ZHI-HUA ZHOU: ""Top Rank Optimization in Linear Time "", 《THE 27TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
YI-QI HU, HONG QIAN, YANG YU: ""Sequential Classification-Based Optimization for Direct Policy Search"", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
詹德川;周志华;: "基于相关投影分的特征选择算法", 计算机科学与探索, no. 02 *
郭彤;李爱群;王浩;: "基于牛顿-拉普森迭代和零阶优化算法的悬索结构找形研究", 工程力学, no. 04 *

Similar Documents

Publication Publication Date Title
CN108053119B (zh) 一种求解零等待流水车间调度问题的改进粒子群优化方法
Lin et al. 1xn pattern for pruning convolutional neural networks
CN109961098B (zh) 一种机器学习的训练数据选择方法
CN108960304B (zh) 一种网络交易欺诈行为的深度学习检测方法
CN111144555A (zh) 基于改进进化算法的循环神经网络架构搜索方法、系统及介质
KR20170073059A (ko) 게임 인공지능 시스템 및 이를 이용한 게임 캐릭터의 인공지능 구현 방법
Wiggers et al. Predictive sampling with forecasting autoregressive models
CN111444513B (zh) 一种电网嵌入式终端的固件编译优化选项识别方法及装置
CN114841581A (zh) 基于gep-vns进化动态作业车间调度规则中的特征选择方法
CN111680162B (zh) 基于张量分解的知识图谱嵌入方法、系统及设备
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN116500986A (zh) 一种分布式作业车间的优先调度规则生成方法及系统
CN115617690A (zh) 基于改进自适应遗传算法的并行测试任务调度方法
Pan et al. Mesa: A memory-saving training framework for transformers
CN111382540A (zh) 优化计算方法和信息处理装置
CN113283472A (zh) 一种基于零阶优化的数据特征选择方法
CN113869332A (zh) 一种特征选择方法、装置、存储介质和设备
CN109376471A (zh) 一种后仿电路优化后等效输出的方法
CN116562584A (zh) 一种基于Conv-Dueling与泛化表征的动态车间调度方法
CN114415615B (zh) 不确定需求下混流装配线平衡分配方法及装置
Zhong et al. Target aware network adaptation for efficient representation learning
CN114969148A (zh) 一种基于深度学习的系统访问量预测方法、介质和设备
CN111783976B (zh) 一种基于窗口梯度更新的神经网络训练过程中间值存储压缩方法和装置
CN113377884A (zh) 基于多智能体增强学习的事件语料库提纯方法
CN112070145A (zh) 基于对抗网络的水果图像的新鲜度属性迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination