CN110110862A - 一种基于适应性模型的超参数优化方法 - Google Patents

一种基于适应性模型的超参数优化方法 Download PDF

Info

Publication number
CN110110862A
CN110110862A CN201910389482.7A CN201910389482A CN110110862A CN 110110862 A CN110110862 A CN 110110862A CN 201910389482 A CN201910389482 A CN 201910389482A CN 110110862 A CN110110862 A CN 110110862A
Authority
CN
China
Prior art keywords
hyper parameter
model
training
algorithm
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910389482.7A
Other languages
English (en)
Inventor
吴佳
陈森朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910389482.7A priority Critical patent/CN110110862A/zh
Publication of CN110110862A publication Critical patent/CN110110862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于适应性模型的超参数优化方法,包括步骤:S1、选择超参数配置:agent为算法模型选择一个超参数取值组合a1,a1包括k个不同的超参数,k为算法模型中需要优化的超参数的总个数;S2、训练算法模型:在训练数据集上训练最新的超参数取值组合所对应的算法模型,在验证数据集上验证该模型的算法准确度,并训练一适应性模型预测算法准确度;S3、以适应性模型预测的算法准确度作为奖励值优化agent,利用PPO算法来更新超参数选择策略。本发明能够自适应待优化模型的搜索空间和数据集规模,克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题,在不同的环境下都能够具有良好的稳定性、准确性、时间效率。

Description

一种基于适应性模型的超参数优化方法
技术领域
本发明涉及参数优化技术领域,具体涉及一种基于适应性模型的超参数优化方法。
背景技术
中国机器学习已经成为推动人工智能发展的主要驱动力。近年来,机器学习已经成功应用到机器翻译、语音识别、图像识别和游戏等众多领域,也随之出现了如随机森林、XGBoost这样的先进集成分类算法和如卷积神经网络、循环神经网络、生成对抗网络这样的神经网络模型。但是,模型的超参数配置是决定算法模型最终性能的重要因素,手动设置超参数往往需要深厚的专业背景知识及实际操作经验,对于非专业使用者相对困难。另外,随着超参数个数增多以及取值范围扩大,即使是经验丰富的使用者也极易造成误判。因此,超参数优化(Hyperparameter Optimization:HPO)技术被提出并用于在没有人为干扰的情况下自动选择模型配置。通过自动设置不同的超参数配置适应不同的算法模型,大大减少了人力资源,提高了算法模型的性能。
现有技术中,常用的超参数优化方法有随机搜索方法、自适应协方差矩阵进化策略(CMA-ES)算法和TPE算法(Tree-structured Parzen Estimator)。随机搜索方法在超参数空间中进行简单随机采样而不是有方向性的探索,通过对比其约束函数和目标函数的值,不断保留较好的结果,理论上,获得的随机样本越多,获得最优解的概率越大。但是该方法虽然简单易行,但是性能极不稳定;另外,只有最优超参数组合数量占所有组合数量的比重超过5%时,才会有较高的搜索效率。自适应协方差矩阵进化策略(CMA-ES)算法,是基于进化算法的一种改进算法,通过模拟生物进化过程来达到最优目的,主要用来解决非线性、非凸的优化问题。该方法从一个随机的初始搜索点开始搜索,并按照一定的概率分布产生第一个种群A,并评价其中所有个体的适应度;然后根据种群A中个体的适应度选择较好的个体更新进化策略,从而调整下一种群的进化方向,即控制下一种群的产生;每次突变后,须对比当前种群中的最优解和收敛条件,若满足则找到最优解并退出循环,否则继续迭代。该方法具有全局性能好、寻优效率高的特点,但其具有随机性、优化性能不稳定的缺点。TPE算法是一种基于树状结构Parzen密度估计的非标准贝叶斯优化算法。该方法使用树形Parzen评估器构建代理模型,并以一组超参数λ为条件对优化目标y进行建模,形成先验模型。该方法能够搜索到较好的结果,但是随着迭代次数增加,每次迭代都耗费大量的时间。
发明内容
本发明的目的在于提供一种基于适应性模型的超参数优化方法,该方法能够自适应待优化模型的搜索空间和数据集规模,克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题,在不同的环境下都能够具有良好的稳定性、准确性、时间效率。
本发明通过下述技术方案实现:
一种基于适应性模型的超参数优化方法,包括以下步骤:
S1、选择超参数配置:agent为算法模型选择一个超参数取值组合a1,所述超参数取值组合a1包括k个不同的超参数,k为算法模型中需要优化的超参数的总个数;
S2、训练算法模型:在训练数据集上训练最新的超参数取值组合所对应的算法模型,在验证数据集上验证该模型的算法准确度;
S3、以步骤S2中的算法准确度作为奖励值优化agent,更新超参数选择策略;
步骤S2中还训练适应性模型,通过训练后的适应性模型预测算法准确度,步骤S3中直接使用训练后的适应性模型预测的算法准确度作为奖励值优化agent,更新超参数选择策略。本方案中引入了适应性模型,通过学习短期数据获得适应性模型,通过训练后的适应性模型预测算法准确度,使模型能够直接评估后继动作,减少评估代价,节省资源,能够提高优化性能(优化结果和时间效率),在超参数搜索空间大时,优势更加明显,从而本技术方案中的优化方法能够自适应待优化模型的搜索空间和数据集规模,克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题,在不同的环境下都能够具有良好的稳定性、准确性、时间效率。
作为本发明的进一步改进,步骤S2具体包括以下步骤:
步骤S21、获取训练数据集Dc:在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度,通过算法不断迭代,agent与真实环境不断交互,每次交互过程中将动作和奖励值映射数据[action,reward]添加到数据集Dc,同时进行agent的超参数选择策略更新;
步骤S22、训练适应性模型Fθ:当数据集Dc填满时,使用监督学习方法在数据集Dc下训练适应性模型Fθ
步骤S23、使用适应性模型Fθ预测准确度:使用适应性模型Fθ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度。
作为本发明的再一改进:
步骤S1之前还初始化训练次数和训练数据集Dc
步骤S22具体包括以下步骤:
S221、当训练数据集Dc填满时,在训练数据集Dc下训练适应性模型Fθ
S222、记录当前策略πθ,并作为旧策略
S223、判断旧策略与当前策略πθ的距离是否小于阈值,是则进行步骤S224,否则跳转到步骤S225;
S224、agent选择超参数,适应性模型Fθ预测准确值,更新agent的超参数选择策略πθ,跳转到步骤S223;
S225、判断是否达到训练次数,是则结束训练,否则跳转到步骤S1。
进一步,步骤S3具体为:
使用训练后的适应性模型Fθ直接预测算法的准确度获得训练样本D[a;r],在训练样本D[a;r]上更新agent的超参数选择策略。
进一步,所述适应性模型采用全连接神经网络搭建。
优选的,所述适应性模型由4层全连接网络组成。
进一步,所述agent包括依次串联的k个超参数控制器,k为超参数个数;每个超参数控制器均包括LSTM网络、输入和输出,输入与LSTM网络之间、输出与LSTM网络之间均各有一个全连接层;且前一级超参数控制器的输出还作为后一级超参数控制器的输入发送给后一级超参数控制器。
进一步,所述agent在更新agent的超参数选择策略时进行动作选取,所述动作选取是指配置超参数取值,具体为通过k个超参数控制器配置k个超参数的取值,其中i∈[0,1…k]时,第i个超参数控制器配置方法为:通过第i个超参数控制器得到μi,∑i,用正态分布ai:N(μi,∑i)代表第i个超参数的样本分布,然后从超参数对应的分布随机采样得到实际的超参数配置;μi为第i个超参数控制器得到的超参数分布的均值;∑i为第i个超参数控制器得到的超参数分布方差,ai代表第i个超参数的选取动作。
进一步,所述agent在更新agent的超参数选择策略时进行动作选取,所述动作选取是指配置超参数取值,具体为通过k个超参数控制器配置k个超参数的取值,i∈[0,1…k]时,获取第i个超参数的方法如下:
SS1、对各超参数控制器得到的超参数分布的均值μi使用tanh函数统一值域到(-1,1);
SS2、使用第i个超参数的样本分布ai:N(μi,∑i)进行采样得到样本si;ai:N(μi,∑i)为第i个超参数的正态分布;ai代表第i个超参数的选取动作;
SS3、使用以下公式对样本si进行转换:
si'=clip(S,downi,upi) (2)
其中upi和downi为第i个超参数的预选范围的上界和下界;clip函数为限界函数,令S的值小于downi时取值为downi,大于upi时取值为upi;转换后的样本si'即为实际的超参数配置。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于适应性模型的超参数优化方法能够自适应待优化模型的搜索空间和数据集规模,克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题,在不同的环境下都能够具有良好的稳定性、准确性、时间效率。
2、本发明通过学习短期数据获得适应性模型,使模型能够直接评估后继动作,能够提高优化性能(优化结果和时间效率),在超参数搜索空间大时,优势更加明显。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例1中的agent的结构示意图;
图2为本发明实施例1中的agent的每个控制器的结构示意图;
图3为本发明的优化方法的流程图。
具体实施方式
本发明主要针对现有的超参数优化方法中存在的各种问题,提出了一种采用基于适应性模型的强化学习的超参数优化方法,该方法能够自适应待优化模型的搜索空间和数据集规模,克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题,在不同的环境下都能够具有良好的稳定性、准确性、时间效率。该方法可以对任意算法模型自动进行超参数优化,其主要步骤分为:agent选择超参数配置、训练该配置下待优化算法并获得验证集准确度、以该准确度作为奖励值优化agent使其不断选择更好的超参数配置。本领域,agent又称作流程控制器、智能体、艾真体等,本实施例中agent选择超参数也称为选取动作,待优化算法也称为环境。
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
实施例1:
如图3所示,一种基于适应性模型的超参数优化方法,包括以下步骤:
S0、初始化agent、训练次数和训练数据集Dc;本步骤中,初始化agent操作主要是初始化agent网络结构中的训练参数,包括权重和偏差值。
S1、选择超参数配置:agent为算法模型选择一个超参数取值组合a1,所述超参数取值组合a1包括k个不同的超参数,k为算法模型中需要优化的超参数的总个数;
S2、训练算法模型:在训练数据集上训练最新的超参数取值组合所对应的算法模型,在验证数据集上验证该模型的算法准确度;本步骤需要通过训练得到该超参数配置下的算法模型在验证数据集上的准确度,也可以看作是对选择的超参数进行评估,然而由于每次评估需要耗费大量资源,本实施例中在步骤2中还采用了适应性模型,训练适应性模型,通过训练后的适应性模型预测算法准确度,减少评估代价;具体包括以下步骤S21-S23步骤:
步骤S21、获取训练数据集Dc:在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度,通过算法不断迭代,agent与真实环境不断交互,每次交互过程中将动作和奖励值映射数据[action,reward]添加到训练数据集Dc(使用强化学习方法),同时使用PPO算法进行agent的超参数选择策略更新;
步骤S22、训练适应性模型Fθ:当训练数据集Dc填满时,使用监督学习方法在训练数据集Dc下训练适应性模型Fθ
步骤S23、使用适应性模型Fθ预测准确度:使用适应性模型Fθ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度,本步骤中得到的准确度是由适应性模型Fθ直接预测得到,而不是通过训练获得,因此减少了评估代价;
S3、以步骤S23中的算法准确度作为奖励值优化agent,利用PPO算法来更新agent超参数选择策略。
其中S22具体包括以下步骤:
步骤S221、当训练数据集Dc填满时,在训练数据集Dc下训练适应性模型Fθ
S222、记录当前策略πθ并作为旧策略
S223、判断旧策略与当前策略πθ的距离是否小于阈值,是则进行步骤S224,否则跳转到步骤S225;
S224、agent选择超参数,适应性模型Fθ预测准确值,更新agent的超参数选择策略πθ,跳转到步骤S223;
S225、判断是否达到训练次数,是则结束训练,否则跳转到步骤S1。
上述验证数据集是预先准备好的数据集,不需要在本方法中准备,上述数据集Dc为用于训练适应性模型的数据集,需要在执行本方法的过程中获取,其中包含当前所得到的动作(action)和奖励值(reward)的数据[action;reward]。上述步骤中的PPO算法为现有技术,本申请中不再赘述其具体算法。
上述适应性模型结构使用全连接神经网络搭建,通过收集近期数据Dc并用监督学习的方法训练适应性模型,最终使适应性模型学习到动作与奖励值的映射关系。具体的,适应性模型是由4层全连接网络组成,结构简单,因为使用适应性模型是为了达到快速训练、短期使用的效果,反而复杂的网络结构往往不能达到这样的目的。
上述基于适应性模型的强化学习优化方法用程序总结如下:
上述基于适应性模型的强化学习优化方法也可以用图3的流程图3表示。
其中第1行中,πθ为当前策略,即当前超参数选择策略;为旧策略,即模型Fθ使用前的策略;
第6行表示设置训练数据集Dc为空集,其中不具有数据;
第7-11行的循环主要作用为收集用于训练适应性模型Fθ的数据集Dc,同时更新agent的超参数选择策略(也是超参数选择策略)。其中的第8行通过agent(s)&env(a)从优化过程中获得当前时刻t的数据Dt[a;r],agent(s)函数是agent根据当前状态s做出决策的过程,env(a)函数是与环境交互的过程,Dt[a;r]则是当前时刻t下agent与真实环境交后得到的动作和奖励值映射数据,a表示当前获得的动作action(超参数配置);r表示在当前的超参数配置下获得的准确度,该准确度作为将奖励值reward。第10行将获得的数据Dt[a;r]保存至Dc。第9行表示在该阶段收集数据的同时,使用PPO算法进行agent的超参数选择策略更新。
在14-17行对应步骤S23和S3,步骤S23使用训练后的适应性模型Fθ直接评估动作的价值(评估动作的价值也就是预测算法准确度)获得训练样本D[a;r],使用PPO算法在训练样本D[a;r]上更新agent的超参数选择策略。对应到程序中,第15行使用agent(s)&Fθ(a)获得训练样本,agent(s)代表agent根据当前状态s做出决策的过程,Fθ(a)表示采用适应性模型Fθ预测agent选择的超参数配置下算法模型在验证数据集上的准确度,此时得到的当前动作a(超参数配置)和当前的超参数配置下获得的准确度r作为训练样本D[a;r];第16行使用PPO算法在训练样本D[a;r]上更新agent的超参数选择策略。步骤S23和S3相比于第7-11行的策略更新不同的是:在步骤S23的操作过程中,使用训练后的模型Fθ直接评估动作的价值(第15行)。Fθ使用的次数由步骤S222结束时的旧策略与当前策略πθ的距离决定,其距离应满足(δ为阈值)。此处通过阈值对Fθ多次调试和实验,最大化Fθ的优势。
本实施例中,数据集合Dc的大小,基于以下几点设计:1)根据模型结构大小和训练样本应为网络连接权的5-10倍的经验;2)无论数据集合Dc的容量多大,对于新的数据集合Dr(Dr=D-Dc),模型始终会存在误差;3)考虑模型训练样本的获取代价和整体效率。
对于一个实际问题,action的分布是未知的,然而适应性模型Fθ需要拟合所有[action;reward]之间的关系,此处D表示针对特定问题所有可能的action选择和对应reward,而Dc表示S21步骤中通过不断训练收集的[action;reward]数据,而Dr表示D中剩下的[action;reward]数据。
Dc应满足以下条件:Dc的容量为神经网络连接权重的5-10倍。
适应性模型使用:使用适应性模型评估动作并使用样本更新超参数选择策略πθ,对于模型的使用来说,需要保证模型使用前后策略相差不多,即当πθ距离大于阙值时,认为当前策略偏离过大(或好或坏),模型不足以适应当前数据,需重新训练适应性模型,更新模型的适应性。通过以下公式πθ距离:
上述DKL表示πθ的KL散度,即为πθ的距离。
该式利用函数DKL计算πθ的KL散度作为距离这样能够确保模型适应当前策略的更新。
本实施例的关键点主要在于Agent设计、动作选取、适应性模型训练及使用。
关于agent的设计:如图1和图2所示,本实施例中agent包括依次串联的k个超参数控制器,k为超参数个数;每个超参数控制器均包括LSTM网络、输入input和输出output,输入与LSTM网络之间、输出与LSTM网络之间均各有一个全连接层;且前一级超参数控制器的输出还作为后一级超参数控制器的输入发送给后一级超参数控制器。
超参数选择可以看作是一个多阶段决策问题,每个时刻针对某个超参数做出决策。根据上述特点,本实施例中采用长短时记忆网络(LSTM)作为选择每个超参数的控制器Ci(i=1,2,…,k),并将前一超参数控制器Ci输出作为下一超参数控制器Ci+1的输入,然后将C1到Ck的整个连接结构作为agent(k表示超参数个数)。优选地,agent中的控制器个数还会动态自适应超参数个数。
图1-图2为本实施例agent内部结构,k个控制器分别对应k个超参数的选择,input1-inputk为对应控制器的输入,output1-outputk为对应控制器的输出。控制器核心由LSTM网络构成,且输入、输出与LSTM网络之间各有一个全连接层。优选地,各超参数控制器中LSTM网络结构在任意时刻的结构、参数共享以提高训练效率。
关于动作选取:所述agent在更新agent的超参数选择策略时进行动作选取,所述动作选取是指配置超参数取值。本实施例在连续超参数空间上对HPO问题进行优化,不需要人为给定若干超参数预选值,而只需要提供超参数搜索范围,为各个超参数对应的超参数控制器,本实施例中设置k个超参数控制器,通过k个超参数控制器配置k个超参数的取值,其中一种具体方法为:通过第i(i∈[0,1…k])个超参数控制器得到μi,∑i,用正态分布ai:N(μi,∑i)代表第i个超参数的样本分布,然后从超参数对应的分布随机采样得到实际的超参数配置。即:i∈[0,1…k]时,第i个超参数控制器配置方法为:通过第i个超参数控制器得到μi,∑i,用正态分布ai:N(μi,∑i)代表第i个超参数的样本分布,然后从超参数对应的分布随机采样得到实际的超参数配置;μi为第i个超参数控制器得到的超参数分布的均值;∑i为第i个超参数控制器得到的超参数分布方差,ai代表第i个超参数的选取动作。
关于适应性模型训练及使用:如上述所述,本实施例中使用全连接神经网络搭建适应性模型,通过收集近期数据Dc并用监督学习的方法训练模型,最终使模型学习到动作与奖励值的映射关系。模型是由4层全连接网络组成,结构简单,因为使用适应性模型是为了达到快速训练、短期使用的效果,反而复杂的网络结构往往不能达到这样的目的。数据集合Dc的大小,基于以下几点设计:1)根据模型结构大小和训练样本应为网络连接权的5-10倍的经验;2)无论数据集合Dc的容量多大,对于新的数据集合Dr(Dr=D-Dc),模型始终会存在误差;3)考虑模型训练样本的获取代价和整体效率。本实施例中,使用模型评估动作并使用样本更新策略πθ,对于模型的使用来说,需要保证模型使用前后策略相差不多,即当πθ距离大于阙值时,当前策略偏离过大(或好或坏),模型不足以适应当前数据,需重新执行基操作,更新模型的适应性。通过以下公式πθ距离:该式计算πθ的KL散度作为距离,这样能够确保模型适应当前策略的更新。
发明人对本实施例中参数优化的方法进行了验证,其在不同的环境下都能够具有良好的稳定性、准确性、时间效率。
实施例2:
本实施例与实施例1的主要区别在与动作选取方法。发明人发现,仅通过实施例1的方法随机采样得到的超参数配置往往会出现样本波动大、训练低效、难以在预定搜索范围探索等问题。为解决上述问题,发明人提供了第二种动作选取方法,主要是在实施例1的方法的基础上进行样本转换操作:1.对各超参数控制器得到的超参数分布的均值μi使用tanh函数统一值域到(-1,1);2.使用各超参数的样本分布ai:N(μi,∑i)进行采样得到样本si;3.使用以下公式对样本si进行转换:
si'=clip(S,downi,upi) (2)
其中upi和downi为第i个超参数的预选范围的上界和下界。clip函数为限界函数,即S的值小于downi时也为downi,大于upi时也为upi。通过将原始超参数样本分布的均值μi的值域对应到(upi,downi),公式(1)以值域中心点为准计算转换后的动作。
同样的,agent在更新agent的超参数选择策略时进行动作选取,所述动作选取是指配置超参数取值,具体为通过k个超参数控制器配置k个超参数的取值,i∈[0,1…k]时,获取第i个超参数的方法如下:
SS1、对各超参数控制器得到的超参数分布的均值μi使用tanh函数统一值域到(-1,1);
SS2、使用第i个超参数的样本分布ai:N(μi,∑i)进行采样得到样本si;ai:N(μi,∑i)为第i个超参数的正态分布;ai代表第i个超参数的选取动作;
SS3、使用以下公式对样本si进行转换:
si'=clip(S,downi,upi) (2)
转换后的样本si'中即为实际的超参数配置。
发明人对本实施例中参数优化的方法进行了验证,其在不同的环境下都能够具有良好的稳定性、准确性、时间效率。发明人固定优化时间,将本实施例中的基于适应性模型的强化学习优化方法(AM-RL)与强化学习优化方法(RL)、CMAES、TPE以及默认参数配置方法(Baseline)进行对比,每一种优化方法在不同的数据集上分别进行5次独立实验,用5次实验的最优值的平均值表示对应数据集下优化方法的优化性能,对比结果如表1所示。
表1:优化方法在MNIST和Fashion MNIST数据集下对卷积神经网络结构进行优化。
表1中,err为优化结果,time为时间效率,std表示方差,粗体表示对应数据集最好的性能表现。在优化随机森林和XGBoost两种算法的超参数时,本实施例提出的优化方法在优化结果和稳定性方面能够达到最好。在耗费时间方面,虽然TPE方法也能够表现的很好,但其优化结果和稳定性都相对较差。同时,通过对比本实施例所提出的方法和强化学习方法可以发现,对于大多数优化任务,本实施例提出的方法的优化结果和时间效率优于强化学习方法,这也说明了适应性模型的有效性。通过以上分析,说明通过学习短期数据获得适应性模型,使模型能够直接评估后继动作,能够提高优化性能(优化结果和时间效率)。在超参数搜索空间大时,优势更加明显。(2)实验分别在两个数据集上独立运行5次,以平均性能评估各优化方法。本实施例选用tensorflow中的卷积神经网络作为基准。在表1中,基准方法在一些性能指标优于TPE和CMAES方法。然而,对于两种数据集,本实施例所提出的方法AM-RL优化方法能够在优化结果(err)和时间效率(time)方面优于其他方法。表1中的方差部分(std)也可以显示AM-RL方法具也有更好的稳定性。
实施例3:
本实施例以图像识别为例,提供一种基于适应性模型的超参数优化方法,该方法对图像识别的XGBoost算法的超参数进行优化,其步骤具体为:该模型中需要优化的超参数有8个,包括:树的最大深度max_depth(1-35)、节点分裂阈值gamma(0.01-0.9)、最小子节点权重和min_child_weight(1-9)、采样率subsample(0.1-0.9)、列采样率(特征采样率)colsample_bytree(0.1-0.9)、L1正则化系数reg_alpha(0.1-0.9)、L2正则化系数reg_lambda(0.01-0.9)、学习率learning_rate(0.001-0.1),前述超参数表示中,前为超参数,括号中为超参数范围。针对手写字母数据集(letter recognition data set)识别任务,我们通过优化XGBoost算法的上述参数使性能达到最优。首先,将数据集按7:3的比例将数据集分为训练集(训练数据集)和测试集(验证数据集),然后使用提出的方法进行优化,其具体方法如下:
S0、初始化相关参数,设置优化次数为500次,设置训练数据集Dc为空集;
S1、选择超参数配置:agent为XGBoost算法选择一个超参数取值组合a1,所述超参数取值组合a1包括8个不同的超参数;本实施例中,取值组合a1中,max_depth=1,gamma=0.01,min_child_weight=1,subsample=0.1,colsample_bytree=0.1,reg_alpha=0.1,reg_lambda=0.01,learning_rate=0.001;在其他实施例中,取值组合a1中的各超参数也可以选择各自范围内的其他取值。
然后通过agent选择的超参数组合a1,并根据所选的超参数组合配置XGBoost的相应超参数,使得各超参数的值与上述取值组合中的值相等;
S2、训练算法模型:在训练数据集上训练最新的超参数取值组合所对应的算法模型,在验证数据集上验证该模型的算法准确度;
S3、以步骤S2中的算法准确度作为奖励值优化agent,更新超参数选择策略。
本实施例中,步骤S2和S3,使用5折交叉验证方法得到XGBoost算法在训练集上的准确度,并使用准确度作为奖励值reward计算损失值(loss value),最后用Adam优化算法最小化损失值,即更新agent。以上过程共执行5次,选择5次优化过程中的最优的超参数组合作为候选超参数组合,然后依次将候选超参数组合配置到XGBoost算法,并在测试集上执行得到测试集准确度,最后选择测试准确度最高的超参数组合作为最终的超参数配置。
在步骤S2中,同实施例1,包括以下步骤:
步骤S21、在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度,通过算法不断迭代,agent与真实环境不断交互,每次交互过程中将动作和奖励值映射数据[action,reward]添加到数据集Dc,同时进行agent的超参数选择策略更新;
步骤S22、当数据集Dc填满时,使用监督学习方法在数据集Dc下训练适应性模型Fθ
步骤S22具体包括步骤S221-S225:
S221、当训练数据集Dc填满时,在训练数据集Dc下训练适应性模型Fθ
S222、记录当前策略πθ并作为旧策略
S223、判断旧策略与当前策略πθ的距离是否小于阈值,是则进行步骤S224,否则跳转到步骤S225;
S224、agent选择超参数,适应性模型Fθ预测准确值,更新agent的超参数选择策略πθ,跳转到步骤S223;
S225、判断是否达到训练次数,是则结束训练,否则跳转到步骤S1。
步骤S23、使用适应性模型Fθ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度。
对于该识别任务,通过使用所提出的方法,XGBoost算法的性能明显提升。通过实验得到,在使用XGBoost默认参数配置的情况下,准确度达到0.8707;而使用超参数优化方法所得的超参数配置,准确度达到0.9382。通过显著性检测,计算得p<0.05,说明以上结果具有统计显著性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于适应性模型的超参数优化方法,包括以下步骤:
S1、选择超参数配置:agent为算法模型选择一个超参数取值组合a1,所述超参数取值组合a1包括k个不同的超参数,k为算法模型中需要优化的超参数的总个数;
S2、训练算法模型:在训练数据集上训练最新的超参数取值组合所对应的算法模型,在验证数据集上验证该模型的算法准确度;
S3、以步骤S2中的算法准确度作为奖励值优化agent,更新超参数选择策略;
其特征在于,
步骤S2中还训练适应性模型,通过训练后的适应性模型预测算法准确度,步骤S3直接利用适应性模型预测的算法准确度作为奖励值优化agent,更新超参数选择策略。
2.根据权利要求1所述的一种基于适应性模型的超参数优化方法,其特征在于,步骤S2具体包括以下步骤:
步骤S21、获取训练数据集Dc:在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度,通过算法不断迭代,agent与真实环境不断交互,每次交互过程中将动作和奖励值映射数据[action,reward]添加到数据集Dc,同时进行agent的超参数选择策略更新;
步骤S22、训练适应性模型Fθ:当数据集Dc填满时,使用监督学习方法在数据集Dc下训练适应性模型Fθ
步骤S23、使用适应性模型Fθ预测准确度:使用适应性模型Fθ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度。
3.根据权利要求2所述的一种基于适应性模型的超参数优化方法,其特征在于,
步骤S1之前还初始化训练次数和训练数据集Dc
步骤S22具体包括以下步骤:
S221、当训练数据集Dc填满时,在训练数据集Dc下训练适应性模型Fθ
S222、记录当前策略πθ,并作为旧策略
S223、判断旧策略与当前策略πθ的距离是否小于阈值,是则进行步骤S224,否则跳转到步骤S225;
S224、agent选择超参数,适应性模型Fθ预测准确值,更新agent的超参数选择策略πθ,跳转到步骤S223;
S225、判断是否达到训练次数,是则结束训练,否则跳转到步骤S1。
4.根据权利要求3所述的一种基于适应性模型的超参数优化方法,其特征在于,步骤S3具体为:
使用训练后的适应性模型Fθ直接预测算法的准确度获得训练样本D[a;r],在训练样本D[a;r]上更新agent的超参数选择策略。
5.根据权利要求1至4任一所述的一种基于适应性模型的超参数优化方法,其特征在于,所述适应性模型采用全连接神经网络搭建。
6.根据权利要求5所述的一种基于适应性模型的超参数优化方法,其特征在于,所述适应性模型由4层全连接网络组成。
7.根据权利要求1至5任一所述的一种基于适应性模型的超参数优化方法,其特征在于,所述agent包括依次串联的k个超参数控制器,k为超参数个数;每个超参数控制器均包括LSTM网络、输入和输出,输入与LSTM网络之间、输出与LSTM网络之间均各有一个全连接层;且前一级超参数控制器的输出还作为后一级超参数控制器的输入发送给后一级超参数控制器。
8.根据权利要求7所述的一种基于适应性模型的超参数优化方法,其特征在于,所述agent在更新agent的超参数选择策略时进行动作选取,所述动作选取是指配置超参数取值,具体为通过k个超参数控制器配置k个超参数的取值,其中i∈[0,1…k]时,第i个超参数控制器配置方法为:通过第i个超参数控制器得到μi,∑i,用正态分布ai:N(μi,∑i)代表第i个超参数的样本分布,然后从超参数对应的分布随机采样得到实际的超参数配置;μi为第i个超参数控制器得到的超参数分布的均值;∑i为第i个超参数控制器得到的超参数分布方差,ai代表第i个超参数的选取动作。
9.根据权利要求7所述的一种基于适应性模型的超参数优化方法,其特征在于,所述agent在更新agent的超参数选择策略时进行动作选取,所述动作选取是指配置超参数取值,具体为通过k个超参数控制器配置k个超参数的取值,i∈[0,1…k]时,获取第i个超参数的方法如下:
SS1、对各超参数控制器得到的超参数分布的均值μi使用tanh函数统一值域到(-1,1);
SS2、使用第i个超参数的样本分布ai:N(μi,∑i)进行采样得到样本si;ai:N(μi,∑i)为第i个超参数的正态分布;ai代表第i个超参数的选取动作;
SS3、使用以下公式对样本si进行转换:
si′clip(S,downi,upi) (2)
其中upi和downi为第i个超参数的预选范围的上界和下界;clip函数为限界函数,令S的值小于downi时取值为downi,大于upi时取值为upi
转换后的样本si′即为实际的超参数配置。
CN201910389482.7A 2019-05-10 2019-05-10 一种基于适应性模型的超参数优化方法 Pending CN110110862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910389482.7A CN110110862A (zh) 2019-05-10 2019-05-10 一种基于适应性模型的超参数优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910389482.7A CN110110862A (zh) 2019-05-10 2019-05-10 一种基于适应性模型的超参数优化方法

Publications (1)

Publication Number Publication Date
CN110110862A true CN110110862A (zh) 2019-08-09

Family

ID=67489371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910389482.7A Pending CN110110862A (zh) 2019-05-10 2019-05-10 一种基于适应性模型的超参数优化方法

Country Status (1)

Country Link
CN (1) CN110110862A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555989A (zh) * 2019-08-16 2019-12-10 华南理工大学 一种基于Xgboost算法的交通量预测方法
CN110728310A (zh) * 2019-09-27 2020-01-24 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110991658A (zh) * 2019-11-28 2020-04-10 重庆紫光华山智安科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN111368931A (zh) * 2020-03-09 2020-07-03 第四范式(北京)技术有限公司 训练图像分类模型的方法及装置、计算机装置及存储介质
CN111401569A (zh) * 2020-03-27 2020-07-10 支付宝(杭州)信息技术有限公司 超参数优化方法、装置和电子设备
CN111553482A (zh) * 2020-04-09 2020-08-18 哈尔滨工业大学 机器学习模型超参数的调优方法
CN111667004A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 数据生成方法、装置、设备以及存储介质
CN112257561A (zh) * 2020-10-20 2021-01-22 广州云从凯风科技有限公司 一种人脸活体检测方法、装置、机器可读介质及设备
CN112464563A (zh) * 2020-11-27 2021-03-09 河北建设投资集团有限责任公司 一种蒸汽涡轮机故障诊断的数据挖掘方法
CN112486584A (zh) * 2019-08-23 2021-03-12 中国科学院深圳先进技术研究院 一种利用强化学习进行大数据平台调参的方法和系统
WO2021051920A1 (zh) * 2019-09-17 2021-03-25 华为技术有限公司 模型优化方法、装置、存储介质及设备
WO2021061798A1 (en) * 2019-09-24 2021-04-01 Intel Corporation Methods and apparatus to train a machine learning model
CN112699990A (zh) * 2019-10-22 2021-04-23 杭州海康威视数字技术股份有限公司 神经网络模型训练方法、装置及电子设备
CN112742031A (zh) * 2020-03-18 2021-05-04 腾讯科技(深圳)有限公司 模型训练方法、游戏测试方法、ai角色训练方法及装置
CN112990196A (zh) * 2021-03-16 2021-06-18 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN113052248A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
TWI733270B (zh) * 2019-12-11 2021-07-11 中華電信股份有限公司 機器學習模型的最佳超參數組態的訓練裝置和訓練方法
CN113392979A (zh) * 2020-03-11 2021-09-14 宏达国际电子股份有限公司 强化学习系统及训练方法
CN114589315A (zh) * 2022-02-22 2022-06-07 上海交通大学 一种激光增材制造最优搭接步进量匹配方法
CN114757291A (zh) * 2022-04-26 2022-07-15 国网四川省电力公司电力科学研究院 基于机器学习算法的单相故障识别优化方法、系统及设备
CN114912589A (zh) * 2022-07-18 2022-08-16 中船重工(武汉)凌久高科有限公司 一种基于全连接神经网络优化的图像识别方法
WO2022199719A1 (zh) * 2021-11-30 2022-09-29 广东海洋大学 一种基于稀疏响应面的深度学习算法超参数优化方法
WO2023226259A1 (zh) * 2022-05-23 2023-11-30 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质
CN117261920A (zh) * 2023-09-19 2023-12-22 广州市城市规划勘测设计研究院 一种车辆换道识别方法、装置、终端及介质

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555989A (zh) * 2019-08-16 2019-12-10 华南理工大学 一种基于Xgboost算法的交通量预测方法
CN112486584A (zh) * 2019-08-23 2021-03-12 中国科学院深圳先进技术研究院 一种利用强化学习进行大数据平台调参的方法和系统
WO2021051920A1 (zh) * 2019-09-17 2021-03-25 华为技术有限公司 模型优化方法、装置、存储介质及设备
WO2021061798A1 (en) * 2019-09-24 2021-04-01 Intel Corporation Methods and apparatus to train a machine learning model
CN110728310B (zh) * 2019-09-27 2023-09-01 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN110728310A (zh) * 2019-09-27 2020-01-24 聚时科技(上海)有限公司 一种基于超参数优化的目标检测模型融合方法及融合系统
CN112699990A (zh) * 2019-10-22 2021-04-23 杭州海康威视数字技术股份有限公司 神经网络模型训练方法、装置及电子设备
CN110991658A (zh) * 2019-11-28 2020-04-10 重庆紫光华山智安科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
TWI733270B (zh) * 2019-12-11 2021-07-11 中華電信股份有限公司 機器學習模型的最佳超參數組態的訓練裝置和訓練方法
CN111368931A (zh) * 2020-03-09 2020-07-03 第四范式(北京)技术有限公司 训练图像分类模型的方法及装置、计算机装置及存储介质
CN111368931B (zh) * 2020-03-09 2023-11-17 第四范式(北京)技术有限公司 确定图像分类模型的学习率的方法
CN113392979A (zh) * 2020-03-11 2021-09-14 宏达国际电子股份有限公司 强化学习系统及训练方法
CN112742031B (zh) * 2020-03-18 2022-08-02 腾讯科技(深圳)有限公司 模型训练方法、游戏测试方法、ai角色训练方法及装置
CN112742031A (zh) * 2020-03-18 2021-05-04 腾讯科技(深圳)有限公司 模型训练方法、游戏测试方法、ai角色训练方法及装置
CN111401569B (zh) * 2020-03-27 2023-02-17 支付宝(杭州)信息技术有限公司 超参数优化方法、装置和电子设备
CN111401569A (zh) * 2020-03-27 2020-07-10 支付宝(杭州)信息技术有限公司 超参数优化方法、装置和电子设备
CN111553482B (zh) * 2020-04-09 2023-08-08 哈尔滨工业大学 机器学习模型超参数的调优方法
CN111553482A (zh) * 2020-04-09 2020-08-18 哈尔滨工业大学 机器学习模型超参数的调优方法
CN111667004A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 数据生成方法、装置、设备以及存储介质
CN112257561A (zh) * 2020-10-20 2021-01-22 广州云从凯风科技有限公司 一种人脸活体检测方法、装置、机器可读介质及设备
CN112464563A (zh) * 2020-11-27 2021-03-09 河北建设投资集团有限责任公司 一种蒸汽涡轮机故障诊断的数据挖掘方法
CN112990196A (zh) * 2021-03-16 2021-06-18 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN112990196B (zh) * 2021-03-16 2023-10-24 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN113052248A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
WO2022199719A1 (zh) * 2021-11-30 2022-09-29 广东海洋大学 一种基于稀疏响应面的深度学习算法超参数优化方法
CN114589315A (zh) * 2022-02-22 2022-06-07 上海交通大学 一种激光增材制造最优搭接步进量匹配方法
CN114757291A (zh) * 2022-04-26 2022-07-15 国网四川省电力公司电力科学研究院 基于机器学习算法的单相故障识别优化方法、系统及设备
CN114757291B (zh) * 2022-04-26 2023-05-23 国网四川省电力公司电力科学研究院 基于机器学习算法的单相故障识别优化方法、系统及设备
WO2023226259A1 (zh) * 2022-05-23 2023-11-30 深圳思谋信息科技有限公司 超参数搜索方法、装置、计算机设备和存储介质
CN114912589B (zh) * 2022-07-18 2022-10-04 中船重工(武汉)凌久高科有限公司 一种基于全连接神经网络优化的图像识别方法
CN114912589A (zh) * 2022-07-18 2022-08-16 中船重工(武汉)凌久高科有限公司 一种基于全连接神经网络优化的图像识别方法
CN117261920A (zh) * 2023-09-19 2023-12-22 广州市城市规划勘测设计研究院 一种车辆换道识别方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
CN110110862A (zh) 一种基于适应性模型的超参数优化方法
CN109886464B (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN113361777B (zh) 基于vmd分解和ihho优化lstm的径流预测方法及系统
CN110851566B (zh) 一种应用于命名实体识别的可微分网络结构搜索的方法
CN108304679A (zh) 一种自适应可靠性分析方法
CN107730003A (zh) 一种支持多电器类型高精度的nilm实现方法
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
CN108287808A (zh) 一种面向结构可靠性分析的通用动态追踪序列采样方法
CN111144555A (zh) 基于改进进化算法的循环神经网络架构搜索方法、系统及介质
CN112884236B (zh) 一种基于vdm分解与lstm改进的短期负荷预测方法及系统
CN111355633A (zh) 一种基于pso-delm算法的比赛场馆内手机上网流量预测方法
CN113315593A (zh) 一种基于flom协方差矩阵和lstm神经网络的频谱感知算法
CN111914094A (zh) 一种基于三元交互的知识图谱表示学习方法
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN114118567A (zh) 一种基于双通路融合网络的电力业务带宽预测方法
CN113836823A (zh) 一种基于负荷分解和优化双向长短期记忆网络的负荷组合预测方法
CN113239211A (zh) 一种基于课程学习的强化学习知识图谱推理方法
CN116245019A (zh) 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、系统、装置及存储介质
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
CN112200208B (zh) 基于多维度特征融合的云工作流任务执行时间预测方法
CN108829846A (zh) 一种基于用户特征的业务推荐平台数据聚类优化系统及方法
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
CN115189990A (zh) 一种基于循环储蓄学习网络的ofdm时域信道预测方法及系统
CN115269861A (zh) 基于生成式对抗模仿学习的强化学习知识图谱推理方法
CN114995818A (zh) 一种Simulink模型到C语言的优化参数自动配置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190809

RJ01 Rejection of invention patent application after publication