CN110110862A

CN110110862A - 一种基于适应性模型的超参数优化方法

Info

Publication number: CN110110862A
Application number: CN201910389482.7A
Authority: CN
Inventors: 吴佳; 陈森朋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-09

Abstract

本发明公开了一种基于适应性模型的超参数优化方法，包括步骤：S1、选择超参数配置：agent为算法模型选择一个超参数取值组合a1，a1包括k个不同的超参数，k为算法模型中需要优化的超参数的总个数；S2、训练算法模型：在训练数据集上训练最新的超参数取值组合所对应的算法模型，在验证数据集上验证该模型的算法准确度，并训练一适应性模型预测算法准确度；S3、以适应性模型预测的算法准确度作为奖励值优化agent，利用PPO算法来更新超参数选择策略。本发明能够自适应待优化模型的搜索空间和数据集规模，克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题，在不同的环境下都能够具有良好的稳定性、准确性、时间效率。

Description

一种基于适应性模型的超参数优化方法

技术领域

本发明涉及参数优化技术领域，具体涉及一种基于适应性模型的超参数优化方法。

背景技术

中国机器学习已经成为推动人工智能发展的主要驱动力。近年来，机器学习已经成功应用到机器翻译、语音识别、图像识别和游戏等众多领域，也随之出现了如随机森林、XGBoost这样的先进集成分类算法和如卷积神经网络、循环神经网络、生成对抗网络这样的神经网络模型。但是，模型的超参数配置是决定算法模型最终性能的重要因素，手动设置超参数往往需要深厚的专业背景知识及实际操作经验，对于非专业使用者相对困难。另外，随着超参数个数增多以及取值范围扩大，即使是经验丰富的使用者也极易造成误判。因此，超参数优化(Hyperparameter Optimization:HPO)技术被提出并用于在没有人为干扰的情况下自动选择模型配置。通过自动设置不同的超参数配置适应不同的算法模型，大大减少了人力资源，提高了算法模型的性能。

现有技术中，常用的超参数优化方法有随机搜索方法、自适应协方差矩阵进化策略(CMA-ES)算法和TPE算法(Tree-structured Parzen Estimator)。随机搜索方法在超参数空间中进行简单随机采样而不是有方向性的探索，通过对比其约束函数和目标函数的值，不断保留较好的结果，理论上，获得的随机样本越多，获得最优解的概率越大。但是该方法虽然简单易行，但是性能极不稳定；另外，只有最优超参数组合数量占所有组合数量的比重超过5％时，才会有较高的搜索效率。自适应协方差矩阵进化策略(CMA-ES)算法，是基于进化算法的一种改进算法，通过模拟生物进化过程来达到最优目的，主要用来解决非线性、非凸的优化问题。该方法从一个随机的初始搜索点开始搜索，并按照一定的概率分布产生第一个种群A，并评价其中所有个体的适应度；然后根据种群A中个体的适应度选择较好的个体更新进化策略，从而调整下一种群的进化方向，即控制下一种群的产生；每次突变后，须对比当前种群中的最优解和收敛条件，若满足则找到最优解并退出循环，否则继续迭代。该方法具有全局性能好、寻优效率高的特点，但其具有随机性、优化性能不稳定的缺点。TPE算法是一种基于树状结构Parzen密度估计的非标准贝叶斯优化算法。该方法使用树形Parzen评估器构建代理模型，并以一组超参数λ为条件对优化目标y进行建模，形成先验模型。该方法能够搜索到较好的结果，但是随着迭代次数增加，每次迭代都耗费大量的时间。

发明内容

本发明的目的在于提供一种基于适应性模型的超参数优化方法，该方法能够自适应待优化模型的搜索空间和数据集规模，克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题，在不同的环境下都能够具有良好的稳定性、准确性、时间效率。

本发明通过下述技术方案实现：

一种基于适应性模型的超参数优化方法，包括以下步骤：

S1、选择超参数配置：agent为算法模型选择一个超参数取值组合a1，所述超参数取值组合a1包括k个不同的超参数，k为算法模型中需要优化的超参数的总个数；

S2、训练算法模型：在训练数据集上训练最新的超参数取值组合所对应的算法模型，在验证数据集上验证该模型的算法准确度；

S3、以步骤S2中的算法准确度作为奖励值优化agent，更新超参数选择策略；

步骤S2中还训练适应性模型，通过训练后的适应性模型预测算法准确度，步骤S3中直接使用训练后的适应性模型预测的算法准确度作为奖励值优化agent，更新超参数选择策略。本方案中引入了适应性模型，通过学习短期数据获得适应性模型，通过训练后的适应性模型预测算法准确度，使模型能够直接评估后继动作，减少评估代价，节省资源，能够提高优化性能(优化结果和时间效率)，在超参数搜索空间大时，优势更加明显，从而本技术方案中的优化方法能够自适应待优化模型的搜索空间和数据集规模，克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题，在不同的环境下都能够具有良好的稳定性、准确性、时间效率。

作为本发明的进一步改进，步骤S2具体包括以下步骤：

步骤S21、获取训练数据集D_c：在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度，通过算法不断迭代，agent与真实环境不断交互，每次交互过程中将动作和奖励值映射数据[action,reward]添加到数据集D_c，同时进行agent的超参数选择策略更新；

步骤S22、训练适应性模型F_θ：当数据集D_c填满时，使用监督学习方法在数据集D_c下训练适应性模型F_θ；

步骤S23、使用适应性模型F_θ预测准确度：使用适应性模型F_θ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度。

作为本发明的再一改进：

步骤S1之前还初始化训练次数和训练数据集D_c；

步骤S22具体包括以下步骤：

S221、当训练数据集D_c填满时，在训练数据集D_c下训练适应性模型F_θ；

S222、记录当前策略π_θ，并作为旧策略

S223、判断旧策略与当前策略π_θ的距离是否小于阈值，是则进行步骤S224，否则跳转到步骤S225；

S224、agent选择超参数，适应性模型F_θ预测准确值，更新agent的超参数选择策略π_θ，跳转到步骤S223；

S225、判断是否达到训练次数，是则结束训练，否则跳转到步骤S1。

进一步，步骤S3具体为：

使用训练后的适应性模型F_θ直接预测算法的准确度获得训练样本D[a；r]，在训练样本D[a；r]上更新agent的超参数选择策略。

进一步，所述适应性模型采用全连接神经网络搭建。

优选的，所述适应性模型由4层全连接网络组成。

进一步，所述agent包括依次串联的k个超参数控制器，k为超参数个数；每个超参数控制器均包括LSTM网络、输入和输出，输入与LSTM网络之间、输出与LSTM网络之间均各有一个全连接层；且前一级超参数控制器的输出还作为后一级超参数控制器的输入发送给后一级超参数控制器。

进一步，所述agent在更新agent的超参数选择策略时进行动作选取，所述动作选取是指配置超参数取值，具体为通过k个超参数控制器配置k个超参数的取值，其中i∈[0,1…k]时，第i个超参数控制器配置方法为：通过第i个超参数控制器得到μ_i,∑_i，用正态分布a_i:N(μ_i,∑_i)代表第i个超参数的样本分布，然后从超参数对应的分布随机采样得到实际的超参数配置；μ_i为第i个超参数控制器得到的超参数分布的均值；∑_i为第i个超参数控制器得到的超参数分布方差，a_i代表第i个超参数的选取动作。

进一步，所述agent在更新agent的超参数选择策略时进行动作选取，所述动作选取是指配置超参数取值，具体为通过k个超参数控制器配置k个超参数的取值，i∈[0,1…k]时，获取第i个超参数的方法如下：

SS1、对各超参数控制器得到的超参数分布的均值μ_i使用tanh函数统一值域到(-1,1)；

SS2、使用第i个超参数的样本分布a_i:N(μ_i,∑_i)进行采样得到样本s_i；a_i:N(μ_i,∑_i)为第i个超参数的正态分布；a_i代表第i个超参数的选取动作；

SS3、使用以下公式对样本s_i进行转换：

s_i'＝clip(S,down_i,up_i) (2)

其中up_i和down_i为第i个超参数的预选范围的上界和下界；clip函数为限界函数，令S的值小于down_i时取值为down_i，大于up_i时取值为up_i；转换后的样本s_i'即为实际的超参数配置。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于适应性模型的超参数优化方法能够自适应待优化模型的搜索空间和数据集规模，克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题，在不同的环境下都能够具有良好的稳定性、准确性、时间效率。

2、本发明通过学习短期数据获得适应性模型，使模型能够直接评估后继动作，能够提高优化性能(优化结果和时间效率)，在超参数搜索空间大时，优势更加明显。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例1中的agent的结构示意图；

图2为本发明实施例1中的agent的每个控制器的结构示意图；

图3为本发明的优化方法的流程图。

具体实施方式

本发明主要针对现有的超参数优化方法中存在的各种问题，提出了一种采用基于适应性模型的强化学习的超参数优化方法，该方法能够自适应待优化模型的搜索空间和数据集规模，克服现有方法耗费时间长、性能波动大、收敛速度慢、采样效率低的问题，在不同的环境下都能够具有良好的稳定性、准确性、时间效率。该方法可以对任意算法模型自动进行超参数优化，其主要步骤分为：agent选择超参数配置、训练该配置下待优化算法并获得验证集准确度、以该准确度作为奖励值优化agent使其不断选择更好的超参数配置。本领域，agent又称作流程控制器、智能体、艾真体等，本实施例中agent选择超参数也称为选取动作，待优化算法也称为环境。

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、电路、材料或方法。

实施例1：

如图3所示，一种基于适应性模型的超参数优化方法，包括以下步骤：

S0、初始化agent、训练次数和训练数据集D_c；本步骤中，初始化agent操作主要是初始化agent网络结构中的训练参数，包括权重和偏差值。

S2、训练算法模型：在训练数据集上训练最新的超参数取值组合所对应的算法模型，在验证数据集上验证该模型的算法准确度；本步骤需要通过训练得到该超参数配置下的算法模型在验证数据集上的准确度，也可以看作是对选择的超参数进行评估，然而由于每次评估需要耗费大量资源，本实施例中在步骤2中还采用了适应性模型，训练适应性模型，通过训练后的适应性模型预测算法准确度，减少评估代价；具体包括以下步骤S21-S23步骤：

步骤S21、获取训练数据集D_c：在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度，通过算法不断迭代，agent与真实环境不断交互，每次交互过程中将动作和奖励值映射数据[action,reward]添加到训练数据集D_c(使用强化学习方法)，同时使用PPO算法进行agent的超参数选择策略更新；

步骤S22、训练适应性模型F_θ：当训练数据集D_c填满时，使用监督学习方法在训练数据集D_c下训练适应性模型F_θ；

步骤S23、使用适应性模型F_θ预测准确度：使用适应性模型F_θ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度，本步骤中得到的准确度是由适应性模型F_θ直接预测得到，而不是通过训练获得，因此减少了评估代价；

S3、以步骤S23中的算法准确度作为奖励值优化agent，利用PPO算法来更新agent超参数选择策略。

其中S22具体包括以下步骤：

步骤S221、当训练数据集D_c填满时，在训练数据集D_c下训练适应性模型F_θ；

S222、记录当前策略π_θ并作为旧策略

上述验证数据集是预先准备好的数据集，不需要在本方法中准备，上述数据集D_c为用于训练适应性模型的数据集，需要在执行本方法的过程中获取，其中包含当前所得到的动作(action)和奖励值(reward)的数据[action；reward]。上述步骤中的PPO算法为现有技术，本申请中不再赘述其具体算法。

上述适应性模型结构使用全连接神经网络搭建，通过收集近期数据D_c并用监督学习的方法训练适应性模型，最终使适应性模型学习到动作与奖励值的映射关系。具体的，适应性模型是由4层全连接网络组成，结构简单，因为使用适应性模型是为了达到快速训练、短期使用的效果，反而复杂的网络结构往往不能达到这样的目的。

上述基于适应性模型的强化学习优化方法用程序总结如下：

上述基于适应性模型的强化学习优化方法也可以用图3的流程图3表示。

其中第1行中，π_θ为当前策略，即当前超参数选择策略；为旧策略，即模型F_θ使用前的策略；

第6行表示设置训练数据集D_c为空集，其中不具有数据；

第7-11行的循环主要作用为收集用于训练适应性模型F_θ的数据集Dc，同时更新agent的超参数选择策略(也是超参数选择策略)。其中的第8行通过agent(s)&env(a)从优化过程中获得当前时刻t的数据D_t[a；r]，agent(s)函数是agent根据当前状态s做出决策的过程，env(a)函数是与环境交互的过程，D_t[a；r]则是当前时刻t下agent与真实环境交后得到的动作和奖励值映射数据，a表示当前获得的动作action(超参数配置)；r表示在当前的超参数配置下获得的准确度，该准确度作为将奖励值reward。第10行将获得的数据D_t[a；r]保存至D_c。第9行表示在该阶段收集数据的同时，使用PPO算法进行agent的超参数选择策略更新。

在14-17行对应步骤S23和S3，步骤S23使用训练后的适应性模型F_θ直接评估动作的价值(评估动作的价值也就是预测算法准确度)获得训练样本D[a；r]，使用PPO算法在训练样本D[a；r]上更新agent的超参数选择策略。对应到程序中，第15行使用agent(s)&F_θ(a)获得训练样本，agent(s)代表agent根据当前状态s做出决策的过程，F_θ(a)表示采用适应性模型F_θ预测agent选择的超参数配置下算法模型在验证数据集上的准确度，此时得到的当前动作a(超参数配置)和当前的超参数配置下获得的准确度r作为训练样本D[a；r]；第16行使用PPO算法在训练样本D[a；r]上更新agent的超参数选择策略。步骤S23和S3相比于第7-11行的策略更新不同的是：在步骤S23的操作过程中，使用训练后的模型F_θ直接评估动作的价值(第15行)。F_θ使用的次数由步骤S222结束时的旧策略与当前策略π_θ的距离决定，其距离应满足(δ为阈值)。此处通过阈值对F_θ多次调试和实验，最大化F_θ的优势。

本实施例中，数据集合D_c的大小，基于以下几点设计：1)根据模型结构大小和训练样本应为网络连接权的5-10倍的经验；2)无论数据集合D_c的容量多大，对于新的数据集合D_r(D_r＝D-D_c)，模型始终会存在误差；3)考虑模型训练样本的获取代价和整体效率。

对于一个实际问题，action的分布是未知的，然而适应性模型F_θ需要拟合所有[action；reward]之间的关系，此处D表示针对特定问题所有可能的action选择和对应reward,而D_c表示S21步骤中通过不断训练收集的[action；reward]数据，而D_r表示D中剩下的[action；reward]数据。

D_c应满足以下条件：Dc的容量为神经网络连接权重的5-10倍。

适应性模型使用：使用适应性模型评估动作并使用样本更新超参数选择策略π_θ，对于模型的使用来说，需要保证模型使用前后策略相差不多，即当π_θ和距离大于阙值时，认为当前策略偏离过大(或好或坏)，模型不足以适应当前数据，需重新训练适应性模型，更新模型的适应性。通过以下公式π_θ和距离：

上述D_KL表示π_θ和的KL散度，即为π_θ和的距离。

该式利用函数D_KL计算π_θ和的KL散度作为距离这样能够确保模型适应当前策略的更新。

本实施例的关键点主要在于Agent设计、动作选取、适应性模型训练及使用。

关于agent的设计：如图1和图2所示，本实施例中agent包括依次串联的k个超参数控制器，k为超参数个数；每个超参数控制器均包括LSTM网络、输入input和输出output，输入与LSTM网络之间、输出与LSTM网络之间均各有一个全连接层；且前一级超参数控制器的输出还作为后一级超参数控制器的输入发送给后一级超参数控制器。

超参数选择可以看作是一个多阶段决策问题，每个时刻针对某个超参数做出决策。根据上述特点，本实施例中采用长短时记忆网络(LSTM)作为选择每个超参数的控制器C_i(i＝1,2，…，k)，并将前一超参数控制器C_i输出作为下一超参数控制器C_i+1的输入,然后将C₁到C_k的整个连接结构作为agent(k表示超参数个数)。优选地，agent中的控制器个数还会动态自适应超参数个数。

图1-图2为本实施例agent内部结构，k个控制器分别对应k个超参数的选择，input₁-input_k为对应控制器的输入，output₁-output_k为对应控制器的输出。控制器核心由LSTM网络构成，且输入、输出与LSTM网络之间各有一个全连接层。优选地，各超参数控制器中LSTM网络结构在任意时刻的结构、参数共享以提高训练效率。

关于动作选取：所述agent在更新agent的超参数选择策略时进行动作选取，所述动作选取是指配置超参数取值。本实施例在连续超参数空间上对HPO问题进行优化，不需要人为给定若干超参数预选值，而只需要提供超参数搜索范围，为各个超参数对应的超参数控制器，本实施例中设置k个超参数控制器，通过k个超参数控制器配置k个超参数的取值，其中一种具体方法为：通过第i(i∈[0,1…k])个超参数控制器得到μ_i,∑_i，用正态分布a_i:N(μ_i,∑_i)代表第i个超参数的样本分布，然后从超参数对应的分布随机采样得到实际的超参数配置。即：i∈[0,1…k]时，第i个超参数控制器配置方法为：通过第i个超参数控制器得到μ_i,∑_i，用正态分布a_i:N(μ_i,∑_i)代表第i个超参数的样本分布，然后从超参数对应的分布随机采样得到实际的超参数配置；μ_i为第i个超参数控制器得到的超参数分布的均值；∑_i为第i个超参数控制器得到的超参数分布方差，a_i代表第i个超参数的选取动作。

关于适应性模型训练及使用：如上述所述，本实施例中使用全连接神经网络搭建适应性模型，通过收集近期数据D_c并用监督学习的方法训练模型，最终使模型学习到动作与奖励值的映射关系。模型是由4层全连接网络组成，结构简单，因为使用适应性模型是为了达到快速训练、短期使用的效果，反而复杂的网络结构往往不能达到这样的目的。数据集合D_c的大小，基于以下几点设计：1)根据模型结构大小和训练样本应为网络连接权的5-10倍的经验；2)无论数据集合D_c的容量多大，对于新的数据集合D_r(D_r＝D-D_c)，模型始终会存在误差；3)考虑模型训练样本的获取代价和整体效率。本实施例中，使用模型评估动作并使用样本更新策略π_θ，对于模型的使用来说，需要保证模型使用前后策略相差不多，即当π_θ和距离大于阙值时，当前策略偏离过大(或好或坏)，模型不足以适应当前数据，需重新执行基操作，更新模型的适应性。通过以下公式π_θ和距离：该式计算π_θ和的KL散度作为距离，这样能够确保模型适应当前策略的更新。

发明人对本实施例中参数优化的方法进行了验证，其在不同的环境下都能够具有良好的稳定性、准确性、时间效率。

实施例2:

本实施例与实施例1的主要区别在与动作选取方法。发明人发现，仅通过实施例1的方法随机采样得到的超参数配置往往会出现样本波动大、训练低效、难以在预定搜索范围探索等问题。为解决上述问题，发明人提供了第二种动作选取方法，主要是在实施例1的方法的基础上进行样本转换操作：1.对各超参数控制器得到的超参数分布的均值μ_i使用tanh函数统一值域到(-1,1)；2.使用各超参数的样本分布a_i:N(μ_i,∑_i)进行采样得到样本s_i；3.使用以下公式对样本si进行转换：

s_i'＝clip(S,down_i,up_i) (2)

其中up_i和down_i为第i个超参数的预选范围的上界和下界。clip函数为限界函数,即S的值小于down_i时也为down_i，大于up_i时也为up_i。通过将原始超参数样本分布的均值μ_i的值域对应到(up_i,down_i)，公式(1)以值域中心点为准计算转换后的动作。

同样的，agent在更新agent的超参数选择策略时进行动作选取，所述动作选取是指配置超参数取值，具体为通过k个超参数控制器配置k个超参数的取值，i∈[0,1…k]时，获取第i个超参数的方法如下：

SS3、使用以下公式对样本s_i进行转换：

s_i'＝clip(S,down_i,up_i) (2)

转换后的样本s_i'中即为实际的超参数配置。

发明人对本实施例中参数优化的方法进行了验证，其在不同的环境下都能够具有良好的稳定性、准确性、时间效率。发明人固定优化时间，将本实施例中的基于适应性模型的强化学习优化方法(AM-RL)与强化学习优化方法(RL)、CMAES、TPE以及默认参数配置方法(Baseline)进行对比，每一种优化方法在不同的数据集上分别进行5次独立实验，用5次实验的最优值的平均值表示对应数据集下优化方法的优化性能，对比结果如表1所示。

表1:优化方法在MNIST和Fashion MNIST数据集下对卷积神经网络结构进行优化。

表1中，err为优化结果，time为时间效率，std表示方差，粗体表示对应数据集最好的性能表现。在优化随机森林和XGBoost两种算法的超参数时，本实施例提出的优化方法在优化结果和稳定性方面能够达到最好。在耗费时间方面，虽然TPE方法也能够表现的很好，但其优化结果和稳定性都相对较差。同时，通过对比本实施例所提出的方法和强化学习方法可以发现，对于大多数优化任务，本实施例提出的方法的优化结果和时间效率优于强化学习方法，这也说明了适应性模型的有效性。通过以上分析，说明通过学习短期数据获得适应性模型，使模型能够直接评估后继动作，能够提高优化性能(优化结果和时间效率)。在超参数搜索空间大时，优势更加明显。(2)实验分别在两个数据集上独立运行5次，以平均性能评估各优化方法。本实施例选用tensorflow中的卷积神经网络作为基准。在表1中，基准方法在一些性能指标优于TPE和CMAES方法。然而，对于两种数据集，本实施例所提出的方法AM-RL优化方法能够在优化结果(err)和时间效率(time)方面优于其他方法。表1中的方差部分(std)也可以显示AM-RL方法具也有更好的稳定性。

实施例3：

本实施例以图像识别为例，提供一种基于适应性模型的超参数优化方法，该方法对图像识别的XGBoost算法的超参数进行优化，其步骤具体为：该模型中需要优化的超参数有8个，包括：树的最大深度max_depth(1-35)、节点分裂阈值gamma(0.01-0.9)、最小子节点权重和min_child_weight(1-9)、采样率subsample(0.1-0.9)、列采样率(特征采样率)colsample_bytree(0.1-0.9)、L1正则化系数reg_alpha(0.1-0.9)、L2正则化系数reg_lambda(0.01-0.9)、学习率learning_rate(0.001-0.1)，前述超参数表示中，前为超参数，括号中为超参数范围。针对手写字母数据集(letter recognition data set)识别任务，我们通过优化XGBoost算法的上述参数使性能达到最优。首先，将数据集按7:3的比例将数据集分为训练集(训练数据集)和测试集(验证数据集)，然后使用提出的方法进行优化，其具体方法如下：

S0、初始化相关参数，设置优化次数为500次，设置训练数据集D_c为空集；

S1、选择超参数配置：agent为XGBoost算法选择一个超参数取值组合a1，所述超参数取值组合a1包括8个不同的超参数；本实施例中，取值组合a1中，max_depth＝1，gamma＝0.01，min_child_weight＝1，subsample＝0.1，colsample_bytree＝0.1，reg_alpha＝0.1，reg_lambda＝0.01，learning_rate＝0.001；在其他实施例中，取值组合a1中的各超参数也可以选择各自范围内的其他取值。

然后通过agent选择的超参数组合a1，并根据所选的超参数组合配置XGBoost的相应超参数，使得各超参数的值与上述取值组合中的值相等；

S3、以步骤S2中的算法准确度作为奖励值优化agent，更新超参数选择策略。

本实施例中，步骤S2和S3，使用5折交叉验证方法得到XGBoost算法在训练集上的准确度，并使用准确度作为奖励值reward计算损失值(loss value)，最后用Adam优化算法最小化损失值，即更新agent。以上过程共执行5次，选择5次优化过程中的最优的超参数组合作为候选超参数组合，然后依次将候选超参数组合配置到XGBoost算法，并在测试集上执行得到测试集准确度，最后选择测试准确度最高的超参数组合作为最终的超参数配置。

在步骤S2中，同实施例1，包括以下步骤：

步骤S21、在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度，通过算法不断迭代，agent与真实环境不断交互，每次交互过程中将动作和奖励值映射数据[action,reward]添加到数据集D_c，同时进行agent的超参数选择策略更新；

步骤S22、当数据集D_c填满时，使用监督学习方法在数据集D_c下训练适应性模型F_θ；

步骤S22具体包括步骤S221-S225：

S222、记录当前策略π_θ并作为旧策略

步骤S23、使用适应性模型F_θ直接预测agent选择的超参数配置下算法模型在验证数据集上的准确度。

对于该识别任务，通过使用所提出的方法，XGBoost算法的性能明显提升。通过实验得到，在使用XGBoost默认参数配置的情况下，准确度达到0.8707；而使用超参数优化方法所得的超参数配置，准确度达到0.9382。通过显著性检测，计算得p<0.05，说明以上结果具有统计显著性。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于适应性模型的超参数优化方法，包括以下步骤：

其特征在于，

步骤S2中还训练适应性模型，通过训练后的适应性模型预测算法准确度，步骤S3直接利用适应性模型预测的算法准确度作为奖励值优化agent，更新超参数选择策略。

2.根据权利要求1所述的一种基于适应性模型的超参数优化方法，其特征在于，步骤S2具体包括以下步骤：

步骤S21、获取训练数据集D_c：在agent选择的超参数配置下训练得到算法模型在验证数据集上的准确度，通过算法不断迭代，agent与真实环境不断交互，每次交互过程中将动作和奖励值映射数据[action，reward]添加到数据集D_c，同时进行agent的超参数选择策略更新；

3.根据权利要求2所述的一种基于适应性模型的超参数优化方法，其特征在于，

步骤S1之前还初始化训练次数和训练数据集D_c；

步骤S22具体包括以下步骤：

S222、记录当前策略π_θ，并作为旧策略

4.根据权利要求3所述的一种基于适应性模型的超参数优化方法，其特征在于，步骤S3具体为：

5.根据权利要求1至4任一所述的一种基于适应性模型的超参数优化方法，其特征在于，所述适应性模型采用全连接神经网络搭建。

6.根据权利要求5所述的一种基于适应性模型的超参数优化方法，其特征在于，所述适应性模型由4层全连接网络组成。

7.根据权利要求1至5任一所述的一种基于适应性模型的超参数优化方法，其特征在于，所述agent包括依次串联的k个超参数控制器，k为超参数个数；每个超参数控制器均包括LSTM网络、输入和输出，输入与LSTM网络之间、输出与LSTM网络之间均各有一个全连接层；且前一级超参数控制器的输出还作为后一级超参数控制器的输入发送给后一级超参数控制器。

8.根据权利要求7所述的一种基于适应性模型的超参数优化方法，其特征在于，所述agent在更新agent的超参数选择策略时进行动作选取，所述动作选取是指配置超参数取值，具体为通过k个超参数控制器配置k个超参数的取值，其中i∈[0，1…k]时，第i个超参数控制器配置方法为：通过第i个超参数控制器得到μ_i，∑_i，用正态分布a_i：N(μ_i，∑_i)代表第i个超参数的样本分布，然后从超参数对应的分布随机采样得到实际的超参数配置；μ_i为第i个超参数控制器得到的超参数分布的均值；∑_i为第i个超参数控制器得到的超参数分布方差，a_i代表第i个超参数的选取动作。

9.根据权利要求7所述的一种基于适应性模型的超参数优化方法，其特征在于，所述agent在更新agent的超参数选择策略时进行动作选取，所述动作选取是指配置超参数取值，具体为通过k个超参数控制器配置k个超参数的取值，i∈[0，1…k]时，获取第i个超参数的方法如下：

SS1、对各超参数控制器得到的超参数分布的均值μ_i使用tanh函数统一值域到(-1，1)；

SS2、使用第i个超参数的样本分布a_i：N(μ_i，∑_i)进行采样得到样本s_i；a_i：N(μ_i，∑_i)为第i个超参数的正态分布；a_i代表第i个超参数的选取动作；

SS3、使用以下公式对样本s_i进行转换：

s_i′clip(S，down_i，up_i) (2)

其中up_i和down_i为第i个超参数的预选范围的上界和下界；clip函数为限界函数，令S的值小于down_i时取值为down_i，大于up_i时取值为up_i；

转换后的样本s_i′即为实际的超参数配置。