CN113780575A

CN113780575A - 一种渐进式的深度学习模型的超参数寻优方法

Info

Publication number: CN113780575A
Application number: CN202111002372.4A
Authority: CN
Inventors: 都卫东; 方志斌; 王岩松; 和江镇; 张中信; 吴健雄
Original assignee: Zhengtu Intelligent Technology Jiangsu Co ltd
Current assignee: Zhengtu Intelligent Technology Jiangsu Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-10
Anticipated expiration: 2041-08-30
Also published as: CN113780575B

Abstract

本发明涉及一种渐进式的深度学习模型的超参数寻优方法，包括：步骤一：生成多个不同的深度学习模型，并从超参数空间中为每一个模型选取一组超参数；步骤二：在训练集上训练每一个模型一定的代数，步骤三：对模型按照性能的高低从高到低进行排序；采用逐次减半的方法，保留性能排名50％之前的模型；步骤四：在保留的模型中选取部分模型对模型的超参数进行扰动；步骤五：继续在训练集上训练每一个模型一定的代数，步骤六：判断是否满足最大迭代次数，如是则保存最优的模型并终止训练至结束。采用这种逐次减半的方式训练的超参数寻优方法,有利于使用更多的资源寻优表现优异的超参数，减少了相似模型的重复训练，使模型得到更优的性能。

Description

一种渐进式的深度学习模型的超参数寻优方法

技术领域

本发明涉及深度学习模型的超参数寻优方法，尤其是一种渐进式的深度学习模型的超参数寻优方法。

背景技术

一个深度学习模型有大量的超参数，随着网络结构的增长，超参数也会增加。一般而言，深度学习模型里的超参数包含以下几点：优化器、学习率、迭代次数、激活函数、批处理大小、网络结构等。

常用的超参数寻优的方法包括人工搜索、网格搜索、随机搜索和贝叶斯优化等。人工搜索通过选择合适的超参数训练模型，并根据模型的表现调整超参数的取值，这需要极强的专家经验。网格搜索通过尝试所有的超参数组合分别训练一个模型，并在验证集上测试性能，这会消耗大量的计算资源。随机搜索通过随机产生一组超参数训练模型，并在验证集上测试性能，但未考虑不同超参数之间的相关性。贝叶斯优化通过已经试验的超参数组合，来预测下一个可能带来最大收益的组合，但当超参数的维度越大时，搜索变得越困难。

发明内容

本发明要解决的技术问题是：提供一种渐进式的深度学习模型的超参数寻优方法。

本发明解决其技术问题所采用的技术方案是：一种渐进式的深度学习模型的超参数寻优方法，包括：

步骤一：生成多个不同的深度学习模型，并从超参数空间中为每一个模型选取一组超参数；

步骤二：在训练集上训练每一个模型一定的代数，并在验证集上验证模型的性能，并记录每一个模型的性能；

步骤三：根据模型的超参数得到模型的性能，对模型按照性能的高低从高到低进行排序；

采用逐次减半的方法，保留性能排名50％之前的模型，剔除性能排名在50％之后的模型；

步骤四：在保留的模型中选取部分模型对模型的超参数进行扰动；

步骤五：继续在训练集上训练每一个模型一定的代数，并在验证集上验证模型的性能，并记录每一个模型的性能；

步骤六：判断是否满足最大迭代次数，如是则保存最优的模型并终止训练至结束；如否则返回步骤三。

进一步地，模型的权重是随机初始化的，模型的超参数是从超参数空间中选取的；在选取超参数时，对于取值范围是离散的超参数，从中随机选取一个超参数；对于取值范围是连续的超参数，采用等分随机的方式从中选取一个超参数。

进一步地，步骤五中在保留的模型中选取部分模型对模型的超参数进行扰动具体为：其模型扰动方式P的确定方式如下：

其中，λ∈(0,1)，λ为随机取值；P1表示选择模型扰动方式一，P₂表示选择模型扰动方式二，P₃表示选择模型扰动方式三。

模型扰动方式一是指重新生成一组超参数，用这组超参数替换排名在 (100-η)％之后的模型原有的超参数，(100-η)％之后的模型的权重由排名在η％之前的模型的权重进行替换；η的取值范围：[10,50]；

模型扰动方式二是指模型性能排名在(100-η)％之后的模型的权重由性能排名在η％之前的权重进行替换；性能排名在(100-η)％之后的模型的超参数由性能排名在η％之前的模型的超参数进行随机扰动后再替换；

模型扰动方式三是指对模型性能排名在(100-η)％之后的模型的权重和超参数不做修改，即直接继续下一阶段的训练。

进一步地，模型扰动方式二中，在对超参数组合进行随机扰动时，如果超参数的取值是非实数，则不对其进行扰动，令

如果超参数的取值是实数，则对其进行扰动，令

其中， α∈[0.8,1.2]，α的取值是随机的，扰动后的超参数的取值

不应超出超参数空间，

为扰动前的超参数的取值，α为扰动系数，

为扰动后的超参数的取值。

本发明的有益效果是：(1)对于连续的超参数采用等分随机的方式取值，可以保证即使在深度学习模型数量很小的情况下，这些连续的超参数的取值也可以较为均匀的分布，避免连续超参数的取值集中在某一个较小的范围。连续超参数取值的均匀性有利于深度学习模型寻找到合适的超参数，从而得到更优的深度学习模型性能；(2)采用这种逐次减半的方式训练的超参数寻优方法,有利于使用更多的资源寻优表现优异的超参数，减少了相似深度学习模型的重复训练，使深度学习模型得到更优的性能。(3)使用多种模型参数扰动方式有利于充分探索不同超参数在深度学习模型上表现，帮助深度学习模型达到更优的性能。

附图说明

下面结合附图和实施方式对本发明进一步说明。

图1一种渐进式的深度学习模型的超参数寻优方法流程图；

图2是实施例的深度学习模型的超参数过程的模型示意图；

具体实施方式

现在结合附图对本发明作进一步的说明。这些附图均为简化的示意图仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

一种渐进式的深度学习模型的超参数寻优方法，包括：

具体地，步骤一中，随机生成S个深度学习模型M＝[M₁,M₂,...,M_s]， S为自然数，深度学习模型例如为视觉模型。S个深度学习模型的权重初始化为

其中0≤i＜Max_Epoch， Max_Epoch表示深度学习模型的最大迭代次数，S个深度学习视觉模型的超参数为

其中

j 是超参数的个数。深度学习模型的权重是随机初始化的，深度学习模型的超参数是从超参数空间中选取的。在选取超参数时，对于取值范围是离散的超参数，从中随机选取一个超参数，对于取值范围是连续的超参数，采用等分随机的方式从中选取一个超参数。为保证选取的超参数可以较为均匀的分布，会将连续的超参数空间等分成S份，并从每一份中随机选择一个超参数，即等分随机选取。

进一步的，每一个深度学习模型使用不同的超参数组合进行训练一定的代数，并在验证集上验证每一个深度学习模型的性能，记录每一组超参数对应的深度学习模型的性能。深度学习模型的性能是Y＝[Y₁,Y₂,...,Y_s]。

进一步的，建立一个采样模型，用于描述不同的超参数与深度学习模型性能之间的联系，根据模型的超参数得到模型的性能。采样模型可以用一个4层的多层感知机表示，多层感知机的输入是超参数取值，输出是深度学习模型的性能。

对于离散的超参数采用One-Hot编码，考虑到离散超参数取值的有限性， One-Hot编码的位数限制为4位。对于连续的超参数值采用Max-Min归一化方法。

多层感知机输入的维度大于等于超参数的个数，输出维度是1。多层感知机的输入用X表示，输出是f(X)，隐层的权重是W_MLP，隐层的偏置是b，隐层和输出的激活函数是sigmoid函数，用σ表示。多层感知机的公式表示如下：

其中b⁽ⁱ⁾表示第i层的偏置，i＝1,2,3,

表示第i层的权重， i＝1,2,3。

sigmoid函数的公式如下：

其中，a表示sigmoid函数的输入。

进一步的，对训练过的深度学习模型按照性能进行排序，其中性能较差的一半的模型将被剔除，不再进行训练，性能较好的一半的模型将被保留，并继续训练。最终保留的模型数应大于等于最小保留的模型数。

步骤五中在保留的模型中选取部分模型对模型的超参数进行扰动具体为：其模型扰动方式P的确定方式如下：

其中，λ∈(0,1)，λ的取值是随机的；P₁表示选择模型扰动方式一，P₂表示选择模型扰动方式二，P₃表示选择模型扰动方式三。

如果超参数的取值是实数，则对其进行扰动，令

不应超出超参数空间，

为扰动前的超参数的取值，α为扰动系数，

为扰动后的超参数的取值。

具体实施方式，如图2所示，初始化S组超参数，同时训练S组不同的深度学习模型，这里S的取值为4。图1中矩形区域表示深度学习模型的权重，各个深度学习模型的初始化权重不一样；图1中圆形区域表示深度学习模型的超参数，每一组超参数都是从超参数空间中随机或者等分随机选择的。并行的训练这4组模型迭代一定的代数，比较各个深度学习模型在验证集上的性能，深度学习模型的性能可以是accuracy、MIoU等，保存深度学习模型的状态到本地，深度学习模型的状态包括深度学习模型的权重、超参数信息、性能和优化器状态等。

如图2所示，采用逐次减半的方式剔除掉较差的2个深度学习模型，只保留较好的2个深度学习模型。剔除掉的深度学习模型将不再训练，保留的深度学习模型将继续训练。基于训练得到的结果，建立超参数与深度学习模型性能之间的映射。在较好的2个的深度学习模型中，对深度学习模型的性能进行排序。选择超参数的扰动方式，并根据扰动方式对深度学习模型的超参数进行扰动。继续训练保留下来的深度学习模型，直至达到最大的迭代次数。

以下结合一个具体的应用场景，以分类任务为例，对本发明的深度学习模型超参数寻优方法作说明。

从超参数空间中随机选择一组超参数，并生成与这组超参数对应的视觉分类模型，共生成10组分类模型，每一分类模型都有一个不同的超参数组合。超参数包括优化器、批处理大小和学习率。优化器、批处理大小等离散的超参数采用随机选取的方法，学习率等连续的超参数采用等分随机选取的方法，即先将学习率的取值范围等分为10份，再从每一份中随机的选取一个学习率的值。

每一分类模型都在训练集上训练一定的代数，并在验证集上做分类模型的验证得到分类模型的准确率，记录每一组超参数对应的分类模型的准确率，将分类模型的权重和状态信息保存到本地，此处准确率为该分类模型的性能。

根据已经得到的分类模型的超参数与准确率信息，建立分类模型的超参数与准确率之间的映射关系。具体的做法是：先对超参数进行归一化，再采用梯度下降法训练多层感知机。优化器的取值是“Adam”、“SGD”、“RMSProp”，采用 One-Hot归一化后的值分别是0000、0001、0010。批处理大小的取值是8、16、 32、64、128、256、512、1024，采用One-Hot归一化后的值分别是0000、0001、0010、0011、0100、0101、0110、0111。学习率的取值范围是[1e^-5,1e^-1]，从中等分随机选取10个值，并做归一化，归一化方式采用Max-Min归一化方式。例如当超参数是(“Admam”,256,1e^-3)，准确率是0.95，则多层感知机的输入是[0,0,0,0,0,1,0,1,0.0099],输出是0.95。

比较分类模型的准确率，并按照准确率进行升序排序，剔除较差的一半的分类模型，保留较好的一半的分类模型。设置的保留的最小模型数为3，如果剔除较差的分类模型后，保留的分类模型数小于3，则应减少剔除模型的数量，使得最后保留下来的分类模型数量是3。

在保留的模型中选取部分模型对模型的超参数进行扰动具体为：其模型扰动方式P的确定方式如下：

模型扰动方式一是指重新生成一组超参数，用这组超参数替换排名在80％之后的深度学习模型的超参数，80％之后的深度学习模型的权重由排名在20％之前的深度学习模型的权重进行替换。

模型扰动方式二是指模型性能排名在80％之后的深度学习模型的权重由性能排名在20％之前的深度学习模型的权重进行替换；性能排名在80％之后的深度学习模型的超参数由性能排名在20％之前的深度学习模型的超参数进行随机扰动后再替换。在对超参数组合进行随机扰动时，优化器的值不进行扰动，批处理大小和学习率的值进行扰动，扰动系数在[0.8,1.2]中随机选取，扰动后的批处理大小和学习率的取值不应超出超参数的空间。

模型扰动方式三是指对模型性能排名在80％之后的深度学习模型的权重和超参数不做任何的修改，即直接继续下一阶段的训练。

继续分类模型的训练、性能的比较和分类模型的替换，直至分类模型达到最大的迭代次数，保留准确率最高的分类模型作为最优的分类模型。

本发明可以自动的搜寻深度学习模型的超参数，使得得到最优的深度学习模型。对于连续的超参数采用等分随机的方式取值，连续超参数取值的均匀性有利于深度学习模型寻找到合适的超参数，从而得到更优的深度学习模型性能。采用这种逐次减半的方式训练的超参数寻优算法,有利于使用更多的资源寻优表现优异的超参数，减少了相似深度学习模型的重复训练，使深度学习模型得到更优的性能。使用多种模型参数扰动方式有利于充分探索不同超参数在深度学习模型上表现，帮助深度学习模型达到更优的性能。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围内。