CN111079896A

CN111079896A - 一种超参数自适应调整方法与装置

Info

Publication number: CN111079896A
Application number: CN201911120367.6A
Authority: CN
Inventors: 李峰; 刘红丽; 刘宏刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-04-28

Abstract

本发明公开了一种超参数自适应调整方法与装置包括：根据现有超参数确定最优超参数和采样方差；基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；由所有超参数形成超参数组合，并基于超参数组合训练模型以获得超参数组合后验概率；响应于超参数组合后验概率小于预定概率，而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤；响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出超参数组合并中止调整。本发明能够以较低的资源占用和耗时来自动执行超参数自适应调整，降低计算时间和空间复杂度。

Description

一种超参数自适应调整方法与装置

技术领域

本发明涉及深度学习领域，更具体地，特别是指一种超参数自适应调整方法与装置。

背景技术

深度学习兴起后，基于神经网络的人工智能算法又逐步吸引了众多学者和产业应用的兴趣。深度神经网络模型中超参数的设置会对模型的最终结果有非常大的影响。选择合理、适用的超参数组合始终是算法研究人员和算法工程师需要解决的一大难题。

目前对神经网络超参数的调整主要采用人工方式，这种方法耗时高，且非常依赖算法工程师的个人经验，因此采用自动化的超参数调整方法对于提高模型开发效率、降低算法成本有着极为重要意义。当前自动化调参的方法主要为基于多模型并行的随机搜索方法，采用这种方法确定的超参数组合的优劣完全取决于各个超参数初始化时的位置以及超参数组合的种群规模，种群规模越大，越有可能找到最优的超参组合。但是由于每一个超参组合都需要对其所对应的神经网络进行完整的训练，过大的种群规模会耗费庞大的计算资源和时间成本。

针对现有技术中自动调整超参数的计算时间和空间复杂度高的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种超参数自适应调整方法与装置，能够以较低的资源占用和耗时来自动执行超参数自适应调整，降低实施方法的计算时间和空间复杂度。

基于上述目的，本发明实施例的第一方面提供了一种超参数自适应调整方法，包括执行以下步骤：

根据现有超参数确定最优超参数和采样方差；

基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；

由所有超参数形成超参数组合，并基于超参数组合训练模型以获得超参数组合后验概率；

响应于超参数组合后验概率小于预定概率，而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤；

响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出超参数组合并中止调整。

在一些实施方式中，根据现有超参数确定最优超参数和采样方差包括：

根据现有超参数计算超参数均值和超参数方差；

将现有超参数中超参数后验概率最大的超参数确定为最优超参数；

根据现有超参数的超参数均值、最优超参数、超参数方差、和超参数的上下界确定采样方差。

在一些实施方式中，基于最优超参数和采样方差采集多个新超参数包括：

以最优超参数为期望、采样方差为方差生成正态分布；

在正态分布中采集多个新样本；

使用超参数定义将多个新样本正则化，获得多个新超参数。

在一些实施方式中，基于超参数组合训练模型以获得超参数组合后验概率包括：

对超参数组合进行前向计算获得损失函数组合，并根据损失函数组合和多个超参数后验概率确定超参数组合当前概率；

使用预定的负定矩阵、线性加权向量、和相关性矩阵处理多个超参数后验概率获得超参数组合状态转移概率；

根据超参数组合当前概率和超参数组合状态转移概率确定超参数组合后验概率。

在一些实施方式中，超参数组合在执行上一步骤时保持稳定达到第二预定次数包括：超参数组合在连续第二预定次数删除超参数后验概率更低的超参数时，都删除且仅删除采集的新超参数。

本发明实施例的第二方面提供了一种超参数自适应调整装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时执行以下步骤：

根据现有超参数确定最优超参数和采样方差；

根据现有超参数计算超参数均值和超参数方差；

以最优超参数为期望、采样方差为方差生成正态分布；

在正态分布中采集多个新样本；

使用超参数定义将多个新样本正则化，获得多个新超参数。

本发明具有以下有益技术效果：本发明实施例提供的超参数自适应调整方法与装置，通过根据现有超参数确定最优超参数和采样方差；基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；由所有超参数形成超参数组合，并基于超参数组合训练模型以获得超参数组合后验概率；响应于超参数组合后验概率小于预定概率，而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤；响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出超参数组合并中止调整的技术方案，能够以较低的资源占用和耗时来自动执行超参数自适应调整，降低实施方法的计算时间和空间复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的超参数自适应调整方法的流程示意图；

图2为本发明提供的超参数自适应调整方法的详细流程图；

图3为本发明提供的超参数自适应调整方法基于特定模块的执行顺序示意图；

图4为本发明提供的超参数自适应调整方法的实施例的层级结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够以较低的资源占用和耗时来自动执行超参数自适应调整的方法的一个实施例。图1 示出的是本发明提供的超参数自适应调整方法的流程示意图。

所述超参数自适应调整方法，如图1所示，包括执行以下步骤：

步骤S101：根据现有超参数确定最优超参数和采样方差；

步骤S103：基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；

步骤S105：由所有超参数形成超参数组合，并基于超参数组合训练模型以获得超参数组合后验概率；

步骤S107：响应于超参数组合后验概率小于预定概率，而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤；

步骤S109：响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出超参数组合并中止调整。

本发明实施例包括用于确定超参数取值的方法和用于存储并实现所述方法的计算设备。神经网络模型通常除了模型参数θ外，还有一系列的超参数ω，如批次样本数量、学习率、最大迭代次数等。本方案采用基于递归贝叶斯的方法来优化超参数组ω，以降低模型损失，提高训练收敛速率。超参数选择方法包括自适应采样以生成新的超参数组合并在线学习以更新超参数生成规则，通过选择性删除机制确定采样中心和采样方差来保证超参数组的收敛性；在训练过程中将每一批次的数据看作对所给定的超参数组的观测采样并据此实时修改超参数选择概率。可见，本发明实施例不同于现有的人工超参数选择和基于群体智能启发的随机搜索算法，实现了自动化的模型超参数整定功能，可以实时地对正在训练的模型修正超参数组合而不需要同时训练很多网络模型，另外遗忘机制在降低存储开销的同时提升对超参数空间的局部探索能力。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM) 或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

根据现有超参数计算超参数均值和超参数方差；

以最优超参数为期望、采样方差为方差生成正态分布；

在正态分布中采集多个新样本；

使用超参数定义将多个新样本正则化，获得多个新超参数。

根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被 CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

图2所示出的是本发明的详细流程，如下分为样本补充和样本更新两个部分。样本补充包括对于给定采样样本集Ω，最大采样规模N_s和ω的上下界ω_B＝{supω，infω}，当采样数量小于最大采样规模时，通过以下方式采样生成新的ω，直到采样数量等于最大采样规模：

①计算已有样本的均值

和样本方差C；

②从所有ω中找出ω^*＝argmax_ω[p(ω|Z_0：t)]；

③计算采样方差σ_k＝min[d(ω^*，ω_B)，C]；

④采样M个服从N(ω^*，σ_k)分布的新样本；

⑤对新样本按照超参数定义进行正则化，如对批样本规模、最大迭代次数取整，超过边界截断等操作；

⑥训练M个批次数据，生成对应的M个ω的后验概率p(ω|Z_0：t)；

样本更新包括基于足够多的样本来使用淘汰机制执行迭代：

①当采样数量等于Ns时，根据所采样本，按照下式计算新的超参数组合：

②采用新超参数组合ω_t+1训练模型，得到其对应的后验概率 p(ω_t+1|Z_0：t)。；

③判断是否满足终止条件，若满足则停止模型超参数搜索，若不满足，则继续执行后续步骤；

④按照Ω中样本对应的后验概率排序，删除M个后验概率最小的样本；

⑤重新补充样本。

样本补充和样本更新在图3中实施为“自适应采样模块”和“在线学习模块”以实现其功能。

前述的终止条件包括：

①达到给定的最大迭代步数；

②最优超参数组合连续k次迭代不发生变化；

③根据超参数组合ω训练的模型精度满足验证集要求。

具体地，计算后验概率的详细方法见下：

本发明用p(ω_t+1|Z_0：t)表示t时刻预测下一时刻采用超参数组和ω_t+1的后验概率，其中Z_0：t表示从初始时刻0到t时刻所获得的所有模型表现，如损失函数值，参数梯度等。根据Chapman-Kolmogorov方程可知：

p(ω_t+1|Z_0：t)＝p(ω_t+1|ω_t)p(ω_t|Z_0：t)/Λ

其中，p(ω_t+1|ω_t)表示超参数的状态转移概率，Λ用于将分子转化到概率空间的归一化系数。由于超参数空间的取值是非连续的，因此形式上Λ可以表示为以下级数形式：

其中Ω为所采样的超参数组的集合。

通常改变系统的超参数是应为模型损失值偏高且持久不下，且模型参数梯度较小，因此本发明实施例使用指数平滑的自适应更新方式，在原概率基础上，综合考虑模型参数梯度和损失值来计算状态转移概率：

其中，A为负定矩阵，表示随时间推移，模型不采用t时刻的超参数的概率逐渐衰减；

为相关性矩阵，表示每个参数的梯度以及损失值之间是否存在相关性，若为对角阵则表示各参数梯度和损失值之间相互独立；

为线性加权向量，用于累积各参数梯度和损失值对状态转移概率的影响。分母Λ是归一化系数，将分子归一化到概率空间。

依据贝叶斯公式，p(ω_t|Z_0：t)可以展开为如下形式：

p(ω_t|Z_0：t)＝p(Z_t|ω_t)p(ω_t|Z_0：t-1)/Λ

其中，p(Z_t|ω_t)表示在t时刻，给定超参数ω_t，观测到的模型表现为Z_t的概率。对于神经网络模型而言，当超参数确定时，通过对一个批次的n个样本做前向计算可以得到n个对应的损失函数值，以及一组参数更新梯度。这n个损失函数值以及一组梯度可以看做在给定超参数ω_t时对模型表现的无放回抽样，样本空间大小为n。由于对于神经网络模型而言，这n个采样共用一组参数更新梯度。因此p(Z_t|ω_t)仅与损失函数值相关。对损失函数进行softmax处理，将其映射到概率空间：

使用上述公式就可以计算后验概率p(ω|Z_0：t)。

下面根据图4所示的具体实施例来进一步阐述本发明的具体实施方式。

图4中的数据层包括用于模型训练和验证的样本数据库。运算层根据后期平台运行的实际需求确定，开发阶段采用浪潮NF5288M5 GPU服务器。在逻辑层中包含AI算法资源池、基础模型库以及模型输出模块等结构，AI 算法资源池主要包括用于支持各类AI算法的软件包及框架，如PyTorch、 pandas、Sklearn等。基础模型库包含项目实现所需要的基础算法和模型，如CNN、K-means、Word2Vec等开源算法，以及针对本发明所涉及的用于超参数选择所需要的各类算法。模型输出模块将训练好的模型输出为模型文件以备后续部署。人机接口用以实现人机交互任务。

系统的软硬件环境包括：

主机：浪潮AGX-2 AI服务器

CPU：

Gold 6130 CPU@2.10GHz

显卡：8*Tesla V100，32G显存/卡

Ubuntu 16.04.4 LTS操作系统

Python 2.7.12

PyTorch 0.1.2

NFS文件管理系统

MySQL server 5.5.37数据库或以上版本

为了便于验证，本方案采用LeNet-5模型在MNIST手写体数据集上进行手写体数字识别作为测试实例，以展示本发明所提技术方案在自动调节模型超参数时的应用方法。在采用LeNet-5做手写体识别时，需要设置的超参数及其取值范围如下表：

其中，由于学习速率在0附近更为敏感，因此在超参数搜索时本方案在(-∞，0]内选取学习率的对数g，最终应用的学习率为lr＝exp(g)。在本实例中，可选的优化器为SGD、Momentum、RMSprop和Adam，因此优化器的取值为0到3的整数，分别代表采用上述优化器更新模型参数。本方案所述方法中所采用的参数如下表所示：

终止条件为当训练过程达到最大迭代次数时，终止训练。

1)根据超参数组合列表中给定的超参数取值范围生成1个超参数组合样本；

2)按照样本中给定的batch_size从数据集中随机抽取出数据样本，经过LeNet-5模型求损失值1和模型参数的梯度

3)计算所生成的超参数组合样本所对应的后验概率；

4)重复1)-3)过程，直到生成20个样本；

5)生成新的超参数组合样本；

6)按照新的超参数组合，执行步骤2)-3)；

7)归一化所有样本对应的后验概率；

8)按照后验概率排序，返回最优样本ω^*，并删除最小的10个样本；

9)根据超参数组合样本集中剩余的10个样本计算样本方差C；

10)计算采样方差σ；

11)按照N(ω^*，σ_k)采样一个超参数样本，根据步骤2)-3)计算随机采样的样本对应的后验概率；

12)重复步骤11)，直到生成20个样本

13)当数据集中所有数据被训练过一次后，迭代次数epoch+＝1；

14)当epoch达到20时，停止搜索过程，返回当前所使用的超参数组合及模型参数。

从上述实施例可以看出，本发明实施例提供的超参数自适应调整方法，通过根据现有超参数确定最优超参数和采样方差；基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；由所有超参数形成超参数组合，并基于超参数组合训练模型以获得超参数组合后验概率；响应于超参数组合后验概率小于预定概率，而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤；响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出超参数组合并中止调整的技术方案，能够以较低的资源占用和耗时来自动执行超参数自适应调整，降低实施方法的计算时间和空间复杂度。

需要特别指出的是，上述超参数自适应调整方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于超参数自适应调整方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够以较低的资源占用和耗时来自动执行超参数自适应调整的装置的一个实施例。超参数自适应调整装置包括：

处理器；和

根据现有超参数确定最优超参数和采样方差；

根据现有超参数计算超参数均值和超参数方差；

以最优超参数为期望、采样方差为方差生成正态分布；

在正态分布中采集多个新样本；

使用超参数定义将多个新样本正则化，获得多个新超参数。

从上述实施例可以看出，本发明实施例提供的超参数自适应调整装置，通过根据现有超参数确定最优超参数和采样方差；基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；由所有超参数形成超参数组合，并基于超参数组合训练模型以获得超参数组合后验概率；响应于超参数组合后验概率小于预定概率，而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤；响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出超参数组合并中止调整的技术方案，能够以较低的资源占用和耗时来自动执行超参数自适应调整，降低实施方法的计算时间和空间复杂度。

需要特别指出的是，上述超参数自适应调整装置的实施例采用了所述超参数自适应调整方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述超参数自适应调整方法的其他实施例中。当然，由于所述超参数自适应调整方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述超参数自适应调整装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和 /或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种超参数自适应调整方法，其特征在于，包括执行以下步骤：

根据现有超参数确定最优超参数和采样方差；

基于所述最优超参数和所述采样方差连续采集多个新超参数并基于所述多个新超参数训练模型以获得多个超参数后验概率，直到超参数的总数量超过预定数量；

由所有超参数形成超参数组合，并基于所述超参数组合训练模型以获得超参数组合后验概率；

响应于所述超参数组合后验概率小于预定概率，而从所述超参数组合中删除所述超参数后验概率更低的超参数并返回第一步骤；

响应于执行上一步骤达到第一预定次数并且所述超参数组合在执行上一步骤时保持稳定达到第二预定次数，而输出所述超参数组合并中止调整。

2.根据权利要求1所述的方法，其特征在于，根据现有超参数确定所述最优超参数和所述采样方差包括：

根据现有超参数计算超参数均值和超参数方差；

将现有超参数中所述超参数后验概率最大的超参数确定为所述最优超参数；

根据现有超参数的所述超参数均值、所述最优超参数、所述超参数方差、和超参数的上下界确定所述采样方差。

3.根据权利要求1所述的方法，其特征在于，基于所述最优超参数和所述采样方差采集多个新超参数包括：

以所述最优超参数为期望、所述采样方差为方差生成正态分布；

在所述正态分布中采集多个新样本；

使用超参数定义将所述多个新样本正则化，获得多个新超参数。

4.根据权利要求1所述的方法，其特征在于，基于所述超参数组合训练模型以获得所述超参数组合后验概率包括：

对所述超参数组合进行前向计算获得损失函数组合，并根据所述损失函数组合和所述多个超参数后验概率确定所述超参数组合当前概率；

使用预定的负定矩阵、线性加权向量、和相关性矩阵处理所述多个超参数后验概率获得所述超参数组合状态转移概率；

根据所述超参数组合当前概率和所述超参数组合状态转移概率确定所述超参数组合后验概率。

5.根据权利要求1所述的方法，其特征在于，所述超参数组合在执行上一步骤时保持稳定达到第二预定次数包括：

所述超参数组合在连续第二预定次数删除所述超参数后验概率更低的超参数时，都删除且仅删除采集的新超参数。

6.一种超参数自适应调整装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行以下步骤：

根据现有超参数确定最优超参数和采样方差；

7.根据权利要求6所述的装置，其特征在于，根据现有超参数确定所述最优超参数和所述采样方差包括：

根据现有超参数计算超参数均值和超参数方差；

8.根据权利要求6所述的装置，其特征在于，基于所述最优超参数和所述采样方差采集多个新超参数包括：

在所述正态分布中采集多个新样本；

9.根据权利要求6所述的装置，其特征在于，基于所述超参数组合训练模型以获得所述超参数组合后验概率包括：

10.根据权利要求6所述的装置，其特征在于，所述超参数组合在执行上一步骤时保持稳定达到第二预定次数包括：所述超参数组合在连续第二预定次数删除所述超参数后验概率更低的超参数时，都删除且仅删除采集的新超参数。