CN111178486A

CN111178486A - 一种基于种群演化的超参数异步并行搜索方法

Info

Publication number: CN111178486A
Application number: CN201911177506.9A
Authority: CN
Inventors: 蒋云良; 邬惠峰; 赵康; 曹军杰; 刘勇
Original assignee: Huzhou University
Current assignee: Huzhou University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-05-19
Anticipated expiration: 2039-11-27
Also published as: CN111178486B

Abstract

本发明提出了一种基于种群演化的超参数异步并行搜索方法，利用函数从种群的性能优的群体中选择一个成员复制权重和超参数，探索函数进行超参数扰动，并复制给新建成员作为初始超参数.终止性能差的成员，如此循环下去，直至找到性能最优的超参数配置，该超参数异步并行搜索算法融合异步并行计算和顺序优化的优点，运用遗传算法思想中的利用与探索进行超参数搜索，有效的减少了超参数搜索的时间和计算复杂度。在深度学习的超参数搜索方面，比传统的超参数搜索的性能有很大的提高，有一定的有效性和稳定性。

Description

一种基于种群演化的超参数异步并行搜索方法

【技术领域】

本发明涉及超参数搜索算法的技术领域，特别是一种基于种群演化的超参数异步并行搜索方法。

【背景技术】

深度学习已经成为当下较热门的机器学习模式，其主要是通过多层的神经网络(Neural networks)训练以使其达到期望的学习效果。其动机是在于建立、模拟人脑进行分析学习的神经网络，例如图像和语音识别等。深度学习已经成为当下较热门的机器学习模式，其主要是通过多层的神经网络(Neural networks)训练以使其达到期望的学习效果。其动机是在于建立、模拟人脑进行分析学习的神经网络，例如图像和语音识别等。深度学习的概念由Hinton等人于2006年提出的，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。强化学习，又称再励学习，评价学习，是机器学习中一种重要的学习方法，也被认为是属于马尔科夫决策过程(Markov decisionprocess，MDP)和动态优化方法的一个独立分支。强化学习是智能体(Agent)以"试错"的方式进行学习，通过与环境进行交互获得的奖励指导行为，目标是使智能体获得最大的奖励，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。随着人工智能的发展，强化学习不再局限于动作空间和状态空间很小的离散环境，特别是深度强化学习是更复杂的更接近现实的连续的环境。由于深度学习的训练模型成本在不断增加，故找到一个较优的超参数模型非常必要。

神经网络在机器学习领域有着显著的进展，已经成为许多深度学习尤其是深度强化学习中非线性问题的一种逼近器。一个特定的神经网络的性能，不仅依赖于模型的结构，而且训练的数据以及模型参数优化的细节也是非常重要。模型框架的每一部分都是由许多参数控制，影响模型的性能，只有通过适当的参数优化，才能充分体现模型框架的性能。在模型优化的过程中，随着算法需要更多的参数控制，参数搜索过程会变的越来越复杂。特别在深度学习和强化学习领域，一个较差超参数配置的训练结果可能会很差，甚至是没有结果，而一个较优的超参数配置不仅能省去大量的训练时间且可以得到一个预期的结果。因此找到一个性能佳的超参数优化算法至关重要。

超参数调优有两种常见的方法:并行搜索和顺序优化。并行搜索方法执行多个并行优化过程，每个过程都有不同的超参数，其目的是从其中一个优化过程中找到单个最佳输出。顺序优化方法从早期的训练中获得的信息来逐步执行超参数优化，以向后续的训练提供经验信息。顺序优化通常会提供最佳的解决方案，但是多次顺序优化训练会耗费非常大的时间资源。

【发明内容】

本发明的目的就是解决现有技术中深度强化学习超参数搜索时间的较长和很难找到较优的超参数配置问题，提出一种基于种群演化的超参数异步并行搜索方法，能够减少使用的计算资源，找到更好的超参数，提高算法的性能。

为实现上述目的，本发明提出了一种基于种群演化的超参数异步并行搜索方法，包括以下步骤：

步骤S1.确定最大化目标函数：定义一个评估函数eval()，使用模型的当前状态来评估目标函数，找到最大化目标函数的最佳参数集：

其中Φ是可训练参数θ的集合；

步骤S2.优化参数θ：以迭代函数的方式优化参数θ，通过迭代优化过程，进行更新模型的参数，并且会受到其自身超参数h∈Η的约束，其中H为参数搜索空间，参数更新步骤的迭代为：

θ＝step(θ|h) (2)

通过把评估函数和迭代函数连接起来以形成一系列更新，理想地收敛到最优解为：

步骤S3.优化超参数h：搜索多个超参数h

公式(4)对应种群中超参数的一次搜索选择，在种群Ρ中训练N个的模型

通过不同的超参数

进行优化，找到整个种群Ρ中的较优模型h。

作为优选，所述步骤S3中用以找到整个种群Ρ中的较优模型h，所采用的算法包括以下步骤：

步骤S3.1参数初始化：超参数h,性能p,当前运行时间t,参数θ，种群Ρ(h集合H),重建成员数量nt,最大运行时间max_t，评估函数eval()，选择算子α，其中α包含两个值A,B，性能优的h和p集合Ω；

步骤S3.2并行启动种群Ρ中所有的训练模型，判断训练成员是否达到最大运行时间max_t，当t＜max_t时，训练模型获取对应的参数θ＝step(θ|h_i)，评估参数性能p_i＝eval(θ)；

步骤S3.3如果步骤S3.2评估参数集合Ω没有达到两个，把对应的参数h_i和性能p_i加到Ω中；如果步骤S3.2评估参数集合Ω多于两个，进行步骤S3.4，并把新的参数h_i和性能p_i添加到Ω；

步骤S3.4如果评估性能p_i小于Ω中的所有值，利用选择因子随机选择一个值α＝random(A,B)，进行步骤S3.5；否则停止并移除此性能差的参数模型h_i，即种群成员，启动新训练参数模型h_i，添加到种群Ρ中；

步骤S3.5如果α＝A，从Ω中随机选取一个参数配置h'_i(h'_i∈Ω)，对其添加扰动：h'_i＝h'_i+β，作为新的训练参数，其中β为扰动因子；否则从种群中Ρ重新初始化一个新训练参数h_i；

步骤S3.6更新种群Ρ中成员(h,p,θ,t+1)，返回种群P中性能p最优的参数模型，即超参数h。

作为优选，所述步骤S1中忽略除了参数θ的所有影响训练的因素，只将评估函数定义为可训练参数θ的函数，评估函数不需要是可微的，也不需要与优化步骤中用于计算迭代更新的函数相同。

作为优选，所述步骤S1中的模型为神经网络模型。

本发明的有益效果：本发明的提出了一种适应于深度学习的超参数搜索算法，即基于种群演化的超参数异步并行搜索(PEHS算法)，该算法融合异步并行计算和顺序优化的优点，运用遗传算法思想中的利用与探索进行超参数搜索，有效的减少了超参数搜索的时间和计算复杂度。在深度学习的超参数搜索方面，比传统的超参数搜索的性能有很大的提高，有一定的有效性和稳定性。

本发明的特征及优点将通过实施例结合附图进行详细说明。

【附图说明】

图1是Ray分布式训练平台计算框架；

图2是docker和虚拟机构架图，在docker中，所有的容器都是由一个操作系统内核运行，虚拟机是由各自的操作系统内核运行，故选自轻量级的docker；

图3是PEHS，Hyperband，AsyHyperband，Random四种超参数搜索算法最优实验精确度折线图；

图4是PEHS，Hyperband，AsyHyperband，Random四种超参数搜索算法达到最大训练精度的平均迭代次数折线图；

图5是PEHS，Hyperband，AsyHyperband，Random四种超参数搜索算法最优实验平均奖励折线图；

图6是PEHS，Hyperband，AsyHyperband，Random四种超参数搜索算法训练有效样本平均奖励的平均值的折线图；

图7是PEHS算法分别在4个，8个和12个节点上运行HumanoidBulletEnv-0环境的强化学习实验的最优平均奖励折线图；

图8是PEHS算法分别在4个，8个和12个节点上运行HumanoidBulletEnv-0环境的强化学习实验有效样本平均奖励的平均奖励折线图。

【具体实施方式】

1.PEHS算法构建过程

机器学习中最常见的公式是优化模型f的参数θ以最大化给定的目标函数Q^*(例如分类、重建或预测)。可训练的参数θ一般是通过优化程序进行更新，例如随机梯度下降。然而深度学习和强化学习关注的是实际性能指标Q，与Q^*不同(Jaderberg M,Dalibard V,Osindero S,et al.Population Based Training of Neural Networks.arXiv:1711.098462017.)。例如，Q可能是验证集的准确性，或者强化学习中的环境奖励)。PEHS的主要目的是提供一种实际指标Q上同时优化参数θ和超参数h的方法。

首先定义一个评估函数eval()，使用模型的当前状态来评估目标函数。为了简单起见，忽略除了参数θ的所有影响训练的因素，只将评估函数定义为可训练参数θ的函数。评估函数不需要是可微的，也不需要与优化步骤中用于计算迭代更新的函数相同(它们可能是相关的)。找到最大化目标函数的最佳参数集的过程是：

其中Φ是可训练参数θ的集合。

当模型是一个神经网络时，通常以迭代(函数)的方式优化参数θ，例如在目标函数上使用随机梯度下降。通过迭代优化过程，进行更新模型的参数，并且还会受到其自身超参数h∈Η(H参数搜索空间)的约束。参数更新步骤的迭代为：

θ＝step(θ|h) (2)

通过把评估函数和迭代函数连接起来以形成一系列更新，理想地收敛到最优解如公式(3)

因为在每步迭代训练中得到参数θ'的计算成本代价很高，步骤数量T比较大，所以优化θ的过程可能需要几天、几周甚至几个月。另外，超参数优化算法对超参数

的选择非常敏感，选择错误超参数可能导致错误的解决方案，甚至导致失败的θ收敛。选择正确超参数需要对h有很强的先验知识才可能被发现(通常需要不同h的进行多个优化训练过程)。然而h与迭代步骤的依赖性，可能值的个数随时间呈指数增长。通常的做法是(1)让所有h_t相等(例如整个训练保持恒定的学习速度)，(2)预先制定一个简单的计划(例如，annealing的学习速度)。这两种情况都需要搜索多个超参数h

公式(4)对应种群中超参数的一次搜索选择。因此考虑在种群Ρ中训练N个的模型

通过不同的超参数

进行优化，目标是找到整个种群Ρ中的较优模型h。

2.PEHS算法的实现

为了实现找到较优的模型h，PEHS算法对群体中每一个成员(即每个训练样本)使用两种独立调用的方法：(1)利用函数(exploit)，考虑到整个群体的表现(训练性能)，可以决定成员是否应该放弃当前的解决方案(参数和超参数)，而将注意力集中在更有前途的成员上；(2)探索函数(explore)，考虑到当前的解决方案，提出新的解决方案以更好地探索解决方案空间(参数空间).

算法1:基于种群演化的超参数异步并行搜索(PEHS)

对群体中的每个成员进行异步并行训练，通过调用迭代函数来更新成员的权重θ，评估函数来度量成员的当前性能。当群体中的一个成员被视为准备就绪(例如，通过对最少的步骤进行优化或达到某个性能阈值)，其权重和超参数将通过利用函数和探索函数进行更新。例如，利用函数可以将当前权重替换为在种群中同步长的具有最高记录性能的模型参数，探索函数可以随机地用噪声干扰超参数。在利用和探索之后，停止性能差的成员，重新生成一个新的成员，其余成员迭代训练像以前一样继续进行。这种局部迭代训练和运用种群进行利用和探索的循环，直到模型收敛。

算法1详细地描述了PEHS具体的流程。利用函数和探索函数的具体形式取决于应用程序。PEHS算法着重于优化神经网络，深度强化学习等超参数优化模型。在这些模型中，step()是梯度下降优化，评估函数是要优化的度量的指标或验证集性能，利用函数从种群的性能优的群体中选择一个成员复制权重和超参数，探索函数进行超参数扰动，并复制给新建成员作为初始超参数。终止性能差的成员，如此循环下去，直至找到性能最优的超参数配置。

通过执行多个梯度下降优化的迭代函数，利用群体的权重，其次是扰动超参数的探索，PEHS算法不仅对当前的成员进行梯度下降优化，而且周期的进行模型选择和超参数细化。PEHS算法一个重要特性是它是异步并行的，不需要一个集中的过程来协调种群成员的训练，更适合在分布式集群上进行计算。

3.实验分析

本实验主要用到Ray并行分布式框架和docker容器技术作为实验平台，通过深度学习，深度强化学习和分布式框架性能三个方面实验对PEHS算法进行分析。

Ray(Philipp Moritz*,Nishihara R,*Stephanie Wang,et al.Ray:ADistributed Framework for Emerging AI Applications.In:Proceedings of 13thUSENIX Symposium on Operating Systems Design and Implementation.Carlsbad,CA:USENIX,2018,561--577)

3.1实验平台

分布式框架对实验的性能有着至关重要的作用，考虑到实验分析采用的深度学习和深度强化学习训练需要频繁的参数收集和重新分配，故采用了一种为深度强化学习而设计的高性能并行分布式训练平台--Ray.Ray不同用传统的分布式计算框架，具有更深入的任务抽象能力，故更适合分布式训练算法的学习和计算.另外平台集成了gym，tensorflow，tune，rllib等常用的机器学习相关工具集，使平台功能更加健全。实验平台是在CPU集群上运行的，具体的硬件设备及配置信息如表1所示。

表1 CPU实验平台硬件及系统配置说明

3.2实验分析

本实验通过Hyperband，AsyHyperband，Random三种优化算法和PEHS算法进行对比，分析PEHS算法性能。

Hyperband算法：2016年Li L等为解决连续减半算法的资源配置问题，提出的一种新的超参数优化算法Hyperband(ANovel Bandit-BasedApproach to HyperparameterOptimization)，(Li L,Jamieson K,Desalvo G,et al.Hyperband:A Novel Bandit-BasedApproach to Hyperparameter Optimization.Journal of Machine LearningResearch,2016,18:1-52)

AsyHyperband算法：2018年Liam Li等提出的一种异步的Hyperband超参数搜索算法AsyHyperband，(Li L,Jamieson K,Rostamizadeh A,et al.Massively ParallelHyperparameter Tuning.arXiv:1810.05934,2018.)

3.2.1深度学习实验分析

本深度学习实验采用的一个两层的卷积神经网络架构(CNN)进行图像识别训练，数据集是mnist数据，超参数空间如表2所示。实验用到了集群上5个节点，每个节点25个CPU核心，其中PEHS初始采样10次，即每个样本训练得12个CPU(因使用CPU个数不能为小数，故剩余5个没有使用)，重新采样20次(即中间停止较差训练样本20次)；AsyHyperband和Hyperband初始采样20次，每个训练样本得12个CPU，其中部分实验样本需等待前边样本训练结束后开始训练；Random采样10次，每个训练样本得12个CPU.实验的停止条件式训练精度达到0.95。

表2 CNN实验超参数及取值范围

根据实验结果进行两个方面进行实验分析：(1)选取四种算法最先达到最大精确度的训练样本结果；(2)达到最大精确度的平均迭代次数。两种情况进行实验结果数据分析。由(1)的四种算法最小迭代次数达到最大精确度的训练样本精度折线图(图3)可知：AsyHyperband和Random同时达到最大精度，但Random的稳定性较差；Hyperband的训练时间最长，但其稳定性高于Random；说明PEHS优化算法训练速度最快且较稳定。由(2)四种算法达到最大精确度的平均迭代次数柱状图(图4)可知，PEHS的平均迭代次数最小，性能最优，AsyHyperband次之，Random最差。通过深度学习的实验结果分析可知，PEHS算法在深度学习超参数搜索上相对于AsyHyperband，Hyperband和Random三种算法，不仅搜索方面性能较好，且能在更短的时间内找到性能较好的超参数模型。

3.2.2深度强化学习实验

本深度强化学习实验的环境选取gym中的pendulum仿真环境，策咯选取OpenAl中默认的强化学习策略算法PPO(Proximal Policy Optimization)算法，超参数搜索空间如表3所示。实验用到的节点数和训练样本数同深度学习实验。实验停止条件迭代600次。

PPO算法(Schulman J,Moritz P,Levine S,et al.High-DimensionalContinuous Control Using Generalized Advantage Estimation.arXiv:1506.02438,2015.)

表3强化学习实验超参数及取值范围

其中，GAE(Schulman J,Wolski F,Dhariwal P,et al.Proximal PolicyOptimization Algorithms.arXiv:1707.06347,2017.)根据强化学习实验结果进行两个方面进行实验分析：(1)选取四种算法中平均奖励最大的训练模型；(2)四种算法中有效样本平均奖励的平均。两种情况进行实验结果数据分析，(1)的四种算法最优训练样本平均奖励折线图，如图5所示，由于在试验80次后四种算法最优实验平均奖励值几乎收敛，波动范围较小，故此实验选取了前80次的迭代次数进行实验分析并绘图。AsyHyperband和Random的较平稳，但是收敛较慢，Hyperband性能最差，PEHS算法性能最优，且收敛最快。(2)选取四种算法中所有样本都达到最大迭代数600次的样本，画出这些样本的平均奖励的平均值的折线图，如图6所示，有图分析可知Random的波动较大，且收敛较慢，AsyHyperband，Hyperband性能次之，PEHS的平均收敛速度最快，且稳定。通过次实验分析可知PEHS算法在强化学习超参数搜索上的稳定性最好且算法的性能较优越。

3.2.3分布式实验

本分布式实验主要通过算法在不同的节点数上进行不同采样数量的强化学习训练，判断并行数量对实验性能的影响。强化学习采用的环境是pybullet中的HumanoidBulletEnv-0仿真环境，策略选取OpenAl默认的强化学习策略算法PPO(ProximalPolicy Optimization)算法，超参数搜索空间如表4所示。由于实验硬件限制，故分别在4个，8个，12个节点上进行实验。4个节点上采样4次，最大重采用数量20次，每个样本用21个CPU；8个节点上采样8次，最大重采用数量40次，每个样本用21个CPU；12个节点上采样12次，最大重采用数量80次，每个样本用21个CPU。实验的停止条件迭代1000次。

表4分布式实验强化学习实验超参数及取值范围

根据运行的不同节点数量的实验结果进行两个方面进行实验分析：(1)选取三种节点数实验中平均奖励最高的训练模型；(2)三种节点数实验中所有有效样本平均奖励的平均。两种情况进行实验结果数据分析，(1)PEHS的三种节点数实验最优训练样本平均奖励折线图，如图7所示，PEHS搜索算法的性能整体较为平稳，随着节点数量的增加，性能也在逐步提升。(2)选取三种节点数实验中的有效实验样本结果，画出所有有效样本平均奖励的平均值的折线图，如图8所示，可知节点数越多算法的整体平均奖励越高，说明随着节点数增多，采样量越大，找到最优参数模型的的几率就越大。通过分布式实验可知PEHS在分布式实验上的性能更佳。

本发明根据深度学习尤其是深度强化学习超参数在传统超参数搜索的耗时较长、计算复杂等问题，提出了一种适应于深度学习的超参数搜索算法——基于种群演化的超参数异步并行搜索(PEHS)。该算法融合异步并行计算和顺序优化的优点，运用遗传算法思想中的利用与探索进行超参数搜索，有效的减少了超参数搜索的时间和计算复杂度。另外PEHS算法结合Ray并行分布式实验平台，不仅提高了算法的并行性，也使PEHS算法的性能得到充分的展示。通过实验分析可知PEHS算法在深度学习的超参数搜索方面，比传统的超参数搜索的性能有很大的提高，有一定的有效性和稳定性。

上述实施例是对本发明的说明，不是对本发明的限定，任何对本发明简单变换后的方案均属于本发明的保护范围。

Claims

1.一种基于种群演化的超参数异步并行搜索方法，其特征在于：包括以下步骤：

其中Φ是可训练参数θ的集合；

θ＝step(θ|h) (2)

步骤S3.优化超参数h：搜索多个超参数h

通过不同的超参数

进行优化，找到整个种群Ρ中的较优模型h。

2.如权利要求1所述的一种基于种群演化的超参数异步并行搜索方法，其特征在于：所述步骤S3中用以找到整个种群Ρ中的较优模型h，所采用的算法包括以下步骤：

步骤S3.5如果α＝A，从Ω中随机选取一个参数配置h′_i(h′_i∈Ω)，对其添加扰动：h′_i＝h′_i+β，作为新的训练参数，其中β为扰动因子；否则从种群中Ρ重新初始化一个新训练参数h_i；

3.如权利要求1所述的一种基于种群演化的超参数异步并行搜索方法，其特征在于：所述步骤S1中忽略除了参数θ的所有影响训练的因素，只将评估函数定义为可训练参数θ的函数，评估函数不需要是可微的，也不需要与优化步骤中用于计算迭代更新的函数相同。

4.如权利要求1所述的一种基于种群演化的超参数异步并行搜索方法，其特征在于：所述步骤S1中的模型为神经网络模型。