CN114114911B

CN114114911B - 一种基于模型强化学习的自动超参数调节方法

Info

Publication number: CN114114911B
Application number: CN202111339236.4A
Authority: CN
Inventors: 张伟楠; 赖行; 沈键
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2024-04-30
Anticipated expiration: 2041-11-12
Also published as: CN114114911A

Abstract

本发明公开了一种基于模型强化学习的自动超参数调节方法，涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程，再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态，比如模型误差，策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能，且可以省去调节超参数所花费的人工成本，可以被运用于自动控制等领域。

Description

一种基于模型强化学习的自动超参数调节方法

技术领域

本发明涉及强化学习方法领域，尤其涉及一种基于模型强化学习的自动超参数调节方法。

背景技术

强化学习包括无模型(model-free)的强化学习和基于模型(model-based)的强化学习。无模型的强化学习尽管有着较好的渐进性能，但往往需要较多和真实环境交互的数据，难以应用于现实世界。而基于模型的强化学习，通过学习一个模型，可以替代真实环境和策略进行交互，从而可以减少策略训练所需要的真实数据量，因此有着更好的应用前景。但由于基于模型的强化学习算法需要额外学习模型，且需要兼顾模型训练和策略训练的平衡，需要调节的超参数更多，对超参数的敏感程度也更高，超参数的调节变得更加困难。在以往的基于模型的强化学习的实验中，往往需要手动对不同超参数分别进行调节，这不但需要大量的算力，同时也耗费了大量的人力。且手动调节的超参数往往只能运用于单一的环境，无法很好地迁移到其他环境中，进一步增大了超参数调节的负担。

分析近期关于基于模型强化学习的专利技术：申请号为CN201610363756.1的中国发明专利申请《基于模型相关强化学习的仿真机器人步态控制方法》使用基于模型强化学习的方法来控制仿人机器人行走的步态。申请号为CN202010622636.5的中国发明专利申请《一种基于双向模型的强化学习方法》提出额外学习一个反向模型来减少正向模型误差带来的影响。上述方法均使用手动调节的超参数，需要耗费的算力，人力较多，且难以适应其他不同的环境。

分析近期关于基于模型强化学习方法研究：基于模型强化学习方法按照模型的使用方法大致可以分为四种。一、Dyna类方法，如Janner等在神经信息处理系统会议(Conference and Workshop on Neural Information Processing Systems)2019年第33届上发表的论文《何时信任模型：基于模型的策略优化》(When to Trust Your Model:Model-Based Policy Optimization)中提出的MBPO方法，使用模型生成的数据来补充真实数据，再使用无模型强化学习算法进行训练。二、模型反向传播梯度算法，如Clavera等在国际学习表征会议(International Conference on Learning Representations)上发表的论文《模型增强的演员-评论家算法：通过路径反向传播》(Model-Augmented Actor-Critic:Backpropagating through Paths)，通过模型反向传播目标函数的梯度来更新策略。三、“打靶”类算法，如Chua等在神经信息处理系统会议(Conference and Workshop onNeural Information Processing Systems)2018年第32届上发表的论文《使用概率动力学模型在少数试验中进行深度强化学习》(Deep Reinforcement Learning in a Handful ofTrials using Probabilistic Dynamics Models)中提出的PETS方法，直接通过模型搜索未来的动作。四、模型价值函数扩展算法，如Feinberg等在在机器学习国际会议(International Conference on Machine Learning)2018年第35届上发表的论文《用于高效无模型强化学习的基于模型的值扩展》(Model-Based Value Expansion for EfficientModel-Free Reinforcement Learning)中提出的MVE算法，通过模型将目标价值函数扩展若干步，以获得更准确的估计。上述提及的基于模型的方法的超参数均为手动调节，调参难度较大。

而对于基于模型强化学习自动参数调节方面的研究，Dong等在IEEE神经网络和学习系统期刊上发表的论文《基于动态模型的深度强化学习的智能训练器》(IntelligentTrainer for Dyna-Style Model-Based Deep Reinforcement Learning)提出了RoR方法来调节基于模型方法的超参数。但该方法需要能从真实环境的任一状态开始进行采样，这在现实世界中往往是无法实现的。而Baohe Zhang等在人工智能与统计国际会议(International Conference on Artificial Intelligence and Statistics)上提出了PBT算法，使用进化算法来控制基于模型方法的超参数。但该方法需要同时并行训练多个基于模型强化学习算法，算力要求较高，且性能上也并未达到理想水平。

因此，本领域的技术人员致力于开发一种基于模型强化学习的自动超参数调节方法，能够自动学习如何调整超参数，以实现最优的基于模型算法的性能。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是现有的基于模型强化学习方法大多数需要手动调整超参数，而仅有的自动调整超参数的方法也有着诸多限制，且存在着性能不够理想的问题。

为实现上述目的，本发明提供了一种基于模型强化学习的自动超参数调节方法，将基于模型强化学习的超参数调节过程建模为一个新的马尔科夫决策过程，再通过在这个马尔科夫决策过程中学习一个超参数控制器，以自动调节基于模型强化学习算法的超参数。

进一步地，所述新的马尔科夫决策过程的状态被定义为当前基于模型强化学习训练的信息，包括模型的误差、价值函数误差、状态转移误差、策略回报、以及当前使用的超参数的值。

进一步地，所述新的马尔科夫决策过程的动作被定义为对各种重要超参数的调整，包括对真实数据比例、模型训练频率、策略训练频率、虚拟轨迹长度的调整。

进一步地，所述新的马尔科夫决策过程的奖励被定义为调整后的基于模型强化学习算法相比使用原始超参数时性能的提升。

进一步地，所述超参数控制器使用无模型强化学习方法进行训练。

进一步地，包括如下步骤：

步骤1、初始化一个基于模型强化学习算法实例；

步骤2、开始使用初始的超参数训练基于模型强化学习算法；

步骤3、超参数控制器根据基于模型强化学习算法当前的训练信息，获得当前状态；

步骤4、超参数控制器根据上一步获得的状态采取动作，调整基于模型强化学习算法的超参数；

步骤5、基于模型强化学习算法使用调整过的超参数继续训练；

步骤6、超参数控制器将训练完成的基于模型强化学习算法性能的提升量作为奖励；

步骤7、根据上述步骤获得的状态、动作、奖励，使用无模型强化学习算法训练超参数控制器。

进一步地，使用无模型强化学习算法进行训练时，超参数控制器将基于模型强化学习算法训练的一个实例看作是一条轨迹。

进一步地，在初始化基于模型强化学习算法实例时，会将其数据、网络参数以及超参数全部初始化。

进一步地，当超参数控制器在一个任务上完成训练后可以被保存起来，之后被直接应用到其他相似任务上，而不需要重新进行训练。

进一步地，使用近端策略优化算法(PPO)来训练超参数控制器。

在本发明的较佳实施方式中，提出将超参数的调整过程建模为一个新的马尔科夫决策过程，再通过这个马尔科夫决策过程学习一个超参数控制器，以控制基于模型强化学习算法训练中的各个超参数。

使用(S、A、R)，分别表示新的马尔科夫决策过程中的(状态、动作、奖励)。其中。状态S理论上应包含基于模型算法当前训练的全部信息，包括所有的数据，网络参数，超参数。而所有的这些信息对于超参数控制器来说过多，无法同时处理。为此提出选取对于超参数控制器作决策重要的那部分训练信息，即模型训练误差、价值函数训练误差、策略转移误差、当前策略回报奖励、以及当前使用的超参数的值。通过实践证明，使用这些信息已经可以使得超参数控制器对超参数做出较好的调整。

而动作A则为对于重要超参数的调整，包括训练策略所用的数据中真实数据所占的比例、模型训练频率、策略训练频率、生成虚拟轨迹的程度。而对于超参数的调整方法则有两种方案可供选择，即直接选择下一阶段使用的超参数的值，或者在目前使用的超参数的基础上进行调整，比如加减一定的值。经过实践检测，使用在目前超参数的基础上进行调整的方案可以使得超参数控制器的学习更加稳定。

而奖励R的定义对于超参数控制器的训练也非常重要。由于目标是使得基于模型算法性能尽可能提升，所以选取经过调整超参数之后的基于模型算法相比使用原始参数时的提升量作为奖励。这样超参数控制器在最大化奖励的同时就可以最大化性能提升量。

完成了新的马尔科夫决策过程的定义，如何训练超参数控制器是需要解决的另一个问题。对此可以选择任意的无模型强化学习算法来训练超参数控制器。通过比较，发现使用近端策略优化算法(PPO)进行训练会更加稳定，且性能更好。

总的来说，如图1所示，本发明的方法主要有外层和内层两个循环：

外层循环为超参数控制器的训练过程，即初始化一个基于模型强化学习实例，根据当前的训练状态S选择动作A，调整内层循环的超参数，并根据内层循环算法的表现获得奖励R，再使用(S、A、R)训练超参数控制器。

内层循环为正常的基于模型强化学习算法的训练过程。即不断地和真实环境交互，得到真实数据，并将其添加到真实数据集合中。再通过真实数据训练模型。之后使用模型生成一定长度的虚拟轨迹，并将生成的数据放入虚拟数据集合中。最后再以一定比例的真实数据和虚拟数据训练策略。

本发明与现有技术相比较，具有如下显而易见的实质性特点和显著优点：

1.本发明提出的自动超参数调节方法可以应用于各种现有的基于模型强化学习方法。

2.本发明提出的方法框架有很强的自由度和扩展性，例如，超参数控制器可以调节任意的超参数，超参数的学习方法也可以选择各种无模型强化学习算法，而奖励R也可以更自由地定义，比如可以替换为相比上一次调节超参数后的提升量。

3.实践证明，使用本方法提出的超参数调节方法调节的基于模型强化算法相比于使用原始手动设置的超参数有着较大的性能提升，并且也超过了其他自动超参数调节方法，比如RoR和PBT。

4.实践证明，在一个任务上训练的超参数控制器还可以保存下来，直接应用于其他相似的任务，节省了重新训练超参数控制器的成本。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的基于模型强化学习的自动超参数调节方法示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

本发明提出了一种对于基于模型强化学习算法的自动超参数调节方法。基于模型的强化学习一般通过和真实环境交互获得的数据学习一个模型，再使用模型来帮助训练策略。相比无模型的强化学习，基于模型的强化学习需要额外学习模型，因此需要调节的超参数更多，对超参数的敏感程度也更高，超参数的调节因此变得更加困难。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程，再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态，比如模型误差，策略回报奖励等等来自动选择动作以调节相应的超参数。实践证明，通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能，且可以省去调节超参数所花费的人工成本，可以被运用于自动控制等领域。

本实施例主要用于解决OpenAI的开源库Gym中的Mujoco以及PyBullet机器人控制问题。具体地，任务的状态是机器人各部位的位置和速度，动作是施加在各部位上的力，目标是保证机器人不摔倒的前提下使得机器人前进的距离尽可能地长，同时使得用于控制的力尽可能地小。选用目前最先进的基于模型强化学习算法MBPO作为代表样例，即使用本发明提出的自动超参数调节方法调节MBPO算法的超参数。具体地，在本实施例中具体化了如下细节：

1、对于超参数控制器，使用两层的神经网络对其策略进行建模。

2、对于调整的超参数，选择了4个重要的超参数：训练策略时的真实数据占总数据的比例，模型训练频率，策略训练频率，模型生成的虚拟轨迹的长度。

3、对于超参数控制器调整超参数的方法，即动作空间的选择，对于真实数据的比例，选择乘或除以一个大于1的常数c，而对于剩下的三个超参数，选择加减1。

4、对于超参数控制器训练方法，选择裁剪(clip)版本的近端策略优化算法(PPO)。

5、为了缩短超参数控制器训练所花费的时间和算力成本，在训练超参数控制器时只会运行内循环即基于模型强化学习算法大约三分之一到二分之一的训练过程，而在评估测试时则会运行整个训练过程。

添加了以上细节之后，本发明的方法可以归结为以下的步骤：

1、对于每一次外层循环，初始化一个MBPO算法的实例，包括初始化所有网络参数和超参数，清空真实数据集合和虚拟数据集合。之后开始内层循环，即常规MBPO算法的训练过程。

2、对于每一个内层循环训练MBPO的每个回合(episode)：

(1)MBPO使用当前策略和真实环境交互，并将搜集到的数据存放入真实数据集合中。

(2)使用所有的真实数据，以一定频率训练模型。

(3)使用上一步训练得到的模型，从真实数据中随机选择一些状态作为起点，生成一定长度的虚拟轨迹，并将生成的数据存放入虚拟数据集合中。

(4)使用一定比例的真实数据和虚拟数据，以一定频率训练策略。

(5)获取当前MBPO训练的状态S，超参数控制器选择动作A，以调整训练策略时的真实数据占总数据的比例，模型训练频率，策略训练频率，模型生成的虚拟轨迹的长度，并根据当前回合MBPO的回报奖励相比使用原始人工选择参数的MBPO的提升量获得奖励R。

3、在内层循环结束后，通过获得的(S、A、R)数据使用近端策略优化算法(PPO)训练超参数控制器。

上述实施例在Mujoco以及PyBullet机器人连续控制问题上的表现均要优于使用原始人工设置超参数的MBPO算法，以及使用RoR、PBT两种方法调节超参数的MBPO算法，具体表现为采样效率更高，即真实数据数量相同时的表现更好，且在算法收敛之后，即真实数据充足时的表现也更优秀。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于模型强化学习的自动超参数调节方法，其特征在于，将基于模型强化学习的超参数调节过程建模为一个新的马尔科夫决策过程，再通过在这个马尔科夫决策过程中学习一个超参数控制器，以自动调节基于模型强化学习算法的超参数；

包括以下步骤：

步骤1、对于每一次外层循环，初始化一个基于模型强化学习算法的实例，包括初始化所有网络参数和超参数，清空真实数据集合和虚拟数据集合；之后开始内层循环，即常规基于模型强化学习算法的训练过程；

步骤2、对于每一个内层循环训练基于模型强化学习算法的每个回合：

(1)基于模型强化学习算法使用当前策略和真实环境交互，并将搜集到的数据存放入真实数据集合中；

(2)使用所有的真实数据，以一定频率训练模型；

(3)使用上一步训练得到的模型，从真实数据中随机选择一些状态作为起点，生成一定长度的虚拟轨迹，并将生成的数据存放入虚拟数据集合中；

(4)使用一定比例的真实数据和虚拟数据，以一定频率训练策略；

(5)获取当前基于模型强化学习算法训练的状态S，超参数控制器选择动作A，以调整训练策略时的真实数据占总数据的比例，模型训练频率，策略训练频率，模型生成的虚拟轨迹的长度，并根据当前回合基于模型强化学习算法的回报奖励相比使用原始人工选择参数的基于模型强化学习算法的提升量获得奖励R；

步骤3、在内层循环结束后，通过获得的(S、A、R)数据使用近端策略优化算法训练超参数控制器。

2.如权利要求1所述的基于模型强化学习的自动超参数调节方法，其特征在于，所述新的马尔科夫决策过程的状态被定义为当前基于模型强化学习训练的信息，包括模型的误差、价值函数误差、状态转移误差、策略回报、以及当前使用的超参数的值。

3.如权利要求1所述的基于模型强化学习的自动超参数调节方法，其特征在于，所述新的马尔科夫决策过程的动作被定义为对各种重要超参数的调整，包括对真实数据比例、模型训练频率、策略训练频率、虚拟轨迹长度的调整。

4.如权利要求1所述的基于模型强化学习的自动超参数调节方法，其特征在于，所述新的马尔科夫决策过程的奖励被定义为调整后的基于模型强化学习算法相比使用原始超参数时性能的提升。

5.如权利要求1所述的基于模型强化学习的自动超参数调节方法，其特征在于，所述超参数控制器使用无模型强化学习方法进行训练。

6.如权利要求1所述的基于模型强化学习的自动超参数调节方法，其特征在于，包括如下步骤：

步骤1、初始化一个基于模型强化学习算法实例；

步骤2、开始使用初始的超参数训练基于模型强化学习算法；

7.如权利要求6所述的基于模型强化学习的自动超参数调节方法，其特征在于，使用无模型强化学习算法进行训练时，超参数控制器将基于模型强化学习算法训练的一个实例看作是一条轨迹。

8.如权利要求6所述的基于模型强化学习的自动超参数调节方法，其特征在于，在初始化基于模型强化学习算法实例时，会将其数据、网络参数以及超参数全部初始化。

9.如权利要求6所述的基于模型强化学习的自动超参数调节方法，其特征在于，当超参数控制器在一个任务上完成训练后可以被保存起来，之后被直接应用到其他相似任务上，而不需要重新进行训练。

10.如权利要求6所述的基于模型强化学习的自动超参数调节方法，其特征在于，使用近端策略优化算法PPO来训练超参数控制器。