CN112297012B

CN112297012B - 一种基于自适应模型的机器人强化学习方法

Info

Publication number: CN112297012B
Application number: CN202011191173.8A
Authority: CN
Inventors: 张伟楠; 沈键; 赵晗
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-31
Anticipated expiration: 2040-10-30
Also published as: CN112297012A

Abstract

本发明提出了一种基于自适应模型的机器人强化学习方法，在正常学习一个环境模型的同时，加入模型自适应的步骤，从而可以达到提升虚拟数据准确性的效果。具体来说，当模型是一个神经网络结构，模型自适应通过减小真实数据和虚拟数据在网络隐藏层的特征分布，从而来提升模型在虚拟数据上的准确性。实验证明，在机器人控制等领域，我们的方法相比于之前的基于模型的强化学习方法有着更高的采样效率以及最终性能。

Description

一种基于自适应模型的机器人强化学习方法

技术领域

本发明涉人工智能领域，特别涉及一种机器人强化学习方法。

背景技术

在机器人控制领域，我们定义状态是机器人各部位的位置和速度，动作是施加在各部位上的力，目标要保证机器人不摔倒的前提下使得机器人前进的距离尽可能地长，同时使得用于控制的力尽可能地小，使用强化学习方法完成以上任务。

强化学习按照是否对环境进行建模可以分为无模型(model-free)的强化学习和基于模型(model-based)的强化学习。其中，无模型的强化学习使用在真实环境中采样得到的(状态、动作、下一动作、奖励)元组数据直接训练一个策略或者价值函数，而基于模型的强化学习方法使用从真实环境中采样得到的样本来学习一个环境模型，然后利用该模型生成一些虚拟数据，然后这些虚拟数据可以和真实数据一起来训练策略，从而加速策略学习。尽管无模型的强化学习在很多任务上都取得了非常不错的效果，但它往往需要与环境进行大量交互，然而在真实世界中获得这么多的数据比较不切实际，这使得无模型强化学习在一些真实场景下无法发挥作用。相对来说，基于模型的强化学习则可以使用模型生成的虚拟数据来补充真实数据，从而对真实数据的要求比较少，也就是具有更高的采样效率。但由于环境模型训练所用的真实数据分布和它生成的虚拟数据分布不一致，导致生成的虚拟数据不一定完全准确。因此根据这些质量不高的虚拟数据训练得到的策略性能往往落后于无模型的算法。

(一)分析近期关于基于模型强化学习的专利技术：

申请号为CN201610171859.8的中国发明专利申请《一种基于模型学习的清洁机器人最优目标路径规划方法》将基于模型强化学习的方法应用于清洁机器人的路径规划方法。但该方法并没有显式考虑真实数据和虚拟数据分布不一致带来的虚拟数据不够准确的问题。

(二)分析近期关于基于模型强化学习方法提升虚拟数据质量的研究：

许多之前的工作都致力于从不同角度来提升基于模型的强化学习方法中的虚拟数据的质量，从而提升基于模型方法的效果。Wu等人在论文《针对基于模型强化学习的模型模仿》(Model Imitation for Model-based Reinforcement Learning)中提出使用对抗模仿学习的方法来学习模型，使得相对于用最大似然估计方法学习的模型，该方法生成的虚拟轨迹更像是真实轨迹。另一方面，Buckman等人在神经信息处理系统会议(Conferenceand Workshop on Neural Information Processing Systems)2018年第32届上发表的论文《使用随机集成值扩展的样本高效强化学习》(Sample-Efficient ReinforcementLearning with Stochastic Ensemble Value Expansion)中使用不确定性来对不同的虚拟轨迹长度进行组合。除此之外，Janner等人在神经信息处理系统会议(Conference andWorkshop on Neural Information Processing Systems)2019年第33届上发表的论文《何时信任模型：基于模型的策略优化》(When to Trust Your Model:Model-Based PolicyOptimization)中尝试通过从真实环境中采样得到的状态开始生成比较短的虚拟轨迹，即在虚拟数据变得更加不准确前停止继续生成，保证虚拟数据的质量。

但总体来看，这些研究虽然可以从一定程度上减弱真实数据和虚拟数据分布不一致的问题，但该问题仍然存在。

发明内容

鉴于现有的基于模型的强化学习方法在提升虚拟数据质量上面存在的局限性，本发明提出了一种基于自适应模型的机器人强化学习方法，通过引入模型自适应模块，达到模型能够泛化到虚拟数据的效果，从而提升策略优化的性能。

为此，我们提出在通常的模型训练步骤以外加入模型自适应步骤，该想法主要受到领域自适应的启发。为了解决领域自适应中数据分布偏移的问题，一种有效的方法便是学习具有不变性质的特征。

方法将在以下几个步骤不断进行迭代，直至收敛：

步骤1、数据搜集，机器人在真实环境中根据当前的策略执行动作a，得到真实数据，并将其添加到真实数据集合中。

步骤2、模型训练，使用真实数据集合中的数据，通过极大似然估计训练模型，包括模型的特征提取器和解码器。

步骤3、模型自适应，使用真实数据和虚拟数据优化特征提取器。

步骤4、策略优化，用当前策略和模型生成一些一定长度的虚拟轨迹，将这些虚拟数据添加到虚拟数据集合中，然后从真实数据集合和虚拟数据集合中按照一定比例采样数据来优化策略。

进一步地，步骤1中，于每一个回合的每一个时刻t，机器人在真实的当前状态s_t下执行动作a_t，得到奖励r_t，到达新的状态s_t+1，将(s_t,a_t,r_t,s_t+1)四元组添加到真实数据集合中。

进一步地，步骤2中，模型是一个由神经网络构建的环境模型，我们可以将它的前几层看作是特征提取器，而后面几层看作是解码器。给定一个数据输入(s,a)，先经过特征提取器得到隐层特征h，然后该特征再经过解码器得到模型的输出s′。

进一步地，步骤2中，模型采用集成的方式，即多个网络结构一样但是参数初始化不同的单个模型组成一个集成模型；

进一步地，步骤2中，单个模型是概率神经网络构建的模型，输出预测状态是高斯分布。

进一步地，步骤2中，所有单个模型一起训练，每次训练的时候将从步骤1中的真实数据集合的数据有放回采样，为每单个模型创建各自的训练数据集。模型的输出是高斯分布的均值和方差，损失函数是最大似然估计。模型训练的损失函数将梯度反传至解码器和特征提取器，它们的参数得以更新。

进一步地，步骤3中，包括以下步骤：

步骤3.1、用真实数据训练模型；

步骤3.2、清空原有虚拟数据集合；

步骤3.3、从真实数据集合中随机选取状态作为起始点，用当前策略和模型生成一些虚拟轨迹；

步骤3.4、将新生成的虚拟轨迹加入到虚拟数据集合中；

步骤3.5、用真实数据和虚拟数据更新模型的特征提取器。

优选地，步骤3.3中，随机选择集成模型中的某单个神经网络模型用于生成虚拟轨迹。

进一步地，步骤3.5中，同时把真实数据和虚拟数据一起输入模型的特征提取器，然后对于输出得到的真实特征分布和虚拟特征分布计算它们之间的韦式距离，该距离便是模型自适应的损失函数，通过减小该距离来优化特征提取器从而达到特征分布校准的作用。

进一步地，步骤3.5中，韦式距离的计算方式为：另外引入一个评论网络，所述评论网络的输入为特征提取器输出的特征，输出是一个值；当所述评论网络满足利普希兹约束时，真实数据和虚拟数据两个对应的特征分布输出的值的期望相减的最大值便是所述韦式距离的估计；利普希兹约束条件我们可以通过梯度惩罚来实现。于是，我们交替对抗训练评论网络和特征提取器来达到拉近分布距离的效果，一方面，我们通过最大化期望差优化评论网络来得到更准确的韦式距离的估计，另一方面我们通过最小化期望差优化特征提取器来较小韦式距离达到特征分布校准的效果。

优选地，步骤4中，使用SAC优化策略。

与现有技术相比，本发明的有益效果如下：

1、本发明提出的模型自适应可以非常灵活地应用于不同的模型的使用场景，即可以与很多现有的基于模型的强化学习方法相结合。

2、本发明提出的方法框架有很强的自由度和扩展性，例如，特征分布校准的具体实现有很多种选择，比如韦式距离、最大均值差异、普通对抗网络；且使用虚拟数据进行策划优化的方法也可以选用各种先进的无模型算法，比如DDPG、SAC、TD3。

3、实践证明，本发明提出的基于自适应模型的强化学习方法，得到的模型在真实数据和虚拟数据上都获得了更高的准确率。且在进一步的机器人仿真控制实验中，我们的方法相比于之前的基于模型方法，无论采样效率还是渐进性能都更加优秀。经过验证，我们发现经过特征提取器之后的特征分布距离的确更小了。

附图说明

图1是本申请的环境、模型、策略、数据交互示意图。

具体实施方式

以下参考说明书附图介绍本申请的优选实施例，使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。

以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明，以充分地了解本发明的目的、特征和效果，但本发明的保护不仅限于此。

对于一个由神经网络构建的环境模型，我们可以将它的前几层看作是特征提取器，而后面几层看作是解码器。给定一个数据输入(s,a)，状态s是机器人各部位的位置和速度，动作a是施加在各部位上的力，先经过特征提取器得到隐层特征h，然后该特征再经过解码器得到模型的输出s′。模型采用集成的方式，即多个网络结构一样但是参数初始化不同的模型一起训练，每次训练的时候将从真实环境中采样得到的训练数据有放回采样，为每单个模型创建各自的训练数据集。模型的输出是高斯分布的均值和方差，损失函数是最大似然估计。模型训练的损失函数将梯度反传至解码器和特征提取器，它们的参数得以更新。

模型自适应的主要想法便是约束模型的特征提取器使得真实数据和虚拟数据经过特征提取器之后的特征分布之间能够一致，这样用真实数据训练的基于特征的解码器就能够对虚拟数据特征也给出精确的预测。在领域自适应领域，已经有很多研究证明这种在特征空间校准分布的方法解决了输入空间两个数据集合分布不一致的问题。为了达到拉近分布距离的方法，在模型自适应阶段，我们将同时把真实数据和虚拟数据一起输入模型的特征提取器，然后对于输出得到的真实特征分布和虚拟特征分布计算它们之间的某种距离。该距离便是模型自适应的损失函数，通过减小该距离来优化特征提取器从而达到特征分布校准的作用。

总的来说，如说明书中的附图1的所示，我们的方法将在以下几个阶段不断进行迭代：数据搜集阶段、模型学习阶段、模型自适应阶段，策略优化阶段，直到算法收敛：

(1)在数据搜集阶段中，智能体在真实环境中根据当前的策略执行动作a，得到真实数据，并将其添加到真实数据集合中。

(2)在模型训练阶段，使用真实数据集合中的数据，通过极大似然估计训练模型，包括模型的特征提取器和解码器。

(3)在模型自适应阶段，使用真实数据和虚拟数据优化特征提取器。

(4)在策略优化阶段，用当前策略和模型生成一些一定长度的虚拟轨迹，将这些虚拟数据添加到虚拟数据集合中，然后从真实数据集合和虚拟数据集合中按照一定比例采样数据来优化策略。

本发明的一个实施例：

本实施例主要解决OpenAI的开源库Gym中的Mujoco机器人控制问题。具体地，我们定义状态是机器人各部位的位置和速度，动作是施加在各部位上的力，目标是保证机器人不摔倒的前提下使得机器人前进的距离尽可能地长，同时使得用于控制的力尽可能地小。具体地，我们在本实施例中具体化了如下细节：

1、对于模型结构，我们使用概率神经网络的集成对其进行建模。具体地，我们同时训练B个概率神经网络。每一个概率神经网络输出预测状态是高斯分布，并通过极大似然估计训练模型。集成中各个概率神经网络具有相同的网络结构，只是参数的初始化以及训练模型时的训练数据不同。当使用模型来生成虚拟轨迹时，我们在每一步随机选择集成中的某一个神经网络模型进行预测下一状态。

2、对于模型自适应阶段的特征分布校准损失函数，我们采用韦式距离(Wasserstein distance)。计算方式为另外引入一个评论网络，评论网络的输入为特征提取器输出的特征，输出是一个值，当评论网络满足利普希兹约束时，真实数据和虚拟数据两个对应的特征分布输出的值的期望相减的最大值便是所述韦式距离的估计。利普希兹约束条件我们可以通过梯度惩罚来实现。于是，我们交替对抗训练评论网络和特征提取器来达到拉近分布距离的效果。一方面，我们通过最大化期望差优化评论网络来得到更准确的韦式距离的估计，另一方面我们通过最小化期望差优化特征提取器来较小韦式距离达到特征分布校准的效果。

3、在模型自适应阶段优化时，真实数据和虚拟数据将使用各自的特征提取器，它们在自适应阶段开始前参数相同，自适应阶段结束后，虚拟数据的特征提取器将被用做下一次模型训练阶段的初始化。

4、策略优化的具体算法是SAC算法。用模型生成虚拟数据时，从真实数据集合中随机采样一个状态来作为起点开始生成。

添加了以上细节之后，我们的方法可以归结为以下的步骤：

1、初始化环境模型、策略网络的参数，将真实数据集合和虚拟数据集合置为空。

2、对于每一个回合(episode)的每一个时刻t：

(1)使用当前策略在真实环境中执行动作a_t。

(2)在真实状态中执行a_t，得到奖励r_t，到达新的状态s_t+1，将(s_t,a_t,r_t,s_t+1)四元组添加到真实数据集合中。

(3)每经过H时刻，执行以下操作。(A)用真实数据训练模型。(B)清空原有虚拟数据集合。(C)从真实数据集合中随机采取状态作为起始点，用当前策略和模型生成一些虚拟轨迹。(D)将新生成的虚拟轨迹加入到虚拟数据集合中。(E)用真实数据和虚拟数据更新模型的特征提取器。

(4)从真实数据集合和虚拟数据集合中按比例随机采样一些数据，使用SAC优化策略。

上述实施例在Mojoco机器人连续控制问题上的表现要优于基准算法MBPO以及其他先进的基于模型和无模型算法，包括PETS,SLBO,SAC。具体表现为在采样相同数量的真实数据时的表现更好，且在真实数据充足，即算法收敛之后的表现也更优秀。

以上详细描述了本申请的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于自适应模型的机器人强化学习方法，其特征在于，将在以下几个步骤不断进行迭代，直至收敛：

步骤1、数据搜集，所述机器人在真实环境中根据当前的策略执行动作a，得到真实数据，并将其添加到真实数据集合中；

步骤2、模型训练，使用所述真实数据集合中的数据，通过极大似然估计训练所述模型，所述模型包括特征提取器和解码器；

步骤3、模型自适应，使用真实数据和虚拟数据优化所述特征提取器；

步骤4、策略优化，用当前策略和所述模型生成一些一定长度的虚拟轨迹，将这些虚拟轨迹数据添加到虚拟数据集合中，然后从所述真实数据集合和所述虚拟数据集合中按照一定比例采样数据来优化策略；

所述步骤2中，所述模型是一个由神经网络构建的环境模型，前几层是所述特征提取器，后面几层是所述解码器；给定一个数据输入(s,a)，先经过所述特征提取器得到隐层特征，然后该隐层特征再经过所述解码器得到所述模型的输出；

所述步骤2中，所述模型采用集成的方式，即多个网络结构一样但是参数初始化不同的单个模型组成一个集成模型；

所述步骤3中，包括以下步骤：

步骤3.1、用所述步骤1得到的真实数据训练所述模型；

步骤3.2、清空虚拟数据集合；

步骤3.3、从所述步骤1得到的真实数据集合中随机选取状态作为起始点，用当前策略和所述模型生成一些虚拟轨迹；

步骤3.4、将步骤3.3生成的虚拟轨迹加入到所述虚拟数据集合中；

步骤3.5、用真实数据和虚拟数据更新所述模型的特征提取器。

2.如权利要求1所述的强化学习方法，其特征在于，所述步骤1中，于每一个回合的每一个时刻t，机器人在真实的当前状态s_t下执行动作a_t，得到奖励r_t，到达新的状态s_t+1，将(s_t,a_t,r_t,s_t+1)四元组添加到真实数据集合中。

3.如权利要求1所述的强化学习方法，其特征在于，所述骤2中，所述单个模型是概率神经网络构建的模型，输出预测状态是高斯分布。

4.如权利要求3所述的强化学习方法，其特征在于，所述步骤2中，所有所述单个模型一起训练，每次训练的时候将从步骤1中的真实数据集合的数据有放回采样，为每所述单个模型创建各自的训练数据集；模型的输出是高斯分布的均值和方差，损失函数是最大似然估计；模型训练的损失函数将梯度反传至所述解码器和所述特征提取器，它们的参数得以更新。

5.如权利要求1所述的强化学习方法，其特征在于，所述步骤3.3中，随机选择所述集成模型中的某单个神经网络模型用于生成虚拟轨迹。

6.如权利要求1所述的强化学习方法，其特征在于，所述步骤3.5中，同时把真实数据和虚拟数据一起输入所述模型的特征提取器，然后对于输出得到的真实特征分布和虚拟特征分布计算它们之间的韦式距离，该距离便是模型自适应的损失函数，通过减小该距离来优化所述特征提取器从而达到特征分布校准的作用。

7.如权利要求6所述的强化学习方法，其特征在于，所述步骤3.5中，所述韦式距离的计算方式为：另外引入一个评论网络，所述评论网络的输入为所述特征提取器输出的特征，输出是一个值；当所述评论网络满足利普希兹约束时，真实数据和虚拟数据两个对应的特征分布输出的值的期望相减的最大值便是所述韦式距离的估计；利普希兹约束条件通过梯度惩罚来实现；交替对抗训练所述评论网络和所述特征提取器来达到拉近分布距离的效果；一方面，通过最大化期望差优化所述评论网络来得到更准确的所述韦式距离的估计，另一方面通过最小化期望差优化所述特征提取器来得到较小韦式距离达到特征分布校准的效果。