CN110991027A

CN110991027A - 一种基于虚拟场景训练的机器人模仿学习方法

Info

Publication number: CN110991027A
Application number: CN201911183292.6A
Authority: CN
Inventors: 杜广龙; 周万义
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-10

Abstract

本发明公开了一种基于虚拟场景训练的机器人模仿学习方法。所述方法包括以下步骤：根据具体任务设计机器人模型和虚拟交互环境；采集和整理专家数据集；根据具体任务确定状态取值空间S和动作取值空间A，根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构；从策略生成器采样数据，设计参数更新策略，结合专家数据集采用对抗训练方法交替训练策略生成器和判别器，直到判别器收敛至鞍点；对由训练得到的策略生成器和判别器组成的网络模型进行测试，将真实的环境状态作为策略生成器输入获得动作输出。本发明采用判别学习一个价值回报函数，绕过大量复杂且计算量高的逆强化学习的中间步骤，学习过程更加简洁高效。

Description

一种基于虚拟场景训练的机器人模仿学习方法

技术领域

本发明属于模仿学习与人工智能技术领域，特别涉及一种基于虚拟场景训练的机器人模仿学习方法。

背景技术

在传统的强化学习任务中，通常通过计算累积奖赏来学习最优策略(policy)，这种方式简单直接，而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策任务(sequential decision)中，学习器不能频繁地得到奖励，且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。与此同时，强化学习需要一个合适的reward函数去求解最优行动策略，但很多情况下不容易设计一个足够全面和优秀的reward函数，特别是在一些复杂的应用场景中，例如自动驾驶中撞人、撞车和闯红绿灯三者的reward值很难有一个合理的比例和设定，当面对的周围环境更加复杂就更难去定量。

而模仿学习(Imitation Learning)的方法经过多年的发展，已经能够很好地解决多步决策问题，在机器人、NLP等领域也有很多的应用。模仿学习希望机器能够通过观察并模仿专家的行为策略进行学习，不需要提前设计好任务的reward函数，专家的行为策略相当于引入了带标签的数据，转化为了有监督学习。

目前已经有两种主流的模仿学习方法被提出，即行为克隆(D.A.Pomerleau.Efficient training of artificial neural networks forautonomous navigation.Neural Computation,3(1):88–97,1991.)和逆向强化学习(A.Y.Ng and S.Russell.Algorithms for inverse reinforcement learning.In ICML,2000，S.Russell.Learning agents for uncertain environments.In Proceedings ofthe Eleventh Annual Conference on Computational Learning Theory,pages 101–103.ACM,1998.)。行为克隆直接克隆专家决策，专家做什么，机器跟着做，通过离散的数据学习离散的分布，专家的行为轨迹给定的数据集有限，只能通过不断增加训练集去覆盖所有可能发生的状态来保证学习的效果，但一般都不能获得足够完整的数据集，特别是有些数据集中可能存在的危险状态在实际中的采集成本非常高，比如无人驾驶在雨天的山路、热闹的市场等危险地带的数据采集。逆向强化学习假设专家的策略是完美的，即最优reward函数下的最优解。逆向强化学习希望通过学习得到一个reward函数去解释专家的行为，在这个过程中，不断对当前得到的reward函数进行优化，最终从专家的行为中反推出一个最合理的结果。通过初始化一个reward函数，通过强化学习算法可以得到当前reward函数下最优的一组策略，根据假设：专家的策略是最优reward函数下的最优解，优化reward函数使得专家策略获得更高的reward值，再由强化学习算法得到最新reward函数下的最优策略，不断迭代上述过程至收敛，最终得到的reward函数得到的最优策略应该与专家策略一致，说明可以很好地解释专家的行为。总的来看，该方法对数据集的要求比行为克隆的方法要低，但在实现过程中需要不断使用强化学习算法，因此计算量较大。

基于概率的视角，一个reward函数可以看作是一个专家行为所对应的分布，逆向强化学习通过迭代去学习这个函数，而生成对抗网络(GAN)本身就被用于拟合各种未知的分布，因此可以利用GAN去学习reward函数的分布。占用率度量可以近似看做是使用策略π时，状态-动作对的分布。占用率度量的匹配度越高，说明两个策略的近似程度越高。生成对抗模仿学习的优化目标中把生成对抗损失和占用率度量结合，生成对抗损失用来保证生成的策略真实度，而占用率度量的损失保证生成的策略和专家策略更加接近，更加合理。

发明内容

本发明的目的是解决需要进行多步决策的复杂技能学习任务，在这些任务中学习器不能频繁地得到奖励，普通的强化学习算法需要一个合适的reward函数去求解最优行动策略，很多情况下计一个足够全面和优秀的reward函数是极其复杂且不现实的。因此本发明以模仿学习和逆强化学习的方法去解决这类问题，为了避开普通的行为克隆方法和逆强化学习算法计算量大，网络设计困难，中间计算过程复杂的问题，本发明通过引入GAN的思想直接学习学习reward函数的分布，绕过了逆向强化学习中很多的中间步骤，特别是重复的强化学习计算，因此减少了较多的计算量。同时在优化目标中把生成对抗损失和占用率度量结合，生成对抗损失用来保证生成的策略真实度，而占用率度量的损失保证生成的策略和专家策略更加接近，更加合理。

本发明的目的至少通过如下技术方案之一实现。

一种基于虚拟场景训练的机器人模仿学习方法，包括以下步骤：

S1、根据具体任务设计机器人模型和虚拟交互环境；

S2、采集和整理专家数据集；

S3、根据具体任务确定状态取值空间S和动作取值空间A，根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构；

S4、从策略生成器采样数据，设计参数更新策略，结合专家数据集采用对抗训练方法交替训练策略生成器和判别器，直到判别器收敛至鞍点；

S5、对由训练得到的策略生成器和判别器组成的网络模型进行测试，将真实的环境状态作为策略生成器输入获得动作输出。

进一步地，步骤S1包括以下步骤：

S1.1、根据具体任务设计机器人模型和虚拟环境，使用unity3D引擎设计仿真环境，所述仿真环境尽可能接近真实环境，其目的是提供一个可视化的图形界面，帮助更快的训练模型和后期迁移，减少直接在真实环境训练可能遇到的危险，降低训练成本；

S1.2、结合域随机化的方法，使仿真环境中可能影响输出的环境变量随机化，用于在训练时提供足够的模拟场景样本空间可变性，以便在测试时该模型能够推广到真实环境的场景中；

S1.3、设计仿真环境的输入输出控制操作接口，包括和网络模型输出交互的网络接口和人机操作接口，便于对由策略生成器和判别器组成的网络模型进行训练和调试。

进一步地，步骤S1.2中，根据不同任务，所述仿真环境中可能影响输出的环境变量包括机器人当前状态，操作对象的数量和形状以及纹理特征，机器人放置的位置，灯光，障碍物位置和高度，相机位置方向和视野。

进一步地，其特征在于，步骤S2包括以下步骤：

S2.1、采集和整理专家数据集，通过人工示教或者训练好的机器从真实环境中采集大量的状态-动作对和必要的参数，作为模仿学习的样本，构建专家数据集；构建专家数据集的数学描述如下：

τ_E～π_E,π_E∈Π；

Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合，π_E表示专家即人或者训练好的机器，τ_E表示从π_E中采样出来的状态-动作数据样本集合；

S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理，剔除掉离群数据即奖励值小于设定阈值的状态-动作对，对剔除掉离群数据后剩余的数据进行扩增，获得更多具有丰富表征的样本。

进一步地，步骤S2.2中，对剔除掉离群数据后剩余的数据进行扩增，包括加噪声，线性坐标变换，二次采样，轻微扰动等方式。

进一步地，步骤S3包括以下步骤：

S3.1、根据具体任务确定状态取值空间S和动作取值空间A，结合具体的任务，确定状态空间S和动作空间A的取值范围。

S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络，策略生成器的输入维度为和状态s的维度一样，使用简单的多层全连接分类网络作为策略生成器，输出维度等于|A|即预测当前状态下做出每个动作的概率，所述简单的多层全连接分类网络中的网络层不超过5层，结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小；判别器的输入维度是状态s和动作a的维度之和，s,a来自专家数据集和策略生成器采样的数据，中间层也用简单的多层全连接网络实现，输出层使用Sigmoid函数g(·)作为激活函数，预测状态-动作对来自专家数据集或者策略生成器的概率；Sigmoid函数定义如下：

其中，e、x分别表示自然底数和任意输入；

S3.3、分别将策略生成器和判别器的网络参数初始化为θ₀和w₀，θ₀为判别器全连接层的全部待学习参数(权重参数和偏置参数)的初始值，w₀为策略生成器全连接层的全部待学习参数(权重参数和偏置参数)的初始值，初始化方法使用高斯随机初始化。

进一步地，步骤S4包括以下步骤：

S4.1、从策略生成器采样数据：π_θ表示策略生成器，从策略生成器采样的过程表示为τ～π_θ,即每次训练随机输入一组状态到策略生成器，将输出概率最大的动作作为该状态对应的动作，构成状态-动作对集合

其中S_j∈S，a_j∈A，n表示状态-动作对的数目，τ_i表示第i次更新参数后的策略生成器，

分别表示从第i次参数更新后的策略生成器采样的第j个状态和动作；

S4.2、设计参数更新策略，训练策略生成器和判别器。

进一步地，步骤S4.2具体包括以下步骤：

S4.2.1、更新判别器网络参数：

S4.2.1.1、首先估计判别器网络参数的梯度,估计方法如下：

其中，

表示求f(x)关于判别器参数w的梯度，D_w(s,a)表示输入是状态-动作对(s,a)时,判别器对应的输出；

分别表示对来自策略生成器和专家数据集的输入求判别器参数的梯度平均值；

S4.2.1.2、采用随机梯度下降法更新判别器的参数w，w为策略生成器全连接层的全部待学习参数(权重参数和偏置参数)，更新过程如下：

其中，α表示学习速率、w_i表示第i次更新后的判别器的全部待学习参数(权重参数和偏置参数)；为了使得参数更快收敛，使用Adam策略进行参数更新；

S4.2.2、更新策略生成器参数：

估计策略生成器网络参数的梯度,估计方法如下：

其中

表示初始状态-动作对为

的情况下

的统计平均值，E[x|y]表示条件期望；其中，

表示任意一个来自状态空间集合和动作空间集合的元素；λ是一个常数，为通过训练效果选择的平衡因子、

表示求函数f(x,θ)关于θ的梯度，

表示求统计平均值；

H(·)定义如下：

其中，E_π[f(x)]表示求f(x)在策略生成器π确定的分布下的数学期望，∑_a′ρ_π(s,a′)表示在确定的策略生成器π和状态s下遍历整个动作空间集合A求占用率度量之和；ρ_π(s,a)表示状态动作对(s,a)在策略生成器π占用率度量：

其中，γ是一个小于1的常数、π(a|s)表示输入状态为s的情况下输出动作为a的概率、s_t表示第t次的输入状态；

使用信赖域策略优化算法(TRPO)更新策略生成器参数θ；

S4.2.3、重复S4.2.1到S4.2.2的步骤，直到判别器网络收敛到某个鞍点，保存由训练得到的策略生成器和判别器组成的网络模型。

进一步地，步骤S5中，对由训练得到的策略生成器和判别器组成的网络模型进行测试，将真实的环境状态作为策略生成器输入，使用判别器作为价值函数，获得动作输出；具体包括以下步骤：

S5.1、将真实环境下的初始状态作为网络输入，将预测的动作输出作为虚拟环境和外部真实环境机器人的输入，获得新的状态，重复上述过程；

S5.2、根据具体任务采用不同的衡量指标，统计测试表现结果，评估表现性能。

与现有技术相比，本发明具有以下优势：

(1)本发明的网络结构简单，易于实现。

(2)训练数据依赖性弱，只需要采集少量的人工示教数据就可以通过对抗学习的方式进行训练。

(3)本发明采用判别学习一个价值回报函数，绕过大量复杂且计算量高的逆强化学习的中间步骤，学习过程更加简洁高效。

附图说明

图1为本发明实施例中一种基于虚拟场景训练的机器人模仿学习方法的流程图；

图2为本发明实施例中一种基于虚拟场景训练的机器人模仿学习方法的网络结构图。

具体实施方式

下面结合实例和附图对本发明的具体实施做进一步的说明，但本发明的实施方式不限于此。

实施例：

为了便于理解，本实施例中，以CartPole平衡小车游戏为例子。

一种基于虚拟场景训练的机器人模仿学习方法，如图1所示，包括以下步骤：

S1、根据具体任务设计机器人模型和虚拟交互环境；包括以下步骤：

S1.1、根据具体任务设计机器人模型和虚拟环境，使用unity3D引擎设计仿真环境，所述仿真环境尽可能接近真实环境，包括小车、小车上的直杆、移动的滑轨；其目的是提供一个可视化的图形界面，帮助更快的训练模型和后期迁移，减少直接在真实环境训练可能遇到的危险，降低训练成本；

本实施例中，所述仿真环境中可能影响输出的环境变量包括重力加速度，滑轨摩檫力，直杆长度等。

S2、采集和整理专家数据集；包括以下步骤：

τ_E～π_E,π_E∈Π；

Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合，π_E表示专家即人或者训练好的机器，π_E表示从π_E中采样出来的状态-动作数据样本集合；

本实施例中，随机输入一个初始状态，记录后续输出的动作，然后将动作执行完后更新的状态作为新的输入，直到步骤数达到设定的阈值或者失败。

S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理，剔除掉离群数据即奖励值小于设定阈值的状态-动作对，对剔除掉离群数据后剩余的数据进行扩增，获得更多具有丰富表征的样本；

对剔除掉离群数据后剩余的数据进行扩增，包括加噪声，线性坐标变换，二次采样，轻微扰动等方式。

S3、根据具体任务确定状态取值空间S和动作取值空间A，根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构，如图2所示；包括以下步骤：

S3.1、确定状态空间集合S和动作空间集合A，结合具体的任务，确定状态空间S和动作空间A的取值范围。

本实施例中，状态空间S的元素由这几个变量的笛卡尔积组成：推车位置[-2.4,2.4]，车速[-∞,∞]，直杆角度.[～-41.8°,～41.8°]，直杆末端速度[-∞,∞]。动作空间集合A＝{0,1},0表示向右推，1表示向左推。

S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络，策略生成器的输入维度为和状态s的维度一样，本实施例中，策略生成器的输入维度为4，使用简单的多层全连接分类网络作为策略生成器，输出维度等于|A|即预测当前状态下做出每个动作的概率，所述简单的多层全连接分类网络中的网络层不超过5层，结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小；判别器的输入维度是状态s和动作a的维度之和，本实施例中，判别器的输入维度为5，s,a来自专家数据集和策略生成器采样的数据，中间层也用简单的多层全连接网络实现，输出层使用Sigmoid函数g(·)作为激活函数，预测状态-动作对来自专家数据集或者策略生成器的概率；Sigmoid函数定义如下：

其中，e、x分别表示自然底数和任意输入；

S3.3、分别将策略生成器和判别器的网络参数初始化为θ₀和w₀，θ₀为判别器全连接层的权重系数和偏置参数的初始值，w₀为策略生成器全连接层的权重系数和偏置参数的初始值，初始化方法使用高斯随机初始化。

S4、从策略生成器采样数据，设计参数更新策略，结合专家数据集采用对抗训练方法交替训练策略生成器和判别器，直到判别器收敛至鞍点；包括以下步骤：

S4.2、设计参数更新策略，训练策略生成器和判别器；包括以下步骤：