CN110991027A - 一种基于虚拟场景训练的机器人模仿学习方法 - Google Patents

一种基于虚拟场景训练的机器人模仿学习方法 Download PDF

Info

Publication number
CN110991027A
CN110991027A CN201911183292.6A CN201911183292A CN110991027A CN 110991027 A CN110991027 A CN 110991027A CN 201911183292 A CN201911183292 A CN 201911183292A CN 110991027 A CN110991027 A CN 110991027A
Authority
CN
China
Prior art keywords
state
action
strategy
generator
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911183292.6A
Other languages
English (en)
Inventor
杜广龙
周万义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911183292.6A priority Critical patent/CN110991027A/zh
Publication of CN110991027A publication Critical patent/CN110991027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于虚拟场景训练的机器人模仿学习方法。所述方法包括以下步骤:根据具体任务设计机器人模型和虚拟交互环境;采集和整理专家数据集;根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。本发明采用判别学习一个价值回报函数,绕过大量复杂且计算量高的逆强化学习的中间步骤,学习过程更加简洁高效。

Description

一种基于虚拟场景训练的机器人模仿学习方法
技术领域
本发明属于模仿学习与人工智能技术领域,特别涉及一种基于虚拟场景训练的机器人模仿学习方法。
背景技术
在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策任务(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。与此同时,强化学习需要一个合适的reward函数去求解最优行动策略,但很多情况下不容易设计一个足够全面和优秀的reward函数,特别是在一些复杂的应用场景中,例如自动驾驶中撞人、撞车和闯红绿灯三者的reward值很难有一个合理的比例和设定,当面对的周围环境更加复杂就更难去定量。
而模仿学习(Imitation Learning)的方法经过多年的发展,已经能够很好地解决多步决策问题,在机器人、NLP等领域也有很多的应用。模仿学习希望机器能够通过观察并模仿专家的行为策略进行学习,不需要提前设计好任务的reward函数,专家的行为策略相当于引入了带标签的数据,转化为了有监督学习。
目前已经有两种主流的模仿学习方法被提出,即行为克隆(D.A.Pomerleau.Efficient training of artificial neural networks forautonomous navigation.Neural Computation,3(1):88–97,1991.)和逆向强化学习(A.Y.Ng and S.Russell.Algorithms for inverse reinforcement learning.In ICML,2000,S.Russell.Learning agents for uncertain environments.In Proceedings ofthe Eleventh Annual Conference on Computational Learning Theory,pages 101–103.ACM,1998.)。行为克隆直接克隆专家决策,专家做什么,机器跟着做,通过离散的数据学习离散的分布,专家的行为轨迹给定的数据集有限,只能通过不断增加训练集去覆盖所有可能发生的状态来保证学习的效果,但一般都不能获得足够完整的数据集,特别是有些数据集中可能存在的危险状态在实际中的采集成本非常高,比如无人驾驶在雨天的山路、热闹的市场等危险地带的数据采集。逆向强化学习假设专家的策略是完美的,即最优reward函数下的最优解。逆向强化学习希望通过学习得到一个reward函数去解释专家的行为,在这个过程中,不断对当前得到的reward函数进行优化,最终从专家的行为中反推出一个最合理的结果。通过初始化一个reward函数,通过强化学习算法可以得到当前reward函数下最优的一组策略,根据假设:专家的策略是最优reward函数下的最优解,优化reward函数使得专家策略获得更高的reward值,再由强化学习算法得到最新reward函数下的最优策略,不断迭代上述过程至收敛,最终得到的reward函数得到的最优策略应该与专家策略一致,说明可以很好地解释专家的行为。总的来看,该方法对数据集的要求比行为克隆的方法要低,但在实现过程中需要不断使用强化学习算法,因此计算量较大。
基于概率的视角,一个reward函数可以看作是一个专家行为所对应的分布,逆向强化学习通过迭代去学习这个函数,而生成对抗网络(GAN)本身就被用于拟合各种未知的分布,因此可以利用GAN去学习reward函数的分布。占用率度量可以近似看做是使用策略π时,状态-动作对的分布。占用率度量的匹配度越高,说明两个策略的近似程度越高。生成对抗模仿学习的优化目标中把生成对抗损失和占用率度量结合,生成对抗损失用来保证生成的策略真实度,而占用率度量的损失保证生成的策略和专家策略更加接近,更加合理。
发明内容
本发明的目的是解决需要进行多步决策的复杂技能学习任务,在这些任务中学习器不能频繁地得到奖励,普通的强化学习算法需要一个合适的reward函数去求解最优行动策略,很多情况下计一个足够全面和优秀的reward函数是极其复杂且不现实的。因此本发明以模仿学习和逆强化学习的方法去解决这类问题,为了避开普通的行为克隆方法和逆强化学习算法计算量大,网络设计困难,中间计算过程复杂的问题,本发明通过引入GAN的思想直接学习学习reward函数的分布,绕过了逆向强化学习中很多的中间步骤,特别是重复的强化学习计算,因此减少了较多的计算量。同时在优化目标中把生成对抗损失和占用率度量结合,生成对抗损失用来保证生成的策略真实度,而占用率度量的损失保证生成的策略和专家策略更加接近,更加合理。
本发明的目的至少通过如下技术方案之一实现。
一种基于虚拟场景训练的机器人模仿学习方法,包括以下步骤:
S1、根据具体任务设计机器人模型和虚拟交互环境;
S2、采集和整理专家数据集;
S3、根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;
S4、从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;
S5、对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。
进一步地,步骤S1包括以下步骤:
S1.1、根据具体任务设计机器人模型和虚拟环境,使用unity3D引擎设计仿真环境,所述仿真环境尽可能接近真实环境,其目的是提供一个可视化的图形界面,帮助更快的训练模型和后期迁移,减少直接在真实环境训练可能遇到的危险,降低训练成本;
S1.2、结合域随机化的方法,使仿真环境中可能影响输出的环境变量随机化,用于在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实环境的场景中;
S1.3、设计仿真环境的输入输出控制操作接口,包括和网络模型输出交互的网络接口和人机操作接口,便于对由策略生成器和判别器组成的网络模型进行训练和调试。
进一步地,步骤S1.2中,根据不同任务,所述仿真环境中可能影响输出的环境变量包括机器人当前状态,操作对象的数量和形状以及纹理特征,机器人放置的位置,灯光,障碍物位置和高度,相机位置方向和视野。
进一步地,其特征在于,步骤S2包括以下步骤:
S2.1、采集和整理专家数据集,通过人工示教或者训练好的机器从真实环境中采集大量的状态-动作对和必要的参数,作为模仿学习的样本,构建专家数据集;构建专家数据集的数学描述如下:
τE~πEE∈Π;
Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合,πE表示专家即人或者训练好的机器,τE表示从πE中采样出来的状态-动作数据样本集合;
S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理,剔除掉离群数据即奖励值小于设定阈值的状态-动作对,对剔除掉离群数据后剩余的数据进行扩增,获得更多具有丰富表征的样本。
进一步地,步骤S2.2中,对剔除掉离群数据后剩余的数据进行扩增,包括加噪声,线性坐标变换,二次采样,轻微扰动等方式。
进一步地,步骤S3包括以下步骤:
S3.1、根据具体任务确定状态取值空间S和动作取值空间A,结合具体的任务,确定状态空间S和动作空间A的取值范围。
S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络,策略生成器的输入维度为和状态s的维度一样,使用简单的多层全连接分类网络作为策略生成器,输出维度等于|A|即预测当前状态下做出每个动作的概率,所述简单的多层全连接分类网络中的网络层不超过5层,结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小;判别器的输入维度是状态s和动作a的维度之和,s,a来自专家数据集和策略生成器采样的数据,中间层也用简单的多层全连接网络实现,输出层使用Sigmoid函数g(·)作为激活函数,预测状态-动作对来自专家数据集或者策略生成器的概率;Sigmoid函数定义如下:
Figure BDA0002291827030000041
其中,e、x分别表示自然底数和任意输入;
S3.3、分别将策略生成器和判别器的网络参数初始化为θ0和w0,θ0为判别器全连接层的全部待学习参数(权重参数和偏置参数)的初始值,w0为策略生成器全连接层的全部待学习参数(权重参数和偏置参数)的初始值,初始化方法使用高斯随机初始化。
进一步地,步骤S4包括以下步骤:
S4.1、从策略生成器采样数据:πθ表示策略生成器,从策略生成器采样的过程表示为τ~πθ,即每次训练随机输入一组状态到策略生成器,将输出概率最大的动作作为该状态对应的动作,构成状态-动作对集合
Figure BDA0002291827030000042
其中Sj∈S,aj∈A,n表示状态-动作对的数目,τi表示第i次更新参数后的策略生成器,
Figure BDA0002291827030000043
分别表示从第i次参数更新后的策略生成器采样的第j个状态和动作;
S4.2、设计参数更新策略,训练策略生成器和判别器。
进一步地,步骤S4.2具体包括以下步骤:
S4.2.1、更新判别器网络参数:
S4.2.1.1、首先估计判别器网络参数的梯度,估计方法如下:
Figure BDA0002291827030000044
其中,
Figure BDA0002291827030000051
表示求f(x)关于判别器参数w的梯度,Dw(s,a)表示输入是状态-动作对(s,a)时,判别器对应的输出;
Figure BDA0002291827030000052
分别表示对来自策略生成器和专家数据集的输入求判别器参数的梯度平均值;
S4.2.1.2、采用随机梯度下降法更新判别器的参数w,w为策略生成器全连接层的全部待学习参数(权重参数和偏置参数),更新过程如下:
Figure BDA0002291827030000053
其中,α表示学习速率、wi表示第i次更新后的判别器的全部待学习参数(权重参数和偏置参数);为了使得参数更快收敛,使用Adam策略进行参数更新;
S4.2.2、更新策略生成器参数:
估计策略生成器网络参数的梯度,估计方法如下:
Figure BDA0002291827030000054
其中
Figure BDA0002291827030000055
表示初始状态-动作对为
Figure BDA0002291827030000056
的情况下
Figure BDA0002291827030000057
的统计平均值,E[x|y]表示条件期望;其中,
Figure BDA0002291827030000058
表示任意一个来自状态空间集合和动作空间集合的元素;λ是一个常数,为通过训练效果选择的平衡因子、
Figure BDA0002291827030000059
表示求函数f(x,θ)关于θ的梯度,
Figure BDA00022918270300000510
表示求统计平均值;
H(·)定义如下:
Figure BDA00022918270300000511
其中,Eπ[f(x)]表示求f(x)在策略生成器π确定的分布下的数学期望,∑a′ρπ(s,a′)表示在确定的策略生成器π和状态s下遍历整个动作空间集合A求占用率度量之和;ρπ(s,a)表示状态动作对(s,a)在策略生成器π占用率度量:
Figure BDA00022918270300000512
其中,γ是一个小于1的常数、π(a|s)表示输入状态为s的情况下输出动作为a的概率、st表示第t次的输入状态;
使用信赖域策略优化算法(TRPO)更新策略生成器参数θ;
S4.2.3、重复S4.2.1到S4.2.2的步骤,直到判别器网络收敛到某个鞍点,保存由训练得到的策略生成器和判别器组成的网络模型。
进一步地,步骤S5中,对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入,使用判别器作为价值函数,获得动作输出;具体包括以下步骤:
S5.1、将真实环境下的初始状态作为网络输入,将预测的动作输出作为虚拟环境和外部真实环境机器人的输入,获得新的状态,重复上述过程;
S5.2、根据具体任务采用不同的衡量指标,统计测试表现结果,评估表现性能。
与现有技术相比,本发明具有以下优势:
(1)本发明的网络结构简单,易于实现。
(2)训练数据依赖性弱,只需要采集少量的人工示教数据就可以通过对抗学习的方式进行训练。
(3)本发明采用判别学习一个价值回报函数,绕过大量复杂且计算量高的逆强化学习的中间步骤,学习过程更加简洁高效。
附图说明
图1为本发明实施例中一种基于虚拟场景训练的机器人模仿学习方法的流程图;
图2为本发明实施例中一种基于虚拟场景训练的机器人模仿学习方法的网络结构图。
具体实施方式
下面结合实例和附图对本发明的具体实施做进一步的说明,但本发明的实施方式不限于此。
实施例:
为了便于理解,本实施例中,以CartPole平衡小车游戏为例子。
一种基于虚拟场景训练的机器人模仿学习方法,如图1所示,包括以下步骤:
S1、根据具体任务设计机器人模型和虚拟交互环境;包括以下步骤:
S1.1、根据具体任务设计机器人模型和虚拟环境,使用unity3D引擎设计仿真环境,所述仿真环境尽可能接近真实环境,包括小车、小车上的直杆、移动的滑轨;其目的是提供一个可视化的图形界面,帮助更快的训练模型和后期迁移,减少直接在真实环境训练可能遇到的危险,降低训练成本;
S1.2、结合域随机化的方法,使仿真环境中可能影响输出的环境变量随机化,用于在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实环境的场景中;
本实施例中,所述仿真环境中可能影响输出的环境变量包括重力加速度,滑轨摩檫力,直杆长度等。
S1.3、设计仿真环境的输入输出控制操作接口,包括和网络模型输出交互的网络接口和人机操作接口,便于对由策略生成器和判别器组成的网络模型进行训练和调试。
S2、采集和整理专家数据集;包括以下步骤:
S2.1、采集和整理专家数据集,通过人工示教或者训练好的机器从真实环境中采集大量的状态-动作对和必要的参数,作为模仿学习的样本,构建专家数据集;构建专家数据集的数学描述如下:
τE~πEE∈Π;
Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合,πE表示专家即人或者训练好的机器,πE表示从πE中采样出来的状态-动作数据样本集合;
本实施例中,随机输入一个初始状态,记录后续输出的动作,然后将动作执行完后更新的状态作为新的输入,直到步骤数达到设定的阈值或者失败。
S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理,剔除掉离群数据即奖励值小于设定阈值的状态-动作对,对剔除掉离群数据后剩余的数据进行扩增,获得更多具有丰富表征的样本;
对剔除掉离群数据后剩余的数据进行扩增,包括加噪声,线性坐标变换,二次采样,轻微扰动等方式。
S3、根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构,如图2所示;包括以下步骤:
S3.1、确定状态空间集合S和动作空间集合A,结合具体的任务,确定状态空间S和动作空间A的取值范围。
本实施例中,状态空间S的元素由这几个变量的笛卡尔积组成:推车位置[-2.4,2.4],车速[-∞,∞],直杆角度.[~-41.8°,~41.8°],直杆末端速度[-∞,∞]。动作空间集合A={0,1},0表示向右推,1表示向左推。
S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络,策略生成器的输入维度为和状态s的维度一样,本实施例中,策略生成器的输入维度为4,使用简单的多层全连接分类网络作为策略生成器,输出维度等于|A|即预测当前状态下做出每个动作的概率,所述简单的多层全连接分类网络中的网络层不超过5层,结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小;判别器的输入维度是状态s和动作a的维度之和,本实施例中,判别器的输入维度为5,s,a来自专家数据集和策略生成器采样的数据,中间层也用简单的多层全连接网络实现,输出层使用Sigmoid函数g(·)作为激活函数,预测状态-动作对来自专家数据集或者策略生成器的概率;Sigmoid函数定义如下:
Figure BDA0002291827030000081
其中,e、x分别表示自然底数和任意输入;
S3.3、分别将策略生成器和判别器的网络参数初始化为θ0和w0,θ0为判别器全连接层的权重系数和偏置参数的初始值,w0为策略生成器全连接层的权重系数和偏置参数的初始值,初始化方法使用高斯随机初始化。
S4、从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;包括以下步骤:
S4.1、从策略生成器采样数据:πθ表示策略生成器,从策略生成器采样的过程表示为τ~πθ,即每次训练随机输入一组状态到策略生成器,将输出概率最大的动作作为该状态对应的动作,构成状态-动作对集合
Figure BDA0002291827030000082
其中Sj∈S,aj∈A,n表示状态-动作对的数目,τi表示第i次更新参数后的策略生成器,
Figure BDA0002291827030000083
分别表示从第i次参数更新后的策略生成器采样的第j个状态和动作;
S4.2、设计参数更新策略,训练策略生成器和判别器;包括以下步骤:
S4.2.1、更新判别器网络参数:
S4.2.1.1、首先估计判别器网络参数的梯度,估计方法如下:
Figure BDA0002291827030000084
其中,
Figure BDA0002291827030000091
表示求f(x)关于判别器参数w的梯度,Dw(s,a)表示输入是状态-动作对(s,a)时,判别器对应的输出;
Figure BDA0002291827030000092
分别表示对来自策略生成器和专家数据集的输入求判别器参数的梯度平均值;
S4.2.1.2、采用随机梯度下降法更新判别器的参数w,w为策略生成器全连接层的全部待学习参数(权重参数和偏置参数),更新过程如下:
Figure BDA0002291827030000093
其中,α表示学习速率、wi表示第i次更新后的判别器的全部待学习参数(权重参数和偏置参数);为了使得参数更快收敛,使用Adam策略进行参数更新;
S4.2.2、更新策略生成器参数:
估计策略生成器网络参数的梯度,估计方法如下:
Figure BDA0002291827030000094
其中
Figure BDA0002291827030000095
表示初始状态-动作对为
Figure BDA0002291827030000096
的情况下
Figure BDA0002291827030000097
的统计平均值,E[x|y]表示条件期望;其中,
Figure BDA0002291827030000098
表示任意一个来自状态空间集合和动作空间集合的元素;λ是一个常数,为通过训练效果选择的平衡因子、
Figure BDA0002291827030000099
表示求函数f(x,θ)关于θ的梯度,
Figure BDA00022918270300000910
表示求统计平均值;
H(·)定义如下:
Figure BDA00022918270300000911
其中,Eπ[f(x)]表示求f(x)在策略生成器π确定的分布下的数学期望,∑a′ρπ(s,a′)表示在确定的策略生成器π和状态s下遍历整个动作空间集合A求占用率度量之和;ρπ(s,a)表示状态动作对(s,a)在策略生成器π占用率度量:
Figure BDA00022918270300000912
其中,γ是一个小于1的常数、π(a|s)表示输入状态为s的情况下输出动作为a的概率、st表示第t次的输入状态;
使用信赖域策略优化算法(TRPO)更新策略生成器参数θ;
S4.2.3、重复S4.2.1到S4.2.2的步骤,直到判别器网络收敛到某个鞍点,保存由训练得到的策略生成器和判别器组成的网络模型。
S5、对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出;具体包括以下步骤:
S5.1、按相同比例制作平衡小车模型,随机设置随机初始状态作为网络输入,将预测的动作输出作为虚拟环境和外部真实环境机器人的输入,获得新的状态,重复上述过程;
S5.2、记录平衡小车保持平衡成功的次数和时间长度,统计测试表现结果,评估表现性能。
本发明的实施方式并不受上述实施例的限制,其他任何未背离发明精神实质与原理下所做的改变,修饰,替代,组合,简化均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,包括以下步骤:
S1、根据具体任务设计机器人模型和虚拟交互环境;
S2、采集和整理专家数据集;
S3、根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;
S4、从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;
S5、对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。
2.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S1包括以下步骤:
S1.1、根据具体任务设计机器人模型和虚拟环境,使用unity3D引擎设计仿真环境,所述仿真环境尽可能接近真实环境,其目的是提供一个可视化的图形界面,帮助更快的训练模型和后期迁移,减少直接在真实环境训练可能遇到的危险,降低训练成本;
S1.2、结合域随机化的方法,使仿真环境中可能影响输出的环境变量随机化,用于在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实环境的场景中;
S1.3、设计仿真环境的输入输出控制操作接口,包括和网络模型输出交互的网络接口和人机操作接口,便于对由策略生成器和判别器组成的网络模型进行训练和调试。
3.根据权利要求2所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S1.2中,根据不同任务,所述仿真环境中可能影响输出的环境变量包括机器人当前状态,操作对象的数量和形状以及纹理特征,机器人放置的位置,灯光,障碍物位置和高度,相机位置方向和视野。
4.根据权利要求书1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S2包括以下步骤:
S2.1、采集和整理专家数据集,通过人工示教或者训练好的机器从真实环境中采集大量的状态-动作对和必要的参数,作为模仿学习的样本,构建专家数据集;构建专家数据集的数学描述如下:
τE~πEE∈Π;
Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合,πE表示专家即人或者训练好的机器,τE表示从πE中采样出来的状态-动作数据样本集合;
S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理,剔除掉离群数据,对剔除掉离群数据后剩余的数据进行扩增,获得更多具有丰富表征的样本。
5.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S2.2中,对剔除掉离群数据后剩余的数据进行扩增,包括加噪声,线性坐标变换,二次采样,轻微扰动。
6.根据权利要求书1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S3包括以下步骤:
S3.1、根据具体任务确定状态取值空间S和动作取值空间A,结合具体的任务,确定状态空间S和动作空间A的取值范围;
S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络,策略生成器的输入维度为和状态s的维度一样,使用简单的多层全连接分类网络作为策略生成器,输出维度等于|A|即预测当前状态下做出每个动作的概率,所述简单的多层全连接分类网络中的网络层不超过5层,结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小;判别器的输入维度是状态s和动作a的维度之和,s,a来自专家数据集和策略生成器采样的数据,中间层也用简单的多层全连接网络实现,输出层使用Sigmoid函数g(·)作为激活函数,预测状态-动作对来自专家数据集或者策略生成器的概率;Sigmoid函数定义如下:
Figure FDA0002291827020000021
其中,e、x分别表示自然底数和任意输入;
S3.3、分别将策略生成器和判别器的网络参数初始化为θ0和w0,θ0表示判别器全连接层全部待学习参数(权重系数和偏置参数)的初始值,w0为策略生成器全连接层全部待学习参数(权重系数和偏置参数)初始值,初始化方法使用高斯随机初始化。
7.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S4包括以下步骤:
S4.1、从策略生成器采样数据:πθ表示策略生成器,从策略生成器采样的过程表示为τ~πθ,即每次训练随机输入一组状态到策略生成器,将输出概率最大的动作作为该状态对应的动作,构成状态-动作对集合
Figure FDA0002291827020000031
其中Sj∈S,aj∈A,n表示状态-动作对的数目,τi表示第i次更新参数后的策略生成器,
Figure FDA0002291827020000032
分别表示从第i次参数更新后的策略生成器采样的第j个状态和动作;
S4.2、设计参数更新策略,训练策略生成器和判别器。
8.根据权利要求7所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S4.2具体包括以下步骤:
S4.2.1、更新判别器网络参数:
S4.2.1.1、首先估计判别器网络参数的梯度,估计方法如下:
Figure FDA0002291827020000033
其中,
Figure FDA0002291827020000034
表示求f(x)关于判别器参数w的梯度,Dw(s,a)表示输入是状态-动作对(s,a)时,判别器对应的输出;
Figure FDA0002291827020000035
分别表示对来自策略生成器和专家数据集的输入求判别器参数的梯度平均值;
S4.2.1.2、采用随机梯度下降法更新判别器的参数w,w为策略生成器全连接层的全部待学习参数(权重参数和偏置参数),更新过程如下:
Figure FDA0002291827020000036
其中,α表示学习速率、wi表示第i次更新后的判别器的全部参数;为了使得参数更快收敛,使用Adam策略进行参数更新;
S4.2.2、更新策略生成器参数:
估计策略生成器网络参数的梯度,估计方法如下:
Figure FDA0002291827020000037
其中
Figure FDA0002291827020000038
表示初始状态-动作对为
Figure FDA0002291827020000039
的情况下
Figure FDA00022918270200000310
的统计平均值,E[x|y]表示条件期望;其中,
Figure FDA00022918270200000311
表示任意一个来自状态空间集合和动作空间集合的元素;λ是一个常数,为通过训练效果选择的平衡因子、
Figure FDA00022918270200000312
表示求函数f(x,θ)关于θ的梯度,
Figure FDA00022918270200000313
表示求统计平均值;
H(·)定义如下:
Figure FDA00022918270200000314
Figure FDA0002291827020000041
其中,Eπ[f(x)]表示求f(x)在策略生成器π确定的分布下的数学期望,∑a′ρπ(s,a′)表示在确定的策略生成器π和状态s下遍历整个动作空间集合A求占用率度量之和;ρπ(s,a)表示状态动作对(s,a)在策略生成器π占用率度量:
Figure FDA0002291827020000042
其中,γ是一个小于1的常数、π(a|s)表示输入状态为s的情况下输出动作为a的概率、st表示第t次的输入状态;
使用信赖域策略优化算法(TRPO)更新策略生成器参数θ;
S4.2.3、重复S4.2.1到S4.2.2的步骤,直到判别器网络收敛到某个鞍点,保存由训练完成的策略生成器和判别器组成的网络模型。
9.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S5中,对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入,使用判别器作为价值函数,获得动作输出;具体包括以下步骤:
S5.1、将真实环境下的初始状态作为网络输入,将预测的动作输出作为虚拟环境和外部真实环境机器人的输入,获得新的状态,重复上述过程;
S5.2、根据具体任务采用不同的衡量指标,统计测试表现结果,评估表现性能。
CN201911183292.6A 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人模仿学习方法 Pending CN110991027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911183292.6A CN110991027A (zh) 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人模仿学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911183292.6A CN110991027A (zh) 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人模仿学习方法

Publications (1)

Publication Number Publication Date
CN110991027A true CN110991027A (zh) 2020-04-10

Family

ID=70087480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911183292.6A Pending CN110991027A (zh) 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人模仿学习方法

Country Status (1)

Country Link
CN (1) CN110991027A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111753300A (zh) * 2020-06-29 2020-10-09 浙江工业大学 面向强化学习的检测防御异常数据方法和装置
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
CN111856925A (zh) * 2020-06-02 2020-10-30 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN111914946A (zh) * 2020-08-19 2020-11-10 中国科学院自动化研究所 针对离群点移除方法的对抗样本生成方法、系统和装置
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112052936A (zh) * 2020-07-24 2020-12-08 清华大学 基于生成对抗机制的强化学习探索方法及装置
CN112052940A (zh) * 2020-08-26 2020-12-08 西安电子科技大学 基于向量压缩与重构的社交网络特征动态提取方法
CN112162564A (zh) * 2020-09-25 2021-01-01 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN112965380A (zh) * 2021-02-07 2021-06-15 北京云量数盟科技有限公司 一种基于强化学习策略操控智能设备的方法
CN113077013A (zh) * 2021-04-28 2021-07-06 上海联麓半导体技术有限公司 基于生成对抗网络的高维数据故障异常检测方法及系统
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114660947A (zh) * 2022-05-19 2022-06-24 季华实验室 机器人步态自主学习方法、装置、电子设备及存储介质
CN114779661A (zh) * 2022-04-22 2022-07-22 北京科技大学 基于多分类生成对抗模仿学习算法的化学合成机器人系统
CN115373411A (zh) * 2022-05-31 2022-11-22 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动驾驶控制策略决策方法及其系统
CN115990891A (zh) * 2023-03-23 2023-04-21 湖南大学 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108724182A (zh) * 2018-05-23 2018-11-02 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN109726813A (zh) * 2017-10-27 2019-05-07 渊慧科技有限公司 任务的强化和模仿学习

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211140A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Data efficient imitation of diverse behaviors
CN109726813A (zh) * 2017-10-27 2019-05-07 渊慧科技有限公司 任务的强化和模仿学习
CN108724182A (zh) * 2018-05-23 2018-11-02 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINGWEI ZHANG ET AL: "VR-Goggles for Robots: Real-to-Sim Domain Adaptation for Visual Control", IEEE ROBOTICS AND AUTOMATION LETTERS, vol. 4, 20 January 2019 (2019-01-20), pages 1148 - 1155, XP011709444, DOI: 10.1109/LRA.2019.2894216 *
JONATHAN HO ET AL: "Generative Adversarial Imitation Learning", ARXIV, 10 June 2016 (2016-06-10), pages 1606 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111856925A (zh) * 2020-06-02 2020-10-30 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN111856925B (zh) * 2020-06-02 2021-12-03 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN111753300A (zh) * 2020-06-29 2020-10-09 浙江工业大学 面向强化学习的检测防御异常数据方法和装置
CN111753300B (zh) * 2020-06-29 2024-03-19 浙江工业大学 面向强化学习的检测防御异常数据方法和装置
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法
CN112052936A (zh) * 2020-07-24 2020-12-08 清华大学 基于生成对抗机制的强化学习探索方法及装置
CN112052936B (zh) * 2020-07-24 2022-06-03 清华大学 基于生成对抗机制的强化学习探索方法及装置
CN111914946A (zh) * 2020-08-19 2020-11-10 中国科学院自动化研究所 针对离群点移除方法的对抗样本生成方法、系统和装置
CN111914946B (zh) * 2020-08-19 2021-07-06 中国科学院自动化研究所 针对离群点移除方法的对抗样本生成方法、系统和装置
CN112052940A (zh) * 2020-08-26 2020-12-08 西安电子科技大学 基于向量压缩与重构的社交网络特征动态提取方法
CN112052940B (zh) * 2020-08-26 2023-11-24 西安电子科技大学 基于向量压缩与重构的社交网络特征动态提取方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112162564B (zh) * 2020-09-25 2021-09-28 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN112162564A (zh) * 2020-09-25 2021-01-01 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN112965380A (zh) * 2021-02-07 2021-06-15 北京云量数盟科技有限公司 一种基于强化学习策略操控智能设备的方法
CN113077013A (zh) * 2021-04-28 2021-07-06 上海联麓半导体技术有限公司 基于生成对抗网络的高维数据故障异常检测方法及系统
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114137967B (zh) * 2021-11-23 2023-12-15 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114779661A (zh) * 2022-04-22 2022-07-22 北京科技大学 基于多分类生成对抗模仿学习算法的化学合成机器人系统
CN114660947A (zh) * 2022-05-19 2022-06-24 季华实验室 机器人步态自主学习方法、装置、电子设备及存储介质
CN114660947B (zh) * 2022-05-19 2022-07-29 季华实验室 机器人步态自主学习方法、装置、电子设备及存储介质
CN115373411A (zh) * 2022-05-31 2022-11-22 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动驾驶控制策略决策方法及其系统
CN115990891A (zh) * 2023-03-23 2023-04-21 湖南大学 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法

Similar Documents

Publication Publication Date Title
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
Mehta et al. Active domain randomization
Li et al. Infogail: Interpretable imitation learning from visual demonstrations
Kuremoto et al. Time series forecasting using a deep belief network with restricted Boltzmann machines
CN108594858B (zh) 马尔科夫运动目标的无人机搜索方法及装置
KR20190031318A (ko) 도메인 분리 뉴럴 네트워크들
CN107636691A (zh) 用于识别图像中的文本的方法和设备
Ma et al. Contrastive variational reinforcement learning for complex observations
Yao et al. Direct policy transfer via hidden parameter markov decision processes
Wei et al. Learning motion rules from real data: Neural network for crowd simulation
CN112605973A (zh) 一种机器人运动技能学习方法及系统
CN110110794B (zh) 基于特征函数滤波的神经网络参数更新的图像分类方法
Pan et al. Road safety performance function analysis with visual feature importance of deep neural nets
CN116353623A (zh) 一种基于自监督模仿学习的驾驶控制方法
Kebria et al. Deep imitation learning: The impact of depth on policy performance
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
Hafez et al. Improving robot dual-system motor learning with intrinsically motivated meta-control and latent-space experience imagination
Khedher et al. Improving Decision-Making-Process for Robot Navigation Under Uncertainty.
Tekden et al. Object and relation centric representations for push effect prediction
Park et al. Source term estimation using deep reinforcement learning with Gaussian mixture model feature extraction for mobile sensors
Xu et al. Meta-learning via weighted gradient update
Juan et al. Shaping progressive net of reinforcement learning for policy transfer with human evaluative feedback
Lee et al. Early failure detection of deep end-to-end control policy by reinforcement learning
Liu et al. Hindsight generative adversarial imitation learning
Brosseit et al. Distilled domain randomization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination