CN114290339A - 基于强化学习和残差建模的机器人现实迁移系统和方法 - Google Patents
基于强化学习和残差建模的机器人现实迁移系统和方法 Download PDFInfo
- Publication number
- CN114290339A CN114290339A CN202210221230.5A CN202210221230A CN114290339A CN 114290339 A CN114290339 A CN 114290339A CN 202210221230 A CN202210221230 A CN 202210221230A CN 114290339 A CN114290339 A CN 114290339A
- Authority
- CN
- China
- Prior art keywords
- simulator
- robot
- environment
- data
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000005012 migration Effects 0.000 title claims abstract description 34
- 238000013508 migration Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000006399 behavior Effects 0.000 claims abstract description 37
- 230000009471 action Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000004088 simulation Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 8
- 230000007704 transition Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Landscapes
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明公开一种基于强化学习和残差建模的机器人现实迁移系统和方法,在只有少量混合离线数据和带偏差模拟器的情况下,利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境,这种自适应性使行为策略能够更有效地推广到真实环境。本发明提出了一种机器人训练框架,为减机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。该方法基于离线数据对模拟器环境状态空间和真实环境状态空间的残差进行建模,并使用学得的残差模型修正原始模拟器。最终将机器人在修正模拟器中学到的策略,迁移到真实环境中。
Description
技术领域
本发明涉及一种机器人从模拟环境迁移到现实环境的方法,具体是一种基于强化学习和残差建模的机器人模拟、现实迁移方法和系统,属于机器人控制技术领域。
背景技术
近年来随着深度学习在众多领域的广泛应用,强化学习在仿真环境下已经取得了令人瞩目的成功。不同于监督学习、无监督学习、半监督学习,强化学习主要解决的是序列化决策问题,通过不断与环境进行交互,不断更新行为策略,获取最大累计奖赏。强化学习环境一般被建模成马尔可夫决策过程(MarkovDecisionProcesses),马尔可夫决策模型被定义成<S,A,R,T,γ>对,这里的T是环境的状态空间,A是动作空间,R是奖励函数,T是状态转移函数,γ是折扣系数,取值是0到1之间的实数。强化学习的优化目标就是在环境中训练一个行为策略Π,以此最大化累计折扣奖励的期望。在围棋、星际争霸、Atari游戏、电商推荐系统、自动驾驶等场景下,强化学习得到广泛的应用。这些虚拟仿真环境的主要共性在于,人工智能体可以通过与环境交互获得无限的训练数据,这种在模拟器中的试错不仅让学习过程更快,而且更加安全,不会损害现实中的人身和财产安全。在现实环境的模拟器中学习机器人行为策略是一种常用的方法,这样可以避免在现实世界中尝试和错误。然而,现实情况下很难对实际环境建立高保真高还原度的模拟器。
模拟现实迁移(SimulationtoReality)是强化学习的一个分支,同时也属于迁移学习。主要解决的问题是机器人领域中,直接让机器人或者机械臂在现实环境中与环境进行交互试错会有很大的安全隐患;如果在模拟器中进行强化学习算法的训练,由于模拟器对于物理环境的建模都是存在误差,这个问题称为模拟环境和现实环境的差别鸿沟(RealityGap)。而模拟现实迁移的工作就是去尝试解决这个问题。
目前将机器人决策应用于现实世界并且不需要昂贵试错过程的方法可以分为两大类。一种是模仿学习(ImitationLearning),另一种是在模拟器中训练(TraininSimulator)并迁移到现实环境中。模仿学习通过模仿人类专家的示范行为在真实环境中决策;在模拟器中学习,使用强化学习训练机器人行为策略,然后使其适应现实世界。这两种方法都有自己的局限性:模仿学习需要收集足够的专家演示数据,现实中高性能专家数据的收集有一定的困难;在模拟器中训练强化学习算法需要构建一个完全恢复真实环境的高保真模拟器,既费力又昂贵。另一个严峻且实际的挑战是,模拟和现实世界之间经常存在差异,这导致策略在模拟中工作得很好,但在现实世界中执行得很差。
使用强化学习训练应用于实际场景中的机器人,直接让机器人在现实环境中与环境进行交互、采样时,会出现以下两个比较严重的问题:采样效率低和安全问题。如果在模拟器中进行强化学习算法的训练,以上两个问题均可得到较好解决,目前有许多方法可以在模拟环境中生成机器人控制策略,包括基于运动规划、优化、控制和学习的方法。但是在模拟器中训练机器人同样会存在一个问题,由于模拟器对于实际环境的建模存在误差,这导致策略在模拟中工作得很好,但在现实世界中执行得很差。因此在模拟环境中学习到的最优策略无法直接在实际场景中应用。
在用强化学习算法解决机器人相关问题时,所需要的样本量一般会达到上千万,在现实环境中采集如此数量级的样本要耗费大量的时间。此外,由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错,因而在某些时刻其做出的行为可能会损伤机器人自身,例如手臂转动角度过大或者避障任务中由于碰撞造成的不可逆损伤等等;也可能会破坏周围的环境甚至是威胁周围人的生命安全。
利用人类专家知识和现实目前有许多方法可以在模拟环境中生成机器人控制策略,包括基于运动规划、优化、控制和学习的方法。然而,一个严峻且实际的挑战是,模拟和现实世界之间经常存在差异,这导致策略在模拟中工作得很好,但在现实世界中执行得很差。
发明内容
发明目的:针对现有技术中存在的智能体行为策略的迁移问题与不足,本发明提供一种基于强化学习和残差建模的机器人现实迁移系统和方法。
本发明在只有少量混合离线数据和带偏差模拟器的情况下,利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境,这种自适应性使行为策略能够更有效地推广到真实环境,本发明提出了一种机器人训练框架,为解决机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。离线数据对模拟器环境状态空间和真实环境状态空间的残差建模,将机器人在模拟器中学到的策略,迁移到真实环境中。
技术方案:一种基于强化学习和残差建模的机器人现实迁移系统,包括基于机器学习、强化学习的环境模拟器构造模块,基于强化学习算法的机器人行为策略训练模块,以及行为策略从模拟环境到现实环境迁移优化模块三个部分。
所述环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境。
所述带偏差模拟器基于已有的专家知识建模,由物理引擎实现,包括物理环境建模、机器人建模和环境可视化。
所述完美模拟器基于机器学习和强化学习结合物理引擎实现;完美模拟器基于现实离线数据和带偏差模拟器中离线数据,使用机器学习方法构建现实数据和离线数据的残差,在带偏差模拟器的基础上构建完美模拟器。
所述现实离线数据指的是使用机器人在现实环境中收集的相对少量的数据,数据的形式是{s,a,sˊ},记作Data_real,其中s是现实环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ是机器人在环境中采取动作a后环境发生改变后的状态。
所述带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的相对少量的数据,数据形式是{s,a,sˊ},记作Data_sim,其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。
所述环境模拟器构建模块中,首先,让机器人在现实环境中收集现实离线数据Data_real{s,a,sˊ};其次,让机器人在带偏差模拟器环境中收集离线数据Data_sim{s,a,sˊ};然后,使用机器学习方法针对两个环境中sˊ之间的残差ΔS,训练残差模型,记作residual_model,residual_model能够准确建模现实环境和模拟器环境的状态残差。
所述残差模型的训练使用神经网络作为回归模型,对Data_sim和Data_real进行迭代训练。损失函数是最小均方误差(MSELoss),训练的过程包括以下步骤:
(1)准备两种离线数据Data_sim和Data_real,选定(s,a)为输入特征,选定Data_sim(sˊ)-Data_real(sˊ)作为目标标签;
(2)根据环境状态s的维度,使用神经网络构建回归模型建模残差;
(3)选定目标损失函数为最小均方误差MSELoss,设置网络最大迭代次数,选定神经网络优化器,选定学习率;
(4)开始训练直到达到迭代次数,残差模型训练停止。
所述基于强化学习算法的机器人行为策略训练模块中,使用神经网络来表示机器人的行为策略,用当前的策略在模拟环境中控制机器人,采集样本,借助收集到的样本,使用强化学习算法优化当前机器人行为的策略,直到策略性能不再提升。
所述行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。
一种基于强化学习和残差建模的机器人现实迁移方法,包含以下步骤:
(1)构建一个基于动力学专家先验知识的模拟器环境,这个模拟器环境包括重力规则,密度规则,摩擦力规则。模拟器环境与可视化训练机器人部分基于物理引擎实现。
(2)使用任意混合策略收集机器人在实际场景中的少量混合离线数据,即现实离线数据。
(3)基于带偏差模拟器环境和现实离线数据中的动作,在带偏差模拟器中做出与现实离线数据中相同的动作,采样带偏差模拟器环境中的状态、机器人动作转移数据。
(4)使用神经网络对实际场景中状态空间和模拟器场景中状态空间的残差ΔS 建模。
(5)使用优化算法优化残差模型。
(6)基于实际场景中状态空间和模拟器场景中状态空间的残差ΔS,在模拟器环境的基础上构造近似实际场景的最优模拟器。
(7)在最优模拟器中使用强化学习算法训练机器人,优化机器人行为策略直到机器人的策略收敛。
(8)将在最优模拟器中训练至收敛的机器人迁移到实际场景中。
基于强化学习和残差建模的机器人现实迁移方法和基于强化学习和残差建模的机器人现实迁移系统的具体实现方式相同。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于强化学习和残差建模的机器人现实迁移方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述基于强化学习和残差建模的机器人现实迁移方法的计算机程序。
与现有技术相比,本发明具有以下几个明显益处:
(1)本发明基于混合策略的离线数据构造残差模型,能避免获取昂贵的专家数据;
(2)本发明使用带偏差的模拟器,避免构建昂贵的高保真模型;
(3)本发明对现实环境和模拟器环境的状态残差建模,并非直接对现实环境的状态空间建模,大大加快了算法的收敛性和泛化性,降低了模型学习的难度;
(4)本发明采用基于最大熵的强化学习算法,让机器人智能体有更多的机会探索不同的动作,具有更强的泛化能力。
(5)本发明中机器人不需要在现实环境中训练,只在模拟器中训练,也能在最终的现实环境中取得很好的效果。
(6)本发明可应用于机器人控制算法训练及自动驾驶算法训练等诸多领域,具有广泛的应用前景。
附图说明
图1为本发明实施例的整体框示意图;
图2为本发明实施例的状态残差建模算法流程图;
图3为本发明实施例的机器人策略训练算法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
针对在模拟器中使用强化学习训练机器人得到的行为策略应用在实际场景下表现不佳,导致基于强化学习训练的机器人无法落地应用的问题,提出了一种基于强化学习和残差建模的机器人现实迁移系统和方法。基于强化学习和残差建模的机器人现实迁移系统包括基于机器学习、强化学习的环境模拟器构造模块,基于神经网络和监督学习的残差模型构建模块,基于强化学习智能体的构建模块。如图1所示,包括带偏差模拟器和真实环境中对数据采样和残差模型网络。在强化学习智能体的构建模块中将残差模型和带偏差模拟器相结合,使用强化学习算法训练智能体。
环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境。
带偏差模拟器基于已有的专家知识建模,由物理引擎实现,包括物理环境建模、机器人建模和环境可视化。
完美模拟器基于机器学习和强化学习结合物理引擎实现;完美模拟器基于现实离线数据和带偏差模拟器中离线数据,使用机器学习方法构建现实数据和离线数据的残差,在带偏差模拟器的基础上构建完美模拟器。
现实离线数据指的是使用机器人在现实环境中收集的相对少量的数据,数据的形式是{s,a,sˊ},记作Data_real,其中s是现实环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ是机器人在环境中采取动作a后环境发生改变后的状态。
带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的相对少量的数据,数据形式是{s,a,sˊ},记作Data_sim,其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。
环境模拟器构建模块中,首先,让机器人在现实环境中收集现实离线数据Data_real{s,a,sˊ};其次,让机器人在带偏差模拟器环境中收集离线数据Data_sim{s,a,sˊ};然后,使用机器学习方法针对两个环境中sˊ之间的残差ΔS,训练残差模型,记作residual_ model,residual_model能够准确建模现实环境和模拟器环境的状态残差。
图2所示的是本发明所述的状态残差建模算法流程图。初始状态下有一个由人为构建带偏差的模拟器环境,通过神经网络实现对模拟器环境和真实环境状态转移残差建模。
残差模型的训练使用神经网络作为回归模型,对Data_sim和Data_real进行迭代训练。损失函数是最小均方误差(MSELoss),训练的过程包括以下步骤:
(1)准备两种离线数据Data_sim和Data_real,选定(s,a)为输入特征,选定Data_sim(sˊ)-Data_real(sˊ)作为目标标签;
(2)根据环境状态s的维度,使用神经网络构建回归模型建模残差;
(3)选定目标损失函数为最小均方误差MSELoss,设置网络最大迭代次数,选定神经网络优化器,选定学习率;
(4)开始训练直到达到迭代次数,残差模型训练停止。
状态残差建模算法的伪代码如算法1所示:
算法1:状态残差建模算法
输入:残差数据集Datadiff={(s 1,a 1,r 1,⊿s 1), (s 2,a 2,r 2,⊿s 2),…, (s n ,a n ,r n ,⊿s n )}
输出:残差模型R θ
1: 初始化残差建模网络及其参数θ
2: 初始化最大迭代次数N,初始化批量数据大小batch
3:for n=1 to N do:
4: for batch in Datadiff do:
5: prediction=R θ (batch) // prediction是残差预测模型R θ 预测的结果
6: loss=MSELoss(prediction, ⊿s)
7: 反向传播求梯度
8: 更新网络参数θ
9: end for
10: end for
基于强化学习算法的机器人行为策略训练模块中,使用神经网络来表示机器人的行为策略,用当前的策略在模拟环境中控制机器人,采集样本,借助收集到的样本,使用强化学习算法优化当前机器人行为的策略,直到策略性能不再提升。
机器人行为策略训练算法的伪代码如算法2所示:
算法2:机器人行为策略训练算法
输出:机器人行为策略πθ
1: 初始化Q网络及其参数θ 1,θ 2
3: 初始化机器人行为策略π及其参数θ
4: 初始化经验回放池D
5: 初始化迭代次数iteration,最大步数step
6: for n=1 to iteration do
7: for t=1 to step do
12: 随机从回放池D中采样B,其中B={(s,a, sˊ,done)},done是状态结束标记位
13: end for
14: for n % update == 0 do
15: 计算目标网络的Q函数:
16: 更新Q函数
19: end for
20: end for
行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。
图3所示的是本发明所述的强化学习算法训练流程图。初始状态下有一个训练好的残差模型和未被训练的机器人智能体,通过强化学习算法训练机器人行为策略。
一种基于强化学习和残差建模的机器人现实迁移方法,包含以下步骤:
步骤1:基于人类专家知识对现实环境和机器人的物理特征建模,构建模拟器环境,模拟器环境包括重力特征,密度特征,摩擦力特征,机器人速度特征。构建对应现实环境的带偏差模拟器 Simbias,机器人Agent,根据环境状态和机器人行为动作设计机器人奖励函数reward=((s t+1 -s t )/0.008+1)-0.001*a t 。其中,reward表示奖励函数的计算方式,s t 表示当前时刻机器人状态特征,s t+1 是下一时刻机器人状态特征,a t 表示当前时刻机器人做出的动作。
步骤2:分别收集现实环境和带偏差模拟器中机器人的观察数据和行为数据Data_real{(s 1,a 1,sˊ1),(s 2,a 2,sˊ2),…,(s n,a n,sˊn)}和 Data_sim{(s 1,a 1,sˊ1),(s 2,a 2,sˊ2),…,(s n,a n,sˊn)},根据Data_real和Data_sim构建残差模型的训练数据集,记作Data_diff{(s 1,a 1,Δsˊ1),(s 2,a 2,Δsˊ2),…,(s n,a n,Δsˊn)},其中ΔS是模拟器环境和现实环境状态差值并做归一化后的结果,即ΔS’=Normalize(S’ Data_real -S’ Data_sim ),Δsˊn为集合ΔS’的第n个元素。其中,S’ Data_real 表示在集合Data_real中的s’, S’ Data_sim 表示在集合Data_sim中的s’。ΔS’表示对S’ Data_real 和S’ Data_sim 做差并对结果进行归一化处理。
步骤3:根据Data_diff搭建预测状态残差的多层前馈神经网络residual_model θ ,输入是Data_diff{ s n ,a n },预测标签是Data_diff{Δsˊn},损失函数是:
设置网络最大迭代次数,选定神经网络优化器,选定学习率。
步骤4:对步骤3中神经网络residual_model θ 使用优化器迭代优化,直到最大迭代步数。
步骤5:构建强化学习算法,包括以下两个步骤:使用前馈神经网络构建Actor行为
策略网络并初始化,记作π ϕ ,使用前馈神经网络构建Critic价值评判网络Q并初始化,参数
分别为θ 1,θ 2。初始化目标价值网络,其参数是,。构建一个空回放池D。
步骤6:在带偏差模拟器Simbias中训练机器人,具体步骤如下:
(1)机器人对于当前带偏差模拟器的状态s t使用行为决策网络做出动作a t,其中
a t =π ϕ (a t|s t);
(2)基于(s t,a t),带偏差模拟器给出环境下一状态s t+1和当前动作奖励r;
(3)对于(s t,a t),使用步骤4中的前馈神经网络residual_model θ 残差建模,输出现实环境和模拟器环境的状态残差ΔS;
(4)将当前转移信息加入回放池D,D= D∪{(s t,a t,r,s t+1+ΔS)};
(5)随机地从回放池D中采样B,其中B={(s,a, sˊ,done)},done是状态结束标记位;
(6)计算目标网络的Q函数,
(7)更新Q函数
(8)更新策略网络的参数
(9)更新目标价值网络
(10)重复步骤6中的(5)~(9)step次。其中step是一个超参数。
步骤7:重复步骤6直到机器人的行为策略收敛。
步骤8:将模拟器中训练完成的机器人行为策略π ϕ 部署在实际环境中。显然,本领域的技术人员应该明白,上述的本发明实施例的基于强化学习和残差建模的机器人现实迁移方法各步骤或基于强化学习和残差建模的机器人现实迁移系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (10)
1.一种基于强化学习和残差建模的机器人现实迁移系统,其特征在于,包括基于机器学习、强化学习的环境模拟器构造模块,基于强化学习算法的机器人行为策略训练模块,以及行为策略从模拟环境到现实环境迁移优化模块三个部分;
所述环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境;
所述带偏差模拟器基于已有的专家知识建模,包括物理环境建模、机器人建模和环境可视化;
所述完美模拟器基于机器学习和强化学习结合物理引擎实现;完美模拟器基于现实离线数据和带偏差模拟器中离线数据,使用机器学习方法构建现实数据和离线数据的残差,在带偏差模拟器的基础上构建完美模拟器。
2.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述现实离线数据指的是使用机器人在现实环境中收集的数据,数据的形式是{s,a,sˊ},记作Data_real,其中s是现实环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ是机器人在环境中采取动作a后环境发生改变后的状态。
3.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的数据,数据形式是{s,a,sˊ},记作Data_sim,其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。
4.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述环境模拟器构建模块中,首先,让机器人在现实环境中收集现实离线数据Data_real{s,a,sˊ};其次,让机器人在带偏差模拟器环境中收集离线数据Data_sim{s,a,sˊ};然后,使用机器学习方法针对两个环境中sˊ之间的残差ΔS,训练残差模型,记作residual_ model,residual_model能够准确建模现实环境和模拟器环境的状态残差。
5.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述残差模型的训练使用神经网络作为回归模型,对Data_sim和Data_real进行迭代训练;
损失函数是最小均方误差MSELoss,训练的过程包括以下步骤:
(1)准备两种离线数据Data_sim和Data_real,选定(s,a)为输入特征,选定Data_sim(sˊ)-Data_real(sˊ)作为目标标签;
(2)根据环境状态s的维度,使用神经网络构建回归模型建模残差;
(3)选定目标损失函数为最小均方误差MSELoss,设置网络最大迭代次数,选定神经网络优化器,选定学习率;
(4)开始训练直到达到迭代次数,残差模型训练停止。
6.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。
7.一种基于强化学习和残差建模的机器人现实迁移方法,其特征在于,包含以下步骤:
(1)构建一个基于动力学专家先验知识的模拟器环境,模拟器环境与可视化训练机器人部分基于物理引擎实现,对模拟器环境进行可视化渲染;
(2)使用任意混合策略收集机器人在实际场景中的现实离线数据;
(3)基于带偏差模拟器环境和现实离线数据中的动作,在带偏差模拟器中做出与现实离线数据中相同的动作,采样带偏差模拟器环境中的状态、机器人动作转移数据;
(4)使用神经网络对实际场景中状态空间和模拟器场景中状态空间的残差ΔS 建模;
(5)使用优化算法优化残差模型;
(6)基于实际场景中状态空间和模拟器场景中状态空间的残差ΔS,在模拟器环境的基础上构造近似实际场景的最优模拟器;
(7)在最优模拟器中使用强化学习算法训练机器人,优化机器人行为策略直到机器人的策略收敛;
(8)将在最优模拟器中训练至收敛的机器人迁移到实际场景中。
8.根据权利要求7所述的基于强化学习和残差建模的机器人现实迁移方法,其特征在于,构建一个基于动力学专家先验知识的模拟器环境,模拟器环境与可视化训练机器人部分基于物理引擎实现。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求7-8中任一项所述的基于强化学习和残差建模的机器人现实迁移方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求7-8中任一项所述基于强化学习和残差建模的机器人现实迁移方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221230.5A CN114290339B (zh) | 2022-03-09 | 2022-03-09 | 基于强化学习和残差建模的机器人现实迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221230.5A CN114290339B (zh) | 2022-03-09 | 2022-03-09 | 基于强化学习和残差建模的机器人现实迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114290339A true CN114290339A (zh) | 2022-04-08 |
CN114290339B CN114290339B (zh) | 2022-06-21 |
Family
ID=80978711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210221230.5A Active CN114290339B (zh) | 2022-03-09 | 2022-03-09 | 基于强化学习和残差建模的机器人现实迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114290339B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115454096A (zh) * | 2022-10-09 | 2022-12-09 | 哈尔滨工业大学 | 一种基于课程强化学习的机器人策略训练系统及训练方法 |
CN116276956A (zh) * | 2022-12-01 | 2023-06-23 | 北京科技大学 | 定制化药物制备的机器人操作技能模仿学习方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160291623A1 (en) * | 2015-03-31 | 2016-10-06 | Enernoc, Inc. | Demand response dispatch system employing weather induced facility energy consumption characterizations |
CN111260026A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于元强化学习的导航迁移方法 |
CN113093779A (zh) * | 2021-03-25 | 2021-07-09 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113281999A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 |
US20210271978A1 (en) * | 2020-02-28 | 2021-09-02 | International Business Machines Corporation | Sim-to-real learning of 2d multiple sound source localization |
-
2022
- 2022-03-09 CN CN202210221230.5A patent/CN114290339B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160291623A1 (en) * | 2015-03-31 | 2016-10-06 | Enernoc, Inc. | Demand response dispatch system employing weather induced facility energy consumption characterizations |
CN111260026A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于元强化学习的导航迁移方法 |
US20210271978A1 (en) * | 2020-02-28 | 2021-09-02 | International Business Machines Corporation | Sim-to-real learning of 2d multiple sound source localization |
CN113093779A (zh) * | 2021-03-25 | 2021-07-09 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113281999A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 |
Non-Patent Citations (1)
Title |
---|
FLORIAN GOLEMO等: "Sim-to-Real Transfer with Neural-Augmented Robot Simulation", 《2ND CONFERENCE ON ROBOT LEARNING (CORL 2018)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115454096A (zh) * | 2022-10-09 | 2022-12-09 | 哈尔滨工业大学 | 一种基于课程强化学习的机器人策略训练系统及训练方法 |
CN116276956A (zh) * | 2022-12-01 | 2023-06-23 | 北京科技大学 | 定制化药物制备的机器人操作技能模仿学习方法及装置 |
CN116276956B (zh) * | 2022-12-01 | 2023-12-08 | 北京科技大学 | 定制化药物制备的机器人操作技能模仿学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114290339B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goecks et al. | Integrating behavior cloning and reinforcement learning for improved performance in dense and sparse reward environments | |
Vecerik et al. | Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards | |
Ding et al. | Challenges of reinforcement learning | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
US20220366246A1 (en) | Controlling agents using causally correct environment models | |
CN108983605B (zh) | 一种基于深度强化学习进行流体导向的刚体控制的方法 | |
CN108009635A (zh) | 一种支持增量更新的深度卷积计算模型 | |
CN112434791A (zh) | 多智能体强对抗仿真方法、装置及电子设备 | |
CN112257864B (zh) | 一种用于解决灾难性遗忘问题的终生学习方法 | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
KR20230065343A (ko) | 메쉬 표현 및 그래프 신경망을 사용한 물리적 환경 시뮬레이션 | |
US20220410380A1 (en) | Learning robotic skills with imitation and reinforcement at scale | |
CN115972211A (zh) | 基于模型不确定性与行为先验的控制策略离线训练方法 | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
Wang et al. | Consciousness‐driven reinforcement learning: An online learning control framework | |
Sharma et al. | Model based path planning using Q-Learning | |
CN116360435A (zh) | 基于情节记忆的多智能体协同策略的训练方法和系统 | |
CN116352700A (zh) | 基于随机网络预测误差的专家数据扩增方法和装置 | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及系统 | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
US11501167B2 (en) | Learning domain randomization distributions for transfer learning | |
KR20230079804A (ko) | 상태 전이를 선형화하는 강화 학습에 기반한 전자 장치 및 그 방법 | |
KR20230038136A (ko) | 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템 | |
CN118393973B (zh) | 一种自动驾驶控制方法、装置、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |