CN114290339A - 基于强化学习和残差建模的机器人现实迁移系统和方法 - Google Patents

基于强化学习和残差建模的机器人现实迁移系统和方法 Download PDF

Info

Publication number
CN114290339A
CN114290339A CN202210221230.5A CN202210221230A CN114290339A CN 114290339 A CN114290339 A CN 114290339A CN 202210221230 A CN202210221230 A CN 202210221230A CN 114290339 A CN114290339 A CN 114290339A
Authority
CN
China
Prior art keywords
simulator
robot
environment
data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210221230.5A
Other languages
English (en)
Other versions
CN114290339B (zh
Inventor
俞扬
刘驭壬
詹德川
周志华
魏宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202210221230.5A priority Critical patent/CN114290339B/zh
Publication of CN114290339A publication Critical patent/CN114290339A/zh
Application granted granted Critical
Publication of CN114290339B publication Critical patent/CN114290339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种基于强化学习和残差建模的机器人现实迁移系统和方法,在只有少量混合离线数据和带偏差模拟器的情况下,利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境,这种自适应性使行为策略能够更有效地推广到真实环境。本发明提出了一种机器人训练框架,为减机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。该方法基于离线数据对模拟器环境状态空间和真实环境状态空间的残差进行建模,并使用学得的残差模型修正原始模拟器。最终将机器人在修正模拟器中学到的策略,迁移到真实环境中。

Description

基于强化学习和残差建模的机器人现实迁移系统和方法
技术领域
本发明涉及一种机器人从模拟环境迁移到现实环境的方法,具体是一种基于强化学习和残差建模的机器人模拟、现实迁移方法和系统,属于机器人控制技术领域。
背景技术
近年来随着深度学习在众多领域的广泛应用,强化学习在仿真环境下已经取得了令人瞩目的成功。不同于监督学习、无监督学习、半监督学习,强化学习主要解决的是序列化决策问题,通过不断与环境进行交互,不断更新行为策略,获取最大累计奖赏。强化学习环境一般被建模成马尔可夫决策过程(MarkovDecisionProcesses),马尔可夫决策模型被定义成<S,A,RTγ>对,这里的T是环境的状态空间,A是动作空间,R是奖励函数,T是状态转移函数,γ是折扣系数,取值是0到1之间的实数。强化学习的优化目标就是在环境中训练一个行为策略Π,以此最大化累计折扣奖励的期望。在围棋、星际争霸、Atari游戏、电商推荐系统、自动驾驶等场景下,强化学习得到广泛的应用。这些虚拟仿真环境的主要共性在于,人工智能体可以通过与环境交互获得无限的训练数据,这种在模拟器中的试错不仅让学习过程更快,而且更加安全,不会损害现实中的人身和财产安全。在现实环境的模拟器中学习机器人行为策略是一种常用的方法,这样可以避免在现实世界中尝试和错误。然而,现实情况下很难对实际环境建立高保真高还原度的模拟器。
模拟现实迁移(SimulationtoReality)是强化学习的一个分支,同时也属于迁移学习。主要解决的问题是机器人领域中,直接让机器人或者机械臂在现实环境中与环境进行交互试错会有很大的安全隐患;如果在模拟器中进行强化学习算法的训练,由于模拟器对于物理环境的建模都是存在误差,这个问题称为模拟环境和现实环境的差别鸿沟(RealityGap)。而模拟现实迁移的工作就是去尝试解决这个问题。
目前将机器人决策应用于现实世界并且不需要昂贵试错过程的方法可以分为两大类。一种是模仿学习(ImitationLearning),另一种是在模拟器中训练(TraininSimulator)并迁移到现实环境中。模仿学习通过模仿人类专家的示范行为在真实环境中决策;在模拟器中学习,使用强化学习训练机器人行为策略,然后使其适应现实世界。这两种方法都有自己的局限性:模仿学习需要收集足够的专家演示数据,现实中高性能专家数据的收集有一定的困难;在模拟器中训练强化学习算法需要构建一个完全恢复真实环境的高保真模拟器,既费力又昂贵。另一个严峻且实际的挑战是,模拟和现实世界之间经常存在差异,这导致策略在模拟中工作得很好,但在现实世界中执行得很差。
使用强化学习训练应用于实际场景中的机器人,直接让机器人在现实环境中与环境进行交互、采样时,会出现以下两个比较严重的问题:采样效率低和安全问题。如果在模拟器中进行强化学习算法的训练,以上两个问题均可得到较好解决,目前有许多方法可以在模拟环境中生成机器人控制策略,包括基于运动规划、优化、控制和学习的方法。但是在模拟器中训练机器人同样会存在一个问题,由于模拟器对于实际环境的建模存在误差,这导致策略在模拟中工作得很好,但在现实世界中执行得很差。因此在模拟环境中学习到的最优策略无法直接在实际场景中应用。
在用强化学习算法解决机器人相关问题时,所需要的样本量一般会达到上千万,在现实环境中采集如此数量级的样本要耗费大量的时间。此外,由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错,因而在某些时刻其做出的行为可能会损伤机器人自身,例如手臂转动角度过大或者避障任务中由于碰撞造成的不可逆损伤等等;也可能会破坏周围的环境甚至是威胁周围人的生命安全。
利用人类专家知识和现实目前有许多方法可以在模拟环境中生成机器人控制策略,包括基于运动规划、优化、控制和学习的方法。然而,一个严峻且实际的挑战是,模拟和现实世界之间经常存在差异,这导致策略在模拟中工作得很好,但在现实世界中执行得很差。
发明内容
发明目的:针对现有技术中存在的智能体行为策略的迁移问题与不足,本发明提供一种基于强化学习和残差建模的机器人现实迁移系统和方法。
本发明在只有少量混合离线数据和带偏差模拟器的情况下,利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境,这种自适应性使行为策略能够更有效地推广到真实环境,本发明提出了一种机器人训练框架,为解决机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。离线数据对模拟器环境状态空间和真实环境状态空间的残差建模,将机器人在模拟器中学到的策略,迁移到真实环境中。
技术方案:一种基于强化学习和残差建模的机器人现实迁移系统,包括基于机器学习、强化学习的环境模拟器构造模块,基于强化学习算法的机器人行为策略训练模块,以及行为策略从模拟环境到现实环境迁移优化模块三个部分。
所述环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境。
所述带偏差模拟器基于已有的专家知识建模,由物理引擎实现,包括物理环境建模、机器人建模和环境可视化。
所述完美模拟器基于机器学习和强化学习结合物理引擎实现;完美模拟器基于现实离线数据和带偏差模拟器中离线数据,使用机器学习方法构建现实数据和离线数据的残差,在带偏差模拟器的基础上构建完美模拟器。
所述现实离线数据指的是使用机器人在现实环境中收集的相对少量的数据,数据的形式是{sasˊ},记作Data_real,其中s是现实环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ是机器人在环境中采取动作a后环境发生改变后的状态。
所述带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的相对少量的数据,数据形式是{sasˊ},记作Data_sim,其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。
所述环境模拟器构建模块中,首先,让机器人在现实环境中收集现实离线数据Data_real{sasˊ};其次,让机器人在带偏差模拟器环境中收集离线数据Data_sim{sasˊ};然后,使用机器学习方法针对两个环境中sˊ之间的残差ΔS,训练残差模型,记作residual_modelresidual_model能够准确建模现实环境和模拟器环境的状态残差。
所述残差模型的训练使用神经网络作为回归模型,对Data_simData_real进行迭代训练。损失函数是最小均方误差(MSELoss),训练的过程包括以下步骤:
(1)准备两种离线数据Data_simData_real,选定(sa)为输入特征,选定Data_simsˊ)-Data_realsˊ)作为目标标签;
(2)根据环境状态s的维度,使用神经网络构建回归模型建模残差;
(3)选定目标损失函数为最小均方误差MSELoss,设置网络最大迭代次数,选定神经网络优化器,选定学习率;
(4)开始训练直到达到迭代次数,残差模型训练停止。
所述基于强化学习算法的机器人行为策略训练模块中,使用神经网络来表示机器人的行为策略,用当前的策略在模拟环境中控制机器人,采集样本,借助收集到的样本,使用强化学习算法优化当前机器人行为的策略,直到策略性能不再提升。
所述行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。
一种基于强化学习和残差建模的机器人现实迁移方法,包含以下步骤:
(1)构建一个基于动力学专家先验知识的模拟器环境,这个模拟器环境包括重力规则,密度规则,摩擦力规则。模拟器环境与可视化训练机器人部分基于物理引擎实现。
(2)使用任意混合策略收集机器人在实际场景中的少量混合离线数据,即现实离线数据。
(3)基于带偏差模拟器环境和现实离线数据中的动作,在带偏差模拟器中做出与现实离线数据中相同的动作,采样带偏差模拟器环境中的状态、机器人动作转移数据。
(4)使用神经网络对实际场景中状态空间和模拟器场景中状态空间的残差ΔS 建模。
(5)使用优化算法优化残差模型。
(6)基于实际场景中状态空间和模拟器场景中状态空间的残差ΔS,在模拟器环境的基础上构造近似实际场景的最优模拟器。
(7)在最优模拟器中使用强化学习算法训练机器人,优化机器人行为策略直到机器人的策略收敛。
(8)将在最优模拟器中训练至收敛的机器人迁移到实际场景中。
基于强化学习和残差建模的机器人现实迁移方法和基于强化学习和残差建模的机器人现实迁移系统的具体实现方式相同。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于强化学习和残差建模的机器人现实迁移方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述基于强化学习和残差建模的机器人现实迁移方法的计算机程序。
与现有技术相比,本发明具有以下几个明显益处:
(1)本发明基于混合策略的离线数据构造残差模型,能避免获取昂贵的专家数据;
(2)本发明使用带偏差的模拟器,避免构建昂贵的高保真模型;
(3)本发明对现实环境和模拟器环境的状态残差建模,并非直接对现实环境的状态空间建模,大大加快了算法的收敛性和泛化性,降低了模型学习的难度;
(4)本发明采用基于最大熵的强化学习算法,让机器人智能体有更多的机会探索不同的动作,具有更强的泛化能力。
(5)本发明中机器人不需要在现实环境中训练,只在模拟器中训练,也能在最终的现实环境中取得很好的效果。
(6)本发明可应用于机器人控制算法训练及自动驾驶算法训练等诸多领域,具有广泛的应用前景。
附图说明
图1为本发明实施例的整体框示意图;
图2为本发明实施例的状态残差建模算法流程图;
图3为本发明实施例的机器人策略训练算法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
针对在模拟器中使用强化学习训练机器人得到的行为策略应用在实际场景下表现不佳,导致基于强化学习训练的机器人无法落地应用的问题,提出了一种基于强化学习和残差建模的机器人现实迁移系统和方法。基于强化学习和残差建模的机器人现实迁移系统包括基于机器学习、强化学习的环境模拟器构造模块,基于神经网络和监督学习的残差模型构建模块,基于强化学习智能体的构建模块。如图1所示,包括带偏差模拟器和真实环境中对数据采样和残差模型网络。在强化学习智能体的构建模块中将残差模型和带偏差模拟器相结合,使用强化学习算法训练智能体。
环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境。
带偏差模拟器基于已有的专家知识建模,由物理引擎实现,包括物理环境建模、机器人建模和环境可视化。
完美模拟器基于机器学习和强化学习结合物理引擎实现;完美模拟器基于现实离线数据和带偏差模拟器中离线数据,使用机器学习方法构建现实数据和离线数据的残差,在带偏差模拟器的基础上构建完美模拟器。
现实离线数据指的是使用机器人在现实环境中收集的相对少量的数据,数据的形式是{sasˊ},记作Data_real,其中s是现实环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ是机器人在环境中采取动作a后环境发生改变后的状态。
带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的相对少量的数据,数据形式是{sasˊ},记作Data_sim,其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。
环境模拟器构建模块中,首先,让机器人在现实环境中收集现实离线数据Data_real{sasˊ};其次,让机器人在带偏差模拟器环境中收集离线数据Data_sim{sasˊ};然后,使用机器学习方法针对两个环境中sˊ之间的残差ΔS,训练残差模型,记作residual_ modelresidual_model能够准确建模现实环境和模拟器环境的状态残差。
图2所示的是本发明所述的状态残差建模算法流程图。初始状态下有一个由人为构建带偏差的模拟器环境,通过神经网络实现对模拟器环境和真实环境状态转移残差建模。
残差模型的训练使用神经网络作为回归模型,对Data_simData_real进行迭代训练。损失函数是最小均方误差(MSELoss),训练的过程包括以下步骤:
(1)准备两种离线数据Data_simData_real,选定(sa)为输入特征,选定Data_simsˊ)-Data_realsˊ)作为目标标签;
(2)根据环境状态s的维度,使用神经网络构建回归模型建模残差;
(3)选定目标损失函数为最小均方误差MSELoss,设置网络最大迭代次数,选定神经网络优化器,选定学习率;
(4)开始训练直到达到迭代次数,残差模型训练停止。
状态残差建模算法的伪代码如算法1所示:
算法1:状态残差建模算法
输入:残差数据集Datadiff={(s 1,a 1,r 1,⊿s 1), (s 2,a 2,r 2,⊿s 2),…, (s n ,a n ,r n ,⊿s n )}
输出:残差模型R θ
1: 初始化残差建模网络及其参数θ
2: 初始化最大迭代次数N,初始化批量数据大小batch
3:for n=1 to N do:
4: for batch in Datadiff do:
5: prediction=R θ (batch) // prediction是残差预测模型R θ 预测的结果
6: loss=MSELoss(prediction,s)
7: 反向传播求梯度
8: 更新网络参数θ
9: end for
10: end for
基于强化学习算法的机器人行为策略训练模块中,使用神经网络来表示机器人的行为策略,用当前的策略在模拟环境中控制机器人,采集样本,借助收集到的样本,使用强化学习算法优化当前机器人行为的策略,直到策略性能不再提升。
机器人行为策略训练算法的伪代码如算法2所示:
算法2:机器人行为策略训练算法
输入:带偏差的模拟器Simbias
Figure 217045DEST_PATH_IMAGE001
状态残差预测模型R
输出:机器人行为策略πθ
1: 初始化Q网络及其参数θ 1θ 2
2: 初始化目标价值网络Q target 网络及其参数
Figure 799468DEST_PATH_IMAGE002
Figure 632294DEST_PATH_IMAGE003
,批量数据的大小batch
3: 初始化机器人行为策略π及其参数θ
4: 初始化经验回放池D
5: 初始化迭代次数iteration,最大步数step
6: for n=1 to iteration do
7: for t=1 to step do
8: 机器人从策略函数中采样动作,
Figure 320765DEST_PATH_IMAGE004
9: 从模拟器环境Simbias中获取状态转移,
Figure 989775DEST_PATH_IMAGE005
10: 计算模拟器环境状态和真实环境中状态残差,
Figure 890734DEST_PATH_IMAGE006
11: 保存状态转移数据,
Figure 312488DEST_PATH_IMAGE007
12: 随机从回放池D中采样B,其中B={(s,a, sˊ,done)},done是状态结束标记位
13: end for
14: for n % update == 0 do
15: 计算目标网络的Q函数:
Figure 640702DEST_PATH_IMAGE008
Figure 262919DEST_PATH_IMAGE009
//
Figure 967570DEST_PATH_IMAGE010
是目标价值网络,log是以10为底的对数函数,y表示目标网络最终的Q函数 值
16: 更新Q函数
Figure 509410DEST_PATH_IMAGE011
//
Figure 8525DEST_PATH_IMAGE012
是价值网络
17: 更新策略网络的参数
Figure 183285DEST_PATH_IMAGE013
18: 更新目标价值网络
Figure 160468DEST_PATH_IMAGE014
//ρ是一个0~1之间的超参数
19: end for
20: end for
行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。
图3所示的是本发明所述的强化学习算法训练流程图。初始状态下有一个训练好的残差模型和未被训练的机器人智能体,通过强化学习算法训练机器人行为策略。
一种基于强化学习和残差建模的机器人现实迁移方法,包含以下步骤:
步骤1:基于人类专家知识对现实环境和机器人的物理特征建模,构建模拟器环境,模拟器环境包括重力特征,密度特征,摩擦力特征,机器人速度特征。构建对应现实环境的带偏差模拟器 Simbias,机器人Agent,根据环境状态和机器人行为动作设计机器人奖励函数reward=((s t+1 -s t )/0.008+1)-0.001*a t 。其中,reward表示奖励函数的计算方式,s t 表示当前时刻机器人状态特征,s t+1 是下一时刻机器人状态特征,a t 表示当前时刻机器人做出的动作。
步骤2:分别收集现实环境和带偏差模拟器中机器人的观察数据和行为数据Data_real{(s 1a 1sˊ1),(s 2a 2sˊ2),…,(s na nsˊn)}和 Data_sim{(s 1a 1sˊ1),(s 2a 2sˊ2),…,(s na nsˊn)},根据Data_realData_sim构建残差模型的训练数据集,记作Data_diff{(s 1a 1Δsˊ1),(s 2a 2Δsˊ2),…,(s na nΔsˊn)},其中ΔS是模拟器环境和现实环境状态差值并做归一化后的结果,即ΔS’=Normalize(S’ Data_real -S’ Data_sim Δsˊn为集合ΔS’的第n个元素。其中,S’ Data_real 表示在集合Data_real中的s’, S’ Data_sim 表示在集合Data_sim中的s’。ΔS’表示对S’ Data_real S’ Data_sim 做差并对结果进行归一化处理。
步骤3:根据Data_diff搭建预测状态残差的多层前馈神经网络residual_model θ ,输入是Data_diff{ s n a n },预测标签是Data_diff{Δsˊn},损失函数是:
Figure 556815DEST_PATH_IMAGE015
设置网络最大迭代次数,选定神经网络优化器,选定学习率。
步骤4:对步骤3中神经网络residual_model θ 使用优化器迭代优化,直到最大迭代步数。
步骤5:构建强化学习算法,包括以下两个步骤:使用前馈神经网络构建Actor行为 策略网络并初始化,记作π ϕ ,使用前馈神经网络构建Critic价值评判网络Q并初始化,参数 分别为θ 1θ 2。初始化目标价值网络,其参数是
Figure 977563DEST_PATH_IMAGE002
Figure 92149DEST_PATH_IMAGE003
。构建一个空回放池D
步骤6:在带偏差模拟器Simbias中训练机器人,具体步骤如下:
(1)机器人对于当前带偏差模拟器的状态s t使用行为决策网络做出动作a t,其中
a t ϕ a t|s t);
(2)基于(s ta t),带偏差模拟器给出环境下一状态s t+1和当前动作奖励r
(3)对于(s ta t),使用步骤4中的前馈神经网络residual_model θ 残差建模,输出现实环境和模拟器环境的状态残差ΔS
(4)将当前转移信息加入回放池DD= D∪{(s ta trs t+1+ΔS)};
(5)随机地从回放池D中采样B,其中B={(s,a, sˊ,done)},done是状态结束标记位;
(6)计算目标网络的Q函数,
Figure 669761DEST_PATH_IMAGE016
Figure 936926DEST_PATH_IMAGE017
其中
Figure 777843DEST_PATH_IMAGE018
是目标价值网络,log是以10为底的对数函数,y表示目标网络最终的Q函 数值。其中α是熵超参数;
(7)更新Q函数
Figure 379725DEST_PATH_IMAGE019
其中
Figure 964290DEST_PATH_IMAGE020
是价值网络;
(8)更新策略网络的参数
Figure 840890DEST_PATH_IMAGE021
(9)更新目标价值网络
Figure 852708DEST_PATH_IMAGE022
,其中ρ是一个0~1之间的超参数;
(10)重复步骤6中的(5)~(9)step次。其中step是一个超参数。
步骤7:重复步骤6直到机器人的行为策略收敛。
步骤8:将模拟器中训练完成的机器人行为策略π ϕ 部署在实际环境中。显然,本领域的技术人员应该明白,上述的本发明实施例的基于强化学习和残差建模的机器人现实迁移方法各步骤或基于强化学习和残差建模的机器人现实迁移系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于强化学习和残差建模的机器人现实迁移系统,其特征在于,包括基于机器学习、强化学习的环境模拟器构造模块,基于强化学习算法的机器人行为策略训练模块,以及行为策略从模拟环境到现实环境迁移优化模块三个部分;
所述环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境;
所述带偏差模拟器基于已有的专家知识建模,包括物理环境建模、机器人建模和环境可视化;
所述完美模拟器基于机器学习和强化学习结合物理引擎实现;完美模拟器基于现实离线数据和带偏差模拟器中离线数据,使用机器学习方法构建现实数据和离线数据的残差,在带偏差模拟器的基础上构建完美模拟器。
2.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述现实离线数据指的是使用机器人在现实环境中收集的数据,数据的形式是{sasˊ},记作Data_real,其中s是现实环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ是机器人在环境中采取动作a后环境发生改变后的状态。
3.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的数据,数据形式是{sasˊ},记作Data_sim,其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态,a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作,sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。
4.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述环境模拟器构建模块中,首先,让机器人在现实环境中收集现实离线数据Data_real{sasˊ};其次,让机器人在带偏差模拟器环境中收集离线数据Data_sim{sasˊ};然后,使用机器学习方法针对两个环境中sˊ之间的残差ΔS,训练残差模型,记作residual_ modelresidual_model能够准确建模现实环境和模拟器环境的状态残差。
5.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述残差模型的训练使用神经网络作为回归模型,对Data_simData_real进行迭代训练;
损失函数是最小均方误差MSELoss,训练的过程包括以下步骤:
(1)准备两种离线数据Data_simData_real,选定(sa)为输入特征,选定Data_simsˊ)-Data_realsˊ)作为目标标签;
(2)根据环境状态s的维度,使用神经网络构建回归模型建模残差;
(3)选定目标损失函数为最小均方误差MSELoss,设置网络最大迭代次数,选定神经网络优化器,选定学习率;
(4)开始训练直到达到迭代次数,残差模型训练停止。
6.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统,其特征在于,所述行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。
7.一种基于强化学习和残差建模的机器人现实迁移方法,其特征在于,包含以下步骤:
(1)构建一个基于动力学专家先验知识的模拟器环境,模拟器环境与可视化训练机器人部分基于物理引擎实现,对模拟器环境进行可视化渲染;
(2)使用任意混合策略收集机器人在实际场景中的现实离线数据;
(3)基于带偏差模拟器环境和现实离线数据中的动作,在带偏差模拟器中做出与现实离线数据中相同的动作,采样带偏差模拟器环境中的状态、机器人动作转移数据;
(4)使用神经网络对实际场景中状态空间和模拟器场景中状态空间的残差ΔS 建模;
(5)使用优化算法优化残差模型;
(6)基于实际场景中状态空间和模拟器场景中状态空间的残差ΔS,在模拟器环境的基础上构造近似实际场景的最优模拟器;
(7)在最优模拟器中使用强化学习算法训练机器人,优化机器人行为策略直到机器人的策略收敛;
(8)将在最优模拟器中训练至收敛的机器人迁移到实际场景中。
8.根据权利要求7所述的基于强化学习和残差建模的机器人现实迁移方法,其特征在于,构建一个基于动力学专家先验知识的模拟器环境,模拟器环境与可视化训练机器人部分基于物理引擎实现。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求7-8中任一项所述的基于强化学习和残差建模的机器人现实迁移方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求7-8中任一项所述基于强化学习和残差建模的机器人现实迁移方法的计算机程序。
CN202210221230.5A 2022-03-09 2022-03-09 基于强化学习和残差建模的机器人现实迁移方法 Active CN114290339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221230.5A CN114290339B (zh) 2022-03-09 2022-03-09 基于强化学习和残差建模的机器人现实迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221230.5A CN114290339B (zh) 2022-03-09 2022-03-09 基于强化学习和残差建模的机器人现实迁移方法

Publications (2)

Publication Number Publication Date
CN114290339A true CN114290339A (zh) 2022-04-08
CN114290339B CN114290339B (zh) 2022-06-21

Family

ID=80978711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221230.5A Active CN114290339B (zh) 2022-03-09 2022-03-09 基于强化学习和残差建模的机器人现实迁移方法

Country Status (1)

Country Link
CN (1) CN114290339B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115454096A (zh) * 2022-10-09 2022-12-09 哈尔滨工业大学 一种基于课程强化学习的机器人策略训练系统及训练方法
CN116276956A (zh) * 2022-12-01 2023-06-23 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160291623A1 (en) * 2015-03-31 2016-10-06 Enernoc, Inc. Demand response dispatch system employing weather induced facility energy consumption characterizations
CN111260026A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于元强化学习的导航迁移方法
CN113093779A (zh) * 2021-03-25 2021-07-09 山东大学 基于深度强化学习的机器人运动控制方法及系统
CN113281999A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于强化学习和迁移学习的无人机自主飞行训练方法
US20210271978A1 (en) * 2020-02-28 2021-09-02 International Business Machines Corporation Sim-to-real learning of 2d multiple sound source localization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160291623A1 (en) * 2015-03-31 2016-10-06 Enernoc, Inc. Demand response dispatch system employing weather induced facility energy consumption characterizations
CN111260026A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于元强化学习的导航迁移方法
US20210271978A1 (en) * 2020-02-28 2021-09-02 International Business Machines Corporation Sim-to-real learning of 2d multiple sound source localization
CN113093779A (zh) * 2021-03-25 2021-07-09 山东大学 基于深度强化学习的机器人运动控制方法及系统
CN113281999A (zh) * 2021-04-23 2021-08-20 南京大学 一种基于强化学习和迁移学习的无人机自主飞行训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FLORIAN GOLEMO等: "Sim-to-Real Transfer with Neural-Augmented Robot Simulation", 《2ND CONFERENCE ON ROBOT LEARNING (CORL 2018)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115454096A (zh) * 2022-10-09 2022-12-09 哈尔滨工业大学 一种基于课程强化学习的机器人策略训练系统及训练方法
CN116276956A (zh) * 2022-12-01 2023-06-23 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置
CN116276956B (zh) * 2022-12-01 2023-12-08 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置

Also Published As

Publication number Publication date
CN114290339B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
Sæmundsson et al. Meta reinforcement learning with latent variable gaussian processes
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
KR20190031318A (ko) 도메인 분리 뉴럴 네트워크들
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN108983605B (zh) 一种基于深度强化学习进行流体导向的刚体控制的方法
US20220366246A1 (en) Controlling agents using causally correct environment models
KR20230065343A (ko) 메쉬 표현 및 그래프 신경망을 사용한 물리적 환경 시뮬레이션
CN108009635A (zh) 一种支持增量更新的深度卷积计算模型
CN115972211A (zh) 基于模型不确定性与行为先验的控制策略离线训练方法
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
Wang et al. Consciousness‐driven reinforcement learning: An online learning control framework
CN112257864B (zh) 一种用于解决灾难性遗忘问题的终生学习方法
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN114779792B (zh) 基于模仿与强化学习的医药机器人自主避障方法及系统
US20220410380A1 (en) Learning robotic skills with imitation and reinforcement at scale
CN116352700A (zh) 基于随机网络预测误差的专家数据扩增方法和装置
KR102597184B1 (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
US11501167B2 (en) Learning domain randomization distributions for transfer learning
KR20230010746A (ko) 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝
d’Apolito et al. Flight control of a multicopter using reinforcement learning
CN104766358A (zh) 一种基于统计评价的飞虫运动模型参数的优化方法
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及系统
TWI811156B (zh) 機器人的運動步態的過渡方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant