CN114290339A

CN114290339A - 基于强化学习和残差建模的机器人现实迁移系统和方法

Info

Publication number: CN114290339A
Application number: CN202210221230.5A
Authority: CN
Inventors: 俞扬; 刘驭壬; 詹德川; 周志华; 魏宏伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-04-08
Anticipated expiration: 2042-03-09
Also published as: CN114290339B

Abstract

本发明公开一种基于强化学习和残差建模的机器人现实迁移系统和方法，在只有少量混合离线数据和带偏差模拟器的情况下，利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境，这种自适应性使行为策略能够更有效地推广到真实环境。本发明提出了一种机器人训练框架，为减机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。该方法基于离线数据对模拟器环境状态空间和真实环境状态空间的残差进行建模，并使用学得的残差模型修正原始模拟器。最终将机器人在修正模拟器中学到的策略，迁移到真实环境中。

Description

基于强化学习和残差建模的机器人现实迁移系统和方法

技术领域

本发明涉及一种机器人从模拟环境迁移到现实环境的方法，具体是一种基于强化学习和残差建模的机器人模拟、现实迁移方法和系统，属于机器人控制技术领域。

背景技术

近年来随着深度学习在众多领域的广泛应用，强化学习在仿真环境下已经取得了令人瞩目的成功。不同于监督学习、无监督学习、半监督学习，强化学习主要解决的是序列化决策问题，通过不断与环境进行交互，不断更新行为策略，获取最大累计奖赏。强化学习环境一般被建模成马尔可夫决策过程（MarkovDecisionProcesses），马尔可夫决策模型被定义成<S,A,R，T，γ>对，这里的T是环境的状态空间，A是动作空间，R是奖励函数，T是状态转移函数，γ是折扣系数，取值是0到1之间的实数。强化学习的优化目标就是在环境中训练一个行为策略Π，以此最大化累计折扣奖励的期望。在围棋、星际争霸、Atari游戏、电商推荐系统、自动驾驶等场景下，强化学习得到广泛的应用。这些虚拟仿真环境的主要共性在于，人工智能体可以通过与环境交互获得无限的训练数据，这种在模拟器中的试错不仅让学习过程更快，而且更加安全，不会损害现实中的人身和财产安全。在现实环境的模拟器中学习机器人行为策略是一种常用的方法，这样可以避免在现实世界中尝试和错误。然而，现实情况下很难对实际环境建立高保真高还原度的模拟器。

模拟现实迁移（SimulationtoReality）是强化学习的一个分支，同时也属于迁移学习。主要解决的问题是机器人领域中，直接让机器人或者机械臂在现实环境中与环境进行交互试错会有很大的安全隐患；如果在模拟器中进行强化学习算法的训练，由于模拟器对于物理环境的建模都是存在误差，这个问题称为模拟环境和现实环境的差别鸿沟（RealityGap）。而模拟现实迁移的工作就是去尝试解决这个问题。

目前将机器人决策应用于现实世界并且不需要昂贵试错过程的方法可以分为两大类。一种是模仿学习(ImitationLearning)，另一种是在模拟器中训练（TraininSimulator）并迁移到现实环境中。模仿学习通过模仿人类专家的示范行为在真实环境中决策；在模拟器中学习，使用强化学习训练机器人行为策略，然后使其适应现实世界。这两种方法都有自己的局限性：模仿学习需要收集足够的专家演示数据，现实中高性能专家数据的收集有一定的困难；在模拟器中训练强化学习算法需要构建一个完全恢复真实环境的高保真模拟器，既费力又昂贵。另一个严峻且实际的挑战是，模拟和现实世界之间经常存在差异，这导致策略在模拟中工作得很好，但在现实世界中执行得很差。

使用强化学习训练应用于实际场景中的机器人，直接让机器人在现实环境中与环境进行交互、采样时，会出现以下两个比较严重的问题：采样效率低和安全问题。如果在模拟器中进行强化学习算法的训练，以上两个问题均可得到较好解决，目前有许多方法可以在模拟环境中生成机器人控制策略，包括基于运动规划、优化、控制和学习的方法。但是在模拟器中训练机器人同样会存在一个问题，由于模拟器对于实际环境的建模存在误差，这导致策略在模拟中工作得很好，但在现实世界中执行得很差。因此在模拟环境中学习到的最优策略无法直接在实际场景中应用。

在用强化学习算法解决机器人相关问题时，所需要的样本量一般会达到上千万，在现实环境中采集如此数量级的样本要耗费大量的时间。此外，由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错，因而在某些时刻其做出的行为可能会损伤机器人自身，例如手臂转动角度过大或者避障任务中由于碰撞造成的不可逆损伤等等；也可能会破坏周围的环境甚至是威胁周围人的生命安全。

利用人类专家知识和现实目前有许多方法可以在模拟环境中生成机器人控制策略，包括基于运动规划、优化、控制和学习的方法。然而，一个严峻且实际的挑战是，模拟和现实世界之间经常存在差异，这导致策略在模拟中工作得很好，但在现实世界中执行得很差。

发明内容

发明目的：针对现有技术中存在的智能体行为策略的迁移问题与不足，本发明提供一种基于强化学习和残差建模的机器人现实迁移系统和方法。

本发明在只有少量混合离线数据和带偏差模拟器的情况下，利用离线数据和偏差模拟器构造最优模拟器。基于最优模拟器通过强化学习算法训练出机器人行为策略并让机器人能自主适应现实环境，这种自适应性使行为策略能够更有效地推广到真实环境，本发明提出了一种机器人训练框架，为解决机器人控制从模拟器环境应用到现实场景中的偏差提供了一种创新性的方法。离线数据对模拟器环境状态空间和真实环境状态空间的残差建模，将机器人在模拟器中学到的策略，迁移到真实环境中。

技术方案：一种基于强化学习和残差建模的机器人现实迁移系统，包括基于机器学习、强化学习的环境模拟器构造模块，基于强化学习算法的机器人行为策略训练模块，以及行为策略从模拟环境到现实环境迁移优化模块三个部分。

所述环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境。

所述带偏差模拟器基于已有的专家知识建模，由物理引擎实现，包括物理环境建模、机器人建模和环境可视化。

所述完美模拟器基于机器学习和强化学习结合物理引擎实现；完美模拟器基于现实离线数据和带偏差模拟器中离线数据，使用机器学习方法构建现实数据和离线数据的残差，在带偏差模拟器的基础上构建完美模拟器。

所述现实离线数据指的是使用机器人在现实环境中收集的相对少量的数据，数据的形式是{s，a，sˊ}，记作Data_real，其中s是现实环境状态空间的采样即机器人观察到的环境状态，a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作，sˊ是机器人在环境中采取动作a后环境发生改变后的状态。

所述带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的相对少量的数据，数据形式是{s，a，sˊ}，记作Data_sim，其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态，a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作，sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。

所述环境模拟器构建模块中，首先，让机器人在现实环境中收集现实离线数据Data_real{s，a，sˊ}；其次，让机器人在带偏差模拟器环境中收集离线数据Data_sim{s，a，sˊ}；然后，使用机器学习方法针对两个环境中sˊ之间的残差ΔS，训练残差模型，记作residual_model，residual_model能够准确建模现实环境和模拟器环境的状态残差。

所述残差模型的训练使用神经网络作为回归模型，对Data_sim和Data_real进行迭代训练。损失函数是最小均方误差（MSELoss），训练的过程包括以下步骤：

（1）准备两种离线数据Data_sim和Data_real，选定（s，a）为输入特征，选定Data_sim（sˊ）-Data_real（sˊ）作为目标标签；

（2）根据环境状态s的维度，使用神经网络构建回归模型建模残差；

（3）选定目标损失函数为最小均方误差MSELoss，设置网络最大迭代次数，选定神经网络优化器，选定学习率；

（4）开始训练直到达到迭代次数，残差模型训练停止。

所述基于强化学习算法的机器人行为策略训练模块中，使用神经网络来表示机器人的行为策略，用当前的策略在模拟环境中控制机器人，采集样本，借助收集到的样本，使用强化学习算法优化当前机器人行为的策略，直到策略性能不再提升。

所述行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。

一种基于强化学习和残差建模的机器人现实迁移方法，包含以下步骤：

（1）构建一个基于动力学专家先验知识的模拟器环境，这个模拟器环境包括重力规则，密度规则，摩擦力规则。模拟器环境与可视化训练机器人部分基于物理引擎实现。

（2）使用任意混合策略收集机器人在实际场景中的少量混合离线数据，即现实离线数据。

（3）基于带偏差模拟器环境和现实离线数据中的动作，在带偏差模拟器中做出与现实离线数据中相同的动作，采样带偏差模拟器环境中的状态、机器人动作转移数据。

（4）使用神经网络对实际场景中状态空间和模拟器场景中状态空间的残差ΔS 建模。

（5）使用优化算法优化残差模型。

（6）基于实际场景中状态空间和模拟器场景中状态空间的残差ΔS，在模拟器环境的基础上构造近似实际场景的最优模拟器。

（7）在最优模拟器中使用强化学习算法训练机器人，优化机器人行为策略直到机器人的策略收敛。

（8）将在最优模拟器中训练至收敛的机器人迁移到实际场景中。

基于强化学习和残差建模的机器人现实迁移方法和基于强化学习和残差建模的机器人现实迁移系统的具体实现方式相同。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于强化学习和残差建模的机器人现实迁移方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述基于强化学习和残差建模的机器人现实迁移方法的计算机程序。

与现有技术相比，本发明具有以下几个明显益处：

（1）本发明基于混合策略的离线数据构造残差模型，能避免获取昂贵的专家数据；

（2）本发明使用带偏差的模拟器，避免构建昂贵的高保真模型；

（3）本发明对现实环境和模拟器环境的状态残差建模，并非直接对现实环境的状态空间建模，大大加快了算法的收敛性和泛化性，降低了模型学习的难度；

（4）本发明采用基于最大熵的强化学习算法，让机器人智能体有更多的机会探索不同的动作，具有更强的泛化能力。

（5）本发明中机器人不需要在现实环境中训练，只在模拟器中训练，也能在最终的现实环境中取得很好的效果。

（6）本发明可应用于机器人控制算法训练及自动驾驶算法训练等诸多领域，具有广泛的应用前景。

附图说明

图1为本发明实施例的整体框示意图；

图2为本发明实施例的状态残差建模算法流程图；

图3为本发明实施例的机器人策略训练算法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

针对在模拟器中使用强化学习训练机器人得到的行为策略应用在实际场景下表现不佳，导致基于强化学习训练的机器人无法落地应用的问题，提出了一种基于强化学习和残差建模的机器人现实迁移系统和方法。基于强化学习和残差建模的机器人现实迁移系统包括基于机器学习、强化学习的环境模拟器构造模块，基于神经网络和监督学习的残差模型构建模块，基于强化学习智能体的构建模块。如图1所示，包括带偏差模拟器和真实环境中对数据采样和残差模型网络。在强化学习智能体的构建模块中将残差模型和带偏差模拟器相结合，使用强化学习算法训练智能体。

环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境。

带偏差模拟器基于已有的专家知识建模，由物理引擎实现，包括物理环境建模、机器人建模和环境可视化。

完美模拟器基于机器学习和强化学习结合物理引擎实现；完美模拟器基于现实离线数据和带偏差模拟器中离线数据，使用机器学习方法构建现实数据和离线数据的残差，在带偏差模拟器的基础上构建完美模拟器。

现实离线数据指的是使用机器人在现实环境中收集的相对少量的数据，数据的形式是{s，a，sˊ}，记作Data_real，其中s是现实环境状态空间的采样即机器人观察到的环境状态，a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作，sˊ是机器人在环境中采取动作a后环境发生改变后的状态。

带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的相对少量的数据，数据形式是{s，a，sˊ}，记作Data_sim，其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态，a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作，sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。

环境模拟器构建模块中，首先，让机器人在现实环境中收集现实离线数据Data_real{s，a，sˊ}；其次，让机器人在带偏差模拟器环境中收集离线数据Data_sim{s，a，sˊ}；然后，使用机器学习方法针对两个环境中sˊ之间的残差ΔS，训练残差模型，记作residual_ model，residual_model能够准确建模现实环境和模拟器环境的状态残差。

图2所示的是本发明所述的状态残差建模算法流程图。初始状态下有一个由人为构建带偏差的模拟器环境，通过神经网络实现对模拟器环境和真实环境状态转移残差建模。

残差模型的训练使用神经网络作为回归模型，对Data_sim和Data_real进行迭代训练。损失函数是最小均方误差（MSELoss），训练的过程包括以下步骤：

（4）开始训练直到达到迭代次数，残差模型训练停止。

状态残差建模算法的伪代码如算法1所示：

算法1：状态残差建模算法

输入：残差数据集Datadiff={(s ₁,a ₁,r ₁,⊿s ₁), (s ₂,a ₂,r ₂,⊿s ₂),…, (s _n,a _n,r _n,⊿s _n)}

输出：残差模型R _θ

1: 初始化残差建模网络及其参数θ

2: 初始化最大迭代次数N，初始化批量数据大小batch

3：for n=1 to N do:

4: for batch in Datadiff do:

5： prediction=R _θ(batch) // prediction是残差预测模型R _θ 预测的结果

6： loss=MSELoss(prediction, ⊿s)

7：反向传播求梯度

8：更新网络参数θ

9： end for

10: end for

基于强化学习算法的机器人行为策略训练模块中，使用神经网络来表示机器人的行为策略，用当前的策略在模拟环境中控制机器人，采集样本，借助收集到的样本，使用强化学习算法优化当前机器人行为的策略，直到策略性能不再提升。

机器人行为策略训练算法的伪代码如算法2所示：

算法2：机器人行为策略训练算法

输入：带偏差的模拟器Simbias

状态残差预测模型R

输出：机器人行为策略π_θ

1: 初始化Q网络及其参数θ ₁，θ ₂

2: 初始化目标价值网络Q _target网络及其参数

，

，批量数据的大小batch

3: 初始化机器人行为策略π及其参数θ

4: 初始化经验回放池D

5: 初始化迭代次数iteration，最大步数step

6: for n=1 to iteration do

7： for t=1 to step do

8：机器人从策略函数中采样动作，

9: 从模拟器环境Simbias中获取状态转移，

10: 计算模拟器环境状态和真实环境中状态残差，

11: 保存状态转移数据，

12：随机从回放池D中采样B，其中B={(s,a, sˊ,done)}，done是状态结束标记位

13: end for

14： for n % update == 0 do

15: 计算目标网络的Q函数：

//

是目标价值网络，log是以10为底的对数函数，y表示目标网络最终的Q函数值

16: 更新Q函数

//

是价值网络

17: 更新策略网络的参数

18: 更新目标价值网络

//ρ是一个0~1之间的超参数

19: end for

20: end for

行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。

图3所示的是本发明所述的强化学习算法训练流程图。初始状态下有一个训练好的残差模型和未被训练的机器人智能体，通过强化学习算法训练机器人行为策略。

步骤1：基于人类专家知识对现实环境和机器人的物理特征建模，构建模拟器环境，模拟器环境包括重力特征，密度特征，摩擦力特征，机器人速度特征。构建对应现实环境的带偏差模拟器 Simbias，机器人Agent，根据环境状态和机器人行为动作设计机器人奖励函数reward=（（s _t+1 -s _t）/0.008+1）-0.001*a _t。其中，reward表示奖励函数的计算方式，s _t表示当前时刻机器人状态特征，s _t+1是下一时刻机器人状态特征，a _t表示当前时刻机器人做出的动作。

步骤2：分别收集现实环境和带偏差模拟器中机器人的观察数据和行为数据Data_real{（s ₁，a ₁，sˊ₁），（s ₂，a ₂，sˊ₂），…，（s _n，a _n，sˊ_n）}和 Data_sim{（s ₁，a ₁，sˊ₁），（s ₂，a ₂，sˊ₂），…，（s _n，a _n，sˊ_n）}，根据Data_real和Data_sim构建残差模型的训练数据集，记作Data_diff{（s ₁，a ₁，Δsˊ₁），（s ₂，a ₂，Δsˊ₂），…，（s _n，a _n，Δsˊ_n）}，其中ΔS是模拟器环境和现实环境状态差值并做归一化后的结果，即ΔS’=Normalize（S’ _{Data_real} -S’ _{Data_sim} ），Δsˊ_n为集合ΔS’的第n个元素。其中，S’ _{Data_real}表示在集合Data_real中的s’， S’ _{Data_sim}表示在集合Data_sim中的s’。ΔS’表示对S’ _{Data_real}和S’ _{Data_sim}做差并对结果进行归一化处理。

步骤3：根据Data_diff搭建预测状态残差的多层前馈神经网络residual_model _θ，输入是Data_diff{ s _n，a _n }，预测标签是Data_diff{Δsˊ_n}，损失函数是：

；

设置网络最大迭代次数，选定神经网络优化器，选定学习率。

步骤4：对步骤3中神经网络residual_model _θ使用优化器迭代优化，直到最大迭代步数。

步骤5：构建强化学习算法，包括以下两个步骤：使用前馈神经网络构建Actor行为策略网络并初始化，记作π _ϕ，使用前馈神经网络构建Critic价值评判网络Q并初始化，参数分别为θ ₁，θ ₂。初始化目标价值网络，其参数是

，

。构建一个空回放池D。

步骤6：在带偏差模拟器Simbias中训练机器人，具体步骤如下：

（1）机器人对于当前带偏差模拟器的状态s _t使用行为决策网络做出动作a _t，其中

a _t =π _ϕ（a _t|s _t）；

（2）基于（s _t，a _t），带偏差模拟器给出环境下一状态s _t+1和当前动作奖励r；

（3）对于（s _t，a _t），使用步骤4中的前馈神经网络residual_model _θ残差建模，输出现实环境和模拟器环境的状态残差ΔS；

（4）将当前转移信息加入回放池D，D= D∪{（s _t，a _t，r，s _t+1+ΔS）}；

（5）随机地从回放池D中采样B，其中B={(s,a, sˊ,done)}，done是状态结束标记位；

（6）计算目标网络的Q函数，

其中

是目标价值网络，log是以10为底的对数函数，y表示目标网络最终的Q函数值。其中α是熵超参数；

（7）更新Q函数

，

其中

是价值网络；

（8）更新策略网络的参数

；

（9）更新目标价值网络

，其中ρ是一个0~1之间的超参数；

（10）重复步骤6中的（5）~（9）step次。其中step是一个超参数。

步骤7：重复步骤6直到机器人的行为策略收敛。

步骤8：将模拟器中训练完成的机器人行为策略π _ϕ部署在实际环境中。显然，本领域的技术人员应该明白，上述的本发明实施例的基于强化学习和残差建模的机器人现实迁移方法各步骤或基于强化学习和残差建模的机器人现实迁移系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于强化学习和残差建模的机器人现实迁移系统，其特征在于，包括基于机器学习、强化学习的环境模拟器构造模块，基于强化学习算法的机器人行为策略训练模块，以及行为策略从模拟环境到现实环境迁移优化模块三个部分；

所述环境模拟器包括带偏差环境模拟器和完美模拟器两个模拟器环境；

所述带偏差模拟器基于已有的专家知识建模，包括物理环境建模、机器人建模和环境可视化；

2.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统，其特征在于，所述现实离线数据指的是使用机器人在现实环境中收集的数据，数据的形式是{s，a，sˊ}，记作Data_real，其中s是现实环境状态空间的采样即机器人观察到的环境状态，a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作，sˊ是机器人在环境中采取动作a后环境发生改变后的状态。

3.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统，其特征在于，所述带偏差模拟器中离线数据指的是使用机器人在带偏差模拟器中收集的数据，数据形式是{s，a，sˊ}，记作Data_sim，其中s是带偏差模拟器环境状态空间的采样即机器人观察到的环境状态，a是机器人动作空间的采样即机器人观察到状态s后决定执行的动作，sˊ指的是机器人在环境中采取动作a后环境发生改变后的状态。

4.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统，其特征在于，所述环境模拟器构建模块中，首先，让机器人在现实环境中收集现实离线数据Data_real{s，a，sˊ}；其次，让机器人在带偏差模拟器环境中收集离线数据Data_sim{s，a，sˊ}；然后，使用机器学习方法针对两个环境中sˊ之间的残差ΔS，训练残差模型，记作residual_ model，residual_model能够准确建模现实环境和模拟器环境的状态残差。

5.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统，其特征在于，所述残差模型的训练使用神经网络作为回归模型，对Data_sim和Data_real进行迭代训练；

损失函数是最小均方误差MSELoss，训练的过程包括以下步骤：

（4）开始训练直到达到迭代次数，残差模型训练停止。

6.根据权利要求1所述的基于强化学习和残差建模的机器人现实迁移系统，其特征在于，所述行为策略从模拟环境到现实环境迁移优化模块是指将在完美模拟器中训练至收敛的机器人行为策略应用在实际生产环境中。

7.一种基于强化学习和残差建模的机器人现实迁移方法，其特征在于，包含以下步骤：

（1）构建一个基于动力学专家先验知识的模拟器环境，模拟器环境与可视化训练机器人部分基于物理引擎实现，对模拟器环境进行可视化渲染；

（2）使用任意混合策略收集机器人在实际场景中的现实离线数据；

（3）基于带偏差模拟器环境和现实离线数据中的动作，在带偏差模拟器中做出与现实离线数据中相同的动作，采样带偏差模拟器环境中的状态、机器人动作转移数据；

（4）使用神经网络对实际场景中状态空间和模拟器场景中状态空间的残差ΔS 建模；

（5）使用优化算法优化残差模型；

（6）基于实际场景中状态空间和模拟器场景中状态空间的残差ΔS，在模拟器环境的基础上构造近似实际场景的最优模拟器；

（7）在最优模拟器中使用强化学习算法训练机器人，优化机器人行为策略直到机器人的策略收敛；

8.根据权利要求7所述的基于强化学习和残差建模的机器人现实迁移方法，其特征在于，构建一个基于动力学专家先验知识的模拟器环境，模拟器环境与可视化训练机器人部分基于物理引擎实现。

9.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求7-8中任一项所述的基于强化学习和残差建模的机器人现实迁移方法。

10.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求7-8中任一项所述基于强化学习和残差建模的机器人现实迁移方法的计算机程序。