CN116540535A

CN116540535A - 一种基于自适应动力学模型的渐进策略迁移方法

Info

Publication number: CN116540535A
Application number: CN202310425168.6A
Authority: CN
Inventors: 李光亮; 孟伟; 巨浩; 隽荣顺
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-04

Abstract

本发明涉及一种基于自适应动力学模型的渐进策略迁移方法(PPTADM)，涉及人工智能和控制类机器人技术领域，该方法通过渐进神经网络(PNN)从仿真中迁移策略，并在现实任务中机器人使用学习到的正向动态模型产生高效样本来进一步改进控制策略。此外，对于奖励函数很难甚至不可能定义和验证有效性的现实任务，PPTADM在仿真任务和现实任务动态不匹配时，也可以使机器人在现实世界任务中仅从仿真中估计的迁移奖励函数中有效学习，该奖励模型区别于人的奖励反馈网络等其他方法。本发明在五个仿真任务和一个真实的机器人手臂上的结果表明，使用PPTADM，机器人在现实世界中的学习效率和性能可以显著提高，所需样本量大大减少。

Description

一种基于自适应动力学模型的渐进策略迁移方法

技术领域

本发明涉及人工智能和控制类机器人技术领域，尤其涉及一种基于自适应动力学模型的渐进策略迁移方法(PPTADM)，该方法可以应用于机器人控制策略从仿真到现实的迁移。

背景技术

深度强化学习在从视频游戏到复杂的机器人控制等各种任务中学习强大的技能方面显示出了希望。但是，在现实世界中直接使用深度强化学习训练机器人是一项重大挑战，因为它们只能从相对昂贵且耗时的任务执行中学习。此外，在训练期间机器人会进行大量的动作探索，可能会对机器人本身及其周围环境造成伤害。

在仿真环境中训练得到策略并将其迁移到真实环境中成为了一种解决办法，并引起人们的广泛关注。然而，将模拟策略直接迁移到真实机器人是有风险的，并且由于模拟与现实世界之间的差距，机器人控制的性能通常很差。许多算法如域自适应、逆动力学模型、域随机化、和渐进网络等已经被提出，并可以极大地解决这个问题，提高机器人在现实世界任务中的学习效率。其中，渐进式神经网络(PNN)无需指定源任务和目标任务，即使目标任务与源任务具有不同的动作和状态空间，具有PNN的机器人在现实任务中也可以具有良好的学习能力和效率。然而，机器人仍然需要在通过PNN迁移的策略基础上继续进行学习以改进控制策略。

此外，复杂机器人在现实世界中定义和验证奖励函数的合理性和有效性是困难和昂贵的。一般来说，在机器人的状态和动作上定义的奖励函数可以比仅通过状态更有效地指导其学习。交互强化学习可以使机器人的行为更加符合人类的偏好，其通过人类专家的反馈来加速机器人的学习，但是多个人类专家可能产生多种偏高，给出的反馈对机器人的行为也会产生或好或坏的影响，长时间的交互也会大大增加人类专家的工作量。因此，如果本发明可以在状态和动作上定义一个奖励函数并在仿真模拟任务中用它训练策略，并且将学习到的具有仅基于状态的估计奖励函数的策略迁移到现实世界任务中，这将非常有用，即使仿真任务动态和现实任务可能不同。

另一方面，基于模型的强化学习方法可以使用动态模型生成模拟数据以加速深度强化学习机器人的学习。基于模型的强化学习通常比无模型强化学习更有效和更灵活。然而，由于模型偏差，基于模型的强化学习方法的渐近性能通常比无模型的方法差，而无模型算法不受模型精度的限制，可以达到更好的最终性能。

因此，为了在现实世界中实现样本高效学习，本发明提出了自适应动态模型(PPTADM)的渐进式策略迁移方法。PPTADM假设仿真任务的动力学与现实世界任务不匹配，但状态空间相同，通过PNN从仿真环境中迁移策略，并使用无模型强化学习方法和现实任务中学习的自适应动力学模型进一步学习，这一过程并不需要人类专家的参与仅通过动力学模型来产生高效样本。此外，对于奖励函数难以甚至不可能定义和验证有效性的现实世界任务，PPTADM可以仅从模拟迁移的估计奖励函数在现实世界任务中学习，即使它们的动态不匹配，PPTADM可以通过在仿真中训练策略，将策略迁移至真实环境中，其中仿真环境是针对真实机器人搭建的，会与真实机器人环境存在或多或少的差异。

通过上述分析，现有技术存在的问题及缺陷为：

(1)复杂机器人在现实任务中定义和验证奖励函数的合理性和有效性是困难和昂贵的。

(2)渐进式网络及其他衍生方法需要人类专家的参与，并且在一些任务中提升的采样效率有限。通过训练人类奖励网络来预测任务中的人类反馈的方式尽管可以节省人类专家参与交互的时间，但是通过预测的方式终归会存在一定误差。

(3)尽管基于模型的强化学习通常比无模型强化学习更有效和更灵活，由于模型偏差，基于模型的强化学习方法的渐近性能通常比无模型的方法差。

解决以上问题及缺陷的难度为：

1、如何将奖励函数进行迁移，以使得奖励函数在真实任务环境中依然有效。

2、如何提高迁移后的采样效率的同时减少人类专家的工作量，减少预测反馈的误差，让机器人在真实世界中快速适应任务。

3、如何解决动力学模型在仿真环境和真实环境中不匹配的问题，从而使机器人在真实任务环境中可以更好的进一步改进策略。

解决以上问题及缺陷的意义为：

1、对于奖励函数很难甚至不可能定义和验证有效性的现实任务，在这样的任务中通过交互强化学习加入反馈来加快机器人的学习速度是相当困难的。本发明的方法即使在动力学不匹配的情况下，可以在现实世界中仅从模拟中估计的迁移奖励函数中学习。

2、本发明的方法不需要人类专家给出反馈，也不需要预测人类反馈的网络，避免了预测的误差，通过产生高效样本的方法可以进一步提高样本效率。

3、该方法可以通过渐进神经网络(PNN)从仿真中迁移策略，并在现实任务中机器人使用学习到的正向动力学模型进一步改进策略。

发明内容

鉴于此，针对现有技术存在的问题，本申请实施例提供一种基于自适应动力学模型(PPTADM)的渐进策略迁移方法，该方法通过渐进神经网络(PNN)从仿真中迁移策略，并在现实任务中机器人使用学习到的正向动力学模型进一步改进策略，同时对于奖励函数很难甚至不可能定义和验证有效性的现实任务，PPTADM可以在现实世界中仅从模拟中估计的转移奖励函数中学习，一些控制类机器人从零开始训练往往成本过高，例如投篮机器人要达到甚至超越人类水平往往需要大量时间和金钱去训练机器人，这也会对机器人本身造成伤害。PPTADM方法主要应用于机器人领域，该方法旨在为真实的控制机器人提供一个行为策略，使其经过少量训练便可完成设定的任务。

为实现上述目的，本发明提供了以下技术方案：

第一方面，本申请实施例提供了一种基于自适应动力学模型的渐进策略迁移方法，用于机器人通过渐进神经网络和动力学模型从仿真环境中迁移控制策略至现实环境中，并在现实环境的任务中使用学习到的正向动力学模型进一步改进策略；该方法应用于控制机器人领域，该方法包括以下步骤：

基于渐进神经网络在仿真环境中训练一个源策略；

现实环境中初始化机器人目标策略、环境缓冲区D_E、动力学模型缓冲区D_M，将源策略冻结；

机器人在当前状态S_t执行一个动作，转移到下一个状态S_t+1，并从转移的奖励模型中接收奖励信号r_t，将样本存储在环境重放缓冲区D_E；

机器人每走十步用环境重放缓冲区中的样本来更新一次动力学模型；

判断迭代次数是否达到样本数量，若是，则结束，若否，则更新目的策略。

作为本发明的进一步方案，在现实环境的任务中使用正向动力学模型θ_∈进一步改进策略，正向动力学模型将机器人在时间步t的状态动作对(s_t，a_t)作为输入，并将预测当前状态s_t和下一个状态s_t+1之间的差异Δs，即Δs＝s_t+1-s_t；预测机器人的下一个具有正向动力学模型θ_∈的状态为s′＝s_t+θ_∈(s_t+a_t)。

作为本发明的进一步方案，在训练实际的目标策略之前，将使用初始化的目标策略π_r来收集M个样本来预训练正向动力学模型θ_∈，通过最小化均方误差L_θ，使用存放在回放缓冲区D_E中收集到的M个样本来更新动态模型。

作为本发明的进一步方案，最小化均方误差L_θ的公式：

式中，L_θ为最小化均方误差，DE为回放缓冲区，分别为智能体在当前时间步t下的状态值、动作值、下一个状态值，θ_∈为正向动态模型，(s_t，a_t)为时间步t的状态动作对。

作为本发明的进一步方案，从仿真环境中迁移策略到真实环境中，通过渐进式神经网络使用源任务策略初始化两列神经网络参数。

作为本发明的进一步方案，在现实世界中从模拟中估计的转移奖励函数进行学习，在仿真环境中，仅从定义的奖励函数中学习基于状态的奖励模型，并将估计的奖励函数转换为现实。

作为本发明的进一步方案，当机器人被训练着去学习模拟环境中的源策略时，机器人用于学习神经网络表示的奖励模型

作为本发明的进一步方案，在训练策略期间，创建一个样本重放缓冲区D_E来存储用于训练奖励模型的元组[s_t，s_t+1，r_t]，其中，s_t，s_t+1是输入，r_t是标签，其中，奖励模型/>将通过使用随机梯度下降最小化误差来更新。

作为本发明的进一步方案，所述基于自适应动力学模型的渐进策略迁移方法，使用Soft Actor-Critic为学习算法来学习目标策略π_r，目标策略的参数θ通过直接最小化预期的KL散度来更新，KL散度的公式如下所示：

式中，J_π(θ)为策略优化的最终目标函数，为期望值，[D_E，D_M]分别为环境样本池和动力学模型样本池，ε_t∈N为一个服从N的高斯分布，/>为概率分布的对数形式，Q(s_t，f(ε_t，s_t))为软Q值函数。

第二方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述基于自适应动力学模型的渐进策略迁移方法的步骤。

第三方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于自适应动力学模型的渐进策略迁移方法的步骤。

本发明实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供一种基于自适应动力学模型的渐进策略迁移方法，假设仿真的动力学与现实世界任务不匹配，但状态空间相同，通过渐进式网络(PNN)从仿真中迁移策略，并使用无模型强化学习方法和现实中学习的自适应动力学模型进一步学习。此外，对于奖励函数难以甚至不可能定义和验证有效性的现实世界任务，本发明可以仅从模拟迁移的估计奖励函数在现实世界中学习，即使它们的动态不匹配。

深度强化学习在学习机器人控制的鲁棒技能方面已显示出前景，但通常需要大量样本才能获得良好的性能。从虚拟到现实的迁移学习方法已经被提出来解决这个问题，但是由于模拟器不可避免地对现实的动态进行了不完美的建模，在模拟中训练的策略在现实世界中的表现通常不能令人满意。为了在现实世界中实现样本高效学习，本发明提出了自适应动态模型(PPTADM)的渐进式策略迁移。本发明在五个模拟平台的任务和真实机器人手臂上的结果表明，使用自适应动态模型可以显著提高机器人在现实世界任务中的学习效率和性能。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的具有自适应动力学模型的渐进策略迁移方法流程图。

图2是本发明实施例提供的从低维到高维的五个基于物理的控制任务的截图；图中：(a)Pendulum；(b)Inverted Pendulum；(c)Hopper；(d)Walker2d；(e)Half Cheetah。

图3是本发明实施例提供的带有模拟环境(左)和真实环境(右)的6轴Ned机器人手臂的Reach任务的屏幕截图和图片。

图4是本发明实施例提供的给定源任务策略的情况下，不同机器人在Pendulum任务中的学习曲线示意图。

图5是本发明实施例提供的给定源任务策略的情况下，不同机器人在InvertedPendulum任务中的学习曲线示意图。

图6是本发明实施例提供的给定源任务策略的情况下，不同机器人在Hopper任务中的学习曲线示意图。

图7是本发明实施例提供的给定源任务策略的情况下，不同机器人在Walker2d任务中的学习曲线示意图。

图8是本发明实施例提供的给定源任务策略的情况下，不同机器人在HalfCheetah任务中的学习曲线示意图。

图9是本发明实施例提供的给定源任务策略的情况下，不同机器人在Reach任务中的学习曲线示意图。

图10是本发明实施例提供的在Walker2d、Half Cheetah和Reach目标任务中以ADM、RDM和LDM的方式更新动力学模型训练的SRD机器人的最终性能。线段代表标准偏差。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明提供了一种具有自适应动力学模型(PPTADM)的渐进策略迁移方法，下面结合附图对本发明作详细的描述。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为示意图描绘的处理或方法。虽然示意图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供了一种基于自适应动力学模型的渐进策略迁移方法，用于机器人通过渐进神经网络和动力学模型从仿真环境中迁移控制策略至现实环境中，并在现实环境的任务中使用学习到的正向动力学模型进一步改进策略，同时对于奖励函数很难甚至不可能定义和验证有效性的现实任务，PPTADM可以在现实世界中仅从模拟中估计的转移奖励函数中学习。

参见图1所示，该方法应用于控制机器人领域，该方法包括以下步骤：

基于渐进神经网络在仿真环境中训练一个源策略；

在本实施例中，所述在现实中使用正向动态模型θ_∈进一步改进策略，正向动力学模型将机器人在时间步t的状态动作对(s_t，a_t)作为输入，并将预测的当前状态s_t和下一个状态s_t+1之间的差异Δs，即Δs＝s_t+1-s_t。因此预测机器人的下一个具有θ_∈的状态为s′＝s_t+θ_∈(s_t+a_t)。在训练实际的目标策略之前，将使用初始化的目标策略π_r来收集M个样本来预训练动力学模型θ_∈。通过最小化均方误差L_θ，使用存放在回放缓冲区D_E中收集到的M个样本来更新动态模型。通过最小化均方误差L_θ，使用存放在回放缓冲区D_E中收集到的M个样本来更新动态模型。最小化均方误差L_θ的公式如下所示：

式中，L0为最小化均方误差，DE为回放缓冲区，分别为智能体在当前时间步t下的状态值、动作值、下一个状态值，θ_∈为正向动态模型，(s_t，a_t)为时间步t的状态动作对。

进一步，所述的在现实世界中从模拟中估计的转移奖励函数进行学习，在仿真环境中，仅从定义的奖励函数中学习基于状态的奖励模型，并将估计的奖励函数转换为现实，因为它们具有相同的状态空间。当机器人被训练着去学习模拟环境中的源策略时，它学习了神经网络表示的奖励模型/>在训练策略期间，创建一个样本重放缓冲区D_E来存储用于训练奖励模型/>的元组[s_t，s_t+1，r_t]，其中，s_t，s_t+1是输入，r_t是标签。奖励模型/>将通过使用随机梯度下降最小化误差来更新。

具体的，本发明提供的方法包括以下过程：

首先，在虚拟环境中定义一个奖励函数，并以此来训练机器人得到一个源策略π_s，这个源策略将会被迁移到现实世界任务，用于初始化渐进式网络的参数。除此之外，基于现实环境难以定义奖励函数这个难题，PPTADM将虚拟环境的奖励函数迁移到现实环境中。考虑到在复杂的任务中，奖励函数基于其状态空间和动作空间一起设计会明显提高机器人的学习效率，于是在虚拟环境基于其状态空间和动作空间定义了一个奖励函数其中/>是机器人在时间步t的状态，/>是机器人的下一个状态，/>是在t时虚拟环境中执行的动作。因为虚拟环境和现实环境具有相同的状态空间，然后可以将学习到的奖励模型迁移到现实环境。

与传统的渐进式神经网络迁移方式不同，PPTAMD更加复杂，其考虑到借助动力学模型用目标策略来获得交互样本，可以减小大范围的动作探索，建立更精确的模型。同时，本发明使用目标策略初始化两列网络参数，可以使机器人在真实环境中具有更好的初始表现，展现出更快的适应性。并且该方法无需让人类参与，尽管交互式强化学习对渐进性能有提升，但在一些环境中评判机器人行为的好坏是困难的，其优势在于使机器人更加倾向于人的喜好。与此相比，本发明的方法结合动力学模型和奖励模型来提升渐进性能，本质上与该方法不同。

当训练目标策略时，在每一个时间步t。机器人在当前状态s_t，将会执行动作a_t，然后转移到下一个状态s_t+1，然后将样本数据(s_t，a_t，s_t+1)传入奖励模型得到奖励r_t，通过与现实环境交互得到的样本[s_t，a_t，s_t+1，r_t]将会存储到环境样本经验池D_E。同时，动力学模型从环境样本经验池D_E随机抽取数据，让其作为初始状态，目标策略基于抽取的状态与动力学模型进行交互产生H个时间步的样本数据，这些样本将会用于存储到动力学模型样本池D_M中，实验中设置H的值在不断地交互中不断增加，最大值为每个任务的最大时间步长。在动力学模型输出样本中，并没有从一开始设置H值为最大时间步长，是因为考虑到动力学模型处于一个不断更新的过程，其预测精度也在不断提升，而模型训练前期的长时间步预测会和实际偏差的较大，产生的样本不利于策略更新。

与传统的动力学模型建立方式不同，PPTADM算法并没有采用随机策略去生成足够的样本分布，而是利用了目标策略进行样本产生，减少强化学习过程中不必要的样本探索，进而建立较为准确的预测模型，提升了样本利用效率。而且，与传统的基于模型的方法不同，PPTADM中自适应动力学模型并不是对现实环境进行完一整轮采样再更新，而是在采样中每隔十步进行一次更新，这样有效的提高了动力学模型对于当前目标策略的适应性，更好的捕捉当前环境的动力学系统，生成的样本也更有利于目标策略的训练。

然后，来自于环境样本池D_E和动力学模型样本池D_M的样本将会用于更新目标策略。因为在环境样本池的样本数量远小于动力学模型样本池，所以每次使用批次样本更新策略时，二者都以一个固定的比例从两个经验池中随机选择样本用于计算策略梯度。本方法采用了动力学模型和策略交替更新的方式，在这种情况下，动力学模型可以基于改进的策略进行调整，与使用随机策略生成的样本所更新的模型相比，它可以更好的捕获真实环境中的当前动态。本方法使用Soft Actor-Critic(SAC方法)作为学习算法来学习目标策略π_r。目标策略的参数θ空调已通过直接最小化预期的KL散度来更新。KL散度的公式如下所示：

下面结合实验对本发明的技术效果作详细的描述。

本实验为了证明所提出的方法的潜在有效性，在六个基于物理的控制任务进行了实验。

(1)实验任务，任务环境的截图见图3。

从低维到高维的五个基于物理的控制任务的截图参见图2所示。

Pendulum：这是一个在3D环境中部署的Cart Pole任务的复杂版本。参见图2(a)所示，连杆摆开始为直立状态，目标是通过向左或向右推动滑块来保持杆摆直立。该任务具有三维连续状态空间和一维连续动作空间。

Inverted Pendulum：这是Pendulum任务的复杂版本。参见图2(b)所示，将单关节的连杆升级成了双关节的连杆，目标同样是通过向左或向右推动滑块来保持杆摆直立。该任务具有四维连续状态空间和一维连续动作空间。

Hopper：参见图2(c)所示，此任务的目标是让一个二维的单足机器人尽可能快的向前跳跃。

Walker2d：参见图2(d)所示，此任务的目标让二维双足机器人尽快能快的向前走。

HalfCheetah：参见图2(e)所示，任务中有一个四足机器人模型，要学习如何控制两条腿跑步，目标是向前跑的越快越好。如果两条腿不协调，任务就可能会失败。

Reach：此任务的机器人是一个机械臂，参见图3所示，机械臂配有两指夹持器和RGB相机。在任务中，它将用相机识别在工作空间(白色区域)中随机出现的目标区域(灰色)，并将手指的中间延伸到目标区域，同时始终试图保持夹持器垂直向下。任务的状态空间是23维连续的，动作空间是四维连续的。

(2)实验设置，在本发明的实验中，本发明使用SAC方法作为学习算法。SAC算法的actor网络和critic网络使用每层256个神经元的全连接神经网络来表示，隐藏层的激活函数是ReLU。更新奖励模型和动态模型的批大小和学习率为32和0.001，更新策略的批量大小和学习率为256和0.0003。本发明在所有六项任务中训练了五个机器人：一个SAC机器人作为基线，PSAC机器人，SR和SRD机器人作为消融研究，以研究PNN、转移奖励模型和自适应动力学模型在本发明的方法中的贡献，以及PPTADM机器人，如下所示：

SAC：使用目标任务的真实奖励函数训练SAC代理；

PSAC：使用PNN将源策略转移到目标任务，并使用目标任务的真实奖励函数使用SAC进一步训练目标策略；

SR：使用来自模拟的转移奖励模型在目标任务中训练SAC代理；

SRD(本发明的方法)：使用自适应动力学模型和来自仿真的转移奖励模型在目标任务中训练SAC代理；

PPTADM(本发明的方法)：使用PNN将源策略转移到目标任务，并使用自适应动力学模型和来自仿真的转移奖励模型使用SAC进一步训练目标策略。

(3)实验结果：本发明通过比较六个目标任务中五个受过训练的机器人:SAC机器人，PSAC机器人，SR机器人，SRD机器人和PPTADM机器人4的学习曲线来介绍和分析实验结果。使用的性能指标是根据目标任务中的真实奖励功能每回合任务累积的奖励。Reach目标任务中的真实奖励函数是在考虑夹持器和目标区域之间的距离和角度的情况下定义的。阴影区域是0.95置信区间，粗线是平均性能。

图4-图9显示了六个任务中所有五个代理的学习曲线。从图中可以看出，本发明提出的PPTADM机器人在所有任务中通常可以比原始SAC机器人学习得更快。当将PNN作为PSAC机器人将源策略迁移到目标任务时，它在训练过程开始时通常具有与PPTADM机器人相似的性能。然而，本发明的PPTADM机器人的学习速度在之后的所有任务中都明显快于PSAC机器人。物理机械臂中的目标到达任务显示，PPTADM可以很好地完成目标任务，并且无论目标区域出现在工作空间的哪个位置，都始终保持夹持器垂直向下。

本发明还比较了五个机器人在所有六个任务中达到足够好的或接近最佳的性能所需的样本数量(即与真实环境的交互次数)，结果表明，与SAC机器人相比，它通常采取的PSAC机器人更少的样本数量以达到良好或最佳性能，而PPTADM机器人所需的样品数量与PSAC相比可以在很大程度上进一步减少。例如，在像钟摆这样的简单任务中，PSAC机器人花费了SAC机器人所需样本数量的一半以上，而PPTADM机器人仅需要SAC机器人六分之一的样本数量，即可达到200的性能。在诸如Hopper，Walker2d，Half Cheetah和带有物理机械臂的目标到达任务之类的复杂任务中，PPTADM的样品效率显着高于SAC和PSAC机器人。

为了研究转移奖励模型，带PNN的策略迁移和自适应动力学模型在PPTADM机器人学习中的贡献，本发明还将PPTADM机器人的学习曲线与仅从转移奖励模型中学习的SR机器人和分别从转移奖励模型和自适应动力学模型中学习的SRD机器人作为消融实验进行了比较。

奖励模型，动力学模型和PNN的效果:从图3中本发明可以看到，在大多数任务中，SR机器人的学习速度与SAC机器人的学习速度相似，这表明机器人从单独转移的奖励模型中学习的可能性在现实世界中。SRD机器人的学习速度明显快于SR机器人，这表明动力学模型在PPTADM机器人学习中的重要性。通过PNN将源策略迁移到目标任务，与SRD机器人相比，PPTADM机器人的学习速度可以进一步提高。这可能是因为动力学模型估计可以从通过PNN迁移的策略提供的良好样本中受益。总而言之，本发明的结果表明，从仅迁移的奖励模型中学习是可能的，并且可以达到与从现实世界中预定义的实际奖励函数中学习相似的速度。此外，添加自适应动力学模型对提高机器人在现实任务中的学习效率有显著效果。此外，动力学模型估计可以受益于PNN将策略迁移到现实任务中，从而进一步提高了机器人的学习效率。

本发明希望通过与其他两种传统的动态模型更新方式(RDM和LDM)进行比较，进一步研究本发明提出的PPTADM方法中动态模型自适应更新(ADM)的效果，如下所示：

ADM：使用每一步更新策略收集的样本每10步更新动力学模型；

RDM：使用随机策略收集的样本进行训练前动力学模型，并在学习期间保持动力学模型不变；

LDM：使用每一步更新策略收集的样本每1000步更新动力学模型。

本发明用上述训练了本发明提出的SRD机器人在三个复杂目标任务中使用转移奖励模型分别更新动态模型的方法：Walker2d、Half Cheetah和Reach。SRD机器人使用随机策略进行初始化，并使用每种动态模型更新方法进行训练，直到其性能收敛三倍。对三个试验的最终性能平均值进行归一化并用于比较，如图10所示。图10中的结果表明，使用本发明的自适应更新动态模型方式学习的SRD代理在所有三个任务中都取得了最佳性能，而使用RDM的机器人的性能最差。这表明及时自适应更新动态模型可以对机器人在现实中的学习产生良好的影响。

结合上述分析部分，本发明的方法在多个任务上展现出优于基线的性能，无需人类专家参与交互，相比于加入了人类反馈网络的迁移方法具有更明显的提升效果，且在高维的复杂控制环境中展现出优势。即使在动力模型不匹配的情况下，依然有明显的迁移效果，并极大地提高了样本效率。

为了在现实世界中实现样本有效的学习，本发明提出了具有自适应动力学模型(PPTADM)的渐进式政策转移方法。PPTADM假设仿真的动力学与现实世界不匹配，并在通过渐进式网络从仿真中迁移的策略的基础上，学习现实中的前向动力学模型以及无模型的强化学习算法。此外，对于奖励函数难以或甚至无法定义和验证有效性的现实任务，PPTADM可以仅从模拟迁移的估计奖励函数中学习，即使它们的动态不匹配。与其他相关的渐进式神经网络专利方法相同，都可以在目标任务上产生正迁移效果，但PPTAADM着重于提高样本效率以期快速在真实环境中完成任务。本发明在六个任务中测试的结果表明，PPTADM可以显着提高机器人的学习效率和性能。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于自适应动力学模型的渐进策略迁移方法，其特征在于，用于机器人通过渐进神经网络和动力学模型从仿真环境中迁移控制策略至现实环境中，并在现实环境的任务中使用学习到的正向动力学模型进一步改进策略；该方法应用于控制机器人领域，该方法包括以下步骤：

基于渐进神经网络在仿真环境中训练一个源策略；

2.根据权利要求1所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，在现实环境的任务中使用正向动力学模型θ_∈进一步改进策略，正向动力学模型将机器人在时间步t的状态动作对(s_t，a_t)作为输入，并将预测当前状态s_t和下一个状态s_t+1之间的差异Δs，即Δs＝s_t+1-s_t；预测机器人的下一个具有正向动力学模型θ_∈的状态为s′＝s_t+θ_∈(s_t+a_t)。

3.根据权利要求2所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，在训练实际的目标策略之前，将使用初始化的目标策略π_r来收集M个样本来预训练正向动力学模型θ_∈，通过最小化均方误差L_θ，使用存放在回放缓冲区D_E中收集到的M个样本来更新动态模型。

4.根据权利要求3所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，最小化均方误差L_θ的公式：

式中，L_θ为最小化均方误差，D_E为回放缓冲区,分别为智能体在当前时间步t下的状态值、动作值、下一个状态值,θ_∈为正向动态模型，(s_t，a_t)为时间步t的状态动作对。

5.根据权利要求1所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，从仿真环境中迁移策略到真实环境中，通过渐进式神经网络使用源任务策略初始化两列神经网络参数。

6.根据权利要求4所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，在现实世界中从模拟中估计的转移奖励函数进行学习，在仿真环境中，仅从定义的奖励函数中学习基于状态的奖励模型，并将估计的奖励函数转换为现实。

7.根据权利要求6所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，当机器人被训练着去学习模拟环境中的源策略时，机器人用于学习神经网络表示的奖励模型

8.根据权利要求7所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，在训练策略期间，创建一个样本重放缓冲区D_E来存储用于训练奖励模型的元组[s_t，s_t+1，r_t]，其中，s_t，s_t+1是输入，r_t是标签，其中，奖励模型/>将通过使用随机梯度下降最小化误差来更新。

9.根据权利要求6所述的基于自适应动力学模型的渐进策略迁移方法，其特征在于，所述基于自适应动力学模型的渐进策略迁移方法，使用Soft Actor-Critic为学习算法来学习目标策略π_r，目标策略的参数θ通过直接最小化预期的KL散度来更新，KL散度的公式如下所示：

式中，为策略优化的最终目标函数，/>为期望值，[D_E，D_M]分别为环境样本池和动力学模型样本池，ε_t∈N为一个服从N的高斯分布,/>为概率分布的对数形式，Q(s_t，f(ε_t，s_t))为软Q值函数。