CN112363402B

CN112363402B - 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质

Info

Publication number: CN112363402B
Application number: CN202011522193.9A
Authority: CN
Inventors: 张文祺; 李鹏; 赵锴; 傅汇乔; 叶发萍; 江微杰; 朱晓; 王韬
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-05-14
Anticipated expiration: 2040-12-21
Also published as: CN112363402A

Abstract

本申请公开了一种基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质。通过应用本申请的技术方案，可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参，人工成本较高的问题。且训练得到的参数往往鲁棒性较差，只能适用于某种固定的场景，难以应付实际足式机器人的多种应用任务的需求。

Description

基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质

技术领域

本申请中涉及计算机技术，尤其是一种基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质。

背景技术

随着通信领域和计算领域的发展，强化学习的方法应用在足式机器人步态控制领域可以解决其动态特性复杂，建模难度大，控制策略鲁棒性差等问题。

进一步的，相关技术中，当前大部分将强化学习应用到足式机器人步态训练的方法包括以下两类：一是通过模拟器训练然后迁移到真实环境，这种方法迁移效果往往受限于模拟器和物理引擎的精度。二是通过在真实环境中直接训练足式机器人，但硬件成本太高，而且训练时间过长，难以推广至中大型足式机器人。第一类从模拟器到真实世界(simulation-to-real)的方法当前的做法通常是采用模型无关（model-free）的强化学习思路在模拟器中对步态进行训练，然后再迁移到现实环境中。在迁移的过程中通常会碰到虚拟现实鸿沟(reality-gap)的问题，即由于模拟器的特性和真实环境的依然有较大差距，在模拟器中学习的策略直接迁移到真实环境中常常会失败，解决迁移问题的一般思路是在模拟器中训练中加入随机初始化和扰动等技术，借此学习一个更加鲁棒的控制策略，但这种随机初始化的训练方式会降低学习的模型的最终表现，相当于在控制精度和鲁棒性中牺牲了前者，增强了后者。第二类在真实环境中训练步态大部分工作均是小型足式机器人系统，因为中大型足式机器人的动态特性非常复杂，状态空间和动作空间十分庞大，现实世界中直接采样训练的时间成本太高。因此如何利用强化学习训练出一个更接近真实机器人策略是一个研究的热点方向。

发明内容

本申请实施例提供一种基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质，其中，根据本申请实施例的一个方面，提供的一种基于模型相关强化学习的足式机器人的步态训练方法，其特征在于，包括：

在模拟器中搭建初始的足式机器人模型，所述模拟器中包括目标强化学习框架；

利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略；

利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，所述交互样本数据为将所述基础策略部署在所述足式机器人上所采集到的交互数据；

持续迭代更新所述环境模型以及所述控制策略模型，其中所述环境模型通过所述控制策略模型产生的真实样本而持续迭代更新，所述控制策略模型通过所述环境模型产生的模拟样本而持续迭代更新；

当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕。

可选地，在基于本申请上述方法的另一个实施例中，所述利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略，包括：

利用所述目标强化学习框架，并采用多个训练层对所述足式机器人模型进行步态训练，所述训练层包括物理引擎层、环境地形层、系统模型层以及机器人模型层。

可选地，在基于本申请上述方法的另一个实施例中，所述采用多个训练层对所述足式机器人模型进行步态训练，包括：

从多个候选训练物理量中，为每一个训练层随机获取至少一个目标训练物理量；

采用DPPO强化学习算法，将所述目标训练物理量作为对应训练层的训练配置，实现所述足式机器人模型的状态与动作的映射，得到所述基础策略。

可选地，在基于本申请上述方法的另一个实施例中，所述利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，还包括：

采用模型相关的模型强化学习算法，并利用在真实环境中将训练过程中采集到的真实样本学习所述环境模型以及所述控制策略模型，其中所述环境模型可以实现所述足式机器人的状态概率转移的映射；

同步训练所述学习环境模型和控制策略模型，更新所述交互样本数据，所述更新后的交互样本数据用于确定状态概率转移函数。

可选地，在基于本申请上述方法的另一个实施例中，所述利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型之后，还包括：

利用所述环境模型提升所述控制策略模型。

可选地，在基于本申请上述方法的另一个实施例中，所述利用所述环境模型提升所述控制策略模型，包括：

通过所述模型强化算法迭代更新所述环境模型和控制策略模型；

当确定所述环境模型对状态概率转移函数的估计值达到预设阈值时，所述环境模型通过模拟得到多个虚拟交互经验样本；

通过所述多个虚拟交互经验样本，加速更新所述控制策略模型。

可选地，在基于本申请上述方法的另一个实施例中，所述环境模型通过模拟得到多个虚拟交互经验样本，包括：

所述环境模型生成初始状态动作对数据；

所述环境模型对所述随机初始状态动作对数据进行模拟，生成固定深度的模拟交互状态动作对数据；

将所述初始状态动作对数据以及所述模拟状态动作对数据的合集作为所述虚拟交互经验样本。

其中，根据本申请实施例的又一个方面，提供的一种基于模型相关强化学习的足式机器人的步态训练装置，其特征在于，包括：

搭建模块，被配置为在模拟器中搭建初始的足式机器人模型，所述模拟器中包括目标强化学习框架；

训练模块，被配置为利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略；

获取模块，被配置为获取环境模型以及控制策略模型，所述环境模型为通过所述控制策略模型产生真实样本而训练得到的模型，所述控制策略模型为所述环境模型产生模拟样本而不断更新优化的模型；

学习模块，被配置为利用交互样本数据以及模型强化算法在足式机器人上同步学习所述环境模型和所述控制策略模型，所述交互样本数据为将所述基础策略部署在所述足式机器人上所采集到的交互数据；

确定模块，被配置为当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

显示器，用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述基于模型相关强化学习的足式机器人的步态训练方法的操作。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述基于模型相关强化学习的足式机器人的步态训练方法的操作。

本申请中，可以在模拟器中搭建初始的足式机器人模型，模拟器中包括目标强化学习框架；利用目标强化学习框架，对足式机器人模型进行步态训练，得到基础策略；利用交互样本数据以及模型相关强化算法在足式机器人上同步学习环境模型和控制策略模型，通过策略模型产生真实样本训练环境模型，同时通过环境模型产生模拟样本加速策略模型的更新优化，更好的策略模型能产生更丰富的真实样本，两者依次迭代更新，再当检测到触发训练结束条件时，确定足式机器人训练完毕。通过应用本申请的技术方案，可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参，人工成本较高的问题。且训练得到的参数往往鲁棒性较差，只能适用于某种固定的场景，难以应付实际足式机器人的多种应用任务的需求。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请提出的应用于基于模型相关强化学习的足式机器人的步态训练方法示意图；

图2为本申请提出的步态模型训练的结构图；

图3为本申请提出的基于模型相关强化学习的足式机器人步态训练方法的整体流程图；

图4为本申请基于模型相关强化学习的足式机器人的步态训练方法电子装置的结构示意图；

图5为本申请显示电子设备结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

下面结合图1-图3来描述根据本申请示例性实施方式的用于进行基于模型相关强化学习的足式机器人的步态训练方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种基于模型相关强化学习的足式机器人的步态训练方法、装置、目标终端及介质。

图1示意性地示出了根据本申请实施方式的一种基于模型相关强化学习的足式机器人的步态训练方法的流程示意图。如图1所示，该方法包括：

S101，在模拟器中搭建初始的足式机器人模型，模拟器中包括目标强化学习框架。

S102，利用目标强化学习框架，对足式机器人模型进行步态训练，得到基础策略。

首先需要说明的是，本申请不对足式机器人进行具体限定，例如可以为双足机器人，也可以为四足机器人。

进一步的，如图2所示，为本申请实施例中提出的步态模型训练的结构图，一种方式中，可以生成100个并行训练环境，其中30个环境采用ODE物理引擎进行计算，剩下30个环境采用BULLET物理引擎进行计算。其中每个环境随机从环境地形层中选择一个地形训练，并设置地面摩擦系数、刚度和阻尼系数等，然后每个环境中随机设置传感器测量噪声、测量延时、电机控制延时，并且随机设置足式机器人的初始姿态角和初始位置，最后在对足式机器人的各个部件的质量分布、惯性矩阵、关节阻尼、关节摩擦力、部件的刚度系数、阻尼系数、材料摩擦力、电机响应特性等物理在一定范围内的进行随机设置。

另外，还可以采用并行PPO算法来实现模型无关(model free)的强化学习算法。其中PPO算法模型分为控制策略模型（policy net）和值函数模型（value net），其中奖励函数reward function计算中对足式机器人前进的距离给予奖励，对机器人自身的倾斜和抖动给予惩罚。每个环境的状态空间由s定义，由机器人各个传感器的测量值组成，100个环境的st共同构成观测状态O(t),即O(t)=(s1(t),s2(t)..,s100(t)),动作输出at是12个关节的电机期望角度,控制策略模型根据O(t)中的s(t)计算出各自对应a(t),并将A(t)=(a1(t),a2(t),...,a100(t))发送给各自模拟器进行执行,模拟器中的物理引擎计算新的状态O(t+1)=(s1(t+1),s2(t+1)..,sn(t+1))和奖励值R(t+1)=(r1(t+1),r2(t+1)....,rn(t+1))，迭代运行，每次运行最长步数为2000步。

更进一步的，训练过程中设置一个存储数组，大小为1000*2000，其中1000代表每收集满1000次仿真序列(episodes)则进行模型梯度更新，2000指每次仿真模拟最长执行2000步，每个时刻算法将O(t)中所有t时刻的状态按列存入缓存单元memory buffer,当收集满1000次样本序列后则进行控制策略模型和值函数模型的更新。

再进一步的，通过多轮次的迭代，最终可训练出一个多任务场景下均可以稳定运行的步态控制基础策略P0，该基础策略P0具有较强的鲁棒性，能够应对多种复杂地形地貌、能够适应各个不同的初始姿态和电机参数、并且对机器人的物理属性不那么敏感，此外该基础策略P0在各个环境任务中表现均不是最好，但是通过短时训练就能够很快的迁移到该环境中，即基础策略P0具有较强的环境迁移能力。

S103，利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，交互样本数据为将基础策略部署在足式机器人上所采集到的交互数据。

进一步的，本申请还可以将基础策略P0部署在真实足式机器人上，并且根据机器人挂载的惯性传感器测量的姿态角设置一定的安全空间。一种方式中，横滚角测量值的绝对值小于0.8弧度，俯仰角测量值绝对值小于0.7弧度，在安全状态空间下采集的样本可以用于训练更新基础策略P0，超过该安全状态空间的样本则丢弃。

另外，还可以根据继续在真实环境中对足式机器人进行一定轮次的强化学习的训练，通过训练积累经验样本，存入经验样本区(memory buffer)，并逐步更新P0，使得基础策略P0逐步迁移到真实环境中。

S104，持续迭代更新环境模型以及控制策略模型，其中环境模型通过控制策略模型产生的真实样本而持续迭代更新，控制策略模型通过环境模型产生的模拟样本而持续迭代更新。

S105，当检测到触发训练结束条件时，确定经过学习环境模型和控制策略模型的足式机器人训练完毕。

进一步的，如图3所示，为本申请提出的基于模型相关强化学习的足式机器人步态训练方法的整体流程图。具体的，以四足机器人举例，可以首先在模拟器中按照实体机器人的物理参数，在模拟器中搭建四足机器人的模型，并在模拟器中搭建强化学习框架，通过并行的模型无关(model-free）强化学习方法训练四足机器人得到基础策略P0。更进一步的，可以将得到的基础策略P0部署在真实四足机器人上，并在真实环境中继续训练模型，采集有限状态的真实样本集，并更新策略。从而利用上述采集的样本集合送入模型相关强化学习模块，在真实四足机器人上学习环境模型M，即通过监督学习的方法学习状态概率转移函数。最后，可以通过实体机器人的真实交互数据不断更新迭代策略模型P。与此同时，在环境模型里利用当前学习到概率转移模型M来模拟生成更多虚拟样本加速整个训练过程，提升策略P效果，最终得到较为准确的环境模型M*和较好的控制策略P*。

需要说明的是，本申请实施例中不对训练结束条件进行具体限定。一种方式中，训练结束的条件可以为一定的次数，例如当检测到对经过学习环境模型和控制策略模型的足式机器人训练次数达到预设阈值时，判定当前触发训练结束条件。另外一种方式中，训练结束的条件也可以为一定的训练时间，例如当检测到对经过学习环境模型和控制策略模型的足式机器人训练时间达到预设时间段时，判定当前触发训练结束条件等等。

可选的，在本申请一种可能的实施方式中，利用目标强化学习框架，对足式机器人模型进行步态训练，得到基础策略，包括：

利用目标强化学习框架，并采用多个训练层对足式机器人模型进行步态训练，训练层包括物理引擎层、环境地形层、系统模型层以及机器人模型层。

可选的，在本申请一种可能的实施方式中，采用多个训练层对足式机器人模型进行步态训练，包括：

采用DPPO强化学习算法，将目标训练物理量作为对应训练层的训练配置，实现足式机器人模型的状态与动作的映射，得到基础策略。

可选的，在本申请一种可能的实施方式中，利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，还包括：

采用模型相关的模型强化学习算法，并利用在真实环境中将训练过程中采集到的真实样本学习环境模型以及控制策略模型，其中环境模型可以实现足式机器人的状态概率转移的映射；

同步训练学习环境模型和控制策略模型，更新交互样本数据，更新后的交互样本数据用于确定状态概率转移函数。

可选的，在本申请一种可能的实施方式中，利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型之后，还包括：

利用环境模型提升控制策略模型。

进一步的，本申请中的基础策略P0可以通过在真实机器人中训练，由于其易于迁移，能够在真实环境中短时内保持稳定步态，能够采集到较多的经验样本数据E=[s,a,s’]。借鉴MBPO算法的思路，建立多个概率神经网络模型来对环境模型建模即

，其中该模型输入为当前的足式机器人状态和执行动作，输出为估计的下一时刻状态，并利用下一刻机器人的状态计算奖励函数，实现状态概率转移的映射s(t+1),r(t+1)=M(s(t),a(t))。

更进一步的，训练过程中，每次更新环境模型M和控制策略模型P，对应环境模型M而言，最小化网络输出的估计状态和真实状态的误差，每次更新控制策略模型P的同时更新多次环境模型M，同时随着策略P的提升，积累的样本数据也越来越丰富，M模型对概率转移函数的估计也越来越准。

可选的，在本申请一种可能的实施方式中，利用环境模型提升控制策略模型，包括：

通过模型强化算法迭代更新环境模型和控制策略模型；

当确定环境模型对状态概率转移函数的估计值达到预设阈值时，环境模型通过模拟得到多个虚拟交互经验样本；

通过多个虚拟交互经验样本，更新控制策略模型。

可选的，在本申请一种可能的实施方式中，环境模型通过模拟得到多个虚拟交互经验样本，包括：

环境模型生成初始状态动作对数据；

环境模型对随机初始状态动作对数据进行计算，生成精准状态动作对数据；

将初始状态动作对数据以及精准状态动作对数据的合集作为虚拟交互经验样本。

进一步的，当训练样本积累的足够丰富, 环境模型M对状态概率转移函数的估计较为准确，环境模型M可以直接用来模拟生成更多的伪经验样本：即首先在真实样本分布Dreal附近区域生成更多的状态动作对(s1,a1),然后用环境模型M计算s2,r2=M(s1,a1)，然后在环境模型M在s2空间下全局的搜索选择能产生最大回报的a2，继续执行s3,r3=M(s2，a2),不断迭代t次后，最终得到固定深度t的模拟交互数据T=[s1,a1,s2,a2......st,at]。

更进一步的，对学习到的模型M产生的模拟数据在真实交互过程进行评价根据真实执行的结果评价其置信度。在刚开始模型学习的时，环境模型是有偏差的，仅利用少量的模拟数据优化模型，后期随着环境模型学习得越来越完善，偏差逐渐减少，把更多的模拟数据加入memory buffer中，利用模拟交互数据T和真实交互数据E一起用于更新控制策略模型P，最终可以得到一个较为准确的环境模型M*和较为鲁棒的控制策略P*，实现实体足式机器人上的步态控制。

在本申请的另外一种实施方式中，如图4所示，本申请还提供一种基于模型相关强化学习的足式机器人的步态训练装置。其中，包括搭建模块201，训练模块202，学习模块203，更新模块204，确定模块205，其中，

搭建模块201，被配置为在模拟器中搭建初始的足式机器人模型，所述模拟器中包括目标强化学习框架；

训练模块202，被配置为利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略；

学习模块203，被配置为利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，所述交互样本数据为将所述基础策略部署在所述足式机器人上所采集到的交互数据；

更新模块204，被配置为持续迭代更新所述环境模型以及所述控制策略模型，其中所述环境模型通过所述控制策略模型产生的真实样本而持续迭代更新，所述控制策略模型通过所述环境模型产生的模拟样本而持续迭代更新；

确定模块205，被配置为当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为利用所述目标强化学习框架，并采用多个训练层对所述足式机器人模型进行步态训练，所述训练层包括物理引擎层、环境地形层、系统模型层以及机器人模型层。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为从多个候选训练物理量中，为每一个训练层随机获取至少一个目标训练物理量；

搭建模块201，被配置为采用DPPO强化学习算法，将所述目标训练物理量作为对应训练层的训练配置，实现所述足式机器人模型的状态与动作的映射，得到所述基础策略。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为采用模型相关的模型强化学习算法，并利用在真实环境中将训练过程中采集到的真实样本学习所述环境模型以及所述控制策略模型，其中所述环境模型可以实现所述足式机器人的状态概率转移的映射；

搭建模块201，被配置为同步训练所述学习环境模型和控制策略模型，更新所述交互样本数据，所述更新后的交互样本数据用于确定状态概率转移函数。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为利用所述环境模型提升所述控制策略模型。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为通过所述模型强化算法迭代更新所述环境模型和控制策略模型；

搭建模块201，被配置为当确定所述环境模型对状态概率转移函数的估计值达到预设阈值时，所述环境模型通过模拟得到多个虚拟交互经验样本；

搭建模块201，被配置为通过所述多个虚拟交互经验样本，加速更新所述控制策略模型。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为所述环境模型生成初始状态动作对数据；

搭建模块201，被配置为所述环境模型对所述随机初始状态动作对数据进行计算，生成精准状态动作对数据；

搭建模块201，被配置为所述环境模型对所述随机初始状态动作对数据进行模拟，生成固定深度的模拟交互状态动作对数据

图5是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如，电子设备300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备处理器执行以完成上述基于模型相关强化学习的足式机器人的步态训练方法，该方法包括：在模拟器中搭建初始的足式机器人模型，所述模拟器中包括目标强化学习框架；利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略；利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，所述交互样本数据为将所述基础策略部署在所述足式机器人上所采集到的交互数据；当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕。可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述基于模型相关强化学习的足式机器人的步态训练方法，该方法包括：在模拟器中搭建初始的足式机器人模型，所述模拟器中包括目标强化学习框架；利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略；利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，所述交互样本数据为将所述基础策略部署在所述足式机器人上所采集到的交互数据；当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕。可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。

图5为计算机设备30的示例图。本领域技术人员可以理解，示意图5仅仅是计算机设备30的示例，并不构成对计算机设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，处理器302是计算机设备30的控制中心，利用各种接口和线路连接整个计算机设备30的各个部分。

存储器301可用于存储计算机可读指令303，处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现计算机设备30的各种功能。存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机设备30的使用所创建的数据等。此外，存储器301可以包括硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card， SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）或其他非易失性/易失性存储器件。

计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于模型相关强化学习的足式机器人的步态训练方法，其特征在于，包括：

当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕；

其中，在所述利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，还包括：

在真实环境中对足式机器人进行一定轮次的强化学习的训练，通过训练积累经验样本，并根据所述经验样本逐步更新基础策略并逐步迁移到真实环境中；

其中，所述利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，还包括：

同步训练所述环境模型和控制策略模型，更新所述交互样本数据，所述更新后的交互样本数据用于确定状态概率转移函数；

其中，所述利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型之后，还包括：

利用所述环境模型提升所述控制策略模型；

所述利用所述环境模型提升所述控制策略模型，包括：

通过所述多个虚拟交互经验样本，加速更新所述控制策略模型；

其中，所述环境模型通过模拟得到多个虚拟交互经验样本，包括：

所述环境模型生成初始状态动作对数据；

所述环境模型对所述初始状态动作对数据进行模拟，生成固定深度的模拟交互状态动作对数据；

将所述初始状态动作对数据以及所述模拟交互状态动作对数据的合集作为所述虚拟交互经验样本。

2.如权利要求1所述的方法，其特征在于，所述利用所述目标强化学习框架，对所述足式机器人模型进行步态训练，得到基础策略，包括：

3.如权利要求2所述的方法，其特征在于，所述采用多个训练层对所述足式机器人模型进行步态训练，包括：

4.一种基于模型相关强化学习的足式机器人的步态训练装置，其特征在于，包括：

学习模块，被配置为利用交互样本数据以及模型强化算法在足式机器人上同步学习环境模型和控制策略模型，所述交互样本数据为将所述基础策略部署在所述足式机器人上所采集到的交互数据；

更新模块，被配置为持续迭代更新所述环境模型以及所述控制策略模型，其中所述环境模型通过所述控制策略模型产生的真实样本而持续迭代更新，所述控制策略模型通过所述环境模型产生的模拟样本而持续迭代更新；

确定模块，被配置为当检测到触发训练结束条件时，确定经过学习所述环境模型和控制策略模型的足式机器人训练完毕；

利用所述环境模型提升所述控制策略模型；

所述利用所述环境模型提升所述控制策略模型，包括：

所述环境模型生成初始状态动作对数据；

5.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及，

处理器，用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-3中任一所述基于模型相关强化学习的足式机器人的步态训练方法的操作。

6.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-3中任一所述基于模型相关强化学习的足式机器人的步态训练方法的操作。