CN112596534A

CN112596534A - 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质

Info

Publication number: CN112596534A
Application number: CN202011407288.6A
Authority: CN
Inventors: 张文祺; 李鹏; 赵锴; 傅汇乔; 叶发萍; 江微杰; 朱晓; 王韬
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-02

Abstract

本申请公开了一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质。本申请中，可以在模拟器中搭建环境、四足机器人模型以及传感器模型；通过多源信息融合技术以及传感器，获取测量信号，并估计机器人状态；利用环境模块、机器人模型以及测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。通过应用本申请的技术方案，可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参，人工成本较高的问题。且训练得到的参数往往鲁棒性较差，只能适用于某种固定的场景，难以应付实际四足机器人的多种应用任务的需求。

Description

基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质

技术领域

本申请中涉及计算机技术，尤其是一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质。

背景技术

在四足机器人的步态控制领域，通常采用正逆运动学和机器人动力学等方法结合模型预测控制等先进控制理论实现四足机器人的步态控制，通常将整个控制系统分为足端轨迹规划模块和运动控制模块，规划部分实现足端轨迹的计算，控制部分根据轨迹实现各个关节执行器的控制。但是基于此类传统的控制理论得到的方法需要大量的手工调参，并且单一来源的传感器信息噪声和延时比较大，容易导致控制系统出现问题，模型鲁棒性难以满足复杂环境的需求。此外当四足机器人碰到非平整、非结构化地形时，传统步控制策略容易失效，其根本原因是因此类方法的模型假设较强，难以满足实际四足机器人复杂、高动态、多场景的使用需求。

目前，相关技术中关于四足机器人的步态控制领域的研究还较为简单，大部分集中于基于物理引擎的模拟器和强化学习的算法层面，缺乏一个完整的从模拟器开始并迁移到实体机器人的可行方法。

发明内容

本申请实施例提供一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质，其中，根据本申请实施例的一个方面，提供的一种基于深度强化学习的四足机器人的步态训练方法，其特征在于，包括：

在模拟器中搭建环境模块、四足机器人模型以及传感器模块；

通过多源信息融合技术以及所述传感器，获取测量信号，计算机器人状态；

利用设置的环境、机器人模型以及所述精准转角测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；

基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。

可选地，在基于本申请上述方法的另一个实施例中，所述在模拟器中搭建四足机器人模型，包括：

搭建所述四足机器人的躯干结构以及肢体结构，所述每个肢体包括三个由电机控制的关节。

可选地，在基于本申请上述方法的另一个实施例中，所述在模拟器中搭建传感器模型，包括：

搭建第一数量的电机角度传感器；以及，用于设置在四足机器人躯干重心位置的第二数量的惯性传感器；

为所述四足机器人的每个足端搭建一个对应的压力传感器、惯性传感器，以及RGBD图像传感器。

可选地，在基于本申请上述方法的另一个实施例中，所述通过多源信息融合技术以及所述传感器模型，获取测量信号，包括：

通过设置在所述四足机器人的每个足端搭建的惯性传感器，计算所述四足机器人的每个肢体上的转角数据，所述转角数据用于补偿角度编码的测量误差；

将多个惯性传感器上传的测量数据按照组合方差最小的原则进行融合，得到所述测量信号。

可选地，在基于本申请上述方法的另一个实施例中，所述生成四足机器人的足端轨迹规划和初始步态控制策略，包括：

利用所述四足机器人的自身参数和关节角度测量值，计算出所述四足机器人的各个时刻足端的位置，得到所述足端轨迹规划；

利用逆运动学方法以及所述足端轨迹规划，计算出所述四足机器人的各个关节实际的控制命令，并通过所述各个关节的控制命令，得到所述四足机器人的所述步态控制策略。

可选地，在基于本申请上述方法的另一个实施例中，所述生基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，包括：

在所述模拟器中设置至少两种不同形态的地形地貌，所述地形地貌中包括不同的地面材料以及风力扰动；

在所述模拟器中对所述四足机器人模型参数进行随机初始化，其中模型参数包括初始姿态、质量、惯性矩阵、摩擦力、关节阻尼系数、电机摩擦系数的至少一种；

采用并行PPO强化学习算法，在所述至少两种不同形态的地形地貌以及所述随机初始化条件下训练得到所述深度强化学习算法；

利用所述深度强化学习算补偿和调整所述足端轨迹规划以及所述初始步态控制策略。

可选地，在基于本申请上述方法的另一个实施例中，所述利用所述深度强化学习算补偿和调整所述足端轨迹规划以及所述初始步态控制策略，包括：

设置所述四足机器人的状态空间，所述状态空间包括关节角度测量值，关节角速度测量值，方向载体速度，载体姿态四元数，方向载体姿态角速率，足端接触力以及轨迹规划模块输出期望角度。

利用所述四足机器人的状态空间，实时调整电机的输出力矩量，从而实现来补偿所述足端轨迹规划以及所述初始步态控制策略。

其中，根据本申请实施例的又一个方面，提供的一种基于深度强化学习的四足机器人的步态训练装置，其特征在于，包括：

搭建模块，被配置为在模拟器中搭建环境模块、四足机器人模型以及传感器；

状态估计模块，被配置通过多源信息融合技术以及所述传感器，获取测量信号，并计算机器人状态；

生成模块，被配置利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；

提升模块，被配置基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

显示器，用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述基于深度强化学习的四足机器人的步态训练方法的操作。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述基于深度强化学习的四足机器人的步态训练方法的操作。

本申请中，可以在模拟器中搭建环境、四足机器人模型以及传感器模型；通过多源信息融合技术以及传感器，获取测量信号，并估计机器人状态；利用环境模块、机器人模型以及测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。通过应用本申请的技术方案，可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参，人工成本较高的问题。且训练得到的参数往往鲁棒性较差，只能适用于某种固定的场景，难以应付实际四足机器人的多种应用任务的需求。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请提出的基于深度强化学习的四足机器人的步态训练方法示意图；

图2为为本申请提出的四足机器人步态学习方法的整体流程图；

图3为本申请提出的多源信息融合技术结构图；

图4为本申请提出的多源信息融合技术的并行强化学习系统算法框图；

图5为本申请基于深度强化学习的四足机器人的步态训练方法电子装置的结构示意图；

图6为本申请显示电子设备结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

下面结合图1-图4来描述根据本申请示例性实施方式的用于进行基于深度强化学习的四足机器人的步态训练方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种基于深度强化学习的四足机器人的步态训练方法、装置、目标终端及介质。

图1示意性地示出了根据本申请实施方式的一种基于深度强化学习的四足机器人的步态训练方法的流程示意图。如图1所示，该方法包括：

S101，在模拟器中搭建环境模块、四足机器人模型以及传感器模型。

进一步的，如图2所示，为本申请提出的四足机器人步态学习方法的整体流程图。其中本申请中在模拟器中搭建四足机器人模型的过程中，可以采用 PYBULLET导入机器人模型，包括机器人身体和四条肢体，每条肢体上可以包括三个关节自由度，每个关节设置一个电机，设置四足机器人的每个零件的材料及相应的物理属性，设置每个关节的阻尼系数、摩擦力等。

另外，本申请中在模拟器中搭建传感器模型的过程中，可在模拟器中增加相应的传感器，包括12个电机角度传感器、四足机器人身体重心位置安装3套惯性传感器，1个RGBD图像传感器，每个足端安装1个压力传感器和1个惯性传感器。

再者，本申请中在模拟器中搭建环境模块的过程中，可以通过测量实体四足机器人各个传感器的噪声，并在模拟器中对各传感器设置相同或更大幅度噪声大小。

S102，通过多源信息融合技术以及传感器模型，获取测量信号，并计算机器人状态。

进一步的，本申请中在获取测量信号的过程中，可以首先实现关节转动角度的融合，具体的，可以通过机器人足端的惯性传感器测量得到实时的角速度信息和加速度信息，并通过该信息实时解算出足端点的轨迹和姿态，最后通过逆运动学方法在相应的约束条件可以计算出三个关节的转角，得到计算的转角数据后采用卡尔曼滤波对角度编码器的测量数据和惯性器件估计的关节转角进行有效融合，得到准确的关节角度测量数据。

进一步的，本申请三套冗余设计的惯性器件融合：四足机器人身上按照三套完全相同的惯性传感器(IMU)，计算各传感器的角速率和加速度测量数据的实时方差，基于各方差大小确定融合权重，得到组合方差最小的融合测量数据。

另外，对于四足机器人的实时位姿估计：四足机器人身体上带有RGBD图像传感器可以得到实时图像和深度信息，上述三套冗余设计的惯性传感器(IMU) 融合可以得到方差更小的IMU测量数据。在图像传感器与IMU传感器进行标定之后，根据所记录的图像提取特征点，利用随机一致性采样算法过滤外点，之后根据相机与IMU之间的外参、IMU与世界坐标系下的待估计位姿构建重投影误差，再根据IMU的融合测量数据与待估计位姿构建预积分误差。将重投影误差与预积分误差通过协方差传递矩阵计算得到的权重信息加以融合，通过求解该目标函数关于位姿的偏导数从而构建海塞矩阵，以李代数扰动的形式采用列文伯格马尔夸特优化方法对目标函数进行非线性优化。在定位过程中通过深度神经网络加以辅助，判断场景中的相似区域，构建闭环检测，对建图中产生的尺度漂移问题进行优化，从而能够实时建图并估计出四足机器人的自身位置、姿态与运动轨迹。

S103，利用环境模块、机器人模型以及测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略。

进一步的，本申请可以通过S102中得到的角度测量数据中关节转角数据和预设的步态模型计算出四足机器人在每个时刻的四个足端规划点。并可以将上述四个足端规划点通过逆运动学和约束条件求解下一时刻的期望角度，并将该期望角度发送给电机PD模型，计算需要的力矩。从而得到对应的四足机器人的足端轨迹规划和初始步态控制策略。

S104，基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。

进一步的，本申请可以在模拟器中将对四足机器人的各个部件的质量、惯性矩阵、关节摩擦力、材料摩擦系数等物理进行随机化处理，即假设该属性服从高斯分布，其分布的均值设置为真实四足机器人的测量值，再人工根据经验设置该分布的方差，每次从该分布中采样出对应的物理属性，同理对各个转动关节的摩擦系数、阻尼系数也进行随机化处理。

另外，还可以在模拟器中生成各种训练场景，其中包括碎石地、山地、坡地、平地等，并设置地面的摩擦系数、阻尼系数和刚度系数。以及对模拟器中四足机器人的姿态和关节转角进行一定约束范围内的随机初始化，对所有挂载传感器增加一定的高斯随机噪声。再者，可以在模拟器中生成并行多个环境，每个环境中均有四足机器人模型、环境模块和传感器模型，均采用随机初始化方法进行初始化。

更进一步的，本申请在搭建深度强化学习模型的过程中，可以采用PPO算法实现，分为ACTOR模型和CRITIC模型，每个模型均是由3层神经网络搭建，搭建BUFFER MEMORY存储历史元组，CRITIC模型输出value值，并计算advantage value值，ACTOR模型计算动作输出。并将N个并行环境的O(t)同步发送给PPO 模型，PPO模型计算出N个动作输出，再发送给各自的模拟器，模拟器执行该动作，并返回给PPO模型相应的O(t+1)和R(t+1)，当四足机器人在模拟器中摔倒时，模拟器向PPO模型发送DONE指令，代表本次模拟结束，PPO模型对应发送RESET指令重启模拟，整个并行训练环境采用同步模式进行。

最后，本申请在训练和测试过程中，可根据上述得到的期望角度和强化学习模型输出的力矩增量均在电机PD模型中计算最终需要力矩，即F＝F1+F2，其中F1由期望角度通过PD控制器得到的力矩，而F2是强化学习模型的输出力矩增量，强化学习的输出用于补偿轨迹规划模块的控制，整个初始步态控制策略更加鲁棒，能够适用于多种复杂路况环境。

可选的，在本申请一种可能的实施方式中，在模拟器中搭建四足机器人模型，包括：

搭建四足机器人的躯干结构以及肢体结构，每个肢体包括三个由电机控制的关节。

可选的，在本申请一种可能的实施方式中，在模拟器中搭建传感器模型，包括：

为四足机器人的每个足端搭建一个对应的压力传感器、惯性传感器，以及 RGBD图像传感器。

进一步的，搭建四足机器人模型包括四足机器人的躯干结构以及肢体结构，该肢体即可以为机器人的足，其中每条足中的结构包括3个自由度，即三个关节，分别由三个电机控制。

另外，本申请在搭建传感器模型过程中，可以包括12个电机角度传感器、四足机器人身体重心位置安装3套惯性传感器，每个足端安装1个压力传感器和1个惯性传感器，1个RGBD图像传感器，其中机器人身体的3套惯性传感器是为了冗余设计，也可以进行信息融合来降低测量噪声。每条足端的惯性传感器用于补偿角度传感器测量误差，足端的压力传感器用来测量足底和地面的接触力，RGBD图像传感器用于同步定位和建图，实现四足机器人的位姿估计，用于补偿惯性传感器的长时漂移导致的测量误差。

可选的，在本申请一种可能的实施方式中，通过多源信息融合技术以及传感器模型，获取测量信号，包括：

通过设置在四足机器人的每个足端搭建的惯性传感器，计算四足机器人的每个肢体上的转角数据，转角数据用于补偿角度编码的测量误差；

将多个惯性传感器上传的测量数据按照组合方差最小的原则进行融合，得到所述测量信号。进一步的，如图3所示，为本申请提出的多源信息融合技术示意图，由于惯性期间短时测量精度高，但是存在零漂误差和随机游走误差，随着时间的推移，长时测量误差越来越大，所以一般使用一段时间校准。角度编码器测量精度低，但是误差固定，不会随时间漂移。将两者组合，相互补偿会有效降低测量误差，提高精度。因此通过足端惯性传感器计算每条足上三个转角数据可以用于补偿角度编码的测量误差。

另外，本申请中的四足机器人身体上安装三套相同的惯性传感器，惯性器件存在漂移，并且容易受到电磁干扰的影响导致测量故障。本专利中采用三套冗余设计，基于组合方差最小的原则融合三套惯性器件的测量数据可以有效提高测量误差、降低故障概率，保障四足机器人的安全。且，RGBD图像传感器和惯性器件可以通过同步定位和建图技术(SLAM)对四足机器人的实时位姿进行很好的估计，满足短时精度高和长时不漂移的要求。

可选的，在本申请一种可能的实施方式中，生成四足机器人的足端轨迹规划和初始步态控制策略，包括：

利用四足机器人的自身参数和关节角度测量值，计算出四足机器人的各个时刻足端的位置，得到足端轨迹规划；

利用逆运动学方法以及足端轨迹规划，计算出四足机器人的各个关节实际的控制命令，并通过各个关节的控制命令，得到四足机器人的步态控制策略。

可选的，在本申请一种可能的实施方式中，生基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升，包括：

在模拟器中设置至少两种不同形态的地形地貌，地形地貌中包括不同的地面材料以及风力扰动；

在模拟器中对四足机器人模型参数进行随机初始化，其中模型参数包括初始姿态、质量、惯性矩阵、摩擦力、关节阻尼系数、电机摩擦系数的至少一种；

采用并行PPO强化学习算法，在至少两种不同形态的地形地貌以及随机初始化条件下训练得到深度强化学习算法；

利用深度强化学习算补偿和调整足端轨迹规划以及初始步态控制策略。

可选的，在本申请一种可能的实施方式中，利用深度强化学习算补偿和调整足端轨迹规划以及初始步态控制策略，包括：

设置四足机器人的状态空间，状态空间包括关节角度测量值，关节角速度测量值，方向载体速度，载体姿态四元数，方向载体姿态角速率，足端接触力以及轨迹规划模块输出期望角度。

利用四足机器人的状态空间，实时调整电机的输出力矩量，从而实现来补偿足端轨迹规划以及初始步态控制策略。

进一步的，本申请可以在模拟器中设置多种复杂地形地貌，并设置不同的地面材料，同时增加风力扰动。并在模拟器中对四足机器人的模型参数进行随机初始化，其中包括：初始姿态、质量、惯性矩阵、摩擦力、关节阻尼系数、电机摩擦系数的至少一种等。

更进一步的，如图4所示，本申请还可以设置四足机器人的状态空间O(t)＝(angles(t)，angle(t)_dot(t)，vel(t)， pose_dot(t),pose(t),contact_force(t)，expect_angle(t))，其中包括12 个关节角度测量值，12个关节角速度测量值，3个方向载体速度，4个载体姿态四元数，3个方向载体姿态角速率，4个足端接触力,以及轨迹规划模块输出期望角度，输出动作空间A(t)＝(12个力矩增量),即12个电机输出力矩调整量，来补偿轨迹规划和控制模型的输出，借此提高步态控制策略鲁棒性。设置奖励函数R(t)＝r1+r2+r3，分别代表r1步行速度奖励，r2姿态稳定度惩罚，r3能量损耗惩罚。最后，在通过采用并行PPO的强化学习算法在上述复杂环境和随机初始化条件下训练强化学习算法，用于补偿和调整足端轨迹规划以及初始步态控制策略。

在本申请的另外一种实施方式中，如图5所示，本申请还提供一种基于深度强化学习的四足机器人的步态训练装置。其中，包括搭建模块201，状态估计模块202，生成模块203，提升模块204，其中，

搭建模块201，被配置为在模拟器中搭建环境模块、四足机器人模型以及传感器模型；

状态估计模块202，被配置通过多源信息融合技术以及所述传感器模型，获取测量信号，并计算机器人状态；

生成模块203，被配置利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；

提升模块204，被配置基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。

本申请中，可以在模拟器中搭建环境模块、四足机器人模型以及传感器模型；通过多源信息融合技术以及传感器模型，获取测量信号；利用环境模块、机器人模型以及测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。通过应用本申请的技术方案，可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参，人工成本较高的问题。且训练得到的参数往往鲁棒性较差，只能适用于某种固定的场景，难以应付实际四足机器人的多种应用任务的需求。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为搭建所述四足机器人的躯干结构以及肢体结构，所述每个肢体包括三个由电机控制的关节。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为搭建第一数量的电机角度传感器；以及，用于设置在四足机器人躯干重心位置的第二数量的惯性传感器；

搭建模块201，被配置为为所述四足机器人的每个足端搭建一个对应的压力传感器、惯性传感器，以及RGBD图像传感器。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为通过设置在所述四足机器人的每个足端搭建的惯性传感器，计算所述四足机器人的每个肢体上的转角数据，所述转角数据用于补偿角度编码的测量误差；

搭建模块201，被配置为将多个惯性传感器上传的测量数据按照组合方差最小的原则进行融合，得到所述测量信号。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为利用所述四足机器人的自身参数和关节角度测量值，计算出所述四足机器人的各个时刻足端的位置，得到所述足端轨迹规划；

搭建模块201，被配置为利用逆运动学方法以及所述足端轨迹规划，计算出所述四足机器人的各个关节实际的控制命令，并通过所述各个关节的控制命令，得到所述四足机器人的所述步态控制策略。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为在所述模拟器中设置至少两种不同形态的地形地貌，所述地形地貌中包括不同的地面材料以及风力扰动；

搭建模块201，被配置为在所述模拟器中对所述四足机器人模型参数进行随机初始化，其中模型参数包括初始姿态、质量、惯性矩阵、摩擦力、关节阻尼系数、电机摩擦系数的至少一种；

搭建模块201，被配置为采用并行PPO强化学习算法，在所述至少两种不同形态的地形地貌以及所述随机初始化条件下训练得到所述深度强化学习算法；

搭建模块201，被配置为利用所述深度强化学习算补偿和调整所述足端轨迹规划以及所述初始步态控制策略。

在本申请的另外一种实施方式中，搭建模块201，还包括：

搭建模块201，被配置为设置所述四足机器人的状态空间，所述状态空间包括关节角度测量值，关节角速度测量值，方向载体速度，载体姿态四元数，方向载体姿态角速率，足端接触力以及轨迹规划模块输出期望角度。

搭建模块201，被配置为利用所述四足机器人的状态空间，实时调整电机的输出力矩量，从而实现来补偿所述足端轨迹规划以及所述初始步态控制策略。

图6是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如，电子设备300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备处理器执行以完成上述基于深度强化学习的四足机器人的步态训练方法，该方法包括：在模拟器中搭建环境模块、四足机器人模型以及传感器模型；通过多源信息融合技术以及所述传感器模型，获取测量信号；利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述基于深度强化学习的四足机器人的步态训练方法，该方法包括：在模拟器中搭建环境模块、四足机器人模型以及传感器模型；通过多源信息融合技术以及所述传感器模型，获取测量信号；利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。可选地，上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。

图6为计算机设备30的示例图。本领域技术人员可以理解，示意图6仅仅是计算机设备30的示例，并不构成对计算机设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备30 还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，处理器302是计算机设备30的控制中心，利用各种接口和线路连接整个计算机设备30的各个部分。

存储器301可用于存储计算机可读指令303，处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现计算机设备30的各种功能。存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序 (比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备30的使用所创建的数据等。此外，存储器301可以包括硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory， RAM)或其他非易失性/易失性存储器件。

计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于深度强化学习的四足机器人的步态训练方法，其特征在于，包括：

在模拟器中搭建环境、四足机器人模型以及传感器模型；

通过多源信息融合技术以及所述传感器，获取测量信号，并计算机器人状态；

利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；

2.如权利要求1所述的方法，其特征在于，所述在模拟器中搭建四足机器人模型，包括：

3.如权利要求2所述的方法，其特征在于，所述在模拟器中搭建传感器，包括：

搭建第一数量的关节角度传感器；以及，用于设置在四足机器人躯干重心位置的第二数量的惯性传感器；

4.如权利要求3所述的方法，其特征在于，所述通过多源信息融合技术以及所述传感器，获取测量信号，计算机器人状态，包括：

通过设置在所述四足机器人的足端搭建的惯性传感器，计算所述四足机器人的每个肢体上的转角数据，所述转角数据用于补偿角度编码的测量误差；

5.如权利要求4所述的方法，其特征在于，所述生成四足机器人的足端轨迹规划和初始步态控制策略，包括：

6.如权利要求1所述的方法，其特征在于，所述基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，包括：

7.如权利要求6所述的方法，其特征在于，所述利用所述深度强化学习算补偿和调整所述足端轨迹规划以及所述初始步态控制策略，包括：

8.一种基于深度强化学习的四足机器人的步态训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及，

处理器，用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-7中任一所述基于深度强化学习的四足机器人的步态训练方法的操作。

10.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-7中任一所述基于深度强化学习的四足机器人的步态训练方法的操作。