CN115128960B

CN115128960B - 一种基于深度强化学习双足机器人运动控制方法及系统

Info

Publication number: CN115128960B
Application number: CN202211050051.6A
Authority: CN
Inventors: 李彬; 侯兰东; 刘伟龙; 徐一明; 杨姝慧; 刘丽霞
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-16
Anticipated expiration: 2042-08-30
Also published as: CN115128960A

Abstract

本发明属于机器人智能控制领域，提供了一种基于深度强化学习双足机器人运动控制方法及系统，包括获取双足机器人的当前状态信息；根据双足机器人的当前状态信息，利用训练好的深度强化学习算法模型得到扰动预测值；根据机器人的期望姿态和期望速度以及扰动预测值，得到最优的地面反作用力；基于最优的地面反作用力控制双足机器人的支撑腿，进而实现对双足机器人的运动控制。本发明基于单刚体模型预测控制提出了一种新的、基于深度强化学习预测腿部扰动控制方法，适用于腿部质量占比小于30%的双足机器人，扩大了单刚体模型预测控制方法的应用范围。

Description

一种基于深度强化学习双足机器人运动控制方法及系统

技术领域

本发明属于机器人智能控制技术领域，具体涉及一种基于深度强化学习双足机器人运动控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

相较于轮式机器人，腿足式机器人拥有巨大的应用价值和发展前景。目前，四足机器人和双足机器人是腿足式机器人领域的研究热点。由于双足机器人具有复杂的非线性动力学和更高的自由度，所以实现双足机器人的稳定行走是一项具有较大挑战性的工作。与四足机器人相比，双足机器人由于自身的机械结构设计，很难实现静态稳定。其一是因为，双足机器人的矩形足面积很小，部分机器人甚至是线形足。这导致双足机器人在静态站立和运动过程中的支撑域很小，甚至不存在支撑域。从稳定性分析的角度来看，双足机器人不具备静态稳定的条件，只具备动态稳定性条件。这意味着，双足机器人只能在运动过程中实现自身稳定。因此，双足机器人运动控制器的设计难度要远胜于四足机器人。

目前，腿足式机器人的控制方法主要有两类，分别是基于模型的控制方法和无模型的控制方法。深度强化学习是无模型方法中最主要的方法。目前在腿足式机器人领域内，近端策略优化算法（Proximal Policy Optimization，PPO）和确定性策略梯度算法（DeepDeterministic Policy Gradient，DDPG）是两种最常用的深度强化学习算法。深度强化学习方法优点是规避复杂的建模和调参过程，通过不同的奖励函数指导，智能体可以学习到不同的目标策略，是一种较为灵活的控制方法。基于模型的控制方法也就是我们通常所说的传统的控制方法。设计基于模型的控制方法，首先要对被控对象进行建模。最近关于双足机器人的研究《Force-and-moment-based Model Predictive Control for AchievingHighly Dynamic Locomotion on Bipedal Robots》（基于力和力矩的控制在双足机器人上实现高速动态运动）将单刚体模型预测控制方法应用到双足机器人上，从理论上证明了模型预测控制方法的稳定性。但是，单刚体模型预测控制在双足机器人领域的普及还面临着一个重大的挑战。单刚体模型不考虑机器人的腿部质量对机器人整体运动的影响，这在腿部质量占比10%左右的四足机器人上是一种很合理的假设。但是，目前大部分的双足机器人腿部质量占比较大，腿部质量对机器人整体运动的影响不可忽略。

发明内容

为了解决上述问题，本发明提出了一种基于深度强化学习双足机器人运动控制方法及系统，本发明基于单刚体模型预测控制提出了一种新的、基于深度强化学习预测腿部扰动控制方法，适用于腿部质量占比小于30%的双足机器人，扩大了单刚体模型预测控制方法的应用范围。

根据一些实施例，本发明的第一方案提供了一种基于深度强化学习双足机器人运动控制方法，采用如下技术方案：

一种基于深度强化学习双足机器人运动控制方法，包括：

获取双足机器人的当前状态信息；

根据双足机器人的当前状态信息，利用训练好的深度强化学习算法模型得到扰动预测值；

根据机器人的期望姿态和期望速度以及扰动预测值，得到最优的地面反作用力；

基于最优的地面反作用力控制双足机器人的支撑腿，进而实现对双足机器人的运动控制。

根据一些实施例，本发明的第二方案提供了一种基于深度强化学习双足机器人运动控制系统，采用如下技术方案：

一种基于深度强化学习双足机器人运动控制系统，包括：

机器人状态采集模块，被配置为获取双足机器人的当前状态信息；

扰动预测模块，被配置为根据双足机器人的当前状态信息，利用训练好的深度强化学习算法模型得到扰动预测值；

地面反作用力确定模块，被配置为根据机器人的期望姿态和期望速度以及扰动预测值，得到最优的地面反作用力；

机器人控制模块，被配置为基于最优的地面反作用力控制双足机器人的支撑腿，进而实现对双足机器人的运动控制。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明由基于改进的单刚体模型的模型预测控制和基于深度强化学习的摆动腿扰动预测策略两部分组成。首先，对单刚体模型进行了改进，加入了外界对躯干的质心加速度和旋转加速度干扰，并推导出了它的模型预测标准形式。随后将改进之后的单刚体模型预测算法应用在一个腿部质量可以忽略的模型上，并假设上述两种扰动全为0，在此基础上调试并确定摆动腿和支撑腿控制器除扰动项外的其它参数。随后，使用一个腿部质量占比大约在30%的双足机器人模型，并且不再假设扰动项为0。使用强化学习中的PPO算法，让双足机器人跟踪一个设定的正向速度，学习扰动预测策略，最终实现稳定行走。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的一种基于深度强化学习双足机器人运动控制系统的整体控制框架图；

图2是本发明实施例所述的双足机器人的结构示意图；

图3是本发明实施例所述的步态周期图；

图4是本发明实施例所述的摆动腿控制框架图；

图5是本发明实施例所述的支撑腿控制器的框架图；

图6是本发明实施例所述的前向速度参考曲线图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种基于深度强化学习双足机器人运动控制方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

获取双足机器人的当前状态信息；

本方法由基于改进的单刚体模型的模型预测控制和基于深度强化学习的摆动腿扰动预测策略两部分组成。首先，对单刚体模型进行了改进，加入了外界对躯干的质心加速度和旋转加速度干扰，并推导出了它的模型预测标准形式。随后将改进之后的单刚体模型预测算法应用在一个腿部质量可以忽略的模型上，并假设上述两种扰动全为0，在此基础上调试并确定摆动腿和支撑腿控制器除扰动项外的其它参数。随后，使用一个腿部质量占比大约在30%的双足机器人模型，并且不再假设扰动项为0。使用强化学习中的PPO算法，让双足机器人跟踪一个设定的正向速度，学习扰动预测策略，最终实现稳定行走。

本发明将深度强化学习和单刚体模型预测控制相结合，提出了一种基于深度强化学习预测腿部扰动的单刚体模型预测方法，将单刚体模型预测控制算法移植到了腿部质量占比达30%的双足机器人上，突破了算法原有的假设限制，扩大了算法的适用范围。本发明经过仿真实验验证，控制效果优于改进前的单刚体模型预测控制方法。

具体过程如下：

一、控制框架

本发明的控制框架如图1所示，控制框架主要包含四个部分，分别是有限状态机、摆动腿控制器、支撑腿控制器和基于深度强化学习的摆动腿扰动预测策略。本发明使用单腿5自由度的双足机器人作为本发明的验证平台。该平台具备高精度力矩控制能力，外观如图2所示。模型质量参数如表1所示，通过表1可以看出，模型1中的腿部质量占总质量的6.7%，它的腿部质量可以忽略，可以直接使用基于单刚体模型的模型预测控制方法；模型2中的腿部质量占总质量的30.5%，它的腿部质量不可忽略，基于改进的单刚体模型的模型预测控制可以实现它的稳定行走。

表1

A.有限状态机

有限状态机根据固定的摆动时长和支撑时长，生成一种行走步态。有限状态机决定每条腿的状态，给出每条腿此时此刻应当支撑还是摆动。它给出当前时刻每条腿所处的时间相(摆动相或是支撑相)，以及当前动作完成的百分比时间

。每条腿的摆动相和支撑相分别占整个步态周期的40%和60%，其中，双腿支撑相占比10%。本发明使用摆动相

时长0.12s，支撑相

时长0.18s的行走步态，步态周期如图3所示。

B.摆动腿控制器

摆动腿控制器框架图如图4所示。摆动腿控制器首先根据自身状态求解期望落足点，然后根据期望落足点计算期望足端位置，再根据腿部逆运动学求解期望关节位置，最后通过一个关节空间PD控制器计算关节力矩。当摆动腿落地时会与地面发生碰撞，碰撞会破坏机器人的运动稳定性。设计触地策略是为了抑制碰撞对稳定性的影响。为了缓解摆动腿足端触地对躯干运动造成的冲击影响，本发明设计了三个摆动腿触地策略，保证机器人运动的稳定性。

期望落足点位置是基于速度的前馈项与基于捕获点的反馈项之和：

(1)

其中，

是期望落足点在水平地面上的位置；

是髋关节实际位置在水平地面上的投影；

是髋关节实际速度在水平地面上的投影；

是髋关节期望速度在水平地面上的投影；

是髋关节距离地面的期望高度；

是摆动相时长；

是重力加速度。

髋关节在笛卡尔坐标系下的实际速度可以通过测量到的其它状态量计算得到。髋关节在笛卡尔坐标系下的期望速度是根据设定的其它期望值计算得到。

期望足端轨迹是由6阶贝塞尔曲线根据实时期望落足点拟合生成。

在触地策略1中，本发明模仿人类直立行走时的脚尖外张行为，实时调整双足机器人偏航关节的期望位置和期望速度，从而增强动态行走的稳定性。

另外在摆动腿摆动的过程中，本发明添加了一个脚底平行于水平地面的约束，确保摆动腿在摆动相结束时，可以保证足底与地面的完全接触。根据约束可以求解出足关节的期望位置和期望速度。

除了偏航关节和足关节外，双足机器人的每条腿还有3个自由度，逆运动学刚好有唯一解。根据期望足端位置可求解出剩余关节的期望位置和期望速度。

在触地策略2中，当

时，本发明将所有摆动腿关节的期望速度设置为0。策略二可以减小摆动腿触地时对地面产生的冲击，进一步提高摆动腿由摆动相过渡到支撑相时的稳定性。

求解出所有关节的期望位置和期望速度之后，本发明使用了一个数字低通滤波器对实际的关节速度进行滤波，滤波器的截止频率低于摆动腿控制器的工作频率。然后本发明通过一个关节空间的PD控制器，根据实际关节位置误差和实际关节速度误差计算出各个关节的力矩，

(2)

其中，

和

分别是实际的关节位置和实际的关节速度向量；

和

分别是期望关节角度和期望关节速度向量；

和

分别是PD控制器的关节位置和关节速度增益矩阵。

需要说明的是，当前时刻的期望减去前一时刻的期望，然后除以时间间隔，可以得到当前时刻的期望速度。

在触地策略三中，当

时，本发明将踝关节力矩设置为0，从而避免在足底触地时足关节的力矩波动破坏躯干的稳定性。

C.支撑腿控制器

支撑腿控制器的框架如图5所示。本实施例将双足机器人的躯干看作是可以自由移动的单刚体，支撑腿的最优地面反作用力由基于改进单刚体模型的模型预测控制算法生成。本发明在SRB模型中加入外界对质心加速度和旋转加速度的扰动，并将新的模型称为受外界扰动的单刚体模型DSRB。同时，本发明将基于SRB模型的模型预测控制方法简称为SRB-MPC方法，将基于DSRB模型的MPC方法简称为DSRB-MPC方法。DSRB模型的近似线性动力学如下，

(3)

(4)

其中，

是躯干质心位置；

是躯干质心加速度；

是躯干的旋转角速度；

是躯干的旋转加速度；

是躯干的质量；

表示双足机器人腿的数量；

是地面通过第

个足端对躯干质心施加的反作用力；

是

的力臂；

是躯干的惯性张量；

和

分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰。

(5)

其中，

是ZYX顺序的欧拉角，表示躯干的方向；

是从躯干坐标系到惯性坐标系的旋转矩阵；

是零矩阵；

是单位矩阵。

本发明将状态方程(5)的离散形式作为等式约束，将地面反作用力的摩擦锥约束作为不等式约束，将系统的状态误差和系统输入的二范数作为目标函数，最优足端反作用力求解问题可以写成如下标准的模型预测控制形式：

(6)

(7)

(8)

其中，

是预测步长；

是系统第i时刻的预测状态；

是系统在i时刻的下一时刻的参考状态；

是系统第i时刻的输入；

是系统第i时刻的近似线性离散动力学方程；

是系统第i时刻的摩擦锥约束；Q和R是对角半正定的权重矩阵。

本发明将离散动力学方程(7)可写成如下紧凑形式，

(9)

其中，

是系统在预测域内的状态轨迹；

是系统在预测域内的输入序列；

是系统的初始状态；

和

分别是系统预测矩阵和输入预测矩阵，由

和

组成。

随后将公式(9)代入到公式(6)中，最终标准模型预测控制问题可以化简成二次规划问题：

(10)

(11)

其中，

表示矩阵转置操作；

是由

组成的分块对角矩阵；

是由

组成的分块对角矩阵；

是由

组成的分块对角矩阵；

是由

上下堆叠组成；

是由

上下堆叠组成；

是系统在预测域内的状态参考轨迹；

是系统预测矩阵；

是输入预测矩阵；

是系统的当前状态；

是系统的最优输入序列。

考虑到大部分双足机器人的足关节处的执行器输出力矩较小，支撑腿策略将足关节作为被动关节，将此关节的期望力矩设置为0。在上述假设下，双足机器人无法实现静态稳定，只能实现动态稳定，它的控制难度增加。

支撑腿除足关节外的各关节力矩由下式给出：

(12)

其中，J是足关节处的力雅各比矩阵；

是当前时刻的最优地面反作用力，

是从躯干坐标系到惯性坐标系的旋转矩阵的转置。

为了提高支撑腿控制器的稳定性，本发明也使用了一阶低通数字滤波器对躯干的质心速度和旋转速度进行了滤波。滤波器的截止频率低于支撑腿控制器的工作频率。

二、学习摆动腿扰动预测策略

A.状态空间和动作空间

状态变量

包括躯干的

、

、

和每条腿的关节位置和速度以及

，其中

可以同时表示腿的运动状态和相位百分比时间，

(13)

状态空间维度数是31，且不包含任何与期望状态相关的变量，状态变量的选择非常地简化。

因为摆动腿对躯干的扰动与躯干在惯性坐标系下的位置无关，并且扰动是相对于躯干的，所以本发明选择在躯干坐标系中学习扰动预测策略

，由策略

给出在躯干坐标系下摆动腿对躯干的扰动

和

。本发明将所有扰动的数值范围限制在-5到5之间。通过躯干坐标系与惯性坐标系之间的相对位置关系，可以得到在惯性坐标系下摆动腿对躯干的扰动

和

。动作空间维度为6，小于关节空间的维度。

B.奖励函数

本发明设计奖励函数时，优先鼓励机器人保持躯干欧拉角不变，避免由于躯干姿态剧烈变化而导致跌倒。因此，在奖励函数中躯干的欧拉角误差权重最大，高度误差权重仅次之。奖励函数其次鼓励机器人跟踪一个水平面上的正向速度，所以正向和侧向水平速度误差权重较小，垂直方向上的速度误差权重最小。

(14)

其中，

，

，

分别是躯干的横滚，俯仰，偏航角误差；

是躯干质心高度误差；

，

，

分别是躯干质心在x，y，z三个方向上的速度误差。

C.训练细节

为了降低训练难度，缩短训练时间，本发明只希望双足机器人在保持躯干姿态不变的情况下，跟踪一个不断变化的水平正向速度。此外，本发明引入了两个先验知识。

（1）首先，在一个腿部质量可以忽略的双足机器人模型上(模型参数见表1模型1)，设置了摆动腿和支撑腿控制器参数，其中包括

，

，Q和R。为了使支撑腿控制器能够在躯干水平速度误差较大的情况下也能保持稳定，本发明在Q中使用了一个非常小的正向水平速度目标权重

。支撑腿控制器会优先保证躯干欧拉角误差最小，维持住躯干姿态，在不跌倒的前提下尽可能地跟踪正向水平速度。策略训练时使用表1中的模型2。模型预测控制的目标权重系数如表2所示。

表 2

（2）为了避免双足机器人在仿真初期频繁跌倒，本发明使用了两个很小的前向期望加速度，前向速度参考如图6所示。同时，为了学习匀速运动状态下的扰动预测策略，参考轨迹中包含5段时长一秒的阶梯式的匀速运动，阶梯速度分别为0.6、0.7、0.8、0.9、0.95。参考轨迹的最后是一段1m/s的匀速运动。参考轨迹中包含了不同速度下的匀速和加速运动过程，学习难度从易到难，符合学习规律。

D.PPO算法参数设置

本发明选择PPO算法训练摆动腿扰动预测策略

，使用高斯分布

输出扰动预测值，然后裁剪预测值，将预测值限制在有效值范围内。本实施例使用了9个关键技巧提升PPO算法的性能：（1）优势归一化；（2）状态归一化；（3）奖励值归一化；（4）在actor网络的损失函数中加入策略熵；（5）学习率衰减；（6）梯度裁剪；（7）网络参数正交初始化；（8）使用Adam优化器；（9）使用双曲正弦函数作为激活函数。提升PPO算法的性能。使用GAE方法对PPO算法中的优势进行估计。关于Actor和Critic网络，使用了一个结构简单的3层全连接网络，网络每层有只有256个神经元。PPO算法的其它参数都使用了该算法的经验值。为了加快训练速度，本发明对每回合的最大仿真步做了限制，并将该限制作为回合结束条件，除此之外，本发明还增加了一些对误差的限制，同时作为回合结束条件，最大误差如表3所示。

表3

实施例二

本实施例提供了一种基于深度强化学习双足机器人运动控制系统，包括：

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度强化学习双足机器人运动控制方法，其特征在于，包括：

获取双足机器人的当前状态信息；

根据双足机器人的当前状态信息，利用训练好的深度强化学习算法模型得到扰动预测值，所述扰动预测值是质心加速度干扰预测值和旋转加速度干扰预测值；

在机器人控制框架模型中，根据机器人的期望姿态和期望速度以及扰动预测值，将双足机器人的躯干作为自由移动的单刚体，基于受摆动腿扰动的单刚体模型的模型预测控制算法得到最优的地面反作用力；所述机器人控制框架模型包括有限状态机、摆动腿控制器、支撑腿控制器以及基于深度强化学习的摆动腿预测策略；所述支撑腿控制器采用基于受摆动腿扰动的单刚体模型的模型预测控制算法；

所述受摆动腿扰动的单刚体模型，具体为：

其中，

是躯干质心位置；

是躯干质心加速度；

是躯干的旋转角速度；

是躯干的旋转加速度；

是躯干的质量；

表示双足机器人腿的数量；

是地面通过第

个足端对躯干质心施加的反作用力；

是

的力臂；

是躯干的惯性张量；

和

分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰；

2.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法，其特征在于，所述双足机器人的当前状态信息，包括：

双足机器人当前的躯干姿态、躯干的旋转角速度、躯干质心的速度、每条腿的关节位置和关节速度，以及腿的运动状态和相位百分比时间。

3.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法，其特征在于，基于机器人控制框架模型的支撑腿控制器，根据机器人的期望姿态和期望速度以及扰动预测值得到最优的地面反作用力，具体为：

基于支撑腿控制器的受外界扰动的单刚体模型，转换成状态方程并进行离散化；

将离散性质的状态方程作为等式约束，将地面反作用力的摩擦锥约束作为不等式约束，将最优的地面反作用力求解问题转化成标准的模型预测控制形式；

将离散性质的状态方程转化为紧凑形式，基于离散性质的状态方程的紧凑形式对标准的模型预测控制问题进行简化，得到最终的二次规划问题；

基于最终的二次规划问题，求解出最优的地面反作用力。

4.如权利要求3所述的一种基于深度强化学习双足机器人运动控制方法，其特征在于，所述最终的二次规划问题，具体为：

其中，

表示矩阵转置操作；

是由

组成的分块对角矩阵；

是由

组成的分块对角矩阵；Q和R是对角半正定的权重矩阵；

是由

组成的分块对角矩阵；

是由

上下堆叠组成；

是由

上下堆叠组成；

是系统在预测域内的状态参考轨迹；

是系统预测矩阵；

是输入预测矩阵；

是系统的当前状态；

是系统的最优输入序列。

5.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法，其特征在于，所述摆动腿控制器的工作过程，为：

根据摆动腿的期望落足点确定摆动腿的期望足端位置；

基于摆动腿的期望足端位置，利用腿部逆运动学求解摆动腿的期望关节位置；

根据摆动腿的期望关节位置，通过关节空间的比例微分控制器确定摆动腿的关节力矩；

基于摆动腿的关节力矩控制摆动腿运动。

6.一种基于深度强化学习双足机器人运动控制系统，其特征在于，包括：

扰动预测模块，被配置为根据双足机器人的当前状态信息，利用训练好的深度强化学习算法模型得到扰动预测值，所述扰动预测值是质心加速度干扰预测值和旋转加速度干扰预测值；

地面反作用力确定模块，被配置为在机器人控制框架模型中，根据机器人的期望姿态和期望速度以及扰动预测值，将双足机器人的躯干作为自由移动的单刚体，基于受摆动腿扰动的单刚体模型的模型预测控制算法得到最优的地面反作用力；所述机器人控制框架模型包括有限状态机、摆动腿控制器、支撑腿控制器以及基于深度强化学习的摆动腿预测策略；所述支撑腿控制器采用基于受摆动腿扰动的单刚体模型的模型预测控制算法；

所述受摆动腿扰动的单刚体模型，具体为：