CN112904859B

CN112904859B - 一种基于强化学习的多足机器人步态切换方法

Info

Publication number: CN112904859B
Application number: CN202110077868.1A
Authority: CN
Inventors: 汪首坤; 司金戈; 王亮; 雷涛; 王军政
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-05-10
Anticipated expiration: 2041-01-20
Also published as: CN112904859A

Abstract

本发明涉及一种基于强化学习的多足机器人步态切换方法，属于机器人控制技术领域。针对步态切换速度问题，通过制定离散点间切换规则对步态切换提出约束，获取当前步态下满足多类运动条件、运动效果良好自然的切换步态。本方法在传统步长S运动空间离散化处理的基础上，进行前后运动空间的扩展离散化处理，极大地扩大了足端可选运动状态，避免后续因步态切换方法中对运动空间的筛选导致无可用切换步态的情况。通过多次该方法的循环迭代，可以逐步实现从初始足端状态向目标步态的切换。

Description

一种基于强化学习的多足机器人步态切换方法

技术领域

本发明涉及一种针对多足机器人步态间最优切换的步态规划方法，属于机器人控制技术领域。

背景技术

在非结构化的复杂地形中，足式机器人可以通过规划离散的落足点实现稳定行走。相比轮式及履带式机器人，足式机器人具有更好的环境适应性，在物资运输、资源勘探等领域具有广阔的发展前景。其中，多足机器人各步态由于占空比不同，具有不同的运动稳定性以及运动速度，因而适用于不同的地形。因此，如何实现机器人步态间的动态自由切换，对提升其复杂地形下的足式运动性能具有重要的意义。

机器人步态间的动态自由切换过程，要满足三个运动要求：步态切换所需步数少、运动稳定性高、步态运动效果连贯自然。针对这三个要求，在现阶段能够较好实现步态切换的相关方法中，普遍引入强化学习，通过制定足端运动策略保证运动的自然，对运动的稳定裕度进行训练以获取速度及稳定裕度综合最优的步态切换方法。

但是，步态切换运动中的两个重要指标——运动速度及运动效果，对足端的运动提出了相反的要求：足端运动可能性越大，运动越灵活，越能够选择出使切换速度最快的足端点位，实现步态切换。同时，良好的运动效果对足端运动状态提出了约束，需要对足端全部可能的运动进行筛选，通过获取少量使运动效果良好的足端状态实现切换。

因此，如何规划机器人足端时序及位置上的运动，在最大化机身稳定裕度的同时平衡两者的指标，是步态切换的关键，也是难点问题。

发明内容

本发明的目的是为了克服现有技术的缺陷，为有效解决多足机器人足式步态间动态切换的技术问题，提出一种基于足端运动空间扩展离散化处理方法的步态切换方法，通过强化学习解决了初始步态向目标步态条件下，具有良好运动效果的、切换速度及稳定裕度综合最优的步态切换问题。

本发明的创新点在于：

为最大化足端运动选择，针对步态切换速度问题，在传统步长S运动空间离散化处理的基础上，进行前后运动空间的扩展离散化处理，该处理方法呈幂次关系极大地扩大了足端可选运动状态，避免后续因步态切换方法中对运动空间的筛选导致无可用切换步态的情况。

为具有自然流畅的运动效果，针对步态切换运动效果问题，提出一种步态切换方法，通过制定离散点间切换规则对步态切换提出约束，获取当前步态下满足多类运动条件、运动效果良好自然的切换步态。通过多次该方法的循环迭代，可以逐步实现从初始足端状态向目标步态的切换。

本发明采用以下技术方案实现。

一种基于强化学习的多足机器人步态切换方法，包括以下步骤：

步骤1：扩展离散化足端运动空间。

首先，基于机器人各机械腿的运动可达范围进行分析，将足端运动空间沿机器人前进方向进行扩展的离散化处理，通过机器人各足所在离散点位表达足端的位置状态，通过位置状态的排序表达机器人工作时序的变化，实现步态规划问题向数字排序的转换。扩展处理提升了足端运动的可选择性，加快了步态切换的速度。

具体可以采用以下方法实现：

获取机器人各机械腿的运动可达范围，沿机器人前进方向，将足端支撑相工作空间进行离散化，选取步长为S的运动空间，定义运动空间为[-S/2,+S/2]，将其进行j_m等分，实现足端位置离散化处理，并在不超过运动空间前提下，等距分别向前后插入j_f及j_r个离散点，进行扩展离散处理，将各支撑相离散点依次编号为1,2,...,n(n＝j_r+j_m+j_r+1)，同时，添加n+1号点表示滞空运动状态。

对N个足端依次排序，有足端状态向量G＝(g₁ g₂ g₃ g₄ … g_N)，且有各足端空间位置向量P_i(i＝1,2,...,N)：

其中，

及

分别代表足端坐标系下，即，机身前进方向为X轴正向、垂直左向为Y轴正向的各足端坐标。

足端工作向量W＝(w₁ w₂ w₃ w₄ … w_N)：

步骤2：获取稳定可达运动状态空间。

虽然足端状态向量G共有(n+1)^N个元素，但在实际运动过程中，仅有部分状态使得机器人处于稳定可达状态。因此，首先要对全部足端状态向量进行筛选，剔除连贯运动中使机器人处于不稳定或者不可达的状态，从而简化后续计算。

具体地，在全部足端状态向量中，包括4类需要剔除的足端状态：

·直接不稳定足端状态：下一周期存在唯一运动使得机身稳定裕度为负，导致机身不稳定；

·间接不稳定足端状态：后续周期存在唯一运动使得机器人切换至直接不稳定足端状态，导致机身不稳定；

·直接不可达足端状态：仅能通过不稳定足端状态切换而来，实际不可达；

·间接不可达足端状态：仅能从直接不可达足端状态通过唯一一系列动作切换而来，实际不可达。

步骤3：计算对应稳定裕度。

计算稳定可达足端运动空间内各状态的稳定裕度，为后续强化学习训练提供条件。

所述稳定裕度，为机器人重心投影至水平面内到支撑相足端形成触地多边形的各边最小距离。该值越大，表机器人运动稳定性越强，稳定裕度D_m表达式为：

D_m＝Mins([d_ij]) (3)

其中，i,j∈1,2,...,N为支撑相足端序号，[d_ij]为各方向稳定裕度组成的数组，Mins()为选取数组最小值的函数。

在此基础上，通过海伦公式，计算各稳定裕度值d_ij：

其中，L_i、L_j、L_ij分别为机身坐标系下i号足端、j号足端及两足端间向量长度。Q_i＝(q_xi q_yi)为各足端的机身坐标系坐标；H_ij为构建三角形的半周长。

步骤4：设计步态切换方法。

针对步骤1中足端运动空间的离散点位设计步态切换方法，要求步态切换过程中满足以下4类运动要求：

·足端运动灵活，且应在中位附近运动，不应过于偏向前后运动空间；

·运动连贯，单个足端不应出现长时间滞空；

·足端运动自然，落足点应在起抬点前方；

·支撑相应保持一定的支撑长度，不应过短。

针对上述要求，设计如下式切换步态运动方法：

当T时刻足端状态向量

中有任一足端处于滞空相状态时，T+1时刻

中各足采取如下步态运动方法：

其中random{}表示在各元素中随机选取，k_f为运动的落足点。

当T时刻无滞空足端时，T+1时刻

中各足采取如下步态运动方法：

其中，k_f、k_m、k_r分别为运动的落足点、缓冲点及起抬点，n₀为支撑相运动点位，各参数取值范围为：

其中，S_buffer≤S为缓冲区长度，max()表最大值函数，b表示为上下取整而构成的值，j_m为步长S运动空间的等距离散数，n表示支撑相离散点数。由此步态切换方法满足相关运动要求，实现步态自然流畅切换。

步骤5：强化学习训练。

基于步态切换方法，设定稳定裕度回报函数如下式：

其中，D_min为稳定可达状态空间中的最小稳定裕度，D_max为最大稳定裕度，D_m为当前状态稳定裕度，R_k为函数修正值，s代表各足端状态向量，R(s)为各状态对应稳定裕度回报函数，e为自然数。

在此基础上，引入马尔可夫决策过程，采用Q-learning学习，通过下式时间差分法进行训练：

Q(s,a)＝Q(s,a)+α*(R(s,a)+*max(Q'(s,a)-Q(s,a))) (9)

其中，Q(s,a)为Q-learning中用以表征状态与动作的Q表，a代表各足端状态间切换动作，α∈[0,1]为学习率，γ∈[0,1]为折扣因子，Q'(s,a)为某状态下一步最优动作对应Q值。当选定动作后，状态转移概率为1，因此R(s,a)即为R(s)。

最终，经过多次训练，Q表最终收敛。该表为(n+1)^N维矩阵，针对各行选取如下式动作策略π(a'|s)：

其中，q(s,a)即为Q表中元素，a'为待选取的动作，A表示全部可切换状态集合。因此，在各行选取唯一π(a'|s)＝1的元素，如有多个则选取第一个，该值为基于足端状态s的唯一切换动作a'。至此，获取了具有指向性的最优运动链表。

步骤6：完成步态切换。

给出初始步态并带入该链表，唯一获取针对目标步态的最优切换足端状态向量，并将该动作指向的步态点位再次带入该链表，能够获取新的最优切换足端状态向量。

循环迭代，从而获取从初始步态指向目标步态的一系列足端向量。

对各足端向量依次规划轨迹，实现实物机器人从初始步态至目标步态的动态切换。

有益效果

本发明方法，对比现有技术，具有以下优点：

(1)本发明将足端常规运动空间进行扩展离散化处理，既可简化机器人足端位置及时序的表达，又可通过切换过程中较少次数在扩展区域的运动，极大提升了足端的可选运动，明显提升了向目标步态的切换速度；

(2)针对运动效果问题，基于扩展离散点设计综合运动效果良好的步态运动规则，实现了步态切换过程中运动的自然连贯。

两种方法的结合使用，不仅可以提高切换速度，又可以改善机器人运动效果，避免因为足端可选择运动过少导致的无法切换、因为运动约束不足导致的运动机械顿挫等问题，便于后续强化学习中，基于足端运动空间扩展离散化处理以及步态切换方法实现最优步态的训练。

附图说明

图1为基于足端扩展离散化的步态切换方法示意图；

图2为机身稳定裕度图；

图3为最终训练获取的最优步态切换链表示意图；

图4为基于强化学习的步态切换系统结构。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

以足端呈正六边形分布的六足机器人为例，进行说明。

步骤1：扩展离散化足端运动空间。

各离散点示意如图1所示，在机器人各机械腿运动可达范围基础上，沿机器人前进方向将足端支撑相工作空间进行离散化，选取步长为S的运动空间(定义运动空间为[-S/2,+S/2])，进行4等分，实现足端位置离散化处理，并在不超过运动空间前提下等距分别向前后各插入1个离散点，进行扩展离散处理，且共有7个支撑相离散点，此外添加8号点表示滞空运动状态。故约定从左前足至右前足逆时针排序为1至6号，有足端状态向量G＝(g₁ g₂ g₃g₄ g₅ g₆)，且当g_i＝4有各足端空间位置向量P_i：

以及足端工作向量W＝(w₁ w₂ w₃ w₄ w₅ w₆)：

步骤2：获取稳定可达运动状态空间。

上述足端状态向量共有8⁶个元素，故从向量空间中选取如下不稳定或不可达的状态予以剔除，简化后续计算：

1)直接不稳定足端状态。形如G₁＝(X X 7 7 X X)；

2)间接不稳定足端状态。形如G₂＝(X 7 6 6 7 X)；

3)直接不可达足端状态。形如G₃＝(X X 1 1 X X)；

4)间接不可达足端状态。形如G₄＝(X 1 2 2 1 X)。

步骤3：计算对应稳定裕度。

计算稳定可达足端运动空间内各状态的稳定裕度，如图2所示。该图中机器人足端状态G＝(8 4 8 4 8 4)，工作状态W＝(0 1 0 1 0 1)。通过下式可求稳定裕度D_m：

D_m＝Mins([d_ij]) (13)

其中i,j∈1,2,...,N为支撑相足端序号，[d_ij]为各方向稳定裕度组成的数组，Mins()为选取数组最小值的函数，本例中[d_ij]＝[d₂₄,d₄₆,d₆₂]。

以稳定裕度d₂₄为例展开计算。且此时有对应足端在机身坐标系下坐标

，通过下式海伦公式可求得d₂₄：

其中，L_i、L_j、L_ij分别为机身坐标系下i号足端、j号足端及两足端间向量长度；H_ij为构建三角形的半周长。

同理计算其余稳定裕度，有最终实际稳定裕度D_m如下：

d_u＝w_i*w_j*d_ij

d_v＝w_i*(1-w_j)*w_k*d_ik (15)

D_m＝Mins([d_u],[d_v])＝400

其中[d_u],[d_v]表全部两种情况对应的稳定裕度数组，Mins定义为两个数组中非零量的最小值。

步骤4：设计步态切换方法。

基于足端运动空间的离散点位设计如下使运动良好自然的步态切换方法，且足端运动轨迹示意图如图1中箭头：

1)当T时刻足端状态向量

中有任一足端处于滞空相状态时，T+1时刻

中各足采取如下步态运动方法：

其中random{}表示在各元素中随机选取。

2)当T时刻无滞空足端时，T+1时刻G^T+1中各足采取如下步态运动方法：

其中k_f、k_m、k_r分别设定为运动的落足点、缓冲点及起抬点，n₀为支撑相运动点位。且有各参数取值范围：

其中S_buffer≤S为缓冲区长度，max()表最大值函数，b表示为上下取整而构成的值，j_m为步长S运动空间的等距离散数，n表示支撑相离散点数。由此步态切换方法可满足上述运动要求，实现步态自然流畅地切换。由此步态切换方法可从稳定可达空间中进一步筛选出包括G₁＝(1 4 1 4 1 4)，G₂＝(1 4 1 4 2 4)……G₂₇＝(3 4 3 4 3 4)在内的共27种可选切换步态。且所有步态满足4类运动要求，可实现步态自然流畅地切换。

步骤5：强化学习训练。

基于步态切换方法，设定稳定裕度回报函数如下式：

其中，D_min为稳定可达状态空间中最小稳定裕度，D_max为最大稳定裕度，D_m为当前状态稳定裕度，R_k为函数修正值，s代表各足端状态向量，R(s)为各状态对应稳定裕度回报函数，e为自然数。

在此基础上引入马尔可夫决策过程，采用Q-learning学习，通过下式时间差分法进行训练：

Q(s,a)＝Q(s,a)+α*(R(s,a)+*max(Q'(s,a)-Q(s,a))) (20)

其中Q(s,a)即为Q-learning中用以表征状态与动作的Q表，a代表各足端状态间切换动作，α∈[0,1]为学习率，γ∈[0,1]为折扣因子，Q'(s,a)为某状态下一步最优动作对应Q值。此外，本案例中选定动作后，状态转移概率为1，故R(s,a)即为R(s)。

最终，经过多次训练，Q表最终收敛。且该表为(n+1)⁶维矩阵，针对各行选取如下式动作策略π(a'|s)：

其中q(s,a)即为Q表中元素，a'为待选取的动作，A表示全部可切换状态集合。因此可在各行选取唯一(如有多个，选取第一个)π(a'|s)＝1的元素，且该值为基于足端状态s的唯一切换动作a'。至此，完整获取具有指向性的最优运动链表，且链表示意图如图3，该表为全局链表，全部的运动状态都具有唯一指向目标步态的指向性单元(图中未全部标注)。

步骤6：进行步态切换。

任给初始步态，带入该链表，可唯一获取针对目标步态的最优切换足端状态向量，且将该动作指向的步态点位再次带入该链表，又可获取新的最优切换足端状态向量。

循环迭代即可获取从初始步态指向目标步态的一系列足端向量。以初始步态为G₀＝(2 6 2 6 2 6)的三足步态为例，可获取目标步态为G_goal＝(4 2 6 4 2 6)的四足步态切换点位：G₁＝(5 2 5 3 5 1)，G₂＝(1 4 3 5 3 3)，G₃＝(3 6 5 3 5 5)，G₄＝(4 2 6 4 26)，可知经过4步切换，实现了初始步态向目标步态的切换步态规划。

在此基础上对各足端向量依次规划轨迹，即可实现实物机器人从初始步态至目标步态的动态切换。

步态切换方法流程如图4所示。

综上所述，以上仅为本发明的其中一个实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的多足机器人步态切换方法，包括以下步骤：

步骤1：扩展离散化足端运动空间；

首先，基于机器人各机械腿的运动可达范围进行分析，将足端运动空间沿机器人前进方向进行扩展的离散化处理，通过机器人各足所在离散点位表达足端的位置状态，通过位置状态的排序表达机器人工作时序的变化，实现步态规划问题向数字排序的转换，具体如下：

获取机器人各机械腿的运动可达范围，沿机器人前进方向，将足端支撑相工作空间进行离散化，选取步长为S的运动空间，定义运动空间为[-S/2,+S/2]，将其进行j_m等分，实现足端位置离散化处理，并在不超过运动空间前提下，等距分别向前后插入j_f及j_r个离散点，进行扩展离散处理，将各支撑相离散点依次编号为1,2,…,n，其中n＝j_f+j_m+j_r+1，同时，添加n+1号点表示滞空运动状态；

对N个足端依次排序，有足端状态向量G＝(g₁ g₂ g₃ g₄ … g_N)，且有各足端空间位置向量P_i，其中i＝1,2,…,N；