CN112904859B - 一种基于强化学习的多足机器人步态切换方法 - Google Patents

一种基于强化学习的多足机器人步态切换方法 Download PDF

Info

Publication number
CN112904859B
CN112904859B CN202110077868.1A CN202110077868A CN112904859B CN 112904859 B CN112904859 B CN 112904859B CN 202110077868 A CN202110077868 A CN 202110077868A CN 112904859 B CN112904859 B CN 112904859B
Authority
CN
China
Prior art keywords
foot end
gait
state
motion
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110077868.1A
Other languages
English (en)
Other versions
CN112904859A (zh
Inventor
汪首坤
司金戈
王亮
雷涛
王军政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110077868.1A priority Critical patent/CN112904859B/zh
Publication of CN112904859A publication Critical patent/CN112904859A/zh
Application granted granted Critical
Publication of CN112904859B publication Critical patent/CN112904859B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种基于强化学习的多足机器人步态切换方法,属于机器人控制技术领域。针对步态切换速度问题,通过制定离散点间切换规则对步态切换提出约束,获取当前步态下满足多类运动条件、运动效果良好自然的切换步态。本方法在传统步长S运动空间离散化处理的基础上,进行前后运动空间的扩展离散化处理,极大地扩大了足端可选运动状态,避免后续因步态切换方法中对运动空间的筛选导致无可用切换步态的情况。通过多次该方法的循环迭代,可以逐步实现从初始足端状态向目标步态的切换。

Description

一种基于强化学习的多足机器人步态切换方法
技术领域
本发明涉及一种针对多足机器人步态间最优切换的步态规划方法,属于机器人控制技术领域。
背景技术
在非结构化的复杂地形中,足式机器人可以通过规划离散的落足点实现稳定行走。相比轮式及履带式机器人,足式机器人具有更好的环境适应性,在物资运输、资源勘探等领域具有广阔的发展前景。其中,多足机器人各步态由于占空比不同,具有不同的运动稳定性以及运动速度,因而适用于不同的地形。因此,如何实现机器人步态间的动态自由切换,对提升其复杂地形下的足式运动性能具有重要的意义。
机器人步态间的动态自由切换过程,要满足三个运动要求:步态切换所需步数少、运动稳定性高、步态运动效果连贯自然。针对这三个要求,在现阶段能够较好实现步态切换的相关方法中,普遍引入强化学习,通过制定足端运动策略保证运动的自然,对运动的稳定裕度进行训练以获取速度及稳定裕度综合最优的步态切换方法。
但是,步态切换运动中的两个重要指标——运动速度及运动效果,对足端的运动提出了相反的要求:足端运动可能性越大,运动越灵活,越能够选择出使切换速度最快的足端点位,实现步态切换。同时,良好的运动效果对足端运动状态提出了约束,需要对足端全部可能的运动进行筛选,通过获取少量使运动效果良好的足端状态实现切换。
因此,如何规划机器人足端时序及位置上的运动,在最大化机身稳定裕度的同时平衡两者的指标,是步态切换的关键,也是难点问题。
发明内容
本发明的目的是为了克服现有技术的缺陷,为有效解决多足机器人足式步态间动态切换的技术问题,提出一种基于足端运动空间扩展离散化处理方法的步态切换方法,通过强化学习解决了初始步态向目标步态条件下,具有良好运动效果的、切换速度及稳定裕度综合最优的步态切换问题。
本发明的创新点在于:
为最大化足端运动选择,针对步态切换速度问题,在传统步长S运动空间离散化处理的基础上,进行前后运动空间的扩展离散化处理,该处理方法呈幂次关系极大地扩大了足端可选运动状态,避免后续因步态切换方法中对运动空间的筛选导致无可用切换步态的情况。
为具有自然流畅的运动效果,针对步态切换运动效果问题,提出一种步态切换方法,通过制定离散点间切换规则对步态切换提出约束,获取当前步态下满足多类运动条件、运动效果良好自然的切换步态。通过多次该方法的循环迭代,可以逐步实现从初始足端状态向目标步态的切换。
本发明采用以下技术方案实现。
一种基于强化学习的多足机器人步态切换方法,包括以下步骤:
步骤1:扩展离散化足端运动空间。
首先,基于机器人各机械腿的运动可达范围进行分析,将足端运动空间沿机器人前进方向进行扩展的离散化处理,通过机器人各足所在离散点位表达足端的位置状态,通过位置状态的排序表达机器人工作时序的变化,实现步态规划问题向数字排序的转换。扩展处理提升了足端运动的可选择性,加快了步态切换的速度。
具体可以采用以下方法实现:
获取机器人各机械腿的运动可达范围,沿机器人前进方向,将足端支撑相工作空间进行离散化,选取步长为S的运动空间,定义运动空间为[-S/2,+S/2],将其进行jm等分,实现足端位置离散化处理,并在不超过运动空间前提下,等距分别向前后插入jf及jr个离散点,进行扩展离散处理,将各支撑相离散点依次编号为1,2,...,n(n=jr+jm+jr+1),同时,添加n+1号点表示滞空运动状态。
对N个足端依次排序,有足端状态向量G=(g1 g2 g3 g4 … gN),且有各足端空间位置向量Pi(i=1,2,...,N):
Figure BDA0002908206030000021
其中,
Figure BDA0002908206030000022
Figure BDA0002908206030000023
分别代表足端坐标系下,即,机身前进方向为X轴正向、垂直左向为Y轴正向的各足端坐标。
足端工作向量W=(w1 w2 w3 w4 … wN):
Figure BDA0002908206030000031
步骤2:获取稳定可达运动状态空间。
虽然足端状态向量G共有(n+1)N个元素,但在实际运动过程中,仅有部分状态使得机器人处于稳定可达状态。因此,首先要对全部足端状态向量进行筛选,剔除连贯运动中使机器人处于不稳定或者不可达的状态,从而简化后续计算。
具体地,在全部足端状态向量中,包括4类需要剔除的足端状态:
·直接不稳定足端状态:下一周期存在唯一运动使得机身稳定裕度为负,导致机身不稳定;
·间接不稳定足端状态:后续周期存在唯一运动使得机器人切换至直接不稳定足端状态,导致机身不稳定;
·直接不可达足端状态:仅能通过不稳定足端状态切换而来,实际不可达;
·间接不可达足端状态:仅能从直接不可达足端状态通过唯一一系列动作切换而来,实际不可达。
步骤3:计算对应稳定裕度。
计算稳定可达足端运动空间内各状态的稳定裕度,为后续强化学习训练提供条件。
所述稳定裕度,为机器人重心投影至水平面内到支撑相足端形成触地多边形的各边最小距离。该值越大,表机器人运动稳定性越强,稳定裕度Dm表达式为:
Dm=Mins([dij]) (3)
其中,i,j∈1,2,...,N为支撑相足端序号,[dij]为各方向稳定裕度组成的数组,Mins()为选取数组最小值的函数。
在此基础上,通过海伦公式,计算各稳定裕度值dij
Figure BDA0002908206030000041
其中,Li、Lj、Lij分别为机身坐标系下i号足端、j号足端及两足端间向量长度。Qi=(qxi qyi)为各足端的机身坐标系坐标;Hij为构建三角形的半周长。
步骤4:设计步态切换方法。
针对步骤1中足端运动空间的离散点位设计步态切换方法,要求步态切换过程中满足以下4类运动要求:
·足端运动灵活,且应在中位附近运动,不应过于偏向前后运动空间;
·运动连贯,单个足端不应出现长时间滞空;
·足端运动自然,落足点应在起抬点前方;
·支撑相应保持一定的支撑长度,不应过短。
针对上述要求,设计如下式切换步态运动方法:
当T时刻足端状态向量
Figure BDA0002908206030000042
中有任一足端处于滞空相状态时,T+1时刻
Figure BDA0002908206030000043
中各足采取如下步态运动方法:
Figure BDA0002908206030000044
其中random{}表示在各元素中随机选取,kf为运动的落足点。
当T时刻无滞空足端时,T+1时刻
Figure BDA0002908206030000045
中各足采取如下步态运动方法:
Figure BDA0002908206030000046
其中,kf、km、kr分别为运动的落足点、缓冲点及起抬点,n0为支撑相运动点位,各参数取值范围为:
Figure BDA0002908206030000051
其中,Sbuffer≤S为缓冲区长度,max()表最大值函数,b表示为上下取整而构成的值,jm为步长S运动空间的等距离散数,n表示支撑相离散点数。由此步态切换方法满足相关运动要求,实现步态自然流畅切换。
步骤5:强化学习训练。
基于步态切换方法,设定稳定裕度回报函数如下式:
Figure BDA0002908206030000052
其中,Dmin为稳定可达状态空间中的最小稳定裕度,Dmax为最大稳定裕度,Dm为当前状态稳定裕度,Rk为函数修正值,s代表各足端状态向量,R(s)为各状态对应稳定裕度回报函数,e为自然数。
在此基础上,引入马尔可夫决策过程,采用Q-learning学习,通过下式时间差分法进行训练:
Q(s,a)=Q(s,a)+α*(R(s,a)+*max(Q'(s,a)-Q(s,a))) (9)
其中,Q(s,a)为Q-learning中用以表征状态与动作的Q表,a代表各足端状态间切换动作,α∈[0,1]为学习率,γ∈[0,1]为折扣因子,Q'(s,a)为某状态下一步最优动作对应Q值。当选定动作后,状态转移概率为1,因此R(s,a)即为R(s)。
最终,经过多次训练,Q表最终收敛。该表为(n+1)N维矩阵,针对各行选取如下式动作策略π(a'|s):
Figure BDA0002908206030000053
其中,q(s,a)即为Q表中元素,a'为待选取的动作,A表示全部可切换状态集合。因此,在各行选取唯一π(a'|s)=1的元素,如有多个则选取第一个,该值为基于足端状态s的唯一切换动作a'。至此,获取了具有指向性的最优运动链表。
步骤6:完成步态切换。
给出初始步态并带入该链表,唯一获取针对目标步态的最优切换足端状态向量,并将该动作指向的步态点位再次带入该链表,能够获取新的最优切换足端状态向量。
循环迭代,从而获取从初始步态指向目标步态的一系列足端向量。
对各足端向量依次规划轨迹,实现实物机器人从初始步态至目标步态的动态切换。
有益效果
本发明方法,对比现有技术,具有以下优点:
(1)本发明将足端常规运动空间进行扩展离散化处理,既可简化机器人足端位置及时序的表达,又可通过切换过程中较少次数在扩展区域的运动,极大提升了足端的可选运动,明显提升了向目标步态的切换速度;
(2)针对运动效果问题,基于扩展离散点设计综合运动效果良好的步态运动规则,实现了步态切换过程中运动的自然连贯。
两种方法的结合使用,不仅可以提高切换速度,又可以改善机器人运动效果,避免因为足端可选择运动过少导致的无法切换、因为运动约束不足导致的运动机械顿挫等问题,便于后续强化学习中,基于足端运动空间扩展离散化处理以及步态切换方法实现最优步态的训练。
附图说明
图1为基于足端扩展离散化的步态切换方法示意图;
图2为机身稳定裕度图;
图3为最终训练获取的最优步态切换链表示意图;
图4为基于强化学习的步态切换系统结构。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
以足端呈正六边形分布的六足机器人为例,进行说明。
一种基于强化学习的多足机器人步态切换方法,包括以下步骤:
步骤1:扩展离散化足端运动空间。
各离散点示意如图1所示,在机器人各机械腿运动可达范围基础上,沿机器人前进方向将足端支撑相工作空间进行离散化,选取步长为S的运动空间(定义运动空间为[-S/2,+S/2]),进行4等分,实现足端位置离散化处理,并在不超过运动空间前提下等距分别向前后各插入1个离散点,进行扩展离散处理,且共有7个支撑相离散点,此外添加8号点表示滞空运动状态。故约定从左前足至右前足逆时针排序为1至6号,有足端状态向量G=(g1 g2 g3g4 g5 g6),且当gi=4有各足端空间位置向量Pi
Figure BDA0002908206030000071
以及足端工作向量W=(w1 w2 w3 w4 w5 w6):
Figure BDA0002908206030000072
步骤2:获取稳定可达运动状态空间。
上述足端状态向量共有86个元素,故从向量空间中选取如下不稳定或不可达的状态予以剔除,简化后续计算:
1)直接不稳定足端状态。形如G1=(X X 7 7 X X);
2)间接不稳定足端状态。形如G2=(X 7 6 6 7 X);
3)直接不可达足端状态。形如G3=(X X 1 1 X X);
4)间接不可达足端状态。形如G4=(X 1 2 2 1 X)。
步骤3:计算对应稳定裕度。
计算稳定可达足端运动空间内各状态的稳定裕度,如图2所示。该图中机器人足端状态G=(8 4 8 4 8 4),工作状态W=(0 1 0 1 0 1)。通过下式可求稳定裕度Dm
Dm=Mins([dij]) (13)
其中i,j∈1,2,...,N为支撑相足端序号,[dij]为各方向稳定裕度组成的数组,Mins()为选取数组最小值的函数,本例中[dij]=[d24,d46,d62]。
以稳定裕度d24为例展开计算。且此时有对应足端在机身坐标系下坐标
Figure BDA0002908206030000085
,通过下式海伦公式可求得d24
Figure BDA0002908206030000081
其中,Li、Lj、Lij分别为机身坐标系下i号足端、j号足端及两足端间向量长度;Hij为构建三角形的半周长。
同理计算其余稳定裕度,有最终实际稳定裕度Dm如下:
du=wi*wj*dij
dv=wi*(1-wj)*wk*dik (15)
Dm=Mins([du],[dv])=400
其中[du],[dv]表全部两种情况对应的稳定裕度数组,Mins定义为两个数组中非零量的最小值。
步骤4:设计步态切换方法。
基于足端运动空间的离散点位设计如下使运动良好自然的步态切换方法,且足端运动轨迹示意图如图1中箭头:
1)当T时刻足端状态向量
Figure BDA0002908206030000082
中有任一足端处于滞空相状态时,T+1时刻
Figure BDA0002908206030000083
中各足采取如下步态运动方法:
Figure BDA0002908206030000084
其中random{}表示在各元素中随机选取。
2)当T时刻无滞空足端时,T+1时刻GT+1中各足采取如下步态运动方法:
Figure BDA0002908206030000091
其中kf、km、kr分别设定为运动的落足点、缓冲点及起抬点,n0为支撑相运动点位。且有各参数取值范围:
Figure BDA0002908206030000092
其中Sbuffer≤S为缓冲区长度,max()表最大值函数,b表示为上下取整而构成的值,jm为步长S运动空间的等距离散数,n表示支撑相离散点数。由此步态切换方法可满足上述运动要求,实现步态自然流畅地切换。由此步态切换方法可从稳定可达空间中进一步筛选出包括G1=(1 4 1 4 1 4),G2=(1 4 1 4 2 4)……G27=(3 4 3 4 3 4)在内的共27种可选切换步态。且所有步态满足4类运动要求,可实现步态自然流畅地切换。
步骤5:强化学习训练。
基于步态切换方法,设定稳定裕度回报函数如下式:
Figure BDA0002908206030000093
其中,Dmin为稳定可达状态空间中最小稳定裕度,Dmax为最大稳定裕度,Dm为当前状态稳定裕度,Rk为函数修正值,s代表各足端状态向量,R(s)为各状态对应稳定裕度回报函数,e为自然数。
在此基础上引入马尔可夫决策过程,采用Q-learning学习,通过下式时间差分法进行训练:
Q(s,a)=Q(s,a)+α*(R(s,a)+*max(Q'(s,a)-Q(s,a))) (20)
其中Q(s,a)即为Q-learning中用以表征状态与动作的Q表,a代表各足端状态间切换动作,α∈[0,1]为学习率,γ∈[0,1]为折扣因子,Q'(s,a)为某状态下一步最优动作对应Q值。此外,本案例中选定动作后,状态转移概率为1,故R(s,a)即为R(s)。
最终,经过多次训练,Q表最终收敛。且该表为(n+1)6维矩阵,针对各行选取如下式动作策略π(a'|s):
Figure BDA0002908206030000101
其中q(s,a)即为Q表中元素,a'为待选取的动作,A表示全部可切换状态集合。因此可在各行选取唯一(如有多个,选取第一个)π(a'|s)=1的元素,且该值为基于足端状态s的唯一切换动作a'。至此,完整获取具有指向性的最优运动链表,且链表示意图如图3,该表为全局链表,全部的运动状态都具有唯一指向目标步态的指向性单元(图中未全部标注)。
步骤6:进行步态切换。
任给初始步态,带入该链表,可唯一获取针对目标步态的最优切换足端状态向量,且将该动作指向的步态点位再次带入该链表,又可获取新的最优切换足端状态向量。
循环迭代即可获取从初始步态指向目标步态的一系列足端向量。以初始步态为G0=(2 6 2 6 2 6)的三足步态为例,可获取目标步态为Ggoal=(4 2 6 4 2 6)的四足步态切换点位:G1=(5 2 5 3 5 1),G2=(1 4 3 5 3 3),G3=(3 6 5 3 5 5),G4=(4 2 6 4 26),可知经过4步切换,实现了初始步态向目标步态的切换步态规划。
在此基础上对各足端向量依次规划轨迹,即可实现实物机器人从初始步态至目标步态的动态切换。
步态切换方法流程如图4所示。
综上所述,以上仅为本发明的其中一个实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于强化学习的多足机器人步态切换方法,包括以下步骤:
步骤1:扩展离散化足端运动空间;
首先,基于机器人各机械腿的运动可达范围进行分析,将足端运动空间沿机器人前进方向进行扩展的离散化处理,通过机器人各足所在离散点位表达足端的位置状态,通过位置状态的排序表达机器人工作时序的变化,实现步态规划问题向数字排序的转换,具体如下:
获取机器人各机械腿的运动可达范围,沿机器人前进方向,将足端支撑相工作空间进行离散化,选取步长为S的运动空间,定义运动空间为[-S/2,+S/2],将其进行jm等分,实现足端位置离散化处理,并在不超过运动空间前提下,等距分别向前后插入jf及jr个离散点,进行扩展离散处理,将各支撑相离散点依次编号为1,2,…,n,其中n=jf+jm+jr+1,同时,添加n+1号点表示滞空运动状态;
对N个足端依次排序,有足端状态向量G=(g1 g2 g3 g4 … gN),且有各足端空间位置向量Pi,其中i=1,2,…,N;
Figure FDA0003434793370000011
其中,
Figure FDA0003434793370000012
Figure FDA0003434793370000013
分别代表足端坐标系下,即,机身前进方向为X轴正向、垂直左向为Y轴正向的各足端坐标;
足端工作向量W=(w1 w2 w3 w4 … wN):
Figure FDA0003434793370000014
步骤2:获取稳定可达运动状态空间;
首先,对全部足端状态向量进行筛选,剔除连贯运动中使机器人处于不稳定或者不可达的状态,其中,至少包括4类要剔除的足端状态:
·直接不稳定足端状态:下一周期存在唯一运动使得机身稳定裕度为负,导致机身不稳定;
·间接不稳定足端状态:后续周期存在唯一运动使得机器人切换至直接不稳定足端状态,导致机身不稳定;
·直接不可达足端状态:仅能通过不稳定足端状态切换而来,实际不可达;
·间接不可达足端状态:仅能从直接不可达足端状态通过唯一一系列动作切换而来,实际不可达;
步骤3:计算对应稳定裕度;
步骤4:设计步态切换方法;
当T时刻足端状态向量
Figure FDA0003434793370000021
中有任一足端处于滞空相状态时,T+1时刻
Figure FDA0003434793370000022
中各足采取如下步态运动方法:
Figure FDA0003434793370000023
其中random{}表示在各元素中随机选取,kf为运动的落足点;
当T时刻无滞空足端时,T+1时刻
Figure FDA0003434793370000024
中各足采取如下步态运动方法:
Figure FDA0003434793370000025
其中,kf、km、kr分别为运动的落足点、缓冲点及起抬点,n0为支撑相运动点位,各参数取值范围为:
Figure FDA0003434793370000026
其中,Sbuffer≤S为缓冲区长度,max()表最大值函数,b表示为上下取整而构成的值,jm为步长S运动空间的等距离散数,n表示支撑相离散点数;由此步态切换方法满足相关运动要求,实现步态自然流畅切换;
步骤5:强化学习训练;
基于步态切换方法,设定稳定裕度回报函数如下式:
Figure FDA0003434793370000031
其中,Dmin为稳定可达状态空间中的最小稳定裕度,Dmax为最大稳定裕度,Dm为当前状态稳定裕度,Rk为函数修正值,s代表各足端状态向量,R(s)为各状态对应稳定裕度回报函数,e为自然数;
引入马尔可夫决策过程,采用Q-learning学习,通过下式时间差分法进行训练:
Q(s,a)=Q(s,a)+α*(R(s,a)+*max(Q'(s,a)-Q(s,a))) (9)
其中,Q(s,a)为Q-learning中用以表征状态与动作的Q表,a代表各足端状态间切换动作,α∈[0,1]为学习率,γ∈[0,1]为折扣因子,Q'(s,a)为某状态下一步最优动作对应Q值;当选定动作后,状态转移概率为1,因此,R(s,a)即为R(s);
最终,Q表最终收敛,该表为(n+1)N维矩阵,针对各行选取如下式动作策略π(a'|s):
Figure FDA0003434793370000032
其中,q(s,a)即为Q表中元素,a'为待选取的动作,A表示全部可切换状态集合;因此,在各行选取唯一π(a'|s)=1的元素,如有多个则选取第一个,该值为基于足端状态s的唯一切换动作a';
步骤6:完成步态切换;
给出初始步态并带入Q表,唯一获取针对目标步态的最优切换足端状态向量,并将动作a'指向的步态点位再次带入Q表,能够获取新的最优切换足端状态向量;循环迭代,从而获取从初始步态指向目标步态的一系列足端向量;
对各足端向量依次规划轨迹,实现实物机器人从初始步态至目标步态的动态切换。
2.如权利要求1所述的一种基于强化学习的多足机器人步态切换方法,其特征在于,步骤3的实现方法如下:
所述稳定裕度,为机器人重心投影至水平面内到支撑相足端形成触地多边形的各边最小距离;该值越大,表机器人运动稳定性越强,稳定裕度Dm表达式为:
Dm=Mins([dij]) (3)
其中,i,j∈1,2,...,N为支撑相足端序号,[dij]为各方向稳定裕度组成的数组,Mins()为选取数组最小值的函数;
在此基础上,通过海伦公式,计算各稳定裕度值dij
Figure FDA0003434793370000041
其中,Li、Lj、Lij分别为机身坐标系下i号足端、j号足端及两足端间向量长度;
Figure FDA0003434793370000042
为各足端的机身坐标系坐标;Hij为构建三角形的半周长。
CN202110077868.1A 2021-01-20 2021-01-20 一种基于强化学习的多足机器人步态切换方法 Expired - Fee Related CN112904859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110077868.1A CN112904859B (zh) 2021-01-20 2021-01-20 一种基于强化学习的多足机器人步态切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110077868.1A CN112904859B (zh) 2021-01-20 2021-01-20 一种基于强化学习的多足机器人步态切换方法

Publications (2)

Publication Number Publication Date
CN112904859A CN112904859A (zh) 2021-06-04
CN112904859B true CN112904859B (zh) 2022-05-10

Family

ID=76118681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110077868.1A Expired - Fee Related CN112904859B (zh) 2021-01-20 2021-01-20 一种基于强化学习的多足机器人步态切换方法

Country Status (1)

Country Link
CN (1) CN112904859B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504778B (zh) * 2021-07-26 2023-09-19 广东工业大学 基于融合概率模型的足式机器人控制方法、系统及设备
CN115705048B (zh) * 2021-08-06 2023-11-14 北京小米机器人技术有限公司 足式机器人的控制方法、装置、机器人及存储介质
CN114655333B (zh) * 2022-05-17 2022-09-27 中国科学院自动化研究所 四足机器人的步态切换方法及装置
CN115542913B (zh) * 2022-10-05 2023-09-12 哈尔滨理工大学 一种基于几何与物理特征地图的六足机器人容错自由步态规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562052A (zh) * 2017-08-30 2018-01-09 唐开强 一种基于深度强化学习的六足机器人步态规划方法
WO2018113262A1 (zh) * 2016-12-23 2018-06-28 深圳光启合众科技有限公司 多足机器人的步态控制方法、装置和机器人
CN108536011A (zh) * 2018-03-19 2018-09-14 中山大学 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
CN112218744A (zh) * 2018-04-22 2021-01-12 谷歌有限责任公司 学习多足机器人的敏捷运动的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018113262A1 (zh) * 2016-12-23 2018-06-28 深圳光启合众科技有限公司 多足机器人的步态控制方法、装置和机器人
CN107562052A (zh) * 2017-08-30 2018-01-09 唐开强 一种基于深度强化学习的六足机器人步态规划方法
CN108536011A (zh) * 2018-03-19 2018-09-14 中山大学 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法

Also Published As

Publication number Publication date
CN112904859A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112904859B (zh) 一种基于强化学习的多足机器人步态切换方法
CN108333931B (zh) 一种面向崎岖地形的四足机器人双层结构步态规划方法
CN110083165B (zh) 一种机器人在复杂狭窄环境下路径规划方法
CN109459026B (zh) 一种多运动体协同全覆盖路径规划方法
CN108805349A (zh) 一种基于改进布谷鸟算法的作物种植空间布局优化方法
CN111679679A (zh) 基于蒙特卡洛树搜索算法的机器人状态规划方法
CN108037758A (zh) 一种基于改进afsa的移动机器人路径规划方法
Pratihar et al. Optimal path and gait generations simultaneously of a six-legged robot using a GA-fuzzy approach
CN106527132B (zh) 基于遗传模拟退火算法的蛇形机器人运动控制方法
CN111580514B (zh) 基于联合编队的移动机器人最优路径覆盖方法
CN108413963A (zh) 基于自学习蚁群算法的条形机器人路径规划方法
CN106363633A (zh) 基于改良粒子群算法的机器人稳定步态规划方法和装置
CN105976122A (zh) 一种多目标资源配置系统
CN110297490A (zh) 基于强化学习算法的异构模块化机器人自重构规划方法
CN113296520A (zh) 融合a*与改进灰狼算法的巡检机器人路径规划方法
CN115542913B (zh) 一种基于几何与物理特征地图的六足机器人容错自由步态规划方法
CN106022601A (zh) 一种多目标资源配置方法
Lobo et al. Evolution of form and function in a model of differentiated multicellular organisms with gene regulatory networks
Shao et al. Recent advances on gait control strategies for hydraulic quadruped robot
Tang et al. Humanmimic: Learning natural locomotion and transitions for humanoid robot via wasserstein adversarial imitation
Barfoot et al. Experiments in learning distributed control for a hexapod robot
CN108333971B (zh) 仿人机器人的结构与运动的协同优化方法
Tao et al. Gait optimization method for humanoid robots based on parallel comprehensive learning particle swarm optimizer algorithm
CN106295791A (zh) 用于寻找旅行商最优路径的方法
CN112925205B (zh) 一种双足机器人步态模式生成的布网优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220510

CF01 Termination of patent right due to non-payment of annual fee