CN111208822A - 一种基于强化学习和cpg控制器的四足机器人步态控制方法 - Google Patents
一种基于强化学习和cpg控制器的四足机器人步态控制方法 Download PDFInfo
- Publication number
- CN111208822A CN111208822A CN202010095442.4A CN202010095442A CN111208822A CN 111208822 A CN111208822 A CN 111208822A CN 202010095442 A CN202010095442 A CN 202010095442A CN 111208822 A CN111208822 A CN 111208822A
- Authority
- CN
- China
- Prior art keywords
- quadruped robot
- model
- leg
- control method
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000005021 gait Effects 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 230000033001 locomotion Effects 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 210000002414 leg Anatomy 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 33
- 210000004394 hip joint Anatomy 0.000 claims description 17
- 210000000629 knee joint Anatomy 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 9
- 230000033764 rhythmic process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 16
- 230000008859 change Effects 0.000 abstract description 11
- 241000124008 Mammalia Species 0.000 abstract description 5
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 230000002093 peripheral effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 210000000689 upper leg Anatomy 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 244000309466 calf Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0891—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for land vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于强化学习和CPG控制器的四足机器人步态控制方法,包括S1、搭建四足机器人的单腿模型及整体模型;S2、构建演员神经网络和评论家神经网络对单腿模型进行训练;S3、确立四足机器人的腿部之间的相对时序关系并根据腿部运动特点构建控制器模型;S4、将控制器模型的输出信号通过映射变换构建出四足机器人的足端运动轨迹模型,将足端运动轨迹模型的输出作为四足机器人步态控制信号来驱动四足机器人。本发明保证了四足机器人的腿部严格按照时序进行运动,具有哺乳动物的步态特性,同时保证了机器人在运动过程中躯干平稳、俯仰角和横侧角变化范围小,有效防止其颠覆;腿部运动具有自适应性,不需要人为设计复杂的控制与规划算法。
Description
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于强化学习和CPG控制器的四足机器人步态控制方法。
背景技术
在四足机器人步态控制领域,中央节律控制器CPG是最为简单且最经典的控制方法之一,首先构建一个合适的节律控制器将四足机器人的每一条腿都分配一个控制器,使机器人按照一定的时序进行运动,完成前进或者后退等简单动作。但是使用该方法具有很大的局限性:1、在设置好控制器后就很难再对腿部运动规划进一步进行修改与干预。2、由于仅仅考虑时序问题,机器人关节运动的设定并不一定合理,导致在运动过程中机器人躯干的俯仰角横侧角变化幅度较大,不满足平稳运动的要求,更严重者可能导致整个机器人倾覆。
近些年由于机器学习与强化学习理论的兴起,运用强化学习算法控制机器人手臂或者足端运动成文研究热点之一,已经发表的文章来看,国外一些顶级科研机构已经利用强化学习算法和复杂深层的神经网络,训练出可以自主移动的足机器人运动方式。但这依然存在一些不足:1、训练的神经网络过大,可复制性低;这些机器人运动控制网络,往往由大量的工程和研究人员经过数个月的训练才能达到效果,使用的神经网络和奖惩函数等也是极其复杂难以迁移和复现的;2、现有的强化学习算法训练出的足机器人都抛弃了足机器人的一个特性:时序性。腿部按照一定的时序进行运动是哺乳类动物运动特点,也是哺乳类动物能够展现较快速和较强地面适应能力的一项必要条件,去除时序性进行强化学习算法控制的机器人会出现适应能力差的问题。
发明内容
本发明目的是为了解决现有技术中存在的问题,提出一种基于强化学习和 CPG控制器的四足机器人步态控制方法。
本发明提出的一种基于强化学习和CPG控制器的四足机器人步态控制方法,包括以下步骤:S1、在V-REP仿真平台下搭建四足机器人的单腿模型以及四足机器人的整体模型;S2、基于DDPG强化学习算法构建演员网络和评论家网络对单腿模型进行训练;S3、利用CPG控制器确立四足机器人的腿部之间的相对时序关系并根据四足机器人的腿部运动特点构建出控制器模型;S4、将控制器模型的输出信号通过映射变换构建出四足机器人的足端运动轨迹模型,将足端运动轨迹模型的输出作为四足机器人步态控制信号来驱动四足机器人。
优选地,所述CPG控制器为Hopf振荡器。
优选地,所述四足机器人每条腿包括两个髋关节和一个膝关节;所述四足机器人的整体模型中每条腿的外部结构及关节可达角度相同。
优选地,所述演员网络为四层神经网络,输入层及中间层每层具有500个神经元,输出层具有两个神经元;所述评论家网络为三层神经网络,每层具有500 个神经元。
优选地,步骤S2中对单腿模型进行训练中的奖惩函数为:
其中,x、z为足端X与Z方向上的坐标,xt、zt为目标点在x与z方向上的坐标。
优选地,步骤S2中对单腿模型进行训练时以9维状态值作为输入,所述9 维状态值为:
[xknee-xhip zknee-zhip xfoot-xhip zfoot-zhip xknee-xtarget zknee-ztarget xfoot-xtargetzfoot-ztarget flag]T
其中xknee,zknee为膝关节在x、z方向上位置量,xhip、zhip为髋关节在x、z 方向上位置量,xfoot、zfoot为足端在x、z方向上位置量,xtarget与ztarget为目标点在x,z方向上的坐标,flag为任务是否完成的标志。
优选地,步骤S2中对单腿模型进行训练时腿部运动的目标区域为:
l∈[0.5m,0.9m]
θ∈[-45°,-135°]
其中,x是取样区间x的坐标范围,y是取样区间y的坐标范围,原点位置为髋关节中心位置,l是极坐标参数之一,θ是极坐标参数之一。
优选地,所述控制器模型为:
其中,xi、yi为第i条腿的状态变量,ω为振荡器的频率,α影响振荡器收敛速度,β为负载因子。R(θi j)为旋转矩阵,表示每条腿的振荡器之间的相位耦合关系。
优选地,步骤S4中四足机器人的足端运动轨迹模型为:
Xtrajectory=0.2xi
其中,x,y为CPG节律控制器的输出信号,X,Z为足端运动轨迹的X与 Z平面坐标值。
优选地,对单腿模型进行训练的次数为500次。
本发明的有益效果包括:本发明通过将DDPG强化学习算法与CGP控制器结合对四足机器人的单腿模型及整体模型进行训练,最后得出四足机器人的足端运动轨迹模型来驱动机器人移动,保证了四足机器人的腿部严格按照时序进行运动,具有哺乳动物的步态特性,同时保证了机器人在运动过程中躯干平稳、俯仰角和横侧角变化范围小,有效防止其颠覆;腿部运动具有自适应性,不需要人为设计复杂的控制与规划算法。
附图说明
图1是本发明实施例的控制方法的流程图。
图2是本发明实施例的四足机器人的单腿模型。
图3是本发明实施例的四足机器人的整体模型。
图4是本发明实施例的DDPG算法流程示意图。
图5是本发明实施例的训练区域示意图。
图6是本发明实施例足端运动轨迹示意图。
图7是本发明实施例中四足机器人的腿部在矢平面下的运动轨迹示意图。
图8是本发明实施例中四足机器人对角小跑过程中俯仰角变化示意图。
图9是本发明实施例中四足机器人对角小跑过程中滚转角变化示意图。
图10是本发明实施例中四足机器人对角小跑过程中躯干质心离地高度变化示意图。
具体实施方式
下面结合具体实施方式并对照附图对本发明作进一步详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明的设计构思是针对四足机器人腿部均分配一个振荡器,每个振荡器之间具有严格的相位关系;针对每一条腿,部署一个强化学习神经网络,使神经网络根据给出的目标位置自主规划出一条快速的运动轨迹,使腿部的足端尽快到达目标位置。
由于人工智能领域的发展,深度学习与强化学习领域的理论开始应用于机器人运动学规划当中,强化学习的特点,即不需要给出具体的轨迹规划方案,在足端偏离目标轨迹或者遇到障碍使它不能运动到目标点时,根据自身学习网络,在之后的时间里,它可以控制足端运行至目标区域。在早期强化学习算法中 Q-learning算法受到广泛使用,Q-learning算法是一种策略迭代网络,每执行一步对网络进行一步优化,这样可以增快学习效率,但出现的问题是由于学习速度过快容易出现震荡甚至离散现象,不利于神经网络的学习。而常用的值迭代算法,例如策略梯度(policy gradient)算法,则是在每一轮行动结束后对网络进行梯度下降,这种算法可以有效避免训练过程中的震荡显现,但学习效率偏慢,且无法人为设定合理的奖惩函数。在综合值迭代和策略迭代的优点与不足,有学者提出演员与评论家模型(actor-critic model),将两种算法结合,构建两套网络,分别进行策略迭代与值迭代,其中较为优秀的算法为Deep Deterministic Policy Gradient (DDPG)算法,该算法构建两份相同的演员神经网络,一个评估网络一个目标网络,当训练积累到一定次数后将目标网络赋值到评估网络。也构建两份相同的评论家网络一个评估网络一个目标网络,当训练积累到一定次数后将目标网络赋值到评估网络。本发明的采用DDPG算法作为强化学习算法。
本实施例提出的基于强化学习和CPG控制器的四足机器人步态控制方法,包括以下内容:
S1、在V-REP仿真平台下搭建四足机器人的单腿模型,用于神经网络训练与展示;搭建四足机器人的整体模型,用于展示整体运动规划效果;其中,仿真平台不限于V-REP仿真平台。
S2、基于DDPG强化学习算法构建演员神经网络和评论家神经网络对单腿模型进行训练;在对单腿模型进行训练过程中,需要设定奖惩函数、状态变量(也可称为状态值)、训练区域等训练超参数。
S3、利用CPG控制器确立四足机器人的腿部之间的相对时序关系并构建出适用于四足机器人的四条腿的控制器模型;其中CPG控制器选用Hopf振荡器。
S4、将控制器模型的输出信号通过映射变换构建出四足机器人的足端运动轨迹模型,将足端运动轨迹模型的输出作为四足机器人步态控制信号来驱动四足机器人。
具体地,步骤S1中的V-REP软件,既可以直观展现机器人运动状态,又提供外部接口,可以采用V-REP与python脚本联合仿真的方案对算法结果进行直观展示。为保证可以应用于绝大多数四足机器人,通过V-REP平台构建一个相对通用且合理的机器人模型。在V-REP平台下,构建四足机器人的单一腿部模型,单腿模型如图2所示,单腿具有两个髋关节(髋关节1和髋关节2),一个膝关节2,两个髋关节分别控制一个自由度,膝关节控制一个自由度。具体地,躯干底部连接一个髋关节1,该关节负责腿部侧向运动,向下连接一个髋关节2,该关节同膝关节4共同负责腿部前后向运动,髋关节2向下连接机器人大腿3(视为刚体),机器人大腿末端连接膝关节4,机器人小腿5同样为刚体,机器人小腿的末端为机器人足端。本专利采用的四足机器人具体参数如下表1所示:
表1
名称 | 规格 | 单位 |
大腿长度 | 0.5 | m |
小腿长度 | 0.5 | m |
躯干长度 | 1 | m |
躯干宽度 | 0.5 | m |
躯干高度 | 0.2 | m |
髋关节1可达角度 | [0,90] | degree |
髋关节2可达角度 | [0,180] | degree |
膝关节可达角度 | [0,165] | degree |
构建出四足机器人整体模型,四条腿部的外部结构(外部结构是指四条腿的物理参数,如尺寸质量等)及关节可达角度均相同,这样有利于对训练网络的迁移,训练一个强化学习网路,就可应用到所有的腿部当中,具体模型如图3所示。可达角度是由于每一个关节都不是可以360度无死角旋转的,都有它能够到达的上下限,因此将这个上下限所能达到的角度称为可达角度。
具体地,步骤S2中DDPG强化学习算法如下所示,具体的算法流程示意图如图4所示:
一般情况下,DDPG强化学习算法构建的神经网络的每一层的神经数目越多,网络越复杂,学习能力越强。神经网络层数增加可以令网络学习更为复杂的行为,但同时会降低学习速度,也会带来梯度消失等现象,令网络无法学习有效的行为。
为得到更好的训练效果,经过反复测验与调试,建立的演员网络为四层神经网络以便在网络能够学习更为复杂的行为时,且不会降低学习速度,也不会带来梯度消失等现象。输入层、中间层每层具有500个神经元,输出层具有两个神经元,神经图层如5所示。
强化学习与基于图像的深度学习不同,强化学习不具有巨大的样本数量,其样本是在训练过程中自身积累得到,数目较少,为了避免样本数目较少时造成学习效果差的问题及样本数目过多造成机械臂抖动明显矫枉过正的问题,本发明采用的训练轮次为500次。
对奖惩函数的设定:由于本发明训练目的是令腿部足端以较快速度到达目标点或者触地,且机械腿部末端位置离目标点越近越好,故设定奖惩函数与足端- 目标点欧氏距离线性相关,且要求足端达到预定位置后保持稳定,不至于出现震荡现象。奖惩函数如下所示:
其中,x、z为足端X与Z方向上的坐标,xt、zt为目标点在x与z方向上的坐标,奖惩值R等于足端坐标与目标点的欧氏距离的负值,当足端坐标与目标点坐标在x与z方向上的偏离小于0.02m,即视为达到期望区域,奖惩值R加 100。
对状态值的选取:在强化学习的过程中,对于状态值的选取极为重要,学术领域中称为feature engineer。如果将仿真平台图像作为输入,虽然保留了所有系统要素但是无疑增加了网络训练的强度与难度,并且将训练好后的腿部组合后不宜进行迁移学习。故经过反复试探与测试选取一个9维状态值作为神经网络的输入对状态值定义为:
[xknee-xhip zknee-zhip xfoot-xhip zfoot-zhip xknee-xtarget zknee-ztarget xfoot-xtargetzfoot-ztarget flag]T
其中xknee,zknee为膝关节在x、z方向上位置量,xhip、zhip为髋关节在x、z 方向上位置量,xfoot、zfoot为足端在x、z方向上位置量,xtarget与ztarget为目标点在x,z方向上的坐标,flag为任务是否完成的标志,在500个动作回合中,每个回合足端都达到了目标区域或者触地则flag=1,否则flag=0。
对训练环境及条件的设定:在训练网络过程中,每一个回合都应该设定不同的目标区域,这样才有利于网络学习,使得在使用训练好后的网络时,可以满足运动规划到各种位置的需要。在对目标区域的设定过程中,既要充分离散地分布于空间,又要合理令机械腿可达,如果出现过多不可达的训练目标,容易导致网络离散,无法有效学习,导致训练失败。
故根据以上原则,对训练区域的中心点设定在以下区域随机分布,共进行 500回合训练。训练区域的公式如下,其示意图如图5所示:
l∈[0.5m,0.9m]
θ∈[-45°,-135°]
其中,x是取样区间x坐标范围,y是取样区间y坐标范围,原点位置为髋关节中心位置,l是极坐标参数之一,θ是极坐标参数之一。
在每次训练过程中,在机器人可达空间内随机设定腿部两个关节的角度,再随机设定一个目标区域,目标区域如图5所示;训练初期机器人腿部无任何经验,通过随机运动以获得奖惩值,随着训练的进行,机器人腿部逐渐积累经验,能够在短时间内将腿部末端运动至目标区域中,本申请训练轮次为500次,此时,神经网络已经能够很好地控制机器人腿部末端由任一位置迅速运动到目标区域中。
采用DDPG强化学习算法优于雅可比矩阵,能够在腿部运动受到扰动或者摄动后偏离了运动轨迹的情况下,也会在之后的运动过程中自主恢复到预定的运动轨迹附近。
具体地,为了使四足机器人采用哺乳类动物运动方式,即四足依照一定的运动顺序进行依次移动,四条腿之间相互协调,互不冲突,一般情况下采用CPG 中央节律控制器来对足机器人腿部运动进行时序分配,本发明采用典型的节律控制器Hopf振荡器,该振荡器结构简单,参数定义明确,便与调试,因而被广泛应用。其经典表达式如下所示:
其中,x,y为状态变量,ω为振荡器的频率,α影响振荡器收敛速度一般为正常数,μ决定振荡器的幅值,u1,u2为外部输入决定了振荡器极限环的中心点。
利用振荡器作为节律控制器的最大优点在于:当x或者y变量偏离了振荡器极限环,偏离到除极限环中心点以外的任何一个空间位置,振荡器都会自动调整该变量,使其在尽可能短的时间内恢复至极限环上。
在四足机器人的运动控制和规划中,最为普遍的经典步态有:(a)行走步态walk,各腿依次运动,经过四个节拍完成一次运动,各腿之间的相位差为0.25。 (b)对角小跑trot,对角腿同时运动,经过两个节拍完成一次运动,各腿之间的相位差为0.5。由于各种不太实现效果类似,以对角小跑步态为例,根据四足机器人的结构特点及腿部步态运动特点,将振荡器扩展为四组振荡器,并将机器人腿部排序,将相应的振荡器信号分配给每一条腿部,构建出的Hopf振荡器模型的表达式为:
其中,x,y为状态变量,ω为振荡器的频率,α影响振荡器收敛速度,一般为正常数,β为负载因子,合理区间为[0,1]。R(θi j)为旋转矩阵,它表示各振荡器之间的相位耦合关系,具体表达式如下所示:
其中θji表示两条腿之间相位差,而具体的相位差要根据具体设定的步态而确定。
在确立四足的相对时序关系后,针对每一足设定具体的运动轨迹。运动轨迹的设定依然利用节律控制器输出信号,四足每一条腿的轨迹规划方法相同,轨迹规划公式也相同,第i条腿足端运动轨迹是将xi与yi信号进行映射处理,在矢平面(即x-z平面下)由Hopf振荡器模型的表达式经过映射变化构造出的足端运动轨迹公式如下,以原点(0,0)为该条腿部髋关节中心位置,具体轨迹如图6所示:
Xtrajectory=0.2xi
其中,x,y为CPG节律控制器的输出信号,X,Z为足端运动轨迹的X与 Z平面坐标值。
本发明的方法还包括在V-REP平台下对专利算法控制机器人的运动状态和重要参数进行展示。在仿真平台上对利用DDPG算法训练的腿部运动轨迹在矢平面(x-z平面下)中在进行效果展示和验证的结果如图7所示,其中线条1是人为设定的期望轨迹,线条2为实际运动轨迹。由图7可以看出本发明的方法可以较为精准地使四足机器人运动到规划的目标轨迹上。
在四足机器人对角小跑的运动展示中,可以明显的观察,四足机器人的俯仰角与滚转角变化幅度较小,躯干质心离地高度变化幅度较低,保证了四足机器人运动的平稳特性,防止机器人倾覆。四足机器人对角小跑过程中俯仰角变化如图 8所示,四足机器人对角小跑过程中滚转角变化如图9所示,四足机器人对角小跑过程中躯干质心离地高度变化如图10所示。由上述波形图观察可得,虽然对角小跑步态属于不稳定动态步态,不可避免地产生一定的波动。但在本专利的改进和调整下,四足机器人运动已经趋于平稳,运动特性得到了较大改善。
本领域技术人员将认识到,对以上描述做出众多变通是可能的,所以实施例和附图仅是用来描述一个或多个特定实施方式。
尽管已经描述和叙述了被看作本发明的示范实施例,本领域技术人员将会明白,可以对其做出各种改变和替换,而不会脱离本发明的精神。另外,可以做出许多修改以将特定情况适配到本发明的教义,而不会脱离在此描述的本发明中心概念。所以,本发明不受限于在此披露的特定实施例,但本发明可能还包括属于本发明范围的所有实施例及其等同物。
Claims (10)
1.一种基于强化学习和CPG控制器的四足机器人步态控制方法,其特征在于,包括以下步骤:
S1、在V-REP仿真平台下搭建四足机器人的单腿模型以及四足机器人的整体模型;
S2、基于DDPG强化学习算法构建演员神经网络和评论家神经网络对单腿模型进行训练;
S3、利用CPG控制器确立四足机器人的腿部之间的相对时序关系并根据四足机器人的腿部运动特点构建出控制器模型;
S4、将控制器模型的输出信号通过映射变换构建出四足机器人的足端运动轨迹模型,将足端运动轨迹模型的输出作为四足机器人步态控制信号来驱动四足机器人。
2.如权利要求1所述四足机器人步态控制方法,其特征在于,所述CPG控制器为Hopf振荡器。
3.如权利要求1所述四足机器人步态控制方法,其特征在于:所述四足机器人每条腿包括两个髋关节和一个膝关节,所述四足机器人的整体模型中每条腿的外部结构及关节可达角度相同。
4.如权利要求1所述四足机器人步态控制方法,其特征在于:步骤S2中所述演员神经网络为四层神经网络,输入层及中间层每层具有500个神经元,输出层具有两个神经元;所述评论家神经网络为三层神经网络,每层具有500个神经元。
6.如权利要求1所述的四足机器人步态控制方法,其特征在于:步骤S2中对单腿模型进行训练时以9维状态值作为输入,所述9维状态值为:
[xknee-xhip zknee-zhip xfoot-xhip zfoot-zhip xknee-xtarget zknee-ztarget xfoot-xtarget zfoot-ztarget flag]T
其中xknee,zknee为膝关节在x、z方向上位置量,xhip、zhip为髋关节在x、z方向上位置量,xfoot、zfoot为足端在x、z方向上位置量,xtarget与ztarget为目标点在x,z方向上的坐标,flag为任务是否完成的标志。
10.如权利要求1所述的四足机器人步态控制方法,其特征在于:对单腿模型进行训练的次数为500次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095442.4A CN111208822A (zh) | 2020-02-17 | 2020-02-17 | 一种基于强化学习和cpg控制器的四足机器人步态控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010095442.4A CN111208822A (zh) | 2020-02-17 | 2020-02-17 | 一种基于强化学习和cpg控制器的四足机器人步态控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111208822A true CN111208822A (zh) | 2020-05-29 |
Family
ID=70784507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010095442.4A Pending CN111208822A (zh) | 2020-02-17 | 2020-02-17 | 一种基于强化学习和cpg控制器的四足机器人步态控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111208822A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052947A (zh) * | 2020-08-17 | 2020-12-08 | 清华大学 | 基于策略选项的分层强化学习方法和装置 |
CN112163287A (zh) * | 2020-08-17 | 2021-01-01 | 盐城工学院 | 四足步行机器人的建模方法 |
CN112171660A (zh) * | 2020-08-18 | 2021-01-05 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
CN112363523A (zh) * | 2020-11-10 | 2021-02-12 | 北京中科深智科技有限公司 | 一种实时模拟四足动物运动的方法和系统 |
CN112596534A (zh) * | 2020-12-04 | 2021-04-02 | 杭州未名信科科技有限公司 | 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质 |
CN112987769A (zh) * | 2021-02-22 | 2021-06-18 | 武汉科技大学 | 四足机器人在变刚度地形稳定过渡的腿部主动调节方法 |
CN113093779A (zh) * | 2021-03-25 | 2021-07-09 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113378475A (zh) * | 2021-06-28 | 2021-09-10 | 清华大学深圳国际研究生院 | 一种基于Vrep的四足机器人控制方法、系统及装置 |
CN113934208A (zh) * | 2021-09-14 | 2022-01-14 | 中国北方车辆研究所 | 一种被动轮式四足机器人轮滑步态控制方法 |
CN113985874A (zh) * | 2021-10-26 | 2022-01-28 | 西北工业大学 | 一种基于CPG-Hopf网络耦合算法的水下六足机器人步态生成与转换方法 |
CN114019988A (zh) * | 2022-01-05 | 2022-02-08 | 季华实验室 | 基于cpg的agv控制方法、装置、电子设备及存储介质 |
CN114454983A (zh) * | 2022-03-02 | 2022-05-10 | 北京理工大学 | 一种四足机器人转弯控制方法及系统 |
CN114655333A (zh) * | 2022-05-17 | 2022-06-24 | 中国科学院自动化研究所 | 四足机器人的步态切换方法及装置 |
CN114740875A (zh) * | 2022-03-31 | 2022-07-12 | 山东大学 | 基于神经振荡器的机器人节律运动控制方法及系统 |
CN115092283A (zh) * | 2022-07-25 | 2022-09-23 | 中山大学 | 基于带有前庭反馈的梯度cpg的机器人控制方法 |
WO2022223056A1 (zh) * | 2021-07-12 | 2022-10-27 | 上海微电机研究所(中国电子科技集团公司第二十一研究所) | 基于深度强化学习的机器人运动参数自适应控制方法和系统 |
CN115291619A (zh) * | 2022-08-23 | 2022-11-04 | 山东大学 | 基于深度强化学习和cpg的机器人运动控制方法及系统 |
CN115837677A (zh) * | 2023-02-24 | 2023-03-24 | 深圳育智科创科技有限公司 | 一种机器人智能控制方法 |
CN116619389A (zh) * | 2023-07-17 | 2023-08-22 | 中山大学 | 一种小型仿生鼠四足机器人的步态控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140031986A1 (en) * | 2012-01-11 | 2014-01-30 | Jonathan Spitz | Robot, device and a method for central pattern generator (CPG) based control of a movement of the robot |
CN108372506A (zh) * | 2018-05-16 | 2018-08-07 | 中南大学 | 一种基于cpg模型的人形机器人自适应行走框架实现方法 |
CN108572553A (zh) * | 2018-05-16 | 2018-09-25 | 清华大学深圳研究生院 | 一种四足机器人的运动闭环控制方法 |
CN109324510A (zh) * | 2018-09-19 | 2019-02-12 | 北京理工大学 | 一种四足机器人cpg控制网络的构建、参数整定方法 |
CN110764415A (zh) * | 2019-10-31 | 2020-02-07 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
-
2020
- 2020-02-17 CN CN202010095442.4A patent/CN111208822A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140031986A1 (en) * | 2012-01-11 | 2014-01-30 | Jonathan Spitz | Robot, device and a method for central pattern generator (CPG) based control of a movement of the robot |
CN108372506A (zh) * | 2018-05-16 | 2018-08-07 | 中南大学 | 一种基于cpg模型的人形机器人自适应行走框架实现方法 |
CN108572553A (zh) * | 2018-05-16 | 2018-09-25 | 清华大学深圳研究生院 | 一种四足机器人的运动闭环控制方法 |
CN109324510A (zh) * | 2018-09-19 | 2019-02-12 | 北京理工大学 | 一种四足机器人cpg控制网络的构建、参数整定方法 |
CN110764415A (zh) * | 2019-10-31 | 2020-02-07 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
Non-Patent Citations (3)
Title |
---|
W. ILG等: "Adaptive periodic movement control for the four legged walking machine BISAM", 《PROCEEDINGS OF THE I999 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS & AUTOMATION》 * |
YOUNGGIL CHO等: "Adaptation to environmental change using reinforcement learning for robotic salamander", 《INTELLIGENT SERVICE ROBOTICS》 * |
刘汉迪等: "基于CPG 的四足机器人运动控制", 《计量与测试技术》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052947B (zh) * | 2020-08-17 | 2021-06-25 | 清华大学 | 基于策略选项的分层强化学习方法和装置 |
CN112163287A (zh) * | 2020-08-17 | 2021-01-01 | 盐城工学院 | 四足步行机器人的建模方法 |
CN112052947A (zh) * | 2020-08-17 | 2020-12-08 | 清华大学 | 基于策略选项的分层强化学习方法和装置 |
CN112171660A (zh) * | 2020-08-18 | 2021-01-05 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
CN112363523A (zh) * | 2020-11-10 | 2021-02-12 | 北京中科深智科技有限公司 | 一种实时模拟四足动物运动的方法和系统 |
CN112596534A (zh) * | 2020-12-04 | 2021-04-02 | 杭州未名信科科技有限公司 | 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质 |
CN112987769A (zh) * | 2021-02-22 | 2021-06-18 | 武汉科技大学 | 四足机器人在变刚度地形稳定过渡的腿部主动调节方法 |
CN113093779A (zh) * | 2021-03-25 | 2021-07-09 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113093779B (zh) * | 2021-03-25 | 2022-06-07 | 山东大学 | 基于深度强化学习的机器人运动控制方法及系统 |
CN113378475A (zh) * | 2021-06-28 | 2021-09-10 | 清华大学深圳国际研究生院 | 一种基于Vrep的四足机器人控制方法、系统及装置 |
CN113378475B (zh) * | 2021-06-28 | 2023-06-16 | 清华大学深圳国际研究生院 | 一种基于Vrep的四足机器人控制方法、系统及装置 |
WO2022223056A1 (zh) * | 2021-07-12 | 2022-10-27 | 上海微电机研究所(中国电子科技集团公司第二十一研究所) | 基于深度强化学习的机器人运动参数自适应控制方法和系统 |
CN113934208A (zh) * | 2021-09-14 | 2022-01-14 | 中国北方车辆研究所 | 一种被动轮式四足机器人轮滑步态控制方法 |
CN113934208B (zh) * | 2021-09-14 | 2023-08-04 | 中国北方车辆研究所 | 一种被动轮式四足机器人轮滑步态控制方法 |
CN113985874A (zh) * | 2021-10-26 | 2022-01-28 | 西北工业大学 | 一种基于CPG-Hopf网络耦合算法的水下六足机器人步态生成与转换方法 |
CN114019988B (zh) * | 2022-01-05 | 2022-04-01 | 季华实验室 | 基于cpg的agv控制方法、装置、电子设备及存储介质 |
CN114019988A (zh) * | 2022-01-05 | 2022-02-08 | 季华实验室 | 基于cpg的agv控制方法、装置、电子设备及存储介质 |
CN114454983A (zh) * | 2022-03-02 | 2022-05-10 | 北京理工大学 | 一种四足机器人转弯控制方法及系统 |
CN114740875A (zh) * | 2022-03-31 | 2022-07-12 | 山东大学 | 基于神经振荡器的机器人节律运动控制方法及系统 |
CN114655333B (zh) * | 2022-05-17 | 2022-09-27 | 中国科学院自动化研究所 | 四足机器人的步态切换方法及装置 |
CN114655333A (zh) * | 2022-05-17 | 2022-06-24 | 中国科学院自动化研究所 | 四足机器人的步态切换方法及装置 |
CN115092283A (zh) * | 2022-07-25 | 2022-09-23 | 中山大学 | 基于带有前庭反馈的梯度cpg的机器人控制方法 |
CN115291619A (zh) * | 2022-08-23 | 2022-11-04 | 山东大学 | 基于深度强化学习和cpg的机器人运动控制方法及系统 |
CN115837677A (zh) * | 2023-02-24 | 2023-03-24 | 深圳育智科创科技有限公司 | 一种机器人智能控制方法 |
CN115837677B (zh) * | 2023-02-24 | 2023-04-28 | 深圳育智科创科技有限公司 | 一种机器人智能控制方法 |
CN116619389A (zh) * | 2023-07-17 | 2023-08-22 | 中山大学 | 一种小型仿生鼠四足机器人的步态控制方法 |
CN116619389B (zh) * | 2023-07-17 | 2023-12-08 | 中山大学 | 一种小型仿生鼠四足机器人的步态控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111208822A (zh) | 一种基于强化学习和cpg控制器的四足机器人步态控制方法 | |
Pathak et al. | Learning to control self-assembling morphologies: a study of generalization via modularity | |
CN110764415B (zh) | 一种四足机器人腿部运动的步态规划方法 | |
Schilling et al. | Walknet, a bio-inspired controller for hexapod walking | |
CN112051735B (zh) | 仿人机器人步行控制方法 | |
CN110764416A (zh) | 基于深度q网络的仿人机器人步态优化控制方法 | |
CN113031528B (zh) | 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法 | |
CN112338921A (zh) | 一种基于深度强化学习的机械臂智能控制快速训练方法 | |
CN108897220B (zh) | 一种自适应稳定平衡控制方法和系统以及双足仿人机器人 | |
CN112147889B (zh) | 一种四足机器人复合式越障轨迹规划方法 | |
CN108572553A (zh) | 一种四足机器人的运动闭环控制方法 | |
CN106094817A (zh) | 基于大数据方式的强化学习仿人机器人步态规划方法 | |
CN113967909B (zh) | 基于方向奖励的机械臂智能控制方法 | |
Yan et al. | Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning | |
Ji et al. | Reinforcement learning for collaborative quadrupedal manipulation of a payload over challenging terrain | |
Deng et al. | Cpg-inspired gait generation and transition control for six wheel-legged robot | |
CN106914901A (zh) | 仿生机器人控制网络的分层构建方法 | |
Tahami et al. | Learning to control the three-link musculoskeletal ARM using actor–critic reinforcement learning algorithm during reaching movement | |
Son et al. | Generation of adaptive gait patterns for quadruped robot with CPG network including motor dynamic model | |
Teng et al. | Center of gravity balance approach based on CPG algorithm for locomotion control of a quadruped robot | |
Pei et al. | Adaptive control of a quadruped robot based on Central Pattern Generators | |
Khemaissia et al. | A Biologically inspired Adaptive Model Theory for Humanoid Robot Arm Control | |
Zharinov et al. | CPG as a controller for biomimetic floating robots | |
Luo et al. | CPG-based control scheme for quadruped robot to withstand the lateral impact | |
Tang et al. | A cubic CPG model for snake-like robot to adapt to environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200529 |