CN115128960B - 一种基于深度强化学习双足机器人运动控制方法及系统 - Google Patents
一种基于深度强化学习双足机器人运动控制方法及系统 Download PDFInfo
- Publication number
- CN115128960B CN115128960B CN202211050051.6A CN202211050051A CN115128960B CN 115128960 B CN115128960 B CN 115128960B CN 202211050051 A CN202211050051 A CN 202211050051A CN 115128960 B CN115128960 B CN 115128960B
- Authority
- CN
- China
- Prior art keywords
- biped robot
- robot
- leg
- reinforcement learning
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000002787 reinforcement Effects 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 230000001133 acceleration Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000005477 standard model Effects 0.000 claims description 4
- 210000002414 leg Anatomy 0.000 description 73
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 210000003108 foot joint Anatomy 0.000 description 7
- 210000004394 hip joint Anatomy 0.000 description 6
- 230000005021 gait Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 210000002683 foot Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 210000001503 joint Anatomy 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 206010016173 Fall Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000283160 Inia Species 0.000 description 1
- 206010034701 Peroneal nerve palsy Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000000544 articulatio talocruralis Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B62—LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
- B62D—MOTOR VEHICLES; TRAILERS
- B62D57/00—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
- B62D57/02—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
- B62D57/032—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Manipulator (AREA)
- Transportation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Combustion & Propulsion (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Data Mining & Analysis (AREA)
Abstract
本发明属于机器人智能控制领域,提供了一种基于深度强化学习双足机器人运动控制方法及系统,包括获取双足机器人的当前状态信息;根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。本发明基于单刚体模型预测控制提出了一种新的、基于深度强化学习预测腿部扰动控制方法,适用于腿部质量占比小于30%的双足机器人,扩大了单刚体模型预测控制方法的应用范围。
Description
技术领域
本发明属于机器人智能控制技术领域,具体涉及一种基于深度强化学习双足机器人运动控制方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
相较于轮式机器人,腿足式机器人拥有巨大的应用价值和发展前景。目前,四足机器人和双足机器人是腿足式机器人领域的研究热点。由于双足机器人具有复杂的非线性动力学和更高的自由度,所以实现双足机器人的稳定行走是一项具有较大挑战性的工作。与四足机器人相比,双足机器人由于自身的机械结构设计,很难实现静态稳定。其一是因为,双足机器人的矩形足面积很小,部分机器人甚至是线形足。这导致双足机器人在静态站立和运动过程中的支撑域很小,甚至不存在支撑域。从稳定性分析的角度来看,双足机器人不具备静态稳定的条件,只具备动态稳定性条件。这意味着,双足机器人只能在运动过程中实现自身稳定。因此,双足机器人运动控制器的设计难度要远胜于四足机器人。
目前,腿足式机器人的控制方法主要有两类,分别是基于模型的控制方法和无模型的控制方法。深度强化学习是无模型方法中最主要的方法。目前在腿足式机器人领域内,近端策略优化算法(Proximal Policy Optimization,PPO)和确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)是两种最常用的深度强化学习算法。深度强化学习方法优点是规避复杂的建模和调参过程,通过不同的奖励函数指导,智能体可以学习到不同的目标策略,是一种较为灵活的控制方法。基于模型的控制方法也就是我们通常所说的传统的控制方法。设计基于模型的控制方法,首先要对被控对象进行建模。最近关于双足机器人的研究《Force-and-moment-based Model Predictive Control for AchievingHighly Dynamic Locomotion on Bipedal Robots》(基于力和力矩的控制在双足机器人上实现高速动态运动)将单刚体模型预测控制方法应用到双足机器人上,从理论上证明了模型预测控制方法的稳定性。但是,单刚体模型预测控制在双足机器人领域的普及还面临着一个重大的挑战。单刚体模型不考虑机器人的腿部质量对机器人整体运动的影响,这在腿部质量占比10%左右的四足机器人上是一种很合理的假设。但是,目前大部分的双足机器人腿部质量占比较大,腿部质量对机器人整体运动的影响不可忽略。
发明内容
为了解决上述问题,本发明提出了一种基于深度强化学习双足机器人运动控制方法及系统,本发明基于单刚体模型预测控制提出了一种新的、基于深度强化学习预测腿部扰动控制方法,适用于腿部质量占比小于30%的双足机器人,扩大了单刚体模型预测控制方法的应用范围。
根据一些实施例,本发明的第一方案提供了一种基于深度强化学习双足机器人运动控制方法,采用如下技术方案:
一种基于深度强化学习双足机器人运动控制方法,包括:
获取双足机器人的当前状态信息;
根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
根据一些实施例,本发明的第二方案提供了一种基于深度强化学习双足机器人运动控制系统,采用如下技术方案:
一种基于深度强化学习双足机器人运动控制系统,包括:
机器人状态采集模块,被配置为获取双足机器人的当前状态信息;
扰动预测模块,被配置为根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
地面反作用力确定模块,被配置为根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
机器人控制模块,被配置为基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明由基于改进的单刚体模型的模型预测控制和基于深度强化学习的摆动腿扰动预测策略两部分组成。首先,对单刚体模型进行了改进,加入了外界对躯干的质心加速度和旋转加速度干扰,并推导出了它的模型预测标准形式。随后将改进之后的单刚体模型预测算法应用在一个腿部质量可以忽略的模型上,并假设上述两种扰动全为0,在此基础上调试并确定摆动腿和支撑腿控制器除扰动项外的其它参数。随后,使用一个腿部质量占比大约在30%的双足机器人模型,并且不再假设扰动项为0。使用强化学习中的PPO算法,让双足机器人跟踪一个设定的正向速度,学习扰动预测策略,最终实现稳定行走。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例所述的一种基于深度强化学习双足机器人运动控制系统的整体控制框架图;
图2是本发明实施例所述的双足机器人的结构示意图;
图3是本发明实施例所述的步态周期图;
图4是本发明实施例所述的摆动腿控制框架图;
图5是本发明实施例所述的支撑腿控制器的框架图;
图6是本发明实施例所述的前向速度参考曲线图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1所示,本实施例提供了一种基于深度强化学习双足机器人运动控制方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取双足机器人的当前状态信息;
根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
本方法由基于改进的单刚体模型的模型预测控制和基于深度强化学习的摆动腿扰动预测策略两部分组成。首先,对单刚体模型进行了改进,加入了外界对躯干的质心加速度和旋转加速度干扰,并推导出了它的模型预测标准形式。随后将改进之后的单刚体模型预测算法应用在一个腿部质量可以忽略的模型上,并假设上述两种扰动全为0,在此基础上调试并确定摆动腿和支撑腿控制器除扰动项外的其它参数。随后,使用一个腿部质量占比大约在30%的双足机器人模型,并且不再假设扰动项为0。使用强化学习中的PPO算法,让双足机器人跟踪一个设定的正向速度,学习扰动预测策略,最终实现稳定行走。
本发明将深度强化学习和单刚体模型预测控制相结合,提出了一种基于深度强化学习预测腿部扰动的单刚体模型预测方法,将单刚体模型预测控制算法移植到了腿部质量占比达30%的双足机器人上,突破了算法原有的假设限制,扩大了算法的适用范围。本发明经过仿真实验验证,控制效果优于改进前的单刚体模型预测控制方法。
具体过程如下:
一、控制框架
本发明的控制框架如图1所示,控制框架主要包含四个部分,分别是有限状态机、摆动腿控制器、支撑腿控制器和基于深度强化学习的摆动腿扰动预测策略。本发明使用单腿5自由度的双足机器人作为本发明的验证平台。该平台具备高精度力矩控制能力,外观如图2所示。模型质量参数如表1所示,通过表1可以看出,模型1中的腿部质量占总质量的6.7%,它的腿部质量可以忽略,可以直接使用基于单刚体模型的模型预测控制方法;模型2中的腿部质量占总质量的30.5%,它的腿部质量不可忽略,基于改进的单刚体模型的模型预测控制可以实现它的稳定行走。
表1
A.有限状态机
有限状态机根据固定的摆动时长和支撑时长,生成一种行走步态。有限状态机决定每条腿的状态,给出每条腿此时此刻应当支撑还是摆动。它给出当前时刻每条腿所处的时间相(摆动相或是支撑相),以及当前动作完成的百分比时间。每条腿的摆动相和支撑相分别占整个步态周期的40%和60%,其中,双腿支撑相占比10%。本发明使用摆动相时长0.12s,支撑相时长0.18s的行走步态,步态周期如图3所示。
B.摆动腿控制器
摆动腿控制器框架图如图4所示。摆动腿控制器首先根据自身状态求解期望落足点,然后根据期望落足点计算期望足端位置,再根据腿部逆运动学求解期望关节位置,最后通过一个关节空间PD控制器计算关节力矩。当摆动腿落地时会与地面发生碰撞,碰撞会破坏机器人的运动稳定性。设计触地策略是为了抑制碰撞对稳定性的影响。为了缓解摆动腿足端触地对躯干运动造成的冲击影响,本发明设计了三个摆动腿触地策略,保证机器人运动的稳定性。
期望落足点位置是基于速度的前馈项与基于捕获点的反馈项之和:
其中,是期望落足点在水平地面上的位置;是髋关节实际位置在水平地面上的投影;是髋关节实际速度在水平地面上的投影;是髋关节期望速度在水平地面上的投影;是髋关节距离地面的期望高度;是摆动相时长;是重力加速度。
髋关节在笛卡尔坐标系下的实际速度可以通过测量到的其它状态量计算得到。髋关节在笛卡尔坐标系下的期望速度是根据设定的其它期望值计算得到。
期望足端轨迹是由6阶贝塞尔曲线根据实时期望落足点拟合生成。
在触地策略1中,本发明模仿人类直立行走时的脚尖外张行为,实时调整双足机器人偏航关节的期望位置和期望速度,从而增强动态行走的稳定性。
另外在摆动腿摆动的过程中,本发明添加了一个脚底平行于水平地面的约束,确保摆动腿在摆动相结束时,可以保证足底与地面的完全接触。根据约束可以求解出足关节的期望位置和期望速度。
除了偏航关节和足关节外,双足机器人的每条腿还有3个自由度,逆运动学刚好有唯一解。根据期望足端位置可求解出剩余关节的期望位置和期望速度。
求解出所有关节的期望位置和期望速度之后,本发明使用了一个数字低通滤波器对实际的关节速度进行滤波,滤波器的截止频率低于摆动腿控制器的工作频率。然后本发明通过一个关节空间的PD控制器,根据实际关节位置误差和实际关节速度误差计算出各个关节的力矩,
需要说明的是,当前时刻的期望减去前一时刻的期望,然后除以时间间隔,可以得到当前时刻的期望速度。
C.支撑腿控制器
支撑腿控制器的框架如图5所示。本实施例将双足机器人的躯干看作是可以自由移动的单刚体,支撑腿的最优地面反作用力由基于改进单刚体模型的模型预测控制算法生成。本发明在SRB模型中加入外界对质心加速度和旋转加速度的扰动,并将新的模型称为受外界扰动的单刚体模型DSRB。同时,本发明将基于SRB模型的模型预测控制方法简称为SRB-MPC方法,将基于DSRB模型的MPC方法简称为DSRB-MPC方法。DSRB模型的近似线性动力学如下,
其中,是躯干质心位置;是躯干质心加速度;是躯干的旋转角速度;是躯干的旋转加速度;是躯干的质量;表示双足机器人腿的数量;是地面通过第个足端对躯干质心施加的反作用力;是的力臂;是躯干的惯性张量;和分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰。
本发明将状态方程(5)的离散形式作为等式约束,将地面反作用力的摩擦锥约束作为不等式约束,将系统的状态误差和系统输入的二范数作为目标函数,最优足端反作用力求解问题可以写成如下标准的模型预测控制形式:
本发明将离散动力学方程(7)可写成如下紧凑形式,
随后将公式(9)代入到公式(6)中,最终标准模型预测控制问题可以化简成二次规划问题:
考虑到大部分双足机器人的足关节处的执行器输出力矩较小,支撑腿策略将足关节作为被动关节,将此关节的期望力矩设置为0。在上述假设下,双足机器人无法实现静态稳定,只能实现动态稳定,它的控制难度增加。
支撑腿除足关节外的各关节力矩由下式给出:
为了提高支撑腿控制器的稳定性,本发明也使用了一阶低通数字滤波器对躯干的质心速度和旋转速度进行了滤波。滤波器的截止频率低于支撑腿控制器的工作频率。
二、学习摆动腿扰动预测策略
A.状态空间和动作空间
状态空间维度数是31,且不包含任何与期望状态相关的变量,状态变量的选择非常地简化。
因为摆动腿对躯干的扰动与躯干在惯性坐标系下的位置无关,并且扰动是相对于躯干的,所以本发明选择在躯干坐标系中学习扰动预测策略,由策略给出在躯干坐标系下摆动腿对躯干的扰动和。本发明将所有扰动的数值范围限制在-5到5之间。通过躯干坐标系与惯性坐标系之间的相对位置关系,可以得到在惯性坐标系下摆动腿对躯干的扰动和。动作空间维度为6,小于关节空间的维度。
B.奖励函数
本发明设计奖励函数时,优先鼓励机器人保持躯干欧拉角不变,避免由于躯干姿态剧烈变化而导致跌倒。因此,在奖励函数中躯干的欧拉角误差权重最大,高度误差权重仅次之。奖励函数其次鼓励机器人跟踪一个水平面上的正向速度,所以正向和侧向水平速度误差权重较小,垂直方向上的速度误差权重最小。
C.训练细节
为了降低训练难度,缩短训练时间,本发明只希望双足机器人在保持躯干姿态不变的情况下,跟踪一个不断变化的水平正向速度。此外,本发明引入了两个先验知识。
(1)首先,在一个腿部质量可以忽略的双足机器人模型上(模型参数见表1模型1),设置了摆动腿和支撑腿控制器参数,其中包括,,Q和R。为了使支撑腿控制器能够在躯干水平速度误差较大的情况下也能保持稳定,本发明在Q中使用了一个非常小的正向水平速度目标权重。支撑腿控制器会优先保证躯干欧拉角误差最小,维持住躯干姿态,在不跌倒的前提下尽可能地跟踪正向水平速度。策略训练时使用表1中的模型2。模型预测控制的目标权重系数如表2所示。
表 2
(2)为了避免双足机器人在仿真初期频繁跌倒,本发明使用了两个很小的前向期望加速度,前向速度参考如图6所示。同时,为了学习匀速运动状态下的扰动预测策略,参考轨迹中包含5段时长一秒的阶梯式的匀速运动,阶梯速度分别为0.6、0.7、0.8、0.9、0.95。参考轨迹的最后是一段1m/s的匀速运动。参考轨迹中包含了不同速度下的匀速和加速运动过程,学习难度从易到难,符合学习规律。
D.PPO算法参数设置
本发明选择PPO算法训练摆动腿扰动预测策略,使用高斯分布输出扰动预测值,然后裁剪预测值,将预测值限制在有效值范围内。本实施例使用了9个关键技巧提升PPO算法的性能:(1)优势归一化;(2)状态归一化;(3)奖励值归一化;(4)在actor网络的损失函数中加入策略熵;(5)学习率衰减;(6)梯度裁剪;(7)网络参数正交初始化;(8)使用Adam优化器;(9)使用双曲正弦函数作为激活函数。提升PPO算法的性能。使用GAE方法对PPO算法中的优势进行估计。关于Actor和Critic网络,使用了一个结构简单的3层全连接网络,网络每层有只有256个神经元。PPO算法的其它参数都使用了该算法的经验值。为了加快训练速度,本发明对每回合的最大仿真步做了限制,并将该限制作为回合结束条件,除此之外,本发明还增加了一些对误差的限制,同时作为回合结束条件,最大误差如表3所示。
表3
实施例二
本实施例提供了一种基于深度强化学习双足机器人运动控制系统,包括:
机器人状态采集模块,被配置为获取双足机器人的当前状态信息;
扰动预测模块,被配置为根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
地面反作用力确定模块,被配置为根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
机器人控制模块,被配置为基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种基于深度强化学习双足机器人运动控制方法,其特征在于,包括:
获取双足机器人的当前状态信息;
根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值,所述扰动预测值是质心加速度干扰预测值和旋转加速度干扰预测值;
在机器人控制框架模型中,根据机器人的期望姿态和期望速度以及扰动预测值,将双足机器人的躯干作为自由移动的单刚体,基于受摆动腿扰动的单刚体模型的模型预测控制算法得到最优的地面反作用力;所述机器人控制框架模型包括有限状态机、摆动腿控制器、支撑腿控制器以及基于深度强化学习的摆动腿预测策略;所述支撑腿控制器采用基于受摆动腿扰动的单刚体模型的模型预测控制算法;
所述受摆动腿扰动的单刚体模型,具体为:
其中,是躯干质心位置;是躯干质心加速度;是躯干的旋转角速度;是躯
干的旋转加速度;是躯干的质量;表示双足机器人腿的数量;是地面通过第个足端对躯干质心施加的反作用力;是的力臂;是躯干的惯性张量;和分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰;
基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
2.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,所述双足机器人的当前状态信息,包括:
双足机器人当前的躯干姿态、躯干的旋转角速度、躯干质心的速度、每条腿的关节位置和关节速度,以及腿的运动状态和相位百分比时间。
3.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,基于机器人控制框架模型的支撑腿控制器,根据机器人的期望姿态和期望速度以及扰动预测值得到最优的地面反作用力,具体为:
基于支撑腿控制器的受外界扰动的单刚体模型,转换成状态方程并进行离散化;
将离散性质的状态方程作为等式约束,将地面反作用力的摩擦锥约束作为不等式约束,将最优的地面反作用力求解问题转化成标准的模型预测控制形式;
将离散性质的状态方程转化为紧凑形式,基于离散性质的状态方程的紧凑形式对标准的模型预测控制问题进行简化,得到最终的二次规划问题;
基于最终的二次规划问题,求解出最优的地面反作用力。
5.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,所述摆动腿控制器的工作过程,为:
根据摆动腿的期望落足点确定摆动腿的期望足端位置;
基于摆动腿的期望足端位置,利用腿部逆运动学求解摆动腿的期望关节位置;
根据摆动腿的期望关节位置,通过关节空间的比例微分控制器确定摆动腿的关节力矩;
基于摆动腿的关节力矩控制摆动腿运动。
6.一种基于深度强化学习双足机器人运动控制系统,其特征在于,包括:
机器人状态采集模块,被配置为获取双足机器人的当前状态信息;
扰动预测模块,被配置为根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值,所述扰动预测值是质心加速度干扰预测值和旋转加速度干扰预测值;
地面反作用力确定模块,被配置为在机器人控制框架模型中,根据机器人的期望姿态和期望速度以及扰动预测值,将双足机器人的躯干作为自由移动的单刚体,基于受摆动腿扰动的单刚体模型的模型预测控制算法得到最优的地面反作用力;所述机器人控制框架模型包括有限状态机、摆动腿控制器、支撑腿控制器以及基于深度强化学习的摆动腿预测策略;所述支撑腿控制器采用基于受摆动腿扰动的单刚体模型的模型预测控制算法;
所述受摆动腿扰动的单刚体模型,具体为:
其中,是躯干质心位置;是躯干质心加速度;是躯干的旋转角速度;是躯
干的旋转加速度;是躯干的质量;表示双足机器人腿的数量;是地面通过第个足端对躯干质心施加的反作用力;是的力臂;是躯干的惯性张量;和分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰;
机器人控制模块,被配置为基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211050051.6A CN115128960B (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度强化学习双足机器人运动控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211050051.6A CN115128960B (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度强化学习双足机器人运动控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115128960A CN115128960A (zh) | 2022-09-30 |
CN115128960B true CN115128960B (zh) | 2022-12-16 |
Family
ID=83387836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211050051.6A Active CN115128960B (zh) | 2022-08-30 | 2022-08-30 | 一种基于深度强化学习双足机器人运动控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115128960B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339362B (zh) * | 2023-02-09 | 2024-09-10 | 华中科技大学 | 四足机器人快速模型预测控制方法、系统及介质 |
CN116823954B (zh) * | 2023-08-29 | 2023-12-08 | 深圳魔视智能科技有限公司 | 铰接式车辆的位姿估计方法、装置、车辆及存储介质 |
CN117555339B (zh) * | 2024-01-11 | 2024-04-26 | 科大讯飞股份有限公司 | 策略网络训练方法及人形双足机器人步态控制方法 |
CN118363310A (zh) * | 2024-06-19 | 2024-07-19 | 中国科学院自动化研究所 | 双足机器人爬坡方法、装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111098299A (zh) * | 2019-12-06 | 2020-05-05 | 上海航天控制技术研究所 | 一种空间机器人扰动补偿的方法 |
CN111891252A (zh) * | 2020-08-06 | 2020-11-06 | 齐鲁工业大学 | 一种四足仿生机器人的身体姿态斜坡自适应控制方法 |
CN112051741A (zh) * | 2020-09-16 | 2020-12-08 | 北京理工大学 | 一种双足机器人动态运动生成与控制方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN113021299A (zh) * | 2021-04-13 | 2021-06-25 | 山东大学 | 一种双腿轮复合机器人全方位运动控制方法 |
CN113219825A (zh) * | 2021-03-26 | 2021-08-06 | 齐鲁工业大学 | 一种四足机器人单腿轨迹跟踪控制方法及系统 |
CN114625129A (zh) * | 2022-02-22 | 2022-06-14 | 中国科学院自动化研究所 | 位控腿足机器人的运动控制方法及系统 |
CN114815626A (zh) * | 2022-06-02 | 2022-07-29 | 哈尔滨理工大学 | 一种舵鳍系统的预测自抗扰减摇控制方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101875510B1 (ko) * | 2016-11-22 | 2018-07-09 | 한국과학기술연구원 | 이족 보행 로봇의 안정된 보행 제어를 위해 단순화된 로봇의 모델링 방법 |
JP7188194B2 (ja) * | 2019-03-07 | 2022-12-13 | 富士通株式会社 | 方策改善方法、方策改善プログラム、および方策改善装置 |
WO2020233050A1 (zh) * | 2019-11-26 | 2020-11-26 | 浙江大学 | 一种双足机器人不平整路面动态跑步步态实现方法 |
CN114609918B (zh) * | 2022-05-12 | 2022-08-02 | 齐鲁工业大学 | 一种四足机器人运动控制方法、系统、存储介质及设备 |
-
2022
- 2022-08-30 CN CN202211050051.6A patent/CN115128960B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111098299A (zh) * | 2019-12-06 | 2020-05-05 | 上海航天控制技术研究所 | 一种空间机器人扰动补偿的方法 |
CN111891252A (zh) * | 2020-08-06 | 2020-11-06 | 齐鲁工业大学 | 一种四足仿生机器人的身体姿态斜坡自适应控制方法 |
CN112051741A (zh) * | 2020-09-16 | 2020-12-08 | 北京理工大学 | 一种双足机器人动态运动生成与控制方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN113219825A (zh) * | 2021-03-26 | 2021-08-06 | 齐鲁工业大学 | 一种四足机器人单腿轨迹跟踪控制方法及系统 |
CN113021299A (zh) * | 2021-04-13 | 2021-06-25 | 山东大学 | 一种双腿轮复合机器人全方位运动控制方法 |
CN114625129A (zh) * | 2022-02-22 | 2022-06-14 | 中国科学院自动化研究所 | 位控腿足机器人的运动控制方法及系统 |
CN114815626A (zh) * | 2022-06-02 | 2022-07-29 | 哈尔滨理工大学 | 一种舵鳍系统的预测自抗扰减摇控制方法 |
Non-Patent Citations (2)
Title |
---|
基于模型预测控制的仿人机器人实时步态优化;丁加涛 等;《浙江大学学报(工学版)》;20191031;第53卷(第10期);全文 * |
基于深度强化学习的四足机器人研究综述;刘伟龙 等;《齐鲁工业大学学报》;20220430;第36卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115128960A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115128960B (zh) | 一种基于深度强化学习双足机器人运动控制方法及系统 | |
Miura et al. | Human-like walking with toe supporting for humanoids | |
Nakaoka et al. | Generating whole body motions for a biped humanoid robot from captured human dances | |
Laszlo et al. | Limit cycle control and its application to the animation of balancing and walking | |
Felis et al. | Synthesis of full-body 3-d human gait using optimal control methods | |
Yang et al. | Learning whole-body motor skills for humanoids | |
CN114995479A (zh) | 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法 | |
Cardenas-Maciel et al. | Generation of walking periodic motions for a biped robot via genetic algorithms | |
Park et al. | Inverse optimal control for humanoid locomotion | |
Shafii et al. | Learning to walk fast: Optimized hip height movement for simulated and real humanoid robots | |
Yang et al. | Cajun: Continuous adaptive jumping using a learned centroidal controller | |
CN117215204B (zh) | 基于强化学习的机器人步态训练方法及系统 | |
Pambudi et al. | Simulation design of trajectory planning robot manipulator | |
Abedzadeh Maafi et al. | Pareto optimal design of a fuzzy adaptive sliding mode controller for a three-link model of a biped robot via the multi-objective improved team game algorithm | |
CN113568422A (zh) | 基于模型预测控制优化强化学习的四足机器人控制方法 | |
Saputra et al. | Adaptive motion pattern generation on balancing of humanoid robot movement | |
Abdolmaleki et al. | Contextual policy search for linear and nonlinear generalization of a humanoid walking controller | |
KR102611126B1 (ko) | 강화학습모델을 이용한 보행 동작 정보 출력 방법 및 서비스 장치 | |
CN114393579B (zh) | 一种基于自适应模糊虚拟模型的机器人控制方法及装置 | |
Yeom et al. | A dynamic gait stabilization algorithm for quadrupedal locomotion through contact time modulation | |
Carlsen et al. | Evolving balancing controllers for biped characters in games | |
Tao et al. | A Multiobjective Collaborative Deep Reinforcement Learning Algorithm for Jumping Optimization of Bipedal Robot | |
Jiang et al. | Motion sequence learning for robot walking based on pose optimization | |
DeHart | Dynamic Balance and Gait Metrics for Robotic Bipeds | |
He et al. | Suppression of Quadruped Robot Body Disturbance by Virtual Spring‐Damping Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |