CN112936290A - 一种基于分层强化学习的四足机器人运动规划方法 - Google Patents

一种基于分层强化学习的四足机器人运动规划方法 Download PDF

Info

Publication number
CN112936290A
CN112936290A CN202110321563.0A CN202110321563A CN112936290A CN 112936290 A CN112936290 A CN 112936290A CN 202110321563 A CN202110321563 A CN 202110321563A CN 112936290 A CN112936290 A CN 112936290A
Authority
CN
China
Prior art keywords
robot
control
quadruped robot
environment
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110321563.0A
Other languages
English (en)
Other versions
CN112936290B (zh
Inventor
么庆丰
王纪龙
魏震宇
王东林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Westlake University
Original Assignee
Westlake University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Westlake University filed Critical Westlake University
Priority to CN202110321563.0A priority Critical patent/CN112936290B/zh
Publication of CN112936290A publication Critical patent/CN112936290A/zh
Application granted granted Critical
Publication of CN112936290B publication Critical patent/CN112936290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于分层强化学习的四足机器人运动规划方法,该方法通过构建基于深度强化学习的上层行为决策控制器以及基于模型预测控制的下层运动执行控制器;对于上层的深度强化学习网络,基于SAC算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等,结合机器人周围的环境高度图信息输出对应的行为控制参数;对于下层执行控制器中的模型预测控制器,通过求解基于上层输入的控制参数二次规划方程组来获取对应的控制指令。该分层控制框架结合了深度强化学习与模型预测控制的优势,使四足机器人能够根据当前机身状态以及地形环境做出更安全可靠的行为模式,保持机身姿态平稳,从而有效规避风险,实现在复杂地形下的有效运动轨迹规划。

Description

一种基于分层强化学习的四足机器人运动规划方法
技术领域
本发明涉及智能足式机器人领域,具体涉及一种基于分层强化学习的四足机器人运动规划方法。
背景技术
四足机器人相对其他形式的移动机器人,移动中具有独立的落足点,可以根据地形和任务的特点改变步态,其更加适用于在不平整、崎岖地形以及上下楼梯等复杂环境下作业,具备更好的环境适应能力。然而,四足机器人的运动规划具有很大的挑战性。它必须考虑大量的时变因素,才能从大的动作空间中寻找出最优的控制决策。深度强化学习是一种新型控制方法。在深度强化学习中,代表动作策略的神经网络通过与环境不断交互实现网络参数的更新,在训练过程中学习如何从环境中获得最大的累积奖励。然而,基于深度强化学习的四足机器人控制策略无法有效权衡复杂环境探索能力与机身稳定性,同时上层控制决策方案与底层的控制执行器之间的配合无法直接有效地配合。
发明内容
针对现有技术的不足,本发明提出一种基于分层强化学习的四足机器人运动规划方法,该方法能够提高四足机器人在复杂地形环境下的机身稳定性以及运动控制能力。
本发明的目的通过如下的技术方案来实现:
一种基于分层强化学习的四足机器人运动规划方法,该方法包括如下步骤:
步骤一:在仿真平台上搭建具备神经网络训练能力的四足机器人虚拟仿真环境,并构建分层控制网络,包括上层的控制神经网络和下层的模型预测控制器;
步骤二:初始化虚拟仿真环境;
步骤三:不断更新仿真环境,在每个仿真环境中,所述控制神经网络结合每个仿真环境,输出机器人的控制参数信息;所述模型预测控制器根据所述控制神经网络的输出,执行控制操作;并根据机器人的动作响应计算运动控制奖励函数;
步骤四:判断环境训练终止条件,收集当前环境下的训练数据集;
步骤五:使用所述训练数据集训练所述分层控制网络,获得优化的分层控制网络,并部署到真实四足机器人上进行复杂地形运动规划。
进一步地,所述控制神经网络为全连接网络,其包括两个隐含层,每层包含256个节点,其中激活函数选择relu函数。
进一步地,所述初始化虚拟仿真环境包括初始化四足机器人所在的仿真环境,以及初始化机器人的初始位置、姿态以及环境地形信息,设置四足机器人的初始滚转角、俯仰角以及偏航角为0。
进一步地,所述步骤三中的更新仿真环境具体为按照规则随机生成复杂楼梯地形环境。
进一步地,所述机器人的控制参数信息包括四足机器人足端期望位置、机身期望姿态以及速度。
进一步地,所述步骤三中,所述模型预测控制器执行控制操作具体为:求解包含机器人逆运动学模型的二次优化函数,计算腿部电机力矩、关节扭矩以及足端移动位置,并对仿真环境中的四足机器人进行对应的运动控制。
进一步地,所述根据机器人的动作响应计算运动控制奖励函数具体过程如下:在仿真环境中,四足机器人根据模型预测控制器进行对应的单次运动动作控制,实时计算每次动作的奖励函数,设计阈值判断机器人是否摔倒;重复执行四足机器人的运动控制指令,直到到达设定目的地或者达到当次环境下训练次数上限,退出当前环境仿真;
所述奖励函数r计算公式如下:
r=0.08rlin+0.02rang+0.03rbody
Figure BDA0002993069130000021
Figure BDA0002993069130000022
Figure BDA0002993069130000023
其中,rlin为机身移动速度奖励,鼓励机器人以合理的速度运动;rang是对机身偏航角速度的奖励值,其目的是避免四足机器人机身发生抖动;rbody表示机身平稳运行的奖励值;vy为横向运动速度,θr和θy分别表示滚转角、偏航角的角度。
进一步地,所述步骤五具体过程如下:
收集仿真环境中四足机器人的当前状态s、动作a、期望状态s′、奖励结果r以及终止判定条件d,记录为当前环境下的动作指令数据集D=(s,a,s′,r,d)i=1,...,N,其中N为数据集大小;并用当前环境下的动作指令数据集D训练分层控制网络,优化器使用Adam,学习率为0.001;重复执行上述操作,对分层控制网络进行训练,直到达到总的训练次数上限。
本发明的有益效果如下:
本发明的基于分层强化学习的四足机器人运动规划方法,采用的分层强化学习框架具体包括基于深度强化学习(Deep reinforcement learning,DRL)的上层行为决策控制器以及基于模型预测控制(Model predictive controller,MPC)的下层运动执行控制器。对于上层控制器中的深度强化学习网络,基于演员-评论(Soft actor-Critic,SAC)算法设计四足机器人的状态更新网络、动作执行网络以及奖励函数等,结合机器人周围的环境高度图信息输出对应的行为控制参数,主要包括期望位置、期望速度、机身姿态等。上层决策网络能够不断探索学习当前环境以及地形信息,来实时调整自身姿态以保证四足机器人的运动稳定性。对于下层执行控制器中的模型预测控制器,通过求解基于上层输入的控制参数二次规划方程组来获取对应的控制指令,包括电机执行力矩大小、转动位置以及速度等。该分层控制框架结合了深度强化学习与模型预测控制的优势,使四足机器人能够根据当前机身状态以及地形环境做出更安全可靠的行为模式,保持机身姿态平稳,从而有效规避风险,实现在复杂地形下的有效轨迹规划。本发明所提出的四足机器人分层学习控制框架具备良好的环境泛化效果以及控制稳定性。
附图说明
图1为本发明的运动规划方法的流程示意图;
图2为仿真环境下四足机器人面临复杂楼梯环境下的示意图;
图3为仿真环境中四足机器人质心与四个足端移动轨迹图;
图4为真实环境下四足机器人利用训练得到的网络进行爬楼梯任务的实验图;
图5是仿真中四足机器人机身姿态期望曲线随地形高度的变化关系图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的基于分层强化学习的四足机器人运动规划方法,具体包括如下步骤:
步骤一:在仿真平台上搭建具备神经网络训练能力的四足机器人虚拟仿真环境,并构建分层控制网络,包括上层的控制神经网络和下层的模型预测控制器。上层神经网络负责决策规划机器人运动过程中的姿态和位置,下层的模型预测控制器负责根据机身姿态信息计算保持四足机器人平衡所需的支撑力。
其中,上层的控制神经网络为基于演员-决策算法(Soft Actor-Critic,SAC)的深度强化学习神经网络,网络结构设置为全连接网络,设有两个隐含层,每层有256个节点,设置激活函数为Relu函数。
步骤二:初始化虚拟仿真环境;
本发明采用的仿真环境为基于Python开发的物理仿真引擎PyBullet,该仿真引擎通常应用于机器人、游戏、视觉效果以及机器学习的物理模拟,在物理仿真引擎PyBullet中可以提供正向动力学仿真、逆向动力学计算和逆向运动学、碰撞检测和射线相交查询等实际仿真功能。为了尽可能减小仿真与现实实验中的差异性,在仿真环境Pybullet中所采用的四足机器人模型为基于真实四足机器人的URDF文件导入开发而来。在PyBullet仿真环境中设置四足机器人的相应基本设置,包括初始位置、机身姿态以及机器人所处环境的地形特征等。四足机器人的初始位置为仿真环境的坐标原点,保持为直立姿态。此外,将四足机器人的初始机身姿态中包含的滚转角、俯仰角以及偏航角均设置为0。
步骤三、不断更新仿真环境,在每个仿真环境中,所述控制神经网络结合每个仿真环境,输出机器人的控制参数信息;所述模型预测控制器根据所述控制神经网络的输出,执行控制操作;并根据机器人的动作响应计算运动控制奖励函数;
在该实施例中,仿真环境按照规则随机生成包含楼梯的复杂地形环境,每次环境更新中楼梯宽度在180cm至220cm之间随机选择,每节台阶的高度在2cm、4cm以及6cm之间随机产生,在一个楼梯之间台阶可以是不相等的,楼梯的总长度固定为2m。该地形环境在每次网络训练完成后均会随机更新,以保证本发明的分层神经网络具备不同地形的适应能力。
在仿真训练中,实时获取以四足机器人为圆心,范围为120cm乘以90cm内的地形高度信息,结合四足机器人的机身姿态信息作为上层的控制神经网络的输入,经过深度强化学习网络计算生成四足机器人对应的期望控制指令,主要包括足端期望位置、机器人机身的期望姿态以及运行速度等信息。
下层模型预测控制器依据上层的控制神经网络输出的运动控制指令对仿真中的四足机器人进行运动控制。模型预测控制器以足端期望位置、机身期望姿态以及机器人期望运行速度作为输入,通过求解包含机器人逆运动学模型的二次优化函数获得关节电机对应的运行扭矩以及转速信息,并进行电机控制,完成四足机器人的运动控制操作。在仿真环境中,四足机器人将按照模型预测控制器输出的控制指令进行对应的运动行为,与地形环境进行交互,实时更新四足机器人在仿真环境中的位置信息以及姿态信息。另外,四足机器人根据模型预测控制器进行对应的单次运动动作控制时,实时计算每次动作的奖励函数,设计阈值判断机器人是否摔倒;当奖励结果过小,则认为四足机器人摔倒,此时跳出当前环境。如果判断机器人未摔倒,则在仿真环境中继续重复上述运动控制操作,同时计算对应奖励函数结果,直到机器人到达设定的目的地,跳出当前环境训练。
所述奖励函数r计算公式如下:
r=0.08rlin+0.02rang+0.03rbody
Figure BDA0002993069130000051
Figure BDA0002993069130000052
Figure BDA0002993069130000053
其中,rlin为机身移动速度奖励,鼓励机器人以合理的速度运动;rang是对机身偏航角速度的奖励值,其目的是避免四足机器人机身发生抖动;rbody表示机身平稳运行的奖励值;vy为横向运动速度,θr和θy分别表示滚转角、偏航角的角度。
步骤四:判断环境训练终止条件,收集当前环境下的训练数据集;
收集仿真环境中四足机器人的当前状态s、动作a、期望状态s′、奖励结果r以及终止判定条件d,记录为当前环境下的动作指令数据集D=(s,a,s′,r,d)i=1,...,N,其中N为数据集大小;并用当前环境下的动作指令数据集D训练分层控制网络,优化器使用Adam,学习率为0.001;总的训练次数上限107。网络训练完成后,更新环境并重复执行上述训练操作,直到达到训练次数上限,退出训练,输出最优的分层控制网络。
步骤五:使用所述训练数据集再次训练所述分层控制网络,获得优化的分层控制网络,并部署到真实四足机器人上进行复杂地形运动规划。
下面通过一个实施例来验证本发明的运动规划方法的有益效果。
图2给出了虚拟环境实例,在物理仿真引擎PyBullet中导入真实四足机器人的完整模型文件(URDF文件),同时将机器人初始化位于环境原点。四足机器人的上层的控制网络使用全连接的强化学习神经网络,下层采用模型预测控制器作为控制执行器。如图2中的仿真所示,系统环境会随机生成机器人前方地形,这里采用楼梯的形式作为复杂地形,同时将周围120cm*90cm的地图环境信息传输到机器人的控制网络中。
图3为测试训练后的分层控制网络的实际效果,建立一个简单的楼梯结构测试机器人移动的效果,在该环境中,四足机器人可以在迈过不同的台阶同时通过实时调整机身姿态来保持机身稳定,并且依靠腿部的摩擦力向前运动,图中为具体移动轨迹实例,曲线分别为机器人质心与四条腿的足端移动轨迹图,其中location_FL和location_FR分别表示左前足端以及右前足端的位置信息,location_RL以及location_RR分别代表左后足端和右后足端的位置信息,body_location表示四足机器人机身重心的运行轨迹。可以看到四足机器人能够通过高低起伏的楼梯环境。
图4所示是将训练完成后的分层控制网络应用到现实中四足机器人的运行效果图,实际环境中测试了楼梯环境,建立了三层楼梯的复杂地形环境,高度分别为4cm、6cm、2cm,宽度为40厘米。机器人可以在这种高度不同的楼梯环境中通过上层控制神经网络与下层模型预测控制器分析周围高度信息与当前机身姿态完成有效的运动规划控制,通过不同高度的楼梯环境实验,验证了分层结构在现实中的泛化性和有效性。
图5为机身姿态自适应效果图,为了进一步验证上层强化学习网络具备根据不同地势地形实时调整机器人机身姿态的能力,我们可视化了神经网络输出的机身俯仰角度信息,同时建立了先上后下的楼梯仿真环境,terrain height表示地形高度变化曲线,command pitch代表四足机器人的期望俯仰角。对于四足机器人而言,为了保证运动控制的稳定性,在上楼梯的时候期望升高对应的俯仰角来保持平衡,同理在下楼梯时需要通过降低机身的俯仰角来保证下坡的平稳性。观察图5所示的可视化俯仰角可以发现,本发明设计的分层强化学习网络能够根据楼梯的高低变化来实时调整机身期望俯仰角,以应对不同的复杂地形环境,提高了四足机器人在复杂地形环境下的运行稳定性。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (8)

1.一种基于分层强化学习的四足机器人运动规划方法,其特征在于,该方法包括如下步骤:
步骤一:在仿真平台上搭建具备神经网络训练能力的四足机器人虚拟仿真环境,并构建分层控制网络,包括上层的控制神经网络和下层的模型预测控制器;
步骤二:初始化虚拟仿真环境;
步骤三:不断更新仿真环境,在每个仿真环境中,所述控制神经网络结合每个仿真环境,输出机器人的控制参数信息;所述模型预测控制器根据所述控制神经网络的输出,执行控制操作;并根据机器人的动作响应计算运动控制奖励函数;
步骤四:判断环境训练终止条件,收集当前环境下的训练数据集;
步骤五:使用所述训练数据集训练所述分层控制网络,获得优化的分层控制网络,并部署到真实四足机器人上进行复杂地形运动规划。
2.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述控制神经网络为全连接网络,其包括两个隐含层,每层包含256个节点,其中激活函数选择relu函数。
3.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述初始化虚拟仿真环境包括初始化四足机器人所在的仿真环境,以及初始化机器人的初始位置、姿态和环境地形信息,设置四足机器人的初始滚转角、俯仰角以及偏航角为0。
4.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述步骤三中的更新仿真环境具体为按照规则随机生成复杂楼梯地形环境。
5.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述机器人的控制参数信息包括四足机器人足端期望位置、机身期望姿态以及速度。
6.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述步骤三中,所述模型预测控制器执行控制操作具体为:求解包含机器人逆运动学模型的二次优化函数,计算腿部电机力矩、关节扭矩以及足端移动位置,并对仿真环境中的四足机器人进行对应的运动控制。
7.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述根据机器人的动作响应计算运动控制奖励函数具体过程如下:在仿真环境中,四足机器人根据模型预测控制器进行对应的单次运动动作控制,实时计算每次动作的奖励函数,设计阈值判断机器人是否摔倒;重复执行四足机器人的运动控制指令,直到到达设定目的地或者达到当次环境下训练次数上限,退出当前环境仿真;
所述奖励函数r计算公式如下:
r=0.08rlin+0.02rang+0.03rbody
Figure FDA0002993069120000021
Figure FDA0002993069120000022
Figure FDA0002993069120000023
其中,rlin为机身移动速度奖励,鼓励机器人以合理的速度运动;rang是对机身偏航角速度的奖励值,其目的是避免四足机器人机身发生抖动;rbody表示机身平稳运行的奖励值;vy为横向运动速度,θr和θy分别表示滚转角、偏航角的角度。
8.根据权利要求1所述的基于分层强化学习的四足机器人运动规划方法,其特征在于,所述步骤五具体过程如下:
收集仿真环境中四足机器人的当前状态s、动作a、期望状态s′、奖励结果r以及终止判定条件d,记录为当前环境下的动作指令数据集D=(s,a,s′,r,d)i=1,...,N,其中N为数据集大小;用当前环境下的动作指令数据集D训练分层控制网络,优化器使用Adam,学习率为0.001;重复执行上述操作,对分层控制网络进行训练,直到达到总的训练次数上限。
CN202110321563.0A 2021-03-25 2021-03-25 一种基于分层强化学习的四足机器人运动规划方法 Active CN112936290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321563.0A CN112936290B (zh) 2021-03-25 2021-03-25 一种基于分层强化学习的四足机器人运动规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321563.0A CN112936290B (zh) 2021-03-25 2021-03-25 一种基于分层强化学习的四足机器人运动规划方法

Publications (2)

Publication Number Publication Date
CN112936290A true CN112936290A (zh) 2021-06-11
CN112936290B CN112936290B (zh) 2022-06-10

Family

ID=76226707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321563.0A Active CN112936290B (zh) 2021-03-25 2021-03-25 一种基于分层强化学习的四足机器人运动规划方法

Country Status (1)

Country Link
CN (1) CN112936290B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515135A (zh) * 2021-06-30 2021-10-19 北京百度网讯科技有限公司 多足机器人的控制方法、装置、电子设备及存储介质
CN113568422A (zh) * 2021-07-02 2021-10-29 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113696179A (zh) * 2021-08-27 2021-11-26 上海大学 基于深度学习的轮式平台复杂地形自适应优化方法及系统
CN113771983A (zh) * 2021-08-30 2021-12-10 北京工业大学 一种基于智能演进运动技能学习的仿生四足机器人
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统
CN113848711A (zh) * 2021-09-18 2021-12-28 内蒙古工业大学 一种基于安全模型强化学习的数据中心制冷控制算法
CN114047697A (zh) * 2021-11-05 2022-02-15 河南科技大学 一种基于深度强化学习的四足机器人平衡倒立摆控制方法
CN114326438A (zh) * 2021-12-30 2022-04-12 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114326722A (zh) * 2021-12-21 2022-04-12 华南理工大学 六足机器人自适应步态规划方法、系统、装置及介质
CN114563954A (zh) * 2022-02-28 2022-05-31 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN114571463A (zh) * 2022-03-28 2022-06-03 达闼机器人股份有限公司 动作检测方法、装置、可读存储介质及电子设备
CN114895560A (zh) * 2022-04-25 2022-08-12 浙江大学 一种电动机堵转条件下足式机器人物体追踪自适应控制方法
CN116690588A (zh) * 2023-08-07 2023-09-05 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105857309A (zh) * 2016-05-25 2016-08-17 吉林大学 一种考虑多目标的车辆自适应巡航控制方法
CN106055844A (zh) * 2016-07-06 2016-10-26 中南大学 基于bp神经网络的镍基高温合金微观组织预测控制方法
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN112346338A (zh) * 2020-10-10 2021-02-09 北京工业大学 一种基于模糊神经网络的污水处理过程分层模型预测控制方法
CN112540620A (zh) * 2020-12-03 2021-03-23 西湖大学 足式机器人的强化学习方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105857309A (zh) * 2016-05-25 2016-08-17 吉林大学 一种考虑多目标的车辆自适应巡航控制方法
CN106055844A (zh) * 2016-07-06 2016-10-26 中南大学 基于bp神经网络的镍基高温合金微观组织预测控制方法
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN112346338A (zh) * 2020-10-10 2021-02-09 北京工业大学 一种基于模糊神经网络的污水处理过程分层模型预测控制方法
CN112540620A (zh) * 2020-12-03 2021-03-23 西湖大学 足式机器人的强化学习方法、装置和电子设备

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515135A (zh) * 2021-06-30 2021-10-19 北京百度网讯科技有限公司 多足机器人的控制方法、装置、电子设备及存储介质
CN113515135B (zh) * 2021-06-30 2024-02-20 北京百度网讯科技有限公司 多足机器人的控制方法、装置、电子设备及存储介质
CN113568422A (zh) * 2021-07-02 2021-10-29 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113568422B (zh) * 2021-07-02 2024-01-23 厦门大学 基于模型预测控制优化强化学习的四足机器人控制方法
CN113821045A (zh) * 2021-08-12 2021-12-21 浙江大学 一种腿足机器人强化学习动作生成系统
CN113696179A (zh) * 2021-08-27 2021-11-26 上海大学 基于深度学习的轮式平台复杂地形自适应优化方法及系统
CN113696179B (zh) * 2021-08-27 2024-01-19 上海大学 基于深度学习的轮式平台复杂地形自适应优化方法及系统
CN113771983A (zh) * 2021-08-30 2021-12-10 北京工业大学 一种基于智能演进运动技能学习的仿生四足机器人
CN113848711B (zh) * 2021-09-18 2023-07-14 内蒙古工业大学 一种基于安全模型强化学习的数据中心制冷控制算法
CN113848711A (zh) * 2021-09-18 2021-12-28 内蒙古工业大学 一种基于安全模型强化学习的数据中心制冷控制算法
CN114047697B (zh) * 2021-11-05 2023-08-25 河南科技大学 一种基于深度强化学习的四足机器人平衡倒立摆控制方法
CN114047697A (zh) * 2021-11-05 2022-02-15 河南科技大学 一种基于深度强化学习的四足机器人平衡倒立摆控制方法
CN114326722A (zh) * 2021-12-21 2022-04-12 华南理工大学 六足机器人自适应步态规划方法、系统、装置及介质
CN114326438A (zh) * 2021-12-30 2022-04-12 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114326438B (zh) * 2021-12-30 2023-12-19 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114563954A (zh) * 2022-02-28 2022-05-31 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN114571463A (zh) * 2022-03-28 2022-06-03 达闼机器人股份有限公司 动作检测方法、装置、可读存储介质及电子设备
CN114571463B (zh) * 2022-03-28 2023-10-20 达闼机器人股份有限公司 动作检测方法、装置、可读存储介质及电子设备
CN114895560A (zh) * 2022-04-25 2022-08-12 浙江大学 一种电动机堵转条件下足式机器人物体追踪自适应控制方法
CN114895560B (zh) * 2022-04-25 2024-03-19 浙江大学 一种电动机堵转条件下足式机器人物体追踪自适应控制方法
CN116690588B (zh) * 2023-08-07 2023-10-10 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN116690588A (zh) * 2023-08-07 2023-09-05 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112936290B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN112936290B (zh) 一种基于分层强化学习的四足机器人运动规划方法
Cai et al. High-speed autonomous drifting with deep reinforcement learning
CN112677995B (zh) 一种车辆轨迹规划方法、装置、存储介质及设备
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN113821045B (zh) 一种腿足机器人强化学习动作生成系统
CN106886155A (zh) 一种基于pso‑pd神经网络的四足机器人运动轨迹控制方法
CN113031528B (zh) 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法
CN111625019A (zh) 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法
CN113478486B (zh) 基于深度强化学习的机器人运动参数自适应控制方法和系统
CN112078318A (zh) 一种基于深度强化学习算法的汽车主动悬架智能控制方法
CN106094817B (zh) 基于大数据方式的强化学习仿人机器人步态规划方法
De Nardi et al. Evolution of neural networks for helicopter control: Why modularity matters
Hu et al. Learning a faster locomotion gait for a quadruped robot with model-free deep reinforcement learning
CN113190029B (zh) 基于深度强化学习的四足机器人适应性步态自主生成方法
Trasnea et al. GridSim: a vehicle kinematics engine for deep neuroevolutionary control in autonomous driving
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
Zamani et al. Nonlinear model predictive control of hopping model using approximate step-to-step models for navigation on complex terrain
Shim et al. Evolving flying creatures with path following behaviors
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Bernard et al. Evaluation of vehicle/driver performance using genetic algorithms
Kim et al. Quadruped Locomotion on Non-Rigid Terrain using Reinforcement Learning
Hsieh et al. Learning to navigate from synthetic data for friction-adaptive autonomous driving
Belter Gait modification strategy for a six-legged robot walking on rough terrain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant