CN112666939A - 一种基于深度强化学习的机器人路径规划算法 - Google Patents
一种基于深度强化学习的机器人路径规划算法 Download PDFInfo
- Publication number
- CN112666939A CN112666939A CN202011429479.2A CN202011429479A CN112666939A CN 112666939 A CN112666939 A CN 112666939A CN 202011429479 A CN202011429479 A CN 202011429479A CN 112666939 A CN112666939 A CN 112666939A
- Authority
- CN
- China
- Prior art keywords
- robot
- reinforcement learning
- deep reinforcement
- path planning
- planning algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于深度强化学习的机器人路径规划算法,基于深度强化学习,并结合机器人物理模型约束及人工势场理论,旨在提出一种能在线实时运行的智能化路径规划算法,为自平衡外骨骼机器人、人形机器人等双足机器人在有障碍物的动态环境中规划出一条能避障,且满足机器人步行约束要求的自然、类人化的落脚点路径。
Description
技术领域
本发明属于机器人技术领域,涉及一种基于深度强化学习的机器人路径规划算法。
背景技术
对两足动物运动的研究已经转向现实生活中的应用,比如在不平坦的地形上行走,通过门,爬楼梯和梯子、躲避障碍物等。两足机器人在运动方面的重大进展,使它们能够在危险的环境中移动,同时完成复杂的操作任务。然而,考虑到在未知的环境中行走,仿人机器人的效率仍远不能与人类相比,两足动物对外界的变化非常敏感,在相对复杂的环境中双足机器人步行受到了严重的限制。目前现有的路径规划算法如A*、Dijkstras、RRT等只能规划出点到点的路线,难以考虑到双足机器人几何学上的限制,通过额外的约束条件生成的落脚位置难以完全适用双足机器人,对其运动产生一定的限制。
现有专利对双足机器人的路径规划提出的研究方法数量较少,我国已申请或已授权的专利中,发明专利CN111830986A提出一种双足机器人的三维路径规划方法,考虑了双足机器人可跨越物体或可上台阶的最大高度、可跨越物体的最大宽度、双足机器人足部长度以及三维环境中物体的位置和尺寸,设计节点的代价,并进行代价评估,在存在多种类型物体的复杂环境中提前计算一条代价最小的三维路径;该方法规划得到的路径,能够引导机器人在相应的环境中执行跨越、绕行、上台阶的运动。
发明专利CN111290389A提出了一种双足机器人落脚位置控制系统及方法,首先利用路径规划算法规划可行物碰撞的路径,然后根据双足机器人步长约束、运动能力、脚的尺寸与中心偏移等计算出摆动脚的可落脚区域,再使用模糊处理的方法得到机器人的具体落脚位置。该方法能够实现双足机器人路径规划结束后执行具体行走动作时,选择路径两侧合适的落脚位置。
上述两个专利虽然都涉及双足机器人进行路径规划及落脚位置规划,但是还存在如下问题:首先在路径规划方面,这些专利使用的技术方法适用于静态环境,对动态环境适应能力差,并且产生的路线可能与人类直觉上产生偏差,如贴着障碍物行走,而不是以一条自然的弧度绕开各个障碍物行走;其次在落脚位置规划方面,上述两项专利在中心点轨迹路径规划完成后再进行落脚位置计算,可选择位置少,且步态空间不连续,机器人灵活性和平稳性不强。
发明内容
本发明的目的是提供一种基于深度强化学习的机器人路径规划算法,采用该算法能够为自平衡外骨骼机器人、人形机器人等双足机器人在有障碍物的动态环境中规划出一条能避障,且满足机器人步行约束要求的自然、类人化的落脚点路径。
本发明所采用的技术方案是,一种基于深度强化学习的机器人路径规划算法,具体包括如下步骤:
步骤1,利用传感器从包含有机器人动静态障碍物的环境中获取点云图 M;
步骤2,通过人机交互接口获取机器人的目的地信息,通过对步骤1获取点云图处理,获得机器人当前位置Pczp、障碍物位置Pob及尺寸DMob及目标位置Ptar作为输入信息STt;
步骤3,基于步骤2所得的输入信息建立用于机器人路径规划的深度强化学习框架;
步骤4,基于步骤3所建立的学习框架,通过仿真环境里的随机地图对策略网络进行训练,在训练过程中通过结合每一轮的状态信息STt、动作输出信息ACTt、奖励函数值rt信息,利用DDPG算法对策略网络进行更新,直到获得最大化的累积奖励值来完成训练;
步骤5,利用训练好的策略网络,结合机器人环境和目标点的信息,在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列,实现机器人的智能路径规划。
本发明的特点还在于:
步骤1中包含有机器人动静态障碍物的环境为在路面行走的外骨骼机器人以及该外骨骼机器人周围被探测到的地图,该地图的探测范围大小被限制在长度为LBx米,宽为LBy米。
步骤2中机器人的目标位置采用如下公式(1)进行确定:
其中,Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
步骤2中点云图的处理过程如下
步骤A,设定高度阈值,将点云图上的物体分割出来,即进行二值化处理;
步骤B,对图形进行开操作,使物体的轮廓变得光滑;
步骤C,将图像上相邻的像素点连接形成区域,即进行连通区域提取;
步骤D,对步骤C形成的不同区域进行重心提取,再画出边框,即进行轮廓提取,得到对应信息。
步骤2中点云图M经处理后表达式如下公式(2)所示:
步骤4中深度强化学习训练过程是通过智能体与环境的不断交互进行的,在每次交互过程中,智能体从环境中获取状态Stt,然后根据强化学习算法更新的策略网络决定采取行动;智能体对环境进行操作后环境发生变化,导致智能体产生新的状态Stt+1,智能体会获得一个回报奖励rt;智能体的目的是在轨迹τ=(s0,a0,s1,a1,…,sT)上学习行为,从而使累积回报Rc最大化,其中轨迹根据停止条件进行截止;停止条件包括:到达目的地条件、超出环境边界条件、触碰障碍物条件;
深度强化学习训练过程为一个具有5元组的马尔科夫决策过程MDPs,如下公式(3)所示:
MDP=<S,A,R,P,ρ0> (3);
其中,S代表所有有效的状态,A为有效的动作,R为奖励函数,P为概率转移函数,ρ0为初始状态分布。
步骤4中,深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置Pczp的增量,该增量通过与当前位置相加获得下一个落脚点位置该输出落脚点位置会被存入一个单输入多输出的缓存器中,当触发了到达目的地的停止条件后,所有的规划落脚点位置会被打包为一个落脚点序列Pnzp输出。
步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将动作空间定义为下一个支撑脚位置Pnzp_1相对于当前位置Pczp的增量ΔP,ΔP 采用如下公式(4)表示:
Act=ΔP=[ΔPx,ΔPy,Δθzp]T (4);
其中,ΔPx,ΔPy,Δθzp为连续空间中的x方向位置增量,y方向位置增量及偏转角度增量。
步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将基于空间几何的运动约束应用于动作空间;当动作空间使用直角坐标系表示时,由式(5)可知ΔPx和ΔPy受耦合关系约束:
为了消除耦合关系,在(0,-LG)处建立极坐标系,假定Δθzp=0,新的坐标系下,动作空间采用如下公式(6)表示:
步骤5中,利用如下公式(7)计算策略网络的输出,然后将ΔP与当前位置Pczp相加,生成下一个脚位置Pnzp,存储在单输入多输出缓冲区中:
所述步骤5中路径规划算法的奖励rHLP如式(8)所示:
rHLP=wattratt+wreprrep+wstoprstop (8);
其中,ratt为引力势场奖励,rrep为斥力势场奖励,rstop为终端奖励;其中加权因子watt,wrep,wstop∈[0,1]。
本发明的有益效果如下:与现有机器人路径规划技术相比,本发明提出的算法能面向复杂动态的使用环境,能实现在线实时的路径轨迹输出,且所输出的路径轨迹并非传统的单点连续轨迹曲线,而是能直接满足外骨骼机器人、人形机器人等双足机器人需求的离散落脚点序列,该落脚点轨迹既能满足机器人步行约束条件,又能满足类人思维的自然平滑要求。
附图说明
图1是本发明一种基于深度强化学习的机器人路径规划算法的整体框体;
图2是本发明一种基于深度强化学习的机器人路径规划算法中点云图处理的流程图;
图3是本发明一种基于深度强化学习的机器人路径规划算法中环境信息状态空间描述图;
图4是本发明一种基于深度强化学习的机器人路径规划算法中基于机器人运动学几何约束的动作空间图;
图5是本发明一种基于深度强化学习的机器人路径规划算法中动作空间的二维平面图;
图6是本发明一种基于深度强化学习的机器人路径规划算法中基于DDPG 算法的策略网络结构图;
图7(a)~(d)是本发明一种基于深度强化学习的机器人路径规划算法的路径规划实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度强化学习的机器人路径规划算法,如图1所示,具体包括如下步骤:
步骤1,利用传感器从包含有机器人动静态障碍物的环境中获取环境点云图M,并通过人机交互接口获取机器人的目的地信息,通过对点云图处理,进而获得机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,这些信息作为路径规划器的状态空间输入STt;
步骤1中机器人所处的环境为在路面行走的外骨骼机器人(及其他双足机器人)和它周围被探测到的地图,其探测到的地图范围大小被限制在长LBx米,宽LBy米。地图中存在静态障碍物和移动障碍物,虚拟边界也属于地图信息。
整个算法的输入是机器人的目标位置Ptar和经过预处理后的点云图 M,如公式(1)和公式(2)所示:
其中Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
算法的输出是如公式(3)所示的离散落脚点序列Pnzp,以及手动给定的步态周期Tgait。
点云图处理:点云图中包含了机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,需要对其处理。处理流程如图 2。选取适当的高度阈值,将图像上的物体分割出来(二值化);对图像进行开操作,使物体的轮廓变得光滑(开操作);图像上相邻的像素点连接形成区域(连通区域提取);对形成的不同区域进行重心提取,在画出边框(轮廓提取),得到对应的信息。
步骤2,建立用于机器人路径规划的深度强化学习框架,即马尔可夫决策过程,这其中包含状态空间建立、动作空间建立、奖励函数建立、停止条件建立、策略网络的建立以及网络更新算法的建立;
步骤2中深度强化学习框架中的状态空间包括机器人位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等组成的输入信息STt;
步骤2中深度强化学习框架中的动作空间引入机器人几何模型约束,使得规划器算法输出能满足机器人步行约束条件的落脚点,且能缩小动作搜索空间加速学习网络的收敛速度;
步骤2中深度强化学习框架中的奖励函数引入人工势场理论,使得规划器算法输出的轨迹更加自然且符合人类思维习惯;
步骤2中深度强化学习框架中的停止条件包括:到达目的地条件、超出环境边界条件、触碰障碍物条件;
步骤2中深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置Pczp的增量,该增量通过与当前位置相加获得下一个落脚点位置该输出落脚点位置会被存入一个单输入多输出(SIMO)的缓存器中,当触发了到达目的地的停止条件后,所有的规划落脚点位置会被打包为一个落脚点序列Pnzp输出;
步骤3,建立好深度强化学习框架后,通过仿真环境里的随机地图对策略网络进行训练,在训练过程中通过结合每一轮的状态信息STt,动作输出信息ACTt,奖励函数值rt等信息,利用DDPG算法对策略网络进行更新,直到获得最大化的累积奖励值来完成训练;
深度强化学习训练过程是通过智能体与环境的不断交互进行的,在每次交互过程中,智能体从环境中获取状态Stt,然后根据强化学习算法更新的策略网络决定采取行动。智能体对环境进行操作后环境发生变化,导致智能体产生新的状态Stt+1,然智能体会从获得一个回报奖励rt。智能体的目的是在轨迹τ=(s0,a0,s1,a1,…,sT)上学习行为以最大化其累积回报Rc。其中轨迹不是无限的,它可以根据停止条件进行截止。将上述的过程建模成一个具有5元组的马尔科夫决策过程(MDPs),如式(4)所示。
MDP=<S,A,R,P,ρ0> (4);
其中,S代表所有有效的状态(状态空间),A为有效的动作(动作空间),R为奖励函数,P为概率转移函数,ρ0为初始状态分布。
状态深度强化学习的状态空间(参见图3)包括支撑脚的当前位置目标位置Ptar、边界信息Bd=[Bxmax,Bxmin,Bymax,Bymin]T,Bxmax,Bxmin分别表示在X轴上边界的最大值和最小值,Bymax,Bymin分别表示在Y轴上边界的最大值和最小值。障碍物位置及其维度(j=1~m, m是障碍物数量,分别为障碍物的X和Y坐标值,分别为障碍物在X和Y坐标轴方向上的长度信息。最后智能体的观察状态为(10+4m) 维向量St,如式(5)所示。
动作空间定义:在常用的基于强化学习的轨迹规划算法中,其动作空间通常定义为被控对象某个点(如无人车的中心点)的轨迹,但这种点的轨迹不能直接满足双足机器人的使用要求,因为双足机器人在行走过程所需要的是左右两个脚的落脚点位置,它所体现出来的是一个区分左右的离散落脚点序列,而不是某个点的连续轨迹曲线。在本发明中,动作空间定义为下一个支撑脚位置Pnzp_1相对于当前位置Pczp的增量ΔP,如式(6)所示:
Act=ΔP=[ΔPx,ΔPy,Δθzp]T (6);
其中ΔPx,ΔPy,Δθzp为连续空间中的x方向位置增量,y方向位置增量及偏转角度增量。
几何约束:为了提高在实际机器人上部署强化学习策略的安全性,并且为了缩小动作空间搜索范围而加快训练收敛速度。本发明将基于空间几何的运动约束应用于动作空间。如图4所示,步行时将腰部高度设为Hw,包括摇摆脚可到达区域RAf,腰部中心可达区域RAw,其在XfYf平面上的投影为RAwxy,它是RAf的子区域(RAf表示摇摆脚可达区域)。RAg是安全间隙,以避免双足之间的干扰。为了增强步行稳定性边界,实现静态稳定步态,可以选择RAwxy代替RAf作为动作空间区域,但RAwxy(RAwxy表示腰部中心可达区域投影)是不规则形状,因此选择其子区域(绿色区域)作为动作空间区域RAact。RAact为圆心位于(0,-LG)处的半圆区域,半径为Rp,计算如公式 (7)。RAact可表示为支撑脚坐标,如式(8)所示:
其中,LT,LS,Lw分别是机器人的大腿、小腿、腰部的长度,LG是安全间隙的宽度;
其中,ΔPx和ΔPy分别表示摆动脚相对支撑脚要运动到的位置的增量,Rp为动作空间的半径,LG为安全间隙的宽度。
当动作空间使用直角坐标系表示时,由式(8)可知ΔPx和ΔPy受耦合关系约束,如果直接将此作为动作空间,将不便策略网络输出。为了消除耦合关系,在(0,-LG)处建立极坐标系,如图5所示。除此之外,为了简化问题,假定Δθzp=0,在实际应用中也可以不为0。因此,在新的坐标下,动作空间采用如下公式(9)表示:
动作不能直接输出,需要在支撑脚坐标系中转换为ΔPx和ΔPy。除此之外,我们应该注意下一个规划的位置是左脚还是右脚,因为左脚必须在右脚的左边,这是一种隐藏的约束,以避免冲突。利用式(10)计算策略网络的输出,然后将ΔP与当前位置Pczp相加,生成下一个脚位置Pnzp,存储在单输入多输出(SIMO)缓冲区中,如图1所示。
ΔPx、ΔPy分别表示ΔP点的横坐标和纵坐标。
步骤4,利用训练好的策略网络,结合机器人环境和目标点的信息,可以在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列,实现机器人的智能路径规划。
奖励函数:人类行走时,最想要的不仅是到达目的地的最短路径,而且是远离障碍的自然光滑路径。本文提出了一种基于人工势场(APF)理论的奖励函数,以增强策略网络生成类人思维路径的能力。路径规划算法的奖励rHLP如式(11)所示,由引力势场奖励(APR)ratt、斥力势场奖励(RPR)rrep和终端奖励(TR)rstop三项的加权和组成。
rHLP=wattratt+wreprrep+wstoprstop (11)
其中加权因子watt,wrep,wstop∈[0,1]。
引力势场奖励用来鼓励智能体向目的地探索以产生到达目的地的路径,如式(12)所示。ratt会随着规划的脚步位置Pnzp与目标位置Ptar距离Δdtar的减小而增大。
停止条件奖励函数由几个大的正值(Cgoal,Cbou,Cobs)组成,用于鼓励或阻止满足不同停止条件的行为,如式(14)所示。
基于DDPG的策略网络更新算法与策略网络结构:如上所述,MDP的状态空间和动作空间都是连续的。DDPG算法适合这种环境,DDPG是一种在线的非策略强化学习方法,包含一个评价网络和一个动作网络。本发明设计评价网路和动作网络如图6所示。动作网络包含三个隐藏层,分别包含512、512、3个节点,两层之间使用Relu激活函数,输出需要经过tanh函数和lambada层进行变换到指定的范围。评价网络包含两部分输入,分别为状态输入和动作输入,状态输入经过两个含有512个节点的隐藏层,动作经过一个512个节点的隐藏层,两者结果相加再经过Relu函数得到输出。
实施例
本发明在1~4个障碍物环境下得到的实验结果如图7所示(图7(a)为1 个障碍物,图7(b)为两个障碍物,图7(c)为三个障碍物,图7(d)为4 个障碍物),所生成的落脚点路径最终都到达目标区域,并且落脚位置交替出现,落脚点步幅会根据与目标点位置距离来调整,路劲轨迹可以以较为自然平滑的弧度避开障碍物,这与人类行走方式相同。该算法可以在一台普通的个人电脑上运行,并且对于动态障碍物或者静态障碍物环境,都能在0.015秒的时间内完成路径的规划输出,这完全能满足机器人在线实时使用的要求。
本发明中获取环境地图点云图所使用的深度图像拍摄设备可由单目相机、双目相机、激光雷达、3D激光雷达等设备替代。
本发明中使用的深度强化学习的策略更新方法DDPG可由其他深度强化学习方法替代,如近端策略优化(PPO),异步优势演员批评(A3C)等方法。
(1)本发明提出一种基于深度强化学习的双足机器人路径规划算法。该算法结合了深度强化学习与机器人物理运动学约束条件及人工势场理论,使得该算法能面向复杂动态的使用环境,能实现在线实时的路径轨迹输出,且所输出的路径轨迹并非传统的单点连续轨迹曲线,而是能直接满足外骨骼机器人、人形机器人等双足机器人需求的离散落脚点序列,该落脚点轨迹既能满足机器人步行约束条件,又能满足类人思维的自然平滑要求;
(2)本发明所提出的路径规划算法的输入为通过人机交互获得的目的地位置及通过传感器获得的环境点云地图,且环境点云地图不是直接输入到算法网络中,而是通过一个点云图预处理模块进行处理得到机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,这可以加快算法网络的训练收敛速度;
(3)本发明所提出的路径规划算法的输入为通过人机交互获得的目的地位置及通过传感器获得的环境点云地图,且环境点云地图不是直接输入到算法网络中,而是通过一个点云图预处理模块进行处理得到机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,这可以加快算法网络的训练收敛速度;
(4)本发明在定义路径规划深度强化学习算法框架的动作空间时,为了提高在实际机器人上部署强化学习策略的安全性,将基于机器人运动学空间几何的运动约束应用于动作空间。设计时考虑到双足机器人的大腿、小腿及腰部长度,为了避免双足之间的干涉,添加了安全距离。这使得算法的输出落脚点能满足机器人步行稳定安全要求;
(5)本发明在定义路径规划深度强化学习算法框架的奖励函数时,提出了基于人工势场理论的奖励函数,增强了智能体生成类人思维路径的能力。奖励函数分为三部分:引力势场奖励函数用来鼓励智能体向目的地探索以产生路径;带有作用距离的排斥势场奖励函数的目的是使生成的路径以适当的距离远离障碍物;终端奖励函数用于鼓励满足达到目的地的动作,而惩罚超出边界或触碰障碍物的动作,进而加快网络的训练收敛速度。
Claims (10)
1.一种基于深度强化学习的机器人路径规划算法,其特征在于:具体包括如下步骤:
步骤1,利用传感器从包含有机器人动静态障碍物的环境中获取点云图M;
步骤2,通过人机交互接口获取机器人的目的地信息,通过对步骤1获取点云图处理,获得机器人当前位置Pczp、障碍物位置Pob及尺寸DMob及目标位置Ptar作为输入信息STt;
步骤3,基于步骤2所得的输入信息建立用于机器人路径规划的深度强化学习框架;
步骤4,基于步骤3所建立的学习框架,通过仿真环境里的随机地图对策略网络进行训练,在训练过程中通过结合每一轮的状态信息STt、动作输出信息ACTt、奖励函数值rt信息,利用DDPG算法对策略网络进行更新,直到获得最大化的累积奖励值来完成训练;
步骤5,利用训练好的策略网络,结合机器人环境和目标点的信息,在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列,实现机器人的智能路径规划。
2.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤1中包含有机器人动静态障碍物的环境为在路面行走的外骨骼机器人以及该外骨骼机器人周围被探测到的地图,该地图的探测范围大小被限制在长度为LBx米,宽为LBy米。
4.根据权利要求3所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤2中点云图的处理过程如下
步骤A,设定高度阈值,将点云图上的物体分割出来,即进行二值化处理;
步骤B,对图形进行开操作,使物体的轮廓变得光滑;
步骤C,将图像上相邻的像素点连接形成区域,即进行连通区域提取;
步骤D,对步骤C形成的不同区域进行重心提取,再画出边框,即进行轮廓提取,得到对应信息。
6.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤4中深度强化学习训练过程是通过智能体与环境的不断交互进行的,在每次交互过程中,智能体从环境中获取状态Stt,然后根据强化学习算法更新的策略网络决定采取行动;智能体对环境进行操作后环境发生变化,导致智能体产生新的状态Stt+1,智能体会获得一个回报奖励rt;智能体的目的是在轨迹τ=(s0,a0,s1,a1,…,sT)上学习行为,从而使累积回报Rc最大化,其中轨迹根据停止条件进行截止;停止条件包括:到达目的地条件、超出环境边界条件、触碰障碍物条件;
所述深度强化学习训练过程为一个具有5元组的马尔科夫决策过程MDPs,如下公式(3)所示:
MDP=<S,A,R,P,ρ0> (3);
其中,S代表所有有效的状态,A为有效的动作,R为奖励函数,P为概率转移函数,ρ0为初始状态分布。
8.根据权利要求7所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将动作空间定义为下一个支撑脚位置Pnzp_1相对于当前位置Pczp的增量ΔP,ΔP采用如下公式(4)表示:
Act=ΔP=[ΔPx,ΔPy,Δθzp]T (4);
其中,ΔPx,ΔPy,Δθzp为连续空间中的x方向位置增量,y方向位置增量及偏转角度增量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011429479.2A CN112666939B (zh) | 2020-12-09 | 2020-12-09 | 一种基于深度强化学习的机器人路径规划算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011429479.2A CN112666939B (zh) | 2020-12-09 | 2020-12-09 | 一种基于深度强化学习的机器人路径规划算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112666939A true CN112666939A (zh) | 2021-04-16 |
CN112666939B CN112666939B (zh) | 2021-09-10 |
Family
ID=75401617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011429479.2A Active CN112666939B (zh) | 2020-12-09 | 2020-12-09 | 一种基于深度强化学习的机器人路径规划算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112666939B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
CN113156972A (zh) * | 2021-05-11 | 2021-07-23 | 郑州大学 | 航母甲板动态避障方法、终端设备及计算机可读存储介质 |
CN113342031A (zh) * | 2021-05-18 | 2021-09-03 | 江苏大学 | 一种导弹航迹在线智能规划方法 |
CN113359704A (zh) * | 2021-05-13 | 2021-09-07 | 浙江工业大学 | 一种适用于复杂未知环境的自适应sac-pid方法 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
CN113534819A (zh) * | 2021-08-26 | 2021-10-22 | 鲁东大学 | 用于领航跟随型多智能体编队路径规划的方法和存储介质 |
CN113625733A (zh) * | 2021-08-04 | 2021-11-09 | 北京工业大学 | 一种基于ddpg多目标三维无人机路径规划方法 |
CN113967909A (zh) * | 2021-09-13 | 2022-01-25 | 中国人民解放军军事科学院国防科技创新研究院 | 基于方向奖励的机械臂智能控制方法 |
CN114442630A (zh) * | 2022-01-25 | 2022-05-06 | 浙江大学 | 一种基于强化学习和模型预测的智能车规划控制方法 |
CN114563954A (zh) * | 2022-02-28 | 2022-05-31 | 山东大学 | 一种基于强化学习和位置增量的四足机器人运动控制方法 |
CN114578834A (zh) * | 2022-05-09 | 2022-06-03 | 北京大学 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
CN115079706A (zh) * | 2022-08-16 | 2022-09-20 | 合肥工业大学 | 人机协同控制移动式机器人智能避障方法和系统 |
CN116627041A (zh) * | 2023-07-19 | 2023-08-22 | 江西机电职业技术学院 | 一种基于深度学习的四足机器人运动的控制方法 |
CN117742134A (zh) * | 2023-12-21 | 2024-03-22 | 桂林电子科技大学 | 一种双足机器人步行规划和控制方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441480A (zh) * | 2008-10-31 | 2009-05-27 | 北京理工大学 | 防止仿人机器人左右倾斜的运动规划方法和装置 |
CN103149933A (zh) * | 2013-02-27 | 2013-06-12 | 南京邮电大学 | 基于闭环控制的仿人机器人全向行走方法 |
US9314924B1 (en) * | 2013-06-14 | 2016-04-19 | Brain Corporation | Predictive robotic controller apparatus and methods |
US20170120448A1 (en) * | 2015-10-29 | 2017-05-04 | Korea Institute Of Science And Technology | Robot control system and method for planning driving path of robot |
US20170144306A1 (en) * | 2014-04-17 | 2017-05-25 | Softbank Robotics Europe | Omnidirectional wheeled humanoid robot based on a linear predictive position and velocity controller |
CN108115681A (zh) * | 2017-11-14 | 2018-06-05 | 深圳先进技术研究院 | 机器人的模仿学习方法、装置、机器人及存储介质 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
CN108646729A (zh) * | 2018-04-12 | 2018-10-12 | 深圳先进技术研究院 | 一种机器人及其路径规划方法、机器人系统 |
CN108983804A (zh) * | 2018-08-27 | 2018-12-11 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
US20190196477A1 (en) * | 2017-12-25 | 2019-06-27 | Ubtech Robotics Corp | Biped robot equivalent trajectory generating method and biped robot using the same |
CN110232412A (zh) * | 2019-05-30 | 2019-09-13 | 清华大学 | 一种基于多模态深度学习的人体步态预测方法 |
CN110361026A (zh) * | 2019-06-05 | 2019-10-22 | 华南理工大学 | 一种基于3d点云的仿人机器人路径规划方法 |
CN110737195A (zh) * | 2019-10-21 | 2020-01-31 | 同济大学 | 基于速度控制的双足机器人行走落脚点规划方法及装置 |
CN111679660A (zh) * | 2020-06-16 | 2020-09-18 | 中国科学院深圳先进技术研究院 | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 |
-
2020
- 2020-12-09 CN CN202011429479.2A patent/CN112666939B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441480A (zh) * | 2008-10-31 | 2009-05-27 | 北京理工大学 | 防止仿人机器人左右倾斜的运动规划方法和装置 |
CN103149933A (zh) * | 2013-02-27 | 2013-06-12 | 南京邮电大学 | 基于闭环控制的仿人机器人全向行走方法 |
US9314924B1 (en) * | 2013-06-14 | 2016-04-19 | Brain Corporation | Predictive robotic controller apparatus and methods |
US20170144306A1 (en) * | 2014-04-17 | 2017-05-25 | Softbank Robotics Europe | Omnidirectional wheeled humanoid robot based on a linear predictive position and velocity controller |
US20170120448A1 (en) * | 2015-10-29 | 2017-05-04 | Korea Institute Of Science And Technology | Robot control system and method for planning driving path of robot |
CN108115681A (zh) * | 2017-11-14 | 2018-06-05 | 深圳先进技术研究院 | 机器人的模仿学习方法、装置、机器人及存储介质 |
US20190196477A1 (en) * | 2017-12-25 | 2019-06-27 | Ubtech Robotics Corp | Biped robot equivalent trajectory generating method and biped robot using the same |
CN108646729A (zh) * | 2018-04-12 | 2018-10-12 | 深圳先进技术研究院 | 一种机器人及其路径规划方法、机器人系统 |
CN108549237A (zh) * | 2018-05-16 | 2018-09-18 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
CN108983804A (zh) * | 2018-08-27 | 2018-12-11 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
CN110232412A (zh) * | 2019-05-30 | 2019-09-13 | 清华大学 | 一种基于多模态深度学习的人体步态预测方法 |
CN110361026A (zh) * | 2019-06-05 | 2019-10-22 | 华南理工大学 | 一种基于3d点云的仿人机器人路径规划方法 |
CN110737195A (zh) * | 2019-10-21 | 2020-01-31 | 同济大学 | 基于速度控制的双足机器人行走落脚点规划方法及装置 |
CN111679660A (zh) * | 2020-06-16 | 2020-09-18 | 中国科学院深圳先进技术研究院 | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 |
Non-Patent Citations (3)
Title |
---|
XINYU WU: "Locomotion Mode Identification and Gait Phase Estimation for Exoskeletons During Continuous Multilocomotion Tasks", 《IEEE TRANSACTIONS ON COGNITIVE AND DEVELOPMENTAL SYSTEMS》 * |
YUTAKA NAKAMURA: "Reinforcement learning for a biped robot based on a CPG-actor-critic method", 《NEURAL NETWORKS》 * |
林荣霞: "基于强化学习的双足机器人的实时避障位置控制", 《电子测量技术》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
CN113156972A (zh) * | 2021-05-11 | 2021-07-23 | 郑州大学 | 航母甲板动态避障方法、终端设备及计算机可读存储介质 |
CN113359704A (zh) * | 2021-05-13 | 2021-09-07 | 浙江工业大学 | 一种适用于复杂未知环境的自适应sac-pid方法 |
CN113342031A (zh) * | 2021-05-18 | 2021-09-03 | 江苏大学 | 一种导弹航迹在线智能规划方法 |
CN113342031B (zh) * | 2021-05-18 | 2022-07-22 | 江苏大学 | 一种导弹航迹在线智能规划方法 |
CN113625733A (zh) * | 2021-08-04 | 2021-11-09 | 北京工业大学 | 一种基于ddpg多目标三维无人机路径规划方法 |
CN113485380B (zh) * | 2021-08-20 | 2022-04-12 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
CN113534819A (zh) * | 2021-08-26 | 2021-10-22 | 鲁东大学 | 用于领航跟随型多智能体编队路径规划的方法和存储介质 |
CN113534819B (zh) * | 2021-08-26 | 2024-03-15 | 鲁东大学 | 用于领航跟随型多智能体编队路径规划的方法和存储介质 |
CN113967909A (zh) * | 2021-09-13 | 2022-01-25 | 中国人民解放军军事科学院国防科技创新研究院 | 基于方向奖励的机械臂智能控制方法 |
CN114442630B (zh) * | 2022-01-25 | 2023-12-05 | 浙江大学 | 一种基于强化学习和模型预测的智能车规划控制方法 |
CN114442630A (zh) * | 2022-01-25 | 2022-05-06 | 浙江大学 | 一种基于强化学习和模型预测的智能车规划控制方法 |
CN114563954A (zh) * | 2022-02-28 | 2022-05-31 | 山东大学 | 一种基于强化学习和位置增量的四足机器人运动控制方法 |
CN114578834A (zh) * | 2022-05-09 | 2022-06-03 | 北京大学 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
CN115079706B (zh) * | 2022-08-16 | 2022-11-15 | 合肥工业大学 | 人机协同控制移动式机器人智能避障方法和系统 |
CN115079706A (zh) * | 2022-08-16 | 2022-09-20 | 合肥工业大学 | 人机协同控制移动式机器人智能避障方法和系统 |
CN116627041A (zh) * | 2023-07-19 | 2023-08-22 | 江西机电职业技术学院 | 一种基于深度学习的四足机器人运动的控制方法 |
CN116627041B (zh) * | 2023-07-19 | 2023-09-29 | 江西机电职业技术学院 | 一种基于深度学习的四足机器人运动的控制方法 |
CN117742134A (zh) * | 2023-12-21 | 2024-03-22 | 桂林电子科技大学 | 一种双足机器人步行规划和控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112666939B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112666939B (zh) | 一种基于深度强化学习的机器人路径规划算法 | |
Chen et al. | Flexible gait transition for six wheel-legged robot with unstructured terrains | |
CN111552301B (zh) | 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 | |
CN111578940B (zh) | 一种基于跨传感器迁移学习的室内单目导航方法及系统 | |
KR101121763B1 (ko) | 환경 인식 장치 및 방법 | |
Jain et al. | From pixels to legs: Hierarchical learning of quadruped locomotion | |
Heydari et al. | Robust model predictive control of biped robots with adaptive on-line gait generation | |
JP2006205348A (ja) | 障害物回避装置、障害物回避方法及び障害物回避プログラム並びに移動型ロボット装置 | |
Mester et al. | Autonomous Locomotion of Humanoid Robots in Presence of Mobile and Immobile Obstacles: Trajectory Prediction, Path Planning, Control and Simulation | |
Liu et al. | ReinforcementDriving: Exploring trajectories and navigation for autonomous vehicles | |
Chignoli et al. | Rapid and reliable quadruped motion planning with omnidirectional jumping | |
Gupta et al. | Trajectory generation and step planning of a 12 DoF biped robot on uneven surface | |
Li et al. | Fuzzy double deep Q-network-based gait pattern controller for humanoid robots | |
Seo et al. | Learning to walk by steering: Perceptive quadrupedal locomotion in dynamic environments | |
Sotnik et al. | Analysis of Existing Infliences in Formation of Mobile Robots Trajectory | |
CN116859975A (zh) | 基于bp神经网络的轮腿机器人轮-足切换控制方法 | |
Azouaoui et al. | Soft‐computing based navigation approach for a bi‐steerable mobile robot | |
Ding et al. | Advancements and challenges of information integration in swarm robotics | |
Raj et al. | Humanoid gait pattern generation with orbital energy | |
Fan et al. | A Review of Quadruped Robots: Structure, Control, and Autonomous Motion | |
Liu et al. | Foothold Planning and Body Posture Adjustment Strategy of Hexapod Robot in Complex Terrain | |
Saputra et al. | Topological based Environmental Reconstruction for Efficient Multi-Level Control of Robot Locomotion | |
Mohades Kasaei et al. | Design and implementation of a fully autonomous humanoid soccer robot | |
Jiang et al. | Stable skill improvement of quadruped robot based on privileged information and curriculum guidance | |
Yin et al. | Smart Gait: A Gait Optimization Framework for Hexapod Robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |