CN112666939A - 一种基于深度强化学习的机器人路径规划算法 - Google Patents

一种基于深度强化学习的机器人路径规划算法 Download PDF

Info

Publication number
CN112666939A
CN112666939A CN202011429479.2A CN202011429479A CN112666939A CN 112666939 A CN112666939 A CN 112666939A CN 202011429479 A CN202011429479 A CN 202011429479A CN 112666939 A CN112666939 A CN 112666939A
Authority
CN
China
Prior art keywords
robot
reinforcement learning
deep reinforcement
path planning
planning algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011429479.2A
Other languages
English (en)
Other versions
CN112666939B (zh
Inventor
何勇
吴新宇
董遥
刘静帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011429479.2A priority Critical patent/CN112666939B/zh
Publication of CN112666939A publication Critical patent/CN112666939A/zh
Application granted granted Critical
Publication of CN112666939B publication Critical patent/CN112666939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的机器人路径规划算法,基于深度强化学习,并结合机器人物理模型约束及人工势场理论,旨在提出一种能在线实时运行的智能化路径规划算法,为自平衡外骨骼机器人、人形机器人等双足机器人在有障碍物的动态环境中规划出一条能避障,且满足机器人步行约束要求的自然、类人化的落脚点路径。

Description

一种基于深度强化学习的机器人路径规划算法
技术领域
本发明属于机器人技术领域,涉及一种基于深度强化学习的机器人路径规划算法。
背景技术
对两足动物运动的研究已经转向现实生活中的应用,比如在不平坦的地形上行走,通过门,爬楼梯和梯子、躲避障碍物等。两足机器人在运动方面的重大进展,使它们能够在危险的环境中移动,同时完成复杂的操作任务。然而,考虑到在未知的环境中行走,仿人机器人的效率仍远不能与人类相比,两足动物对外界的变化非常敏感,在相对复杂的环境中双足机器人步行受到了严重的限制。目前现有的路径规划算法如A*、Dijkstras、RRT等只能规划出点到点的路线,难以考虑到双足机器人几何学上的限制,通过额外的约束条件生成的落脚位置难以完全适用双足机器人,对其运动产生一定的限制。
现有专利对双足机器人的路径规划提出的研究方法数量较少,我国已申请或已授权的专利中,发明专利CN111830986A提出一种双足机器人的三维路径规划方法,考虑了双足机器人可跨越物体或可上台阶的最大高度、可跨越物体的最大宽度、双足机器人足部长度以及三维环境中物体的位置和尺寸,设计节点的代价,并进行代价评估,在存在多种类型物体的复杂环境中提前计算一条代价最小的三维路径;该方法规划得到的路径,能够引导机器人在相应的环境中执行跨越、绕行、上台阶的运动。
发明专利CN111290389A提出了一种双足机器人落脚位置控制系统及方法,首先利用路径规划算法规划可行物碰撞的路径,然后根据双足机器人步长约束、运动能力、脚的尺寸与中心偏移等计算出摆动脚的可落脚区域,再使用模糊处理的方法得到机器人的具体落脚位置。该方法能够实现双足机器人路径规划结束后执行具体行走动作时,选择路径两侧合适的落脚位置。
上述两个专利虽然都涉及双足机器人进行路径规划及落脚位置规划,但是还存在如下问题:首先在路径规划方面,这些专利使用的技术方法适用于静态环境,对动态环境适应能力差,并且产生的路线可能与人类直觉上产生偏差,如贴着障碍物行走,而不是以一条自然的弧度绕开各个障碍物行走;其次在落脚位置规划方面,上述两项专利在中心点轨迹路径规划完成后再进行落脚位置计算,可选择位置少,且步态空间不连续,机器人灵活性和平稳性不强。
发明内容
本发明的目的是提供一种基于深度强化学习的机器人路径规划算法,采用该算法能够为自平衡外骨骼机器人、人形机器人等双足机器人在有障碍物的动态环境中规划出一条能避障,且满足机器人步行约束要求的自然、类人化的落脚点路径。
本发明所采用的技术方案是,一种基于深度强化学习的机器人路径规划算法,具体包括如下步骤:
步骤1,利用传感器从包含有机器人动静态障碍物的环境中获取点云图 M;
步骤2,通过人机交互接口获取机器人的目的地信息,通过对步骤1获取点云图处理,获得机器人当前位置Pczp、障碍物位置Pob及尺寸DMob及目标位置Ptar作为输入信息STt
步骤3,基于步骤2所得的输入信息建立用于机器人路径规划的深度强化学习框架;
步骤4,基于步骤3所建立的学习框架,通过仿真环境里的随机地图对策略网络进行训练,在训练过程中通过结合每一轮的状态信息STt、动作输出信息ACTt、奖励函数值rt信息,利用DDPG算法对策略网络进行更新,直到获得最大化的累积奖励值来完成训练;
步骤5,利用训练好的策略网络,结合机器人环境和目标点的信息,在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列,实现机器人的智能路径规划。
本发明的特点还在于:
步骤1中包含有机器人动静态障碍物的环境为在路面行走的外骨骼机器人以及该外骨骼机器人周围被探测到的地图,该地图的探测范围大小被限制在长度为LBx米,宽为LBy米。
步骤2中机器人的目标位置采用如下公式(1)进行确定:
Figure RE-GDA0002941533670000031
其中,Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
步骤2中点云图的处理过程如下
步骤A,设定高度阈值,将点云图上的物体分割出来,即进行二值化处理;
步骤B,对图形进行开操作,使物体的轮廓变得光滑;
步骤C,将图像上相邻的像素点连接形成区域,即进行连通区域提取;
步骤D,对步骤C形成的不同区域进行重心提取,再画出边框,即进行轮廓提取,得到对应信息。
步骤2中点云图M经处理后表达式如下公式(2)所示:
Figure RE-GDA0002941533670000041
其中,
Figure RE-GDA0002941533670000042
是点云M坐标中的第(i,j)元素的X,Y,Z位置,w代表点云图矩阵M的列数,h代表行数。
步骤4中深度强化学习训练过程是通过智能体与环境的不断交互进行的,在每次交互过程中,智能体从环境中获取状态Stt,然后根据强化学习算法更新的策略网络决定采取行动;智能体对环境进行操作后环境发生变化,导致智能体产生新的状态Stt+1,智能体会获得一个回报奖励rt;智能体的目的是在轨迹τ=(s0,a0,s1,a1,…,sT)上学习行为,从而使累积回报Rc最大化,其中轨迹根据停止条件进行截止;停止条件包括:到达目的地条件、超出环境边界条件、触碰障碍物条件;
深度强化学习训练过程为一个具有5元组的马尔科夫决策过程MDPs,如下公式(3)所示:
MDP=<S,A,R,P,ρ0> (3);
其中,S代表所有有效的状态,A为有效的动作,R为奖励函数,P为概率转移函数,ρ0为初始状态分布。
步骤4中,深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置Pczp的增量,该增量通过与当前位置相加获得下一个落脚点位置
Figure RE-GDA0002941533670000051
该输出落脚点位置会被存入一个单输入多输出的缓存器中,当触发了到达目的地的停止条件后,所有的规划落脚点位置
Figure RE-GDA0002941533670000052
会被打包为一个落脚点序列Pnzp输出。
步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将动作空间定义为下一个支撑脚位置Pnzp_1相对于当前位置Pczp的增量ΔP,ΔP 采用如下公式(4)表示:
Act=ΔP=[ΔPx,ΔPy,Δθzp]T (4);
其中,ΔPx,ΔPy,Δθzp为连续空间中的x方向位置增量,y方向位置增量及偏转角度增量。
步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将基于空间几何的运动约束应用于动作空间;当动作空间使用直角坐标系表示时,由式(5)可知ΔPx和ΔPy受耦合关系约束:
Figure RE-GDA0002941533670000053
为了消除耦合关系,在(0,-LG)处建立极坐标系,假定Δθzp=0,新的坐标系下,动作空间采用如下公式(6)表示:
Figure RE-GDA0002941533670000054
其中,rp,
Figure RE-GDA0002941533670000055
表示动作。
步骤5中,利用如下公式(7)计算策略网络的输出,然后将ΔP与当前位置Pczp相加,生成下一个脚位置Pnzp,存储在单输入多输出缓冲区中:
Figure RE-GDA0002941533670000061
所述步骤5中路径规划算法的奖励rHLP如式(8)所示:
rHLP=wattratt+wreprrep+wstoprstop (8);
其中,ratt为引力势场奖励,rrep为斥力势场奖励,rstop为终端奖励;其中加权因子watt,wrep,wstop∈[0,1]。
本发明的有益效果如下:与现有机器人路径规划技术相比,本发明提出的算法能面向复杂动态的使用环境,能实现在线实时的路径轨迹输出,且所输出的路径轨迹并非传统的单点连续轨迹曲线,而是能直接满足外骨骼机器人、人形机器人等双足机器人需求的离散落脚点序列,该落脚点轨迹既能满足机器人步行约束条件,又能满足类人思维的自然平滑要求。
附图说明
图1是本发明一种基于深度强化学习的机器人路径规划算法的整体框体;
图2是本发明一种基于深度强化学习的机器人路径规划算法中点云图处理的流程图;
图3是本发明一种基于深度强化学习的机器人路径规划算法中环境信息状态空间描述图;
图4是本发明一种基于深度强化学习的机器人路径规划算法中基于机器人运动学几何约束的动作空间图;
图5是本发明一种基于深度强化学习的机器人路径规划算法中动作空间的二维平面图;
图6是本发明一种基于深度强化学习的机器人路径规划算法中基于DDPG 算法的策略网络结构图;
图7(a)~(d)是本发明一种基于深度强化学习的机器人路径规划算法的路径规划实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度强化学习的机器人路径规划算法,如图1所示,具体包括如下步骤:
步骤1,利用传感器从包含有机器人动静态障碍物的环境中获取环境点云图M,并通过人机交互接口获取机器人的目的地信息,通过对点云图处理,进而获得机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,这些信息作为路径规划器的状态空间输入STt
步骤1中机器人所处的环境为在路面行走的外骨骼机器人(及其他双足机器人)和它周围被探测到的地图,其探测到的地图范围大小被限制在长LBx米,宽LBy米。地图中存在静态障碍物和移动障碍物,虚拟边界也属于地图信息。
整个算法的输入是机器人的目标位置Ptar和经过预处理后的点云图 M,如公式(1)和公式(2)所示:
Figure RE-GDA0002941533670000071
其中Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
Figure RE-GDA0002941533670000081
其中
Figure RE-GDA0002941533670000082
是云图M坐标中的第(i,j)元素的X,Y,Z位置。式中w代表点云图矩阵M的列数,h代表点云图矩阵M的行数。
算法的输出是如公式(3)所示的离散落脚点序列Pnzp,以及手动给定的步态周期Tgait
Figure RE-GDA0002941533670000085
其中
Figure RE-GDA0002941533670000086
为云图坐标中第i个规划的落脚点位置的X、Y坐标,
Figure RE-GDA0002941533670000088
是偏转方向。
点云图处理:点云图中包含了机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,需要对其处理。处理流程如图 2。选取适当的高度阈值,将图像上的物体分割出来(二值化);对图像进行开操作,使物体的轮廓变得光滑(开操作);图像上相邻的像素点连接形成区域(连通区域提取);对形成的不同区域进行重心提取,在画出边框(轮廓提取),得到对应的信息。
步骤2,建立用于机器人路径规划的深度强化学习框架,即马尔可夫决策过程,这其中包含状态空间建立、动作空间建立、奖励函数建立、停止条件建立、策略网络的建立以及网络更新算法的建立;
步骤2中深度强化学习框架中的状态空间包括机器人位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等组成的输入信息STt
步骤2中深度强化学习框架中的动作空间引入机器人几何模型约束,使得规划器算法输出能满足机器人步行约束条件的落脚点,且能缩小动作搜索空间加速学习网络的收敛速度;
步骤2中深度强化学习框架中的奖励函数引入人工势场理论,使得规划器算法输出的轨迹更加自然且符合人类思维习惯;
步骤2中深度强化学习框架中的停止条件包括:到达目的地条件、超出环境边界条件、触碰障碍物条件;
步骤2中深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置Pczp的增量,该增量通过与当前位置相加获得下一个落脚点位置
Figure RE-GDA0002941533670000091
该输出落脚点位置会被存入一个单输入多输出(SIMO)的缓存器中,当触发了到达目的地的停止条件后,所有的规划落脚点位置
Figure RE-GDA0002941533670000092
会被打包为一个落脚点序列Pnzp输出;
步骤3,建立好深度强化学习框架后,通过仿真环境里的随机地图对策略网络进行训练,在训练过程中通过结合每一轮的状态信息STt,动作输出信息ACTt,奖励函数值rt等信息,利用DDPG算法对策略网络进行更新,直到获得最大化的累积奖励值来完成训练;
深度强化学习训练过程是通过智能体与环境的不断交互进行的,在每次交互过程中,智能体从环境中获取状态Stt,然后根据强化学习算法更新的策略网络决定采取行动。智能体对环境进行操作后环境发生变化,导致智能体产生新的状态Stt+1,然智能体会从获得一个回报奖励rt。智能体的目的是在轨迹τ=(s0,a0,s1,a1,…,sT)上学习行为以最大化其累积回报Rc。其中轨迹不是无限的,它可以根据停止条件进行截止。将上述的过程建模成一个具有5元组的马尔科夫决策过程(MDPs),如式(4)所示。
MDP=<S,A,R,P,ρ0> (4);
其中,S代表所有有效的状态(状态空间),A为有效的动作(动作空间),R为奖励函数,P为概率转移函数,ρ0为初始状态分布。
状态深度强化学习的状态空间(参见图3)包括支撑脚的当前位置
Figure RE-GDA0002941533670000101
目标位置Ptar、边界信息Bd=[Bxmax,Bxmin,Bymax,Bymin]T,Bxmax,Bxmin分别表示在X轴上边界的最大值和最小值,Bymax,Bymin分别表示在Y轴上边界的最大值和最小值。障碍物位置
Figure RE-GDA0002941533670000102
及其维度
Figure RE-GDA0002941533670000103
(j=1~m, m是障碍物数量,
Figure RE-GDA0002941533670000104
分别为障碍物的X和Y坐标值,
Figure RE-GDA0002941533670000105
分别为障碍物在X和Y坐标轴方向上的长度信息。最后智能体的观察状态为(10+4m) 维向量St,如式(5)所示。
Figure RE-GDA0002941533670000106
动作空间定义:在常用的基于强化学习的轨迹规划算法中,其动作空间通常定义为被控对象某个点(如无人车的中心点)的轨迹,但这种点的轨迹不能直接满足双足机器人的使用要求,因为双足机器人在行走过程所需要的是左右两个脚的落脚点位置,它所体现出来的是一个区分左右的离散落脚点序列,而不是某个点的连续轨迹曲线。在本发明中,动作空间定义为下一个支撑脚位置Pnzp_1相对于当前位置Pczp的增量ΔP,如式(6)所示:
Act=ΔP=[ΔPx,ΔPy,Δθzp]T (6);
其中ΔPx,ΔPy,Δθzp为连续空间中的x方向位置增量,y方向位置增量及偏转角度增量。
几何约束:为了提高在实际机器人上部署强化学习策略的安全性,并且为了缩小动作空间搜索范围而加快训练收敛速度。本发明将基于空间几何的运动约束应用于动作空间。如图4所示,步行时将腰部高度设为Hw,包括摇摆脚可到达区域RAf,腰部中心可达区域RAw,其在XfYf平面上的投影为RAwxy,它是RAf的子区域(RAf表示摇摆脚可达区域)。RAg是安全间隙,以避免双足之间的干扰。为了增强步行稳定性边界,实现静态稳定步态,可以选择RAwxy代替RAf作为动作空间区域,但RAwxy(RAwxy表示腰部中心可达区域投影)是不规则形状,因此选择其子区域(绿色区域)作为动作空间区域RAact。RAact为圆心位于(0,-LG)处的半圆区域,半径为Rp,计算如公式 (7)。RAact可表示为支撑脚坐标,如式(8)所示:
Figure RE-GDA0002941533670000111
其中,LT,LS,Lw分别是机器人的大腿、小腿、腰部的长度,LG是安全间隙的宽度;
Figure RE-GDA0002941533670000112
其中,ΔPx和ΔPy分别表示摆动脚相对支撑脚要运动到的位置的增量,Rp为动作空间的半径,LG为安全间隙的宽度。
当动作空间使用直角坐标系表示时,由式(8)可知ΔPx和ΔPy受耦合关系约束,如果直接将此作为动作空间,将不便策略网络输出。为了消除耦合关系,在(0,-LG)处建立极坐标系,如图5所示。除此之外,为了简化问题,假定Δθzp=0,在实际应用中也可以不为0。因此,在新的坐标下,动作空间采用如下公式(9)表示:
Figure RE-GDA0002941533670000121
动作
Figure RE-GDA0002941533670000122
不能直接输出,需要在支撑脚坐标系中转换为ΔPx和ΔPy。除此之外,我们应该注意下一个规划的位置是左脚还是右脚,因为左脚必须在右脚的左边,这是一种隐藏的约束,以避免冲突。利用式(10)计算策略网络的输出,然后将ΔP与当前位置Pczp相加,生成下一个脚位置Pnzp,存储在单输入多输出(SIMO)缓冲区中,如图1所示。
Figure RE-GDA0002941533670000123
ΔPx、ΔPy分别表示ΔP点的横坐标和纵坐标。
步骤4,利用训练好的策略网络,结合机器人环境和目标点的信息,可以在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列,实现机器人的智能路径规划。
奖励函数:人类行走时,最想要的不仅是到达目的地的最短路径,而且是远离障碍的自然光滑路径。本文提出了一种基于人工势场(APF)理论的奖励函数,以增强策略网络生成类人思维路径的能力。路径规划算法的奖励rHLP如式(11)所示,由引力势场奖励(APR)ratt、斥力势场奖励(RPR)rrep和终端奖励(TR)rstop三项的加权和组成。
rHLP=wattratt+wreprrep+wstoprstop (11)
其中加权因子watt,wrep,wstop∈[0,1]。
引力势场奖励用来鼓励智能体向目的地探索以产生到达目的地的路径,如式(12)所示。ratt会随着规划的脚步位置Pnzp与目标位置Ptar距离Δdtar的减小而增大。
Figure RE-GDA0002941533670000131
排斥势场奖励的目的是使生成路径远离障碍物,如式(13)所示。rrep随着Pnzp
Figure RE-GDA0002941533670000132
之间的距离
Figure RE-GDA0002941533670000133
减小而减小,但这只在
Figure RE-GDA0002941533670000134
小于一个给定的安全距离Dob时有效。
Figure RE-GDA0002941533670000135
停止条件奖励函数由几个大的正值(Cgoal,Cbou,Cobs)组成,用于鼓励或阻止满足不同停止条件的行为,如式(14)所示。
Figure RE-GDA0002941533670000141
其中(Bxmin,Bxmax,Bymin,Bymax)为环境的边界坐标。Rtar是目标区域的半径,
Figure RE-GDA0002941533670000142
是第j个障碍物的维度信息。
基于DDPG的策略网络更新算法与策略网络结构:如上所述,MDP的状态空间和动作空间都是连续的。DDPG算法适合这种环境,DDPG是一种在线的非策略强化学习方法,包含一个评价网络和一个动作网络。本发明设计评价网路和动作网络如图6所示。动作网络包含三个隐藏层,分别包含512、512、3个节点,两层之间使用Relu激活函数,输出需要经过tanh函数和lambada层进行变换到指定的范围。评价网络包含两部分输入,分别为状态输入和动作输入,状态输入经过两个含有512个节点的隐藏层,动作经过一个512个节点的隐藏层,两者结果相加再经过Relu函数得到输出。
实施例
本发明在1~4个障碍物环境下得到的实验结果如图7所示(图7(a)为1 个障碍物,图7(b)为两个障碍物,图7(c)为三个障碍物,图7(d)为4 个障碍物),所生成的落脚点路径最终都到达目标区域,并且落脚位置交替出现,落脚点步幅会根据与目标点位置距离来调整,路劲轨迹可以以较为自然平滑的弧度避开障碍物,这与人类行走方式相同。该算法可以在一台普通的个人电脑上运行,并且对于动态障碍物或者静态障碍物环境,都能在0.015秒的时间内完成路径的规划输出,这完全能满足机器人在线实时使用的要求。
本发明中获取环境地图点云图所使用的深度图像拍摄设备可由单目相机、双目相机、激光雷达、3D激光雷达等设备替代。
本发明中使用的深度强化学习的策略更新方法DDPG可由其他深度强化学习方法替代,如近端策略优化(PPO),异步优势演员批评(A3C)等方法。
(1)本发明提出一种基于深度强化学习的双足机器人路径规划算法。该算法结合了深度强化学习与机器人物理运动学约束条件及人工势场理论,使得该算法能面向复杂动态的使用环境,能实现在线实时的路径轨迹输出,且所输出的路径轨迹并非传统的单点连续轨迹曲线,而是能直接满足外骨骼机器人、人形机器人等双足机器人需求的离散落脚点序列,该落脚点轨迹既能满足机器人步行约束条件,又能满足类人思维的自然平滑要求;
(2)本发明所提出的路径规划算法的输入为通过人机交互获得的目的地位置及通过传感器获得的环境点云地图,且环境点云地图不是直接输入到算法网络中,而是通过一个点云图预处理模块进行处理得到机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,这可以加快算法网络的训练收敛速度;
(3)本发明所提出的路径规划算法的输入为通过人机交互获得的目的地位置及通过传感器获得的环境点云地图,且环境点云地图不是直接输入到算法网络中,而是通过一个点云图预处理模块进行处理得到机器人当前位置Pczp、障碍物位置Pob及尺寸DMob、目的位置Ptar等输入信息,这可以加快算法网络的训练收敛速度;
(4)本发明在定义路径规划深度强化学习算法框架的动作空间时,为了提高在实际机器人上部署强化学习策略的安全性,将基于机器人运动学空间几何的运动约束应用于动作空间。设计时考虑到双足机器人的大腿、小腿及腰部长度,为了避免双足之间的干涉,添加了安全距离。这使得算法的输出落脚点能满足机器人步行稳定安全要求;
(5)本发明在定义路径规划深度强化学习算法框架的奖励函数时,提出了基于人工势场理论的奖励函数,增强了智能体生成类人思维路径的能力。奖励函数分为三部分:引力势场奖励函数用来鼓励智能体向目的地探索以产生路径;带有作用距离的排斥势场奖励函数的目的是使生成的路径以适当的距离远离障碍物;终端奖励函数用于鼓励满足达到目的地的动作,而惩罚超出边界或触碰障碍物的动作,进而加快网络的训练收敛速度。

Claims (10)

1.一种基于深度强化学习的机器人路径规划算法,其特征在于:具体包括如下步骤:
步骤1,利用传感器从包含有机器人动静态障碍物的环境中获取点云图M;
步骤2,通过人机交互接口获取机器人的目的地信息,通过对步骤1获取点云图处理,获得机器人当前位置Pczp、障碍物位置Pob及尺寸DMob及目标位置Ptar作为输入信息STt
步骤3,基于步骤2所得的输入信息建立用于机器人路径规划的深度强化学习框架;
步骤4,基于步骤3所建立的学习框架,通过仿真环境里的随机地图对策略网络进行训练,在训练过程中通过结合每一轮的状态信息STt、动作输出信息ACTt、奖励函数值rt信息,利用DDPG算法对策略网络进行更新,直到获得最大化的累积奖励值来完成训练;
步骤5,利用训练好的策略网络,结合机器人环境和目标点的信息,在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列,实现机器人的智能路径规划。
2.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤1中包含有机器人动静态障碍物的环境为在路面行走的外骨骼机器人以及该外骨骼机器人周围被探测到的地图,该地图的探测范围大小被限制在长度为LBx米,宽为LBy米。
3.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤2中机器人的目标位置采用如下公式(1)进行确定:
Figure FDA0002826097660000021
其中,Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
4.根据权利要求3所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤2中点云图的处理过程如下
步骤A,设定高度阈值,将点云图上的物体分割出来,即进行二值化处理;
步骤B,对图形进行开操作,使物体的轮廓变得光滑;
步骤C,将图像上相邻的像素点连接形成区域,即进行连通区域提取;
步骤D,对步骤C形成的不同区域进行重心提取,再画出边框,即进行轮廓提取,得到对应信息。
5.根据权利要求4所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤2中点云图M经处理后表达式如下公式(2)所示:
Figure FDA0002826097660000022
其中,
Figure FDA0002826097660000023
是点云M坐标中的第(i,j)元素的X,Y,Z位置。
6.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤4中深度强化学习训练过程是通过智能体与环境的不断交互进行的,在每次交互过程中,智能体从环境中获取状态Stt,然后根据强化学习算法更新的策略网络决定采取行动;智能体对环境进行操作后环境发生变化,导致智能体产生新的状态Stt+1,智能体会获得一个回报奖励rt;智能体的目的是在轨迹τ=(s0,a0,s1,a1,…,sT)上学习行为,从而使累积回报Rc最大化,其中轨迹根据停止条件进行截止;停止条件包括:到达目的地条件、超出环境边界条件、触碰障碍物条件;
所述深度强化学习训练过程为一个具有5元组的马尔科夫决策过程MDPs,如下公式(3)所示:
MDP=<S,A,R,P,ρ0> (3);
其中,S代表所有有效的状态,A为有效的动作,R为奖励函数,P为概率转移函数,ρ0为初始状态分布。
7.根据权利要求6所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤4中,深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置Pczp的增量,该增量通过与当前位置相加获得下一个落脚点位置
Figure FDA0002826097660000031
该输出落脚点位置会被存入一个单输入多输出的缓存器中,当触发了到达目的地的停止条件后,所有的规划落脚点位置
Figure FDA0002826097660000032
会被打包为一个落脚点序列Pnzp输出。
8.根据权利要求7所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将动作空间定义为下一个支撑脚位置Pnzp_1相对于当前位置Pczp的增量ΔP,ΔP采用如下公式(4)表示:
Act=ΔP=[ΔPx,ΔPy,Δθzp]T (4);
其中,ΔPx,ΔPy,Δθzp为连续空间中的x方向位置增量,y方向位置增量及偏转角度增量。
9.根据权利要求8所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤4中,深度强化学习框架中的动作空间引入机器人几何模型约束,将基于空间几何的运动约束应用于动作空间;当动作空间使用直角坐标系表示时,由式(5)可知ΔPx和ΔPy受耦合关系约束:
Figure FDA0002826097660000041
为了消除耦合关系,在(0,-LG)处建立极坐标系,假定Δθzp=0,新的坐标系下,动作空间采用如下公式(6)表示:
Figure FDA0002826097660000042
其中,
Figure FDA0002826097660000043
表示动作。
10.根据权利要求9所述的一种基于深度强化学习的机器人路径规划算法,其特征在于:所述步骤5中,利用如下公式(7)计算策略网络的输出,然后将ΔP与当前位置Pczp相加,生成下一个脚位置Pnzp,存储在单输入多输出缓冲区中:
Figure FDA0002826097660000051
所述步骤5中路径规划算法的奖励rHLP如式(8)所示:
rHLP=wattratt+wreprrep+wstoprstop(8);
其中,ratt为引力势场奖励,rrep为斥力势场奖励,rstop为终端奖励;其中加权因子watt,wrep,wstop∈[0,1]。
CN202011429479.2A 2020-12-09 2020-12-09 一种基于深度强化学习的机器人路径规划算法 Active CN112666939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011429479.2A CN112666939B (zh) 2020-12-09 2020-12-09 一种基于深度强化学习的机器人路径规划算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011429479.2A CN112666939B (zh) 2020-12-09 2020-12-09 一种基于深度强化学习的机器人路径规划算法

Publications (2)

Publication Number Publication Date
CN112666939A true CN112666939A (zh) 2021-04-16
CN112666939B CN112666939B (zh) 2021-09-10

Family

ID=75401617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011429479.2A Active CN112666939B (zh) 2020-12-09 2020-12-09 一种基于深度强化学习的机器人路径规划算法

Country Status (1)

Country Link
CN (1) CN112666939B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110459A (zh) * 2021-04-20 2021-07-13 上海交通大学 一种多足机器人运动规划方法
CN113156972A (zh) * 2021-05-11 2021-07-23 郑州大学 航母甲板动态避障方法、终端设备及计算机可读存储介质
CN113342031A (zh) * 2021-05-18 2021-09-03 江苏大学 一种导弹航迹在线智能规划方法
CN113359704A (zh) * 2021-05-13 2021-09-07 浙江工业大学 一种适用于复杂未知环境的自适应sac-pid方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113534819A (zh) * 2021-08-26 2021-10-22 鲁东大学 用于领航跟随型多智能体编队路径规划的方法和存储介质
CN113625733A (zh) * 2021-08-04 2021-11-09 北京工业大学 一种基于ddpg多目标三维无人机路径规划方法
CN113967909A (zh) * 2021-09-13 2022-01-25 中国人民解放军军事科学院国防科技创新研究院 基于方向奖励的机械臂智能控制方法
CN114442630A (zh) * 2022-01-25 2022-05-06 浙江大学 一种基于强化学习和模型预测的智能车规划控制方法
CN114563954A (zh) * 2022-02-28 2022-05-31 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN114578834A (zh) * 2022-05-09 2022-06-03 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115079706A (zh) * 2022-08-16 2022-09-20 合肥工业大学 人机协同控制移动式机器人智能避障方法和系统
CN116627041A (zh) * 2023-07-19 2023-08-22 江西机电职业技术学院 一种基于深度学习的四足机器人运动的控制方法
CN117742134A (zh) * 2023-12-21 2024-03-22 桂林电子科技大学 一种双足机器人步行规划和控制方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441480A (zh) * 2008-10-31 2009-05-27 北京理工大学 防止仿人机器人左右倾斜的运动规划方法和装置
CN103149933A (zh) * 2013-02-27 2013-06-12 南京邮电大学 基于闭环控制的仿人机器人全向行走方法
US9314924B1 (en) * 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US20170120448A1 (en) * 2015-10-29 2017-05-04 Korea Institute Of Science And Technology Robot control system and method for planning driving path of robot
US20170144306A1 (en) * 2014-04-17 2017-05-25 Softbank Robotics Europe Omnidirectional wheeled humanoid robot based on a linear predictive position and velocity controller
CN108115681A (zh) * 2017-11-14 2018-06-05 深圳先进技术研究院 机器人的模仿学习方法、装置、机器人及存储介质
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108646729A (zh) * 2018-04-12 2018-10-12 深圳先进技术研究院 一种机器人及其路径规划方法、机器人系统
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
US20190196477A1 (en) * 2017-12-25 2019-06-27 Ubtech Robotics Corp Biped robot equivalent trajectory generating method and biped robot using the same
CN110232412A (zh) * 2019-05-30 2019-09-13 清华大学 一种基于多模态深度学习的人体步态预测方法
CN110361026A (zh) * 2019-06-05 2019-10-22 华南理工大学 一种基于3d点云的仿人机器人路径规划方法
CN110737195A (zh) * 2019-10-21 2020-01-31 同济大学 基于速度控制的双足机器人行走落脚点规划方法及装置
CN111679660A (zh) * 2020-06-16 2020-09-18 中国科学院深圳先进技术研究院 一种融合类人驾驶行为的无人驾驶深度强化学习方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441480A (zh) * 2008-10-31 2009-05-27 北京理工大学 防止仿人机器人左右倾斜的运动规划方法和装置
CN103149933A (zh) * 2013-02-27 2013-06-12 南京邮电大学 基于闭环控制的仿人机器人全向行走方法
US9314924B1 (en) * 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US20170144306A1 (en) * 2014-04-17 2017-05-25 Softbank Robotics Europe Omnidirectional wheeled humanoid robot based on a linear predictive position and velocity controller
US20170120448A1 (en) * 2015-10-29 2017-05-04 Korea Institute Of Science And Technology Robot control system and method for planning driving path of robot
CN108115681A (zh) * 2017-11-14 2018-06-05 深圳先进技术研究院 机器人的模仿学习方法、装置、机器人及存储介质
US20190196477A1 (en) * 2017-12-25 2019-06-27 Ubtech Robotics Corp Biped robot equivalent trajectory generating method and biped robot using the same
CN108646729A (zh) * 2018-04-12 2018-10-12 深圳先进技术研究院 一种机器人及其路径规划方法、机器人系统
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
CN110232412A (zh) * 2019-05-30 2019-09-13 清华大学 一种基于多模态深度学习的人体步态预测方法
CN110361026A (zh) * 2019-06-05 2019-10-22 华南理工大学 一种基于3d点云的仿人机器人路径规划方法
CN110737195A (zh) * 2019-10-21 2020-01-31 同济大学 基于速度控制的双足机器人行走落脚点规划方法及装置
CN111679660A (zh) * 2020-06-16 2020-09-18 中国科学院深圳先进技术研究院 一种融合类人驾驶行为的无人驾驶深度强化学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINYU WU: "Locomotion Mode Identification and Gait Phase Estimation for Exoskeletons During Continuous Multilocomotion Tasks", 《IEEE TRANSACTIONS ON COGNITIVE AND DEVELOPMENTAL SYSTEMS》 *
YUTAKA NAKAMURA: "Reinforcement learning for a biped robot based on a CPG-actor-critic method", 《NEURAL NETWORKS》 *
林荣霞: "基于强化学习的双足机器人的实时避障位置控制", 《电子测量技术》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110459A (zh) * 2021-04-20 2021-07-13 上海交通大学 一种多足机器人运动规划方法
CN113156972A (zh) * 2021-05-11 2021-07-23 郑州大学 航母甲板动态避障方法、终端设备及计算机可读存储介质
CN113359704A (zh) * 2021-05-13 2021-09-07 浙江工业大学 一种适用于复杂未知环境的自适应sac-pid方法
CN113342031A (zh) * 2021-05-18 2021-09-03 江苏大学 一种导弹航迹在线智能规划方法
CN113342031B (zh) * 2021-05-18 2022-07-22 江苏大学 一种导弹航迹在线智能规划方法
CN113625733A (zh) * 2021-08-04 2021-11-09 北京工业大学 一种基于ddpg多目标三维无人机路径规划方法
CN113485380B (zh) * 2021-08-20 2022-04-12 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113534819A (zh) * 2021-08-26 2021-10-22 鲁东大学 用于领航跟随型多智能体编队路径规划的方法和存储介质
CN113534819B (zh) * 2021-08-26 2024-03-15 鲁东大学 用于领航跟随型多智能体编队路径规划的方法和存储介质
CN113967909A (zh) * 2021-09-13 2022-01-25 中国人民解放军军事科学院国防科技创新研究院 基于方向奖励的机械臂智能控制方法
CN114442630B (zh) * 2022-01-25 2023-12-05 浙江大学 一种基于强化学习和模型预测的智能车规划控制方法
CN114442630A (zh) * 2022-01-25 2022-05-06 浙江大学 一种基于强化学习和模型预测的智能车规划控制方法
CN114563954A (zh) * 2022-02-28 2022-05-31 山东大学 一种基于强化学习和位置增量的四足机器人运动控制方法
CN114578834A (zh) * 2022-05-09 2022-06-03 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115079706B (zh) * 2022-08-16 2022-11-15 合肥工业大学 人机协同控制移动式机器人智能避障方法和系统
CN115079706A (zh) * 2022-08-16 2022-09-20 合肥工业大学 人机协同控制移动式机器人智能避障方法和系统
CN116627041A (zh) * 2023-07-19 2023-08-22 江西机电职业技术学院 一种基于深度学习的四足机器人运动的控制方法
CN116627041B (zh) * 2023-07-19 2023-09-29 江西机电职业技术学院 一种基于深度学习的四足机器人运动的控制方法
CN117742134A (zh) * 2023-12-21 2024-03-22 桂林电子科技大学 一种双足机器人步行规划和控制方法

Also Published As

Publication number Publication date
CN112666939B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN112666939B (zh) 一种基于深度强化学习的机器人路径规划算法
Chen et al. Flexible gait transition for six wheel-legged robot with unstructured terrains
CN111552301B (zh) 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111578940B (zh) 一种基于跨传感器迁移学习的室内单目导航方法及系统
KR101121763B1 (ko) 환경 인식 장치 및 방법
Jain et al. From pixels to legs: Hierarchical learning of quadruped locomotion
Heydari et al. Robust model predictive control of biped robots with adaptive on-line gait generation
JP2006205348A (ja) 障害物回避装置、障害物回避方法及び障害物回避プログラム並びに移動型ロボット装置
Mester et al. Autonomous Locomotion of Humanoid Robots in Presence of Mobile and Immobile Obstacles: Trajectory Prediction, Path Planning, Control and Simulation
Liu et al. ReinforcementDriving: Exploring trajectories and navigation for autonomous vehicles
Chignoli et al. Rapid and reliable quadruped motion planning with omnidirectional jumping
Gupta et al. Trajectory generation and step planning of a 12 DoF biped robot on uneven surface
Li et al. Fuzzy double deep Q-network-based gait pattern controller for humanoid robots
Seo et al. Learning to walk by steering: Perceptive quadrupedal locomotion in dynamic environments
Sotnik et al. Analysis of Existing Infliences in Formation of Mobile Robots Trajectory
CN116859975A (zh) 基于bp神经网络的轮腿机器人轮-足切换控制方法
Azouaoui et al. Soft‐computing based navigation approach for a bi‐steerable mobile robot
Ding et al. Advancements and challenges of information integration in swarm robotics
Raj et al. Humanoid gait pattern generation with orbital energy
Fan et al. A Review of Quadruped Robots: Structure, Control, and Autonomous Motion
Liu et al. Foothold Planning and Body Posture Adjustment Strategy of Hexapod Robot in Complex Terrain
Saputra et al. Topological based Environmental Reconstruction for Efficient Multi-Level Control of Robot Locomotion
Mohades Kasaei et al. Design and implementation of a fully autonomous humanoid soccer robot
Jiang et al. Stable skill improvement of quadruped robot based on privileged information and curriculum guidance
Yin et al. Smart Gait: A Gait Optimization Framework for Hexapod Robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant