CN112666939A

CN112666939A - 一种基于深度强化学习的机器人路径规划算法

Info

Publication number: CN112666939A
Application number: CN202011429479.2A
Authority: CN
Inventors: 何勇; 吴新宇; 董遥; 刘静帅
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-16
Anticipated expiration: 2040-12-09
Also published as: CN112666939B

Abstract

本发明公开了一种基于深度强化学习的机器人路径规划算法，基于深度强化学习，并结合机器人物理模型约束及人工势场理论，旨在提出一种能在线实时运行的智能化路径规划算法，为自平衡外骨骼机器人、人形机器人等双足机器人在有障碍物的动态环境中规划出一条能避障，且满足机器人步行约束要求的自然、类人化的落脚点路径。

Description

一种基于深度强化学习的机器人路径规划算法

技术领域

本发明属于机器人技术领域，涉及一种基于深度强化学习的机器人路径规划算法。

背景技术

对两足动物运动的研究已经转向现实生活中的应用，比如在不平坦的地形上行走，通过门，爬楼梯和梯子、躲避障碍物等。两足机器人在运动方面的重大进展，使它们能够在危险的环境中移动，同时完成复杂的操作任务。然而，考虑到在未知的环境中行走，仿人机器人的效率仍远不能与人类相比，两足动物对外界的变化非常敏感，在相对复杂的环境中双足机器人步行受到了严重的限制。目前现有的路径规划算法如A*、Dijkstras、RRT等只能规划出点到点的路线，难以考虑到双足机器人几何学上的限制，通过额外的约束条件生成的落脚位置难以完全适用双足机器人，对其运动产生一定的限制。

现有专利对双足机器人的路径规划提出的研究方法数量较少，我国已申请或已授权的专利中，发明专利CN111830986A提出一种双足机器人的三维路径规划方法，考虑了双足机器人可跨越物体或可上台阶的最大高度、可跨越物体的最大宽度、双足机器人足部长度以及三维环境中物体的位置和尺寸，设计节点的代价，并进行代价评估，在存在多种类型物体的复杂环境中提前计算一条代价最小的三维路径；该方法规划得到的路径，能够引导机器人在相应的环境中执行跨越、绕行、上台阶的运动。

发明专利CN111290389A提出了一种双足机器人落脚位置控制系统及方法，首先利用路径规划算法规划可行物碰撞的路径，然后根据双足机器人步长约束、运动能力、脚的尺寸与中心偏移等计算出摆动脚的可落脚区域，再使用模糊处理的方法得到机器人的具体落脚位置。该方法能够实现双足机器人路径规划结束后执行具体行走动作时，选择路径两侧合适的落脚位置。

上述两个专利虽然都涉及双足机器人进行路径规划及落脚位置规划，但是还存在如下问题：首先在路径规划方面，这些专利使用的技术方法适用于静态环境，对动态环境适应能力差，并且产生的路线可能与人类直觉上产生偏差，如贴着障碍物行走，而不是以一条自然的弧度绕开各个障碍物行走；其次在落脚位置规划方面，上述两项专利在中心点轨迹路径规划完成后再进行落脚位置计算，可选择位置少，且步态空间不连续，机器人灵活性和平稳性不强。

发明内容

本发明的目的是提供一种基于深度强化学习的机器人路径规划算法，采用该算法能够为自平衡外骨骼机器人、人形机器人等双足机器人在有障碍物的动态环境中规划出一条能避障，且满足机器人步行约束要求的自然、类人化的落脚点路径。

本发明所采用的技术方案是，一种基于深度强化学习的机器人路径规划算法，具体包括如下步骤：

步骤1，利用传感器从包含有机器人动静态障碍物的环境中获取点云图 M；

步骤2，通过人机交互接口获取机器人的目的地信息，通过对步骤1获取点云图处理，获得机器人当前位置P_czp、障碍物位置P_ob及尺寸DM_ob及目标位置P_tar作为输入信息ST_t；

步骤3，基于步骤2所得的输入信息建立用于机器人路径规划的深度强化学习框架；

步骤4，基于步骤3所建立的学习框架，通过仿真环境里的随机地图对策略网络进行训练，在训练过程中通过结合每一轮的状态信息ST_t、动作输出信息ACT_t、奖励函数值r_t信息，利用DDPG算法对策略网络进行更新，直到获得最大化的累积奖励值来完成训练；

步骤5，利用训练好的策略网络，结合机器人环境和目标点的信息，在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列，实现机器人的智能路径规划。

本发明的特点还在于：

步骤1中包含有机器人动静态障碍物的环境为在路面行走的外骨骼机器人以及该外骨骼机器人周围被探测到的地图，该地图的探测范围大小被限制在长度为L_Bx米，宽为L_By米。

步骤2中机器人的目标位置采用如下公式(1)进行确定：

其中，P_tarx、P_tary为目标位置在地图坐标中的X、Y位置，θ_tar为机器人相对当前位置的偏转方向。

步骤2中点云图的处理过程如下

步骤A，设定高度阈值，将点云图上的物体分割出来，即进行二值化处理；

步骤B，对图形进行开操作，使物体的轮廓变得光滑；

步骤C，将图像上相邻的像素点连接形成区域，即进行连通区域提取；

步骤D，对步骤C形成的不同区域进行重心提取，再画出边框，即进行轮廓提取，得到对应信息。

步骤2中点云图M经处理后表达式如下公式(2)所示：

其中，

是点云M坐标中的第(i,j)元素的X,Y,Z位置，w代表点云图矩阵M的列数，h代表行数。

步骤4中深度强化学习训练过程是通过智能体与环境的不断交互进行的，在每次交互过程中，智能体从环境中获取状态St_t，然后根据强化学习算法更新的策略网络决定采取行动；智能体对环境进行操作后环境发生变化，导致智能体产生新的状态St_t+1，智能体会获得一个回报奖励r_t；智能体的目的是在轨迹τ＝(s₀,a₀,s₁,a₁,…,s_T)上学习行为，从而使累积回报R_c最大化，其中轨迹根据停止条件进行截止；停止条件包括：到达目的地条件、超出环境边界条件、触碰障碍物条件；

深度强化学习训练过程为一个具有5元组的马尔科夫决策过程MDPs，如下公式(3)所示：

MDP＝<S,A,R,P,ρ₀> (3)；

其中，S代表所有有效的状态，A为有效的动作，R为奖励函数，P为概率转移函数，ρ₀为初始状态分布。

步骤4中，深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置P_czp的增量，该增量通过与当前位置相加获得下一个落脚点位置

该输出落脚点位置会被存入一个单输入多输出的缓存器中，当触发了到达目的地的停止条件后，所有的规划落脚点位置

会被打包为一个落脚点序列P_nzp输出。

步骤4中，深度强化学习框架中的动作空间引入机器人几何模型约束，将动作空间定义为下一个支撑脚位置P_{nzp_1}相对于当前位置P_czp的增量ΔP，ΔP 采用如下公式(4)表示：

Act＝ΔP＝[ΔP_x,ΔP_y,Δθ_zp]^T (4)；

其中，ΔP_x，ΔP_y,Δθ_zp为连续空间中的x方向位置增量，y方向位置增量及偏转角度增量。

步骤4中，深度强化学习框架中的动作空间引入机器人几何模型约束，将基于空间几何的运动约束应用于动作空间；当动作空间使用直角坐标系表示时，由式(5)可知ΔP_x和ΔP_y受耦合关系约束：

为了消除耦合关系，在(0，-L_G)处建立极坐标系，假定Δθ_zp＝0，新的坐标系下，动作空间采用如下公式(6)表示：

其中，r_p,

表示动作。

步骤5中，利用如下公式(7)计算策略网络的输出，然后将ΔP与当前位置P_czp相加，生成下一个脚位置P_nzp，存储在单输入多输出缓冲区中：

所述步骤5中路径规划算法的奖励r_HLP如式(8)所示：

r_HLP＝w_attr_att+w_repr_rep+w_stopr_stop (8)；

其中，r_att为引力势场奖励，r_rep为斥力势场奖励，r_stop为终端奖励；其中加权因子w_att,w_rep,w_stop∈[0,1]。

本发明的有益效果如下：与现有机器人路径规划技术相比，本发明提出的算法能面向复杂动态的使用环境，能实现在线实时的路径轨迹输出，且所输出的路径轨迹并非传统的单点连续轨迹曲线，而是能直接满足外骨骼机器人、人形机器人等双足机器人需求的离散落脚点序列，该落脚点轨迹既能满足机器人步行约束条件，又能满足类人思维的自然平滑要求。

附图说明

图1是本发明一种基于深度强化学习的机器人路径规划算法的整体框体；

图2是本发明一种基于深度强化学习的机器人路径规划算法中点云图处理的流程图；

图3是本发明一种基于深度强化学习的机器人路径规划算法中环境信息状态空间描述图；

图4是本发明一种基于深度强化学习的机器人路径规划算法中基于机器人运动学几何约束的动作空间图；

图5是本发明一种基于深度强化学习的机器人路径规划算法中动作空间的二维平面图；

图6是本发明一种基于深度强化学习的机器人路径规划算法中基于DDPG 算法的策略网络结构图；

图7(a)～(d)是本发明一种基于深度强化学习的机器人路径规划算法的路径规划实验结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度强化学习的机器人路径规划算法，如图1所示，具体包括如下步骤：

步骤1，利用传感器从包含有机器人动静态障碍物的环境中获取环境点云图M，并通过人机交互接口获取机器人的目的地信息，通过对点云图处理，进而获得机器人当前位置P_czp、障碍物位置P_ob及尺寸DM_ob、目的位置P_tar等输入信息，这些信息作为路径规划器的状态空间输入ST_t；

步骤1中机器人所处的环境为在路面行走的外骨骼机器人(及其他双足机器人)和它周围被探测到的地图，其探测到的地图范围大小被限制在长L_Bx米，宽L_By米。地图中存在静态障碍物和移动障碍物，虚拟边界也属于地图信息。

整个算法的输入是机器人的目标位置P_tar和经过预处理后的点云图 M，如公式(1)和公式(2)所示：

其中P_tarx、P_tary为目标位置在地图坐标中的X、Y位置，θ_tar为机器人相对当前位置的偏转方向。

其中

是云图M坐标中的第(i,j)元素的X,Y,Z位置。式中w代表点云图矩阵M的列数，h代表点云图矩阵M的行数。

算法的输出是如公式(3)所示的离散落脚点序列P_nzp，以及手动给定的步态周期T_gait。

其中

为云图坐标中第i个规划的落脚点位置的X、Y坐标，

是偏转方向。

点云图处理：点云图中包含了机器人当前位置P_czp、障碍物位置P_ob及尺寸DM_ob、目的位置P_tar等输入信息，需要对其处理。处理流程如图 2。选取适当的高度阈值，将图像上的物体分割出来(二值化)；对图像进行开操作，使物体的轮廓变得光滑(开操作)；图像上相邻的像素点连接形成区域(连通区域提取)；对形成的不同区域进行重心提取，在画出边框(轮廓提取)，得到对应的信息。

步骤2，建立用于机器人路径规划的深度强化学习框架，即马尔可夫决策过程，这其中包含状态空间建立、动作空间建立、奖励函数建立、停止条件建立、策略网络的建立以及网络更新算法的建立；

步骤2中深度强化学习框架中的状态空间包括机器人位置P_czp、障碍物位置P_ob及尺寸DM_ob、目的位置P_tar等组成的输入信息ST_t；

步骤2中深度强化学习框架中的动作空间引入机器人几何模型约束，使得规划器算法输出能满足机器人步行约束条件的落脚点，且能缩小动作搜索空间加速学习网络的收敛速度；

步骤2中深度强化学习框架中的奖励函数引入人工势场理论，使得规划器算法输出的轨迹更加自然且符合人类思维习惯；

步骤2中深度强化学习框架中的停止条件包括：到达目的地条件、超出环境边界条件、触碰障碍物条件；

步骤2中深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置P_czp的增量，该增量通过与当前位置相加获得下一个落脚点位置

该输出落脚点位置会被存入一个单输入多输出(SIMO)的缓存器中，当触发了到达目的地的停止条件后，所有的规划落脚点位置

会被打包为一个落脚点序列P_nzp输出；

步骤3，建立好深度强化学习框架后，通过仿真环境里的随机地图对策略网络进行训练，在训练过程中通过结合每一轮的状态信息ST_t，动作输出信息ACT_t，奖励函数值r_t等信息，利用DDPG算法对策略网络进行更新，直到获得最大化的累积奖励值来完成训练；

深度强化学习训练过程是通过智能体与环境的不断交互进行的，在每次交互过程中，智能体从环境中获取状态St_t，然后根据强化学习算法更新的策略网络决定采取行动。智能体对环境进行操作后环境发生变化，导致智能体产生新的状态St_t+1，然智能体会从获得一个回报奖励r_t。智能体的目的是在轨迹τ＝(s₀,a₀,s₁,a₁,…,s_T)上学习行为以最大化其累积回报R_c。其中轨迹不是无限的，它可以根据停止条件进行截止。将上述的过程建模成一个具有5元组的马尔科夫决策过程(MDPs)，如式(4)所示。

MDP＝<S,A,R,P,ρ₀> (4)；

其中，S代表所有有效的状态(状态空间)，A为有效的动作(动作空间)，R为奖励函数，P为概率转移函数，ρ₀为初始状态分布。

状态深度强化学习的状态空间(参见图3)包括支撑脚的当前位置

目标位置P_tar、边界信息Bd＝[Bx_max,Bx_min,By_max,By_min]^T，Bx_max,Bx_min分别表示在X轴上边界的最大值和最小值，By_max,By_min分别表示在Y轴上边界的最大值和最小值。障碍物位置

及其维度

(j＝1～m， m是障碍物数量，

分别为障碍物的X和Y坐标值，

分别为障碍物在X和Y坐标轴方向上的长度信息。最后智能体的观察状态为(10+4m) 维向量St，如式(5)所示。

动作空间定义：在常用的基于强化学习的轨迹规划算法中，其动作空间通常定义为被控对象某个点(如无人车的中心点)的轨迹，但这种点的轨迹不能直接满足双足机器人的使用要求，因为双足机器人在行走过程所需要的是左右两个脚的落脚点位置，它所体现出来的是一个区分左右的离散落脚点序列，而不是某个点的连续轨迹曲线。在本发明中，动作空间定义为下一个支撑脚位置P_{nzp_1}相对于当前位置P_czp的增量ΔP，如式(6)所示：

Act＝ΔP＝[ΔP_x,ΔP_y,Δθ_zp]^T (6)；

其中ΔP_x，ΔP_y,Δθ_zp为连续空间中的x方向位置增量，y方向位置增量及偏转角度增量。

几何约束：为了提高在实际机器人上部署强化学习策略的安全性，并且为了缩小动作空间搜索范围而加快训练收敛速度。本发明将基于空间几何的运动约束应用于动作空间。如图4所示，步行时将腰部高度设为H_w，包括摇摆脚可到达区域RA_f，腰部中心可达区域RA_w，其在X_fY_f平面上的投影为RA_wxy，它是RA_f的子区域(RA_f表示摇摆脚可达区域)。RA_g是安全间隙，以避免双足之间的干扰。为了增强步行稳定性边界，实现静态稳定步态，可以选择RA_wxy代替RA_f作为动作空间区域，但RA_wxy(RA_wxy表示腰部中心可达区域投影)是不规则形状，因此选择其子区域(绿色区域)作为动作空间区域RA_act。RA_act为圆心位于(0，-L_G)处的半圆区域，半径为R_p，计算如公式 (7)。RA_act可表示为支撑脚坐标，如式(8)所示：

其中，L_T,L_S,L_w分别是机器人的大腿、小腿、腰部的长度，L_G是安全间隙的宽度；

其中，ΔP_x和ΔP_y分别表示摆动脚相对支撑脚要运动到的位置的增量，R_p为动作空间的半径，L_G为安全间隙的宽度。

当动作空间使用直角坐标系表示时，由式(8)可知ΔP_x和ΔP_y受耦合关系约束，如果直接将此作为动作空间，将不便策略网络输出。为了消除耦合关系，在(0，-L_G)处建立极坐标系，如图5所示。除此之外，为了简化问题，假定Δθ_zp＝0，在实际应用中也可以不为0。因此，在新的坐标下，动作空间采用如下公式(9)表示：

动作

不能直接输出，需要在支撑脚坐标系中转换为ΔP_x和ΔP_y。除此之外，我们应该注意下一个规划的位置是左脚还是右脚，因为左脚必须在右脚的左边，这是一种隐藏的约束，以避免冲突。利用式(10)计算策略网络的输出，然后将ΔP与当前位置P_czp相加，生成下一个脚位置P_nzp，存储在单输入多输出(SIMO)缓冲区中，如图1所示。

ΔP_x、ΔP_y分别表示ΔP点的横坐标和纵坐标。

步骤4，利用训练好的策略网络，结合机器人环境和目标点的信息，可以在线实时输出当前时刻机器人从当前位置到目标点位置的落脚点位置序列，实现机器人的智能路径规划。

奖励函数:人类行走时，最想要的不仅是到达目的地的最短路径，而且是远离障碍的自然光滑路径。本文提出了一种基于人工势场(APF)理论的奖励函数，以增强策略网络生成类人思维路径的能力。路径规划算法的奖励r_HLP如式(11)所示，由引力势场奖励(APR)r_att、斥力势场奖励(RPR)r_rep和终端奖励(TR)r_stop三项的加权和组成。

r_HLP＝w_attr_att+w_repr_rep+w_stopr_stop (11)

其中加权因子w_att,w_rep,w_stop∈[0,1]。

引力势场奖励用来鼓励智能体向目的地探索以产生到达目的地的路径，如式(12)所示。ratt会随着规划的脚步位置P_nzp与目标位置P_tar距离Δd_tar的减小而增大。

排斥势场奖励的目的是使生成路径远离障碍物，如式(13)所示。r_rep随着P_nzp和

之间的距离

减小而减小，但这只在

小于一个给定的安全距离D_ob时有效。

停止条件奖励函数由几个大的正值(C_goal,C_bou,C_obs)组成，用于鼓励或阻止满足不同停止条件的行为，如式(14)所示。

其中(Bx_min,Bx_max,By_min,By_max)为环境的边界坐标。R_tar是目标区域的半径,

是第j个障碍物的维度信息。

基于DDPG的策略网络更新算法与策略网络结构:如上所述，MDP的状态空间和动作空间都是连续的。DDPG算法适合这种环境，DDPG是一种在线的非策略强化学习方法，包含一个评价网络和一个动作网络。本发明设计评价网路和动作网络如图6所示。动作网络包含三个隐藏层，分别包含512、512、3个节点，两层之间使用Relu激活函数，输出需要经过tanh函数和lambada层进行变换到指定的范围。评价网络包含两部分输入，分别为状态输入和动作输入，状态输入经过两个含有512个节点的隐藏层，动作经过一个512个节点的隐藏层，两者结果相加再经过Relu函数得到输出。

实施例

本发明在1～4个障碍物环境下得到的实验结果如图7所示(图7(a)为1 个障碍物，图7(b)为两个障碍物，图7(c)为三个障碍物，图7(d)为4 个障碍物)，所生成的落脚点路径最终都到达目标区域，并且落脚位置交替出现，落脚点步幅会根据与目标点位置距离来调整，路劲轨迹可以以较为自然平滑的弧度避开障碍物，这与人类行走方式相同。该算法可以在一台普通的个人电脑上运行，并且对于动态障碍物或者静态障碍物环境，都能在0.015秒的时间内完成路径的规划输出，这完全能满足机器人在线实时使用的要求。

本发明中获取环境地图点云图所使用的深度图像拍摄设备可由单目相机、双目相机、激光雷达、3D激光雷达等设备替代。

本发明中使用的深度强化学习的策略更新方法DDPG可由其他深度强化学习方法替代，如近端策略优化(PPO)，异步优势演员批评(A3C)等方法。

(1)本发明提出一种基于深度强化学习的双足机器人路径规划算法。该算法结合了深度强化学习与机器人物理运动学约束条件及人工势场理论，使得该算法能面向复杂动态的使用环境，能实现在线实时的路径轨迹输出，且所输出的路径轨迹并非传统的单点连续轨迹曲线，而是能直接满足外骨骼机器人、人形机器人等双足机器人需求的离散落脚点序列，该落脚点轨迹既能满足机器人步行约束条件，又能满足类人思维的自然平滑要求；

(2)本发明所提出的路径规划算法的输入为通过人机交互获得的目的地位置及通过传感器获得的环境点云地图，且环境点云地图不是直接输入到算法网络中，而是通过一个点云图预处理模块进行处理得到机器人当前位置P_czp、障碍物位置P_ob及尺寸DM_ob、目的位置P_tar等输入信息，这可以加快算法网络的训练收敛速度；

(3)本发明所提出的路径规划算法的输入为通过人机交互获得的目的地位置及通过传感器获得的环境点云地图，且环境点云地图不是直接输入到算法网络中，而是通过一个点云图预处理模块进行处理得到机器人当前位置P_czp、障碍物位置P_ob及尺寸DM_ob、目的位置P_tar等输入信息，这可以加快算法网络的训练收敛速度；

(4)本发明在定义路径规划深度强化学习算法框架的动作空间时，为了提高在实际机器人上部署强化学习策略的安全性，将基于机器人运动学空间几何的运动约束应用于动作空间。设计时考虑到双足机器人的大腿、小腿及腰部长度，为了避免双足之间的干涉，添加了安全距离。这使得算法的输出落脚点能满足机器人步行稳定安全要求；

(5)本发明在定义路径规划深度强化学习算法框架的奖励函数时，提出了基于人工势场理论的奖励函数，增强了智能体生成类人思维路径的能力。奖励函数分为三部分：引力势场奖励函数用来鼓励智能体向目的地探索以产生路径；带有作用距离的排斥势场奖励函数的目的是使生成的路径以适当的距离远离障碍物；终端奖励函数用于鼓励满足达到目的地的动作，而惩罚超出边界或触碰障碍物的动作，进而加快网络的训练收敛速度。

Claims

1.一种基于深度强化学习的机器人路径规划算法，其特征在于：具体包括如下步骤：

步骤1，利用传感器从包含有机器人动静态障碍物的环境中获取点云图M；

2.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤1中包含有机器人动静态障碍物的环境为在路面行走的外骨骼机器人以及该外骨骼机器人周围被探测到的地图，该地图的探测范围大小被限制在长度为L_Bx米，宽为L_By米。

3.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤2中机器人的目标位置采用如下公式(1)进行确定：

4.根据权利要求3所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤2中点云图的处理过程如下

步骤B，对图形进行开操作，使物体的轮廓变得光滑；

5.根据权利要求4所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤2中点云图M经处理后表达式如下公式(2)所示：

其中，

是点云M坐标中的第(i,j)元素的X,Y,Z位置。

6.根据权利要求1所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤4中深度强化学习训练过程是通过智能体与环境的不断交互进行的，在每次交互过程中，智能体从环境中获取状态St_t，然后根据强化学习算法更新的策略网络决定采取行动；智能体对环境进行操作后环境发生变化，导致智能体产生新的状态St_t+1，智能体会获得一个回报奖励r_t；智能体的目的是在轨迹τ＝(s₀,a₀,s₁,a₁,…,s_T)上学习行为，从而使累积回报R_c最大化，其中轨迹根据停止条件进行截止；停止条件包括：到达目的地条件、超出环境边界条件、触碰障碍物条件；

所述深度强化学习训练过程为一个具有5元组的马尔科夫决策过程MDPs，如下公式(3)所示：

MDP＝<S,A,R,P,ρ₀> (3)；

7.根据权利要求6所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤4中，深度强化学习框架中的策略网络的输出为机器人相对当前支撑脚位置P_czp的增量，该增量通过与当前位置相加获得下一个落脚点位置

会被打包为一个落脚点序列P_nzp输出。

8.根据权利要求7所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤4中，深度强化学习框架中的动作空间引入机器人几何模型约束，将动作空间定义为下一个支撑脚位置P_{nzp_1}相对于当前位置P_czp的增量ΔP，ΔP采用如下公式(4)表示：

Act＝ΔP＝[ΔP_x,ΔP_y,Δθ_zp]^T (4)；

9.根据权利要求8所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤4中，深度强化学习框架中的动作空间引入机器人几何模型约束，将基于空间几何的运动约束应用于动作空间；当动作空间使用直角坐标系表示时，由式(5)可知ΔP_x和ΔP_y受耦合关系约束：

其中，

表示动作。

10.根据权利要求9所述的一种基于深度强化学习的机器人路径规划算法，其特征在于：所述步骤5中，利用如下公式(7)计算策略网络的输出，然后将ΔP与当前位置P_czp相加，生成下一个脚位置P_nzp，存储在单输入多输出缓冲区中：

所述步骤5中路径规划算法的奖励r_HLP如式(8)所示：

r_HLP＝w_attr_att+w_repr_rep+w_stopr_stop(8)；