CN110081889A

CN110081889A - 一种基于随机采样和强化学习的机器人路径规划方法

Info

Publication number: CN110081889A
Application number: CN201910501709.2A
Authority: CN
Inventors: 张俊华; 吴智恒; 程良伦; 王涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-08-02

Abstract

本申请公开了一种路径规划方法、系统及一种机器人和计算机可读存储介质，该方法包括：确定起始点和目标点，初始化随机扩展树，并将起始点作为随机扩展树的根节点；在自由空间中选取第一节点，在随机扩展树中确定与第一节点距离最近的第二节点；在第一节点与第二节点的连线上确定与第二节点的距离为预设值的第三节点；利用训练完成的智能体生成第二节点与第三节点之间的路径，当路径上不存在障碍物时，将第三节点添加至随机扩展树中；当随机扩展树的节点包含目标点或者节点在目标区域内时，通过回溯节点的方式在随机扩展树中确定起始点与目标点之间的路径，能够同时满足规划效率、机器人动力学、任务约束和鲁棒性等要求。

Description

一种基于随机采样和强化学习的机器人路径规划方法

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种路径规划方法、系统及一种机器人和一种计算机可读存储介质。

背景技术

机器人路径规划是机器人研究领域的一个重要分支，其依据某个或某些优化准则(如工作代价最小、行走路径最短、行走时间最短等)，在其工作空间中寻找到一条从起始点到目标点的能避开障碍物的最优路径。

基于随机采样的路径规划算法仅通过构型空间中的采样点进行碰撞检测来获取障碍物信息，并在此基础上进行路径规划。在采用该类方法生成无碰撞路径后，机器人无法应对执行该路径时带来的新的复杂性，如须任务约束，环境变化，传感器噪声，测量误差和未建模的系统动力学等。

基于强化学习(RL)的路径规划算法在复杂高维空间上的进行路径规划时往往只能获得稀疏的奖励，RL算法容易陷入局部最小值，使得智能体难以训练或仅在局部小范围内规划成功。

因此，如何克服基于随机采样算法和强化学习算法在复杂高维空间下进行机器人路径规划时的各自局限性是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种路径规划方法、系统及一种机器人和一种计算机可读存储介质，克服了基于随机采样算法和强化学习算法在复杂高维空间下进行机器人路径规划时的各自局限性。

为实现上述目的，本申请提供了一种路径规划方法，包括：

确定起始点和目标点，初始化随机扩展树，并将所述起始点作为所述随机扩展树的根节点；

在自由空间中选取第一节点，在所述随机扩展树中确定与所述节点距离最近的第二节点；其中，所述自由空间为不存在障碍物的区域；

在所述第一节点与所述第二节点的连线上确定与所述第二节点的距离为预设值的第三节点；

利用训练完成的智能体生成所述第二节点与所述第三节点之间的路径，当所述路径上不存在障碍物时，将所述第三节点添加至所述随机扩展树中；

当所述随机扩展树的节点包含所述目标点或所述节点进入目标区域时，通过回溯节点的方式在所述随机扩展树中确定所述起始点与所述目标点之间的路径。

其中，还包括：

利用深度确定性策略梯度训练智能体，得到训练完成的智能体。

其中，所述利用深度确定性策略梯度训练智能体，得到训练完成的智能体，包括：

初始化所述深度确定性策略梯度中的参数；

在预设训练回合数内利用所述深度确定性策略梯度训练所述智能体，确定最优策略参数，使得所述智能体累计回报的期望最大，得到训练完成的智能体。

其中，所述初始化所述深度确定性策略梯度中的参数，包括：

初始化行动者网络和所述评论家网络；

利用所述行动者网络和所述评论家网络初始化目标网络；

初始化回放缓存；

初始化步数和训练回合数。

其中，所述在预设训练回合数内利用所述深度确定性策略梯度训练所述智能体，确定最优策略参数，使得所述智能体累计回报的期望最大，得到训练完成的智能体，包括：

S21：初始化动作探索过程，并获取所述智能体的当前状态；

S22：根据所述当前的控制策略选取目标动作；

S23：执行所述目标动作，并获取所述目标动作对应的回报和所述智能体的下一状态；

S24：根据所述当前状态、所述目标动作、所述回报和所述下一状态更新所述评论家网络的值函数和所述行动者网络的控制策略；

S25：根据更新后的所述评论家网络和所述行动者网络更新所述目标网络；

S26：将步数加一，并判断所述步数是否超过预设最大步数；若是，则进入S27；若否，则进入S22；

S27：将训练回合数加一，并判断所述训练回合数是否超过所述预设训练回合数；若是，则得到训练完成的智能体；若否，则进入S21。

其中，所述S24包括：

将所述当前状态、所述目标动作、所述回报和所述下一状态确定为转变过程；

将所述转变过程存储至所述回放缓存中，并在所述回放缓存中选取k个转变过程样本；

最小化关于所述k个转化过程样本的损失函数来更新所述评论家网络，并利用所述k个转变过程样本的梯度来更新所述行动者网络的策略梯度。

为实现上述目的，本申请提供了一种路径规划系统，包括：

初始化模块，用于确定起始点和目标点，初始化随机扩展树，并将所述起始点作为所述随机扩展树的根节点；

选取模块，用于在自由空间中选取第一节点，在所述随机扩展树中确定与所述第一节点距离最近的第二节点；其中，所述自由空间为不存在障碍物的区域；

第一确定模块，用于在所述第一节点与所述第二节点的连线上确定与所述第二节点的距离为预设值的第三节点；

生成模块，用于利用训练完成的智能体生成所述第二节点与所述第三节点之间的路径，当所述路径上不存在障碍物时，将所述第三节点添加至所述随机扩展树中；

第二确定模块，用于当所述随机扩展树的节点包含所述目标点或所述节点进入目标区域时，通过回溯节点的方式在所述随机扩展树中确定所述起始点与所述目标点之间的路径。

其中，还包括：

训练模块，用于利用深度确定性策略梯度训练智能体，得到训练完成的智能体。

为实现上述目的，本申请提供了一种机器人，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述路径规划方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述路径规划方法的步骤。

通过以上方案可知，本申请提供的一种路径规划方法，包括：确定起始点和目标点，初始化随机扩展树，并将所述起始点作为所述随机扩展树的根节点；在自由空间中选取第一节点，在所述随机扩展树中确定与所述第一节点距离最近的第二节点；其中，所述自由空间为不存在障碍物的区域；在所述第一节点与所述第二节点的连线上确定与所述第二节点的距离为预设值的第三节点；利用训练完成的智能体生成所述第二节点与所述第三节点之间的路径，当所述路径上不存在障碍物时，将所述第三节点添加至所述随机扩展树中；当所述随机扩展树的节点包含所述目标点或所述节点进入目标区域时，通过回溯节点的方式在所述随机扩展树中确定所述起始点与所述目标点之间的路径。

本申请提供的路径规划方法，使用训练完成的智能体来确定构形空间中点对点之间的连通性，进而构建随机扩展树，而不是传统快速探索随机树法中仅仅通过简单的两点间直线连接来确定连通性。训练好的智能体能够始终如一地执行在构形空间中点对点任务并且沿着生成的两点间轨迹不与障碍物发生碰撞的情况下才连接这两个点，并将其中的新节点添加到随机扩展树中。由此可见，本申请提供的路径规划方法，能够同时满足规划效率、机器人动力学和任务约束，在面对的环境变化时具有较强的鲁棒性。本申请还公开了一种路径规划系统及一种机器人和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种路径规划方法的流程图；

图2-图7为路径选择的过程示意图；

图8为根据一示例性实施例示出的另一种路径规划方法的流程图；

图9为图8中步骤S202的细化流程图；

图10为根据一示例性实施例示出的一种路径规划系统的结构图；

图11为根据一示例性实施例示出的一种机器人的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种路径规划方法，克服了基于随机采样方法在复杂高维空间下进行机器人路径规划时的局限性。

参见图1，根据一示例性实施例示出的一种路径规划方法的流程图，如图1所示，包括：

S101：确定起始点和目标点，初始化随机扩展树，并将所述起始点作为所述随机扩展树的根节点；

本实施例的执行主体为机器人的处理器，目的在于对机器人从起始点至目标点进行路径规划，可以通过机器人上的摄像装置获取空间中的各点，如本步骤中的起始点和目标点、后续步骤中的第一节点、第二节点和第三节点等。

在本步骤中，首先确定需要路径规划的起始点和目的点，初始化随机扩展树，如图2所示，将起始点P_init作为树的根节点。

S102：在自由空间中选取第一节点，在所述随机扩展树中确定与所述第一节点距离最近的第二节点；其中，所述自由空间为不存在障碍物的区域；

在本步骤中，如图3所示，在空间中任选一点P_rand(即第一节点)，满足P_rand∈S_free，其中，S_free为空间中没有障碍物的区域，即自由空间。如图4所示，在随机扩展树中确定距离P_rand最近的点P_closest(即第二节点)。

S103：在所述第一节点与所述第二节点的连线上确定与所述第二节点的距离为预设值的第三节点；

在本步骤中，如图5所示，在点P_closest与点P_rand的连线上求取点(P_new即第三节点)，使得P_new满足P_new∈S_free和D(P_new,P_closest)＝d_value，其中，D(P_new,P_closest)为点P_new和点P_closest之间的距离，d_value为预设值。

S104：利用训练完成的智能体生成所述第二节点与所述第三节点之间的路径，当所述路径上不存在障碍物时，将所述第三节点添加至所述随机扩展树中；

在本步骤中，如图6所示，若可求得P_new，且满足训练完成的智能体能够始终如一地执行点P_closest对点P_new任务并且沿着生成的两点间轨迹不与障碍物发生碰撞的情况下，则将P_new加入到随机扩展树中，并将P_closest与P_new通过两点间的轨迹进行连接，否则重新进入S102，直到重复次数超过设定最大次数，并宣告本次路径规划失败。

如图7所示，若添加到随机扩展树中的点P_new为目标点P_goal或满足D(P_new,P_goal)＜d_end，则路径规划成功，通过回溯节点的方式在随机扩展树中找到一条从起始点到目标点的路径，否则重新进入S102，直到重复次数超过设定最大次数，并宣告本次路径规划失败，其中，D(P_new,P_goal)为点P_new和点P_goal之间的距离，d_end为预设距离阈值。

可以理解的是，在本步骤之前，还包括：利用深度确定性策略梯度训练智能体，得到训练完成的智能体。深度确定性策略梯度(DDPG)是当前最先进的算法，它可以处理非常高维状态和动作空间，并且能够较好地适应新的环境，对噪声和误差的有较强的鲁棒性，能够学习基于未处理的传感器测量数据来控制机器人，已成功运用到机器人的路径规划中。

S105：当所述随机扩展树的节点包含所述目标点或所述节点进入目标区域时，通过回溯节点的方式在所述随机扩展树中确定所述起始点与所述目标点之间的路径。

在具体实施中，当随机扩展树中的节点包含了目标点或者进入了目标区域，便可以通过回溯节点的方式在随机树中找到一条从起始点至目标点的路径。此处的目标区域为以目标点为圆心，半径为预设距离阈值d_end的圆形区域。

本申请实施例提供的路径规划方法，使用训练完成的智能体来确定构形空间中点对点之间的连通性，进而构建随机扩展树，而不是传统快速探索随机树法中仅仅通过简单的两点间直线连接来确定连通性。训练好的智能体能够始终如一地执行在构形空间中点对点任务并且沿着生成的两点间轨迹不与障碍物发生碰撞的情况下才连接这两个点，并将其中的新节点添加到随机扩展树中。由此可见，本申请实施例提供的路径规划方法，能够同时满足规划效率、机器人动力学和任务约束，在面对的环境变化时具有较强的鲁棒性。

本实施例详细介绍智能体的训练过程，具体的，如图8所示，包括：

S201：初始化所述深度确定性策略梯度中的参数；

在本步骤中，首先初始化深度确定性策略梯度中的参数，可以包括行动者网络和评论家网络、目标网络、回放缓存、步数和训练回合数等。即本步骤可以包括：初始化行动者网络和所述评论家网络；利用所述行动者网络和所述评论家网络初始化目标网络；初始化回放缓存；初始化步数和训练回合数。

在具体实施中，随机初始化行动者网络μ(s|θ^μ)和评论家网络Q(s,a|θ^Q)的参数：θ^μ和θ^Q；将θ^μ和θ^Q复制给目标网络Q'和μ'的参数θ^μ'和θ^Q'来进行θ^μ'和θ^Q'的初始化；初始化回放缓存R；初始化步数和训练回合数。

S202：在预设训练回合数内利用所述深度确定性策略梯度训练所述智能体，确定最优策略参数，使得所述智能体累计回报的期望最大，得到训练完成的智能体。

在本步骤中，在预设训练回合数内对智能体进行训练，寻找最优参数θ^μ，使得智能体在执行点对点的路径规划任务中累计回报的期望J(θ^μ)＝E_θμ[r₁+γr₂+γ²r₃+...]最大，其中γ表示折扣因子，r表示回报函数(如果智能体到达期望点给予奖励，如果智能体碰到障碍物就进行惩罚)。

优选的，如图9所示，上述实施例中的步骤S202可以包括：

S21：初始化动作探索过程，并获取所述智能体的当前状态；

S22：根据所述当前的控制策略选取目标动作；

在具体实施中，初始化一个随机动作探索过程N，并获取当前状态s_t。根据当前控制策略和探索噪声选择动作a_t＝μ(s_t|θ^μ)+N_t，执行当前动作a_t，然后获得回报r_t以及下一状态s_t+1。

S24：根据所述当前状态、所述目标动作、所述回报和所述下一状态更新所述评论家网络和所述行动者网络；

在本步骤中，在预设训练回合数内对智能体进行训练，寻找最优参数θ^μ。具体的，本步骤可以包括：将所述当前状态、所述目标动作、所述回报和所述下一状态确定为转变过程；将所述转变过程存储至所述回放缓存中，并在所述回放缓存中选取k个转变过程样本；最小化关于所述k个转化过程样本的损失函数来更新所述评论家网络，并利用所述k个转变过程样本的梯度来更新所述行动者网络的策略梯度。

在具体实施中，将转变过程(s_t,a_t,r_t,s_t+1)存储到R中，从R中随机采样k个转变过程(s_t,a_t,r_t,s_t+1)。设置y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q’)，通过最小化损失函数来更新评论家网络，使用样本梯度来更新行动者网络策略梯度：

在本步骤中，通过下述公式更新目标网络的参数：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ’←τθ^μ+(1-τ)θ^μ’

S26：将步数加一，并判断所述步次数是否超过预设最大步数；若是，则进入S27；若否，则进入S22；

S27：将训练回合数加一，并判断所述训练回合数是否超过所述预设训练回合数；若是，则进入S28；若否，则进入S21；

S28：得到训练完成的智能体。

下面对本申请实施例提供的一种路径规划系统进行介绍，下文描述的一种路径规划系统与上文描述的一种路径规划方法可以相互参照。

参见图10，根据一示例性实施例示出的一种路径规划系统的结构图，如图10所示，包括：

初始化模块100，用于确定起始点和目标点，初始化随机扩展树，并将所述起始点作为所述随机扩展树的根节点；

选取模块200，用于在自由空间中选取第一节点，在所述随机扩展树中确定与所述第一节点距离最近的第二节点；其中，所述自由空间为不存在障碍物的区域；

第一确定模块300，用于在所述第一节点与所述第二节点的连线上确定与所述第二节点的距离为预设值的第三节点；

生成模块400，用于利用训练完成的智能体生成所述第二节点与所述第三节点之间的路径，当所述路径上不存在障碍物时，将所述第三节点添加至所述随机扩展树中；

第二确定模块500，用于当所述随机扩展树的节点包含所述目标点或所述节点进入目标区域时，通过回溯节点的方式在所述随机扩展树中确定所述起始点与所述目标点之间的路径。

本申请实施例提供的路径规划系统，使用训练完成的智能体来确定构形空间中点对点之间的连通性，进而构建随机扩展树，而不是传统快速探索随机树法中仅仅通过简单的两点间直线连接来确定连通性。训练好的智能体能够始终如一地执行在构形空间中点对点任务并且沿着生成的两点间轨迹不与障碍物发生碰撞的情况下才连接这两个点，并将其中的新节点添加到随机扩展树中。由此可见，本申请实施例提供的路径规划系统，能够同时满足规划效率、机器人动力学和任务约束，在面对的环境变化时具有较强的鲁棒性。

在上述实施例的基础上，作为一种优选实施方式，还包括：

在上述实施例的基础上，作为一种优选实施方式，所述训练模块包括：

初始化子模块，用于初始化所述深度确定性策略梯度中的参数；

训练子模块，用于在预设训练回合数内利用所述深度确定性策略梯度训练所述智能体，确定最优策略参数，使得所述智能体累计回报的期望最大，得到训练完成的智能体。

在上述实施例的基础上，作为一种优选实施方式，所述初始化子模块包括：

第一初始化单元，用于初始化行动者网络和所述评论家网络；

第二初始化单元，用于利用所述行动者网络和所述评论家网络初始化目标网络；

第三初始化单元，用于初始化回放缓存；

第四初始化单元，用于初始化步数和训练回合数。

在上述实施例的基础上，作为一种优选实施方式，所述训练子模块包括：

获取单元，用于初始化动作探索过程，并获取所述智能体的当前状态；

选取单元，用于根据所述当前的控制策略选取目标动作；

执行单元，用于执行所述目标动作，并获取所述目标动作对应的回报和所述智能体的下一状态；

第一更新单元，用于根据所述当前状态、所述目标动作、所述回报和所述下一状态更新所述评论家网络和所述行动者网络；

第二更新单元，用于根据更新后的所述评论家网络和所述行动者网络更新所述目标网络；

第一判断单元，用于将步数加一，并判断所述步数是否超过预设最大数；若是，则启动第二判断单元的工作流程；若否，则启动选取单元的工作流程；

第二判断单元，用于将训练回合数加一，并判断所述训练回合数是否超过所述预设训练回合数；若是，则得到训练完成的智能体；若否，则进入S21。

在上述实施例的基础上，作为一种优选实施方式，所述第一更新单元包括：

确定子单元，用于将所述当前状态、所述目标动作、所述回报和所述下一状态确定为转变过程；

存储子单元，用于将所述转变过程存储至所述回放缓存中，并在所述回放缓存中选取k个转变过程样本；

更新子单元，用于通过最小化关于所述k个转化过程样本的损失函数来更新所述评论家网络，并利用所述k个转变过程样本的梯度来更新所述行动者网络的策略梯度。

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种机器人，参见图11，本申请实施例提供的一种机器人的结构图，如图11所示，可以包括处理器111和存储器112。该机器人还可以包括多媒体组件113，输入/输出(I/O)接口114，以及通信组件115中的一者或多者。

其中，处理器111用于控制该机器人的整体操作，以完成上述的路径规划方法中的全部或部分步骤。存储器112用于存储各种类型的数据以支持在该机器人的操作，这些数据例如可以包括用于在该机器人上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(StaticRandom Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件113可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器112或通过通信组件115发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口114为处理器111和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件115用于该机器人与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件115可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，机器人可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器(Digital SignalProcessor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的路径规划方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述路径规划方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器112，上述程序指令可由机器人的处理器111执行以完成上述的路径规划方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种路径规划方法，其特征在于，包括：

在自由空间中选取第一节点，在所述随机扩展树中确定与所述第一节点距离最近的第二节点；其中，所述自由空间为不存在障碍物的区域；

2.根据权利要求1所述路径规划方法，其特征在于，还包括：

3.根据权利要求2所述路径规划方法，其特征在于，所述利用深度确定性策略梯度训练智能体，得到训练完成的智能体，包括：

初始化所述深度确定性策略梯度中的参数；

4.根据权利要求3所述路径规划方法，其特征在于，所述初始化所述深度确定性策略梯度中的参数，包括：

初始化行动者网络和所述评论家网络；

利用所述行动者网络和所述评论家网络初始化目标网络；

初始化回放缓存；

初始化步数和训练回合数。

5.根据权利要求4所述路径规划方法，其特征在于，所述在预设训练回合数内利用所述深度确定性策略梯度训练所述智能体，确定最优策略参数，使得所述智能体累计回报的期望最大，得到训练完成的智能体，包括：

S21：初始化动作探索过程，并获取所述智能体的当前状态；

S22：根据所述当前的控制策略选取目标动作；

6.根据权利要求5所述路径规划方法，其特征在于，所述S24包括：

7.一种路径规划系统，其特征在于，包括：

8.根据权利要求7所述路径规划系统，其特征在于，还包括：

9.一种机器人，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述路径规划方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述路径规划方法的步骤。