CN107065881B

CN107065881B - 一种基于深度强化学习的机器人全局路径规划方法

Info

Publication number: CN107065881B
Application number: CN201710346125.3A
Authority: CN
Inventors: 刘华平; 韩建晖; 王博文; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2019-11-08
Anticipated expiration: 2037-05-17
Also published as: CN107065881A

Abstract

本发明提出一种基于深度强化学习的机器人全局路径规划方法，属于机器学习和全局路径规划技术领域。该方法在训练阶段：首先在场景内安装俯视摄像机，并构建深度神经网络，设定一条训练路径后，深度神经网络根据摄像机所拍摄的图片输出机器人执行的动作，并根据动作执行的效果对深度神经网络的参数进行优化；然后更新目标位置，对机器人进行不同的路径规划训练，得到最终深度神经网络。在执行阶段：最终深度神经网络根据摄像机拍摄图像输出机器人执行的动作，机器人执行该动作；若机器人执行完动作后到达目标终位置，则机器人完成全局路径规划。本发明具有较强的实时性，无需人为参与，不需要进入场景预先构建环境地图，适用于多种场景，成本低廉。

Description

一种基于深度强化学习的机器人全局路径规划方法

技术领域

本发明涉及一种基于深度强化学习的机器人全局路径规划方法，属于机器学习领域和全局路径规划技术领域。

背景技术

近年来，机器人成为高技术领域内迅速发展起来的重要产业之一，全局路径规划技术又是机器人技术研究的重要领域。良好的机器人全局路径规划技术可以减少机器人作业时间，减少能源损耗，提高机器人的工作效率，提升人类生活水平质量等。例如在一些环境恶劣，人类难以到达的事故现场，良好全局路径规划技术可以使抢险机器人穿越障碍到达目标位置实施救援任务；在家庭生活中，通过服务机器人的“眼睛”和“耳朵”了解家庭环境，从一个房间到达另一个房间帮助家庭分担家务。因此，移动机器人的全局路径规划技术在现在和将来都拥有很广阔的应用和发展空间，具有非常巨大的研究价值。而传统的全局路径规划技术，机器人需要携带大量的传感器去感知环境，预先在场景中构建全局地图。该方法在环境发生变化时需要重新建立连通模型，适应能力差，实用性不强。

当前公开技术文献中，如“一种基于ROS的移动机器人室内环境探索系统与控制方法”，专利公开号为105487535A。该技术基于机器人操作系统，人工操控搭载雷达传感器的移动机器人在场景中构建局部地图，将局部地图拼接成全局地图，并作为移动机器人在场景中运动控制的基础，应用到后期的全局路径规划任务中。该技术首先要求构建场景的全局地图，并且全局地图质量的好坏对后期移动机器人在场景中的应用效果产生决定影响。然而，在很多实际的应用场景中我们不能够构建高质量的全局地图，甚至不具备预先进入场景内构建全局地图的条件。因此，多种限制因素导致该技术实际应用中工作量巨大，人机交互的体验感大幅下降，不能够方便快捷的完成任务，难以在实际场景中大量的应用与推广。

目前，图像信息处理的很多问题都已经开始用深度神经网络进行解决，并取得了广泛的成功，深度神经网络能够准确的提取特征并有效的表达模型信息。强化学习又称评价学习，是一个不断的试探过程。它通过不断的行动与评价获得知识，改进行动方案以适应环境，使最终的评价函数值最大，达到学习的目的。

发明内容

本发明的目的是为克服已有技术的不足之处,提出了一种基于深度强化学习的机器人全局路径规划方法。本发明具有较强的实时性，且无需人为参与，不需要进入场景预先构建环境地图，能够适用于多种不同场景，成本低廉。

本发明提出一种基于深度强化学习的机器人全局路径规划方法，包括以下步骤：

本发明提出的一种基于深度强化学习的机器人全局路径规划方法，其特征在于，分为训练阶段和执行阶段，包括以下步骤：

1)训练阶段；具体步骤如下：

1-1)在需要进行机器人全局路径规划的场景内距离地面h_g的屋顶安装俯视摄像机，俯视摄像机对所在场景进行实时拍摄，得到该场景的一系列RGB图像；

1-2)建立评判机器人运动收益的深度神经网络，记为N_R，具体步骤如下：

1-2-1)构建一个包含N层的深度神经网络N_R，包括：一层输入层L₁，若干层卷积层L_cnn-conv，若干层池化层L_cnn-pool，一层全连接层L_full和一层输出层L_n；

深度神经网络N_R中，输入层L₁的输入采用步骤1-1)安装的俯视摄像机连续拍摄的4帧RGB图像的信息作为一组输入数据；由于每张RGB图像包含3个维度，因此深度神经网络N_R的一组输入数据，记为x:h_net×w_net×3×4，其中，h_net代表RGB图像的高度，w_net代表RGB图像的宽度；

输出层L_n的输出包含三个维度，每一维度分别对应机器人的一种运动方式，分别记为：Q₁、Q₂、Q₃，则输出层L_n的输出为一个3×1的矩阵，记为y:{Q₁；Q₂；Q₃}；其中，Q₁为左转30度前进，Q₂为直行，Q₃为右转30度前进；

1-2-2)设置深度神经网络激活函数；

深度神经网络N_R的前N-1层激活函数f(·)为Relu函数，其表达式为f(x)＝max(0,x)，输出层激活函数为Sigmoid函数，其表达式为

1-2-3)定义深度神经网络每一层的权重参数θ_i并进行初始化赋值；

令θ_i表示深度神经网络N_R中第i层权重参数，包括：第i层的连接参数w_i和第i层的偏置参数b_i；深度神经网络每一层的权重参数θ_i组成深度神经网络的总权重参数θ_R；

深度神经网络N_R层与层间为映射关系，其映射关系表达式为a_i+1＝f(z_i+1)；其中z_i+1＝w_i*a_i+b_i，a_i与a_i+1分别表示深度神经网络N_R的第i层与i+1层输出数据；深度神经网络N_R总的映射关系为即输入层L₁的输入的数据经过每一层的权重参数θ_i与该层相应的激活函数f(·)计算后，输出到下一层使深度神经网络不断前向传播，最终到达输出层L_n；

训练开始前，对深度神经网络的每一层的权重参数θ_i赋初始值，赋值方法为：对深度神经网络N_R的第i层，根据正态分布随机对第i层的连接参数w_i进行初始化赋值，令偏置参数b_i值为0；

1-2-4)设定深度神经网络N_R奖惩系数R：机器人根据输出层L_n输出的动作指令选择执行的动作，机器人执行完动作后根据当前状态评判此次执行的效果，给出由奖惩系数r₁、r₂、r₃和r₄组成的奖惩系数R，表达式为R＝r₁+r₂+r₃+r₄；

评判标准为：若机器人与障碍物发生碰撞，则r₁设定为-5；若机器人与障碍物距离小于30cm，则r₁设定为-0.5；若机器人与障碍物未发生碰撞且距离大于等于30厘米，则r₁设定为0；若机器人向前运动，则r₂设定为0，否则r₂设定为-5；若机器人到达目标点，则r₃设定为10，否则r₃设定为为0；若机器人遍历时间大于设定的阈值步数，则r₄设定为-0.05，否则r₄设定为0；

1-3)对深度神经网络N_R的参数进行训练，训练完成后，得到最终的深度神经网络N_{R_final}；具体步骤如下：

1-3-1)在计算机中建立一个数据缓存区D_memory，初始化为空；在数据缓存区D_memory中，分别建立一个经验池D_start和一个数据样本集D_minibatch，分别初始化为空；

1-3-2)初始化计数器c₁＝0，计数器c₁用来记录机器人运动次数；初始化计数器c₂＝0，计数器c₂用来记录机器人每次成功到达目标位置需要经过的运动次数；初始化计数器c₃＝0，计数器c₃用来记录机器人在一个场景中不同目标位置间训练全局路径规划的运动次数；

1-3-3)随机设定机器人在场景中的初始位置和目标位置；

1-3-4)t时刻，机器人保持初始静止状态，俯视摄像机连续抓拍场景图像，随机截取其中连续四帧的场景图像，则深度神经网络N_R的t时刻输入数据为：x_t＝h_net×w_net×3×4，记做状态s_t并保存；

1-3-5)将步骤1-3-4)得到的t时刻的输入数据x_t输入到深度神经网络N_R中得到输出层对应输出的矩阵y_t；

1-3-6)选择机器人的执行动作，记做A_t，同时更新计数器c₁＝c₁+1；执行动作的选择方法如下：

1-3-6-1)在0～1中产生随机数ε₁，如果随机数ε₁＞ε，ε为设定阈值，则机器人的执行动作A_t为输出层输出的矩阵y_t中元素的最大值所对应的动作，即A_t＝max(Q_1t,Q_2t,Q_3t)；

1-3-6-2)如果随机数ε₁＜ε，则机器人的执行动作A_t为在矩阵y_t除去最大值元素后的剩余两个元素中任意选择一个元素所对应的动作，即A_t＝rand(Q_t)；

1-3-7)机器人执行完动作A_t后，若机器人到达步骤1-3-3)设定的目标位置，则进入步骤1-3-13)；若未达到，则计数器c₂＝c₂+1，进入步骤1-3-8)；

1-3-8)重复步骤1-2-4)，计算得到t时刻的奖惩系数记为R_t+1，叠加到t时刻输出层输出的矩阵y_t，更新矩阵y_t，得到t时刻的新的输出矩阵，记为Y_{value_t}；

计算新的输出矩阵Y_value具体方法如下：假定输出矩阵为y:{Q₁；Q₂；Q₃}，机器人应执行的动作为Q₁，动作执行完毕后，反馈得到奖惩系数R，根据计算公式：Q₁'＝Q₁+R、Q'₂＝Q₂、Q₃'＝Q₃，得到新的矩阵Y_value:{Q₁',Q'₂,Q₃'}；

1-3-9)在t+1时刻，重复步骤1-3-4)，得到新的状态s_t+1，建立集合{s_t,Q_t,A_t,R_t+1,s_t+1}，将该集合存储到数据缓冲区D_explore并进行判定：如果数据缓冲区D_explore的集合总数小于设定容量memory，则数据缓冲区D_explore的集合总数加1；否则，数据缓冲区D_explore的集合总数归0；

1-3-10)将集合{s_t,Q_t,A_t,R_t+1,s_t+1}保存到数据缓冲区D_explore后，将该集合同时保存到数据样本集D_minibatch与经验池D_start中，且数据样本集D_minibatch与经验池D_start中集合的总数分别加1，并进行判定：如果数据样本集D_minibatch的集合总数大于数据样本集D_minibatch的设定容量，则在下一个时刻将新得到的集合替换原数据样本集D_minibatch中距离当前时刻最久的集合；如果经验池D_start的集合总数小于经验池D_start的设定容量，则在下一个时刻重新返回步骤1-3-4)；如果经验池D_start的集合总数大于等于经验池D_start的设定容量，则进入步骤1-3-11)，并将下一个时刻新得到的集合替换原经验池D_start中距离当前时刻最久的集合；

1-3-11)使用随机梯度下降法更新深度神经网络总权重参数θ_R，得到更新后的深度神经网络N_R'；具体步骤如下：

1-3-11-1)计算损失J(w,b)；假设从数据样本集D_minibatch中随机选取m组集合，将Y_value矩阵{Q'₁；Q'₂；Q'₃}作为目标值，则根据损失函数计算机器人执行本次动作的损失，损失函数的表达式为：

1-3-11-2)计算深度神经网络每一层的残差δ_i，其中i表示深度神经网络的第i层；对于输出层，残差计算根据公式：δ_i＝-(y-a_i-1)·f'(z_i-1)；对于深度神经网络的第2层到第N-1层，则根据以下公式计算残差：δ_i＝(w_i·δ_i)f'(z_i)；

1-3-11-3)计算深度神经网络每一层权重参数θ_i的偏导数：连接参数w_i的偏导数为偏置参数b_i的偏导数为

1-3-11-4)计算深度神经网络每一层权重参数θ_i的梯度：连接参数w_i的梯度为偏置参数b_i的梯度为

1-3-11-5)更新深度神经网络每一层权重参数θ_i，得到更新后的深度神经网络N_R'：更新后，新的连接参数为新的偏置参数为其中，α表示学习速率，λ表示权重衰减系数；

1-3-12)利用步骤1-3-11)得到更新后的深度神经网络N_R'，重新返回步骤1-3-4)，机器人在下一个时刻执行新的深度神经网络N_R'输出的相应动作，并记录集合；

1-3-13)机器人到达步骤1-3-3)设定的目标位置，记录并存储计数器c₂记录的次数为

1-3-14)令机器人在场景中的初始位置和目标位置保持不变，重新返回步骤1-3-4)，对机器人进行多次路径规划训练，并记录每一次训练得到的计数器c₂的值，得到集合集合中的每一个元素分别代表计数器c₂记录的机器人完成一次路径规划训练的运动次数；

1-3-15)对设定相同初始位置和相同目标位置的路径规划训练进行判定，

若同时满足以下两个条件，则判定设定相同初始位置和相同目标位置路径规划训练完成，令c₃计数器加1，同时清空c₂集合为0，并进入步骤1-3-16)；否则，重新返回步骤1-3-4):

条件1：连续n次训练存储的c₂的次数变化差值小于设定阈值p；

条件2：连续n次训练后，经过损失函数计算得到损失J(w,b)，小于设定阈值q，相邻两次训练的损失变化差值小于设定阈值k；

1-3-16)对计数器c₃的次数进行判定：若c₃＜u，u为设定的阈值，则重新返回步骤1-3-3)，随机更新机器人在场景中的初始位置和目标位置，对机器人进行新的路径规划训练；否则，深度神经网络参数训练完成，得到最终深度神经网络N_{R_final}；

2)执行阶段；具体步骤如下：

2-1)在场景中随机设定机器人初始位置和终点目标位置；

2-2)俯视摄像机连续抓拍场景图像，随机截取其中连续四帧的场景图像，作为最终深度神经网络N_{R_final}的输入数据x_final；

2-3)将步骤2-2)的得到的输入数据x_final输入到步骤1)训练完成的最终深度神经网络N_{R_final}中，最终深度神经网络N_{R_final}输出机器人执行的动作记为A，机器人执行该动作A，并进行判定：

2-3-1)若机器人执行完动作A后没有到达目标位置，则重新返回步骤2-2)，最终深度神经网络N_{R_final}生成机器人执行的下一个动作；

2-3-2)若机器人执行完动作A后到达目标终位置，则机器人完成全局路径规划。

本发明的技术特点及有益效果在于：

本发明提出的一种基于深度强化学习的机器人全局路径规划方法，通过俯视摄像机实时观察场景内的状态并截取图像信息，构建深度神经网络，并利用强化学习算法对所构建的深度神经网络进行训练，训练完成后，深度神经网络产生决策驱动机器人完成全局路径规划任务。本发明在机器人感知环境过程中，大幅减少了需要携带的传感器设备，仅需要在场景内安装一台俯视摄像机。在构建全局地图过程中，相较于传统的全局路径规划技术，该方法采用实时的图像信息作为输入，具有较强的实时性；且提取的场景内空间有效信息数量更多且更为准确，较好地弥补了自由空间存在的缺陷。从俯视摄像机截取的图像信息中提取路径信息，不需要进入场景中预先构建环境地图，它有效的解决了机器人在实际应用过程中的遇到的很多困难，如场景不具备提前构建全局地图的条件或构建全局地图较难。本发明通过不断试错使深度神经网络累积经验提取有效的图像信息特征，最终机器人将实时图像信息经过深度神经网络直接产生机器人的运动控制策略，完成全局路径规划任务。由于该方法在训练阶段完成深度神经网络的训练工作且输入数据为实时的图像信息，因此，训练工作完成后便可直接应用于大量场景中，使本发明在环境发生变化时具有较强的适应性，避免了需要重新建立连通模型等问题。

本方法具有以下优点：

1、通过俯视摄像机提取场景中的实时图像，具有较强的实时性；图像信息作为深度神经网络的输入，使空间信息数量更多且更为准确，弥补了空间存在的缺陷。

2、机器人感知环境过程中，场景中仅需安装一台俯视摄像机。

3、从俯视摄像机截取的图像信息中提取路径信息，不需要进入场景中预先构建环境地图，避免了很多场景不能够提前构建全局地图或构建全局地图较难的困难。

4、通过深度神经网络累积经验提取有效的图像信息特征，并结合强化学习算法选择机器人执行“左转30度前进”、“直行”和“右转30度前进”3种动作，最终形成机器人在场景内的全局路径规划，该方法能够实用于多种场景，在环境发生变化时具有较强的适应性，避免了需要重新建立连通模型等问题。

5、机器人在完成全局路径规划任务过程中，不需要人为参与。

附图说明

图1为本发明训练阶段流程图。

图2为本发明实施例中深度神经网络结构示意图。

图3为本发明执行阶段流程图。

具体实施方式

本发明提出的一种基于深度强化学习的机器人全局路径规划方法，下面结合附图和具体实施例进一步详细说明如下。

本发明提出的一种基于深度强化学习的机器人全局路径规划方法，分为训练阶段和执行阶段两个阶段，包括以下步骤：

1)训练阶段；流程如图1所示，具体步骤如下：

1-1)在需要进行机器人全局路径规划的场景内安装俯视摄像机；

在需要进行机器人全局路径规划的场景内距离地面h_g(取值范围2m～3.5m，本实施例中距离是2.8m)的屋顶安装俯视摄像机(俯视摄像机的型号无特殊要求，本实施例采用的产品为海康威视)，俯视摄像机能够覆盖场景内的每个角落；俯视摄像机对所在场景进行实时拍摄，得到该场景的一系列RGB图像。本发明中所述的场景为普通的室内场景，本实施例中采用的场景为包含客厅、厨房、卧室、卫生间的普通家居场景。

1-2-1)建立一个包含N层的深度神经网络N_R，包括：一层输入层L₁，卷积层L_cnn-conv(一般取值5层)，池化层L_cnn-pool(一般取值1层)，一层全连接层L_full和一层输出层L_n。本实施例中，建立的深度神经网络的结构示意图如图2所示，包括：1层输入层L₁，5层卷积层L_cnn-conv与1层池化层L_cnn-pool，1层全连接层L_full和1层输出层L_n；其中，池化层位于第1层卷积层和第2层卷积层之间。

深度神经网络N_R中，输入层L₁的输入为步骤1-1)拍摄得到的RGB图像。本发明中，采用俯视摄像机连续拍摄的4张RGB图像的信息作为深度神经网络的一组输入数据，由于每张RGB图像包含3个维度，因此深度神经网络N_R的一组输入数据，记为x:h_net×w_net×3×4，其中，h_net代表RGB图像的高度，w_net代表RGB图像的宽度，(RGB图像的高度和宽度一般取值均为224像素)。

由于本发明中，机器人(本发明的机器人可采用常规的机器人，本实施例的机器人使用型号为Pioneer3-AT)有三种运动方式，包括：左转30度前进、直行和右转30度前进，则设定输出层L_n的输出包含三个维度；其中，每一维度分别对应机器人的一种运动方式，则输出层L_n的输出为一个3×1的矩阵，记为y:{Q₁；Q₂；Q₃}，Q₁、Q₂、Q₃分别对应机器人对应机器人应执行的动作：Q₁为左转30度前进，Q₂为直行，Q₃为右转30度前进。

1-2-2)设置深度神经网络激活函数；

为了加快深度神经网络计算的收敛速度同时避免梯度饱和，深度神经网络N_R的前N-1层激活函数f(·)为Relu函数，其表达式为f(x)＝max(0,x)，输出层激活函数为Sigmoid函数，其表达式为

令θ_i表示深度神经网络N_R中第i层权重参数，包括：第i层的连接参数w_i和第i层的偏置参数b_i；深度神经网络每一层的权重参数θ_i组成深度神经网络的总权重参数θ_R。

深度神经网络N_R层与层间为映射关系，其映射关系表达式为a_i+1＝f(z_i+1)。其中z_i+1＝w_i*a_i+b_i，a_i与a_i+1分别表示深度神经网络N_R的第i层与i+1层输出数据；深度神经网络N_R总的映射关系可以概括为即输入层L₁的输入的数据经过每一层的权重参数θ_i与该层相应的激活函数f(·)计算后，输出到下一层使深度神经网络不断前向传播，最终到达输出层L_n。

训练开始前，对深度神经网络的每一层的权重参数θ_i赋初始值，赋值方法为：对深度神经网络N_R的第i层，根据正态分布随机对第i层的连接参数w_i进行初始化赋值，令偏置参数b_i值为0。

1-2-4)设定深度神经网络N_R奖惩系数；机器人根据输出层L_n输出的动作指令选择执行的动作，机器人执行完动作后会根据当前状态评判此次执行的效果，给出由奖惩系数r₁、r₂、r₃和r₄组成的奖惩系数R，表达式为R＝r₁+r₂+r₃+r₄。评判标准为：机器人与障碍物发生碰撞时，r₁设定为-5；机器人与障碍物距离小于30cm时，r₁设定为-0.5；机器人与障碍物未发生碰撞且距离大于等于30厘米时，r₁设定为0；若机器人向前运动，则r₂设定为0，否则r₂设定为-5；若机器人到达目标点，则r₃设定为10，否则为0；若机器人遍历时间大于设定的阈值步数(一般设定阈值为200步)，则r₄设定为-0.05，否则r₄设定为0。

1-3)对深度神经网络N_R的参数进行训练；深度神经网络N_R的参数训练是通过对机器人进行多次全局路径规划训练实现的，训练后得到的最终的深度神经网络N_{R_final}使输入数据经过深度神经网络N_{R_final}直接判断机器人运动方式的优劣。

1-3-2)初始化计数器c₁＝0，计数器c₁用来记录机器人运动次数；初始化计数器c₂＝0，计数器c₂用来记录机器人每次成功到达目标点需要经过的运动次数；初始化计数器c₃＝0，计数器c₃用来记录机器人在一个场景中不同目标点间训练全局路径规划的运动次数。

1-3-3)随机设定机器人在场景中的初始位置和目标位置。

1-3-4)t时刻，机器人保持初始静止状态，俯视摄像机连续抓拍场景图像，随机截取其中连续四帧的场景图片，则深度神经网络N_R的t时刻输入数据为：x_t＝h_net×w_net×3×4，记做状态s_t并保存；

1-3-5)将步骤1-3-4)得到的t时刻的输入数据x_t输入到深度神经网络N_R中得到输出层对应输出的矩阵y_t。

1-3-6-1)在0～1中产生随机数ε₁，如果随机数ε₁＞ε(一般ε取值为0.9)，则机器人的执行动作A_t为输出层输出的矩阵y_t中元素的最大值所对应的动作，即A_t＝max(Q_1t,Q_2t,Q_3t)；其中Q_1t、Q_2t、Q_3t分别对应机器人“左转30度前进”、“直行”和“右转30度前进”。

1-3-6-2)如果随机数ε₁＜ε，则机器人的执行动作A_t为在矩阵y_t除去最大值元素后的剩余两个元素中任意选择一个元素所对应的动作，即A_t＝rand(Q_t)。

1-3-8)更新矩阵y_t；重复步骤1-2-4)，计算得到t时刻的记为奖惩系数R_t+1，叠加到t时刻输出层输出的矩阵y_t，得到t时刻的新的输出矩阵，记为Y_{value_t}；

计算新的输出矩阵Y_value，具体方法如下：假定输出矩阵为y:{Q₁；Q₂；Q₃}，机器人应执行的动作为Q₁，机器人执行Q₁对应的动作“左转30度前进”反馈得到奖惩系数R_t+1，根据计算公式：Q₁'＝Q₁+R、Q'₂＝Q₂、Q₃'＝Q₃，得到新的矩阵Y_value:{Q₁',Q'₂,Q₃'}。

1-3-9)在t+1时刻，重复步骤1-3-4)，得到新的状态s_t+1，建立集合{s_t,Q_t,A_t,R_t+1,s_t+1}，并将该集合存储到数据缓冲区D_explore(其中，数据缓冲区的容量meomory一般取值10000组集合)并进行判定：如果数据缓冲区D_explore的集合总数小于容量memory，则数据缓冲区D_explore的集合总数加1；否则，数据缓冲区D_explore的集合总数归0；

1-3-10)将集合{s_t,Q_t,A_t,R_t+1,s_t+1}保存到数据缓冲区D_explore后，将该集合同时保存到数据样本集D_minibatch与经验池D_start中，且数据样本集D_minibatch与经验池D_start中集合的总数分别加1(数据样本集D_minibatch的容量一般设定为32组集合，经验池D_start的容量一般设定为1000组集合)，并进行判定：如果数据样本集D_minibatch的集合总数大于数据样本集D_minibatch的设定容量，则在下一个时刻将会用新的集合替换原数据样本集D_minibatch中距离当前时刻最久的集合；如果经验池D_start的集合总数小于经验池D_start的设定容量，则在下一个时刻重新返回步骤1-2-4)；如果经验池D_start的集合总数大于等于经验池D_start的设定容量，则进入步骤1-3-11)，并且将新的集合替换原经验池D_start中距离当前时刻最久的集合。

1-3-11-1)计算损失J(w,b)；假设从数据样本集D_minibatch中随机选取m(m一般取值为6)组集合，将Y_value矩阵{Q'₁；Q'₂；Q'₃}作为目标值，则根据损失函数计算机器人执行本次动作的损失，损失函数的表达式为：

1-3-11-2)计算深度神经网络每一层的残差δ_i，其中i表示深度神经网络的第i层；对于输出层，残差计算根据公式：δ_i＝-(y-a_i-1)·f'(z_i-1)；对于深度神经网络的第2层到第N-1层，则根据以下公式计算残差：δ_i＝(w_i·δ_i)f'(z_i)。此步骤为以上深度神经网络从后往前求导的过程，即为反向传导的本意所在。

1-3-11-5)更新深度神经网络每一层权重参数θ_i，得到更新后的深度神经网络N_R'：更新后，新的连接参数为新的偏置参数为其中α表示学习速率，一般取值0.001；λ表示权重衰减系数，一般取值0.90。

1-3-12)利用步骤1-3-11)得到更新后的深度神经网络N_R'，重新返回步骤1-2-4)，机器人在下一个时刻执行新的深度神经网络N_R'输出的相应动作，并记录集合；

1-3-13)机器人到达步骤1-3-3)设定的目标位置，记录并存储计数器c₂记录的次数，

1-3-14)令机器人在场景中的初始位置和目标位置保持不变，重新返回步骤1-3-4)，对机器人进行多次训练(此处的多次训练始终保持起点和终点不变，但机器人采用的前进方式可能完全不同)，并记录每一次训练得到的计数器c₂的值，得到集合(其中以为例，表示计数器c₂记录的机器人完成第一次设定初始位置和目标位置的路径规划训练的运动次数)；

若同时满足以下两个条件，则判定设定相同初始位置和相同目标位置路径规划训练完成，令c₃计数器加1，记录机器人完成了c₃次的不同目标位置的路径规划任务，同时清空c₂数据集合为0，并进入步骤1-3-16)；否则，重新返回步骤1-3-4):

条件1：连续n(一般取值5)次训练存储的c₂的次数变化差值小于p(一般取值3)；

条件2：连续n(一般取值5)次训练后，经过损失函数计算得到损失J(w,b)，小于设定阈值q(一般取值0.1)，相邻两次训练的损失变化差值小于k(一般取值0.005)；

1-3-16)对计数器c₃的次数进行判定：若c₃＜u(u为设定的阈值，一般取值6)，则重新返回步骤1-3-3)，随机更新机器人在场景中的初始位置和目标位置(新的初始位置和目标位置应与原位置不同)，对机器人进行新的路径规划训练；否则，深度神经网络参数训练完成，得到最终深度神经网络N_{R_final}。

2)执行阶段，执行阶段流程图如图3所示，具体步骤如下：。

2-1)在场景中随机设定机器人初始位置，随机设定终点目标位置；

2-3-2)若机器人执行完动作A后到达目标终位置，则机器人完成全局路径规划任务。

Claims

1.一种基于深度强化学习的机器人全局路径规划方法，其特征在于，分为训练阶段和执行阶段，包括以下步骤：

1)训练阶段；具体步骤如下：

1-2-2)设置深度神经网络激活函数；

1-3-3)随机设定机器人在场景中的初始位置和目标位置；

1-3-6-1)在0～1中产生随机数ε₁，如果随机数ε₁>ε，ε为设定阈值，则机器人的执行动作A_t为输出层输出的矩阵y_t中元素的最大值所对应的动作，即A_t＝max(Q_1t,Q_2t,Q_3t)；

1-3-6-2)如果随机数ε₁<ε，则机器人的执行动作A_t为在矩阵y_t除去最大值元素后的剩余两个元素中任意选择一个元素所对应的动作，即A_t＝rand(Q_t)；

计算新的输出矩阵Y_value具体方法如下：假定输出矩阵为y:{Q₁；Q₂；Q₃}，机器人应执行的动作为Q₁，动作执行完毕后，反馈得到奖惩系数R，根据计算公式：Q′₁＝Q₁+R、Q'₂＝Q₂、Q′₃＝Q₃，得到新的矩阵Y_value:{Q′₁,Q'₂,Q′₃}；

1-3-16)对计数器c₃的次数进行判定：若c₃<u，u为设定的阈值，则重新返回步骤1-3-3)，随机更新机器人在场景中的初始位置和目标位置，对机器人进行新的路径规划训练；否则，深度神经网络参数训练完成，得到最终深度神经网络N_{R_final}；

2)执行阶段；具体步骤如下：

2-1)在场景中随机设定机器人初始位置和终点目标位置；