CN113359820A

CN113359820A - 一种基于dqn的无人机路径规划方法

Info

Publication number: CN113359820A
Application number: CN202110591320.9A
Authority: CN
Inventors: 郑可心; 刘小波; 周志浪; 代浩然; 王端初; 肖肖; 龚鑫; 乔禹霖; 刘鹏; 杨健峰; 张超超
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-07

Abstract

本发明提供一种基于DQN的无人机路径规划方法，首先用栅格法生成训练集；设置障碍的奖励函数，并初始化强化学习的Q值；构建DQN中的卷积神经网络，并训练模型；在DQN中构建图像分割网络Mask R‑NN，并使用遥感图像对训练好的Mask R‑NN进行测试；将Mask R‑CNN网络输出的栅格图输入到已经训练好的模型，最终输出成功通过障碍到达终点的遥感图像。本发明实现DQN算法在真实环境图像中进行路径规划，为DQN在真实环境中路径规划研究做铺垫。

Description

一种基于DQN的无人机路径规划方法

技术领域

本发明涉及路径规划技术领域，尤其涉及一种基于DQN的无人机路径规划方法。

背景技术

全局路径规划是在全局环境已知的前提下，提前做好全局性的路径规划方案。全局路径规划对算法的实时性要求不高，使用起来方便快捷。是当下无人机路径规划的主要研究方向之一。

传统的算法如A*、Voronoi图等算法计算效率高、规划简单。李得伟等人通过改进搜索顺序和优化估价函数，将A*算法中的无向搜索改成有向搜索，将全局估价变为局部估价，提高了算法效率。但传统算法在解决路径规划问题中存在很多局限性，如精确法只适用于小规模路径规划问题,当目标函数和约束条件较为复杂时,精确方法很难给出有效解。并且启发式算法无法解决环境变化这一问题。

鉴于传统算法解决无人机全局路径规划的局限性，越来越多的学者利用机器学习算法求解无人机全局路径规划,机器学习算法是通过无人机与环境的交互来学习策略和更新模型，其本质是通过最大化累积奖励的概念来训练智能体在环境中采取最优行动。其中Q学习算法、深度Q网络算法是使用最为广泛的两种方法。

Zhao用一种自适应随机探索方法结合Q学习算法完成了无人机导航和避障任务，其动作选择模块中包含了两个子模块：学习模块和避障模块。学习模块可以通过无人机的历史状态和位置信息训练其动作选择策略，而避障模块通过使用随机搜索树算法来进行紧急避障。Siyu Zhou提出了一种新的基于DQN的全局路径规划方法，使移动机器人能够在密集环境中高效地获得最优路径。这个方法可以分为三个步骤。首先，我们需要设计和训练一个DQN来逼近移动机器人的状态——动作值函数。然后，我们确定每个可能的动作对应的Q值，如右转和前进。DQN的输入是代表环境结构的原始RGB图像。最后，通过动作选择策略选择当前最优动作，使移动机器人在避开障碍物的同时到达目标点。不同环境下的多次仿真表明，该方法比传统的路径规划方法更有效。

王俊等人2019年发明了一种快速搜索机制下改进DQN的机器人路径规划算法,该发明首先设置算法中所需的参数；其次根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境；设计快速搜索机制；从次建立机器人的动作集；设计一个连续的报酬函数；机器人通过训练输出一条最佳路径；该发明提供了--种快速搜索机制下改进DQN的机器人路径规划算法,改善了Deep Q_Learning算法存在的环境利用率低、搜索效率低等问题,能够使机器人在未知环境下快速搜索出最佳路径。

邓三鹏等人2019年针对强化学习中Q-learning算法在复杂环境下难以进行路径规划的问题,将深度卷积神经网络的特征提取能力与强化学习的决策能力相结合,提出了一种基于深度强化学习的改进算法。该方法用值函数近似法代替Q-learning中的动作值函数,设计了包含4层结构的深度卷积神经网络,以网络的输出代替传统的Q值表,解决了Q-learning在状态空间较大时产生的维数灾难问题。在栅格环境下进行仿真实验,结果表明该方法相较于Q-learning算法能够在复杂的环境下进行路径规划,并在新的测试集上取得了87％的识别率,具有较强的泛化能力。

丁勇等人2019年发明了一种基于迁移学习策略深度Q网络的无人机路径规划方法,所述方法首先利用栅格法对UAV所处的动态环境进行建模并对其进行描述,建立UAV的状态空间和动作空间模型；其次,初始化DQN的网络参数和无人机的当前状态；然后,在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练,得到网络权值和最优动作值；接着,利用迁移学习将静态环境下训练.得到的网络权值和最优动作值迁移到动态环境下,继续进行神经网络训练,得到UAV将要执行的动作；最后,计算当前时刻无人机的位置,实现动态环境下无人机的路径规划。本发明有效解决了无人机在动态环境下进行路径规划时,DQN训练收敛速度慢、路径规划不理想、成功率较低的问题。

上述发明，都是基于DQN在路径规划中的应用，但是都有一个共同的缺陷，即都是在栅格环境下进行的路径规划，利用栅格法随机分布障碍点或对环境进行建模的方式生成栅格环境，其中，随机分布障碍点的方法完全不符合真实环境信息，训练好的模型无法应用于真实环境；而利用栅格法对环境进行建模的方法，要针对每一张需要路径规划的环境图像进行建模，建模速度慢且无法保证与真实环境一致。以上两种方法都识别遥感图像中障碍物并实现路径规划。

针对以上问题，本发明提出一种基于改进DQN算法的无人机全局路径规划方法。该方法弥补了使用栅格法训练的模型，无法识别遥感图像中障碍物并实现路径规划的缺陷。

发明内容

有鉴于此，本发明目的是提供一种基于DQN的无人机路径规划方法，包括以下步骤：

S1、用栅格法生成训练集；

S2、设置障碍的奖励函数，并初始化强化学习的Q值；

S3、构建DQN中的卷积神经网络，并训练模型；

S4、在DQN中构建图像分割网络Mask R-NN，并使用遥感图像对训练好的Mask R-NN进行测试；

S5、将Mask R-CNN网络输出的栅格图输入到S3中已经训练好的模型，最终输出成功躲避障碍到达终点的遥感图像。

本发明提供的技术方案带来的有益效果是：实现DQN算法在真实环境图像中进行路径规划，为DQN在真实环境中路径规划研究做铺垫。

附图说明

图1是本发明一种基于DQN的无人机路径规划方法的流程图；

图2是本发明改进DQN算法框架图；

图3是本发明栅格环境像素图；

图4是本发明DQN中卷积神经网络框架图；

图5是本发明DQN算法框架图；

图6是本发明改进的Mask R-CNN框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1和图2，本发明提供了一种基于DQN的无人机路径规划方法，具体包括以下步骤：

S1、用栅格法生成训练集；用二值化方法，设置灰度值为255表示白色，灰度值为0表示黑色，将85个1*1大小的黑色像素块随机分布在25*25大小的白色像素图中构成的栅格图，通过不断改变栅格图中起始点、障碍点的位置，生成数量大约有125000张路径丰富多样且复杂的栅格图组成训练集，保存至训练集文件夹中，请参考图3。

S2、设置障碍的奖励函数，并初始化强化学习的Q值；设置无人机到达终点的奖励值为200和碰撞到障碍点的奖励值为-200的奖励函数，并对训练集中每张图片中的起始点、终点和障碍点的分布情况进行奖励值设置；当初始点与终点重合时，该状态图像奖励值为200，其余正常状态的图像奖励值设置为0，并将以上奖励值作为每张训练图片的初始Q值保存至Q值文件夹中。

S3、构建DQN中的卷积神经网络，并训练模型；具体如下：

S31、将一张大小长*宽*张量＝25*25*3的栅格图输入进DQN算法的当前值卷积神经网络中；请参考图4，该卷积神经网络由3个卷积层和2个全连接层和1个含有8个神经元的输出层组成，具体的输出值大小即为对应的动作Q值；

S32、由10个步长为1，大小为2*2的卷积核构成的卷积层1对输入的图像张量进行卷积操作，卷积后得到的特征图尺寸为24，产生10个大小为24*24的特征图，即输出24*24*10的特征向量；

S33、由20个步长为1，大小为2*2的卷积核构成的卷积层2对输入的特征张量，即卷积层1的输出进行卷积操作，卷积后得到的特征图尺寸为23，最后产生20个大小为23*23的特征图，即输出23*23*20大小的特征向量图；

S34、由全连接层1对卷积层2产生的特征向量进行拉伸，每一个像素代表一个神经元，共有23*23*20＝10580个神经元作为输入，最后使用全连接层操作输出512个神经元；

S35、输出层与全连接层1进行全连接操作，输出8个神经元，具体的输出值大小Q(s,a,θ_i)即为对应的动作Q值Q^π(s,a)，公式为：Q(s,a,θ_i)≈Q^π(s,a)；其中，s为动作，a为状态，θ_i为权重参数；

S36、将输出层的输出值Q(s,a,θ_i)与当前值网络结构相同的目标值网络的输出值r+γmax Q(s′,a′,θ_i)传输给误差损失函数

使用公式

计算参数θ的梯度；其中，r为奖励，γ为折扣系数，s′为下一步动作，a′为下一步状态，θ_i为权重参数；

S37、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化，从而得到最优动作值arg max_a Q(s,a；θ)；

S38、不断重复以上步骤进行模型训练，当误差损失函数达到收敛时停止训练。

S4、S4、在DQN中构建图像分割网络Mask R-NN，并使用遥感图像对训练好的MaskR-NN进行测试；该网络采用了Faster R-CNN实现目标识别，并同时利用全卷积网络(卷积层1和卷积层2)实现包容盒内前景目标的分割；请参考图5和图6。具体步骤如下：

S41、将一张大小为512*512的遥感图像输入进图像分割网络，网络对遥感图像进行预处理，将预处理后的图像输入到预训练好的FPN中，获得对应的图像特征图的集合；

S42、对特征图集中的每一点设定预定数量的ROI，最后获得多个最佳的候选ROI；

S43、将候选的ROI送入RPN网络进行前景或背景的而知分类和边框回归，过滤一部分候选的ROI；

S44、对S43过滤之后的ROI进行ROIAlign操作，即将原图和特征图的像素对应起来,随后将特征图和固定的特征对应起来；

S45、对ROI进行N类别的分类、位置的预测以及目标框回归，通过分割网络Mask R-NN进行Mask的预测和语义的分割，得到二值的掩模图像；

S46、图像转换处理模块对二值的掩模图像进行包括转换、压缩、二值化、奖励值设置操作，输出为25*25的栅格图。

S5、将Mask R-CNN网络输出的栅格图输入到S3中已经训练好的模型，最终输出成功通过障碍到达终点的遥感图像，具体为：

S51、将Mask R-CNN输出的长*宽*张量＝25*25*3的栅格图输入到DQN算法的当前值网络中；

S52、由10个步长为1，大小为2*2的卷积核构成的卷积层1对输入的图像张量进行卷积操作，卷积后得到的特征图尺寸为24，产生10个大小为24*24的特征图，即输出24*24*10的特征向量；

S53、由20个步长为1，大小为2*2的卷积核构成的卷积层2对输入的特征张量即卷积层1的输出进行卷积操作，卷积后得到的特征图尺寸为23，产生20个大小为23*23的特征图，即输出23*23*20大小的特征向量图；为了避免下采样操作导致图像的信息丢失，上述卷积层都没有使用池化层对输入的特征图进行更高维的特征抽取，而是直接使用卷积层后接着卷积层；

S54、由全连接层1对卷积层2产生的特征向量进行拉伸，每一个像素代表一个神经元，共有23*23*20＝10580个神经元作为输入，最后使用全连接层操作输出512个神经元；

S55、输出层与全连接层1进行全连接操作，输出8个神经元，具体的输出值大小Q(s,a,θ_i)即为对应的动作Q值Q^π(s,a)，公式为：Q(s,a,θ_i)≈Q^π(s,a)；其中，s为动作，a为状态，θ_i为权重参数；

S56、请参考图4，将输出层的输出值Q(s,a,θ_i)与当前值网络结构相同的目标值网络的输出值r+γmax Q(s′,a′,θ_i)传输给误差损失函数

使用公式

S57、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化，从而得到最优动作值arg max_a Q(s,a；θ)，无人机根据最有动作值做出对应的动作，并循环以上步骤，当误差损失函数达到收敛时停止迭代。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于DQN的无人机路径规划方法，其特征在于，包括以下步骤：

S1、用栅格法生成训练集；

S2、设置障碍的奖励函数，并初始化强化学习的Q值；

S3、构建DQN中的卷积神经网络，并训练模型；

2.根据权利要求1所述的一种基于DQN的无人机路径规划方法，其特征在于，所述S1具体为：用二值化方法，设置灰度值为255表示白色，灰度值为0表示黑色，将85个1*1大小的黑色像素块随机分布在25*25大小的白色像素图中构成的栅格图，通过不断改变栅格图中起始点、障碍点的位置，生成数量大约有125000张路径丰富多样且复杂的栅格图组成训练集，保存至训练集文件夹中。

3.根据权利要求1所述的一种基于DQN的无人机路径规划方法，其特征在于，所述S2具体为：设置无人机到达终点的奖励值为200和碰撞到障碍点的奖励值为-200的奖励函数，并对训练集中每张图片中的起始点、终点和障碍点的分布情况进行奖励值设置；当初始点与终点重合时，该状态图像奖励值为200，其余正常状态的图像奖励值设置为0，并将以上奖励值作为每张训练图片的初始Q值保存至Q值文件夹中。

4.根据权利要求1所述的一种基于DQN的无人机路径规划方法，其特征在于，所述S3中模型训练具体步骤如下：

S31、将一张大小长*宽*张量＝25*25*3的栅格图输入进DQN算法的当前值卷积神经网络中；

S36、将输出层的输出值Q(s,a,θ_i)与当前值网络结构相同的目标值网络的输出值r+γmaxQ(s′,a′,θ_i)传输给误差损失函数

使用公式

S37、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化，从而得到最优动作值argmax_aQ(s,a；θ)；

5.根据权利要求1所述的一种基于DQN的无人机路径规划方法，其特征在于，所述S4具体步骤如下：

6.根据权利要求1所述的一种基于DQN的无人机路径规划方法，其特征在于，所述S5具体为：

S53、由20个步长为1，大小为2*2的卷积核构成的卷积层2对输入的特征张量即卷积层1的输出进行卷积操作，卷积后得到的特征图尺寸为23，产生20个大小为23*23的特征图，即输出23*23*20大小的特征向量图；

S56、将输出层的输出值Q(s,a,θ_i)与当前值网络结构相同的目标值网络的输出值r+γmaxQ(s′,a′,θ_i)传输给误差损失函数

使用公式

S57、使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化，从而得到最优动作值argmax_aQ(s,a；θ)，无人机根据最有动作值做出对应的动作，并循环以上步骤，当误差损失函数达到收敛时迭代结束。