CN110703766A

CN110703766A - 一种基于迁移学习策略深度q网络的无人机路径规划方法

Info

Publication number: CN110703766A
Application number: CN201911084670.5A
Authority: CN
Inventors: 丁勇; 汪常建; 胡佩瑶
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-01-17
Anticipated expiration: 2039-11-07
Also published as: CN110703766B

Abstract

本发明公布了一种基于迁移学习策略深度Q网络的无人机路径规划方法，所述方法首先利用栅格法对UAV所处的动态环境进行建模并对其进行描述，建立UAV的状态空间和动作空间模型；其次，初始化DQN的网络参数和无人机的当前状态；然后，在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练，得到网络权值和最优动作值；接着，利用迁移学习将静态环境下训练得到的网络权值和最优动作值迁移到动态环境下，继续进行神经网络训练，得到UAV将要执行的动作；最后，计算当前时刻无人机的位置，实现动态环境下无人机的路径规划。本发明有效解决了无人机在动态环境下进行路径规划时，DQN训练收敛速度慢、路径规划不理想、成功率较低的问题。

Description

一种基于迁移学习策略深度Q网络的无人机路径规划方法

技术领域

本发明属于无人机路径规划领域，尤其涉及一种基于迁移学习和DQN(Deep Q-Network)的无人机路径规划方法，应用迁移学习和深度强化学习进行动态环境下的无人机路径规划。

技术背景

无人机路径规划是无人机技术研究领域的核心问题，相关算法发展迅速。传统的方法包括：Dijkstra最短路径搜索法(贪婪算法)、A*算法、蚁群优化算法、强化学习算法等。Dijkstra算法其核心思想是每一次探索选择的下一个顶点都是距离起点欧氏距离最近的点，直到找到目标。该方法只适用于已知整体信息、静态的地图中，效率较低；A*算法是在Dijkstra方法的基础上，加入了评估当前点到目标点的度量，相对于Dijkstra方法，减少了访问节点数，提高了搜索速度，但该算法的计算复杂度较高；蚁群优化算法是一种并行式分布计算方法，是源于生物群体的具有全局搜索能力的智能算法，但存在收敛时间较长的问题。80年代末，强化学习算法研究兴起，这是一种奖惩方式的学习方法，传统的强化学习方式在环境复杂情况下会导致过度的学习，在环境信息太少的情况下又会陷入局部最优解，而且当输入矩阵过大时会导致维数灾难。近年来，深度学习与强化学习相结合形成的DQN算法展现了巨大潜力，但在解决动态环境下的路径规划时，仍存在训练神经网络需要耗时大、网络收敛速度较慢，无法满足实时性等一系列问题。

发明内容

本发明的目的在于提供一种迁移学习与DQN算法相结合的无人机路径规划方法，该方法可以解决DQN算法在动态环境下进行路径规划时出现的收敛速度缓慢、成功率低的问题。

为实现上述目的，本发明采用以下技术方案：

一种基于迁移学习策略深度Q网络的无人机路径规划方法，包括：

(1)利用栅格法对UAV所处的动态环境进行建模并对其进行描述；

(2)建立UAV的状态空间和动作空间模型；

(3)初始化DQN的Q估计网络和Q目标网络；

(4)初始化无人机路径规划的当前状态；

(5)在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练，得到Q估计网络权值和最优动作值；

(6)利用迁移学习将静态环境模型下训练得到Q估计网络权值和最优动作值迁移到动态环境模型下，继续进行神经网络训练，得到UAV将要执行的动作；

(7)计算当前时刻无人机的位置，直至达到目标位置。

本发明具有以下优点：

1.本发明采用基于改进社会力模型的回报方式，在UAV接近目标的过程中加入对UAV方向的矫正因素，同时在UAV找到目标位置时给予一个较大的正回报，考虑当前状态转移对机动能力的需求、对燃油损耗的惩罚项，这些措施的采用有助于UAV在飞行过程中尽快找到目标位置，而不是在目标位置附近作过多徘徊或往复地飞行，提高了无人机路径规划的效率。

2.本发明采用在静态环境模型下对无人机路径规划进行训练，得到相应的网络权值参数和最优动作值，然后利用迁移学习将静态模型下的网络模型参数和最优动作值迁移至动态环境下，大大缩短了动态环境下进行无人机路径规划所花费的时间，提高了路径规划的收敛速度，提高了成功率。

附图表说明

图1为本发明方法的流程图

图2为UAV所处的动态环境模型

图3为无人机动作空间示意图

图4为UAV所处的静态环境模型

图5为基于社会力模型回报机制的路径规划

图6为基于经典回报的路径规划

图7为未经迁移学习和经过迁移学习的平均回报比较

图8为未经迁移学习和经过迁移学习的路径规划成功率比较

具体实施方式

结合所附图表，对本发明的技术方案做具体说明。

本发明的一种基于迁移学习策略深度Q网络的无人机路径规划方法，具体包括以下步骤：

步骤1，利用栅格法对UAV所处的动态环境进行建模并对其进行描述。

(1.1)UAV所处的动态环境为20x20的栅格地图，如图2所示。其中，浅粉色方块为可运动的障碍物；其它黑色位置为不可移动障碍物，分别为L形墙、横墙、竖墙、T行墙、斜墙、方形墙和不规则墙，以全方位测试智能体的避障效果；黄色圆形为目标位置，红色方块为智能体起始位置，目标位置与智能体起始位置可随机产生，当智能体运动至与障碍物所在栅格中心位置重合时，认为智能体触碰障碍物；白色区域为非障碍区。

(1.2)对UAV所处的动态环境进行描述，具体为：

1)UAV、动态障碍和动态目标的运动满足：UAV、障碍物和目标均以固定时间间隔τ更新位置，障碍物或目标的运动认为是速度方向改变但大小不变的匀速运动。

2)根据UAV在实际状况中根据可能遇到的动态障碍物，设置动态环境存在以下三种情况：

(a)目标和障碍物位置都变化，但相对位置关系保持不变；

(b)目标位置变化，障碍物位置不变；

(c)障碍物位置变化，目标位置不变。

步骤2，建立UAV的状态空间和动作空间模型，具体为：

(2.1)建立UAV的状态空间模型S，具体为：

式中，(x_t，y_t)为t时刻无人机在环境中的位置；(x_T，y_T)为目标的位置；(x_o，y_o)为无人机距离最近的障碍物的位置；l_x与l_y分别为x轴方向上地图的长度和y轴方向上地图的长度。

(2.2)将360度n等分成若干角度，相邻两个方向的间隔角度为

令n＝8，

即无人机的航向精度为45°，则UAV的动作空间模型为A＝{0，1，...，8}，如图3所示。

步骤3，初始化DQN的Q估计网络和Q目标网络，具体为：

(3.1)建立经验回放记忆库D，大小为2000，用来储存训练数据和权值参数。

(3.2)建立Q估计网络，具体参数为，Q估计网络隐藏层、输出层的神经元个数为8，使用Relu激活函数；设置神经网络学习效率a＝0.01；累计回报折扣因子γ为0.9；无人机飞行步长η＝1，可飞行最大步长为46；ε-greedy策略设置1-ε范围为[0.8，0.94]；随机初始化估计网络权重θ。

(3.3)建立Q目标网络网络参数同Q估计网络，初始化网络权重θ^-＝θ。

步骤4，初始化无人机路径规划的当前状态，包括设置当前步数为0，随机生成目标及障碍物的位置和UAV所处的最初位置；定义无人机的最终状态S_T为找到目标或触碰障碍物或UAV飞行到达规定的最大步数T_MAX＝46时对应的状态。

步骤5，在静态环境模型下采用基于社会力模型的回报机制对DQN进行训练，得到Q估计网络权值θ^-和最优动作值Q_s，具体为：

(5.1)静态环境模型的建立

这里将当目标位置和障碍物位置不随时间运动时的环境视为静态环境。采用近似栅格分解法描述静态环境，如图4所示。路径规划实验环境为20x20的栅格地图，其中，黑色位置为不可移动障碍物；黄色圆形为目标位置；红色方块为智能体起始位置，目标位置与起始位置可随机生成；白色区域为非障碍区。

(5.2)采用基于社会力模型的回报机制，具体为：

基于社会力模型的回报r_t满足：

r_t＝f_T+f_ob+f_av (2)

式中，f_T对应目标对UAV的期望力映射到回报函数中的奖惩项，具体为：

这里，ω₁为增益，用于调节期望力的强度，取ω₁＝10；

分别为上一个状态和当前状态UAV与目标的欧式距离；η为UAV的飞行步长，取η＝1；s′为当前状态；s_T为找到目标位置时UAV的状态；R_T为无人机找到目标时给予的较大的回报值。

f_ob对应为障碍物给予的回报，以完成对各种形式障碍物的避障，具体为：

式中，比例系数K∈[0，1]，当K较大时，UAV会尽可能与障碍物保持较大的距离，K较小时，可能降低避障效果，因此K的取值要适中，这里取K＝0.5；R₀为UAV触碰障碍物时获得的较大的负的回报值，取R₀＝-0.1；

表示UAV距离最近的障碍物之间的距离；d_safe为UAV与障碍物之间的安全距离。

f_av为实现当前状态转移对机动能力的需求、对燃油的损耗的惩罚项，具体为：

式中，ω₂、ω₃为增益系数，取ω₂＝ω₃＝0.8；f_a为水平方向的机动惩罚项；f_fuel为燃料损耗项。

(5.3)在静态环境模型下对DQN进行训练，并保存每个环境下训练好的Q估计网络权值θ^-和最优动作值Q_s。

Step1随机生成目标位置(x_T，y_T)和障碍物的位置，无人机距离最近的障碍物的位置为(x_o，y_o)，UAV在环境中的最初位置为(x_t，y_t)，得到无人机在环境中的初始状态为：

S_t＝(x_t-x_T，y_t-y_T，x_t-x_o，y_t-y_o) (6)

Step2利用ε-greedy策略，在ε概率内让UAV选择一个随机动作，否则以1-ε概率选择当前状态下使动作值函数为最大值Q_s时的动作a_s＝argmax_aQ(s，a；θ)，并将最优动作值Q_s保存至经验回放记忆库D，这里取ε＝0.1，D＝2000。

Step3在S_t状态下，无人机执行动作a_s，由式(2)获得基于社会力模型的回报r_t，计算无人机在t+1时刻的状态S_t+1，并将[S_t，a_s，r_t，S_t+1]存入经验回放记忆库D。

Step4从经验回放记忆库D中选取32组数据(S_t，a_t，r_t，S_t+1)，计算目标值函数y_t为：

其中，γ表示回报折扣因子，取γ＝0.9。

Step5以(y_t-Q(s_t，a_t；θ))²做梯度下降，每隔C步设置Q估计网络的权重参数θ^-＝θ，并保存至经验回放记忆库D。

Step6将s_t+1设置为当前状态s_t，步数加一。若s_t为最终状态s_T，则结束；否则返回Step1。

步骤6，利用迁移学习将静态环境下训练得到的Q估计网络权值θ^-和最优动作值Q_s迁移到动态环境下，继续进行神经网络训练，得到UAV将要执行的动作。具体为：

(6.1)设置初始迁移概率为ρ＝0.8，为了避免负迁移情况的出现，在动态环境下训练开始后，将迁移概率以每步0.0006的概率递减，将静态环境下的网络权值参数θ^-和最优动作值Q_s迁移至动态环境下。

(6.2)在动态环境下对DQN进行路径规划训练，方法同静态环境，得到动作值函数Q(s)最大值的最优动作值为Q_D、对应的动作和无人机状态(S_t，a_t，r_t，S_t+1)。

(6.3)比较静态环境下训练得到的最优动作值Q_S与动态训练下得到的最优动作值Q_D，选择较大值对应的动作作为UAV将要执行的动作。

步骤7，计算当前时刻无人机的位置，直至达到目标位置。具体公式为：

式中，(x′，y′)为当前时刻无人机的坐标，(x，y)为上一时刻无人机的坐标，η为步长，取η＝1，n为Q_S与Q_D中较大值对应的无人机的最优动作，

为无人机的航向精度。

为了验证方法的可行性和有效性，下面结合实例对本发明做进一步详细的描述。

开发环境为Win10，基于Google开发的机器学习架构tensorflow使用python语言在pycharm上建立仿真环境。

图5为第4600回合时基于社会力模型回报机制的路径规划效果。可以看出，由于障碍物为随机运动，无人机在寻找目标位置的过程中为达到良好的避障效果，会根据实时情况选择最优的运动方式，最终能绕开障碍物并逐渐收敛到最优路径。

图6为第4600回合时基于经典回报的路径规划效果。可以看出，无人机虽然能够以较大概率躲避静止的障碍物，但规划出的路径不平滑，出现了较大的波动，不能满足无人机航迹约束的基本条件。

图7为未经迁移学习和经过迁移学习的平均回报比较。其中图(a)为未经迁移学习的平均回报，可以看出，未经迁移学习的无人机，虽然到1500回合后开始有一个较好的回报，但波动较大，直至5000回合以后才开始收敛。图(b)为迁移学习后UAV得到的平均回报，可以看出，经过迁移学习后，平均回报呈现递增再平稳的趋势，无人机在复杂动态环境下训练初期就能找到目标位置，在500回合左右平均回报维持在相对较高的值上，网络收敛速度较快。

图8为未经迁移学习和经过迁移学习的路径规划成功率比较。其中图(a)为未经迁移学习的成功率，图(b)为经迁移学习的成功率。经过比较可以看出，经过迁移学习后无人机寻找到目标位置的成功率在整个过程中保持较高水平。经统计，经迁移后的动态环境下的路径规划在5000回合的成功率高达75.4049％，而未经迁移的路径规划在5000回合内的成功率为52.5095％，迁移后的成功率明显提高。

Claims

1.一种基于迁移学习策略深度Q网络的无人机路径规划方法，其特征在于，该方法包括以下步骤：

(2)建立UAV的状态空间和动作空间模型；

(3)初始化DQN的Q估计网络和Q目标网络；

(4)初始化无人机路径规划的当前状态；

(7)计算当前时刻无人机的位置，直至达到目标位置。

2.根据权利要求1所述的一种基于迁移学习策略深度Q网络的无人机路径规划方法，其特征在于，步骤(5)采用基于社会力模型的回报机制，具体为：

基于社会力模型的回报r_t满足：

r_t＝f_T+f_ob+f_av (1)

这里，ω₁为增益，用于调节期望力的强度；

分别为上一个状态和当前状态UAV与目标的欧式距离；η为UAV的飞行步长；s′为当前状态；s_T为找到目标位置时UAV的状态；R_T为无人机找到目标时给予的较大的回报值。

式中，比例系数K∈[0，1]，当K较大时，UAV会尽可能与障碍物保持较大的距离，K较小时，可能降低避障效果，因此K的取值要适中；R₀为UAV触碰障碍物时获得的较大的负的回报值；表示UAV距离最近的障碍物之间的距离；d_safe为UAV与障碍物之间的安全距离。

式中，ω₂、ω₃为增益系数；为水平方向的机动惩罚项；f_fuel为燃料损耗项。

3.根据权利要求1所述的一种基于迁移学习策略深度Q网络的无人机路径规划方法，其特征在于，步骤(6)中利用迁移学习将静态环境下训练得到的Q估计网络权值和最优动作值迁移到动态环境下，继续进行神经网络训练，得到UAV将要执行的动作，具体为：

(3.1)设置初始迁移概率，为了避免负迁移情况的出现，在动态环境下训练开始后，将迁移概率以每步0.0006的概率递减，将静态环境下的Q估计网络权值和最优动作值Q_S迁移至动态环境下；

(3.2)在动态环境下对DQN进行路径规划训练，得到动作值函数Q(s)最大值为最优动作值Q_D。

(3.3)比较静态环境下训练得到的最优动作值Q_S与动态训练下得到的最优动作值Q_D，选择较大值对应的动作作为UAV将要执行的动作。