CN110134140B

CN110134140B - 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Info

Publication number: CN110134140B
Application number: CN201910437021.2A
Authority: CN
Inventors: 丁勇; 杨勇; 黄鑫城
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2022-01-11
Anticipated expiration: 2039-05-23
Also published as: CN110134140A

Abstract

本发明公布了一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，所述方法首先建立无人机在环境中的状态空间，该状态空间为连续状态空间，包含无人机的无穷多个状态；其次将360度n等分成若干个角度作为无人机的航向角，建立无人机的动作空间；接着计算目标对无人机的势函数奖赏和障碍物对无人机的势函数奖赏，并对两者进行叠加作为无人机总的势函数奖赏；然后利用无人机总的势函数奖赏对Q估计网络进行路径规划训练；最后利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。该方法主要解决了无人机在无环境模型下的路径规划问题，满足了无人机在执行任务中对于所处环境状态连续的要求，势函数奖赏加快了无人机路径规划的速度，具有很好的适用性。

Description

一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法

技术领域

本发明属于无人机路径规划技术领域，特别是一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法。

技术背景

无人机路径规划是无人机领域长久不衰的热点问题，是指无人机在一定的约束条件下，从起始点到目标点规划出一条最优或次优的无碰撞路径。随着无人机面临的实际环境日益复杂，规划出一条实用有效的飞行路径则是无人机顺利完成各项任务的前提。所谓环境信息未知的路径规划是指无人机在规划路径之前无法预知环境的信息，环境信息的来源需要靠机载的感知系统获取。由于无人机只能得到感知系统侦测范围内的环境信息，可以尽可能地规划出最优、次优路径或满足约束条件的路径。常用的路径规划方法有人工势场法、D*算法、导航向量场等，这些方法虽然能够动态地规划出无人机的飞行路径，是一种局部路径规划方法，由于需要对具体环境建立模型，缺乏通用性。

近年来随着人工智能技术的飞速发展，深度学习和机器学习在无人机领域展现出巨大潜力。强化学习、DQN(Deep Q-Learning Network)等方法无需对无人机所处的环境进行物理建模，只需通过无人机对所处环境不断地进行离线训练，就可以找出最优、次优或满足限定条件的路径。但目前这些方法中都假设无人机所处的环境为离散的栅格地图，由于这种栅格地图所能容纳的状态有限，要求环境为已知，且网络收敛速度减慢，不能很好地满足当今无人机执行任务过程中所处的环境未知且状态连续的情况。

发明内容

本发明的目的在于提供一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，该方法能够使无人机在环境信息未知连续状态下进行无环境模型路径规划，并且势函数奖赏加快了无人机路径规划的速度，具有很好的适用性。

为实现上述目的，本发明采用以下技术方案：

一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，包括：

步骤一，建立无人机在环境中的状态空间S，该状态空间为连续状态空间，包含无人机的无穷个状态。

步骤二，将360度n等分成若干个角度作为无人机的航向角，角度间隔为

建立无人机的动作空间A。

步骤三，计算目标对无人机的势函数奖赏Φ_a(s_k)和障碍物对无人机的势函数奖赏Φ_o(s_k)，并对两者进行叠加作为无人机总的势函数奖赏Φ(s_k)。

步骤四，利用无人机总的势函数奖赏Φ(s_k)对Q估计网络进行路径规划训练。

步骤五，利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划。

进一步的优选方案，所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，所述步骤一中建立无人机在环境中的状态空间S，具体为：

S＝(d_a，φ_a，d_o，φ_o) (7)

式中，d_a为无人机到目标的距离，φ_a为无人机到目标的连线与x轴正半轴的夹角，d_o为无人机到最近障碍物的距离，φ_o为无人机到最近障碍物的连线与x轴正半轴的夹角。

进一步的优选方案，所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，所述步骤三中计算目标对无人机的势函数奖赏Φ_a(s_k)和障碍物对无人机的势函数奖赏Φ_o(s_k)，并对两者进行叠加作为无人机总的势函数奖赏Φ(s_k)，具体为：

(3.1)目标对无人机的势函数奖赏Φ_a(s_k)，具体如下式所示：

式中，

表示第k时刻无人机到目标的距离，

表示第k+1时刻无人机到目标的距离，η为无人机的飞行步长。

(3.2)障碍物对无人机的势函数奖赏Φ_o(s_k)，具体如下式所示：

式中，

为第k时刻无人机到障碍物的距离，

为第k+1时刻无人机到障碍物的距离，d_obs为传感器观测的障碍物距离，η为无人机的飞行步长。

(3.3)无人机总的势函数奖赏Φ(s_k)，具体如下式所示：

Φ(s_k)＝Φ_a(s_k)+Φ_o(s_k) (10)

式中，Φ_a(s_k)为目标对无人机的势函数奖赏，Φ_o(s_k)为障碍物对无人机的势函数奖赏。

进一步的优选方案，所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，所述步骤四中利用无人机总的势函数奖赏Φ(s_k)对Q估计网络进行路径规划训练，具体步骤为：

(4.1)初始化经验池D，设置经验池容量及经验最小块D_min大小。

(4.2)建立Q估计网络，设置Q估计网络隐含层个数、每个隐含层含有的神经元个数、输出层神经元的个数，选择激活函数；随机初始化Q估计网络权重θ，设置神经网络学习率、累积回报折扣因子γ、无人机飞行步长η、路径平滑系数、ε-greedy策略选择概率ε。

(4.3)建立Q目标网络，令初始化目标网络权重θ^-＝θ。

(4.4)对每一个情节，初始化无人机状态序列s₁＝(d_a ¹，φ_a ¹，d_o ¹，φ_o ¹)。

(4.5)对该情节中的每一步，在概率ε内选择一个随机动作a_k，否则选择动作

令k时刻无人机处于状态s_k时执行动作a_k所获得的回报r_k为无人机总的势函数奖赏，即r_k＝Φ(s_k)；计算无人机在k+1时刻的状态s_k+1＝(d_a ^k+1，φ_a ^k+1，d_o ^k+1，φ_o ^k+1)。

(4.6)将每一步的样本(s_k，a_k，r_k，s_k+1)存储在经验池D中，并从中随机抽取最小经验块D_min。

(4.7)计算k时刻所对应的目标值y_k，具体为：

对(y_k-Q(s_k，a_k；θ))²执行梯度下降法更新Q估计网络权值θ，每隔C步设置目标网络权值θ^-＝θ。

(4.8)若所有情节未训练结束完，则跳转到步骤(4.4)；若所有情节全部训练完成，则网络训练结束。

进一步的优选方案，所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，所述步骤五中利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划，具体步骤为：

(5.1)初始化无人机飞行步长η、路径平滑系数λ。

(5.2)无人机获取当前i时刻目标的位置(x_a ⁱ，y_a ⁱ)，障碍物的位置(x_o ⁱ，y_o ⁱ)和大小，得到无人机当前i时刻的状态s_i＝(d_a ⁱ，φ_a ⁱ，d_o ⁱ，φ_o ⁱ)。

(5.3)将无人机当前i时刻的状态s_i＝(d_a ⁱ，φ_a ⁱ，d_o ⁱ，φ_o ⁱ)输入到训练后的Q估计网络，获取无人机的最优动作值a^*∈{0，1，...，n-1}，则无人机在i+1时刻的位置(x_u ⁱ⁺¹，y_u ⁱ⁺¹)由下式得到，具体为：

式中，λ为路径平滑系数，起到了细分动作空间的作用，在一定意义上增加了动作数目，使得规划出的路径更加平滑；(x_u ⁱ，y_u ⁱ)为无人机当前i时刻的位置，η为无人机飞行步长，

为角度间隔。

(5.4)若无人机未到达目标的位置(x_a ⁱ，y_a ⁱ)，则跳转到步骤(5.2)；若到达目标位置，则路径规划结束。

本发明具有以下优点：

1.本发明建立的状态空间能够表达出无人机在环境中的任意状态，而且该状态空间是连续的，克服了传统DQN路径规划方法中存在的无人机所处环境为离散的栅格地图，容纳的状态有限，且要求环境为已知的问题，满足了无人机在执行任务中对于所处环境未知且状态连续的要求。

2.本发明提出的基于势函数奖赏DQN的无人机路径规划，在DQN训练过程中，目标和障碍物的势函数奖赏根据无人机与目标和障碍物的距离动态调整奖赏值使得无人机趋向目标位置及避开障碍物，势函数奖赏加快了无人机路径规划的速度和收敛效果，实现了无人机在无环境模型下的路径规划，具有较好的适用性。

附图表说明

图1为本发明方法的流程图。

图2为无人机状态空间示意图。

图3为无人机动作空间示意图。

图4为DQN训练过程中无人机探索路径的情况。

图5为基于势函数奖赏DQN的路径规划效果。

图6为简单奖赏和势函数奖赏下DQN平均回报。

图7为简单奖赏和势函数奖赏下DQN训练误差曲线。

具体实施方式

结合所附图表，对本发明的技术方案作具体说明。

如图1所示，本发明的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，具体包括以下步骤：

步骤1建立无人机在环境中的状态空间S，具体过程为：

对无人机所处环境建立笛卡尔坐标系，设无人机在环境中的位置为(x_u，y_u)，目标的位置为(x_a，y_a)，离无人机最近的障碍物的位置为(x_o，y_o)，如图2所示。由图中可以很容易地计算出无人机到目标的距离d_a、无人机到最近障碍物的距离d_o、无人机到目标的连线与x轴正半轴的夹角φ_a、无人机到最近障碍物的连线与x轴正半轴的夹角φ_o。选取S＝(d_a，φ_a，d_o，φ_o)作为无人机在环境中的状态空间，该状态空间不仅可以表达出无人机在环境中的任意状态，而且为连续的状态空间。

步骤2将360度划分16等份作为无人机的航向角，角度间隔

建立无人机的动作空间为A＝{0，1，...，15}，如图3所示。

步骤3计算目标对无人机的势函数奖赏Φ_a(s_k)和障碍物对无人机的势函数奖赏Φ_o(s_k)，并对两者进行叠加作为无人机总的势函数奖赏Φ(s_k)，具体为：

(3.1)目标对无人机的势函数奖赏Φ_a(s_k)，具体如下式所示：

式中，

表示第k时刻无人机到目标的距离，

式中，

为第k时刻无人机到障碍物的距离，

(3.3)无人机总的势函数奖赏Φ(s_k)，具体如下式所示：

Φ(s_k)＝Φ_a(s_k)+Φ_o(s_k) (15)

步骤4利用无人机总的势函数奖赏Φ(s_k)对Q估计网络进行路径规划训练，具体步骤为：

(4.1)初始化经验池D，设置经验池容量大小为20000、经验最小块D_min大小为500。

(4.2)建立Q估计网络，包含3个隐含层，每个隐含层含有100个神经元，输出层神经元个数为100个，采用ReLu激活函数；随机初始化网络权重θ，设置神经网络学习率为0.01、累积回报折扣因子γ为0.9、无人机飞行步长η为1、路径平滑系数为0.75、ε-greedy策略选择概率ε为0.1。

(4.3)建立Q目标网络，令初始化网络权重θ^-＝θ。

令k时刻无人机处于状态s_k时执行动作a_k所获得的回报r_k为无人机总的势函数奖赏，即r_k＝Φ(s_k)；计算无人机k+1时刻的状态s_k+1＝(d_a ^k+1，φ_a ^k+1，d_o ^k+1，φ_o ^k+1)。

(4.6)将每一步的样本(s_k，a_k，r_k，s_k+1)存储在经验池D中，并从中随机抽取500个样本作为最小经验块D_min。

(4.7)计算k时刻所对应的目标值y_k，具体为：

对(y_k-Q(s_k，a_k；θ))²执行梯度下降法更新Q估计网络权值θ，每隔C为300步设置目标网络权值θ^-＝θ。

步骤5利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划，具体步骤为：

(5.1)初始化无人机飞行步长η为1、路径平滑系数λ为0.6，当前时刻i为1。

(5.2)无人机获取当前i时刻目标的位置(x_a ⁱ，y_a ⁱ)，障碍物的位置(x_o ⁱ，y_o ⁱ)和大小，得到无人机状态s_i＝(d_a ⁱ，φ_a ⁱ，d_o ⁱ，φ_o ⁱ)。

为角度间隔。

(5.4)若无人机未到达目标的位置(x_a ⁱ，y_a ⁱ)，则i+1，跳转到步骤(5.2)；若到达目标的位置，则路径规划结束。

为了验证方法的可行性和有效性，下面结合实例对本发明做进一步详细的描述。

在Ubuntu操作系统上，使用python语言在pycharm上搭建仿真环境，DQN框架采用基于数据流编程的网络框架TensorFlow进行仿真实验。仿真环境采用一个1000m×1000m的连续区域，在该区域无人机的起始位置和目标位置随机产生，其中随机产生10个障碍物，无人机感知系统对障碍物的感知距离设为100m。

在进行DQN训练过程中，当每个情节训练结束后随机更换障碍物和目标的位置，无人机起始位置每个情节都随机生成，通过大量的训练，以使DQN拟合出几乎所有状态下的动作优劣。

图4展示的是DQN训练过程中无人机探索路径的四种情况，图中实心圆点表示无人机的起始位置，六角星表示目标位置，圆圈表示无人机对障碍物的探测范围，即无人机一旦进入圆圈内就可感知到障碍物的位置。情节1、情节2、情节1000和情节2071中障碍物位置相同，但无人机的起点位置不同，目标的位置只有情节1和情节2相同。在图4情节1中，由于对DQN网络训练刚开始，按照ε-greedy策略，无人机以ε＝0.1的概率进行探索，随机选择动作，所选择的动作值最大的动作不是最优的，所以无人机的路径看起来相当漫长且复杂，但经过不停地“摸索”，最终还是找到了目标的位置。在图4情节2中，障碍物和目标位置不变，无人机的起始位置随机产生，由于情节1无人机在遍历很多状态空间后并最终找到目标，Q估计网络已经存储很多正样本，所以情节2中无人机能够较快地找到目标并在一定程度上避开障碍物。图4情节1000情况为更换目标位置后DQN网络训练的初期，和图4情节1相似也需要遍历大量状态才能找到目标。图4情节2071为对当前目标位置进行大量训练后的情况，由图中可明显看出，无人机能很快地避开障碍物并找到目标，但由于在这个过程中无人机仍有ε＝0.1的概率对环境进行探索，所以路径还会存在一定概率的“曲折”。

对DQN网络经过大量训练后，我们随机生成10个障碍物，此后障碍物位置固定不动，测试在目标和无人机起始位置随机产生的情况下路径规划效果。图5为基于势函数奖赏DQN的路径规划效果，由图中可以明显看出，DQN通过一定的训练后，能够有效避开障碍到达目标位置。

图6(a)和图6(b)分别为简单奖赏和势函数奖赏规则下，DQN训练过程中前200个情节平均回报曲线。这里简单奖赏规则定义为：当无人机执行下一动作产生的结果是接近目标时，目标对无人机的奖赏给出固定的正奖励值，反之，给出固定的负奖励值。这里固定奖励值设置为无人机的飞行步长η；同理，障碍物对无人机的奖赏也按此规则定义。由图6(a)简单奖赏规则下DQN平均回报曲线可以看出，无人机获得的回报整体趋势波动较大，且平均回报收敛较慢；由图6(b)势函数奖赏规则下DQN平均回报曲线可以看出，无人机能够更快地获得平均回报，且收敛速度明显变快。

图7(a)和7(b)分别为简单奖赏下DQN与势函数奖赏下DQN在7000步训练过程中动作估计值和目标值的误差曲线。由图中可以看出，由于无人机在路径探索过程中，存在ε＝0.1的概率随机选择动作，所以误差曲线会出现尖峰的现象，但总体上呈现下降的趋势，直到估计值达到目标值。但图7(a)简单奖赏下DQN网络在训练5000步后才达到收敛状态，而图7(b)势函数奖赏下DQN在训练到3500步时已接近收敛，所以势函数奖赏下DQN比简单奖赏下DQN在路径规划训练过程中网络收敛速度更快。

Claims

1.一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，包括以下步骤：

步骤一，建立无人机在环境中的状态空间S，该状态空间为连续状态空间，包含无人机的无穷个状态；

建立无人机的动作空间A；

步骤三，计算目标对无人机的势函数奖赏Φ_a(s_k)和障碍物对无人机的势函数奖赏Φ_o(s_k)，并对两者进行叠加作为无人机总的势函数奖赏Φ(s_k)，具体为：

(3.1)目标对无人机的势函数奖赏Φ_a(s_k)，具体如下式所示：

式中，

为第k时刻无人机到目标的距离，

为第k+1时刻无人机到目标的距离，η为无人机的飞行步长；

式中，

为第k时刻无人机到障碍物的距离，

为第k+1时刻无人机到障碍物的距离，d_obs为传感器观测的障碍物距离，η为无人机的飞行步长；

(3.3)无人机总的势函数奖赏Φ(s_k)，具体如下式所示：

Φ(s_k)＝Φ_a(s_k)+Φ_o(s_k) (4)

式中，Φ_a(s_k)为目标对无人机的势函数奖赏，Φ_o(s_k)为障碍物对无人机的势函数奖赏；

步骤四，利用无人机总的势函数奖赏Φ(s_k)对Q估计网络进行路径规划训练；

2.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN 的无人机路径规划方法，其特征在于，所述步骤一中建立无人机在环境中的状态空间S，具体为：

S＝(d_a,φ_a,d_o,φ_o) (1)

3.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，所述步骤四中利用无人机总的势函数奖赏Φ(s_k)对Q目标网络进行路径规划训练，具体步骤为：

(4.1)初始化经验池D，设置经验池容量及经验最小块D_min大小；

(4.2)建立Q估计网络，设置Q估计网络隐含层个数、每个隐含层含有的神经元个数、输出层神经元的个数，选择激活函数；随机初始化Q估计网络权重θ，设置神经网络学习率、累积回报折扣因子γ、无人机飞行步长η、路径平滑系数、ε-greedy策略选择概率ε；

(4.3)建立Q目标网络，令初始化目标网络权重θ^-＝θ；

(4.4)对每一个情节，初始化无人机状态序列s₁＝(d_t ¹,φ_t ¹,d_o ¹,φ_o ¹)；

令k时刻无人机处于状态s_k时执行动作a_k所获得的回报r_k为无人机总的势函数奖赏，即r_k＝Φ(s_k)；计算无人机在k+1时刻的状态s_k+1＝(d_t ^k+1,φ_t ^k+1,d_o ^k+1,φ_o ^k+1)；

(4.6)将每一步的样本(s_k,a_k,r_k,s_k+1)存储在经验池D中，并从中随机抽取最小经验块D_min；

(4.7)计算k时刻所对应的目标值y_k，具体为：

对(y_k-Q(s_k,a_k；θ))²执行梯度下降法更新Q估计网络权值θ，每隔C步设置目标网络权值θ^-＝θ；

4.如权利要求1所述的一种环境信息未知连续状态下基于势函数奖赏DQN的无人机路径规划方法，其特征在于，所述步骤五中利用训练后的Q估计网络对无人机进行环境信息未知连续状态下路径规划，具体步骤为：

(5.1)初始化无人机飞行步长η、路径平滑系数λ；

(5.2)无人机获取当前i时刻目标的位置(x_a ⁱ,y_a ⁱ)、障碍物的位置(x_o ⁱ,y_o ⁱ)和大小，得到无人机当前i时刻的状态s_i＝(d_a ⁱ,φ_a ⁱ,d_o ⁱ,φ_o ⁱ)；

(5.3)将无人机当前i时刻的状态s_i＝(d_a ⁱ,φ_a ⁱ,d_o ⁱ,φ_o ⁱ)输入到训练后的Q估计网络，获取无人机当前时刻的最优动作值a^*∈{0,1,...,n-1}，则无人机在i+1时刻的位置(x_u ⁱ⁺¹,y_u ⁱ⁺¹)由下式得到，具体为：

式中，λ为路径平滑系数，起到了细分动作空间的作用，在一定意义上增加了动作数目，使得规划出的路径更加平滑；(x_u ⁱ,y_u ⁱ)为无人机当前i时刻的位置，η为无人机飞行步长，

为角度间隔；

(5.4)若无人机未到达目标的位置(x_a ⁱ,y_a ⁱ)，则i+1，跳转到步骤(5.2)；若到达目标的位置，则路径规划结束。