CN108731684A

CN108731684A - 一种多无人机协同区域监视的航路规划方法

Info

Publication number: CN108731684A
Application number: CN201810427433.3A
Authority: CN
Inventors: 王彤; 李艳庆; 张曙光
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2018-11-02
Anticipated expiration: 2038-05-07
Also published as: CN108731684B

Abstract

本发明属于无人机区域监视航路规划领域，公开了一种多无人机区域监视的航路规划方法，包括：设定无人机群的目标监视区域，无人机群包含N架无人机，每架无人机上设置一个机载雷达，每架无人机匀速飞行；对无人机群的航路规划进行建模；确定无人机的状态与动作；设定奖赏函数；建立深度神经网络；对N架无人机的航路进行规划，得到无人机群飞行过程中的有限个训练样本，通过样本训练深度神经网络，训练好的神经网络可以预测到没有看过的样本。当输入无人机群的当前状态时，通过神经网络可以知道采取哪一个动作飞行时下一步的监视覆盖率就最大。以此规划出的航路能够使得无人机群有效地实时覆盖监视区域。

Description

一种多无人机协同区域监视的航路规划方法

技术领域

本发明属于本发明属于无人机区域监视航路规划领域，尤其涉及一种多无人机协同区域监视的航路规划方法，适用于无人机群对目标区域进行实时最大覆盖的持续监视问题。

背景技术

无人机(Unmanned Aerial Vehicle，UAV)，是指不需要飞行员驾驶，利用无线电遥控设备和自备的程序控制装置操纵的飞行器。由于无人机的成本低、机动性强、零伤亡率、生存能力强、使用方便等特点，近年来，无论是军事方面还是民用领域，无人机都有其不可替代的作用。在无人机可以完成的各种任务中，区域监视是目前无人机系统的一项非常重要的任务，尤其是采用无人机对作战区域进行监视已经成为当前战场信息获取的重要手段。但是在复杂的环境下尤其是战场，由于任务时间有限、目标的不确定性、传感器设备性能有限和任务区域的环境复杂性各种因素，使得区域监视问题变得十分复杂。为了能够每时每刻都尽可能大的使无人机的机载雷达监视覆盖需监测的目标区域，需要根据预先探测到的无人机执行任务区域内的信息，据此规划出一条参考飞行的航路。

另一方面，现代战场环境越来越复杂，并且具有全方位、大范围的特点，使得单架无人机对目标区域的监视越来越困难，常常无法完成所有的空中监视任务。对于区域监视任务来说，一方面无人机故障率和毁伤率的存在，尤其是在高危环境下执行任务时，假如只靠一架无人机的话很可能会导致任务的失败；另一方面，单架无人机无法对大范围区域进行持续监视，因为单架无人机受到其所挂载的机载雷达性能限制，通常只能获取有限范围内的目标信息。

目前国内外对无人机航路规划的研究主要应用于航迹起始点与终点固定的航迹规划模型，一般有诸如无人机的飞行时间、燃料损耗、威胁区域等约束条件。随着无人机应用领域的逐步拓宽，开始将无人机群应用区域监视的航迹规划问题上，区域监视是指针对特定的区域，为无人机群设计一种最优的航路轨迹，使无人机群沿该轨迹飞行实现区域监视覆盖的目的。相比较于有固定航迹起始点与终点无人机航迹规划，这种航迹规划没有终点，因而增加了航迹规划问题的难度。

因此如何对多架无人机进行航路规划，解决无人机群协同飞行完成对指定区域的有效监视覆盖，是需要认真研究的重要问题。如果缺乏对无人机群的有效协同飞行，不仅无法完全体现多架无人机协同监视覆盖、探测的优势，而且甚至会出现无人机之间冲突、碰撞的危险。反之，多架无人机通过有效的航路规划，协同工作能够带来更好的作战效能。

发明内容

针对上述问题，本发明的目的在于提供一种多无人机协同区域监视的航路规划方法，能够有效地解决多架无人机的协同飞行问题，并能够实现对目标区域的监视覆盖面积最大、且所要求的航路没有固定起点与终点的航迹规划问题。

为达到上述目的，本发明采用如下技术方案予以实现。

一种多无人机协同区域监视的航路规划方法，其特征在于，所述方法包括如下步骤：

步骤1，设定无人机群的监视区域，所述无人机群包含N架无人机，每架无人机上设置一个机载雷达，N架无人机在同一高度匀速飞行，并设定每架无人机的监视半径R_max；

步骤2，确定每架无人机的最大速度偏转角θ_max，以及每架无人机的位置和速度更新表达式；

步骤3，确定深度神经网络的奖赏函数；

步骤4，建立深度神经网络包含N个全连接神经网络，一个全连接神经网络对应一架无人机的航路规划；

步骤5，训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型，从而根据所述每个训练后的神经网络模型确定对应无人机的航路规划结果。

本发明技术方案的特点和进一步的改进为：

(1)步骤1中设定每架无人机的监视半径R_max具体为：

每架无人机的监视半径R_max为机载雷达的最大作用距离：

其中，P_t表示机载雷达系统峰值功率，G表示机载雷达天线增益，λ表示机载雷达电磁波波长，σ表示目标散射截面积，k表示波尔兹曼常数，T₀表示标准室温，B表示机载雷达接收机带宽，F表示机载雷达噪声系数，L表示机载雷达自身损耗，(S/N)_omin表示机载雷达的最小可检测门限。

(2)步骤2中确定每架无人机的位置和速度更新表达式，具体为：

(2a)确定无人机群的状态：

第n架无人机的状态包含该无人机的位置坐标(x_n，y_n)和该无人机的飞行速度方向采用行向量表示第n架无人机的状态，则无人机群的状态表示为：

(2b)确定无人机群中每架无人机的动作：

每架无人机在下一时刻的可行位置为一个光滑圆弧，在所述光滑圆弧上平均取M个节点作为该无人机在下一时刻采取的M个动作，且M为奇数；

(2c)确定第n架无人机的位置和速度更新公式：

x_nm＝x_n+v·Δt·cos(α_nm+v_n)

y_nm＝y_n+v·Δt·sin(α_nm+v_n)

v_nm＝v_n+θ_nm

其中，x_nm和y_nm分别为第n架无人机采取第m个动作飞达下一节点的横坐标和纵坐标；x_n和yn_分别为第n架无人机当前时刻所在节点的横坐标和纵坐标；v为无人机的飞行速度；Δt为固定的时间间隔；α_nm为第n架无人机采取第m个动作飞达下一节点相对于该无人机当前节点的位置偏转角；v_nm为第n架无人机采取第m个动作飞达下一节点处的飞行速度角度；v_n为该无人机在当前节点处的飞行速度角度；θ_nm为第n架无人机采取第m个动作飞达下一节点速度变化的角度，n＝1，...，N，m＝1，...，M。

(3)步骤3具体为：

确定深度神经网络的奖赏函数r＝A*(rate-0.85)；

其中，rate为无人机群的总覆盖率，A为奖赏系数；

求解无人机群的总覆盖率rate的具体过程为：将无人机群的监视区域均匀划分为二维网格，然后将被无人机的机载雷达监视到的网格标记为1，没被监视到的网格标记为0，其中，如果监视到的网格有重叠，则这个重叠网格一直标记为1；得到无人机群的监视区域内所有被标记为1的网格个数，将所有被标记为1的网格个数与二维网格的总个数的比值记为无人机群的总覆盖率rate。

(4)步骤4具体包括如下子步骤：

(4a)建立N个全连接神经网络，每个全连接神经网络的输入层包含3×N个神经元，用于输入N架无人机的当前状态；每个全连接神经网络的输出层包含M个神经元，用于输出对应无人机的M个动作估值；且每个全连接神经网络还包含两个隐含层；

(4b)每个全连接神经网络的网络参数为w，b，其中，w表示神经网络的权重，b表示神经网络的偏差项，设定每个全连接神经网络的初始网络参数w，b分别服从参数为μ(0，0.1)，μ(0.05，0.01)的正态分布，且设定两个隐含层的激活函数为ReLU；

(4c)在第二个隐藏层之后设置随机失活率为0.5。

(5)步骤5具体包括如下子步骤：

(5a)设定无人机群的最大飞行步数max_step，将无人机群的初始状态作为起始点，无人机群从起始点开始飞行达到最大飞行步数max_step时作为一个飞行周期；

设定无人机群的初始状态其中，表示第n架无人机的初始状态行向量；

(5b)将所述无人机群的初始状态分别作为N个全连接神经网络的输入，得到每个全连接神经网络的输出，所述每个全连接神经网络的输出为该全连接神经网络对应的无人机在下一时刻的M个动作估值；

(5c)对于每个全连接神经网络，从其输出的M个动作估值中选择动作估值最大值对应的动作a更新该全连接神经网络对应的无人机的位置和速度，其中，所述动作a为无人机飞往下一时刻过程中的速度偏转角；从而得到该无人机采取动作a飞行到下一时刻后所述无人机群的总覆盖率，该全连接神经网络的奖赏函数值r₀以及该无人机采取动作a飞行到下一时刻后整个无人机群的状态s₀′，从而得到“状态-动作-回报-新状态”序列[s₀，a，r₀，s₀′]，经[s₀，a，r₀，s₀′]作为一个训练样本向量；

(5d)对于N个全连接神经网络，通过子步骤(5c)，共得到N个训练样本向量，将N架无人机分别飞行到下一时刻后的状态组成无人机群的最新状态，并将所述无人机群的最新状态替换子步骤(5b)中无人机群的初始状态；

(5e)重复执行子步骤(5b)至(5d)，直到无人机群飞行两个飞行周期，从而得到2×N×max_step个训练样本向量，将所述2×N×max_step个训练样本向量存储在样本表中；

(5f)根据所述样本表中的训练样本向量训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型。

(6)子步骤(5f)具体包括如下子步骤：

(5f1)设定训练次数k，且k的初值为1，k＝1，...，K，K为设定的最大训练次数；

当无人机群的第三个飞行周期开始：

(5f2)从所述样本表中随机选取若干个训练样本向量，将若干个训练样本向量中的任意一个训练样本向量记为|s₀，a，r₀，s₀′|，其中，s₀表示无人机群当前的状态，a为某一无人机选择的动作，s₀′表示该无人机选择动作a后该无人机状态的改变造成整个无人机群的状态变化，r₀表示无人机群状态改变为s₀′后所得到的奖赏函数值，将r₀作为全连接神经网络中对应动作a的目标值；

将所述样本向量|s₀，a，r₀，s₀′|中的s₀归一化后作为第一架无人机对应的全连接神经网络的输入，经过所述第一架无人机对应的全连接神经网络的前向传播算法得到所述第一架无人机对应的全连接神经网络输出的M个动作估值，将M个动作估值中对应动作a的目标值设为r₀，其他M-1个动作的目标值为对应的神经网络输出值；

(5f3)从而确定所述第一架无人机对应的全连接神经网络的损失函数：

其中，i表示第i个动作，i＝1，...，M，J(w，b；x，y)为神经网络的损失函数，x对应神经网络输入层的输入，y对应神经网络输出层的输出，w，b为神经网络的网络参数，y_i为神经网络的目标值，h_w，b(x)为神经网络输出的动作估值；

通过神经网络的反向传播算法更新网络参数w，b的值，得到更新后的第一架无人机对应的全连接神经网络；

(5f4)采用所述若干个训练样本向量中的下一个训练样本向量继续对所述更新后的第一架无人机对应的全连接神经网络的网络参数进行训练，直到将所述若干个训练样本向量全部使用完；

(5f5)根据子步骤(5f2)至(5f4)，分别对第二架无人机对应的全连接神经网络的网络参数至第N架无人机对应的全连接神经网络的网络参数进行更新；

(5f6)采用当前N架无人机对应的全连接神经网络分别得到每架无人机下一步的飞行动作，并将产生的无人机群的“状态-动作-回报-新状态”序列作为新的训练样本向量添加到样本表中；

当采用当前N架无人机对应的全连接神经网络指导无人机群飞行p步之后，令k的值加1，并采用当前的样本表中的若干个训练样本向量再次对N架无人机对应的全连接神经网络的网络参数进行更新，直到达到最大训练次数K，得到最终训练好的N个全连接神经网络模型；

(5f7)采用最终训练好的N个全连接神经网络模型对N架无人机进行航路规划。

本发明在角度上使用深度强化学习进行无人机群航路规划，达到了无人机群实时覆盖面积最优的目的。通过将航路规划问题与深度强化学习有效结合，能够解决与传统区域覆盖寻优航路规划情况不同的一种全新的航路规划问题，即不规定航迹的起点与终点，且要求无人机群以该航路飞行时实现对指定区域的持续监视覆盖范围最大的航迹规划问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多无人机协同区域监视的航路规划方法的流程示意图；

图2是本发明实施例提供的某一时刻6架无人机对目标区域的覆盖图，其中“*”表示无人机所处位置，一个圆形区域表示单架无人机覆盖区域，所有圆形区域的并集表示无人机群此时覆盖面积；

图3是采用本发明方法进行无人机群航路规划所得到的最终航迹路线图；虚线框表示无人机群监视区域，每条曲线表示每架无人机的规划航迹；

图4是使用本发明方法进行无人机群航迹规划所得到的覆盖率曲线，其中，横坐标为飞行步数，纵坐标为覆盖率。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，为本发明实施例提供的一种多无人机协同区域监视的航路规划方法流程图，包括以下步骤：

步骤1，设置航路规划问题的仿真参数。设定无人机群的监视目标区域；设定一系列无人机运动参数；所述无人预警机群包含N架无人机，每架无人机上设置一个机载雷达，每架无人机假设在同一高度匀速飞行，并根据机载雷达距离方程设定无人机的监视半径R_max。

步骤1可分为如下子步骤：

1.1设定无人机群的目标监视区域，即无人机群机载分布式雷达系统待覆盖区域。无人机的飞行任务就是对该指定任务监视区域实现实时最大化监视覆盖，使无人机的机载雷达能够可持续不间断地监视整个指定任务区域。

1.2设定无人机的具体运动参数，无人机运动参数是指无人机在空中飞行时的状态参数，通过状态参数可以确定无人机的运动，与本次航路规划有关的无人机运动参数有：无人机平均飞行速度为v_p，用于表示无人机在一定时间间隔Δt内的飞行速度平均值，假设飞行过程中无人机在航路规划时间间隔Δt内的飞行速度平均值v_p始终保持不变；无人机的偏航角，表示无人机飞行速度与坐标系x轴正方向的夹角；无人机的横滚角，表示无人机机身转弯倾斜角；无人机的转弯角以及无人机的转弯半径。并在无人机上装备一个机载雷达，该雷达既是发射机也是接收机。

1.3设定无人机机载雷达系统参数，无人机群航迹规划的最终目的是实时最大化覆盖监视区域，故需要确定机载雷达系统作用范围。这里将探测区域简化为一个圆，设雷达系统的最大作用距离为R_max，根据雷达方程可以计算雷达最大作用距离：

上式中，P_t表示雷达系统峰值功率，G表示天线增益，λ表示电磁波波长，σ表示目标散射截面积，k表示波尔兹曼常数，T₀表示标准室温，B表示接收机带宽，F表示噪声系数，L表示雷达自身损耗，(S/N)_omin表示最小可检测门限。

步骤2，航路规划问题的数学建模。无人机群对目标区域实现最大范围的持续监视的航路规划问题实质上是一个数学优化问题。首先，根据无人机在空中飞行时的转弯约束确定每架无人机的最大速度偏转角，即最大转弯角θ_max。每架无人机产生的转弯角要小于最大转弯角，此时的航路才视为可行。根据无人机飞行时的最大转弯角来确定无人机下一时刻的可行位置。步骤2可分为如下子步骤：

2.1根据无人机在空中飞行时的转弯约束确定每架无人机的最大转弯角θ_max。无人机转弯时依靠副翼进行差动，使得机身倾斜，利用升力的向心分力进行转弯。对无人机进行受力分析：

Lcosγ＝mg

mV_p ²/R＝Lsinγ

上式中L表示升力，γ表示横滚角，即机身转弯倾斜角，m表示无人机机身自重，R表示转弯半径，V_p表示无人机巡航速度，g表示重力加速度，则有：

R＝V_p ²/(g·tanγ)

tanγ在一些文献中称为过载。显然过载越大，转弯半径越小，无人机转弯所受约束越小。然而，无人机过载存在上限，过载最大时，横滚角达到最大，此时可得到最小转弯半径R_min。通过几何关系，由最小转弯半径R_min、无人机飞行速度V_p和飞行时间间隔Δt就可以得到最大转弯角θ_max。最大转弯角θ_max指相邻两个时刻由于无人机速度方向变化产生的最大夹角。无人机的转弯角θ不得大于该无人机的最大转弯角θ_max，即θ≤θ_max；本发明实施例中无人机的滚转角γ＝30°。

2.2确定下一时刻可行位置。当无人机速度偏转角θ未超出最大速度偏转角θ_max时，则产生的航迹可行。当无人机匀速飞行时，根据无人机的速度偏转角不同，可以确定一条不光滑弧线，这条弧线上的每个点都可以认为是可行航迹。为简化处理，可将这条弧线近似为一个圆弧处理。这种近似是合理的，因为无人机沿圆弧飞行飞过的距离和沿弦长飞行飞过的距离近似相等。因此，将下一时刻无人机的航迹位置所组成的不光滑弧线近似为以当前时刻无人机的位置信息为圆心、以无人机的飞行速度V_p飞行Δt时间的飞行距离d为半径的光滑弧线，将所述光滑弧线作为下一时刻无人机在可飞区域内的航迹位置可飞行域，因此无人机飞行Δt时间后能到达的所有位置均位于光滑圆弧上。

如果认为无人机匀速圆周转弯，根据简单的几何知识，可以得到相邻时刻位置产生的位置偏转角是速度偏转角θ的一半，即

步骤3，确定无人机的状态与动作。在强化学习中，每个状态的改变需要通过智能体采取相应的动作，在无人机航路规划中，也同样需要确定无人机飞行到下一个状态时要采取的动作。以无人机群当前所处位置的坐标(x，y)和飞行速度方向作为当前状态，在下一时刻可行位置上均匀取点作为无人机可采取的动作。

步骤3可分为如下子步骤：

3.1确定无人机群的状态。每架无人机在航路规划中的每一个状态都包含三个元素：无人机的位置坐标(x，y)，无人机飞行速度的方向，用来表示。将这三个元素用一个行向量来表示：所以无人机群的每个状态表示为

3.2确定每架无人机的动作。由步骤2可以确定每架无人机在下一时刻的可行位置为一个光滑圆弧，我们在圆弧上平均取M个节点作为无人机可以采取的M个动作。因为无人机向左转弯与向右转弯时可以飞达的位置完全对称，所以M必须为奇数。

3.3无人机位置-速度更新公式。每架无人机通过采取相应的动作都会改变当前的状态，即位置坐标与飞行速度方向。无人机下一个状态的位置信息与速度方向信息与无人机之前起始点的状态有关，具体的计算公式为：

x_nm＝x_n+v·Δt·cOs(α_nm+v_n)

y_nm＝yn+v·Δt·sin(α_nm+v_n)

v_nm＝v_n+θ_nm

式中，x_nm和y_nm分别为第n个无人机采取第m个动作飞达下一节点的横坐标和纵坐标；x_n和y_n分别为第n个无人机之前的起始点的横坐标和纵坐标；v为无人机的飞行速度；Δt为固定的时间间隔；α_nm为第n个无人机采取第m个动作飞达下一节点相对于该无人机之前起始点的位置偏转角；v_nm为第n个无人机采取第m个动作飞达下一节点处的飞行速度角度；v_n为该无人机在之前起始点处的飞行速度角度；θ_nm为第n个无人机采取第m个动作飞达下一节点速度变化的角度。

步骤4，确定奖赏函数。奖赏函数，也即“强化信号”，它不仅来自于环境，而且与无人机飞行状态紧密相连。如何设置直接影响到学习速度，本发明实施例采用与无人机机载雷达监视覆盖率有关的函数表示立即奖励，设计如下：

r＝7*(rate-0.85)

式中，rate为无人机群下一时刻的总覆盖率。奖励函数作为深度神经网络的目标值，可以理解为当下一时刻无人机群总覆盖率大于85％时就奖励，小于85％时则惩罚。式中的常数7则是为了将奖励或惩罚放大，使得算法的收敛速度更快。

无人机群监视面积覆盖率即为每架无人机的监视面积的并集除以目标区域总的面积。将无人机简化成一个没有体积大小的质点，因此在航路规划算法中不必考虑无人机的半径，仿真试验中用圆点表示。各无人机机载雷达的监视范围可由步骤1中给出的雷达方程计算。

求解无人机群监视面积的具体过程如下：将目标区域均匀划分为二维网格，然后将被无人机的机载雷达监视到的网格标记为1，没被监视到的区域标记为0，其中如果监视区域有所重叠，则这个重叠区域最终也只会一直标记为1。最终计算无人机群此时的监视面积时，只需将目标区域内所有被标记为1的网格个数相加即可。

需要注意的是，对于正在执行飞行任务的无人机，它的监视范围就是以此时无人机的位置信息为圆心，以该无人机的监视威力为半径的圆；其他无人机的监视范围是以其他无人机此刻所在位置为圆心，以其监视威力为半径的圆；如果有无人机的监视范围在目标区域以外，则以目标区域为边界，超出目标区域的面积不算作无人机的监视面积。

步骤5，建立深度神经网络。在强化学习下，由于无人机群拥有高维的状态空间，因此无人机无法通过反复测试遍历到所有的情况，导致当无人机遇到新情况时无法选择正确的动作。因为深度强化学习有刻画高维状态的能力，所以我们采用深度神经网络估计强化学习的状态-动作估值函数，并且使用梯度下降法代替强化学习的迭代更新。

步骤5可分为如下子步骤：

5.1建立N个(N为无人机的个数)全连接神经网络，输入层为N架无人机的状态，已知每架无人机的当前状态包含3个元素，即x，y，所以输入层包含3×N个神经元；输出层为每架无人机的动作估值，因为每架无人机都有M个动作，所以输出层包含M个神经元；每个神经网络都包含2个隐藏层，其中第一层为l₁层，第二层为l₂层，设定2个隐藏层都包含512个神经元。

5.2设定神经网络参数w，b分别服从于μ(0，0.1)，μ(0.05，0.01)的正态分布。l₁层和l₂层使用的激活函数为Rectified Linear Unit(ReLU)，ReLU是一种近似生物神经激活函数，其具体计算公式如下：

5.3为了防止过拟合，即训练出的神经网络在训练集上有很好的效果，而在验证集上的结果却表现的差强人意。本发明将Dropout加在了第二个隐藏层l₂之后，设置的Dropout率为0.5，即每次更新时会随机的将50％的参数设置为零。Dropout随机丢弃部分参数增强了网络的泛化能力，预防了过拟合的产生。

步骤6，基于深度强化学习的多无人机的航路规划。输入当前无人机群的状态，通过深度神经网络来拟合标签，使得输出的值越大时，采取对应的动作下一步监视覆盖率就越高。使得无人机一直采取能够使得下一步监视覆盖率变大的动作飞行，直至任务结束。

步骤6可分为如下子步骤：

6.1如果已知当前无人机群的状态通过每架无人机对应的神经网络就可以计算出该无人机的M个动作的估值，从M个动作估值中选择最大值对应的动作a通过步骤3.3中的位置-速度信息更新公式就可以确定无人机群下一时刻的状态s′，根据下一时刻无人机群所处位置就可以求得此时无人机群的监视覆盖面积，然后通过步骤4可以求得立即奖励r值。

6.2建立记忆库，即memory表用于储存之前的经历，将每架无人机每次与环境交互时得到的“状态-动作-回报-新状态”序列放到memory表中，即得到这样一个向量[s，a，r，s′]，其中，s表示无人机群当前的状态，a为该无人机选择的动作，s′表示该无人机选择动作a后该无人机状态的改变造成整个无人机群状态变化为s′，r表示无人机群状态改变为s′后所得到的奖励。

6.3设定无人机的最大飞行步数max_step，从无人机起始点起飞开始算起一直飞行达到max_step时算一个飞行周期，每架无人机每飞行一步都产生1个样本[s，a，r，s′]，逐行添加到memory表中。

在前两次飞行周期中，先不训练神经网络，只为了得到一些样本。由于此时的神经网络还未经训练，得到的M个动作估值为随机产生的，此时选择的最大估值对应的动作相当于每架无人机在转弯约束条件下随机飞行的动作，经过前两次飞行周期，可以得到一些样本，保存到此时还被零初始化的memory表中，从第三次飞行周期开始，无人机每飞行3步训练一次神经网络。

6.4开始训练网络，随机从memory表中抽取一组样本，随机选取样本的原因是深度神经网络算法要求数据分布的独立性假设，如果数据之间有强相关性，直接从这些样本学习是低效的，同时计算出来的模型也会有偏向。

选取样本[s，a，r，s′]中的s归一化后作为每架无人机对应的神经网络的输入，经过神经网络的前向传播算法计算得到每架无人机对应的M个动作的输出值，将样本[s，a，r，s′]中对应动作a的神经网络的目标值赋值为r，其余动作的目标值仍为输出值。根据下式求得神经网络的损失函数：

式中w，b为神经网络的目标值，w，b为神经网络的输出值，w，b为神经网络的损失函数。然后通过神经网络的反向传播算法不断更新w，b值。

所以每次训练每架无人机对应的神经网络模型时，都是通过提供这样一堆训练样本：每个训练样本既包括输入特征，即无人机群当前的状态；也包括对应的输出(也称作标记)，即每架无人机的奖赏函数。这样就可以用这样的样本去训练每个神经网络模型，让模型既看到提出的每个问题(输入特征)，也看到对应问题的答案(标记)。当模型看到足够多的样本之后，它就能总结出其中的一些规律。然后，就可以预测那些它没看过的输入所对应的答案了。如此训练到最后，当输入无人机群当前时刻所处的位置以及飞行角度时，通过每架无人机对应的神经网络就可以得到该无人机采取M个动作后的输出值，选择最大的输出值对应的动作，无人机群的下一时刻的覆盖面积就最大，如此，从起始点一直不断飞行下去即可不断获得无人机的航路节点，将每次得到的目标节点位置信息按顺序进行排列，即可得到各架无人机的飞行航线。

本发明的效果可由以下仿真实验作进一步说明：

1.仿真条件：

仿真假设使用6架监视半径为70km的无人机监视一片200km×200km的矩形区域。各架无人机的起始坐标分别为(50,0)、(150,0)、(200,60)、(200，120)、(0，160)、(50，200)。各无人机的初始速度方向均为垂直边界指向任务区域内。其它参数如表1所示。

假定预测30步的无人机群航迹，使用深度强化学习进行无人机群航迹规划，具体的算法参数如下表所示：

表1航路规划算法仿真参数表

2.仿真内容和结果分析

图2为某一时刻6架无人机对目标区域的覆盖图，由图可见，6架无人机的监视范围可以近似完全覆盖待监视区域

图3给出了采用本发明方法进行无人机群航路规划所得到的最终航迹路线图，虚线框表示无人机群的监视区域。由图可以得出，本算法得出的航迹点都是有效可行的。

图4给出了使用本发明方法进行无人机群航迹规划所得到的覆盖率曲线。由该图可以得出，本发明提出的基于深度强化学习的多无人机协同区域监视的航路规划方法可以实现无人机群对目标区域进行最大范围的持续监视。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多无人机协同区域监视的航路规划方法，其特征在于，所述方法包括如下步骤：

步骤3，确定深度神经网络的奖赏函数；

2.根据权利要求1所述的一种多无人机协同区域监视的航路规划方法，其特征在于，步骤1中设定每架无人机的监视半径R_max具体为：

每架无人机的监视半径R_max为机载雷达的最大作用距离：

其中，P_t表示机载雷达系统峰值功率，G表示机载雷达天线增益，λ表示机载雷达电磁波波长，σ表示目标散射截面积，k表示波尔兹曼常数，T₀表示标准室温，B表示机载雷达接收机带宽，F表示机载雷达噪声系数，L表示机载雷达自身损耗，(S/N)_{o min}表示机载雷达的最小可检测门限，S为信号功率，N为噪声功率。

3.根据权利要求1所述的一种多无人机协同区域监视的航路规划方法，其特征在于，步骤2中确定每架无人机的位置和速度更新表达式，具体为：

(2a)确定无人机群的状态：

第n架无人机的状态包含当前时刻该无人机所在节点的位置坐标(x_n，y_n)和该无人机的飞行速度方向采用行向量表示第n架无人机的状态，则无人机群的状态表示为：

(2b)确定无人机群中每架无人机的动作：

(2c)确定第n架无人机的位置和速度更新公式：

x_nm＝x_n+v·Δt·cos(α_nm+v_n)

y_nm＝y_n+v·Δt·sin(α_nm+v_n)

v_nm＝v_n+θ_nm

其中，x_nm和y_nm分别为第n架无人机采取第m个动作飞达下一节点的横坐标和纵坐标；x_n和y_n分别为第n架无人机当前时刻所在节点的横坐标和纵坐标；v为无人机的飞行速度；Δt为固定的时间间隔；α_nm为第n架无人机采取第m个动作飞达下一节点相对于该无人机当前节点的位置偏转角；v_nm为第n架无人机采取第m个动作飞达下一节点处的飞行速度角度；v_n为第n架无人机在当前节点处的飞行速度角度；θ_nm为第n架无人机采取第m个动作飞达下一节点速度变化的角度，n＝1，...，N，m＝1，...，M。

4.根据权利要求1所述的一种多无人机协同区域监视的航路规划方法，其特征在于，步骤3具体为：

确定深度神经网络的奖赏函数r＝A*(rate-0.85)；

其中，rate为无人机群的总覆盖率，A为奖赏系数；

求解无人机群的总覆盖率rate的具体过程为：将无人机群的监视区域均匀划分为二维网格，然后将被无人机的机载雷达监视到的网格标记为1，没被监视到的网格标记为0，其中，如果监视到的网格有重叠，则这个重叠网格一直标记为1；进而得到无人机群的监视区域内所有被标记为1的网格个数，将所有被标记为1的网格个数与二维网格的总个数的比值记为无人机群的总覆盖率rate。

5.根据权利要求1所述的一种多无人机协同区域监视的航路规划方法，其特征在于，步骤4具体包括如下子步骤：

(4b)每个全连接神经网络的网络参数为w，b，其中，w表示每个全连接神经网络的权重，b表示每个全连接神经网络的偏差项，设定每个全连接神经网络的初始网络参数w，b分别服从参数为μ(0，0.1)，μ(0.05，0.01)的正态分布，且设定两个隐含层的激活函数为ReLU激活函数；

(4c)在第二个隐藏层之后设置随机失活率为0.5。

6.根据权利要求5所述的一种多无人机协同区域监视的航路规划方法，其特征在于，步骤5具体包括如下子步骤：

(5c)对于每个全连接神经网络，从其输出的M个动作估值中选择动作估值最大值对应的动作a更新该全连接神经网络对应的无人机的位置和速度，其中，所述动作a为无人机飞往下一时刻过程中的速度偏转角；从而得到该无人机采取动作a飞行到下一时刻后所述无人机群的总覆盖率，该全连接神经网络的奖赏函数值r₀以及该无人机采取动作a飞行到下一时刻后整个无人机群的状态s′₀，从而得到“状态-动作-回报-新状态”序列[s₀，a，r₀，s′₀]，经[s₀，a，r₀，s′₀]作为一个训练样本向量；

(5f)根据样本表中存储的训练样本向量训练每个全连接神经网络的网络参数，得到每个训练后的神经网络模型。

7.根据权利要求6所述的一种多无人机协同区域监视的航路规划方法，其特征在于，子步骤(5f)具体包括如下子步骤：

当无人机群的第三个飞行周期开始：

(5f2)从所述样本表中随机选取若干个训练样本向量，将若干个训练样本向量中的任意一个训练样本向量记为|s₀，a，r₀，s′₀|，其中，s₀表示无人机群当前的状态，a为某一无人机选择的动作，s′₀表示该无人机选择动作a后该无人机状态的改变造成整个无人机群的状态变化，r₀表示无人机群状态改变为s′₀后所得到的奖赏函数值，将r₀作为全连接神经网络中对应动作a的目标值；

将所述样本向量|s₀，a，r₀，s′₀|中的s₀归一化后作为第一架无人机对应的全连接神经网络的输入，经过所述第一架无人机对应的全连接神经网络的前向传播算法得到所述第一架无人机对应的全连接神经网络输出的M个动作估值，将M个动作估值中对应动作a的目标值设为r₀，其他M-1个动作的目标值为对应的神经网络输出值；

其中，i表示第i个动作，i＝1，...，M，J(w，b；x，y)为神经网络的损失函数，x对应神经网络输入层的输入，y对应神经网络输出层的输出，w，b为神经网络的网络参数，y_i为神经网络第i个动作的目标值，h_w，b(x)为神经网络输出的动作估值；