CN114142908A

CN114142908A - 一种面向覆盖侦察任务的多无人机通信资源分配方法

Info

Publication number: CN114142908A
Application number: CN202111093095.2A
Authority: CN
Inventors: 刘春辉; 董赞亮; 黄丽珍
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-03-04
Anticipated expiration: 2041-09-17
Also published as: CN114142908B

Abstract

本发明公开了一种面向覆盖侦察任务的多无人机通信资源分配方法，属于无人机集群测控通信领域，具体为：首先，将M架无人机飞行的任务区域栅格化，建立每条链路的信噪比和信道容量；进一步定义状态空间、动作空间和奖励函数，为每架无人机建立两个结构相同的深度神经网络：Q‑eval网络和Q‑target网络以及回放记忆库。随机采样训练样本分别输入Q‑eval和Q‑target网络中，输出对应的当前动作的预测Q值和目标Q值，然后利用均方误差损失函数，更新网络参数，不断拟合训练神经网络模型，最后基于通信资源分配方法，使得无人机在与环境的动态交互中学习到最优策略，使得通信系统性能最优的情况下保障覆盖区域最大化，以此更加自治和鲁棒的保障飞行任务，达到多任务目标的目的。

Description

一种面向覆盖侦察任务的多无人机通信资源分配方法

技术领域

本发明属于无人机集群测控通信领域，具体涉及一种面向覆盖侦察任务的多无人机通信资源分配方法。

背景技术

随着无人机(Unmanned Aerial Vehicles,UAVs)在国防建设和民用领域的市场规模不断扩大，由多架无人机协同执行任务的无人机集群系统成为各大军事强国的重点研究方向。

以美军为例，其先后组织实施了蝗虫(LOCUST)、山鹑(Perdix)、小精灵(Gremlins)等多个无人机集群项目，并在最新《无人飞行器系统发展路线图，2017～2042》中提出：高低空全覆盖、长战区停留、微型化、多功能、高性能的集群作战将是未来UAVs的主要应用方向。由于单架无人机覆盖能力有限，通常需要无人机集群相互协作地执行覆盖任务，因此覆盖侦察任务成为无人机集群军用和民用领域的重要任务类型。

当无人机集群协同完成覆盖侦察任务时，冗余的航路不仅会造成对目标区域的重复侦察，还会使无人机能耗大大增加，降低任务效率，因此高效合理的规划航路至关重要。

除了要考虑航路规划的合理性，UAVs还会面临通信环境的多变性和不确定性，包括复杂多变的电磁环境，节点的高移动性，以及无人机间相对位置的动态变化，这些因素都极易对无人机与无人机(UAV to UAV,U2U)之间的空空链路，以及无人机与地面基础设施(UAV to Infrastructure,U2I)之间的空地链路，造成不良影响。在有限频谱资源的情况下，无人机集群测控系统还会出现信道间干扰(Inter-Channel Interference,ICI)等问题，给无人机集群系统的通信安全和任务安全带来严重威胁。

因此，针对无人机集群覆盖侦察任务，研究一种既能规划出相对最优的飞行航路以达到最大化任务区域覆盖率的目标，又能够有效控制无人机发射功率和频谱分配的通信资源分配方法对无人机集群系统具有重要意义。

当前，通信资源分配的优化方法大多都集中在车联网领域，且主要为集中式资源分配方法。集中式资源分配方法需要中央控制器收集全局信道信息，传输开销极大，不适用于大规模网络环境。现有的无人机集群资源分配方法主要包括：通信距离限制下的基于谈判机制的方法，通信带宽和距离限制下的基于移动自组网的分布式方法，以及最大信噪比准则下的波束形成优化方案。然而，这些方法没有结合特定的无人机集群任务场景，且对于通信约束的研究不够全面，不能很好的将航路规划目标和通信性能优化目标结合起来。

随着人工智能浪潮的兴起，强化学习(Reinforcement Learning,RL)展现了可能超越人类的巨大潜力，能够有效解决动态环境下难以优化的目标问题。特别是近年来学术界提出将强化学习与神经网络的结合，能进一步解决高维状态空间与动作空间的复杂映射问题。

发明内容

针对多架无人机进行区域覆盖侦察任务，通信中频谱共享时存在信道间干扰以及传输延时的问题，本发明提出了一种面向覆盖侦察任务的多无人机通信资源分配方法，利用深度神经网络(Deep Neural Network,DNN)的感知能力和自学习能力，结合Q-learning算法与环境交互进行决策的能力，完成从观测状态到智能体动作之间的映射。在覆盖侦察区域复杂不确定的情况下，能够使得某一U2U链路选择的传输功率对U2I链路和其他U2U链路产生尽可能小的干扰，同时实现最大化多无人机协同侦察覆盖率的目的。

所述的面向覆盖侦察任务的多无人机通信资源分配方法，具体步骤如下：

步骤一，针对M架无人机飞行的任务区域，根据无人机的监视范围在地面的投影，设定网格的单元宽度，将任务区域栅格化。

建立无人机的飞行模型，无人机集群内的每架无人机速度相同，且在完成任务前保持匀速飞行；

步骤二，考虑无人机飞行环境中的高斯白噪声以及信道间的干扰，建立每条链路的信噪比和信道容量；

M架无人机与地面调度中心通信，为M对U2I链路，用M＝{1,2,…,m}表示；K对无人机间的空-空链路，为K对U2U链路，用K＝{1,2,…,k}表示。

第m条U2I链路接收到的信噪比为：

表示第m条U2I用户的发射功率，

表示第k对U2U用户的发射功率，σ²是噪声功率，h_m是与第m条U2I链路对应的信道功率增益，

是第k条U2U链路对应的信道干扰功率增益，ρ_k[m]是频谱分配指标，其中ρ_k[m]＝1表示第k条U2U链路复用了第m条U2I链路的频谱，否则ρ_k[m]＝0。

第m条U2I链路的信道容量为：

C^c[m]＝W·log(1+γ^c[m]) (2)

W为带宽。

类似地，设第k对U2U链路接收到的信噪比为

g_k为第k对U2U链路对应的信道功率增益，G_c为U2I链路对与其共享频谱的第k条U2U链路的信道干扰功率，G_d为共享同一频谱的所有U2U链路的总干扰功率；

则第k对U2U链路的信道容量为：

C^u[k]＝W·log(1+γ^u[k]) (4)

步骤三、定义状态空间、动作空间和奖励函数，为每架无人机建立两个结构相同的深度神经网络：Q-eval网络和Q-target网络；以及回放记忆库。

1)状态空间S_t表达式为

S_t＝{G_t,H_t,I_t-1,N_t-1,U_t,L_t,P_t} (5)

G_t为所占用的子信道上的功率增益；H_t为无人机到基站的每条子信道的功率增益；I_t-1为前一时刻每条子信道接收到的干扰信号强度；N_t-1表示子信道在上一时刻被附近无人机使用的次数；U_t为通信时延约束下的剩余传输时间；L_t表示剩余传输负载；P_t表示该无人机在当前时刻的坐标。

2)动作空间A表示为U2U链路的通信资源分配动作和无人机的航路规划动作。

表达式如下：

A＝[N_RB,power_level,dir] (6)

N_RB为通信链路设置的频谱子带范围；power_level为发射功率的等级；dir为无人机的飞行航向。

3)奖励函数，表达式为：

C^c[m]表示第m条U2I链路的信道容量，C^u[k]为第k对U2U链路的信道容量，λ为C^c[m]的权重因子，(1-λ)为C^u[k]的权重因子，T₀是最大容许延迟，U_t是剩余传输时间。k_r为转弯角约束带来的奖励函数；γ_r为k_r对应的权重因子；k_d为无人机是否进入侦察区域带来的奖励函数；γ_d为k_d对应的权重因子；k_c为覆盖率奖励函数；γ_c为k_c对应的权重因子。

因此，智能体长期的积累折扣奖励，即Q值的表达式为：

γ(0＜γ＜1)为折扣因子，γ越大，则该行为在未来可能得到的奖励在整个回报中占比越高。

4)Q-eval网络和Q-target网络

Q-eval网络和Q-target网络实现了无人机群本地观测状态到最优动作的映射，其中Q-eval网络用于选择最大Q值对应的动作，Q-target网络用于计算在Q-eval网络所选动作下的目标Q值；

Q-eval和Q-target均为含有3个隐藏层的5层全连接神经网络结构，3个隐藏层中的神经元数量分别为500，250和120，设定每个全连接神经网络的初始权重w和偏差项b分别服从参数为μ(0，0.1)，μ(0.05，0.01)的正态分布，且使用Relu激活函数。

5)回放记忆库(Replay Memory)用于存储训练样本，以打乱连续生成样本在采样时的相关性。

训练样本向量[s_t,a_t,r_t,s_t+1]表示输入当前状态s_t，输出动作a_t时，得到的奖励r_t，以及采取动作a_t后，智能体的下一个状态s_t+1。

并在之后每一个回合取出batch_size大小的训练集用于训练更新Q-eval的网络参数θ；并以频率为f的训练步周期性的复制θ为Q-target的网络参数；

步骤四，根据状态空间、动作空间和奖励函数训练神经网络模型；

具体训练过程如下：

首先，初始化参数，包括迭代轮数T，动作集A，折扣因子γ，探索率ε，Q-eval网络的参数θ和Q-target网络的参数θ'，回放记忆库的大小m，批量梯度下降的样本数c，Q-target网络的更新频率f；

然后，在Q-eval网络中输入无人机的当前状态集s_t，得到所有联合动作对应的Q值输出，利用ε-greedy机制，根据当前输出的Q值选择动作a_t∈A。

ε-greedy机制就是按照ε(0<ε<1)的概率随机选择动作，而(1-ε)的概率按照最大Q值来决定动作，并且随着训练次数的增多，ε逐渐递减；

其次，执行动作a_t得到新状态s_t+1和奖励r_t，并将[s_t,a_t,r_t,s_t+1]作为训练样本存入回放记忆库；并将s_t+1作为下一次训练的当前状态，重复得到训练样本，并保存直至达到回放记忆库的容量大小m；

接着，从回放记忆库中采样batch_size＝c数量的样本，利用Q-eval网络和Q-target网络的输出Q值更新Q-eval的网络参数θ；

利用Q-eval网络找出s_t+1状态下输出的最大Q值对应的动作作为下一个动作a_t+1，在Q-target网络中输出状态s_t+1对应动作a_t+1的Q值，加权后计算与r_t之和，得到目标Q值；具体为：

式(8)中，Q代表Q-eval网络，θ是其网络参数，Q'代表Q-target网络，θ′是其网络参数。

最后，根据目标Q值y_j结合Q-eval网络输出的估计Q值计算均方误差损失函数，并通过神经网络的梯度下降算法来更新Q-eval网络的参数θ；

计算方法为：

按频率f进行训练，替换Q-target的网络参数为Q-eval最新的网络参数，即θ'＝θ；迭代T轮数，终输出得到训练好的Q网络参数θ^*。

步骤五，加载训练好的神经网络模型，输入无人机群的状态信息s_t，输出最优Q值对应的动作集，无人机集群系统按照最优动作执行航路规划和通信资源分配输出，并根据侦察覆盖任务目标结束应用。

无人机群的状态信息s_t包括位置坐标、频谱范围、U2U链路的信道信息和U2I链路的信道信息，以及允许的最大通信延迟时间，全部归一化后输入神经网络模型。

本发明具有如下的优点：

(1)本发明一种面向覆盖侦察任务的多无人机通信资源分配方法，根据每架无人机的行为和本地信息(包括本地信道状态信息和干扰信息)，提出一种分布式机制来实现频谱分配、功率控制和下一步航路选择。由于无需等待地面基站收集全局信息，因而减小了通信开销，提高了机间实时交互能力，适用于节点拓扑频繁变化的高移动性场景。

(2)本发明一种面向覆盖侦察任务的多无人机通信资源分配方法，提高了强化学习算法在大规模场景下的可扩展性，即所有智能体都共享同一套参数，训练时将所有智能体采样得到的样本进行汇总，用来更新共享的模型参数。同时，为了进一步保证不同的智能体即使在共享参数的情况下也能够表现出不同的行为，其模型输入除了局部的观察外，还包括对自身的索引。

(3)本发明一种面向覆盖侦察任务的多无人机通信资源分配方法，奖赏函数综合考虑了通信资源分配和航路规划的权重比例，提升了集群协同执行任务的整体性能，在实现信道容量最大化的同时，又能合理规划航路使系统满足任务区域覆盖需求。

附图说明

图1是本发明一种面向覆盖侦察任务的多无人机通信资源分配方法原理图；

图2是本发明一种面向覆盖侦察任务的多无人机通信资源分配方法流程图；

图3是本发明无人机携带的视觉传感器在地面的投影范围示意图；

图4是本发明16架无人机搭建的环境建模示意图；

图5是本发明无人机不同运动模式对应的飞行方向模型图；

图6是本发明基于DDQN算法的网络结构框图；

图7是本发明回放记忆库的功能示意图；

图8是本发明基于DDQN算法的应用流程图。

具体实施方式

下面结合附图，对本发明的具体实施方法作进一步的详细说明。

本发明针对覆盖侦察任务的场景，提出了一种面向覆盖侦察任务的多无人机通信资源分配方法，采用两个结构相同但目的不同的深度神经网络(Deep Neural Network,DNN)，并与Q-learning算法结合形成双深度Q网络(Double Deep Q-Network,DDQN)结构，如图1所示，通过对任务场景建模和通信环境建模，搭建环境；然后构建神经网络，先从回放记忆单元中随机采样训练样本分别输入Q-eval和Q-target网络中，Q-eval网络得到当前动作的预测Q值，Q-target网络产生目标Q值，然后将两个Q值带入均方误差损失函数，通过梯度下降算法实现误差函数收敛，来更新Q-eval网络的所有参数，不断拟合训练神经网络模型，最后基于DDQN的通信资源分配方法，使得无人机在与环境的动态交互中学习到最优策略，使得通信系统性能最优的情况下保障覆盖区域最大化，以此更加自治和鲁棒的保障飞行任务，达到多任务目标的目的。

所述的面向覆盖侦察任务的多无人机通信资源分配方法，如图2所示，具体包括以下几个步骤：

步骤一，针对M架无人机飞行的任务区域，根据无人机的监视范围在地面的投影，设定网格的单元宽度，将任务区域栅格化；

针对任务区域搭建场景，制定无人机飞行模型，无人机在设定的任务区域里随机运动，为了保证N架无人机保持整体的趋向性，设定每架无人机速度相同，且在完成任务前保持匀速飞行。

假设无人机的飞行高度相同且恒定，每架无人机携带的视觉传感器的监视范围相同，在地面的投影范围如图3所示。为了简化计算模型，设网格的单元宽度为典型视场投影的后缘宽度w＝10km，这样当无人机质点落入单元格内时，则标记该单元范围区域被覆盖。设定任务环境为200km*200km的矩形区域，并将其划分成20×20的栅格模型，每个单元格边长也即无人机在单位时间的运动步长10km。

本实施例选择16架无人机，环境建模如图4所示，其中黑色质点表示无人机节点，其起始点坐标均在每次训练开始时随机生成，各无人机节点的初始速度方向随机选择，侦察目标区域为40km*40km的黑色矩形区域，其中心坐标为(480,400)，当无人机集群完成对侦察区域的全覆盖时则任务完成，此时无人机进入悬停状态。

在进行通信资源分配的同时，无人机自主决定飞行路线，最理想的目标是多架无人机的探测区域都在任务区域内且彼此重叠尽可能小。如图5所示，设置无人机单位时间的运动空间由前、后、左、右和悬停这五种运动模式组成，将飞行方向分别表示为“1”“2”“3”“4”，悬停的状态为“0”。考虑到无人机在飞行过程中存在最大转弯角约束，无人机转换前方向和转换后方向的夹角不能超过90°，即正在飞行中的无人机若想根据任务需求转变飞行方向，其可选的方向只能为当前飞行方向、左转和右转。

无人机通信信道是复杂的动态信道，原因是无人机飞行速度较快，导致场景变化明显，且在集群场景中，无人机相对位置的变化极易造成信道间干扰。另一方面，无人机的飞行环境中几乎没有散射体，散射体只存在于地面站附近，且无人机地面站使用的都是定向高增益测控天线，因此无人机通信系统中必然存在较强的直视信号(Line Of Sight,LOS)分量和信道噪声。

考虑以上因素，建立每条链路的信噪比、信道容量等核心参数表达式，并以此设置奖赏函数，以达到最大化吞吐量并减小信道间干扰的目的。

具体做法为：

假定所有无人机的通信发射/接收机共用一个天线，无人机集群网络中包含M对U2I链路，即有M架无人机与地面调度中心通信，用M＝{1,2,…,m}表示，K对U2U链路，即有K对无人机间的空-空链路，用K＝{1,2,…,k}表示。

U2I链路负责与地面基站的高容量通信，而U2U用户则需要U2U链路来共享安全信息以进行航路安全管理。由于基站处的干扰更可控，并且上行链路资源的使用比较少，因此本发明假定U2U链路共享与U2I链路正交的上行链路频谱；需要为U2U链路设计一个有效的频谱共享方案，使U2I和U2U链路在高移动性环境下以最小的资源开销实现任务目标。

设第m条U2I链路接收到的信噪比为

表示第m条U2I用户的发射功率，

因此，第m条U2I链路的信道容量为

C^c[m]＝W·log(1+γ^c[m]) (11)

W为带宽。

类似地，设第k对U2U链路接收到的信噪比为

表示第k对U2U用户的发射功率，g_k为第k对U2U链路对应的信道功率增益，

G_c为U2I链路对与其共享频谱的第k条U2U链路的信道干扰功率，表示为

是第m条U2I链路对第k对U2U链路的信道干扰功率增益；

G_d为共享同一频谱的所有U2U链路的总干扰功率，表示为：

是第k'对U2U链路对第k对U2U链路的干扰功率增益。

则第k对U2U链路的信道容量为：

C^u[k]＝W·log(1+γ^u[k]) (15)

出于系统安全性考虑，通信时延过高将造成无人机节点之间无法及时获取对方的状态信息而导致撞机事件发生，因此U2U链路存在超低通信延迟和严格的可靠性要求。在分布式资源管理方案中，由于基站没有关于U2U链路的信息，因此U2I链路的资源分配过程应该独立于U2U链路的资源管理，即给定U2I链路的资源分配，提出的通信资源管理方案的目标是确保满足U2U链路的通信时延约束，同时最大化程度地减少U2U链路对U2I链路的干扰，而U2U链路将基于本地观察信息选择频谱和传输功率。

1)状态空间S_t作为神经网络的输入，表示智能体当前的本地观测信息的集合，包含三类观测信息，具体如下：

第一类观测信息是本地信道和干扰信息；

设子信道数目等于U2I链路数目M,则U2U链路的瞬时信道信息表示为所占用的子信道m的功率增益G_t[m],U2I链路的瞬时信道信息用无人机到基站的每条子信道的功率增益H_t[m]表示。

干扰信息用前一时刻每条子信道接收到的干扰信号强度I_t-1[m]来表示。

第二类观测信息是与附近无人机共享的局部观测信息：如N_t-1[m]表示子信道m在上一时刻被附近无人机使用的次数，L_t表示传输剩余负载，以及通信时延约束下的剩余传输时间U_t。

第三类观测信息是与航线和覆盖任务相关的位置信息：用P_t[n]＝(x_n,y_n)表示第n架无人机在当前时刻的横坐标与纵坐标。

第一类和第二类观测信息与频谱的最佳选择以及满足可靠性要求密切相关，第三类观测信息与计算覆盖率密切相关，因此状态空间的表达式为

S_t＝{G_t,H_t,I_t-1,N_t-1,U_t,L_t,P_t} (16)

2)动作空间A为智能体采取的行为，具体在本发明中表示为U2U链路的通信资源分配动作和无人机的航路规划动作。

根据通信链路要求设置足够的频谱子带范围，表示为

N为集群包含的无人机架数，本发明设置N＝16。同时，设置发射功率power_level包含[25,12,5,1]dBm四个等级，分别用[0,1,2,3]代表这四个等级：

power_level＝[0,1,2,3] (18)

因此，无人机通信链路的资源分配动作可定义为U2U链路的频谱子带选择和传输功率等级控制。

无人机的航路规划动作主要为无人机航向的选择。假设无人机执行每个动作都在二维栅格中心上，即以点更新，根据环境所反馈的信息，如果执行该动作后无人机没有完成覆盖率任务要求，则无人机将会继续采取相应的动作，直到完成任务目标。根据图4所示的无人机飞行方向模型，可定义无人机节点的航路规划动作空间为：

dir＝[1,2,3,4] (19)

综合无人机的通信资源分配动作和航路规划动作可将动作空间表示为：

A＝[N_RB,power_level,dir] (20)

3)奖励函数是在无人机执行一个动作之后，环境返回给智能体的一个数值作为对该动作的评分。由于智能体的目标是最大化奖励的长期加权总和，因此奖励函数直接影响了强化学习的训练效果。对于无人机覆盖侦察与通信资源分配的任务场景，主要根据通信质量和侦察覆盖率的总体效果来评价智能体采取动作的好坏。其中，通信质量的目标是智能体选择的频带和传输功率级别对所有U2I链路以及其他U2U链路仅产生较小的干扰，这一目标主要通过通信延迟约束下最大化U2I信道容量和U2U信道容量来体现，通信延迟约束主要通过剩余通信传输时间来表示，因此反应通信质量的奖励函数为：

式(21)中，C^c[m]表示第m条U2I链路的信道容量，C^u[k]为第k对U2U链路的信道容量，λ为C^c[m]的权重因子，(1-λ)为C^u[k]的权重因子，T₀是最大容许延迟，U_t是剩余传输时间，则(T₀-U_t)是用于传输的时间。对于无人机集群通信而言，信号传输时间越短则可靠性越高，因此将传输时间表示为负奖励。

航路规划方面，主要分为三个方面考虑，分别是转弯角约束、无人机是否进入侦察区域以及覆盖率奖励。其中，转弯角约束带来的奖励函数为

是否进入侦察区域带来的奖励函数为：

覆盖率奖励为：

k_c＝c*(rate-0.85) (24)

其中a,b,c均为正数，作用是将奖励或惩罚放大，使得算法的收敛速度更快。rate为无人机群的总覆盖率，rate的计算过程如下：

对于栅格化后的侦察区域，当无人机质点到达某一个单元格中心，则用1标记已监视的单元格，而没有被覆盖的单元格标记为0，若有两架及以上无人机到达同一单元格，则只标记该网格1次，进而统计标记为1的单元格总数比侦察区域内总单元格数，即可得到无人机群的总覆盖率rate。0.85表示无人机群的覆盖率至少到达85％才不会被惩罚，由此可保证基本覆盖率要求。

根据三类奖励的影响程度设置其权重，因此可将反映航路规划的综合奖励函数设置为：

r_t2＝γ_rk_r+γ_dk_d+γ_ck_c (25)

k_r为转弯角约束带来的奖励函数；γ_r为k_r对应的权重因子；k_d为无人机是否进入侦察区域带来的奖励函数；γ_d为k_d对应的权重因子；k_c为覆盖率奖励函数；γ_c为k_c对应的权重因子。

由于最终航路规划的目标为达到覆盖率要求，因此在设置权重时应强化完成覆盖侦察任务带来的奖励，即γ_r＜γ_d＜γ_c。

本发明为一种面向覆盖侦察任务的多无人机通信资源分配方法，因此需要根据覆盖侦察任务与通信资源分配的综合目标，设置无人机集群系统的综合奖赏函数，即将式(21)与(25)相结合，表示为:

根据奖励函数r_t，强化学习的目标在于学习一种策略以最大化积累的折扣奖励的期望值，因此除了考虑立即的奖励外，还要考虑当前动作对未来状态的影响，将这种长期积累的折扣奖励称之为Q值，其表达式如下：

γ(0＜γ＜1)为折扣因子，γ越大，则该行为在未来可能得到的奖励在整个回报中占比越高，智能体能考虑的更远。

4)Q-eval网络和Q-target网络

基于DDQN算法的网络结构框图，如图6所示，其中DDQN使用两个结构相同的Q-eval和Q-target神经网络；Q-eval网络和Q-target网络实现了无人机群本地观测状态到最优动作的映射。若智能体当前的状态为s_t，采取动作a_t后的下一个状态为s_t+1，并且这个动作得到了r_t的奖励，则Q-eval网络用于找到能使s_t+1状态下获得最大Q值的动作a_t+1，和计算当前状态s_t下，若采取动作a_t所得到的预测Q值Q(s_t,a_t)；

Q-target网络用于产生状态s_t+1对应动作a_t+1下的未来的目标Q值Q(s_t+1,a_t+1)，并加权结合r_t得到目标Q值。

本发明中，Q-eval和Q-target均为含有3个隐藏层的5层全连接神经网络结构，3个隐藏层中的神经元数量分别为500，250和120，设定每个全连接神经网络的初始权重w和偏差项b分别服从参数为μ(0，0.1)，μ(0.05，0.01)的正态分布，且使用Relu激活函数，其定义为

f_r(x)＝max(0,x) (28)

回放记忆库的功能示意图，如图7所示，在训练网络模型的过程中，将输入当前状态s_t，输出动作a_t时，得到的奖励r_t，以及采取动作a_t后，智能体的下一个状态s_t+1存为一条训练样本，表示为[s_t,a_t,r_t,s_t+1]。

回放记忆库的作用便是存储这些训练数据，并在之后每一个回合取出batch_size大小的训练集用于训练更新Q-eval的网络参数θ使误差函数收敛；并以频率为f的训练步周期性的复制θ为Q-target的网络参数；在更新过程中，智能体会学习到更好的策略用于采取使Q值更大的动作，并用新策略替换原来的策略；由于存储的数据是通过不同策略生成的，因此使用回放记忆库降低了采样数据间的相关性，且提高了经验利用率。

随机初始化无人机起点、发射功率和通信频带等参数后，前m轮观测形成的m组训练数据作为训练样本存入回放记忆库(记忆库容量不大于m)，再从记忆库中随机采样batch_size大小的训练样本输入Q-eval和Q-target网络，其中Q-eval网络用于找出最大Q值对应的下一个动作并计算当前动作的预测Q值，Q-target网络根据Q-eval网络选出的下一个动作来产生目标Q值，然后将两个网络产生的预测Q值与目标Q值带入均方误差损失函数，通过神经网络的梯度下降算法来更新Q-eval网络的所有参数，并每隔f步完全复制Q-eval网络的参数到Q-target网络参数，以此不断拟合Q-eval网络产生的预测Q值为最大的积累回报。

根据状态空间、动作空间和奖赏函数，将U2U链路在每个时间的本地状态信息作为输入，基于训练形成的策略从动作空间采取相应联合动作，对于环境来说，即选择航向、频带和传输功率级别。具体训练过程如下：

首先，初始化参数，包括迭代轮数T，状态特征维度n，动作集A，折扣因子γ，探索率ε，Q-eval网络的参数θ和Q-target网络的参数θ'(初始化时令θ'＝θ)，回放记忆库的大小m，批量梯度下降batch_size的样本数c，Q-target网络的更新频率f；

ε-greedy机制就是按照ε(0<ε<1)的概率随机选择动作，而(1-ε)的概率选择使Q-eval网络输出最大Q值的动作，并且随着训练次数的增多，ε逐渐递减，由0.5逐渐递减至0.1，以此保证始终有一定的概率用于探索环境来寻找可能更优的策略；

其次，智能体执行动作a_t后得到新状态s_t+1和评价动作a_t好坏的奖励r_t，并将一次交互过程得到的[s_t,a_t,r_t,s_t+1]作为一条训练样本存入回放记忆库；并将s_t+1作为下一次训练的当前状态，重复得到不同的训练样本，并保存直至达到回放记忆库的容量大小m；

接着，每x步从回放记忆库中采样batch_size＝c数量的样本，输入Q-target网络计算目标Q值y_j(j＝1,2,...,n)；

利用Q-eval网络找出s_t+1状态下使得Q-eval网络输出的最大Q值对应的动作a_t+1，带入Q-target网络中，加上对动作a_t的奖励r_t，计算目标Q值；

具体为：

式(29)中，Q代表Q-eval网络，Q'代表Q-target网络。利用两个网络分离了动作的选择和Q值的计算，由此消除了用贪婪算法计算目标Q值带来的过度估计问题。

计算方法为：

通过使损失函数收敛来拟合预测Q值为目标y_j，并通过神经网络的梯度下降算法更新Q-eval网络的所有参数θ；

按频率f的整数倍进行训练，替换Q-target的网络参数为Q-eval最新的网络参数，即θ'＝θ；迭代T轮数，终输出得到训练好的Q网络参数θ^*。

根据覆盖侦察任务需求，可将本发明训练收敛的神经网络模型用于实际场景。应用流程如图8所示：加载完训练好的网络模型参数后，首先将无人机群的状态信息s_t(包括位置坐标、频谱范围、U2U链路的信道信息和U2I链路的信道信息，以及允许的最大通信延迟时间)归一化后输入神经网络模型，则可得到采取每个动作后的输出值(即Q值)；根据神经网络输出的最大值选择对应的动作；根据所选动作实现频谱子带选择、功率等级控制以及无人机飞行航向选择，进而更新全系统状态，在此过程中，可以实时查看覆盖率情况及通信资源分配结果(包括U2I链路的平均通信容量和U2U链路功率分配)；当系统进行m轮或覆盖率满足任务需求时应用结束。

Claims

1.一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，具体包括：

首先，搭建M架无人机飞行的任务区域场景模型，考虑无人机飞行环境中的高斯白噪声以及信道间的干扰，建立每条链路的信噪比和信道容量；

链路包括M架无人机与地面调度中心通信的M对U2I链路，用M＝{1,2,…,m}表示；以及K对无人机间的空-空链路的U2U链路，用K＝{1,2,…,k}表示；

然后，利用各链路的信噪比和信道容量定义状态空间、动作空间和奖励函数，为每架无人机建立两个结构相同的深度神经网络：Q-eval网络和Q-target网络；以及回放记忆库；

奖励函数的表达式为：

C^c[m]表示第m条U2I链路的信道容量，C^u[k]为第k对U2U链路的信道容量，λ为C^c[m]的权重因子，(1-λ)为C^u[k]的权重因子，T₀是最大容许延迟，U_t是剩余传输时间；k_r为转弯角约束带来的奖励函数；γ_r为k_r对应的权重因子；k_d为无人机是否进入侦察区域带来的奖励函数；γ_d为k_d对应的权重因子；k_c为覆盖率奖励函数；γ_c为k_c对应的权重因子；

利用奖励函数计算Q值的表达式为：

γ为折扣因子；0＜γ＜1；

Q-eval网络用于选择最大Q值对应的动作，Q-target网络用于计算在Q-eval网络所选动作下的目标Q值；

回放记忆库用于存储训练样本[s_t,a_t,r_t,s_t+1]，表示输入当前状态s_t，输出动作a_t时，得到的奖励r_t，以及采取动作a_t后，智能体的下一个状态s_t+1；

接着，通过从回放记忆库中选择训练样本，结合状态空间、动作空间和奖励函数训练神经网络模型；

最后，加载训练好的神经网络模型，输入无人机群的状态信息s_t，输出最优Q值对应的动作集，无人机集群系统按照最优动作执行航路规划和通信资源分配输出，并根据侦察覆盖任务目标结束应用。

2.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述搭建任务区域场景模型具体为：根据无人机的监视范围在地面的投影，设定网格的单元宽度，将任务区域栅格化；无人机集群内的每架无人机速度相同，且在完成任务前保持匀速飞行。

3.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述第m条U2I链路接收到的信噪比为：

表示第m条U2I用户的发射功率，

是第k条U2U链路对应的信道干扰功率增益，ρ_k[m]是频谱分配指标，其中ρ_k[m]＝1表示第k条U2U链路复用了第m条U2I链路的频谱，否则ρ_k[m]＝0；

第m条U2I链路的信道容量为：

C^c[m]＝W·log(1+γ^c[m]) (2)

类似地，设第k对U2U链路接收到的信噪比为

则第k对U2U链路的信道容量为：

C^u[k]＝W·log(1+γ^u[k]) (4)

其中，W为带宽。

4.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述的状态空间S_t表达式为

S_t＝{G_t,H_t,I_t-1,N_t-1,U_t,L_t,P_t} (5)

5.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述的动作空间A表示为U2U链路的通信资源分配动作和无人机的航路规划动作；

表达式如下：

A＝[N_RB,power_level,dir] (6)

6.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述的Q-eval和Q-target均为含有3个隐藏层的5层全连接神经网络结构，3个隐藏层中的神经元数量分别为500，250和120，设定每个全连接神经网络的初始权重w和偏差项b分别服从参数为μ(0，0.1)，μ(0.05，0.01)的正态分布，且使用Relu激活函数。

7.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述训练神经网络模型的过程如下：

然后，在Q-eval网络中输入无人机的当前状态集s_t，得到所有联合动作对应的Q值输出，利用ε-greedy机制，根据当前输出的Q值选择动作a_t∈A；

式(8)中，Q代表Q-eval网络，θ是其网络参数，Q'代表Q-target网络，θ′是其网络参数；

计算方法为：

8.如权利要求1所述的一种面向覆盖侦察任务的多无人机通信资源分配方法，其特征在于，所述无人机群的状态信息s_t包括位置坐标、频谱范围、U2U链路的信道信息和U2I链路的信道信息，以及允许的最大通信延迟时间，全部归一化后输入神经网络模型。