CN112817327B

CN112817327B - 一种通信约束下的多无人机协同搜索方法

Info

Publication number: CN112817327B
Application number: CN202011610412.9A
Authority: CN
Inventors: 李宇萌; 张云赫; 郭通; 杜文博; 曹先彬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-08
Anticipated expiration: 2040-12-30
Also published as: CN112817327A

Abstract

本发明公开了一种通信约束下的多无人机协同搜索方法，属于无人机调控领域，包括首先，确定每架无人机的覆盖面积；对给定的搜索区域进行二维网格化处理，计算各无人机每时刻对应的面积覆盖率；然后，随机设定各无人机的初始位置，速度方向，根据通信质量确定无人机之间的通信距离d。然后，对每架无人机在各飞控系统中建立两个结构完全相同参数不同的神经网络并进行初始化；利用初始化的无人机以及神经网络，分别计算各无人机下一时刻的节点位置，并更新对应的神经网络参数，循环迭代，将所有节点连接得到相应的搜索路径；最后，各无人机按照各自的搜索路径飞行，完成搜索任务。本发明达到最大化的搜索范围，同时保证了通信质量。

Description

一种通信约束下的多无人机协同搜索方法

技术领域

本发明属于无人机调控领域，具体是一种通信约束下的多无人机协同搜索方法。

背景技术

伴随着无人机技术的不断发展以及普及程度的不断提高，无人机在军事领域、搜救领域、灾害监控、新闻报道以及物流运输等领域都有了广泛的应用。在以上的应用中，不难发现，伴随着无人机应用场景复杂程度的增加，仅仅依靠单一的无人机已经不能满足需求，单无人机处理任务也显得力不从心。因此，多无人机协同系统得到了越来越多研究人员的重视。

无人机搜救中最重要的就是搜索，为了便捷地执行搜索任务，有必要建立多无人机协同机制。无人机间相互协作共同完成任务需要考虑的一个关键问题是：在满足无人机间一定通信质量要求的条件下进行搜索。其中，在实际搜索任务中，会给定特定的几个待搜索区域，各个无人机根据任务需求分别选择合适的搜索区域进行搜索。

在Los通信条件下，各个无人机之间存在着通信距离和通信延迟两个方面的限制。多无人机系统最大的优势就是无人机之间可以进行通信，协同完成任务，然而数据传输技术的限制导致无人机之间需要保持一定的通信距离，这就是无人机协同的通信约束。但是为了无人机能够更好地搜索区域，无人机势必需要较为均匀地分布在各个区域，随着搜索任务的进行，无人机间的距离也会变大，这又会对无人机之间的通信质量造成影响，因此需要一个平衡。

目前，国内外的研究人员针对多无人机协同路径规划以及任务分配做出了很多优秀的科研成果。其中，多无人机协同路径规划算法的研究主要可以分为两类：确定性搜索算法和随机性搜索算法。确定性搜索算法主要包括：A*算法、D*算法、Djikstra算法、动态规划法和人工势场法等。随机性搜索算法主要有：遗传算法、粒子群算法、模拟退火算法和蚁群算法等。

另外，关于多无人机协同任务分配优化以及路径规划求解的主要算法主要有集中式和分布式求解算法。集中式算法又分为启发式算法和最优化算法两种。集中式算法虽然能在合理时间内寻求到较优解，但由于缺乏对动态环境的应对能力、脆弱性已在动态任务分配中逐渐失去吸引力。分布式算法主要包括：基于行为的方法和群智能方法，其能够快速响应相应动态环境，但容易陷入局部最优解。

对于多无人机协同路径规划问题，国内外科研人员已经做了很多的努力，但是对于无人机协同搜索范围与通信约束之间的权衡方面，需要更多的努力。

发明内容

针对无人机间的通信质量不仅影响无人机之间的信息交互，而且搜索效率降低的同时存在安全隐患的问题，为了解决如何选择搜索区域以及如何进行搜索的难题，本发明提出了一种通信约束下的多无人机协同搜索方法，旨在对一块区域找到最优的一种协同路径方案，使得在保证通信质量(Qos)的前提下，最大化搜索区域同时最小化搜索时间。

所述的多无人机协同搜索方法，具体步骤如下：

步骤一、在无人机群的每架无人机上分别装备机载雷达，确定每架无人机的覆盖面积；同时，对给定的搜索区域进行二维网格化处理，利用无人机的覆盖面积计算各无人机每时刻对应的面积覆盖率；

每架无人机的覆盖面积为：以无人机为圆心，雷达最远探测距离为半径的圆。

则无人机的搜索半径为：

其中，R_sr为无人机搜索半径；P_av为雷达发射平均功率；G_t为天线发射增益；G_r为天线接收增益；σ为待搜索目标的RCS；λ为雷达工作波长；k为波尔兹曼常数；T₀为等效噪声温度；F_n为接收机噪声系数；L_s为雷达系统的损耗；D₀为可检测因子；B_n为多普勒带宽。

二维网格化处理是指：针对飞行中的无人机A，将当前时刻覆盖的网格标记为1；利用标记为1的网格数量，计算无人机A当前时刻的面积覆盖率；

计算公式如下：

其中，N_标记为无人机A飞行中标记为1的网格总数；N_总为无人机A飞行中，搜索区域网格化得到的网格总数。

步骤二、根据无人机数量和给定区域大小，随机设定各无人机的初始位置，速度方向和面积覆盖率；

面积覆盖率初始值设为0；

步骤三、选择任意两架无人机，根据需要的通信质量确定无人机之间的通信距离d。

当两架无人机处在彼此的通信范围内时，无人机接收器节点的信噪比SNR高于预定的阈值η，信噪比计算公式为：

σ_热为热噪声功率；P_r为无人机接收器节点的信号接收功率；

η_d为最大通信距离，无人机p和无人机q之间的通信距离d_pq要满足：d_pq≤η_d；当d_pq超过距离η_d时，路径损耗会导致无人机间通信失败。

通信距离d利用弗里斯传输公式计算得到：

其中，P_tr为无线收发器节点的信号发射功率；α为路径损耗指数；

步骤四、针对每架无人机，分别在各无人机飞控系统中建立两个结构完全相同参数不同的神经网络—MainNet和TargetNet；

对于每个无人机，MainNet网络用于输出预测值Q_eval，来评估当前state-action对应的值函数；TargetNet网络用于输出预测值Q_target；每个训练周期用MainNet网络的参数更新TargetNet网络。

每个神经网络的输入层为3个神经元，对应所有状态；每个全连接神经网络的输出层为M个神经元，对应M个动作的预估收益；且每个全连接网络包含两个隐层，各层之间激活函数选择ReLU函数，输出神经元根据无人机动作数设定。

步骤五、初始化各架无人机的神经网络训练周期T以及经验池的大小；

经验池大小初始化为10⁴；训练周期根据需求自己设定，由T个时间间隔组成一个训练周期；

步骤六、利用各无人机的初始位置，速度方向，通信距离以及神经网络的训练周期和经验池，分别计算各无人机下一时刻的节点位置，并更新对应的神经网络参数，循环迭代，将所有节点连接得到相应的搜索路径；

具体步骤如下：

步骤601、初始化每个无人机的状态；

无人机的状态包括：无人机的横纵坐标以及无人机的速度，因此状态矢量为：

s＝[x₀,y₀,v₀]

其中，s表示无人机的初始状态，x₀,y₀分别为无人机初始位置的横纵坐标，v₀为无人机的初始速度矢量；

步骤602、根据每个无人机的最小转弯半径和最大转弯角度，结合无人机的初始位置，得到一条连续的弧线，即无人机在固定时间间隔内能飞到的可行位置；

最大转弯角度θ_max即无人机相邻时刻速度方向变化的最大角度。

步骤603、将无人机的可行位置进行离散化，在弧线上的两个端点间等间隔划分，共得到m个点作为无人机的m个动作；

步骤604、针对无人机采取动作i，即当无人机飞行到了第i个点所在的位置，更新无人机的状态s'；

更新公式为：

其中，x_i,y_i分别为无人机采取动作i后的横坐标和纵坐标；v_p为无人机的飞行速度；Δt为固定时间间隔；α_i为无人机采取动作i后相对起始点的位置偏移角；v_2i为无人机采取动作i后的速度角度；v_1i为采取动作前起始点的速度角度；Δθ_i为无人机由起始点到采取动作i后的速度角度的变化值。

步骤605、在满足无人机间通信距离d的要求下计算无人机采取动作i得到的收益值r；收益值r计算公式为：

其中，N为无人机的数量，γ₁和γ₂为权重系数；

步骤606、将无人机的初始状态，采取的动作，得到的对应收益以及更新的状态组成四元组[s,a,r,s']，作为神经网络的训练样本存入memory矩阵中。

步骤607、重复执行步骤604-606M次，得到对应的收益以及更新的状态共同作为训练样本保存。

步骤608、在memory矩阵中随机选取训练样本作为全连接神经网络的输入，输出若干动作对应的期望值Q集合；

步骤609、通过V2V link获取周围无人机的位置速度信息，并计算与周围无人机之间的通信距离，在若干动作对应的期望值Q集合中选择最大预估收益的动作action，且该动作满足通信距离约束条件。

无人机p和无人机q之间的通信距离d_pq要满足约束条件如下：d_safe≤d_pq≤η_d；d_safe为两个无人机之间的安全距离。

最大预估收益对应的动作a_t计算公式为：

a_t＝argmaxQ(s,a；Θ)

Q(s,a；Θ)表示无人机在状态s采取动作a能够获得奖励的期望值Q，Θ表示神经网络参数。

步骤610、无人机按照动作action飞向下一节点，更新位置以及速度信息，将覆盖区域标记为1，未覆盖标记为0，计算每架无人机的面积覆盖率Cover以及总的面积覆盖率Cover_total；

Cover_total表示当前时刻，无人机从初始节点飞至当前节点所有的面积覆盖率之和。计算公式为：

K为无人机飞行路径中的所有节点。

步骤611、根据每架无人机的面积覆盖率Cover以及距离计算收益值r，并将无人机飞行中形成的新的四元组[s,a,r,s']存入memory矩阵中。

步骤612、重复步骤608-步骤611，无人机依次按照下一个节点进行更新，当达到训练周期T后，对神经网络的参数进行更新；

利用输出Q_eval和Q_target得到相应的损失函数L(Θ)，进而更新神经网络。

L(Θ)＝E[(Q_target-Q_eval)²]

其中，L(Θ)是网络参数Θ的函数。

步骤613、对神经网络参数进行更新后，返回步骤612，无人机继续进行节点的更新和神经网络参数的更新，直至不再满足最大通信距离的约束或者完成搜索任务时停止；

步骤614、按顺序连接无人机每次确定的节点位置，即可得到每架无人机面积覆盖率最大化的搜索路径。

步骤七、各无人机按照各自的搜索路径飞行，完成搜索任务。

本发明与现有技术相比，具有以下优势：

(1)一种通信约束下的多无人机协同搜索方法，采用深度强化学习DQN算法解决了强化学习Q-learning方法中的“维度灾难”问题，使无人机可在连续状态空间中进行自主学习，实现与环境的交互。

(2)一种通信约束下的多无人机协同搜索方法，在搜索范围的角度上对无人机的路径规划算法进行了优化，使得无人机的每一步动作都能使当前的覆盖面积达到最大，进而最大化最终的搜索范围，同时又结合了对无人机间通信质量的考虑，使得无人机群在保证一定通信质量的前提下进行搜索任务，从而提高搜索效率。

附图说明

图1是本发明一种通信约束下的多无人机协同搜索方法的流程图；

图2是本发明建立的结构完全相同参数不同的神经网络结构示意图；

图3是本发明更新无人机节点位置和神经网络参数得到相应的搜索路径的流程图；

图4是本发明将无人机当作质点每一个时刻的飞行模型说明图；

图5是本发明无人机从起始点A飞到圆弧中点M的示意图；

图6是本发明采用的问题模型示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

强化学习方法是一种基于数据的智能学习控制方法，不需要模型信息，可以在移动智能体运动过程中采集样本数据进行学习，通过与环境进行交互，收到环境反馈的评价，在迭代中获得近似最优策略，是解决智能体在复杂环境中路径规划的有效方法。

深度强化学习则是一种利用神经网络来优化智能体策略的算法，通过神经网络建立智能体状态，动作和奖励之间的映射，也解决了传统强化学习的“维度灾难”问题，训练好的神经网络还具有实时性好、稳定性高、可迁移性强等优点，是解决多智能体协同任务的理想方法。

考虑到实际情况中，多无人机执行搜索、搜救任务并非单纯的规划路径，而是尽可能的让无人机扫描到待搜索区域的每个地方，因此，针对给定区域的无人机协同搜索问题，本发明考虑在路径规划模型的基础上加入覆盖模型来解决；由于无人机需要在未知的区域进行搜索，因此相应的搜救路径没有固定的终点，这就使得目前现有的多无人机协同路径规划模型不再能够使用。因此，本申请提出了一种基于深度强化学习的通信约束下的分布式多无人机协同搜索的方法，首先建立了多无人机覆盖区域模型和无人机群通信模型，然后结合两个模型，利用深度强化学习使各无人机的每一步做到最大化面积覆盖率。利用深度强化学习，使得无人机群能够在保证一定通信质量的前提下，在给定区域内找到一条合适的路径，该路径能够让无人机群最大化面积覆盖率，提高无人机群在一定区域内的搜索效率。

所述的多无人机协同搜索方法，如图1所示，具体步骤如下：

首先，在无人机上装备机载雷达，用来执行搜索任务；为了最大化搜索范围，需要确定无人机的搜索半径。为了简化模型，假设无人机机载雷达的探测区域为无人机为圆心，雷达最远探测距离为搜索半径的圆。则无人机的搜索半径为：

无人机的覆盖面积为以无人机为圆心，R_sr为半径的圆，且只计算落在目标区域内的覆盖面积。为了简化计算，把给定的搜索区域进行网格化，网格的单位长度可以根据需求任意设定，但是应远小于无人机的搜索半径。随着无人机的飞行，被覆盖的网格被标记为1，没有被覆盖的网格被标记为0，重复覆盖的网格仍标记为1。

二维网格化处理是指：将当前时刻无人机飞行过程中覆盖的网格标记为1；通过无人机群覆盖的标记为1的网格数量和目标区域总数量，二者相除即可得到无人机A当前时刻的面积覆盖率；计算如下：

面积覆盖率初始值设为0；

每个无人机都有一个无线收发器节点，如果考虑两个无人机之间相互通信，他们之间的欧几里得距离用d来表示，无人机发射器上节点的信号发射功率为P_tr，无人机接收器上节点的信号接收功率为P_r；

因此利用弗里斯传输公式得到：

其中，α为路径损耗指数，取决于环境。λ为波长，等于

其中c为光速，f为频率，f＝2.4×10⁹Hz。

σ_热为热噪声功率；

本发明考虑用深度强化学习方面来进行无人机覆盖区域路径规划，可以让每一个无人机训练一个深度神经网络，使其能够根据当前的状态推断出下一步无人机的动作，也就是无人机下一刻的位置，来使下一刻位置的覆盖面积率最大。迭代该学习过程，可以让无人机每步都能按照使覆盖面积率最大的目标采取行动，直到任务结束。在这个过程中，使用Q-learning算法去估计无人机的各状态的未来收益，用深度神经网络来拟合Q函数。

应用Deep Q-network来解决路径规划问题，应该考虑无人机的状态和动作、相应的收益函数、深度神经网络建立以及训练神经网络。

对于每个无人机，本发明需要建立两个结构完全相同但是参数不同的神经网络—MainNet和TargetNet，预测Q_eval的网络MainNet使用的是最新的网络参数而预测Q_target的网络TargetNet的参数则是旧的参数。Q_eval是当前网络MainNet的输出，用来评估当前state-action对应的值函数；Q_target则表示网络TargetNet的输出。每过一定的步数则会用MainNet的参数来更新一次TargetNet。每个神经网络的输入层为3个神经元，对应所有状态元素；每个全连接神经网络的输出层为M个神经元，对应M个动作的预估收益；且每个全连接网络包含两个隐层，各层之间激活函数选择ReLU函数。如图2所示，为神经网络结构示意图，其中输出神经元根据无人机动作数设定，两个隐层神经元可分别设置为50、20。

如图3所示，具体步骤如下：

步骤601、初始化每个无人机的状态；

基于无人机当前的位置信息和速度方向，计算出飞行Δt时间后的可行位置。无人机的状态用3个要素来表示：无人机的横纵坐标以及无人机的速度。因此状态矢量为：

s＝[x₀,y₀,v₀]

其中，s表示无人机的初始状态，x₀,y₀分别为无人机采取动作前，初始位置的横纵坐标，v₀为无人机的初始速度矢量；由于本实施例默认无人机的速率不变，因此v₀实际表示无人机的速度角度。

无人机在飞行过程中，必定有转弯操作，设无人机的最小转弯半径为R_min；无人机以最小转弯半径和特定速度v_p的最大转弯角度为θ_max，即无人机相邻时刻速度方向变化的最大角度。因此无人机的转弯角度θ≤θ_max。

有了无人机的位置，无人机飞行速度以及最小转弯半径，就可以得到无人机在一定时间间隔后所能飞到的可行区域。

如图4所示，A为无人机起点，B点、D点为无人机以最小转弯半径(最大转弯角)飞行固定时间到达的点，由于无人机的转弯角度θ≤θ_max，无人机下一时刻能够到达的位置全部在弧BD上。

如图5所示，假如当前时刻t当无人机从起始点A飞到圆弧中点M处，也就是下一时刻t+1的位置，此时无人机的覆盖面积率最大，则下一时刻无人机的飞行目标节点则为M，此时目标节点M的位置信息和速度信息更新公式如下：

其中，x_M和y_M分别为目标节点下一时刻的横坐标和纵坐标；x_A和y_A分别为无人机当前时刻(采取动作前的位置，即初始点A处)的横坐标和纵坐标；v_p为无人机的飞行速度；Δt为固定时间间隔；α为目标节点M相对起始点A的位置偏移角；θ₂为目标节点M处的速度角度；θ₁为起始点A处的速度角度Δθ为无人机由起始点A到目标节点M的速度角度的变化值，v₁为无人机飞之前起始点A处的速度角度。

更新公式为：

步骤605、在满足无人机间通信距离d的要求下计算无人机采取动作i得到的收益值r；

无人机飞行的每一个时刻都有相应的奖励函数，由于无人机采取动作的目标是为了获取更大的面积覆盖率，因此奖励函数的设计应该与面积覆盖率相关，计算公式为：

其中，N为无人机的数量，γ₁和γ₂为权重系数；

其中，无人机每飞行一次(每过一个时刻)，该无人机的面积覆盖率Cover更新一次，就会得到相应时刻的奖励函数；r则为无人机采取动作的收益值，当下个时刻的面积覆盖率大于80％时，相应项大于0，反之，则小于0。目的是为了让无人机在满足通信约束的前提下采取使面积覆盖继续增大的动作，并且基本要求是要大于80％。

建立完神经网络，要进行神经网络的训练，训练神经网络需要数据集，而所需的监督数据集来自于无人机与环境的交互。无人机初始状态s，采取动作a，获取收益r，到达新状态s'，这样就得到了训练样本四元组[s,a,r,s']，为每一架无人机都建立一个memory表来存储无人机的经历，将训练样本放入memory矩阵，前几个无人机的飞行周期可以考虑先不训练网络，先获取足够的训练样本。

memory也就是神经网络中的经验池Experience Replay，包含了无人机的行动过程数据。

本实施例抽取512个序列作为样本数据。

众所周知，强化学习是要通过优化来得到state-action的最佳映射。然而无人机的每个状态有3个元素，而无人机的可选位置数量非常大，速度角度为[0,2π]间的任意角度，对应的动作数量也会很多，单纯采用Q-learning算法可能会导致“维度灾难”。因此为了拟合这种映射，考虑使用深度神经网络DQN来拟合state-action之间的关系，用随机梯度下降法进行迭代更新。神经网络的输入为状态s，根据最大预估收益输出对应的动作a_t，计算公式为：

a_t＝argmaxQ(s,a；Θ)

Cover_total表示无人机从初始节点飞至当前节点所有的面积覆盖率之和。

步骤611、根据每架无人机的面积覆盖率Cover以及距离计算收益值r，并将新的四元组[s,a,r,s']存入memory矩阵中。

设定无人机每飞行n步(可以自己按需求设定)，就训练一次神经网络，然后用训练过的神经网络决策无人机的接下来的n步。其中，为了消除训练样本数据之间的相关性，在memory中随机选取训练样本[s,a,r,s']作为全连接神经网络的输入。为了训练神经网络，需要更新神经网络的参数：

Q(s,a)←Q(s,a)+α'[Q_target-Q_eval]

其中，α'为学习率，Q(s,a)表示无人机在当前时刻状态s下采取动作a能够获得奖励的期望，Q_eval取值为当前状态动作对应的Q(s，a)值，即Q-估计，Q_target取值为下一时刻状态s′对应的Q值，即Q-现实。

Q_eval＝Q(s,a)

Q_target＝r+γmaxQ(s',a'；Θ)

其中，a'为下一时刻采取的动作，γ为折扣因子，可取为0.96；Q(s',a'；Θ)表示无人机在下一时刻状态s'采取下一个动作a'能够获得奖励的期望值Q，

从而得到相应的损失函数：

L(Θ)＝E[(Q_target-Q_eval)²]

其中，L(Θ)是网络参数Θ的函数。E表示取均方值。

本发明提出了一种基于深度强化学习的通信约束下的分布式多无人机协同搜索的方法，首先给出了无人机覆盖区域路径规划的模型，确定无人机搜索半径，确定无人机飞行的路径模型以及确定面积覆盖率的计算方法；然后又继续给出了无人机的通信模型，根据对无人机状态动作的阐述初始化每架无人机的位置和速度，即状态参量[x，y，v]，对任意两架无人机进行测试，根据无人机通信模型的公式计算相应接收节点的信噪比，进而计算出通信约束距离η_d，得出在d≤η_d的条件下可以满足通信约束；其次，用深度强化学习解决基于上述模型的路径规划问题；神经网络建立部分初始化各架无人机的MainNet和TargetNet网络；无人机路径规划步骤循环，并根据神经网络训练部分更新各架无人机的网络参数。

问题是：在给定的区域内，对于每个无人机，最终得到的是每个时刻的节点位置，连接节点即可得到相应的搜索路径。找到一条最优的搜索路径，使得其在保证与其他无人机通信质量良好的前提下，尽可能地提高覆盖区域面积(即面积覆盖率)。

问题模型如图6所示，关键在于在无人机下一个时间间隔的可行位置集合上找到一个最优节点，此处无人机的面积覆盖率最大，并且选择该节点作为目标节点，更新位置信息和速度信息，重复以上步骤，最终将得到的一系列目标节点连接即最大面积覆盖率搜索路径。

Claims

1.一种通信约束下的多无人机协同搜索方法，其特征在于，具体步骤如下：

面积覆盖率初始值设为0；

步骤三、选择任意两架无人机，根据需要的通信质量确定无人机之间的通信距离d；

对于每个无人机，MainNet网络用于输出预测值Q_eval，来评估当前state-action对应的值函数；TargetNet网络用于输出预测值Q_target；每个训练周期用MainNet网络的参数更新TargetNet网络；

每个神经网络的输入层为3个神经元，对应所有状态；每个全连接神经网络的输出层为M个神经元，对应M个动作的预估收益；且每个全连接网络包含两个隐层，各层之间激活函数选择ReLU函数，输出神经元根据无人机动作数设定；

具体步骤如下：

步骤601、初始化每个无人机的状态；

s＝[x₀,y₀,v₀]

最大转弯角度θ_max即无人机相邻时刻速度方向变化的最大角度；

收益值r计算公式为：

其中，N为无人机的数量，γ₁和γ₂为权重系数；η_d为最大通信距离，d_pq为无人机p和无人机q之间的通信距离；

步骤606、将无人机的初始状态，采取的动作，得到的对应收益以及更新的状态组成四元组[s,a,r,s']，作为神经网络的训练样本存入memory矩阵中；

步骤607、重复执行步骤604-606M次，得到对应的收益以及更新的状态共同作为训练样本保存；

步骤609、通过V2V link获取周围无人机的位置速度信息，并计算与周围无人机之间的通信距离，在若干动作对应的期望值Q集合中选择最大预估收益的动作action，且该动作满足通信距离约束条件；

Cover_total表示当前时刻，无人机从初始节点飞至当前节点所有的面积覆盖率之和；计算公式为：

K为无人机飞行路径中的所有节点；

步骤611、根据每架无人机的面积覆盖率Cover以及距离计算收益值r，并将无人机飞行中形成的新的四元组[s,a,r,s']存入memory矩阵中；

利用输出Q_eval和Q_target得到相应的损失函数L(Θ)，进而更新神经网络；

L(Θ)＝E[(Q_target-Q_eval)²]

其中，L(Θ)是网络参数Θ的函数；

步骤614、按顺序连接无人机每次确定的节点位置，即可得到每架无人机面积覆盖率最大化的搜索路径；

2.如权利要求1所述的一种通信约束下的多无人机协同搜索方法，其特征在于，所述的步骤一中每架无人机的覆盖面积为：以无人机为圆心，雷达最远探测距离为半径的圆；

则无人机的搜索半径为：

其中，R_sr为无人机搜索半径；P_av为雷达发射平均功率；G_t为天线发射增益；G_r为天线接收增益；σ为待搜索目标的RCS；λ为雷达工作波长；k为波尔兹曼常数；T₀为等效噪声温度；F_n为接收机噪声系数；L_s为雷达系统的损耗；D₀为可检测因子；B_n为多普勒带宽；

计算公式如下：

3.如权利要求1所述的一种通信约束下的多无人机协同搜索方法，其特征在于，所述的步骤三中当两架无人机处在彼此的通信范围内时，无人机接收器节点的信噪比SNR高于预定的阈值η，信噪比计算公式为：

η_d为最大通信距离，无人机p和无人机q之间的通信距离d_pq要满足：d_pq≤η_d；当d_pq超过距离η_d时，路径损耗会导致无人机间通信失败；

通信距离d利用弗里斯传输公式计算得到：

其中，P_tr为无线收发器节点的信号发射功率；α为路径损耗指数；G_t为天线发射增益；G_r为天线接收增益；λ为雷达工作波长。

4.如权利要求1所述的一种通信约束下的多无人机协同搜索方法，其特征在于，所述的步骤604中更新公式为：

5.如权利要求1所述的一种通信约束下的多无人机协同搜索方法，其特征在于，所述的步骤609中无人机p和无人机q之间的通信距离d_pq要满足约束条件如下：d_safe≤d_pq≤η_d；d_safe为两个无人机之间的安全距离；

最大预估收益对应的动作a_t计算公式为：

a_t＝arg maxQ(s,a；Θ)