CN114879742A

CN114879742A - 基于多智能体深度强化学习的无人机集群动态覆盖方法

Info

Publication number: CN114879742A
Application number: CN202210688998.3A
Authority: CN
Inventors: 邵晋梁; 张蕴霖; 石磊; 麻壮壮; 白利兵; 程玉华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-08-09
Anticipated expiration: 2042-06-17
Also published as: CN114879742B

Abstract

本发明公开了一种基于多智能体深度强化学习的无人机集群动态覆盖方法，首先，使用覆盖能量和覆盖功率概念对任务进行建模；其次，根据连通保持的要求设置相应的连通约束力，基于此设计集中式动作矫正器，该矫正器只在训练时起作用，用于保证连通和生成正负样本；最后，配合多智能体强化学习算法对模型进行训练，在执行时去除集中式动作矫正器，从而实现连通性保持的动态覆盖。

Description

基于多智能体深度强化学习的无人机集群动态覆盖方法

技术领域

本发明属于无人机集群动态覆盖控制技术领域，更为具体地讲，涉及一种基于多智能体深度强化学习的无人机集群动态覆盖方法。

背景技术

近年来，随着物联网技术和通信技术的发展，无人机集群的应用场景越发广泛。无人机集群是指由一组具有数据采集和信息处理功能的无人机所组成的多智能体系统。这些无人机可以通过通信来协调彼此的行动，从而完成单架无人机所不能完成的任务。无人机集群凭借其对于高风险和高污染环境的高耐受力，被越来越多地用于执行动态覆盖控制任务。典型的动态覆盖控制任务包括航空勘测、目标监视、灾情侦察等，其在工业、民用甚至军事领域都具有光明的前景和突出的研究价值。

然而，无人机集群的应用给系统带来的机动性的同时，也带来了通信网络的连通性保持方面的挑战。集群的连通性取决于集群中的个体之间能否建立直接或者间接的信息通道来协调行动。连通性保持作为集群信息交互的基础，是指如何规划集群的轨迹使之在运动中依旧保持连通。一方面，受到硬件平台和功能设计的限制，无人机的通信范围有限，连通保持本就较为复杂；另一方面，动态覆盖会使集群在空间中分散以实现对于任务空间的全面覆盖，连通性保持会限制集群扩展来保持通信连通，二者在动力学行为上相反且矛盾的表现使得连通保持约束下的集群动态覆盖任务更为复杂。在动态覆盖领域中，借助多智能体深度强化学习算法，现有方法通过对造成集群失去连通的驱动力施加惩罚，促使模型输出的驱动力向着保持集群连通的方向优化，然而，仅施加惩罚并不能保证训练时的集群连通，并且存在奖励稀疏的问题，模型不容易收敛。针对上述不足，本发明提出一种基于多智能体深度强化学习的无人机集群动态覆盖方法，通过引入动作矫正器，对使集群丢失连通的驱动力进行修正，可保证集群训练时的连通性，同时解决了奖励稀疏的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多智能体深度强化学习的无人机集群动态覆盖方法，基于连通性规则并配合多智能体深度强化学习，使得无人机集群可以在执行任务时自主实现连通保持和动态覆盖。

为实现上述发明目的，本发明一种基于多智能体深度强化学习的无人机集群动态覆盖方法，其特征在于，包括以下步骤：

(1)、搭建无人机集群动态覆盖目标区域模型；

在二维空间上设置M个待覆盖的目标点，使用集合

表示，其中p_j表示第j个目标点的位置坐标；设执行任务的无人机集群共有N架无人机，使用集合

表示，用

表示第i架无人机在t时刻的位置，用

表示第i架无人机在t时刻的速度；

(2)、搭建无人机动力学模型；

设t时刻第i架无人机以驱动力

作为控制输入，其中，

分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力；

建立第i架无人机的动力学模型：

其中，

表示t时刻第i架无人机的加速度，η为比例系数，m为无人机的质量；无人机t+1时刻位置

与速度

的更新迭代公式为：

其中，Δt表示时间间隔；

(3)、搭建无人机集群的动态覆盖模型；

(3.1)、定义t时刻第i架无人机的观测信息

其中，

表示每个目标点所需的覆盖能量，

表示在[0,t]内第j个目标点接受到的覆盖能量；

(3.2)、定义t时刻的状态s^t；

(3.3)、构建无人机集群的动态覆盖模型；

(3.3.1)、搭建无人机的策略网络及目标策略网络；

策略网络采用三层感知机结构，策略网络的输入为观测信息

正向传播后策略网络的输出表示为

其中，θ_i表示策略网络待训练的网络参数；

目标策略网络与策略网络结构相同，目标策略网络的输入为观测

正向传播后目标策略网络的输出表示为

其中，

表示目标策略网络待训练的网络参数；

(3.3.2)、搭建无人机的价值网络与目标价值网络；

价值网络采用三层感知机结构，价值网络的输入为状态s^t与驱动力

正向传播后价值网络的输出表示为

其中，ψ_i表示价值网络待训练的网络参数；

目标价值网络与价值网络结构相同，目标价值网络的输入为状态s^t与驱动力

正向传播后目标价值网络的输出表示为

其中，

表示目标价值网络待训练的网络参数；

(4)、训练无人机集群动态覆盖决策模型

(4.1)、设定最大训练轮数N_e，初始化当前训练轮数e＝1，e＝1,2,…,N_e；设置无人机集群每轮最长控制时间T，初始化当前控制时刻t＝1，t＝1,2,…,T；初始化经验池

为空集；初始化网络参数θ_i,ψ_i和目标网络参数

为随机值；

(4.2)、在第e轮训练中，设第i架无人机仅能获取其探测半径r_i内的信息，通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率

其中，

为传感器与目标点欧式距离；

(4.3)、设无人机均具有相同的探测功率M_p，计算第i架无人机在t时刻对第j个目标点覆盖的探测功率

(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量

(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息

与状态s^t，将

输入到策略网络中，通过正向传播得到

然后令驱动力

ω表示随机噪声；

(4.6)、第i架无人机将驱动力

代入式(1)计算出下一时刻预期的位置

和速度

然后通过公式(7)计算[0,t+1]内预期的探测能量

最后利用

与

计算t+1时刻的预期的状态s^t+1；计算从s^t转移到s^t+1的奖励值R；将

组成样本存入经验池

中；

(4.7)、判断状态s^t+1对应通信网络是否失去连通，若未失去连通，则进入(4.8)；否则，反之则将驱动力

所有无人机的当前位置

与预期位置

输入到动作矫正器中，动作矫正器经计算输出矫正后的动作

再令驱动力等于矫正后的动作：

然后返回步骤(4.6)；

(4.8)、第i架无人机随机对经验池

进行采样，获得一批次的样本集

并根据样本集中的样本

其中，s'表示状态s对应的下一时刻的状态，s'对应的观察信息为o_i'，对应输入的驱动力为u_i'；按照下式分别计算策略网络和价值网络的损失函数值：

其中，

表示样本个数；

(4.9)、按照下式更新目标策略网络和目标价值网络的参数：

其中，τ表示更新步长；

(4.10)、第i架无人机执行

执行完成后若此时所有的目标点均满足覆盖需求，即

则进入(4.12)，反之进入(4.11)；

(4.11)、判断本轮控制时刻t是否超出设定上限，即t≥T，如满足，则本轮训练结束，进入(4.12)；否则，令t＝t+1，再返回至步骤(4.2)；

(4.12)、判断当前训练轮数e是否小于最大训练轮数N_e，即e＜N_e，若满足条件，则令e＝e+1，随机初始化无人机集群的位置和速度，并重置当前控制时刻t←0，并返回(4.2)；否则，结束训练，得到训练好的策略网络模；

(5)、保存训练好的策略网络模型参数θ_i,i＝1,...,N，在动态覆盖实施的每个时刻t，每架无人机均会收集观测信息

其控制决策将由策略网络进行计算：

当

时，覆盖结束，场景中所有目标点的探测需求均已满足。

本发明的发明目的是这样实现的：

本发明基于多智能体深度强化学习的无人机集群动态覆盖方法，首先，使用覆盖能量和覆盖功率概念对任务进行建模；其次，根据连通保持的要求设置相应的连通约束力，基于此设计集中式动作矫正器，该矫正器只在训练时起作用，用于保证连通和生成正负样本；最后，配合多智能体强化学习算法对模型进行训练，在执行时去除集中式动作矫正器，从而实现连通性保持的动态覆盖。

同时，本发明基于多智能体深度强化学习的无人机集群动态覆盖方法还具有以下有益效果：

(1)、适应性与可拓展性强：本发明所考虑的无人机集群是一种通用模型，对个体数量未作限制，其可以由同型号或者不同型号的个体无人机组成。同时，覆盖场景也是任意的，每个目标点的位置和所需探测能量都可以随机生成。这使得本方法对场景的适应能力较强。

(2)、计算资源消耗更少：本发明所提及的方法在执行时只需要决策控制器就可以实现连通保持和动态覆盖两项任务。相比于集中式并行安全控制器的方法，本发明减少了对硬件平台的依赖，同时也提高的处理速度。

(3)、鲁棒性和自组织性强：本发明通过集中式训练使集群中的每个个体都具有自主保持连通的能力，具有分布式协同的功能。当集群中出现部分个体故障失效时不会影响任务效率。

附图说明

图1是本发明基于多智能体深度强化学习的无人机集群动态覆盖方法流程图；

图2是本发明提出的算法的覆盖率训练曲线。

图3是本发明提出的算法在仿真环境中的动态覆盖轨迹曲线。

图4是本发明提出的算法在仿真环境中的各时刻的动态覆盖效果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于多智能体深度强化学习的无人机集群动态覆盖方法流程图；。

在本实施例中，如图1所示，本发明一种基于多智能体深度强化学习的无人机集群动态覆盖方法，包括以下步骤：

S1、搭建无人机集群动态覆盖目标区域模型；

在二维空间上设置W＝[-100m,100m]²的目标区域，设置了M＝20个待覆盖的目标点，使用集合

表示，其中p_j表示第j个目标点的位置坐标；设执行任务的无人机集群共有N＝4架无人机，使用集合

表示，用

表示第i架无人机在t时刻的位置，用

表示第i架无人机在t时刻的速度；

S2、搭建无人机动力学模型；

设t时刻第i架无人机以驱动力

作为控制输入，其中，

考虑双积分动态特性智能体，在空间运动时受到空气阻力的影响，建立第i架无人机的动力学模型：

其中，

表示t时刻第i架无人机的加速度，η为比例系数，取值为η＝0.15，m为无人机的质量，取值为m＝1kg；无人机t+1时刻位置

与速度

的更新迭代公式为：

其中，Δt表示时间间隔；

S3、搭建无人机集群的动态覆盖模型；

S3.1、定义t时刻第i架无人机的观测信息

其中，

表示每个目标点所需的覆盖能量，在本实施例中，每个目标点对应一个所需的覆盖能量服从均匀分布

表示在[0,t]内第j个目标点接受到的覆盖能量；此种观测信息的设置具有更好的适应性与可拓展性，可适应任意数量、位置的目标点和无人机的运行场景。

S3.2、定义t时刻的状态s^t；

S3.3、构建无人机集群的动态覆盖模型；

S3.3.1、搭建无人机的策略网络及目标策略网络；

策略网络采用三层感知机结构，策略网络的输入为观测信息

正向传播后策略网络的输出表示为

其中，θ_i表示策略网络待训练的网络参数；

正向传播后目标策略网络的输出表示为

其中，

表示目标策略网络待训练的网络参数；

S3.3.2、搭建无人机的价值网络与目标价值网络；

正向传播后价值网络的输出表示为

其中，ψ_i表示价值网络待训练的网络参数；

正向传播后目标价值网络的输出表示为

其中，

表示目标价值网络待训练的网络参数；

S4、训练无人机集群动态覆盖决策模型

S4.1、设定最大训练轮数N_e＝3×10⁴，初始化当前训练轮数e＝1，e＝1,2,…,N_e；设置无人机集群每轮最长控制时间T＝80s，初始化当前控制时刻t＝1，t＝1,2,…,T；初始化经验池

为空集；初始化网络参数θ_i,ψ_i和目标网络参数

为随机值；

S4.2、在第e轮训练中，传感器无法获取探测半径外的信息，探测半径内的信息获取率随距离的增加而减少，设第i架无人机仅能获取其探测半径r_i＝15m内的信息，通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率

其中，

为传感器与目标点欧式距离；

S4.3、设无人机均具有相同的探测功率M_p＝1，计算第i架无人机在t时刻对第j个目标点覆盖的探测功率

S4.4、以时间为积分变量，对探测功率函数积分，可以得到无人机在一段时间内在任务空间上提供的探测能量，这样我们可以计算第j个目标点在[0,t]内接受到的覆盖能量

S4.5、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息

与状态s^t，将

输入到策略网络中，通过正向传播得到

然后令驱动力

ω表示随机噪声；

S4.6、第i架无人机将驱动力

代入式(1)计算出下一时刻预期的位置

和速度

然后通过公式(7)计算[0,t+1]内预期的探测能量

最后利用

与

组成样本存入经验池

中；

在本实施例中，状态s^t转移到状态s^t+1的奖励值R为：

其中，R_t＝15表示完成单个目标点覆盖后所给予的奖励，

表示t时刻已完成覆盖的目标点的集合，

表示完成任务奖励，当任务完成时，

反之为0，R_s表示未完成覆盖的目标点所给予的惩罚；

表示向量

的第k个元素，ub_k,lb_k分别表示任务区域的第k维的上、下边界坐标值；R_c＝20表示通信网络连通所给予的奖励，c^t+1表示t+1时刻网络是否连通，当集群连通时，c^t+1＝1，反之c^t+1＝0。

S4.7、判断状态s^t+1对应通信网络是否失去连通，若未失去连通，则进入S4.8；否则，反之则将驱动力

所有无人机的当前位置

与预期位置

输入到动作矫正器中，动作矫正器经计算输出矫正后的动作

再令驱动力等于矫正后的动作：

然后返回步骤S4.6，此步骤保证了训练时的集群连通，有助于解决奖励稀疏的问题；

在本实施例中，通信网络是否失去连通的判断过程为：

1)、设第i架无人机的通信半径为R_i＝30m，使用图G^t＝{V,ε^t,A^t}表示时刻t的集群通信网络，其中，V表示通信网络中无人机集群的集合，ε^t表示t时刻通信链路的集合，A^t表示t时刻的N×N的邻接矩阵，其元素定义为：若

则A^t的第i行j列元素[A^t]_ij＝1，表示x_i发送的信息能够被x_j接收，反之[A^t]_ij＝0；

2)、使用图G^t的连通度作为集群通信网络连通性c^t∈{0,1}的判据，当ct＝0时，表示通信网络失去连通，当c^t＝1时，表示通信网络连通；

其中，

表示计算图

的拉普拉斯矩阵

第二小特征值，

当通信网络失去连通时，其动作矫正器的矫正步骤为：

1)、若s^t+1失去连通，则输入驱动力

所有无人机的当前位置

与预期位置

据此对所有满足(x_i,x_j)∈ε^t,

的x_i与x_j之间计算所需的连通约束力

其中，β表示比例系数，

表示无人机x_i与x_j在t时刻的欧式距离，设v_m＝10m/s为无人机最大的飞行速度，当

理论上可证明施加的连通约束力f_r,i一定能保证通信网络的连通；

2)、通过求解下述优化问题得到在原有驱动力

基础上矫正后的动作

其中，

表示向量

的第k个元素，

[f_r,i]_k同理。

S4.8、第i架无人机随机对经验池

进行采样，获得一批次的样本集

并根据样本集中的样本

其中，

表示样本个数；

S4.9、每训练100轮，按照下式更新目标策略网络和目标价值网络的参数：

其中，τ＝0.75表示更新步长；

S4.10、第i架无人机执行

执行完成后若此时所有的目标点均满足覆盖需求，即

则进入S4.12，反之进入S4.11；

S4.11、判断本轮控制时刻t是否超出设定上限，即t≥T，如满足，则本轮训练结束，进入S4.12；否则，令t＝t+1，再返回至步骤S4.2；

S4.12、判断当前训练轮数e是否小于最大训练轮数N_e，即e＜N_e，若满足条件，则令e＝e+1，随机初始化无人机集群的位置和速度，并重置当前控制时刻t←0，并返回(4.2)；否则，结束训练，得到训练好的策略网络模型；训练时的覆盖率

变化曲线如图2所示；

S5、保存训练好的策略网络模型参数θ_i,i＝1,...,N，在动态覆盖实施的每个时刻t，每架无人机均会收集观测信息

其控制决策将由策略网络进行计算：

当

时，覆盖结束，场景中所有目标点的探测需求均已满足，覆盖的轨迹如图3所示，各时刻的覆盖效果如图4所示。由于实施过程中仅使用到了策略网络，无需使用价值网络和动作矫正器，其计算资源消耗更少。同时，每个个体均会根据收集的观测信息，利用策略网络进行本地决策，一些个体的故障不会影响其余个体的决策，因此本方法鲁棒性和自组织性强。

至此，基于多智能体深度强化学习的无人机集群动态覆盖方法实施完成。

利用Python语言，基于深度学习框架TensorFlow对本方法进行编程，进行仿真实验，图2展示了训练过程中，覆盖率

随训练轮数增加的变化曲线，图中，实线表示覆盖率曲线，其底色表示方差变化范围，可以看出，随着训练轮数的增加，覆盖率逐渐上升，并最终在30k轮附近趋近于1，表示此时模型输出的驱动力能够使无人机集群实现覆盖目标，模型训练完成。

图3是本发明提出的算法在仿真环境中的动态覆盖轨迹曲线，，图中带有底色的圆表示不同时刻各无人机的探测范围，菱形表示各无人机的初始位置，矩形表示各无人机的覆盖结束的位置，虚线表示各无人机的飞行轨迹。可以看出，无人机收集观测信息输入到策略网络中，自主规划飞行轨迹，其飞行轨迹在各个时刻的探测范围组成的覆盖区域覆盖了所有目标点，所有目标点的覆盖需求均已满足，表明本发明提出的算法能够控制无人机集群实现动态覆盖目标。

图4是本发明提出的算法在仿真环境中的各时刻的动态覆盖效果图，共展示了t＝0,14,28,37s四个时刻的动态覆盖效果，图中质点表示目标点，颜色深的质点表示未完成覆盖的目标点，颜色较浅的质点表示已完成覆盖的目标点，五角星表示无人机当前位置，以无人机为中心的半径较大颜色较浅的同心圆表示无人机的通信范围，半径较小颜色较深的同心圆表示无人机的探测范围，连接五角星的直线表示通信链路；可以看出，随着覆盖时间的增加，浅色质点增多，深色质点减少，即目标点逐渐被无人机集群覆盖，最终t＝37s时仅剩浅色质点，即所有目标点均被无人机集群覆盖，覆盖任务完成，这表明本发明提出的算法能够控制无人机集群实现动态覆盖目标；同时，随着覆盖的进行，各无人机之间均能建立至少一条通信链路，表明本发明提出的算法能够保证覆盖过程中的通信网络的连通。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多智能体深度强化学习的无人机集群动态覆盖方法，其特征在于，包括以下步骤：

(1)、搭建无人机集群动态覆盖目标区域模型；

在二维空间上设置M个待覆盖的目标点，使用集合

表示，用

表示第i架无人机在t时刻的位置，用

表示第i架无人机在t时刻的速度；

(2)、搭建无人机动力学模型；

设t时刻第i架无人机以驱动力

作为控制输入，其中，

建立第i架无人机的动力学模型：

其中，

与速度

的更新迭代公式为：

其中，Δt表示时间间隔；

(3)、搭建无人机集群的动态覆盖模型；

(3.1)、定义t时刻第i架无人机的观测信息

其中，

表示每个目标点所需的覆盖能量，

表示在[0,t]内第j个目标点接受到的覆盖能量；

(3.2)、定义t时刻的状态s^t；

(3.3)、构建无人机集群的动态覆盖模型；

(3.3.1)、搭建无人机的策略网络及目标策略网络；

策略网络采用三层感知机结构，策略网络的输入为观测信息

正向传播后策略网络的输出表示为

其中，θ_i表示策略网络待训练的网络参数；

正向传播后目标策略网络的输出表示为

其中，

表示目标策略网络待训练的网络参数；

(3.3.2)、搭建无人机的价值网络与目标价值网络；

正向传播后价值网络的输出表示为

其中，ψ_i表示价值网络待训练的网络参数；

正向传播后目标价值网络的输出表示为

其中，

表示目标价值网络待训练的网络参数；

(4)、训练无人机集群动态覆盖决策模型

为空集；初始化网络参数θ_i,ψ_i和目标网络参数

为随机值；

其中，

为传感器与目标点欧式距离；

(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量

(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息

与状态s^t，将

输入到策略网络中，通过正向传播得到

然后令驱动力

ω表示随机噪声；

(4.6)、第i架无人机将驱动力

代入式(1)计算出下一时刻预期的位置

和速度

然后通过公式(7)计算[0,t+1]内预期的探测能量

最后利用

与

组成样本存入经验池

中；

所有无人机的当前位置

与预期位置

输入到动作矫正器中，动作矫正器经计算输出矫正后的动作

再令驱动力等于矫正后的动作：

然后返回步骤(4.6)；

(4.8)、第i架无人机随机对经验池

进行采样，获得一批次的样本集

并根据样本集中的样本

其中，s'表示状态s对应的下一时刻的状态，s'对应的观察信息为o′_i，对应输入的驱动力为u′_i；按照下式分别计算策略网络和价值网络的损失函数值：

其中，

表示样本个数；

(4.9)、按照下式更新目标策略网络和目标价值网络的参数：

其中，τ表示更新步长；

(4.10)、第i架无人机执行

执行完成后若此时所有的目标点均满足覆盖需求，即

则进入(4.12)，反之进入(4.11)；

其控制决策将由策略网络进行计算：

当

时，覆盖结束，场景中所有目标点的探测需求均已满足。

2.一种基于多智能体深度强化学习的无人机集群动态覆盖方法，其特征在于，所述通信网络是否失去连通的判断过程为：

(2.1)、设第i架无人机的通信半径为R_i，使用图G^t＝{V,ε^t,A^t}表示时刻t的集群通信网络，其中，V表示通信网络中无人机集群的集合，ε^t表示t时刻通信链路的集合，A^t表示t时刻的N×N的邻接矩阵，其元素定义为：若

(2.2)、使用图G^t的连通度作为集群通信网络连通性c^t∈{0,1}的判据，当c^t＝0时，表示通信网络失去连通，当c^t＝1时，表示通信网络连通；

其中，

表示计算图

的拉普拉斯矩阵

第二小特征值，

3.一种基于多智能体深度强化学习的无人机集群动态覆盖方法，其特征在于，所述状态s^t转移到状态s^t+1的奖励值R为：

其中，R_t表示完成单个目标点覆盖后所给予的奖励，

表示t时刻已完成覆盖的目标点的集合，

表示完成任务奖励，当任务完成时，

反之为0，R_s表示未完成覆盖的目标点所给予的惩罚；

表示向量

的第k个元素，ub_k,lb_k分别表示任务区域的第k维的上、下边界坐标值；R_c表示通信网络连通所给予的奖励，c^t+1表示t+1时刻网络是否连通，当集群连通时，c^t+1＝1，反之c^t+1＝0。

4.一种基于多智能体深度强化学习的无人机集群动态覆盖方法，其特征在于，所述动作矫正器的矫正步骤为：

(4.1)、若s^t+1失去连通，则输入则将驱动力

所有无人机的当前位置

与预期位置

对所有满足(x_i,x_j)∈ε^t,

的x_i与x_j之间计算所需的连通约束力

其中，β表示比例系数，

表示无人机x_i与x_j在t时刻的欧式距离；

(4.2)、设v_m为无人机最大的飞行速度，那么当

时，施加的连通约束力f_r,i能保证通信网络的连通，最后通过求解下述优化问题得到在原有驱动力

基础上矫正后的动作

其中，

表示向量

的第k个元素，

同理。