CN112016812A

CN112016812A - 多无人机任务调度方法、系统及存储介质

Info

Publication number: CN112016812A
Application number: CN202010782126.4A
Authority: CN
Inventors: 伍国华; 刘欢
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-01
Anticipated expiration: 2040-08-06
Also published as: CN112016812B

Abstract

本发明公开了一种多无人机任务调度方法、系统及存储介质，第一阶段是多无人机任务分配阶段，将多无人机任务调度问题划分为多个单无人机调度子问题，并提出嵌入禁忌表的模拟退火算法实现多无人机任务分配；第二阶段是单无人机任务调度阶段，根据第一阶段的任务分配方案，考虑无人机平台的观测能力和任务的需求，设计变邻域搜索下降算法，提供有效可行的任务调度方案。第一阶段再根据第二阶段的反馈结果，结合禁忌因子、转移因子与交换因子，对任务分配方案进行迭代调整和更新，直到满足停止准则。综上所述，针对多无人机协同任务调度问题，提出了一种两阶段迭代优化方法。仿真实验验证了本发明的优越性和效率。

Description

多无人机任务调度方法、系统及存储介质

技术领域

本发明涉及一种无人机任务调度技术，特别是一种多无人机任务调度方法、系统及存储介质。

背景技术

近几年，无人机(Unmanned Aerial Vehicle，UAV)越来越受到人们的青睐，广泛应用于多个领域，比如交通巡查^[1,2]、抗震救灾^[3]、物流配送^[4,5]、目标侦察^[6]等。其中，无人机交通数据采集^[7]是一种新兴应用，是本发明研究的重点。交通数据采集是指获取不同时间段的城市各道路交通流数据。传统的人工数据采集无疑会消耗大量的人力和车辆资源。更糟糕的是，在高峰时段，交通拥堵会导致收集的数据存在严重的偏差。相比之下，无人机具有更强的灵活性和机动性，可快速到达目的地。当前需要数据采集的路口分布在不同的区域，且任务具有时效性，而多无人机执行能力强、工作效率高，因此多无人机交通数据采集成为一种有潜力的数据采集方式。

多无人机交通数据采集的核心在于多无人机协同任务调度，即如何在合理的时间内，考虑无人机平台的观测能力和任务需求等约束条件下，规划出一个有效的多无人机协同任务调度方案。多无人机协同任务调度本质上是一个NP-难组合优化问题^[8]。精确算法很难在合理时间内解决多无人机大规模问题，因此，为多无人机大规模任务调度问题设计有效、切实可行的启发式算法成为一个亟待解决的问题。

当前多无人机任务调度方面的研究主要采用智能优化算法。为提高方案的质量，Jia^[9]等人和Bai^[10]等人在遗传算法(genetic algorithm，GA)中嵌入禁忌搜索机制或改进交叉变异因子。Zhen^[11]等人提出了一种改进的分布式蚁群搜索算法(ant colonyoptimization，ACO)，实现察打一体集群无人机的任务调度，大量仿真实验验证了该算法的鲁棒性。Zhu^[12]等人将多无人机任务调度问题看作是团队定向运动问题的一种变形，提出了一种高效的结合模拟退火算法(simulated annealing，SA)的混合粒子群算法(particleswarm optimization，PSO)(HPSO-SA)来解决该问题。Chen^[13]等人提出了一种改进的两阶段狼群搜索算法，解决不确定条件下的多无人机任务调度问题。Wang^[14]等人为改进任务调度方案，设计了多目标约简变邻域搜索算法。在多无人机任务调度中，基于自组织映射(self-organising maps，SOM)的人工神经网络(artificial neural network，ANN)^[15]也成为一种有效的解决方法。除此之外，凭借着良好的灵活性、较强的容错能力和快速响应能力，基于市场机制的分布式算法也被应用于多无人机的动态任务调度中，如拍卖算法^[16,17]，合同网^[18]。

根据当前的研究现状，可以发现，绝大多数研究将多无人机任务调度问题作为一个整体进行求解，导致求解效率低，特别是在解决大规模任务调度问题时，很有可能出现得不到可行方案。目前，在解决大规模任务调度问题上，一些学者努力在解决框架上创新。Deng^[19]等人提出了一种异构对地观测资源的两阶段优化调度方法，包括区域目标分解阶段和任务分配阶段。Ren^[20]等人建立了一个由底层的单机器人和高层的规划中心组成的分层框架，并通过对比实验验证了其有效性。同样，少数学者^[21][22]等人将分层思想应用于多无人机任务调度中，实验结果表明分层思想可以有效平衡时效性和最优性。但是，目前基于分层思想的多无人机任务调度框架主要强调分而治之的想法，每层之间的联系并不强，缺乏层层反馈、迭代优化的思想，这会导致在面临大规模任务调度问题时求解速率大大减缓，求解质量大大降低。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种多无人机任务调度方法、系统及存储介质，有效地降低多无人机大规模任务调度问题的复杂性，保障调度方案的质量。

为解决上述技术问题，本发明所采用的技术方案是：一种多无人机任务调度方法，包括以下步骤：

S1、初始化多个无人机的任务分配方案A，A＝{a₁,…,a_k,…,a_m}；a₁,…,a_k,…,a_m分别对应第1～第m个无人机的任务分配方案；k∈[1,m]；

S2、根据第k个无人机的任务分配方案a_k，生成第k个无人机的调度方案s_k；

S3、合并第1～第m个无人机的调度方案s₁,s₂,…,s_m，获得完整的调度方案S，计算调度方案S的总收益值；

S4、根据所述调度方案S，重新分配不可调度任务，生成新的任务分配方案A′，A′＝{a′₁,…,a′_k,…,a′_m}；

S5、根据第k个无人机的新的任务分配方案a′_k，生成新的调度方案s′_k；

S6、合并第1～第m个无人机的新的调度方案，获得新的调度方案S′，并计算新的调度方案S′的总收益值；

S7、判断新的调度方案S′的总收益值是否大于调度方案S的总收益值，若大于，则用新的调度方案S′替代调度方案S；

S8、返回步骤S4，直至达到设定的停止条件，输出最终的调度方案。

本发明将多无人机任务调度问题划分成多个单无人机任务调度子问题，包含多无人机任务分配阶段和单无人机任务调度阶段，两阶段迭代优化方法(即对任务分配方案和任务调度方案进行迭代优化)能实现整体收益最大化，解决了现有技术大规模任务调度问题时求解速率慢，求解质量低的问题。

步骤S1的具体实现过程包括：

1)随机初始化隶属度β_k,j,j∈T，T为任务集；T＝{1,2,...,n}，n为任务数量；

2)利用下式计算第k个无人机的聚类中心μ_k，并利用所述聚类中心μ_k评估每次聚类的质量E，更新隶属度：

其中，b是平滑因子；x_j是任务j的坐标；μ_s是簇s的中心坐标，即簇s的聚类中心；簇s即第s个无人机；

3)判断聚类质量E是否满足精度误差要求，若满足，则进入步骤4)；否则，返回步骤2)；

4)初始化k＝1，将第k个无人机的任务调度方案a_k设置为空集，被选择的任务数γ设置为大于或等于|T|/m的最小整数，集合AT初始化为T；

5)根据任务与第k个无人机的的隶属度，将集合AT的任务按降序进行排列；

6)将降序排序后的前γ个任务添加到a_k，并从AT中删除这前γ个任务；令γ＝min{ceil(|T|/m),|AT|}，k的值加1；其中，ceil()表示返回大于或等于指定表达式的最小整数；|T|、|AT|分别指集合T、AT中元素的个数；

7)判断集合AT是否为空集，若是，则执行步骤8)；否则，返回步骤5)；

8)合并a₁,…,a_k,…,a_m，得到任务分配方案A。

本发明能快速生成初始多无人机任务分配方案，实现无人机之间的任务数量差距尽可能小，从而有效缩减后期的迭代优化所消耗的时间。

步骤S2的具体实现过程包括：

I)初始化调度任务集合z_k和未调度任务集合u_k为空集；

II)对每一个任务的下列指标：任务到基地的距离、时间窗持续时间、任务紧迫程度、任务地理位置以及收益值进行评估，采用公式

得到每个任务的得分，得到所有任务的得分情况r；α_q是

的权重，

表示任务i到基地的距离，

表示任务i的时间窗持续时间，

表示任务i的紧迫程度，

表示任务i的地理位置优势，

评估任务i的收益值；g_i表示任务i的得分；

III)从r中选择得分最高的任务c；判断最高的任务c是否满足无人机任务调度模型约束条件；若满足，则将该任务c加入到调度任务集合z_k中；否则，将任务c添加到未调度任务集合u_k；

IV)从r中去除任务c；

V)返回步骤III)，直至r为空集，得到更新后的调度任务集合和未调度任务集合；

VI)合并更新后的调度任务集合和未调度任务集合，得到第k个无人机的调度方案s_k。

通过以上过程，可以快速得到初始可行的单无人机调度方案，为后期的单机调度方案优化提供初始可行解。

步骤S2之后，步骤S3之前，还对第k个无人机的调度方案s_k进行优化，具体优化步骤包括：

A)对第k个无人机的调度方案s_k采用插入算子

进行优化，若找到比调度方案s_k更优的方案，则更新任务方案s_k，转到步骤C)；否则，转入步骤

B)；其中，插入算子

是指：选择具有最高收益值的未调度任务，判断任务调度方案中是否存在最早开始时间晚于所选未调度任务的最早开始时间的任务，若有，则将最早开始时间晚于所选未调度任务的最早开始时间的任务筛选出来，放入插入位置候选集；从所述插入位置候选集中随机选择插入位置，并判断插入筛选出来的任务之后的调度方案是否满足无人机任务调度模型约束条件，若满足，则认为插入筛选出来的任务之后的调度方案优于所述任务调度方案；

B)对调度方案s_k采用交换算子

进行优化，若找到比调度方案s_k更优的方案，则更新调度方案s_k，转到步骤C)；否则，直接转到步骤C)；其中，交换算子

是指：选择一个收益值最高的未调度任务，确定收益值低于所选任务收益值的调度任务，考虑约束条件和总调度收益值最大化，选择满足无人机任务调度模型约束条件的调度任务作为更新后的调度方案；

C)返回步骤A)，直到满足设定的最大迭代次数，得到优化后的无人机调度任务方案s_k。

基于步骤S2的单无人机任务调度方案，采用变邻域搜索下降算法进行优化，能够实现单无人机执行任务的收益值最大化。

步骤S4的具体实现过程包括：

i)设定最高温度T_f、最大迭代次数l_max，初始化禁忌表为空集，初始化最优解连续保持不变的迭代次数q、温度T_l；

ii)判断T_l＞T_f以及q＜l_max是否同时成立，若是，执行步骤iii)；否则，结束；

iii)将不可调度任务通过禁忌表重新分配给无人机，随机使用转移因子或者交换因子扰乱调度方案S，生成新的任务分配方案A′。步骤S7的具体实现过程包括；

iv)初始化全局最优方案S_g，即用调度方案S替换全局最优方案S_g；若Δf≥0，则用新的调度方案S′替代调度方案S；若当前方案优于全局最优方案S_g，则用新的调度方案S′替代全局最优方案S_g；否则，判断exp(Δf/T_l)＞ξ是否成立，若是，则用新的调度方案S′替代调度方案S；其中，Δf为新的调度方案S′的总收益值与调度方案S的总收益值的差值。

本发明采用Metropolis准则接受恶化解，有助于算法跳出局部最优解，提升了算法的寻优能力和勘探能力。

步骤S8的具体实现过程包括：

v)记录未调度任务与无人机之间的对应关系，即若某一架无人机不能执行某个任务，则在禁忌表相应的位置进行禁忌，以避免在短时间内未调度任务重复分配给同一无人机，同时将同一温度下的迭代次数h的值加1；其中，同一温度下的迭代次数h的初始值为1；

vi)判断h≤h_max是否成立，若成立，则返回步骤iii)；否则，将迭代次数l的值加1，将温度T_l更新为T_l×σ，返回步骤ii)；其中，h_max为马尔科夫链长度；σ为衰减因子；

当满足以下停止条件之一时，输出最终的调度方案；所述停止条件包括：更新后的温度低于初始温度T_o；或者，最优解连续保持不变的迭代次数q等于最大迭代次数l_max；其中，所述最优解是指步骤iv)输出的调度方案。

通过步骤S8对多无人机任务调度方案不断迭代优化，能有效降低原始大规模任务调度问题的复杂性，并且提高任务调度方案的质量。

利用多无人机任务调度模型计算各调度方案的收益值；其中，多无人机任务调度模型表达式为：

C1:

C2:

C3:

C4:

st_i≤at_i ^k≤et_i,k∈U；

C5:

C6:

C7:

其中，f表示调度任务的总收益；U为无人机集合，U＝{1,2,...,m}；ω_i为任务i的收益值；[st_i,et_i]表示任务i所允许的最早开始时间和最晚结束时间；dt_i表示任务i的服务时间；t_i,j表示任务i到任务j的飞行时间；d_i,j表示任务i到任务j的距离；L_k,E_k,N_k分别表示第k个无人机的最大航程，能量约束和内存容量；M为常数；

为二进制变量，表示第k个无人机是否从任务i飞到任务j；at_i ^k表示第k个无人机到达任务i的时间；0，n+1分别表示每个无人机的第一个虚拟任务和最后一个虚拟任务；i,j表示任务索引。

构建多无人机任务调度模型，是对大规模多无人机任务调度问题的深度剖析，能够更加直观地表明本发明所要解决的大规模多无人机任务调度问题，确保问题的解析方向准确，更好地解决无人机任务调度问题。

本发明还提供了一种多无人机任务调度系统，其包括计算机设备；所述计算机设备被配置或编程为用于执行上述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其存储有程序；所述程序被配置为用于执行上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

1、本发明将多无人机任务调度问题划分成多个单无人机任务调度子问题，包含多无人机任务分配阶段和单无人机任务调度阶段，两阶段迭代优化方法(即对任务分配方案和任务调度方案进行迭代优化)能实现整体收益最大化；

2、本发明的方法能有效平衡时效性和最优性，仅耗时2.36s可获得较优的调度方案，收益率高达84.5％。

附图说明

图1为本发明方法流程图；

图2(a)为VND算法邻域结构中插入算子

的原理图；图2(b)为VND算法邻域结构中交换算子

的原理图；

图3为本发明实施例仿真场景图；

图4(a)为本发明实施例不同案例的收益率；图4(b)本发明实施例不同案例的调度任务数；

图5为本发明仿真实验中SATL-VND收敛曲线。

具体实施方式

多无人机协同任务调度的状态空间随着无人机、任务数量呈指数增长，这使得该问题的解空间面临严重的组合爆炸问题。而传统的任务调度算法很难在合理的运行时间内生成高质量的方案。为解决这个问题，本发明提出了一种基于分而治之策略的集群无人机任务调度框架(a multi-UAV task scheduling framework based on divide andconquer,DCF)。该框架将复杂问题简化为多个单机调度子问题，每个子问题将会被独立解决。考虑到问题的分解可能会影响最终求解结果的全局最优性，因此在求解多无人机协同任务调度问题过程中，复杂问题的分解与子问题的求解结果这两个过程会交互地进行。该框架包括两个阶段：第一阶段是多无人机任务分配阶段，实现原始问题划分；第二阶段是单个无人机的任务调度阶段，是子问题的求解过程。基于分而治之策略的调度框架如图1所示。

在任务分配阶段，只考虑任务的地理位置，采用基于均衡原理的模糊C均值聚类算法来实现任务分配方案的初始化。因此，分配方案中的任务是没有执行任务顺序的，无人机也不能确定是否能完成该任务。根据每个无人机的调度结果，设计三种调整因子(禁忌因子，转移因子，交换因子)来调整和改进分配方案，从而获得更好的调度方案。其中，禁忌因子是采用禁忌表来记录未调度任务和多个无人机之间的分配关系，能有效避免在短期内将相同的未调度任务分配给同一架UAV(无人机)。转移因子是指一架UAV将其调度方案中的一个调度任务转移到另一架UAV。交换因子是指两架UAV彼此交换一项调度方案中的任务。

在单个UAV调度阶段，根据单个UAV的任务分配方案，设计一种VND算法来实现每个UAV的调度任务方案。调度方案中的任务是遵循执行顺序并一定能被无人机执行完成的。其中，单个UAV的调度结果可以视为调度子方案。通过合并所有子方案可以获得所有无人机的总体调度方案。

在多无人机任务调度过程中，上述两个阶段迭代交互进行，直到满足停止准则为止。停止准则有两种：(1)模拟退火算法的最低温度，(2)解连续保持不变的最大迭代次数。在每次迭代中，第二阶段中的未调度任务将通过禁忌因子在下一个第一阶段中被重新分配。为了能够跳出局部最优，该算法在某些迭代中通过转移因子或交换因子破坏某两个单无人机可行的调度方案。分而治之调度框架将多UAV任务调度问题转换为多个单UAV调度问题，有效降低了原始问题的复杂性。基于分而治之策略的调度框架主要步骤如下：

Step 1：构建以最大化任务收益为目标函数的多无人机任务调度模型；

Step 2：采用基于均衡原理的模糊C均值聚类算法(FCME)初始化任务分配方案A，A＝{a₁,…,a_k,…,a_m}；

Step 3：基于多无人机任务调度模型，根据无人机k的任务分配方案a_k，采用VND算法生成无人机k的调度方案s_k；

Step 4：合并所有的单机调度方案s₁,s₂,…,s_m，从而获得多无人机调度方案S，将调度方案中的调度任务收益值一一累加起来，得到多无人机调度方案S的总收益值；

Step 5：根据多无人机调度方案S，将不可调度任务通过SATL(基于禁忌表的模拟退火算法)算法重新分配，生成新的任务分配方案A′，A′＝{a′₁,…,a′_k,…,a′_m}；

Step 6：根据无人机k的新任务分配方案a′_k，采用VND算法生成调度方案s′_k；

Step 7：合并所有的单机调度方案s′₁,…,s′_m，从而获得多无人机调度方案S′，将调度方案中的调度任务收益值一一累加起来，得到多无人机调度方案S′的总收益值；

Step 8：判断方案S′的总收益值是否大于S的总收益值，若大于，则方案S′替换方案S，S←S′；

Step 9：返回Step 5，重复上述步骤直到满足停止准则，停止准则有两种：(1)模拟退火算法的最低温度，(2)解连续保持不变的最大迭代次数。最终实现收益值最大化，完成多无人机任务调度模型的求解。

多无人机任务调度问题可以近似地视为带有时间窗的车辆路径问题(VRPTW)^[23,24]。参考经典的VRPTW模型以及结合多无人机调度问题的独特特征，构建多无人机协同任务调度模型。假设任务是互相独立的且被赋予特定的收益值、最早开始时间和最晚结束时间。表1列出任务调度模型中使用的所有符号。

表1符号定义

假设0，n+1分别表示每个UAV的第一个虚拟任务和最后一个虚拟任务。定义两种类型的决策变量。一个表示无人机k是否从任务i飞到任务j，它由一个二进制变量定义

如果无人机k从任务i飞到任务j，则

否则，

at_i ^k表示无人机到达任务的时间。如果无人机不执行任务，则at_i ^k等于无穷大；否则，at_i ^k等于实际到达时间。多无人机任务调度模型可以表示如下。

C1:

C2:

C3:

C4:

st_i≤at_i ^k≤et_i,k∈U (8)

C5:

C6:

C7:

在调度模型中，目标函数f是最大化调度任务的总收益。约束C1表示每个无人机必须从基地(即任务0)开始，完成任务后返回基地(即任务n+1)。约束C2表示每个真实任务最多具有一个前序任务和一个后继任务。C3指对于每个实际任务和每个UAV，前序任务的数量等于后继任务的数量。约束C4-C7分别表示时间窗约束、最大航程约束、能量约束和内存容量约束。C1-C7即多无人机任务调度模型的约束条件。

大规模任务调度问题面临着计算复杂性的挑战，为解决这一问题，本发明采用FCME聚类算法^[26]将大规模任务划分成几个簇，从而得到每个无人机的初始任务分配方案。与传统的基于划分的聚类算法不同的是，FCME设定隶属度这一指标β_k,j来表示无人机k和任务j之间的关系。隶属度β_k,j越大表示无人机k和任务j的关系越密切。首先随机初始化隶属度，接着利用相关公式不断计算聚类中心，评估每次聚类的质量E以及更新隶属度，直到E满足误差要求。为了降低分配给不同无人机的任务数量的方差，本发明设定分配给每个无人机的最大任务数量。最后，根据隶属度和最大任务数分配任务。

FCME聚类算法的主要步骤如下：

Step 1：随机初始化隶属度β_k,j,k∈[1,m],j∈T(任务集T，无人机数量m)；

Step 2：根据以下公式，不断计算聚类中心μ_k，评估每次聚类的质量E以及更新隶属度。

其中，b是平滑因子，一般是设定为2；x_j是任务j的坐标。

Step 3：判断E是否满足精度误差要求(误差要求可根据实际使用需要设定)，若满足，则转到Step 4；否则，转到Step 2；

Step 4：将初始无人机k的任务调度方案a_k设置为空集，即

被选择的任务数γ设置为大于或等于|T|/m的最小整数；集合AT初始化为T；无人机索引k←1；

Step 5：根据任务与簇k的隶属度，集合AT的任务按照降序进行排列；

Step 6：将降序排列后的前γ个任务添加到a_k，并从AT中删除这些任务；

Step 7：γ←min{ceil(|T|/m),|AT|},k←k+1；

Step 8：判断集合AT是不是空集，若不是空集，则转到Step 5；否则，执行Step9；

Step 9：A←{a₁,a₂,…,a_m}，获得初始任务调度方案A。

变邻域下降(variable neighborhood descent,VND)是一种元启发式算法，最初由Mladenovic和Hansen^[25]提出来解决组合优化问题。给定一个初始解x，VND算法通过依次使用多个邻域结构来优化初始解。

表示初始解x的第p个邻域结构。如果在第p个邻域结构中可以找到更好解，则VND算法接收更好解，并重新返回到第一个邻域结构，进行进一步搜索。否则，VND算法对当前解使用第p+1个邻域结构进行解的搜索。值得注意的是，只有改进的解才会进行被接受。

(1)初始解生成

为了产生初始可行的调度方案，提出一种贪婪算法，即最高得分优先分配算法(highest-score-first-assigned algorithm,HSFA)。所有任务均根据评估指标进行评分，并且每次都优先分配得分最高的任务。在HSFA算法中，本发明选用5个指标来评价每个任务的价值，即

表示任务i到基地的距离，

表示任务i的时间窗持续时间，

表示任务i的紧迫程度，

表示任务i的地理位置优势，

评估任务i的收益值。所有的指标将会归一化，则任务i的得分(g_i)如下：

其中，α_q是

的权重，

所有任务均按照其相关得分按降序排列，并且每次优先调度分数最高的任务。HSFA算法主要步骤如下：

Step 1：初始化调度任务集合和未调度任务集合

Step 2：对每一个任务到基地距离、时间窗持续时间、任务紧迫程度、任务地理位置以及收益值这5个指标进行评估，采用公式(12)对这些指标进行加权，得到每个任务的得分，得到所有任务的得分情况r；

Step 3：从r中选择得分最高的任务c；

Step 4：判断选出来得分最高的任务c是否满足多无人机任务调度模型中的所有约束条件C1-C7，如果满足约束条件，则将该任务c加入到调度任务集合z_k中；

否则，将任务c添加到未调度任务集合u_k；

Step 5：从r中去除任务c；

Step 6：转到Step 3，重复上述步骤，直到r为空集。

Step 7：合并z_k和u_k，得到无人机的初始调度任务方案s_k。

(2)邻域结构

待分配任务被分为调度任务和未调度任务。VND算法中的邻域结构是为未调度任务设计的。在进行解改进之前，未调度任务将根据其收益值进行排序，尽可能优先调度收益值高的任务。本发明构建了两种邻域结构，如下所示：

1)插入算子

选择一个未调度任务，将其插入到一个完整的任务调度方案中。更具体地说，该算子可以描述为：首先，选择具有最高收益值的未调度任务。然后，判断任务调度方案中是否存在任务的最早开始时间晚于所选未调度任务的最早开始时间，并将满足要求的调度任务筛选出来作为插入位置候选集。最后，从候选集中随机选择插入位置并判断是否满足所有的约束条件。该算子的具体含义如图2(a)所示。

2)交换算子

选择一个未调度任务，在满足约束条件的前提下，与任务调度方案中的一个任务进行交换。

如图2(b)所示，首先，选择一个收益值最高的未调度任务。然后，确定收益值低于所选任务收益值的调度任务。最后，考虑约束条件和总调度收益值最大化，选择被交换的调度任务。

具体步骤如下：

Step 1：对无人机k的初始调度任务方案s_k采用插入算子

进行优化，若能找到比初始任务方案更优的方案，则更新任务方案s_k，转到Step 3；否则，转Step 2；

Step 2：对方案s_k采用交换算子

进行优化，若能找到比初始任务方案更优的方案，则更新任务方案s_k，并转到Step 3；否则，直接转到Step 3；

Step 3：转到Step 1，直到满足最大迭代次数为止，最终得到优化后的无人机调度任务方案s_k。

基于分而治之的调度框架，本发明提出嵌入禁忌表的模拟退火算法(SATL)来完成多架无人机之间的任务重新分配。完成任务重分配之后，VND算法为每架无人机生成一个任务调度方案。综上所述，针对多无人机任务调度问题，提出一种基于VND算法的SATL算法(SATL-VND)。SATL-VND算法的主要步骤如下：

Step 1：根据初始任务分配方案A，A＝{a₁,…,a_k,…,a_m}，采用VND算法得到每个无人机的单机调度方案s_k,k∈[1,m]；

Step 2：合并单机调度方案s₁,s₂,…,s_m，获得完整的调度方案S，将调度方案中的调度任务收益值一一累加起来，得到多无人机调度方案S的总收益值；

Step 3：人为设定初始温度T_o、最高温度T_f、最大迭代次数l_max、马尔科夫链长度h_max、衰减因子σ，初始化禁忌表为空集，初始化迭代次数计数l、全局最优方案S_g、最优解连续保持不变的迭代次数q以及温度T_l，l←1,S_g←S,q←1,T_l←T_o；

Step 4：判断是否满足T_l＞T_f且q＜l_max，若满足，执行Step 5；否则，结束进程。

Step 5：h←1；

Step 6：将不可调度任务通过禁忌因子(禁忌表)重新分配给其他无人机，随机使用转移因子或者交换因子扰乱单机调度方案，最终生成新的任务分配方案A′；

Step 7：根据初始任务分配方案A′，A′＝{a′₁,…,a′_k,…,a′_m}，采用VND算法得到所有无人机的单机调度方案s′_k,k＝1,2,…,m,；

Step 8：合并所有的单机调度方案s′₁,…,s′_m，获得完整的调度方案S′，将调度方案中的调度任务收益值一一累加起来，得到多无人机调度方案S′的总收益值；

Step 9：计算收益值差值，Δf＝F(S′)-F(S)；

Step 10：如果Δf≥0，则用方案S′替代S，S←S′，若当前方案优于全局最优方案，则S_g←S′；否则，判断exp(Δf/T_l)＞ξ(ξ是0到1之间的随意值)若满足，则S←S′；

Step 11：更新禁忌表，h←h+1；

Step 12：判断h≤h_max，若满足，则转到Step 6；否则，l←l+1，T_l←T_l×σ，转到Step4，最终得到收益值最大化的多无人机调度任务方案S。

在任务重分配阶段中，设计了三种调整因子来指导任务分配过程，包括禁忌因子、转移因子和交换因子，如图1所示。所有未调度任务都会根据禁忌因子随机分配给多个无人机。禁忌因子是指禁忌表，用于记录最近的任务分配操作以确定哪些任务分配给哪架无人机，从而避免在每次迭代中将相同的未调度任务频繁地分配给相同的无人机，进而防止SA算法过早收敛。转移因子和交换因子对两个可行的调度方案之间进行任务重分配来使调度方案多样化。转移因子和交换因子将在某些特定的迭代中随机选择操作。其中，转移因子是指一架无人机将调度方案中的一项任务转移到另一架无人机。交换因子意味着两架无人机彼此交换一项调度方案中的任务。

本发明实施例仿真实验将本发明方法与其他三种聚类算法进行比较，验证FCME对于初始任务分配方案的有效性。除此之外，为了有效评估SATL-VND算法的性能，与分支定界算法、7种启发式算法进行对比仿真实验。实验主要在一台Dell PC上进行，其配置为Corei5-8400 2.80GHz CPU，8G内存，以下算法均采用MatlabR2016b软件编程实现，选用CPLEX12.5作为精确的MIP求解器。

如图3所示，仿真场景应用范围为100km×100km，椭圆和五角星分别代表障碍物和无人机基地。场景中任意两点之间的距离可以通过APPATT算法^[27]获得。任务是随机分布在仿真场景中，调度时段是上班早高峰，从早上7点到9点，任务的时间窗持续时间是10s到45s之间任意一个时间段。本发明假设所有无人机都是同一类型的。无人机的相关参数和SATL-VND算的参数分别如表2、表3所示。

指标λ表示当迭代次数是λ的倍数时，采用转移因子或者交换因子来多样化分配方案。最大迭代次数l_max表示最优解连续保持不变的迭代次数。本发明通过反复实验的方法确定禁忌长度τ：利用6种案例(任务数量是40、60、80、100、200和300)，通过实验探讨禁忌表对算法性能的影响。根据实验，当任务数量低于100时，禁忌表的长度为2，SATL-VND算法能达到最佳性能；当任务数量超过100时，禁忌表的长度为4，SATL-VND算法能达到最佳性能。SATL-VND的其他参数的配置方法，也是基于上述方法，通过大量仿真实验分析得到的。

表2无人机参数

表3 SATL-VND的参数设置

为了体现FCME算法的优越性，本实施例选择K-means算法、FCM算法和CURE算法作为对比算法。现有10组观测任务，其中8组(C1-C8)的观测任务是随机分布的，而剩余2组(C9，C10)的观测任务分布是非凸的。由于评价初始任务分配方案存在难点，本发明实施例从最终的调度结果、运行时间两个方面评价上述聚类算法的性能。对比实验结果如表4所示。其中，Num_T和Num_U分别表示任务数量和无人机数量。收益率是指调度任务所获得的收益值与总任务收益值之间的比值。从表4中可以发现，与K-means、FCM和CURE算法相比，FCME为C1-C8都生成最好的目标函数值。在求解C9、C10时，基于划分的聚类算法(K-means、FCM和FCME)的求解性能不如基于层次的聚类算法CURE，但是值得注意的是相对较差的初始分配方案通过不断迭代优化仍能得到较优的调度方案。而且，这三种初始分配方案通过迭代优化得到的调度方案相差不大，运行时间也相近，这表明常规的基于划分的聚类算法基本能满足初始任务分配方案的要求。

表4各聚类算法对各案例的求解结果

为了测试SATL-VND算法的有效性，首先选择CPLEX求解器中的精确算法——分支定界算法作为对比算法，可直观地感受SATL-VND算法所求解与最优解之间的差距。本发明实施例设计9组案例，其任务数量分别是40、60、80、100、120、140、160、180和200。9组案例的计算结果如表5所示，包括运行时间、收益率、调度任务数以及与最优解的差距。SATL-VND算法是随机算法，在求解任务分配问题时，运行SATL-VND20次。

表5与分支定界算法的对比结果

从表5中可以发现，CPLEX为每一个案例都生成了最优的平均目标函数值，但是不予否认的是消耗了大量的计算资源。例如，在求解案例C16时，CPLEX需要运行超过4个小时才能获得最优解，因此，CPLEX不适合求解大规模任务调度问题。然而，SATL-VND却能在短时间内获得次优解。在求解案例C17-C19时，SATL-VND所获得的解与最优解仅相差4％，然而运行时间却不超过6s。此外可以发现，与收益率相比，两种算法求得的方案中的调度任务数量相差有点大，这表明在能力有限的条件下，SATL-VND优先选择高收益值的任务。

由于CPLEX在求解大规模任务调度问题上非常耗时，无法进一步验证SATL-VND算法在求解大规模任务调度问题上的性能。因此，本发明选用了7种启发式算法作为求解大规模任务调度问题上的对比算法。实验目的主要有两点：

(1)验证分而治之调度框架的有效性。(2)验证SATL-VND算法中禁忌因子、转移因子与交换因子的可行性。

目前，针对最大化收益的多无人机调度研究较少，因此，参考传统多无人机调度方法以及将多无人机大规模任务调度问题看作一个整体的思想，本发明设计了四种对比算法，即禁忌搜索算法(tabu search,TS)^[28]、基于自适应惯性权重的离散粒子群算法(discrete particle swarm optimization algorithm with self-adaptive weight,ADPSO)^[29]、大规模邻域搜索算法(large neighborhood search LNS)^[30]和HSFA算法。

除此之外，基于分而治之框架的不同调度算法也作为对比算法，包括SATL-H算法、SA-VND算法和没有转移因子以及交换因子的SATL-VNDI算法，这一系列算法统一称为SA系列算法。HSFA是确定性算法，因此只需运行HSFA一次求解每个案例对应的任务分配问题。而其余7个算法是随机性算法，在求解任务调度问题时，运行这7个算法各20次。仿真实验结果如表6、图4(a)、图4(b)所示。表6中的最后一列表示收益值的变异系数，即调度任务收益值的标准差与均值的比值。

从图4(a)中可以发现，在传统的四种任务调度算法中，LNS算法优于其他三种算法，但不及SA系列算法有效。LNS和SA系列算法均采用破坏和修复策略来跳出最优解，同时通过反复迭代方式调整当前解来搜索该问题的优化解。但是，他们在框架和解搜索策略上存在差异。在框架方面，SA系列算法都是采用分而治之的框架，即将多无人机大规模任务调度问题划分成多个单机小规模任务调度子问题。然而LNS算法却是将多无人机大规模任务调度问题看作一个整体。与LNS算法随机选择移除任务的解搜索策略不同，SA系列算法每一次重规划不可调度任务并且在某些迭代中破坏可行方案。此外，与SATL-VNDI算法相比，SATL-VND算法凭借转移因子和交换因子多样化方案，从而获得更优质的方案。从表6中可以发现，由于HSFA采用了简单的贪婪规则，它求解时间低至毫秒级。SATL-VNDI算法每次只需要重规划不可调度任务，舍去解的扰动操作，从而节省了大部分时间。但是，ADPSO算法采用群体智能搜索策略，导致运行时间随着任务规模的扩大而延长。由于LNS算法反复破坏和修复方案，它也消耗大量的时间。

虽然SATL-VND算法和SA-VND算法都采用分而治之的框架，但是SATL-VND在解的质量上还是优于SA-VND算法。主要是因为在SATL-VND中嵌入的禁忌表可以增强SA的勘探能力。虽然在理论上证明，SA在有足够运行时间和恰当退火策略的情况下，能够收敛到全局最优解。但越来越多的证据表明，SA在实际应用中通常易于收敛到局部最优解。因此，使用SA时，确保解的多样化具有重要作用。禁忌表策略是受到禁忌搜索的启发，通过禁忌表可以禁止短期循环和重访，从而防止SA过早收敛。SA-VND和SATL-VND获得任务调度方案所需的时间接近，这表明，与SA相比，在没有明显增加时间消耗的前提下，SA-TL可以生成更好的任务调度方案。此外，由表6中的变异系数可以发现，SATL-VND在解决大规模调度问题上比SA-VND算法更加稳定。

总而言之，分而治之的调度框架能有效解决多无人机大规模任务调度问题。SATL-VND算法能平衡时效性与解的质量，是解决多无人机大规模任务调度问题的首选方法。在某些实时性要求很高的条件下，可选用HSFA算法或者SATL-VNDI算法，以性能换时效。

表6各种任务调度算法对各案例的求解结果

为了进一步测试，本实施例的仿真实验场景选用中国长沙雨花区(N28 02’,E11257’)。在仿真实验场景下选择100个十字路口作为交通数据采集任务点，并将长沙市交通指挥中心作为无人机的基地。假设场景中总共有6架大疆无人机，其飞行航程是18km，飞行速度是50km/h。调度时段为早上7点到早上9点，每个任务的时间窗持续时间为10s～45s之间的任意值。调度方案如表7所示，收益率的收敛图如图5所示。SATL-VND算法所得的收益率为84.5％，运行时间为2.36s。

如图5所示，SATL-VND在第20代能找到满意解，这表明SATL-VND算法具有很强的勘探能力。解多样化策略(即交换因子与转移因子)和Metropolis准则能避免SATL-VND算法过早收敛于局部最优解。最终，SATL-VND在第63代搜索到最优解。根据停止准则(2)解连续保持不变的最大迭代次数，算法在第93代收敛，最优收益率为84.5％。

表7长沙雨花区任务调度方案

本发明基于分而治之框架，提出了两阶段迭代优化方法来解决多无人机大规模任务调度问题。该框架将多无人机任务调度划分为多无人机任务分配阶段和单无人机任务调度阶段。在任务分配阶段，基于禁忌因子、转移因子与交换因子，提出了基于禁忌表的模拟退火算法(SATL)，能够有效加强多个单无人机任务调度方案之间的交流，努力最大化多无人机系统的收益值。在单无人机任务调度阶段，考虑到无人机平台能力和任务需求，提出了变邻域下降搜索算法(VND)来实现单无人机任务调度。这两个阶段不断迭代、交叉进行，直到满足停止准则。大量的仿真实验验证了该方法的有效性，可以获得以下结论：

(1)与分支定界算法相比，SATL-VND算法能获得近似最优任务调度方案，与CPLEX求得的最优解差距仅有6％。

(2)在本发明设计的8种启发式任务调度方法中，SATL-VND算法效果最好，能有效平衡时效性和最优性。

(3)在真实场景下的仿真实验中，SATL-VND算法仅耗时2.36s可获得较优的调度方案，收益率高达84.5％。这表明，SATL-VND算法可作为实际任务调度问题的一种解决算法，具有广泛的应用前景。

参考文献

[1]Chow J Y.Dynamic UAV-based traffic monitoring under uncertainty asa stochastic arc-inventory routing policy[J].International Journal oftransportation science and technology.5(3),167-185(2016).

[2]Xu Y,Yu G,Wu X,et al.An enhanced Viola-Jones vehicle detectionmethod from unmanned aerial vehicles imagery[J].IEEE Transactions onIntelligent Transportation Systems.18(7),1845-1856(2016).

[3]Wu G,Pedrycz W,Li H,et al.Coordinated planning of heterogeneousearth observation resources[J].IEEE Transactions on Systems,Man,andCybernetics:Systems.46(1),109-125(2015).

[4]Sawadsitang S,Niyato D,Tan P,et al.Joint ground and aerial packagedelivery services:A stochastic optimization approach[J].IEEE Transactions onIntelligent Transportation Systems.20(6),2241-2254(2018).

[5]Sacramento D,Pisinger D,Ropke S.An adaptive large neighborhoodsearch metaheuristic for the vehicle routing problem with drones[J].Transportation Research Part C:Emerging Technologies.102,289-315(2019).

[6]Pokhrel S R,Jin J,Le Vu H.Mobility-aware multipath communicationfor unmanned aerial surveillance systems[J].IEEE Transactions on VehicularTechnology.68(6),6088-6098(2019).

[7]Ke R,Li Z,Tang J,et al.Real-time traffic flow parameter estimationfrom UAV video based on ensemble classifier and optical flow[J].IEEETransactions on Intelligent Transportation Systems.20(1),54-64(2018).

[8]Shima T,Rasmussen S J,Sparks A G,et al.Multiple task assignmentsfor cooperating uninhabited aerial vehicles using genetic algorithms[J].Computers&Operations Research.33(11),3252-3269(2006).

[9]Jia Z,Yu J,Ai X,et al.Cooperative multiple task assignment problemwith stochastic velocities and time windows for heterogeneous unmanned aerialvehicles using a genetic algorithm[J].Aerospace Science and Technology.76,112-125(2018).

[10]Bai X,Yan W,Ge S S,et al.An integrated multi-population geneticalgorithm for multi-vehicle task assignment in a drift field[J].InformationSciences.453,227-238(2018).

[11]Zhen Z,Xing D,Gao C.Cooperative search-attack mission planningfor multi-UAV based on intelligent self-organized algorithm[J].AerospaceScience and Technology.76,402-411(2018).

[12]Zhu M,Du X,Zhang X,et al.Multi-UAV rapid-assessment task-assignment problem in a post-earthquake scenario[J].IEEE Access.7,74542-74557(2019).

[13]Chen Y,Yang D,Yu J.Multi-UAV Task Assignment With Parameter andTime-Sensitive Uncertainties Using Modified Two-Part Wolf Pack SearchAlgorithm[J].IEEE Transactions on Aerospace and Electronic Systems.54(6),2853-2872(2018).

[14]Wang J,Guo J,Zheng M,et al.Uncertain multiobjective orienteeringproblem and its application to UAV reconnaissance mission planning[J].Journalof Intelligent&Fuzzy Systems.34(4),2287-2299(2018).

[15]Liu Y,Song R,Bucknall R,et al.Intelligent multi-task allocationand planning for multiple unmanned surface vehicles(USVs)using self-organising maps and fast marching method[J].Information Sciences.496,180-197(2019).

[16]Zhao W,Meng Q,Chung P W.A heuristic distributed task allocationmethod for multivehicle multitask problems and its application to search andrescue scenario[J].IEEE transactions on cybernetics.46(4),902-915(2015).

[17]Yao W,Qi N,Wan N,et al.An iterative strategy for task assignmentand path planning of distributed multiple unmanned aerial vehicles[J].Aerospace Science and Technology.86,455-464(2019).

[18]Smith R G.The contract net protocol:High-level communication andcontrol in a distributed problem solver[J].IEEE Transactions on computers.(12),1104-1113(1980).

[19]Deng M,Liu B,Li S,et al.A Two-Phase Coordinated Planning Approachfor Heterogeneous Earth-Observation Resources to Monitor Area Targets[J].IEEETransactions on Systems,Man,and Cybernetics:Systems.2020).

[20]Ren L,Yu Y,Cao Z,et al.An optimal task allocation approach forlarge-scale multiple robotic systems with hierarchical framework and resourceconstraints[J].IEEE Systems Journal.12(4),3877-3880(2017).

[21]Cao L,Shun Tan H,Peng H,et al.Multiple UAVs hierarchical dynamictask allocation based on PSO-FSA and decentralized auction[C].IEEE,2368-2373(2014).

[22]Hu X,Ma H,Ye Q,et al.Hierarchical method of task assignment formultiple cooperating UAV teams[J].Journal of Systems Engineering andElectronics.26(5),1000-1009(2015).

[23]Desrochers M,Desrosiers J,Solomon M.A new optimization algorithmfor the vehicle routing problem with time windows[J].Operations research.40(2),342-354(1992).

[24]Liao T W.Integrated Outbound Vehicle Routing and SchedulingProblem at a Multi-Door Cross-Dock Terminal[J].IEEE Transactions onIntelligent Transportation Systems.2020).

[25]

N,Hansen P.Variable neighborhood search[J].Computers&operations research.24(11),1097-1100(1997).

[26]Bezdek J C,Ehrlich R,Full W.FCM:The fuzzy c-means clusteringalgorithm[J].Computers&Geosciences.10(2-3),191-203(1984).

[27]Liu H,Li X,Fan M.An autonomous path planning method for unmannedaerial vehicle based on a tangent intersection and target guidance strategy[Z].2020).

[28]Gmira M,Gendreau M,Lodi A,et al.Tabu Search for the Time-Dependent Vehicle Routing Problem with Time Windows on a Road Network[J].European Journal of Operational Research.2020).

[29]Gong Y,Zhang J,Liu O,et al.Optimizing the vehicle routing problemwith time windows:a discrete particle swarm optimization approach[J].IEEETransactions on Systems,Man,and Cybernetics,Part C(Applications and Reviews).42(2),254-267(2011).

[30]Bent R,Van Hentenryck P.A two-stage hybrid local search for thevehicle routing problem with time windows[J].Transportation Science.38(4),515-530(2004).