CN115329595B

CN115329595B - 一种基于知识与经验的无人机集群任务规划方法及系统

Info

Publication number: CN115329595B
Application number: CN202211056286.6A
Authority: CN
Inventors: 郑红星; 白成超; 郭继峰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2023-04-14
Anticipated expiration: 2042-08-31
Also published as: CN115329595A

Abstract

一种基于知识与经验的无人机集群任务规划方法及系统，涉及任务规划技术领域，用以解决异构无人机集群任务规划问题。本发明的技术要点包括：建立异构多无人机耦合任务规划问题的数学模型；基于知识与经验的任务规划方法对数学模型求解，使得异构多无人机团队在满足多个约束条件下，完成所有任务的同时获取的任务收益最大化且总飞行时间及总时间窗惩罚最小。本发明提出了基于知识和基于经验引导的邻域搜索结构，考虑了涵盖机载资源配置、任务分配、时序调度、飞行模式选择四个子问题的异构无人机集群多子问题耦合任务规划问题，更加符合异构无人机集群的应用场景，提升了搜索效率，提升了高质量解的被发现概率，进一步提升了优化效率。

Description

一种基于知识与经验的无人机集群任务规划方法及系统

技术领域

本发明涉及任务规划技术领域，具体涉及一种基于知识与经验的无人机集群任务规划方法及系统。

背景技术

异构无人机集群协同作业是无人机应用的重要范式，任务规划作为集群的行动指引，可有效地消解资源与时序冲突，并提升无人机团队的作业效率与任务收益。目前，异构无人机集群任务规划大多围绕无人机集群的协同任务分配、时序调度以及航迹规划等子问题展开，其假设无人机的机载传感器、弹药等机载资源已经被合理的配置，并且无人机仅具有单一的飞行模式，资源配置问题及飞行模式选择问题被忽略。

随着宽速域无人机、机载小型化与模块化载荷的发展，根据具体的任务场景进行机载资源的灵活配置以及航段间的飞行模式自主选择更为符合实际，因此机载资源配置以及飞行模式选择等子问题变得不容忽视。据此，如何设计高效的多子问题耦合任务规划方法，以实现机载资源配置、任务分配、时序调度、飞行模式选择多子问题的同步求解是异构无人机集群高效作业的关键。

发明内容

鉴于以上问题，本发明提出一种基于知识与经验的无人机集群任务规划方法及系统，用以解决异构无人机集群任务规划问题。

根据本发明的一方面，提供一种基于知识与经验的无人机集群任务规划方法，该方法包括以下步骤：

步骤一、建立异构多无人机耦合任务规划问题的数学模型；

步骤二、基于知识与经验的任务规划方法对所述数学模型求解，使得异构多无人机团队在满足多个约束条件下，完成所有任务的同时获取的任务收益最大化，且总飞行时间及总时间窗惩罚最小。

进一步地，步骤一中所述数学模型包括优化目标函数及约束条件，其中，所述优化目标函数为最大化J：

Maximize J＝w₁f₁-w₂f₂-w₃f₃

式中，f₁表示异构多无人机团队的总任务收益；f₂表示异构多无人机团队的总飞行时间；f₃表示所有任务的总时间窗惩罚；w₁、w₂、w₃分别表示其对应项的权重系数，即总任务收益权重系数、总飞行时间权重系数、总时间窗惩罚系数；

所述约束条件包括：每个无人机装载载荷的数量不超过其装载载荷数量的上限；异构多无人机团队装载的载荷总和不超过载荷的总数；每个无人机装载的载荷的总重量不超过其载重上限；互斥载荷不允许装载到同一无人机上；每个任务只允许被执行一次；所有无人机的路径起始于基地及终止于基地；每个无人机的飞行时间不大于最大飞行时间的上限。

进一步地，步骤二中基于知识与经验的任务规划方法对所述数学模型求解的具体过程包括：

步骤二一、初始化运行参数；所述运行参数包括运行最大迭代次数，优化解集的数量

各个优化解集中解的数量

步骤二二、初始化

个初始解作为

个优化解集的搜索起点；

步骤二三、提取当前

个优化解集的搜索起点的先验知识，并通过基于知识引导的邻域搜索结构为每个优化解集生成

个解，使得每个优化解集均具有

个候选解；

步骤二四、计算全部候选解的目标函数值，遍历当前

个优化解集，遍历过程中利用贪婪算法从当前优化解集的

个候选解中选择一个目标值最高的解，作为该优化解集新的搜索起点；

步骤二五、根据所述新的搜索起点，通过基于经验引导的邻域搜索结构生成

个候选解；

步骤二六、基于全局更新方法从

个候选解中选出

个解作为下一轮迭代过程中

个优化解集的搜索起点；

步骤二七、判断迭代次数是否达到运行最大迭代次数，若达到则运行结束，输出当前最优规划方案；否则转至步骤二三继续迭代运行；所述最优规划方案为：计算最后一次迭代中步骤二六所获得的

个解所对应的目标函数值，确定最优目标函数值所对应的一个解为最优规划方案。

进一步地，步骤二中优化解集中的每个解通过四组对应的整数列表进行编码表示，分别为确定任务分配方案的任务列表T_L、确定任务时序优先级的时序列表P_L、确定资源分配方案的资源列表S_L以及确定飞行模式选择方案的模式列表V_L。

进一步地，步骤二三中所述先验知识包括无人机任务重分配概率、时序调度概率、资源重分配概率以及飞行模式切换概率；其中，

无人机任务重分配概率

的计算公式为：

式中，Q_h(T_h,S_h,G(h))表示无人机U_h的任务收益-总航程比，代表了任务收益的获取效率；T_h表示无人机U_h的已分配任务集合，S_h表示无人机U_h装载的资源集合，G(h)表示无人机U_h的飞行路线；Qi(S_h,T(h,σ_j),T(h,σ_j-1))表示任务T_i的任务收益-航段长度比，代表了无人机从该任务获取的实际收益；T(h，σ_j)＝T_i，T(h，σ_j-1)为T(h，σ_j)的前置任务，σ_j为任务编号；m表示任务总数；

时序调度概率

的计算公式为：

资源重分配概率

的计算公式为：

式中，

表示资源S_z的平均任务收益-重量比，代表了无人机任务集合与装载资源的适配程度；

表示无人机U_h装载的第z个资源，

为资源的编号；

飞行模式切换概率

的计算公式为：

式中，P_i(T_i,U_h)表示任务T_i的时间窗惩罚。

进一步地，步骤二三中通过基于知识引导的邻域搜索结构为每个优化解集生成

个解为：根据无人机任务重分配概率

时序调度概率

资源重分配概率

以及飞行模式切换概率

按照下述过程生成

个解：

根据轮盘赌方法，基于各个无人机的任务重分配概率

选择无人机U_h，在满足无人机最大飞行时间约束条件下，选择无人机U_h任务集合中的一项任务T_i，为U(i)∈T_L重新分配一个无人机编号；U(i)∈T_L代表执行任务T_i的无人机编号；基于各个任务的时序调度概率

选择任务T_i，在满足无人机最大飞行时间约束条件下，选择任务T_j，并置换时序列表P_L中任务T_i和任务T_j的优先级顺序；基于各个资源的重分配概率

选择资源S_z，在满足无人机载重约束条件下，选择资源S_k，并置换资源列表S_L中资源S_z与资源S_k所对应的无人机编号；基于根据各个无人机的飞行模式切换概率

选择无人机U_h，在满足无人机最大飞行时间约束条件下，选择一个其负责执行的任务T_i，若T_i的时间窗惩罚是因执行任务T_i的时刻早于其期望时间窗(a_i，b_i)而产生的，则将飞行模式列表V_L中该无人机的飞行模式切换为速度较小的飞行模式，否则切换为速度较大的飞行模式。

进一步地，步骤二五的具体步骤包括：

计算第一累积经验概率

和第二累积经验概率

所述第一累积经验概率表示由无人机U_k执行任务T_i的概率，所述第二累积经验概率表示由无人机U_h装载资源S_z的概率；

遍历当前

个优化解集的

个新的搜索起点，对于任意一个搜索起点，根据第一累积经验概率

和第二累积经验概率

生成一个候选解；具体包括：选择任务T_i，根据第一累积经验概率

在满足无人机最大飞行时间约束条件下，为U(i)∈T_L重新分配一个无人机编号；选择资源S_z，根据第二累积经验概率

选择无人机U_h；选择U_h装载的资源S_k，在满足无人机载重约束条件下，置换资源列表S_L中资源S_z与资源S_k所对应的无人机编号。

进一步地，第一累积经验概率

计算过程如下：

设置初始值为无人机数量的倒数；

在每轮迭代过程中按照下述公式进行更新：

式中，g表示当前迭代次数，N_M表示场景中无人机的数量；α表示学习率；

表示提供优化经验的解的数量；

为0-1决策变量，如果在第n个当前最优解中，任务T_i被分配给无人机U_k，则

否则

第二累积经验概率

计算过程如下：

设置初始值为无人机数量的倒数；

在每轮迭代过程中按照下述公式进行更新：

式中，

为0-1决策变量，如果在第n个当前最优解中，资源S_z被分配给无人机U_h，则

否则

进一步地，步骤二六的具体步骤包括：利用贪婪算法为每个优化解集选择一个目标函数值最高的解，且引入退火机制使得次优解有一定概率被接受。

根据本发明的另一方面，提供一种基于知识与经验的无人机集群任务规划系统，该系统包括：

模型建立模块，其配置成建立异构多无人机耦合任务规划问题的数学模型；所述数学模型包括优化目标函数及约束条件，其中，所述优化目标函数为最大化J：

Maximize J＝w₁f₁-w₂f₂-w₃f₃

式中，f₁表示异构多无人机团队的总任务收益；f₂表示异构多无人机团队的总飞行时间；f₃表示所有任务的总时间窗惩罚；w₁、w₂、w₃分别表示其对应项的权重系数，即总任务收益权重系数、总飞行时间权重系数、总时间窗惩罚系数；所述约束条件包括：每个无人机装载载荷的数量不超过其装载载荷数量的上限；异构多无人机团队装载的载荷总和不超过载荷的总数；每个无人机装载的载荷的总重量不超过其载重上限；互斥载荷不允许装载到同一无人机上；每个任务只允许被执行一次；所有无人机的路径起始于基地及终止于基地；每个无人机的飞行时间不大于最大飞行时间的上限；

模型求解模块，其配置成基于知识与经验的任务规划方法对所述数学模型求解，使得异构多无人机团队在满足多个约束条件下，完成所有任务的同时获取的任务收益最大化，且总飞行时间及总时间窗惩罚最小；具体过程包括：

各个优化解集中解的数量

步骤二二、初始化

个初始解作为

个优化解集的搜索起点；优化解集中的每个解通过四组对应的整数列表进行编码表示，分别为确定任务分配方案的任务列表T_L、确定任务时序优先级的时序列表P_L、确定资源分配方案的资源列表S_L以及确定飞行模式选择方案的模式列表V_L；

步骤二三、提取当前

个解，使得每个优化解集均具有

个候选解；所述先验知识包括无人机任务重分配概率、时序调度概率、资源重分配概率以及飞行模式切换概率；

步骤二四、计算全部候选解的目标函数值，遍历当前

个优化解集，遍历过程中利用贪婪算法从当前优化解集的

个候选解；

步骤二六、基于全局更新方法从

个候选解中选出

个解作为下一轮迭代过程中

个优化解集的搜索起点；

个解所对应的目标函数值，确定最优目标函数所对应的一个解作为最优规划方案。

本发明的有益技术效果是：

本发明考虑了同时涵盖机载资源配置、任务分配、时序调度、飞行模式选择四个子问题的异构无人机集群多子问题耦合任务规划问题，更加符合异构无人机集群的应用场景；提出了基于知识引导的邻域搜索结构，通过提取解的当前特征作为知识驱动算法的搜索方向，为算法提供了明确的搜索引导机制，可以提升高质量解被发现的概率，提升搜索效率；提出了基于经验引导的邻域搜索结构，设计了经验累积的方法，使的迭代过程中的搜索经验被应用后续搜索过程的引导，使得有潜力的决策空间有更大的机率被探索，提升了高质量解的被发现概率；提出的基于知识与经验的无人机集群任务规划方法具有整定参数少，算法结构简单等优点，并且在优化效率方面明显优于同类方法。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1是本发明实施例一种基于知识与经验的无人机集群任务规划方法的流程图。

图2是本发明实施例中四种算法在小规模测试用例中的平均收敛效果对比图。

图3是本发明实施例中四种算法在中规模测试用例中的平均收敛效果对比图。

图4是本发明实施例中四种算法在大规模测试用例中的平均收敛效果对比图。

图5是本发明实施例中KEG-HPA、RSM、EG-HPA、KG-HPA算法的平均运行时间对比图。

图6是本发明实施例中小测试用例KEG-HPA、RSM、EG-HPA、KG-HPA算法的最优目标值分布图。

图7是本发明实施例中中测试用例KEG-HPA、RSM、EG-HPA、KG-HPA算法的最优目标值分布图。

图8是本发明实施例中大测试用例KEG-HPA、RSM、EG-HPA、KG-HPA算法的最优目标值分布图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然，所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例，而不是全部的。基于本发明中的实施方式或实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例，都应当属于本发明保护的范围。

异构无人机集群多子问题耦合任务规划问题模型在更加全面的刻画任务场景的同时，同样带来了搜索/决策空间的规模急剧膨胀，子问题之间的关联耦合关系更为复杂等问题，其优化求解相较于一般任务规划问题更具挑战性。本发明提出基于知识与经验的启发式优化方法，充分利用了问题关联知识以及优化过程中的累积经验，使得优化过程具有明确的导向，可以加快复杂优化问题的寻优效率，其是一种十分具有潜力的复杂规划问题求解方法。

本发明实施例提出一种基于知识与经验的无人机集群任务规划方法，该方法包括以下步骤：

步骤一、建立异构多无人机耦合任务规划问题的数学模型；

对于步骤一中，异构无人机集群多子问题耦合任务规划问题可以详细描述为：令T＝{T₀，T₁，...，T_N}表示场景存在的任务集合，其中T₀代表起降任务，其无需被执行；令U＝{U₁，U₂，...，U_M}表示场景中异构无人机集合。对于无人机U_h∈U，W_h表示其载重上限，Q_h表示可装载资源的数量上限。设D_h为无人机U_h空载时的最大飞行距离。令V＝{V₁,V₂...,V_K}为无人机的飞行模式集合，其中v₁表示无人机在标准飞行模式下的飞行速度。若无人机以其他飞行模式V_k≠V₁飞行时，其最大飞行时间将会相应的降低。对于无人机U_h∈U，令t_h表示无人机U_h在空载/标准飞行模式下的最大飞行时间，t_hk表示无人机U_h以飞行模式V_k∈V飞行每百米降低的飞行时间。令S＝{S₁,S₂,...,S_Z}表示机载载荷集合。假设无人机U_h同时装载载荷S_j与S_j执行任务T_k，则无人机U_h执行任务T_k获取的任务收益为P_k＝P_ik+P_jk。对于任意S_z∈S，载荷的重量同样会使无人机的最大飞行时间降低，令W_z表示载荷S_z的重量，t_sz表示装载载荷S_z降低的飞行时间。同时，对于任意的载荷S_z∈S，令S′_z为其互斥载荷集合，则互斥载荷集合S′_z中的载荷与载荷S_z不能被装载到同一个无人机。

异构多无人机耦合任务规划问题的目标是：根据任务目标，对异构无人机团队的任务分配、时序调度、载荷配置以及飞行模式切换方案进行规划，在满足无人机最大飞行时间、载重上限、载荷装载数量上限、载荷互斥等约束条件下，令无人机团队完成所有任务并使获取的任务收益最大化，同时最小化无人机团队的总飞行时间及时间窗惩罚。

因此，建立异构多无人机耦合任务规划问题的数学模型，包括优化目标函数以及相关约束条件。

1)优化目标函数

异构多无人机耦合任务规划模型的优化目标由三项子目标组成：总任务收益、总飞行时间与总时间窗惩罚。各优化目标项的计算公式如下：

其中，式(1)表示总任务收益，式(2)表示异构多无人机的总飞行时间。t_ij为无人机在任务T_i、T_j航段间的飞行时间；x_izh∈{0,1}为0-1决策变量，当无人机U_h装载载荷S_z执行任务T_i时，x_izh＝1，否则x_izh＝0；y_ijh∈{0,1}为0-1决策变量，如果无人机U_h依次执行任务T_i、T_j，则y_ijh＝1，否则y_ijh＝0。P_zi表示无人机装载载荷S_z执行任务T_i时获取的任务收益。

式(3)为所有任务的总时间窗惩罚，a_i代表任务T_i的时间窗上界，b_i代表任务T_i的时间窗下界。t_i为任务T_i的实际被执行时刻。总的优化目标由上述目标项加权获得，式(4)为其计算公式：

Maximize J＝e₁f₁-w₂f₂-w₃f₃ (4)

其中，J为总的优化目标，w₁、w₂、w₃为权重系数，用于调节三项优化目标之间的权重关系。

2)约束条件

其中，f_hz∈{0,1}与f_hz′∈{0,1}为0-1决策变量，若无人机U_h装载载荷S_z，则f_hz＝1，否则f_hz＝0。若无人机U_h装载S_z互斥载荷集合S′_z中的载荷，则f_hz′＝1，否则f_hz′＝0。

式(5)表示无人机U_h装载载荷的数量不允许超过其装载载荷数量的上限。式(6)表示异构无人机团队装载的载荷总和不超过载荷的总数。式(7)表示无人机U_h装载的载荷的总重量不超过其载重上限。式(8)表示互斥载荷不允许装载到同一无人机上。

其中，t_ih表示无人机U_h执行任务T_i的时刻，v_hk表示无人机U_h在飞行模式V_k∈V下的飞行速度。式(9)和(10)表示每个任务只允许被执行一次。式(11)和(12)表示所有无人机的路径应起始于基地及终止于基地。式(13)表示无人机U_h的飞行时间不能大于最大飞行时间的上限。

在建立上述异构多无人机耦合任务规划问题的数学模型后，提出一种基于知识与经验的启发式任务规划方法，以求解异构无人机集群的多子问题耦合任务规划问题，该方法提出了基于知识的邻域搜索结构以及基于经验的邻域搜索结构，设计了相关的知识提取方法以及经验累积方法。步骤二的求解过程主要包括：

步骤二一：进行运行参数的初始化；

根据本发明实施例，运行参数包括最大迭代次数

优化解集的数量

各优化解集中解的数量

提供优化经验的解的数量

学习率α，学习速度控制参数

退火初温θ₀，退温速度η^-，温度重置迭代次数κ，总任务收益权重系数w₁，总飞行时间权重系数w₂，时间窗惩罚系数w₃。

步骤二二：随机初始化

个初始解作为

个优化解集的搜索起点；

根据本发明实施例，通过四组对应的整数列表进行解的编码表示，分别为任务列表T_L、时序列表P_L、资源列表S_L以及模式列表V_L。

T_L＝[U(1)，U(2)，...，U(N)]为任务列表的编码形式，T_L确定了任务的分配方案，U(i)∈T_L代表执行任务T_i的无人机编号，N代表任务的数量，1≤U(i)≤N。

P_L＝[∑(1)，∑(2)，...，∑(N)]为时序列表P_L的编码形式，P_L确定了任务的时序优先级，∑(i)∈P_L代表任务T_i的优先级编号，1≤∑(i)≤N。

S_L＝[U(1)，U(2)，...，U(Z)]为资源列表S_L的编码形式，S_L确定了资源的分配方案，U(i)∈S_L代表装载资源S_i的无人机编号，N代表资源的数量。

V_L＝[T(1)，T(2)，...，T(N)]为飞行模式列表V_L的编码形式，V_L确定了飞行模式选择方案，T(i)∈V_L代表无人机执行任务T_i时的飞行模式编号。随机初始化过程中，上述四个列表的数值根据其取值范围被随机选取。

步骤二三：提取当前各优化解集搜索起点的先验知识，并通过基于知识引导的邻域搜索结构生成

个候选解；即为每个优化解集生成

个解，使得每个优化解集均具有

个候选解；

根据本发明实施例，遍历当前的

个解，提取当前

个解的先验知识；对于

个解中的任意一个解Γ，需提取其特征作为依据来引导后续的搜索方向，异构无人机集群多子问题耦合任务规划问题的先验知识包括无人机任务重分配概率

时序调度概率

资源重分配概率

以及飞行模式切换概率

四项，令T_h表示无人机U_h的已分配任务集合，|T_h|表示解Γ中无人机U_h被分配的任务数量。T(h，σ_i)表示无人机U_h执行的第i个任务，σ_i为其任务编号，1≤σ_i≤N_T。令G(h，σ_i)表示任务T(h，σ_i)的空间位置。则无人机U_h的飞行路线G(h)表示为：

无人机U_h的飞行航迹长度可通过下式求解：

S_h表示无人机U_h装载的资源集合，|S_h|表示无人机U_h装载资源的数量。

为无人机U_h装载的第z个资源，其中

为资源的编号，

则无人机U_h装载资源集合S_h执行按航迹G(h)执行任务T_h获得的总任务收益为：

其中

为无人机U_h装载资源

执行任务T(h，σ_i)获得的任务收益。对于任意无人机U_h，定义其任务收益-总航程比为：

对于任意无人机U_h，假设其执行的第j个任务T(h，σ_j)为任务T_i，即T(h，σ_j)＝T_i。T(h，σ_j-1)为T(h，σ_j)的前置任务。据此，定义任务T_i的任务收益-航段长度比为：

对于任意的资源S_z，假设其被任意的无人机U_h装载沿飞行路线G(h)执行任务集合T_h，则资源S_z的平均任务收益-重量比为：

令t_i表示任务T_i的实际开始时刻，任务T_i的时间窗为(a_i，b_i)，则对于任意的任务T_i，其时间窗惩罚为：

P_i(T_i，U_h)＝μ_e max(a_i-t_i，0)+μ_l max(t_i-b_i，0) (20)

无人机任务重分配概率

根据当前解Γ的任务收益-总航程比计算，对于任意无人机U_h∈U，任务收益-航程比代表了其任务收益的获取效率，如果无人机U_h的任务收益-航程比较低，则代表其飞行航程过长，或者其从某些任务处获得的任务收益较低。对无人机U_h的任务进行重分配可以降低其飞行航程并调整其任务集合T_h。据此，令无人机U_h的任务收益-航程比越小，则其任务重分配概率

越大，

计算如下：

式中，m表示任务总数。

时序调度概率

根据当前解Γ的任务收益-航段长度比计算，对于任意任务T_i∈T，任务收益-航段长度比代表了该无人机从该任务获取的实际收益。如果任务T_i的任务收益-航段长度比较低，则代表为了执行该任务，无人机飞行的航程过长，对任务T_i的时序进行调度，有较大概率缩短总飞行航程，提高任务T_i的实际收益。据此，令任务T_i的任务收益-航段长度比越小，则其时序调度的概率

越大，

计算如下：

资源重分配概率

根据当前解Γ的平均任务收益-重量比计算。对于任意资源S_z∈S，平均任务收益-重量比代表了无人机任务集合与装载资源的适配程度。如果资源S_z的平均任务收益-重量比较低，则代表资源S_z在当前飞行路线上获取任务收益的效率较低，对资源S_z进行重分配有较大概率，提高总的任务收益。据此，令资源S_z的平均任务收益-重量比越小，则其重分配的概率

越大，

计算如下：

飞行模式切换概率

根据当前解Γ的时间窗惩罚计算。对于任意任务T_i∈T，其时间窗惩罚与任务时序以及飞行模式相关，调整访问任务T_i的飞行模式，有较大概率可以减小时间窗的惩罚。据此，令其时间窗惩罚越大，则其飞行模式切换概率

越大，

计算如下：

然后，根据无人机任务重分配概率

时序调度概率

资源重分配概率

以及飞行模式切换概率

驱动基于知识引导的邻域搜索结构生成

个候选解；本发明针对任务分配、时序调度、资源配置以及飞行模式选择四个子问题，设计了四种对应的基于知识引导的邻域搜索结构：

1)任务分配邻域结构：根据轮盘赌方法基于各个无人机的任务重分配概率

选择无人机U_h，在不违反无人机最大飞行时间约束的条件下，随机选择无人机U_h任务集合中的一项任务T_i，为U(i)∈T_L重新分配一个无人机编号。

2)时序调度邻域结构：根据轮盘赌方法基于各个任务的时序调度概率

选择任务T_i，在不违反无人机最大飞行时间约束的条件下，随机选择任务T_j，置换∑(i)与∑(j)的优先级顺序。

3)资源配置邻域结构：根据轮盘赌方法基于各个资源的重分配概率

选择资源S_z，在不违反无人机载重约束条件下，随机选择资源S_k。置换U(z)与U(k)的无人机编号。

4)飞行模式选择邻域结构：根据轮盘赌方法基于各个无人机的飞行模式切换概率

选择无人机U_h，在不违反无人机最大飞行时间约束的条件下，随机选择一个其负责执行的任务T_i，若T_i的时间窗惩罚是因早于期望时间窗(a_i，b_i)，则将V_k∈V_L切换为一个速度较小的飞行模式，否则为其切换一个速度较大的飞行模式。

步骤二四：利用贪婪算法从

个优化解集的解中选择目标值最高的解作为

个优化解集新的搜索起点；具体为：计算全部候选解的目标函数值，遍历当前

个优化解集，遍历过程中利用贪婪算法从当前优化解集的

个候选解中选择一个目标值最高的解，作为该优化解集新的搜索起点。

步骤二五：根据当前各优化解集的搜索起点，通过基于经验引导的邻域搜索结构生成

个候选解；

根据本发明实施例，具体过程如下：

计算第一累积经验概率

第二累积经验概率

以用于驱动基于经验引导的邻域搜索结构。其中第一累积经验概率

第二累积经验概率

在迭代过程中逐步累积，其累积方式相同。

第一累积经验概率

计算过程如下：

的初始值设置如下：

其中N_M为无人机的数量。式(25)表示在第一次迭代过程中对于任意的任务T_i∈T，所有无人机的被选择的概率相同。第一累积经验概率

第二累积经验概率

在每轮迭代的过程中进行更新，累积经验概率从

个当前最优解中获得，其经验累积方程如下：

第二累积经验概率

计算过程如下：

设置初始值为无人机数量的倒数；

在每轮迭代过程中按照下述公式进行更新：

其中：g为当前迭代次数，α为学习率。

否则

否则

学习率α为经验累积的关键性超参，通过固定α值进行经验累积，往往会造成经验的振荡。因此，通过分数减缓的方式对学习率进行动态调整：

其中

为减缓速率控制参数，其控制学习率的减缓幅度。第一累积经验概率

第二累积经验概率

将驱动基于经验引导的搜索结构，通过优化经验引导算法的搜索方向。

遍历当前

个优化解集的搜索起点，对于任意一个起点，根据第一累积经验概率

第二累积经验概率

驱动基于经验引导的邻域搜索结构围绕该起点生成1个候选解；其中基于经验引导的邻域搜索结构具有两种形式：

1)任务分配邻域搜索结构：随机选择任务T_i，根据累计经验集提供的各无人机被选择的概率

在不违反无人机最大飞行时间约束的条件下，为U(i)∈T_L重新分配一个无人机编号。

2)资源配置邻域搜索结构：随机选择资源S_z，，根据累计经验集提供的各无人机被选择的概率

选择无人机U_h，随机选择U_h装载的资源S_k，在不违反无人机载重约束条件下，置换U(z)与U(k)的无人机编号。

步骤二六：基于全局更新方法从

个候选解中选出

个解作为下一轮迭代过程中

个优化解集的搜索起点；

根据本发明实施例，所述全局更新方法引入了退火机制，使得次优解有一定概率被接受，以避免问题过早的收敛到局部最优解。

令R_b为当前的最优解，R_n为当前次优解。则当前次优解被接受的概率为：

式中，θ为温度系数，f(.)为适应度函数，将参数θ的初始值设置为θ₀，其将会在每轮迭代中以η^-的速率下降，如果经过κ轮迭代，当前的最优解没有获得改进，则θ值被重新设置为θ₀。

步骤二七：判断迭代次数是否达到上限，若达到则运行结束，输出当前最优规划方案；否则转至步骤二三。

根据本发明实施例，最优规划方案为：计算最后一次迭代中步骤二六所获得的

需要说明的是，驱动基于知识或基于经验引导的邻域搜索结构生成最优解的步骤可互换顺序，即可先驱动基于经验引导的邻域搜索结构生成最优解，再驱动基于知识引导的邻域搜索结构生成最优解。

进一步采用以下仿真实验验证本发明的技术效果。

为支撑算法的仿真有效性验证与性能测试，通过仿真生成12个代表大、中、小问题规模的测试用例。表1中概括了12个算法测试用例的典型特征，其中用例1～4为小规模问题测试用例，用例5～8、9～12分别为中、大规模测试用例。KEG-HPA为本发明方法即基于知识与经验的无人机集群任务规划方法的英文缩写。为了验证本发明方法的性能，开发了随机搜索算法(RSM)、基于知识的搜索算法(KG-HPA)、基于经验的搜索算法(EG-HPA)三种算法用以对比测试，以说明基于知识、经验搜索阶段的引导有效性，以及算法整体的性能。

KG-HPA相比于KEG-HPA，其在基于经验引导的搜索阶段通过随机邻域搜索结构进行搜索其他算法机制及运行参数与KEG-HPA保持一致；EG-HPA相比于KEG-HPA，其在基于知识引导的搜索阶段通过随机邻域搜索结构进行搜索其他算法机制及运行参数与KEG-HPA保持一致；RSM相比于KEG-HPA，其在知识与经验引导的搜索阶段通过随机邻域搜索结构进行搜索，其他算法机制及运行参数与KEG-HPA保持一致。KEG-HPA算法运行参数见表2。

表1 测试用例

表2 KEG-HPA算法运行参数

设置算法测试用例1～4的任务区域尺寸为5000m×5000m，测试用例5～8的任务区域尺寸为8000m×8000m，测试用来9～12的任务区域尺寸为12000m×12000m。任务坐标在区域内随机生成，且服从均匀分布，接近航向角在[-180°，180°]范围内随机选取。设置各个测试用例中，所有无人机最多可装载4个资源。令第一架无人机的载重上限为200kg，后续无人机依次递增50kg，第一架无人机的最大飞行时间为1000s，后续无人机依次递增200s。设置各个测试用例中有Ⅰ、Ⅱ、Ⅲ、Ⅳ四型资源，设置Ⅰ型资源的任务收益获取概率为1，Ⅱ型、Ⅲ型及Ⅳ型资源的任务收益获取概率分别为0.8，0.6与0.4。各型资源获取的任务收益值服从以下独立分布，设置任务收益值在区间[30，45)范围内的概率值为0.1，即P(30≤p_i＜45)＝0.1，类似地，设置其他区间的任务收益值获取概率为P(45≤p_i＜60)＝0.2，P(60≤p_i＜90)＝0.3，P(90≤p_i＜120)＝0.4。设置Ⅰ、Ⅱ、Ⅲ、Ⅳ型资源的重量值分别为120kg、90kg、80kg与40kg。与此同时，无人机装载Ⅰ、Ⅱ、Ⅲ、Ⅳ型资源下降的最大飞行时间分别为120s、60s、80s与45s。设置资源集合中任意两个资源的互斥概率为10％。算法测试用例中无人机的标准飞行模式为18m/s，后续飞行模式依次递增4m/s。当无人机以标准飞行模式飞行时，最大飞行时间保持不变，当无人机以第二个飞行模式飞行每百米，无人机的最大飞行时间下降5s，后续依次递增2.5s。通过单次随机仿真进行生成任务时间窗，随机生成任务分配、飞行模式与时序调度方案，根据算法测试用例中带时间窗约束的任务数量，随机选取任务，记录被访问时间time_i，设置时间窗宽度为[-50，50]s，即对于任务T_i，其时间窗约束设置为[time_i-50，time_i+50]。

为了测试KEG-HPA在不同规模任务规划问题中的优化效果，选取测试用例#1、#5、#9作为性能对比测试用例，运行100次KEG-HPA、RSM、EG-HPA、KG-HPA算法，设置迭代次数上限为500，进行优化效果的对比。图2、图3、图4为四种算法在小、中、大规模测试用例中的平均收敛效果对比图。其中E(·)为平均值函数，J_k/J₀为第k次迭代的最优目标值J_k与初始目标值J₀的比值，

J_k/J₀记录了算法单次运行时每次迭代的最优目标值与初始值的比值，其反映了单次运行时算法的优化效果。E(J_k/J₀)代表100次运行算法的平均优化效果。

根据图2、图3、图4可知，KEG-HPA算法在小、中、大规模测试用例中的平均优化效果明显优于其他三种算法。其中，在小规模测试用例#1中，KEG-HPA算法的最优目标值相较于初始目标值平均提升了139.83％，RSM算法平均提升122.35％，EG-HPA平均提升132.25％，KG-HPA平均提升131.45％。在中规模测试用例#5中，KEG-HPA算法的最优目标值相较于初始目标值平均提升了160.23％，RSM算法平均提升132.23％，EG-HPA平均提升148.99％，KG-HPA平均提升157.24％。在大规模测试用例#9中，KEG-HPA算法的最优目标值相较于初始目标值平均提升了177.55％，RSM算法平均提升142.42％，EG-HPA平均提升161.62％，KG-HPA平均提升164.11％。

图5为KEG-HPA、RSM、EG-HPA、KG-HPA算法的平均运行时间对比图，KEG-HPA运行时间范围为49.63s～36.99s，平均运行时间为43.31s。RSM、EG-HPA、KG-HPA算法的平均运行时间分别为38.23s，35.32s，24.54s。从运行时间角度而言KEG-HPA算法的运行时间略高于其他三种算法，其差异并不显著，然而KEG-HPA算法的优化效果显著地优于其他三种算法，并且KEG-HPA算法在运行约前100次既可以快速收敛至一个较优的解，KEG-HPA算法的运行时间可以被接受。

为了进一步测试KEG-HPA算法在涉及不同数量任务、传感器、飞行模式的任务场景下算法优化性能的稳定性，选取全部测试用例#1～#12通过蒙特卡洛仿真进行稳定测试。对于每个测试用例KEG-HPA、RSM、EG-HPA、KG-HPA被运行50次。

图6为小规模测试用例KEG-HPA、RSM、EG-HPA、KG-HPA算法的最优目标值分布。从图6可以发现，在测试用例#1～#4中，KEG-HPA算法生成的最优目标值分布优于其他三种算法，但相差幅度较小，四种算法的搜索性能差距体现的不明显。但KEG-HPA算法的优化效果始终由于其他三种算法。证明了KEG-HPA算法在小规模问题场景下优化效果的稳定性。

图7为中规模测试用例KEG-HPA、RSM、EG-HPA、KG-HPA算法的最优目标值分布。从图7可以发现，在测试用例#5～#8中，KEG-HPA算法生成的最优目标值分布明显优于其他三种算法。证明了KEG-HPA算法在中等规模问题场景下优化效果的稳定性。

图8为大规模测试用例KEG-HPA、RSM、EG-HPA、KG-HPA算法的最优目标值分布。从图8可以发现，在测试用例#9～#12中，KEG-HPA算法生成的最优目标值分布明显优于其他三种算法。证明了KEG-HPA算法在大等规模问题场景下优化效果的稳定性。

通过算法性能稳定性测试可以发现KEG-HPA算法对于问题规模、无人机数量、任务数量、飞行模式数量等因素的影响并不敏感。KEG-HPA具备在不同问题规模与问题特点场景下的搜索稳定性。

本发明另一实施例提出一种基于知识与经验的无人机集群任务规划系统，该系统包括：

Maximize J＝w₁f₁-w₂f₂-w₃f₃

各个优化解集中解的数量

步骤二二、初始化

个初始解作为

步骤二三、提取当前

个解，使得每个优化解集均具有

步骤二四、计算全部候选解的目标函数值，遍历当前

个优化解集，遍历过程中利用贪婪算法从当前优化解集的

个候选解；

步骤二六、基于全局更新方法从

个候选解中选出

个解作为下一轮迭代过程中

个优化解集的搜索起点；

本发明实施例一种基于知识与经验的无人机集群任务规划系统的功能可以由前述一种基于知识与经验的无人机集群任务规划方法说明，因此系统实施例未详述部分，可参见以上方法实施例，在此不再赘述。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于知识与经验的无人机集群任务规划方法，其特征在于，包括以下步骤：

步骤一、建立异构多无人机耦合任务规划问题的数学模型；所述数学模型包括优化目标函数及约束条件，其中，所述优化目标函数为最大化J：

Maximize J＝w₁f₁-w₂f₂-w₃f₃

所述约束条件包括：每个无人机装载载荷的数量不超过其装载载荷数量的上限；异构多无人机团队装载的载荷总和不超过载荷的总数；每个无人机装载的载荷的总重量不超过其载重上限；互斥载荷不允许装载到同一无人机上；每个任务只允许被执行一次；所有无人机的路径起始于基地及终止于基地；每个无人机的飞行时间不大于最大飞行时间的上限；

步骤二、基于知识与经验的任务规划方法对所述数学模型求解，使得异构多无人机团队在满足多个约束条件下，完成所有任务的同时获取的任务收益最大化，且总飞行时间及总时间窗惩罚最小；具体过程包括：

各个优化解集中解的数量

步骤二二、初始化

个初始解作为

个优化解集的搜索起点；

步骤二三、提取当前

个解，使得每个优化解集均具有

个候选解；

步骤二四、计算全部候选解的目标函数值，遍历当前

个优化解集，遍历过程中利用贪婪算法从当前优化解集的

个候选解；

步骤二六、基于全局更新方法从

个候选解中选出

个解作为下一轮迭代过程中

个优化解集的搜索起点；

2.根据权利要求1所述的一种基于知识与经验的无人机集群任务规划方法，其特征在于，步骤二中优化解集中的每个解通过四组对应的整数列表进行编码表示，分别为确定任务分配方案的任务列表T_L、确定任务时序优先级的时序列表P_L、确定资源分配方案的资源列表S_L以及确定飞行模式选择方案的模式列表V_L。

3.根据权利要求2所述的一种基于知识与经验的无人机集群任务规划方法，其特征在于，步骤二三中所述先验知识包括无人机任务重分配概率、时序调度概率、资源重分配概率以及飞行模式切换概率；其中，

无人机任务重分配概率

的计算公式为：

式中，Q_h(T_h,S_h,G(h))表示无人机U_h的任务收益-总航程比，代表了任务收益的获取效率；T_h表示无人机U_h的已分配任务集合，S_h表示无人机U_h装载的资源集合，G(h)表示无人机U_h的飞行路线；Q_i(S_h,T(h,σ_j),T(h,σ_j-1))表示任务T_i的任务收益-航段长度比，代表了无人机从该任务获取的实际收益；T(h，σ_j)＝T_i，T(h，σ_j-1)为T(h，σ_j)的前置任务，σ_j为任务编号；m表示任务总数；

时序调度概率