CN115268493A

CN115268493A - 基于双层强化学习的大规模多无人机任务调度方法

Info

Publication number: CN115268493A
Application number: CN202210880483.3A
Authority: CN
Inventors: 伍国华; 毛晓
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-11-01

Abstract

本发明公开了一种基于双层强化学习的大规模多无人机任务调度方法，包括如下步骤：建立多无人机任务路径规划数学模型，并基于多无人机任务路径规划数学模型建立马尔可夫决策过程；构建包括上层模型和下层模型的分而治之框架，上层模型为基于Transformer模型的深度强化学习模型，用于处理多无人机任务分配；下层模型为基于注意力机制的深度强化学习模型，用于规划每个无人机的可行任务路径；采用交互式训练方法训练上层模型与下层模型；基于训练后的双层强化学习模型对大规模多无人机任务进行调度。本发明应用于无人机调度领域，能够有效地应用于大规模多无人机任务调度问题中，并且具有良好的泛化性。

Description

基于双层强化学习的大规模多无人机任务调度方法

技术领域

本发明涉及无人机调度技术领域，具体是一种基于双层强化学习的大规模多无人机任务调度方法。

背景技术

无人机由于具有体积小、灵活度高、机动性强等特点而被广泛应用于物流配送、搜索巡逻、目标跟踪、抢险救灾等多个领域中。随着任务规模及复杂程度的扩大，单架无人机难以满足任务需求，因此多无人机协同任务执行逐渐替代单无人机成为复杂场景下执行特定任务的主要方式。作为多无人机系统协同任务执行的基础，任务调度成为保证多无人机任务安全高效执行的关键。

作为多旅行商问题(Multiple Traveling Salesman Problem，M-TSP)的变种，多无人机任务调度问题是一类需要在诸如旅行距离、时间窗以及平台能力等约束下进行求解的组合优化问题。研究人员通常将该问题构建为一个混合整数规划模型，并设计精确算法和启发式算法进行求解。

精确算法，如分支定界法、分支定界法、列生成以及动态规划法，能够在小规模问题中获得问题的最优解，但由于计算时间呈指数级增长，其由于穷举搜索而难以求解大规模问题。启发式算法，如遗传算法(Genetic Algorithm，GA)、蚁群算法(Ant ColonyOptimization，ACO)、粒子群算法(Particle Swarm Optimization，PSO)、模拟退火算法(Simulated Annealing Algorithm，SA)等通过精心设计的启发式规则能够有效缩减搜索空间从而能够在更短的时间内求解问题，能够满足大规模问题求解需。例如，Ye等人开发了具有多类型染色体编码方案和自适应操作的遗传算法，用于有效进行解空间的搜索。Shang等人结合GA和ACP提出了一种GA-ACO混合算法，其中在种群进化过程中，GA种群中较差的个体被ACO中较优个体替换。Chen等人设计了一种transposition and extension操作，然后提出了一种改进的两部分狼群搜索算法。然而，启发式算法需要基于先验知识手动设计启发式规则，可能难以获得高质量的解。此外，这些方法从整体上直接生成任务调度方案，即每架无人机的任务执行顺序，这进一步加剧了这些方法求解大规模问题的难度。

当前，为了解决大规模多无人机任务调度问题，一些研究将原始问题分解成多个子问题，并通过传统启发式方法对子问题进行求解。通过这一问题分解方法问题的复杂度得到有效降低，能够更好的解决大规模问题。然而，需要人为设计的启发式规则仍然是限制这些方法的主要因素。随着深度学习(Deep Learning，DL)和强化学习(ReinforcementLearning，RL)的蓬勃发展，深度强化学习(Deep Reinforcement Learning，DRL)被广泛的使用在游戏、机器人以及自然语言处理等领域。近年来，DRL也被用于求解组合优化问题(Combinatorial Optimization Problems，COP)，如车辆路径问题(Vehicle RoutingProblem，VRP)、旅行商问题(Traveling Salesman Problem，TSP)以及定向问题(Orienteering Problem，OP)。DRL能够自主学习到相应的决策策略并快速生成针对问题的高质量解而无需人为干预。但当问题规模扩大时，其决策空间快速增大，使得模型在训练过程中难以稳定收敛。

发明内容

针对上述现有技术中的不足，本发明提供是一种基于双层强化学习的大规模多无人机任务调度方法，能够有效地应用于大规模多无人机任务调度问题中，并且具有良好的泛化性。

为实现上述目的，本发明提供一种基于双层强化学习的大规模多无人机任务调度方法，包括如下步骤：

步骤1，建立多无人机任务路径规划数学模型，并基于多无人机任务路径规划数学模型建立由四元组构成的马尔可夫决策过程；

步骤2，构建包括上层模型和下层模型的分而治之框架，其中：

所述上层模型为基于Transformer模型的深度强化学习模型，用于处理多无人机任务分配，即为每个任务选择合适的无人机；

所述下层模型为基于注意力机制的深度强化学习模型，用于规划每个无人机的可行任务路径；

步骤3，采用交互式训练方法训练所述上层模型与所述下层模型；

步骤4，基于训练后的双层强化学习模型对大规模多无人机任务进行调度。

本发明提供的一种基于双层强化学习的大规模多无人机任务调度方法，设计了一个分而治之框架将原始问题分解为任务分配和无人机任务规划子问题，并分别在上下两层进行求解。基于分而治之框架，相较于原始问题，每个子问题的决策空间有效的减小了，因此本发明基于双层强化学习(Double-layer Deep Reinforcement Learning Approach,DL-DRL)来解决大规模无人机任务调度问题。其中，DL-DRL包含两个基于编码器-解码器框架所构建的强化学习模型，分别为上层模型和下层模型。上层模型用于规划任务分配子问题，其中设计了一个无人机选择解码器；将最先进的基于DRL的注意力模型(AM)作为下层模型用于解决无人机路径规划子问题。与需要通过反复试错来学习目标/选项选择的分层强化学习方法不同，本发明提出的DL-DRL的目标是由分而治之框架预先确定的，因此只需要学习动作选择策略，从而降低了模型策略学习的难度。此外，用于DL-DRL中上下两层模型是相互影响的，即在模型训练过程中，下层模型的输入数据分布是由上层模型所决定的，而上层模型的奖励需要由下层模型计算获得。因此本发明采用交互式训练策略，整个训练过程包括预训练、密集训练和交替训练三个过程，使本发明能够快速有效收敛至较好效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例中大规模多无人机任务调度方法的流程图；

图2为本发明实施例中分而治之框架的结构图；

图3为本发明实施例中多无人机任务分配深度强化学习网络结构的示意图；

图4为本发明示例中模型训练结果图；

图5为本发明示例中模型收敛曲线图；

图6为本发明示例中消融实验结果图；

图7为本发明示例中无人机数量为4的场景下训练的模型泛化性能示意图；

图8为本发明示例中无人机数量为6的场景下训练的模型泛化性能示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示为本实施例公开的一种基于双层强化学习的大规模多无人机任务调度方法，包括如下步骤：

在具体实施过程中，建立多无人机任务路径规划数学模型的过程为：

获取当前无人机任务集合T＝{0,1,…,N}、无人机集合U＝{1,2,…,V}，其中，集合T中的0和N为无人机基地，所有无人机均从基地出发并返回基地，集合U中的V为无人机数量；

令x_ijk为0-1变量，其值为1表示第k架无人机从任务点i出发前往j点执行任务；

令y_ik为0-1变量，其值为1表示第k架无人机执行过任务i；

令z_ik为连续变量，表示第k架无人机到达任务点i时所剩余的航程大小；

针对多无人机任务路径规划问题，在无人机在执行任务过程中不能超过其最大航程的基础上，以所有无人机所执行的任务数量最大为目标，建立多无人机任务路径规划数学模型，为：

z_ik-z_jk+D·x_ijk≤D-d_ij,i≠j∈{0,1…,N},k∈{1,2…,V} (7)

0≤z_ik≤D-d_i0,i∈{1,2,…,N},k∈{1,2,…,V} (8)

其中，D为无人机最大航程，式(1)表示目标函数为所有无人机所执行的任务数量最大；式(2)、(3)和(4)表示所有任务最多只能被执行一次；式(5)表示所有无人机均由基地出发并返回基地；式(6)表示每架无人机的总航程需小于其最大航程；式(7)和(8)用于避免子路径的产生。

为了降低大规模多无人机任务调度问题的复杂性，本实施例基于分而治之原则将原问题划分为任务分配和无人机路径规划两个子问题。如图2所示，构建了包括上层模型和下层模型的分而治之框架，其中，上层模型为基于Transformer模型的深度强化学习模型，用于处理多无人机任务分配，即为每个任务选择合适的无人机；下层模型为基于注意力机制的深度强化学习模型，用于规划每个无人机的可行任务路径。然后基于初始场景，在上层模型中生成任务子集并分配给相应的无人机。之后，每个无人机根据其分配的任务在下层模型执行无人机路径规划过程。

基于分而治之框架，本实施例提出了一种有效解决多无人机任务调度问题的双层强化学习(Double-layer Deep Reinforcement LearningApproach,DL-DRL)方法，其中上层模型和下层模型分别使用两种不同的DRL模型。在上层构建了一个用于任务分配的上层DRL模型来为每个任务选择合适的无人机。在下层，使用一个路径规划的下DRL模型来规划每个无人机的可行任务路径。通过上下两层的结合，可以有效解决多无人机任务调度问题，同时该框架可用于如M-TSP、OP等其他组合优化问题。

在利用强化学习对多无人机任务路径规划问题进行求解的过程中，需要构建由四元组构成的马尔可夫决策过程建立四元组构成的马尔可夫决策过程，即马尔可夫决策过程M＝(S,A,P,R)，其中，S为状态空间、A为动作空间、P为状态转移规则、R为奖励函数，马尔可夫决策过程具体如下：

状态

分为两部分，其中，

为时间步t时已经被分配的任务集合，

为第i架无人机在时间步t时所分配任务子集合；

为时间步t时所需要进行分配的任务点二维坐标，对应任务集合中的第i个元素，即x_i；

动作

表示为当前任务点分配相应的无人机，即将任务点

分配给无人机u_i去执行；

状态转移规则表示在当前状态s_t下执行动作a_t后，则按照一定的规则转移到下一个时刻的状态s_t+1，即

V_t+1内部元素和

的更新为：

式中，[,]为向量连接，

为

中的最后一个元素，即为时间步t时无人机u_j所被分配到的最后一个任务点，如此处理即可保证所有无人机的任务子集维度相等，便于进行后续进行批处理；

奖励是针对于整个多无人机任务规划问题而言，其目标函数为最大化任务执行数量，因此本实施例中将奖励函数定义所有无人机所执行的任务总数量，即

其中T_i为第i架无人机所执行的任务数量。

由于Transformer模型相比起传统的LSTM、GRU等模型，可以更好地建模并处理序列数据，因此其被广泛的应用在自然语言处理、计算机视觉、推荐算法、组合优化问题当中。Transformer模型基于编码器-解码器框架并通过使用注意力机制将序列中的任意两个位置之间的距离缩小为一个常量，从而具有更好的并行性。因此本实施例中上层模型为基于Transformer模型的深度强化学习网络结构，用于处理多无人机的任务分配，即图3所示。

Transformer模型的深度强化学习模型包括编码器与解码器。

在编码器中，通过将输入的节点信息(即无人机基地和所有任务点的坐标)映射到高维空间，并经过多层注意力层来对其特征进行提取。对于输入数据，首先通过线性层将其映射至高维空间(本实施例中取128维)并整合，得到节点嵌入h⁰，再通过L个注意力层对h⁰进行处理，来得到解码器输入数据的特征表示，其中，每个注意力层包含一个多头注意力(MHA)层和一个feed-forward(FF)层。其中，得到解码器输入数据的特征表示的过程具体为：

令h^l为第l个注意力层的输出，在第l个注意力层中，MHA层基于多头注意力机制，根据输入的嵌入信息

产生query向量、key向量以及value向量，query向量、key向量、value向量的维度

其中M＝8为MHA中注意力机制的头数；接着根据得到的query向量、key向量以及value向量通过softmax计算权重信息从而得到每一头注意力的输出Y_lm；最后将各头注意力的输出进行拼接得到融合提升后的各节点嵌入，并经过残差网络和批标准化(batchnormalization，BN)后得到初步的节点嵌入

其具体计算过程为：

式中，q_lm为query向量，k_lm为key向量，v_lm为value向量，

分别为第l个注意力层中针对第m头的query向量、key向量、value向量的独立网络训练参数，W_l ^O为第l个注意力层中独立的网络训练参数；

经过MHA层处理后的节点嵌入传递到feed-forward(FF)层，经过两个线性层和Relu激活函数，并同样经过残差网络(skip-connection)和批标准化(batchnormalization，BN)得到最后的节点嵌入h^l，即：

经过L个注意力层的处理后得到最终节点嵌入h^L，即解码器输入数据的特征表示。

在解码器中，主要是为当前的任务节点选择对应的无人机，并将该任务节点加入其任务子集当中。具体而言，通过对已分配任务方案进行嵌入并和当前节点嵌入进行结合处理来实现无人机的选择，其中已分配任务方案是指所有无人机的当前被分配任务节点集合，对于每一架无人机而言，其对应的特征表示为

其中

为无人机u_i的第j个任务节点在节点嵌入h^L中对应的值；接着将所有无人机的已分配任务节点集合特征表示经过最大化池(max-pooling)处理得到最大特征表示

后并进行连接得到整个所有无人机的任务子集上下文向量

并经过一个线性层后再经过FF层处理得到最终的任务子集嵌入

其具体计算过程为：

为了得到当前任务节点所对应的无人机编号，将

与当前任务节点在h^L中对应的嵌入

进行连接，并通过权重矩阵和残差分别为W₂和b₂的线性层和softmax得到针对当前被分配任务节点下各架无人机的选择概率，通过贪婪或采样的策略进行无人机编号的选取，其中，选择概率为：

式中，p_t为选择概率，h^L为编码器输出，

为时间步t时所处理节点的嵌入。

本实施例中，对于下层模型，直接采用文献W.Kool,H.van Hoof,and M.Welling,“ATTENTION,LEARN TO SOLVE ROUTING PROBLEMS！,”presented at the InternationalConference on Learning Representations,2019中所提出的基于注意力机制的深度强化学习模型(AM)，其具体实施过程均为现有技术手段，因此本实施例中不再对其进行赘述。

在上层与下层两个深度强化学习模型的具体训练中，本实施例采用在基于Transformer框架的DRL模型上有良好表现得带基线的REINFORCE策略梯度方法。由于本实施例基于分而治之框架构建的上下两层深度强化学习模型相互之间具有很强的依赖性，即下层模型的输入为上层模型的输出，同时上层模型中任务分配方案取得的最终结果(即奖励值)是由下层模型通过执行该分配方案所得到的。因此在训练上下两层模型时，本实施例提出了一种交互式训练方法来训练上下两层模型，以使得各个模型学习到更加具有针对性的策略。其梯度计算公式为：

其中，

为损失函数梯度，θ为策略网络参数，s为状态，

为基于训练模型策略下后面[]内的均值，p_θ(π|s)为训练模型的策略，L(π)、L(π^BL)分别为训练模型和基线模型的成本函数。本实施例中基线采用greedyrolloutpolicy，并在每一个epoch训练完成后比较训练模型与基线模型，若所训练的模型有显著改进，则将基线模型中的网络参数替换为当前训练网络的参数，由此来减小梯度的方差并加快训练速度。

在对分层模型进行训练时，首先对下层模型进行预训练，以使得其学习到一定的路径规划策略，避免后续训练出现较大震荡的情况；接着基于当前下层所训练得到的模型进行上层模型的训练，此时下层模型固定不变，只进行上层模型的训练过程；当上层模型训练完一定周期数后，由当前上层模型生成下层模型训练数据进行下层模型的训练，依次交替进行上下层模型训练直至训练完毕。

本实施例中上层模型与下层模型的交互训练存在两个阶段，一是在上层模型刚开始训练时，为了让其快速学习到一定的求解策略，采用密集训练，当上层模型训练完E_c个周期后，进行下层模型的训练；二是在上下两层模型已学习到一定的求解策略后，进行单步交替训练以进一步提升模型求解效果。同时根据上层模型生成下层模型训练数据时，由于数据生成是按照一定的无人机顺序而产生，因此需要将所生成的数据集内的样本进行打乱后传递至下层进行下层模型训练。

下面结合具体的算例对本发明作出进一步的说明。

为了验证本发明所提出的DL-DRL方法能够有效地学习到解决多无人机任务任务调度问题的高效策略，分别将其与精确求解器(Gurobi)、性能优越的启发式算法(OR-tools)、基于分而治之框架的方法(K-means+VND，K-means+AM)以及与DL-DRL框架相同但采用独立训练得方法(DL-DRL-I)进行对比。通过消融实验验证所提出的交互式训练策略的有效性。此外，为了探究所提出方法的泛化性能，将在现有场景下训练得到的模型运用到大规模实例当中，并同样进行对比实验，以此判断其泛化性能的好坏。

针对多无人机分任务路径规划问题，本示例在1×1的区域范围内以均匀分布随机生成无人机基地及客户点，考虑无人机数量分别为4、6以及客户点数量规模分别为80、100、150、200、300和500的情况，作为对比实验场景。其中80、100个客户点为小规模场景、150、200个客户点为中规模场景、300、500个客户点为大规模场景，以此展现各个对比算法在不同任务点规模下的求解效果，同时在各个场景下无人机的最大航程均取为2.0，编码器中多头注意力层数取为3。

本发明所提出的DL-DRL方法共包含任务分配和无人机路径规划两个不同的深度强化学习模型，其中任务分配过程的上层模型采用本实施例提出的模型，共训练100个epoch，每个epoch的训练实例大小为1,280,000，并将梯度范数裁剪至3.0以内，衰减系数取为0.995；无人机路径规划过程的下层模型采用Kool等在文献W.Kool,H.van Hoof,andM.Welling,“ATTENTION,LEARN TO SOLVE ROUTING PROBLEMS！,”presented at theInternational Conference on LearningRepresentations,2019所提出的基于注意力机制的深度强化学习模型(AM)，并将梯度范数裁剪至1.0以内，衰减系数取为1.0；学习率更新采用Adam优化器且初始学习率设置为10-4。在交互式训练过程中，下层模型首先基于均匀分布随机生成的数据进行预训练5个epoch，即E_p＝5，然后开始返回上层进行循环交替训练，其中intensive training epochs E_t取为10，针对无人机数量分别为4和6两类情况，上层模型的连续训练epoch数量E_c分别取为4和6，由此可以保证上下两层模型的训练数据量保持平衡，避免由于两个模型训练数据量相差过大而导致的模型过度震荡。

按照实验设置，针对不同场景训练DL-DRL模型。对于中小规模情况下的模型训练，使用单个具有24GB的RTX 3090GPU，而在大规模情况下使用两个GPU进行模型训练。对于每个训练周期而言，上层模型、下层模型和下层模型的数据生成时间如表1所示，其中“U4-80”表示该模型针对无人机数量为4，任务数量为80的场景进行训练。在模型训练过程之后，将训练模型的结果展示在图4，其中所有问题实例均为随机生成。从图4可以看出，训练模型可以在相应的情况下获得合理的解决方案。

表1每个周期的训练时长

此外，在图5中绘制了训练过程中上层和下层模型的学习曲线。纵坐标是成本值，它是执行任务总数的负数。因此，较低的成本值意味着更好的性能。从图5中，可以观察到两个现象：

1)对于下层模型，它在预训练过程中快速收敛，而在交互训练开始时成本值急剧增加。这种现象是由于预训练和交互训练的训练数据分布不同造成的，即前者是均匀分布，后者是由上层模型生成的；

2)对于上层模型，成本值在早期训练阶段有几个快速下降的过程。这是由于下层模型在密集训练过程中根据上层模型生成的训练数据学习到更好的策略，上层模型很快获得了良好的性能。

此外，由于状态和动作空间的扩大，学习曲线在大规模情况下波动更为明显，但是DL-DRL模型最终稳定收敛，表明本发明的模型已经学习了有效的策略。

为了证明本发明所提出的DL-DRL能够有效地解决多无人机任务路径规划问题，本示例将训练所得到的模型与其他算法进行对比。首先将本发明所提出的方法精确算法求解器Gurobi及性能优越的启发式算法OR-tools进行对比，来测试本发明所提出的框架方法在解决多无人机任务路径规划问题中所取得效果；接着与同样基于分而治之框架的任务聚类+路径规划方法，即K-means+VND与K-means+AM进行对比，其中AM即为下层模型，来测试在同样的框架下，本发明所提出的方法是否具有更加优异的性能。最后将采用独立训练的模型DL-DRL-I与采用交互式训练的模型进行对比，来测试本发明所提出的交互式训练对于模型效果的提升。在对比实验中，对于不同客户点数量规模分别生成500个实例进行测试，并取其结果平均值作为各个算法的对比实验结果，而对于Gurobi求解器，由于问题规模过大，其难以在可接受的时间内求解最优解，因此在进行对比时将其求解时间限制在1800s，求解30个实例，取其平均值作为对比实验结果。本发明模型训练及实验测试均在Intel Xeon(20核40线程)、RTX3090(24GB)，并采用多核心和GPU加速算法运行和模型训练。针对不同场景下的多无人机任务路径规划的对比实验结果如表2和表3所示(表2和表3中*Greedy表示强化学习模型在解码过程采用贪婪策略；Sampling表示强化学习模型在解码过程中通过解码128次采用并取其最优值作为最终结果的输出。)。这些表给出了不同无人机和任务数量场景下所有方法的平均目标值(Obj)、差距(Gap)和平均计算时间。

表2无人机数量为4时的对比实验结果

表3无人机数量为6时的对比实验结果

从表2和表3中可以看出，即使对于只有80个任务的场景，Gurobi也无法获得最优解。同时，无论使用哪种解码策略，本发明所提出的DL-DRL总能获得比Gurobi更好的解。

对于表2中无人机数量为4的场景中，很明显DL-DRL(Greedy)在求解效果和计算时间方面优于K-means+VND和K-means+AM，并且随着任务规模的增加，这种优势变得更加显著。对于具有相同网络架构的DL-DRL和DL-DRL-I，采样策略总是比贪心策略能够生成更好的解决方案，而且计算时间仅略有增加。DL-DRL(Greedy)优于DL-DRL-I(Greedy)和DL-DRL-I(Sampling)，这表明交互式训练策略能够有效提高模型性能。与最先进的启发式算法(即OR-Tools)相比，本发明的DL-DRL(Sampling)在任务最少的情况下求解效果方面稍然而，随着任务规模的增加，DL-DRL(Sampling)在求解效果和计算时间方面都优于OR-Tools，这表明了DL-DRL在解决大规模多无人机任务调度问题方面的强大能力。

在表3中，同样可以发现类似的结果。DL-DRL(Greedy和Sampling)优于K-means+VND、K-means+AM、DL-DRL-I(Greedy)和DL-DRL-I(Sampling)。同时，DL-DRL(Sampling)能够产生于OR-Tools有竞争力的结果。在不超过150个任务的情况下，DL-DRL(Sampling)在求解效果方面略逊于OR-Tools，但它的计算时间要短得多。当任务数量增加时，DL-DRL(Sampling)在求解效果和计算时间方面均优于OR-Tools。综上所述，DL-DRL的性能优于Gurobi、K-means+VND、K-means+AM和DL-DRL-I。同时，其在大规模情况下优于OR-Tools，并且在问题规模较小时能够以更短的计算时间生成与OR-Tools有竞争力的结果。

为了研究交互式训练策略中不同过程的影响，在具有4架无人机和80个任务的场景中构建了消融实验。模型训练采用不同的训练策略并记录训练过程中的成本值。图6展示了整个训练过程的成本值曲线，其中“ITS/X”表示从交互式训练策略中删除“X”过程的训练策略。例如，“ITS/密集”表示只包括预训练和交替训练过程的训练策略。

从图6中，可以看出预训练模型在交互式训练开始时表现更好(例如，“ITS”与“ITS/预训练”对比)。密集训练过程将收敛速度降低了几个周期(例如，“ITS/预训练”与“ITS/预训练和强化”对比)。但是对于每个训练周期，根据表1数据，下层模型的训练数据生成耗时远大于低层模型训练的耗时。密集训练过程可以跳过耗时的下层模型训练数据生成过程，从而有效地减少了整个训练时长。在模型的最终性能上，本发明所提出的交互式训练策略(ITS)与ITS/密集的性能相似，而ITS的整个训练时间比ITS/密集的训练时间要短得多，因为跳过了下层训练数据生成过程。从表1中可以看出，在大规模情况下，下层模型的训练数据生成可能需要几个小时。因此，本发明使用具有密集训练过程的ITS来加速整个训练过程，并且不会有性能的降低。

通过使用经过训练的模型来解决更大规模的问题，并将其与几个方法进行比较来验证所提出的DL-DRL方法的泛化性能。优于采样策略只需稍微增加计算时间即可获得更好的解决方案，因此采用DL-DRL(Sampling)用于评估泛化性能。首先使用训练好的DL-DRL模型来求解更大任务规模的问题，其结果如图7和图8所示。横坐标表示需要解决的问题，标签表示某个训练好的模型。例如，N-100表示问题的任务规模为100，U4-80表示针对无人机数量为4，任务规模为80的场景所训练的DL-DRL模型。

从图7可以看出，与针对其他任务规模训练的模型相比，针对特定任务规模所训练的模型在相应任务规模大小的问题上的表现最好。但是，其他模型的表现仍然优于K-means+VND、K-means+AM和DL-DRL-I，除了U4-80在求解任务数量大于或等于200的问题和U4-100在求解任务规模为500的问题。此外针对相近任务规模所训练的模型比更远任务规模所训练的模型表现更好(例如，U4-200和U4-300在解决具有500个任务的问题时表现优于U4-80、U4-100和U4-150)。这种现象可能是由数据分布的差异引起的，因为相近的任务规模可能导致任务位置的相似分布。在图8中也可以找到类似的观察结果，其中针对其他任务规模所训练的模型优于K-means+VND和K-means+AM，并且能够产生DL-DRL-I有竞争力的结果。

对于任务规模大于1000的更大规模的多无人机任务调度问题，从零开始训练模型是一件棘手的事情，这使得训练好的模型对于更大规模问题的泛化性能愈发重要。为了进一步研究提出的DL-DRL的泛化性能，在具有600、700、800、900和1000个任务的场景中将针对500个任务训练的DL-DRL模型与对比算法OR-Tools、K-means+AM和DL-DRL-I进行比较。表4展示了DL-DRL和对比算法的测试结果，包括求解效果(Obj)和平均计算时间。与K-means+AM和DL-DRL-I相比，DL-DRL在求解效果方面具有显着的优势，但计算时间又细微增长。对于OR-Tools，其计算时间随着任务规模的增长而迅速增加，DL-DRL在求解效果和计算时间方面都优于它。在所有场景中，本发明所提出的DL-DRL方法在所有场景中都取得了最好的整体性能，这证明了其出色的泛化性能。

表4模型泛化性实验测试结果

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于双层强化学习的大规模多无人机任务调度方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，步骤1中，所述建立多无人机任务路径规划数学模型，具体为：

令y_ik为0-1变量，其值为1表示第k架无人机执行过任务i；

在无人机在执行任务过程中不能超过其最大航程的基础上，以所有无人机所执行的任务数量最大为目标，建立多无人机任务路径规划数学模型，为：

z_ik-z_jk+D·x_ijk≤D-d_ij,i≠j∈{0,1…,N},k∈{1,2…,V} (7)

0≤z_ik≤D-d_i0,i∈{1,2,…,N},k∈{1,2,…,V} (8)

3.根据权利要求2所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，步骤1中，所述基于多无人机任务路径规划数学模型建立由四元组构成的马尔可夫决策过程，具体为：

建立四元组构成的马尔可夫决策过程为M＝(S,A,P,R)，其中，S为状态空间、A为动作空间、P为状态转移规则、R为奖励函数，马尔可夫决策过程具体如下：

状态

分为两部分，其中，

为时间步t时已经被分配的任务集合，

为第i架无人机在时间步t时所分配任务子集合；

动作

表示为当前任务点分配相应的无人机，即将任务点

分配给无人机u_i去执行；

V_t+1内部元素和

的更新为：

式中，[,]为向量连接，

为

奖励函数定义所有无人机所执行的任务总数量，即

其中T_i为第i架无人机所执行的任务数量。

4.根据权利要求3所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，步骤2中，所述Transformer模型的深度强化学习模型包括编码器与解码器。

5.根据权利要求4所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，在编码器中：

将无人机基地和所有任务点的坐标作为输入的节点信息，通过线性层将其映射到高维空间并整合，得到节点嵌入h⁰；再通过L个注意力层对h⁰进行处理，来得到解码器输入数据的特征表示，其中，每个注意力层包含一个MHA层和一个FF层。

6.根据权利要求5所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，所述得到解码器输入数据的特征表示，具体为：

产生query向量、key向量以及value向量；接着根据得到的query向量、key向量以及value向量通过softmax计算权重信息从而得到每一头注意力的输出Y_lm；最后将各头注意力的输出进行拼接得到融合提升后的各节点嵌入，并经过残差网络和批标准化BN后得到初步的节点嵌入

其具体计算过程为：

MHA(h^l-1)＝[Y_l1；Y_l2；...；Y_lM]W_l ^O (13)

式中，q_lm为query向量，k_lm为key向量，v_lm为value向量，

经过MHA层处理后的节点嵌入传递到FF层，经过两个线性层和Relu激活函数，并同样经过残差网络和批标准化得到最后的节点嵌入h^l，即：

7.根据权利要求4至6任一项所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，在解码器中：

通过对已分配任务方案进行嵌入并和当前节点嵌入进行结合处理来实现无人机的选择，其中已分配任务方案是指所有无人机的当前被分配任务节点集合，对于每一架无人机而言，其对应的特征表示为

其中

为无人机u_i的第j个任务节点在节点嵌入h^L中对应的值；接着将所有无人机的已分配任务节点集合特征表示经过最大化池处理得到最大特征表示

后并进行连接得到整个所有无人机的任务子集上下文向量

其具体计算过程为：

为了得到当前任务节点所对应的无人机编号，将

与当前任务节点在h^L中对应的嵌入

式中，p_t为选择概率，h^L为编码器的输出，

为时间步t时所处理节点的嵌入。

8.根据权利要求1至6任一项所述的基于双层强化学习的大规模多无人机任务调度方法，其特征在于，步骤3中，所述采用交互式训练方法训练所述上层模型与所述下层模型，具体为：

首先对下层模型进行预训练，以使得其学习到一定的路径规划策略，避免后续训练出现较大震荡的情况；接着基于预训练的下层模型进行上层模型的训练，此时下层模型固定不变，只进行上层模型的训练过程；当上层模型训练完一定周期数后，由当前上层模型生成下层模型训练数据进行下层模型的训练，依次交替进行上层模型与下层模型训练直至训练完毕。