CN116451934A

CN116451934A - 多无人机边缘计算路径优化与依赖任务调度优化方法及系统

Info

Publication number: CN116451934A
Application number: CN202310255675.XA
Authority: CN
Inventors: 魏祥麟; 赵框; 魏楠; 成洁; 王晓波; 范建华; 胡永扬; 王彦刚
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-07-18
Anticipated expiration: 2043-03-16
Also published as: CN116451934B

Abstract

本发明公开了一种多无人机边缘计算路径优化与依赖任务调度优化方法及系统，涉及无人机技术领域。所述方法包括如下步骤：任务场景建模；状态空间设置；动作空间设置；奖励函数设置；训练模型设计；调度模型训练和调度模型部署。所述方法寻路成功率高：能够在复杂的地形环境中，以很高概率找到起点到终点的路径；任务执行率高：在能量约束内，无人机边缘节点在移动过程中，可以尽量多的执行所经过网格的DAG任务，达到较高的任务执行率。

Description

多无人机边缘计算路径优化与依赖任务调度优化方法及系统

技术领域

本发明涉及无人机技术领域，尤其涉及一种多无人机边缘计算路径优化与依赖任务调度优化方法及系统。

背景技术

基于无人机良好的部署灵活性，无人机边缘计算期望将无人机作为边缘计算节点，为地面设备提供计算、传输和数据缓存服务，可以显著提升基础设施薄弱区域的计算能力，并应用于抢险救灾、军事通信等场景。地面移动设备可按需将计算任务卸载到无人机边缘节点，后者完成计算任务后，将结果返回到地面设备，从而在节约地面设备能量消耗的同时提升计算服务的时效性。为了提升服务覆盖范围和服务质量，多个无人机边缘节点共同为特定任务区域提供服务成为可行的新型计算范式。在此场景下，如何高效利用无人机平台有限的计算资源和电池供应是无人机边缘计算领域考虑的重点问题之一。

目前，业界在无人机边缘计算领域的优化调度方面已经开展了一些工作，例如申请号为202211168983.0的发明专利申请“一种无人机边缘计算网络中能效优化的任务卸载调度方法”，提供了一种无人机边缘计算网络中能效优化的任务卸载调度方法，通过对卸载决策、任务调度顺序、传输比特分配以及无人机轨迹进行联合优化，来最小化物联网移动设备的能量消耗；申请号为20221106470.7的中国发明专利申请“一种多无人机边缘计算网络中无人机部署与任务卸载方法”，通过对任务卸载决策、资源分配以及无人机位置与仰角进行联合优化，来最大化无人机的承载任务数；申请号202210268185.9的中国发明专利申请“一种无人机边缘计算网络线性依赖任务卸载方法”，通过对卸载决策、资源分配以及无人机轨迹进行联合优化，能够有效求得能源消耗的最优值，从而降低设备能耗；申请号2021210396239.X的中国发明专利申请“一种面向无人机多任务执行资源受限的协同处理方法”，基于多架具备智能边缘计算能力的无人机组成的目标检测系统，通过资源和任务综合决策规则，实现多架无人机之间目标检测任务的协同计算，解决了单一无人机执行多目标检测任务时面临的资源受限问题。但是，当前工作仍然存在如下不足：一是将任务作为单件模型执行，未考虑以有向无环图(Directed Acyclic Graph，DAG)表示的复杂依赖任务调度问题；二是较少考虑子任务与服务功能的对应关系，仅考虑子任务的计算能力需求，不考虑其对应服务功能所需的软件和数据环境；三是未联合考虑无人机轨迹规划、DAG任务调度和服务功能部署问题。

发明内容

本发明所要解决的技术问题是如何提供一种寻路成功率高且任务执行率高的多无人机边缘计算路径优化与依赖任务调度优化方法。

为解决上述技术问题，本发明所采取的技术方案是：一种多无人机边缘计算路径优化与依赖任务调度优化方法，包括如下步骤：

任务场景建模：根据任务区域的三维模型或场景的地理信息，构建二维地图模型，将任务区域按需分割成相同大小的若干个正方形网格，网格中包含任务编号，无人机执行对应网格任务后，对应网格转变为无任务状态，在场景中对无人机的飞行行为进行建模，其可以在不同网格间移动，所建场景用于离线的优化模型训练；

状态空间设置：设置全局状态和每个无人机的状态，全局状态为每个无人机状态的集合，每个无人机的状态包括4个部分：1)无人机当前位置和终点位置之间的距离；2)无人机的剩余能量；3)无人机上部署的服务功能(Service Functions,SF)；4)无人机所在网格中的DAG任务请求；

动作空间设置：设定每个无人机的动作，包含9种类型：上、下、左、右、左上、右上、左下、右下和悬停，分别表示移动到上方、下方、左方、右方、左上方、右上方、左下方、右下方的网格以及在当前网格悬停并执行该网格中的DAG任务，为了执行某个DAG任务，无人机需要部署该DAG任务所对应的服务功能，第i个无人机在第t时刻的动作表示为：

奖励函数设置：根据整体优化目标，为无人机的动作设计奖励，用于使有益于优化目标的动作得到奖励，并使得不利于优化目标的动作得到惩罚；

训练模型设计：将每个无人机看作智能体，根据多智能体深度强化学习框架，为其设计训练模型；

调度模型训练：采用多智能体强化学习方法进行调度模型训练，最大化累积其折扣奖励；

调度模型部署：将训练得到的各个无人机的原始网络模型加载到各个无人机上，作为其执行任务时进行动作选择的依据。

本发明还公开了一种多无人机边缘计算路径优化与依赖任务调度优化系统，包括：

任务场景构建模块：用于根据任务区域的三维模型或场景的地理信息，构建二维地图模型，将任务区域按需分割成相同大小的若干个正方形网格，网格中包含任务编号，无人机执行对应网格任务后，对应网格转变为无任务状态，在场景中对无人机的飞行行为进行建模，其可以在不同网格间移动，所建场景用于离线的优化模型训练；

状态空间设置模块：用于设置全局状态和每个无人机的状态，全局状态为每个无人机状态的集合，每个无人机的状态包括4个部分：1)无人机当前位置和终点位置之间的距离；2)无人机的剩余能量；3)无人机上部署的服务功能；4)无人机所在网格中的DAG任务请求；

动作空间设置模块：用于设定每个无人机的动作，包含9种类型：上、下、左、右、左上、右上、左下、右下和悬停，分别表示移动到上方、下方、左方、右方、左上方、右上方、左下方、右下方的网格以及在当前网格悬停并执行该网格中的DAG任务，为了执行某个DAG任务，无人机需要部署该DAG任务所对应的服务功能，第i个无人机在第t时刻的动作表示为：

奖励函数设置模块：用于根据整体优化目标，为无人机的动作设计奖励，用于使有益于优化目标的动作得到奖励，并使得不利于优化目标的动作得到惩罚；

训练模型设计模块：用于将每个无人机看作智能体，根据多智能体深度强化学习框架，为其设计训练模型；

调度模型训练模块：用于采用多智能体强化学习方法进行调度模型训练，最大化累积其折扣奖励；

调度模型部署模块：用于将训练得到的各个无人机的原始网络模型加载到各个无人机上，作为其执行任务时进行动作选择的依据。

采用上述技术方案所产生的有益效果在于：第一，寻路成功率高：能够在复杂的地形环境中，以很高概率找到起点到终点的路径；

第二，任务执行率高：在能量约束内，无人机边缘节点在移动过程中，可以尽量多的执行所经过网格的DAG任务，达到较高的任务执行率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法的流程图；

图2是本发明实施例所述方法中多无人机边缘计算场景示意图；

图3是本发明实施例所述方法中一个典型的DAG任务示意图；

图4是本发明实施例所述方法中一种可能的多智能体深度强化学习训练模型；

图5是本发明实施例所述方法中一种可能的无人机网络模型；

图6是本发明实施例所述方法中一种可能的无人机原始网络模型；

图7是本发明实施例所述方法中调度模型训练的步骤图；

图8是本发明实施例所述系统的原理框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明实施例公开了一种多无人机边缘计算路径优化与依赖任务调度优化方法，所述方法包括如下步骤：

S101：任务场景建模：根据任务区域的三维模型或场景的地理信息，构建类似图2所示的二维地图模型，将任务区域按需分割成相同大小的若干个正方形网格，网格中包含任务编号，无人机执行对应网格任务后，对应网格转变为无任务状态，在场景中对无人机的飞行行为进行建模，其可以在不同网格间移动，所建场景可以用于离线的优化模型训练；

所考虑场景的一个典型的二维地图模型如图2所示，其中3个无人机边缘节点部署在包含若干障碍物的任务区域中。任务区域被划分为若干大小相同的网格，每个网格中的数字表示该网格中包含的DAG任务的类型，每个DAG任务包含若干个相互依赖的子任务。每个无人机边缘节点初始位于自身的起点，其移动目的地是自身的终点。当无人机边缘节点移动到某个网格时，可以选择执行该网格中的DAG任务。为了执行给定的DAG任务，无人机边缘节点需要利用虚拟化技术，部署该DAG任务所包含子任务对应的服务功能。多个无人机边缘节点的整体目标是，在给定能量约束下，从起点飞行到终点，且在飞行过程中执行尽可能多的DAG任务，最小化所执行DAG任务的执行时间。在具体问题中，任务区域的大小、无人机的数量、起点、终点等可能不同。

进一步的，所述任务区域是指多个无人机需要执行任务的地理区域；所述正方形网格的大小可以根据无人机尺寸、地理区域的复杂程度、无人机飞行速度、每个网格中的DAG任务数量等因素联合确定，网格的对角线长度不应超过无人机单位时间内可以飞行的最大距离；所述优化模型是指每个无人机进行联合路径规划、任务调度和服务功能部署所采用的神经网络模型；

S102：状态空间设置：设置全局状态和每个无人机的状态，全局状态为每个无人机状态的集合，每个无人机的状态包括4个部分：1)无人机当前位置和终点位置之间的距离；2)无人机的剩余能量；3)无人机上部署的服务功能(Service Functions,SF)；4)无人机所在网格中的DAG任务请求；

进一步的，所述无人机当前位置是指某个无人机在图2所示的二维地图模型中的网格的坐标；所述终点位置是指该无人机在图3所示的二维地图模型中想要移动到达的终点所在网格的坐标；所述剩余能量是指无人机机载电池剩余的电量；所述服务功能是指无人机上加载的用于完成特定任务的服务或函数及其依赖数据的集合；所述DAG任务是指包含多个子任务，且子任务间存在执行依赖关系的任务；

示例性的，图3给出了一个典型的DAG任务，其中包含6个子任务，分别为v₁-v₆，其中v₁称为DAG任务的入口子任务，其执行不依赖与任何其他子任务，v₂与v₃的执行需要依赖于v₁的执行结果，v₄和v₅的执行分别依赖于v₂与v₃的执行结果，v₆的执行需要依赖于v₄和v₅的执行结果，v₆称为该DAG任务的出口任务；

进一步，全局状态可以表示为s＝(u₁,u₂,…,u_N)，N为无人机数量，第i个无人机的状态可以表示为u_i＝(d_i,e_i,sfs_i,g_i)，其中，d_i表示无人机i当前所处网格与终点所处网格的距离；e_i为无人机的剩余能量，由无人机总能量减去其飞行消耗能量和计算消耗能量得到；sfs_i＝(sf_i1,sf_i2,…,sf _in)为无人机i上部署的所有服务功能，sf_ij,1≤j≤n表示某个特定服务功能，n为无人机i上部署的服务功能总数；g_i表示无人机i所在网格中的DAG任务请求；无人机i的状态空间是其所有可能的状态构成的集合；例如，d_i可以用无人机i的当前网格与目标网格的欧氏距离表示，即其中x_i和y_i分别为无人机i所处的当前网格坐标，x_e和y_e分别为无人机i的目标网格坐标；

S103：动作空间设置：设定每个无人机的动作包含9种类型：上、下、左、右、左上、右上、左下、右下和悬停，分别表示移动到上方、下方、左方、右方、左上方、右上方、左下方、右下方的网格以及在当前网格悬停并执行该网格中的DAG任务，为了执行某个DAG任务，无人机需要部署该DAG任务所对应的服务功能，第i个无人机在第t时刻的动作表示为：

进一步的，所述DAG任务对应的服务功能(SF)是指DAG任务的每个子任务对应的服务功能的集合，每个子任务对应1个服务功能，不同编号子任务对应不同类型的服务功能；所述部署服务功能是指无人机从自身携带的存储设备中加载该服务功能所需的软件和数据，并以容器的形式运行该服务功能的实例；

S104：奖励函数设置：根据整体优化目标，为无人机的动作设计奖励，目的是为了使任何有益于优化目标的动作得到奖励，并使得不利于优化目标的动作得到惩罚；

所述优化目标是指多无人机边缘计算联合路径规划、任务调度和服务功能部署所需达到的目标，即在给定能量约束下，每个无人机从起点位置飞行到终点位置，在飞行过程中执行尽可能多的DAG任务，并最小化所执行DAG任务的执行时间；

示例性的，第i个无人机的优化目标可以表示为max(α₁N_task-α₂T_task)，其中N_task表示该无人机执行的DAG任务数量，T_task表示该无人机执行的DAG任务的平均时延，α₁和α₂是两个权重参数，优化目标的约束包括该无人机在能量约束下到达给定的终点位置，整体优化目标为所有无人机优化目标的加和；

所述有益于优化目标是指可以增大优化目标的取值，不利于优化目标是指降低优化目标的取值；

进一步，第i个无人机所设置的奖励函数包括：

1)当前无人机执行动作后到达其对应的目标终点奖励这是一个固定的正奖励；

2)当前无人机执行动作后会撞向障碍物或飞出边界的惩罚这是一个固定的负奖励；

3)任务执行时的能量消耗若动作为悬停，无人机执行当前网格中的任务，/>为负值，若为其他动作，/>为0；

4)无人机运动的能量消耗包括飞行和悬停，取值为负；

5)处理比特数带来的奖励在处理了一个DAG任务后，无人机可以获得相应的正奖励；

6)SF部署所带来的成本部署一项服务功能，无人机将会生成对应的成本，取值为负；

7)无人机靠近对应终点奖励如果无人机采取行动后与其对应终点之间的距离减少，则获得正奖励，如果无人机远离终点，则获得负奖励。因此，第i个无人机对所采取的动作aⁱ产生的总奖励表示为：/>其中w_j是权重值，全局奖励表示为：

S105：训练模型设计：将每个无人机看作智能体，根据多智能体深度强化学习框架，为其设计训练模型；

所述训练模型是指多智能体深度强化学习训练模型，包含每个无人机上的训练模型和联合训练模型；

示例性的，一种可能的多智能体深度强化学习训练模型如图4所示，包含N个无人机网络和1个集中训练网络。无人机i的一种可能的模型结构如图5所示，其中无人机原始网络和无人机目标网络的结构相同，网络权重不同，输入为无人机i的状态，输出为动作价值Q_i(u_i,a_i)。图6给出了所述无人机原始网络和无人机目标网络的一种可能的模型，其中包含1个输入层，1个输出层和3个Dens全连接层。输入层和输出层的维度分别对应每个无人机状态空间和动作空间的维度。每个全连接层的神经元个数为128，激活函数为ReLu函数。集中训练网络由集中原始网络与集中目标网络构成，集中原始网络与集中目标网络的结构相同，网络权重不同，以每个无人机网络的输出的动作价值Q_i(u_i,a_i)和全局状态信息作为输入，输出联合动作价值Q_tot(s,a)，通过公式(1)保证个体最优动作与联合最优动作一致。

S106：调度模型训练：为了达到多个无人机联合的优化目标最大化，采用多智能体强化学习方法进行调度模型训练，每个智能体训练的目标是最大化其累积折扣奖励；

进一步，如图7所示，所述调度模型训练的具体方法包括如下步骤：

S1061：变量赋值：调度模型训练的整体过程如图4所示，首先对学习过程中的变量进行初始化：

①初始化集中训练网络中的两个网络：集中原始网络和集中目标网络，将其分别表示为和/>设置集中原始网络权重为w，集中目标网络权重为w′＝w；②初始化第i个无人机中的两个网络：原始网络和目标网络，将其分别表示为和/>设置原始网络的权重为θ，目标网络的权重为θ′＝θ；③初始化经验回放池E的大小为D；③初始化学习率η，衰减因子γ，参数更新步长r_iter，随机探索率ε。

例如，可以设置η＝5×10^-4，衰减因子γ＝0.95，参数更新步长r_iter＝10，随机探索率ε＝0.005；

S1062：动作选择：在第t个时隙，第i个无人机将其状态作为无人机原始网络的输入，输出基于此状态的所有的动作价值/>当无人机i的状态/>不是终止状态时，以ε的概率选择一个随机动作/>以1-ε的概率选择所述终止状态是指无人机i到达其终点位置时对应的状态；

S1063：经验累积：在第t个时隙，第i个无人机执行动作获得环境反馈的奖励并观测到下一时隙的状态/>在与环境交互学习过程中，将所有无人机的当前状态所有无人机当前选择的动作/>从环境中得到的奖励/>以及产生的所有无人机新的状态/>作为训练样本/>存放到经验回放池E中，其中/>当经验回放池中训练样本数量大于D时，使用样本/>替换某个旧的训练样本。在后续训练时，可以不断从经验回放池中随机选取样本输入到神经网络中进行训练，从而打破数据之间的相关性；

S1064：损失计算：集中目标网络用于产生目标值，与集中原始网络有着相同的网络结构。如果当前状态为终止状态，目标值表示为：y_t＝r_t；否则，目标值表示为：在集中训练网络中采用时间差分的方式计算损失函数，因此，原始网络的损失函数表示为：

b表示从经验池中采样的样本数量。使用Adam方法对网络权重进行优化，集中原始网络的梯度传递到每个无人机的原始网络中继续优化。每隔r_iter个时隙步长更新集中目标网络和每个无人机目标网络中的参数，令w′＝w_,θ′_i＝θ_i,i∈(1,2,…,N)；

S1065：策略导出：经过一段时间的迭代学习，每个无人机得到其最优策略对应的原始网络模型，该原始网络模型可以给出某个输入状态下能够获得最大期望奖励的最优动作；

S107：调度模型部署：将训练得到的各个无人机的原始网络模型加载到各个无人机上，作为其执行任务时进行动作选择的依据；

与所述方法相对应的，如图8所示，本发明实施例还公开了一种多无人机边缘计算路径优化与依赖任务调度优化系统，包括：

任务场景构建模块101：用于根据任务区域的三维模型或场景的地理信息，构建二维地图模型，将任务区域按需分割成相同大小的若干个正方形网格，网格中包含任务编号，无人机执行对应网格任务后，对应网格转变为无任务状态，在场景中对无人机的飞行行为进行建模，其可以在不同网格间移动，所建场景用于离线的优化模型训练；

状态空间设置模块102：用于设置全局状态和每个无人机的状态，全局状态为每个无人机状态的集合，每个无人机的状态包括4个部分：1)无人机当前位置和终点位置之间的距离；2)无人机的剩余能量；3)无人机上部署的服务功能；4)无人机所在网格中的DAG任务请求；

动作空间设置模块103：用于设定每个无人机的动作，包含9种类型：上、下、左、右、左上、右上、左下、右下和悬停，分别表示移动到上方、下方、左方、右方、左上方、右上方、左下方、右下方的网格以及在当前网格悬停并执行该网格中的DAG任务，为了执行某个DAG任务，无人机需要部署该DAG任务所对应的服务功能，第i个无人机在第t时刻的动作表示为：

奖励函数设置模块104：用于根据整体优化目标，为无人机的动作设计奖励，用于使有益于优化目标的动作得到奖励，并使得不利于优化目标的动作得到惩罚；

训练模型设计模块105：用于将每个无人机看作智能体，根据多智能体深度强化学习框架，为其设计训练模型；

调度模型训练模块106：用于采用多智能体强化学习方法进行调度模型训练，最大化累积其折扣奖励；

调度模型部署模块107：用于将训练得到的各个无人机的原始网络模型加载到各个无人机上，作为其执行任务时进行动作选择的依据。

需要说明的是，所述多无人机边缘计算联合路径规划、任务调度和服务功能部署系统与所述多无人机边缘计算路径优化与依赖任务调度优化方法相对应，所述多无人机边缘计算联合路径规划、任务调度和服务功能部署系统中相应模块的实现方法可以参考所述多无人机边缘计算路径优化与依赖任务调度优化方法。本发明所述方法和系统解决了多无人机边缘计算联合路径规划、任务调度和服务功能部署问题，提出的方法能够综合考虑无人机边缘节点起点和终点位置、DAG任务分布、部署区域地形，并通过深度强化学习方法进行联合路径规划、任务调度和服务功能部署，提升了寻路成功率，能够在复杂的地形环境中，以很高概率找到起点到终点的路径，并在能量约束内，无人机边缘节点在移动过程中，可以尽量多的执行所经过网格的DAG任务，提高了任务执行率。

Claims

1.一种多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于包括如下步骤：

2.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于：

所述任务区域是指多个无人机需要执行任务的地理区域；

所述正方形网格的大小用于根据无人机尺寸、地理区域的复杂程度、无人机飞行速度、每个网格中的DAG任务数量联合确定，网格的对角线长度不应超过无人机单位时间内飞行的最大距离；

所述优化模型是指每个无人机进行联合路径规划、任务调度和服务功能部署所采用的神经网络模型。

3.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于：

所述无人机当前位置是指某个无人机在二维地图模型中的网格的坐标；

所述终点位置是指该无人机在二维地图模型中想要移动到达的终点所在网格的坐标；

所述剩余能量是指无人机机载电池剩余的电量；

所述服务功能是指无人机上加载的用于完成特定任务的服务或函数及其依赖数据的集合；

所述DAG任务是指包含多个子任务，且子任务间存在执行依赖关系的任务。

4.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于：

全局状态表示为s＝(u₁,u₂,…,u_N)，N为无人机数量，第i个无人机的状态可以表示为u_i＝(d_i,e_i,sfs_i,g_i)，其中，d_i表示无人机i当前所处网格与终点所处网格的距离；e_i为无人机的剩余能量，由无人机总能量减去其飞行消耗能量和计算消耗能量得到；sfs_i＝(sf_i1,sf_i2,…,sf _in)为无人机i上部署的所有服务功能，sf_ij,1≤j≤n表示某个特定服务功能，n为无人机i上部署的服务功能总数；g_i表示无人机i所在网格中的DAG任务请求；无人机i的状态空间是其所有可能的状态构成的集合。

5.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于：

所述DAG任务对应的服务功能(SF)是指DAG任务的每个子任务对应的服务功能的集合，每个子任务对应1个服务功能，不同编号子任务对应不同类型的服务功能；

所述部署服务功能是指无人机从自身携带的存储设备中加载该服务功能所需的软件和数据，并以容器的形式运行该服务功能的实例。

6.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于：

第i个无人机的优化目标可以表示为max(α₁N_task-α₂T_task)，其中N_task表示该无人机执行的DAG任务数量，T_task表示该无人机执行的DAG任务的平均时延，α₁和α₂是两个权重参数，优化目标的约束包括该无人机在能量约束下到达给定的终点位置，整体优化目标为所有无人机优化目标的加和；

所述有益于优化目标是指可以增大优化目标的取值，不利于优化目标是指降低优化目标的取值。

7.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于，第i个无人机所设置的奖励函数包括：

1)当前无人机执行动作后到达其对应的目标终点奖励R₁ ⁱ，这是一个固定的正奖励；

4)无人机运动的能量消耗包括飞行和悬停，取值为负；

6)服务功能(SF)部署所带来的成本部署一项服务功能，无人机将会生成对应的成本，取值为负；

7)无人机靠近对应终点奖励如果无人机采取行动后与其对应终点之间的距离减少，则获得正奖励，如果无人机远离终点，则获得负奖励；

第i个无人机对所采取的动作aⁱ产生的总奖励表示为：其中w_j是权重值，全局奖励表示为：/>

8.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于：

所述训练模型是指多智能体深度强化学习训练模型，包含每个无人机上的训练模型和联合训练模型。

9.如权利要求1所述的多无人机边缘计算路径优化与依赖任务调度优化方法，其特征在于，调度模型训练的具体方法包括如下步骤：

变量赋值：

首先对学习过程中的变量进行初始化：①初始化集中训练网络中的两个网络：集中原始网络和集中目标网络，将其分别表示为和/>设置集中原始网络权重为w，集中目标网络权重为w′＝w；②初始化第i个无人机中的两个网络：原始网络和目标网络，将其分别表示为/>和/>设置原始网络的权重为θ，目标网络的权重为θ′＝θ；③初始化经验回放池E的大小为D；③初始化学习率η，衰减因子γ，参数更新步长r_iter，随机探索率ε；

动作选择：在第t个时隙，第i个无人机将其状态作为无人机原始网络/>的输入，输出基于此状态的所有的动作价值/>当无人机i的状态/>不是终止状态时，以ε的概率选择一个随机动作/>以1-ε的概率选择/>

所述终止状态是指无人机i到达其终点位置时对应的状态；

经验累积：在第t个时隙，第i个无人机执行动作获得环境反馈的奖励/>并观测到下一时隙的状态/>在与环境交互学习过程中，将所有无人机的当前状态/>所有无人机当前选择的动作/>从环境中得到的奖励/>以及产生的所有无人机新的状态/>作为训练样本/>存放到经验回放池E中，其中/>当经验回放池中训练样本数量大于D时，使用样本/>替换某个旧的训练样本；在后续训练时，不断从经验回放池中随机选取样本输入到神经网络中进行训练，从而打破数据之间的相关性；

损失计算：集中目标网络用于产生目标值，与集中原始网络有着相同的网络结构；如果当前状态为终止状态，目标值表示为：y_t＝r_t；否则，目标值表示为：在集中训练网络中采用时间差分的方式计算损失函数，原始网络的损失函数表示为：

b表示从经验池中采样的样本数量。使用Adam方法对网络权重进行优化，集中原始网络的梯度传递到每个无人机的原始网络中继续优化。每隔r_iter个时隙步长更新集中目标网络和每个无人机目标网络中的参数，令w′＝w,θ′_i＝θ_i,i∈(1,2,…,N)；

策略导出：经过一段时间的迭代学习，每个无人机得到其最优策略对应的原始网络模型，该原始网络模型可以给出某个输入状态下能够获得最大期望奖励的最优动作。

10.一种多无人机边缘计算路径优化与依赖任务调度优化系统，其特征在于包括：