CN115454527A

CN115454527A - 一种多无人机移动边缘计算的飞行控制与计算卸载方法及系统

Info

Publication number: CN115454527A
Application number: CN202211119514.XA
Authority: CN
Inventors: 张天魁; 许文龙; 刘元玮; 杨鼎成; 徐瑜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-09

Abstract

本申请公开了一种多无人机移动边缘计算的飞行控制与计算卸载方法及系统，其中多无人机移动边缘计算的飞行控制与计算卸载方法具体包括以下步骤：获取初始信息；根据获取的初始信息，进行求解模型的构建；求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例；执行与最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例对应的动作。本申请提出了适合多无人机辅助MEC系统的状态空间、动作空间和奖励函数。得到了每个时隙内无人机应采取的飞行动作与计算任务的卸载决策和卸载比例，最小化了系统总代价。

Description

一种多无人机移动边缘计算的飞行控制与计算卸载方法及系统

技术领域

本申请涉及移动通信领域，具体地，涉及一种多无人机移动边缘计算的飞行控制与计算卸载方法及系统。

背景技术

移动通信网络和移动物联网的迅速发展促进了智能用户终端的空前增长，也为许多新型智能应用程序提供了强有力的平台。各种新型应用应运而生，例如人脸识别，虚拟现实游戏，远程医疗等。然而这些应用都是计算密集型和延迟敏感型的，通常需要较高的计算能力。用户有限的电池能源和较低的计算容量使得其很难处理这些应用。为了解决这个冲突，移动边缘计算(Mobile edge computing,MEC)逐渐被重视。相对于云计算，移动边缘计算服务器部署在基于基础设施的移动通信网络的边缘，能够为用户提供任务卸载的服务，提升用户体验。然而部署在地面移动通信网络的移动边缘计算系统受限于固定的位置部署，缺少足够的灵活性，特别是对野外环境、应急救灾、军事领域等基础设施受限的场景，无法快速灵活的部署。因此，灵活并且低成本的部署在无人机通信网络的移动边缘计算系统被提出，即无人机移动边缘计算系统，适用于多种应用场景。

关于无人机移动边缘计算系统，已有方案大多考虑单无人机部署情况。然而，在支持虚拟现实旅游的园区或者大型智慧工厂等场景中，需要部署多个无人机实现更大范围的网络覆盖与计算服务保证。在多无人机移动边缘计算系统中，较多的方案给出了最小化无人机能耗的方法。然而，在野外环境、应急救灾、军事领域等典型无人机移动边缘计算系统应用场景中，移动终端也面临供电受限的难题，移动终端的能耗也至关重要。与此同时，上述典型应用场景中对计算任务完成时间有着严格的要求。

因此，如何提供一种通过合理规划无人机轨迹、制定计算卸载决策实现大幅降低系统能耗与计算任务完成时延的方法，是本领域技术人员急需解决的问题。

发明内容

本发明给出了一种多无人机移动边缘的飞行控制与计算卸载方法，减小了系统能耗与计算任务的完成总时间。将系统能耗与计算任务完成总时间加权定义为系统总代价，通过联合优化无人机的飞行轨迹、计算任务的卸载决策以及卸载比例，最小化系统总代价。

为了达到上述目的，本申请提供了一种多无人机移动边缘计算的飞行控制与计算卸载方法，具体包括以下步骤：获取初始信息；根据获取的初始信息，进行求解模型的构建；求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例；执行与最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例对应的动作。

如上的，其中，获取初始信息包括，获取服务区域内的用户终端数量与位置，获取初始化的无人机数量，以及利用前馈神经网络根据获取的用户终端数量与位置进行所有用户终端下一个飞行周期的计算任务量的预测。

如上的，其中，根据获取的初始信息，进行求解模型的构建具体包括以下子步骤：构建信道模型；响应于完成信道模型的构建，根据获取的初始信息进行求解模型的构建。

如上的，其中，定义用户终端集合为

无人机集合为

无人机m在第n个时隙的水平位置坐标为L_m,n＝[x_m,n,y_m,n]，

则构建信道模型包括：确定路径损耗

和可视为视距链路的概率

根据路径损耗

和可视为视距链路的概率

确定无线信道增益。

如上的，其中，路径损耗

具体表示为：

可视为视距链路的概率

具体表示为：

其中用户终端的位置坐标表示为w_s＝[x_s,y_s]。无人机m在第n个时隙的水平位置坐标为L_m,n＝[x_m,n,y_m,n]，

表示地面用户终端s与无人机m在第个n时隙之间的水平距离，f_c为载波频率，d_o＝max{294.05log₁₀H-432.94,18}，p₁＝233.98log₁₀H-0.95。

如上的，其中，地面用户终端s与无人机m在第个n时隙之间的无线信道增益g_s，m，n表示为：

其中，

和

分别表示LoS和NLoS链路的路径损耗，

表示无线信道为LoS链路的概率，

表示为NLoS链路的概率，且

如上的，其中，决策模型的构建包括：定义无人机与用户终端间的通信频带带宽为W，不同的无人机使用不同的频带，因此无人机之间不存在干扰。因此，在第个n时隙，地面用户终端s向无人机m卸载任务的速率r_s，m，n表示为：

其中，B_s,m,n为无人机m在时隙n分配给用户终端s的带宽，P_s为用户终端s的发射功率，σ²为噪声功率。

如上的，其中，决策模型的构建还包括：定义卸载决策变量z_s,m,n，利用z_s,m,n＝1代表第s个用户终端在时隙n选择的执行计算任务的设备m，当m＝0时表示选择自身终端为计算设备，即不卸载，当m≠0时表示计算任务卸载到无人机m。计算任务卸载的设备集合定义为

另外定义变量ρ_s,m,n∈[0,1]来表示用户终端s向无人机m卸载任务的比例；当m＝0时，ρ_s,m,n＝0。

如上的，其中，求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例，具体包括以下子步骤：初始化新演员网络、旧演员网络以及评论家网络参数；响应于初始化演员网络和评论家网络参数，判断是否达到最大循环次数；若达到最大循环次数，则直接结束，输出新演员网络、旧演员网络以及评论家网络对应的网络参数，得到最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例。

一种用于上述任一项所述方法的多无人机移动边缘计算的飞行控制与计算卸载系统，具体包括：信息获取模块、优化问题建模模块、仿真求解和实际执行模块；信息获取模块，用于获取初始信息；优化问题建模模块，用于根据获取的初始信息，进行求解模型的构建；仿真求解模块，用于求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例；实际执行模块，用于执行与最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例对应的动作。

本申请具有以下有益效果：

本申请基于深度强化学习算法，本申请提出了适合多无人机辅助MEC系统的状态空间、动作空间和奖励函数。得到了每个时隙内无人机应采取的飞行动作(飞行速率和角度)与计算任务的卸载决策和卸载比例，最小化了系统总代价(系统能耗和时延)。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的多无人机移动边缘计算的飞行控制与计算卸载系统的模型图。

图2是根据本申请实施例提供的多无人机移动边缘计算的飞行控制与计算卸载系统的内部结构图；

图3是根据本申请实施例提供的多无人机移动边缘计算的飞行控制与计算卸载的方法的流程图；

图4是根据本申请实施例提供的多无人机移动边缘计算的飞行控制与计算卸载的方法的又一流程图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在多无人机辅助边缘计算的蜂窝网络中，基站首先根据实际场景收集用户终端的数量与位置信息，并根据无人机回传的用户终端的实际计算任务量预测未来短期内的计算任务量。根据预测数据，训练算法模型。待训练完成，通过模型计算每个时隙内无人机的最优轨迹和计算卸载策略，继而得出通信带宽资源分配比例和无人机算力资源分配比例。最终基站将数据发送至无人机实际执行，为地面用户终端提供服务。

场景假设：

首先，考虑一个包含S个地面用户终端和M个无人机辅助的MEC系统，系统模型图如图1所示。用户终端集合和无人机集合分别定义为

和

设定每个无人机的飞行周期为T，将整个飞行周期离散化，共分为N个时隙。用户终端的位置坐标表示为w_s＝[x_s,y_s]。无人机m在第n个时隙的水平位置坐标为L_m,n＝[x_m,n,y_m,n]，

则地面用户终端s与无人机m在第个n时隙之间的水平距离为

将多无人机执行任务的范围表示为一个面积为x_max×y_max的服务区域，其中x_max,y_max分别代表该飞行任务区域的长和宽的大小。将无人机m和m′之间的距离定义为R_m,m′,n，并引入最小安全距离R^min，即R_m,m′,n≥R^min。假设无线信道为准静态信道，即信道条件在单个时隙内保持不变，并且上下行链路使用不同的频带。考虑到不同地形的限制，设定无人机与用户终端之间的路径损耗由视距(line-of-sight,LoS)链路和非视距(non-line-of-sight,NLoS)链路的概率决定。

实施例一

如图2所示，是本申请实施例提供的一种多无人机移动边缘的飞行控制与计算卸载系统，包括地面基站和无人机，以及设置在地面基站和无人机中的各模块，其中各模块具体为信息获取模块210、优化问题建模模块220、仿真求解230和实际执行模块240。

优化问题建模模块与仿真求解模块部署在地面基站中，信息获取模块与实际执行模块同时存在于地面基站和无人机中。地面基站利用获取的信息与存储的算法进行离线训练，无人机接收基站计算的结果在线执行。

在规划好服务区域后，地面基站中的信息获取模块210首先获取服务区域内的用户终端数量与位置，然后利用前馈神经网络预测所有用户终端下一个飞行周期的计算任务量，初始化无人机数量，并将上述获取到的所有信息输出至优化问题建模模块220。

优化问题建模模块220接收信息获取模块210的信息后，根据用户终端位置坐标、无人机位置坐标确定无线信道增益，根据无线信道增益构建信道模型；并根据用户终端位置坐标、无人机位置坐标、上述预测所有用户终端下一飞行周期的计算任务量，以及信道模型进行决策与计算模型的构建，将决策与计算模型作为能求解能耗时延问题的求解模型，将求解模型输出至仿真求解模块230。

在完成信道模型、决策与计算模型构造后，仿真求解模块230进行仿真，求解出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例，并将所得解输出至实际执行模块240。

地面基站的实际执行模块240将最佳飞行轨迹，用户终端的卸载决策和计算任务卸载比例等数据发送给无人机的实际执行模块240，无人机按照数据采取对应动作，为地面用户终端提供服务，并且利用无人机中的信息获取模块210收集用户终端的当前飞行周期的实际计算任务量，为地面基站中的信息获取模块210预测用户终端下一个飞行周期的计算任务量提供训练数据。

实施例二

如图3所示，是本申请实施例提供的一种多无人机移动边缘计算系统的飞行控制与计算卸载方法，具体包括以下子步骤：

步骤S310：获取初始信息。

具体地，获取初始信息包括，获取服务区域内的用户终端数量与位置，获取初始化的无人机数量，以及利用前馈神经网络根据获取的用户终端数量与位置进行所有用户终端下一个飞行周期的计算任务量的预测。

步骤S320：根据获取的初始信息，进行求解模型的构建。

其中步骤S320具体包括以下子步骤：

步骤S3201：构建信道模型。

根据用户终端位置坐标、无人机位置坐标确定无线信道增益，无线信道增益确定后即构建完成信道模型。

路径损耗

和可视为视距链路的概率

分别表示为：

其中，H为无人机飞行高度，f_c为载波频率，d_o＝max{294.05log₁₀H-432.94,18}，p₁＝233.98log₁₀H-0.95。

因此，地面用户终端s与无人机m在第个n时隙之间的无线信道增益表示为：

其中，

和

分别表示LoS和NLoS链路的路径损耗，

表示无线信道为LoS链路的概率，

表示为NLoS链路的概率，且

步骤S3202：响应于完成信道模型的构建，根据获取的初始信息进行求解模型的构建。

具体地，根据用户终端位置坐标、无人机位置坐标、预测所有用户终端未来短时间的计算任务量和信道模型构建决策模型与计算模型，决策模型与计算模型构成求解模型。

其中构建决策模型包括：定义卸载决策变量z_s,m,n，利用z_s,m,n＝1代表第s个用户终端在时隙n选择的执行计算任务的设备m，当m＝0时表示选择自身终端为计算设备，即不卸载，当m≠0时表示计算任务卸载到无人机m。计算任务卸载的设备集合定义为

另外定义变量ρ_s,m,n∈[0,1]来表示用户终端s向无人机m卸载任务的比例。显然，当m＝0时，ρ_s,m,n＝0。设定每个用户终端在单个时隙内最多将任务卸载给一个无人机，因此存在如下约束，完成决策模型的构建：

响应于完成决策模型和信道模型的构建，定义无人机与用户终端间的通信频带带宽为W，不同的无人机使用不同的频带，因此无人机之间不存在干扰。因此，在第个n时隙，地面用户终端s向无人机m卸载任务的速率r_s，m，n表示为：

定义每比特任务消耗的CPU周期数为C_f，第s个用户终端在时隙n内产生的计算任务量为D_s,n，则在第个n时隙，地面用户终端s向无人机m传输计算数据的时间，也就是计算任务卸载完成时间

表示为：

为了统一变量表达，定义当m＝0时，

本申请通过为不同用户终端分配不同的带宽来平衡用户终端的计算任务卸载完成时间

尽量保持接入无人机m的所有用户终端完成卸载的时间比较接近，保证用户间公平性。通过

得到带宽分配B_s，m，n的表达式：

进一步地，地面用户终端s在时隙n的计算任务本地完成时间

表示为：

其中f_s表示用户终端s的算力，单位为周期数/秒，一般为微型计算处理器频率。

无人机m在时隙n计算用户终端s卸载的计算任务所需要的预期计算完成时间

表示为：

其中f_m为无人机m分配每个用户终端的算力，单位为周期数/秒，为了统一变量表达，当m＝0时，

卸载到一个无人机的多个地面终端的计算任务将由无人机计算处理器创建的多个虚拟机并行计算。由于在同一个物理计算处理器中共享公共计算资源而存在相互干扰，因此在多计算任务并行处理时，在时隙n用户终端s向无人机m卸载的计算任务的预期计算完成时间

表示为：

其中，τ为虚拟机之间的I/O干扰而导致的降级系数，一般这个系数可以设置为0.2，c为虚拟机的数量，为了统一变量表达，当m＝0时，

每个用户终端因为计算任务量不同而导致预期计算完成时间也不同。无人机在为用户终端完成边缘计算的服务后，就会立即移除虚拟机，释放计算资源。因此，在单个时隙内，无人机m实际上存在的虚拟机数量c在不断变化，即随时间增加而减少。首先定义一个集合

对其中每个元素进行升序排列，定义排序后的集合为

并额外定义

因此在时隙n，用户终端s向无人机m卸载的计算任务实际计算完成时间

表示为：

其中，为了统一变量表达，当m＝0时，

响应于完成公式11的确定，由于无人机计算结果数据量较小，下行链路需要的时间和能耗可忽略不计。设定本地执行计算任务与卸载计算任务可同时进行，则在时隙n，用户终端s的计算任务完成总时间

表示为：

设定在时隙n，用户终端s的计算任务必须在最大限制时间t^max内完成，则存在如下约束：

在时隙n，用户终端s本地的计算能耗

表示为：

其中，

为用户终端的有效开关电容。

在时隙n，用户终端s向无人机m卸载计算任务的能耗，即卸载通信能耗

表示为：

在时隙n，无人机m为用户终端s提供计算服务所需的计算能耗

表示为：

其中，φ_m为无人机的有效开关电容。

考虑到无人机的高机动性，无人机m在时隙n内的推进能耗

表示为：

其中，κ₁，κ₂，κ₃分别为与无人机硬件有关的参数，v_m,n为无人机m在时隙n的飞行速率，为了统一变量表达，当m＝0时，

至此完成计算机模型的构建。

进一步地，将地面用户终端的本地计算能耗和卸载通信能耗、无人机的计算能耗、无人机的飞行能耗以及计算任务完成总时间联合考虑，定义系统总代价为其加权和。特别的，对于计算任务完成总时间，不必将其降到最低，只需保证不超过最大限制时间。通过合理规划无人机的飞行速率和飞行角度，用户终端的卸载策略(卸载决策和卸载比例)，将系统总代价降到最低。

其中联合优化问题形式如下：

其中，

为了保证可优化性，所以设置参数ω_s、ω_m、ω_f和ω_t，其分别代表用户终端能耗、无人机计算能耗、无人机飞行能耗的权重和计算任务完成总时间的权重，来保证四者处于同一数量级。

步骤S330：求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例。

基于现有技术中的近端策略优化算法，提出了一种计算任务卸载和无人机轨迹控制联合优化方法，以得到最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例。

其中近端策略优化算法主要由多个循环构成。首先定义演员网络(新演员网络和旧演员网络)和评论家网络，并完成初始化(两个演员网络初始化参数相同)。然后设置训练的最大回合数，并完成智能体状态和经验缓冲区的初始化。待所有初始化完成，将进入单个回合训练，以时间步长为单位，其中时间步长大小等于单个时隙长度。智能体通过新演员网络得到每个状态下应采取的动作分布，并采样得到实际动作。然后将动作输入至环境中，得到奖励并进入下一状态，将状态、动作、奖励对存入缓冲区中，循环往复。若出现违规操作，则直接进入下一回合训练。若出现违规操作，则直接进入下一回合训练。否则当时间步长达到所设批次大小或者最后一步，首先将新演员网络参数同步给旧演员网络，再利用评论家网络预测出的状态价值，回溯缓冲区内存储的状态价值：

其中，G_i为经验缓冲区内第i个状态的价值，γ为衰减因子，一般设置为0.9-1，r_j+1为第j+1个时间步长获得的奖励，e_n+1为第n+1个状态，Q(·|θ^Q)为评论家网络。当n＝N时，Q(e_n+1|θ^Q)＝0。

其中定义无人机m与m′发生碰撞即R_m,m′,n＜R^min或者无人机m超出飞行任务区域即x_m,n＞x_max或者y_m,n＞y_max为违规操作。

其中在每个时间步长内，状态，动作和奖励定义如下：

智能体状态空间定义为

分别代表无人机m在时隙n的所处的水平位置坐标[x_m,n,y_m,n]，无人机m在时隙n与用户终端s之间的水平距离以及用户终端s在时隙n的计算任务量。

定义动作空间为

分别代表无人机m在时隙n采取的飞行角度和飞行速率(即无人机轨迹)，用户终端s在时隙n选择的计算任务卸载决策和卸载比例。在处理卸载决策这一部分时，我们利用示性函数将离散的决策连续化，以便于神经网络处理，如下：

其中，

为根据无人机数量定义的连续集合，且

当

时，z_s,m＝0,n＝1。

定义智能体在每个时间步长中获得的奖励r_n为：

其中，ξ为防止无人机出现违规操作引入的惩罚项。当未出现违规操作时，设定每个时隙获得的近似平均奖励为

即若-r_n的数量级为k，则

当任意无人机发生碰撞或者超出飞行任务区域时，

且

以此纠正其错误动作，并且结束该回合。

如图4所示，整体算法具体包括以下子步骤：

步骤S3401：初始化演员网络和评论家网络参数。

其中演员网络包括新演员网络和旧演员网络，两个演员网络初始化参数相同。

其中演员网络和评论家网络为近端策略优化算法中提供的网络，演员网络和评论家网络也是近端策略优化算法中常用的参数，具体在此不进行赘述。

步骤S3402：响应于初始化演员网络和评论家网络参数，判断是否达到最大循环次数。

其中最大循环次数为预先设置的训练的最大回合数。

若达到最大循环次数，则直接结束，输出新演员网络、旧演员网络以及评论家网络对应的网络参数，得到最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例。

若未达到最大循环次数，则执行步骤S1403。

步骤S3403：进行智能体状态和经验缓冲区的初始化。

其中智能体和经验缓冲区为算法中包含的，具体含义在此不进行赘述。

步骤S3404：响应于完成智能体状态和经验缓冲区的初始化，判断是否超过最大步长或者行动是否结束。

若超过最大步长或者行动结束，返回执行步骤S3402，否则执行步骤S3405。

步骤S3405：根据演员网络采样得到动作。

步骤S3406：响应于采样得到动作，执行动作，得到奖励并进入下一装状态。

步骤S3407：将得到的状态、动作以及奖励存入经验缓冲区。

步骤S3408：响应于将得到的状态、动作以及奖励存入经验缓冲区，判断是否存满一个批次大小或者是否达到最大步长。

若存满一个批次大小或者达到了最大步长，则执行步骤S3409。反之则执行步骤S3404。

步骤S3409：更新旧演员网络参数。

步骤S3410：响应于更新旧演员网络参数，指定次数的更新新演员网络参数和评论家网络参数。

其中指定次数为预先设定的次数，具体可根据实际情况调整，具体数值在此不进行限定。

利用时序差分误差更新评论家网络参数

其中，B_t为批次大小。

分别利用新演员网络和旧演员网络得到缓冲区中所有动作a_i的概率分布p_i和p′_i，利用评论家网络得到的状态价值得出每个状态的优势值A_i＝G_i-Q(e_i|θ^Q)，更新新演员网络的参数

其中，ε为裁剪比例，clip表示当p_i/p′_i小于1-ε时输出1-ε，大于1+ε时输出1+ε，位于两者之间不做处理。

其中G_i的计算方式参考公式19。

步骤S3411：响应于更新新演员网络参数和评论家网络参数，清空经验缓冲区，并返回执行步骤S3404。

其中直至达到最大循环次数，输出演员网络采样得到的动作，即得到最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例。

步骤S340：执行与最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例对应的动作。

将最佳飞行轨迹，用户终端的卸载决策和计算任务卸载比例等数据发送给无人机的实际执行模块，无人机按照数据采取对应动作，为地面用户终端提供服务。

进一步地，利用无人机中的信息获取单元收集用户终端的当前飞行周期的实际计算任务量，为基站中的信息获取单元预测用户终端下一个飞行周期的计算任务量提供训练数据。

本申请具有以下有益效果：

虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，具体包括以下步骤：

获取初始信息；

根据获取的初始信息，进行求解模型的构建；

求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例；

执行与最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例对应的动作。

2.如权利要求1所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，获取初始信息包括，获取服务区域内的用户终端数量与位置，获取初始化的无人机数量，以及利用前馈神经网络根据获取的用户终端数量与位置进行所有用户终端下一个飞行周期的计算任务量的预测。

3.如权利要求2所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，根据获取的初始信息，进行求解模型的构建具体包括以下子步骤：

构建信道模型；

响应于完成信道模型的构建，根据获取的初始信息进行求解模型的构建。

4.如权利要求3所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，定义用户终端集合为

无人机集合为

无人机m在第n个时隙的水平位置坐标为L_m,n＝[x_m,n,y_m,n]，

则构建信道模型包括：

确定路径损耗

和可视为视距链路的概率

根据路径损耗

和可视为视距链路的概率

确定无线信道增益。

5.如权利要求4所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，路径损耗

具体表示为：

可视为视距链路的概率

具体表示为：

表示地面用户终端s与无人机m在第个n时隙之间的水平距离，H为无人机飞行高度，f_c为载波频率，d_o＝max{294.05log₁₀H-432.94,18}，p₁＝233.98log₁₀H-0.95。

6.如权利要求5所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，地面用户终端s与无人机m在第个n时隙之间的无线信道增益g_s，m，n表示为：

其中，

和

分别表示LoS和NLoS链路的路径损耗，

表示无线信道为LoS链路的概率，

表示为NLoS链路的概率，且

7.如权利要求6所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，决策模型的构建包括：定义无人机与用户终端间的通信频带带宽为W，不同的无人机使用不同的频带，因此无人机之间不存在干扰。因此，在第个n时隙，地面用户终端s向无人机m卸载任务的速率r_s，m，n表示为：

其中，B_s,m,n为无人机m在时隙n分配给用户终端s的带宽，P_s为用户终端s的发射功率，σ²为噪声功率，g_s，m，n表示地面用户终端s与无人机m在第个n时隙之间的无线信道增益。

8.如权利要求7所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，决策模型的构建还包括：定义卸载决策变量z_s,m,n，利用z_s,m,n＝1代表第s个用户终端在时隙n选择的执行计算任务的设备m，当m＝0时表示选择自身终端为计算设备，即不卸载，当m≠0时表示计算任务卸载到无人机m；计算任务卸载的设备集合定义为

9.如权利要求7所述的多无人机移动边缘计算的飞行控制与计算卸载方法，其特征在于，求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例，具体包括以下子步骤：

初始化新演员网络、旧演员网络以及评论家网络参数；

响应于初始化演员网络和评论家网络参数，判断是否达到最大循环次数；

10.一种用于执行权利要求1-9任一项所述的多无人机移动边缘计算的飞行控制与计算卸载方法的多无人机移动边缘计算的飞行控制与计算卸载系统，其特征在于，具体包括：信息获取模块、优化问题建模模块、仿真求解和实际执行模块；

信息获取模块，用于获取初始信息；

优化问题建模模块，用于根据获取的初始信息，进行求解模型的构建；

仿真求解模块，用于求解模型进行能耗时延问题的仿真求解，得出最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例；

实际执行模块，用于执行与最佳的无人机轨迹以及用户终端的卸载决策和计算任务卸载比例对应的动作。