CN114327876A

CN114327876A - 一种无人机辅助移动边缘计算的任务卸载方法和装置

Info

Publication number: CN114327876A
Application number: CN202111580161.9A
Authority: CN
Inventors: 章路; 蔡澎; 张紫燕
Original assignee: Institute of Urban Environment of CAS
Current assignee: Institute of Urban Environment of CAS
Priority date: 2020-12-30
Filing date: 2021-12-22
Publication date: 2022-04-12

Abstract

本申请公开了一种无人机辅助移动边缘计算的任务卸载方法和装置，该方法包括：构建通信模型，将其计算任务传输到无人机，当所述无人机接近终端设备时，获得所述无人机与所述终端设备之间的能耗值和数据传输速率，并根据能耗值和数据传输速率计算传输时间和传输能耗；构建卸载计算模型，执行卸载计算和本地计算，得到终端设备在虚拟队列中的等待时间，确定卸载和控制所述无人机在下一个位置的任务的百分比，并按照所述任务百分比将第一任务卸载到所述无人机上。本方法针对不确定性中的连续问题，提出了一种优化无人机轨迹设计和用户卸载任务比调度，提高无人机辅助MEC卸载任务的能力，最大限度地提高了系统稳定性。

Description

一种无人机辅助移动边缘计算的任务卸载方法和装置

技术领域

本申请涉及无人机技术领域，尤其是涉及一种无人机辅助移动边缘计算的任务卸载方法和装置。

背景技术

物联网(Internet of Things，IoT)的日益普及为复杂的移动应用程序(如自动驾驶、增强现实和各种认知应用)提供了一个具有很大前景的平台。随着各种移动应用程序的飞速发展，它导致网络流量拥塞和长时间的延迟。无线通信的需求达到了前所未有的水平。同时，大多数移动应用程序在设计时对延迟、计算密集型和能源密集型等因素都要考虑，因此，设计者期望提供一种低延迟和可控能量的计算机制，从而达到可调用的目的。为了提高计算速度、缓解通信拥塞、节省移动用户的能耗，移动边缘计算(Mobile Edge Computing，MEC)被视为一种潜在的方法，使移动用户能够将密集计算卸载到附近的移动边缘服务器，从而为移动用户提供高质量的服务。

由于MEC不仅提高了计算能力，而且还在移动设备的节能方面有所提高，因此作为5G的一项关键技术，近年来被进行了深入的研究。其中讨论了MEC的定义、计算和通信建模及其优点和应用。比如将某些任务卸载问题作为混合整数非线性程序，以减少计算延迟，节省电池寿命。或者还探讨了5G网络中MC的计算卸载机制，使得能耗最小化。

尽管对MEC进行了大量研究，但它无法避免静态MEC限制，因为它不能保证MEC可以随时随地部署。基础设施有时很有可能遭到破坏，例如在自然灾害之后。此外，为临时用途或农村地区(如热点和山区)安装基础设施是不现实的。在上述情况下，安装的MEC设备不能很好的利用。由于无人驾驶飞行器(Unmanned Aerial Vehicle，UAV)的灵活性，无人机辅助MEC被引入，其中无人机可以携带MEC服务器作为灵活位置的移动用户的计算服务器，由于有效载荷和能量有限，无人机的计算能力和飞行时间有限，因此在无人机辅助MEC系统中，最大限度地缩短任务完成时间和能耗是两个基本的优化目标。

发明内容

本申请提供了一种任务卸载方法，通过无人机辅助移动边缘计算来提高任务卸载效率，达到节约时间和能耗的目的。另外，本申请还提供一种无人机辅助MEC系统，使多个移动用户可以将其计算任务部分卸载到无人机，联合优化无人机的比卸和轨迹，最大限度地降低整个系统的时间和精力消耗，同时最大限度地提高系统的稳定性。

由于，每个计算任务都有最大的容差时间，如果计算时间(包括等待时间)比容差长，则考虑任务已过期，这意味着MEC无法响应用户。如果系统在过期之前无法完成大多数任务，则判定系统不稳定，因此，需要最大化稳定性和平衡系统工作负载的计算，延长了系统运行时间，并最大限度地完成了任务的数量。具体的技术方案如下：

第一方面，本申请提供了一种无人机辅助移动边缘计算的任务卸载方法，所述方法包括：

构建通信模型，将其计算任务传输到无人机，将时间划分为N个时隙，N≥1，每个时隙对应至少一个任务；根据所述无人机在每个时隙中的离散位置指示所述无人机在第一高度的飞行轨迹；当所述无人机接近终端设备时，获得所述无人机与所述终端设备之间的能耗值和数据传输速率，并根据所述能耗值和所述数据传输速率计算传输时间和传输能耗；

构建卸载计算模型，利用所述卸载计算模型执行所述无人机与所述终端设备的卸载计算和本地计算，得到终端设备在虚拟队列中的等待时间，根据所述等待时间计算总时间成本，其中所述总时间成本等于传输时间汇总、卸载时间、本地计算时间中的最大值；

根据所述总时间成本计算无人机辅助系统的能耗总量，所述能耗总量包括：信能耗、卸载计算能耗、局部计算能耗和无人机推进能耗；

根据所述无人机辅助系统的能耗总量确定卸载和控制所述无人机在下一个位置的任务的百分比，按照所述任务百分比将第一任务卸载到所述无人机上。

可选的，在一种可能的实现方式中，所述方法还包括：建立局部计算模型，根据所述局部计算模型确定所述终端设备的局部计算时间和局部计算能耗；

所述根据所述等待时间计算总时间成本，包括：根据所述等待时间和所述局部计算时间确定所述总时间成本。

可选的，在另一种可能的实现方式中，所述无人机在下一个位置的任务的百分比为，所述无人机按照时间卸载的任务的百分比。

第二方面，本申请提供另一种任务卸载方法，应用于一种任务控制系统，所述方法包括：

将卸载任务的配置文件发送到任务控制系统，该系统为卸载任务提供环境；

当所述任务控制系统接收到所述配置文件时，获取移动边缘计算网络的当前状态；

代理模块根据所述环境中的观察信息采取相应的行动措施，所述代理模块位于无人机上；

所述任务控制系统将所述移动边缘计算网络的下一状态反馈给所述代理模块，所述反馈包括对所述行动措施的评价；其中，在所述代理模块中包含本地网络，所述本地网络产生对所述卸载任务提供环境的行动；

执行所述行动，决定任务的比例并卸载给无人机，以及驱动所述无人机到目标位置。

第三方面，本申请还提供一种无人机辅助移动边缘计算的任务卸载装置，所述装置包括：

构建单元，用于构建通信模型；

处理单元，用于将其计算任务传输到无人机，将时间划分为N个时隙，N≥1，每个时隙对应至少一个任务；根据所述无人机在每个时隙中的离散位置指示所述无人机在第一高度的飞行轨迹；当所述无人机接近终端设备时，获得所述无人机与所述终端设备之间的能耗值和数据传输速率，并根据所述能耗值和所述数据传输速率计算传输时间和传输能耗；

所述构建单元，还用于构建卸载计算模型，

所述处理单元，还用于利用所述卸载计算模型执行所述无人机与所述终端设备的卸载计算和本地计算，得到终端设备在虚拟队列中的等待时间，根据所述等待时间计算总时间成本，其中所述总时间成本等于传输时间汇总、卸载时间、本地计算时间中的最大值；

计算单元，用于根据所述总时间成本计算无人机辅助系统的能耗总量，所述能耗总量包括：信能耗、卸载计算能耗、局部计算能耗和无人机推进能耗；

所述处理单元，还用于根据所述无人机辅助系统的能耗总量确定卸载和控制所述无人机在下一个位置的任务的百分比，按照所述任务百分比将第一任务卸载到所述无人机上。

可选的，在一种可能的实现方式中，所述构建单元，还用于建立局部计算模型，根据所述局部计算模型确定所述终端设备的局部计算时间和局部计算能耗；

所述处理单元，还用于根据所述等待时间和所述局部计算时间确定所述总时间成本。

第四方面，本申请还提供一种任务卸载装置，应用于一种任务控制系统，所述装置包括：

卸载单元，用于将卸载任务的配置文件发送到任务控制系统，该系统为卸载任务提供环境；

获取单元，用于当所述任务控制系统接收到所述配置文件时，获取移动边缘计算网络的当前状态；

所述获取单元，还用于获取代理模块根据所述环境中的观察信息采取相应的行动措施，所述代理模块位于无人机上；

处理单元，用于将所述移动边缘计算网络的下一状态反馈给所述代理模块，所述反馈包括对所述行动措施的评价；执行所述行动，决定任务的比例并卸载给无人机，以及驱动所述无人机到目标位置；

其中，在所述代理模块中包含本地网络，所述本地网络产生对所述卸载任务提供环境的行动。

第五方面，本申请提供一种通信装置，包括处理器和存储器，所述处理器和存储器耦合，所述存储器，用于存储指令；所述处理器，用于执行所述存储器中的指令，使得所述通信设备执行前述第一方面和第二方面中所述的方法。

第六方面，本申请还提供了一种计算机可读存储介质，所述存储介质中存储有指令，当所述指令被运行时，实现如前述第一方面和第二方面中所述的方法。

本申请的技术方案中，可以通过在MEC服务器上提供额外的计算资源来延长移动设备的运行寿命并加快计算速度。此外，将任务卸载到邻近的MEC服务器可避免移动用户经常使用与云通信或将其任务上传到云中，从而缓解通信拥塞。

附图说明

图1为本发明提供的一种具有单一无人机和移动用户的MEC系统的结构图；

图2为本发明提供的一种任务卸载方法的流程图；

图3为本发明提供的一种DRL代理在无人机的MEC网络中训练的示意图；

图4为本发明提供的一种任务卸载装置的结构示意图；

图5为本发明提供的一种通信装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。

移动边缘计算(MEC)作为通信、计算和缓存的一项关键技术已经普及，通过收获无人驾驶飞行器(UAV)的易部署和灵活性优势，MEC的主要功能之一是采用配备MEC服务器的无人机，为临时热点地区或某些紧急情况下的移动用户卸载任务(如体育比赛区或被自然灾害地区摧毁)的卸载任务提供计算支持。尽管与MEC服务器一起携带的无人机具有许多优点，但它受其有限的计算资源和敏感的能源消耗的限制。然而，由于无人机辅助MEC系统的复杂性，传统的优化方法无法很好地实现其计算资源优化和能耗优化。此外，随着MEC服务器和移动用户的增长，MEC系统优化的计算成本通常呈指数级增长。因此，控制无人机位置和安排任务卸载比率是极具挑战性的。本文针对不确定性中的连续问题，提出了一种优化无人机轨迹设计和用户卸载任务比调度，提高无人机辅助MEC系统性能的DRL方法。最大限度地提高了系统稳定性，并最大限度地减少了

目前，虽然已经有大量文献对无人机辅助MEC能力进行探索，但大多数研究是根据研究目标进行的，比如对研究目标可分为三种类型。第一种类型是最大限度地降低整个系统的能耗或移动用户的能耗。比如设计一种无人机为从预定义的初始位置飞往最终位置，使其具有卸载计算能力。该无人机不仅为移动用户提供卸载服务，探索了无人机辅助移动边缘计算(Mobile Edge Computing，MEC)系统，同时无人机继续飞行，同时提供卸载计算服务。

另外，除了考虑MEC系统的能耗外，无人机辅助MEC系统的计算速率也相当可观。MEC中有两种卸载计算，包括二进制卸载和部分卸载，在二进制卸载模式下，用户只选择在本地执行所有计算任务，或选择将所有计算任务卸载到MEC服务器。对于部分卸载模式，用户可以在本地和MEC服务器中部分执行计算任务，其中本地计算和卸载计算并行执行。在两阶段替代算法和三阶段替代算法中分别用于解决部分卸载和二进制卸载问题。比如用基于惩罚双分解和L0标准算法对无人机辅助M等系统部分卸载进行研究，从而最大限度地缩短总处理时间，包括传输时间、计算时间和局部计算时间。最有意思的是，仿真结果表明，当无人机在一组时间间隔内保持静止以收集数据时，可以取得更好的性能。由于无人机的机载能量有限，能耗和计算率都过重。因此，首先研究了没有时间限制的能量最小化，接着是任务完成时间最小化问题。之后，它通过Pareto最佳解决方案共同优化无人机能量和完成时间。

值得注意的是，如上述，现有的研究研究了无人机辅助MEC系统，目的是在不考虑两个方面平衡的情况下，分别尽量减少能耗和任务完成时间。此外，虽然詹等人考虑到了能耗与任务完成时间之间的权衡，但并没有考虑到整个系统的长期稳定性。深度强化学习作为一种学习方法，在长期决策中具有良好的性能，其代理人可以在不确定的环境中对序列问题做出决策。陈先生等人利用深度强化学习技术安排卸载，提高移动用户对延迟和能耗的满意度。但是，他们不考虑部分卸载，因为计算任务只能在本地设备或无人机上处理，因此，它控制和优化卸载任务的自由度要小得多。

本申请将一个具有单一无人机和移动用户的MEC系统放在三维笛卡尔坐标中，如图1所示，无人机在固定高度飞行，为移动用户提供计算服务。由于MEC服务器比移动用户具有更大的计算能力，因此移动用户可以将其计算密集型任务和延迟敏感任务卸载到无人机上，以便移动用户可以降低能源成本并加快计算速度。移动用户集由.描述。具体地说，用户可以将当前任务的卸载到UAV，并在本地设备上处理任务的1。控制代理可以规划无人机的轨迹和任务的卸载比例。为了最大限度地降低系统的总能耗，在时间中最大限度地增加完成的任务数，需要在MEC系统中定义模型，包括通信模型、卸载计算模型和本地计算模型。

表1

具体地，本申请实施例提供的一种无人机辅助移动边缘计算的任务卸载方法，如图2所示，包括如下：

101：构建通信模型，将其计算任务传输到无人机，将时间划分为N个时隙，N≥1，每个时隙对应至少一个任务；根据所述无人机在每个时隙中的离散位置指示所述无人机在第一高度的飞行轨迹；当所述无人机接近终端设备时，获得所述无人机与所述终端设备之间的能耗值和数据传输速率，并根据所述能耗值和所述数据传输速率计算传输时间和传输能耗；

102：构建卸载计算模型，利用所述卸载计算模型执行所述无人机与所述终端设备的卸载计算和本地计算，得到终端设备在虚拟队列中的等待时间，根据所述等待时间计算总时间成本，其中所述总时间成本等于传输时间汇总、卸载时间、本地计算时间中的最大值；

103：根据所述总时间成本计算无人机辅助系统的能耗总量，所述能耗总量包括：信能耗、卸载计算能耗、局部计算能耗和无人机推进能耗；

104：根据所述无人机辅助系统的能耗总量确定卸载和控制所述无人机在下一个位置的任务的百分比，按照所述任务百分比将第一任务卸载到所述无人机上。

可选的，所述方法还包括：建立局部计算模型，根据所述局部计算模型确定所述终端设备的局部计算时间和局部计算能耗；所述根据所述等待时间计算总时间成本，包括：根据所述等待时间和所述局部计算时间确定所述总时间成本。

其中，所述无人机在下一个位置的任务的百分比为，所述无人机按照时间卸载的任务的百分比。

下面对上述步骤101至104进行详细说明。

步骤101具体包括：构建通信模型：

在通信模型中，用户将其计算任务传输到无人机。将时间T划分为N个时隙，其中N＞K和τ^th时隙定义为τ∈T＝{1,2,...，N}，时隙的长度足够小。因此，每个时间段最多生成1个任务。移动用户k的位置由uk＝[xk,yk,0],k∈κ给出。在高度H水平平面上的无人机轨迹可以通过无人机在每个时隙中的离散位置来指示，该位置定义为h_τ＝[x_τ,y_τ,H],τ∈T。假设无人机在完成任务后能够返回其初始位置。因此，对无人机的飞行有以下约束作为关系式(1)。

其中方程(1)表示无人机UAV的速度必须满足无人机的最大速度约束υ_max。

由于无人机在移动用户接近时飞来飞去，无人机与移动用户通信之间有视线(Line of sight，LoS)链路和无视线(Non-Line of sight，NoS)链路。定义P^LoS无人机和移动用户之间的LoS链接概率，该概率的计算可以从中检索，给定为关系式(2)，也可以从α和β环境相关的变量中获得。

基于无人机和移动用户k之间的传递损耗表示为关系式(3)。

其中c是光速，f_c是载波频率，参数ηLoS和ηNLoS表示LoS和NLoS链路的环境相关损耗，因此，移动用户对无人机的数据传输速率为关系式(4)表示。

其中，Β表示带宽，p_τ,k表示移动用户k在τ^th时隙的传输功率，σ²表示噪声功率。

假设D_τ,k位数据需要在τ^th时隙为移动用户k计算，d_τ,k以指示通过用户k卸载的计算位与无人机在τ^th时隙的比率。因此，在通信模型中，传输时间和传输能耗分别通过方程(5)和方程(6)计算。

步骤102，具体包括：构建卸载计算模型：

在传输卸载的计算任务后，无人机和移动用户执行卸载计算和本地计算，C_τ,k表示为计算每个位数据所需的CPU周期，因此，计算时间

和

关闭可以计算：

其中，f_UAV表示安装在无人机上的MEC服务器的CPU频率，k＝10^-26是一个硬件相关的常量，无人机具有节省能源的空闲状态，以及处理任务的运行状态。

由于多个任务由许多移动用户传输到无人机，因此传输任务会有等待时间。假设无人机中存在虚拟队列Λ，该虚拟队列Λ将基于先到先得的规律提供。一种算法决定队列头任务的下一个时间段的卸载比例和无人机位置。假设有一个a-1任务等待此虚拟队列，则当前任务将作为a^th元素添加到该虚拟队列中，因此，可以计算出用户k的等待时间如关系式(9)所示，

在卸载计算模型中，总时间成本可作为方程(10)给出：

局部计算模型：

类似于卸载计算模型的计算过程，在给定移动用户k的CPU的频率f_k，就可以在方程(11)和方程(12)中得出局部计算时间和局部计算能耗。

总时间和精力：

总时间成本等于传输时间汇总、卸载时间、本地计算时间中的最大值，如关系式(13)。

需要注意的是，对于每个任务，Δ_τ,k定义为过期时间，如果

总计时超过该过期时间，则认为算法未能完成此任务，因为任务已过期。

上述步骤103，包括：

无人机辅助MEC系统的能耗总量包括：通信能耗、卸载计算能耗、局部计算能耗和无人机推进能耗。上述实施例中描述了前3种能耗，方程(15)表示其计算如下：

其中ξ＝0.5MT/N，M表示无人机的质量，包括有效载荷，因此，用于使用时间段τ^th的总能耗为：

步骤104具体包括：

在该无人机辅助MEC系统中，为了最大限度地减少总能耗和时间消耗，同时，在任务到期时间之前完成的任务数最小化，提出的目标问题如下：

其中，λ₁和λ₂是规范化因子，ω∈[0,1]是平衡已完成的任务和能耗的比例术语；为了澄清这一点，此处再次对E_τ,k和

进行定义。E_τ,k和

总计定义为在时间步进时τ^th成本，并且F_τ,k是一个标志值，描述任务是否在过期时间之前处理。它可以分配值1，如果总时间成本小于最大容差，和0，否则，由以下关系式给出：

其中，

总计是方程(7)中显示的总消耗量。

应理解，本示例中，如果只关心E_τ,k的最大容差和响应速度之前是否处理过任务，则可以删除E_τ,k项。但是，可能还希望通过牺牲响应时间来延长无人机的使用寿命，因此，可选的，将时间成本和能源消耗降到最低更为合理。

尽管目标优化问题是直观的，但获得最佳解决方案相当具有挑战性。首先，由于MEC性质的复杂性，协调器无法完全观察MEC网络环境及其状态。此外，UAV-MEC网络的变量和限制过于复杂，不能正式化为标准优化问题，并采用传统的优化方法解决。因此，制定优化问题为马尔科夫决策过程(Markow Decision Process，MDP)，以便它可以适应强化学习。进一步地，可以用深度强化学习(Deep Reinforcement Learning，DRL)方法得出目标问题的最佳解决方案。

在此工作中，由于考虑MDP具有有限数量的状态，并且终端状态定义为MEC服务器过载，无法处理新到达的任务。实际上，当MEC服务器上的任务等待时间超过阈值时，可以考虑终止一个插曲。为了简单起见，本实施例假设无人机在完成所有任务后仍然有足够的能量回到其初始状态。

如上所述，为了解决DRL方法的目标问题，需要使用MDP框架形成问题，并指定状态、操作、奖励和转换概率。在系统中，如前所述，每个情节都包含一组状态。从系统描述中，可以知道状态相当复杂，因为它包含用户设备状态、任务配置文件、网络信道分布以及无人机的各种参数。如果首先定义每个情节中的MDP由一组状态描述，由：

S＝{s₁，s₂，...，s_τ，...，s_N} (18)

其中s_τ∈S是时隙τ和s_τ中的一般状态，等价于{f_k，f_UAV，Ω_τ，k，τ_τ，k，h_τ，Λ_Λ}，其中f_k和f_UAV分别是k^th用户和UAV的CPU频率；Ω_τ，k定义为移动用户k上第一个任务的信息，由Ω_τ，k＝{D_τ，k，C_τ，k，Δ_τ，k}；r_τ，k表示移动用户k到无人机的当前传输速度；h_τ是UAV在时间步T上的位置；Λ_τ是在时间步T上UAV的任务队列状态。

状态根据已执行的操作和MEC网络的内部转换概率进行传递，每个操作包含两个部分，包括：确定卸载和控制无人机下一个位置的任务的百分比。一般可以定义为：

a_τ＝{d_τ，k，h_τ+1}， (19)

其中d_τ，k是按时间步骤τ卸载的任务的百分比。换句话说，是将任务的d_τ，k卸载到无人机，并在本地设备上卸载1-d_τ，k进程；h_τ+1决定无人机的下一个位置。注意，每当以当前状态为条件执行操作时，MDP环境状态都会更改。

在考虑环境转换时，假设通道增益在时间段期间不会改变，所以当无人机移动到新位置时，数据传输速度r_i，k会发生变化，因为r_i，k取决于距离和通失。假设在无人机飞行时通道增益不会发生变化，则MEC网络的过渡概率可以按照以下方面给出，参见关系式(20)：

其中，s和s′是当前状态和下一个状态，此外，概率的总和等于1。

∑p(s′_τ，R_τ|s_τ，a_τ)＝1. (21)

此外，当对一组卸载任务(通常称为DRL中的奖励)执行操作时，可以计算从MEC网络到DRL模型的反馈。具体来说，反馈是通过一步操作获得的代理的一步奖励，该步骤操作描述为过期前已完成的任务数减去相应的能源和时间消耗，表述为：

此关系式指示卸载任务在过期前已处理时表示F_T，代理被授予，代理人会因能源和时间消耗而受到惩罚。能量E_T和时间

总消耗值已使用对数函数平滑，因为如果使用原始值，学习模型可能会受到能量波动和耗时反馈的影响。此外，C是一个小的常量值，以鼓励模型继续运行，并随着时间的推移步数积累奖励。其他参数的解释在方程(16)中定义。

为了最大限度地提高所提议的模型的长期累积回报，评估每个行动，并预期的长期奖励，这可以通过以下方法提供：

其中R_τ是即时奖励，而γG_τ+1是可以通过关系式(24)计算的折扣长期奖励。γ表示未来奖励的折扣，γ∈[0,1]。

当k＝0时，反馈是R_τ的即时奖励；虽然γ＝1和k＞0，但未来的奖励不会打折。由于环境仅在交互和学习期间向学习代理提供即时奖励，因此预期的未来奖励通常通过策略π生成，该政策是一系列与一组状态对应的操作。

状态的预期值执行操作称为操作值函数Q(s,a)，最大值Q(s,a)称为最佳操作值函数Q^*(s,a)，由以下面公式(25)提供：

其中，目标问题相当于找到最佳策略π^*，可以最大化预期的长期回报。实际上，有不止一个最佳策略，本示例中包括但不限制需要找到所有最佳策略。

建议方法

本实施例中通过深度强化学习(DRL)寻找最优策略，从而最大化预期的长期回报。通常，在状态空间和动态空间离散的情况下，强化学习通过Q-table来检索最优策略来解决决策问题，具有良好的性能。而上述的无人机辅助系统的状态空间是连续的。

一种可能的方法是，通过离散化方法使用离散值来表示连续状态空间。但是，这将导致巨大的状态空间或不合理的解决方案，这对于平衡这两个因素是极具挑战性的。此外，当在离散状态空间时，如果增加分辨率来提高离散精度，搜索空间将呈指数增长。另一方面，它有很高的概率导致模型发散。

第一、强化学习

为了介绍在这项工作中的DRL算法，需要解释如何在目前基于无人机的MEC网络中应用强化学习(RL)框架。首先，制定了一个无人机辅助的MEC网络为马尔科夫决策过程(MDP)，这意味着当前的环境状态只受到最后的状态的影响，而不受前面步骤的影响。因此，代理可以基于当前状态做出决策，因为只有当前状态才能影响环境的下一个状态。在此之后，代理可以探索MDP环境以积累经验。同时，基于它的经验，代理做出最好的决定，称为exploitation(利用已有信息最大化reward)。理想情况下，代理可以探索上述MDP中的所有可能状态，并为每种状态搜索所有可能的操作。此外，还可以通过时间差分学习的迭代方法来获得最优策略。具体地，优化问题的目标可以考虑为模型寻找最优的行动值，所述动作值可定义为：

最优值Q^*(s,a)能够被推导出迭代次数趋近于无穷，Qτ→Q asτ→∞,同时Q^*(s,a)赋值：

然而，几乎不可能探索所有可能的状态并找到所有状态的最优操作值，因为这些状态包含连续的组件。此外，不能迭代大约无限时间步长，因为会花费大量的计算资源和时间来训练模型。因此，需要采取近似函数来代替状态特征图谱，初略估计强化学习中的Q-table来减少研究空间。此外，还可以用合理的计算资源和时间对模型进行训练，使模型达到最优点。考虑到无人机移动边缘卸载计算的复杂性，可以采用引入的人工神经网络作为估计器，来替代简单的线性估计器。

通过该估计器，利用通用策略迭代(general policy lteration，GPI)可以得到最优策略。具体地，迭代了以下两个步骤:

直到|Q′(s，a)-Q(s，a)|＜ξ，其中δ是学习速率，ξ为收敛阈值。让Q(s_τ，a_τ；θ)成为Q函数参数化为θ。损失函数可以定义为：

然后进行梯度下降，使损失最小化，更新深度学习模型的参数，

其中，δ是学习速率。

第二、深度强化学习

深度强化学习介绍了使用深度神经网络代替Q学习网络(Q-learning network，DQN)作为近视者。尽管用深度神经网络替换RL算法中的Q表似乎很直观，且监督学习有正确的答案(标签)，但是RL必须从连续的、可评估的、连续的反馈中学习正确的答案。换句话说，与监督学习不同，RL的标签数据来自RL迭代更新，因此，标签数据在每次迭代中都在变化。

标签数据是一个评分，用于评估基于当前状态所做的操作。由于环境噪声的反馈，该模型在开发和勘探过程中会产生振荡。为了应对这一挑战，DQN使用目标网络来备份深度Q网络并在某些情节中固定权重(即固定法)。

卸载系统和DRL代理学习过程的一般过程如图3所示。

首先，用户将准备好的卸载任务的配置文件发送到卸载控制系统，该系统表示为卸载系统中的环境。

其次，每当环境接收到任务概要文件时，它就收集移动边缘计算网络的当前状态。

第三，DRL代理也驻留在UAV上，它根据来自环境的观察信息采取措施。

第四，环境将MEC网络的下一状态反馈给DRL代理相应的行动，该反馈可以被认为是对行动的评价，而该反馈也知道为一种奖励。

其中，在DRL代理中有两个深度神经网络，分别称为本地网络和目标网络。本地网络产生对环境的行动。

最后，控制代理(环境)执行动作，决定任务的比例允许卸载给无人机并驱动它到新的位置。

C.培训进程

在实施例中，详细介绍了DRL代理如何在无人机基础的MEC网络中进行训练。整个过程如图3所示，训练算法如所示。

首先，创建了经验重播缓冲区来存储收集的数据。如图3所示，每当代理采取行动并与环境交互时，系统都会生成一条记录。每个记录都包含当前状态S_τ，已执行动作a_τ，以及奖励r_τ和下一个状态S_τ+1，形成为元组＜S_τ,a_τ,r_τ,S_τ+1＞。

体验应答缓冲区是具有固定长度的类队列缓冲区；新的记录将存储到缓冲区中，当缓冲区已满时，它将丢弃最旧的记录并保留最新的记录。经验响应缓冲区对于学习DRL至关重要，并且可以收敛到健壮的策略，因为在传统的RL中只使用一次样本是很浪费的。此外，对深度学习模型进行多次深度学习的训练也很常见；深度学习中的时代数定义了用相同的训练样本训练模型。该模型可以更快地收敛，并从对鲁棒策略非常重要的稀有样本中学习。

此外，尽管使用MDP框架来制定MEC网络环境，但想要解耦学习和交互过程中的顺序依赖性。最后，可以通过从经验缓冲中提取批量样本来降低训练样本的噪声，而不是一次性使用单一的训练样本。

其次，定义了表示q值函数的深度神经网络(deep Q-Network)。网络的输入和输出大小被设置为等于状态空间和动作空间，因为输入将是状态，而输出是可用动作的概率。目标网络是通过复制DQN创建的。网络的两份拷贝有不同的训练目的。第一个副本通常称为本地网络，负责与环境交互并生成训练数据样本。目标网络对训练至关重要，因为它可以防止学习模型受到环境反馈噪声的振荡。在训练过程中，该模型试图使目标网络和本地网络的Q值之间的损失最小。令

是来自目标网络的最佳值，输出可以由下式给出：

换句话说，模型使用目标网络的值来监控本地网络，防止发生振荡，因此实际损耗根据DQN函数可得：

已经内化了一个分数窗口来平滑奖励分数。由于移动边缘计算网络系统的复杂性和噪声反馈，其回报仍然是相当的噪声；因此，用当前窗口中所有奖励的平均分数来评估模型更可靠。分数窗口是一个队列，它会随着训练的进行更新；当队列满时，分数窗口将丢弃旧分数并保留最新的分数。

算法通过开始一集来训练模型。定义了当UAV服务器已满时，一集结束，这表示等待时间超过阈值。每当开始新的一集，都必须重置MEC网络环境。如前一节所述，希望模型保持UAV服务器在没有爆炸的情况下运行。在状态特征被输入模型之前，状态特征已经被预先占有。特征值尺度差异较大，会导致模型对数值显著的特征产生偏差。但是，不太关键的特征，忽略了小数值所代表的关键特征。因此，在将状态和输入连接到一起之前，已经对状态的组件进行了规范化。

代理通过合并∈—greedy算法开始与移动边缘计算环境和本地网络进行交互。每个交互产生一个体验元组，包括当前状态，动作，奖励和下一个状态，表示为(S，A，R，S′)；这些经验元组被收集并存储在经验缓冲区中，用于训练本地网络。注意学习代理在给定当前状态和策略的情况下以1-∈的概率选择最佳动作，并以概率采取随机动作。为了平衡探索和开发，随着时间的流逝，会衰减，因为希望模型在训练开始时比后面的事件花更多的时间探索环境。由于模型对环境有更多的了解，希望学习代理更多地利用经验，而不是探索。

最后，代理抽取体验的样本批次，对应答缓冲区进行元组，并对本地网络进行培训。如上所述，学习主体试图将损失最小化在本地网络和目标网络的输出之间。在梯度下降的每一步中，局部网络的权值都会更新。在原有的DQN方法中，算法每N步更新一次目标网络，用局部网络的权值覆盖目标网络的权值。在本实施例中，采用了由lillicrap等对目标网络进行了平滑更新，代替了固定方法，每N步进行一次又意义的更新。具体来说，目标网络会使用一小部分更改局部权重折扣ρ进行更新。采用Adam算法来优化损失函数并更新局部权重。

其中，在上面的步骤和训练步骤中生成训练数据块可以首先执行，然后再进行其他步骤，因此，可以运行服务器的时间训练和单时间数据生成步骤。此外，也可以同时运行。

总之，该算法开始初始化回放缓冲区、本地网络、目标网络和分数窗口大小。算法在每一集重置MEC网络，学习代理与环境进行交互，生成训练数据并存储到经验缓冲区中。DRL代理可以从经验缓冲区提取样本数据并训练本地网络。每N次步进后目标网络都会被本地网络覆盖。

本申请实施例还提供了另一种任务卸载方法，应用于一种任务控制系统，所述方法包括：

本申请最大限度地提高了系统稳定性，并最大限度地减少了无人机辅助MEC系统的能耗和计算延迟。仿真结果表明，该方法优于现有工作，具有较好的可扩展性。具体地，包括以下有益效果：

通过定无人机辅助MEC系统的配重和能耗，认为一个集中的问题，并且移动用户的信息被部分收集到虚拟控制面板上；根据收集到控制面板的信息，控制中心(DRL代理)决定在下一步任务转移比率和无人机位置。然后，将此系统环境作为马尔科夫决策过程(MDP)进行制定。

将无人机辅助MEC系统作为集中决策问题制定后，控制中心需要从移动用户中确定每个任务的任务转移比例。在不确定性环境下，它可以看作是一个顺序决策问题。因此，采用深度Q学习网络(DQN)来共同优化无人机轨迹和任务转移比率，同时最大限度地提高系统的稳定性，最大限度地降低无人机辅助MEC系统的总计算时间和能耗。

此外，与之前对无人机辅助MEC系统的研究不同，该方法同时优化了整个系统的能耗、计算时间、完成的任务计数和系统的工作负载平衡。所提供的模型是端到端的学习模型，并且不需要根据输出进行进一步的优化。

最后，仿真结果表明，与贪婪算法相比，该方法可以显著降低整个系统的计算时间和能耗。此外，在给定的无人机辅助MEC网络下探讨了DQN的参数。

此外，本申请还一种无人机辅助移动边缘计算的任务卸载装置，如图4所示，该装置包括：构建单元401、处理单元402和计算单元403，此外，该装置还可以包括其他单元或模块，比如存储单元、收发单元等，本实施例对此不作限定。

其中，构建单元401，用于构建通信模型；处理单元402，用于将其计算任务传输到无人机，将时间划分为N个时隙，N≥1，每个时隙对应至少一个任务；根据所述无人机在每个时隙中的离散位置指示所述无人机在第一高度的飞行轨迹；当所述无人机接近终端设备时，获得所述无人机与所述终端设备之间的能耗值和数据传输速率，并根据所述能耗值和所述数据传输速率计算传输时间和传输能耗。

所述构建单元401，还用于构建卸载计算模型；处理单元402，还用于利用所述卸载计算模型执行所述无人机与所述终端设备的卸载计算和本地计算，得到终端设备在虚拟队列中的等待时间，根据所述等待时间计算总时间成本，其中所述总时间成本等于传输时间汇总、卸载时间、本地计算时间中的最大值；

计算单元403，用于根据所述总时间成本计算无人机辅助系统的能耗总量，所述能耗总量包括：信能耗、卸载计算能耗、局部计算能耗和无人机推进能耗；所述处理单元402，还用于根据所述无人机辅助系统的能耗总量确定卸载和控制所述无人机在下一个位置的任务的百分比，按照所述任务百分比将第一任务卸载到所述无人机上。

可选的，所述构建单元401，还用于建立局部计算模型，根据所述局部计算模型确定所述终端设备的局部计算时间和局部计算能耗；

所述处理单元402，还用于根据所述等待时间和所述局部计算时间确定所述总时间成本。

此外，在另一个实施例中，还提供了一种任务卸载装置，应用于一种任务控制系统，所述装置包括：

卸载单元，用于将卸载任务的配置文件发送到任务控制系统，该系统为卸载任务提供环境。

获取单元，用于当所述任务控制系统接收到所述配置文件时，获取移动边缘计算网络的当前状态。

所述获取单元，还用于获取代理模块根据所述环境中的观察信息采取相应的行动措施，所述代理模块位于无人机上。

处理单元，用于将所述移动边缘计算网络的下一状态反馈给所述代理模块，所述反馈包括对所述行动措施的评价；执行所述行动，决定任务的比例并卸载给无人机，以及驱动所述无人机到目标位置。

另外，本申请实施例还提供了一种通信装置，该通信装置可以是上述实施例中所涉及的任务卸载装置、或所述任务卸载装置的一部分，用于实现前述实施例所述的方法。

如图5所示，通信装置包括处理器110、收发器120和存储器130。此外，还可以包括其他器件或模块，比如摄像头、传感器、至少一个接口等。其中，存储器130与处理器110耦合，存储器130中存储该通信装置必要的计算机程序。

其中，处理器110可以由集成电路(Integrated Circuit，IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。

可选的，所述处理器110为一种处理芯片或芯片电路。

收发器120可以包括接收机、发射机与天线等部件，或者还可以包括收发模块，比如蓝牙模块、基带(base band)模块等通信模块，射频模块等，并且可以支持直接内存存取(direct memory access)。

存储器130可以包括易失性存储器(volatile memory)，例如随机存取内存(Random Access Memory，RAM)；还可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(Hard Sisk Drive，HDD)或固态硬盘(Solid-StateDrive，SSD)；存储器还可以包括上述种类的存储器的组合。所述存储器中可以存储有程序或代码，处理器110通过执行所述程序或代码可以实现所述通信装置的功能。

在上述实施例中，可以全部或部分通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现，本实施例不予限制。例如，在前述图4所示装置实施例中的构建单元401、处理单元402和计算单元403的功能可以由处理器110来实现，或者由处理器110控制的收发器120实现；另外，存储单元的功能可以由存储器130实现。

本申请还提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机程序指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请上述各个实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

此外，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的无人机辅助计算卸载方法中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体ROM或随机存储记忆体RAM等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种无人机辅助移动边缘计算的任务卸载方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

建立局部计算模型，根据所述局部计算模型确定所述终端设备的局部计算时间和局部计算能耗；

所述根据所述等待时间计算总时间成本，包括：

根据所述等待时间和所述局部计算时间确定所述总时间成本。

3.根据权利要求1或2所述的方法，其特征在于，所述无人机在下一个位置的任务的百分比为，所述无人机按照时间卸载的任务的百分比。

4.一种任务卸载方法，其特征在于，应用于一种任务控制系统，所述方法包括：

5.一种无人机辅助移动边缘计算的任务卸载装置，其特征在于，所述装置包括：

构建单元，用于构建通信模型；

所述构建单元，还用于构建卸载计算模型，

6.根据权利要求5所述的装置，其特征在于，

所述构建单元，还用于建立局部计算模型，根据所述局部计算模型确定所述终端设备的局部计算时间和局部计算能耗；

7.根据权利要求5或6所述的装置，其特征在于，所述无人机在下一个位置的任务的百分比为，所述无人机按照时间卸载的任务的百分比。

8.一种任务卸载装置，其特征在于，应用于一种任务控制系统，所述装置包括：

9.一种通信装置，其特征在于，包括处理器和存储器，所述处理器和存储器耦合，

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的指令，使得所述通信设备执行如权利要求1至3，或权利要求4中任一项所述的方法。

10.一种计算机可读存储介质，所述存储介质中存储有指令，其特征在于，

当所述指令被运行时，实现如权利要求1至3，或权利要求4中任一项所述的方法。