CN115002123B

CN115002123B - 基于移动边缘计算的快速适应任务卸载系统和方法

Info

Publication number: CN115002123B
Application number: CN202210579266.0A
Authority: CN
Inventors: 赵康利; 戴朋林; 胡凯文; 吴晓; 邢焕来
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-05-05
Anticipated expiration: 2042-05-25
Also published as: CN115002123A

Abstract

本发明公开了一种基于移动边缘计算的快速适应任务卸载系统和方法，系统包括：应用层、车辆层和MEC层；应用层的子任务被卸载到MEC服务器或本地车辆上运行，车辆层的每辆车辆都在本地对部分子任务进行处理。MEC层根据定义好的任务卸载方法为所有子任务进行卸载排序，并按卸载顺序依次为每个子任务进行卸载调度。方法包括：采样出多个任务卸载场景。针对特定的场景，训练出与之对应的任务卸载策略。对于每个场景，初始化本地目标策略和网络参数。根据本地采样策略选择并执行动作，获得奖励，收集经验轨迹。更新目标策略网络参数。对全局策略的网络参数进行更新。本发明的优点是：更加稳定，少量训练就能实现对环境的良好探索，具有更好的卸载效果。

Description

基于移动边缘计算的快速适应任务卸载系统和方法

技术领域

本发明涉及移动边缘计算技术领域，特别涉及一种基于移动边缘计算的快速适应任务卸载系统和方法。

背景技术

在过去的十年里，随着云计算的出现，车联网也获得了快速的发展，并日益流行起来。其中，车辆需要分析和融合来自传感器的大量数据，以便做出安全的决定。与此同时，一些车载应用，如自动驾驶、增强现实和交通控制等都需要大量的存储容量和计算资源，然而，传统的车联网无法满足这些应用的需求。移动云计算通过在云端集成大量具备强大计算能力的服务器，为移动设备提供了丰富的存储和计算资源。但由于高延迟、安全漏洞、低覆盖率以及滞后的数据传输等问题，移动云计算也面临着巨大的挑战，这些挑战在下一代移动网络中可能会变得更加难以解决。此外，移动数据的爆炸性增长将进一步增加回程网络的通信负载，因此，移动云计算不适合需要进行实时数据处理的车载应用。

移动边缘计算(MEC)是一种解决上述问题的有效的计算范式。在MEC中，云计算服务被下移至网络边缘处，通过在道路网络旁边为车辆提供计算和存储资源，大大地减少了应用延迟并节省了车辆能耗。然而，在基于MEC的服务体系架构中，MEC服务器的资源仍然有限，多个移动用户对资源的竞争可能会导致任务遭受极高的通信和计算延迟。并且不同车载应用的资源需求不同，因此一个简单的任务卸载策略无法满足所有应用的性能需求。除此之外，MEC服务器的资源具有异构性，并且随着场景的改变而变化，这很容易导致工作负载在不同MEC 服务器之间的分布不均衡。因此，设计一种能够同时适应不同服务需求或快速适应新服务需求的任务卸载算法是一个亟需解决的问题。

现有技术一

遗传算法(GA)Guo Y,Mi Z,Yang Y,et al.An energy sensitive computationoffloading strategy in cloud robotic network based on ga[J].IEEE SystemsJournal, 2018,13(3):3513-3523.

现有技术一的缺点

1.遗传算法的编码缺乏统一的标准，容易出现不准确的问题；

2.遗传算法容易出现过早收敛的问题；

3.遗传算法的求解效率和精度通常较低；

4.不能适应动态变化的任务卸载环境，每次调度需要重新运行算法，并且无法为具有不同需求的任务做出统一的卸载决策；

现有技术二

启发式算法Hou X,Ren Z,Wang J,et al.Reliable computation offloadingfor edge-computing-enabled software-defined IoV[J].IEEE Internet of ThingsJournal, 2020,7(8):7097-7111.

现有技术二的缺点

1.启发式算法需要专家的先验知识，算法的性能会受到实际问题以及设计者经验的影响；

2.启发式算法的求解效率低，算法性能不稳定；

3.启发式算法不能适应动态变化的任务卸载环境，每次调度需要重新运行算法，并且无法为具有不同需求的任务做出统一的卸载决策。

发明内容

本发明针对现有技术的缺陷，提供了一种基于移动边缘计算的快速适应任务卸载系统和方法。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于移动边缘计算的任务卸载系统，包括：应用层、车辆层和MEC层；

所述应用层包括：多种任务，任务都被表述为一个有向无环图(DAG)，任务中包括多个子任务，其中子任务由顶点表示，子任务之间的依赖关系由两个顶点之间的有向边表示。此外，只有在接收到子任务本身的相关信息以及所有父节点的处理结果后，子任务才能开始运行。用DAG的拓扑结构、子任务之间的依赖数据大小和所需的计算资源来刻画任务的特征，这些特征随着任务类型的改变而变化。子任务是最基本的卸载单元，每个子任务都可以被卸载到MEC服务器或本地车辆上运行。

所述车辆层包括多辆运行着不同类型的车载任务的车辆，并且每辆车辆都可以在本地对部分子任务进行处理。其余的子任务必须通过无线信道被上传到附近的MEC服务器上进行处理。车辆具有两个队列：其中，本地计算队列用于存储将被本地处理器处理的子任务，本地传输队列用于存储将被传输到MEC服务器的子任务。车辆单独或同时对子任务进行计算和传输。在每次调度时，车辆都会封装子任务的相关信息，并将其发送给MEC服务器；相关信息包括：子任务本身的数据大小和所需的计算资源量。

所述MEC层包括无线基础设施和MEC服务器，其中，MEC服务器位于无线基础设施旁边，MEC服务器拥有多个处理器和无线子信道，能够为附近的车辆提供计算和通信服务。另一方面，MEC服务器还起着调度器的作用，能够为车辆到基础设施(V2I)通信范围内的所有子任务做出卸载决策。更为具体地，首先， MEC服务器接收车辆传输过来的子任务相关信息，然后，在每次调度时，MEC 服务器根据定义好的任务卸载方法为所有子任务进行卸载排序，并按卸载顺序依次为每个子任务进行卸载调度。

进一步地，所述应用层包括：车辆导航任务、人脸识别任务和增强车辆现实任务；

车辆导航任务用于为车辆提供路径搜索和路径规划服务；

人脸识别任务用于根据采集到的含有人脸的图像或视频流，自动检测和跟踪人脸，进而对人脸进行识别，从而确定人物身份。

增强车辆现实任务用于将导航和辅助驾驶等虚拟信息与实景相结合，为用户提供更自然的交互。

进一步地，增强车辆现实任务包括：目标跟踪、目标识别、透视变换和融合处理等多个处理子任务。

进一步地，人脸识别任务包括：复制图像、图像检测、特征融合、分裂识别和展示结果等多个子任务。

进一步地，车辆导航任务包括：输入目的地、获取GPS坐标、获取最优路径、获取交通状况、生成路径等多个子任务。

本发明还公开了一种基于移动边缘计算的快速适应任务卸载方法，包括以下步骤：

按照任务分布ρ(T)采样出多个任务卸载场景。然后，在本地训练循环中，针对特定的场景T_i，训练出与之对应的任务卸载策略。对于每个T_i，首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数，并清空经验池。之后，根据本地采样策略选择并执行动作，获得奖励，收集经验轨迹。接下来，本地训练根据公式(1-1)更新目标策略网络参数m次。全局训练中根据公式(1-2) 对全局策略的网络参数进行更新，其中θ为全局策略的初始网络参数，为在场景T_i中训练并且更新之后的网络参数，α为本地训练的学习率，m为本地训练的更新次数，J(θ)为目标函数，n为采样的任务卸载场景数量。

重复上述步骤直至算法终止，获得具有快速适应能力的元卸载策略。通过将元卸载策略的网络参数作为初始参数，并且在少量的本地训练迭代后，就能够生成适用于新的任务卸载场景的策略。

进一步地，所述方法基于Seq2Seq的强化学习模型，将多任务卸载问题考虑为多个马尔科夫决策过程(MDP)，其中每个场景T_i对应于一个MDP；

MDP的基本元素设计如下：

设参数：某个场景T_i，车辆任务的DAG，R个上传子信道带宽ω₁,ω₂,…,ω_R，下行信道带宽ω_d，本地车辆的计算能力f_v和M个MEC服务器的计算能力 f₁,f₂,…,f_M。

a.系统状态定义如下：

S＝{s_t|s_t＝(e,a_1:t-1)},t∈[1,N] (1-3)

其中，e为任务的特征表示，a_1:t-1为前t-1个子任务的卸载选择，N代表子任务总数。

为了转换DAG为序列，根据子任务的层级对其进行卸载排序；

用e＝[e₀,e₁,…,e_j,…,e_N-1]代表任务的特征表示，其中，e_j代表子任务t_v,p的特征表示，t_v,p的卸载索引为j。

e_j的定义如公式(1-4)所示：

其中e_j包括子任务卸载索引I_v,p、子任务的自身数据大小子任务所需的计算资源量c_v,p、处理器处理速率f_v,f₁,…,f_M和子信道带宽ω₁,…,ω_R。

b.动作空间：采用如公式(1-5)所示的R×M+1维二元向量来表示时间步t的卸载动作，其中，a_tk,k＝(r-1)×M+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务。特别地，a_t0＝1表示子任务在本地车辆上进行计算。

a_t＝[a_t0,a_t1,…,a_tk,…] (1-5)

c.奖励函数：奖励被定义为之前子任务t_v′,p′的计算完成时间CE(t_v′,p′)与目前子任务t_v,p的计算完成时间CE(t_v,p)的差，如公式(1-6)所示：

其中，t_v′,p′在t_v,p之前被调度。

进一步地，所述根据子任务的层级对其进行卸载排序的规则为：位于更低层级的子任务的调度优先级更高，并且拥有更小的卸载索引，位于相同层级的子任务，其调度优先级随机分配。具有更高调度优先级的子任务可以在队列中优先被传输或计算。

进一步地，所述基于Seq2Seq的强化学习模型包括：编码器和解码器；

所述编码器由一个双向门控循环单元(BiGRU)组成，用和分别表示 BiGRU的前向和反向函数。编码器根据卸载索引的升序对子任务进行循环编码然后输出向量如公式(1-7)所示：

所述解码器由一个注意力GRU构成，用h_dec表示GRU的解码函数。用d_j表示解码器对卸载索引为j的子任务的输出，该输出由上下文向量c_j、前一个卸载动作a_j-1和前一个输出d_j-1共同决定，如公式(1-8)所示：

d_j＝h_dec(d_j-1,c_j,a_j-1) (1-8)

其中，c_j是由注意力机制生成的上下文向量，用于对卸载索引为j的子任务的动作进行预测；

进一步地，所述注意力机制由一个前向神经网络实现。c_j的计算方法如公式 (1-9)所示，其中，α_jk是衡量对输出d_j贡献程度的权重，它能够对子任务之间的内在关系进行准确评估。

进一步地，所述本地训练中，PPO通过重要性采样将在线训练过程转化为离线训练过程。PPO中存在着目标策略π_θ和采样策略π_θ′两种不同的策略。

首先，π_θ′在采样之前被初始化为π_θ，然后，基于采样策略π_θ′，PPO生成经验轨迹数据，并使用这些数据对目标策略π_θ进行更新。此外，PPO还在目标函数中增加了KL散度和PPO-clip两项内容以使得训练更加稳定，如下所示：

其中，μ代表KL散度KL(θ,θ′)的权重，KL散度对π_θ和π_θ′之间的差异进行评估，从而减少两种策略之间的差距。裁剪函数将Pr_t的值限制在区间 [1-ε,1+ε]内，从而避免参数的过度更新。Pr_t代表在时间步t时目标策略π_θ和采样策略π_θ′的概率比值，如公式(1-11)所示。是时间步t时的优势函数值，采用一般优势估计(GAE)作为优势函数，如公式(1-12)所示。

其中，γ代表奖励折扣因子，λ用于平衡的方差和偏差，V(s_t)为状态值函数，表示从s_t开始的未来期望累积折扣奖励。然后，状态值函数的损失定义如下。

基于公式(1-10)和公式(1-13)，PPO的目标函数如公式(1-14)所示，其中η为状态值损失函数系数。PPO的更新公式如公式(1-15)所示，其中α是本地学习率。

J(θ)＝J^P(θ)-ηJ^V(θ) (1-14)

进一步地，所述全局训练中，基于元学习框架来训练一个全局模型，设新的任务卸载场景T_i。公式(1-16)为元学习的目标函数，其中J_Ti(θ)是公式(1-14) 中任务T_i的目标函数。公式(1-17)为全局模型的参数更新函数，其中β是全局训练的学习率。

公式(1-17)中的参数更新需要进行二次求导，使用一阶近似方法来解决该问题，如公式(1-18)所示，其中，m为本地训练的更新次数，n表示采样任务数。

与现有技术相比，本发明的优点在于：

1.基于强化学习，不需要先验的专家知识，并且算法的性能不会受到初始参数的影响，算法更加稳定。

2.可以快速适应新的任务卸载场景，即只需要在少量的训练之后就能实现对环境的良好探索，不需要从头开始进行大量且耗时的训练。

3.可以发现子任务之间的数据依赖关系，因此能够取得更好的卸载效果。

附图说明

图1是本发明实施例一种基于移动边缘计算的任务卸载系统结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

如图1所示，一种基于移动边缘计算的任务卸载系统，包括：应用层、车辆层和MEC层；

所述应用层包括多种不同类型的车载任务，如车辆导航、人脸识别和增强车辆现实等，这些任务都可以被分解为多个模块，如增强车辆现实包括目标跟踪、目标识别、透视变换和融合处理等模块。因此，每个任务都可以被表述为一个有向无环图(DAG)，其中子任务由顶点表示，子任务之间的依赖关系由两个顶点之间的有向边表示。此外，只有在接收到子任务本身的相关信息以及所有父节点的处理结果后，子任务才能开始运行。用DAG的拓扑结构、子任务之间的依赖数据大小和所需的计算资源等来刻画任务的特征，这些特征随着任务类型的改变而变化。在本系统中，子任务是最基本的卸载单元，每个子任务都可以被卸载到MEC服务器或本地车辆上运行。

所述车辆层包括多辆运行着不同类型的车载任务的车辆，并且每辆车辆都可以在本地对部分子任务进行处理。然而，车辆计算能力不足，无法完成所有子任务，因此，其余的子任务必须通过无线信道被上传到附近的MEC服务器上进行处理。车辆具有两个队列：其中，本地计算队列用于存储将被本地处理器处理的子任务，本地传输队列用于存储将被传输到MEC服务器的子任务。车辆可以同时对子任务进行计算和传输。在每次调度时，车辆都会封装子任务的相关信息，如子任务本身的数据大小和所需的计算资源量，并将其发送给MEC服务器。

所述MEC层包括无线基础设施和MEC服务器，其中，MEC服务器位于无线基础设施旁边，其拥有多个处理器和无线子信道，能够为附近的车辆提供计算和通信服务。另一方面，MEC服务器还起着调度器的作用，能够为车辆到基础设施(V2I)通信范围内的所有子任务做出卸载决策。更为具体地，首先，MEC服务器接收车辆传输过来的子任务相关信息，然后，在每次调度时，它根据定义好的任务卸载方法为所有子任务进行卸载排序，并按卸载顺序依次为每个子任务进行卸载调度。

步骤1，基于Seq2Seq的强化学习模型设计

本发明考虑同时对多个不同任务卸载场景的任务运行时间进行优化，用如下一组参数来描述其中的某个场景T_i：车辆任务的DAG，R个上传子信道带宽ω₁,ω₂,…,ω_R，下行信道带宽ω_d，本地车辆的计算能力f_v和M个MEC服务器的计算能力f₁,f₂,…,f_M。本发明将多任务卸载问题考虑为多个马尔科夫决策过程 (MDP)，其中每个场景T_i对应于一个MDP，MDP的基本元素设计如下：

a.系统状态：子任务的运行时间取决于MEC服务器可用的通信和计算资源、任务的拓扑结构、子任务所需的计算资源以及其他子任务的卸载决策，因此，系统状态被定义如下：

S＝{s_t|s_t＝(e,a_1:t-1)},t∈[1,N] (1-1)

其中，e为任务的特征表示，a_1:t-1为前t-1个子任务的卸载选择，N代表子任务总数。为了转换DAG为序列，本发明根据子任务的层级对其进行卸载排序，排序规则为：位于更低层级的子任务的调度优先级更高，并且拥有更小的卸载索引，位于相同层级的子任务，其调度优先级随机分配。具有更高调度优先级的子任务可以在队列中优先被传输或计算。此外，用e＝[e₀,e₁,…,e_j,…,e_N-1]代表任务的特征表示，其中，e_j代表子任务t_v,p的特征表示，t_v,p的卸载索引为j。如公式(1-2) 所示，e_j包括子任务卸载索引I_v,p、子任务的自身数据大小子任务所需的计算资源量c_v,p、处理器处理速率f_v,f₁,…,f_M和子信道带宽ω₁,…,ω_R。可以看出，任务的特征表示e的长度与任务数量有关并随其改变而变化。为了对不同子任务卸载决策之间的关系进行学习，本发明设计了一个Seq2Seq模型来编码不同长度的任务特征表示e，这将在之后进行描述。

b.动作空间：本发明采用如公式(1-3)所示的R×M+1维二元向量来表示时间步t的卸载动作，其中，a_tk,k＝(r-1)×M+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务。特别地，a_t0＝1表示子任务在本地车辆上进行计算。根据公式(1-3)可知，动作空间的维度为2^M×R+1，并且随着处理器数量和子信道数量的增加而以指数级的方式增长。因此，无法使用传统的强化学习算法来解决多任务卸载问题。

a_t＝[a_t0,a_t1,…,a_tk,…] (1-3)

c.奖励函数：奖励被定义为之前子任务t_v′,p′的计算完成时间CE(t_v′,p′)与目前子任务t_v,p的计算完成时间CE(t_v,p)的差，如公式(1-4)所示，其中，t_v′,p′在t_v,p之前被调度。由奖励函数可以得知，完成子任务所消耗的时间增量越少，获得的奖励越多，这有助于降低任务的运行延迟。

Seq2Seq模型是一种优秀的神经网络模型，它可以循环编码输入序列为一个向量，并将其进行解码，然后输出结果。但是，Seq2Seq模型在编码过长的输入序列时存在着严重的信息损失。为了解决该问题，本发明在Seq2Seq模型中考虑了注意力机制，注意力机制能够让解码器对不同的输入部分表现出不同的关注度从而有效地减少信息损失。本发明所提出的Seq2Seq模型包括编码器和解码器两部分，下面分别对这两部分进行描述：

(1)编码器由一个双向门控循环单元(BiGRU)组成，用和分别表示 BiGRU的前向和反向函数。该编码器根据卸载索引的升序对子任务进行循环编码然后输出向量如公式(1-5)所示。BiGRU相对于传统GRU，其能够实现对任务拓扑结构更好的探索。

(2)解码器由一个注意力GRU构成，用h_dec表示GRU的解码函数。用d_j表示解码器对卸载索引为j的子任务的输出，该输出由上下文向量c_j、前一个卸载动作a_j-1和前一个输出d_j-1共同决定，如下所示：

d_j＝h_dec(d_j-1,c_j,a_j-1) (1-6)

其中，c_j是由注意力机制生成的上下文向量，用于对卸载索引为j的子任务的动作进行预测，在本发明中，注意力机制由一个前向神经网络实现。c_j的计算方法如公式(1-7)所示，其中，α_jk是衡量对输出d_j贡献程度的权重，它能够对子任务之间的内在关系进行准确评估。

步骤2，基于元强化学习的模型训练过程

基于元强化学习的模型训练过程由本地和全局两个训练过程所组成。其中，本地训练采用近端策略优化算法(PPO)，其目标是搜寻特定MDP的任务卸载策略。全局训练采用元学习框架，其目标是寻找能够求解所有MDP的元卸载策略。

在本地训练中，PPO通过重要性采样将在线训练过程转化为离线训练过程，从而使训练速度得以加快。PPO中存在着目标策略π_θ和采样策略π_θ′两种不同的策略。首先，π_θ′在采样之前被初始化为π_θ，然后，基于采样策略π_θ′，PPO生成经验轨迹数据，并使用这些数据对目标策略π_θ进行更新。此外，PPO还在目标函数中增加了KL散度和PPO-clip两项内容以使得训练更加稳定，如下所示：

其中，μ代表KL散度KL(θ,θ′)的权重，KL散度可以对π_θ和π_θ′之间的差异进行评估，从而减少两种策略之间的差距，降低采样次数。裁剪函数可以将Pr_t的值限制在区间[1-ε,1+ε]内，从而避免参数的过度更新，并保证π_θ和π_θ′的差距不会过大。Pr_t代表在时间步t时目标策略π_θ和采样策略π_θ′的概率比值，如公式(1-9)所示。是时间步t时的优势函数值，本发明采用一般优势估计(GAE) 作为优势函数，如公式(1-10)所示。

基于公式(1-8)和公式(1-11)，PPO的目标函数如公式(1-12)所示，其中η为状态值损失函数系数。PPO的更新公式如公式(1-13)所示，其中α是本地学习率。

J(θ)＝J^P(θ)-ηJ^V(θ) (1-12)

对于全局训练，本发明基于元学习框架来训练一个全局模型，该模型能够通过少量训练快速适应新的任务卸载场景T_i。公式(1-14)为元学习的目标函数，其中是公式(1-12)中任务T_i的目标函数。公式(1-15)为全局模型的参数更新函数，其中β是全局训练的学习率。

然而，公式(1-15)中的参数更新需要进行二次求导，其计算成本很高并且效率低下。因此，本发明使用一阶近似方法来解决该问题，如公式(1-16)所示，其中，m为本地训练的更新次数，n表示采样任务数。

最后，基于移动边缘计算的快速适应任务卸载方法如下所述。首先，按照任务分布ρ(T)采样出多个任务卸载场景。然后，在本地训练循环中，针对特定的场景T_i，训练出与之对应的任务卸载策略。对于每个T_i，首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数，并清空经验池。之后，根据本地采样策略选择并执行动作，获得奖励，收集经验轨迹。接下来，根据公式(1-13) 更新目标策略网络参数m次。最后，在全局训练循环中，根据公式(1-16)对全局策略的网络参数进行更新。重复上述步骤直至算法终止，就可以获得具有快速适应能力的元卸载策略。通过将元卸载策略的网络参数作为初始参数，并且在少量的本地训练迭代后，就能够生成适用于新的任务卸载场景的策略。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于移动边缘计算的快速适应任务卸载方法，其特征在于：所述快速适应任务卸载方法是任务卸载系统的基础上实现的；

所述任务卸载系统，其特征在于，包括：应用层、车辆层和MEC层；

所述应用层包括：多种任务，任务都被表述为一个有向无环图(DAG)，任务中包括多个子任务，其中子任务由顶点表示，子任务之间的依赖关系由两个顶点之间的有向边表示；此外，只有在接收到子任务本身的相关信息以及所有父节点的处理结果后，子任务才能开始运行；用DAG的拓扑结构、子任务之间的依赖数据大小和所需的计算资源来刻画任务的特征，这些特征随着任务类型的改变而变化；子任务是最基本的卸载单元，每个子任务都可以被卸载到MEC服务器或本地车辆上运行；

所述车辆层包括多辆运行着不同类型的车载任务的车辆，并且每辆车辆都可以在本地对部分子任务进行处理；其余的子任务必须通过无线信道被上传到附近的MEC服务器上进行处理；车辆具有两个队列：其中，本地计算队列用于存储将被本地处理器处理的子任务，本地传输队列用于存储将被传输到MEC服务器的子任务；车辆单独或同时对子任务进行计算和传输；在每次调度时，车辆都会封装子任务的相关信息，并将其发送给MEC服务器；相关信息包括：子任务本身的数据大小和所需的计算资源量；

所述MEC层包括无线基础设施和MEC服务器，其中，MEC服务器位于无线基础设施旁边，MEC服务器拥有多个处理器和无线子信道，能够为附近的车辆提供计算和通信服务；另一方面，MEC服务器还起着调度器的作用，能够为车辆到基础设施(V2I)通信范围内的所有子任务做出卸载决策；更为具体地，首先，MEC服务器接收车辆传输过来的子任务相关信息，然后，在每次调度时，MEC服务器根据定义好的任务卸载方法为所有子任务进行卸载排序，并按卸载顺序依次为每个子任务进行卸载调度；

所述快速适应任务卸载方法，包括以下步骤：

按照任务分布ρ(T)采样出多个任务卸载场景；然后，在本地训练循环中，针对特定的场景T_i，训练出与之对应的任务卸载策略；对于每个T_i，首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数，并清空经验池；之后，根据本地采样策略选择并执行动作，获得奖励，收集经验轨迹；接下来，本地训练根据公式(1-1)更新目标策略网络参数m次；全局训练中根据公式(1-2)对全局策略的网络参数进行更新，其中θ为全局策略的初始网络参数，

为在场景T_i中训练并且更新之后的网络参数，α为本地训练的学习率，m为本地训练的更新次数，J(θ)为目标函数，n为采样的任务卸载场景数量；

重复上述步骤直至算法终止，就获得具有快速适应能力的元卸载策略；通过将元卸载策略的网络参数作为初始参数，并且在少量的本地训练迭代后，就能够生成适用于新的任务卸载场景的策略；

所述快速适应任务卸载方法基于Seq2Seq的强化学习模型，将多任务卸载问题考虑为多个马尔科夫决策过程(MDP)，其中每个场景T_i对应于一个MDP；

MDP的基本元素设计如下：

设参数：某个场景T_i，车辆任务的DAG，R个上传子信道带宽ω₁,ω₂,…,ω_R，下行信道带宽ω_d，本地车辆的计算能力f_v和M个MEC服务器的计算能力f₁,f₂,…,f_M；

a.系统状态定义如下：

S＝{s_t|s_t＝(e,a_1:t-1)},t∈[1,N] (1-3)

其中，e为任务的特征表示，a_1:t-1为前t-1个子任务的卸载选择，N代表子任务总数；

为了转换DAG为序列，根据子任务的层级对其进行卸载排序；

用e＝[e₀,e₁,…,e_j,…,e_N-1]代表任务的特征表示，其中，e_j代表子任务t_v,p的特征表示，t_v,p的卸载索引为j；

e_j的具体定义如公式(1-4)所示：

其中e_j包括子任务卸载索引I_v,p、子任务的自身数据大小

子任务所需的计算资源量c_v,p、处理器处理速率f_v,f₁,…,f_M和子信道带宽ω₁,…,ω_R；

b.动作空间：采用如公式(1-5)所示的R×M+1维二元向量来表示时间步t的卸载动作，其中，a_tk,k＝(r-1)×M+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务；特别地，a_t0＝1表示子任务在本地车辆上进行计算；

a_t＝[a_t0,a_t1,…,a_tk,…] (1-5)

其中，t_v′,p′在t_v,p之前被调度。

2.根据权利要求1所述的快速适应任务卸载方法，其特征在于：任务卸载系统中所述应用层包括：车辆导航任务、人脸识别任务和增强车辆现实任务；

车辆导航任务用于为车辆提供路径搜索和路径规划服务；

人脸识别任务用于根据采集到的含有人脸的图像或视频流，自动检测和跟踪人脸，进而对人脸进行识别，从而确定人物身份；

3.根据权利要求2所述的快速适应任务卸载方法，其特征在于：所述增强车辆现实任务包括：目标跟踪、目标识别、透视变换和融合处理子任务；

人脸识别任务包括：复制图像、图像检测、特征融合、分裂识别和展示结果子任务；

车辆导航任务包括：输入目的地、获取GPS坐标、获取最优路径、获取交通状况、生成路径子任务。

4.根据权利要求1所述的快速适应任务卸载方法，其特征在于：所述根据子任务的层级对其进行卸载排序的规则为：位于更低层级的子任务的调度优先级更高，并且拥有更小的卸载索引，位于相同层级的子任务，其调度优先级随机分配；具有更高调度优先级的子任务可以在队列中优先被传输或计算。

5.根据权利要求1所述的快速适应任务卸载方法，其特征在于：所述基于Seq2Seq的强化学习模型包括：编码器和解码器；

所述编码器由一个双向门控循环单元(BiGRU)组成，用

和

分别表示BiGRU的前向和反向函数；编码器根据卸载索引的升序对子任务进行循环编码然后输出向量

如公式(1-7)所示：

所述解码器由一个注意力GRU构成，用h_dec表示GRU的解码函数；用d_j表示解码器对卸载索引为j的子任务的输出，该输出由上下文向量c_j、前一个卸载动作a_j-1和前一个输出d_j-1共同决定，如公式(1-8)所示：

d_j＝h_dec(d_j-1,c_j,a_j-1) (1-8)

其中，c_j是由注意力机制生成的上下文向量，用于对卸载索引为j的子任务的动作进行预测。

6.根据权利要求5所述的快速适应任务卸载方法，其特征在于：所述注意力机制由一个前向神经网络实现；c_j的计算方法如公式(1-9)所示，其中，α_jk是衡量

对输出d_j贡献程度的权重，它能够对子任务之间的内在关系进行准确评估；

7.根据权利要求1所述的快速适应任务卸载方法，其特征在于：所述本地训练中，PPO通过重要性采样将在线训练过程转化为离线训练过程；PPO中存在着目标策略π_θ和采样策略π_θ′两种不同的策略；

首先，π_θ′在采样之前被初始化为π_θ，然后，基于采样策略π_θ′，PPO生成经验轨迹数据，并使用这些数据对目标策略π_θ进行更新；此外，PPO还在目标函数中增加了KL散度和PPO-clip两项内容以使得训练更加稳定，如下所示：

其中，μ代表KL散度KL(θ,θ′)的权重，KL散度对π_θ和π_θ′之间的差异进行评估，从而减少两种策略之间的差距；裁剪函数

将Pr_t的值限制在区间[1-ε,1+ε]内，从而避免参数的过度更新；Pr_t代表在时间步t时目标策略π_θ和采样策略π_θ′的概率比值，如公式(1-11)所示；

是时间步t时的优势函数值，采用一般优势估计(GAE)作为优势函数，如公式(1-12)所示；

其中，γ代表奖励折扣因子，λ用于平衡

的方差和偏差，V(s_t)为状态值函数，表示从s_t开始的未来期望累积折扣奖励；然后，状态值函数的损失定义如下；

基于公式(1-10)和公式(1-13)，PPO的目标函数如公式(1-14)所示，其中η为状态值损失函数系数；PPO的更新公式如公式(1-15)所示，其中α是本地学习率；

J(θ)＝J^P(θ)-ηJ^V(θ) (1-14)

8.根据权利要求1所述的快速适应任务卸载方法，其特征在于：所述全局训练中，基于元学习框架来训练一个全局模型，设新的任务卸载场景T_i；公式(1-16)为元学习的目标函数，其中

是公式(1-14)中任务T_i的目标函数；公式(1-17)为全局模型的参数更新函数，其中β是全局训练的学习率；

公式(1-17)中的参数更新需要进行二次求导，使用一阶近似方法来解决该问题，如公式(1-18)所示，其中，m为本地训练的更新次数，n表示采样任务数；