CN114860337B

CN114860337B - 一种基于元强化学习算法的计算卸载方法

Info

Publication number: CN114860337B
Application number: CN202210534342.6A
Authority: CN
Inventors: 杨钊; 王廷; 蔡海滨
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-07-25
Anticipated expiration: 2042-05-17
Also published as: CN114860337A

Abstract

本发明公开了一种基于元强化学习算法的计算卸载方法，其特点是该方法采用在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型，获取当前卸载系统的状态，然后通过元学习获取学习模型，最后通过训练获取任务卸载决策。本发明与现有技术相比具有降低物联网设备计算任务的时延和功耗，从而提升用户体验，有效解决了传统的深度强化学习算法对新任务采样效率低的问题，实现在动态环境中的快速计算卸载决策。

Description

一种基于元强化学习算法的计算卸载方法

技术领域

本发明涉及移动边缘计算技术领域，特别是一种基于元强化学习算法的计算卸载方法。

背景技术

随着物联网设备，如智能手机、传感器和可穿戴设备等的快速增长和应用，大量的计算密集型任务需要从IoT设备转移到云服务器上执行。然而，这些密集行任务的转移过程会涉及到大量的数据传输，这将导致物联网应用的高延迟。移动边缘计算(MEC)的出现可以有效缓解这一挑战。移动边缘计算可以将复杂任务从物联网设备中的计算密集型任务迁移到边缘服务器中，从而为物联网设备提供计算服务。通过利用边缘服务器以及云服务器的计算和决策能力来减少计算延迟和能源，从而提升用户的体验质量。

但是，任务卸载的过程会受到不同因素的影响，如用户习惯、无线信道通信、连接质量、移动设备可用性和云服务器性能等等。因此，做出最优决策是边缘卸载的最关键问题。它需要决定任务是否应该被卸载到边缘服务器或云服务器。如果大量的任务被卸载到云服务器上，带宽将被占用，这将大大增加传输延迟。因此，需要有一个合理的卸载决策方案，使其能够合理地将每个任务分配给处理服务器。一方面，物联网环境中存在大量重复或类似的任务，往往需要从头开始重新训练，导致卸载决策效率低下；另一方面，一些物联网应用场景对任务决策有严格的时间限制，卷积神经网络(CNN)的学习速度慢，不适合满足MEC系统中资源异质性和实时性的要求。

面对快速变化的物联网应用场景，不能在每次MEC环境变化时通过重新计算来重新调整任务卸载决策和无线资源分配，否则会造成更高的服务延迟和成本。虽然，通过引入深度强化学习等智能算法，在MEC的卸载决策方面取得了一些良好的效果，但仍然存在学习速度慢、模型环境变化时原始网络参数失效等挑战。在实际应用场景中，MEC的环境往往随时随地受到很多因素的影响。传统的智能算法通常是基于神经网络的，当MEC环境发生变化时，其原有参数将全部失效，需要大量的训练数据从头开始训练，这使得学习效率很低，重复训练会消耗资源，削弱MEC系统的性能。同时，为了提高效率，还需要高配置的设备来适应高强度的训练。考虑到物联网的延迟和能源消耗，可以对具有一系列依赖性任务的工作流进行卸载决策。然而这个问题是NP-hard的，传统的优化方法很难有效地取得结果。解决上述问题的一个有希望的方法是将深度学习技术，如深度强化学习(DRL)引入边缘云协作的计算范式。由于传统的DRL算法存在着学习速度较慢的缺点，导致训练好的模型不能很好的适应变化的环境，从而影响用户的体验质量。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于元强化学习算法的计算卸载方法，采用在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型的方法，获取当前卸载系统的状态，通过元学习获取学习模型，然后通过模型训练获取任务卸载决策，该方法综合考虑物联网设备中任务流情况以及各个设备的状态能够优化卸载决策，使用元强化学习的算法，大大降低了物联网设备计算任务的时延和功耗，方法简便，效率高，有效解决了边缘卸载系统中的任务卸载决策和资源分配，以及传统的深度强化学习算法对新任务采样效率低的问题，进一步降低物联网设备处理计算任务的时延和能耗，从而能够提升用户的体验质量。

本发明的目的是这样实现的：一种基于元强化学习算法的计算卸载方法，其特点是采用构建任务卸载决策和资源分配模型的方法，获取当前卸载系统的状态，将其通过元学习获取学习模型，然后通过模型训练获取任务卸载决策，计算卸载具体包括以下四个步骤：

S1、在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型，该模型包括：移动边缘计算卸载环境模型、计算任务模型、计算任务决策模型、计算任务时延模型、计算任务能耗模型和具有马尔可夫决策过程的计算任务卸载模型。

S2、获取当前卸载系统的状态，具体包括以下步骤：

S201：获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态，包括物联网设备的任务状况，以及各设备的计算能力和各个设备之间的传输带宽。

S3：获取学习模型，具体包括以下步骤：

S301：获取物联网设备任务状态；

S302：采样k个学习任务，初始化元策略参数φ⁰；

S303：采样获得状态和行为的集合，并采取相应的动作，评估获得的奖励；

S304：判断奖励是否收敛或者是否达到迭代次数上限。当奖励收敛或已达到迭代次数上限时，即可获取参数，否则继续执行训练；

S305：更新元策略参数；

S306：判断是否收敛或者是否达到迭代次数上限。当奖励收敛或已达到迭代次数上限时，即可获取学习模型，否则继续执行训练。

S4、获取卸载决策，具体包括以下步骤：

S401：采样获得状态和行为的集合，并采取相应的动作，评估获得的奖励；

S402：判断奖励是否收敛或者是否达到迭代次数上限。当奖励收敛或已达到迭代次数上限时，即可获取卸载决策，否则继续执行训练。

所述步骤S1中计算卸载环境模型的建立方法为：在物联网设备、边缘服务器和云服务器协作式应用场景下，该场景包括一个云服务器，多个边缘服务器和多个物联网设备，边缘服务器用M＝{1，2，...，m}来表示。并且由物联网设备、边缘服务器建立任务计算协作集群，由物联网设备和云服务器建立任务决策集群。

所述步骤S1中的计算任务模型的建立方法为：将每个物联网设备中的计算程序分为连续的工作流，假设第x个工作流的定义如下述(a)式：

T_x＝{v₁，e_1，2，v₂，…，v_i，e_i，j，v_j，…，e_n-1，n，v_n} (a)；

其中，T_x表示物联网设备中第x个工作程序，v_i表示工作程序中第i个工作流；e_i，j表示工作流v_i和工作流v_j之间需要传输的数据量。

所述步骤S1中的计算任务决策模型建立方法为：为工作程序中每个工作流分别制定不同的卸载策略，并且用矩阵变量来表示不同的的卸载决策。如工作流v_i的卸载决策可由下述(b)式表示为：

d_x，i∈(d₀，d₁，d₂，...，d_m) (b)；

其中，d_x，i表示物联网设备中第x个工作程序中第i个工作流的卸载决策，更具体地，d₀＝[1，0，...，0]^T，d₁＝[0，1，...，0]^T，d₀＝[0，1，...，1]^T。d₀表示第i个工作流在本地运行，d_k(k∈[1，m])表示第i个工作流卸载到边缘服务器k上执行。

所述步骤S1的计算任务时延模型建立方法为：当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时，首先需要经过一段时间的计算时延，然后不同工作流传输数据需要经过一段时间的传输时延。因此，任务v_i的计算延迟由以下述(c)式计算：

其中,f₀和f_k(k∈[1，m])分别表示物联网设备和服务器k的计算能力。

任务v_i和v_i之间的传输延迟则由下述(d)式表示为：

其中，W_k1，k2表示不同设备之间的传输带宽。

因此，总的传输时延则由下述(e)式表示为：

所述步骤S1的计算任务能耗模型建立方法为：当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时，首先在物联网设备和边缘服务器上进行计算需要消耗一定的能量，然后不同工作流传输数据需要消耗一定的能量。因此，任务vi的计算能量消耗由下述(f)式计算:

其中，δ₀和δ₁分别表示物联网设备和服务器为处理数据每个CPU计算周期需要消耗的能量。因此，任务v_i和v_j之间传输数据所消耗的能量由下述(g)式计算：

其中，e_n单位时间传输数据所消耗的能量。因此，总的能量消耗则由下述(h)式计算：

本发明总的优化目标为最小化时延和能量消耗，可以将优化目标由下述(k)表示为：

其中，w₁和w₂分别是关于时延和能量的目标系数。

所述步骤S1中具有马尔可夫决策过程的计算任务卸载模型建立方法由下述(j)式表示为：

T_n＝(S，A，R，π) (j)；

式中，元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略；为了求解上述马尔可夫决策过程，本发明通过使用神经网络来拟合策略函数和价值函数。首先对策略网络输入当前马尔可夫决策过程的状态S_i，并逐步输出策略函数与价值函数的拟合结果，以确定下一步动作A_i，直到获得最后一个动作为止。本发明的任务协作卸载算法的训练过程包括深度强化学习和元学习两部分，其中深度强化学习部分基于PPO算法对网络进行训练；元学习部分采用MAML(Model-Agnostic Meta-Learning)算法进行训练。

本发明与现有技术相比具有以下显著的技术进步和有益效果：

1)本发明能够根据卸载系统的状态分别制定不同的决策策略，取得更有效的优化效果。

2)采用元强化学习算法能够有效解决计算卸载与资源分配问题，并且还能解决传统深度强化学习算法对新任务的采样效率低的问题，从而实现在动态环境中的快速计算卸载决策。

3)有效解决了传统的深度强化学习算法对新任务采样效率低的问题，大大降低了物联网设备计算任务的时延和功耗，从而提升用户体验质量。

附图说明

图1为本发明的模型图；

图2为本发明流程图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明作进一步详细描述。

实施例1

参阅图1，本发明在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型，模型构建的具体步骤如下：

1)计算环境：根据云服务器、边缘服务器和物联网设备的地理位置将边缘服务器和云服务器分组为不同的协作集群共同完成物联网设备中任务的。

假设该集群中有一个云服务器、多个边缘服务器以及多个物联网设备。边缘服务器用M＝{1，2，...，m}来表示。

2)计算任务：假设物联网设备上会产生不同的计算密集型任务，每个计算任务可以分成不同的工作流，每个计算密集型任务可以由下述(a)式表示为:

T_x＝{v₁，e_1，2，v₂，…，v_i，e_i，j，v_j，…，e_k-1，k，v_k} (a)。

其中，T_x表示物联网设备中第x个工作程序；v_i表示工作程序中第i个工作流；e_i，j表示工作流v_i和工作流v_j之间需要传输的数据量。

3)计算任务执行方式：采用任务本地执行和卸载到边缘服务器上执行的两种执行方式计算密集型任务中不同的工作流，本发明将工作流v_i的卸载决策由下述(b)式表示为：

d_x，i∈(d₀，d₁，d₂，...，d_m) (b)。

其中，d_x，i表示物联网设备中第x个工作程序中第i个工作流的卸载决策，更具体地，d₀＝[1，0，...，0]^T，d₁＝[0，1，...，0]^T，d₀＝[0，1，...，0]^T。d₀表示第i个工作流在本地运行，d_k(k∈[1，m])表示第i个工作流卸载到边缘服务器k上执行。

4)时延模型：本发明在计算密集型任务中不同的工作流会有不同的执行方式，当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时，首先要经过一段时间的计算时延，然后不同工作流传输数据需要经过一段时间的传输时延。因此，任务υ_i的计算延迟由下述(c)式计算：

其中，f₀和f_k(k∈[1，m])分别表示物联网设备和服务器k的计算能力。

任务υ_i和v_j之间的传输延迟由下述(d)式计算：

其中，W_k1，k2表示不同设备之间的传输带宽。因此，总的传输时延由下述(e)式计算:

5)本发明计算密集型任务中不同的工作流会有不同的执行方式，当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时，首先在物联网设备和边缘服务器上进行计算需要消耗一定的能量，然后不同工作流传输数据需要消耗一定的能量。因此，任务v_i的计算能量消耗通过下述(f)式计算：

其中，δ₀和δ₁分别表示物联网设备和服务器为处理数据每个CPU计算周期需要消耗的能量。因此，任务υ_i和υ_j之间传输数据所消耗的能量由下述(g)式计算：

其中,e_n单位时间传输数据所消耗的能量。因此,总的能量消耗为下述(h)式计算：

本发明总的优化目标为最小化时延和能量消耗，可以将优化目标表示为下述(k)式：

其中，w₁和w₂分别是关于时延和能量的目标系数。

6)具有马尔可夫决策过程卸载模型：根据整个边缘卸载系统中的任务卸载协作集群的任务情况和各个设备的资源状况，将整个边缘卸载系统的卸载决策和卸载过程建模为具有马尔可夫决策过程卸载模型，并将该过程参数化为下述(j)式：

T_n＝(S，A，R，π) (j)；

式中，元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略。

所述状态空间由下述(m)式定义示为：

S_t＝{T_x，f₀，f₁，f₂，...，f_m，W_k1，k2} (m)；

其中，T_x＝{υ₁，e_1，2，υ₂，…，υ_i，e_i，j，υ_j，…，e_n-1，n，υ_n}表示物联网设备中工作程序不同的工作流；f₀，f₁，f₂，...，f_m分别表示物理网设备和边缘服务器的计算能力；W_k1，k2表示不同设备之间的带宽，例如W_0，1表示物联网设备和边缘服务器1之间的带宽。

所述动作空间由下述(n)式定义为：

A_t＝{d_x，0，d_x，1，...，d_x，n} (n)。

其中，d_x，i(i∈[1，n])表示不同工作流的卸载决策，更具体地，每个工作流的卸载决策又可以由下述(p)式定义为：

d_x，i∈(d₀，d₁，d₂，...，d_m) (p)。

其中,d₀＝[1，0，...，0]^T，d₁＝[0，1，...，0]^T，d₀＝[0，1，...，0]^T；d₀表示第i个工作流在本地运行；d_k(k∈[1，m])表示第i个工作流卸载到边缘服务器k上执行。

所述奖励，由于系统目标是最小化边缘卸载系统的任务处理延迟和能量消耗，所以本发明将马尔可夫决策过程的奖励分为两部分，第一部分与处理任务的时间延迟相关，第二部分与为了完成任务所消耗的能量有关。

与处理任务的时间延迟相关的奖励由下述(q)式定义为：

其中，L_Local表示工作程序完全在本地执行所花费的时间；L_x表示工作程序通过边缘卸载系统进行计算所消耗的时间。

与完成任务所消耗的能量部分的奖励由下述(r)式定义为：

其中，E_Local表示工作程序完全在本地执行所消耗的能量；E_x表示工作程序通过边缘卸载系统进行计算所消耗的能量。

因此，可以将奖励定义为下述(s)式:

其中，w_L和w_E分别是关于时延和能量的奖励系数。

所述策略为当任务T_x到达时整个系统的策略为π(A_i|S_i)，从初始状态S₀开始，根据策略π(A_i|S_i)，每执行一个动作，系统即进入一个新的状态并得到一个奖励，直到物联网设备中最后一个任务决策完成。

为了求解上述马尔可夫决策过程，本发明通过使用神经网络来拟合策略函数和价值函数，首先对策略网络输入当前马尔可夫决策过程的状态S_i，并逐步输出策略函数与价值函数的拟合结果，以确定下一步动作A_i，直到获得最后一个动作为止。

本发明的任务协作卸载算法的训练过程包括深度强化学习和元学习两部分，下面会分别对这两部分进行详细阐述。

1)算法训练的深度强化学习部分

本发明基于PPO(Proximal Policy Optimization)算法对上述网络进行训练，PPO算法是目前OpenAI基线集强化学习基准算法的默认算法，它通过简单的clip机制选择目标函数的保守下限，不需要计算TRPO算法约束，从而提高算法的数据采样效率，以及算法的鲁棒性，降低超参数选择的复杂性。PPO算法的具体过程是为待优化的策略维护两个策略网络。第一个策略网络是优化的策略网络，第二个策略网络是以前用来收集样本的策略网络，现在还没有被更新。然后根据收集的样本，计算出优势估计值最后，通过最大化的目标函数来更新网络参数，从而优化策略πθ。

所述PPO算法的目标函数如下述(t)式定义为：

其中，clip函数用来限制的πθ的范围；r_t(θ)为采样策略与目标策略的比值，且由下述(u)式定义为：

其中，πθ_old(a_t|s_t)固定用来采样数据；πθ(a_t|s_t)不断更新用来训练网络；为下述(v)式定义的优势估计值：

综上所述，策略网络参数优化的更新规则为下述(w)式定义为：

其中，α为Inner Loop训练的学习率。在经过一定数量的样本学习之后，目标策略网络会将该网络的参数赋给采样策略网络，即θ_old←θ。

2)算法训练的元学习部分

本发明基于MAML(Model-Agnostic Meta-Learning)算法按下述步骤进行训练：

a、首先准备多个个训练任务(Train Task)，再准备几个测试任务(Test Task),测试任务用于评估meta learning学习到的参数的效果，训练任务和测试任务均从采样中产生。

b、初始化一个meta网络的参数为φ⁰,meta网络是最终要用来应用到新的测试任务中的网络,该网络中存储了“先验知识”。

c、开始执行迭代预训练并得到meta网络的参数。

d、使用测试任务对meta learning的效果进行评估。

参阅图2，本发明提出了基于元强化学习算法的计算卸载方法，该方法主要分为三个主要阶段：(1)获取当前卸载系统的状态、(2)获得学习模型、(3)获取卸载决策。

(1)获取当前卸载系统的状态

获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态，包括物联网设备的任务状况，以及各设备的计算能力和各个设备之间的传输带宽。

(2)获取学习模型

步骤一：获取物联网设备任务状态；

步骤二：采样k个学习任务，初始化元策略参数φ⁰；

步骤三：采样获得状态和行为的集合，并采取相应的动作，评估获得的奖励；

步骤四：判断奖励是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取参数，否则继续执行训练；

步骤五：更新元策略参数；

步骤六：判断是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取学习模型，否则继续执行训练。

(3)获取卸载决策

步骤一：采样获得状态和行为的集合，并采取相应的动作，评估获得的奖励；

步骤二：判断奖励是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取卸载决策，否则继续执行训练。

综上，本发明中的计算卸载方法旨在解决边缘卸载系统中的任务卸载决策和资源分配问题，进一步降低物联网设备处理计算任务的时延和能耗。该计算卸载方法首先在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型，接着获取当前卸载系统的状态，然后通过元学习获取学习模型，最后通过训练获取任务卸载决策。本发明综合考虑物联网设备中任务流情况以及各个设备的状态能够优化卸载决策，最后基于元强化学习的算法能够解决传统的深度强化学习算法对新任务采样效率低的问题。

以上只是本发明的较佳实现而已，并非对本发明做任何形式上的限制，故凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实现方法所做的任何的简单修改、等同变化与修饰，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于元强化学习算法的计算卸载方法，其特征在于采用构建任务卸载决策和资源分配模型的方法，获取当前卸载系统的状态，将其通过元学习获取学习模型，然后通过模型训练获取任务卸载决策，计算卸载具体包括以下四个步骤：

S1、在物联网设备、边缘服务器和云服务器协作式应用场景下，建立任务卸载决策和资源分配模型，该模型具体包括：移动边缘的计算卸载环境模型、计算任务模型、计算任务决策模型、计算任务时延模型、计算任务能耗模型，以及具有马尔可夫决策过程的计算任务卸载模型；

S2、获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态，具体包括：物联网设备的任务状况，以及各设备的计算能力和各个设备之间的传输带宽；

S3：获取学习模型，具体包括以下步骤：

S301：获取物联网设备任务状态；

S302：采样k个学习任务，初始化元策略参数φ⁰；

S303：采样获得状态和行为的集合，评估获得的奖励；

S304：判断奖励是否收敛，或是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取参数，否则继续执行训练；

S305：更新元策略参数；

S306：判断是否收敛或是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取学习模型，否则继续执行训练；

S4、获取卸载决策，具体包括以下步骤：

S401：采样获得状态和行为的集合，评估获得的奖励；

S402：判断奖励是否收敛或是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取卸载决策，否则继续执行训练。

2.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算卸载环境模型是在物联网设备、边缘服务器和云服务器协作式应用场景下构建的，该场景包括：一个云服务器，多个边缘服务器和多个物联网设备，所述边缘服务器用M＝{1，2，...，m}来表示，并由物联网设备、边缘服务器建立任务计算协作集群、物联网设备和云服务器建立任务决策集群。

3.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务模型将每个物联网设备中的计算程序分为连续的工作流，并定义第x个工作流由下述(a)式表示为：

T_x＝{υ₁，e_1，2，υ₂，…，υ_i，e_i，j，υ_j，…，e_n-1，n，υ_n} (a)；

其中，T_x表示物联网设备中第x个工作程序；υ_i表示工作程序中第i个工作流；e_i，j表示工作流υ_i和工作流υ_j之间需要传输的数据量。

4.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务决策模型为工作程序中每个工作流分别制定不同的卸载策略，所述不同的卸载策略由下述(b)式的矩阵变量来表示：

d_x，i∈(d₀，d₁，d₂，...，d_m) (b)；

其中，d_x，i表示物联网设备中第x个工作程序中第i个工作流的卸载决策；d_k(k∈[1，m])表示第i个工作流卸载到边缘服务器k上执行。

5.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务时延模型当工作程序中第i个工作流在物联网设备本地运行或卸载到边缘服务器上执行时的计算时延、传输延迟以及总传输时延分别由下述(c)～(e)式计算：

其中，f₀和f_k(k∈[1，m])分别表示物联网设备和边缘服务器k的计算能力；υ_i为第i任务；

其中，W_k1，k2表示不同设备之间的传输带宽；

6.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务能耗模型当工作程序中第i个工作流在物联网设备本地运行或卸载到边缘服务器上执行时的计算能量消耗、传输能量消耗以及总能量消耗分别由下述(f)～(h)式计算：

其中，δ₀和δ₁分别表示物联网设备和边缘服务器为处理数据每个CPU计算周期需要消耗的能量；

其中，e_n单位时间传输数据所消耗的能量；

7.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中具有马尔可夫决策过程的计算任务卸载模型由下述(j)式表示为：

T_n＝(S，A，R，π) (j)；

式中，元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略；

所述马尔可夫决策过程的求解使用神经网络来拟合策略函数和价值函数，首先对策略网络输入当前马尔可夫决策过程的状态S_i，并逐步输出策略函数与价值函数的拟合结果，以确定下一步动作A_i，直到获得最后一个动作为止，

所述计算任务卸载模型的训练过程包括：深度强化学习和元学习两部分，其中深度强化学习部分基于PPO算法对网络进行训练；元学习部分采用MAML(Model-Agnostic Meta-Learning)算法进行训练。

8.根据权利要求1或权利要求6所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述计算任务能耗模型由下述(k)式优化为最小化时延和能量消耗：

其中，ω₁和ω₂分别是关于时延和能量的目标系数。