CN116112488A

CN116112488A - 一种面向mec网络的细粒度任务卸载及资源分配方法

Info

Publication number: CN116112488A
Application number: CN202211615350.XA
Authority: CN
Inventors: 张海霞; 孙上; 周晓天; 鲁彬彬
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-05-12

Abstract

本发明涉及一种面向MEC网络的细粒度任务卸载及资源分配方法，包括模型训练阶段与决策推理阶段，包括：(1)创建物联网系统；(2)在SDN控制器上部署基于深度强化学习的细粒度任务卸载与资源分配算法模型；(3)采集训练数据；(4)训练细粒度任务卸载与资源分配算法模型；(5)将训练好的细粒度任务卸载与资源分配算法模型重新部署到SDN控制器上，用于实现决策推理；(7)训练完成的SDN控制器做出计算卸载决策、MEC计算资源分配决策和带宽分配决策，并以控制指令方式发送给智能物联网设备和MEC服务器。本发明考虑了物联网场景中动态变化的网络环境和随机系统环境，本发明有效降低了系统长期任务处理时延。

Description

一种面向MEC网络的细粒度任务卸载及资源分配方法

技术领域

本发明涉及一种面向MEC网络的细粒度任务卸载及资源分配方法，属于5G和人工智能发展技术领域。

背景技术

5G和人工智能的发展促进了物联网在各场景中的推广应用，如工业物联网和车联网。伴随着这些新的场景，大量的智能应用也随之产生，如智能制造和智能资源调度。这些计算密集型应用通常需要大量的计算资源，但由于物联网设备的计算能力有限，很难实现这些计算。针对这一问题，将计算任务卸载到远程云中心，利用其强大的计算资源进行计算处理是一个很好的解决方案。但由于云服务器距离用户较远，这种卸载到云进行计算的方式增加了任务端到端处理时延，很难满足智能应用的低延时需求。

多接入边缘计算(Multi-Access Edge Computing,MEC)作为一个有效的计算模式，其通过将服务器部署在距离物联网设备较近的网络边缘来给用户提供就近服务，与云计算相比可以大大减少任务处理时延中的通信时延。边缘服务器虽然可以为物联网设备提供计算服务，但大量的数据交换也会给系统带来通信开销，并且计算任务的传输时延受动态的网络通信条件的影响。另外，边缘服务器的计算资源有限，物联网设备数量的增加使得在边缘服务器端的资源竞争不可避免。因此，为了最大限度地减少系统的长期任务处理时延、高效地利用边缘服务器和本地的计算资源、准确地适应动态变化的网络环境，设计有效的动态卸载和资源分配策略是实现任务合理调度的重要途径。

在实际的物联网场景中，信道条件是长期动态变化的，为了应对环境的动态特性，实现长期的任务调度过程优化，采用深度强化学习(Deep Reinforcement Learning,DRL)是一个好的解决方案，深度强化学习将深度学习与强化学习相结合，可以解决巨大的状态和动作空间，实现策略学习。

现有的面向物联网的任务卸载与资源分配方法，有些采用静态调度方案，对整个系统实现一次性的任务调度，不能保证动态系统的长期效益最优。有些采用动态调度的方案可以实现长期的任务调度过程优化，但是大多数是对一个计算任务进行整体的调度，然而一个具有大数据量的复杂计算任务在相干时间内无法计算完成，整体任务调度的技术方案很难使系统的长期效益达到最优。

发明内容

针对现有技术的不足，本发明提供了一种面向MEC网络的基于深度强化学习的细粒度任务卸载及资源分配方法，该方法基于多接入边缘计算架构，用于为物联网系统设计智能计算任务卸载与资源分配策略，来提高系统的长期总体效益。该方法采用SDN集中控制器进行决策模型的训练与推理，通过收集动态的系统状态信息，如信道条件和随机任务到达情况，对大数据量的智能计算任务进行多时隙的细粒度调度。该方法可以使物联网系统的任务卸载与资源分配决策更好地适应动态变化的环境，有效减小系统的长期任务处理时延。

术语解释：

1.多接入边缘计算(Multi-Access Edge Computing,MEC)：云计算的一种演进，通过将计算资源下沉到网络边缘形成边缘云，为多用户提供计算服务，可以有效降低服务延时。

2.深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法：一种深度强化学习方法，采用Actor-Critic双网络结构，用于解决连续动作空间问题。

3.软件定义网络(Software Defined Networking,SDN)：一种网络管理方法，可支持动态网络配置，提高网络性能和管理效率；SDN控制器可以收集动态的系统信息，对网络资源进行管理和控制。

本发明的技术方案为：

一种面向MEC网络的细粒度任务卸载及资源分配方法，包括模型训练阶段与决策推理阶段，具体步骤包括：

A、模型训练阶段,包括：

(1)创建物联网系统：物联网系统包括MEC服务器、SDN控制器及智能物联网设备；所述MEC服务器为智能物联网设备提供计算服务，所述SDN控制器负责任务调度和资源分配算法模型的训练与决策推理；

(2)在SDN控制器上部署基于深度强化学习的细粒度任务卸载与资源分配算法模型，并将该细粒度任务卸载与资源分配算法模型初始化；

(3)SDN控制器作为智能体与物联网系统环境进行交互采集训练数据：以时隙的方式进行决策生成与控制指令下发，其中，时隙长度为相干时间长度，将每个时隙内智能体与系统环境的交互信息定义为数据元组，存入经验池中；

(4)采用随机梯度下降算法训练细粒度任务卸载与资源分配算法模型，训练的目标是最小化系统的任务执行总时延；

(5)重复步骤(3)和(4)，直到细粒度任务卸载与资源分配算法模型收敛，细粒度任务卸载与资源分配算法模型的训练过程结束，进入决策推理阶段；

B、决策推理阶段，包括：

(6)将训练好的细粒度任务卸载与资源分配算法模型重新部署到SDN控制器上，用于实现决策推理；

(7)在时隙开始时，SDN控制器收集物联网系统状态信息，由训练完成的SDN控制器做出计算卸载决策、MEC计算资源分配决策和带宽分配决策，并以控制指令方式发送给智能物联网设备和MEC服务器；

(8)在本时隙剩余的时间内，智能物联网设备和MEC服务器执行收到控制指令，完成智能计算任务的卸载计算或本地计算；

(9)重复进行步骤(7)和(8)，直到整个过程运行结束。

根据本发明优选的，物联网系统的无线通信过程为：

MEC服务器与智能物联网设备之间采用正交频分的方式进行数据传输，且每个智能物联网设备使用不同的频带；

定义物联网系统给所有智能物联网设备分配的带宽比例为b(t)＝(b₁(t),…,b_n(t),…,b_N(t))，其中b_n(t)为物联网系统为智能物联网设备n在时隙t分配的信道带宽比例；根据香农公式，数据从智能物联网设备n传输到MEC服务器的最大传输速率传输速度R_n(t)定义如式(I)所示：

式(I)中，B为物联网系统的总的通信带宽，p_n为智能物联网设备n的传输功率，g_n(t)为智能物联网设备n在时隙t的无线信道增益，N₀为高斯噪声功率谱密度。

根据本发明优选的，细粒度任务卸载与资源分配算法模型为双网络模型，包括由动作网络Actor网络和评价网络Critic网络；

Actor网络和Critic网络均采用全连接神经网络结构，包括一个输入层、多个隐藏层和一个输出层；定义s(t)是在时隙t物联网系统的状态信息，a(t)是在时隙t执行的决策动作，Actor网络的输入为物联网系统的状态信息s(t)，输出为要执行的决策动作a(t)，Actor网络的输出层的神经元分为两部分，一部分使用softmax激活函数输出连续的归一化的资源分配决策，另一部分使用sigmoid激活函数输出卸载决策的概率；

其中，Actor网络按照策略a(t)＝π(s(t)|θ^μ)输出一个确定性动作，Critic网络通过输出一个估计的Q值Q(s(t),a(t)|θ^Q)来评估这个确定性动作的好坏，其中，θ^μ和θ^Q分别为Actor网络和Critic网络的网络参数。

根据本发明优选的，步骤(3)中智能体与物联网系统环境进行交互的过程及生成的数据元组(s^meu(t),s^su(t),s^l(t),g(t))：步骤(3)的具体实现过程为：

步骤3-1：在每个时隙的开始，SDN控制器作为智能体收集时隙t物联网系统的状态信息s(t)，并基于s(t)做出决策，状态空间S描述为式(II)：

S＝{s(t)|s(t)＝(s^meu(t),s^su(t),s^l(t),g(t))} (II)

其中，MEC服务器包括执行单元，负责接收计算卸载的智能任务并进行计算处理；

表示MEC服务器的执行单元中的数据量，智能物联网设备包括调度单元，负责存储正在执行的计算任务的数据；

表示智能物联网设备的调度单元中的数据量，

表示智能物联网设备的任务队列长度，g(t)＝(g₁(t),…,g_n(t),…,g_N(t))表示智能物联网设备的无线信道增益，物联网系统的状态空间的维数为4N；

步骤3-2：在收集到时隙t物联网系统的状态信息s(t)后，SDN控制器将做出决策动作a(t)并向MEC服务器和智能物联网设备发送控制信号；动作空间A描述为式(III)：

其中，x(t)、φ(t)和b(t)分别为卸载决策、MEC计算资源分配决策和系统带宽资源分配决策，物联网系统的动作空间的维数为3N；

步骤3-3：选择并执行决策动作a(t)后，物联网系统从s(t)转移到s(t+1)，其中，状态转移概率表示为P(s(t+1)|s(t),a(t))；

步骤3-4：选择并执行决策动作a(t)后，物联网系统产生针对此决策动作a(t)的即时奖励r(t)；采用每时隙的物联网系统优化目标值的相反数作为该物联网系统的奖励函数；奖励函数r(t)定义为式(IV)：

其中，ξ为任务溢出的惩罚参数，α_n,m(t)为任务溢出指示参数，d_n,m(t)表示智能物联网设备n的第m个任务在t时隙的时延，即如果该任务在队列中等待或正在执行计算，则有d_n,m(t)＝T_s，否则d_n,m(t)＝0。T_s为时隙长度。

根据本发明优选的，步骤(4)中，物联网系统的优化目标是最小化物联网系统任务执行总时延；以最小化物联网系统总体任务完成时延为目标函数，设计联合计算卸载与资源分配决策算法，建立的优化问题如式(V)：

s.t.

C1:x＝(x₁,…,x_N)

C2:

C3:b＝(b₁,…,b_N)

C4:

C5:

C6:

C7:

C8:

其中，d_n,m(t)表示智能物联网设备n的第m个任务在t时隙的时延，即如果该任务在队列中等待或正在执行计算，则有d_n,m(t)＝T_s，否则d_n,m(t)＝0；α_n,m为任务溢出指示参数，当智能物联网设备n的第m个任务溢出时α_n,m＝1，否则α_n,m＝0；ξ为时间惩罚参数；C1、C2和C3分别为卸载决策、MEC服务器计算资源分配决策和带宽资源分配决策；约束C4表示每个智能物联网设备在一个时隙只能选择本地计算模式或计算卸载模式中的一种模式来处理它的任务；约束C5表示MEC服务器为智能物联网设备分配的计算资源的比例不超过1，约束C6表示系统为智能物联网设备分配的带宽资源的比例不超过1，约束C7表明MEC服务器分配给所有智能物联网设备的计算资源不能超过MEC服务器的计算资源总量，约束C8表明系统分配给所有智能物联网设备的带宽资源不能超过系统带宽资源的总量。

根据本发明优选的，根据贝尔曼方程，值函数Q(s(t),a(t))为在状态s(t)下采取行动a(t)的期望累积回报，表示为式(VI)：

其中，γ∈[0,1]，是折扣因子；因此，细粒度任务卸载与资源分配算法模型训练目标为式(VII)：

Q(s(t),a(t))≈Q(s(t),a(t)|θ^Q) (VII)

Critic网络采用随机梯度下降法进行参数更新，其损失函数L(θ^Q)表示为式(VIII)：

其中，Q′(s(t+1),a′(t+1))是目标Critic网络输出的Q值；

Actor网络采用随机梯度下降算法进行更新，目标函数的梯度

表示为式(IX)：

根据本发明优选的，步骤(4)中，在确定性动作中添加了Ornstein-Uhlenbeck噪声，并设定随着训练时间增长噪声逐渐减小，采用软替换策略来进行目标的细粒度任务卸载与资源分配算法模型参数更新，每个训练周期内的参数更新过程为式(X)：

θ'_t+1＝(1-ε)·θ'_t+ε·θ_t(X)

其中，θ'_t为目标的细粒度任务卸载与资源分配算法模型参数，θ_t为估计的细粒度任务卸载与资源分配算法模型参数。

根据本发明优选的，步骤(4)中，细粒度任务卸载与资源分配算法模型的训练过程为：

初始化细粒度任务卸载与资源分配算法模型的参数以及其他固定的参数，在训练之前，先通过与环境的交互收集部分数据元组并将其存储到经验池中；对于每个训练回合，从经验池中抽取一个小批量样本，根据式(VIII)、(IX)和(X)更新细粒度任务卸载与资源分配算法模型参数；与此同时，经验池中的数据随着训练过程的进行而更新；对目标的细粒度任务卸载与资源分配算法模型进行K轮训练，直至目标的细粒度任务卸载与资源分配算法模型收敛，得到最终的目标的细粒度任务卸载与资源分配算法模型。

根据本发明优选的，步骤(7)中，物联网系统的细粒度任务调度过程为：

首先，在每个时隙开始时，SDN控制器收集物联网系统的状态信息，由训练完成的SDN控制器做出计算卸载决策和MEC计算资源分配决策和带宽资源分配决策，同时向智能物联网设备和MEC服务器发送控制指令；

然后，物联网系统将在剩余的时间内执行命令，完成卸载计算或本地计算；

智能物联网设备产生的任务是串行依赖任务流，且任务是随机到达的，不同智能物联网设备之间具有工作负载差异；所有未被处理的任务都在本地的任务队列中等待，最先产生的任务具有更高的优先级；

智能物联网设备的内部包括调度单元、本地执行单元和数据传输单元，其中，调度单元负责存储正在执行的计算任务的数据，本地执行单元负责在本地执行计算任务，数据传输单元负责将卸载的任务数据传输至MEC服务器进行计算；MEC服务器包括执行单元，负责接收计算卸载的智能任务并进行计算处理；

当任务即将被执行时，它被放入调度单元中；此后，在每个时隙中，该任务或者被转发到本地执行单元处理，或者被通过数据传输单元卸载到MEC服务器；MEC服务器的执行单元接收到这些数据，在下一个时隙进行计算处理；

最终，将处理完成后的计算结果发回给智能物联网设备；智能物联网设备的集合表示为

第n个智能物联网设备产生的任务集合表示为

M_n为整个过程中生成的任务数。

根据本发明优选的，物联网系统的任务计算模式包括本地计算模式和卸载计算模式：

本地计算模式为：

定义智能物联网设备n的处理器处理频率为

时隙长度为T_s，定义在t时隙智能物联网设备的卸载决策为x(t)＝(x₁(t),…,x_n(t),…,x_N(t))，其中，x_n(t)为智能物联网设备n的卸载决策，x_n(t)＝0表示任务在本地执行，x_n(t)＝1表示任务卸载到MEC服务器执行，则在t时隙，本地计算的数据量大小

表示为式(XI)：

式(XI)中，k_n为智能物联网设备n中当前被处理的任务1bit数据量所需的CPU转数；

卸载计算模式为：

定义MEC服务器的处理器处理频率为f^c，定义MEC服务器在t时隙的计算资源分配比例为

其中

表示MEC服务器分配给智能物联网设备n的计算资源比例；因此，智能物联网设备n在t时隙边缘计算的数据量大小

表示为式(XII)：

式(XII)中，k_n为智能物联网设备n中当前被处理的任务1bit数据量所需的CPU转数。

根据本发明优选的，步骤(7)中，SDN控制器收集物联网系统的状态信息s(t)包括：(s^meu(t),s^su(t),s^l(t),g(t))：

表示MEC服务器的执行单元中的数据量，

表示本地的调度单元中的数据量，

表示物联网设备的任务队列长度，g(t)＝(g₁(t),…,g_n(t),…,g_N(t))表示智能物联网设备的无线信道增益。

根据本发明优选的，步骤(7)中，SDN控制器的决策信息a(t)包括：

x(t)＝(x₁(t),…,x_n(t),…,x_N(t))表示智能物联网设备的卸载决策，

表示MEC服务器计算资源分配决策，b(t)＝(b₁(t),…,b_n(t),…,b_N(t))表示物联网系统的带宽资源分配决策。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现面向MEC网络的细粒度任务卸载及资源分配方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现面向MEC网络的细粒度任务卸载及资源分配方法的步骤。

本发明的有益效果为：

1、本发明考虑了物联网场景中动态变化的网络环境和随机系统环境，设计了一个基于多接入边缘计算结构的细粒度任务卸载与资源分配方法，有效降低了系统长期任务处理时延。

2、本发明采用细粒度任务调度方法，对于可部分卸载的任务，可以根据当前时刻的系统环境状态做出卸载与资源分配决策，相比于任务的整体调度，本发明可以得到更加优化的调度方案，达到更低的系统长期任务处理时延，适用于物联网中时延敏感型应用。

3、本发明采用深度强化学习方法进行问题求解，从实际出发，将优化问题建模为马尔可夫决策过程，并采用DDPG模型结构有效地解决了巨大的状态和混合动作空间，解决了混合整数非线性规划问题传统凸优化方法难以求解的困难，降低了问题求解的复杂度。

附图说明

图1为本发明提供的面向MEC网络的细粒度任务卸载及资源分配方法的基本工作流程示意图；

图2为本发明提供的物联网系统结构示意图；

图3为面向MEC网络的细粒度任务卸载及资源分配方法的算法模型结构示意图；

图4为不同学习率下算法收敛情况示意图；

图5为物联网系统在不同物联网设备数量下系统总时延方案对比示意图；

图6为物联网系统在不同物联网设备数量下平均任务处理时延方案对比示意图。

具体实施方式

下面结合说明书附图和实例对本发明作了详细说明，但不限于此。

实施例1

一种面向MEC网络的细粒度任务卸载及资源分配方法，如图1所示，包括模型训练阶段与决策推理阶段，具体步骤包括：

A、模型训练阶段,包括：

(1)创建物联网系统：如图2所示，可以应用于工业物联网场景，物联网系统包括MEC服务器、SDN控制器及智能物联网设备；根据物联网系统的具体应用，选择合理规格的物联网设备与MEC服务器，搭建无线数据传输链路，保证各组件的正常运行。具体的，物联网系统由一个MEC服务器和N个智能物联网设备组成，物联网设备的集合表示为

N个物联网设备具有有限的计算能力，假定整个系统以时隙的方式进行工作，其中一个时隙的长度为T_s。MEC服务器可以接收由设备卸载的智能计算任务并为其提供边缘计算服务。对于MEC服务器可以使用具有智能计算能力的NVIDIA A100等，物联网设备可以使用树莓派、智能检测设备等作为服务终端。SDN控制器负责任务调度和资源分配算法模型的训练与决策推理；MEC服务器和智能物联网设备均具有有限的计算资源，各个系统组件之间通过无线链路进行信息通信和数据传输。

(2)在SDN控制器上部署基于深度强化学习的细粒度任务卸载与资源分配算法模型，并将该细粒度任务卸载与资源分配算法模型初始化；通过联合优化计算卸载、MEC的计算资源分配以及系统带宽资源分配，实现最小化系统的长期任务执行时延。

(3)SDN控制器作为智能体与物联网系统环境进行交互采集训练数据：以时隙的方式进行决策生成与控制指令下发，其中，时隙长度为相干时间长度，将每个时隙内智能体与系统环境的交互信息定义为数据元组，存入经验池中；时隙长度采用相干时间长度，以时隙为单位进行任务细粒度调度是因为在相干时间内系统的信道状态可以认为是不变的，采用此种调度方式可以使调度决策更加贴合环境变化，得到更优的系统效益，更小的任务处理时延。

B、决策推理阶段，包括：

(9)重复进行步骤(7)和(8)，直到整个过程运行结束。

实施例2

根据实施例1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其区别在于：

物联网系统的无线通信过程为：

在t时隙，物联网设备的卸载决策用x(t)＝(x₁(t),…,x_n(t),…,x_N(t))表示。对于设备n，x_n(t)＝0表示任务在本地处理，x_n(t)＝1表示任务卸载到MEC服务器执行。由此可得，在t时隙设备n进行卸载传输的数据量大小为

步骤(3)中智能体与物联网系统环境进行交互的过程及生成的数据元组(s^meu(t),s^su(t),s^l(t),g(t))：步骤(3)的具体实现过程为：

物联网系统优化问题是一个具有多个随机因素的混合整数非线性优化问题，用传统优化方法求解十分困难。为此，将问题建模为马尔科夫决策过程，并使用深度强化学习的方法对其进行求解。

定义MDP的五个关键因子为

其中S为状态空间，A为动作空间，P表示状态转移概率，r为奖励函数，γ∈[0,1]为折扣因子。

S＝{s(t)|s(t)＝(s^meu(t),s^su(t),sⁱ(t),g(t))} (II)

表示智能物联网设备的调度单元中的数据量，

步骤3-3：选择并执行决策动作a(t)后，物联网系统从s(t)转移到s(t+1)，其中，状态转移概率表示为P(s(t+1)|s(t),a(t))；状态转移概率由环境决定，由于环境的随机性和动态性，状态转移概率很难获得，需要通过算法进行探索；

步骤3-4：选择并执行决策动作a(t)后，物联网系统产生针对此决策动作a(t)的即时奖励r(t)；奖励函数的设置与系统的优化目标有关，考虑到本系统的优化目标是最小化系统的长期任务完成时延，因此采用每时隙的物联网系统优化目标值的相反数作为该物联网系统的奖励函数；奖励函数r(t)定义为式(IV)：

步骤(4)中，物联网系统的优化目标是最小化物联网系统任务执行总时延；以最小化物联网系统总体任务完成时延为目标函数，设计联合计算卸载与资源分配决策，建立的优化问题如式(V)：

C1:x＝(x₁,…,x_N)

C2:

C3:b＝(b₁,…,b_N)

C4:

C5:

C6:

C7:

C8:

其中，d_n,m(t)表示智能物联网设备n的第m个任务在t时隙的时延，即如果该任务在队列中等待或正在执行计算，则有d_n,m(t)＝T_s，否则d_n,m(t)＝0；α_n,m为任务溢出指示参数，当智能物联网设备n的第m个任务溢出时α_n,m＝1，否则α_n,m＝0；考虑到每个设备的存储空间有限，一旦在任务队列中等待的任务数量超过队列容量，之后到达的任务会发生任务溢出。为了保证系统的可靠性，防止任务从等待队列中溢出，本文对溢出的任务增加了一个大的时间惩罚参数ξ。ξ为时间惩罚参数；C1、C2和C3(x(t)、φ(t)和b(t))分别为卸载决策、MEC服务器计算资源分配决策和带宽资源分配决策；约束C4表示每个智能物联网设备在一个时隙只能选择本地计算模式或计算卸载模式中的一种模式来处理它的任务；约束C5表示MEC服务器为智能物联网设备分配的计算资源的比例不超过1，约束C6表示系统为智能物联网设备分配的带宽资源的比例不超过1，约束C7表明MEC服务器分配给所有智能物联网设备的计算资源不能超过MEC服务器的计算资源总量，约束C8表明系统分配给所有智能物联网设备的带宽资源不能超过系统带宽资源的总量。

在所提出的MDP问题中，由于动作空间由离散的卸载决策和连续的资源分配决策组成，无法采用传统的基于值的强化学习方法进行求解。为此，本发明提出采用基于DDPG框架的联合计算卸载和动态资源分配方法。如图3所示，细粒度任务卸载与资源分配算法模型为双网络模型，包括动作网络Actor网络和评价网络Critic网络；本发明中的决策动作包含离散的卸载决策与连续的资源分配决策，本发明通过修改动作网络的输出层结构解决了混合动作空间问题，并有效降低了算法求解复杂度。

使用TensorFlow框架搭建神经网络模型，动作网络和评价网络均采用全连接神经网络结构(Dense层)，包括一个输入层、三个隐藏层和一个输出层；定义s(t)是在时隙t物联网系统的状态信息，a(t)是在时隙t执行的决策动作，Actor网络的输入为物联网系统的状态信息s(t)，输出为要执行的决策动作a(t)，因为Actor网络输出的策略动作a(t)包含连续的资源分配动作和离散的卸载动作，因此Actor网络的输出层的神经元分为两部分，一部分使用softmax激活函数输出连续的归一化的资源分配决策，另一部分使用sigmoid激活函数输出卸载决策的概率；此外，算法中使用了目标网络来辅助训练，使学习过程更加稳定，收敛速度更快。

步骤(4)中采用随机梯度下降法训练Actor和Critic神经网络模型：

根据贝尔曼方程，值函数Q(s(t),a(t))为在状态s(t)下采取行动a(t)的期望累积回报，表示为式(VI)：

Q(s(t),a(t))≈Q(s(t),a(t)|θ^Q)(VII)

其中，Q′(s(t+1),a′(t+1))是目标Critic网络输出的Q值；

Actor网络采用随机梯度下降算法进行更新，目标函数的梯度

表示为式(IX)：

本发明使用了经验池来存储历史数据元组(s^meu(t),s^su(t),s^l(t),g(t))，训练时将随机抽取小批量数据进行训练，消除了数据之间的相关性。

为了充分探索环境，得到更好的策略，步骤(4)中，在确定性动作中添加了Ornstein-Uhlenbeck(OU)噪声，并设定随着训练时间增长噪声逐渐减小，为了提高学习过程的稳定性，采用软替换策略来进行目标的细粒度任务卸载与资源分配算法模型参数更新，每个训练周期内的参数更新过程为式(X)：

θ'_t+1＝(1-ε)·θ'_t+ε·θ_t(X)

步骤(4)中，细粒度任务卸载与资源分配算法模型的训练过程为：

步骤(7)中，物联网系统的细粒度任务调度过程为：

对于一个智能物联网设备，其产生的智能计算任务，如目标检测、AR、VR应用任务，具有资源需求量大、时延要求高等特性。智能物联网设备产生的任务是串行依赖任务流，且任务是随机到达的，不同智能物联网设备之间具有工作负载差异；所有未被处理的任务都在本地的任务队列中等待，最先产生的任务具有更高的优先级；

第n个智能物联网设备产生的任务集合表示为

M_n为整个过程中生成的任务数。

物联网系统的任务计算模式包括本地计算模式和卸载计算模式：

本地计算模式为：

定义智能物联网设备n的处理器处理频率为

表示为式(XI)：

卸载计算模式为：

其中

表示为式(XII)：

步骤(7)中，SDN控制器收集物联网系统的状态信息s(t)包括：(s^meu(t),s^su(t),s^l(t),g(t))：

表示MEC服务器的执行单元中的数据量，

表示本地的调度单元中的数据量，

步骤(7)中，SDN控制器的决策信息a(t)包括：

图4展示了在不同学习率下训练过程中，物联网系统的累积奖励值收敛变化。由图4可知，当学习率设置为8×10^-5时，算法在训练轮次为2000左右收敛，且具有最好的收敛值。当学习率设置为1.6×10^-4时，算法在训练轮次为1500左右收敛，当学习率设置为3×10^-5时，算法在训练轮次为2000左右收敛，且学习率设置较大时算法收敛速度加快且波动较大，容易跳出全局最优解，学习率设置较小时算法收敛速度慢且容易陷入局部最优。因此学习率设置过大或过小均不能达到最好的收敛结果，本发明最后选择的学习率为8×10^-5。

将所提方法与3种基准方案进行了比较，分别对比了这些算法在不同的设备数量下，物联网系统的任务执行总时延和平均任务时延。基准方案的选取充分考虑了在本发明所提出的物联网系统中的可执行性和方案的先进性，所选取的3种基准方案如下：

基准方案一为任务随机卸载计算资源平均分配，其中所有设备的任务随机卸载到MEC服务器上，并且MEC服务器的计算资源平均分配给每个设备；基准方案二为任务全部卸载资源平均分配，所有设备的任务卸载到MEC服务器上，并且MEC服务器的计算资源平均分配给每个设备；基准方案三基于DDPG算法实现了以任务为单位的整体任务调度和资源分配，其中只在任务开始执行时做一次任务调度决策，实现被调度任务全部卸载或全部本地计算。

图5给出了物联网系统在不同设备数量的情况下，四种方案的系统任务执行总时延。从图5中可以发现，本发明所提算法在所有情况下均具有最短的任务执行总时延。整体上，任务全部卸载平均资源分配时延最大，随机卸载平均资源分配其次，再者基于DDPG的任务整体调度方案，本发明所提算法总时延最小。任务全部卸载的方案具有最大的任务执行总时延，是因为没有利用本地的计算资源。与以任务为单位基于DDPG的任务整体调度方案相比，所提方案通过对任务进行细粒度地调度，更好地适应了动态环境，有效地降低了系统总任务执行时延。所以本发明所提出的基于深度强化学习的细粒度任务卸载及资源分配方法具有极大的性能优越性。

从图中5中可以看出，物联网系统总时延随用户数量的增加而增加，其中，在设备数量为10时，相比于其他三种方案，所提方案的系统总时延分别减小了29％、50％和11％。

图6给出了物联网系统在不同设备数量下，四种方案的平均任务执行时延，从图6中可以看出本发明所提算法在所有情况下也具有最小的平均任务执行时延。在设备数量为10时，相比于其他三种方案，所提方案的平均任务时延分别减小了20％、45％和5％。

本发明基于物联网中多接入边缘计算的调度架构，针对资源需求量大的智能计算任务的细粒度调度问题，设计了任务卸载计算资源分配的联合优化方案以最小化系统的长期任务执行时延。由于物联网系统的状态空间和动作空间巨大，且连续和离散变量共存，本发明将优化问题建模成MDP求解，基于DDPG框架进行联合卸载和资源分配，通过对动作网络输出层的改进实现了混合动作的分离。最终结果表明，本发明所提方法具有良好的收敛特性，且与其他基准算法相比具有更小的系统任务时延。

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1或2所述的面向MEC网络的细粒度任务卸载及资源分配方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1或2所述的面向MEC网络的细粒度任务卸载及资源分配方法的步骤。

Claims

1.一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，包括模型训练阶段与决策推理阶段，具体步骤包括：

A、模型训练阶段,包括：

B、决策推理阶段，包括：

(9)重复进行步骤(7)和(8)，直到整个过程运行结束。

2.根据权利要求1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，物联网系统的无线通信过程为：

定义物联网系统给所有智能物联网设备分配的带宽比例为b(t)＝(b₁(t),...,b_n(t),...,b_N(t))，其中b_n(t)为物联网系统为智能物联网设备n在时隙t分配的信道带宽比例；根据香农公式，数据从智能物联网设备n传输到MEC服务器的最大传输速率传输速度R_n(t)定义如式(I)所示：

3.根据权利要求1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，细粒度任务卸载与资源分配算法模型为双网络模型，包括由动作网络Actor网络和评价网络Critic网络；

4.根据权利要求1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，步骤(3)中智能体与物联网系统环境进行交互的过程及生成的数据元组(s^meu(t),s^su(t),s^l(t),g(t))：步骤(3)的具体实现过程为：

S＝{s(t)|s(t)＝(s^meu(t),s^su(t),sⁱ(t),g(t))} (II)

表示智能物联网设备的调度单元中的数据量，

表示智能物联网设备的任务队列长度，g(t)＝(g₁(t),...,g_n(t),...,g_N(t))表示智能物联网设备的无线信道增益，物联网系统的状态空间的维数为4N；

其中，ξ为任务溢出的惩罚参数，α_n,m(t)为任务溢出指示参数，d_n,m(t)表示智能物联网设备n的第m个任务在t时隙的时延，即如果该任务在队列中等待或正在执行计算，则有d_n,m(t)＝T_s，否则d_n,m(t)＝0。

5.根据权利要求1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，步骤(4)中，物联网系统的优化目标是最小化物联网系统任务执行总时延；以最小化物联网系统总体任务完成时延为目标函数，设计联合计算卸载与资源分配决策算法，建立的优化问题如式(V)：

s.t.

C1:x＝(x₁,...,x_N)

C3:b＝(b₁,…,b_N)

6.根据权利要求1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，根据贝尔曼方程，值函数Q(s(t),a(t))为在状态s(t)下采取行动a(t)的期望累积回报，表示为式(VI)：

Q(s(t),a(t))VQ(s(t),a(t)|θ^Q) (VII)

其中，Q′(s(t+1),a′(t+1))是目标Critic网络输出的Q值；

Actor网络采用随机梯度下降算法进行更新，目标函数的梯度

表示为式(IX)：

7.根据权利要求1所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，步骤(4)中，在确定性动作中添加了Ornstein-Uhlenbeck噪声，并设定随着训练时间增长噪声逐渐减小，采用软替换策略来进行目标的细粒度任务卸载与资源分配算法模型参数更新，每个训练周期内的参数更新过程为式(X)：

θ'_t+1＝(1-ε)·θ'_t+ε·θ_t (X)

其中，θ'_t为目标的细粒度任务卸载与资源分配算法模型参数，θ_t为估计的细粒度任务卸载与资源分配算法模型参数；

8.根据权利要求1-7任一所述的一种面向MEC网络的细粒度任务卸载及资源分配方法，其特征在于，步骤(7)中，物联网系统的细粒度任务调度过程为：

首先，在每个时隙开始时，SDN控制器收集物联网系统的状态信息，由训练完成的SDN控制器做出计算卸载决策和资源分配决策，同时向智能物联网设备和MEC服务器发送控制指令；