CN113612843B

CN113612843B - 一种基于深度强化学习的mec任务卸载和资源分配方法

Info

Publication number: CN113612843B
Application number: CN202110882738.5A
Authority: CN
Inventors: 钱志鸿; 张菁; 王雪; 向长波; 张继真; 谢明桐; 刘水
Original assignee: Jilin University
Current assignee: Hubei Central China Technology Development Of Electric Power Co ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2022-08-30
Anticipated expiration: 2041-08-02
Also published as: CN113612843A

Abstract

本发明公开的属于通信技术领域，具体为一种基于深度强化学习的MEC任务卸载和资源分配方法，包括以下步骤：S1：在移动边缘计算场景下，构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型，并初始化系统参数；S2：针对三层的卸载场景，计算系统总体开销；S3：以最小化系统开销为优化目标，构建深度强化学习模型；S4：提出一种基于最大熵框架的柔性制动策略，进行卸载决策和资源分配决策。该基于深度强化学习的MEC任务卸载和资源分配方法，在保证满足不同用户服务质量需求的情况下不仅有效利用了系统的资源而且能帮助用户选择最优卸载策略以最小化系统开销。

Description

一种基于深度强化学习的MEC任务卸载和资源分配方法

技术领域

本发明涉及通信技术领域，具体为一种基于深度强化学习的MEC任务卸载和资源分配方法。

背景技术

随着无线通信技术的发展和智能终端的快速普及，移动网络实现了从低速2G时代迈向高速的5G时代，仅仅依靠云计算不足以实现5G计算和通信的毫秒级延迟。由此，移动边缘计算应运而生。而计算卸载技术作为移动边缘计算研究的关键技术，为未来通信毫秒级或更低的时延需求提供可能。云数据中心计算资源丰富，能飞速完成卸载任务；移动边缘计算中心距离终端近，计算能力强，能满足越来越强的低时延高数据需求；网络中的D2D通信技术能有效利用空闲的计算资源实现更灵活的任务卸载。因此，在网络构成越来越复杂的今天，考虑三层的卸载场景是很有现实意义的。而目前的研究多考虑全部卸载，随着移动边缘计算的发展，用户将更趋向于将任务部分卸载到不同设备或基站执行，进而提高执行性能降低任务开销。

与此同时，云端计算存储资源、MEC服务器计算存储资源、D2D设备计算存储资源与通信带宽资源都是有限的，在此场景下如何进行部分卸载决策与资源分配使得系统开销最小成为关键性问题。

发明内容

本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：

一种基于深度强化学习的MEC任务卸载和资源分配方法，其包括以下步骤：

S1：在移动边缘计算场景下，构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型，并初始化系统参数；

S2：针对三层的卸载场景，计算系统总体开销；

S3：以最小化系统开销为优化目标，构建深度强化学习模型；

S4：提出一种基于最大熵框架的柔性制动策略，进行卸载决策和资源分配决策。

作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案，其中：在S1中，所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为：

在系统模型中，首先假设所有用户均在准静态环境下，计算任务调度运行过程中保持调度决策不变；每个用户可以选择将其部分计算任务卸载到云服务器，余下的留在本地完成；或部分计算任务卸载到移动边缘计算服务器，余下的留在本地完成；或者一部分任务通过D2D链路卸载到边缘设备，一部分在本地完成；也可以自己执行任务，上述执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行；

设接入终端设备集合I＝{1,2,...,n,...,N}，任务数据大小D_n，X_n表示处理任务的平均计算复杂度，以周期/位度量，也是处理每一位数据需要执行的时钟周期数；T_n,max表示设备最大容忍时间的限制；其中X_n参数可以从算法的复杂性中得到；设D2D执行任务比例α_n，MEC执行任务比例β_n，云执行任务比例γ_n，本地执行任务比例为1-α_n-β_n-γ_n，且满足

作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案，其中：在S2中，所述计算系统总体开销具体步骤为：

在用户选择本地卸载时，设

为本地计算能力，k_n是与设备有关的常量，计算能耗基本与CPU频率成正比；因此本地执行时间为

能耗为

当D2D卸载执行时，设

表示从设备n上传任务到空闲设备的数据传输速率，B_d表示D2D链路带宽，P_n和P_k表示设备n和设备k的传输功率；考虑瑞利衰落环境，h_n表示设备之间的信道增益，N₀是高斯白噪声；根据香农公式，上行速率为

其中，若α_n＞0则

取1；因此，传输时延为

传输能耗为

设

表示D2D的计算能力，则计算时延为

计算能耗为

k_d是与硬件有关的常量；因此，D2D执行时间为

执行能耗为

MEC执行时，设MEC的CPU资源总数F_max，基站总传输带宽为B_max，设备分配CPU周期数

分配带宽为

满足

而MEC执行卸载时延可分为三部分，传输时延、等待时延和计算时延；传输时延为

其中

h_n,m为设备n到MEC服务器的信道增益；设MEC中任务缓冲队列容量L，根据排队论中的Little法则，平衡条件下，任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率；队列中等待时间为

其中N_j为在第j个时隙内的全部任务数，N_j-L在为在该时隙内的排队任务总数，t个时隙内统计在MEC处等待的任务数

任务的平均进入率

传输能耗为

计算时延为

计算能耗为

k_m是与硬件有关的常量；则

云执行时，设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值T_core，这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到；忽略云端计算耗时，总时延即为传输时延加上T_core；传输时延为

其中

h_n,c为设n到云的信道增益，

为上行带宽；传输能耗为

因此云执行时总时延为

能耗为

综合考虑，设备的执行时延为

能耗为

目标函数为

设

分别代表用户n执行时间和能量消耗的权重系数。

作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案，其中：在S3中，所述构建深度强化学习模型具体步骤为：

采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题，SAC是基于连续状态与策略空间的深度强化学习算法；

将卸载和资源分配决策问题建模三元组(S,A,r)，其中，S是系统状态集，A是卸载及资源分配动作集，r是回报函数；

接入终端设备集合在决策时刻t的状态空间可以定义为s_t∈S_t＝[F^L(t),F^D(t),D(t),F^M(t)]；其中

和

分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵；D(t)＝[D₁(t),...,D_n(t),...,D_N(t)]为任务数据矩阵；

和D_n(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小；F^M(t)代表MEC服务器在决策时刻t的可用计算资源；

动作集和包括卸载到D2D、MEC和云的卸载决策，以及计算资源分配决策和带宽分配决策；动作空间可定义为a_t∈A_t＝[α(t),β(t),γ(t),F^M(t),B^M(t)]；其中α(t)＝[α₁(t),...,α_n(t),...,α_N(t)]、β(t)＝[β₁(t),...,β_n(t),...,β_N(t)]和γ(t)＝[γ₁(t),...,γ_n(t),...,γ_N(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵；α_n(t)、β_n(t)和γ_n(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例；对于终端设备n，满足条件α_n(t)β_n(t)γ_n(t)＝0,(0≤α_n(t)≤1,0≤β_n(t)≤1,0≤γ_n(t)≤1)；计算资源分配决策为

带宽资源分配决策为

其中，

和

分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽；

定义回报函数为

其中，Γ_n为MEC系统中用户n的时延、能耗和带宽分配代价之和。

作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案，其中：在S4中，所述提出卸载决策和资源分配决策具体步骤为：

步骤1：值函数网络及策略网络建模

建立两个状态值函数网络，分别为软状态值函数网络V_ψ(s_t)和目标状态值函数网络

参数分别为ψ和

此外，建立了两个状态动作值函数网络

参数为θ_i(i∈{1,2})；将策略函数π_φ(a_t|s_t)建模为一个高斯分布，网络参数为φ；

步骤2：值函数网络及策略网络更新

设D为先前采样的状态和动作的分布，软状态值函数的目标函数为

梯度可以用无偏估计量

来估计；通过梯度下降法更新网络参数ψ，使平方残差(值函数网络的估计值与真实值之间的偏差)最小；目标状态值函数网络

的参数

通过软更新方法进行更新，更新方式为

接下来训练状态动作值函数网络的参数θ_i，其目标函数为

其中J_Q(θ_i)同样采用随机梯度

来优化，使Bellman残差最小；更新过程中使用目标状态网络

以切断相关性；

步骤3：网络参数的梯度更新

采用梯度下降法，通过最小化期望KL散度来更新策略网络的参数φ()，策略网络的目标函数可表示为

用式

来近似梯度，通过随机梯度法下降法进行更新；

在策略更新阶段，将卸载和资源分配策略向着值函数的指数方向更新，重复策略估计和策略更新两个步骤，最终会收敛到最优策略，通过收敛了的策略网络可获得最优卸载及资源分配方案。

与现有技术相比：

1、构建包括云服务器、移动边缘计算服务器与多终端设备的三层计算卸载与资源分配模型，将用户开销定义为不同用户对时延能耗敏感度加权和，并计算系统总体开销；

2、以最小化系统开销为优化目标，构建深度强化学习模型；

3、提出一种基于最大熵框架的柔性制动策略，进行卸载决策和资源分配决策；

该基于深度强化学习的MEC任务卸载和资源分配方法，在保证满足不同用户服务质量需求的情况下不仅有效利用了系统的资源而且能帮助用户选择最优卸载策略以最小化系统开销。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将结合附图和详细实施方式对本发明进行详细说明，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明实施例中的系统模型示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施方式的限制。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明提供一种基于深度强化学习的MEC任务卸载和资源分配方法，包括以下步骤：

S1：在移动边缘计算场景下，构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型，并初始化系统参数。

S2：针对三层的卸载场景，计算系统总体开销。

S3：以最小化系统开销为优化目标，构建深度强化学习模型。

在S1中，所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为：

在系统模型中，首先假设所有用户均在准静态环境下，计算任务调度运行过程中保持调度决策不变。每个用户可以选择将其部分计算任务卸载到云，余下的留在本地完成；或部分计算任务卸载到MEC服务器，余下的留在本地完成；或者一部分任务通过D2D链路卸载到边缘设备，一部分在本地完成；也可以完全自己执行任务。我们将这些执行选项称为云执行，MEC卸载执行，D2D卸载执行和本地执行。

在S2中，所述计算系统总体开销具体步骤为：

在用户选择本地卸载时，设f_n ^L为本地计算能力(CPU频率/每秒CPU周期)，k_n是与设备有关的常量，计算能耗基本与CPU频率成正比；因此本地执行时间为

能耗为

当D2D卸载执行时，设

表示从设备n上传任务到空闲设备的数据传输速率，B_d表示D2D链路带宽，P_n和P_k表示设备n和设备k的传输功率。考虑瑞利衰落环境，h_n表示设备之间的信道增益，N₀是高斯白噪声。根据香农公式，上行速率为

其中，若α_n＞0则

取1。因此，传输时延为

传输能耗为

设

表示D2D的计算能力，则计算时延为

计算能耗为

k_d是与硬件有关的常量。因此，D2D执行时间为

执行能耗为

分配带宽为

满足

而MEC执行卸载时延可分为三部分，传输时延、等待时延和计算时延。传输时延为

其中

h_n,m为设备n到MEC服务器的信道增益。设MEC中任务缓冲队列容量L，根据排队论中的Little法则，平衡条件下，任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率。队列中等待时间为

任务的平均进入率

传输能耗为

计算时延为

计算能耗为

k_m是与硬件有关的常量。则

云执行时，设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值T_core，这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到。考虑到远端云的计算资源较充足，故忽略云端计算耗时，总时延即为传输时延加上T_core。传输时延为

其中

h_n,c为设n到云的信道增益，

为上行带宽。传输能耗为

因此云执行时总时延为

能耗为

综合考虑，设备的执行时延为

能耗为

目标函数为

设

分别代表用户n执行时间和能量消耗的权重系数，当用户在对能量消耗或时延迟滞敏感等特定场景下灵活调度两个权值，可动态调整系统总开销。因此优化问题为在限制条件下最小化系统成本。

在S3中，所述构建深度强化学习模型具体步骤为：

考虑到终端密集与任务集密集的高维特性，拟采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题，SAC是基于连续状态与策略空间的深度强化学习算法，通过最大熵可以提升策略学习的随机性，降低相关性，以使输出策略更趋近于最优，能够处理非常复杂且高维的任务。

将卸载和资源分配决策问题建模三元组(S,A,r)，其中，S是系统状态集，A是卸载及资源分配动作集，r是回报函数。

接入终端设备集合在决策时刻t的状态空间可以定义为s_t∈S_t＝[F^L(t),F^D(t),D(t),F^M(t)]，其中

和

分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵。D(t)＝[D₁(t),...,D_n(t),...,D_N(t)]为任务数据矩阵。

和D_n(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小。F^M(t)代表MEC服务器在决策时刻t的可用计算资源。

动作集和包括卸载到D2D、MEC和云的卸载决策，以及计算资源分配决策和带宽分配决策。动作空间可定义为a_t∈A_t＝[α(t),β(t),γ(t),F^M(t),B^M(t)]，其中α(t)＝[α₁(t),...,α_n(t),...,α_N(t)]、β(t)＝[β₁(t),...,β_n(t),...,β_N(t)]和γ(t)＝[γ₁(t),...,γ_n(t),...,γ_N(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务比例矩阵。α_n(t)、β_n(t)和γ_n(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例。对于终端设备n，满足条件α_n(t)β_n(t)γ_n(t)＝0,(0≤α_n(t)≤1,0≤β_n(t)≤1,0≤γ_n(t)≤1)。

计算资源分配决策为

带宽资源分配决策为

其中，

和

分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽。

定义回报函数为

在S4中，所述提出卸载决策和资源分配决策具体步骤为：

步骤1：值函数网络及策略网络建模

参数分别为ψ和

此外，建立了两个状态动作值函数网络

步骤2：值函数网络及策略网络更新

梯度可以用无偏估计量

的参数

通过软更新方法进行更新，更新方式为

接下来训练状态动作值函数网络的参数θ_i，其目标函数为

其中

J_Q(θ_i)同样采用随机梯度

来优化，使Bellman残差最小；更新过程中使用目标状态网络

以切断相关性；

步骤3：网络参数的梯度更新

用式

来近似梯度，通过随机梯度法下降法进行更新；

虽然在上文中已经参考实施方式对本发明进行了描述，然而在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本发明并不局限于文中公开的特定实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种基于深度强化学习的MEC任务卸载和资源分配方法，其特征在于，包括以下步骤：

所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为：

在系统模型中，首先假设所有用户均在准静态环境下，计算任务调度运行过程中保持调度决策不变；每个用户可以选择将其部分计算任务卸载到云服务器，余下的留在本地完成；或部分计算任务卸载到移动边缘计算服务器，余下的留在本地完成；或者一部分任务通过D2D链路卸载到边缘设备，一部分在本地完成；也可以自己执行任务，执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行；

设接入终端设备集合I＝{1,2,...,n,...,N}，任务数据大小D_n，X_n表示处理任务的平均计算复杂度，以周期/位度量，也是处理每一位数据需要执行的时钟周期数；T_n,max表示设备最大容忍时间的限制；其中X_n参数可以从算法的复杂性中得到；设D2D执行任务比例α_n，MEC执行任务比例β_n，云执行任务比例γ_n，本地执行任务比例为1-α_n-β_n-γ_n，且满足α_nβ_nγ_n＝0,