CN113452625B

CN113452625B - 基于深度强化学习的卸载调度与资源分配方法

Info

Publication number: CN113452625B
Application number: CN202110719899.2A
Authority: CN
Inventors: 刘欣; 李季
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2022-04-15
Anticipated expiration: 2041-06-28
Also published as: CN113452625A

Abstract

本发明具体涉及基于深度强化学习的卸载调度与资源分配方法，包括：获取设定时段内所有用户端的所有任务及其对应的信道增益；将所有任务的相关信息输入设置的调度分配模型中，根据任务的相关信息、用户端和边缘服务器的计算资源以及对应的信道增益，通过深度强化学习法生成用以完成卸载调度和资源分配的调度分配方案，并计算调度分配方案的总时延和总能量消耗作为总效能；以调度分配方案的总效能最小为目标不断优化所述调度分配模型的模型参数以得到最优的调度分配方案进行任务的卸载调度，并为任务分配对应的计算资源。本发明中的卸载调度与资源分配方法能够有效实现卸载调度和资源分配且能够适应高度动态变化场景。

Description

基于深度强化学习的卸载调度与资源分配方法

技术领域

本发明涉及边缘计算和深度学习技术领域，具体涉及基于深度强化学习的卸载调度与资源分配方法。

背景技术

目前，网络直播、流量监控、VR/AR技术等计算密集型任务给传统端-云网络架构(用户端和云计算中心)带来了巨大的挑战。计算密集型任务消耗的能量和时延远大于网页浏览、资料查询等非计算密集型任务。在传统的端-云(Mobile Cloud Computing,MCC)网络架构中，用户通过无线网络或无线接入点(Access Point，AP)将海量的计算密集型任务传输至云端进行计算，最后将计算结果通过传回网络返回终端设备。此时，传输数据的准确性和丢失率会受到传输信道的影响，同时传输过程所花费的时延开销增大，用户上传至云端数据会变为共享状态，无法保障用户数据的隐私性。

随着5G时代不断地普及，对实时性任务要求达到更高，通常传输速度要求在1000Mbps以上，网络延迟时延以毫秒量级为衡量单位。因此，出现了端(移动用户端)-边(边缘服务器)-云(云网络)(end-Edge-cloud)协同运行网络架构，移动边缘计算(Mobile EdgeComputing，MEC)也应运而生。例如，公开号为CN110347500A的中国专利就公开了《一种用于边缘计算环境中面向深度学习应用的任务卸载方法》，其首先将深度神经网络划分为若干个模型分块，采集系统中的相关数据并分析相应的特征；将得到的特征数据作为输入参数，建立M/M/n排队模型，得到终端设备层和边缘服务器层的平均任务数的期望，及任务在终端设备上开始执行以及将任务直接卸载到边缘服务器上开始执行的任务完成时间期望；以上述两个期望的最小最大值为目标函数，构建最小化任务执行时间的优化模型；使用启发式算法求解优化模型，得到最优卸载方案。

上述现有方案中的任务卸载方法针对不同的深度学习应用提出多模式，细粒度的个性化任务卸载方案，最小化任务完成时间，能够在一定程度上提高终端设备的资源利用率。然而，申请人发现除(计算)卸载调度外，(移动)用户端和边缘服务器的(计算)资源分配也是影响任务处理效率和效果的关键，因此在考虑卸载调度的同时还需要考虑资源分配问题。同时，端-边-云网络架构场景是一个高度动态环境，其复杂度很高，然而，现有的任务卸载方法难以有效适应这种高度动态变化的场景，导致卸载调度和资源分配的可靠性和合理性难以得到保证。因此，申请人设计了一种能够有效实现卸载调度和资源分配且能够适应高度动态变化场景的卸载调度与资源分配方法。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够有效实现卸载调度和资源分配且能够适应高度动态变化场景的卸载调度与资源分配方法，从而能够提升端-边-云网络架构场景的运行效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于深度强化学习的卸载调度与资源分配方法，包括以下步骤：

S1：获取设定时段内所有用户端的所有任务及其对应的信道增益；

S2：将所有任务的相关信息输入设置的调度分配模型中；所述调度分配模型根据任务的相关信息、用户端和边缘服务器的计算资源以及对应的信道增益，通过深度强化学习法生成用以完成卸载调度和资源分配的调度分配方案，并计算调度分配方案的总时延和总能量消耗作为总效能；

S3：以调度分配方案的总效能最小为目标不断优化所述调度分配模型的模型参数以得到最优的调度分配方案；通过最优的调度分配方案进行任务的卸载调度，并为任务分配对应的计算资源。

优选的，步骤S2中，所述任务的相关信息包括任务数据、计算所需CPU周期数和用户最大容忍时间。

优选的，步骤S2中，生成的调度分配方案满足以下条件：

单个任务的总时延小于或等于该任务的用户最大容忍时间；

单个任务的传输信噪比小于设置的信道阈值；

卸载至边缘服务器执行的所有任务分配的计算资源总和小于或等于边缘服务器的计算资源。

优选的，单个任务的完成时间通过如下公式表示：

式中：RST_i ^k表示用户端i在k时刻到来的任务

的完成时间；FT_i ^k,l表示用户端i在k时刻到来的任务

在本地执行的计算完成时刻；FT_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算完成时刻；

表示用户端i在k时刻到来的任务

是否卸载的决策向量，

表示在本地执行，

表示卸载在边缘服务器执行。

优选的，FT_i ^k,l＝ST_i ^k,l+T_i ^k,l；式中：FT_i ^k,l表示用户端i在k时刻到来的任务

在本地执行的计算完成时刻；ST_i ^k,l表示用户端i在k时刻到来的任务

在本地执行的执行开始时刻；T_i ^k,l表示用户端i在k时刻到来的任务

在本地执行的执行时间；

ST_i ^k,l＝FT_i ^k-1,l；式中：ST_i ^k,l表示用户端i在k时刻到来的任务

在本地执行的执行开始时刻；FT_i ^k-1,l表示用户端i在k-1时刻到来的任务

在本地执行完成时间；

式中：T_i ^k,l表示用户端i在k时刻到来的任务

在本地执行所花费的时间；

表示用户端i在k时刻到来的任务

的计算所需CPU周期数；f_i ^l表示用户端i的计算资源；

FT_i ^k,s＝ST_i ^k,s+T_i ^k,s；式中：FT_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算完成时刻；ST_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的执行开始时刻；T_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行所花费的时间；

RT_i ^k＝max{FT_i ^k-1,l,FT_i ^k-1,ul}；式中：RT_i ^k表示用户端i在k时刻到来的任务

的就绪时间；FT_i ^k-1,l,FT_i ^k-1,ul分别表示用户端i在k-1时刻到来的任务

在本地执行的完成时间和卸载至边缘服务器的结束时间；

ST_i ^k,s＝RT_i ^k+T_i ^k,ul＝FT_i ^k-1,s+T_i ^k,ul；式中：ST_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的执行开始时刻；RT_i ^k表示用户端i在k时刻到来的任务

的就绪时间；FT_i ^k-1,s表示用户端i在k-1时刻到来的任务

在边缘服务器执行的计算完成时间；T_i ^k ^,ul表示用户端i在k时刻到来的任务

的任务数据上传到边缘服务器的结束时间；

式中：T_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行所花费的时间；

表示用户端i在k时刻到来的任务

的任务数据；

表示用户端i在k时刻到来的任务

的计算所需CPU周期数；

表示信道的数据传输速率；f_i ^k,s表示边缘服务器分配给任务

的计算资源。

优选的，步骤S2中，通过如下公式表示调度分配方案的最终完成时刻：

T_finish＝max_k∈Tmax_i∈N{FT_i ^k,l,FT_i ^k,s}；式中：T_finish表示设定时段T内所有任务的最终完成时刻；N表示用户端的总数量；FT_i ^k,l表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算完成时刻。

优选的，任务的传输信噪比通过如下公式表示：

式中：

表示用户端i在k时刻到来的任务

的传输信噪比；P_i表示信道的传输功率；W_i表示信道的传输带宽；K^k表示k时刻在所有用户端N中决策为卸载的用户端总数；

表示用户端i在k时刻到来的任务

的信道增益；N₀表示信道的高斯白噪声方差。

优选的，步骤S2中，通过如下公式计算总效能：

式中：U表示设定时段T内执行所有任务的总效能；T表示设定时段；μ^k表示执行在k时刻到来的所有任务执行的总效能；

式中：μ^k表示执行在k时刻到来的所有任务执行的总效能；

表示用户端i在k时刻到来的任务

在本地执行的计算能耗；

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

表示用户端i在k时刻到来的任务

是否卸载的决策向量，

表示在本地执行，

表示卸载在边缘服务器执行；T_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行所花费的时间；T_i ^k,l表示用户端i在k时刻到来的任务

在本地执行所花费的时间；β^T和β^E均表示超参数，且满足0≤β^T≤1，0≤β^E≤1，β^T+β^E＝1。

优选的，

式中：

表示用户端i在k时刻到来的任务

在本地执行的计算能耗；ξ与用户端的结构有关取ξ＝10^-27；

表示用户端i在k时刻到来的任务

的计算所需CPU周期数；f_i ^l表示用户端i的计算资源；

式中：

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行时上传数据消耗的能量；

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

式中：

表示用户端i在k时刻到来的任务

卸载至边缘服务器时数据传输消耗的能量；p_i表示用户端的传输功率；

表示用户端i在k时刻的所有用户端i在k时刻到来的任务

的任务数据；

表示信道的数据传输速率；

式中：

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

表示完成用户端i在k时刻到来的任务

的计算所需CPU周期数；e₀表示边缘服务器单位计算资源消耗的能量；

式中：

表示信道的数据传输速率；W_i表示信道的传输带宽；K^k表示k时刻在所有用户端N中决策为卸载的用户端总数；

表示用户端i在k时刻到来的任务

的传输信噪比。

优选的，步骤S2中，计算生成调度分配方案时，通过马尔可夫决策过程表示任务的卸载过程；

将马尔可夫决策过程看做四元组M_p＝<S,A,P,R>；

S表示有限的状态集合S_t＝{d(t),c(t),τ(t),R(t),F(t)}；式中：d(t)＝[d₁(t),...,d_N(t)]表示t时刻N个用户端的计算密集型任务大小；c(t)＝[c₁(t),...,c_N(t)]表示t时刻完成任务所需的计算资源；R(t)＝{[R₁₁(t),...,R_N1(t)],...,[R_1M(t),...,R_NM(t)]}表示t时刻N个用户端从M个信道中选择一个信道进行数据传输；τ(t)＝[τ₁(t),...,τ_N(t)]表示t时刻的任务N个用户端的用户最大容忍时间；F(t)＝[F₀(t),...,F_N(t)]表示t时刻边缘服务器为各个用户端分配的计算资源；

A表示有限的动作集合A_t＝{a(t),y(t),f(t)}；式中：a(t)＝[a₁(t),...,a_N(t)]表示用来决策t时刻N个用户端的所有任务在用户端本地执行还是卸载到边缘服务器执行；y(t)＝[y₁₁(t),...,y_1M(t),...,y_N1(t),...,y_NM(t)]表示N个用户端通过M个信道中的某一个信道传输数据至边缘服务器；f(t)＝[f₁(t),...,f_N(t)]表示边缘服务器为每个用户端分配的计算资源；

P表示执行动作集合A的动作后从当前状态转化为另一个状态的概率；

R表示执行动作后的奖励函数，执行动作A_t后计算得到对应的R(s_t,a_t)＝μ^k；

在计算奖励函数后，会更新为下一个状态s_t+1，随着在时序中进行计算卸载和资源分配，状态更新为s_t+1＝{d(t+1),c(t+1),τ(t+1),R(t+1),F(t+1)}。

本发明中的卸载调度与资源分配方法与现有技术相比，具有如下有益效果：

在本发明中，能够通过调度分配模型生成用以完成卸载调度和资源分配的调度分配方案，即能够有效的实现卸载调度和资源分配；同时，本发明能够根据调度分配方案的总效能(总时延和总能量消耗)选取最优调度分配方案，使得能够并行执行所有任务并保证卸载调度和资源分配的可靠性和合理性，从而能够提升端-边-云网络架构场景的运行效果。此外，本发明采用深度强化学习DDPG算法(和马尔可夫决策过程)生成调度分配方案的方式，能够有效的适应端-边-云网络架构场景的高度动态变化，从而能够进一步提升卸载调度和资源分配的可靠性和合理性。最后，本发明通过总效能(总时延和总能量消耗)选取最优调度分配方案的方式，能够保证最优调度分配方案的任务处理效率并降低端-边-云网络架构场景的整体能耗，从而能够进一步提升端-边-云网络架构场景的运行效果。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例中多用户端-单边缘服务器的架构场景示意图；

图2为实施例中卸载调度与资源分配方法的逻辑框图；

图3为实施例中用户端任务卸载的架构场景示意图；

图4为实施例中卸载调度和资源分配的架构场景示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于深度强化学习的卸载调度与资源分配方法。

如图1所示，本实施例基于多用户端-单边缘服务器的场景实施。

如图2所示：基于深度强化学习的卸载调度与资源分配方法，包括以下步骤：

S1：获取设定时段内所有用户端的所有任务及其对应的信道增益。具体的，获取任务的大小和用户端电量状态等数据。

S2：将所有任务的相关信息输入设置的调度分配模型中；调度分配模型根据任务的相关信息、用户端和边缘服务器的计算资源以及对应的信道增益，通过深度强化学习法生成用以完成卸载调度和资源分配的调度分配方案，并计算调度分配方案的总时延和总能量消耗作为总效能。具体的，任务的相关信息包括任务数据、计算所需CPU周期数和用户最大容忍时间。

S3：以调度分配方案的总效能最小为目标不断优化调度分配模型的模型参数以得到最优的调度分配方案；通过最优的调度分配方案进行任务的卸载调度，并为任务分配对应的计算资源。具体的，通过深度强化学习法DDPG算法根据环境不断自主学习以获得最优的reward值；将卸载过程可以视为马尔可夫决策过程。Actor网络为决策网络，Critic网络为该Actor网络的判定函数，引导Actor网络不断更新网络参数以获得最优的卸载调度和资源分配的调度分配方案。在限制条件下，不断自主学习和更新使得总效能尽可能大。本发明假设N个用户端与其对应距离最近的无线接入点(AP)进行相通信，最后传输到边缘服务器上，N个用户端可以同时发送任务至边缘服务器，并由边缘服务器上的虚拟监控器监控，分配各自单独的VM单元进行计算，这样充分的保证了各个用户端的隐私，具有安全性。

具体实施过程中，生成的调度分配方案满足以下条件：

单个任务的总时延小于或等于该任务的用户最大容忍时间；

单个任务的传输信噪比小于设置的信道阈值；

在本发明中，充分考虑了任务处理过程中的总效能(总时延和总能量消耗)、信道增益、传输信噪比和边缘服务器的计算资源，使得生成的调度分配方案均能够满足用户需求并更好的适应高度动态变化的端-边-云网络架构场景，从而能够并行执行所有任务并保证卸载调度和资源分配的可靠性和合理性。

具体实施过程中，单个任务的完成时间通过如下公式表示：

式中：RST_i ^k表示用户端i在k时刻到来的任务

的完成时间；FT_i ^k,l表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算完成时刻；

表示用户端i在k时刻到来的任务

是否卸载的决策向量，

表示在本地执行，

表示卸载在边缘服务器执行；

具体的，FT_i ^k,l＝ST_i ^k,l+T_i ^k,l；式中：FT_i ^k,l表示用户端i在k时刻到来的任务

在本地执行的执行时间；

在本地执行完成时间；

式中：T_i ^k,l表示用户端i在k时刻到来的任务

在本地执行所花费的时间；

表示用户端i在k时刻到来的任务

的计算所需CPU周期数；f_i ^l表示用户端i的计算资源；

卸载在边缘服务器执行所花费的时间；

在本地执行的完成时间和卸载至边缘服务器的结束时间；

的就绪时间；FT_i ^k-1,s表示用户端i在k-1时刻到来的任务

在边缘服务器执行的计算完成时间；T_i ^k,ul表示用户端i在k时刻到来的任务

的任务数据上传到边缘服务器的结束时间；

式中：T_i ^k,s表示用户端i在k时刻到来的任务

卸载在边缘服务器执行所花费的时间；

表示用户端i在k时刻到来的任务

的任务数据；

表示用户端i在k时刻到来的任务

的计算所需CPU周期数；

的计算资源。

在本发明中，通过上述步骤和公式能够有效的计算单个任务的完成时间，进而能够计算任务的总时延，使得生成的调度分配方案均能够有效满足用户需求并保证最优调度分配方案的任务处理效率，从而能够提升卸载调度和资源分配的效果。

具体实施过程中，通过如下公式表示调度分配方案的最终完成时刻：

卸载在边缘服务器执行的计算完成时刻。

在本发明中，通过上述步骤和公式能够有效的计算调度分配方案的最终完成时刻，进而能够计算调度分配方案的总时延，使得生成的调度分配方案均能够有效满足用户需求并保证最优调度分配方案的任务处理效率，从而能够提升卸载调度和资源分配的效果。

具体实施过程中，任务的传输信噪比通过如下公式表示：

式中：

表示用户端i在k时刻到来的任务

表示用户端i在k时刻到来的任务

的信道增益；N₀表示信道的高斯白噪声方差。

在本发明中，通过上述步骤和公式能够有效计算任务的信噪比，使得生成的调度分配方案均能够更好的适应高度动态变化的端-边-云网络架构场景，进而能够并行执行所有任务并保证卸载调度和资源分配的可靠性和合理性，从而能够进一步提升卸载调度和资源分配的可靠性和合理性。

具体实施过程中，通过如下公式计算总效能：

式中：μ^k表示执行在k时刻到来的所有任务执行的总效能；

表示用户端i在k时刻到来的任务

在本地执行的计算能耗；

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

表示用户端i在k时刻到来的任务

是否卸载的决策向量，

表示在本地执行，

具体的，

式中：

表示用户端i在k时刻到来的任务

在本地执行的计算能耗；ξ与用户端的结构有关取ξ＝10^-27；

表示用户端i在k时刻到来的任务

的计算所需CPU周期数；f_i ^l表示用户端i的计算资源；

式中：

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行时上传数据消耗的能量；

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

式中：

表示用户端i在k时刻到来的任务

表示用户端i在k时刻的所有用户端i在k时刻到来的任务

的任务数据；

表示信道的数据传输速率；

式中：

表示用户端i在k时刻到来的任务

卸载在边缘服务器执行的计算能耗；

表示完成用户端i在k时刻到来的任务

式中：

表示用户端i在k时刻到来的任务

的传输信噪比。

在本发明中，通过上述步骤和公式能够有效的计算总效能(总时延和总能量消耗)，使得生成的调度分配方案均能够更好的适应高度动态变化的端-边-云网络架构场景，并能够降低端-边-云网络架构场景的整体能耗，从而能够进一步提升卸载调度和资源分配的可靠性和合理性。

具体实施过程中，结合图3和图4所示，通过马尔可夫决策过程表示任务的卸载过程；

将马尔可夫决策过程看做四元组M_p＝＜S,A,P,R>；

在本发明中，采用深度强化学习DDPG算法和马尔可夫决策过程生成调度分配方案的方式，能够有效的适应端-边-云网络架构场景的高度动态变化，能够保证最优调度分配方案的任务处理效率并降低端-边-云网络架构场景的整体能耗，从而能够进一步提升端-边-云网络架构场景的运行效果。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。