CN112882815A

CN112882815A - 基于深度强化学习的多用户边缘计算优化调度方法

Info

Publication number: CN112882815A
Application number: CN202110307183.1A
Authority: CN
Inventors: 张晶; 苏滕敏; 陈韩; 彭程
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-01
Anticipated expiration: 2041-03-23
Also published as: CN112882815B

Abstract

基于深度强化学习的多用户边缘计算优化调度方法，步骤为：计算出用户任务的本地计算延迟和边缘计算延迟；根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数，将目标函数划分为两个子问题：（1）任务调度；（2）卸载决策和边缘服务器选择；利用任务调度算法获得子问题（1）的最优解，利用深度强化学习方法获得子问题（2）的最优解，结合两个子问题的最优解形成最优的多用户边缘计算调度方案。本发明适用于大量用户任务卸载、多MEC服务器服务的情况，利用深度强化学习算法在动态环境中快速、准确地获得用户最优卸载决策和边缘服务器选择策略，通过对卸载到边缘服务器的任务进行合理排序，进一步降低任务的计算时延，同时保障服务器性能。

Description

基于深度强化学习的多用户边缘计算优化调度方法

技术领域

本发明涉及无线通信技术领域，尤其涉及一种基于深度强化学习的多用户边缘计算优化调度方法。

背景技术

随着物联网的快速发展和智能终端的广泛普及，新型网络服务和应用不断涌现，用户对于网络服务质量、网络请求时延的要求越来越高，网络带宽和时延逐渐成为云计算的瓶颈，云计算模型已无法解决现有问题，移动边缘计算(Mobile Edge Computing,MEC)技术应运而生。尽管MEC服务器具有强大的计算能力，然而其资源受限，当多个任务到达MEC服务器时，会造成拥塞现象，产生不必要的延迟。因此对任务进行合理的调度，是很有必要的。

发明内容

本发明针对上述背景技术中存在的问题，以任务计算延迟最小化为目标，同时考虑了任务合理的执行顺序，提出了一种于深度强化学习的多用户边缘计算优化调度方法。

基于深度强化学习的多用户边缘计算优化调度方法，适用于多用户多边缘服务器的边缘计算系统，基于最小化总延迟原则，并根据深度强化学习策略，设计了最优的任务执行顺序，其具体步骤如下：

步骤一，对于拥有多个用户和多个边缘服务器的边缘计算系统，通过用户的边缘服务器选择策略和用户的卸载策略，计算出用户任务的本地计算延迟和边缘计算延迟；

步骤二，根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数，将目标函数划分为两个子问题：任务调度；卸载决策和边缘服务器选择；

步骤三，利用任务调度算法获得任务调度的最优解，利用深度强化学习方法获得卸载决策和边缘服务器选择的最优解，结合两个子问题的最优解形成最优的多用户边缘计算调度方案。

进一步地，步骤一中，系统中共有M个移动用户，N个边缘服务器MEC，N个MEC服务器为M个用户提供计算服务；用n表示MEC服务器的索引，m表示用户的索引；每个用户选择一个服务器进行任务卸载；用矩阵α_m，t＝[α_m，1，t，α_m，2，t，…，α_m，n，t，…，α_m，N，t]表示t时隙用户m的MEC选择策略，其中α_m，n，t＝1表示t时隙用户m选择MEC服务器n进行计算任务卸载，α_m，n，t＝0表示t时隙用户m未选择MEC服务器n，

用向量β_m，t∈{0，1}表示t时隙用户m的卸载决策，β_m，t＝1表示用户m选择在本地计算，β_m，t＝0表示用户m选择边缘计算。

进一步地，步骤一中，用

表示t时隙用户m任务卸载到本地的计算延迟，按下式计算：

其中，参数λ_m，t表示t时隙用户m的任务数据量；F_m表示本地设备的处理能力，单位为CPU周期数/秒；ρ表示处理1bit数据所需的CPU周期数。

进一步地，步骤一中，用

表示用户m在t时隙任务卸载到接收者MEC服务器n的边缘计算延迟；计算延迟包括传输延迟、排队延迟、处理延迟；

用R_m，n表示用户m向接收者MEC n卸载任务的数据速率，按下式计算：

其中，参数B^m表示分配给用户m的信道带宽，P^m表示用户m的发射功率，h^m，n表示用户m与MEC n之间的信道增益，

表示用户m与MEC n之间信道中的高斯噪声功率；

用

表示用户m将计算数据卸载到MEC的传输延迟，按下式计算：

若多个任务同时到达某一MEC服务器，比如MEC服务器n，会产生排队延迟，用M^n，t表示t时隙将任务卸载到MEC服务器n的用户集合，即M^n，t＝{m|(1-β_m，t)α_m，n，t＝1}；用N_n，t表示t时隙卸载到MEC服务器n的任务总数，N_n，t＝∑_m(1-β_m，t)α_m，n，t；用矩阵I^(n，t)表示t时隙卸载到MEC服务器n的任务的处理顺序，I^(n，t)是一个N_n，t×N_n，t阶的矩阵，其中I^(n，t)的元素

为0或1，

表示用户m卸载的任务被调度为在同一时隙卸载的任务中要处理的第j个任务；用

表示用户m的任务在MEC n中的排队延迟，按下式计算：

其中，m′是其他用户的索引；

表示完成前一时隙任务卸载的延迟，按下式计算：

其中ε表示时隙的长度；

用

表示t时隙用户m卸载到MEC n的任务的处理延迟，按下式计算：

其中F_e表示边缘服务器的计算能力，单位为CPU周期数/秒；

基于上述得到的传输延迟、排队延迟、计算延迟，用户m在t时隙任务卸载到MEC n的边缘计算延迟

为：

进一步地，步骤二中，所述目标函数为本地计算延迟和边缘计算延迟的加权和，计算为：

因此，总的优化问题为：

优化变量包括三个：卸载决策，即β；边缘服务器选择，即α；任务调度，即

将上述优化问题划分为两个子问题：i)任务调度，ii)卸载决策和边缘服务器选择。

进一步地，步骤二中，任务调度子问题针对卸载至MEC服务器的任务执行顺序进行排序，以最小化计算延迟为目标，建立边缘服务器中多个计算任务的调度优化问题：

进一步地，步骤二中，在已知任务调度子问题的最优解

的条件下，计算出各个用户的边缘计算处理时延即

建立卸载决策和边缘服务器选择子问题如下式

上述优化问题映射为深度强化学习问题：令网络状态

其中λ_t＝[λ_1，t，λ_2，t，…，λ_m，t，…，λ_M，t]为t时隙用户任务数据量，

为边缘服务器完成前一时隙，即t-1时隙，卸载任务的延迟；网络动作a_t＝[β_t，α_t]，其中β_t＝[β_1，t，β_2，t，…，β_m，t，…，β_M，t]为卸载决策，α_t＝[α_1，t，α_2，t，…，α_m，t，…，α_M，t]为边缘服务器选择策略；奖励函数为

经过上述映射，卸载决策和边缘服务器选择子问题等效为如下优化问题：

进一步地，在步骤三中，利用任务调度算法求解任务调度优化子问题，即按照计算时间由小到大顺序调度任务，具体步骤为：

步骤301，对于时隙t，统计选择卸载到边缘服务器的用户集合，即初始化集合M＝{m|λ_m，t≠0}以及每个边缘服务器的

令I^(n，t)＝0，j_n＝1；执行步骤302；

步骤302，对集合M中的每个用户，当网络与环境交互时，网络首先依据公式(13)获得一个动作a_t，根据a_t得出其选择的边缘服务器n(m)＝{n|α_m，n，t＝1}，根据公式(7)计算各个用户的边缘计算处理时延，遍历循环结束后，执行步骤303；

步骤303，找出边缘计算延迟最小的用户m^*，m^*是用户索引，用

表示t时隙用户m^*选择的边缘服务器，

是矩阵

列的索引，

更新t时隙卸载到边缘服务器n(m^*)任务的处理顺序，用户m^*的任务为第一处理任务即

将此用户从M集合删除，重复步骤302，最终得出任务最优执行顺序，

进一步地，步骤三中，采用DDPG深度强化学习算法求解卸载决策和边缘服务器选择子问题，该算法涉及两个网络：评估网络和目标网络，其中每个网络又包括价值网络、动作网络；基于DDPG算法求解具体步骤为：

步骤3a，初始化深度强化学习算法评估网络中价值网络权重θ^Q、动作网络权重θ_μ，并将其权重复制到目标网络中θ^Q′＝θ^Q，θ_μ′＝θ_μ，θ^Q′是目标网络中价值网络的权重，θ_μ′是目标网络中动作网络的权重。初始化一个随机向量

作为动作探索的噪声；构建一个长度为N_R的经验池R；清空R；设置迭代次数为t，最大迭代次数为T，初始化状态s₀，令t＝1，s₀＝[0，0]；执行步骤3b；

步骤3b，获得时隙t所有用户的状态

将s_t输入到深度强化学习算法的评估网络中，依据以下公式：

得到动作a_t，a_t＝[β_t，α_t]；μ(s_t|θ_μ)表示评估网络在状态s_t下采取的动作，

为均值为0的Ornstein-Uhlenbeck噪声。根据任务调度子问题解出的最优任务执行顺序I^*(n，t)，计算各个用户的边缘计算延迟，得到本时隙的奖励函数r_t＝r(s_t，a_t)和下一时隙的网络状态s_t+1；将(s_t，a_t，r_t，s_t+1)放入经验池，执行步骤3c；

步骤3c，从经验池R中随机取出M个样本(s_i，a_i，r_i，s_i+1)进行训练；评估网络中价值网络损失函数L，计算为：

评估网络中动作网络的损失函数

计算为：

其中Q(s_i，a_i|θ^Q)为评估网络中价值网络的输出，y_i为目标网络中价值网络的输出，μ(s_i|θ_μ)表示评估网络在状态s_i下采取的动作；根据L更新评估网络中价值网络权重θ^Q，根据

更新评估网络中动作网络权重θ_μ；具体更新公式如下：

θ^Q′＝τθ^Q+(1-τ)，θ_μ′＝τθ_μ+(1-τ)θ_μ′ (16)

τ为学习效率，更新目标网络的权重。

步骤3d，重复步骤3b，且t＝t+1，直至t＝T；迭代结束后评估网络中动作网络权重θ_μ为最优，此时动作网络输出最优动作a^*，即可获得最优卸载决策β^*和最优边缘服务器选择策略α^*。

进一步地，结合两个子问题的解，获得最优调度方案为

其中β^*为最优卸载决策，α^*为最优边缘服务器选择策略，

为任务调度子问题的最优解。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

(1)本方法考虑了多边缘服务器的选择问题，基于深度强化学习方法，在动态环境中能快速、准确给出每个用户任务边缘卸载时，最佳的接收服务器。

(2)本方法基于卸载决策和服务器选择策略，给出了最佳的任务执行顺序。本方法能适应大量任务的卸载，相比于传统的方法，具有更高的实用价值。

附图说明

图1为本发明实施例中所述的基于深度强化学习的多用户边缘计算优化调度方法的流程图。

图2为本发明实施例中子问题(1)的求解算法流程图。

图3为本发明实施例中深度强化学习算法的网络结构图。

图4为本发明实施例中子问题(2)的求解算法流程图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，基于深度强化学习的多用户边缘计算优化调度方法流程图，该方法包括以下步骤：

步骤一中，系统中共有M个移动用户，N个边缘服务器MEC，N个MEC服务器为M个用户提供计算服务；用n表示MEC服务器的索引，m表示用户的索引；每个用户选择一个服务器进行任务卸载；用向量α_m，t＝[α_m，1，t，α_m，2，t，…，α_m，n，t，…，α_m，N，t]表示t时隙用户m的MEC选择策略，其中α_m，n，t＝1表示t时隙用户m选择MEC服务器n进行计算任务卸载，α_m，n，t＝0表示t时隙用户m未选择MEC服务器n，

用

表示t时隙用户m任务卸载到本地的计算延迟。本地计算延迟主要是处理延迟，因此任务的本地计算延迟按下式计算：

用

表示用户m在t时隙任务卸载到接收者MEC n的边缘计算延迟。计算延迟包括传输延迟、排队延迟、处理延迟。用R_m，n表示用户m向接收者MEC n卸载任务的数据速率，按下式计算：

表示用户m与MEC n之间信道中的高斯噪声功率。

用

表示用户m将计算数据卸载到MEC的传输延迟，按下式计算：

若多个任务同时到达某一MEC服务器，比如MEC n，会产生排队延迟，用M^n，t表示t时隙将任务卸载到MEC n的用户集合，即M^n，t＝{m|(1-β_m，t)α_m，n，t＝1}；用N_n，t表示t时隙卸载到MEC n的任务总数，N_n，t＝∑_m(1-β_m，t)α_m，n，t；用矩阵I^(n，t)表示t时隙卸载到MEC n的任务的处理顺序，I^(n，t)是一个N_n，t×N_n，t阶的矩阵，其中I^(n，t)的元素

为0或1，

表示用户m卸载的任务被调度为在同一时隙卸载的任务中要处理的第j个任务。用

表示用户m的任务在MEC n中的排队延迟，按下式计算：

其中，m′是其他用户的索引；

表示完成前一时隙任务卸载的延迟，按下式计算：

其中ε表示时隙的长度。

用

表示t时隙用户m卸载到MEC n的任务的处理延迟，按下式计算：

其中F_e表示边缘服务器的计算能力，单位为CPU周期数/秒。

给定传输延迟、排队延迟、计算延迟，用户m在t时隙任务卸载到MEC n的边缘计算延迟

步骤二中，所述目标函数为本地计算延迟和边缘计算延迟的加权和，计算为

因此，总的优化问题为：

将上述优化问题划分为两个子问题：(1)任务调度，(2)卸载决策和边缘服务器选择。

(1)任务调度子问题

任务调度子问题针对卸载至MEC服务器的任务执行顺序进行排序。网络与环境交互时，网络会依据公式(13)给出动作即给定卸载决策和边缘服务器选择策略{α，β}；当任务卸载至MEC服务器时，β的取值为0，因此本地计算延迟为0，只需考虑优化边缘计算延迟。以最小化延迟为目标，建立边缘服务器中多个计算任务的调度优化问题：

(2)卸载决策和边缘服务器选择子问题

在已知子问题(1)的最优解

的条件下，计算出各个用户的边缘计算处理时延即

可建立卸载决策和边缘服务器选择子问题如下式

上述优化问题可以映射为深度强化学习问题：令网络状态

为边缘服务器完成前一时隙(t-1时隙)卸载任务的延迟；网络动作a_t＝[β_t，α_t]，其中β_t＝[β_1，t，β_2，t，…，β_m，t，…，β_M，t]为卸载决策，α_t＝[α_1，t，α_2，t，…，α_m，t，…，α_M，t]为边缘服务器选择策略；奖励函数为

。经过上述映射，子问题2等效为如下优化问题：

采用深度强化学习算法求解式(12)。

步骤三中，利用图2的任务调度算法求解任务调度优化子问题(1)，即按照计算时间由小到大顺序调度任务，具体实施步骤为：

步骤301，对于时隙t，统计选择卸载到边缘服务器的用户集合，即初始化集合M＝{m1λ_m，t≠0)以及每个边缘服务器的

令I^(n，t)＝0，j_n＝1；执行步骤302。

步骤302，对集合M中的每个用户，当网络与环境交互时，网络首先依据公式(13)获得一个动作a_t，根据a_t得出其选择的边缘服务器n(m)＝{n|α_m，n，t＝1}，根据公式(7)计算各个用户的边缘计算处理时延，遍历循环结束后，执行步骤303。

表示t时隙用户m^*选择的边缘服务器，

是矩阵

列的索引，

，更新t时隙卸载到边缘服务器n(m^*)任务的处理顺序，用户m^*的任务为第一处理任务即

；将此用户从M集合删除，重复步骤302。最终得出任务最优执行顺序，

求解卸载决策和边缘服务器选择子问题(2)，采用DDPG深度强化学习算法求解，该算法涉及两个网络：评估网络和目标网络，其中每个网络又包括价值网络、动作网络。如图3所示。基于DDPG算法求解子问题2的算法如图4所示，具体实施步骤为：

作为动作探索的噪声。构建一个长度为N_R的经验池R。清空R。设置迭代次数为t，最大迭代次数为T，初始化状态s₀，令t＝1，s₀＝[0，0]。执行步骤3b。

步骤3b，获得时隙t所有用户的状态

为均值为0的Omstein-Uhlenbeck(OU)噪声。根据子问题1解出的最优任务执行顺序I^*(n，t)，计算各个用户的边缘计算延迟，得到本时隙的奖励函数r_t＝r(s_t，a_t)和下一时隙的网络状态s_t+1；将(s_t，a_t，r_t，S_t+1)放入经验池，执行步骤3c。

步骤3c，从经验池R中随机取出M个样本(s_i，a_i，r_i，s_i+1)进行训练。评估网络中价值网络损失函数L，可计算为：

评估网络中动作网络的损失函数

可计算为：

更新评估网络中动作网络权重θ_μ；通过如下公式进行更新：

θ^Q′＝τθ^Q+(1-τ)，θ_μ′＝τθ_μ+(1-τ)θ_μ′ (16)

τ为学习效率，更新目标网络的权重。

步骤3d，重复步骤3b，且t＝t+1。直至t＝T。迭代结束后评估网络中动作网络权重θ_μ为最优，此时动作网络输出最优动作a^*，即可获得最优卸载决策β^*和最优边缘服务器选择策略α^*。

结合两个子问题的解，获得最优调度方案为α^*，β^*，I^*(n，t)，

其中β^*为最优卸载决策，α^*为最优边缘服务器选择策略，I^*(n，t)，

为任务调度子问题的最优解。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.基于深度强化学习的多用户边缘计算优化调度方法，其特征在于：该方法适用于多用户多边缘服务器的边缘计算系统，基于最小化总延迟原则，并根据深度强化学习策略，设计了最优的任务执行顺序，其具体步骤如下：

2.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法，其特征在于：步骤一中，系统中共有M个移动用户，N个边缘服务器MEC，N个MEC服务器为M个用户提供计算服务；用n表示MEC服务器的索引，m表示用户的索引；每个用户选择一个服务器进行任务卸载；用矩阵α_m，t＝[α_m，1，t，α_m，2，t，…，α_m，n，t，…，α_m，N，t]表示t时隙用户m的MEC选择策略，其中α_m，n，t＝1表示t时隙用户m选择MEC服务器n进行计算任务卸载，α_m，n，t＝0表示t时隙用户m未选择MEC服务器n，