CN112882815A - 基于深度强化学习的多用户边缘计算优化调度方法 - Google Patents

基于深度强化学习的多用户边缘计算优化调度方法 Download PDF

Info

Publication number
CN112882815A
CN112882815A CN202110307183.1A CN202110307183A CN112882815A CN 112882815 A CN112882815 A CN 112882815A CN 202110307183 A CN202110307183 A CN 202110307183A CN 112882815 A CN112882815 A CN 112882815A
Authority
CN
China
Prior art keywords
user
network
edge
task
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110307183.1A
Other languages
English (en)
Other versions
CN112882815B (zh
Inventor
张晶
苏滕敏
陈韩
彭程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110307183.1A priority Critical patent/CN112882815B/zh
Publication of CN112882815A publication Critical patent/CN112882815A/zh
Application granted granted Critical
Publication of CN112882815B publication Critical patent/CN112882815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

基于深度强化学习的多用户边缘计算优化调度方法,步骤为:计算出用户任务的本地计算延迟和边缘计算延迟;根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数,将目标函数划分为两个子问题:(1)任务调度;(2)卸载决策和边缘服务器选择;利用任务调度算法获得子问题(1)的最优解,利用深度强化学习方法获得子问题(2)的最优解,结合两个子问题的最优解形成最优的多用户边缘计算调度方案。本发明适用于大量用户任务卸载、多MEC服务器服务的情况,利用深度强化学习算法在动态环境中快速、准确地获得用户最优卸载决策和边缘服务器选择策略,通过对卸载到边缘服务器的任务进行合理排序,进一步降低任务的计算时延,同时保障服务器性能。

Description

基于深度强化学习的多用户边缘计算优化调度方法
技术领域
本发明涉及无线通信技术领域,尤其涉及一种基于深度强化学习的多用户边缘计算优化调度方法。
背景技术
随着物联网的快速发展和智能终端的广泛普及,新型网络服务和应用不断涌现,用户对于网络服务质量、网络请求时延的要求越来越高,网络带宽和时延逐渐成为云计算的瓶颈,云计算模型已无法解决现有问题,移动边缘计算(Mobile Edge Computing,MEC)技术应运而生。尽管MEC服务器具有强大的计算能力,然而其资源受限,当多个任务到达MEC服务器时,会造成拥塞现象,产生不必要的延迟。因此对任务进行合理的调度,是很有必要的。
发明内容
本发明针对上述背景技术中存在的问题,以任务计算延迟最小化为目标,同时考虑了任务合理的执行顺序,提出了一种于深度强化学习的多用户边缘计算优化调度方法。
基于深度强化学习的多用户边缘计算优化调度方法,适用于多用户多边缘服务器的边缘计算系统,基于最小化总延迟原则,并根据深度强化学习策略,设计了最优的任务执行顺序,其具体步骤如下:
步骤一,对于拥有多个用户和多个边缘服务器的边缘计算系统,通过用户的边缘服务器选择策略和用户的卸载策略,计算出用户任务的本地计算延迟和边缘计算延迟;
步骤二,根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数,将目标函数划分为两个子问题:任务调度;卸载决策和边缘服务器选择;
步骤三,利用任务调度算法获得任务调度的最优解,利用深度强化学习方法获得卸载决策和边缘服务器选择的最优解,结合两个子问题的最优解形成最优的多用户边缘计算调度方案。
进一步地,步骤一中,系统中共有M个移动用户,N个边缘服务器MEC,N个MEC服务器为M个用户提供计算服务;用n表示MEC服务器的索引,m表示用户的索引;每个用户选择一个服务器进行任务卸载;用矩阵αm,t=[αm,1,t,αm,2,t,…,αm,n,t,…,αm,N,t]表示t时隙用户m的MEC选择策略,其中αm,n,t=1表示t时隙用户m选择MEC服务器n进行计算任务卸载,αm,n,t=0表示t时隙用户m未选择MEC服务器n,
Figure BDA0002988306500000021
用向量βm,t∈{0,1}表示t时隙用户m的卸载决策,βm,t=1表示用户m选择在本地计算,βm,t=0表示用户m选择边缘计算。
进一步地,步骤一中,用
Figure BDA0002988306500000022
表示t时隙用户m任务卸载到本地的计算延迟,按下式计算:
Figure BDA0002988306500000023
其中,参数λm,t表示t时隙用户m的任务数据量;Fm表示本地设备的处理能力,单位为CPU周期数/秒;ρ表示处理1bit数据所需的CPU周期数。
进一步地,步骤一中,用
Figure BDA0002988306500000024
表示用户m在t时隙任务卸载到接收者MEC服务器n的边缘计算延迟;计算延迟包括传输延迟、排队延迟、处理延迟;
用Rm,n表示用户m向接收者MEC n卸载任务的数据速率,按下式计算:
Figure BDA0002988306500000031
其中,参数Bm表示分配给用户m的信道带宽,Pm表示用户m的发射功率,hm,n表示用户m与MEC n之间的信道增益,
Figure BDA0002988306500000032
表示用户m与MEC n之间信道中的高斯噪声功率;
Figure BDA0002988306500000033
表示用户m将计算数据卸载到MEC的传输延迟,按下式计算:
Figure BDA0002988306500000034
若多个任务同时到达某一MEC服务器,比如MEC服务器n,会产生排队延迟,用Mn,t表示t时隙将任务卸载到MEC服务器n的用户集合,即Mn,t={m|(1-βm,tm,n,t=1};用Nn,t表示t时隙卸载到MEC服务器n的任务总数,Nn,t=∑m(1-βm,tm,n,t;用矩阵I(n,t)表示t时隙卸载到MEC服务器n的任务的处理顺序,I(n,t)是一个Nn,t×Nn,t阶的矩阵,其中I(n,t)的元素
Figure BDA0002988306500000035
为0或1,
Figure BDA0002988306500000036
表示用户m卸载的任务被调度为在同一时隙卸载的任务中要处理的第j个任务;用
Figure BDA0002988306500000037
表示用户m的任务在MEC n中的排队延迟,按下式计算:
Figure BDA0002988306500000038
其中,m′是其他用户的索引;
Figure BDA0002988306500000039
表示完成前一时隙任务卸载的延迟,按下式计算:
Figure BDA0002988306500000041
其中ε表示时隙的长度;
Figure BDA0002988306500000042
表示t时隙用户m卸载到MEC n的任务的处理延迟,按下式计算:
Figure BDA0002988306500000043
其中Fe表示边缘服务器的计算能力,单位为CPU周期数/秒;
基于上述得到的传输延迟、排队延迟、计算延迟,用户m在t时隙任务卸载到MEC n的边缘计算延迟
Figure BDA0002988306500000044
为:
Figure BDA0002988306500000045
进一步地,步骤二中,所述目标函数为本地计算延迟和边缘计算延迟的加权和,计算为:
Figure BDA0002988306500000046
因此,总的优化问题为:
Figure BDA0002988306500000047
Figure BDA00029883065000000410
Figure BDA0002988306500000048
优化变量包括三个:卸载决策,即β;边缘服务器选择,即α;任务调度,即
Figure BDA0002988306500000049
将上述优化问题划分为两个子问题:i)任务调度,ii)卸载决策和边缘服务器选择。
进一步地,步骤二中,任务调度子问题针对卸载至MEC服务器的任务执行顺序进行排序,以最小化计算延迟为目标,建立边缘服务器中多个计算任务的调度优化问题:
Figure BDA0002988306500000051
Figure BDA0002988306500000052
进一步地,步骤二中,在已知任务调度子问题的最优解
Figure BDA0002988306500000053
的条件下,计算出各个用户的边缘计算处理时延即
Figure BDA0002988306500000054
建立卸载决策和边缘服务器选择子问题如下式
Figure BDA0002988306500000055
Figure BDA0002988306500000056
上述优化问题映射为深度强化学习问题:令网络状态
Figure BDA0002988306500000057
Figure BDA0002988306500000058
其中λt=[λ1,t,λ2,t,…,λm,t,…,λM,t]为t时隙用户任务数据量,
Figure BDA0002988306500000059
为边缘服务器完成前一时隙,即t-1时隙,卸载任务的延迟;网络动作at=[βt,αt],其中βt=[β1,t,β2,t,…,βm,t,…,βM,t]为卸载决策,αt=[α1,t,α2,t,…,αm,t,…,αM,t]为边缘服务器选择策略;奖励函数为
Figure BDA00029883065000000512
经过上述映射,卸载决策和边缘服务器选择子问题等效为如下优化问题:
Figure BDA00029883065000000510
进一步地,在步骤三中,利用任务调度算法求解任务调度优化子问题,即按照计算时间由小到大顺序调度任务,具体步骤为:
步骤301,对于时隙t,统计选择卸载到边缘服务器的用户集合,即初始化集合M={m|λm,t≠0}以及每个边缘服务器的
Figure BDA00029883065000000511
令I(n,t)=0,jn=1;执行步骤302;
步骤302,对集合M中的每个用户,当网络与环境交互时,网络首先依据公式(13)获得一个动作at,根据at得出其选择的边缘服务器n(m)={n|αm,n,t=1},根据公式(7)计算各个用户的边缘计算处理时延,遍历循环结束后,执行步骤303;
步骤303,找出边缘计算延迟最小的用户m*,m*是用户索引,用
Figure BDA0002988306500000061
表示t时隙用户m*选择的边缘服务器,
Figure BDA0002988306500000062
是矩阵
Figure BDA0002988306500000063
列的索引,
Figure BDA0002988306500000064
更新t时隙卸载到边缘服务器n(m*)任务的处理顺序,用户m*的任务为第一处理任务即
Figure BDA0002988306500000065
Figure BDA0002988306500000066
将此用户从M集合删除,重复步骤302,最终得出任务最优执行顺序,
Figure BDA0002988306500000067
进一步地,步骤三中,采用DDPG深度强化学习算法求解卸载决策和边缘服务器选择子问题,该算法涉及两个网络:评估网络和目标网络,其中每个网络又包括价值网络、动作网络;基于DDPG算法求解具体步骤为:
步骤3a,初始化深度强化学习算法评估网络中价值网络权重θQ、动作网络权重θμ,并将其权重复制到目标网络中θQ′=θQ,θμ′=θμ,θQ′是目标网络中价值网络的权重,θμ′是目标网络中动作网络的权重。初始化一个随机向量
Figure BDA0002988306500000068
作为动作探索的噪声;构建一个长度为NR的经验池R;清空R;设置迭代次数为t,最大迭代次数为T,初始化状态s0,令t=1,s0=[0,0];执行步骤3b;
步骤3b,获得时隙t所有用户的状态
Figure BDA0002988306500000069
将st输入到深度强化学习算法的评估网络中,依据以下公式:
Figure BDA0002988306500000071
得到动作at,at=[βt,αt];μ(stμ)表示评估网络在状态st下采取的动作,
Figure BDA0002988306500000072
为均值为0的Ornstein-Uhlenbeck噪声。根据任务调度子问题解出的最优任务执行顺序I*(n,t),计算各个用户的边缘计算延迟,得到本时隙的奖励函数rt=r(st,at)和下一时隙的网络状态st+1;将(st,at,rt,st+1)放入经验池,执行步骤3c;
步骤3c,从经验池R中随机取出M个样本(si,ai,ri,si+1)进行训练;评估网络中价值网络损失函数L,计算为:
Figure BDA0002988306500000073
评估网络中动作网络的损失函数
Figure BDA0002988306500000074
计算为:
Figure BDA0002988306500000075
其中Q(si,aiQ)为评估网络中价值网络的输出,yi为目标网络中价值网络的输出,μ(siμ)表示评估网络在状态si下采取的动作;根据L更新评估网络中价值网络权重θQ,根据
Figure BDA0002988306500000076
更新评估网络中动作网络权重θμ;具体更新公式如下:
θQ′=τθQ+(1-τ),θμ′=τθμ+(1-τ)θμ′ (16)
τ为学习效率,更新目标网络的权重。
步骤3d,重复步骤3b,且t=t+1,直至t=T;迭代结束后评估网络中动作网络权重θμ为最优,此时动作网络输出最优动作a*,即可获得最优卸载决策β*和最优边缘服务器选择策略α*
进一步地,结合两个子问题的解,获得最优调度方案为
Figure BDA0002988306500000081
其中β*为最优卸载决策,α*为最优边缘服务器选择策略,
Figure BDA0002988306500000082
为任务调度子问题的最优解。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
(1)本方法考虑了多边缘服务器的选择问题,基于深度强化学习方法,在动态环境中能快速、准确给出每个用户任务边缘卸载时,最佳的接收服务器。
(2)本方法基于卸载决策和服务器选择策略,给出了最佳的任务执行顺序。本方法能适应大量任务的卸载,相比于传统的方法,具有更高的实用价值。
附图说明
图1为本发明实施例中所述的基于深度强化学习的多用户边缘计算优化调度方法的流程图。
图2为本发明实施例中子问题(1)的求解算法流程图。
图3为本发明实施例中深度强化学习算法的网络结构图。
图4为本发明实施例中子问题(2)的求解算法流程图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,基于深度强化学习的多用户边缘计算优化调度方法流程图,该方法包括以下步骤:
步骤一中,系统中共有M个移动用户,N个边缘服务器MEC,N个MEC服务器为M个用户提供计算服务;用n表示MEC服务器的索引,m表示用户的索引;每个用户选择一个服务器进行任务卸载;用向量αm,t=[αm,1,t,αm,2,t,…,αm,n,t,…,αm,N,t]表示t时隙用户m的MEC选择策略,其中αm,n,t=1表示t时隙用户m选择MEC服务器n进行计算任务卸载,αm,n,t=0表示t时隙用户m未选择MEC服务器n,
Figure BDA0002988306500000091
用向量βm,t∈{0,1}表示t时隙用户m的卸载决策,βm,t=1表示用户m选择在本地计算,βm,t=0表示用户m选择边缘计算。
Figure BDA0002988306500000092
表示t时隙用户m任务卸载到本地的计算延迟。本地计算延迟主要是处理延迟,因此任务的本地计算延迟按下式计算:
Figure BDA0002988306500000093
其中,参数λm,t表示t时隙用户m的任务数据量;Fm表示本地设备的处理能力,单位为CPU周期数/秒;ρ表示处理1bit数据所需的CPU周期数。
Figure BDA0002988306500000094
表示用户m在t时隙任务卸载到接收者MEC n的边缘计算延迟。计算延迟包括传输延迟、排队延迟、处理延迟。用Rm,n表示用户m向接收者MEC n卸载任务的数据速率,按下式计算:
Figure BDA0002988306500000095
其中,参数Bm表示分配给用户m的信道带宽,Pm表示用户m的发射功率,hm,n表示用户m与MEC n之间的信道增益,
Figure BDA0002988306500000096
表示用户m与MEC n之间信道中的高斯噪声功率。
Figure BDA0002988306500000097
表示用户m将计算数据卸载到MEC的传输延迟,按下式计算:
Figure BDA0002988306500000098
若多个任务同时到达某一MEC服务器,比如MEC n,会产生排队延迟,用Mn,t表示t时隙将任务卸载到MEC n的用户集合,即Mn,t={m|(1-βm,tm,n,t=1};用Nn,t表示t时隙卸载到MEC n的任务总数,Nn,t=∑m(1-βm,tm,n,t;用矩阵I(n,t)表示t时隙卸载到MEC n的任务的处理顺序,I(n,t)是一个Nn,t×Nn,t阶的矩阵,其中I(n,t)的元素
Figure BDA0002988306500000101
为0或1,
Figure BDA0002988306500000102
表示用户m卸载的任务被调度为在同一时隙卸载的任务中要处理的第j个任务。用
Figure BDA0002988306500000103
表示用户m的任务在MEC n中的排队延迟,按下式计算:
Figure BDA0002988306500000104
其中,m′是其他用户的索引;
Figure BDA0002988306500000105
表示完成前一时隙任务卸载的延迟,按下式计算:
Figure BDA0002988306500000106
其中ε表示时隙的长度。
Figure BDA0002988306500000107
表示t时隙用户m卸载到MEC n的任务的处理延迟,按下式计算:
Figure BDA0002988306500000108
其中Fe表示边缘服务器的计算能力,单位为CPU周期数/秒。
给定传输延迟、排队延迟、计算延迟,用户m在t时隙任务卸载到MEC n的边缘计算延迟
Figure BDA0002988306500000109
Figure BDA00029883065000001010
步骤二中,所述目标函数为本地计算延迟和边缘计算延迟的加权和,计算为
Figure BDA0002988306500000111
因此,总的优化问题为:
Figure BDA0002988306500000112
Figure BDA0002988306500000113
Figure BDA0002988306500000114
优化变量包括三个:卸载决策,即β;边缘服务器选择,即α;任务调度,即
Figure BDA0002988306500000115
将上述优化问题划分为两个子问题:(1)任务调度,(2)卸载决策和边缘服务器选择。
(1)任务调度子问题
任务调度子问题针对卸载至MEC服务器的任务执行顺序进行排序。网络与环境交互时,网络会依据公式(13)给出动作即给定卸载决策和边缘服务器选择策略{α,β};当任务卸载至MEC服务器时,β的取值为0,因此本地计算延迟为0,只需考虑优化边缘计算延迟。以最小化延迟为目标,建立边缘服务器中多个计算任务的调度优化问题:
Figure BDA0002988306500000116
Figure BDA0002988306500000117
(2)卸载决策和边缘服务器选择子问题
在已知子问题(1)的最优解
Figure BDA0002988306500000118
的条件下,计算出各个用户的边缘计算处理时延即
Figure BDA0002988306500000119
可建立卸载决策和边缘服务器选择子问题如下式
Figure BDA0002988306500000121
Figure BDA0002988306500000122
上述优化问题可以映射为深度强化学习问题:令网络状态
Figure BDA0002988306500000123
Figure BDA0002988306500000124
其中λt=[λ1,t,λ2,t,…,λm,t,…,λM,t]为t时隙用户任务数据量,
Figure BDA0002988306500000125
为边缘服务器完成前一时隙(t-1时隙)卸载任务的延迟;网络动作at=[βt,αt],其中βt=[β1,t,β2,t,…,βm,t,…,βM,t]为卸载决策,αt=[α1,t,α2,t,…,αm,t,…,αM,t]为边缘服务器选择策略;奖励函数为
Figure BDA0002988306500000129
。经过上述映射,子问题2等效为如下优化问题:
Figure BDA0002988306500000126
采用深度强化学习算法求解式(12)。
步骤三中,利用图2的任务调度算法求解任务调度优化子问题(1),即按照计算时间由小到大顺序调度任务,具体实施步骤为:
步骤301,对于时隙t,统计选择卸载到边缘服务器的用户集合,即初始化集合M={m1λm,t≠0)以及每个边缘服务器的
Figure BDA0002988306500000127
令I(n,t)=0,jn=1;执行步骤302。
步骤302,对集合M中的每个用户,当网络与环境交互时,网络首先依据公式(13)获得一个动作at,根据at得出其选择的边缘服务器n(m)={n|αm,n,t=1},根据公式(7)计算各个用户的边缘计算处理时延,遍历循环结束后,执行步骤303。
步骤303,找出边缘计算延迟最小的用户m*,m*是用户索引,用
Figure BDA0002988306500000128
表示t时隙用户m*选择的边缘服务器,
Figure BDA00029883065000001210
是矩阵
Figure BDA0002988306500000131
列的索引,
Figure BDA0002988306500000137
,更新t时隙卸载到边缘服务器n(m*)任务的处理顺序,用户m*的任务为第一处理任务即
Figure BDA0002988306500000132
Figure BDA0002988306500000133
Figure BDA0002988306500000138
;将此用户从M集合删除,重复步骤302。最终得出任务最优执行顺序,
Figure BDA0002988306500000134
求解卸载决策和边缘服务器选择子问题(2),采用DDPG深度强化学习算法求解,该算法涉及两个网络:评估网络和目标网络,其中每个网络又包括价值网络、动作网络。如图3所示。基于DDPG算法求解子问题2的算法如图4所示,具体实施步骤为:
步骤3a,初始化深度强化学习算法评估网络中价值网络权重θQ、动作网络权重θμ,并将其权重复制到目标网络中θQ′=θQ,θμ′=θμ,θQ′是目标网络中价值网络的权重,θμ′是目标网络中动作网络的权重。初始化一个随机向量
Figure BDA0002988306500000135
作为动作探索的噪声。构建一个长度为NR的经验池R。清空R。设置迭代次数为t,最大迭代次数为T,初始化状态s0,令t=1,s0=[0,0]。执行步骤3b。
步骤3b,获得时隙t所有用户的状态
Figure BDA0002988306500000136
将st输入到深度强化学习算法的评估网络中,依据以下公式:
Figure BDA0002988306500000139
得到动作at,at=[βt,αt];μ(stμ)表示评估网络在状态st下采取的动作,
Figure BDA00029883065000001310
为均值为0的Omstein-Uhlenbeck(OU)噪声。根据子问题1解出的最优任务执行顺序I*(n,t),计算各个用户的边缘计算延迟,得到本时隙的奖励函数rt=r(st,at)和下一时隙的网络状态st+1;将(st,at,rt,St+1)放入经验池,执行步骤3c。
步骤3c,从经验池R中随机取出M个样本(si,ai,ri,si+1)进行训练。评估网络中价值网络损失函数L,可计算为:
Figure BDA0002988306500000141
评估网络中动作网络的损失函数
Figure BDA0002988306500000142
可计算为:
Figure BDA0002988306500000143
其中Q(si,aiQ)为评估网络中价值网络的输出,yi为目标网络中价值网络的输出,μ(siμ)表示评估网络在状态si下采取的动作;根据L更新评估网络中价值网络权重θQ,根据
Figure BDA0002988306500000144
更新评估网络中动作网络权重θμ;通过如下公式进行更新:
θQ′=τθQ+(1-τ),θμ′=τθμ+(1-τ)θμ′ (16)
τ为学习效率,更新目标网络的权重。
步骤3d,重复步骤3b,且t=t+1。直至t=T。迭代结束后评估网络中动作网络权重θμ为最优,此时动作网络输出最优动作a*,即可获得最优卸载决策β*和最优边缘服务器选择策略α*
结合两个子问题的解,获得最优调度方案为α*,β*,I*(n,t)
Figure BDA0002988306500000145
其中β*为最优卸载决策,α*为最优边缘服务器选择策略,I*(n,t)
Figure BDA0002988306500000146
为任务调度子问题的最优解。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (10)

1.基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:该方法适用于多用户多边缘服务器的边缘计算系统,基于最小化总延迟原则,并根据深度强化学习策略,设计了最优的任务执行顺序,其具体步骤如下:
步骤一,对于拥有多个用户和多个边缘服务器的边缘计算系统,通过用户的边缘服务器选择策略和用户的卸载策略,计算出用户任务的本地计算延迟和边缘计算延迟;
步骤二,根据本地计算延迟和边缘计算延迟建立计算任务卸载目标函数,将目标函数划分为两个子问题:任务调度;卸载决策和边缘服务器选择;
步骤三,利用任务调度算法获得任务调度的最优解,利用深度强化学习方法获得卸载决策和边缘服务器选择的最优解,结合两个子问题的最优解形成最优的多用户边缘计算调度方案。
2.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤一中,系统中共有M个移动用户,N个边缘服务器MEC,N个MEC服务器为M个用户提供计算服务;用n表示MEC服务器的索引,m表示用户的索引;每个用户选择一个服务器进行任务卸载;用矩阵αm,t=[αm,1,t,αm,2,t,…,αm,n,t,…,αm,N,t]表示t时隙用户m的MEC选择策略,其中αm,n,t=1表示t时隙用户m选择MEC服务器n进行计算任务卸载,αm,n,t=0表示t时隙用户m未选择MEC服务器n,
Figure FDA0002988306490000011
用向量βm,t∈{0,1}表示t时隙用户m的卸载决策,βm,t=1表示用户m选择在本地计算,βm,t=0表示用户m选择边缘计算。
3.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤一中,用
Figure FDA0002988306490000021
表示t时隙用户m任务卸载到本地的计算延迟,按下式计算:
Figure FDA0002988306490000022
其中,参数λm,t表示t时隙用户m的任务数据量;Fm表示本地设备的处理能力,单位为CPU周期数/秒;ρ表示处理1bit数据所需的CPU周期数。
4.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤一中,用
Figure FDA0002988306490000023
表示用户m在t时隙任务卸载到接收者MEC服务器n的边缘计算延迟;计算延迟包括传输延迟、排队延迟、处理延迟;
用Rm,n表示用户m向接收者MEC n卸载任务的数据速率,按下式计算:
Figure FDA0002988306490000024
其中,参数Bm表示分配给用户m的信道带宽,pm表示用户m的发射功率,hm,n表示用户m与MEC n之间的信道增益,
Figure FDA0002988306490000025
表示用户m与MEC n之间信道中的高斯噪声功率;
Figure FDA0002988306490000026
表示用户m将计算数据卸载到MEC的传输延迟,按下式计算:
Figure FDA0002988306490000027
若多个任务同时到达某一MEC服务器,比如MEC服务器n,会产生排队延迟,用Mn,t表示t时隙将任务卸载到MEC服务器n的用户集合,即Mn,t={m|(1-βm,tm,n,t=1};用Nn,t表示t时隙卸载到MEC服务器n的任务总数,Nn,t=∑m(1-βm,tm,n,t;用矩阵I(n,t)表示t时隙卸载到MEC服务器n的任务的处理顺序,I(n,t)是一个Nn,t×Nn,t阶的矩阵,其中I(n,t)的元素
Figure FDA0002988306490000031
为0或1,
Figure FDA0002988306490000032
表示用户m卸载的任务被调度为在同一时隙卸载的任务中要处理的第j个任务;用
Figure FDA0002988306490000033
表示用户m的任务在MEC n中的排队延迟,按下式计算:
Figure FDA0002988306490000034
其中,m′是其他用户的索引;
Figure FDA0002988306490000035
表示完成前一时隙任务卸载的延迟,按下式计算:
Figure FDA0002988306490000036
其中ε表示时隙的长度;
Figure FDA0002988306490000037
表示t时隙用户m卸载到MEC n的任务的处理延迟,按下式计算:
Figure FDA0002988306490000038
其中Fe表示边缘服务器的计算能力,单位为CPU周期数/秒;
基于上述得到的传输延迟、排队延迟、计算延迟,用户m在t时隙任务卸载到MEC n的边缘计算延迟
Figure FDA0002988306490000039
为:
Figure FDA00029883064900000310
5.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤二中,所述目标函数为本地计算延迟和边缘计算延迟的加权和,计算为:
Figure FDA0002988306490000041
因此,总的优化问题为:
Figure FDA0002988306490000042
s.t.βm,t∈{0,1},
Figure FDA0002988306490000043
Figure FDA0002988306490000044
优化变量包括三个:卸载决策,即β;边缘服务器选择,即α;任务调度,即
Figure FDA0002988306490000045
将上述优化问题划分为两个子问题:i)任务调度,ii)卸载决策和边缘服务器选择。
6.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤二中,任务调度子问题针对卸载至MEC服务器的任务执行顺序进行排序,以最小化计算延迟为目标,建立边缘服务器中多个计算任务的调度优化问题:
Figure FDA0002988306490000046
Figure FDA0002988306490000047
7.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤二中,在已知任务调度子问题的最优解I*(n,t)
Figure FDA0002988306490000048
的条件下,计算出各个用户的边缘计算处理时延即
Figure FDA0002988306490000049
建立卸载决策和边缘服务器选择子问题如下式
Figure FDA00029883064900000410
s.t.βm,t∈{0,1},
Figure FDA00029883064900000411
上述优化问题映射为深度强化学习问题:令网络状态
Figure FDA0002988306490000051
Figure FDA0002988306490000052
其中λt=[λ1,t,λ2,t,…,λm,t,…,λM,t]为t时隙用户任务数据量,
Figure FDA0002988306490000053
为边缘服务器完成前一时隙,即t-1时隙,卸载任务的延迟;网络动作at=[βt,αt],其中βt=[β1,t,β2,t,…,βm,t,…,βM,t]为卸载决策,αt=[α1,t,α2,t,…,αm,t,…,αM,t]为边缘服务器选择策略;奖励函数为
Figure FDA0002988306490000058
经过上述映射,卸载决策和边缘服务器选择子问题等效为如下优化问题:
Figure FDA0002988306490000054
8.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:在步骤三中,利用任务调度算法求解任务调度优化子问题,即按照计算时间由小到大顺序调度任务,具体步骤为:
步骤301,对于时隙t,统计选择卸载到边缘服务器的用户集合,即初始化集合M={m|λm,t≠0)以及每个边缘服务器的
Figure FDA0002988306490000055
令I(n,t)=0,jn=1;执行步骤302;
步骤302,对集合M中的每个用户,当网络与环境交互时,网络首先依据公式(13)获得一个动作at,根据at得出其选择的边缘服务器n(m)={n|αm,n,t=1},根据公式(7)计算各个用户的边缘计算处理时延,遍历循环结束后,执行步骤303;
步骤303,找出边缘计算延迟最小的用户m*,m*是用户索引,用
Figure FDA0002988306490000056
表示t时隙用户m*选择的边缘服务器,
Figure FDA0002988306490000057
是矩阵
Figure FDA0002988306490000061
列的索引,
Figure FDA0002988306490000062
更新t时隙卸载到边缘服务器n(m*)任务的处理顺序,用户m*的任务为第一处理任务即
Figure FDA0002988306490000063
Figure FDA0002988306490000064
将此用户从M集合删除,重复步骤302,最终得出任务最优执行顺序,I*(n,t)
Figure FDA0002988306490000065
9.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:步骤三中,采用DDPG深度强化学习算法求解卸载决策和边缘服务器选择子问题,该算法涉及两个网络:评估网络和目标网络,其中每个网络又包括价值网络、动作网络;基于DDPG算法求解具体步骤为:
步骤3a,初始化深度强化学习算法评估网络中价值网络权重θQ、动作网络权重θμ,并将其权重复制到目标网络中θQ′=θQ,θμ′=θμ,θQ′是目标网络中价值网络的权重,θμ′是目标网络中动作网络的权重。初始化一个随机向量
Figure FDA0002988306490000066
作为动作探索的噪声;构建一个长度为NR的经验池R;清空R;设置迭代次数为t,最大迭代次数为T,初始化状态s0,令t=1,s0=[0,0];执行步骤3b;
步骤3b,获得时隙t所有用户的状态
Figure FDA0002988306490000067
将st输入到深度强化学习算法的评估网络中,依据以下公式:
Figure FDA0002988306490000068
得到动作at,at=[βt,αt];μ(stμ)表示评估网络在状态st下采取的动作,
Figure FDA0002988306490000069
为均值为0的Ornstein-Uhlenbeck噪声。根据任务调度子问题解出的最优任务执行顺序I*(n,t),计算各个用户的边缘计算延迟,得到本时隙的奖励函数rt=r(st,at)和下一时隙的网络状态st+1;将(st,at,rt,st+1)放入经验池,执行步骤3c;
步骤3c,从经验池R中随机取出M个样本(si,ai,ri,si+1)进行训练;评估网络中价值网络损失函数L,计算为:
Figure FDA0002988306490000071
评估网络中动作网络的损失函数
Figure FDA0002988306490000072
计算为:
Figure FDA0002988306490000073
其中Q(si,aiQ)为评估网络中价值网络的输出,yi为目标网络中价值网络的输出,μ(siμ)表示评估网络在状态si下采取的动作;根据L更新评估网络中价值网络权重θQ,根据
Figure FDA0002988306490000074
更新评估网络中动作网络权重θμ;具体更新公式如下:
θQ′=τθQ+(1-τ),θμ′=τθμ+(1-τ)θμ′ (16)
τ为学习效率,更新目标网络的权重。
步骤3d,重复步骤3b,且t=t+1,直至t=T;迭代结束后评估网络中动作网络权重θμ为最优,此时动作网络输出最优动作a*,即可获得最优卸载决策β*和最优边缘服务器选择策略α*
10.根据权利要求1所述基于深度强化学习的多用户边缘计算优化调度方法,其特征在于:结合两个子问题的解,获得最优调度方案为α*,β*,I*(n,t)
Figure FDA0002988306490000075
其中β*为最优卸载决策,α*为最优边缘服务器选择策略,I*(n,t)
Figure FDA0002988306490000076
为任务调度子问题的最优解。
CN202110307183.1A 2021-03-23 2021-03-23 基于深度强化学习的多用户边缘计算优化调度方法 Active CN112882815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307183.1A CN112882815B (zh) 2021-03-23 2021-03-23 基于深度强化学习的多用户边缘计算优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307183.1A CN112882815B (zh) 2021-03-23 2021-03-23 基于深度强化学习的多用户边缘计算优化调度方法

Publications (2)

Publication Number Publication Date
CN112882815A true CN112882815A (zh) 2021-06-01
CN112882815B CN112882815B (zh) 2022-10-25

Family

ID=76041190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307183.1A Active CN112882815B (zh) 2021-03-23 2021-03-23 基于深度强化学习的多用户边缘计算优化调度方法

Country Status (1)

Country Link
CN (1) CN112882815B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382383A (zh) * 2021-06-11 2021-09-10 浙江工业大学 一种基于策略梯度的公交车辆计算任务卸载方法
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113485803A (zh) * 2021-06-29 2021-10-08 天津大学 具有时延约束任务流场景下的自适应封装与协同推理方法
CN113626104A (zh) * 2021-08-18 2021-11-09 北京工业大学 边云架构下基于深度强化学习的多目标优化卸载策略
CN113641496A (zh) * 2021-08-13 2021-11-12 西安工程大学 基于深度强化学习的dids任务调度优化方法
CN113867843A (zh) * 2021-10-08 2021-12-31 浙江工商大学 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113946423A (zh) * 2021-10-18 2022-01-18 天津大学 基于图注意力网络的多任务边缘计算调度优化方法
CN113973113A (zh) * 2021-10-27 2022-01-25 天津理工大学 一种面向移动边缘计算的分布式服务迁移方法
CN114116050A (zh) * 2021-11-16 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算的选择性卸载方法及系统
CN114614878A (zh) * 2022-02-14 2022-06-10 哈尔滨工业大学(深圳) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN115001907A (zh) * 2022-05-06 2022-09-02 河北华万电子科技有限公司 一种irs辅助微型配电网智能计算方法
CN115051998A (zh) * 2022-06-09 2022-09-13 电子科技大学 自适应边缘计算卸载方法、装置及计算机可读存储介质
CN116016514A (zh) * 2022-12-28 2023-04-25 北京工业大学 一种边缘计算服务的智能自适应编排方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN112118601A (zh) * 2020-08-18 2020-12-22 西北工业大学 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN112118601A (zh) * 2020-08-18 2020-12-22 西北工业大学 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113382383A (zh) * 2021-06-11 2021-09-10 浙江工业大学 一种基于策略梯度的公交车辆计算任务卸载方法
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113485803A (zh) * 2021-06-29 2021-10-08 天津大学 具有时延约束任务流场景下的自适应封装与协同推理方法
CN113641496A (zh) * 2021-08-13 2021-11-12 西安工程大学 基于深度强化学习的dids任务调度优化方法
CN113641496B (zh) * 2021-08-13 2023-12-12 陕西边云协同网络科技有限责任公司 基于深度强化学习的dids任务调度优化方法
CN113626104A (zh) * 2021-08-18 2021-11-09 北京工业大学 边云架构下基于深度强化学习的多目标优化卸载策略
CN113626104B (zh) * 2021-08-18 2023-12-15 北京工业大学 边云架构下基于深度强化学习的多目标优化卸载策略
CN113867843B (zh) * 2021-10-08 2023-09-01 浙江工商大学 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113867843A (zh) * 2021-10-08 2021-12-31 浙江工商大学 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113946423A (zh) * 2021-10-18 2022-01-18 天津大学 基于图注意力网络的多任务边缘计算调度优化方法
CN113946423B (zh) * 2021-10-18 2024-04-19 天津大学 基于图注意力网络的多任务边缘计算调度优化方法
CN113973113B (zh) * 2021-10-27 2023-08-22 天津理工大学 一种面向移动边缘计算的分布式服务迁移方法
CN113973113A (zh) * 2021-10-27 2022-01-25 天津理工大学 一种面向移动边缘计算的分布式服务迁移方法
CN114116050A (zh) * 2021-11-16 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算的选择性卸载方法及系统
CN114614878A (zh) * 2022-02-14 2022-06-10 哈尔滨工业大学(深圳) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN114614878B (zh) * 2022-02-14 2023-08-29 哈尔滨工业大学(深圳) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN115001907A (zh) * 2022-05-06 2022-09-02 河北华万电子科技有限公司 一种irs辅助微型配电网智能计算方法
CN115051998A (zh) * 2022-06-09 2022-09-13 电子科技大学 自适应边缘计算卸载方法、装置及计算机可读存储介质
CN116016514A (zh) * 2022-12-28 2023-04-25 北京工业大学 一种边缘计算服务的智能自适应编排方法
CN116016514B (zh) * 2022-12-28 2024-04-19 北京工业大学 一种边缘计算服务的智能自适应编排方法

Also Published As

Publication number Publication date
CN112882815B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN112882815B (zh) 基于深度强化学习的多用户边缘计算优化调度方法
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN108920280B (zh) 一种单用户场景下的移动边缘计算任务卸载方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN110971706B (zh) Mec中近似最优化与基于强化学习的任务卸载方法
CN107911478B (zh) 基于化学反应优化算法的多用户计算卸载方法及装置
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN112988285B (zh) 任务卸载方法和装置、电子设备及存储介质
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113220356A (zh) 一种移动边缘计算中的用户计算任务卸载方法
CN112995343B (zh) 一种具有性能与需求匹配能力的边缘节点计算卸载方法
CN114595049A (zh) 一种云边协同任务调度方法及装置
CN114585006A (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN112084035A (zh) 一种基于蚁群算法的任务调度方法及系统
CN113139639B (zh) 一种基于mombi面向智慧城市应用多目标计算迁移方法和装置
CN113961204A (zh) 一种基于多目标强化学习的车联网计算卸载方法及系统
CN113778550A (zh) 一种基于移动边缘计算的任务卸载系统和方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN114980216B (zh) 基于移动边缘计算的依赖型任务卸载系统及方法
CN110768827A (zh) 一种基于群智能算法的任务卸载方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN116089083A (zh) 一种多目标数据中心资源调度方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN114302456A (zh) 一种移动边缘计算网络考虑任务优先级的计算卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant