CN114189936A - 一种基于深度强化学习的协作边缘计算任务卸载方法 - Google Patents
一种基于深度强化学习的协作边缘计算任务卸载方法 Download PDFInfo
- Publication number
- CN114189936A CN114189936A CN202111278169.XA CN202111278169A CN114189936A CN 114189936 A CN114189936 A CN 114189936A CN 202111278169 A CN202111278169 A CN 202111278169A CN 114189936 A CN114189936 A CN 114189936A
- Authority
- CN
- China
- Prior art keywords
- task
- energy consumption
- calculation
- mec server
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5022—Mechanisms to release resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开一种基于深度强化学习的协作边缘计算任务卸载方法。主要包括如下步骤:1、构建协作移动边缘计算系统的数学模型p1;2、将问题p1转化为为双层问题p2;3、上层基于深度强化学习求解卸载决策,功率分配和信道分配,提供给下层;4、根据上层提供的卸载决策,功率分配和信道分配,下层求解计算资源的最优分配,计算得出能耗后反馈给上层;5、上层收到下层反馈,存入经验池,更新网络参数;6、训练评估网络与目标网络;7、判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3继续迭代;应用本发明,解决了协作移动边缘计算系统在时延约束下的最小能耗问题,可以实现协作边缘计算系统的能耗最小化。
Description
技术领域
本发明属于无线网络技术领域,涉及一种基于深度强化学习的协作边缘计算中任务卸载和资源分配的能耗优化方法。
背景技术
随着智能移动设备的普及,如智能手机、智能手表、智能手环和物联网(Internetof Things,IOT)设备,如共享电源和共享自行车,很多新的移动应用随着时尚的浪潮而来。这些新的移动应用,如电子医疗、人脸识别、监控、增强现实和虚拟现实,不仅是计算密集型,而且是高能耗的。然而,这种无可比拟的增长与移动设备的电池和计算能力的提高并不匹配。鉴于移动设备使用量的巨大增长,移动边缘计算(Mobile Edge Computing,MEC)可以弥补移动设备能力受限和计算需求增长之间的差距。
为了应对这些挑战,移动设备可以将计算任务卸载到附近的MEC服务器上,以减少处理延迟并节省电池能量。因此,计算卸载中出现的最重要的问题是在所有可用的服务器中选择一个MEC服务器。如果所选的MEC服务器经历了沉重的工作负荷和不利的通信条件,移动设备可能需要更长的时间来卸载数据和接收结果。因此,为了实现有效和高效的卸载策略,必须考虑到环境的变化,如移动设备的可用能量、计算工作量和不同MEC服务器的计算能力。因此卸载策略显得尤为重要。
并且,通信资源和计算资源对于任务卸载的性能尤为重要:前者决定传输任务过程中的数据速率和能量消耗,而后者限制任务的计算时间和能耗。传统的通信资源分配研究主要集中在频谱效率和能量效率上,然而,在这两类资源受限的MEC系统中,传输和计算过程是耦合的,随着用户数量的增加,MEC系统的组合优化变得越来越复杂。因此,针对多用户的MEC系统,制定有效的卸载策略是十分必要的。
鉴于以上考虑,本发明提供了一种基于深度强化学习的多用户协作边缘计算中任务卸载和资源分配的能耗优化方法。
发明内容
本发明所要解决的技术问题是提供协作边缘计算中任务卸载和资源分配的能耗优化方法,通过对卸载决策、计算资源、信道分配和功率分配联合优化,目标是在时延约束下最小化能耗。
发明的技术解决方案如下:
构建协作移动边缘计算网络场景,如附图1所示,我们考虑一个云服务,多个具有MEC服务器的基站和大量用户的MEC系统,而正交频分多址(Orthogonal FrequencyDivision Multiple Access,OFDMA)作为其传输机制。假设有|S|个可用于无线传输的子载波,S={1,2,...,s,...,|S|},每个子载波的带宽为B。网络包含1个云端,M={1,2,...,m,...,|M|}共|M|个具有MEC服务器的基站。N={1,2,...,n,...,|N|}共|N|个移动用户,每一个用户有1个任务要执行。用户n的任务Un=(Cn,Dn,Tn max),Cn为完成任务Un所需的计算工作量,单位为CPU周期数/bit,Dn为数据的大小,单位为bit,Tn max表示任务Un的时延约束,任务Mi必须在[0,Ti max]内完成。由于计算结果很小,我们忽略了计算结果及他的传回过程。
此外,我们假设所有的MEC服务器都属于同一个网络运营商,这样计算数据就可以在MEC服务器之间进行一次分割和转发,从而实现协作执行。当一个可分割的任务被卸载到MEC服务器时,它将决定该任务是在单个MEC服务器上执行,还是将任务拆分,转发请求与其他MEC服务器或远程云进行协作计算。该决策基于每个MEC服务器的工作负载和计算资源状态。
1)αn=1时表示任务Un本地计算,否则αn=0。
3)时表示任务Un在MEC服务器m和MEC服务器k协作执行下完成计算,否则当MEC服务器m接收任务Un后,没有足够的计算资源来满足用户n的需求时,MEC服务器m会通过X2链路来向其他拥有足够计算资源的MEC服务器k发送请求,将计算剩余任务交给MEC服务器k计算。
4)时表示任务Un在MEC服务器m和云服务器协作执行下完成计算,否则当没有拥有足够计算资源的MEC服务器k来完成用户n的计算剩余任务时,MEC服务器m通过光纤链路向云服务器发送请求,MEC服务器m将计算剩余任务发送给云服务器计算。
另外,设子载波分配矩阵为W={wn,s,m|wn,s,m∈{0,1},n∈N,s∈S,m∈M},wn,s,m=1表示子载波s将分配给用户n,将任务卸载计算到服务器m传输时使用。子载波功率分配矩阵P={pn,s,m|pn,s,m∈(0,Pmax],n∈N,s∈S,m∈M},其中pn,s,m表示用户n和服务器m之间分配子载波s,将任务进行卸载上传的传输功率。gn,s,m表示用户n和服务器m的信道增益,同时,我们假设一个平坦的衰落环境,使得信道增益矩阵在一次调度过程中保持不变,系统噪声符合零期望高斯分布,其方差用δ2表示。
本发明所要解决的技术问题是提供一种基于深度强化学习的协作移动边缘计算联合任务卸载与资源分配的节能双层优化方法。通过对卸载决策、计算资源、信道分配和功率分配联合优化,目标是在时延约束下最小化所有用户的能耗。
本发明提出的一种基于深度强化学习的多用户协作边缘计算中任务卸载和资源分配的能耗优化方法的步骤如下:
1.构建协作边缘计算系统的数学模型p1,目标是最小化能耗,步骤如下:
1)传输模型
对于所有的卸载计算,移动用户必须首先将数据上传到MEC服务器,鉴于OFDMA机制,由于子载波分配,每个用户独占子载波,用户传输之间的干扰被忽略。并且,由于计算结果非常小,我们忽略了计算结果传回的过程。
用户n将任务Un传输到MEC服务器m时的数据传输速率如公式(1)所示:
其中B是信道带宽,wn,s,m表示将子载波s分配给用户n,将任务卸载计算到服务器m传输时使用,pn,s,m表示用户n和服务器m之间分配子载波s,将任务进行卸载上传的传输功率,gn,s,m表示用户n在和服务器m的信道增益。
任务Un传输到MEC服务器m的传输时间如公式(2)所示:
任务Un传输到MEC服务器m的传输能耗如公式(3)所示:
在MEC服务器m接收到任务Un后,如果当MEC服务器m没有足够的资源来满足用户需求时,MEC服务器会尽自己能力在时延约束之内计算一部分数据MEC服务器m通过X2链路将剩下的数据转发给另一个拥有足够资源的MEC服务器k,两个MEC服务器协作计算,所以对于MEC服务器m传输剩余数据到MEC服务器k的传输时间如公式(4)所示:
其中表示服务器m分配给任务Un的计算资源,当没有MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器m通过有线光纤链路将任务请求转发给云服务器。MEC服务器m与云服务器协作计算,所以对于MEC服务器m传输剩余数据到云服务器的传输时间如公式(6)所示:
2)计算模型
MEC服务器接收已卸载的任务,然后并行执行这些任务。由于我们考虑了MEC服务器的处理能力的上限和在延迟约束下可以处理的任务的上限,因此我们不考虑任务串行处理和任务等待队列。
A)αn=1,任务Un在本地执行的计算模式,Un在本地执行的计算时间如公式(7)所示:
任务Un在本地执行的计算能耗如公式(8)所示:
其中k0>0是一个与用户设备CPU相关的常数。
任务Un在执行MEC服务器m执行的计算能耗如公式(10)所示:
其中k1>0是一个与MEC服务器的CPU有关的常数。
C)当MEC服务器m没有足够的计算资源保证任务在时延约束之内完成时,MEC服务器会尽自己能力在时延约束之内计算一部分数据剩下的数据转发给MEC服务器k,由于MEC服务器m计算的同时不影响剩余数据的处理,剩余数据转发传输给其他服务器计算可以同时进行,所以此时可以不考虑MEC服务器m的计算时间。此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源。Un的剩余数据在MEC服务器k执行的计算时间如公式(11)所示:
D),当没有协作MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器会尽自己能力在时延约束之内计算一部分数据剩下的数据转发给云端服务器Cloud。此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源。Un的剩余数据在云端服务器执行的计算时间如公式(13)所示:
其中k2>0是一个与云服务器CPU有关的常数。
3)时延模型
对于四种决策下的任务Un的时延如公式(15)-(18)所示:
A)αn=1
任务Un的总时延如公式(19)所示:
4)能耗模型
对于四种决策下的任务Un的能耗如公式(20)-(23)所示:
A)αn=1
任务Un的总能耗如公式(24)所示:
5)能耗最小化问题
以最小化整个系统的总能耗为目标,包括总计算和传输能耗,优化卸载决策、计算资源、信道和功率分配,数学模型(问题)p1表示如下:
其中(25b)表示任务的卸载决策取值范围;(25c)声明任务最多卸载到一个MEC服务器m上,并且最多可以与其他服务器进行一次剩余任务的协作计算。(25d)表示MEC服务器m可分配的最大计算资源移;(25e)是用户n的最大传输功率约束,小于等于Pmax;(25f)和(25g)表示每个子载波最多被分配给一个用户;(25h)确保每个任务必须在延迟约束下完成。
2.对问题p1进行分析,将问题p1转化为双层问题分别进行求解,步骤如下:
通过对问题p1的进一步分析,我们可以发现以下两个特征,首先,不同的卸载决策结果,分配的计算资源和无线信道资源也不同,其次,分配不同的计算资源和无线信道资源,求得的最优卸载决策也不同。由于优化变量既相互影响,又可以分为两个独立的集合,因此问题p1满足双层优化问题的特点,可以将问题p1转化为双层优化问题p2。双层优化是在保证下层优化问题最优性的前提下解决上层优化问题。本发明将卸载决策问题和无线信道资源分配问题视为上层优化问题,将计算资源视为下层优化问题,其目的是最小化所有移动用户的总能耗。
具体来说,通过对模型分析,当卸载决策,信道和功率分配后,基于任务完成时间约束(25h),所有任务必须在时间约束之内完成,同时,根据公式(19)关于的定义,可推导出计算任务Un在不同决策下的计算资源最小下界如公式(26)所示:
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算能耗与计算资源成正比,计算资源下界公式(26)即为能耗最优值,即为计算资源分配。
因此,通过可以将问题p1转化为双层优化问题p2,如公式(27)所示:
(25b)-(25h)(27b)
然后,我们提出了一个基于深度强化学习的双层优化算法求解问题p2,上层优化和下层优化二者相互循环迭代,后者嵌套在前者中。首先上层求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层。在下层优化中,采用单调优化方法,根据给定的卸载决策和通信资源分配获得相应的计算资源的最优分配rk,计算得出最优能耗后反馈给上层。
3.求解上层优化问题,基于深度强化学习求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层,步骤如下:
深度强化学习方法中有三个关键要素,即状态、动作、奖励,具体定义如下:
·动作(a):用a表示动作,由三部分组成,分别是卸载决策,信道选择,功率分配。卸载决策为向量 表示用户n的卸载决策选择。信道选择为向量Π=[ω1,...,ωn,...,ω|N|],ωn={ωn,1,...,ωn,s,...,ωn,|S|}表示用户n的信道选择,其中ωn,s=1表示用户n分配信道s。功率选择为向量Λ=[p1,...,pn,...,p|N|],其中pn={pn,1,...,pn,k,...,pn,max-1}表示用户n的功率选择,pn,k=1表示根据最大传输功率Pmax离散化后的第k个等级的功率分配给用户n。结合向量Π,ΛUp,系统动作为所示:a=[o1,...,on,...,o|N|,ω1,...,ωn,...,ω|N|,p1,...,pn,...,p|N|]。
·奖励(R):一般来说,奖励函数应该与目标函数相关,在一定的状态st下,执行每个可能的动作a后得到一个奖励优化问题的目标为最小化总能耗因为奖励与总能耗的大小成负相关,因此将作为回报,使得最小的能耗对应最大的回报。
我们提出了一个基于深度强化学习的双层优化方法,结合了Dueling DQN和Double DQN技术,并且在神经网络内部参数中添加了自适应噪声来提高学习效率。在上层通过动作选择,得到卸载决策Ok,功率分配Pk和信道分配Wk后。下层根据提供的卸载决策,功率分配和信道分配,得到计算资源分配rk,计算得出系统总能耗作为奖励反馈给上层。上层得到反馈能耗后存入经验池,更新网络权重参数。
初始化iteration=0,最大迭代代数Ι,将当前状态st,即用户n及对应的任务Un作为环境信息输入到评估网络,输出为动作(动作即为卸载决策,功率分配和信道分配)对应的Q值,根据∈-greedy策略选择最大Q值对应的动作,或者随机选择一个动作,将动作输入下层。
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算资源与总计算能耗之间存在严格单调递增的关系。为了尽量减少所有移动用户的总计算能耗,分配给每个任务的计算资源应尽可能少。计算资源下界公式(26)即为能耗最优值,即为计算资源分配。在得到卸载决策Ok,功率分配Pk和信道分配Wk后,根据公式(26)可以计算得出计算资源下界作为计算资源分配,再代入公式(27)即可计算得到的系统总能耗下层计算得到计算资源分配后,得到能耗奖励和下一个状态st'(即下一个要执行的任务),反馈给上层。
5.上层收到下层反馈,存入经验池,更新网络参数,步骤如下:
6.训练评估网络与目标网络,步骤如下:
i)从经验池中存储的4元组抽样出一部分,将抽样出来的多个st做为batch输入到评估网络,然后根据抽样出来的动作a选出其在评估网络中对应的Q值Qeval(st,a,ω),其中ω为评估网络在添加噪声之后的的权重参数,计算公式如(28)所示:
其中,θ为评估网络的权重参数,其中σ为添加高斯噪声的噪声尺度。
ii)将抽样出来的多个st'做为batch输入到目标网络(评估网络与目标网络具有相同的网络结构),得到动作a'的Q值Q'(st',a'),取Q'(st',a')中最大的Q值并乘以一个系数γ,然后再加上抽样出来的奖励R,得到Qtar(st',a',ω'),基于DDQN的计算公式如(29)所示:
其中,ω'为目标网络在添加噪声之后的的权重参数,计算公式如(30)所示:
其中,θ'为目标网络的权重参数。
iii)计算损失函数反向传播更新神经网络权重参数:根据两个神经网络得到的两个Q值,来计算损失值,即第2步的结果Qeval(st,a,ω)与第3步的结果Qtar(st',a',ω')的均方误差,然后迭代次数iteration+1,计算公式如(31)所示:
L(ω)=E[Qtar(st',a',ω')-Qeval(st,a,ω)]2 (31)
利用梯度下降法来反向传播对网络权重参数ω进行更新,计算公式如(32)所示:
每经过θ步数后,将评估网络的权重ω更新到目标网络ω'上;
7.判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3在新的网络参数下继续迭代;
有益效果:
本发明解决了一种基于深度强化学习的协作边缘计算中任务卸载和资源分配方法。有效求得在时延约束下能源消耗的最优值,从而提高用户体验和设备能量节省。
下面结合附图对本发明作进一步的详细描述。
附图说明
图1是本发明网络模型的示意图;
图2是本发明双层优化方法的流程图;
图3是本发明提出基于深度强化学习算法的流程图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
本实施例中,如图1所示为协作移动边缘计算网络模型的示意图,一个云服务,3个具有MEC服务器的基站和10个移动用户设备N={1,2,...,10},所有移动用户有1个任务要执行。此外,完成用户任务所需要的计算工作量Cn(n∈N)为2000周期数/bit。用户的输入数据Dn(n∈N)随机分布在[1000,1500]比特内,任务的时延约束为15ms。每个移动设备的CPU计算能力随机分布在[0.1,0.9]GHz内,总共有S={1,2,...,10}信道,信道带宽B为12.5kHz,最大传输功率Pmax为1.3W,背景噪声δ2为-113dBm,MEC服务器的CPU频率随机分布在[2.3,2.7]GHz内。MEC服务器之间的X2链路容量为5Mbps,MEC服务器与云服务器之间的链路容量为120Mbps。另外,k0为5*10-24,k1为10-26,k3为10-25。并且最大迭代次数Ι=300,经验池容量φ=10000,迭代θ=10次后更新目标网络权重,添加高斯噪声的噪声尺度σ=1.01。
本发明对卸载决策、计算资源、信道分配和功率分配联合优化的目标问题是在时延约束下最小化整个系统移动用户的总能耗。根据图2所示为本发明提出的双层优化方法的流程图。步骤如下:
表1各个任务的参数表
S1-2在上层,计算10个任务的卸载决策和资源分配,及其对应的能耗;
S1-2-1从第一个任务开始选动作,得到卸载决策,信道分配和功率分配如表2所示,然后输入到下层,
表2第一个任务的动作
o<sub>1</sub> | p<sub>1,1,3</sub> | S | |
U<sub>1</sub> | β<sub>1</sub><sup>3</sup>=1 | 1.035 | 1 |
S1-2-2下层收到任务及其卸载决策o1,信道分配S和功率分配p1,1,3后,通过严格单调关系根据公式(26)获得计算资源分配r1 3,然后代入公式(24)获得能耗这样就获得了第一个任务的卸载决策,资源分配及能耗,如表3所示,然后反馈给上层,上层收到反馈后存入经验池,进行下一个任务的动作选择。
表3第一个任务的卸载决策及资源分配
S1-2-3重复执行S1-2-1至S1-2-210次,直到获得10个任务的卸载决策和资源分配,及其对应的能耗,如表4所示,
表4所有10个任务的卸载决策和资源分配及对应的能耗
S1-3这样,一轮迭代就完成,迭代次数iteration加1,将所有数据存入经验池,根据公式(25)计算损失函数反向传播更新神经网络权重参数对神经网络进行训练,并且每迭代θ=10次后,即iteration为10的倍数时,更新目标网络权重,在两个神经网络参数中加入高斯噪声。然后,算法在新的神经网络参数下进行新一轮的迭代训练。
S1-4重复执行S1-2至S1-3,直到迭代次数iteration到达最大迭次代数Ι=300。此时神经网络训练完成得到全局最优解,包括任务的卸载决策O*,信道分配W*,功率分配P*和计算资源分配r*及总能耗此时得到最低总能耗为0.3774焦,如表5所示
表5全局最优解表
Claims (1)
1.一种基于深度强化学习的协作边缘计算任务卸载方法,其特征在于,包括以下步骤:
步骤1:构建协作移动边缘计算系统的数学模型p1,目标是最小化能耗;
步骤2:对问题p1进行分析,将问题p1转化为为双层问题p2进行求解;
步骤3:求解上层优化问题,基于深度强化学习求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层;
步骤5:上层收到下层反馈,存入经验池,更新网络参数;
步骤6:训练评估网络与目标网络;
步骤7:判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3在新的网络参数下继续迭代;
步骤1中构建协作边缘计算系统的数学模型p1的步骤如下:
1)传输模型
对于所有的卸载计算,移动用户必须首先将数据上传到MEC服务器,鉴于OFDMA机制,由于子载波分配,每个用户独占子载波,用户传输之间的干扰被忽略;并且,由于计算结果非常小,我们忽略了计算结果传回的过程;
用户n将任务Un传输到MEC服务器m时的数据传输速率如公式(1)所示:
其中B是信道带宽,wn,s,m表示将子载波s分配给用户n,将任务卸载计算到服务器m传输时使用,pn,s,m表示用户n和服务器m之间分配子载波s,将任务进行卸载上传的传输功率,gn,s,m表示用户n在和服务器m的信道增益;
任务Un传输到MEC服务器m的传输时间如公式(2)所示:
任务Un传输到MEC服务器m的传输能耗如公式(3)所示:
在MEC服务器m接收到任务Un后,如果当MEC服务器m没有足够的资源来满足用户需求时,MEC服务器会尽自己能力在时延约束之内计算一部分数据MEC服务器m通过X2链路将剩下的数据转发给另一个拥有足够资源的MEC服务器k,两个MEC服务器协作计算,所以对于MEC服务器m传输剩余数据到MEC服务器k的传输时间如公式(4)所示:
其中表示服务器m分配给任务Un的计算资源,当没有MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器m通过有线光纤链路将任务请求转发给云服务器;MEC服务器m与云服务器协作计算,所以对于MEC服务器m传输剩余数据到云服务器的传输时间如公式(6)所示:
2)计算模型
MEC服务器接收已卸载的任务,然后并行执行这些任务;由于我们考虑了MEC服务器的处理能力的上限和在延迟约束下可以处理的任务的上限,因此我们不考虑任务串行处理和任务等待队列;
A)αn=1,任务Un在本地执行的计算模式,Un在本地执行的计算时间如公式(7)所示:
任务Un在本地执行的计算能耗如公式(8)所示:
其中k0>0是一个与用户设备CPU相关的常数;
任务Un在执行MEC服务器m执行的计算能耗如公式(10)所示:
其中k1>0是一个与MEC服务器的CPU有关的常数;
C)当MEC服务器m没有足够的计算资源保证任务在时延约束之内完成时,MEC服务器会尽自己能力在时延约束之内计算一部分数据剩下的数据转发给MEC服务器k,由于MEC服务器m计算的同时不影响剩余数据的处理,剩余数据转发传输给其他服务器计算可以同时进行,所以此时可以不考虑MEC服务器m的计算时间;此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源;Un的剩余数据在MEC服务器k执行的计算时间如公式(11)所示:
D),当没有协作MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器会尽自己能力在时延约束之内计算一部分数据剩下的数据转发给云端服务器Cloud;此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源;Un的剩余数据Dnr在云端服务器执行的计算时间如公式(13)所示:
其中k2>0是一个与云服务器CPU有关的常数;
3)时延模型
对于四种决策下的任务Un的时延如公式(15)-(18)所示:
A)αn=1
任务Un的总时延如公式(19)所示:
4)能耗模型
对于四种决策下的任务Un的能耗如公式(20)-(23)所示:
A)αn=1
任务Un的总能耗如公式(24)所示:
5)能耗最小化问题
以最小化整个系统的总能耗为目标,包括总计算和传输能耗,优化卸载决策、计算资源、信道和功率分配,数学模型(问题)p1表示如下:
其中(25b)表示任务的卸载决策取值范围;(25c)声明任务最多卸载到一个MEC服务器m上,并且最多可以与其他服务器进行一次剩余任务的协作计算;(25d)表示MEC服务器m可分配的最大计算资源移;(25e)是用户n的最大传输功率约束,小于等于Pmax;(25f)和(25g)表示每个子载波最多被分配给一个用户;(25h)确保每个任务必须在延迟约束下完成;
步骤2对问题p1进行分析,将问题p1转化为双层问题分别进行求解,步骤如下:
通过对问题p1的进一步分析,我们可以发现以下两个特征,首先,不同的卸载决策结果,分配的计算资源和无线信道资源也不同,其次,分配不同的计算资源和无线信道资源,求得的最优卸载决策也不同;由于优化变量既相互影响,又可以分为两个独立的集合,因此问题p1满足双层优化问题的特点,可以将问题p1转化为双层优化问题p2;双层优化是在保证下层优化问题最优性的前提下解决上层优化问题;本发明将卸载决策问题和无线信道资源分配问题视为上层优化问题,将计算资源视为下层优化问题,其目的是最小化所有移动用户的总能耗;
具体来说,通过对模型分析,当卸载决策,信道和功率分配后,基于任务完成时间约束(25h),所有任务必须在时间约束Tn max之内完成,同时,根据公式(19)关于Tn sum的定义,可推导出计算任务Un在不同决策下的计算资源最小下界如公式(26)所示:
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算能耗与计算资源成正比,计算资源下界公式(26)即为能耗最优值,即为计算资源分配;
因此,通过可以将问题p1转化为双层优化问题p2,如公式(27)所示:
(25b)-(25h) (27b)
然后,我们提出了一个基于深度强化学习的双层优化算法求解问题p2,上层优化和下层优化二者相互循环迭代,后者嵌套在前者中;首先上层求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层;在下层优化中,采用单调优化方法,根据给定的卸载决策和通信资源分配获得相应的计算资源的最优分配rk,计算得出最优能耗后反馈给上层;
步骤3求解上层优化问题,基于深度强化学习求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层,步骤如下:
深度强化学习方法中有三个关键要素,即状态、动作、奖励,具体定义如下:
·动作(a):用a表示动作,由三部分组成,分别是卸载决策,信道选择,功率分配;卸载决策为向量表示用户n的卸载决策选择;信道选择为向量Π=[ω1,...,ωn,...,ω|N|],ωn={ωn,1,...,ωn,s,...,ωn,|S|}表示用户n的信道选择,其中ωn,s=1表示用户n分配信道s;功率选择为向量Λ=[p1,...,pn,...,p|N|],其中pn={pn,1,...,pn,k,...,pn,max-1}表示用户n的功率选择,pn,k=1表示根据最大传输功率Pmax离散化后的第k个等级的功率分配给用户n;结合向量Π,ΛUp,系统动作为所示:a=[o1,...,on,...,o|N|,ω1,...,ωn,...,ω|N|,p1,...,pn,...,p|N|];
·奖励一般来说,奖励函数应该与目标函数相关,在一定的状态st下,执行每个可能的动作a后得到一个奖励优化问题的目标为最小化总能耗因为奖励与总能耗的大小成负相关,因此将作为回报,使得最小的能耗对应最大的回报;
我们提出了一个基于深度强化学习的双层优化方法,结合了Dueling DQN和DoubleDQN技术,并且在神经网络内部参数中添加了自适应噪声来提高学习效率;在上层通过动作选择,得到卸载决策Ok,功率分配Pk和信道分配Wk后;下层根据提供的卸载决策,功率分配和信道分配,得到计算资源分配rk,计算得出系统总能耗作为奖励反馈给上层;上层得到反馈能耗后存入经验池,更新网络权重参数;
初始化iteration=0,最大迭代代数Ι,将当前状态st,即用户n及对应的任务Un作为环境信息输入到评估网络,输出为动作(动作即为卸载决策,功率分配和信道分配)对应的Q值,根据∈-greedy策略选择最大Q值对应的动作,或者随机选择一个动作,将动作输入下层;
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算资源与总计算能耗之间存在严格单调递增的关系;为了尽量减少所有移动用户的总计算能耗,分配给每个任务的计算资源应尽可能少;计算资源下界公式(26)即为能耗最优值,即为计算资源分配;在得到卸载决策Ok,功率分配Pk和信道分配Wk后,根据公式(26)可以计算得出计算资源下界作为计算资源分配,再代入公式(27)即可计算得到的系统总能耗下层计算得到计算资源分配后,得到能耗奖励和下一个状态st'(即下一个要执行的任务),反馈给上层;
步骤5中上层收到下层反馈,存入经验池,更新网络参数,步骤如下:
步骤6训练评估网络与目标网络,步骤如下:
i)从经验池中存储的4元组抽样出一部分,将抽样出来的多个st做为batch输入到评估网络,然后根据抽样出来的动作a选出其在评估网络中对应的Q值Qeval(st,a,ω),其中ω为评估网络在添加噪声之后的的权重参数,计算公式如(28)所示:
其中,θ为评估网络的权重参数,其中σ为添加高斯噪声的噪声尺度;
ii)将抽样出来的多个st'做为batch输入到目标网络(评估网络与目标网络具有相同的网络结构),得到动作a'的Q值Q'(st',a'),取Q'(st',a')中最大的Q值并乘以一个系数γ,然后再加上抽样出来的奖励R,得到Qtar(st',a',ω'),基于DDQN的计算公式如(29)所示:
其中,ω'为目标网络在添加噪声之后的的权重参数,计算公式如(30)所示:
其中,θ'为目标网络的权重参数;
iii)计算损失函数反向传播更新神经网络权重参数:根据两个神经网络得到的两个Q值,来计算损失值,即第2步的结果Qeval(st,a,ω)与第3步的结果Qtar(st',a',ω')的均方误差,然后迭代次数iteration+1,计算公式如(31)所示:
L(ω)=E[Qtar(st',a',ω')-Qeval(st,a,ω)]2 (31)
利用梯度下降法来反向传播对网络权重参数ω进行更新,计算公式如(32)所示:
步骤7判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3在新的网络参数下继续迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111278169.XA CN114189936A (zh) | 2021-10-30 | 2021-10-30 | 一种基于深度强化学习的协作边缘计算任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111278169.XA CN114189936A (zh) | 2021-10-30 | 2021-10-30 | 一种基于深度强化学习的协作边缘计算任务卸载方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114189936A true CN114189936A (zh) | 2022-03-15 |
Family
ID=80540554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111278169.XA Pending CN114189936A (zh) | 2021-10-30 | 2021-10-30 | 一种基于深度强化学习的协作边缘计算任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114189936A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114928612A (zh) * | 2022-06-01 | 2022-08-19 | 重庆邮电大学 | 移动边缘计算中协同卸载的激励机制与资源分配方法 |
CN114980178A (zh) * | 2022-06-06 | 2022-08-30 | 厦门大学马来西亚分校 | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 |
CN115174566A (zh) * | 2022-06-08 | 2022-10-11 | 之江实验室 | 一种基于深度强化学习的边缘计算任务卸载方法 |
CN115344395A (zh) * | 2022-10-18 | 2022-11-15 | 合肥工业大学智能制造技术研究院 | 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统 |
CN116489712A (zh) * | 2023-04-25 | 2023-07-25 | 北京交通大学 | 一种基于深度强化学习的移动边缘计算任务卸载方法 |
-
2021
- 2021-10-30 CN CN202111278169.XA patent/CN114189936A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114928612A (zh) * | 2022-06-01 | 2022-08-19 | 重庆邮电大学 | 移动边缘计算中协同卸载的激励机制与资源分配方法 |
CN114928612B (zh) * | 2022-06-01 | 2024-04-12 | 南京浮点智算数字科技有限公司 | 移动边缘计算中协同卸载的激励机制与资源分配方法 |
CN114980178A (zh) * | 2022-06-06 | 2022-08-30 | 厦门大学马来西亚分校 | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 |
CN115174566A (zh) * | 2022-06-08 | 2022-10-11 | 之江实验室 | 一种基于深度强化学习的边缘计算任务卸载方法 |
CN115174566B (zh) * | 2022-06-08 | 2024-03-15 | 之江实验室 | 一种基于深度强化学习的边缘计算任务卸载方法 |
CN115344395A (zh) * | 2022-10-18 | 2022-11-15 | 合肥工业大学智能制造技术研究院 | 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统 |
CN116489712A (zh) * | 2023-04-25 | 2023-07-25 | 北京交通大学 | 一种基于深度强化学习的移动边缘计算任务卸载方法 |
CN116489712B (zh) * | 2023-04-25 | 2024-02-09 | 北京交通大学 | 一种基于深度强化学习的移动边缘计算任务卸载方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN114189936A (zh) | 一种基于深度强化学习的协作边缘计算任务卸载方法 | |
CN112105062B (zh) | 时敏条件下移动边缘计算网络能耗最小化策略方法 | |
Zhang et al. | Dynamic task offloading and resource allocation for mobile-edge computing in dense cloud RAN | |
CN109684075B (zh) | 一种基于边缘计算和云计算协同进行计算任务卸载的方法 | |
CN111132191B (zh) | 移动边缘计算服务器联合任务卸载、缓存及资源分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN113504999B (zh) | 一种面向高性能分层联邦边缘学习的调度与资源分配方法 | |
Liu et al. | Max-min energy balance in wireless-powered hierarchical fog-cloud computing networks | |
CN111930436A (zh) | 一种基于边缘计算的随机型任务排队卸载优化方法 | |
CN111565380B (zh) | 车联网中基于noma-mec混合卸载方法 | |
CN111552564A (zh) | 基于边缘缓存的任务卸载与资源优化的方法 | |
CN113286329B (zh) | 基于移动边缘计算的通信和计算资源联合优化方法 | |
CN111885147A (zh) | 边缘计算中的一种资源动态定价方法 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
Kim et al. | Joint optimization of signal design and resource allocation in wireless D2D edge computing | |
CN114860337B (zh) | 一种基于元强化学习算法的计算卸载方法 | |
CN111836284A (zh) | 基于移动边缘计算的能耗优化计算、卸载方法和系统 | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
Di Pietro et al. | An optimal low-complexity policy for cache-aided computation offloading | |
KR102391956B1 (ko) | 비직교 다중접속(noma) 방식을 지원하는 다중접속 에지 컴퓨팅(mec)에서 컴퓨팅 오프로딩 최적화를 위한 연합 방법 | |
CN116828534B (zh) | 基于强化学习的密集网络大规模终端接入与资源分配方法 | |
Chen et al. | Dynamic task caching and computation offloading for mobile edge computing | |
CN110177383B (zh) | 移动边缘计算中基于任务调度和功率分配的效率优化方法 | |
CN116880923A (zh) | 一种基于多智能体强化学习的动态任务卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |