CN114189936A - 一种基于深度强化学习的协作边缘计算任务卸载方法 - Google Patents

一种基于深度强化学习的协作边缘计算任务卸载方法 Download PDF

Info

Publication number
CN114189936A
CN114189936A CN202111278169.XA CN202111278169A CN114189936A CN 114189936 A CN114189936 A CN 114189936A CN 202111278169 A CN202111278169 A CN 202111278169A CN 114189936 A CN114189936 A CN 114189936A
Authority
CN
China
Prior art keywords
task
energy consumption
calculation
mec server
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111278169.XA
Other languages
English (en)
Inventor
邝祝芳
谭林
邱建立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University of Forestry and Technology
Original Assignee
Central South University of Forestry and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University of Forestry and Technology filed Critical Central South University of Forestry and Technology
Priority to CN202111278169.XA priority Critical patent/CN114189936A/zh
Publication of CN114189936A publication Critical patent/CN114189936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于深度强化学习的协作边缘计算任务卸载方法。主要包括如下步骤:1、构建协作移动边缘计算系统的数学模型p1;2、将问题p1转化为为双层问题p2;3、上层基于深度强化学习求解卸载决策,功率分配和信道分配,提供给下层;4、根据上层提供的卸载决策,功率分配和信道分配,下层求解计算资源的最优分配,计算得出能耗后反馈给上层;5、上层收到下层反馈,存入经验池,更新网络参数;6、训练评估网络与目标网络;7、判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3继续迭代;应用本发明,解决了协作移动边缘计算系统在时延约束下的最小能耗问题,可以实现协作边缘计算系统的能耗最小化。

Description

一种基于深度强化学习的协作边缘计算任务卸载方法
技术领域
本发明属于无线网络技术领域,涉及一种基于深度强化学习的协作边缘计算中任务卸载和资源分配的能耗优化方法。
背景技术
随着智能移动设备的普及,如智能手机、智能手表、智能手环和物联网(Internetof Things,IOT)设备,如共享电源和共享自行车,很多新的移动应用随着时尚的浪潮而来。这些新的移动应用,如电子医疗、人脸识别、监控、增强现实和虚拟现实,不仅是计算密集型,而且是高能耗的。然而,这种无可比拟的增长与移动设备的电池和计算能力的提高并不匹配。鉴于移动设备使用量的巨大增长,移动边缘计算(Mobile Edge Computing,MEC)可以弥补移动设备能力受限和计算需求增长之间的差距。
为了应对这些挑战,移动设备可以将计算任务卸载到附近的MEC服务器上,以减少处理延迟并节省电池能量。因此,计算卸载中出现的最重要的问题是在所有可用的服务器中选择一个MEC服务器。如果所选的MEC服务器经历了沉重的工作负荷和不利的通信条件,移动设备可能需要更长的时间来卸载数据和接收结果。因此,为了实现有效和高效的卸载策略,必须考虑到环境的变化,如移动设备的可用能量、计算工作量和不同MEC服务器的计算能力。因此卸载策略显得尤为重要。
并且,通信资源和计算资源对于任务卸载的性能尤为重要:前者决定传输任务过程中的数据速率和能量消耗,而后者限制任务的计算时间和能耗。传统的通信资源分配研究主要集中在频谱效率和能量效率上,然而,在这两类资源受限的MEC系统中,传输和计算过程是耦合的,随着用户数量的增加,MEC系统的组合优化变得越来越复杂。因此,针对多用户的MEC系统,制定有效的卸载策略是十分必要的。
鉴于以上考虑,本发明提供了一种基于深度强化学习的多用户协作边缘计算中任务卸载和资源分配的能耗优化方法。
发明内容
本发明所要解决的技术问题是提供协作边缘计算中任务卸载和资源分配的能耗优化方法,通过对卸载决策、计算资源、信道分配和功率分配联合优化,目标是在时延约束下最小化能耗。
发明的技术解决方案如下:
构建协作移动边缘计算网络场景,如附图1所示,我们考虑一个云服务,多个具有MEC服务器的基站和大量用户的MEC系统,而正交频分多址(Orthogonal FrequencyDivision Multiple Access,OFDMA)作为其传输机制。假设有|S|个可用于无线传输的子载波,S={1,2,...,s,...,|S|},每个子载波的带宽为B。网络包含1个云端,M={1,2,...,m,...,|M|}共|M|个具有MEC服务器的基站。N={1,2,...,n,...,|N|}共|N|个移动用户,每一个用户有1个任务要执行。用户n的任务Un=(Cn,Dn,Tn max),Cn为完成任务Un所需的计算工作量,单位为CPU周期数/bit,Dn为数据的大小,单位为bit,Tn max表示任务Un的时延约束,任务Mi必须在[0,Ti max]内完成。由于计算结果很小,我们忽略了计算结果及他的传回过程。
此外,我们假设所有的MEC服务器都属于同一个网络运营商,这样计算数据就可以在MEC服务器之间进行一次分割和转发,从而实现协作执行。当一个可分割的任务被卸载到MEC服务器时,它将决定该任务是在单个MEC服务器上执行,还是将任务拆分,转发请求与其他MEC服务器或远程云进行协作计算。该决策基于每个MEC服务器的工作负载和计算资源状态。
这样每个任务就有四种可能的卸载决策,我们定义
Figure BDA0003330408900000021
Figure BDA0003330408900000022
为每个任务Un的卸载决策,4种可能的卸载决策如下所示:
1)αn=1时表示任务Un本地计算,否则αn=0。
2)
Figure BDA0003330408900000023
时表示任务Un卸载到MEC服务器m计算,否则
Figure BDA0003330408900000024
m表示用户n的卸载位置,当MEC服务器m有足够的计算资源来满足用户n的需求时,接收任务Un后,并且独立完成任务计算。
3)
Figure BDA0003330408900000025
时表示任务Un在MEC服务器m和MEC服务器k协作执行下完成计算,否则
Figure BDA0003330408900000026
当MEC服务器m接收任务Un后,没有足够的计算资源来满足用户n的需求时,MEC服务器m会通过X2链路来向其他拥有足够计算资源的MEC服务器k发送请求,将计算剩余任务交给MEC服务器k计算。
4)
Figure BDA0003330408900000027
时表示任务Un在MEC服务器m和云服务器协作执行下完成计算,否则
Figure BDA0003330408900000028
当没有拥有足够计算资源的MEC服务器k来完成用户n的计算剩余任务时,MEC服务器m通过光纤链路向云服务器发送请求,MEC服务器m将计算剩余任务发送给云服务器计算。
我们定义卸载决策矩阵O={o1,o2,...,on}为n个用户的卸载决策矩阵。定义
Figure BDA0003330408900000031
为计算资源分配矩阵,
Figure BDA0003330408900000032
表示服务器m分配给任务Un的计算资源。
另外,设子载波分配矩阵为W={wn,s,m|wn,s,m∈{0,1},n∈N,s∈S,m∈M},wn,s,m=1表示子载波s将分配给用户n,将任务卸载计算到服务器m传输时使用。子载波功率分配矩阵P={pn,s,m|pn,s,m∈(0,Pmax],n∈N,s∈S,m∈M},其中pn,s,m表示用户n和服务器m之间分配子载波s,将任务进行卸载上传的传输功率。gn,s,m表示用户n和服务器m的信道增益,同时,我们假设一个平坦的衰落环境,使得信道增益矩阵在一次调度过程中保持不变,系统噪声符合零期望高斯分布,其方差用δ2表示。
本发明所要解决的技术问题是提供一种基于深度强化学习的协作移动边缘计算联合任务卸载与资源分配的节能双层优化方法。通过对卸载决策、计算资源、信道分配和功率分配联合优化,目标是在时延约束下最小化所有用户的能耗。
本发明提出的一种基于深度强化学习的多用户协作边缘计算中任务卸载和资源分配的能耗优化方法的步骤如下:
1.构建协作边缘计算系统的数学模型p1,目标是最小化能耗,步骤如下:
1)传输模型
对于所有的卸载计算,移动用户必须首先将数据上传到MEC服务器,鉴于OFDMA机制,由于子载波分配,每个用户独占子载波,用户传输之间的干扰被忽略。并且,由于计算结果非常小,我们忽略了计算结果传回的过程。
用户n将任务Un传输到MEC服务器m时的数据传输速率如公式(1)所示:
Figure BDA0003330408900000033
其中B是信道带宽,wn,s,m表示将子载波s分配给用户n,将任务卸载计算到服务器m传输时使用,pn,s,m表示用户n和服务器m之间分配子载波s,将任务进行卸载上传的传输功率,gn,s,m表示用户n在和服务器m的信道增益。
任务Un传输到MEC服务器m的传输时间如公式(2)所示:
Figure BDA0003330408900000041
任务Un传输到MEC服务器m的传输能耗如公式(3)所示:
Figure BDA0003330408900000042
在MEC服务器m接收到任务Un后,如果当MEC服务器m没有足够的资源来满足用户需求时,MEC服务器会尽自己能力在时延约束之内计算一部分数据
Figure BDA0003330408900000043
MEC服务器m通过X2链路将剩下的数据
Figure BDA0003330408900000044
转发给另一个拥有足够资源的MEC服务器k,两个MEC服务器协作计算,所以对于MEC服务器m传输剩余数据
Figure BDA0003330408900000045
到MEC服务器k的传输时间如公式(4)所示:
Figure BDA0003330408900000046
其中
Figure BDA0003330408900000047
为MEC服务器m与k之间的X2链路容量,MEC服务器m将剩余需要转发的数据
Figure BDA0003330408900000048
的计算公式如公式(5)所示:
Figure BDA0003330408900000049
其中
Figure BDA00033304089000000410
表示服务器m分配给任务Un的计算资源,当没有MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器m通过有线光纤链路将任务请求转发给云服务器。MEC服务器m与云服务器协作计算,所以对于MEC服务器m传输剩余数据
Figure BDA00033304089000000411
到云服务器的传输时间如公式(6)所示:
Figure BDA00033304089000000412
其中
Figure BDA00033304089000000413
为MEC服务器m与云服务器之间的链路容量。
2)计算模型
MEC服务器接收已卸载的任务,然后并行执行这些任务。由于我们考虑了MEC服务器的处理能力的上限和在延迟约束下可以处理的任务的上限,因此我们不考虑任务串行处理和任务等待队列。
A)αn=1,任务Un在本地执行的计算模式,Un在本地执行的计算时间如公式(7)所示:
Figure BDA0003330408900000051
其中
Figure BDA0003330408900000052
为Un本地执行分配的计算资源。
任务Un在本地执行的计算能耗如公式(8)所示:
Figure BDA0003330408900000053
其中k0>0是一个与用户设备CPU相关的常数。
B)
Figure BDA0003330408900000054
任务Un卸载到MEC服务器m执行的计算模式,并且MEC服务器m有充足的计算资源保证任务在时延约束之内完成时,Un在执行MEC服务器m执行的计算时间如公式(9)所示:
Figure BDA0003330408900000055
其中服务器m分配的计算资源为
Figure BDA0003330408900000056
任务Un在执行MEC服务器m执行的计算能耗如公式(10)所示:
Figure BDA0003330408900000057
其中k1>0是一个与MEC服务器的CPU有关的常数。
C)
Figure BDA0003330408900000058
当MEC服务器m没有足够的计算资源保证任务在时延约束之内完成时,MEC服务器会尽自己能力在时延约束之内计算一部分数据
Figure BDA0003330408900000059
剩下的数据
Figure BDA00033304089000000510
转发给MEC服务器k,由于MEC服务器m计算的同时不影响剩余数据的处理,剩余数据转发传输给其他服务器计算可以同时进行,所以此时可以不考虑MEC服务器m的计算时间。此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源。Un的剩余数据
Figure BDA00033304089000000511
在MEC服务器k执行的计算时间如公式(11)所示:
Figure BDA00033304089000000512
其中
Figure BDA0003330408900000061
表示服务器k分配的计算资源。
Un的剩余数据
Figure BDA0003330408900000062
在MEC服务器k执行的计算能耗如公式(12)所示:
Figure BDA0003330408900000063
D),当没有协作MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器会尽自己能力在时延约束之内计算一部分数据
Figure BDA0003330408900000064
剩下的数据
Figure BDA0003330408900000065
转发给云端服务器Cloud。此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源。Un的剩余数据
Figure BDA0003330408900000066
在云端服务器执行的计算时间如公式(13)所示:
Figure BDA0003330408900000067
其中
Figure BDA0003330408900000068
表示云端服务器分配的计算资源。
Un的剩余数据
Figure BDA0003330408900000069
在云端服务器执行的计算能耗如公式(14)所示:
Figure BDA00033304089000000610
其中k2>0是一个与云服务器CPU有关的常数。
3)时延模型
对于四种决策下的任务Un的时延如公式(15)-(18)所示:
A)αn=1
Figure BDA00033304089000000611
B)
Figure BDA00033304089000000612
Figure BDA00033304089000000613
C)
Figure BDA00033304089000000614
Figure BDA00033304089000000615
D)
Figure BDA00033304089000000616
Figure BDA00033304089000000617
任务Un的总时延如公式(19)所示:
Figure BDA0003330408900000071
4)能耗模型
对于四种决策下的任务Un的能耗如公式(20)-(23)所示:
A)αn=1
Figure BDA0003330408900000072
B)
Figure BDA0003330408900000073
Figure BDA0003330408900000074
C)
Figure BDA0003330408900000075
Figure BDA0003330408900000076
D)
Figure BDA0003330408900000077
Figure BDA0003330408900000078
任务Un的总能耗如公式(24)所示:
Figure BDA0003330408900000079
5)能耗最小化问题
以最小化整个系统的总能耗为目标,包括总计算和传输能耗,优化卸载决策、计算资源、信道和功率分配,数学模型(问题)p1表示如下:
Figure BDA00033304089000000710
Figure BDA00033304089000000711
Figure BDA00033304089000000712
Figure BDA00033304089000000713
Figure BDA0003330408900000081
Figure BDA0003330408900000082
Figure BDA0003330408900000083
Figure BDA0003330408900000084
其中(25b)表示任务的卸载决策取值范围;(25c)声明任务最多卸载到一个MEC服务器m上,并且最多可以与其他服务器进行一次剩余任务的协作计算。(25d)表示MEC服务器m可分配的最大计算资源移;(25e)是用户n的最大传输功率约束,小于等于Pmax;(25f)和(25g)表示每个子载波最多被分配给一个用户;(25h)确保每个任务必须在延迟约束下完成。
2.对问题p1进行分析,将问题p1转化为双层问题分别进行求解,步骤如下:
通过对问题p1的进一步分析,我们可以发现以下两个特征,首先,不同的卸载决策结果,分配的计算资源和无线信道资源也不同,其次,分配不同的计算资源和无线信道资源,求得的最优卸载决策也不同。由于优化变量既相互影响,又可以分为两个独立的集合,因此问题p1满足双层优化问题的特点,可以将问题p1转化为双层优化问题p2。双层优化是在保证下层优化问题最优性的前提下解决上层优化问题。本发明将卸载决策问题和无线信道资源分配问题视为上层优化问题,将计算资源视为下层优化问题,其目的是最小化所有移动用户的总能耗。
具体来说,通过对模型分析,当卸载决策,信道和功率分配后,基于任务完成时间约束(25h),所有任务必须在时间约束
Figure BDA0003330408900000085
之内完成,同时,根据公式(19)关于
Figure BDA0003330408900000086
的定义,可推导出计算任务Un在不同决策下的计算资源最小下界如公式(26)所示:
Figure BDA0003330408900000091
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算能耗与计算资源成正比,计算资源下界公式(26)即为能耗最优值,即为计算资源分配。
因此,通过可以将问题p1转化为双层优化问题p2,如公式(27)所示:
Figure BDA0003330408900000092
(25b)-(25h)(27b)
Figure BDA0003330408900000093
然后,我们提出了一个基于深度强化学习的双层优化算法求解问题p2,上层优化和下层优化二者相互循环迭代,后者嵌套在前者中。首先上层求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层。在下层优化中,采用单调优化方法,根据给定的卸载决策和通信资源分配获得相应的计算资源的最优分配rk,计算得出最优能耗
Figure BDA0003330408900000094
后反馈给上层。
3.求解上层优化问题,基于深度强化学习求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层,步骤如下:
深度强化学习方法中有三个关键要素,即状态、动作、奖励,具体定义如下:
·状态(st):用st表示状态,
Figure BDA0003330408900000095
表示环境的状态空间,n∈N为当前用户,stn(n∈N)表示当前执行到第n个任务。
·动作(a):用a表示动作,由三部分组成,分别是卸载决策,信道选择,功率分配。卸载决策为向量
Figure BDA0003330408900000096
Figure BDA0003330408900000097
表示用户n的卸载决策选择。信道选择为向量Π=[ω1,...,ωn,...,ω|N|],ωn={ωn,1,...,ωn,s,...,ωn,|S|}表示用户n的信道选择,其中ωn,s=1表示用户n分配信道s。功率选择为向量Λ=[p1,...,pn,...,p|N|],其中pn={pn,1,...,pn,k,...,pn,max-1}表示用户n的功率选择,pn,k=1表示根据最大传输功率Pmax离散化后的第k个等级的功率分配给用户n。结合向量
Figure BDA00033304089000001010
Π,ΛUp,系统动作为所示:a=[o1,...,on,...,o|N|1,...,ωn,...,ω|N|,p1,...,pn,...,p|N|]。
·奖励(R):一般来说,奖励函数应该与目标函数相关,在一定的状态st下,执行每个可能的动作a后得到一个奖励
Figure BDA0003330408900000101
优化问题的目标为最小化总能耗
Figure BDA0003330408900000102
因为奖励与总能耗的大小成负相关,因此将
Figure BDA0003330408900000103
作为回报,使得最小的能耗对应最大的回报。
我们提出了一个基于深度强化学习的双层优化方法,结合了Dueling DQN和Double DQN技术,并且在神经网络内部参数中添加了自适应噪声来提高学习效率。在上层通过动作选择,得到卸载决策Ok,功率分配Pk和信道分配Wk后。下层根据提供的卸载决策,功率分配和信道分配,得到计算资源分配rk,计算得出系统总能耗
Figure BDA0003330408900000104
作为奖励
Figure BDA0003330408900000105
反馈给上层。上层得到反馈能耗后存入经验池,更新网络权重参数。
初始化iteration=0,最大迭代代数Ι,将当前状态st,即用户n及对应的任务Un作为环境信息输入到评估网络,输出为动作(动作即为卸载决策,功率分配和信道分配)对应的Q值,根据∈-greedy策略选择最大Q值对应的动作,或者随机选择一个动作,将动作输入下层。
4.根据上层提供的卸载决策Ok,功率分配Pk和信道分配Wk,下层通过单调优化求解计算资源的最优分配rk,计算得出奖励
Figure BDA0003330408900000106
(即最优能耗
Figure BDA0003330408900000107
)后反馈给上层,步骤如下:
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算资源与总计算能耗之间存在严格单调递增的关系。为了尽量减少所有移动用户的总计算能耗,分配给每个任务的计算资源应尽可能少。计算资源下界公式(26)即为能耗最优值,即为计算资源分配。在得到卸载决策Ok,功率分配Pk和信道分配Wk后,根据公式(26)可以计算得出计算资源下界作为计算资源分配,再代入公式(27)即可计算得到的系统总能耗
Figure BDA0003330408900000108
下层计算得到计算资源分配后,得到能耗奖励
Figure BDA0003330408900000109
和下一个状态st'(即下一个要执行的任务),反馈给上层。
5.上层收到下层反馈,存入经验池,更新网络参数,步骤如下:
上层收到反馈存储4元组进经验池,4元组包括当前状态st,选择的动作a,下一个状态st',和得到的奖励
Figure BDA0003330408900000111
这4个信息。然后再将st'输入到评估网络,跳转到步骤3,直到经验池中存储φ个4元组
Figure BDA0003330408900000112
跳转到步骤6。
6.训练评估网络与目标网络,步骤如下:
i)从经验池中存储的4元组
Figure BDA0003330408900000113
抽样出一部分,将抽样出来的多个st做为batch输入到评估网络,然后根据抽样出来的动作a选出其在评估网络中对应的Q值Qeval(st,a,ω),其中ω为评估网络在添加噪声之后的的权重参数,计算公式如(28)所示:
Figure BDA0003330408900000114
其中,θ为评估网络的权重参数,其中σ为添加高斯噪声的噪声尺度。
ii)将抽样出来的多个st'做为batch输入到目标网络(评估网络与目标网络具有相同的网络结构),得到动作a'的Q值Q'(st',a'),取Q'(st',a')中最大的Q值并乘以一个系数γ,然后再加上抽样出来的奖励R,得到Qtar(st',a',ω'),基于DDQN的计算公式如(29)所示:
Figure BDA0003330408900000115
其中,ω'为目标网络在添加噪声之后的的权重参数,计算公式如(30)所示:
Figure BDA0003330408900000116
其中,θ'为目标网络的权重参数。
iii)计算损失函数反向传播更新神经网络权重参数:根据两个神经网络得到的两个Q值,来计算损失值,即第2步的结果Qeval(st,a,ω)与第3步的结果Qtar(st',a',ω')的均方误差,然后迭代次数iteration+1,计算公式如(31)所示:
L(ω)=E[Qtar(st',a',ω')-Qeval(st,a,ω)]2 (31)
利用梯度下降法来反向传播对网络权重参数ω进行更新,计算公式如(32)所示:
Figure BDA0003330408900000121
每经过θ步数后,将评估网络的权重ω更新到目标网络ω'上;
7.判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3在新的网络参数下继续迭代;
训练结束后,通过训练好的神经网络,输入当前任务就能得到卸载决策,信道分配,功率分配,计算资源分配。由此就可以得到当前的最优解{O*,r*,W*,P*},以及对应的最小能耗
Figure BDA0003330408900000122
有益效果:
本发明解决了一种基于深度强化学习的协作边缘计算中任务卸载和资源分配方法。有效求得在时延约束下能源消耗的最优值,从而提高用户体验和设备能量节省。
下面结合附图对本发明作进一步的详细描述。
附图说明
图1是本发明网络模型的示意图;
图2是本发明双层优化方法的流程图;
图3是本发明提出基于深度强化学习算法的流程图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
本实施例中,如图1所示为协作移动边缘计算网络模型的示意图,一个云服务,3个具有MEC服务器的基站和10个移动用户设备N={1,2,...,10},所有移动用户有1个任务要执行。此外,完成用户任务所需要的计算工作量Cn(n∈N)为2000周期数/bit。用户的输入数据Dn(n∈N)随机分布在[1000,1500]比特内,任务的时延约束
Figure BDA0003330408900000123
为15ms。每个移动设备的CPU计算能力
Figure BDA0003330408900000131
随机分布在[0.1,0.9]GHz内,总共有S={1,2,...,10}信道,信道带宽B为12.5kHz,最大传输功率Pmax为1.3W,背景噪声δ2为-113dBm,MEC服务器的CPU频率随机分布在[2.3,2.7]GHz内。MEC服务器之间的X2链路容量
Figure BDA0003330408900000132
为5Mbps,MEC服务器与云服务器之间的链路容量
Figure BDA0003330408900000133
为120Mbps。另外,k0为5*10-24,k1为10-26,k3为10-25。并且最大迭代次数Ι=300,经验池容量φ=10000,迭代θ=10次后更新目标网络权重,添加高斯噪声的噪声尺度σ=1.01。
本发明对卸载决策、计算资源、信道分配和功率分配联合优化的目标问题是在时延约束下最小化整个系统移动用户的总能耗。根据图2所示为本发明提出的双层优化方法的流程图。步骤如下:
S1-1初始化经验池容量为10000,初始化迭代训练次数iteration=1,初始化生成10移动用户的10个任务Un,及其对应的Cn,Dn
Figure BDA0003330408900000134
和S如表1所示,
表1各个任务的参数表
Figure BDA0003330408900000135
S1-2在上层,计算10个任务的卸载决策和资源分配,及其对应的能耗;
S1-2-1从第一个任务开始选动作,得到卸载决策,信道分配和功率分配如表2所示,然后输入到下层,
表2第一个任务的动作
o<sub>1</sub> p<sub>1,1,3</sub> S
U<sub>1</sub> β<sub>1</sub><sup>3</sup>=1 1.035 1
S1-2-2下层收到任务及其卸载决策o1,信道分配S和功率分配p1,1,3后,通过严格单调关系根据公式(26)获得计算资源分配r1 3,然后代入公式(24)获得能耗
Figure BDA0003330408900000141
这样就获得了第一个任务的卸载决策,资源分配及能耗,如表3所示,然后反馈给上层,上层收到反馈后存入经验池,进行下一个任务的动作选择。
表3第一个任务的卸载决策及资源分配
Figure BDA0003330408900000142
S1-2-3重复执行S1-2-1至S1-2-210次,直到获得10个任务的卸载决策和资源分配,及其对应的能耗,如表4所示,
表4所有10个任务的卸载决策和资源分配及对应的能耗
Figure BDA0003330408900000143
S1-3这样,一轮迭代就完成,迭代次数iteration加1,将所有数据存入经验池,根据公式(25)计算损失函数反向传播更新神经网络权重参数对神经网络进行训练,并且每迭代θ=10次后,即iteration为10的倍数时,更新目标网络权重,在两个神经网络参数中加入高斯噪声。然后,算法在新的神经网络参数下进行新一轮的迭代训练。
S1-4重复执行S1-2至S1-3,直到迭代次数iteration到达最大迭次代数Ι=300。此时神经网络训练完成得到全局最优解,包括任务的卸载决策O*,信道分配W*,功率分配P*和计算资源分配r*及总能耗
Figure BDA0003330408900000144
此时得到最低总能耗为0.3774焦,如表5所示
表5全局最优解表
Figure BDA0003330408900000151

Claims (1)

1.一种基于深度强化学习的协作边缘计算任务卸载方法,其特征在于,包括以下步骤:
步骤1:构建协作移动边缘计算系统的数学模型p1,目标是最小化能耗;
步骤2:对问题p1进行分析,将问题p1转化为为双层问题p2进行求解;
步骤3:求解上层优化问题,基于深度强化学习求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层;
步骤4:根据上层提供的卸载决策,功率分配和信道分配后,下层求解计算资源的最优分配rk,计算得出能耗
Figure FDA0003330408890000011
后反馈给上层;
步骤5:上层收到下层反馈,存入经验池,更新网络参数;
步骤6:训练评估网络与目标网络;
步骤7:判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3在新的网络参数下继续迭代;
步骤1中构建协作边缘计算系统的数学模型p1的步骤如下:
1)传输模型
对于所有的卸载计算,移动用户必须首先将数据上传到MEC服务器,鉴于OFDMA机制,由于子载波分配,每个用户独占子载波,用户传输之间的干扰被忽略;并且,由于计算结果非常小,我们忽略了计算结果传回的过程;
用户n将任务Un传输到MEC服务器m时的数据传输速率如公式(1)所示:
Figure FDA0003330408890000012
其中B是信道带宽,wn,s,m表示将子载波s分配给用户n,将任务卸载计算到服务器m传输时使用,pn,s,m表示用户n和服务器m之间分配子载波s,将任务进行卸载上传的传输功率,gn,s,m表示用户n在和服务器m的信道增益;
任务Un传输到MEC服务器m的传输时间如公式(2)所示:
Figure FDA0003330408890000013
任务Un传输到MEC服务器m的传输能耗如公式(3)所示:
Figure FDA0003330408890000021
在MEC服务器m接收到任务Un后,如果当MEC服务器m没有足够的资源来满足用户需求时,MEC服务器会尽自己能力在时延约束之内计算一部分数据
Figure FDA0003330408890000022
MEC服务器m通过X2链路将剩下的数据
Figure FDA0003330408890000023
转发给另一个拥有足够资源的MEC服务器k,两个MEC服务器协作计算,所以对于MEC服务器m传输剩余数据
Figure FDA0003330408890000024
到MEC服务器k的传输时间如公式(4)所示:
Figure FDA0003330408890000025
其中
Figure FDA0003330408890000026
为MEC服务器m与k之间的X2链路容量,MEC服务器m将剩余需要转发的数据
Figure FDA0003330408890000027
的计算公式如公式(5)所示:
Figure FDA0003330408890000028
其中
Figure FDA0003330408890000029
表示服务器m分配给任务Un的计算资源,当没有MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器m通过有线光纤链路将任务请求转发给云服务器;MEC服务器m与云服务器协作计算,所以对于MEC服务器m传输剩余数据
Figure FDA00033304088900000210
到云服务器的传输时间如公式(6)所示:
Figure FDA00033304088900000211
其中
Figure FDA00033304088900000212
为MEC服务器m与云服务器之间的链路容量;
2)计算模型
MEC服务器接收已卸载的任务,然后并行执行这些任务;由于我们考虑了MEC服务器的处理能力的上限和在延迟约束下可以处理的任务的上限,因此我们不考虑任务串行处理和任务等待队列;
A)αn=1,任务Un在本地执行的计算模式,Un在本地执行的计算时间如公式(7)所示:
Figure FDA00033304088900000213
其中
Figure FDA0003330408890000031
为Un本地执行分配的计算资源;
任务Un在本地执行的计算能耗如公式(8)所示:
Figure FDA0003330408890000032
其中k0>0是一个与用户设备CPU相关的常数;
B)
Figure FDA0003330408890000033
任务Un卸载到MEC服务器m执行的计算模式,并且MEC服务器m有充足的计算资源保证任务在时延约束之内完成时,Un在执行MEC服务器m执行的计算时间如公式(9)所示:
Figure FDA0003330408890000034
其中服务器m分配的计算资源为
Figure FDA0003330408890000035
任务Un在执行MEC服务器m执行的计算能耗如公式(10)所示:
Figure FDA0003330408890000036
其中k1>0是一个与MEC服务器的CPU有关的常数;
C)
Figure FDA0003330408890000037
当MEC服务器m没有足够的计算资源保证任务在时延约束之内完成时,MEC服务器会尽自己能力在时延约束之内计算一部分数据
Figure FDA0003330408890000038
剩下的数据
Figure FDA0003330408890000039
转发给MEC服务器k,由于MEC服务器m计算的同时不影响剩余数据的处理,剩余数据转发传输给其他服务器计算可以同时进行,所以此时可以不考虑MEC服务器m的计算时间;此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源;Un的剩余数据
Figure FDA00033304088900000310
在MEC服务器k执行的计算时间如公式(11)所示:
Figure FDA00033304088900000311
其中
Figure FDA00033304088900000312
表示服务器k分配的计算资源;
Un的剩余数据
Figure FDA00033304088900000313
在MEC服务器k执行的计算能耗如公式(12)所示:
Figure FDA00033304088900000314
D),当没有协作MEC服务器有足够的计算资源来完成用户n的剩余任务时,MEC服务器会尽自己能力在时延约束之内计算一部分数据
Figure FDA0003330408890000041
剩下的数据
Figure FDA0003330408890000042
转发给云端服务器Cloud;此时MEC服务器m分配给n的计算资源为m剩下的所有计算资源;Un的剩余数据Dnr在云端服务器执行的计算时间如公式(13)所示:
Figure FDA0003330408890000043
其中
Figure FDA0003330408890000044
表示云端服务器分配的计算资源;
Un的剩余数据
Figure FDA0003330408890000045
在云端服务器执行的计算能耗如公式(14)所示:
Figure FDA0003330408890000046
其中k2>0是一个与云服务器CPU有关的常数;
3)时延模型
对于四种决策下的任务Un的时延如公式(15)-(18)所示:
A)αn=1
Figure FDA0003330408890000047
B)
Figure FDA0003330408890000048
Figure FDA0003330408890000049
C)
Figure FDA00033304088900000410
Figure FDA00033304088900000411
D)
Figure FDA00033304088900000412
Figure FDA00033304088900000413
任务Un的总时延如公式(19)所示:
Figure FDA00033304088900000414
4)能耗模型
对于四种决策下的任务Un的能耗如公式(20)-(23)所示:
A)αn=1
Figure FDA0003330408890000051
B)
Figure FDA0003330408890000052
Figure FDA0003330408890000053
C)
Figure FDA0003330408890000054
Figure FDA0003330408890000055
D)
Figure FDA0003330408890000056
Figure FDA0003330408890000057
任务Un的总能耗如公式(24)所示:
Figure FDA0003330408890000058
5)能耗最小化问题
以最小化整个系统的总能耗为目标,包括总计算和传输能耗,优化卸载决策、计算资源、信道和功率分配,数学模型(问题)p1表示如下:
p1:
Figure FDA0003330408890000059
Figure FDA00033304088900000510
Figure FDA00033304088900000511
Figure FDA00033304088900000512
Figure FDA00033304088900000513
Figure FDA00033304088900000514
Figure FDA0003330408890000061
Figure FDA0003330408890000062
其中(25b)表示任务的卸载决策取值范围;(25c)声明任务最多卸载到一个MEC服务器m上,并且最多可以与其他服务器进行一次剩余任务的协作计算;(25d)表示MEC服务器m可分配的最大计算资源移;(25e)是用户n的最大传输功率约束,小于等于Pmax;(25f)和(25g)表示每个子载波最多被分配给一个用户;(25h)确保每个任务必须在延迟约束下完成;
步骤2对问题p1进行分析,将问题p1转化为双层问题分别进行求解,步骤如下:
通过对问题p1的进一步分析,我们可以发现以下两个特征,首先,不同的卸载决策结果,分配的计算资源和无线信道资源也不同,其次,分配不同的计算资源和无线信道资源,求得的最优卸载决策也不同;由于优化变量既相互影响,又可以分为两个独立的集合,因此问题p1满足双层优化问题的特点,可以将问题p1转化为双层优化问题p2;双层优化是在保证下层优化问题最优性的前提下解决上层优化问题;本发明将卸载决策问题和无线信道资源分配问题视为上层优化问题,将计算资源视为下层优化问题,其目的是最小化所有移动用户的总能耗;
具体来说,通过对模型分析,当卸载决策,信道和功率分配后,基于任务完成时间约束(25h),所有任务必须在时间约束Tn max之内完成,同时,根据公式(19)关于Tn sum的定义,可推导出计算任务Un在不同决策下的计算资源最小下界如公式(26)所示:
Figure FDA0003330408890000063
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算能耗与计算资源成正比,计算资源下界公式(26)即为能耗最优值,即为计算资源分配;
因此,通过可以将问题p1转化为双层优化问题p2,如公式(27)所示:
p2:
Figure FDA0003330408890000071
(25b)-(25h) (27b)
Figure FDA0003330408890000072
然后,我们提出了一个基于深度强化学习的双层优化算法求解问题p2,上层优化和下层优化二者相互循环迭代,后者嵌套在前者中;首先上层求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层;在下层优化中,采用单调优化方法,根据给定的卸载决策和通信资源分配获得相应的计算资源的最优分配rk,计算得出最优能耗
Figure FDA0003330408890000073
后反馈给上层;
步骤3求解上层优化问题,基于深度强化学习求解卸载决策Ok,功率分配Pk和信道分配Wk,提供给下层,步骤如下:
深度强化学习方法中有三个关键要素,即状态、动作、奖励,具体定义如下:
·状态(st):用st表示状态,
Figure FDA0003330408890000074
表示环境的状态空间,n∈N为当前用户,stn(n∈N)表示当前执行到第n个任务;
·动作(a):用a表示动作,由三部分组成,分别是卸载决策,信道选择,功率分配;卸载决策为向量
Figure FDA0003330408890000075
表示用户n的卸载决策选择;信道选择为向量Π=[ω1,...,ωn,...,ω|N|],ωn={ωn,1,...,ωn,s,...,ωn,|S|}表示用户n的信道选择,其中ωn,s=1表示用户n分配信道s;功率选择为向量Λ=[p1,...,pn,...,p|N|],其中pn={pn,1,...,pn,k,...,pn,max-1}表示用户n的功率选择,pn,k=1表示根据最大传输功率Pmax离散化后的第k个等级的功率分配给用户n;结合向量
Figure FDA0003330408890000076
Π,ΛUp,系统动作为所示:a=[o1,...,on,...,o|N|1,...,ωn,...,ω|N|,p1,...,pn,...,p|N|];
·奖励
Figure FDA0003330408890000077
一般来说,奖励函数应该与目标函数相关,在一定的状态st下,执行每个可能的动作a后得到一个奖励
Figure FDA0003330408890000078
优化问题的目标为最小化总能耗
Figure FDA0003330408890000079
因为奖励与总能耗的大小成负相关,因此将
Figure FDA00033304088900000710
作为回报,使得最小的能耗对应最大的回报;
我们提出了一个基于深度强化学习的双层优化方法,结合了Dueling DQN和DoubleDQN技术,并且在神经网络内部参数中添加了自适应噪声来提高学习效率;在上层通过动作选择,得到卸载决策Ok,功率分配Pk和信道分配Wk后;下层根据提供的卸载决策,功率分配和信道分配,得到计算资源分配rk,计算得出系统总能耗
Figure FDA0003330408890000081
作为奖励
Figure FDA0003330408890000082
反馈给上层;上层得到反馈能耗后存入经验池,更新网络权重参数;
初始化iteration=0,最大迭代代数Ι,将当前状态st,即用户n及对应的任务Un作为环境信息输入到评估网络,输出为动作(动作即为卸载决策,功率分配和信道分配)对应的Q值,根据∈-greedy策略选择最大Q值对应的动作,或者随机选择一个动作,将动作输入下层;
步骤4根据上层提供的卸载决策Ok,功率分配Pk和信道分配Wk,下层通过单调优化求解计算资源的最优分配rk,计算得出奖励
Figure FDA0003330408890000083
(即最优能耗
Figure FDA0003330408890000084
)后反馈给上层,步骤如下:
通过分析计算模型能耗计算公式(10)、公式(12)与公式(14)可知,计算资源与总计算能耗之间存在严格单调递增的关系;为了尽量减少所有移动用户的总计算能耗,分配给每个任务的计算资源应尽可能少;计算资源下界公式(26)即为能耗最优值,即为计算资源分配;在得到卸载决策Ok,功率分配Pk和信道分配Wk后,根据公式(26)可以计算得出计算资源下界作为计算资源分配,再代入公式(27)即可计算得到的系统总能耗
Figure FDA0003330408890000085
下层计算得到计算资源分配后,得到能耗奖励
Figure FDA0003330408890000086
和下一个状态st'(即下一个要执行的任务),反馈给上层;
步骤5中上层收到下层反馈,存入经验池,更新网络参数,步骤如下:
上层收到反馈存储4元组进经验池,4元组包括当前状态st,选择的动作a,下一个状态st',和得到的奖励
Figure FDA0003330408890000087
这4个信息;然后再将st'输入到评估网络,跳转到步骤3,直到经验池中存储φ个4元组
Figure FDA0003330408890000088
跳转到步骤6;
步骤6训练评估网络与目标网络,步骤如下:
i)从经验池中存储的4元组
Figure FDA0003330408890000089
抽样出一部分,将抽样出来的多个st做为batch输入到评估网络,然后根据抽样出来的动作a选出其在评估网络中对应的Q值Qeval(st,a,ω),其中ω为评估网络在添加噪声之后的的权重参数,计算公式如(28)所示:
Figure FDA0003330408890000091
其中,θ为评估网络的权重参数,其中σ为添加高斯噪声的噪声尺度;
ii)将抽样出来的多个st'做为batch输入到目标网络(评估网络与目标网络具有相同的网络结构),得到动作a'的Q值Q'(st',a'),取Q'(st',a')中最大的Q值并乘以一个系数γ,然后再加上抽样出来的奖励R,得到Qtar(st',a',ω'),基于DDQN的计算公式如(29)所示:
Figure FDA0003330408890000092
其中,ω'为目标网络在添加噪声之后的的权重参数,计算公式如(30)所示:
Figure FDA0003330408890000093
其中,θ'为目标网络的权重参数;
iii)计算损失函数反向传播更新神经网络权重参数:根据两个神经网络得到的两个Q值,来计算损失值,即第2步的结果Qeval(st,a,ω)与第3步的结果Qtar(st',a',ω')的均方误差,然后迭代次数iteration+1,计算公式如(31)所示:
L(ω)=E[Qtar(st',a',ω')-Qeval(st,a,ω)]2 (31)
利用梯度下降法来反向传播对网络权重参数ω进行更新,计算公式如(32)所示:
Figure FDA0003330408890000094
每经过
Figure FDA0003330408890000095
步数后,将评估网络的权重ω更新到目标网络ω'上;
步骤7判断算法迭代次数iteration是否大于最大迭代代数I,如果iteration>I,则迭代结束,否则跳转至步骤3在新的网络参数下继续迭代。
CN202111278169.XA 2021-10-30 2021-10-30 一种基于深度强化学习的协作边缘计算任务卸载方法 Pending CN114189936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111278169.XA CN114189936A (zh) 2021-10-30 2021-10-30 一种基于深度强化学习的协作边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111278169.XA CN114189936A (zh) 2021-10-30 2021-10-30 一种基于深度强化学习的协作边缘计算任务卸载方法

Publications (1)

Publication Number Publication Date
CN114189936A true CN114189936A (zh) 2022-03-15

Family

ID=80540554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111278169.XA Pending CN114189936A (zh) 2021-10-30 2021-10-30 一种基于深度强化学习的协作边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN114189936A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928612A (zh) * 2022-06-01 2022-08-19 重庆邮电大学 移动边缘计算中协同卸载的激励机制与资源分配方法
CN114980178A (zh) * 2022-06-06 2022-08-30 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN115174566A (zh) * 2022-06-08 2022-10-11 之江实验室 一种基于深度强化学习的边缘计算任务卸载方法
CN115344395A (zh) * 2022-10-18 2022-11-15 合肥工业大学智能制造技术研究院 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统
CN116489712A (zh) * 2023-04-25 2023-07-25 北京交通大学 一种基于深度强化学习的移动边缘计算任务卸载方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928612A (zh) * 2022-06-01 2022-08-19 重庆邮电大学 移动边缘计算中协同卸载的激励机制与资源分配方法
CN114928612B (zh) * 2022-06-01 2024-04-12 南京浮点智算数字科技有限公司 移动边缘计算中协同卸载的激励机制与资源分配方法
CN114980178A (zh) * 2022-06-06 2022-08-30 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN115174566A (zh) * 2022-06-08 2022-10-11 之江实验室 一种基于深度强化学习的边缘计算任务卸载方法
CN115174566B (zh) * 2022-06-08 2024-03-15 之江实验室 一种基于深度强化学习的边缘计算任务卸载方法
CN115344395A (zh) * 2022-10-18 2022-11-15 合肥工业大学智能制造技术研究院 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统
CN116489712A (zh) * 2023-04-25 2023-07-25 北京交通大学 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116489712B (zh) * 2023-04-25 2024-02-09 北京交通大学 一种基于深度强化学习的移动边缘计算任务卸载方法

Similar Documents

Publication Publication Date Title
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN114189936A (zh) 一种基于深度强化学习的协作边缘计算任务卸载方法
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
Zhang et al. Dynamic task offloading and resource allocation for mobile-edge computing in dense cloud RAN
CN109684075B (zh) 一种基于边缘计算和云计算协同进行计算任务卸载的方法
CN111132191B (zh) 移动边缘计算服务器联合任务卸载、缓存及资源分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113504999B (zh) 一种面向高性能分层联邦边缘学习的调度与资源分配方法
Liu et al. Max-min energy balance in wireless-powered hierarchical fog-cloud computing networks
CN111930436A (zh) 一种基于边缘计算的随机型任务排队卸载优化方法
CN111565380B (zh) 车联网中基于noma-mec混合卸载方法
CN111552564A (zh) 基于边缘缓存的任务卸载与资源优化的方法
CN113286329B (zh) 基于移动边缘计算的通信和计算资源联合优化方法
CN111885147A (zh) 边缘计算中的一种资源动态定价方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
Kim et al. Joint optimization of signal design and resource allocation in wireless D2D edge computing
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN111836284A (zh) 基于移动边缘计算的能耗优化计算、卸载方法和系统
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
Di Pietro et al. An optimal low-complexity policy for cache-aided computation offloading
KR102391956B1 (ko) 비직교 다중접속(noma) 방식을 지원하는 다중접속 에지 컴퓨팅(mec)에서 컴퓨팅 오프로딩 최적화를 위한 연합 방법
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Chen et al. Dynamic task caching and computation offloading for mobile edge computing
CN110177383B (zh) 移动边缘计算中基于任务调度和功率分配的效率优化方法
CN116880923A (zh) 一种基于多智能体强化学习的动态任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination