CN117354934A - 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 - Google Patents
一种多时隙mec系统双时间尺度任务卸载和资源分配方法 Download PDFInfo
- Publication number
- CN117354934A CN117354934A CN202311385000.3A CN202311385000A CN117354934A CN 117354934 A CN117354934 A CN 117354934A CN 202311385000 A CN202311385000 A CN 202311385000A CN 117354934 A CN117354934 A CN 117354934A
- Authority
- CN
- China
- Prior art keywords
- server
- resource allocation
- user
- time scale
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013468 resource allocation Methods 0.000 title claims abstract description 58
- 238000005265 energy consumption Methods 0.000 claims abstract description 47
- 230000007774 longterm Effects 0.000 claims abstract description 26
- 238000005457 optimization Methods 0.000 claims abstract description 25
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 49
- 238000011156 evaluation Methods 0.000 claims description 12
- 230000009977 dual effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 claims description 2
- 229940057344 bufferin Drugs 0.000 claims description 2
- 238000013461 design Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0446—Resources in time domain, e.g. slots or frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明涉及一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,包括:针对多用户多服务器的MEC网络,建立系统长期平均能耗最小化模型;针对系统长期平均能耗最小化模型,在双时间尺度上进行求解,一方面在小时间尺度上,通过调用李雅普诺夫方法,将长期随机的任务卸载和资源分配问题解耦为一系列在线优化的确定性问题,求得每个时隙上卸载决策和资源分配的闭式解;另一方面在大时间尺度上,将服务器活跃/睡眠模式选择和用户‑服务器关联决策问题表述为一个约束马尔可夫决策过程,并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。与现有技术相比,本发明能够有效降低多时隙系统的计算复杂度、提高求解速度。
Description
技术领域
本发明涉及移动边缘计算资源分配技术领域,尤其是涉及一种多时隙MEC系统双时间尺度任务卸载和资源分配方法。
背景技术
移动边缘计算(Mobile Edge Computing,MEC)可利用无线接入网络就近提供电信用户IT所需服务和云端计算功能,而创造出一个具备高性能、低延迟与高带宽的电信级服务环境,加速网络中各项内容、服务及应用的快速下载。在MEC系统的缓存设计中,部署了MEC服务器的无线接入点(Access Points,APs)和基站(Base Stations,BSs)能提前缓存计算任务或计算结果,无线设备因此能直接从AP端获取计算结果而无需进行计算卸载和本地计算。联合设计计算任务缓存、计算资源分配和计算卸载能有效地提高MEC系统的性能。
在动态环境下,移动边缘服务器的缓存决策需要同时与时变的无线信道状态和随机达到的用户任务相适应。目前,针对多时隙移动边缘计算任务卸载和资源分配,主要采用传统凸优化方法并用启发式算法搜索最优解。由于移动边缘计算中的任务卸载和资源分配通常是一个混合整数非线性规划问题,且多时隙增加了求解的复杂度。一方面,将任务卸载的0-1整数规划松驰无法求得最优解;另一方面当基站和用户的数量到达一定规模且时隙数增大时,启发式算法的计算复杂度呈指数增长,很难在有效的时间之内计算出优化问题的解。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,能够降低多时隙系统的求解计算复杂度、提高求解速度。
本发明的目的可以通过以下技术方案来实现:一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,包括以下步骤:
S1、针对多用户多服务器的MEC网络,建立系统长期平均能耗最小化模型;
S2、针对系统长期平均能耗最小化模型,在双时间尺度上进行求解:
在小时间尺度上,通过调用李雅普诺夫方法,将长期随机的任务卸载和资源分配问题解耦为一系列在线优化的确定性问题,求得每个时隙上的卸载决策和资源分配的闭式解;
在大时间尺度上,将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程,并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。
进一步地,所述步骤S1中系统长期平均能耗最小化模型具体为:
其中,i是用户的索引,j是服务器的索引,t是小时间尺度上时隙的索引,n是大时间尺度上时间帧的索引,每帧包含T个时隙;ζj(n)是服务器活跃/睡眠指示变量,ξij(n)是用户-服务器连接指示变量,δi(t)是任务从用户卸载到服务器的比例,pi(t)是用户的发射功率,fi(t)是用户本地计算速率,gj(t)是服务器的计算速率;是本地计算队列长度,是本地卸载队列长度,Yj(t)是服务器端计算队列长度;/>是用户本地最大计算速率,/>是用户的最大功率,/>是服务器的最大计算速率,κu是处理器芯片的有效电容系数;EM(t)是所有服务器的能耗,EU(t)是所有用户的能耗。
进一步地,所述所有服务器的能耗具体为:
所述所有用户的能耗具体为:
其中,τ为计算和通信时间线的时隙长度,Pa是维持活跃状态需要的能耗,Pc是最大的计算能耗,Ps是维持睡眠状态需要的能耗。
进一步地,所述步骤S2具体包括以下步骤:
S21、将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题、和小时间尺度上的任务卸载和资源分配问题;
S22、构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题,并表述为一个受约束的马尔可夫过程,采用深度强化学习的D3QN算法来求解。
进一步地,所述步骤S21具体包括以下步骤:
S211、首先假设服务器模式选择和用户-服务器关联决策是给定的,构建小时间尺度上的任务卸载和资源分配问题;
S212、构造虚拟队列,并采用李雅普诺夫方法来处理长期平均的目标和约束,将步骤S211构建的任务卸载和资源分配问题转化为一系列单时隙在线优化问题;
S213、将单时隙在线优化问题分解为三个子问题进行求解,所述三个子问题包括卸载决策问题、用户端的资源分配问题以及服务器端的资源分配问题。
进一步地,所述步骤S211中小时间尺度上的任务卸载和资源分配问题具体为:
进一步地,所述步骤S212的具体过程为:
首先,构造虚拟队列,表达式为:
这样,长期平均的约束就能通过虚拟队列的平均速率稳定性来满足,其表达式为:
构造李雅普诺夫函数,其表达式为:
其中,是组合的队列向量,α1,α2和α3是缩放因子;
构造条件李雅普诺夫漂移加惩罚函数,其表达式为:
其中,V是罚函数的权重;
推导条件李雅普诺夫漂移加惩罚函数的上界,其表达式为:
其中,C是一个常数,ω(t)是仅和队列长度有关的量,和优化变量无关;Q(t)的表达式如下:
此外,上述上界表达式若要成立,须受限于如下三个约束:
其中,是用户与服务器之间的最大传输速率;
最小化条件李雅普诺夫漂移加惩罚函数的上界能使得队列稳定,同时最小化系统平均能耗,且通过增大V可以获得渐进最优性,根据机会期望最小化技术,最小化条件李雅普诺夫漂移加惩罚函数的上界是通过最小化每个时隙的确定性问题来实现,每个时隙的确定性问题表述如下:
进一步地,所述步骤S22具体包括以下步骤:
S221、给定每个时隙上最优的卸载决策和资源分配,得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题;
S222、设计深度强化学习方法,将步骤S221中得到的问题表述为一个受约束的马尔可夫过程,基于D3QN网络架构进行强化学习,求解得到服务器活跃/睡眠模式以及用户-服务器关联决策结果。
进一步地,所述步骤S221中大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题具体为:
进一步地,所述步骤S222中基于D3QN网络架构进行强化学习的过程包括:
定义状态、动作和奖励,在D3QN网络架构下,确定出Q函数的表达式;
训练过程通过最小化损失函数来更新评估网络的参数;
计算出损失函数后,训练基于梯度下降的评估网络。
进一步地,所述状态为:
所述动作为:
所述奖励为:
所述Q函数的表达式为:
其中,V(Sn;θV)是状态价值函数,D(Sn,An;θD)是优势函数,Q(·;θ)表示参数为θ=(θV,θD)的目标网络,是动作空间的大小;
在第n帧开始时,系统观察队列和信道条件,以获得状态Sn;
然后,基于∈-greedy策略选择动作An,具体来说,系统依概率∈随机选择动作进行探索,或者依概率1∈选择动作来最大化Q值,通过动作An,计算n帧内的最有任务卸载和资源分配,获得奖励Rn和下一个状态Sn+1;
将当前状态Sn、动作An、奖励Rn和下一个状态Sn+1将存储在经验回放缓存器中,在每个训练步骤中,D3QN从经验回放池中随机抽取历史经验的小批数据(Sn,An,Rn,Sn+1);
训练过程通过最小化损失函数来更新评估网络的参数,其表达式为:
其中,yn是目标值,Q′(·;θ′)是参数为θ′的目标网络;
计算出损失函数后,训练基于梯度下降的评估网络,目标网络的参数θ′通过θ′=μθ+(1-μ)θ′进行更新,μ表示更新速率。
与现有技术相比,本发明具有以下优点:
本发明首先针对一个多用户多服务器的MEC网络建立系统长期平均能耗最小化模型,并在双时间尺度上求解:在小时间尺度上,通过调用李雅普诺夫方法将长期随机的任务卸载和资源分配问题解耦为一系列可以在线优化的确定性问题;在大时间尺度上,则将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程,并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。相比传统优化求解方法,本发明能够有效降低多时隙系统的计算复杂度,进而提高求解速度。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,包括以下步骤:
S1、针对多用户多服务器的MEC网络,建立系统长期平均能耗最小化模型;
S2、针对系统长期平均能耗最小化模型,在双时间尺度上进行求解:
在小时间尺度上,通过调用李雅普诺夫方法,将长期随机的任务卸载和资源分配问题解耦为一系列在线优化的确定性问题,求得每个时隙上的卸载决策和资源分配的闭式解;
在大时间尺度上,将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程,并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。
具体包括以下过程:
步骤A:针对多用户多服务器的无小区MEC网络,建立系统长期平均能量最小化模型A1,模型A1表述为:
其中,i是用户的索引,j是服务器的索引,t是小时间尺度上时隙的索引,n是大时间尺度上时间帧的索引,每帧包含T个时隙;ζj(n)是服务器活跃/睡眠指示变量,ξij(n)是用户-服务器连接指示变量,δi(t)是任务从用户卸载到服务器的比例,pi(t)是用户的发射功率,fi(t)是用户本地计算速率,gj(t)是服务器的计算速率;是本地计算队列长度,是本地卸载队列长度,Yj(t)是服务器端计算队列长度;/>是用户本地最大计算速率,/>是用户的最大功率,/>是服务器的最大计算速率,κu是处理器芯片的有效电容系数;EM(t)是所有服务器的能耗,EU(t)是所有用户的能耗。
步骤B:将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题和小时间尺度上的任务卸载和资源分配问题,具体表述如下:
步骤B-1:首先假设服务器模式选择和用户-服务器关联决策是给定的,构建小时间尺度上的任务卸载和资源分配问题,表述为:
步骤B-2:构造虚拟队列并采用李雅普诺夫方法来处理长期平均的目标和约束,将问题转化为一系列单时隙在线优化问题。首先,构造虚拟队列,表达式为:
这样,长期平均的约束就可以通过虚拟队列的平均速率稳定性来满足,其表达式为:
构造李雅普诺夫函数,其表达式为:
其中,是组合的队列向量,α1,α2和α3是缩放因子。
构造条件李雅普诺夫漂移加惩罚函数,其表达式为:
其中,V是罚函数的权重。
推导条件李雅普诺夫漂移加惩罚函数的上界,其表达式为:
其中,C是一个常数,ω(t)是仅和队列长度有关的量,和优化变量无关;Q(t)的表达式如下:
此外,上述上界表达式若要成立,须受限于如下三个约束:
其中,是用户与服务器之间的最大传输速率。
最小化条件李雅普诺夫漂移加惩罚函数的上界可以使得队列稳定,同时最小化系统平均能耗,且通过增大V可以获得渐进最优性。根据机会期望最小化技术最小化条件李雅普诺夫漂移加惩罚函数的上界可以通过最小化每个时隙的确定性问题来实现,每个时隙的确定性问题表述如下:
步骤B-3:上述单时隙确定性优化问题可以分解成三个子问题来求解,包括卸载决策问题,用户端的资源分配问题以及服务器端的资源分配问题。这三个子问题都是凸问题,可以推导出闭式解。
这样,只要给定服务器活跃/睡眠模式选择以及用户-服务器关联决策,就能求得每个时隙上的卸载决策和资源分配的最优解。
步骤C:构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题,并表述为一个受约束的马尔可夫过程,采用深度强化学习的D3QN算法来求解,具体步骤如下:
步骤C-1:给定每个时隙上最优的卸载决策和资源分配,得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题,表述为:
步骤C-2:设计深度强化学习方法,将上述问题表述为一个受约束的马尔可夫过程,并定义状态、动作和奖励如下:
状态:
动作:
奖励:
步骤C-3:D3QN网络架构下,Q函数的表达式为:
其中,V(Sn;θV)是状态价值函数,D(Sn,An;θD)是优势函数,Q(·;θ)表示参数为θ=(θV,θD)的目标网络,是动作空间的大小。
在第n帧开始时,系统观察队列和信道条件,以获得状态Sn。然后,基于∈-greedy策略选择动作An。具体来说,系统依概率∈随机选择动作进行探索,或者依概率1-∈选择动作来最大化Q值。通过动作An,计算n帧内的最有任务卸载和资源分配,获得奖励Rn和下一个状态Sn+1。当前状态Sn、动作An、奖励Rn和下一个状态Sn+1将存储在经验回放缓存器/>中。在每个训练步骤中,D3QN从经验回放池中随机抽取历史经验的小批数据(Sn,An,Rn,Sn+1)。
步骤C-4:训练过程通过最小化损失函数来更新评估网络的参数,其表达式为:
其中,yn是目标值,表达式为:
其中,Q′(·;θ′)是参数为θ′的目标网络。
步骤C-5:计算出损失函数后,训练基于梯度下降的评估网络。目标网络的参数θ′通过θ′=μθ+(1μ)θ′进行更新,μ表示更新速率。
本实施例应用上述技术方案,在一个由M个服务器和U个用户组成的无小区MEC网络中,每个服务器集成到一个接入点中。用户和服务器的集合分别为和用户具有在本地执行计算任务的能力。然而,由于执行计算密集型应用程序的计算能力有限,用户可以将其任务卸载给服务器,计算和通信时间线的时隙长度为τ。
为了实现绿色网络,服务器可以选择性地切换到睡眠模式,在保持网络效率的同时降低功耗。为此,考虑了一个双时间尺度框架。具体来说,将每个连续的T个时隙分组为一个时间帧。帧的索引用n,n∈{0,1,…,N-1}表示,第n帧的时隙集合用表示。
第一步,在大时间尺度上,二进制活跃/睡眠指示变量ζj(n)=1表示服务器是活跃的。二进制用户-服务器关联指示变量ξij(n)=1表示用户i可以将其任务卸载到服务器j。服务器活跃/睡眠模式选择和用户-服务器关联规则可以表述为
第二步,在小时间尺度上,用Ai(t)表示用户的任务到达,任务到达在时间上独立同分布,平均到达率为λi,即由于通信电路和计算单元是分开的,每个用户可以同时执行本地计算和任务卸载。因此,每个用户将其任务到达分为两个不相交的部分,即/>和/>其中/>和/>分别表示本地执行的任务和卸载到服务器的任务量,δi(t)∈[0,1]是分割参数。设/>(以比特为单位)表示第用户的本地计算队列长度,那么队列动态表达式为
其中,其中fi(t)(以轮数/秒为单位)为本地CPU周期频率。通过利用动态电压和频率尺度技术,可以自适应地控制fi(t)。φi>0表示在本地计算每比特数据所需的CPU轮数。
对于用户的任务卸载队列,将队列积压表示为队列的动态表达式为
其中,rij(t)是卸载速率。
在服务器端,设Yj(t)表示服务器等待处理的计算任务的积压,动态表达式为
其中,gj(t)是服务器的计算速率。
第三步,为了保证有限的延迟,对队列加以约束,表达式为:
第四步,构建能量消耗模型。首先,在用户端分配计算能耗和传输能耗,需要满足:
用户的能耗分为两个部分:1)本地计算的能耗,2)任务卸载的能耗。因此,所有用户的总能耗为
服务器端的能耗分为活跃服务器和睡眠服务器的能耗。活跃服务器的能耗表达式为
其中,Pa是维持活跃状态需要的能耗,Pc是最大的计算能耗。
睡眠服务器的能耗表达式为
其中,Ps是维持睡眠状态需要的能耗。
所有服务器的总能耗表达式为
第五步,建立多时隙MEC系统双时间尺度任务卸载和资源分配优化问题模型:
/>
之后,将双时间尺度李雅普诺夫与深度强化学习方法相结合进行求解的过程如下:
步骤1:将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题和小时间尺度上的任务卸载和资源分配问题,具体表述如下:
步骤1-1:首先假设服务器模式选择和用户-服务器关联决策是给定的,构建小时间尺度上的任务卸载和资源分配问题,表述为:
步骤1-2:构造虚拟队列并采用李雅普诺夫方法来处理长期平均的目标和约束,将所述问题转化为一系列单时隙在线优化问题。首先,构造虚拟队列,表达式为:
/>
这样,长期平均的约束就可以通过虚拟队列的平均速率稳定性来满足,其表达式为:
构造李雅普诺夫函数,其表达式为:
其中,是组合的队列向量,α1,α2和α3是缩放因子。
构造条件李雅普诺夫漂移加惩罚函数,其表达式为:
其中,V是罚函数的权重。
推导条件李雅普诺夫漂移加惩罚函数的上界,其表达式为:
其中,C是一个常数,ω(t)是仅和队列长度有关的量,和优化变量无关;Q(t)的表达式如下:
此外,上述上界表达式若要成立,须受限于如下三个约束:
其中,是用户与服务器之间的最大传输速率。
最小化条件李雅普诺夫漂移加惩罚函数的上界可以使得队列稳定,同时最小化系统平均能耗,且通过增大V可以获得渐进最优性。根据机会期望最小化技术最小化条件李雅普诺夫漂移加惩罚函数的上界可以通过最小化每个时隙的确定性问题来实现,每个时隙的确定性问题表述如下:
步骤1-3:上述单时隙确定性优化问题可以分解成三个子问题来求解,包括卸载决策问题,用户端的资源分配问题以及服务器端的资源分配问题。这三个子问题都是凸问题,可以推导出闭式解。
这样,只要给定服务器活跃/睡眠模式选择以及用户-服务器关联决策,就能求得每个时隙上的卸载决策和资源分配的最优解。
步骤2:构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题,并表述为一个受约束的马尔可夫过程,采用深度强化学习的D3QN算法来求解,具体步骤如下:
步骤2-1:给定每个时隙上最优的卸载决策和资源分配,得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题,表述为:
步骤2-2:设计深度强化学习方法,将上述问题表述为一个受约束的马尔可夫过程,并定义状态、动作和奖励如下:
状态:
动作:
奖励:
步骤2-3:D3QN网络架构下,Q函数的表达式为:
其中,V(Sn;θV)是状态价值函数,D(Sn,An;θD)是优势函数,Q(·;θ)表示参数为θ=(θV,θD)的目标网络,是动作空间的大小。
在第n帧开始时,系统观察队列和信道条件,以获得状态Sn。然后,基于∈-greedy策略选择动作An。具体来说,系统依概率∈随机选择动作进行探索,或者依概率1∈选择动作来最大化Q值。通过动作An,计算n帧内的最有任务卸载和资源分配,获得奖励Rn和下一个状态Sn+1。当前状态Sn、动作An、奖励Rn和下一个状态Sn+1将存储在经验回放缓存器/>中。在每个训练步骤中,D3QN从经验回放池中随机抽取历史经验的小批数据(Sn,An,Rn,Sn+1)。
步骤2-4:训练过程通过最小化损失函数来更新评估网络的参数,其表达式为:
其中,yn是目标值,表达式为:
其中,Q′(·;θ′)是参数为θ′的目标网络。
步骤2-5:计算出损失函数后,训练基于梯度下降的评估网络。目标网络的参数θ′通过θ′=μθ+(1-μ)θ′进行更新,μ表示更新速率。
综上可知,本方案针对多用户多时隙移动边缘计算系统优化设计,通过建立系统长期平均能耗最小化模型,并在双时间尺度上求解,能够有效降低多时隙系统的计算复杂度,从而确保能在有效时间内快速得到最优解。
Claims (10)
1.一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,包括以下步骤:
S1、针对多用户多服务器的MEC网络,建立系统长期平均能耗最小化模型;
S2、针对系统长期平均能耗最小化模型,在双时间尺度上进行求解:
在小时间尺度上,通过调用李雅普诺夫方法,将长期随机的任务卸载和资源分配问题解耦为一系列在线优化的确定性问题,求得每个时隙上的卸载决策和资源分配的闭式解;
在大时间尺度上,将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程,并采用深度强化学习中的D3QN来学习模式选择和关联决策。
2.根据权利要求1所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S1中系统长期平均能耗最小化模型具体为:
其中,i是用户的索引,j是服务器的索引,t是小时间尺度上时隙的索引,n是大时间尺度上时间帧的索引,每帧包含T个时隙;ζj(n)是服务器活跃/睡眠指示变量,ξij(n)是用户-服务器连接指示变量,δi(t)是任务从用户卸载到服务器的比例,pi(t)是用户的发射功率,fi(t)是用户本地计算速率,gj(t)是服务器的计算速率;是本地计算队列长度,/>是本地卸载队列长度,Yj(t)是服务器端计算队列长度;/>是用户本地最大计算速率,是用户的最大功率,/>是服务器的最大计算速率,κu是处理器芯片的有效电容系数;EM(t)是所有服务器的能耗,EU(t)是所有用户的能耗。
3.根据权利要求2所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述所有服务器的能耗具体为:
所述所有用户的能耗具体为:
其中,τ为计算和通信时间线的时隙长度,Pa是维持活跃状态需要的能耗,Pc是最大的计算能耗,Ps是维持睡眠状态需要的能耗。
4.根据权利要求3所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题、和小时间尺度上的任务卸载和资源分配问题;
S22、构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题,并表述为一个受约束的马尔可夫过程,采用深度强化学习的D3QN算法来求解。
5.根据权利要求4所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S21具体包括以下步骤:
S211、首先假设服务器模式选择和用户-服务器关联决策是给定的,构建小时间尺度上的任务卸载和资源分配问题:
S212、构造虚拟队列,并采用李雅普诺夫方法来处理长期平均的目标和约束,将步骤S211构建的任务卸载和资源分配问题转化为一系列单时隙在线优化问题;
S213、将单时隙在线优化问题分解为三个子问题进行求解,所述三个子问题包括卸载决策问题、用户端的资源分配问题以及服务器端的资源分配问题。
6.根据权利要求5所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S212的具体过程为:
首先,构造虚拟队列,表达式为:
这样,长期平均的约束就能通过虚拟队列的平均速率稳定性来满足,其表达式为:
构造李雅普诺夫函数,其表达式为:
其中,是组合的队列向量,α1,α2和α3是缩放因子;
构造条件李雅普诺夫漂移加惩罚函数,其表达式为:
其中,V是罚函数的权重;
推导条件李雅普诺夫漂移加惩罚函数的上界,其表达式为:
其中,C是一个常数,w(t)是仅和队列长度有关的量,和优化变量无关;Q(t)的表达式如下:
此外,上述上界表达式若要成立,须受限于如下三个约束:
其中,是用户与服务器之间的最大传输速率;
最小化条件李雅普诺夫漂移加惩罚函数的上界能使得队列稳定,同时最小化系统平均能耗,且通过增大V可以获得渐进最优性,根据机会期望最小化技术,最小化条件李雅普诺夫漂移加惩罚函数的上界是通过最小化每个时隙的确定性问题来实现,每个时隙的确定性问题表述如下:
7.根据权利要求6所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S22具体包括以下步骤:
S221、给定每个时隙上最优的卸载决策和资源分配,得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题;
S222、设计深度强化学习方法,将步骤S221中得到的问题表述为一个受约束的马尔可夫过程,基于D3QN网络架构进行强化学习,求解得到服务器活跃/睡眠模式以及用户-服务器关联决策结果。
8.根据权利要求7所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S221中大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题具体为:
9.根据权利要求7所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述步骤S222中基于D3QN网络架构进行强化学习的过程包括:
定义状态、动作和奖励,在D3QN网络架构下,确定出Q函数的表达式;
训练过程通过最小化损失函数来更新评估网络的参数;
计算出损失函数后,训练基于梯度下降的评估网络。
10.根据权利要求9所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法,其特征在于,所述状态为:
所述动作为:
所述奖励为:
所述Q函数的表达式为:
其中,V(Sn;θV)是状态价值函数,D(Sn,An;θD)是优势函数,Q(·;θ)表示参数为θ=(θV,θD)的目标网络,是动作空间的大小;
在第n帧开始时,系统观察队列和信道条件,以获得状态Sn;
然后,基于∈-greedy策略选择动作An,具体来说,系统依概率∈随机选择动作进行探索,或者依概率1-∈选择动作来最大化Q值,通过动作An,计算n帧内的最有任务卸载和资源分配,获得奖励Rn和下一个状态Sn+1;
将当前状态Sn、动作An、奖励Rn和下一个状态Sn+1将存储在经验回放缓存器中,在每个训练步骤中,D3QN从经验回放池中随机抽取历史经验的小批数据(Sn,An,Rn,Sn+1);
训练过程通过最小化损失函数来更新评估网络的参数,其表达式为:
其中,yn是目标值,Q′(·;θ′)是参数为θ′的目标网络;
计算出损失函数后,训练基于梯度下降的评估网络,目标网络的参数θ′通过θ′=μθ+(1-μ)θ′进行更新,μ表示更新速率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385000.3A CN117354934A (zh) | 2023-10-24 | 2023-10-24 | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385000.3A CN117354934A (zh) | 2023-10-24 | 2023-10-24 | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117354934A true CN117354934A (zh) | 2024-01-05 |
Family
ID=89366527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311385000.3A Pending CN117354934A (zh) | 2023-10-24 | 2023-10-24 | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117354934A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117729571A (zh) * | 2024-02-08 | 2024-03-19 | 厦门大学 | 一种动态mec网络中迁移决策与资源分配的联合优化方法 |
-
2023
- 2023-10-24 CN CN202311385000.3A patent/CN117354934A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117729571A (zh) * | 2024-02-08 | 2024-03-19 | 厦门大学 | 一种动态mec网络中迁移决策与资源分配的联合优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113612843B (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN111414252B (zh) | 一种基于深度强化学习的任务卸载方法 | |
CN110113190B (zh) | 一种移动边缘计算场景中卸载时延优化方法 | |
CN111586696B (zh) | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 | |
Sun et al. | Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning | |
Xie et al. | Dynamic computation offloading in IoT fog systems with imperfect channel-state information: A POMDP approach | |
CN114390057B (zh) | Mec环境下基于强化学习的多接口自适应数据卸载方法 | |
CN111132074A (zh) | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 | |
CN117354934A (zh) | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 | |
CN113760511B (zh) | 一种基于深度确定性策略的车辆边缘计算任务卸载方法 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN116390125A (zh) | 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 | |
Xia et al. | Near-optimal and learning-driven task offloading in a 5G multi-cell mobile edge cloud | |
Zhang et al. | Joint offloading and resource allocation using deep reinforcement learning in mobile edge computing | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
Zhou et al. | Knowledge transfer based radio and computation resource allocation for 5G RAN slicing | |
Yang et al. | Cooperative task offloading for mobile edge computing based on multi-agent deep reinforcement learning | |
Mu et al. | Stochastic learning for opportunistic peer-to-peer computation offloading in iot edge computing | |
CN115499875B (zh) | 一种卫星互联网任务卸载方法、系统以及可读存储介质 | |
Zhang et al. | Vehicular multi-slice optimization in 5G: Dynamic preference policy using reinforcement learning | |
Kahlon | An embedded fuzzy expert system for adaptive WFQ scheduling of IEEE 802.16 networks | |
CN113342529B (zh) | 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法 | |
CN113766540B (zh) | 低时延的网络内容传输方法、装置、电子设备及介质 | |
Zhang et al. | On-Device Intelligence for 5G RAN: Knowledge Transfer and Federated Learning Enabled UE-Centric Traffic Steering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |