CN113612843B - 一种基于深度强化学习的mec任务卸载和资源分配方法 - Google Patents
一种基于深度强化学习的mec任务卸载和资源分配方法 Download PDFInfo
- Publication number
- CN113612843B CN113612843B CN202110882738.5A CN202110882738A CN113612843B CN 113612843 B CN113612843 B CN 113612843B CN 202110882738 A CN202110882738 A CN 202110882738A CN 113612843 B CN113612843 B CN 113612843B
- Authority
- CN
- China
- Prior art keywords
- unloading
- task
- resource allocation
- mec
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013468 resource allocation Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002787 reinforcement Effects 0.000 title claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 51
- 238000005265 energy consumption Methods 0.000 claims description 38
- 230000005540 biological transmission Effects 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 241000764238 Isis Species 0.000 claims description 3
- 238000005562 fading Methods 0.000 claims description 3
- 229920003087 methylethyl cellulose Polymers 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 2
- 235000008434 ginseng Nutrition 0.000 claims 2
- 238000004891 communication Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/78—Architectures of resource allocation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明公开的属于通信技术领域,具体为一种基于深度强化学习的MEC任务卸载和资源分配方法,包括以下步骤:S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;S2:针对三层的卸载场景,计算系统总体开销;S3:以最小化系统开销为优化目标,构建深度强化学习模型;S4:提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策。该基于深度强化学习的MEC任务卸载和资源分配方法,在保证满足不同用户服务质量需求的情况下不仅有效利用了系统的资源而且能帮助用户选择最优卸载策略以最小化系统开销。
Description
技术领域
本发明涉及通信技术领域,具体为一种基于深度强化学习的MEC任务卸载和资源分配方法。
背景技术
随着无线通信技术的发展和智能终端的快速普及,移动网络实现了从低速2G时代迈向高速的5G时代,仅仅依靠云计算不足以实现5G计算和通信的毫秒级延迟。由此,移动边缘计算应运而生。而计算卸载技术作为移动边缘计算研究的关键技术,为未来通信毫秒级或更低的时延需求提供可能。云数据中心计算资源丰富,能飞速完成卸载任务;移动边缘计算中心距离终端近,计算能力强,能满足越来越强的低时延高数据需求;网络中的D2D通信技术能有效利用空闲的计算资源实现更灵活的任务卸载。因此,在网络构成越来越复杂的今天,考虑三层的卸载场景是很有现实意义的。而目前的研究多考虑全部卸载,随着移动边缘计算的发展,用户将更趋向于将任务部分卸载到不同设备或基站执行,进而提高执行性能降低任务开销。
与此同时,云端计算存储资源、MEC服务器计算存储资源、D2D设备计算存储资源与通信带宽资源都是有限的,在此场景下如何进行部分卸载决策与资源分配使得系统开销最小成为关键性问题。
发明内容
本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种基于深度强化学习的MEC任务卸载和资源分配方法,其包括以下步骤:
S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;
S2:针对三层的卸载场景,计算系统总体开销;
S3:以最小化系统开销为优化目标,构建深度强化学习模型;
S4:提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策。
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S1中,所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:
在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变;每个用户可以选择将其部分计算任务卸载到云服务器,余下的留在本地完成;或部分计算任务卸载到移动边缘计算服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以自己执行任务,上述执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行;
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1-αn-βn-γn,且满足
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S2中,所述计算系统总体开销具体步骤为:
当D2D卸载执行时,设表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率;考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声;根据香农公式,上行速率为其中,若αn>0则取1;因此,传输时延为传输能耗为设表示D2D的计算能力,则计算时延为计算能耗为kd是与硬件有关的常量;因此,D2D执行时间为执行能耗为
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数分配带宽为满足而MEC执行卸载时延可分为三部分,传输时延、等待时延和计算时延;传输时延为其中hn,m为设备n到MEC服务器的信道增益;设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率;队列中等待时间为其中Nj为在第j个时隙内的全部任务数,Nj-L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数任务的平均进入率传输能耗为计算时延为计算能耗为km是与硬件有关的常量;则
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到;忽略云端计算耗时,总时延即为传输时延加上Tcore;传输时延为其中hn,c为设n到云的信道增益,为上行带宽;传输能耗为因此云执行时总时延为能耗为
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S3中,所述构建深度强化学习模型具体步骤为:
采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法;
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数;
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[FL(t),FD(t),D(t),FM(t)];其中和分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵;D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵;和Dn(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小;FM(t)代表MEC服务器在决策时刻t的可用计算资源;
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决策;动作空间可定义为at∈At=[α(t),β(t),γ(t),FM(t),BM(t)];其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵;αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例;对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1);计算资源分配决策为带宽资源分配决策为其中,和分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽;
定义回报函数为
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和。
作为本发明所述的基于深度强化学习的MEC任务卸载和资源分配方法的一种优选方案,其中:在S4中,所述提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络参数分别为ψ和此外,建立了两个状态动作值函数网络参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的状态和动作的分布,软状态值函数的目标函数为梯度可以用无偏估计量来估计;通过梯度下降法更新网络参数ψ,使平方残差(值函数网络的估计值与真实值之间的偏差)最小;目标状态值函数网络的参数通过软更新方法进行更新,更新方式为接下来训练状态动作值函数网络的参数θi,其目标函数为其中JQ(θi)同样采用随机梯度来优化,使Bellman残差最小;更新过程中使用目标状态网络以切断相关性;
步骤3:网络参数的梯度更新
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。
与现有技术相比:
1、构建包括云服务器、移动边缘计算服务器与多终端设备的三层计算卸载与资源分配模型,将用户开销定义为不同用户对时延能耗敏感度加权和,并计算系统总体开销;
2、以最小化系统开销为优化目标,构建深度强化学习模型;
3、提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策;
该基于深度强化学习的MEC任务卸载和资源分配方法,在保证满足不同用户服务质量需求的情况下不仅有效利用了系统的资源而且能帮助用户选择最优卸载策略以最小化系统开销。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明实施例中的系统模型示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明提供一种基于深度强化学习的MEC任务卸载和资源分配方法,包括以下步骤:
S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数。
S2:针对三层的卸载场景,计算系统总体开销。
S3:以最小化系统开销为优化目标,构建深度强化学习模型。
S4:提出一种基于最大熵框架的柔性制动策略,进行卸载决策和资源分配决策。
在S1中,所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:
在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变。每个用户可以选择将其部分计算任务卸载到云,余下的留在本地完成;或部分计算任务卸载到MEC服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以完全自己执行任务。我们将这些执行选项称为云执行,MEC卸载执行,D2D卸载执行和本地执行。
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1-αn-βn-γn,且满足
在S2中,所述计算系统总体开销具体步骤为:
当D2D卸载执行时,设表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率。考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声。根据香农公式,上行速率为其中,若αn>0则取1。因此,传输时延为传输能耗为设表示D2D的计算能力,则计算时延为计算能耗为kd是与硬件有关的常量。因此,D2D执行时间为执行能耗为
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数分配带宽为满足而MEC执行卸载时延可分为三部分,传输时延、等待时延和计算时延。传输时延为其中hn,m为设备n到MEC服务器的信道增益。设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率。队列中等待时间为其中Nj为在第j个时隙内的全部任务数,Nj-L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数任务的平均进入率传输能耗为计算时延为计算能耗为km是与硬件有关的常量。则
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到。考虑到远端云的计算资源较充足,故忽略云端计算耗时,总时延即为传输时延加上Tcore。传输时延为其中hn,c为设n到云的信道增益,为上行带宽。传输能耗为因此云执行时总时延为能耗为
综合考虑,设备的执行时延为能耗为目标函数为设 分别代表用户n执行时间和能量消耗的权重系数,当用户在对能量消耗或时延迟滞敏感等特定场景下灵活调度两个权值,可动态调整系统总开销。因此优化问题为在限制条件下最小化系统成本。
在S3中,所述构建深度强化学习模型具体步骤为:
考虑到终端密集与任务集密集的高维特性,拟采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法,通过最大熵可以提升策略学习的随机性,降低相关性,以使输出策略更趋近于最优,能够处理非常复杂且高维的任务。
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数。
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[FL(t),FD(t),D(t),FM(t)],其中和分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵。D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵。和Dn(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小。FM(t)代表MEC服务器在决策时刻t的可用计算资源。
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决策。动作空间可定义为at∈At=[α(t),β(t),γ(t),FM(t),BM(t)],其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务比例矩阵。αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例。对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1)。
定义回报函数为
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和。
在S4中,所述提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络参数分别为ψ和此外,建立了两个状态动作值函数网络参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的状态和动作的分布,软状态值函数的目标函数为梯度可以用无偏估计量来估计;通过梯度下降法更新网络参数ψ,使平方残差(值函数网络的估计值与真实值之间的偏差)最小;目标状态值函数网络的参数通过软更新方法进行更新,更新方式为接下来训练状态动作值函数网络的参数θi,其目标函数为其中JQ(θi)同样采用随机梯度来优化,使Bellman残差最小;更新过程中使用目标状态网络以切断相关性;
步骤3:网络参数的梯度更新
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。
Claims (1)
1.一种基于深度强化学习的MEC任务卸载和资源分配方法,其特征在于,包括以下步骤:
S1:在移动边缘计算场景下,构建包括云服务器、移动边缘计算服务器与终端设备的三层计算卸载与资源分配模型,并初始化系统参数;
所述构建基于移动边缘计算的三层计算卸载与资源分配模型具体步骤为:
在系统模型中,首先假设所有用户均在准静态环境下,计算任务调度运行过程中保持调度决策不变;每个用户可以选择将其部分计算任务卸载到云服务器,余下的留在本地完成;或部分计算任务卸载到移动边缘计算服务器,余下的留在本地完成;或者一部分任务通过D2D链路卸载到边缘设备,一部分在本地完成;也可以自己执行任务,执行选项依次为云执行、MEC卸载执行、D2D卸载执行和本地执行;
设接入终端设备集合I={1,2,...,n,...,N},任务数据大小Dn,Xn表示处理任务的平均计算复杂度,以周期/位度量,也是处理每一位数据需要执行的时钟周期数;Tn,max表示设备最大容忍时间的限制;其中Xn参数可以从算法的复杂性中得到;设D2D执行任务比例αn,MEC执行任务比例βn,云执行任务比例γn,本地执行任务比例为1-αn-βn-γn,且满足αnβnγn=0,
S2:针对三层的卸载场景,计算系统总体开销;
所述计算系统总体开销具体步骤为:
当D2D卸载执行时,设表示从设备n上传任务到空闲设备的数据传输速率,Bd表示D2D链路带宽,Pn和Pk表示设备n和设备k的传输功率;考虑瑞利衰落环境,hn表示设备之间的信道增益,N0是高斯白噪声;根据香农公式,上行速率为其中,若αn>0则取1,因此,传输时延为传输能耗为设表示D2D的计算能力,则计算时延为计算能耗为kd是与硬件有关的常量;因此,D2D执行时间为执行能耗为
MEC执行时,设MEC的CPU资源总数Fmax,基站总传输带宽为Bmax,设备分配CPU周期数分配带宽为满足而MEC执行卸载时延可分为三部分,传输时延、等待时延和计算时延;传输时延为其中hn,m为设备n到MEC服务器的信道增益;设MEC中任务缓冲队列容量L,根据排队论中的Little法则,平衡条件下,任务在MEC服务器等待的平均时间为系统的平均等待队长除以任务的平均进入率;队列中等待时间为其中Nj为在第j个时隙内的全部任务数,Nj-L在为在该时隙内的排队任务总数,t个时隙内统计在MEC处等待的任务数任务的平均进入率传输能耗为计算时延为计算能耗为km是与硬件有关的常量;则
云执行时,设每个用户的计算任务和计算结果通过核心网带来的时延总和均为定值Tcore,这一参数可以由当前时段历史平均时延表示或通过分析近期网络时延动态预测得到;忽略云端计算耗时,总时延即为传输时延加上Tcore;传输时延为其中hn,c为设n到云的信道增益,为上行带宽;传输能耗为因此云执行时总时延为能耗为
S3:以最小化系统开销为优化目标,构建深度强化学习模型;
所述构建深度强化学习模型具体步骤为:
采用基于最大熵框架的柔性制动决策SAC算法求解卸载及资源分配问题,SAC是基于连续状态与策略空间的深度强化学习算法;
将卸载和资源分配决策问题建模三元组(S,A,r),其中,S是系统状态集,A是卸载及资源分配动作集,r是回报函数;
接入终端设备集合在决策时刻t的状态空间可以定义为st∈St=[FL(t),FD(t),D(t),FM(t)];其中和分别为本地计算能力矩阵和边缘D2D设备的计算能力矩阵;D(t)=[D1(t),...,Dn(t),...,DN(t)]为任务数据矩阵;和Dn(t)分别代表在决策时刻t终端设备n的本地计算能力、相关边缘D2D节点的计算能力以及任务数据大小;FM(t)代表MEC服务器在决策时刻t的可用计算资源;
动作集和包括卸载到D2D、MEC和云的卸载决策,以及计算资源分配决策和带宽分配决策;动作空间可定义为at∈At=[α(t),β(t),γ(t),FM(t),BM(t)];其中α(t)=[α1(t),...,αn(t),...,αN(t)]、β(t)=[β1(t),...,βn(t),...,βN(t)]和γ(t)=[γ1(t),...,γn(t),...,γN(t)]分别为卸载到边缘D2D设备、MEC服务器和云服务器的任务矩阵;αn(t)、βn(t)和γn(t)分别代表终端设备n在决策时刻t卸载到边缘D2D设备、MEC服务器或云中的任务比例;对于终端设备n,满足条件αn(t)βn(t)γn(t)=0,(0≤αn(t)≤1,0≤βn(t)≤1,0≤γn(t)≤1);计算资源分配决策为带宽资源分配决策为其中,和分别代表在决策时刻t分配给终端用户n的MEC计算资源和带宽;
定义回报函数为
其中,Γn为MEC系统中用户n的时延、能耗和带宽分配代价之和;
S4:提出卸载决策和资源分配决策具体步骤为:
步骤1:值函数网络及策略网络建模
建立两个状态值函数网络,分别为软状态值函数网络Vψ(st)和目标状态值函数网络参数分别为ψ和此外,建立了两个状态动作值函数网络参数为θi(i∈{1,2});将策略函数πφ(at|st)建模为一个高斯分布,网络参数为φ;
步骤2:值函数网络及策略网络更新
设D为先前采样的状态和动作的分布,软状态值函数的目标函数为梯度可以用无偏估计量来估计;通过梯度下降法更新网络参数ψ,使平方残差即值函数网络的估计值与真实值之间的偏差最小;目标状态值函数网络的参数通过软更新方法进行更新,更新方式为接下来训练状态动作值函数网络的参数θi,其目标函数为其中JQ(θi)同样采用随机梯度来优化,使Bellman残差最小;更新过程中使用目标状态网络以切断相关性;
步骤3:网络参数的梯度更新
在策略更新阶段,将卸载和资源分配策略向着值函数的指数方向更新,重复策略估计和策略更新两个步骤,最终会收敛到最优策略,通过收敛了的策略网络可获得最优卸载及资源分配方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110882738.5A CN113612843B (zh) | 2021-08-02 | 2021-08-02 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110882738.5A CN113612843B (zh) | 2021-08-02 | 2021-08-02 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113612843A CN113612843A (zh) | 2021-11-05 |
CN113612843B true CN113612843B (zh) | 2022-08-30 |
Family
ID=78339107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110882738.5A Active CN113612843B (zh) | 2021-08-02 | 2021-08-02 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113612843B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114116209A (zh) * | 2021-11-12 | 2022-03-01 | 中国人民解放军国防科技大学 | 基于深度强化学习的频谱地图构建与分发方法及系统 |
CN114116050A (zh) * | 2021-11-16 | 2022-03-01 | 天津市英贝特航天科技有限公司 | 一种边缘计算的选择性卸载方法及系统 |
CN114116061B (zh) * | 2021-11-26 | 2023-08-18 | 内蒙古大学 | 一种移动边缘计算环境下的工作流任务卸载方法及系统 |
CN114143317B (zh) * | 2021-12-06 | 2022-10-18 | 云南大学 | 面向跨云层移动边缘计算的多优先级计算卸载策略优化方法 |
CN114138373B (zh) * | 2021-12-07 | 2023-10-24 | 吉林大学 | 一种基于强化学习的边缘计算任务卸载方法 |
CN115250142B (zh) * | 2021-12-31 | 2023-12-05 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度强化学习的星地融合网络多节点计算资源分配方法 |
CN114390057B (zh) * | 2022-01-13 | 2024-04-05 | 南昌工程学院 | Mec环境下基于强化学习的多接口自适应数据卸载方法 |
CN114048689B (zh) * | 2022-01-13 | 2022-04-15 | 南京信息工程大学 | 基于深度强化学习的多无人机空中充电和任务调度方法 |
CN114528042B (zh) * | 2022-01-30 | 2023-04-21 | 南京信息工程大学 | 基于深度强化学习的节能型自动互联车辆服务卸载方法 |
CN114567895A (zh) * | 2022-02-23 | 2022-05-31 | 重庆邮电大学 | 一种mec服务器集群的智能协同策略的实现方法 |
CN114340016B (zh) * | 2022-03-16 | 2022-07-26 | 北京邮电大学 | 一种电网边缘计算卸载分配方法及系统 |
CN114640675B (zh) * | 2022-03-21 | 2024-02-09 | 中国联合网络通信集团有限公司 | 一种卸载策略确定方法、装置、电子设备及存储介质 |
CN114706631B (zh) * | 2022-04-22 | 2022-10-25 | 哈尔滨工业大学 | 基于深度q学习的移动边缘计算中卸载决策方法及系统 |
CN114884949B (zh) * | 2022-05-07 | 2024-03-26 | 深圳泓越信息科技有限公司 | 基于maddpg算法的低轨卫星物联网任务卸载方法 |
CN114637608B (zh) * | 2022-05-17 | 2022-09-16 | 之江实验室 | 一种计算任务分配和更新方法、终端及网络设备 |
CN115002409B (zh) * | 2022-05-20 | 2023-07-28 | 天津大学 | 一种面向视频检测与追踪的动态任务调度方法 |
CN115086249B (zh) * | 2022-05-23 | 2023-08-01 | 华东师范大学 | 一种基于深度强化学习的云数据中心资源分配方法 |
CN115016858B (zh) * | 2022-05-24 | 2024-03-29 | 武汉大学 | 一种基于后决策状态深度强化学习的任务卸载方法 |
CN115002123B (zh) * | 2022-05-25 | 2023-05-05 | 西南交通大学 | 基于移动边缘计算的快速适应任务卸载系统和方法 |
CN115134242B (zh) * | 2022-06-27 | 2023-08-22 | 天津理工大学 | 一种基于深度强化学习策略的车载计算任务卸载方法 |
CN115134364B (zh) * | 2022-06-28 | 2023-06-16 | 西华大学 | 基于o-ran物联网系统的节能计算卸载系统及方法 |
CN114938381B (zh) * | 2022-06-30 | 2023-09-01 | 西安邮电大学 | 一种基于深度强化学习的d2d-mec卸载方法 |
CN115484314B (zh) * | 2022-08-10 | 2024-04-02 | 重庆大学 | 一种移动边缘计算网络下推荐赋能的边缘缓存优化方法 |
CN116107734A (zh) * | 2022-11-02 | 2023-05-12 | 贵州电网有限责任公司 | 一种混合供电场景下智能电网基站分布式资源分配方法 |
CN115562760B (zh) * | 2022-11-22 | 2023-05-30 | 南京邮电大学 | 基于边缘计算节点打分表的深度学习模型分层卸载方法 |
CN115858048B (zh) * | 2023-03-03 | 2023-04-25 | 成都信息工程大学 | 一种面向混合关键级任务动态到达边缘卸载方法 |
CN117155798B (zh) * | 2023-03-13 | 2024-03-01 | 中国科学院沈阳自动化研究所 | 面向资源受限的云-边协同实时调度方法 |
CN116361009B (zh) * | 2023-05-19 | 2023-11-10 | 南京邮电大学 | 一种mec计算卸载、资源分配及缓存联合优化方法 |
CN117032994A (zh) * | 2023-10-07 | 2023-11-10 | 中国信息通信研究院 | 工业互联网系统的卸载分配决策确定方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111414252A (zh) * | 2020-03-18 | 2020-07-14 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
WO2021067140A1 (en) * | 2019-10-04 | 2021-04-08 | Intel Corporation | Edge computing technologies for transport layer congestion control and point-of-presence optimizations based on extended in-advance quality of service notifications |
CN113067873A (zh) * | 2021-03-19 | 2021-07-02 | 北京邮电大学 | 基于深度强化学习的边云协同优化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10440096B2 (en) * | 2016-12-28 | 2019-10-08 | Intel IP Corporation | Application computation offloading for mobile edge computing |
CN110413392B (zh) * | 2019-07-25 | 2022-11-29 | 北京工业大学 | 一种移动边缘计算场景下制定单任务迁移策略的方法 |
CN112367353B (zh) * | 2020-10-08 | 2021-11-05 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
-
2021
- 2021-08-02 CN CN202110882738.5A patent/CN113612843B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021067140A1 (en) * | 2019-10-04 | 2021-04-08 | Intel Corporation | Edge computing technologies for transport layer congestion control and point-of-presence optimizations based on extended in-advance quality of service notifications |
CN111414252A (zh) * | 2020-03-18 | 2020-07-14 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN113067873A (zh) * | 2021-03-19 | 2021-07-02 | 北京邮电大学 | 基于深度强化学习的边云协同优化方法 |
Non-Patent Citations (2)
Title |
---|
Joint Channel and Power Allocation Based on Stackelberg for D2D Communications in Cellular Networks;Xin Wang,Zhihong Qian,Yuliang Cong,Xue Wang;《2020 IEEE Globecom Workshops》;20201211;全文 * |
基于移动边缘计算的任务卸载策略研究;刘锐;《中国优秀硕士学位论文全文数据库》;20200331;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113612843A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113612843B (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
Chen et al. | Energy-efficient task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge networks | |
CN109922479B (zh) | 一种基于时延预估的计算任务卸载方法 | |
CN111538587B (zh) | 一种基于负载均衡的服务功能链重配置方法 | |
CN111953758A (zh) | 一种边缘网络计算卸载和任务迁移方法及装置 | |
CN113286329B (zh) | 基于移动边缘计算的通信和计算资源联合优化方法 | |
CN111163143B (zh) | 一种面向移动边缘计算的低时延任务卸载方法 | |
CN112416603B (zh) | 一种基于雾计算的联合优化系统和方法 | |
CN112491957B (zh) | 一种边缘网络环境下的分布式计算卸载方法及系统 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN114697333B (zh) | 一种能量队列均衡的边缘计算方法 | |
CN114938381B (zh) | 一种基于深度强化学习的d2d-mec卸载方法 | |
CN111511028B (zh) | 一种多用户资源分配方法、装置、系统及存储介质 | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN116390125A (zh) | 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法 | |
CN114706631B (zh) | 基于深度q学习的移动边缘计算中卸载决策方法及系统 | |
CN116233927A (zh) | 一种在移动边缘计算中负载感知的计算卸载节能优化方法 | |
CN117354934A (zh) | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 | |
CN112423320A (zh) | 一种基于QoS和用户行为预测的多用户计算卸载方法 | |
CN111930435A (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN115499875A (zh) | 一种卫星互联网任务卸载方法、系统以及可读存储介质 | |
CN114980160A (zh) | 一种无人机辅助的太赫兹通信网络联合优化方法和装置 | |
CN113452625A (zh) | 基于深度强化学习的卸载调度与资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231213 Address after: No. 546, Luoyu Road, Hongshan District, Wuhan, Hubei Province, 430000 Patentee after: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co.,Ltd. Address before: 130012 No. 2699 Qianjin Street, Jilin, Changchun Patentee before: Jilin University |