CN115499441A - 超密集网络中基于深度强化学习的边缘计算任务卸载方法 - Google Patents
超密集网络中基于深度强化学习的边缘计算任务卸载方法 Download PDFInfo
- Publication number
- CN115499441A CN115499441A CN202211124116.7A CN202211124116A CN115499441A CN 115499441 A CN115499441 A CN 115499441A CN 202211124116 A CN202211124116 A CN 202211124116A CN 115499441 A CN115499441 A CN 115499441A
- Authority
- CN
- China
- Prior art keywords
- task
- representing
- reinforcement learning
- communication base
- deep reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002787 reinforcement Effects 0.000 title claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims abstract description 50
- 238000005265 energy consumption Methods 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 238000011217 control strategy Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims description 64
- 230000009471 action Effects 0.000 claims description 55
- 230000008859 change Effects 0.000 claims description 15
- 230000033001 locomotion Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims 1
- 229910052739 hydrogen Inorganic materials 0.000 claims 1
- 239000001257 hydrogen Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 8
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出了一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,步骤为:构建超密集网络边缘计算模型的在线计算卸载问题;将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,得到每个时隙的任务卸载决策。本发明基于马尔科夫决策过程提出的策略可以长期最小化任务处理时延和能耗,基于优先级采样的任务卸载策略可以在动态的网络环境中作出累计奖励更大的决策,获得更好的系统性能。
Description
技术领域
本发明涉及移动边缘计算(Mobile Edge Computing,MEC)的技术领域,尤其涉及一种超密集网络中基于深度强化学习的边缘计算任务卸载方法。
背景技术
智能设备和以5G为代表的网络通信技术的快速发展,催生了一大批时延敏感型和计算密集型应用的诞生,包括AR和VR技术、无人驾驶、智慧医疗等。这类应用不仅对用户设备计算能力和存储空间要求更高,同时对网络时延要求更加苛刻。移动边缘计算(MobileEdge Computing)通过在更加靠近用户设备位置部署边缘服务器,将云计算的存储和计算能力边缘化,可以有效降低用户感知时延和设备能耗。此外,相比于远程云的数据传输,在更加靠近用户的位置进行数据处理,可以有效降低服务延迟,避免了远程数据传输可能带来的通信安全性,保证用户体验质量(QoE)。在超密集网络环境中,多个配备高性能服务器的小型蜂窝基站密集部署,这些服务器充当服务节点,提供存储和计算服务。然而,由于边缘服务器的可用资源有限,因此需要结合设备和当前网络环境设计一种高效的任务卸载方案,决定将计算任务放置在本地或是可连接服务器上进行计算,以最小化任务处理时延和设备能耗。
目前已有大量关于边缘计算任务卸载策略的研究,但是许多研究场景设定过于静态化,例如对用户随机移动性考虑不足、由于用户移动引起的基站信号覆盖范围变化带来的服务器切换问题以及用户设备资源可调节情况。Chen等推导了一个基于双深度Q网络的算法,通过考虑信道条件是时变的来找到一个最优策略,以最大化计算服务的长期效用。Xu等考虑了边缘服务器的计算能力是可以调整的,并且提出了一种有效的基于强化学习的资源管理算法,以最小化移动边缘计算的成本。但是以上研究并没有考虑用户的移动性,在他们的模型中用户始终处于静止的状态,这在现实生活中显然是不合实际的。Gao等共同考虑了接入网络和服务放置问题,设计了一个在线卸载框架,通过平衡接入延迟、通信延迟和服务迁移延迟来提高服务质量。Shen等提出一种非随机在线学习方法,解决了超密集网络的移动性问题,并最小化长期能耗。然而,这些研究主要关注设计以系统为中心的优化管理,其中调度程序具有全面的信息。现实应用中,由于网络的动态性、任务到达的不确定性和由于用户移动所带来的服务器切换,具体的信息是不可预知的。
基于以上分析,在超密集网络场景下,结合强化学习强大的环境交互和学习能力以及深度神经网络强大的表示能力,研究随机移动用户的任务卸载问题。
发明内容
针对现有任务卸载方法没有考虑用户的移动性和网络的动态性的技术问题,本发明提出一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,同时考虑用户移动性、通信网络时变特性、用户设备CPU频率可调节、服务器切换等因素,且可以有效减少任务总的处理时延和能耗,具有实时性。
为了达到上述目的,本发明的技术方案为:一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,其步骤如下:
步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题;
步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;
步骤三:初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;
步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;
步骤五:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的任务卸载决策。
其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0;
剩余能量的更新公式为:
所述线计算卸载问题为:
其中,T表示总的时隙数,F表示可选择的本地设备CPU频率的集合。
所述步骤二中最优计算卸载控制策略的问题为:将计算卸载控制策略π:S→A定义为从状态St到动作at的映射,即π(St)=at;在状态St∈S下,根据给定的计算卸载控制策略π选择执行的动作获得一个最优计算卸载控制策略π*,以最大化设备移动过程中获得的长期累积奖励:
且即时奖励rt=ω1Lt+ω2Et;其中,ω1,ω2分别为计算时延和能量消耗的权重系数;动作空间At=({0}*F∪kt*{0});γ表示奖励折损因子且γ∈{0,1}。
所述深度强化学习模型的训练方法为:
步骤1:根据当前时隙的系统状态,结合当前深度神经网络参数并使用ε-greedy贪婪策略决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励;
步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池;
步骤3:基于概率p(j)从求和树SumTree中采样样本,计算采样样本的TD误差和权重系数;
步骤4:根据TD误差和权重系数计算累积权重变化,迭代结束后,更新网络参数,重置权重变化;
步骤5:更新权重和目标Q网络参数,直到即时奖励完成收敛。
所述系统状态包括设备剩余电量、用户连接情况、设备与每个通信基站之间的信道增益、系统随机生成的具体待处理任务信息;系统状态用一个四元组表示,其中,表示设备剩余电量,σt表示用户的连接情况,表示设备与通信基站之间的信道增益,表示设备与第x个通信基站之间的信道增益;ψt表示具体的计算任务信息且ψt={It,Ct},It表示任务ωt的输入数据大小,Ct表示完成任务ωt所需要的CPU周期数;
对每个时隙t∈T,初始化状态S,得到状态向量φ(S);T为迭代轮数;在当前网络Q中输入状态向量φ(S),根据ε-greedy策略输出系统动作ot表示t时隙内卸载决策,表示设备的CPU频率;即时奖励rt为时延和能耗的线性函数:rt=ω1Lt+ω2Et,其中,Lt表示设备上t时隙生成任务ωt的计算延迟,Et表示t时隙内的能量消耗,ω1,ω2分别为计算时延和能量消耗的权重系数。
优先级pj=|δj|+ε,其中,δj为样本j的TD误差,误差ε是一个非常小的正常数。
所述采样样本的权重系数为:
ωj=(O*p(j))-β/maxlωl
其中,ωj表示权重系数,O代表经验池大小,β表示非均匀概率补偿系数;
采样样本的TD误差为:δj=Rj+γjQtarget(Sj,argmaxaQ(Sj,a))-Q(Sj-1,Aj-1);其中,Rj表示奖励,γj表示采样样本j的奖励折损因子,Qtarget表示目标网络,Q表示当前网络,Sj表示采样样本j的状态,a表示采取的动作,Aj-1表示采样样本j上一步采取的动作。
迭代结束后,更新参数θ←θ+η*Δ,重置累积权重变化Δ=0。
所述步骤5中若T%C=1,更新目标网络参数Qtarget←θ,C为参数更新频率;
智能体在状态下选择动作获得奖励总和为:
上式中,奖励折扣因子γ∈[0,1],Rt+1为t时间步所获环境奖励值;
基于策略π,采用动作at,则状态st下动作价值函数为:Qπ(s,a)=Eπ[Gt|st=s,at=a],Eπ表示求s状态下根据策略π选择动作at以后,产生的累积奖励值的期望,Gt表示从时间t开始带折扣的奖励总和。
本发明的有益效果:本发明考虑到动态网络环境与用户移动性等不确定性因素,基于优先级采样改进的双DQN网络,在没有任何先知因素的条件下,首先将问题转化为马尔科夫决策过程,并设计状态空间、动作空间和奖励函数,同时优化设备CPU频率;将用户移动性和网络切换延迟考虑在内,将这两个影响用户卸载决策的关键因素加入状态向量,不同于现有的强化学习算法,在样本选择时按照随机采样的方式,考虑不同的样本重要性是不同的,因此通过计算TD误差,赋予不同经验样本以优先级,便于加快网络学习训练。实验结果表明,基于马尔科夫决策过程提出的策略可以长期最小化任务处理时延和能耗,基于优先级采样的任务卸载策略可以在动态的网络环境中作出累计奖励更大的决策,获得更好的系统性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明超密集网络边缘计算模型的示意图。
图3为本发明不同学习率下累计奖励的对比图。
图4为本发明不同大小优先级采样样本池中累计奖励的对比图。
图5为本发明不同缓冲区大小的累计奖励的对比图。
图6为三种方法的回报对比图。
图7为SumTree的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对边缘计算研究忽略通信网络时变特性以及用户移动性而导致的场景过于静态化的技术问题。考虑了一个具有多个基站的超密集网络环境中的边缘计算任务卸载场景,移动用户设备上连续生成待处理的异构计算任务,用户没有任何先验信息。为了解决这一问题,本发明提出一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,如图1所示,实施步骤如下:
步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题。
超密集网络边缘计算模型图如图2所示,一个移动设备MD(Mobile Device)用户在超密集网络环境中移动,运动过程中设备会不断地有异构计算任务生成,这意味着用户在移动过程中,一直有任务需要进行处理且时刻都处在蜂窝基站的信号覆盖范围内,但是由于用户的移动性,可能会造成信号基站的切换。用户运动轨迹周围密集部署的有通信基站BS,定义通信基站BS的集合N={1,2,3,…n},其中,n表示通信基站的总数。对于每一个通信基站BSi∈N,其中i∈{1,2,3,…n},附近都会部署一个边缘服务器为用户提供计算存储服务,且该服务器的计算能力足以完成不同时隙卸载到上面的用户任务。部署在通信基站BSi附近的边缘服务器最大的CPU频率记为fi,每个通信基站BS间通过光纤进行连接,为了便于描述边缘计算的在线任务卸载,将用户的通信时间离散为等间隔的时隙,记为Τ={1,2,3…t},其中,t表示时隙的总数。
使用一个二元组来描述时隙t移动设备上生成的任务,记为ωt={It,Ct},其中,It表示任务ωt的输入数据大小,Ct表示完成任务所需要的CPU周期数。对于任务的卸载情况,采用二进制的任务卸载策略,即用户可以选择将任务放在本地或者是卸载到移动设备MD目前可连接的基站附近配置的边缘服务器上进行处理,设备的计算能力和电量都是有限的。此外,假设移动设备MD的计算能力是可调节的,具体表现为设备CPU频率可调节,但是远远低于边缘服务器的计算能力;用户移动期间的总能耗不超过移动设备MD开始时设备电池剩余电量。
由于通信基站BS的信号覆盖范围有限以及用户移动的不确定性,因此在时隙t内仅有几个可用的通信基站BSs与移动设备MD相连,记为而用户与通信基站BSi∈kt间的信道增益hi t是时变的且与二者之间的距离有关。为了方便起见,设定用户位置与无线信道条件在每个时隙内是不变的。为了最小化移动设备MD任务处理时延和系统能耗,用户需要在时隙t内及时作出卸载决策,使用ot来表示卸载决策,具体的:
如果在时隙t用户选择将任务在本地设备计算,即ot=0。用户可以进一步调节设备的CPU频率来节省能耗,设定有几个可以选择的离散等级,根据DVFS(动态电压与频率调节)技术来调整芯片电压。结合移动设备的CPU频率和完成任务所需要的CPU周期数,本地计算模型的计算延迟可以表示为:
如果用户在时隙t决定将任务ωt卸载到已经连接的通信基站BSi,即卸载决策(ot=i∈kt),任务ωt所需输入数据It的传输会产生一定的延迟和能耗,定义移动设备发射功率为结合以上定义,移动设备MD和通信基站BSi之间的上行链路传输速率可以定义为:
其中,Wi表示信道带宽,表示时隙t上第i个通信基站BSi的平均干扰功率,表示移动设备与通信基站BSi间的信道增益。It表示任务ωt的输入数据大小,因此传输任务ωt的输入数据到通信基站BSi产生的延迟为:
由于任务在边缘服务器上处理完成以后,返回给移动设备的数据量远远小于输入的数据量,因此不考虑这部分时延。设备传输任务输入数据到通信基站BSi产生的能量消耗记为:
接收到任务ωt后,通信基站BSi执行任务ωt产生的延迟记为:
结合以上分析,任务ωt的计算延迟为:
其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0。除此之外,设备能量消耗记为:
设备电量的更新公式为:
本发明考虑如下场景,一个移动设备用户在超密集网络中不断移动,且移动设备MD会持续生成异构计算任务,用户事先没有任何先知的信息,系统需要在每个时隙内为用户制定一个最佳的任务卸载策略,最小化总的任务完成时延和能耗。特别地,在每个时隙中,用户需要选择是否将任务通过通信基站BS卸载到边缘服务器执行。如果用户选择在本地执行计算任务,设备的CPU频率需要认真规划,否则就需要选择一个可连接的通信基站BS进行任务卸载,所研究的在线计算卸载问题描述如下:
其中,T表示总的时隙数。
该问题是一个耦合约束的多目标优化问题。在时延和能耗之间,有一个自然的平衡,即是否选择使用较大的CPU频率来减少任务完成时延,但是会消耗更大的能量。尽管长期以来边缘计算系统的所有特性是先验的(如用户轨迹、任务生成),但是由于边缘计算系统的NP难度,该问题仍然是难以解决的。特别地,用户的剩余电量、连接情况、随机移动性和网络动态变化都在模型的考虑范围内,由以上信息组合成的用户状态样本空间巨大。
步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题。
基于以上分析,结合神经网络强大的表示能力以及深度强化学习应对随机和动态环境的能力,本发明为了采用强化学习,首先将在线计算卸载问题重新定义为马尔科夫决策过程。
典型的马尔科夫决策过程由一个五元组表示,即<S,A,P,R,γ>,S表示状态空间,A表示动作空间,P表示状态转移概率,R表示智能体Agent采取行动之后环境给予的即时回馈,γ表示奖励折损因子且γ∈{0,1}。针对用户长期在线计算卸载决策的过程,将在线计算卸载问题重新定义为一个控制策略,首先定义MDP(Markov decision process)模型中各个参数的定义。
状态空间S中的每个状态由智能体从环境中观察到的一些信息组成,在MDP模型中,每个状态空间由四个元素组成,设备的剩余电量、用户的连接情况、设备与每个通信基站BS之间的信道增益以及具体的计算任务信息。在一个时隙t内,状态用一个向量进行表示,即其中表示可连接通信基站BS集合,同时这些通信基站BSs具有正的信道公益增率,而其他通信基站BSs的信道功率增益设置为零。其中,σt表示用户设备可连接的基站情况,ψt表示具体的计算任务信息且ψt={It,Ct},It表示任务ωt的输入数据大小,Ct表示完成任务所需要的CPU周期数。表示设备与每个通信基站BS之间的信道增益,其中di是用户设备和通信基站BSi之间的距离,β是路径损耗指数,设置为3。是的具体计算方式,只有当设备与服务器i可连接时才有信道增益值,通过公式计算得到,否则为0。i与x相同,下标x表示边缘服务器的数量且等于基站的数量n。
动作空间:在每个时隙t内,用户需要去采取一个动作at∈At且包括任务卸载决策和调度的CPU频率。基于目前的状态St和动作,时隙t内可能的动作空间At=({0}*F∪kt*{0}),F表示可选择的本地设备CPU频率集合。值得说明的是,当用户在选择在本地计算时,传输功率为0,当用户选择在执行时,此时的CPU频率为0。
奖励函数:当用户在状态空间St下采取完动作at后,用户将会从环境中接收到一个奖励rt,为了最大化用户长期效益,节省资源和能耗,将奖励定义为:
rt=ω1Lt+ω2Et (10)
其中,ω1,ω2分别为时延和能耗的权重,表示时延和能耗在用户考虑中的不同重要性。
根据上述MDP模型,可将在线计算卸载问题转化为寻找最优计算卸载控制策略的问题,使用户获得的长期折现累积报酬最大化。特别地,给出了控制策略的定义和重新制定的问题如下。
用户旨在获得一个最优计算卸载控制策略π*,以最大化移动设备移动过程中获得的长期累积奖励,即:
步骤三:初始化深度强化学习模型的深度Q网络中的当前网络和目标网络、经验池大小以及优先级。
深度Q网络DQN使用神经网络来近似逼近动作的值,有效避免了维数灾难,解决了Q-learning应对高维空间的局限性。在所提出的应用场景中,状态空间是无限的,因为设备的剩余电量、无线信道增益都在变化,产生的计算任务也是异构的。特别的,相比于原始的随机从经验池中随机抽取一批经验,本发明选用优先级采样的方式从经验池中选取样本来训练目标网络,一方面经验池的大小有限,为了避免有些重要的数据还未被利用就被丢弃,其次,可以提升训练速度。基于在线网络输出的估计动作值与目标网络输出的目标动作值之间的损失,可以学习更好的参数θ,利用参数θ异步更新目标网络的。经过几次新经验的训练,在线网络的性能将逐渐提高,并收敛到最优控制策略。
在从环境中观察到的当前状态St后,用户首先将其输入到在线网络。在线网络设计为具有两个隐藏层,采用全连接方式的神经网络。输入层的状态用一个向量进行表示,每一个元素Qk表示在状态St下、采取动作ak的值,动作ak∈At=({0}*F∪kt*{0})。本发明还额外加入了Relu函数给每个隐藏层的节点,来近似状态和动作之间的非线性关系。通常,在线网络输出的具有最大值的动作会被用户选择执行。
输入系统场景初始化参数:当前网络Q,目标网络Qtarget,批量梯度下降的样本数k,目标网络Qtarget的参数更新频率C,指数α和β(指数α决定使用优先级的多少,当α=0时是均匀随机采样的情况),迭代轮数T,经验池大小O。初始化经验池累计权重变化Δ=0,优先级p1=1。
步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型。
获取当前时隙的系统状态:包括设备的剩余电量、用户的连接情况、设备与每个通信基站BS(Base Station通信基站)之间的信道增益以及具体的计算任务信息。
将定义的系统状态输入至深度强化学习模型中,得到系统动作。系统动作即在每个时隙中,对于待处理的计算任务,系统选择将任务放置在设备本地进行处理或者是卸载到当前可连接的第i号服务器上。
所述深度强化学习模型的训练方法为:
步骤1:针对当前时隙观测到的系统状态,结合当前深度神经网络参数并使用ε-greedy贪婪策略(即每次都选取Q值最大的动作作为输出)决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励。
系统状态包括设备剩余电量、用户连接情况、设备与每个BS之间的信道增益、系统随机生成的具体待处理任务信息。系统状态用一个四元组进行表示,其中,表示设备剩余电量,σt表示用户的连接情况,σt={0,1,0,0,1…n},其中1表示可连接,0表示无法连接。表示设备与每个通信基站BS之间的信道增益,ψt表示具体的计算任务信息,
对每个时隙t∈T,初始化状态S,得到状态向量φ(S)。
对于Episode(训练回合)中的每一步:
执行动作at后,结合新的四元组数据信息,得到状态st+1,将四个数据封装成四元组,得到对应状态向量φ(St+1)、即时奖励rt以及终止变量is_end,变量累加与设定的循环次数比较得到终止变量is_end。
定义的即时奖励rt为时延和能耗的线性函数:rt=ω1Lt+ω2Et,其中,ω1,ω2作为权重,数值取0-1之间的任意常数且ω1+ω2=1,表示时延和能耗在用户考虑中的不同重要性。
步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池。
SumTree表示求和树,是一种特殊的二叉树型存储结构,SumTree存储示意图如图7所示,从上往下一共有四层节点结构,最顶部的那个节点称之为根节点,最底层一行称之为叶子节点,中间两行称之为内部节点。父节点的值等于其子节点的值之和。所有经验样本的数据都是储存在叶子节点,不仅如此,叶子节点还会存储样本的优先级。除叶子节点外的所有节点都是不存储数据的,但是会保存下级的左右子节点优先级之和,并且把子节点优先级之和用数字显示出来。SumTree采样主要是根据优先级来对样本进行训练,优先级取决于时序差分(Temporal-Difference Learning,TD)误差的大小,TD误差的值越大说明神经网络的反向传播作用越强,样本被学习的重要性就越高,相应的优先级也越高,这些样本就会优先被训练。pj和pl分别表示经验样本j和任意样本l的优先级,对于pj有:
pj=|δj|+ε
上面式子中,误差ε是一个非常小的正常数,这样可保证优先级pj>0,而α为优先级指数,α=0时为随机均匀采样,l代表采样的批量数。
上面的采样机制会带来偏差,会使得系统不稳定,于是根据样本重要性权重来纠正偏差,计算权重系数:
ωj=(O*p(j))-β/maxlωl
其中,ωj表示权重系数,O代表经验池大小,β表示非均匀概率补偿系数。随着训练进程逐渐增加到1,当β=1时,就能完全补偿概率p(j)。
其中,采样样本的TD误差为:δj=Rj+γjQtarget(Sj,argmaxaQ(Sj,a))-Q(Sj-1,Aj-1)。其中,Rj表示奖励,γj表示[0,1]之间的小数,Qtarget表示目标网络,Q表示当前网络,Sj表示j状态,a表示采取的动作,Aj-1表示j上一步采取的动作。
Agent在状态下选择动作获得奖励期望回报为:
上式中,折扣因子γ∈[0,1],Rt+1为t时间步所获环境奖励值。
基于策略π,采用动作at,则st状态下动作价值函数为:
Qπ(s,a)=Eπ[Gt|st=s,at=a]。
其中,ωj表示权重系数,表示梯度下降更新参数。表示求解梯度,是一种快速求解函数极值的方法。在训练和优化智能系统时,梯度下降是一种重要的技术和基础,通过寻找最小值,控制方差,更新模型参数,最终使模型收敛。
步骤5:更新权重和目标Q网络参数,直到即时奖励完成收敛,模型训练完成。
若T%C=1,更新目标网络参数Qtarget←θ,直到St是终止状态,其中,St表示实验中设定的移动范围边界,当用户从出发点移动到范围边界时,视为终止状态。
步骤五:利用训练好的深度强化学习模型,输入模型参数、待处理任务数据以及网络参数,得到每个时隙的任务卸载决策at。
仿真实验采用Torch 1.11.0版本,在PyCharm中构造仿真实验环境评估所提方法的性能,所有实验运行在Windows 10Intel Core i5 4210CPU和NVIDIA GTX 950显卡的计算机上。在仿真实验中,设定一个3km×2km的场景,设置3个异构的边缘服务器,每个服务器的计算能力服从[2,8]GHz间的均匀分布;用户任务在每个时间间隙随机生成,任务输入数据大小It∈[2,10]Mbits,完成任务所需要的CPU周期数Ct设置为7.3GHz/task,开关电容初始设置为:k=1*10-12。设定边缘服务器是非异构的,因此用户任务在不同服务器之间的切换延迟,统一设定为50ms。通过用户与基站之间的距离变化,来模拟用户的移动性和网络变化。信道功率增益被建模为其中,di是移动设备和通信基站BSi之间的距离,β是路径损耗指数,设置为3。此外,认为不同通信基站BSs的信道带宽和平均干扰功率是相同的,分别设置为10MHz和2*10-13W。此外,根据随机游走模型生成用户移动性。对于用户的移动设备,认为有两个等级的CPU频率和发射功率。CPU频率的两个级别分别设置为1GHz和2GHz。延迟和时延的权重分别设置为ω1=0.5和ω2=0.5。
首先研究本发明BI_DDQN中不同参数对算法收敛的影响,包括学习率(learning-rate)、缓冲池(batch_size)大小、经验池(Memory_size)规模三个参数。实验过程中,记录训练中每个回合获得的累计奖励,然后对比不同参数下累计回合奖励,选择最优参数用于后续实验。图3展示了不同学习率对累计奖励的影响,由图3可知,learning_rate=0.01的参数设置,可以达到最好的训练效果,因此在之后的实验中设置学习率为0.01。图4展示了不同大小优先级采样样本池对累计回报的影响,可以看出在前100回合的训练中,对累计回报影响较大,因为初始时刻,不同优先级的样本对算法学习的重要性程度不同,对算法收敛的影响较大,这也是本发明选择基于优先级采样改进的DDQN算法来解决所提出的场景中任务卸载问题的重要原因;此外,合适的优先级采样batch_size会加速网络的训练。基于实验得到的数据,后续的实验中固定batch_size=32。图5展示了缓冲区大小对算法收敛性的影响,过小的缓冲区大小可能会导致重要的经验被丢弃,过大的缓冲区大小会导致样本优先级存储计算量过大,因此选择memory_size=5000用于后续实验。
为了评估本发明算法的有效性,对比两种基线算法:1)DQN:采用神经网络近似计算Q值,解决了Q-learning存在的维数灾难。Batch_size中样本的挑选,采用随机采样的方式进行2)WPS_DDQN(without piriority selection DDQN):对经验池中经验样本的选取采用随机选取的方式,没有按照比例优先级采样法进行挑选。如图6所示,该对比实验研究了用户的移动设备随机移动过程中,系统连续生成50个异构计算任务的情形。从图6中可以看出,在一千轮次的实验当中,本发明BI_DDQN方法的长期累积奖励相较于WPS_DDQN算法提高约32%,相比于DQN算法提高约57%,优于现存的两种基线算法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,其步骤如下:
步骤一:构建超密集网络边缘计算模型的本地计算模型和边缘计算模型,根据边缘计算模型构建在线计算卸载问题;
步骤二:将在线计算卸载问题描述为马尔科夫决策过程,转化为求解最优计算卸载控制策略的问题;
步骤三:初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级;
步骤四:利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型;
步骤五:获取当前时隙的系统状态,将系统状态输入至训练好的深度强化学习模型中,利用训练好的深度强化学习模型,得到每个时隙的任务卸载决策。
其中,g{ξ}是一个指标函数,如果ξ得到满足,则g{ξ}=1,否则g{ξ}=0;
剩余能量的更新公式为:
6.根据权利要求3或5所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述深度强化学习模型的训练方法为:
步骤1:根据当前时隙的系统状态,结合当前深度神经网络参数并使用ε-greedy贪婪策略决策出系统动作,并计算当前状态下采取决策的系统动作获得的即时奖励;
步骤2:将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池;
步骤3:基于概率p(j)从求和树SumTree中采样样本,计算采样样本的TD误差和权重系数;
步骤4:根据TD误差和权重系数计算累积权重变化,迭代结束后,更新网络参数,重置权重变化;
步骤5:更新权重和目标Q网络参数,直到即时奖励完成收敛。
7.根据权利要求6所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述系统状态包括设备剩余电量、用户连接情况、设备与每个通信基站之间的信道增益、系统随机生成的具体待处理任务信息;系统状态用一个四元组表示,其中,表示设备剩余电量,σt表示用户的连接情况,表示设备与通信基站之间的信道增益,表示设备与第x个通信基站之间的信道增益;ψt表示具体的计算任务信息且ψt={It,Ct},It表示任务ωt的输入数据大小,Ct表示完成任务ωt所需要的CPU周期数;
9.根据权利要求8所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法,其特征在于,所述采样样本的权重系数为:
ωj=(O*p(j))-β/maxlωl
其中,ωj表示权重系数,O代表经验池大小,β表示非均匀概率补偿系数;
采样样本的TD误差为:δj=Rj+γjQtarget(Sj,argmaxaQ(Sj,a))-Q(Sj-1,Aj-1);其中,Rj表示奖励,γj表示采样样本j的奖励折损因子,Qtarget表示目标网络,Q表示当前网络,Sj表示采样样本j的状态,a表示采取的动作,Aj-1表示采样样本j上一步采取的动作;
所述累积权重变化:Δ←Δ+ωj*δj*▽θQ(Sj-1,Aj-1),其中,▽θ表示梯度下降更新参数;
迭代结束后,更新参数θ←θ+η*Δ,重置累积权重变化Δ=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211124116.7A CN115499441A (zh) | 2022-09-15 | 2022-09-15 | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211124116.7A CN115499441A (zh) | 2022-09-15 | 2022-09-15 | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115499441A true CN115499441A (zh) | 2022-12-20 |
Family
ID=84467877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211124116.7A Pending CN115499441A (zh) | 2022-09-15 | 2022-09-15 | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115499441A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117177275A (zh) * | 2023-11-03 | 2023-12-05 | 中国人民解放军国防科技大学 | 基于scma-mec的物联网设备计算速率优化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726826A (zh) * | 2020-05-25 | 2020-09-29 | 上海大学 | 一种基站密集型边缘计算网络中的在线任务卸载方法 |
CN111970733A (zh) * | 2020-08-04 | 2020-11-20 | 河海大学常州校区 | 超密集网络中基于深度强化学习的协作式边缘缓存算法 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN114641076A (zh) * | 2022-03-25 | 2022-06-17 | 重庆邮电大学 | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 |
CN114885422A (zh) * | 2022-03-25 | 2022-08-09 | 重庆邮电大学 | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 |
-
2022
- 2022-09-15 CN CN202211124116.7A patent/CN115499441A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726826A (zh) * | 2020-05-25 | 2020-09-29 | 上海大学 | 一种基站密集型边缘计算网络中的在线任务卸载方法 |
CN111970733A (zh) * | 2020-08-04 | 2020-11-20 | 河海大学常州校区 | 超密集网络中基于深度强化学习的协作式边缘缓存算法 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN114641076A (zh) * | 2022-03-25 | 2022-06-17 | 重庆邮电大学 | 一种超密集网络中基于动态用户满意度的边缘计算卸载方法 |
CN114885422A (zh) * | 2022-03-25 | 2022-08-09 | 重庆邮电大学 | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117177275A (zh) * | 2023-11-03 | 2023-12-05 | 中国人民解放军国防科技大学 | 基于scma-mec的物联网设备计算速率优化方法 |
CN117177275B (zh) * | 2023-11-03 | 2024-01-30 | 中国人民解放军国防科技大学 | 基于scma-mec的物联网设备计算速率优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112860350B (zh) | 一种边缘计算中基于任务缓存的计算卸载方法 | |
CN110928654B (zh) | 一种边缘计算系统中分布式的在线任务卸载调度方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN111556461B (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
CN113573324B (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
CN113873022A (zh) | 一种可划分任务的移动边缘网络智能资源分配方法 | |
CN112911648A (zh) | 一种空地结合的移动边缘计算卸载优化方法 | |
CN112788605B (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN114285853B (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
US11831708B2 (en) | Distributed computation offloading method based on computation-network collaboration in stochastic network | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN116156563A (zh) | 基于数字孪生的异构任务与资源端边协同调度方法 | |
CN114840021A (zh) | 一种无人机收集数据的轨迹规划方法、装置、设备及介质 | |
CN112667406A (zh) | 一种云边融合异构网络中任务卸载与数据缓存方法 | |
CN113590279A (zh) | 一种面向多核边缘计算服务器的任务调度和资源分配方法 | |
CN117580105B (zh) | 一种面向电网巡检的无人机任务卸载优化方法 | |
Zhang et al. | A deep reinforcement learning approach for online computation offloading in mobile edge computing | |
CN115499441A (zh) | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 | |
CN117608821A (zh) | 确定计算任务卸载策略的方法、装置、设备及介质 | |
CN116880923A (zh) | 一种基于多智能体强化学习的动态任务卸载方法 | |
CN116723548A (zh) | 一种基于深度强化学习的无人机辅助计算卸载方法 | |
CN114217881B (zh) | 任务卸载方法及相关装置 | |
CN116209084A (zh) | 一种能量收集mec系统中任务卸载和资源分配方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
CN113835894B (zh) | 一种基于双延迟深度确定性策略梯度的智能计算迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221220 |
|
RJ01 | Rejection of invention patent application after publication |