CN113573363A - 基于深度强化学习的mec计算卸载与资源分配方法 - Google Patents
基于深度强化学习的mec计算卸载与资源分配方法 Download PDFInfo
- Publication number
- CN113573363A CN113573363A CN202110853238.9A CN202110853238A CN113573363A CN 113573363 A CN113573363 A CN 113573363A CN 202110853238 A CN202110853238 A CN 202110853238A CN 113573363 A CN113573363 A CN 113573363A
- Authority
- CN
- China
- Prior art keywords
- mobile user
- user equipment
- formula
- task
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000004364 calculation method Methods 0.000 title claims abstract description 58
- 238000013468 resource allocation Methods 0.000 title claims abstract description 32
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 48
- 238000005265 energy consumption Methods 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 241000470001 Delaya Species 0.000 claims description 3
- 241000695274 Processa Species 0.000 claims description 3
- 241000135164 Timea Species 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007430 reference method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的移动边缘计算MEC的计算卸载与资源分配方法,为移动用户设备提供了一种最优的计算卸载与资源分配方案。在整体卸载条件下,对其构建处理计算移动用户设备计算任务的计算执行模型,然后根据最小化系统总开销的优化目标构建所有移动用户设备系统总开销的问题模型,利用深度强化学习方法确定最小的系统总开销。考虑到时变的MEC系统中实际的计算卸载与资源分配特性,任务时延阈值与系统计算资源的约束,本发明采用的是结合强化学习与深度学习的DQN算法,利用深度神经网络DNN来近似估计状态‑动作组的Q值,以确定最优的计算卸载与资源分配方案,达到最小的系统总开销。
Description
技术领域
本发明属于移动通信技术领域,具体涉及一种基于深度强化学习的MEC计算卸载与资源分配方法。
背景技术
随着5G(5th Generation Mobile Communication Technology)网络技术的不断发展,未来网络中的应用,例如交互游戏、自动驾驶、增强现实、虚拟现实,这些应用都需要强大的计算能力,在极短的时间内完成大量的计算。受限于移动设备的计算能力与电池容量,使之无法获得良好的用户体验。在这种情况,计算卸载的概念被提出,指用户设备处理某些计算量庞大的应用时,在权衡延迟或者能耗等指标的情况下,将处理这些应用的数据通过无线信道上传到边缘服务器上,来减少任务完成时间和降低移动设备能耗。
5G应用推动了移动云计算MCC(Mobile Cloud Computing)概念的发展,移动用户设备可以利用强大的远程集中云的计算和存储资源来实现访问,但过多的使用可能会在数据交换时发生堵塞导致产生很长的等待时间。因此新的计算范式被提出—移动边缘计算MEC,它可以通过部署高性能服务器来提高移动网络边缘的计算能力。与MCC相比,它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。通过计算卸载,移动用户可以显著地减少应用程序的延迟,提高服务质量,并且显著降低。
但是在卸载决策上,单靠一些简单的判断是无法做出最优的选择。机器学习作为近些年计算机领域的热点,研究者们将其尝试运用到计算卸载领域。强化学习作为机器学习的一个重要分支,他从环境的未来回报反馈考虑,通过调整其策略达到最佳的长期回报,与计算卸载策略尤为贴切。但在某些复杂场景下,其无法提供较好的效果,所以引入了深度学习,大大促进了高维度信息感知问题。
发明内容
本发明的目的在于针对MEC计算卸载与资源分配问题,提出了一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法,利用DQN算法,通过深度神经网络来近似估计状态-动作组的Q值,以确定最优的计算卸载与资源分配方案,达到最小的系统总开销。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法,包括如下步骤:
步骤1,建立多移动用户设备多MEC服务器的通信模型
该通信模型由一个演进式基站、多个MEC服务器和多个移动用户设备构成;其中移动用户设备以无线网络的方式连接到演进式基站,MEC服务器部署在演进式基站附近,为移动用户设备提供计算服务;每个移动用户设备的计算任务选择在本地终端进行计算处理,或选择通过演进式基站接入,然后再传给相应的MEC服务器进行计算处理;
步骤2,建立处理计算移动用户设备计算任务的计算执行模型
假设每个移动用户设备都有一个计算任务其中An表示完成计算任务所需的输入数据的大小,其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数,反映了完成计算任务Rn所需的计算资源数。表示计算任务Rn的最大可容忍延迟,即完成每个计算任务的总用时不应超过最大可容忍延迟
对移动用户设备的计算任务建立计算执行模型,移动用户设备选择在本地终端处理任务或者选择计算卸载方式处理任务;
2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立
移动用户设备选择本地终端处理计算任务Rn时,其本地计算执行的开销包含执行延迟与能量消耗定义为移动用户设备的本地计算能力,其单位用每秒的CPU周期数来表示,不同移动用户设备的计算能力是有区别的;则本地终端处理计算任务Rn的执行延迟如式(1)所示:
式中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟和能耗的权重参数;式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型;
2.2移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型建立
移动用户设备选择计算卸载方式处理计算任务Rn时,整个过程包含三部分:首先移动用户设备需要传输完成计算任务的数据到演进式基站,再由演进式基站转给MEC服务器;其次是MEC服务器分配一定的计算资源来执行计算任务;最后再由MEC服务器将执行结果返还给移动用户设备;
移动用户设备能实现的数据上传速率rm如式(4)所示:
其中Q为无线信道带宽,K代表移动用户设备数量,Pn为上传数据时移动用户设备的传输功率,hn为分配给移动用户设备的无线信道增益,N0为复杂高斯白噪声信道的方差;
其中:An为完成计算任务Rn所需的输入数据的大小;
其中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟与能耗的权重参数;式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型;
步骤3,建立优化目标为最小化所有移动用户设备系统总开销的问题模型
3.1最小化移动用户设备系统总开销的目标函数
优化目标是最小化所有移动用户设备的系统总开销Vall,所以目标函数如式(12)所示:
3.2所有移动用户设备系统总开销的问题模型
优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化,即系统总开销最小化;在最大可容忍延迟和计算能力的约束下,该问题模型如式(13)所示:
A代表决策向量,A={a1,a2,a3,...,aN};f代表资源分配向量,f={f1,f2,f3,...,fN},其中定义Fm为第m台MEC服务器的整体计算资源数;C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务;C2和C3表示为移动用户设备分配的计算资源为非负的,并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm;C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟
步骤4,利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题
4.1定义深度强化学习的三个重要元素,即状态、动作与奖励
状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成;动作由卸载决策向量和资源分配向量组成,两者的可能值取值情况组合起来便得到动作向量;奖励就是得到移动用户设备最小的系统总开销;
4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数
初始化DQN的记忆库,设其容量为N;DQN的记忆库用来学习之前的经验,又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历,所以在学习过程中随机的加入之前的经验会让神经网络更有效率;
初始化当前状态,也就是初始化整个系统的总开销和MEC服务器当前空闲资源数,设定初始状态为本地终端处理,即移动用户设备选择在本地终端处理计算任务;
4.3移动用户设备选择如何进行卸载决策与资源分配
将当前移动用户设备的状态作为Q-network的输入,然后输出所有移动用户设备的动作Q值;根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配;
4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件,对移动用户设备所选动作进行分类,筛选有效的动作,提高DQN算法的学习效率;
4.5执行当前移动用户设备选择的卸载决策与资源分配方式
执行当前移动用户设备选择的卸载决策与资源分配方式,得到当前的奖励,也就是最小化的系统总开销;并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新;
4.6重复上述迭代过程,直至DQN算法曲线收敛
重复上述迭代过程,等到移动用户设备的系统总开销不再随着迭代步数增加而变化,即DQN算法曲线收敛时,整个DQN算法执行过程便结束。
和现有技术相比较,本发明具备如下优点:
(1)适用于高实时性的MEC系统
现有的传统优化算法对于解决MEC计算卸载与资源资源分配问题是可行的。但是MEC系统划分的时隙间隔非常小,而传统优化算法一般都需要经过复杂的操作和迭代才能得到优化结果,所以传统优化算法并不是很适用于高实时性的MEC系统。本发明所提出的深度强化学习DQN算法便很好地解决了上述传统优化算法所遇到的问题,可以适用于高实时性的MEC系统。
(2)与其他基准方法相比,本发明算法整体性能最优
从整体上来看,随着移动用户设备数量的增加、MEC服务器数量的增加、MEC服务器计算能力的增加,本发明提出的算法所得到的系统总开销总体上是小于其他两个基准算法的,即全部计算卸载和全本地卸载方法。从图像上来看,本发明算法的曲线整体上是低于其他基准方法的,处于最下方,所以说本发明所提出算法整体性能是优于其他基准方法的。
附图说明
图1为本发明方法流程图。
图2多移动用户设备多MEC服务器通信模型图。
图3移动用户设备数量的变化对系统总开销的影响。
图4MEC服务器数量的变化对系统总开销的影响。
图5MEC服务器计算能力的变化对系统总开销的影响。
具体实施方式
下面结合附图和实例对本发明进行详细描述。
如图1所示,本发明一种基于深度强化学习的MEC计算卸载与资源分配方法,包括如下步骤:
步骤1,建立多移动用户设备多MEC服务器的通信模型
本发明考虑了一个多移动用户设备多MEC服务器的通信模型,如图2所示,在通信模型中有一个演进式基站,它与M个MEC服务器部署在一起,可以为N个移动用户设备提供计算服务,其MEC服务器数可用集合M={1,2,…m}来表示,移动用户设备数可用集合N={1,2,…,n}来表示。移动用户设备以无线网络的方式连接到演进式基站,每个移动用户设备的计算任务可以选择在本地终端进行计算处理,也可以选择通过演进式基站接入,再传给相应的MEC服务器进行计算处理。
步骤2,建立处理计算移动用户设备计算任务的计算执行模型
假设每个移动用户设备都有一个计算任务其中An表示完成计算任务所需的输入数据的大小,其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数,反映了完成计算任务Rn所需的计算资源数。表示计算任务Rn的最大可容忍延迟,即完成每个计算任务的总用时不应超过最大可容忍延迟
每一个移动用户设备都有一个计算密集型任务要完成,并且每一个移动用户设备都可以通过无线网络将计算任务整体卸载到MEC服务器,反之则完全在本地设备上执行计算。在这里用0-1变量an∈{0,1}表示移动用户设备的卸载决策,并定义A={a1,a2,a3,...,aN}为整个MEC系统的卸载决策向量。an=0表示移动用户设备选择在本地执行计算,an=1表示移动用户设备选择整体卸载到MEC服务器上进行计算。
对移动用户设备的计算任务建立计算执行模型,移动用户设备可以选择在本地终端处理任务或者选择计算卸载方式处理任务。
2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立
移动用户设备选择本地终端处理计算任务Rn时,其本地计算执行的开销包含执行延迟与能量消耗定义为移动用户设备的本地计算能力,其单位用每秒的CPU周期数来表示,不同移动用户设备的计算能力是有区别的。则本地终端处理计算任务Rn的执行延迟如式(1)所示:
式中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟和能耗的权重参数;式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型;
2.2移动用户设备选择计算卸载处理计算任务的卸载计算执行模型建立
移动用户设备选择计算卸载方式处理计算任务Rn时,整个过程包含三部分:首先移动用户设备需要传输完成计算任务的数据到演进式基站,再由演进式基站转给MEC服务器;其次是MEC服务器分配一定的计算资源来执行计算任务;最后再由MEC服务器将执行结果返还给移动用户设备。
移动用户设备可实现的数据上传速率rm如式(4)所示:
其中Q为无线信道带宽,K代表移动用户设备数量,Pn为上传数据时移动用户设备的传输功率,hn为分配给移动用户设备的无线信道增益,N0为复杂高斯白噪声信道的方差。
其中:An为完成计算任务Rn所需的输入数据的大小;
对于最后一部分,无线网络的回传速率一般都远高于上传数据,且回传的执行结果远小于输入数据,因此其延迟和能量消耗一般会忽略掉。对于完整的卸载计算过程,计算卸载执行延迟和计算卸载能量消耗如式(9)和(10)所示:
其中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟与能耗的权重参数。式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型;
步骤3,建立优化目标为最小化所有移动用户设备系统总开销的问题模型
3.1最小化移动用户设备系统总开销的目标函数
优化目标是最小化所有移动用户设备的系统总开销Vall,所以目标函数如式(12)所示:
3.2所有移动用户设备系统总开销的问题模型
优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化,即系统总开销最小化。在最大可容忍延迟和计算能力的约束下,该问题模型如式(13)所示:
A代表决策向量,A={a1,a2,a3,...,aN}。f代表资源分配向量,f={f1,f2,f3,...,fN},其中定义Fm为第m台MEC服务器的整体计算资源数。C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务。C2和C3表示为移动用户设备分配的计算资源为非负的,并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm。C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟
步骤4,利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题
深度强化学习是将强化学习的决策能力和深度学习的感知能力两者相结合起来的,其经典算法DQN(Deep Q Network)采用了深度学习中的卷积神经网络作为状态-动作值函数的泛化模型;同时使用强化学习的经典算法Q-Learning更新状态-动作值函数的模型参数,使得模型最终可以学习到一个较好的策略。
4.1定义深度强化学习的三个重要元素,即状态、动作与奖励
状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成。动作由卸载决策向量和资源分配向量组成,两者的可能值取值情况组合起来便可以得到动作向量。奖励就是得到移动用户设备最小的系统总开销。
4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数
初始化DQN的记忆库,设其容量为N。DQN的记忆库用来学习之前的经验,又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历,所以在学习过程中随机的加入之前的经验会让神经网络更有效率。
初始化当前状态,也就是初始化整个系统的总开销和MEC服务器当前空闲资源数,设定初始状态为本地终端处理,即移动用户设备选择在本地终端处理计算任务。
4.3移动用户设备选择如何进行卸载决策与资源分配
将当前移动用户设备的状态作为Q-network的输入,然后输出所有移动用户设备的动作Q值。根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配。
4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件,对移动用户设备所选动作进行分类,筛选有效的动作,提高DQN算法的学习效率;
MEC服务器的计算资源是有限的,每个移动用户设备所需要的计算资源都不能超过MEC服务器的最大限额,所以对移动用户设备所选动作进行分类,从中选取符合满足MEC服务器计算资源的动作,从而提高DQN算法的学习效率。
4.5执行当前移动用户设备选择的卸载决策与资源分配方式
执行当前移动用户设备选择的卸载决策与资源分配方式,得到当前的奖励,也就是最小化的系统总开销。并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新。
4.6重复上述迭代过程,直至DQN算法曲线收敛
重复上述迭代过程,等到移动用户设备的系统总开销不再随着迭代步数增加而变化,即DQN算法曲线收敛时,整个DQN算法执行过程便结束。
下面探讨移动用户设备数量的变化对系统总开销的影响:
如图3,横坐标代表的是移动用户设备的数量,纵坐标代表的是系统总开销。这组实验讨论的是系统的系统总开销与移动用户设备数量之间的关系。该曲线图从整体上看,随着移动用户设备数量的不断增加,三种方法所产生的系统总开销都呈现上升趋势。在相同条件下,可以明显地看出DQN算法能够达到最好的效果。
下面探讨MEC服务器数量变化对系统总开销的影响:
如图4,图4中显示了MEC服务器数量与系统总开销的关系图。从图5可以清晰地看到全本地计算几乎没有任何变化,这是因为选择本地计算的移动用户设备不需要进行无线传输,与MEC服务器的数量是没有关联的。从整体上看,全卸载计算方法和DQN算法总开销都随着MEC服务器数量的增加而呈下降趋势,并且DQN算法效果最佳。
下面探讨MEC服务器计算能力对系统总开销的影响:
如图5,横坐标表示的是MEC服务器的计算能力,纵坐标表示的是移动用户设备的系统总开销。整体上来看,除了全本地计算方法基本保持不变外,其余两种方法均成下降趋势,并且DQN算法整体性能最优,效果最佳。
Claims (1)
1.一种基于深度强化学习的MEC计算卸载与资源分配方法,其特征在于,包括如下步骤:
步骤1,建立多移动用户设备多MEC服务器的通信模型
该通信模型由一个演进式基站、多个MEC服务器和多个移动用户设备构成;其中移动用户设备以无线网络的方式连接到演进式基站,MEC服务器部署在演进式基站附近,为移动用户设备提供计算服务;每个移动用户设备的计算任务选择在本地终端进行计算处理,或选择通过演进式基站接入,然后再传给相应的MEC服务器进行计算处理;
步骤2,建立处理计算移动用户设备计算任务的计算执行模型
假设每个移动用户设备都有一个计算任务其中An表示完成计算任务所需的输入数据的大小,其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数,反映了完成计算任务Rn所需的计算资源数。表示计算任务Rn的最大可容忍延迟,即完成每个计算任务的总用时不应超过最大可容忍延迟
对移动用户设备的计算任务建立计算执行模型,移动用户设备选择在本地终端处理任务或者选择计算卸载方式处理任务;
2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立
移动用户设备选择本地终端处理计算任务Rn时,其本地计算执行的开销包含执行延迟与能量消耗定义为移动用户设备的本地计算能力,其单位用每秒的CPU周期数来表示,不同移动用户设备的计算能力是有区别的;则本地终端处理计算任务Rn的执行延迟如式(1)所示:
式中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟和能耗的权重参数;式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型;
2.2移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型建立
移动用户设备选择计算卸载方式处理计算任务Rn时,整个过程包含三部分:首先移动用户设备需要传输完成计算任务的数据到演进式基站,再由演进式基站转给MEC服务器;其次是MEC服务器分配一定的计算资源来执行计算任务;最后再由MEC服务器将执行结果返还给移动用户设备;
移动用户设备能实现的数据上传速率rm如式(4)所示:
其中Q为无线信道带宽,K代表移动用户设备数量,Pn为上传数据时移动用户设备的传输功率,hn为分配给移动用户设备的无线信道增益,N0为复杂高斯白噪声信道的方差;
其中:An为完成计算任务Rn所需的输入数据的大小;
其中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟与能耗的权重参数;式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型;
步骤3,建立优化目标为最小化所有移动用户设备系统总开销的问题模型;
3.1最小化移动用户设备系统总开销的目标函数
优化目标是最小化所有移动用户设备的系统总开销Vall,所以目标函数如式(12)所示:
3.2所有移动用户设备系统总开销的问题模型
优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化,即系统总开销最小化;在最大可容忍延迟和计算能力的约束下,该问题模型如式(13)所示:
A代表决策向量,A={a1,a2,a3,...,aN};f代表资源分配向量,f={f1,f2,f3,...,fN},其中定义Fm为第m台MEC服务器的整体计算资源数;C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务;C2和C3表示为移动用户设备分配的计算资源为非负的,并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm;C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟
步骤4,利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题
4.1定义深度强化学习的三个重要元素,即状态、动作与奖励
状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成;动作由卸载决策向量和资源分配向量组成,两者的可能值取值情况组合起来便得到动作向量;奖励就是得到移动用户设备最小的系统总开销;
4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数
初始化DQN的记忆库,设其容量为N;DQN的记忆库用来学习之前的经验,又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历,所以在学习过程中随机的加入之前的经验会让神经网络更有效率;
初始化当前状态,也就是初始化整个系统的总开销和MEC服务器当前空闲资源数,设定初始状态为本地终端处理,即移动用户设备选择在本地终端处理计算任务;
4.3移动用户设备选择如何进行卸载决策与资源分配
将当前移动用户设备的状态作为Q-network的输入,然后输出所有移动用户设备的动作Q值;根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配;
4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件,对移动用户设备所选动作进行分类,筛选有效的动作,提高DQN算法的学习效率;
4.5执行当前移动用户设备选择的卸载决策与资源分配方式
执行当前移动用户设备选择的卸载决策与资源分配方式,得到当前的奖励,也就是最小化的系统总开销;并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新;
4.6重复上述迭代过程,直至DQN算法曲线收敛
重复上述迭代过程,等到移动用户设备的系统总开销不再随着迭代步数增加而变化,即DQN算法曲线收敛时,整个DQN算法执行过程便结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853238.9A CN113573363B (zh) | 2021-07-27 | 2021-07-27 | 基于深度强化学习的mec计算卸载与资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110853238.9A CN113573363B (zh) | 2021-07-27 | 2021-07-27 | 基于深度强化学习的mec计算卸载与资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113573363A true CN113573363A (zh) | 2021-10-29 |
CN113573363B CN113573363B (zh) | 2024-01-23 |
Family
ID=78168233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110853238.9A Active CN113573363B (zh) | 2021-07-27 | 2021-07-27 | 基于深度强化学习的mec计算卸载与资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113573363B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490057A (zh) * | 2022-01-24 | 2022-05-13 | 电子科技大学 | 一种基于深度强化学习的mec已卸载任务资源分配方法 |
CN114585006A (zh) * | 2022-03-16 | 2022-06-03 | 东北大学 | 基于深度学习的边缘计算任务卸载和资源分配方法 |
CN115174579A (zh) * | 2022-07-29 | 2022-10-11 | 西安热工研究院有限公司 | 基于超密集网络下mec计算卸载与资源分配方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180183855A1 (en) * | 2016-12-28 | 2018-06-28 | Intel Corporation | Application computation offloading for mobile edge computing |
CN110113190A (zh) * | 2019-04-24 | 2019-08-09 | 西北工业大学 | 一种移动边缘计算场景中卸载时延优化方法 |
CN110557769A (zh) * | 2019-09-12 | 2019-12-10 | 南京邮电大学 | 基于深度强化学习的c-ran计算卸载和资源分配方法 |
CN110798849A (zh) * | 2019-10-10 | 2020-02-14 | 西北工业大学 | 一种超密网边缘计算的计算资源分配与任务卸载方法 |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111414252A (zh) * | 2020-03-18 | 2020-07-14 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
US20200241921A1 (en) * | 2019-01-28 | 2020-07-30 | EMC IP Holding Company LLC | Building neural networks for resource allocation for iterative workloads using reinforcement learning |
CN112911647A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种基于深度强化学习的计算卸载和资源分配方法 |
CN113010282A (zh) * | 2021-03-03 | 2021-06-22 | 电子科技大学 | 一种基于深度强化学习的边云协同串行任务卸载方法 |
-
2021
- 2021-07-27 CN CN202110853238.9A patent/CN113573363B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180183855A1 (en) * | 2016-12-28 | 2018-06-28 | Intel Corporation | Application computation offloading for mobile edge computing |
US20200241921A1 (en) * | 2019-01-28 | 2020-07-30 | EMC IP Holding Company LLC | Building neural networks for resource allocation for iterative workloads using reinforcement learning |
CN110113190A (zh) * | 2019-04-24 | 2019-08-09 | 西北工业大学 | 一种移动边缘计算场景中卸载时延优化方法 |
CN110557769A (zh) * | 2019-09-12 | 2019-12-10 | 南京邮电大学 | 基于深度强化学习的c-ran计算卸载和资源分配方法 |
CN110798849A (zh) * | 2019-10-10 | 2020-02-14 | 西北工业大学 | 一种超密网边缘计算的计算资源分配与任务卸载方法 |
CN111414252A (zh) * | 2020-03-18 | 2020-07-14 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN112911647A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种基于深度强化学习的计算卸载和资源分配方法 |
CN113010282A (zh) * | 2021-03-03 | 2021-06-22 | 电子科技大学 | 一种基于深度强化学习的边云协同串行任务卸载方法 |
Non-Patent Citations (4)
Title |
---|
DGS/MEC-0015BANDMNGTAPI: "GROUP SPECIFICATION Mobile Edge Computing (MEC); Bandwidth Management API Disclaimer The present document has been produced and approved by the Mobile Edge Computing (", ETSI GS MEC 015, no. 1 * |
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07 * |
童钊;叶锋;刘碧篮;邓小妹;梅晶;刘宏;: "移动边缘计算中多约束下的任务卸载和资源分配算法", 计算机工程与科学, no. 10 * |
龙隆;刘子辰;石晶林;周一青;邱大伟;徐顺清;: "移动边缘计算中计算卸载与资源分配的联合优化策略", 高技术通讯, no. 08 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490057A (zh) * | 2022-01-24 | 2022-05-13 | 电子科技大学 | 一种基于深度强化学习的mec已卸载任务资源分配方法 |
CN114490057B (zh) * | 2022-01-24 | 2023-04-25 | 电子科技大学 | 一种基于深度强化学习的mec已卸载任务资源分配方法 |
CN114585006A (zh) * | 2022-03-16 | 2022-06-03 | 东北大学 | 基于深度学习的边缘计算任务卸载和资源分配方法 |
CN114585006B (zh) * | 2022-03-16 | 2024-03-19 | 东北大学 | 基于深度学习的边缘计算任务卸载和资源分配方法 |
CN115174579A (zh) * | 2022-07-29 | 2022-10-11 | 西安热工研究院有限公司 | 基于超密集网络下mec计算卸载与资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113573363B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112860350B (zh) | 一种边缘计算中基于任务缓存的计算卸载方法 | |
Fadlullah et al. | HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks | |
CN110971706B (zh) | Mec中近似最优化与基于强化学习的任务卸载方法 | |
CN111405568B (zh) | 基于q学习的计算卸载和资源分配方法及装置 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111953758B (zh) | 一种边缘网络计算卸载和任务迁移方法及装置 | |
CN110798849A (zh) | 一种超密网边缘计算的计算资源分配与任务卸载方法 | |
CN113573363B (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN111953759A (zh) | 基于强化学习的协同计算任务卸载和迁移的方法及装置 | |
CN113810233B (zh) | 一种在随机网络中基于算网协同的分布式计算卸载方法 | |
CN113590279B (zh) | 一种面向多核边缘计算服务器的任务调度和资源分配方法 | |
CN115190033B (zh) | 一种基于强化学习的云边融合网络任务卸载方法 | |
CN116489712B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN115396953A (zh) | 移动边缘计算中一种基于改进粒子群算法的计算卸载方法 | |
CN114697333A (zh) | 一种能量队列均衡的边缘计算方法 | |
Zhang et al. | A deep reinforcement learning approach for online computation offloading in mobile edge computing | |
CN116185523A (zh) | 一种任务卸载和部署的方法 | |
CN113946423B (zh) | 基于图注意力网络的多任务边缘计算调度优化方法 | |
CN116828534B (zh) | 基于强化学习的密集网络大规模终端接入与资源分配方法 | |
CN110768827B (zh) | 一种基于群智能算法的任务卸载方法 | |
Wang et al. | Multi-objective joint optimization of communication-computation-caching resources in mobile edge computing | |
CN117202265A (zh) | 边缘环境下基于dqn的服务迁移方法 | |
CN111930435A (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN116209084A (zh) | 一种能量收集mec系统中任务卸载和资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |