CN113573363A - 基于深度强化学习的mec计算卸载与资源分配方法 - Google Patents

基于深度强化学习的mec计算卸载与资源分配方法 Download PDF

Info

Publication number
CN113573363A
CN113573363A CN202110853238.9A CN202110853238A CN113573363A CN 113573363 A CN113573363 A CN 113573363A CN 202110853238 A CN202110853238 A CN 202110853238A CN 113573363 A CN113573363 A CN 113573363A
Authority
CN
China
Prior art keywords
mobile user
user equipment
formula
task
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110853238.9A
Other languages
English (en)
Other versions
CN113573363B (zh
Inventor
刘迪
杨东
李哲毓
毕玉冰
刘超飞
王文庆
崔逸群
朱博迪
肖力炀
刘骁
崔鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Thermal Power Research Institute Co Ltd
Original Assignee
Xian Thermal Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Thermal Power Research Institute Co Ltd filed Critical Xian Thermal Power Research Institute Co Ltd
Priority to CN202110853238.9A priority Critical patent/CN113573363B/zh
Publication of CN113573363A publication Critical patent/CN113573363A/zh
Application granted granted Critical
Publication of CN113573363B publication Critical patent/CN113573363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的移动边缘计算MEC的计算卸载与资源分配方法,为移动用户设备提供了一种最优的计算卸载与资源分配方案。在整体卸载条件下,对其构建处理计算移动用户设备计算任务的计算执行模型,然后根据最小化系统总开销的优化目标构建所有移动用户设备系统总开销的问题模型,利用深度强化学习方法确定最小的系统总开销。考虑到时变的MEC系统中实际的计算卸载与资源分配特性,任务时延阈值与系统计算资源的约束,本发明采用的是结合强化学习与深度学习的DQN算法,利用深度神经网络DNN来近似估计状态‑动作组的Q值,以确定最优的计算卸载与资源分配方案,达到最小的系统总开销。

Description

基于深度强化学习的MEC计算卸载与资源分配方法
技术领域
本发明属于移动通信技术领域,具体涉及一种基于深度强化学习的MEC计算卸载与资源分配方法。
背景技术
随着5G(5th Generation Mobile Communication Technology)网络技术的不断发展,未来网络中的应用,例如交互游戏、自动驾驶、增强现实、虚拟现实,这些应用都需要强大的计算能力,在极短的时间内完成大量的计算。受限于移动设备的计算能力与电池容量,使之无法获得良好的用户体验。在这种情况,计算卸载的概念被提出,指用户设备处理某些计算量庞大的应用时,在权衡延迟或者能耗等指标的情况下,将处理这些应用的数据通过无线信道上传到边缘服务器上,来减少任务完成时间和降低移动设备能耗。
5G应用推动了移动云计算MCC(Mobile Cloud Computing)概念的发展,移动用户设备可以利用强大的远程集中云的计算和存储资源来实现访问,但过多的使用可能会在数据交换时发生堵塞导致产生很长的等待时间。因此新的计算范式被提出—移动边缘计算MEC,它可以通过部署高性能服务器来提高移动网络边缘的计算能力。与MCC相比,它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。通过计算卸载,移动用户可以显著地减少应用程序的延迟,提高服务质量,并且显著降低。
但是在卸载决策上,单靠一些简单的判断是无法做出最优的选择。机器学习作为近些年计算机领域的热点,研究者们将其尝试运用到计算卸载领域。强化学习作为机器学习的一个重要分支,他从环境的未来回报反馈考虑,通过调整其策略达到最佳的长期回报,与计算卸载策略尤为贴切。但在某些复杂场景下,其无法提供较好的效果,所以引入了深度学习,大大促进了高维度信息感知问题。
发明内容
本发明的目的在于针对MEC计算卸载与资源分配问题,提出了一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法,利用DQN算法,通过深度神经网络来近似估计状态-动作组的Q值,以确定最优的计算卸载与资源分配方案,达到最小的系统总开销。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法,包括如下步骤:
步骤1,建立多移动用户设备多MEC服务器的通信模型
该通信模型由一个演进式基站、多个MEC服务器和多个移动用户设备构成;其中移动用户设备以无线网络的方式连接到演进式基站,MEC服务器部署在演进式基站附近,为移动用户设备提供计算服务;每个移动用户设备的计算任务选择在本地终端进行计算处理,或选择通过演进式基站接入,然后再传给相应的MEC服务器进行计算处理;
步骤2,建立处理计算移动用户设备计算任务的计算执行模型
假设每个移动用户设备都有一个计算任务
Figure BDA0003183134300000021
其中An表示完成计算任务所需的输入数据的大小,其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数,反映了完成计算任务Rn所需的计算资源数。
Figure BDA0003183134300000031
表示计算任务Rn的最大可容忍延迟,即完成每个计算任务的总用时不应超过最大可容忍延迟
Figure BDA0003183134300000032
对移动用户设备的计算任务建立计算执行模型,移动用户设备选择在本地终端处理任务或者选择计算卸载方式处理任务;
2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立
移动用户设备选择本地终端处理计算任务Rn时,其本地计算执行的开销包含执行延迟
Figure BDA0003183134300000033
与能量消耗
Figure BDA0003183134300000034
定义
Figure BDA0003183134300000035
为移动用户设备的本地计算能力,其单位用每秒的CPU周期数来表示,不同移动用户设备的计算能力是有区别的;则本地终端处理计算任务Rn的执行延迟
Figure BDA0003183134300000036
如式(1)所示:
Figure BDA0003183134300000037
本地终端处理计算任务Rn的能量消耗
Figure BDA0003183134300000038
如式(2)所示:
Figure BDA0003183134300000039
上式中zn是能耗密度,并且不同种设备之间的参数差距小;综合考虑本地计算执行的执行延迟和能量消耗,移动用户设备在本地计算执行的总开销
Figure BDA00031831343000000310
如式(3)所示:
Figure BDA00031831343000000311
式中0≤θ12≤1分别表示移动用户设备的执行延迟和能耗的权重参数;式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型;
2.2移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型建立
移动用户设备选择计算卸载方式处理计算任务Rn时,整个过程包含三部分:首先移动用户设备需要传输完成计算任务的数据到演进式基站,再由演进式基站转给MEC服务器;其次是MEC服务器分配一定的计算资源来执行计算任务;最后再由MEC服务器将执行结果返还给移动用户设备;
移动用户设备能实现的数据上传速率rm如式(4)所示:
Figure BDA0003183134300000041
其中Q为无线信道带宽,K代表移动用户设备数量,Pn为上传数据时移动用户设备的传输功率,hn为分配给移动用户设备的无线信道增益,N0为复杂高斯白噪声信道的方差;
由上所述第一部分是传输输入产生的传输延迟
Figure BDA0003183134300000042
如式(5)所示:
Figure BDA0003183134300000043
此过程所对应的能量消耗
Figure BDA0003183134300000044
如式(6)所示:
Figure BDA0003183134300000045
其中:An为完成计算任务Rn所需的输入数据的大小;
第二部分是MEC服务器处理计算任务的处理延迟,定义fn,m是MEC服务器为移动用户设备分配的计算资源,其处理延迟
Figure BDA0003183134300000051
如式(7)所示:
Figure BDA0003183134300000052
在MEC服务器执行计算的这段时间内,移动用户设备处于等待接收的状态,设此状态下移动用户设备的闲置功率为
Figure BDA0003183134300000053
则这段时间内的能量消耗
Figure BDA0003183134300000054
如式(8)所示:
Figure BDA0003183134300000055
对于最后一部分,完整的卸载计算过程,计算卸载执行延迟
Figure BDA0003183134300000056
和计算卸载能量消耗
Figure BDA0003183134300000057
如式(9)和(10)所示:
Figure BDA0003183134300000058
Figure BDA0003183134300000059
综上所述,对于选择卸载计算的移动用户设备,其计算卸载执行延迟和计算卸载能量消耗的加权开销
Figure BDA00031831343000000510
如式(11)所示:
Figure BDA00031831343000000511
其中0≤θ12≤1分别表示移动用户设备的执行延迟与能耗的权重参数;式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型;
步骤3,建立优化目标为最小化所有移动用户设备系统总开销的问题模型
3.1最小化移动用户设备系统总开销的目标函数
优化目标是最小化所有移动用户设备的系统总开销Vall,所以目标函数如式(12)所示:
Figure BDA0003183134300000061
其中:Vall为移动用户设备的系统总开销,
Figure BDA0003183134300000062
为移动用户设备在本地计算执行的总开销,
Figure BDA0003183134300000063
为移动用户设备选择计算卸载方式进行处理计算任务Rn的系统总开销,N为移动用户设备的数量,M为MEC服务器的数量;
3.2所有移动用户设备系统总开销的问题模型
优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化,即系统总开销最小化;在最大可容忍延迟和计算能力的约束下,该问题模型如式(13)所示:
Figure BDA0003183134300000064
A代表决策向量,A={a1,a2,a3,...,aN};f代表资源分配向量,f={f1,f2,f3,...,fN},其中定义Fm为第m台MEC服务器的整体计算资源数;C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务;C2和C3表示为移动用户设备分配的计算资源为非负的,并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm;C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟
Figure BDA0003183134300000071
步骤4,利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题
4.1定义深度强化学习的三个重要元素,即状态、动作与奖励
状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成;动作由卸载决策向量和资源分配向量组成,两者的可能值取值情况组合起来便得到动作向量;奖励就是得到移动用户设备最小的系统总开销;
4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数
初始化DQN的记忆库,设其容量为N;DQN的记忆库用来学习之前的经验,又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历,所以在学习过程中随机的加入之前的经验会让神经网络更有效率;
初始化当前状态,也就是初始化整个系统的总开销和MEC服务器当前空闲资源数,设定初始状态为本地终端处理,即移动用户设备选择在本地终端处理计算任务;
4.3移动用户设备选择如何进行卸载决策与资源分配
将当前移动用户设备的状态作为Q-network的输入,然后输出所有移动用户设备的动作Q值;根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配;
4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件,对移动用户设备所选动作进行分类,筛选有效的动作,提高DQN算法的学习效率;
4.5执行当前移动用户设备选择的卸载决策与资源分配方式
执行当前移动用户设备选择的卸载决策与资源分配方式,得到当前的奖励,也就是最小化的系统总开销;并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新;
4.6重复上述迭代过程,直至DQN算法曲线收敛
重复上述迭代过程,等到移动用户设备的系统总开销不再随着迭代步数增加而变化,即DQN算法曲线收敛时,整个DQN算法执行过程便结束。
和现有技术相比较,本发明具备如下优点:
(1)适用于高实时性的MEC系统
现有的传统优化算法对于解决MEC计算卸载与资源资源分配问题是可行的。但是MEC系统划分的时隙间隔非常小,而传统优化算法一般都需要经过复杂的操作和迭代才能得到优化结果,所以传统优化算法并不是很适用于高实时性的MEC系统。本发明所提出的深度强化学习DQN算法便很好地解决了上述传统优化算法所遇到的问题,可以适用于高实时性的MEC系统。
(2)与其他基准方法相比,本发明算法整体性能最优
从整体上来看,随着移动用户设备数量的增加、MEC服务器数量的增加、MEC服务器计算能力的增加,本发明提出的算法所得到的系统总开销总体上是小于其他两个基准算法的,即全部计算卸载和全本地卸载方法。从图像上来看,本发明算法的曲线整体上是低于其他基准方法的,处于最下方,所以说本发明所提出算法整体性能是优于其他基准方法的。
附图说明
图1为本发明方法流程图。
图2多移动用户设备多MEC服务器通信模型图。
图3移动用户设备数量的变化对系统总开销的影响。
图4MEC服务器数量的变化对系统总开销的影响。
图5MEC服务器计算能力的变化对系统总开销的影响。
具体实施方式
下面结合附图和实例对本发明进行详细描述。
如图1所示,本发明一种基于深度强化学习的MEC计算卸载与资源分配方法,包括如下步骤:
步骤1,建立多移动用户设备多MEC服务器的通信模型
本发明考虑了一个多移动用户设备多MEC服务器的通信模型,如图2所示,在通信模型中有一个演进式基站,它与M个MEC服务器部署在一起,可以为N个移动用户设备提供计算服务,其MEC服务器数可用集合M={1,2,…m}来表示,移动用户设备数可用集合N={1,2,…,n}来表示。移动用户设备以无线网络的方式连接到演进式基站,每个移动用户设备的计算任务可以选择在本地终端进行计算处理,也可以选择通过演进式基站接入,再传给相应的MEC服务器进行计算处理。
步骤2,建立处理计算移动用户设备计算任务的计算执行模型
假设每个移动用户设备都有一个计算任务
Figure BDA0003183134300000101
其中An表示完成计算任务所需的输入数据的大小,其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数,反映了完成计算任务Rn所需的计算资源数。
Figure BDA0003183134300000102
表示计算任务Rn的最大可容忍延迟,即完成每个计算任务的总用时不应超过最大可容忍延迟
Figure BDA0003183134300000103
每一个移动用户设备都有一个计算密集型任务要完成,并且每一个移动用户设备都可以通过无线网络将计算任务整体卸载到MEC服务器,反之则完全在本地设备上执行计算。在这里用0-1变量an∈{0,1}表示移动用户设备的卸载决策,并定义A={a1,a2,a3,...,aN}为整个MEC系统的卸载决策向量。an=0表示移动用户设备选择在本地执行计算,an=1表示移动用户设备选择整体卸载到MEC服务器上进行计算。
对移动用户设备的计算任务建立计算执行模型,移动用户设备可以选择在本地终端处理任务或者选择计算卸载方式处理任务。
2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立
移动用户设备选择本地终端处理计算任务Rn时,其本地计算执行的开销包含执行延迟
Figure BDA0003183134300000111
与能量消耗
Figure BDA0003183134300000112
定义
Figure BDA0003183134300000113
为移动用户设备的本地计算能力,其单位用每秒的CPU周期数来表示,不同移动用户设备的计算能力是有区别的。则本地终端处理计算任务Rn的执行延迟
Figure BDA0003183134300000114
如式(1)所示:
Figure BDA0003183134300000115
本地终端处理计算任务Rn的能量消耗
Figure BDA0003183134300000116
如式(2)所示:
Figure BDA0003183134300000117
上式中zn是能耗密度,并且不同种设备之间的参数差距很小。综合考虑本地计算执行的执行延迟和能耗,移动用户设备在本地计算执行的总开销
Figure BDA0003183134300000118
如式(3)所示:
Figure BDA0003183134300000119
式中0≤θ12≤1分别表示移动用户设备的执行延迟和能耗的权重参数;式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型;
2.2移动用户设备选择计算卸载处理计算任务的卸载计算执行模型建立
移动用户设备选择计算卸载方式处理计算任务Rn时,整个过程包含三部分:首先移动用户设备需要传输完成计算任务的数据到演进式基站,再由演进式基站转给MEC服务器;其次是MEC服务器分配一定的计算资源来执行计算任务;最后再由MEC服务器将执行结果返还给移动用户设备。
移动用户设备可实现的数据上传速率rm如式(4)所示:
Figure BDA0003183134300000121
其中Q为无线信道带宽,K代表移动用户设备数量,Pn为上传数据时移动用户设备的传输功率,hn为分配给移动用户设备的无线信道增益,N0为复杂高斯白噪声信道的方差。
由上所述第一部分是传输输入产生的传输延迟
Figure BDA0003183134300000122
如式(5)所示:
Figure BDA0003183134300000123
此过程所对应的能量消耗
Figure BDA0003183134300000124
如式(6)所示:
Figure BDA0003183134300000125
其中:An为完成计算任务Rn所需的输入数据的大小;
第二部分是MEC服务器处理计算任务的处理延迟,定义fn,m是MEC服务器为移动用户设备分配的计算资源。其处理延迟
Figure BDA0003183134300000126
如式(7)所示:
Figure BDA0003183134300000127
在MEC服务器执行计算的这段时间内,移动用户设备处于等待接收的状态,设此状态下移动用户设备的闲置功率为
Figure BDA0003183134300000128
则这段时间内的能量消耗
Figure BDA0003183134300000129
如式(8)所示:
Figure BDA00031831343000001210
对于最后一部分,无线网络的回传速率一般都远高于上传数据,且回传的执行结果远小于输入数据,因此其延迟和能量消耗一般会忽略掉。对于完整的卸载计算过程,计算卸载执行延迟
Figure BDA0003183134300000131
和计算卸载能量消耗
Figure BDA0003183134300000132
如式(9)和(10)所示:
Figure BDA0003183134300000133
Figure BDA0003183134300000134
综上所述,对于选择卸载计算的移动用户设备,其计算卸载执行延迟和计算卸载能量消耗的加权开销
Figure BDA0003183134300000135
如式(11)所示:
Figure BDA0003183134300000136
其中0≤θ12≤1分别表示移动用户设备的执行延迟与能耗的权重参数。式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型;
步骤3,建立优化目标为最小化所有移动用户设备系统总开销的问题模型
3.1最小化移动用户设备系统总开销的目标函数
优化目标是最小化所有移动用户设备的系统总开销Vall,所以目标函数如式(12)所示:
Figure BDA0003183134300000137
其中:Vall为移动用户设备的系统总开销,
Figure BDA0003183134300000138
为移动用户设备在本地计算执行的总开销,
Figure BDA0003183134300000139
为移动用户设备选择计算卸载方式进行处理计算任务Rn的系统总开销,N为移动用户设备的数量,M为MEC服务器的数量;
3.2所有移动用户设备系统总开销的问题模型
优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化,即系统总开销最小化。在最大可容忍延迟和计算能力的约束下,该问题模型如式(13)所示:
Figure BDA0003183134300000141
A代表决策向量,A={a1,a2,a3,...,aN}。f代表资源分配向量,f={f1,f2,f3,...,fN},其中定义Fm为第m台MEC服务器的整体计算资源数。C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务。C2和C3表示为移动用户设备分配的计算资源为非负的,并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm。C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟
Figure BDA0003183134300000142
步骤4,利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题
深度强化学习是将强化学习的决策能力和深度学习的感知能力两者相结合起来的,其经典算法DQN(Deep Q Network)采用了深度学习中的卷积神经网络作为状态-动作值函数的泛化模型;同时使用强化学习的经典算法Q-Learning更新状态-动作值函数的模型参数,使得模型最终可以学习到一个较好的策略。
4.1定义深度强化学习的三个重要元素,即状态、动作与奖励
状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成。动作由卸载决策向量和资源分配向量组成,两者的可能值取值情况组合起来便可以得到动作向量。奖励就是得到移动用户设备最小的系统总开销。
4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数
初始化DQN的记忆库,设其容量为N。DQN的记忆库用来学习之前的经验,又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历,所以在学习过程中随机的加入之前的经验会让神经网络更有效率。
初始化当前状态,也就是初始化整个系统的总开销和MEC服务器当前空闲资源数,设定初始状态为本地终端处理,即移动用户设备选择在本地终端处理计算任务。
4.3移动用户设备选择如何进行卸载决策与资源分配
将当前移动用户设备的状态作为Q-network的输入,然后输出所有移动用户设备的动作Q值。根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配。
4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件,对移动用户设备所选动作进行分类,筛选有效的动作,提高DQN算法的学习效率;
MEC服务器的计算资源是有限的,每个移动用户设备所需要的计算资源都不能超过MEC服务器的最大限额,所以对移动用户设备所选动作进行分类,从中选取符合满足MEC服务器计算资源的动作,从而提高DQN算法的学习效率。
4.5执行当前移动用户设备选择的卸载决策与资源分配方式
执行当前移动用户设备选择的卸载决策与资源分配方式,得到当前的奖励,也就是最小化的系统总开销。并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新。
4.6重复上述迭代过程,直至DQN算法曲线收敛
重复上述迭代过程,等到移动用户设备的系统总开销不再随着迭代步数增加而变化,即DQN算法曲线收敛时,整个DQN算法执行过程便结束。
下面探讨移动用户设备数量的变化对系统总开销的影响:
如图3,横坐标代表的是移动用户设备的数量,纵坐标代表的是系统总开销。这组实验讨论的是系统的系统总开销与移动用户设备数量之间的关系。该曲线图从整体上看,随着移动用户设备数量的不断增加,三种方法所产生的系统总开销都呈现上升趋势。在相同条件下,可以明显地看出DQN算法能够达到最好的效果。
下面探讨MEC服务器数量变化对系统总开销的影响:
如图4,图4中显示了MEC服务器数量与系统总开销的关系图。从图5可以清晰地看到全本地计算几乎没有任何变化,这是因为选择本地计算的移动用户设备不需要进行无线传输,与MEC服务器的数量是没有关联的。从整体上看,全卸载计算方法和DQN算法总开销都随着MEC服务器数量的增加而呈下降趋势,并且DQN算法效果最佳。
下面探讨MEC服务器计算能力对系统总开销的影响:
如图5,横坐标表示的是MEC服务器的计算能力,纵坐标表示的是移动用户设备的系统总开销。整体上来看,除了全本地计算方法基本保持不变外,其余两种方法均成下降趋势,并且DQN算法整体性能最优,效果最佳。

Claims (1)

1.一种基于深度强化学习的MEC计算卸载与资源分配方法,其特征在于,包括如下步骤:
步骤1,建立多移动用户设备多MEC服务器的通信模型
该通信模型由一个演进式基站、多个MEC服务器和多个移动用户设备构成;其中移动用户设备以无线网络的方式连接到演进式基站,MEC服务器部署在演进式基站附近,为移动用户设备提供计算服务;每个移动用户设备的计算任务选择在本地终端进行计算处理,或选择通过演进式基站接入,然后再传给相应的MEC服务器进行计算处理;
步骤2,建立处理计算移动用户设备计算任务的计算执行模型
假设每个移动用户设备都有一个计算任务
Figure FDA0003183134290000011
其中An表示完成计算任务所需的输入数据的大小,其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数,反映了完成计算任务Rn所需的计算资源数。
Figure FDA0003183134290000012
表示计算任务Rn的最大可容忍延迟,即完成每个计算任务的总用时不应超过最大可容忍延迟
Figure FDA0003183134290000013
对移动用户设备的计算任务建立计算执行模型,移动用户设备选择在本地终端处理任务或者选择计算卸载方式处理任务;
2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立
移动用户设备选择本地终端处理计算任务Rn时,其本地计算执行的开销包含执行延迟
Figure FDA0003183134290000014
与能量消耗
Figure FDA0003183134290000015
定义
Figure FDA0003183134290000016
为移动用户设备的本地计算能力,其单位用每秒的CPU周期数来表示,不同移动用户设备的计算能力是有区别的;则本地终端处理计算任务Rn的执行延迟
Figure FDA0003183134290000021
如式(1)所示:
Figure FDA0003183134290000022
本地终端处理计算任务Rn的能量消耗
Figure FDA0003183134290000023
如式(2)所示:
Figure FDA0003183134290000024
上式中zn是能耗密度,并且不同种设备之间的参数差距小;综合考虑本地计算执行的执行延迟和能量消耗,移动用户设备在本地计算执行的总开销
Figure FDA0003183134290000025
如式(3)所示:
Figure FDA0003183134290000026
式中0≤θ12≤1分别表示移动用户设备的执行延迟和能耗的权重参数;式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型;
2.2移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型建立
移动用户设备选择计算卸载方式处理计算任务Rn时,整个过程包含三部分:首先移动用户设备需要传输完成计算任务的数据到演进式基站,再由演进式基站转给MEC服务器;其次是MEC服务器分配一定的计算资源来执行计算任务;最后再由MEC服务器将执行结果返还给移动用户设备;
移动用户设备能实现的数据上传速率rm如式(4)所示:
Figure FDA0003183134290000031
其中Q为无线信道带宽,K代表移动用户设备数量,Pn为上传数据时移动用户设备的传输功率,hn为分配给移动用户设备的无线信道增益,N0为复杂高斯白噪声信道的方差;
由上所述第一部分是传输输入产生的传输延迟
Figure FDA0003183134290000032
如式(5)所示:
Figure FDA0003183134290000033
此过程所对应的能量消耗
Figure FDA0003183134290000034
如式(6)所示:
Figure FDA0003183134290000035
其中:An为完成计算任务Rn所需的输入数据的大小;
第二部分是MEC服务器处理计算任务的处理延迟,定义fn,m是MEC服务器为移动用户设备分配的计算资源,其处理延迟
Figure FDA0003183134290000036
如式(7)所示:
Figure FDA0003183134290000037
在MEC服务器执行计算的这段时间内,移动用户设备处于等待接收的状态,设此状态下移动用户设备的闲置功率为
Figure FDA0003183134290000038
则这段时间内的能量消耗
Figure FDA0003183134290000039
如式(8)所示:
Figure FDA00031831342900000310
对于最后一部分,完整的卸载计算过程,计算卸载执行延迟
Figure FDA00031831342900000311
和计算卸载能量消耗
Figure FDA0003183134290000041
如式(9)和(10)所示:
Figure FDA0003183134290000042
Figure FDA0003183134290000043
综上所述,对于选择卸载计算的移动用户设备,其计算卸载执行延迟和计算卸载能量消耗的加权开销
Figure FDA0003183134290000044
如式(11)所示:
Figure FDA0003183134290000045
其中0≤θ12≤1分别表示移动用户设备的执行延迟与能耗的权重参数;式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型;
步骤3,建立优化目标为最小化所有移动用户设备系统总开销的问题模型;
3.1最小化移动用户设备系统总开销的目标函数
优化目标是最小化所有移动用户设备的系统总开销Vall,所以目标函数如式(12)所示:
Figure FDA0003183134290000046
其中:Vall为移动用户设备的系统总开销,
Figure FDA0003183134290000047
为移动用户设备在本地计算执行的总开销,
Figure FDA0003183134290000048
为移动用户设备选择计算卸载方式进行处理计算任务Rn的系统总开销,N为移动用户设备的数量,M为MEC服务器的数量;
3.2所有移动用户设备系统总开销的问题模型
优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化,即系统总开销最小化;在最大可容忍延迟和计算能力的约束下,该问题模型如式(13)所示:
Figure FDA0003183134290000051
A代表决策向量,A={a1,a2,a3,...,aN};f代表资源分配向量,f={f1,f2,f3,...,fN},其中定义Fm为第m台MEC服务器的整体计算资源数;C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务;C2和C3表示为移动用户设备分配的计算资源为非负的,并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm;C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟
Figure FDA0003183134290000052
步骤4,利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题
4.1定义深度强化学习的三个重要元素,即状态、动作与奖励
状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成;动作由卸载决策向量和资源分配向量组成,两者的可能值取值情况组合起来便得到动作向量;奖励就是得到移动用户设备最小的系统总开销;
4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数
初始化DQN的记忆库,设其容量为N;DQN的记忆库用来学习之前的经验,又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历,所以在学习过程中随机的加入之前的经验会让神经网络更有效率;
初始化当前状态,也就是初始化整个系统的总开销和MEC服务器当前空闲资源数,设定初始状态为本地终端处理,即移动用户设备选择在本地终端处理计算任务;
4.3移动用户设备选择如何进行卸载决策与资源分配
将当前移动用户设备的状态作为Q-network的输入,然后输出所有移动用户设备的动作Q值;根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配;
4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件,对移动用户设备所选动作进行分类,筛选有效的动作,提高DQN算法的学习效率;
4.5执行当前移动用户设备选择的卸载决策与资源分配方式
执行当前移动用户设备选择的卸载决策与资源分配方式,得到当前的奖励,也就是最小化的系统总开销;并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新;
4.6重复上述迭代过程,直至DQN算法曲线收敛
重复上述迭代过程,等到移动用户设备的系统总开销不再随着迭代步数增加而变化,即DQN算法曲线收敛时,整个DQN算法执行过程便结束。
CN202110853238.9A 2021-07-27 2021-07-27 基于深度强化学习的mec计算卸载与资源分配方法 Active CN113573363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110853238.9A CN113573363B (zh) 2021-07-27 2021-07-27 基于深度强化学习的mec计算卸载与资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110853238.9A CN113573363B (zh) 2021-07-27 2021-07-27 基于深度强化学习的mec计算卸载与资源分配方法

Publications (2)

Publication Number Publication Date
CN113573363A true CN113573363A (zh) 2021-10-29
CN113573363B CN113573363B (zh) 2024-01-23

Family

ID=78168233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110853238.9A Active CN113573363B (zh) 2021-07-27 2021-07-27 基于深度强化学习的mec计算卸载与资源分配方法

Country Status (1)

Country Link
CN (1) CN113573363B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114585006A (zh) * 2022-03-16 2022-06-03 东北大学 基于深度学习的边缘计算任务卸载和资源分配方法
CN115174579A (zh) * 2022-07-29 2022-10-11 西安热工研究院有限公司 基于超密集网络下mec计算卸载与资源分配方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180183855A1 (en) * 2016-12-28 2018-06-28 Intel Corporation Application computation offloading for mobile edge computing
CN110113190A (zh) * 2019-04-24 2019-08-09 西北工业大学 一种移动边缘计算场景中卸载时延优化方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN112911647A (zh) * 2021-01-20 2021-06-04 长春工程学院 一种基于深度强化学习的计算卸载和资源分配方法
CN113010282A (zh) * 2021-03-03 2021-06-22 电子科技大学 一种基于深度强化学习的边云协同串行任务卸载方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180183855A1 (en) * 2016-12-28 2018-06-28 Intel Corporation Application computation offloading for mobile edge computing
US20200241921A1 (en) * 2019-01-28 2020-07-30 EMC IP Holding Company LLC Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN110113190A (zh) * 2019-04-24 2019-08-09 西北工业大学 一种移动边缘计算场景中卸载时延优化方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN112911647A (zh) * 2021-01-20 2021-06-04 长春工程学院 一种基于深度强化学习的计算卸载和资源分配方法
CN113010282A (zh) * 2021-03-03 2021-06-22 电子科技大学 一种基于深度强化学习的边云协同串行任务卸载方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DGS/MEC-0015BANDMNGTAPI: "GROUP SPECIFICATION Mobile Edge Computing (MEC); Bandwidth Management API Disclaimer The present document has been produced and approved by the Mobile Edge Computing (", ETSI GS MEC 015, no. 1 *
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07 *
童钊;叶锋;刘碧篮;邓小妹;梅晶;刘宏;: "移动边缘计算中多约束下的任务卸载和资源分配算法", 计算机工程与科学, no. 10 *
龙隆;刘子辰;石晶林;周一青;邱大伟;徐顺清;: "移动边缘计算中计算卸载与资源分配的联合优化策略", 高技术通讯, no. 08 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114490057B (zh) * 2022-01-24 2023-04-25 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114585006A (zh) * 2022-03-16 2022-06-03 东北大学 基于深度学习的边缘计算任务卸载和资源分配方法
CN114585006B (zh) * 2022-03-16 2024-03-19 东北大学 基于深度学习的边缘计算任务卸载和资源分配方法
CN115174579A (zh) * 2022-07-29 2022-10-11 西安热工研究院有限公司 基于超密集网络下mec计算卸载与资源分配方法

Also Published As

Publication number Publication date
CN113573363B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN112860350B (zh) 一种边缘计算中基于任务缓存的计算卸载方法
Fadlullah et al. HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks
CN110971706B (zh) Mec中近似最优化与基于强化学习的任务卸载方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111953758B (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN111953759A (zh) 基于强化学习的协同计算任务卸载和迁移的方法及装置
CN113810233B (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN115190033B (zh) 一种基于强化学习的云边融合网络任务卸载方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN115396953A (zh) 移动边缘计算中一种基于改进粒子群算法的计算卸载方法
CN114697333A (zh) 一种能量队列均衡的边缘计算方法
Zhang et al. A deep reinforcement learning approach for online computation offloading in mobile edge computing
CN116185523A (zh) 一种任务卸载和部署的方法
CN113946423B (zh) 基于图注意力网络的多任务边缘计算调度优化方法
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
CN110768827B (zh) 一种基于群智能算法的任务卸载方法
Wang et al. Multi-objective joint optimization of communication-computation-caching resources in mobile edge computing
CN117202265A (zh) 边缘环境下基于dqn的服务迁移方法
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN116209084A (zh) 一种能量收集mec系统中任务卸载和资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant