CN116137724A - 一种基于移动边缘计算的任务卸载及资源分配方法 - Google Patents
一种基于移动边缘计算的任务卸载及资源分配方法 Download PDFInfo
- Publication number
- CN116137724A CN116137724A CN202310138344.8A CN202310138344A CN116137724A CN 116137724 A CN116137724 A CN 116137724A CN 202310138344 A CN202310138344 A CN 202310138344A CN 116137724 A CN116137724 A CN 116137724A
- Authority
- CN
- China
- Prior art keywords
- task
- base station
- resource allocation
- representing
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013468 resource allocation Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004364 calculation method Methods 0.000 title claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 95
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 239000003795 chemical substances by application Substances 0.000 claims description 49
- 230000009471 action Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 24
- 230000000875 corresponding effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 7
- 230000001934 delay Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 230000002787 reinforcement Effects 0.000 description 8
- 230000007613 environmental effect Effects 0.000 description 4
- 241000764238 Isis Species 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- -1 i.e. Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
- H04W28/14—Flow control between communication endpoints using intermediate storage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明属于无线通信技术领域,具体涉及一种基于移动边缘计算的任务卸载及资源分配方法;该方法包括:构建移动边缘计算系统模型;基于移动边缘计算系统模型构建服务缓存模型和服务指派模型;基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件;根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题;采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略;本发明可实现低时延和高缓存命中率,实现资源的按需分配。
Description
技术领域
本发明属于无线通信技术领域,具体涉及一种基于移动边缘计算的任务卸载及资源分配方法。
背景技术
随着物联网的快速发展和智能移动设备(Mobile Device,MD)的爆炸式增长,以大数据和智能化为特点的新型应用不断涌现(如在线游戏、虚拟现实(VR)、增强现实(AR)、远程医疗等),且这些应用业务通常具有计算密集和时延敏感的特征。然而,受限于移动设备体积、计算能力、存储能力和电池电量等,MDs在处理高能耗、高复杂度的计算任务时,通常存在算力不足、时延大、续航能力低等问题。移动边缘计算(Mobile Edge Computing,MEC)作为一种先进的计算方式被提出,以实现网络边缘的超大容量、超低时延、超高带宽和低能耗数据处理愿景。MEC通过将云中心的算力、存储等资源下沉到网络边缘,并驱动用户将计算任务卸载到网络边缘,以享受高性能的计算服务体验。
深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习的感知能力和强化学习的决策能力,可以有效处理MEC系统中的各种决策问题。例如,现有技术中一种车辆多接入边缘计算中计算深度强化学习的资源管理方法研究了MEC车载网络中频谱、计算和存储资源的联合分配问题,利用DDPG和分层学习,实现资源的快速分配,满足了车辆应用的服务质量要求。一种缓存辅助的移动边缘计算系统中基于深度强化学习的动态计算卸载和资源分配方法研究了缓存辅助的MEC系统中的动态缓存、计算卸载和资源分配问题,提出了一种基于DRL的智能动态调度策略。然而,上述方法都采用单智能体的深度强化学习算法,单智能体的深度强化学习算法要求环境是稳定的,而现实的网络环境往往是动态变化的,环境是不稳定的,不利于收敛,同时也会使经验回放等技巧无法直接使用。
因此,在未来网络结构日益密集异构化、资源部署去中心化的边缘网络中,如何设计实现更加动态灵活的分布式计算卸载和资源分配策略具有重要意义。同时,考虑到网络环境的部分可观测性和业务请求的时间依赖性等特征对网络服务编排和算网资源分配的影响,去中心化的MEC场景中的任务卸载和多维资源分配问题具有重要研究价值。
发明内容
针对现有技术存在的不足,本发明提出了一种基于移动边缘计算的任务卸载及资源分配方法,该方法包括:
S1:构建移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建服务缓存模型和服务指派模型;
S3:基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件;
S4:根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题;
S5:采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略。
优选的,步骤S1具体包括:构建移动边缘计算系统模型,包含M个基站BS,基站集合表示为每个基站配备有一个MEC服务器;对于基站/>其下有Nm个用户设备MD,用户集合表示为/>系统在离散的时隙中运行,定义时间集合T={0,1,2,…};对于基站BSm下的一个用户/>在时隙t(t∈T)产生的计算密集型任务定义为/>其中,/>表示任务的数据量大小,/>表示任务的最大容忍时延,/>表示处理单位比特任务所需要的CPU周期数,/>表示处理任务所需的服务类型;基站BSm下所有用户产生的任务表示为
优选的,步骤S2中构建服务缓存模型具体包括:定义服务类型集合为令ak,m(t)∈{0,1}表示在时隙t时BSm中服务k的缓存指示函数,ak,m(t)=1表示在BSm中缓存服务k,否则BSm将不会缓存服务k;基站BSm在t时隙的服务缓存策略集合表示为am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)}。
优选的,步骤S2中构建服务指派模型具体包括:对于任一用户具有四种任务处理方式,不同的任务处理方式具有不同的处理时延;四种任务处理方式分别为:本地计算、卸载到关联BSm进行处理、通过关联基站将卸载的任务转发到其他BS进行处理、卸载到云中心进行处理。
进一步的,用户的任务处理时延表示为:
其中,表示在t时隙时基站BSm下的用户/>的任务处理时延,/>表示用户进行本地计算时的任务处理时延,/>表示任务卸载到关联基站的传输时延,表示关联基站处理任务的时延,Ttr,m(t)表示任务被关联基站进行转发的时延,表示其他基站处理任务的时延,Tm,c(t)表示任务通过关联基站转发到云中心的传输时延,/>表示本地任务处理策略,/>表示任务卸载到关联基站进行处理的策略,表示任务卸载到其他基站进行处理的策略,/>表示任务卸载到云中心进行处理的策略。
优选的,所述任务卸载及资源分配联合优化问题表示为:
其中,T表示系统运行时间,M表示基站数量,表示在t时隙时基站BSm下的用户/>的任务处理时延,a(t)表示基站服务缓存策略,b(t)表示任务卸载策略,α(t)表示频谱资源分配策略,β(t)表示基站算力资源分配策略,Nm表示第m个基站下的用户设备数量,/>表示在t时隙时基站BSm下的用户/>的任务最大容忍时延,/>表示用户的本地任务处理策略,/>表示用户/>的任务卸载到关联基站进行处理的策略,表示用户/>的任务卸载到其他基站进行处理的策略,/>表示用户/>的任务卸载到云中心进行处理的策略,ak,m(t)表示在时隙t时第m个基站BSm关于服务k的缓存指示函数,K表示服务类型数量,lk表示处理任务的服务k所占用的存储空间大小,Rm表示第m个MEC服务器的存储空间大小,/>表示BSm在时隙t分配给/>的频谱资源分配系数,表示BSm在时隙t分配给/>的CPU频率分配系数。
优选的,采用DSRA算法求解任务卸载及资源分配联合优化问题的过程包括:将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程,由基站充当智能体,并构建对应的观测空间、动作空间和奖励函数;每个智能体均具有嵌入LSTM网络的actor网络和critic网络;actor网络根据单个智能体当前的本地观测状态生成相应的动作并根据动作更新奖励函数,进入下一状态;critic网络根据全局的观测状态和动作来估计其他智能体的策略;根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练actor网络和critic网络,更新网络参数,得到训练好的actor网络和critic网络;根据actor网络训练结果得到任务卸载及资源分配策略。
进一步的,所述奖励函数表示为:
其中,rm(t)表示t时隙时基站BSm的奖励值,T表示系统运行时间,M表示基站数量,Nm表示第m个基站下的用户设备数量,表示t时隙时基站BSm下的用户/>的任务处理时延,Ym(t)表示任务处理时延满足时延约束的奖励,Um(t)表示缓存不超过边缘服务器存储容量限制的奖励。
本发明的有益效果为:本发明针对去中心化的MEC场景中的服务编排和算网资源分配问题,以最小化任务处理时延为目标,提出了一种基于移动边缘计算的任务卸载及资源分配方法;考虑到用户业务请求的时间依赖性以及业务请求和服务缓存间的耦合关系,引入了LSTM网络来提取有关业务请求的历史状态信息,使用户通过学习这些历史信息,从而做出更优的决策。通过仿真实验,该方法可以实现更低的时延和更高的缓存命中率,实现了资源的按需分配。
附图说明
图1为本发明中基于移动边缘计算的任务卸载及资源分配方法流程图;
图2为本发明中移动边缘计算系统模型示意图;
图3为本发明中DSRA算法框图;
图4为本发明中DSRA算法和对比算法的平均时延随训练次数迭代的变化过程图;
图5为本发明中DSRA算法和对比算法的平均缓存命中率随训练迭代次数的变化过程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于移动边缘计算的任务卸载及资源分配方法,如图1所示,所述方法包括以下内容:
S1:构建移动边缘计算系统模型。
如图2所示,本发明考虑一种典型的MEC系统,其中,包含M个基站(Base Station,BS),定义基站集合每个BS配置了具有一定计算和存储资源的MEC服务器;在第m个基站/>下有Nm个用户设备MD,定义第m个基站下的用户集合表示为系统在离散的时隙中运行,定义时间集合/>对于BSm下的第i个用户设置/>时隙t/>产生的计算密集型任务定义为其中,/>表示任务的数据量大小,单位为bit;表示任务的最大容忍时延,/>表示处理单位比特任务所需要的CPU周期数;/>表示处理任务所需的服务类型。则BSm下所有用户产生的任务表示为
S2:基于移动边缘计算系统模型构建服务缓存模型和服务指派模型。
构建服务缓存模型具体包括:
在本发明中,服务是指运行各类型任务(如游戏、虚拟/增强现实)所需的特定程序或数据,在任一时隙,只有缓存了相应服务的MEC服务器才能够为MD的卸载任务提供计算服务。假设网络中总共有K种不同类型的服务,定义服务类型集合为令ak,m(t)∈{0,1}表示在时隙t时BSm关于服务k的缓存指示函数,ak,m(t)=1表示在BSm中缓存服务k,否则BSm将不会缓存服务k;基站BSm在t时隙的服务缓存策略集合表示为am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)}。
构建服务指派模型具体包括:
若BSm缓存了处理任务所需服务类型/>则该任务可由BSm处理,否则,任务只能在设备本地或卸载到其他服务器进行处理。对于任一/>具有四种任务处理方式,不同的任务处理方式具有不同的处理时延;四种任务处理方式分别为:1)本地计算;2)卸载到关联BSm进行处理;3)通过关联基站将卸载的任务转发到其他BS进行处理;4)卸载到云中心进行处理。令/>表示在时隙t时,/>的任务卸载策略。其中,/>表示/>的本地任务处理策略,/>表示任务可在本地处理。类似地,/>表示任务卸载到关联基站进行处理的策略,/>表示任务卸载到邻近基站进行处理的策略,/>表示任务卸载到云中心进行处理的策略;时隙t基站BSm下所有用户的任务卸载策略为/>
1)任务在本地计算
2)任务卸载到关联基站进行处理
若的关联基站BSm缓存了服务k,则/>的任务可以通过无线链路卸载到BSm处理,即/>根据香农公式,从/>到BSm的上行链路的传输速率为其中,Bm为BSm的带宽,/>为BSm在时隙t分配给的频谱资源分配系数,满足/>为BSm分配给/>的带宽,则BSm频谱资源分配策略可以表示为/>表示/>的发送功率,/>表示/>与BSm间的信道增益,σ2(t)表示时隙t下的加性高斯白噪声功率。则任务的传输时延为/>
BSm处理任务的时间为其中,fm表示BSm的CPU频率,为BSm在时隙t分配给/>的CPU频率分配系数,满足/> 表示BSm分配给/>的CPU频率,则BSm的算力资源分配策略可以表示为任务的处理结果通常比上传的数据小得多,本发明忽略结果传回的时延。
3)任务迁移到附近基站进行处理
若的关联基站BSm上没有缓存服务k,但其附近的基站BSn(n∈{1,2,…,M}且n≠m)缓存了服务k,则/>的任务可以由关联基站BSm进行转发,迁移到附近的其他基站BSn进行处理,即/>在时隙t,任务从关联基站转发到附近基站的传输速率为其中,ωm为基站m转发任务时的带宽,Pm为基站m的转发功率,Gm,n为基站m与基站n间的信道增益,则任务由关联基站进行转发的时间为:
4)任务卸载到云中心进行处理
综上所述,在t时隙,用户的任务处理时延表示为:
其中,表示在t时隙时基站BSm下的用户/>的任务处理时延,/>表示在t时隙时基站BSm下的用户/>进行本地计算时的任务处理时延,/>表示在t时隙时基站BSm下的用户/>将任务卸载到关联基站的传输时延,/>表示关联基站处理任务的时延,Ttr,m(t)表示任务被关联基站进行转发的时延,/>表示其他基站处理任务的时延,Tm,c(t)表示在t时隙时基站BSm下的用户/>的任务通过关联基站转发到云中心的传输时延。
S3:基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件。
S4:根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题。
受限于服务器的资源(如计算、频谱和存储空间),同时,任务卸载和资源分配相互耦合。鉴于此,本发明以最小化任务的长期处理时延为目标,建立了服务缓存和算网资源分配的联合优化问题,表示为:
其中,T表示系统运行时间,M表示基站数量,表示t时隙的用户/>的任务处理时延,a(t)={a1(t),…,aM(t)}表示基站服务缓存策略,b(t)={b1(t),…,bM(t)}表示任务卸载策略,α(t)={α1(t),…,αM(t)}表示频谱资源分配策略,β(t)={β1(t),…,βM(t)}表示基站算力资源分配策略,Nm表示第m个基站下的用户设备数量,/>表示在t时隙时基站BSm下的用户/>的任务最大容忍时延,/>表示在t时隙时基站BSm下的用户/>的本地任务处理策略,/>表示用户/>的任务卸载到关联基站进行处理的策略,表示用户/>的任务卸载到其他基站进行处理的策略,/>表示用户/>的任务卸载到云中心进行处理的策略,ak,m(t)表示在时隙t时第m个基站BSm关于服务k的缓存指示函数,K表示服务类型数量,lk表示处理任务的服务k所占用的存储空间大小,Rm表示第m个MEC服务器的存储空间的大小,/>表示BSm在时隙t分配给/>的频谱资源分配系数,表示BSm在时隙t分配给/>的CPU频率分配系数。
S5:采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略。
边缘网络环境中,算网资源部署去中心化、网络环境高度动态化以及网络结构日益密集化等特点使得集中式的管理方式不能很好地应对高度动态的去中心化MEC环境,需要设计出更加动态灵活的分布式计算卸载和资源分配策略。多智能体深度强化学习作为一种分布式的DRL算法,可以很好地应用于去中心化MEC环境中的问题求解。鉴于此,本发明设计了一种基于多智能体深度强化学习的分布式智能服务编排和算网资源分配算法(Distributed Service Arrangement and Resource Allocation Algorithm,DSRA),由基站作为智能体来学习任务卸载策略、服务缓存策略以及算网资源分配策略。同时,考虑到用户业务请求的时间依赖性以及业务请求和服务缓存间的耦合关系,利用LSTM网络来提取有关业务请求的历史状态信息,智能体通过学习这些的历史信息,可以更好地理解未来的环境状态,从而做出更优的决策。如图3所示,具体包括以下内容:
将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP),由基站充当智能体,并构建对应的观测空间、动作空间和奖励函数;定义元组描述上述马尔科夫博弈过程,其中/>表示全局的状态空间,时隙t的环境为全局状态/> 为智能体的观测空间集合,/>是全局的动作空间集合,/>为奖励集合。在时隙t,智能体m根据本地观测/>采取策略/>选择对应的动作从而获得相应的奖励/>
1)环境状态
时隙t,智能体可以接收到其覆盖范围内移动设备的详细任务信息,包括任务的数据量大小、最大容忍时延,处理单位比特任务所需要的CPU周期数以及所需服务类型。环境状态可定义为s(t)={d1,d2,…,dM,P1,P2,…,PM,f1,f2,…,fM,B1,B2,…,BM,G1,G2,…,GM},其中,表示BSm下所有用户产生的任务,fm表示BSm的CPU频率,为BSm下所有用户的发送功率集合,/>为BSm下所有用户与BSm间的信道增益集合。时隙t,智能体m观测到的环境状态/>定义如下:
2)动作空间
a1,m(t),a2,m(t),…,aK,m(t)}
将二进制变量ak,m(t),和/>松弛为实值变量和/>a′k,m(t)>0.5表示BSm中缓存服务k,否则BSm将不会缓存服务k。对于/>和任务将选择其中最大值对应的卸载模式进行计算卸载。根据动作空间的定义和am(t)中每个元素的取值范围,可知动作空间/>是个连续的集合。
3)奖励函数
奖励函数衡量智能体在给定状态下采取某一动作所带来的效果。在训练过程中,智能体在t-1时隙采取了某一动作,对应的奖励将会在t时隙返回给智能体。根据所获得的奖励,智能体会更新其策略来获得最优的结果。由于奖励导致每个智能体达到其最优策略,并且策略直接决定对应的MEC服务器的算网资源分配策略、计算卸载策略和服务缓存策略,因此奖励函数应根据原始优化问题进行设计。本发明构建的奖励函数包含三部分:第一部分是任务处理时间的奖励,第二部分是任务处理时延满足时延约束的奖励,即第三部分是缓存不超过边缘服务器存储容量限制的奖励,即/>优化目标是最小化任务的长期处理时延,最大化长期回报,所以智能体m的累计奖励应为:
其中,H(·)是Heaviside阶跃函数;λ1,λ2分别表示第一、第二权重系数,Ym(t)表示任务处理时延满足时延约束的奖励,Um(t)表示缓存不超过边缘服务器存储容量限制的奖励。
每个基站均具有嵌入LSTM网络的actor网络和critic网络,actor网络和critic网络均包括当前网络和目标网络。DSRA算法的框架由环境和M个智能体即基站组成,每个智能体有集中训练阶段和分散执行阶段。训练时,采用集中式学习来训练critic网络和actor网络,critic网络训练时需要使用其他智能体的状态信息。分布式执行时,actor网络只需知道局部信息。即每个智能体在训练过程中会利用全局状态和动作来估计其他智能体的策略,并根据其他智能体的估计策略来调整局部策略,以达到全局最优。多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)能很好地处理环境完全可观测的情况,而真实的环境状态往往是部分可观测的,为了应对环境的部分可观测性和业务请求的时间依赖性,本发明将长短期记忆网络LSTM加入到actor网络和critic网络中。LSTM是一种循环神经网络,可以提取到有关业务请求的历史状态信息。智能体通过学习这些历史信息,可以更好地理解未来的状态,做出更优的决策。
actor网络根据单个智能体当前的本地观测状态生成相应的动作;具体的:actor网络根据本地观测状态获取当前任务卸载和资源分配策略,根据任务卸载和资源分配策略可从动作空间中生成相应的动作;智能体进入下一状态。
根据动作更新奖励函数;根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练actor网络和critic网络,更新网络参数,得到训练好的actor网络。具体的:在训练过程中,令和/>分别表示采取动作前后actor网络和critic网络有关业务请求的历史信息,并利用来自经验回放存储器D中的经验来迭代更新DSRA算法。智能体m的经验回放存储器D包含一组经验元组,/>其中om(t)表示t时隙智能体m的观测状态,am(t)表示t时隙智能体m基于当前观测om(t)所采取的动作,rm(t)表示t时隙智能体m采取动作am(t)后获得的奖励,o′m(t+1)表示智能体m在t+1时隙的状态,/>表示t时隙actor网络有关业务请求的历史信息,/>表示t时隙critic网络有关业务请求的历史信息,/>表示t+1时隙actor网络有关业务请求的历史信息,表示t+1时隙critic网络有关业务请求的历史信息。
Q函数从全局的角度来评估actor网络的动作,并且指导actor网络选择更优的动作。在训练时,critic网络通过最小化损失函数来更新网络参数,损失函数定义如下:
actor网络训练好后,根据actor网络做出的动作可以得到在时间周期T内的任务卸载、服务缓存及资源分配策略。根据任务卸载及资源分配策略进行任务卸载,可使得在满足各种约束的前提下任务的总处理时延最小。
对本发明进行评价:
将本发明与多智能体深度确定性策略梯度算法MADDPG(Multi-agent DeepDeterministic Policy Gradient)、单智能体深度确定性梯度算法SADDPG(Single agentDeep Deterministic Policy Gradient)以及基于LSTM的单智能体深度确定性梯度算法TADPG进行对比。如图4所示,可以看出,随着训练次数episode的增加,任务的平均处理时延在不断地减小,并逐渐趋于稳定,最终达到收敛,DSRA算法的时延最小,表明DSRA算法可以做出更优的卸载和算网资源分配决策,从而获得更小的时延,实现了资源的按需分配,证明了该算法的有效性。从图5可以看出,随着episode的增加,缓存命中率曲线呈上升趋势,并最终达到收敛,且DSRA的缓存命中率最大,证明了该算法的有效性。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,包括:
S1:构建移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建服务缓存模型和服务指派模型;
S3:基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件;
S4:根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题;
S5:采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略。
6.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,所述任务卸载及资源分配联合优化问题表示为:
其中,T表示系统运行时间,M表示基站数量,表示在t时隙时基站BSm下的用户的任务处理时延,a(t)表示基站服务缓存策略,b(t)表示任务卸载策略,α(t)表示频谱资源分配策略,β(t)表示基站算力资源分配策略,Nm表示第m个基站下的用户设备数量,表示在t时隙时基站BSm下的用户/>的任务最大容忍时延,/>表示用户/>的本地任务处理策略,/>表示用户/>的任务卸载到关联基站进行处理的策略,/>表示用户/>的任务卸载到其他基站进行处理的策略,/>表示用户/>的任务卸载到云中心进行处理的策略,ak,m(t)表示在时隙t时第m个基站BSm关于服务k的缓存指示函数,K表示服务类型数量,lk表示处理任务的服务k所占用的存储空间大小,Rm表示第m个MEC服务器的存储空间大小,/>表示BSm在时隙t分配给/>的频谱资源分配系数,/>表示BSm在时隙t分配给/>的CPU频率分配系数。
7.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,采用DSRA算法求解任务卸载及资源分配联合优化问题的过程包括:将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程,由基站充当智能体,并构建对应的观测空间、动作空间和奖励函数;每个智能体均具有嵌入LSTM网络的actor网络和critic网络;actor网络根据单个智能体当前的本地观测状态生成相应的动作并根据动作更新奖励函数,进入下一状态;critic网络根据全局的观测状态和动作来估计其他智能体的策略;根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练actor网络和critic网络,更新网络参数,得到训练好的actor网络和critic网络;根据actor网络训练结果得到任务卸载及资源分配策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138344.8A CN116137724A (zh) | 2023-02-20 | 2023-02-20 | 一种基于移动边缘计算的任务卸载及资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138344.8A CN116137724A (zh) | 2023-02-20 | 2023-02-20 | 一种基于移动边缘计算的任务卸载及资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116137724A true CN116137724A (zh) | 2023-05-19 |
Family
ID=86333467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310138344.8A Pending CN116137724A (zh) | 2023-02-20 | 2023-02-20 | 一种基于移动边缘计算的任务卸载及资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116137724A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116743584A (zh) * | 2023-08-09 | 2023-09-12 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
-
2023
- 2023-02-20 CN CN202310138344.8A patent/CN116137724A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116743584A (zh) * | 2023-08-09 | 2023-09-12 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN116743584B (zh) * | 2023-08-09 | 2023-10-27 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qin et al. | Collaborative edge computing and caching in vehicular networks | |
CN114340016A (zh) | 一种电网边缘计算卸载分配方法及系统 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
CN116233926A (zh) | 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法 | |
CN116489712B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN115344395B (zh) | 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统 | |
CN116566838A (zh) | 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法 | |
CN115134242B (zh) | 一种基于深度强化学习策略的车载计算任务卸载方法 | |
CN115827108A (zh) | 基于多目标深度强化学习的无人机边缘计算卸载方法 | |
CN116137724A (zh) | 一种基于移动边缘计算的任务卸载及资源分配方法 | |
CN113973113B (zh) | 一种面向移动边缘计算的分布式服务迁移方法 | |
CN114626298A (zh) | 无人机辅助车联网中高效缓存和任务卸载的状态更新方法 | |
CN116321293A (zh) | 基于多智能体强化学习的边缘计算卸载和资源分配方法 | |
Zhang et al. | Computation offloading and resource allocation in F-RANs: A federated deep reinforcement learning approach | |
CN116367231A (zh) | 基于ddpg算法的边缘计算车联网资源管理联合优化方法 | |
Hossain et al. | Edge orchestration based computation peer offloading in MEC-enabled networks: a fuzzy logic approach | |
CN116405493A (zh) | 一种基于mogwo策略的边缘云协同任务卸载方法 | |
CN114928893B (zh) | 一种基于智能反射面的架构及任务卸载方法 | |
CN114640966B (zh) | 一种车联网中基于移动边缘计算的任务卸载方法 | |
CN116321181A (zh) | 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 | |
CN116112488A (zh) | 一种面向mec网络的细粒度任务卸载及资源分配方法 | |
CN114928826A (zh) | 一种软件定义车载任务卸载与资源分配的二阶段优化方法、控制器及决策方法 | |
CN117834643B (zh) | 一种面向工业物联网的深度神经网络协同推理方法 | |
CN117573383B (zh) | 一种基于分布式多智能体自主决策的无人机资源管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |