CN116137724A - 一种基于移动边缘计算的任务卸载及资源分配方法 - Google Patents

一种基于移动边缘计算的任务卸载及资源分配方法 Download PDF

Info

Publication number
CN116137724A
CN116137724A CN202310138344.8A CN202310138344A CN116137724A CN 116137724 A CN116137724 A CN 116137724A CN 202310138344 A CN202310138344 A CN 202310138344A CN 116137724 A CN116137724 A CN 116137724A
Authority
CN
China
Prior art keywords
task
base station
resource allocation
representing
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310138344.8A
Other languages
English (en)
Inventor
李云
高倩
姚枝秀
夏士超
梁吉申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310138344.8A priority Critical patent/CN116137724A/zh
Publication of CN116137724A publication Critical patent/CN116137724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,具体涉及一种基于移动边缘计算的任务卸载及资源分配方法;该方法包括:构建移动边缘计算系统模型;基于移动边缘计算系统模型构建服务缓存模型和服务指派模型;基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件;根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题;采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略;本发明可实现低时延和高缓存命中率,实现资源的按需分配。

Description

一种基于移动边缘计算的任务卸载及资源分配方法
技术领域
本发明属于无线通信技术领域,具体涉及一种基于移动边缘计算的任务卸载及资源分配方法。
背景技术
随着物联网的快速发展和智能移动设备(Mobile Device,MD)的爆炸式增长,以大数据和智能化为特点的新型应用不断涌现(如在线游戏、虚拟现实(VR)、增强现实(AR)、远程医疗等),且这些应用业务通常具有计算密集和时延敏感的特征。然而,受限于移动设备体积、计算能力、存储能力和电池电量等,MDs在处理高能耗、高复杂度的计算任务时,通常存在算力不足、时延大、续航能力低等问题。移动边缘计算(Mobile Edge Computing,MEC)作为一种先进的计算方式被提出,以实现网络边缘的超大容量、超低时延、超高带宽和低能耗数据处理愿景。MEC通过将云中心的算力、存储等资源下沉到网络边缘,并驱动用户将计算任务卸载到网络边缘,以享受高性能的计算服务体验。
深度强化学习(Deep Reinforcement Learning,DRL)结合了深度学习的感知能力和强化学习的决策能力,可以有效处理MEC系统中的各种决策问题。例如,现有技术中一种车辆多接入边缘计算中计算深度强化学习的资源管理方法研究了MEC车载网络中频谱、计算和存储资源的联合分配问题,利用DDPG和分层学习,实现资源的快速分配,满足了车辆应用的服务质量要求。一种缓存辅助的移动边缘计算系统中基于深度强化学习的动态计算卸载和资源分配方法研究了缓存辅助的MEC系统中的动态缓存、计算卸载和资源分配问题,提出了一种基于DRL的智能动态调度策略。然而,上述方法都采用单智能体的深度强化学习算法,单智能体的深度强化学习算法要求环境是稳定的,而现实的网络环境往往是动态变化的,环境是不稳定的,不利于收敛,同时也会使经验回放等技巧无法直接使用。
因此,在未来网络结构日益密集异构化、资源部署去中心化的边缘网络中,如何设计实现更加动态灵活的分布式计算卸载和资源分配策略具有重要意义。同时,考虑到网络环境的部分可观测性和业务请求的时间依赖性等特征对网络服务编排和算网资源分配的影响,去中心化的MEC场景中的任务卸载和多维资源分配问题具有重要研究价值。
发明内容
针对现有技术存在的不足,本发明提出了一种基于移动边缘计算的任务卸载及资源分配方法,该方法包括:
S1:构建移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建服务缓存模型和服务指派模型;
S3:基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件;
S4:根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题;
S5:采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略。
优选的,步骤S1具体包括:构建移动边缘计算系统模型,包含M个基站BS,基站集合表示为
Figure BDA0004086753310000021
每个基站配备有一个MEC服务器;对于基站/>
Figure BDA0004086753310000022
其下有Nm个用户设备MD,用户集合表示为/>
Figure BDA0004086753310000023
系统在离散的时隙中运行,定义时间集合T={0,1,2,…};对于基站BSm下的一个用户/>
Figure BDA0004086753310000024
在时隙t(t∈T)产生的计算密集型任务定义为/>
Figure BDA0004086753310000025
其中,/>
Figure BDA0004086753310000026
表示任务的数据量大小,/>
Figure BDA0004086753310000027
表示任务的最大容忍时延,/>
Figure BDA0004086753310000031
表示处理单位比特任务所需要的CPU周期数,/>
Figure BDA0004086753310000032
表示处理任务所需的服务类型;基站BSm下所有用户产生的任务表示为
Figure BDA0004086753310000033
优选的,步骤S2中构建服务缓存模型具体包括:定义服务类型集合为
Figure BDA0004086753310000034
令ak,m(t)∈{0,1}表示在时隙t时BSm中服务k的缓存指示函数,ak,m(t)=1表示在BSm中缓存服务k,否则BSm将不会缓存服务k;基站BSm在t时隙的服务缓存策略集合表示为am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)}。
优选的,步骤S2中构建服务指派模型具体包括:对于任一用户
Figure BDA0004086753310000035
具有四种任务处理方式,不同的任务处理方式具有不同的处理时延;四种任务处理方式分别为:本地计算、卸载到关联BSm进行处理、通过关联基站将卸载的任务转发到其他BS进行处理、卸载到云中心进行处理。
进一步的,用户的任务处理时延表示为:
Figure BDA0004086753310000036
其中,
Figure BDA0004086753310000037
表示在t时隙时基站BSm下的用户/>
Figure BDA0004086753310000038
的任务处理时延,/>
Figure BDA0004086753310000039
表示用户进行本地计算时的任务处理时延,/>
Figure BDA00040867533100000310
表示任务卸载到关联基站的传输时延,
Figure BDA00040867533100000311
表示关联基站处理任务的时延,Ttr,m(t)表示任务被关联基站进行转发的时延,
Figure BDA00040867533100000312
表示其他基站处理任务的时延,Tm,c(t)表示任务通过关联基站转发到云中心的传输时延,/>
Figure BDA00040867533100000313
表示本地任务处理策略,/>
Figure BDA00040867533100000314
表示任务卸载到关联基站进行处理的策略,
Figure BDA00040867533100000315
表示任务卸载到其他基站进行处理的策略,/>
Figure BDA00040867533100000316
表示任务卸载到云中心进行处理的策略。
优选的,所述任务卸载及资源分配联合优化问题表示为:
Figure BDA0004086753310000041
其中,T表示系统运行时间,M表示基站数量,
Figure BDA0004086753310000042
表示在t时隙时基站BSm下的用户/>
Figure BDA0004086753310000043
的任务处理时延,a(t)表示基站服务缓存策略,b(t)表示任务卸载策略,α(t)表示频谱资源分配策略,β(t)表示基站算力资源分配策略,Nm表示第m个基站下的用户设备数量,/>
Figure BDA0004086753310000044
表示在t时隙时基站BSm下的用户/>
Figure BDA0004086753310000045
的任务最大容忍时延,/>
Figure BDA0004086753310000046
表示用户
Figure BDA0004086753310000047
的本地任务处理策略,/>
Figure BDA0004086753310000048
表示用户/>
Figure BDA0004086753310000049
的任务卸载到关联基站进行处理的策略,
Figure BDA00040867533100000410
表示用户/>
Figure BDA00040867533100000411
的任务卸载到其他基站进行处理的策略,/>
Figure BDA00040867533100000412
表示用户/>
Figure BDA00040867533100000413
的任务卸载到云中心进行处理的策略,ak,m(t)表示在时隙t时第m个基站BSm关于服务k的缓存指示函数,K表示服务类型数量,lk表示处理任务的服务k所占用的存储空间大小,Rm表示第m个MEC服务器的存储空间大小,/>
Figure BDA00040867533100000415
表示BSm在时隙t分配给/>
Figure BDA00040867533100000416
的频谱资源分配系数,
Figure BDA00040867533100000417
表示BSm在时隙t分配给/>
Figure BDA00040867533100000418
的CPU频率分配系数。
优选的,采用DSRA算法求解任务卸载及资源分配联合优化问题的过程包括:将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程,由基站充当智能体,并构建对应的观测空间、动作空间和奖励函数;每个智能体均具有嵌入LSTM网络的actor网络和critic网络;actor网络根据单个智能体当前的本地观测状态生成相应的动作并根据动作更新奖励函数,进入下一状态;critic网络根据全局的观测状态和动作来估计其他智能体的策略;根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练actor网络和critic网络,更新网络参数,得到训练好的actor网络和critic网络;根据actor网络训练结果得到任务卸载及资源分配策略。
进一步的,所述奖励函数表示为:
Figure BDA0004086753310000051
其中,rm(t)表示t时隙时基站BSm的奖励值,T表示系统运行时间,M表示基站数量,Nm表示第m个基站下的用户设备数量,
Figure BDA0004086753310000052
表示t时隙时基站BSm下的用户/>
Figure BDA0004086753310000053
的任务处理时延,Ym(t)表示任务处理时延满足时延约束的奖励,Um(t)表示缓存不超过边缘服务器存储容量限制的奖励。
本发明的有益效果为:本发明针对去中心化的MEC场景中的服务编排和算网资源分配问题,以最小化任务处理时延为目标,提出了一种基于移动边缘计算的任务卸载及资源分配方法;考虑到用户业务请求的时间依赖性以及业务请求和服务缓存间的耦合关系,引入了LSTM网络来提取有关业务请求的历史状态信息,使用户通过学习这些历史信息,从而做出更优的决策。通过仿真实验,该方法可以实现更低的时延和更高的缓存命中率,实现了资源的按需分配。
附图说明
图1为本发明中基于移动边缘计算的任务卸载及资源分配方法流程图;
图2为本发明中移动边缘计算系统模型示意图;
图3为本发明中DSRA算法框图;
图4为本发明中DSRA算法和对比算法的平均时延随训练次数迭代的变化过程图;
图5为本发明中DSRA算法和对比算法的平均缓存命中率随训练迭代次数的变化过程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于移动边缘计算的任务卸载及资源分配方法,如图1所示,所述方法包括以下内容:
S1:构建移动边缘计算系统模型。
如图2所示,本发明考虑一种典型的MEC系统,其中,包含M个基站(Base Station,BS),定义基站集合
Figure BDA0004086753310000061
每个BS配置了具有一定计算和存储资源的MEC服务器;在第m个基站/>
Figure BDA0004086753310000062
下有Nm个用户设备MD,定义第m个基站下的用户集合表示为
Figure BDA0004086753310000063
系统在离散的时隙中运行,定义时间集合/>
Figure BDA0004086753310000064
对于BSm下的第i个用户设置/>
Figure BDA0004086753310000065
时隙t/>
Figure BDA0004086753310000066
产生的计算密集型任务定义为
Figure BDA0004086753310000067
其中,/>
Figure BDA0004086753310000068
表示任务的数据量大小,单位为bit;
Figure BDA0004086753310000069
表示任务的最大容忍时延,/>
Figure BDA00040867533100000610
表示处理单位比特任务所需要的CPU周期数;/>
Figure BDA00040867533100000611
表示处理任务所需的服务类型。则BSm下所有用户产生的任务表示为
Figure BDA00040867533100000612
S2:基于移动边缘计算系统模型构建服务缓存模型和服务指派模型。
构建服务缓存模型具体包括:
在本发明中,服务是指运行各类型任务(如游戏、虚拟/增强现实)所需的特定程序或数据,在任一时隙,只有缓存了相应服务的MEC服务器才能够为MD的卸载任务提供计算服务。假设网络中总共有K种不同类型的服务,定义服务类型集合为
Figure BDA00040867533100000613
令ak,m(t)∈{0,1}表示在时隙t时BSm关于服务k的缓存指示函数,ak,m(t)=1表示在BSm中缓存服务k,否则BSm将不会缓存服务k;基站BSm在t时隙的服务缓存策略集合表示为am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)}。
构建服务指派模型具体包括:
若BSm缓存了处理
Figure BDA0004086753310000071
任务所需服务类型/>
Figure BDA0004086753310000072
则该任务可由BSm处理,否则,任务只能在设备本地或卸载到其他服务器进行处理。对于任一/>
Figure BDA0004086753310000073
具有四种任务处理方式,不同的任务处理方式具有不同的处理时延;四种任务处理方式分别为:1)本地计算;2)卸载到关联BSm进行处理;3)通过关联基站将卸载的任务转发到其他BS进行处理;4)卸载到云中心进行处理。令/>
Figure BDA0004086753310000074
表示在时隙t时,/>
Figure BDA0004086753310000075
的任务卸载策略。其中,/>
Figure BDA0004086753310000076
表示/>
Figure BDA0004086753310000077
的本地任务处理策略,/>
Figure BDA0004086753310000078
表示任务可在本地处理。类似地,/>
Figure BDA0004086753310000079
表示任务卸载到关联基站进行处理的策略,/>
Figure BDA00040867533100000710
表示任务卸载到邻近基站进行处理的策略,/>
Figure BDA00040867533100000711
表示任务卸载到云中心进行处理的策略;时隙t基站BSm下所有用户的任务卸载策略为/>
Figure BDA00040867533100000712
1)任务在本地计算
当任务在本地进行处理时,即
Figure BDA00040867533100000713
令/>
Figure BDA00040867533100000714
表示/>
Figure BDA00040867533100000715
的本地CPU频率,则任务在本地的处理时间可表示为/>
Figure BDA00040867533100000716
Figure BDA00040867533100000717
表示任务的数据量大小,单位为bit,/>
Figure BDA00040867533100000718
表示处理单位比特任务所需要的CPU周期数。
2)任务卸载到关联基站进行处理
Figure BDA00040867533100000719
的关联基站BSm缓存了服务k,则/>
Figure BDA00040867533100000720
的任务可以通过无线链路卸载到BSm处理,即/>
Figure BDA00040867533100000721
根据香农公式,从/>
Figure BDA00040867533100000722
到BSm的上行链路的传输速率为
Figure BDA00040867533100000723
其中,Bm为BSm的带宽,/>
Figure BDA00040867533100000724
为BSm在时隙t分配给
Figure BDA00040867533100000725
的频谱资源分配系数,满足/>
Figure BDA00040867533100000726
为BSm分配给/>
Figure BDA0004086753310000081
的带宽,则BSm频谱资源分配策略可以表示为/>
Figure BDA0004086753310000082
表示/>
Figure BDA0004086753310000083
的发送功率,/>
Figure BDA0004086753310000084
表示/>
Figure BDA0004086753310000085
与BSm间的信道增益,σ2(t)表示时隙t下的加性高斯白噪声功率。则任务的传输时延为/>
Figure BDA0004086753310000086
BSm处理任务的时间为
Figure BDA0004086753310000087
其中,fm表示BSm的CPU频率,
Figure BDA0004086753310000088
为BSm在时隙t分配给/>
Figure BDA0004086753310000089
的CPU频率分配系数,满足/>
Figure BDA00040867533100000810
Figure BDA00040867533100000811
表示BSm分配给/>
Figure BDA00040867533100000812
的CPU频率,则BSm的算力资源分配策略可以表示为
Figure BDA00040867533100000813
任务的处理结果通常比上传的数据小得多,本发明忽略结果传回的时延。
由上述分析可知,
Figure BDA00040867533100000814
的任务卸载到关联基站BSm进行处理的时延为
Figure BDA00040867533100000815
3)任务迁移到附近基站进行处理
Figure BDA00040867533100000816
的关联基站BSm上没有缓存服务k,但其附近的基站BSn(n∈{1,2,…,M}且n≠m)缓存了服务k,则/>
Figure BDA00040867533100000817
的任务可以由关联基站BSm进行转发,迁移到附近的其他基站BSn进行处理,即/>
Figure BDA00040867533100000818
在时隙t,任务从关联基站转发到附近基站的传输速率为
Figure BDA00040867533100000819
其中,ωm为基站m转发任务时的带宽,Pm为基站m的转发功率,Gm,n为基站m与基站n间的信道增益,则任务由关联基站进行转发的时间为:
Figure BDA00040867533100000820
由上述分析可知,BSn处理任务的时间为
Figure BDA00040867533100000821
因此,任务转发到BSn处理的计算卸载时延为/>
Figure BDA00040867533100000822
4)任务卸载到云中心进行处理
Figure BDA0004086753310000091
的关联基站BSm没有缓存处理该任务的相关服务,则该任务也可由关联基站BSm转发到云中心进行处理,即/>
Figure BDA0004086753310000092
云中心具有丰富的计算资源和存储资源,本发明忽略云中心的任务处理时间和结果传回时间。
Figure BDA0004086753310000093
的任务通过关联基站BSm转发到云中心的计算卸载时间为
Figure BDA0004086753310000094
其中,rm,c(t)为BSm把任务转发到云中心的传输速率。任务卸载到云中心进行处理的时延为/>
Figure BDA0004086753310000095
/>
综上所述,在t时隙,用户的任务处理时延表示为:
Figure BDA0004086753310000096
其中,
Figure BDA0004086753310000097
表示在t时隙时基站BSm下的用户/>
Figure BDA0004086753310000098
的任务处理时延,/>
Figure BDA0004086753310000099
表示在t时隙时基站BSm下的用户/>
Figure BDA00040867533100000910
进行本地计算时的任务处理时延,/>
Figure BDA00040867533100000911
表示在t时隙时基站BSm下的用户/>
Figure BDA00040867533100000912
将任务卸载到关联基站的传输时延,/>
Figure BDA00040867533100000913
表示关联基站处理任务的时延,Ttr,m(t)表示任务被关联基站进行转发的时延,/>
Figure BDA00040867533100000914
表示其他基站处理任务的时延,Tm,c(t)表示在t时隙时基站BSm下的用户/>
Figure BDA00040867533100000915
的任务通过关联基站转发到云中心的传输时延。
S3:基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件。
MEC服务器的存储空间有限,缓存的服务所占据存储空间不能超过MEC服务器的存储容量。定义第m个MEC服务器MECm的存储空间的大小为Rm,则有
Figure BDA00040867533100000916
其中lk表示处理该任务的服务所占用的存储空间的大小。
在时隙t,满足
Figure BDA00040867533100000917
任务的处理时延不能超过最大容忍时延:
Figure BDA0004086753310000101
分配的频谱资源总和应不大于基站带宽:
Figure BDA0004086753310000102
分配的计算资源总和应不大于基站计算资源:
Figure BDA0004086753310000103
S4:根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题。
受限于服务器的资源(如计算、频谱和存储空间),同时,任务卸载和资源分配相互耦合。鉴于此,本发明以最小化任务的长期处理时延为目标,建立了服务缓存和算网资源分配的联合优化问题,表示为:
Figure BDA0004086753310000104
其中,T表示系统运行时间,M表示基站数量,
Figure BDA0004086753310000105
表示t时隙的用户/>
Figure BDA0004086753310000106
的任务处理时延,a(t)={a1(t),…,aM(t)}表示基站服务缓存策略,b(t)={b1(t),…,bM(t)}表示任务卸载策略,α(t)={α1(t),…,αM(t)}表示频谱资源分配策略,β(t)={β1(t),…,βM(t)}表示基站算力资源分配策略,Nm表示第m个基站下的用户设备数量,/>
Figure BDA0004086753310000107
表示在t时隙时基站BSm下的用户/>
Figure BDA0004086753310000108
的任务最大容忍时延,/>
Figure BDA0004086753310000109
表示在t时隙时基站BSm下的用户/>
Figure BDA00040867533100001010
的本地任务处理策略,/>
Figure BDA00040867533100001011
表示用户/>
Figure BDA00040867533100001012
的任务卸载到关联基站进行处理的策略,
Figure BDA00040867533100001013
表示用户/>
Figure BDA00040867533100001014
的任务卸载到其他基站进行处理的策略,/>
Figure BDA00040867533100001015
表示用户/>
Figure BDA00040867533100001016
的任务卸载到云中心进行处理的策略,ak,m(t)表示在时隙t时第m个基站BSm关于服务k的缓存指示函数,K表示服务类型数量,lk表示处理任务的服务k所占用的存储空间大小,Rm表示第m个MEC服务器的存储空间的大小,/>
Figure BDA0004086753310000111
表示BSm在时隙t分配给/>
Figure BDA0004086753310000112
的频谱资源分配系数,
Figure BDA0004086753310000113
表示BSm在时隙t分配给/>
Figure BDA0004086753310000114
的CPU频率分配系数。
S5:采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略。
边缘网络环境中,算网资源部署去中心化、网络环境高度动态化以及网络结构日益密集化等特点使得集中式的管理方式不能很好地应对高度动态的去中心化MEC环境,需要设计出更加动态灵活的分布式计算卸载和资源分配策略。多智能体深度强化学习作为一种分布式的DRL算法,可以很好地应用于去中心化MEC环境中的问题求解。鉴于此,本发明设计了一种基于多智能体深度强化学习的分布式智能服务编排和算网资源分配算法(Distributed Service Arrangement and Resource Allocation Algorithm,DSRA),由基站作为智能体来学习任务卸载策略、服务缓存策略以及算网资源分配策略。同时,考虑到用户业务请求的时间依赖性以及业务请求和服务缓存间的耦合关系,利用LSTM网络来提取有关业务请求的历史状态信息,智能体通过学习这些的历史信息,可以更好地理解未来的环境状态,从而做出更优的决策。如图3所示,具体包括以下内容:
将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP),由基站充当智能体,并构建对应的观测空间、动作空间和奖励函数;定义元组
Figure BDA0004086753310000115
描述上述马尔科夫博弈过程,其中/>
Figure BDA00040867533100001114
表示全局的状态空间,时隙t的环境为全局状态/>
Figure BDA0004086753310000116
Figure BDA0004086753310000117
为智能体的观测空间集合,/>
Figure BDA0004086753310000118
是全局的动作空间集合,/>
Figure BDA0004086753310000119
为奖励集合。在时隙t,智能体m根据本地观测/>
Figure BDA00040867533100001110
采取策略/>
Figure BDA00040867533100001111
选择对应的动作
Figure BDA00040867533100001112
从而获得相应的奖励/>
Figure BDA00040867533100001113
1)环境状态
时隙t,智能体可以接收到其覆盖范围内移动设备的详细任务信息,包括任务的数据量大小、最大容忍时延,处理单位比特任务所需要的CPU周期数以及所需服务类型。环境状态可定义为s(t)={d1,d2,…,dM,P1,P2,…,PM,f1,f2,…,fM,B1,B2,…,BM,G1,G2,…,GM},其中,
Figure BDA00040867533100001213
表示BSm下所有用户产生的任务,fm表示BSm的CPU频率,
Figure BDA0004086753310000121
为BSm下所有用户的发送功率集合,/>
Figure BDA0004086753310000122
为BSm下所有用户与BSm间的信道增益集合。时隙t,智能体m观测到的环境状态/>
Figure BDA0004086753310000123
定义如下:
Figure BDA0004086753310000124
2)动作空间
智能体m根据观察到的环境状态om(t)和当前的策略πm,从动作空间选择相应的动作,时隙t,智能体m的动作
Figure BDA0004086753310000125
定义如下:
Figure BDA0004086753310000126
a1,m(t),a2,m(t),…,aK,m(t)}
将二进制变量ak,m(t),
Figure BDA0004086753310000127
和/>
Figure BDA0004086753310000128
松弛为实值变量
Figure BDA0004086753310000129
和/>
Figure BDA00040867533100001210
a′k,m(t)>0.5表示BSm中缓存服务k,否则BSm将不会缓存服务k。对于/>
Figure BDA00040867533100001211
Figure BDA00040867533100001212
任务将选择其中最大值对应的卸载模式进行计算卸载。根据动作空间的定义和am(t)中每个元素的取值范围,可知动作空间/>
Figure BDA0004086753310000131
是个连续的集合。
3)奖励函数
奖励函数衡量智能体在给定状态下采取某一动作所带来的效果。在训练过程中,智能体在t-1时隙采取了某一动作,对应的奖励将会在t时隙返回给智能体。根据所获得的奖励,智能体会更新其策略来获得最优的结果。由于奖励导致每个智能体达到其最优策略,并且策略直接决定对应的MEC服务器的算网资源分配策略、计算卸载策略和服务缓存策略,因此奖励函数应根据原始优化问题进行设计。本发明构建的奖励函数包含三部分:第一部分是任务处理时间的奖励,第二部分是任务处理时延满足时延约束的奖励,即
Figure BDA0004086753310000132
第三部分是缓存不超过边缘服务器存储容量限制的奖励,即/>
Figure BDA0004086753310000133
优化目标是最小化任务的长期处理时延,最大化长期回报,所以智能体m的累计奖励应为:
Figure BDA0004086753310000134
其中,H(·)是Heaviside阶跃函数;λ1,λ2分别表示第一、第二权重系数,Ym(t)表示任务处理时延满足时延约束的奖励,Um(t)表示缓存不超过边缘服务器存储容量限制的奖励。
每个基站均具有嵌入LSTM网络的actor网络和critic网络,actor网络和critic网络均包括当前网络和目标网络。DSRA算法的框架由环境和M个智能体即基站组成,每个智能体有集中训练阶段和分散执行阶段。训练时,采用集中式学习来训练critic网络和actor网络,critic网络训练时需要使用其他智能体的状态信息。分布式执行时,actor网络只需知道局部信息。即每个智能体在训练过程中会利用全局状态和动作来估计其他智能体的策略,并根据其他智能体的估计策略来调整局部策略,以达到全局最优。多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)能很好地处理环境完全可观测的情况,而真实的环境状态往往是部分可观测的,为了应对环境的部分可观测性和业务请求的时间依赖性,本发明将长短期记忆网络LSTM加入到actor网络和critic网络中。LSTM是一种循环神经网络,可以提取到有关业务请求的历史状态信息。智能体通过学习这些历史信息,可以更好地理解未来的状态,做出更优的决策。
actor网络根据单个智能体当前的本地观测状态生成相应的动作;具体的:actor网络根据本地观测状态获取当前任务卸载和资源分配策略,根据任务卸载和资源分配策略可从动作空间中生成相应的动作;智能体进入下一状态。
根据动作更新奖励函数;根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练actor网络和critic网络,更新网络参数,得到训练好的actor网络。具体的:在训练过程中,令
Figure BDA0004086753310000141
和/>
Figure BDA0004086753310000142
分别表示采取动作前后actor网络和critic网络有关业务请求的历史信息,并利用来自经验回放存储器D中的经验来迭代更新DSRA算法。智能体m的经验回放存储器D包含一组经验元组,/>
Figure BDA0004086753310000143
其中om(t)表示t时隙智能体m的观测状态,am(t)表示t时隙智能体m基于当前观测om(t)所采取的动作,rm(t)表示t时隙智能体m采取动作am(t)后获得的奖励,o′m(t+1)表示智能体m在t+1时隙的状态,/>
Figure BDA0004086753310000144
表示t时隙actor网络有关业务请求的历史信息,/>
Figure BDA0004086753310000145
表示t时隙critic网络有关业务请求的历史信息,/>
Figure BDA0004086753310000146
表示t+1时隙actor网络有关业务请求的历史信息,
Figure BDA0004086753310000147
表示t+1时隙critic网络有关业务请求的历史信息。
在分散执行阶段,时隙t,每个智能体的actor网络根据本地观测状态om(t)、当前的历史状态信息
Figure BDA0004086753310000148
以及它自身的策略/>
Figure BDA0004086753310000149
选择动作
Figure BDA00040867533100001410
在集中训练阶段,每个critic网络可获得其他智能体的观测om(t)和动作am(t),则智能体m的Q函数可表示为
Figure BDA00040867533100001411
Q函数从全局的角度来评估actor网络的动作,并且指导actor网络选择更优的动作。在训练时,critic网络通过最小化损失函数来更新网络参数,损失函数定义如下:
Figure BDA0004086753310000151
其中
Figure BDA0004086753310000152
γ为折扣因子。同时,actor网络基于critic网络计算得到的集中Q函数和它自身的观测信息来更新网络参数θ,并输出动作a。actor网络参数θ通过最大化策略梯度来更新,即:
Figure BDA0004086753310000153
Figure BDA0004086753310000154
Figure BDA0004086753310000155
Figure BDA0004086753310000156
目标网络的参数通过软更新的方式进行更新,即:
Figure BDA0004086753310000157
Figure BDA0004086753310000158
actor网络训练好后,根据actor网络做出的动作可以得到在时间周期T内的任务卸载、服务缓存及资源分配策略。根据任务卸载及资源分配策略进行任务卸载,可使得在满足各种约束的前提下任务的总处理时延最小。
对本发明进行评价:
将本发明与多智能体深度确定性策略梯度算法MADDPG(Multi-agent DeepDeterministic Policy Gradient)、单智能体深度确定性梯度算法SADDPG(Single agentDeep Deterministic Policy Gradient)以及基于LSTM的单智能体深度确定性梯度算法TADPG进行对比。如图4所示,可以看出,随着训练次数episode的增加,任务的平均处理时延在不断地减小,并逐渐趋于稳定,最终达到收敛,DSRA算法的时延最小,表明DSRA算法可以做出更优的卸载和算网资源分配决策,从而获得更小的时延,实现了资源的按需分配,证明了该算法的有效性。从图5可以看出,随着episode的增加,缓存命中率曲线呈上升趋势,并最终达到收敛,且DSRA的缓存命中率最大,证明了该算法的有效性。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,包括:
S1:构建移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建服务缓存模型和服务指派模型;
S3:基于服务缓存模型和服务指派模型,建立任务卸载及资源分配约束条件;
S4:根据任务卸载及资源分配约束条件,以最小化任务处理时延为目标构建任务卸载及资源分配联合优化问题;
S5:采用DSRA算法求解任务卸载及资源分配联合优化问题,得到任务卸载及资源分配策略。
2.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,步骤S1具体包括:构建移动边缘计算系统模型,包含M个基站BS,基站集合表示为
Figure FDA0004086753300000011
每个基站配备有一个MEC服务器;对于基站/>
Figure FDA0004086753300000012
其下有Nm个用户设备MD,用户集合表示为/>
Figure FDA0004086753300000013
系统在离散的时隙中运行,定义时间集合T={0,1,2,…};对于基站BSm下的一个用户/>
Figure FDA0004086753300000014
在时隙t(t∈T)产生的计算密集型任务定义为/>
Figure FDA0004086753300000015
其中,/>
Figure FDA0004086753300000016
表示任务的数据量大小,/>
Figure FDA0004086753300000017
表示任务的最大容忍时延,/>
Figure FDA0004086753300000018
表示处理单位比特任务所需要的CPU周期数,
Figure FDA0004086753300000019
表示处理任务所需的服务类型;基站BSm下所有用户产生的任务表示为
Figure FDA00040867533000000110
3.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,步骤S2中构建服务缓存模型具体包括:定义服务类型集合为
Figure FDA00040867533000000111
令ak,m(t)∈{0,1}表示在时隙t时BSm中服务k的缓存指示函数,ak,m(t)=1表示在BSm中缓存服务k,否则BSm将不会缓存服务k;基站BSm在t时隙的服务缓存策略集合表示为am(t)={a1,m(t),…,ak,m(t),…,aK,m(t)}。
4.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,步骤S2中构建服务指派模型具体包括:对于任一用户
Figure FDA0004086753300000021
具有四种任务处理方式,不同的任务处理方式具有不同的处理时延;四种任务处理方式分别为:本地计算、卸载到关联BSm进行处理、通过关联基站将卸载的任务转发到其他BS进行处理、卸载到云中心进行处理。
5.根据权利要求4所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,用户的任务处理时延表示为:
Figure FDA0004086753300000022
/>
其中,
Figure FDA0004086753300000023
表示在t时隙时基站BSm下的用户/>
Figure FDA0004086753300000024
的任务处理时延,/>
Figure FDA0004086753300000025
表示用户进行本地计算时的任务处理时延,/>
Figure FDA0004086753300000026
表示任务卸载到关联基站的传输时延,/>
Figure FDA0004086753300000027
表示关联基站处理任务的时延,Ttr,m(t)表示任务被关联基站进行转发的时延,/>
Figure FDA0004086753300000028
表示其他基站处理任务的时延,Tm,c(t)表示任务通过关联基站转发到云中心的传输时延,/>
Figure FDA0004086753300000029
表示本地任务处理策略,/>
Figure FDA00040867533000000210
表示任务卸载到关联基站进行处理的策略,/>
Figure FDA00040867533000000211
表示任务卸载到其他基站进行处理的策略,/>
Figure FDA00040867533000000212
表示任务卸载到云中心进行处理的策略。
6.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,所述任务卸载及资源分配联合优化问题表示为:
Figure FDA0004086753300000031
Figure FDA0004086753300000032
Figure FDA0004086753300000033
Figure FDA0004086753300000034
Figure FDA0004086753300000035
Figure FDA0004086753300000036
其中,T表示系统运行时间,M表示基站数量,
Figure FDA0004086753300000037
表示在t时隙时基站BSm下的用户
Figure FDA0004086753300000038
的任务处理时延,a(t)表示基站服务缓存策略,b(t)表示任务卸载策略,α(t)表示频谱资源分配策略,β(t)表示基站算力资源分配策略,Nm表示第m个基站下的用户设备数量,
Figure FDA0004086753300000039
表示在t时隙时基站BSm下的用户/>
Figure FDA00040867533000000310
的任务最大容忍时延,/>
Figure FDA00040867533000000311
表示用户/>
Figure FDA00040867533000000312
的本地任务处理策略,/>
Figure FDA00040867533000000313
表示用户/>
Figure FDA00040867533000000314
的任务卸载到关联基站进行处理的策略,/>
Figure FDA00040867533000000315
表示用户/>
Figure FDA00040867533000000320
的任务卸载到其他基站进行处理的策略,/>
Figure FDA00040867533000000316
表示用户/>
Figure FDA00040867533000000317
的任务卸载到云中心进行处理的策略,ak,m(t)表示在时隙t时第m个基站BSm关于服务k的缓存指示函数,K表示服务类型数量,lk表示处理任务的服务k所占用的存储空间大小,Rm表示第m个MEC服务器的存储空间大小,/>
Figure FDA00040867533000000318
表示BSm在时隙t分配给/>
Figure FDA00040867533000000321
的频谱资源分配系数,/>
Figure FDA00040867533000000322
表示BSm在时隙t分配给/>
Figure FDA00040867533000000319
的CPU频率分配系数。
7.根据权利要求1所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,采用DSRA算法求解任务卸载及资源分配联合优化问题的过程包括:将任务卸载及资源分配联合优化问题抽象为部分可观测的马尔科夫决策过程,由基站充当智能体,并构建对应的观测空间、动作空间和奖励函数;每个智能体均具有嵌入LSTM网络的actor网络和critic网络;actor网络根据单个智能体当前的本地观测状态生成相应的动作并根据动作更新奖励函数,进入下一状态;critic网络根据全局的观测状态和动作来估计其他智能体的策略;根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练actor网络和critic网络,更新网络参数,得到训练好的actor网络和critic网络;根据actor网络训练结果得到任务卸载及资源分配策略。
8.根据权利要求7所述的一种基于移动边缘计算的任务卸载及资源分配方法,其特征在于,所述奖励函数表示为:
Figure FDA0004086753300000041
其中,rm(t)表示t时隙时基站BSm的奖励值,T表示系统运行时间,M表示基站数量,Nm表示第m个基站下的用户设备数量,
Figure FDA0004086753300000042
表示t时隙时基站BSm下的用户/>
Figure FDA0004086753300000043
的任务处理时延,Ym(t)表示任务处理时延满足时延约束的奖励,Um(t)表示缓存不超过边缘服务器存储容量限制的奖励。/>
CN202310138344.8A 2023-02-20 2023-02-20 一种基于移动边缘计算的任务卸载及资源分配方法 Pending CN116137724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138344.8A CN116137724A (zh) 2023-02-20 2023-02-20 一种基于移动边缘计算的任务卸载及资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138344.8A CN116137724A (zh) 2023-02-20 2023-02-20 一种基于移动边缘计算的任务卸载及资源分配方法

Publications (1)

Publication Number Publication Date
CN116137724A true CN116137724A (zh) 2023-05-19

Family

ID=86333467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138344.8A Pending CN116137724A (zh) 2023-02-20 2023-02-20 一种基于移动边缘计算的任务卸载及资源分配方法

Country Status (1)

Country Link
CN (1) CN116137724A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743584A (zh) * 2023-08-09 2023-09-12 山东科技大学 一种基于信息感知及联合计算缓存的动态ran切片方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743584A (zh) * 2023-08-09 2023-09-12 山东科技大学 一种基于信息感知及联合计算缓存的动态ran切片方法
CN116743584B (zh) * 2023-08-09 2023-10-27 山东科技大学 一种基于信息感知及联合计算缓存的动态ran切片方法

Similar Documents

Publication Publication Date Title
Qin et al. Collaborative edge computing and caching in vehicular networks
CN114340016A (zh) 一种电网边缘计算卸载分配方法及系统
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN115344395B (zh) 面向异质任务泛化的边缘缓存调度、任务卸载方法和系统
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
CN115134242B (zh) 一种基于深度强化学习策略的车载计算任务卸载方法
CN115827108A (zh) 基于多目标深度强化学习的无人机边缘计算卸载方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN113973113B (zh) 一种面向移动边缘计算的分布式服务迁移方法
CN114626298A (zh) 无人机辅助车联网中高效缓存和任务卸载的状态更新方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
Zhang et al. Computation offloading and resource allocation in F-RANs: A federated deep reinforcement learning approach
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
Hossain et al. Edge orchestration based computation peer offloading in MEC-enabled networks: a fuzzy logic approach
CN116405493A (zh) 一种基于mogwo策略的边缘云协同任务卸载方法
CN114928893B (zh) 一种基于智能反射面的架构及任务卸载方法
CN114640966B (zh) 一种车联网中基于移动边缘计算的任务卸载方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN116112488A (zh) 一种面向mec网络的细粒度任务卸载及资源分配方法
CN114928826A (zh) 一种软件定义车载任务卸载与资源分配的二阶段优化方法、控制器及决策方法
CN117834643B (zh) 一种面向工业物联网的深度神经网络协同推理方法
CN117573383B (zh) 一种基于分布式多智能体自主决策的无人机资源管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination