CN114281527A - 一种低复杂度的移动边缘计算资源分配方法 - Google Patents

一种低复杂度的移动边缘计算资源分配方法 Download PDF

Info

Publication number
CN114281527A
CN114281527A CN202111476111.6A CN202111476111A CN114281527A CN 114281527 A CN114281527 A CN 114281527A CN 202111476111 A CN202111476111 A CN 202111476111A CN 114281527 A CN114281527 A CN 114281527A
Authority
CN
China
Prior art keywords
representing
user task
network
strategy
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111476111.6A
Other languages
English (en)
Inventor
马牧雷
杨旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202111476111.6A priority Critical patent/CN114281527A/zh
Publication of CN114281527A publication Critical patent/CN114281527A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种用于在线移动边缘计算和资源分配策略的强化学习方法,其特征在于,包括以下步骤:建立网络模型,将优化联合策略的求解表示为非凸非线性优化问题的求解;对非凸非线性优化问题进行联合策略解耦;建立用于求解解耦后问题的深度强化学习框架。本发明提供的一种集成奖励和减少动作空间的快速深度强化学习算法可以减少网络结构中的参数数量,提高决策效率。快速深度学习框架降低了动作空间维数并设计了新的奖励值。此外,低复杂度的凸优化方法被用于补充和微调卸载决策,可以极大降低计算复杂度。实验表明本发明提出的快速深度学习框架的性能优于贪婪和其他深度强化学习方法,并且在执行时间方面极大降低。

Description

一种低复杂度的移动边缘计算资源分配方法
技术领域
本发明针对移动边缘计算网络中的任务卸载(TO)和资源分配(RA)联合问题,提出了一种基于集成奖励和减少动作空间的快速深度学习框架(FLIRRAS)。
背景技术
随着移动边缘计算和物联网(IoT)的发展,各种设备相互连接,网络边缘正在快速发展[1]。传统方法将任务移至云端进行计算[2]。对于计算密集型任务,云计算采用强大的中央服务器来快速响应。但它无法避免数据传输带来的高延迟。移动边缘计算(MEC)[3]被认为是解决上述问题的有效方法。在MEC场景中,可以将任务卸载到网络边缘的服务器上,这就需要MEC系统来管理通信资源和计算资源。MEC系统任务卸载和资源分配策略已被广泛研究[4-5]。比如,一些相关工作提出了基于搜索的启发式算法[6]和合作博弈论算法[7]。虽然这些算法可以达到接近最优的性能,但它们需要大量的数值迭代才能实现。对于资源环境快速变化的大型网络,固定策略无法适应动态特性,无法获得最大化回报。
深度强化学习(DRL)的最新发展为在线计算卸载[8]提供了新的方向。许多研究工作都集中在DRL算法在在线卸载场景中的应用[9-12]。然而,对于TO和RA联合问题,现有的DRL框架由于高层结构数据特征太多,无法保证效率。通常,优化联合策略(TO和RA)的典型方法是在DRL框架中,将联合策略放入动作空间来解决[11-12]。这种方法会导致高维动作空间导致收敛缓慢,从而影响决策效率[13]。
[1]Anu Raj and Shiva Prakash.Internet of everything:A survey based onarchitecture,issues and challenges.In 2018 5th IEEE Uttar Pradesh SectionInternational Conference on Electrical,Electronics and Computer Engineering(UPCON),pages 1–6.IEEE,2018.
[2]Mehdi Bahrami.Cloud computing for emerging mobile cloud apps.In2015 3rd IEEE International Conference on Mobile Cloud Computing,Services,andEngineering,pages 4–5.IEEE,2015.
[3]Hongxing Li,Guochu Shou,Yihong Hu,and Zhigang Guo.Mobile edgecomputing:Progress and challenges.In 2016 4th IEEE international conferenceon mobile cloud computing,services,and engineering(MobileCloud),pages 83–84.IEEE,2016.
[4]Bo Wang,Changhai Wang,Wanwei Huang,Ying Song,and Xiaoyun Qin.Asurvey and taxonomy on task offloading for edge-cloud computing.IEEE Access,8:186080–186101,2020.
[5]Marwa Zamzam,Tallal El-Shabrawy,and Mohamed Ashour.Game theory forcomputation offloading and resource allocation in edge computing:A survey.In2020 2nd Novel Intelligent and Leading Emerging Sciences Conference(NILES),pages 47–53.IEEE,2020.
[6]Suzhi Bi and Ying Jun Zhang.Computation rate maximization forwireless powered mobile-edge computing with binary computationoffloading.IEEE Transactions on Wireless Communications,17(6):4177-4190,2018.
[7]Shanni Liang,Haibin Wan,Tuanfa Qin,Jun Li,and Wen Chen.Multi-usercomputation offloading for mobile edge computing:A deep reinforcementlearning and game theory approach.In 2020 IEEE 20th International Conferenceon Communication Technology(ICCT),pages 1534-1539.IEEE,2020.
[8]Xiaoyue Wan,Geyi Sheng,Yanda Li,Liang Xiao,and XiaojiangDu.Reinforcement learning based mobile offloading for cloud-based malwaredetection.In GLOBECOM 2017-2017 IEEE Global Communications Conference,pages1–6.IEEE,2017.
[9]S.Yu,X.Chen,Z.Zhou,X.Gong and D.Wu.2021.When Deep ReinforcementLearning Meets Federated Learning:Intelligent Multitimescale ResourceManagement for Multiaccess Edge Computing in 5G Ultradense Network.IEEEInternet of Things Journal,IoT-J 2021.vol.8,no.4,pp.2238-2251.
[10]W.Hou,H.Wen,H.Song,W.Lei and W.Zhang.2021.Multi-Agent DeepReinforcement Learning for Task Offloading and Resource Allocation inCybertwin based Networks.IEEE Internet of Things Journal,IoT-J 2021.
[11]X.Qiu,L.Liu,W.Chen,Z.Hong and Z.Zheng.2019.Online DeepReinforcement Learning for Computation Offloading in Blockchain-EmpoweredMobile Edge Computing.IEEE Transactions on Vehicular Technology(2019),vol.68,no.8,pp.8050-8062.
[12]G.M.S.Rahman,T.Dang and M.Ahmed.2020.Deep reinforcement learningbased computation offloading and resource allocation for low-latency fogradio access networks.Intelligent and Converged Networks(2020),vol.1,no.3,pp.243-257.
[13]K.Kumaran and E.Sasikala,"Learning based Latency MinimizationTechniques in Mobile Edge Computing(MEC)systems:A Comprehensive Survey,"2021International Conference on System,Computation,Automation and Networking(ICSCAN),2021,pp.1-6,doi:10.1109/ICSCAN53069.2021.9526410.
发明内容
本发明的目的是:解决DRL框架内低复杂度的联合问题。
为了达到上述目的,本发明的技术方案是提供了一种低复杂度的移动边缘计算资源分配方法,其特征在于,包括以下步骤:
步骤1、建立网络模型,将优化联合策略的求解表示为对下式(1)所示的非凸非线性优化问题P0的求解:
Figure BDA0003393595850000031
建立网络模型时考虑一个多任务多帮助节点的MEC场景,在该MEC场景下,存U个移动设备和S个边缘服务器,一个移动设备对应一个用户任务,一个边缘服务器对应一个计算节点,则用户任务u用二元组[du,cu],其中,du是数据大小,cu是用户任务u计算所需的CPU转数;
式(1)中:A∈Ru*(S+1)表示卸载决策,R表示实数集合;卸载决策A中,aus表示用户任务u到计算节点s的卸载决策,aus为一个二进制数,aus=1表示用户任务u被卸载到计算节点s,aus=0表示用户任务u未被卸载到计算节点s
P=[pu|0≤pu≤Pu]代表用户上行功率分配策略,pu表示用户任务u的通信功率、Pu表示用户任务u的最大通信功率;
F={fus|u∈U,s∈S}表示服务器计算资源分配策略,fus表示计算节点s分配给用户任务u的计算资源;
J为系统成本函数,表示为延迟和能耗的加权和,定义如下:
Figure BDA0003393595850000041
式(2)中,
Figure BDA0003393595850000042
为权重参数;
Figure BDA0003393595850000043
为任务卸载延迟,由传输部分和计算部分组成,具体如下:
Figure BDA0003393595850000044
式(3)中,Ru表示用户任务u上行传输速率;
式(2)中,
Figure BDA0003393595850000045
分别表示计算节点的计算延迟以及能耗,表示为:
Figure BDA0003393595850000046
Figure BDA0003393595850000047
式(4)、(5)中,z表示和移动设备相关的能耗常数,fu表示计算节点的计算容量;
式(2)中,
Figure BDA0003393595850000048
表示用户任务u的卸载能耗,Tu Trans表示用户任务u的传输时延,pu表示用户任务u的通信功率;
步骤2、对非凸非线性优化问题P0进行联合策略解耦,将非凸非线性优化问题P0转化为问题P1和问题P2,其中:
问题P1关注最小化卸载决策的成本,表示为:
Figure BDA0003393595850000049
问题P2关注通信能力和计算资源分配,表示为:
Figure BDA00033935958500000410
Figure BDA0003393595850000051
步骤3、建立用于求解问题P1和问题P2的深度强化学习框架,其中:
深度强化学习框架由Actor-Critic模型和高效RA方法模块组成,Actor-Critic模型通过对问题P1进行求解得到卸载策略A,高效RA方法模块通过对问题P2进行求解得到用户上行功率分配策略P以及服务器计算资源分配策略F;
Actor-Critic模型中,Actor网络以及Critic网络均为DNN网络,通过Actor网络在离散的动作空间中选择合适的动作,Critic网络用于评价Actor网络的动作并指导Actor网络的训练过程;
高效RA方法模块通过奖励的方式集成到DRL框架中,采用低复杂度优化方法确定资源分配策略,即用户上行功率分配策略P以及服务器计算资源分配策略F;
最后,将卸载策略A以及资源分配策略整合到奖励值中进行训练迭代;
对深度强化学习框架的训练具体包括以下步骤:
步骤301、定义状态:在时隙t,状态为st=[du,cu,hus,f],其中,d∈RU和c∈RU分别表示任务数据量和计算量,hus∈RU×S,f∈RS表示边缘服务器上可用的计算资源;
动作:动作包括是否值得卸载或要卸载哪个计算节点,将动作表示为at
奖励:奖励函数定义为rt=U-J(A,P,F);
将状态st作为Actor网络的输入,Actor-Critic模型的参数分别用θ和ω表示。
步骤302、Actor网络:
卸载决策由Actor网络生成,表示为πθ,动作样本来自πθ:at~πtheta(·|s),at表示动作,πtheta(·|s)表示策略;
Actor网络的输出是时隙t下的卸载策略A,看作是高效RA方法模块的先验知识,高效RA方法模块通过优化方法解决资源分配策略F和P,最终形成奖励rt和新状态s′t,获得的状态项[st,rt,s′t]存储在重放缓冲区中;Actor的参数θ通过应用Adam算法更新为:
Figure BDA0003393595850000061
式(8)中,η表示步长;δ(t)表示时间差,δ(t)=rt+gammaV(s′t)-V(st),gamma表示折扣率,V(st)表示价值函数,用于指导策略的梯度;
Critic网络:
Critic网络通过Actor网络与环境交互的结果学习价值函数V(st),使用V(s′t)和V(st)引导Actor网络更新策略,从重放缓冲区均匀抽样状态项[st,rt,s′t],并反馈给Critic网络;计算完时间差误差后,用均方误差损失函数作为参数的梯度更新ω:
Figure BDA0003393595850000062
式(9)中,T表示状态步数。
Actor网络和Critic网络的训练频率由更新间隔决定Γ,每一次更新,Critic网络输出状态估计并计算时间差误差。
相应的,步骤1中,用户任务u上行传输速率Ru表示为:
Ru=Bulog2(1+SINRu)
式中,Bu表示用户任务u被分配的带宽,SINRu表示用户任务u的信号干扰加噪声比。
相应的,所述用户任务u的信号干扰加噪声比SINRu表示为:
Figure BDA0003393595850000063
式中:σu表示用户任务u通信噪声功率,
Figure BDA0003393595850000064
σ表示背景噪声功率,S/{s}表示和用户任务u不属于同一小区的其他边缘服务器,v表示卸载到计算节点q的用户任务集合中的任意一个元素,Uq表示卸载到计算节点q的用户集合,avq为卸载决策A中的元素,pv表示用户任务v的通信功率;hvq表示用户任务v和计算节点q间的路径增益;hus表示用户任务u和计算节点s间路径增益。
相应的,在高效RA方法模块中,采用凸优化方法用来变换问题P2,针对问题P2进行求解,包括以下步骤:
将问题P0重写为:
Figure BDA0003393595850000071
式中,
Figure BDA0003393595850000072
服务器计算资源的分配与式(10)第一项有关,用户上行功率的分配与式(10)第二项有关;
服务器计算资源分配策略F:
式(10)第一项旨在求解计算资源分配策略F,表示为:
Figure BDA0003393595850000073
式(11)为凸函数,利用拉格朗日乘子和KKT条件得到最优策略
Figure BDA0003393595850000074
式中,
Figure BDA0003393595850000075
表示计算节点给用户任务的最优计算资源分配策略;
用户上行功率分配策略P:
对于式(10)第二项有:
Figure BDA0003393595850000076
目标函数Λ(pu)对于pu是非凸函数,使用变量替换法,由用户设备传输功率最大值Pu来近似原
Figure BDA0003393595850000077
中的pu变量;替换后,Λ(pu)用
Figure BDA0003393595850000078
表示,每个用户的传输功率实现了解耦,则目标函数是一个拟凸函数,该拟凸问题用次梯度算法迭代求解,具体包括以下步骤:
将约束集表示为C,C是Rn的闭凸集,则有:
Figure BDA0003393595850000079
引入具有可行的不精确投影的次梯度法;
设定:
Figure BDA0003393595850000081
定义相对容错函数
Figure BDA0003393595850000082
如下:
Figure BDA0003393595850000083
点z被称为相对于x的y到C的可行不精确投影,并具有相对容错函数。
对式(13)所示的目标函数使用非精确投影次梯度法算法:
检查当前的pk是否为式(10)所示的非凸非线性优化问题P0的解,pk表示第k次迭代时在可行域投影得到的解,如果pk不是非凸非线性优化问题P0的一个解,则选择一个非空元
Figure BDA0003393595850000084
表示偏导数,∈k表示第k次迭代时使用的常数。计算步长tk>0,将C中的下一个迭代pk+1∈C更新为pk-tk*sk;相对于pk到C上的任意可行的不精确投影,每次迭代投影在Pc可行域内进行;pk+1的其容错性由
Figure BDA0003393595850000085
给出,τk、∈k、λk为三个常数;
最后,经过K次迭代得到
Figure BDA0003393595850000086
是pK-tK*sK在C上的投影,即获得式(12)所示拟凸问题的解。
本发明提供的一种集成奖励和减少动作空间的快速深度强化学习(FLIRRAS)算法可以减少网络结构中的参数数量,提高决策效率。快速深度学习框架(FLIRRAS)降低了动作空间维数并设计了新的奖励值。此外,低复杂度的凸优化方法(如次梯度投影和KKT条件)被用于补充和微调卸载决策,可以极大降低计算复杂度。实验表明本发明提出的快速深度学习框架(FLIRRAS)的性能优于贪婪和其他深度强化学习(DRL)方法,并且在执行时间方面极大降低。
附图说明
图1示意了MEC环境多任务多帮助节点场景;
图2示意了策略解耦;
图3示意了深度强化学习框架FLIRRAS;
图4示意了次梯度投影法;
图5示意了FLIRRAS框架决策生成更新;
图6示意了不同算法的系统成本;
图7比较了延迟和能源消耗之间的权衡;
图8示意了系统成本和CPU执行延迟之间的权衡;
图9示意了不同在线算法在动态场景中的表现;
图10显示了DROO和FLIRRAS的平均执行时间与任务数量的对比
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供的一种用于在线移动边缘计算和资源分配策略的强化学习方法,包括以下步骤:
步骤1、建立网络模型,得到非凸非线性优化问题P0的表示,具体包括以下内容:
如图1所示,本发明考虑一个多任务多帮助节点的MEC场景,在该MEC场景下,存在U个移动设备(MD)和S个边缘服务器(ES),本发明中,一个移动设备对应一个用户任务,一个边缘服务器对应一个计算节点。这里使用二元组[du,cu]表示用户任务u,其中,du是数据大小(位),cu是用户任务u计算所需的CPU转数。在这项工作中,上行链路多址方案基于OFDMA。在单小区数据传输过程中,MD通过正交子带与ES通信。因此,干扰主要来自小区间干扰。本发明使用h{us}表示ME和ES之间的通道增益,使用P=[pu|0≤pu≤Pu]代表用户上行功率分配策略,其中,pu表示用户任务u的通信功率、Pu表示用户任务u的最大通信功率,用二进制卸载策略A∈RU*(S+1)来表示卸载决策,其中,R表示实数集合。
用户任务u的信号干扰加噪声比SINRu表示为下式(1)
Figure BDA0003393595850000091
式中:式中:σu表示用户任务u通信噪声功率,
Figure BDA0003393595850000092
σ表示背景噪声功率,S/{s}表示和用户任务u不属于同一小区的其他边缘服务器,v表示卸载到计算节点q的用户任务集合中的任意一个元素,Uq表示卸载到计算节点q的用户集合,avq为卸载决策A中的元素,avq为一个二进制数,avq=1表示用户任务v被卸载到计算节点q,avq=0表示用户任务v未被卸载到计算节点q,pv表示用户任务v的通信功率;hvq表示用户任务v和计算节点q间的路径增益;hus表示用户任务u和计算节点s间路径增益。
用户任务u上行传输速率Ru为:
Ru=Bulog2(1+SINRu) (2)
式中,Bu表示用户任务u被分配的带宽。
假设MD的计算容量为fu,则计算的延迟
Figure BDA0003393595850000101
和能耗
Figure BDA0003393595850000102
可表示为:
Figure BDA0003393595850000103
Figure BDA0003393595850000104
式中,z表示和移动设备相关的能耗常数。
任务卸载延迟
Figure BDA0003393595850000105
由传输部分和计算部分组成,具体如下:
Figure BDA0003393595850000106
式中,aus表示用户任务u到计算节点s的卸载决策,fus表示计算节点s分配给用户任务u的计算资源。
本发明将服务器计算资源分配策略定义为F={fus|u∈U,s∈S},用户任务u的卸载能耗为
Figure BDA0003393595850000107
式中,Tu Trans表示用户任务u的传输时延,du表示用户任务u的任务大小。
系统成本函数J可以表示为延迟和能耗的加权和,定义如下:
Figure BDA0003393595850000108
式中,
Figure BDA0003393595850000111
为权重参数,可以根据任务属性进行调整。最后,定义TO和RA联合问题,表示为一个非凸非线性优化问题P0,如下式定义:
Figure BDA0003393595850000112
步骤2、对非凸非线性优化问题P0进行联合策略解耦,包括以下内容:
由于步骤1提出的非凸非线性优化问题P0的混合连续非凸性质,可以证明它是一个NP-hard问题,因此找到一种低复杂性的方法已经成为确定策略的关键。通过临时固定变量,非凸非线性优化问题P0可以分解为一个有约束的多目标问题,如图2所示,本发明首先关注最小化卸载决策的成本,即对式(8)所示的问题P1进行求解:
Figure BDA0003393595850000113
接下来,本发明求解通信能力和计算资源分配变量,即对式(9)所示的问题P2进行求解:
Figure BDA0003393595850000114
需要注意的是,在将P0转化为P1和P2的过程中,对原多元问题进行了分解,并没有改变问题的最优解。
步骤3、构建深度强化学习框架FLIRRAS
3.1 FLIRRAS整体架构
如图3所示,FLIRRAS的框架由Actor-Critic模型和高效RA方法模块组成,Actor-Critic模型通过对问题P1进行求解得到卸载策略A,高效RA方法模块通过对问题P2进行求解得到用户上行功率分配策略P以及服务器计算资源分配策略F。
Actor-Critic模型中,Actor网络以及Critic网络均为DNN网络,Actor网络可以方便地在离散的动作空间中选择合适的动作。Actor-Critic模型中的Critic网络负责评价Actor网络的动作并指导Actor网络的训练过程。本发明引入体验重放机制,方便在线场景采样,实现动态策略更新。
高效RA方法模块通过奖励的方式集成到DRL框架中,采用低复杂度优化方法确定资源分配策略,即用户上行功率分配策略P以及服务器计算资源分配策略F。
最后,将卸载策略A以及资源分配策略整合到奖励值中进行训练迭代。
3.2低复杂度RA模块
在非凸非线性优化问题P0中,由于多变量和非凸性,整体问题难以解决。但是通过FLIRRAS框架的Actor-Critic模型可以获得卸载的先验知识。FLIRRAS框架将连续的资源分配和环境交互问题嵌入其框架中。在高效RA方法模块中,采用凸优化方法用来变换问题P2,针对问题P2进行求解。
参考Tran,T.X.,\&Pompili,D.2018.Joint Task Offloading and ResourceAllocation for Multi-Server Mobile-Edge Computing Networks.IEEE Transactionson Vehicular Technology(2018),1–1.中的解耦方法,问题P0可以重写为:
Figure BDA0003393595850000121
式中,
Figure BDA0003393595850000122
服务器计算资源的分配与式(10)第一项有关,用户上行功率的分配与式(10)第二项有关,可以看出计算资源的分配和通信能力的分配是解耦的。
3.2.1服务器计算资源分配策略F
式(10)第一项旨在求解计算资源分配策略F,可表示为:
Figure BDA0003393595850000123
通过证明目标函数的Hessian矩阵是正定的,所以可知式(11)为凸函数。这里,利用拉格朗日乘子和KKT条件可以得到最优策略
Figure BDA0003393595850000124
式中,
Figure BDA0003393595850000125
表示计算节点给用户任务的最优计算资源分配策略。
3.2.2用户上行功率分配策略P
接下来,本发明关注通信功率分配问题,则对于式(10)第二项有:
Figure BDA0003393595850000131
目标函数对于pu是非凸函数。通过分析,信号干扰加噪声比SINR包含了小区间干扰,这使得问题很难解决。这里本发明使用变量替换法(参考Tran,T.X.,\&Pompili,D.2018.Joint Task Offloading and Resource Allocation for Multi-Server Mobile-Edge Computing Networks.IEEE Transactions on Vehicular Technology(2018),1–1.,由用户设备传输功率最大值Pu来近似原
Figure BDA0003393595850000132
中的pu变量。替换后,Λ(pu)用
Figure BDA0003393595850000133
表示,每个用户的传输功率实现了解耦。接下来,发现目标函数是一个拟凸函数,该拟凸问题可以用次梯度算法迭代求解。
本发明将约束集表示为C。很明显,C是Rn的闭凸集,那么接下来解决以下问题:
Figure BDA0003393595850000134
引入具有可行的不精确投影的次梯度法(参考A.A.Aguiar,O.P.Ferreira\&L.F.2021.Prudente:Subgradient method with feasible inexact projections forconstrained convex optimization problems,Optimization(2021).。设定:
Figure BDA0003393595850000135
定义相对容错函数
Figure BDA0003393595850000136
如下:
Figure BDA0003393595850000137
点z被称为相对于x的y到C的可行不精确投影,并具有相对容错函数。
对式(13)所示的目标函数使用非精确投影次梯度法算法如图4所示,主要包括以下步骤:
检查当前的pk是否为式(10)所示的非凸非线性优化问题P0的解,pk表示第k次迭代时在可行域投影得到的解,如果pk不是非凸非线性优化问题P0的一个解,则选择一个非空元
Figure BDA0003393595850000138
表示偏导数,∈k表示第k次迭代时使用的常数。计算步长(步数)tk>0,将C中的下一个迭代pk+1∈C更新为pk-tk*sk。相对于pk到C上的任意可行的不精确投影,每次迭代投影在Pc可行域内进行。pk+1的其容错性由
Figure BDA0003393595850000141
给出,τk、∈k、λk为三个常数。最后,经过K次迭代得到
Figure BDA0003393595850000142
是pK-tK*sK在C上的投影,即获得式(12)所示拟凸问题的解。
3.3FLIRRAS框架训练
本发明所描述的任务卸载过程、无线信道衰落和节点资源占用都具有马尔可夫性,因此,本发明使用下面的马尔科夫决策过程(MDP)来描述这个动态系统的演化。
状态:在时隙t,状态为st=[du,cu,hus,f],其中,d∈RU和c∈RU分别表示任务数据量和计算量,hus∈RU×S,f∈RS表示边缘服务器上可用的计算资源。
动作:动作包括是否值得卸载(本地计算),或要卸载哪个ES。这里表示at=,其中,A表示卸载策略。FLIRRAS框架减少了网络的动作空间,极大地降低了网络的决策复杂度。
奖励:奖励函数定义为rt=U-J(A,P,F),即报酬最大化意味着系统成本最小化,这种设计的奖励可以有效地指导策略。
本发明将状态st作为Actor网络的输入,Actor-Critic模型的参数分别用θ和ω表示。
3.3.1Actor网络
作为基于策略的网络,Actor网络不仅可以优雅地处理离散动作问题,而且可以提高带约束问题处理能力。卸载决策由DNN生成,表示为πθ,动作样本来自πθ:at~πtheta(·|s),at表示动作,πtheta(·|s)表示策略。
Actor网络的输出是时隙t下的卸载策略A,可以看作是RA模块的先验知识。RA模块通过优化方法解决资源分配策略F和P,最终形成奖励rt和新状态s′t。状态项[st,rt,s′t]存储在重放缓冲区中。Actor的参数θ通过应用Adam算法(参考D.P.Kingma andJ.Ba.2015.Adam:A method for stochastic optimization.ICLR 2015.)更新为:
Figure BDA0003393595850000151
式中,η表示步长,δ(t)表示时间差(TD),δ(t)=rt+gammaV(s′t)-V(st),gamma表示折扣率,V(st)表示价值函数,用于指导策略的梯度。
3.3.2 Critic网络
Critic网络通过Actor网络与环境交互的结果学习价值函数V(st),使用V(s′t)和V(st)引导Actor网络更新策略。从重放缓冲区均匀抽样状态项[st,rt,s′t],并反馈给Critic网络。计算完TD误差后,用均方误差损失函数作为参数的梯度更新ω:
Figure BDA0003393595850000152
式中,T表示状态步数。
Actor网络和Critic网络的训练频率由更新间隔决定Γ。每一次更新,Critic网络输出状态估计并计算TD误差。
3.3.3经验回放机制
FLIRRAS框架采用经验重放机制。系统将每次探索环境后获得的数据以元组的形式保存在重放缓冲区中,即奖励和状态。Actor网络和Critic网络在每次迭代时都从重放缓冲区中提取一致样本来更新参数。
使用经验重放的动机为:(1)DNN作为一种有监督的学习模型,要求数据满足独立、相同的分布。它可以克服相关数据和非平稳分布的问题。(2)单个样本被多次使用,数据利用率高。(3)不同场景下的网络波动不同。回放缓冲区的大小可以调整,以适应不同的环境特性。
最终,FLIRRAS策略更新算法如图5,从而更新参数θ以及参数ω。
以一具体实例来说明本发明的效果:
考虑每个六角形小区中心有一个ES的多小区系统。假设网络中有8个ES,计算能力为10GHz,背景噪声功率为-100dBm,带宽为B=5MHz。本实施例利用信道增益构造随机网络。对于一个好的信道,信道增益h遵循对数正态分布,均值为250、方差为2.7。对于坏信道,h的均值为50、方差为5.4。接下来,建立两个具有不同状态转移概率的动态网络场景。动态网络场景1从一个好通道到一个好通道的转移概率为Pgood=0.98,从坏通道到坏通道的转移概率Pbad=0.90。动态网络场景2从一个好渠道到一个好渠道的转移概率为Pgood=0.70,从坏通道到坏通道的转移概率Pbad=0.90。显然,动态网络场景2比动态网络场景1变化更频繁。
移动设备计算能力从[0.6,0.8,1.0,1.2]GHz中随机选取,最大传输功率从[80,100,120]mW中随机选取。计算任务大小和计算量从[100,500]KB和[500,3000]*106cycle中随机选取。除非另有说明,默认情况下能耗和延迟参数为
Figure BDA0003393595850000161
以时间延迟和能耗的综合成本作为系统的评价指标。在动态在线环境下,进行了1000个时隙的实验。将FLIRRAS框架的性能与以下四个具有代表性的基准进行比较:
(1)结合奖励和缩减动作空间的快速学习DRL算法(FLIRRAS):本发明的方法,它使用DRL框架作为一个整体来解决问题。针对在线场景优化网络训练。
(2)深度强化学习在线卸载算法(DROO):应用神经网络作为卸载决策,通过启发式算法自动调整参数。
(3)贪婪卸载与联合资源分配(GOJR):将待卸载的任务通过贪婪算法分配到延迟最低的ES中。
(4)独立卸载联合资源分配(IOJR):将每个任务随机分配给ES,采用联合资源分配。
如图6所示,比较了四种不同算法的性能。对于FLIRRAS和DROO,将前8000个时间段设置为训练时段,直到算法性能稳定为止。从图中可以看出,FLIRRAS框架的性能接近最佳,系统成本明显优于GOJR和IOJR算法。随着任务数量的增加,FLIRRAS框架的优势变得更加突出。此外,FLIRRAS框架具有接近最佳的性能和显著降低的复杂性。
Figure BDA0003393595850000162
是权重参数,在
Figure BDA0003393595850000163
范围内,实验结果清楚地表明,随着
Figure BDA0003393595850000164
的增加,时间延迟减小,能量消耗增加。此外,在权重参数的影响下,能量和时间的波动不是线性的。这表明,通过适当调整权重,可以更好地适应有特殊要求的任务。为了保证通用性,在实验中设置
Figure BDA0003393595850000171
网络中有8个ES,它们的计算能力随着任务的处理而不断变化。在本实施例中,假设每个MD每个时隙产生的卸载任务数量服从泊松分布,即P(λ=2)(参考S.Chen,Q.Wang,J.Chen and T.Wu.2019.An Intelligent Task Offloading Algorithm(iTOA)for UAVNetwork.IEEE Globecom Workshops,GC Wkshps 2019.pp.1-6.)。更新间隔决定了策略更新的频率。为了正确地选择Γ,绘制图8执行延迟和系统成本J之间的权衡。每次政策更新都要经过1000次抽样训练。发现随着Γ的减小,CPU执行延迟单调增加。此外,当Γ较大时,J迅速减小。当Γ≤32时,改进开始变得微不足道。因此,为了平衡性能和复杂性,可以设置Γ小于或接近32。
如图9所示,对于FLIRRAS框架,当Γ=20时,网络可以及时获取计算资源的变化。如果选择更大的Γ,则不能及时感知服务器的变化。由图9可知,当Γ=60时,FLIRRAS框架的性能接近DROO。但当涉及大规模任务时,FLIRRAS框架具有优势。在Γ等于20的情况下,在任务数量或多或少的情况下,FLIRRAS框架具有明显的性能优势。
所有的模拟都是在Intel(R)Xeon(R)E3-1275 3.80GHz CPU和64gb内存的台式机上进行的。在实验中,所有算法都有8000个时隙训练周期和1000个时隙测试周期(预测策略)。的确,在用户数量[15-80]范围内,FLIRRAS的执行时间明显较低,效率较基线算法提高18.0%-43.7%,更适合在线场景。

Claims (4)

1.一种低复杂度的移动边缘计算资源分配方法,其特征在于,包括以下步骤:
步骤1、建立网络模型,将优化联合策略的求解表示为对下式(1)所示的非凸非线性优化问题P0的求解:
Figure FDA0003393595840000011
建立网络模型时考虑一个多任务多帮助节点的MEC场景,在该MEC场景下,存U个移动设备和S个边缘服务器,一个移动设备对应一个用户任务,一个边缘服务器对应一个计算节点,则用户任务u用二元组[du,cu],其中,du是数据大小,cu是用户任务u计算所需的CPU转数;
式(1)中:A∈RU*(S+1)表示卸载决策,R表示实数集合;卸载决策A中,aus表示用户任务u到计算节点s的卸载决策,aus为一个二进制数,aus=1表示用户任务u被卸载到计算节点s,aus=0表示用户任务u未被卸载到计算节点s
P=[pu|0≤pu≤Pu]代表用户上行功率分配策略,pu表示用户任务u的通信功率、Pu表示用户任务u的最大通信功率;
F={fus|u∈U,s∈S}表示服务器计算资源分配策略,fus表示计算节点s分配给用户任务u的计算资源;
J为系统成本函数,表示为延迟和能耗的加权和,定义如下:
Figure FDA0003393595840000012
式(2)中,
Figure FDA0003393595840000013
为权重参数;
Figure FDA0003393595840000014
为任务卸载延迟,由传输部分和计算部分组成,具体如下:
Figure FDA0003393595840000015
式(3)中,Ru表示用户任务u上行传输速率;
式(2)中,
Figure FDA0003393595840000021
分别表示计算节点的计算延迟以及能耗,表示为:
Figure FDA0003393595840000022
Figure FDA0003393595840000023
式(4)、(5)中,z表示和移动设备相关的能耗常数,fu表示计算节点的计算容量;
式(2)中,
Figure FDA0003393595840000024
表示用户任务u的卸载能耗,Tu Trans表示用户任务u的传输时延,pu表示用户任务u的通信功率;
步骤2、对非凸非线性优化问题P0进行联合策略解耦,将非凸非线性优化问题P0转化为问题P1和问题P2,其中:
问题P1关注最小化卸载决策的成本,表示为:
minJ*(A)
Figure FDA0003393595840000025
问题P2关注通信能力和计算资源分配,表示为:
minJ*(P,F)
Figure FDA0003393595840000026
步骤3、建立用于求解问题P1和问题P2的深度强化学习框架,其中:
深度强化学习框架由Actor-Critic模型和高效RA方法模块组成,Actor-Critic模型通过对问题P1进行求解得到卸载策略A,高效RA方法模块通过对问题P2进行求解得到用户上行功率分配策略P以及服务器计算资源分配策略F;
Actor-Critic模型中,Actor网络以及Critic网络均为DNN网络,通过Actor网络在离散的动作空间中选择合适的动作,Critic网络用于评价Actor网络的动作并指导Actor网络的训练过程;
高效RA方法模块通过奖励的方式集成到DRL框架中,采用低复杂度优化方法确定资源分配策略,即用户上行功率分配策略P以及服务器计算资源分配策略F;
最后,将卸载策略A以及资源分配策略整合到奖励值中进行训练迭代;
对深度强化学习框架的训练具体包括以下步骤:
步骤301、定义状态:在时隙t,状态为st=[du,cu,hus,f],其中,d∈RU和c∈RU分别表示任务数据量和计算量,hus∈RU×S,f∈RS表示边缘服务器上可用的计算资源;
动作:动作包括是否值得卸载或要卸载哪个计算节点,将动作表示为at
奖励:奖励函数定义为rt=U-J(A,P,F);
将状态st作为Actor网络的输入,Actor-Critic模型的参数分别用θ和ω表示。
步骤302、Actor网络:
卸载决策由Actor网络生成,表示为πθ,动作样本来自πθ:at~πtheta(·|s),at表示动作,πtheta(·|s)表示策略;
Actor网络的输出是时隙t下的卸载策略A,看作是高效RA方法模块的先验知识,高效RA方法模块通过优化方法解决资源分配策略F和P,最终形成奖励rt和新状态s′t,获得的状态项[st,rt,s′t]存储在重放缓冲区中;Actor的参数θ通过应用Adam算法更新为:
Figure FDA0003393595840000031
式(8)中,η表示步长;δ(t)表示时间差,δ(t)=rt+gammaV(s′t)-V(st),gamma表示折扣率,V(st)表示价值函数,用于指导策略的梯度;
Critic网络:
Critic网络通过Actor网络与环境交互的结果学习价值函数V(st),使用V(s′t)和V(st)引导Actor网络更新策略,从重放缓冲区均匀抽样状态项[st,rt,s′t],并反馈给Critic网络;计算完时间差误差后,用均方误差损失函数作为参数的梯度更新ω:
Figure FDA0003393595840000032
式(9)中,T表示状态步数。
Actor网络和Critic网络的训练频率由更新间隔决定Γ,每一次更新,Critic网络输出状态估计并计算时间差误差。
2.如权利要求1所述的一种低复杂度的移动边缘计算资源分配方法,其特征在于,步骤1中,用户任务u上行传输速率Ru表示为:
Ru=Bulog2(1+SINRu)
式中,Bu表示用户任务u被分配的带宽,SINRu表示用户任务u的信号干扰加噪声比。
3.如权利要求2所述的一种低复杂度的移动边缘计算资源分配方法,其特征在于,所述用户任务u的信号干扰加噪声比SINRu表示为:
Figure FDA0003393595840000041
式中:σu表示用户任务u通信噪声功率,
Figure FDA0003393595840000042
σ表示背景噪声功率,S/{s}表示和用户任务u不属于同一小区的其他边缘服务器,v表示卸载到计算节点q的用户任务集合中的任意一个元素,Uq表示卸载到计算节点q的用户集合,avq为卸载决策A中的元素,pv表示用户任务v的通信功率;hvq表示用户任务v和计算节点q间的路径增益;hus表示用户任务u和计算节点s间路径增益。
4.如权利要求1所述的一种低复杂度的移动边缘计算资源分配方法,其特征在于,在高效RA方法模块中,采用凸优化方法用来变换问题P2,针对问题P2进行求解,包括以下步骤:
将问题P0重写为:
Figure FDA0003393595840000043
式中,
Figure FDA0003393595840000044
服务器计算资源的分配与式(10)第一项有关,用户上行功率的分配与式(10)第二项有关;
服务器计算资源分配策略F:
式(10)第一项旨在求解计算资源分配策略F,表示为:
Figure FDA0003393595840000051
Figure FDA0003393595840000052
式(11)为凸函数,利用拉格朗日乘子和KKT条件得到最优策略
Figure FDA0003393595840000053
式中,
Figure FDA0003393595840000054
表示计算节点给用户任务的最优计算资源分配策略;
用户上行功率分配策略P:
对于式(10)第二项有:
Figure FDA0003393595840000055
Figure FDA0003393595840000056
目标函数Λ(pu)对于pu是非凸函数,使用变量替换法,由用户设备传输功率最大值Pu来近似原
Figure FDA0003393595840000057
中的pu变量;替换后,Λ(pu)用
Figure FDA0003393595840000058
表示,每个用户的传输功率实现了解耦,则目标函数是一个拟凸函数,该拟凸问题用次梯度算法迭代求解,具体包括以下步骤:
将约束集表示为C,C是Rn的闭凸集,则有:
Figure FDA0003393595840000059
引入具有可行的不精确投影的次梯度法;
设定:
Figure FDA00033935958400000510
定义相对容错函数
Figure FDA00033935958400000511
如下:
Figure FDA00033935958400000512
点z被称为相对于x的y到C的可行不精确投影,并具有相对容错函数。
对式(13)所示的目标函数使用非精确投影次梯度法算法:
检查当前的pk是否为式(10)所示的非凸非线性优化问题P0的解,pk表示第k次迭代时在可行域投影得到的解,如果pk不是非凸非线性优化问题P0的一个解,则选择一个非空元
Figure FDA00033935958400000513
Figure FDA00033935958400000514
表示偏导数,∈k表示第k次迭代时使用的常数。计算步长tk>0,将C中的下一个迭代pk+1∈C更新为pk-tk*sk;相对于pk到C上的任意可行的不精确投影,每次迭代投影在Pc可行域内进行;pk+1的其容错性由
Figure FDA0003393595840000061
给出,τk、∈k、λk为三个常数;
最后,经过K次迭代得到
Figure FDA0003393595840000062
是pK-tK*sK在C上的投影,即获得式(12)所示拟凸问题的解。
CN202111476111.6A 2021-12-06 2021-12-06 一种低复杂度的移动边缘计算资源分配方法 Withdrawn CN114281527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111476111.6A CN114281527A (zh) 2021-12-06 2021-12-06 一种低复杂度的移动边缘计算资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111476111.6A CN114281527A (zh) 2021-12-06 2021-12-06 一种低复杂度的移动边缘计算资源分配方法

Publications (1)

Publication Number Publication Date
CN114281527A true CN114281527A (zh) 2022-04-05

Family

ID=80870881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111476111.6A Withdrawn CN114281527A (zh) 2021-12-06 2021-12-06 一种低复杂度的移动边缘计算资源分配方法

Country Status (1)

Country Link
CN (1) CN114281527A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177275A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177275A (zh) * 2023-11-03 2023-12-05 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法
CN117177275B (zh) * 2023-11-03 2024-01-30 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法

Similar Documents

Publication Publication Date Title
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
Wu et al. Split learning over wireless networks: Parallel design and resource management
Bi et al. Lyapunov-guided deep reinforcement learning for stable online computation offloading in mobile-edge computing networks
Elgendy et al. Joint computation offloading and task caching for multi-user and multi-task MEC systems: reinforcement learning-based algorithms
CN111245651B (zh) 一种基于功率控制和资源分配的任务卸载方法
Luo et al. Cost-effective federated learning in mobile edge networks
CN113902021B (zh) 一种高能效的聚类联邦边缘学习策略生成方法和装置
Wu et al. Task offloading for vehicular edge computing with imperfect CSI: A deep reinforcement approach
Wei et al. Deep Q-Learning Based Computation Offloading Strategy for Mobile Edge Computing.
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
CN109246761B (zh) 考虑延迟及能耗的基于交替方向乘子法的卸载方法
Chen et al. Dynamic task software caching-assisted computation offloading for multi-access edge computing
CN112105062A (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN111132074A (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
Chen et al. Semi-asynchronous hierarchical federated learning for cooperative intelligent transportation systems
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
Jo et al. Deep reinforcement learning‐based joint optimization of computation offloading and resource allocation in F‐RAN
Liu et al. FedAGL: A communication-efficient federated vehicular network
CN114281527A (zh) 一种低复杂度的移动边缘计算资源分配方法
Lyu et al. Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm
Kim et al. Fedgpo: Heterogeneity-aware global parameter optimization for efficient federated learning
Alhartomi et al. Enhancing Sustainable Edge Computing Offloading via Renewable Prediction for Energy Harvesting
Wang et al. Latency optimization of task offloading in NOMA‐MEC systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220405

WW01 Invention patent application withdrawn after publication