CN116880923A - 一种基于多智能体强化学习的动态任务卸载方法 - Google Patents

一种基于多智能体强化学习的动态任务卸载方法 Download PDF

Info

Publication number
CN116880923A
CN116880923A CN202310887232.2A CN202310887232A CN116880923A CN 116880923 A CN116880923 A CN 116880923A CN 202310887232 A CN202310887232 A CN 202310887232A CN 116880923 A CN116880923 A CN 116880923A
Authority
CN
China
Prior art keywords
network
mobile device
action
task
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310887232.2A
Other languages
English (en)
Inventor
石文孝
石玮楠
刘思呈
张佳栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310887232.2A priority Critical patent/CN116880923A/zh
Publication of CN116880923A publication Critical patent/CN116880923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于多智能体强化学习的动态任务卸载方法,包括如下步骤:步骤一、建立动态动态移动边缘计算网络模型;步骤二、建立本地计算模型和部分卸载计算模型;步骤三、构建以最小化卸载成本为目标的优化问题;步骤四、建立多智能体深度延时确定性策略梯度模型;步骤五、模型的训练以及优化问题的求解;本方法考虑了移动设备的时延和能耗,将动态卸载和资源分配问题被转化为最小化平均加权成本问题,所设计的模型采用中心化训练、分布式执行的架构,在任务卸载的约束条件下,通过探索和训练不断优化卸载策略,实现移动设备长期平均加权成本的最小化。

Description

一种基于多智能体强化学习的动态任务卸载方法
技术领域
本发明涉及移动边缘计算和深度强化学习技术领域,具体涉及一种基于多智能体强化学习的动态任务卸载方法。
背景技术
移动边缘计算(Mobile Edge Computing,简称MEC),是一种将原来置于云计算平台的功能和服务“下放”至移动网络的边缘的一种新兴的技术,能够在移动边缘网络中提供终端所需要的通信、存储和计算等资源,从而使用户可以获得高带宽与超低时延的高质量网络功能服务。然而,基于传统优化理论的解决方案通常需要经过复杂迭代,只能得到近似最优解。此外,任务的时延和能耗要求以及移动网络状态往往都是动态变化的,因此具有自适应性的任务卸载策略的研究十分迫切。为了应对以上挑战,目前有大量研究者应用基于强化学习或深度强化学习的方法解决相应问题。
深度强化学习(Deep Reinforcement Learning,简称DRL)是一种将深度学习和强化学习两种新兴技术融合的一种新技术,借助深度神经网络强大的表征能力去拟合强化学习的任何组成部分,包括状态价值函数﹑动作价值函数﹑策略﹑模型等,将深度神经网络中的权重作为拟合参数,通过不断与环境的交互最终得到特定任务的最优策略并使得任务累计期望收益最大化。
由于MEC网络模型中移动设备在不断运动,任务的时延和能耗要求也处于动态变化中,现有的基于单智能体的DRL算法在求解动态任务卸载和资源分配问题时难以收敛到最优解。此外,目前对模型训练过程中的经验回放机制研究较少,采用传统的均匀采样方式进行模型训练会造成大量高价值经验样本的浪费,导致难以获得最优的卸载策略,阻碍了DRL算法在MEC卸载领域的发展和应用。
发明内容
为了克服现有技术中存在的问题,本发明提供了一种基于多智能体强化学习的动态任务卸载方法。
本发明是通过如下技术方案实现的:
一种基于多智能体强化学习的动态任务卸载方法,通过建立任务的本地计算模型和部分卸载计算模型实现对移动设备卸载状态的描述,考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值多个影响因素设定约束条件,在约束条件下,设计了多智能体深度延时确定性策略梯度模型求解多用户下的任务卸载划分和计算资源分配问题,本方法的具体步骤如下:
步骤一:建立动态移动边缘计算网络模型
所建立的动态移动边缘计算网络包括一个配备大规模多输入多输出天线阵列的基站、一个边缘服务器和一组移动设备;其中,移动设备的数量和分布情况是动态变化的,移动设备用集合表示,其中M为所建立的动态移动边缘计算网络模型内有卸载需求的移动设备的总数量,MDi为编号为i的移动设备,i∈[1,2,...,M];将系统时间划为T个时隙,时隙索引为/>在时隙t内,集合/>内的各移动设备生成一个时延和能耗敏感型任务,该任务的参数组成任务参数集Φi={Xi(t),Bi(t),Ci(t),Di(t),Ei(t)},其中Xi(t)为移动设备MDi与边缘服务器之间的距离,Bi(t)为移动设备MDi的任务大小,Ci(t)该任务的计算强度,Di(t)为最大容忍时延,Ei(t)为最大容忍能耗;
步骤二:建立本地计算模型和部分卸载计算模型
将每个生成的时延和能耗敏感型任务划分为两部分:本地执行部分和卸载部分,定义卸载率表示时隙t内移动设备MDi的任务卸载比例,任务的本地执行部分大小计算为/>因此,时隙t内移动设备MDi的本地执行时延/>表示为:
其中,fi loc,t为时隙t内移动设备MDi的本地计算能力;时隙t内移动设备MDi的本地执行能耗表示为:
其中,κ0为能量因子,在本方法中取值为10-28;移动设备MDi卸载到边缘服务器上的任务大小为根据香农定理,移动设备MDi与边缘服务器之间的上行链路的传输时延/>表示为:
其中,W为上行链路的带宽,在本方法中取值为1MHz,Pi t为在时隙t内的上行传输功率,在本方法中取值为23dBm,σ2为噪声功率,在本方法中取值为-114dBm,hi(t)=|gi|2[Xi(t)]为移动设备MDi的上行传输信道增益,其中gi为小尺度衰落系数,α为路径损耗因子,在本方法中取值为3.8;时隙t内移动设备MDi的卸载计算时延/>表示为:
其中,fi ser,t表示在时隙t内边缘服务器分配给移动设备MDi的计算资源;
移动设备MDi的卸载时延由上行传输时延、排队等待时延、处理时延和下行传输时延四个部分构成,由于下行链路传输的计算结果数据量远小于卸载数据量,因此忽略下行传输延迟,此外,假设系统不发生拥塞,则移动设备MDi的卸载计算时延表示为:
移动设备MDi的卸载能耗由上行链路能耗和卸载计算能耗两个部分组成,由于边缘服务器直接通过电网供电,因此本方法不考虑卸载计算能耗,所以移动设备MDi的卸载能耗表示为:/>
各移动设备生成的时延和能耗敏感型任务能够由移动设备和边缘服务器并行处理,因此移动设备MDi的任务执行时延为本地执行时延和卸载计算时延/>之间的最大值,即/>任务执行的总能耗/>计算为:/>
步骤三:构建以最小化卸载成本为目标的优化问题
本方法是研究最小化各移动设备的时延和能耗加权和的卸载方法,因此,定义移动设备MDi的卸载成本函数为:
其中,ω1表示时延权重参数,ω2表示能耗权重参数,ω1和ω2的大小根据对任务的时延和能耗敏感程度的要求设置,本方法中假设对任务的时延和能耗敏感程度的要求相同,即ω1与ω2的取值均为0.5;因此,最小化各移动设备的时延和能耗加权和的优化问题即转化为最小化任务的长期平均加权成本:
本方法定义边缘服务器的最大计算能力为Fmax,任务卸载的约束条件包括:
约束1:
约束2:
约束3:
约束4:
其中,约束1限制任务的卸载率为0到1之间的连续变量,/>表示移动设备MDi的任务全部由本地执行,/>表示移动设备MDi的任务由本地和边缘服务器共同执行,/>表示移动设备MDi的任务全部卸载到边缘服务器进行计算;
约束2限制分配给各移动设备的计算资源总和不超过服务器的最大计算能力Fmax
约束3限制任务完成时间不超过最大容忍时延Di(t);
约束4限制移动设备MDi的总能量消耗不超过最大容忍能耗Ei(t);
步骤四:建立多智能体深度延时确定性策略梯度模型
多智能体深度延时确定性策略梯度模型为一种中心化训练、分布式执行的多智能体强化学习模型,包括:状态空间S、动作空间A、全局奖励函数Rt、行动网络、评价网络、延迟训练模块和经验缓存池;
状态空间S包括:
其中,St∈S,在时隙t内,移动设备MDi获取的本地状态包括移动设备MDi与边缘服务器之间的距离Xi(t)、任务大小Bi(t)、计算强度Ci(t)、最大容忍时延Di(t)以及最大容忍能耗值Ei(t),即/>
动作空间A包括:
其中,At∈A,定义时隙t内所有卸载任务的决策向量αt计算资源分配决策向量fser,t为/>定义时隙t内移动设备MDi的卸载动作/>为/>
全局奖励函数Rt
如果移动设备MDi的延迟和能量消耗Di(t)满足约束/>且/>则该任务成功卸载;当/>或/>视为该任务执行失败;移动设备MDi执行卸载动作后的当前奖励函数/>为:
其中,表示移动设备MDi的任务完全本地执行时的成本,将时隙t内所有移动设备的当前奖励函数/>的平均值定义为全局奖励函数Rt:/>
行动网络:行动网络部署在各移动设备上,包括策略行动网络和目标行动网络,二者结构相同,各包含两个全连接层,神经元数目分别为400和300。策略行动网络的权重参数为θμ,目标行动网络的权重参数为θμ′;行动网络直接与环境进行交互,输入为移动设备MD i获取的本地状态输出为移动设备MD i的卸载动作其中/>为确定性策略函数,ψ(t)为噪声函数,用于探索动作空间;
评价网络:评价网络部署在边缘服务器上,包括当前评价网络和目标评价网络,二者结构相同,各包含两个全连接层,神经元数目分别为400和300。当前评价网络的权重参数为θQ,目标评价网络的权重参数为θQ′,通过输入当前时刻的全局状态和所有移动设备的卸载动作/>得到动作价值函数/>
延迟训练模块:同步训练行动网络和评价网络会导致训练过程不稳定,但是当固定行动网络时,评价网络往往能够收敛到最优;因此多智能体深度延时确定性策略梯度的模型以较低的频率更新行动网络,以较高的频率更新评价网络,本方法中每更新两次评价网络后更新一次行动网络;
经验缓存池:储存与环境交互得到的经验样本(St,At,Rt,St+1)供给行动网络和评价网络更新权重参数,本方法中设置经验缓存池样本容量经验缓存池内的经验样本遵循先入先出原则,以保证更新采用的数据主要为当前与环境交互得到的数据;
步骤五:模型的训练以及优化问题的求解
多智能体深度延时确定性策略梯度模型的训练包括以下过程:
过程(1):初始化参数
初始化行动网络与评价网络,其中行动网络的学习率为0.0001,评价网络的学习率为0.001。初始化经验缓存池,初始化噪声函数ψ(t),初始化权重参数θμ与θQ并将θμ与θQ分别传入行动目标网络和评价目标网络,即θμ′=θμ,θQ′=θQ
过程(2):获取卸载动作
在时隙t内,部署在移动设备MDi上的行动网络接收本地观测状态根据/>得到移动设备MDi的卸载动作/>随后上传卸载动作到边缘服务器端,边缘服务器根据卸载动作执行卸载计算,获得全局奖励函数Rt以及下一个时刻的状态St+1
过程(3):评估卸载动作
在时隙t内,等待所有行动网络将卸载动作传入边缘服务器端后,部署在边缘服务器上的评价网络根据动作价值函数对所有卸载动作进行评估;
过程(4):更新经验缓存池
在时隙t内,将数据(St,At,Rt,St+1)打包为经验四元组存储到经验缓存池中,经验缓存池内的经验样本遵循先入先出原则,以保证经验缓存池内样本与当前训练状态具有较强相关性;
经验样本的优先级值ρt由当前奖励函数衡量,即满足:其中ε为一个很小的正数,用于防止经验样本的优先级值为0而产生的过拟合现象;
过程(5):经验样本抽样
定义φ为被抽取的经验样本集合,样本数量为m,当经验样本被抽取时,为了校正由基于奖励函数的优先采样机制引起的训练偏差,设计了重要性采样权重即满足:
其中,l为退火变量,n为经验缓存池中经验样本的实际数量,j表示经验缓存池中的第j条经验样本,j≤n,/>为第j条经验样本的采样概率,即满足:
其中ι是一个权衡因子,用来控制均匀采样和贪婪策略采样的偏好,当ι接近0时,采样策略偏向于均匀采样,当ι接近1时,采样策略偏向于贪婪策略采样;
过程(6):更新网络参数
对于网络参数更新,采用延迟策略更新的技巧,即评价网络更新多次后,再更新行动网络,从而保证行动网络的训练更加稳定;
动作价值函数的优化目标是最小化贝尔曼残差,根据获得的经验样本集合φ,首先利用目标评价网络生成的动作价值函数/>来计算目标值yj
其中γ∈[0,1]为折扣因子,用来折扣未来时刻反馈对当前累积反馈的影响程度,之所以小于1是因为未来对现在的影响依次递减,并且数理上保证累加收敛;
然后利用目标值yj与当前评价网络生成的动作价值函数计算均方差损失函数L(st,atQ):
通过神经网络的梯度反向传播来更新行动网络的参数,因此,评价网络的累计权重更新表示为:
行动网络使总回报期望最大化,并以动作价值函数逼近总回报,行动网络利用梯度上升法更新策略,逼近最优解,损失函数J(st,atμ)计算为:
行动网络的累计权重更新表示为:
对于目标网络的网络参数更新采用软更新的方式,它可以使算法收敛更加可靠,如果将目标网络的参数完全更新,当本次训练效果较差时,会导致更新的网络没有原来的网络好,采用软更新的方法有助于防止这种情况的发生:
θμ′←λθμ+(1-λ)θμ′
θQ′←λθQ+(1-λ)θQ′
其中λ为更新率,本方法中设置为0.001;
对于步骤五,当过程(1)执行完毕后,不断重复过程(2)至过程(5),直至训练过程中获得的全局奖励函数Rt不发生明显变化,此时行动网络与评价网络已经收敛,终止训练;此时,最优的动态任务卸载策略已经生成,所建立的动态移动边缘计算网络内的各移动设备在获取本地状态的情况下,能够根据行动网络提供的动态任务卸载策略进行任务卸载,从而使各移动设备的时延和能耗加权和最小化。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于多智能体强化学习的动态任务卸载方法,通过考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值等多个影响因素,提出了以最小化系统的长期卸载成本为目标的优化问题。基于行动-评价框架,提出了多智能体深度延时确定性策略梯度模型,通过模型与环境之间的不断交互更新网络参数,最终得到最优的动态卸载和计算资源分配策略。
本发明提供了一种基于多智能体强化学习的动态任务卸载方法,利用多智能体强化学习技术提出了多智能体深度延时确定性策略梯度模型用来求解多用户下的任务卸载划分和计算资源分配问题,通过在移动设备上部署行动网络为每个任务指定卸载和计算资源分配策略,并且在边缘服务器上部署评价网络对生成的策略进行评价,从而在满足任务的时延和能耗敏感要求的条件下实现了卸载成本的最小化。
附图说明
下面结合附图对本发明作进一步的说明:图1为本发明提供的一种基于多智能体强化学习的动态任务卸载方法的流程示意图。
图2为本发明具体实施方式提供的一种基于多智能体强化学习的动态任务卸载方法的系统模型图。
图3为多智能体深度延时确定性策略梯度模型的框架图。
具体实施方式
下面结合附图对本发明作详细的描述:
本发明提供了一种基于多智能体强化学习的动态任务卸载方法,如图1所示,通过建立任务的本地计算模型和部分卸载计算模型实现对移动设备卸载状态的描述,考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值多个影响因素设定约束条件,在约束条件下,设计了多智能体深度延时确定性策略梯度模型求解多用户下的任务卸载划分和计算资源分配问题,本方法的具体步骤如下:
步骤一:建立动态移动边缘计算网络模型
图2展示了本发明的系统模型,包括一个配备大规模多输入多输出天线阵列的基站、一个边缘服务器和一组移动设备。其中,移动设备的数量和分布情况是动态变化的,移动设备用集合表示,其中M为所建立的动态移动边缘计算网络模型内有卸载需求的移动设备的总数量,MDi为编号为i的移动设备,i∈[1,2,...,M];本方法考虑一个具有离散时间的系统模型,其中系统时间被划为T个时隙,时隙索引为在时隙t内,集合/>内的各移动设备生成一个时延和能耗敏感型任务,该任务的属性由任务参数集Φi={Xi(t),Bi(t),Ci(t),Di(t),Ei(t)}进行描述,其中Xi(t)为移动设备MDi与边缘服务器之间的距离,Bi(t)为移动设备MDi的任务大小,Ci(t)该任务的计算强度,Di(t)为最大容忍时延,Ei(t)为最大容忍能耗;
步骤二:建立本地计算模型和部分卸载计算模型
将每个生成的时延和能耗敏感型任务划分为两部分:本地执行部分和卸载部分,定义卸载率表示时隙t内移动设备MDi的任务卸载比例,任务的本地执行部分大小计算为/>因此,时隙t内移动设备MDi的本地执行时延/>表示为:
其中,fi loc,t为时隙t内移动设备MDi的本地计算能力;时隙t内移动设备MDi的本地执行能耗表示为:
其中,κ0为能量因子,在本方法中取值为10-28;移动设备MDi卸载到边缘服务器上的任务大小为根据香农定理,移动设备MDi与边缘服务器之间的上行链路的传输时延/>表示为:
其中,W为上行链路的带宽,在本方法中取值为1MHz,为在时隙t内的上行传输功率,在本方法中取值为23dBm,σ2为噪声功率,在本方法中取值为-114dBm,hi(t)=|gi|2[Xi(t)]为移动设备MDi的上行传输信道增益,其中gi为小尺度衰落系数,/>α为路径损耗因子,在本方法中取值为3.8;时隙t内移动设备MDi的卸载计算时延/>表示为:
其中,fi ser,t表示在时隙t内边缘服务器分配给移动设备MDi的计算资源;
移动设备MDi的卸载时延由上行传输时延、排队等待时延、处理时延和下行传输时延四个部分构成,由于下行链路传输的计算结果数据量远小于卸载数据量,因此忽略下行传输延迟,此外,假设系统不发生拥塞,则移动设备MDi的卸载计算时延表示为:
移动设备MDi的卸载能耗由上行链路能耗和卸载计算能耗两个部分组成,由于边缘服务器直接通过电网供电,因此在本方法不考虑卸载计算能耗,所以移动设备MDi的卸载能耗表示为:/>
各移动设备生成的时延和能耗敏感型任务能够由移动设备和边缘服务器并行处理,因此移动设备MDi的任务执行时延为本地执行时延和卸载计算时延/>之间的最大值,即/>任务执行的总能耗/>计算为:/>
步骤三:构建以最小化卸载成本为目标的优化问题
本方法是研究最小化各移动设备的时延和能耗加权和的卸载方法,因此,定义移动设备MDi的卸载成本函数为:
其中,ω1表示时延权重参数,ω2表示能耗权重参数,ω1和ω2的大小根据对任务的时延和能耗敏感程度的要求设置,本方法中假设对任务的时延和能耗敏感程度的要求相同,即ω1与ω2的取值均为0.5;因此,最小化各移动设备的时延和能耗加权和的优化问题即转化为最小化任务的长期平均加权成本:
在所述的动态移动边缘网络模型中,由于边缘服务器的计算能力有限,本方法定义边缘服务器的最大计算能力为Fmax,任务卸载的约束条件包括:
约束1:
约束2:
约束3:
约束4:
其中,约束1限制任务的卸载率为0到1之间的连续变量,/>表示移动设备MDi的任务全部由本地执行,/>表示移动设备MDi的任务由本地和边缘服务器共同执行,/>表示移动设备MDi的任务全部卸载到边缘服务器进行计算;
约束2限制分配给各移动设备的计算资源总和不超过边缘服务器的最大计算能力Fmax
约束3限制任务完成时间不超过最大容忍时延Di(t);
约束4限制移动设备MDi的总能量消耗不超过最大容忍能耗Ei(t);
步骤四:建立多智能体深度延时确定性策略梯度模型
图3展示了多智能体深度延时确定性策略梯度模型的框架,所述的模型为中心化训练、分布式执行的多智能体强化学习模型,包括:状态空间S、动作空间A、全局奖励函数Rt、行动网络、评价网络、延迟训练模块和经验缓存池。其中,为边缘服务器部署一个评价网络,为每个移动设备部署一个行动网络,部署在各移动设备上的行动网络为完全合作关系,即它们的目标一致,只有当行动网络之间通力合作才能获得更好的奖励。
状态空间S包括:
其中,St∈S,在时隙t内,移动设备MDi获取的本地状态包括移动设备MDi与边缘服务器之间的距离Xi(t)、任务大小Bi(t)、计算强度Ci(t)、最大容忍时延Di(t)以及最大容忍能耗值Ei(t),即/>
动作空间A包括:
其中,At∈A,定义时隙t内所有卸载任务的决策向量αt计算资源分配决策向量fser,t为/>定义时隙t内移动设备MDi的卸载动作/>为/>
全局奖励函数Rt
如果移动设备MDi的延迟和能量消耗Di(t)满足约束/>且/>则该任务成功卸载;否则,当/>或/>视为该任务执行失败;移动设备MDi执行卸载动作后的当前奖励函数/>为:
其中,表示移动设备MDi的任务完全本地执行时的成本,将时隙t内所有移动设备的当前奖励函数/>的平均值定义为全局奖励函数Rt:/>
行动网络:行动网络部署在各移动设备上,包括策略行动网络和目标行动网络,二者结构相同,各包含两个全连接层,神经元数目分别为400和300。策略行动网络的权重参数为θμ,目标行动网络的权重参数为θμ′;行动网络直接与环境进行交互,输入为移动设备MD i获取的本地状态输出为移动设备MD i的卸载动作其中/>为确定性策略函数,ψ(t)为噪声函数,用于探索动作空间;
评价网络:评价网络部署在边缘服务器上,包括当前评价网络和目标评价网络,二者结构相同,各包含两个全连接层,神经元数目分别为400和300。当前评价网络的权重参数为θQ,目标评价网络的权重参数为θQ′,通过输入当前时刻的全局状态和所有移动设备的卸载动作/>得到动作价值函数/>部署在各移动设备上的行动网络可以根据动作价值函数/>不断更新权重参数θμ从而改进卸载策略;
延迟训练模块:同步训练行动网络和评价网络会导致训练过程不稳定,但是当固定行动网络时,评价网络往往能够收敛到最优;因此多智能体深度延时确定性策略梯度的模型以较低的频率更新行动网络,以较高的频率更新评价网络,本方法中每更新两次评价网络后更新一次行动网络;
经验缓存池:储存与环境交互得到的经验样本(St,At,Rt,St+1)供给行动网络和评价网络更新权重参数,本方法中设置经验缓存池样本容量经验缓存池内的经验样本遵循先入先出原则,以保证更新采用的数据主要为当前与环境交互得到的数据;
步骤五:模型的训练以及优化问题的求解
多智能体深度延时确定性策略梯度模型的训练包括以下过程:
过程(1):初始化参数
初始化行动网络与评价网络,其中行动网络的学习率为0.0001,评价网络的学习率为0.001。初始化经验缓存池,初始化噪声函数ψ(t),初始化权重参数θμ与θQ并将θμ与θQ分别传入行动目标网络和评价目标网络,即θμ′=θμ,θQ′=θQ
过程(2):获取卸载动作
在时隙t内,部署在移动设备MDi上的行动网络接收本地观测状态根据/>得到移动设备MDi的卸载动作/>随后上传卸载动作到边缘服务器端,边缘服务器根据卸载动作执行卸载计算,获得全局奖励函数Rt以及下一个时刻的状态St+1
过程(3):评估卸载动作
在时隙t内,等待所有行动网络将卸载动作传入边缘服务器端后,部署在边缘服务器上的评价网络根据动作价值函数对所有卸载动作进行评估;
过程(4):更新经验缓存池
在时隙t内,将数据(St,At,Rt,St+1)打包为经验四元组存储到经验缓存池中,经验缓存池内的经验样本遵循先入先出原则,以保证经验缓存池内样本与当前训练状态具有较强相关性;
不同于传统的均匀采样机制,本方法设计了基于奖励函数的优先采样机制以提高对高价值经验的学习效率;为了实现这种重要性采样机制,需要为每条存入缓存池内的经验样本计算采样优先级值ρt和重要性采样权重其中,经验样本的优先级值ρt由当前奖励函数/>衡量,即满足:ρt=|r(st,at)|+ε;其中ε为一个很小的正数,用于防止经验样本的优先级值为0而产生的过拟合现象;
过程(5):经验样本抽样
定义φ为被抽取的经验样本集合,样本数量为m,当经验样本被抽取时,为了校正由基于奖励函数的优先采样机制引起的训练偏差,设计了重要性采样权重即满足:
其中,l为退火变量,n为经验缓存池中经验样本的实际数量,j表示经验缓存池中的第j条经验样本,j≤n,/>为第j条经验样本的采样概率,即满足:
其中γ是一个权衡因子,用来控制均匀采样和贪婪策略采样的偏好,当γ接近0时,采样策略偏向于均匀采样,当γ接近1时,采样策略偏向于贪婪策略采样;
过程(6):更新网络参数
对于网络参数更新,采用延迟策略更新的技巧,即评价网络更新多次后,再更新行动网络,从而保证行动网络的训练更加稳定;
动作价值函数的优化目标是最小化贝尔曼残差,根据获得的经验样本集合φ,首先利用目标评价网络生成的动作价值函数/>来计算目标值yj
其中γ∈[0,1]为折扣因子,用来折扣未来时刻反馈对当前累积反馈的影响程度,之所以小于1是因为未来对现在的影响依次递减,并且数理上保证累加收敛。
然后利用目标值yj与当前评价网络生成的动作价值函数计算均方差损失函数L(st,atQ):
通过神经网络的梯度反向传播来更新行动网络的参数,因此,评价网络的累计权重更新表示为:
行动网络使总回报期望最大化,并以动作价值函数逼近总回报,行动网络利用梯度上升法更新策略,逼近最优解,损失函数J(st,atμ)计算为:
行动网络的累计权重更新表示为:
对于目标网络的网络参数更新采用软更新的方式,它可以使算法收敛更加可靠,如果将目标网络的参数完全更新,当本次训练效果较差时,会导致更新的网络没有原来的网络好,采用软更新的方法有助于防止这种情况的发生:
θμ′←λθμ+(1-λ)θμ′
θQ′←λθQ+(1-λ)θQ′
其中λ为更新率,本方法中设置为0.001。
对于步骤五,当过程(1)执行完毕后,不断重复过程(2)至过程(5),直至训练过程中获得的全局奖励函数Rt不发生明显变化,此时行动网络与评价网络已经收敛,终止训练;此时,最优的动态任务卸载策略已经生成,所建立的动态移动边缘计算网络内的各移动设备在获取本地状态的情况下,能够根据行动网络提供的动态任务卸载策略进行任务卸载,从而使各移动设备的时延和能耗加权和最小化。

Claims (1)

1.一种基于多智能体强化学习的动态任务卸载方法,通过建立任务的本地计算模型和部分卸载计算模型实现对移动设备卸载状态的描述,考虑移动设备与边缘服务器之间的距离、任务大小、计算强度、最大容忍时延以及最大容忍能耗值多个影响因素设定约束条件,在约束条件下,设计了多智能体深度延时确定性策略梯度模型求解多用户下的任务卸载划分和计算资源分配问题,其特征在于,本方法的具体步骤如下:
步骤一:建立动态移动边缘计算网络模型
所建立的动态移动边缘计算网络包括一个配备大规模多输入多输出天线阵列的基站、一个边缘服务器和一组移动设备;其中,移动设备的数量和分布情况是动态变化的,移动设备用集合表示,其中M为所建立的动态移动边缘计算网络模型内有卸载需求的移动设备的总数量,MD i为编号为i的移动设备,i∈[1,2,...,M];将系统时间划为T个时隙,时隙索引为/>在时隙t内,集合/>内的各移动设备生成一个时延和能耗敏感型任务,该任务的参数组成任务参数集Φi={Xi(t),Bi(t),Ci(t),Di(t),Ei(t)},其中Xi(t)为移动设备MD i与边缘服务器之间的距离,Bi(t)为移动设备MD i的任务大小,Ci(t)该任务的计算强度,Di(t)为最大容忍时延,Ei(t)为最大容忍能耗;
步骤二:建立本地计算模型和部分卸载计算模型
将每个生成的时延和能耗敏感型任务划分为两部分:本地执行部分和卸载部分,定义卸载率表示时隙t内移动设备MD i的任务卸载比例,任务的本地执行部分大小计算为/>因此,时隙t内移动设备MD i的本地执行时延/>表示为:
其中,fi loc,t为时隙t内移动设备MD i的本地计算能力;时隙t内移动设备MD i的本地执行能耗表示为:
其中,κ0为能量因子,在本方法中取值为10-28;移动设备MD i卸载到边缘服务器上的任务大小为根据香农定理,移动设备MD i与边缘服务器之间的上行链路的传输时延/>表示为:
其中,W为上行链路的带宽,在本方法中取值为1MHz,Pi t为在时隙t内的上行传输功率,在本方法中取值为23dBm,σ2为噪声功率,在本方法中取值为-114dBm,hi(t)=|gi|2[Xi(t)]为移动设备MD i的上行传输信道增益,其中gi为小尺度衰落系数,α为路径损耗因子,在本方法中取值为3.8;时隙t内移动设备MD i的卸载计算时延/>表示为:
其中,fi ser,t表示在时隙t内边缘服务器分配给移动设备MD i的计算资源;
移动设备MD i的卸载时延由上行传输时延、排队等待时延、处理时延和下行传输时延四个部分构成,由于下行链路传输的计算结果数据量远小于卸载数据量,因此忽略下行传输延迟,此外,假设系统不发生拥塞,则移动设备MD i的卸载计算时延表示为:
移动设备MD i的卸载能耗由上行链路能耗和卸载计算能耗两个部分组成,由于边缘服务器直接通过电网供电,因此本方法不考虑卸载计算能耗,所以移动设备MD i的卸载能耗表示为:/>
各移动设备生成的时延和能耗敏感型任务能够由移动设备和边缘服务器并行处理,因此移动设备MD i的任务执行时延为本地执行时延和卸载计算时延/>之间的最大值,即/>任务执行的总能耗/>计算为:/>
步骤三:构建以最小化卸载成本为目标的优化问题
本方法是研究最小化各移动设备的时延和能耗加权和的卸载方法,因此,定义移动设备MD i的卸载成本函数为:
其中,ω1表示时延权重参数,ω2表示能耗权重参数,ω1和ω2的大小根据对任务的时延和能耗敏感程度的要求设置,本方法中假设对任务的时延和能耗敏感程度的要求相同,即ω1与ω2的取值均为0.5;因此,最小化各移动设备的时延和能耗加权和的优化问题即转化为最小化任务的长期平均加权成本:
本方法定义边缘服务器的最大计算能力为Fmax,任务卸载的约束条件包括:
约束1:
约束2:
约束3:
约束4:
其中,约束1限制任务的卸载率为0到1之间的连续变量,/>表示移动设备MD i的任务全部由本地执行,/>表示移动设备MD i的任务由本地和边缘服务器共同执行,表示移动设备MD i的任务全部卸载到边缘服务器进行计算;
约束2限制分配给各移动设备的计算资源总和不超过服务器的最大计算能力Fmax
约束3限制任务完成时间不超过最大容忍时延Di(t);
约束4限制移动设备MD i的总能量消耗不超过最大容忍能耗Ei(t);
步骤四:建立多智能体深度延时确定性策略梯度模型
多智能体深度延时确定性策略梯度模型为一种中心化训练、分布式执行的多智能体强化学习模型,包括:状态空间S、动作空间A、全局奖励函数Rt、行动网络、评价网络、延迟训练模块和经验缓存池;
状态空间S包括:
其中,St∈S,在时隙t内,移动设备MD i获取的本地状态包括移动设备MD i与边缘服务器之间的距离Xi(t)、任务大小Bi(t)、计算强度Ci(t)、最大容忍时延Di(t)以及最大容忍能耗值Ei(t),即/>
动作空间A包括:
其中,At∈A,定义时隙t内所有卸载任务的决策向量αt计算资源分配决策向量fser,t为/>定义时隙t内移动设备MDi的卸载动作/>为/>
全局奖励函数Rt
如果移动设备MD i的延迟和能量消耗Di(t)满足约束/>且/>则该任务成功卸载;当/>或/>视为该任务执行失败;移动设备MD i执行卸载动作后的当前奖励函数/>为:
其中,表示移动设备MD i的任务完全本地执行时的成本,将时隙t内所有移动设备的当前奖励函数/>的平均值定义为全局奖励函数Rt:/>
行动网络:行动网络部署在各移动设备上,包括策略行动网络和目标行动网络,二者结构相同,各包含两个全连接层,神经元数目分别为400和300。策略行动网络的权重参数为θμ,目标行动网络的权重参数为θμ′;行动网络直接与环境进行交互,输入为移动设备MD i获取的本地状态输出为移动设备MD i的卸载动作其中/>为确定性策略函数,ψ(t)为噪声函数,用于探索动作空间;
评价网络:评价网络部署在边缘服务器上,包括当前评价网络和目标评价网络,二者结构相同,各包含两个全连接层,神经元数目分别为400和300。当前评价网络的权重参数为θQ,目标评价网络的权重参数为θQ′,通过输入当前时刻的全局状态和所有移动设备的卸载动作/>得到动作价值函数/>
延迟训练模块:同步训练行动网络和评价网络会导致训练过程不稳定,但是当固定行动网络时,评价网络往往能够收敛到最优;因此多智能体深度延时确定性策略梯度的模型以较低的频率更新行动网络,以较高的频率更新评价网络,本方法中每更新两次评价网络后更新一次行动网络;
经验缓存池:储存与环境交互得到的经验样本(St,At,Rt,St+1)供给行动网络和评价网络更新权重参数,本方法中设置经验缓存池样本容量经验缓存池内的经验样本遵循先入先出原则,以保证更新采用的数据主要为当前与环境交互得到的数据;
步骤五:模型的训练以及优化问题的求解
多智能体深度延时确定性策略梯度模型的训练包括以下过程:
过程(1):初始化参数
初始化行动网络与评价网络,其中行动网络的学习率为0.0001,评价网络的学习率为0.001。初始化经验缓存池,初始化噪声函数ψ(t),初始化权重参数θμ与θQ并将θμ与θQ分别传入行动目标网络和评价目标网络,即θμ′=θμ,θQ=θQ
过程(2):获取卸载动作
在时隙t内,部署在移动设备MD i上的行动网络接收本地观测状态根据/>得到移动设备MD i的卸载动作/>随后上传卸载动作到边缘服务器端,边缘服务器根据卸载动作执行卸载计算,获得全局奖励函数Rt以及下一个时刻的状态St+1
过程(3):评估卸载动作
在时隙t内,等待所有行动网络将卸载动作传入边缘服务器端后,部署在边缘服务器上的评价网络根据动作价值函数对所有卸载动作进行评估;
过程(4):更新经验缓存池
在时隙t内,将数据(St,At,Rt,St+1)打包为经验四元组存储到经验缓存池中,经验缓存池内的经验样本遵循先入先出原则,以保证经验缓存池内样本与当前训练状态具有较强相关性;
经验样本的优先级值ρt由当前奖励函数衡量,即满足:/>其中ε为一个很小的正数,用于防止经验样本的优先级值为0而产生的过拟合现象;
过程(5):经验样本抽样
定义φ为被抽取的经验样本集合,样本数量为m,当经验样本被抽取时,为了校正由基于奖励函数的优先采样机制引起的训练偏差,设计了重要性采样权重即满足:
其中,l为退火变量,n为经验缓存池中经验样本的实际数量,j表示经验缓存池中的第j条经验样本,j≤n,/>为第j条经验样本的采样概率,即满足:
其中ι是一个权衡因子,用来控制均匀采样和贪婪策略采样的偏好,当ι接近0时,采样策略偏向于均匀采样,当ι接近1时,采样策略偏向于贪婪策略采样;
过程(6):更新网络参数
对于网络参数更新,采用延迟策略更新的技巧,即评价网络更新多次后,再更新行动网络,从而保证行动网络的训练更加稳定;
动作价值函数的优化目标是最小化贝尔曼残差,根据获得的经验样本集合φ,首先利用目标评价网络生成的动作价值函数/>来计算目标值yj
其中γ∈[0,1]为折扣因子,用来折扣未来时刻反馈对当前累积反馈的影响程度,之所以小于1是因为未来对现在的影响依次递减,并且数理上保证累加收敛;
然后利用目标值yj与当前评价网络生成的动作价值函数计算均方差损失函数L(st,atQ):
通过神经网络的梯度反向传播来更新行动网络的参数,因此,评价网络的累计权重更新表示为:
行动网络使总回报期望最大化,并以动作价值函数逼近总回报,行动网络利用梯度上升法更新策略,逼近最优解,损失函数J(st,atμ)计算为:
行动网络的累计权重更新表示为:
对于目标网络的网络参数更新采用软更新的方式,它可以使算法收敛更加可靠,如果将目标网络的参数完全更新,当本次训练效果较差时,会导致更新的网络没有原来的网络好,采用软更新的方法有助于防止这种情况的发生:
θμ′←λθμ+(1-λ)θμ′
θQ′←λθQ+(1-λ)θQ′
其中λ为更新率,本方法中设置为0.001;
对于步骤五,当过程(1)执行完毕后,不断重复过程(2)至过程(5),直至训练过程中获得的全局奖励函数Rt不发生明显变化,此时行动网络与评价网络已经收敛,终止训练;此时,最优的动态任务卸载策略已经生成,所建立的动态移动边缘计算网络内的各移动设备在获取本地状态的情况下,能够根据行动网络提供的动态任务卸载策略进行任务卸载,从而使各移动设备的时延和能耗加权和最小化。
CN202310887232.2A 2023-07-19 2023-07-19 一种基于多智能体强化学习的动态任务卸载方法 Pending CN116880923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310887232.2A CN116880923A (zh) 2023-07-19 2023-07-19 一种基于多智能体强化学习的动态任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310887232.2A CN116880923A (zh) 2023-07-19 2023-07-19 一种基于多智能体强化学习的动态任务卸载方法

Publications (1)

Publication Number Publication Date
CN116880923A true CN116880923A (zh) 2023-10-13

Family

ID=88264091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310887232.2A Pending CN116880923A (zh) 2023-07-19 2023-07-19 一种基于多智能体强化学习的动态任务卸载方法

Country Status (1)

Country Link
CN (1) CN116880923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117311991A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 模型训练方法、任务分配方法、装置、设备、介质及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117311991A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 模型训练方法、任务分配方法、装置、设备、介质及系统
CN117311991B (zh) * 2023-11-28 2024-02-23 苏州元脑智能科技有限公司 模型训练方法、任务分配方法、装置、设备、介质及系统

Similar Documents

Publication Publication Date Title
Bi et al. Lyapunov-guided deep reinforcement learning for stable online computation offloading in mobile-edge computing networks
CN108924936B (zh) 无人机辅助无线充电边缘计算网络的资源分配方法
CN112118601B (zh) 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN113612843A (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN112105062B (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN113326002A (zh) 基于计算迁移的云边协同控制系统及迁移决策生成方法
CN112118287A (zh) 基于交替方向乘子算法与移动边缘计算的网络资源优化调度决策方法
Liu et al. Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach
Zhang et al. DRL based data offloading for intelligent reflecting surface aided mobile edge computing
CN115827108B (zh) 基于多目标深度强化学习的无人机边缘计算卸载方法
CN116880923A (zh) 一种基于多智能体强化学习的动态任务卸载方法
CN114189936A (zh) 一种基于深度强化学习的协作边缘计算任务卸载方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN113543342A (zh) 基于noma-mec强化学习资源分配与任务卸载方法
CN115499441A (zh) 超密集网络中基于深度强化学习的边缘计算任务卸载方法
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
Gan et al. A multi-agent deep reinforcement learning approach for computation offloading in 5G mobile edge computing
CN115756873B (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN116318371A (zh) 卫星互联网的通信资源分配方法、设备及可读存储介质
CN116566466A (zh) 一种面向低轨卫星星座的多目标动态偏好星地协同计算卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination