CN112015481A - 一种基于Multi-Agent强化学习的移动边缘计算卸载算法 - Google Patents

一种基于Multi-Agent强化学习的移动边缘计算卸载算法 Download PDF

Info

Publication number
CN112015481A
CN112015481A CN202010497995.2A CN202010497995A CN112015481A CN 112015481 A CN112015481 A CN 112015481A CN 202010497995 A CN202010497995 A CN 202010497995A CN 112015481 A CN112015481 A CN 112015481A
Authority
CN
China
Prior art keywords
network
agent
algorithm
parameters
mobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010497995.2A
Other languages
English (en)
Inventor
肖德贵
郭涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010497995.2A priority Critical patent/CN112015481A/zh
Publication of CN112015481A publication Critical patent/CN112015481A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Multi‑Agent强化学习的移动边缘计算卸载算法,包括以下步骤:步骤1:确定环境输入数据并初始化算法参数,初始化参数包括每个Agent神经网络参数的设置,在算法中,每个移动设备都部署了Agent能够单独训练和推断的神经网络,对每个移动设备上的Agent网络设置了相同的参数。本发明解决现有算法迭代次数多、计算时间长以及无法适应高动态移动环境的问题,该算法具有一定灵活性,可以在有限时间内得到次优解,满足现代移动边缘计算中任务实时卸载的需求。

Description

一种基于Multi-Agent强化学习的移动边缘计算卸载算法
技术领域
本发明涉及计算机领域,特别涉及一种基于Multi-Agent强化学习的移动边缘计算卸载算法。
背景技术
随着5G移动网络和物联网的兴起,大量具有通信和计算能力的移动设备接入互联网中,同时海量的应用和服务也得以发展,例如增强现实、自动驾驶、图像处理以及云游戏等。由于受到设备物理大小的限制,移动设置只具备有限的电池容量和计算能力。因此面对计算密集型和能耗密集型应用,移动设备难以处理。为了解决移动设备计算资源不足的问题,可以将计算密集型应用卸载到远程服务器运行,然后将计算结果返回到移动设备,这就是云计算的模式,虽然云计算为移动设备提供了丰富的计算资源,但是由于云服务器和移动终端物理距离远,在任务传输过程中会出现较大延迟,从而严重影响用户体验。
近年来,移动边缘计算作为作为一种新的计算模式被提出,这一计算模式将计算资源部署在网络的边缘,也就是靠近移动设备的一端,为移动设备提供充足和灵活的计算服务。移动设备可以通过将计算任务卸载到边缘服务器,以此享受低延迟、高带宽、低能耗以及无以伦比的用户体验。其中,计算卸载是移动边缘计算中的关键技术,不同的卸载策略将会导致不同的用户体验,因此设计一种高效的移动边缘计算卸载算法是非常重要的。目前,已经有许多在移动边缘计算环境中进行计算卸载的算法:
a)坐标下降法、线性放松近似法以及博弈论,这些都属于传统数值算法,它们能够保证最优解,但是大量的迭代计算,并且在NP-hard问题上无法在有限时间内计算最优解,因此不适应移动边缘计算的实时卸载场景。
b)基于DQN或A3C的智能卸载算法可以在有限时间内得到次优解,但是随着网络状态和卸载决策数量的增多,会导致计算时间呈指数增长并且效果不佳。同时由于是中心式卸载算法,算法的灵活性较差。
基于上述算法存在的问题以及移动边缘计算中任务实时卸载的需求,本专利提出一种基于Multi-Agent强化学习的边缘计算实时卸载算法。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于Multi-Agent强化学习的移动边缘计算卸载算法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于Multi-Agent强化学习的移动边缘计算卸载算法,包括以下步骤:
步骤1:确定环境输入数据并初始化算法参数
初始化参数包括每个Agent神经网络参数的设置,在算法中,每个移动设备都部署了Agent能够单独训练和推断的神经网络,对每个移动设备上的Agent网络设置了相同的参数,每个Agent包括actor network和critic network,为actor network设置了2层的全联接隐藏层,分别包括64和128个神经元,为critic network设置了3层全联接隐藏层,分别包括1024,512和300个神经元,隐藏层之间的激活函数设置为ReLU,actor network和criticnetwork的学习率分别为0.001和0.0001,设置Agent采样的批量大小为128,经验回放池的大小为1024,同时actor network和critic network的更新参数因子设置为0.01,设置了一个算法进行学习前的探索度,设置为300;
步骤2:Agent根据任务状态与移动边缘计算环境交互
移动设备上的Agent根据步骤1确定的输入数据和移动边缘计算环境进行交互,即将任务根据初始化的Agent网络卸载到本地或者边缘服务器中,然后获取卸载决策和奖励值;
步骤3:Agent将输入和输出保存在经验回放池中
移动设备上的Agent将步骤2获取的卸载决策和奖励值以及当前系统状态输入和下一步系统状态输入四个数据存入到经验回放池中,供后续步骤进行调用;
步骤4:Agent从经验回放池进行批量采样优化自身网络参数
每个设备上的Agent均会从经验回放池中批量采样进行网络更新,更新网络参数,优化卸载策略,agent从经验回放池中采样的样本,actor network的网络参数为
Figure BDA0002523660020000031
使用Adam算法最小化损失函数,计算方法如下:
Figure BDA0002523660020000032
n为批量样本的大小,
Figure BDA0002523660020000033
是critic network输出的动作价值,基于上述的损失函数,我们可以函数梯度为:
Figure BDA0002523660020000034
对于agent i网络上的critic network,设网络参数为
Figure BDA0002523660020000035
损失函数可以表示为:
Figure BDA0002523660020000036
其中y可以定义为:
Figure BDA0002523660020000037
步骤5:算法达到迭代条件后输出Actor Networks。
与现有技术相比,本发明的有益效果如下:
本发明解决现有算法迭代次数多、计算时间长以及无法适应高动态移动环境的问题,该算法具有一定灵活性,可以在有限时间内得到次优解,满足现代移动边缘计算中任务实时卸载的需求。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的算法结构示意图;
图2是本发明的算法流程示意图;
图3是本发明的算法在不同移动设备数量情况下的性能表现示意图;
图4是本发明的算法在不同任务数量下的性能表现示意图;
图5是本发明的算法在不同边缘服务器数量下的性能表现示意图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
如图1-5所示,本发明提供一种基于Multi-Agent强化学习的移动边缘计算卸载算法,包括以下步骤:
步骤1:确定环境输入数据并初始化算法参数
算法的输入数据即为移动边缘计算环境中对计算卸载有影响的变量,本专利在实验过程中仅考虑了移动设备任务大小,任务计算量以及移动设备和边缘服务器之间的信道情况。
初始化参数包括每个Agent神经网络参数的设置,在算法中,每个移动设备都部署了Agent能够单独训练和推断的神经网络,对每个移动设备上的Agent网络设置了相同的参数,每个Agent包括actor network和critic network,为actor network设置了2层的全联接隐藏层,分别包括64和128个神经元,为critic network设置了3层全联接隐藏层,分别包括1024,512和300个神经元,隐藏层之间的激活函数设置为ReLU,actor network和criticnetwork的学习率分别为0.001和0.0001,设置Agent采样的批量大小为128,经验回放池的大小为1024,同时actor network和critic network的更新参数因子设置为0.01,设置了一个算法进行学习前的探索度,设置为300。
步骤2:Agent根据任务状态与移动边缘计算环境交互
移动设备上的Agent根据步骤1确定的输入数据和移动边缘计算环境进行交互,即将任务根据初始化的Agent网络卸载到本地或者边缘服务器中,然后获取卸载决策,奖励值。
步骤3:Agent将输入和输出保存在经验回放池中
移动设备上的Agent将步骤2获取的卸载决策和奖励值以及当前系统状态输入和下一步系统状态输入四个数据存入到经验回放池中,供后续步骤进行调用。
步骤4:Agent从经验回放池进行批量采样优化自身网络参数
每个设备上的Agent均会从经验回放池中批量采样进行网络更新,更新网络参数,优化卸载策略,agent从经验回放池中采样的样本,actor network的网络参数为
Figure BDA0002523660020000051
使用Adam算法最小化损失函数,计算方法如下:
Figure BDA0002523660020000052
n为批量样本的大小,
Figure BDA0002523660020000053
是critic network输出的动作价值,基于上述的损失函数,我们可以函数梯度为:
Figure BDA0002523660020000054
对于agent i网络上的critic network,设网络参数为
Figure BDA0002523660020000055
损失函数可以表示为:
Figure BDA0002523660020000056
其中y可以定义为:
Figure BDA0002523660020000061
步骤5:算法达到迭代条件后输出Actor Networks
算法达到迭代次数或者精度达到要求后可停止算法训练,输出agent中的actornetwork即可,在后续决策过程中可仅使用actor network获取计算任务的卸载决策,同时可以只使用本地信息,因为在训练过程中已经感知过全局信息,在输出的actor network中包含这一信息。
本发明解决现有算法迭代次数多、计算时间长以及无法适应高动态移动环境的问题,该算法具有一定灵活性,可以在有限时间内得到次优解,满足现代移动边缘计算中任务实时卸载的需求。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于Multi-Agent强化学习的移动边缘计算卸载算法,其特征在于,包括以下步骤:
步骤1:确定环境输入数据并初始化算法参数
初始化参数包括每个Agent神经网络参数的设置,在算法中,每个移动设备都部署了Agent能够单独训练和推断的神经网络,对每个移动设备上的Agent网络设置了相同的参数,每个Agent包括actor network和critic network,为actor network设置了2层的全联接隐藏层,分别包括64和128个神经元,为critic network设置了3层全联接隐藏层,分别包括1024,512和300个神经元,隐藏层之间的激活函数设置为ReLU,actor network和criticnetwork的学习率分别为0.001和0.0001,设置Agent采样的批量大小为128,经验回放池的大小为1024,同时actor network和critic network的更新参数因子设置为0.01,设置了一个算法进行学习前的探索度,设置为300;
步骤2:Agent根据任务状态与移动边缘计算环境交互
移动设备上的Agent根据步骤1确定的输入数据和移动边缘计算环境进行交互,即将任务根据初始化的Agent网络卸载到本地或者边缘服务器中,然后获取卸载决策和奖励值;
步骤3:Agent将输入和输出保存在经验回放池中
移动设备上的Agent将步骤2获取的卸载决策和奖励值以及当前系统状态输入和下一步系统状态输入四个数据存入到经验回放池中,供后续步骤进行调用;
步骤4:Agent从经验回放池进行批量采样优化自身网络参数
每个设备上的Agent均会从经验回放池中批量采样进行网络更新,更新网络参数,优化卸载策略,agent从经验回放池中采样的样本,actor network的网络参数为
Figure FDA0002523660010000011
使用Adam算法最小化损失函数,计算方法如下:
Figure FDA0002523660010000021
n为批量样本的大小,
Figure FDA0002523660010000022
是critic network输出的动作价值,基于上述的损失函数,我们可以函数梯度为:
Figure FDA0002523660010000023
对于agent i网络上的critic network,设网络参数为
Figure FDA0002523660010000024
损失函数可以表示为:
Figure FDA0002523660010000025
其中y可以定义为:
Figure FDA0002523660010000026
步骤5:算法达到迭代条件后输出Actor Networks。
CN202010497995.2A 2020-06-04 2020-06-04 一种基于Multi-Agent强化学习的移动边缘计算卸载算法 Pending CN112015481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497995.2A CN112015481A (zh) 2020-06-04 2020-06-04 一种基于Multi-Agent强化学习的移动边缘计算卸载算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497995.2A CN112015481A (zh) 2020-06-04 2020-06-04 一种基于Multi-Agent强化学习的移动边缘计算卸载算法

Publications (1)

Publication Number Publication Date
CN112015481A true CN112015481A (zh) 2020-12-01

Family

ID=73506402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497995.2A Pending CN112015481A (zh) 2020-06-04 2020-06-04 一种基于Multi-Agent强化学习的移动边缘计算卸载算法

Country Status (1)

Country Link
CN (1) CN112015481A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157344A (zh) * 2021-04-30 2021-07-23 杭州电子科技大学 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN113220369A (zh) * 2021-05-27 2021-08-06 北京师范大学珠海校区 一种基于分布式机器学习的智能计算卸载优化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157344A (zh) * 2021-04-30 2021-07-23 杭州电子科技大学 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN113157344B (zh) * 2021-04-30 2022-06-14 杭州电子科技大学 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN113220369A (zh) * 2021-05-27 2021-08-06 北京师范大学珠海校区 一种基于分布式机器学习的智能计算卸载优化方法
CN113220369B (zh) * 2021-05-27 2022-12-23 北京师范大学珠海校区 一种基于分布式机器学习的智能计算卸载优化方法

Similar Documents

Publication Publication Date Title
CN113254197B (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN111835827B (zh) 物联网边缘计算任务卸载方法及系统
CN112565331B (zh) 一种基于边缘计算的端-边协同联邦学习优化方法
CN113612843A (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113504987A (zh) 基于迁移学习的移动边缘计算任务卸载方法及装置
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
CN113543342B (zh) 基于noma-mec强化学习资源分配与任务卸载方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN112015481A (zh) 一种基于Multi-Agent强化学习的移动边缘计算卸载算法
CN110531996B (zh) 一种多微云环境下基于粒子群优化的计算任务卸载方法
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
CN112511336B (zh) 一种边缘计算系统中的在线服务放置方法
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN111158912B (zh) 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN114065863B (zh) 联邦学习的方法、装置、系统、电子设备及存储介质
CN110955463A (zh) 支持边缘计算的物联网多用户计算卸载方法
CN112995343B (zh) 一种具有性能与需求匹配能力的边缘节点计算卸载方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
Wang et al. Online service migration in mobile edge with incomplete system information: A deep recurrent actor-critic learning approach
CN114968402A (zh) 边缘计算任务处理方法、装置及电子设备
CN116467009A (zh) 一种基于深度强化学习的动态资源分配的任务卸载方法
CN116938323B (zh) 一种基于强化学习的卫星转发器资源分配方法
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201201

WD01 Invention patent application deemed withdrawn after publication