CN116193471A - 一种基于深度强化学习的边缘计算卸载方法 - Google Patents

一种基于深度强化学习的边缘计算卸载方法 Download PDF

Info

Publication number
CN116193471A
CN116193471A CN202211693834.6A CN202211693834A CN116193471A CN 116193471 A CN116193471 A CN 116193471A CN 202211693834 A CN202211693834 A CN 202211693834A CN 116193471 A CN116193471 A CN 116193471A
Authority
CN
China
Prior art keywords
sub
unloading
offloading
reinforcement learning
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211693834.6A
Other languages
English (en)
Inventor
张瑛
梁博轩
文雨农
丁汀
胡亚捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211693834.6A priority Critical patent/CN116193471A/zh
Publication of CN116193471A publication Critical patent/CN116193471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Warehouses Or Storage Devices (AREA)

Abstract

本发明属于移动边缘网络计算卸载领域,具体涉及一种基于深度强化学习的边缘计算卸载方法。本发明首先将移动边缘网络中计算卸载问题建模为多目标优化问题,综合考虑时延与能耗,其中需要优化的参数为卸载决策、设备的CPU频率以及发射功率。采用分解的思想将MOP分解为一系列标量优化子问题,然后将每个子问题建模为马尔科夫决策过程,根据基于邻域的参数传递策略和DRL训练算法,协同优化所有子问题的模型参数。进一步得到问题的帕累托最优解。

Description

一种基于深度强化学习的边缘计算卸载方法
技术领域
本发明属于移动边缘网络计算卸载领域,具体涉及一种基于深度强化学习的边缘计算卸载方法。
背景技术
当前用户设备所产生的应用愈加复杂,对计算能力的要求也越来越高,移动边缘计算(Mobile Edge Computing,,MEC)被视为处理这种应用请求的可靠途径。而MEC中任务的计算卸载一直是其中的关键性问题,完善的计算卸载决策及其相应的最优资源分配方案能够极大地提升MEC的服务性能以及用户体验。另外在问题求解过程中,如何有效的提高计算效率,以满足MEC的低延迟等特性同样具有重要的研究意义。
多目标优化问题(MOP)是在现实各个领域中都普遍存在的问题,多目标优化的概念是在某个情景中需要同时达到多个目标时,由于容易存在目标间的内在冲突,一个目标的优化是以其他目标劣化为代价,每个目标不可能都同时达到最优,必须各有权重。但是,究竟要怎样分配这样的权重,这已经成为人们研究的热点问题。典型的多目标问题求解思路时对多目标问题进行数学建模,将其抽象为数值函数的优化问题。
作为能够处理海量数据的强大分析工具,深度学习可以对复杂环境进行特征提取,因而将深度学习应用在MEC计算卸载问题模型中非常具有可行性。此外,将深度学习与强化学习相结合所组成的深度强化学习,同时具备深度学习的强大分析能力和强化学习的复杂探索交互能力,可以被用来解决相对复杂环境下的问题。本文主要将深度学习和深度强化学习应用在MEC计算卸载相关领域,并且根据基于邻域的参数传递策略和DRL训练算法,通过训练好的神经网络模型可以直接获得帕累托前沿(PF)。
发明内容
本发明提出一种基于深度确定性策略梯度算法和邻域的参数传递策略的计算卸载求解方法(DDPG-OLA),其可以有效地发挥深度强化学习的优势,快速获得帕累托最优解。与现有的并行方法相比,该方法具有更好的模型性能和更短的求解时间。
本发明的解决方案是:首先,将移动边缘网络中计算卸载问题建模为多目标优化问题,综合考虑时延与能耗,其中需要优化的参数为卸载决策、设备的CPU频率以及发射功率。采用分解的思想将MOP分解为一系列标量优化子问题,然后将每个子问题建模为马尔科夫决策过程,根据基于邻域的参数传递策略和DRL训练算法,协同优化所有子问题的模型参数。进一步得到问题的帕累托最优解。
本发明的具体步骤为:
步骤1:将计算卸载问题建模为多目标优化问题,优化目标为时延与能耗:
Figure SMS_1
Figure SMS_2
Figure SMS_3
C3:0≤pi≤pmaxi∈N
C4:si∈{0,1}i∈N
其中
Figure SMS_4
si为卸载决策,
Figure SMS_5
为将任务卸载至MEC服务器时的时延,
Figure SMS_6
为移动设备i本地执行的时延,
Figure SMS_7
为将任务卸载至MEC服务器时的能耗,
Figure SMS_8
为移动设备i本地执行的能耗;约束条件Cl表示每个任务的执行时间不能超过其允许的最大时延
Figure SMS_9
C2表示设备的本地CPU工作频率只能在有限的范围内动态调节,C3表示设备的传输功率最大为pmax,C4表示任务的卸载为二进制卸载;
步骤2:采用线性分解的策略将问题分解为多个子问题;
步骤3:将每个子问题都建模成一个马尔科夫决策过程并使用DRL中的DDPG算法对其中的一个子问题的模型进行训练;
步骤4:根据基于邻域的参数转移策略进一步协同优化所有子问题的模型参数;
步骤5:重复步骤3和步骤4对每个设备的任务进行训练求解,得到训练好的模型;
步骤6:利用训练好的模型进行多目标优化问题的求解,得到该问题的帕累托前沿。
本发明的有益效果为,本发明是一种基于深度强化学习的边缘计算卸载方法,其利用线性分解策略将多目标优化问题分解为一组标量优化子问题,并以协作方式去求解模型参数。解决每个标量优化问题都可以获得一个帕累托最优解,因此当解出所有的子问题时,就可以得到期望的PF。
附图说明
图1为本发明方法顶层结构示意图;
图2为应用本文方法求解出的帕累托前沿。
具体实施方式
下面结合仿真以证明本发明的有效性和取得的进步:
如图1所示,为本发明的流程,具体包括:
步骤1:将计算卸载问题建模为多目标优化问题,这里的卸载决策考虑二进制卸载。
步骤1-1:考虑移动设备i本地执行的时延为
Figure SMS_10
能耗为
Figure SMS_11
其中ci为计算执行任务所需要的CPU工作周期数,
Figure SMS_12
为移动设备CPU的工作频率,k为硬件相关系数,其具体值与具体的芯片结构相关联,在这里设置其为常数值10-26
步骤1-2:考虑将任务卸载至MEC服务器时的时延为
Figure SMS_13
能耗为
Figure SMS_14
其中di为计算任务的数据量大小,fC为服务器CPU的工作频率,ri为数据传输速率,依据香农定理,ri可表示为:
Figure SMS_15
其中w为信道的带宽,pi表示传输功率,hi表示移动设备i与小型基站(SBS)之间的信道系数,σ2为传输过程中的噪声功率。
步骤1-3:将问题建模为多目标优化问题,并考虑一定的约束可以得到:
Figure SMS_16
其中
Figure SMS_17
si为卸载决策。
步骤1-4:考虑约束条件以及要优化的参数,
Figure SMS_18
Figure SMS_19
C3:0≤pi≤pmax i∈N
C4:si∈{0,1} i∈N
其中C1表示每个任务的执行时间不能超过其允许的最大时延。C2表示设备的本地CPU工作频率只能在有限的范围内动态调节,C3对设备的传输功率做了限制,C4表示任务的卸载为二进制卸载。
步骤2:通过线性加权和的方法将子任务分解为一系列标量子问题。给出一组均匀分布的权重向量λ1,…,λN,比如说(1,0),(0.9,0.1),…,(0,1),这里
Figure SMS_20
其中M表示优化目标的数量,本方法中优化目标有能耗和时延两个,M取2。分解后的第j个子问题的目标函数如下所示:
Figure SMS_21
步骤3:为了通过DRL解决每个子问题,将子问题建模成为马尔可夫决策过程,通过DDPG算法对一个子问题进行求解。
步骤3-1:进行状态空间、动作空间以及奖励值的设置,状态空间和动作空间的设置一致,为{卸载决策,CPU工作频率,发射功率},奖励值设置为当前状态的目标函数值减去下一状态的目标函数值。
步骤3-2:使用DDPG算法进行模型的训练。
步骤3-3:进行简单的前向传播得到子问题的帕累托最优解。
步骤4:通过基于邻域的参数转移策略以协作方式解决N个标量优化子问题。
步骤4-1:在步骤三的基础上,取出第i一1个子问题训练好的模型,再加以少量的训练,便可以得到第i个子问题的模型,因为两个问题的权重向量是相邻的,因此,子问题通过其相邻子问题的知识来辅助解决是可行的。
步骤5:重复上述的步骤对每个设备的任务进行训练求解。
步骤6:利用训练好的每个模型进行简单的前向传播,以此得到最终的近似PF。
将本发明提出的基于深度强化学习的边缘计算卸载方法应用于单个小区,即只含有一个边缘服务器,假设不考虑信道数量,每个移动设备在单个小区中通过OFDMA访问边缘服务器,因此设备与设备之间没有干扰。
为了验证本方法求解的正确性,本发明进行了仿真实验。首先固定权重为0.8,训练批次设置为1000,步长为100。从图中可以看出,对于测试的所有方法,采用深度强化学习DDPG算法可以获得更小的计算代价,由此可知该方法对于求解该问题是可行的。
同时,为了验证本发明方法求解PF的可行性,考虑模型间的参数传递,当第一个模型训练好之后,修改权重,读取上一个模型的参数,再进行小批次的训练,不断重复。最终得到的PF如图所示,由此可以看出,该方法对于获得PF是可行的。

Claims (1)

1.一种基于深度强化学习的边缘计算卸载方法,其特征在于,包括以下步骤:
步骤1:将计算卸载问题建模为多目标优化问题,优化目标为时延与能耗:
Figure QLYQS_1
Figure QLYQS_2
Figure QLYQS_3
C3:0≤pi≤pmaxi∈N
C4:si∈{0,1}i∈N
其中
Figure QLYQS_4
Figure QLYQS_5
si为卸载决策,
Figure QLYQS_6
为将任务卸载至MEC服务器时的时延,
Figure QLYQS_7
为移动设备i本地执行的时延,
Figure QLYQS_8
为将任务卸载至MEC服务器时的能耗,
Figure QLYQS_9
为移动设备i本地执行的能耗;约束条件C1表示每个任务的执行时间不能超过其允许的最大时延
Figure QLYQS_10
C2表示设备的本地CPU工作频率只能在有限的范围内动态调节,C3表示设备的传输功率最大为pmax,C4表示任务的卸载为二进制卸载;
步骤2:采用线性分解的策略将问题分解为多个子问题;
步骤3:将每个子问题都建模成一个马尔科夫决策过程并使用DRL中的DDPG算法对其中的一个子问题的模型进行训练;
步骤4:根据基于邻域的参数转移策略进一步协同优化所有子问题的模型参数;
步骤5:重复步骤3和步骤4对每个设备的任务进行训练求解,得到训练好的模型;
步骤6:利用训练好的模型进行多目标优化问题的求解,得到该问题的帕累托前沿。
CN202211693834.6A 2022-12-28 2022-12-28 一种基于深度强化学习的边缘计算卸载方法 Pending CN116193471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211693834.6A CN116193471A (zh) 2022-12-28 2022-12-28 一种基于深度强化学习的边缘计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211693834.6A CN116193471A (zh) 2022-12-28 2022-12-28 一种基于深度强化学习的边缘计算卸载方法

Publications (1)

Publication Number Publication Date
CN116193471A true CN116193471A (zh) 2023-05-30

Family

ID=86435610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211693834.6A Pending CN116193471A (zh) 2022-12-28 2022-12-28 一种基于深度强化学习的边缘计算卸载方法

Country Status (1)

Country Link
CN (1) CN116193471A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117768923A (zh) * 2024-02-22 2024-03-26 武汉电动汽车技术开发有限公司 基于5g短切片专网的新能源汽车数据传输优化方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117768923A (zh) * 2024-02-22 2024-03-26 武汉电动汽车技术开发有限公司 基于5g短切片专网的新能源汽车数据传输优化方法及系统
CN117768923B (zh) * 2024-02-22 2024-05-28 武汉电动汽车技术开发有限公司 基于5g短切片专网的新能源汽车数据传输优化方法及系统

Similar Documents

Publication Publication Date Title
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN113504999B (zh) 一种面向高性能分层联邦边缘学习的调度与资源分配方法
CN110928654A (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
Wang et al. Dynamic resource allocation for jointing vehicle-edge deep neural network inference
CN116193471A (zh) 一种基于深度强化学习的边缘计算卸载方法
KR20230007941A (ko) 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법
Niu et al. Deep learning for online computation offloading and resource allocation in NOMA
CN113051130A (zh) 结合注意力机制的lstm网络的移动云负载预测方法及系统
Li et al. Deep neural network based computational resource allocation for mobile edge computing
Zhang et al. Resource allocation for multi-user MEC system: machine learning approaches
CN111343602B (zh) 基于进化算法的联合布局与任务调度优化方法
CN117709415A (zh) 一种量子神经网络模型的优化方法及装置
Xu et al. Deep reinforcement learning for communication and computing resource allocation in RIS aided MEC networks
Ansere et al. Quantum deep reinforcement learning for dynamic resource allocation in mobile edge computing-based IoT systems
CN112445617A (zh) 一种基于移动边缘计算的负载策略选择方法及系统
CN116887205A (zh) 一种面向物联网协同智能的无线联邦分割学习算法
Sarje et al. Parallel performance optimizations on unstructured mesh-based simulations
CN114980216B (zh) 基于移动边缘计算的依赖型任务卸载系统及方法
Wang et al. Energy-efficient admission of delay-sensitive tasks for multi-mobile edge computing servers
Guo et al. MADRLOM: A Computation offloading mechanism for software-defined cloud-edge computing power network
Wang et al. Convergence Time Minimization for Federated Reinforcement Learning over Wireless Networks
Song et al. FAST-RAM: A Fast AI-assistant Solution for Task Offloading and Resource Allocation in MEC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination