CN114205353A - 一种基于混合动作空间强化学习算法的计算卸载方法 - Google Patents

一种基于混合动作空间强化学习算法的计算卸载方法 Download PDF

Info

Publication number
CN114205353A
CN114205353A CN202111424091.8A CN202111424091A CN114205353A CN 114205353 A CN114205353 A CN 114205353A CN 202111424091 A CN202111424091 A CN 202111424091A CN 114205353 A CN114205353 A CN 114205353A
Authority
CN
China
Prior art keywords
data
task
mobile device
edge server
unloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111424091.8A
Other languages
English (en)
Other versions
CN114205353B (zh
Inventor
杨钊
王廷
蔡海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202111424091.8A priority Critical patent/CN114205353B/zh
Publication of CN114205353A publication Critical patent/CN114205353A/zh
Application granted granted Critical
Publication of CN114205353B publication Critical patent/CN114205353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于混合动作空间强化学习算法的计算卸载方法,该方法包括步骤:a)在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型;b)获取请求任务的状态;c)获得学习模型和d)求解卸载决策;通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间,并且通过为离散行为和连续行为分别制定不同的决策策略,取得更有效的优化效果。本发明基于处理具有混合动作空间的深度强化学习算法,将移动设备的任务完成时延和能量消耗作为优化目标,与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗,提升用户体验质量。

Description

一种基于混合动作空间强化学习算法的计算卸载方法
技术领域
本发明涉及强化学习方法法应用于边缘计算领域,特别是涉及一种基于混合动作空间强化学习算法的计算卸载方法。
背景技术
随着物联网设备,如智能手机、传感器和可穿戴设备等的快速增长和应用,具有计算密集型任务的高级应用正在出现。然而,物联网设备通常具有有限的计算能力和内存限制。为了解决计算密集型应用和资源有限的物联网设备之间的冲突,一些计算任务必须被卸载到具有足够计算能力的服务器上。因此,云计算被提出来为物联网设备计算和存储提供强大的能力。然而,云服务器在物理上或逻辑上离设备很远,可能会产生很长的延迟,不能满足超低延迟的要求。
这一问题可以通过在网络边缘提供计算服务的移动边缘计算(MEC)得到缓解。MEC将原本位于云数据中心的服务和功能“下沉”到移动网络的边缘,通过在移动网络边缘部署计算、存储、网络和通信等资源,不仅减少了网络操作,而且降低了服务交付时延,提升用户服务体验。同时,大幅增长的网络数据,对回传链路和移动核心网造成了巨大的链路负载,MEC在网络边缘部署服务器后,可以在边缘对用户进行响应,降低了对回传网和核心网的带宽要求。为了实现对MEC系统计算资源的有效利用,满足设备的计算需求,需要采用一个智能计算卸载策略。因此,计算卸载策略吸引了众多学者进行研究,已有丰硕的研究成果,有许多不同的技术方法。
在现有的关于计算卸载策略研究的方法中,一类是采用基于优化或博弈的算法用来解决计算卸载问题的方法。该类方法大多采用基于Lyapunov优化方法或基于Stackelberg博弈论的方法将计算卸载问题建模为NP-hard问题,进而能够在卸载过程中动态的调整卸载策略,从而能够降低MEC系统的时延和能量消耗。但是该类采用基于优化或博弈的算法的方法只能得到一个近似的最佳解,且需要环境统计的先验知识,而这在动态MEC系统中可能无法实际获得。为了解决这些问题,研究人员已经转向将计算卸载问题建模为马尔可夫决策过程(MDP),并用强化学习(RL)或深度强化学习(DRL)方法来解决。
DRL最近取得了很大进展,并提出了各种算法。它已被应用于各种应用,如机器人学、计算机视觉和无人机导航。随着DRL的巨大成功,也有一些工作将RL或D RL用于计算卸载问题中。该类方法采用不同的深度学习算法并根据每个设备的本地情况进行观察以及自适应分配从而能够为不同的用户采取分散的计算卸载策略,最终在时延和能量消耗两方面取得比传统方法更显著的优化效果。但是该类方法是在离散行动空间或连续行动空间中建模的,而现实中卸载问题的行动空间往往是连续-离散混合的,每个设备需要共同决定连续和离散的行动来完成卸载过程,因此这些方法会限制对卸载决策的优化,且适应性较差。
发明内容
有鉴于此,本发明的目的在于提供一种基于混合动作空间强化学习算法的计算卸载方法,旨在解决边缘卸载系统中的任务卸载决策和资源分配问题。
为了实现上述目的,本发明提供的技术方案如下:
一种基于混合动作空间强化学习算法的计算卸载方法,该方法包括以下具体步骤:
S1、在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸载环境模型、计算任务模型、计算任务决策模型,计算任务传输网络模型、本地处理时延和能耗模型、卸载处理时延和能耗模型及具有混合动作空间的马尔可夫决策过程卸载模型;
S2、获取请求任务的状态,具体包括:
S201:获取边缘服务器信道带宽Wm和服务器处理能力
Figure BDA0003377605720000026
S202:获取各个移动设备的任务状况和设备的处理能力
Figure BDA0003377605720000027
S3、获得学习模型,具体包括:
S301:获取需要执行的任务序列;
S302:采样k个学习任务,初始化离散行为网络参数θc、连续行为网络参数θd以及评估网络参数θs
S303:采样获得状态行为集合,采取对应的动作,评估奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤S302;
S305:更新系统网络参数,获取学习模型;
S4、求解卸载决策,具体包括:
S401:通过离散行为网络获取离散行为
Figure BDA0003377605720000021
通过连续行为网络获取连续行为
Figure BDA0003377605720000022
其中
Figure BDA0003377605720000023
代表边缘服务器的选择,
Figure BDA0003377605720000024
分别代表卸载率和边缘服务器分配给设备的计算能力;
S402:采取对应的离散行为和连续行为,评估奖励。
步骤S1中所述计算任务模型,其建立具体包括:每个时隙移动设备会产生一个计算密集型任务
Figure BDA0003377605720000025
用任务队列来处理到达其设备上的任务;将移动设备n的任务队列表示为
Figure BDA0003377605720000031
其中
Figure BDA0003377605720000032
表示在时隙t时移动设备n的任务队列中所需处理的数据总量,
Figure BDA0003377605720000033
则表示移动设备n在时隙t内实际处理的数据大小,δ表示处理one-bit数据所需要消耗的计算资源即用CPU计算周期数来表示,Pn被用来表示移动设备的优先级,τn代表设备n在时隙t内对于完成
Figure BDA0003377605720000034
大小的数据的最大延迟容忍度。
步骤S1中所述计算任务决策模型,其建立具体包括:允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用
Figure BDA00033776057200000320
来定义移动设备n是否将任务卸载到边缘服务器上执行,若
Figure BDA0003377605720000035
则表示任务完全在本地执行,而
Figure BDA0003377605720000036
则表示将任务卸载到边缘服务器m上执行;接下来进行卸载率的选择;用
Figure BDA0003377605720000037
表示卸载率,即移动设备n将会将
Figure BDA00033776057200000321
比率大小的数据卸载到边缘服务器m上,剩余的
Figure BDA00033776057200000322
部分的数据将会留在本地设备上执行;特殊的,当
Figure BDA0003377605720000038
时代表移动设备n的任务将会完全在本地执行,当
Figure BDA0003377605720000039
代表移动设备n的任务将会完全卸载到边缘服务器m上执行;最后边缘服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力;模型中使用
Figure BDA00033776057200000310
来表示在时隙t内边缘服务器m为移动设备n分配的计算能力大小。
步骤S1中所述计算任务传输网络模型,其建立具体包括:移动设备n需要通过无线网络数据卸载到边缘服务器m上;由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器上执行的情况,要将服务器的带宽合理分给所有要将任务卸载到该服务器上的移动设备;依据香农公式,采用如下的公式计算不同设备在时隙t内卸载任务到边缘服务器m的上传速率:
Figure BDA00033776057200000311
其中Zn是移动设备用于上传数据的发射功率,hn是移动设备在无线信道中的信道增益,N0是复杂白高斯信道噪声的方差,Pn设备的优先级,Wm代表边缘服务器m的带宽。
步骤S1中所述本地处理时延和能耗模型,其建立具体包括:当移动设备n选择将
Figure BDA00033776057200000312
比率大小的数据卸载到边缘服务器m上时,会有
Figure BDA00033776057200000313
大小的数据留在本地执行,相应的需要的CPU计算周期数为
Figure BDA00033776057200000314
而本地设备处理数据的计算能力大小为
Figure BDA00033776057200000315
所以本地处理数据的时延为:
Figure BDA00033776057200000316
相应的处理该部分的数据所消耗的能量为:
Figure BDA00033776057200000317
其中,Vn为处理数据每个CPU计算周期需要消耗的能量。
步骤S1中所述卸载处理时延和能耗模型,其建立具体包括:移动设备n选择将
Figure BDA00033776057200000318
比率大小的数据通过网络传输到边缘服务器m上时,会有
Figure BDA00033776057200000319
大小的数据卸载到边缘服务器m上,并且需要
Figure BDA0003377605720000041
大小的CPU时钟周期数来处理对应的数据,最后边缘服务器m会将完成的结果返回给设备n;在MEC系统中,将反馈传输的时间和能量消耗忽略不计;在计算任务传输网络模型中得到设备n上传任务到边缘服务器m的上传速率,那么该部分数据的传输时延为:
Figure BDA0003377605720000042
相应的传输该部分数据到边缘服务器m上的能量消耗为:
Figure BDA0003377605720000043
其中en为设备n单位时间传输数据所消耗的能量;则该部分的数据在边缘服务器m上的处理时延为:
Figure BDA0003377605720000044
那么将数据卸载到边缘服务器m上的全部时延为:
Figure BDA0003377605720000045
其中
Figure BDA0003377605720000046
为数据该部分数据的传输时延,
Figure BDA0003377605720000047
为该部分的数据在边缘服务器m上的处理时延。
步骤S1中所述具有混合动作空间的马尔可夫决策过程为:Tn=(S,A,R,π),式中元素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π;为求解所述马尔可夫决策过程,采用一种基于混合动作空间强化学习算法,该算法是基于强化学习中的Actor-critic架构,其架构中有两个平行的Actor网络及一个Critic网络;首先通过其中一个Actor网络选择要卸载的边缘服务器m,然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力;利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新,从而能够不断的最大化目标函数最终趋于稳定。
与现有技术相比,本发明的有益效果为:
本发明提供的基于混合动作空间强化学习算法的计算卸载方法通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间,并且通过为离散行为和连续行为分别制定不同的决策策略,能够取得更有效的优化效果。且本发明在任务卸载粒度的选择上执行了可拆分任务的形式,而非传统的二进制卸载策略,此方式能够更有效的利用边缘卸载系统中服务器和各设备的计算资源,从而能够达到时延更小的优化目标。最后本发明基于处理具有混合动作空间的深度强化学习算法,能够解决有效计算卸载与资源分配问题,解决传统深度强化学习算法对新任务的采样效率低的问题,实现在动态环境中的快速计算卸载决策。
综上,本发明将计算卸载过程中的卸载决策和资源分配行为划分为具有离散行为选择和连续行为决策的混合动作空间,在卸载决策过程中选择上执行了可拆分任务的形式,而且采取了多设备多服务器的环境模型,最后本发明基于处理具有混合动作空间的深度强化学习算法,将移动设备的任务完成时延和能量消耗作为优化目标,与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗,提升用户体验质量。
附图说明
图1为本发明实施例1提供的基于混合动作空间强化学习算法的计算卸载方法模型图;
图2为本发明实施例1提供的具有混合动作空间的动作决策图;
图3为本发明实施例2算法设计提供的深度强化学习算法图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
实施例1
1)模型建立
本实施例在移动协作式应用场景下建立具有混合动作空间的任务协作卸载与资源分配模型。如图1所示:模型建立的步骤如下:
(1)边缘卸载环境:据基站地理空间分布将边缘服务器分组为协作集群,在协作集群中包含数个边缘服务器和数个移动设备,边缘服务器用M={1,2...,M}来表示,移动设备用N={1,2...,N}来表示,并且边缘服务器和移动设备都有处理计算密集型任务的能力。
(2)计算任务:每个时隙移动设备会产生一个计算密集型任务
Figure BDA0003377605720000051
Figure BDA0003377605720000052
表示任务
Figure BDA0003377605720000053
的大小,且
Figure BDA0003377605720000054
Ba表示一个卸载任务的平均大小,β是一个服从高斯分布的参数。由于移动设备的计算能力有限导致一个任务很可能不能在一个时隙内完成,所以用任务队列来处理到达该设备上的任务。将移动设备n的任务队列表示为
Figure BDA0003377605720000055
其中
Figure BDA0003377605720000056
表示在时隙t时移动设备n的任务队列中的需要处理的数据总量。
Figure BDA0003377605720000057
则表示移动设备n在时隙t内实际处理的数据大小,它与任务队列中剩余的数据以及移动设备n的最大处理任务负荷有关,因此
Figure BDA0003377605720000058
其中bn,max代表设备n在每个时隙内最多能够处理的数据总量。δ表示处理one-bit数据所需要消耗的计算资源(用CPU计算周期数来表示),Pn被用来表示移动设备的优先级,每一类设备具有不同的优先级,优先级越高,则Pn越大,代表该类设备的任务会被优先处进行理。τn代表设备n在时隙t内对于完成
Figure BDA0003377605720000059
大小的数据的最大延迟容忍度。则
Figure BDA00033776057200000510
其中Bn,max代表了设备n的任务队列最多可容纳的数据量。
(3)计算任务决策:如图2所示,本发明采用更细粒度的而非传统的二进制卸载方法,即允许设备n将任务的一部分卸载到边缘服务器上进行处理。首先需要进行卸载决策的选择,用
Figure BDA00033776057200000516
来定义移动设备n是否将任务卸载到边缘服务器上执行,若
Figure BDA00033776057200000511
则表示任务完全在本地执行,而
Figure BDA00033776057200000512
则表示将任务卸载到边缘服务器m上执行。接下来需要进行卸载率的选择,用
Figure BDA00033776057200000513
表示卸载率,即移动设备n将会将
Figure BDA00033776057200000517
比率大小的数据卸载到服务器上,剩余的
Figure BDA00033776057200000514
部分的数据将会留在本地设备上执行。特殊的,当
Figure BDA00033776057200000515
时代表移动设备n的任务将会完全在本地执行,当
Figure BDA0003377605720000061
代表移动设备n的任务将会完全卸载到边缘服务器上执行。在本地移动设备n上进行处理的任务将会占用本地设备的全部计算能力
Figure BDA0003377605720000062
即本地设备会以大小为
Figure BDA0003377605720000063
的CPU时钟周期频率去处理需要在本地设备上完成的数据。最后服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配合适的计算能力,使用
Figure BDA0003377605720000064
来表示在时隙t内服务器m为移动设备n分配的计算能力大小。
(4)任务传输网络:移动设备n需要通过无线网络数据卸载到服务器m上。由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器m上执行的情况,需要将服务器m的带宽Wm合理分给所有要将任务卸载到该服务器上的移动设备。在考虑到不同设备的优先级的情况下,依据香农公式,采用了如下的公式计算不同设备在时隙t内卸载任务到服务器m的上传速率:
Figure BDA0003377605720000065
Zn是移动设备用于上传数据的发射功率,hn是移动设备在无线信道中的信道增益,N0是复杂白高斯信道噪声的方差,Pn设备的优先级,Wm代表服务器m的带宽。
(5)本地处理时延和能耗:
任务在移动设备本地执行时延为
Figure BDA0003377605720000066
其中
Figure BDA0003377605720000067
为本地设备处理该部分数据所需要消耗的计算资源(CPU cycles),本地设备n的CPU计算能力为
Figure BDA0003377605720000068
(CPUcycle/s)。
任务在移动设备本地执行能耗:
Figure BDA0003377605720000069
其中Vn为本地设备n上每个CPU计算周期所消耗的能量,k为能量系数。
Figure BDA00033776057200000610
为本地设备处理该部分数据所需要消耗的计算资源(CPU cycles)。
(6)卸载处理时延和能耗:
任务通过计算卸载到边缘执行的数据上传时延为:
Figure BDA00033776057200000611
其中
Figure BDA00033776057200000612
代表移动设备n上传到服务器的数据大小,
Figure BDA00033776057200000613
代表服务器m分配给移动设备n的上传速率。
任务通过计算卸载到边缘执行的任务处理时延为:
Figure BDA00033776057200000614
其中
Figure BDA00033776057200000615
为服务器处理该部分数据所需要消耗的计算资源(CPU cycles),服务器m分配给移动设备n的CPU计算能力为
Figure BDA00033776057200000616
(CPU cycle/s)。
任务通过计算卸载到边缘执行的总时延为:
Figure BDA0003377605720000071
其中
Figure BDA0003377605720000072
表示任务通过计算卸载到边缘执行的数据上传时延,
Figure BDA0003377605720000073
为任务通过计算卸载到边缘执行的任务处理时延。
任务通过计算卸载的能量消耗主要为上传数据所消耗的能量:
Figure BDA0003377605720000074
其中为设备n单位时间传输数据所消耗的能量。
总处理时延和能耗:
在该时隙内,移动设备n和边缘服务器联合处理移动设备n的任务队列中大小为
Figure BDA0003377605720000075
的数据的总时延为:
Figure BDA0003377605720000076
其中
Figure BDA0003377605720000077
为任务在移动设备本地的执行时延,
Figure BDA0003377605720000078
为任务通过计算卸载到边缘执行的总时延。
在该时隙内,移动设备n和边缘服务器联合处理移动设备n的任务队列中大小为
Figure BDA0003377605720000079
的数据所消耗的总能量为:
Figure BDA00033776057200000710
其中
Figure BDA00033776057200000711
为任务在移动设备本地的执行能耗,
Figure BDA00033776057200000712
为任务通过计算卸载所消耗的能量。
(7)具有混合动作空间的马尔可夫决策过程卸载模型:根据整个边缘卸载系统中服务器和移动设备的状况建模为参数化马尔科夫决策过程(PAMDP),参数化马尔可夫决策过程为:Tn=(S,A,R,π),式中元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略。
(a)状态:状态空间为
Figure BDA00033776057200000713
其中
Figure BDA00033776057200000714
表示移动设备i在时隙t内需要处理的数据总量,Pi(i∈[1,n])表示移动设备n的优先级,Wj(j∈[1,m])表示边缘服务器m的带宽,fj,max(j∈[1,m])表示边缘服务器m拥有的计算能力。
允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用
Figure BDA00033776057200000721
来定义移动设备n是否将任务卸载到边缘服务器上执行,若
Figure BDA00033776057200000715
则表示任务完全在本地执行,而
Figure BDA00033776057200000716
则表示将任务卸载到边缘服务器k上执行;接下来进行卸载率的选择;用
Figure BDA00033776057200000722
表示卸载率,即移动设备n将会将
Figure BDA00033776057200000723
比率大小的数据卸载到服务器上,剩余的
Figure BDA00033776057200000724
部分的数据将会留在本地设备上执行;特殊的,当
Figure BDA00033776057200000717
时代表移动设备n的任务将会完全在本地执行,当
Figure BDA00033776057200000718
代表移动设备n的任务将会完全卸载到边缘服务器上执行;最后服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力,模型中使用
Figure BDA00033776057200000719
Figure BDA00033776057200000720
来表示在时隙t内服务器m为移动设备n分配的计算能力大小。
(b)动作:动作空间为
Figure BDA0003377605720000081
其中
Figure BDA00033776057200000814
为离散行为决策,代表移动设备n决策将任务卸载到哪个服务器上进行处理。
Figure BDA0003377605720000082
为连续参数选择,
Figure BDA00033776057200000815
代表卸载率,即移动设备n将会将
Figure BDA00033776057200000816
比率大小的数据卸载到服务器上,剩余的
Figure BDA00033776057200000817
部分的数据将会留在本地设备上执行,
Figure BDA0003377605720000083
为服务器m分配给移动设备n的CPU计算能力。根据采取的行为
Figure BDA0003377605720000084
能获取在下一个时隙的状态St+1和整个系统在这个时隙因采取行动获取的奖励Rt
(c)奖励:由于系统目标是最小化MEC系统的任务处理延迟和平均能量消耗,所以将奖励分为两部分,第一部分与处理任务的时间延迟相关,第二部分与为了完成任务所消耗的能量有关。与处理任务的时间延迟相关的奖励为:
Figure BDA0003377605720000085
其中DLocal代表移动设备n的任务队列中
Figure BDA0003377605720000086
大小的数据完全在本地处理所花费的时间,
Figure BDA0003377605720000087
代表任务的重要性。
与完成任务所消耗的能量部分的奖励被定义为:
Figure BDA0003377605720000088
其中ELogal代表移动设备n的任务队列中
Figure BDA0003377605720000089
大小的数据完全在本地处理所消耗的能量,
Figure BDA00033776057200000810
代表任务的重要性。因此,奖励被定义为
Figure BDA00033776057200000811
其中ωd和ωe分别为与处理任务的时间延迟相关的奖励和与完成任务所消耗的能量相关的奖励的参数。
(d)策略:任务到达时的离散行为策略为
Figure BDA00033776057200000812
连续行为策略为
Figure BDA00033776057200000813
分别获取离散行动的选择4和连续参数的决策,而且要执行的完整动作是基于所选择的离散行动和连续参数的配对。在执行完动作之后,系统即进入一个新的状态并得到一个奖励,直到时间结束。
实施例2
算法设计
为了求解上述马尔可夫决策过程,本发明采用了一种基于混合动作空间强化学习算法,该算法的网络架构如图3所示。该算法是基于强化学习中的Actor-critic架构,有两个平行的Actor网络。这两个平行的Actor网络分别负责离散行动的选择和连续参数的决策。要执行的完整动作是基于所选择的离散行动和连续参数的配对,并且这两个Actor网络共享前几层编码信息来简化模型结构。除了两个平行的Actor网络之外,还有一个Critic网络,这个网络扮演着状态-价值函数的角色。在策略梯度优化上采用了PPO算法。
任务协作卸载算法的训练过程主要为深度强化学习算法训练,下面对这个部分的训练方法进行详细讨论。
算法的深度强化学习部分
本发明基于PPO(Proximal Policy Optimization)算法对上述网络进行训练,PPO算法是目前OpenAI基线集强化学习基准算法的默认算法,它通过简单的clip机制选择目标函数的保守下限,不需要计算TRPO算法约束,从而提高算法的数据采样效率,以及算法的鲁棒性,降低超参数选择的复杂性。PPO算法的具体过程是为待优化的策略维护两个策略网络。第一个策略网络是要优化的策略网络。第二个策略网络是以前用来收集样本的策略网络,现在还没有被更新。然后根据收集的样本,计算出优势估计值
Figure BDA0003377605720000091
最后,通过最大化的目标函数来更新网络参数,从而优化策略πθ。PPO算法的目标函数如下:
Figure BDA0003377605720000092
其中,clip函数用来限制的πθ的范围。rt(θ)为采样策略与目标策略的比值
Figure BDA0003377605720000093
其中,
Figure BDA0003377605720000094
固定用来采样数据,πθ(at|st)不断更新用来训练网络。
Figure BDA0003377605720000095
代表优势估计值:
Figure BDA0003377605720000096
综上所述,策略网络参数优化的更新规则为
Figure BDA0003377605720000097
其中,α为Inner Loop训练的学习率。在经过一定数量的样本学习之后,目标策略网络会将该网络的参数赋给采样策略网络,即
θold←θ
由于在算法架构中两个平行的Actor网络,所以需要同时对两个策略网络进行更新。
离散行为选择的策略网络的目标函数为:
Figure BDA0003377605720000098
连续参数决策的策略网络的目标函数为:
Figure BDA0003377605720000099
这两个目标函数分别按照PPO算法进行梯度更新从而优化这两个行为策略网络的参数。
实施例3
算法流程
本发明提出了一种基于混合动作空间强化学习算法的计算卸载方法,该方法分为为三个阶段:获取系统信息和任务状态,获得学习模型和获取卸载决策。其整体思路如图1所示。
(1)在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型
(2)获取系统信息和任务状态
步骤一:获取边缘服务器信道带宽Wm和服务器处理能力
Figure BDA0003377605720000101
步骤二:获取各个移动设备的任务状况和设备的处理能力
Figure BDA0003377605720000102
步骤三:对系统信息和任务状态进行编码;
(3)获得学习模型
步骤一:获取需要执行的任务序列;
步骤二:采样k个学习任务,初始化离散行为网络参数θc、连续行为网络参数θd以及评估网络参数θs
步骤三:采样获得状态行为集合,采取相应的动作,评估奖励;
步骤四:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤二。步骤五:更新系统网络参数,获取学习模型。
(4)获取卸载决策
步骤一:通过离散行为网络获取离散行为
Figure BDA0003377605720000103
通过连续行为网络获取连续行为
Figure BDA0003377605720000104
其中
Figure BDA0003377605720000105
代表边缘服务器的选择,
Figure BDA0003377605720000106
分别代表卸载率和边缘服务器分配给设备的计算能力。步骤二:采取相应的离散行为和连续行为,评估奖励。

Claims (7)

1.一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,该方法包括以下具体步骤:
S1、在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸载环境模型、计算任务模型、计算任务决策模型,计算任务传输网络模型、本地处理时延和能耗模型、卸载处理时延和能耗模型及具有混合动作空间的马尔可夫决策过程卸载模型;
S2、获取请求任务的状态,具体包括:
S201:获取边缘服务器信道带宽Wm和服务器处理能力
Figure FDA00033776057100000110
S202:获取各个移动设备的任务状况和设备的处理能力
Figure FDA00033776057100000111
S3、获得学习模型,具体包括:
S301:获取需要执行的任务序列;
S302:采样k个学习任务,初始化离散行为网络参数θc、连续行为网络参数θ以及评估网络参数θs
S303:采样获得状态行为集合,采取对应的动作,评估奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤S302;
S305:更新系统网络参数,获取学习模型;
S4、求解卸载决策,具体包括:
S401:通过离散行为网络获取离散行为
Figure FDA0003377605710000011
通过连续行为网络获取连续行为
Figure FDA0003377605710000012
其中
Figure FDA0003377605710000013
代表边缘服务器的选择,
Figure FDA0003377605710000014
分别代表卸载率和边缘服务器分配给设备的计算能力;
S402:采取对应的离散行为和连续行为,评估奖励。
2.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务模型,其建立具体包括:每个时隙移动设备会产生一个计算密集型任务
Figure FDA0003377605710000015
用任务队列来处理到达其设备上的任务;将移动设备n的任务队列表示为
Figure FDA0003377605710000016
其中
Figure FDA0003377605710000017
表示在时隙t时移动设备n的任务队列中所需处理的数据总量,
Figure FDA0003377605710000018
则表示移动设备n在时隙t内实际处理的数据大小,表示处理one-bit数据所需要消耗的计算资源即用CPU计算周期数来表示,被用来表示移动设备的优先级,代表设备n在时隙t内对于完成
Figure FDA0003377605710000019
大小的数据的最大延迟容忍度。
3.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务决策模型,其建立具体包括:允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用
Figure FDA00033776057100000212
来定义移动设备n是否将任务卸载到边缘服务器上执行,若
Figure FDA00033776057100000213
则表示任务完全在本地执行,而
Figure FDA00033776057100000214
则表示将任务卸载到边缘服务器m上执行;接下来进行卸载率的选择;用
Figure FDA00033776057100000215
表示卸载率,即移动设备n将会将
Figure FDA00033776057100000216
比率大小的数据卸载到边缘服务器m上,剩余的
Figure FDA00033776057100000217
部分的数据将会留在本地设备上执行;特殊的,当
Figure FDA00033776057100000218
时代表移动设备n的任务将会完全在本地执行,当
Figure FDA00033776057100000219
代表移动设备n的任务将会完全卸载到边缘服务器m上执行;最后边缘服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力;模型中使用
Figure FDA0003377605710000021
来表示在时隙t内边缘服务器m为移动设备n分配的计算能力大小。
4.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务传输网络模型,其建立具体包括:移动设备n需要通过无线网络数据卸载到边缘服务器m上;由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器上执行的情况,要将服务器的带宽合理分给所有要将任务卸载到该服务器上的移动设备;依据香农公式,采用如下的公式计算不同设备在时隙t内卸载任务到边缘服务器m的上传速率:
Figure FDA0003377605710000022
其中Zn是移动设备用于上传数据的发射功率,hn是移动设备在无线信道中的信道增益,N0是复杂白高斯信道噪声的方差,Pn设备的优先级,Wm代表边缘服务器m的带宽。
5.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述本地处理时延和能耗模型,其建立具体包括:当移动设备n选择将
Figure FDA0003377605710000023
比率大小的数据卸载到边缘服务器m上时,会有
Figure FDA0003377605710000024
大小的数据留在本地执行,相应的需要的CPU计算周期数为
Figure FDA0003377605710000025
而本地设备处理数据的计算能力大小为
Figure FDA0003377605710000026
所以本地处理数据的时延为:
Figure FDA0003377605710000027
相应的处理该部分的数据所消耗的能量为:
Figure FDA0003377605710000028
其中,Vn为处理数据每个CPU计算周期需要消耗的能量。
6.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述卸载处理时延和能耗模型,其建立具体包括:移动设备n选择将
Figure FDA0003377605710000029
比率大小的数据通过网络传输到边缘服务器m上时,会有
Figure FDA00033776057100000210
大小的数据卸载到边缘服务器m上,并且需要
Figure FDA00033776057100000211
大小的CPU时钟周期数来处理对应的数据,最后边缘服务器m会将完成的结果返回给设备n;在MEC系统中,将反馈传输的时间和能量消耗忽略不计;在计算任务传输网络模型中得到设备n上传任务到边缘服务器m的上传速率,那么该部分数据的传输时延为:
Figure FDA0003377605710000031
相应的传输该部分数据到边缘服务器m上的能量消耗为:
Figure FDA0003377605710000032
其中e为设备n单位时间传输数据所消耗的能量;则该部分的数据在边缘服务器m上的处理时延为:
Figure FDA0003377605710000033
那么将数据卸载到边缘服务器m上的全部时延为:
Figure FDA0003377605710000034
其中
Figure FDA0003377605710000035
为数据该部分数据的传输时延,
Figure FDA0003377605710000036
为该部分的数据在边缘服务器m上的处理时延。
7.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述具有混合动作空间的马尔可夫决策过程为:Tn=(S,A,R,π),式中元素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π;为求解所述马尔可夫决策过程,采用一种基于混合动作空间强化学习算法,该算法是基于强化学习中的Actor-critic架构,其架构中有两个平行的Actor网络及一个Critic网络;首先通过其中一个Actor网络选择要卸载的边缘服务器m,然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力;利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新,从而能够不断的最大化目标函数最终趋于稳定。
CN202111424091.8A 2021-11-26 2021-11-26 一种基于混合动作空间强化学习算法的计算卸载方法 Active CN114205353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111424091.8A CN114205353B (zh) 2021-11-26 2021-11-26 一种基于混合动作空间强化学习算法的计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111424091.8A CN114205353B (zh) 2021-11-26 2021-11-26 一种基于混合动作空间强化学习算法的计算卸载方法

Publications (2)

Publication Number Publication Date
CN114205353A true CN114205353A (zh) 2022-03-18
CN114205353B CN114205353B (zh) 2023-08-01

Family

ID=80649243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111424091.8A Active CN114205353B (zh) 2021-11-26 2021-11-26 一种基于混合动作空间强化学习算法的计算卸载方法

Country Status (1)

Country Link
CN (1) CN114205353B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114938381A (zh) * 2022-06-30 2022-08-23 西安邮电大学 一种基于深度强化学习的d2d-mec卸载方法、计算机程序产品
CN115016858A (zh) * 2022-05-24 2022-09-06 武汉大学 一种基于后决策状态深度强化学习的任务卸载方法
CN117553803A (zh) * 2024-01-09 2024-02-13 大连海事大学 一种基于深度强化学习的多无人机智能路径规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257429A (zh) * 2018-09-25 2019-01-22 南京大学 一种基于深度强化学习的计算卸载调度方法
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
US20210271517A1 (en) * 2021-05-19 2021-09-02 Intel Corporation Resource selection based in part on workload
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113568675A (zh) * 2021-07-08 2021-10-29 广东利通科技投资有限公司 一种基于分层强化学习的车联网边缘计算任务卸载方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257429A (zh) * 2018-09-25 2019-01-22 南京大学 一种基于深度强化学习的计算卸载调度方法
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
US20210271517A1 (en) * 2021-05-19 2021-09-02 Intel Corporation Resource selection based in part on workload
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113568675A (zh) * 2021-07-08 2021-10-29 广东利通科技投资有限公司 一种基于分层强化学习的车联网边缘计算任务卸载方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115016858A (zh) * 2022-05-24 2022-09-06 武汉大学 一种基于后决策状态深度强化学习的任务卸载方法
CN115016858B (zh) * 2022-05-24 2024-03-29 武汉大学 一种基于后决策状态深度强化学习的任务卸载方法
CN114938381A (zh) * 2022-06-30 2022-08-23 西安邮电大学 一种基于深度强化学习的d2d-mec卸载方法、计算机程序产品
CN114938381B (zh) * 2022-06-30 2023-09-01 西安邮电大学 一种基于深度强化学习的d2d-mec卸载方法
CN117553803A (zh) * 2024-01-09 2024-02-13 大连海事大学 一种基于深度强化学习的多无人机智能路径规划方法
CN117553803B (zh) * 2024-01-09 2024-03-19 大连海事大学 一种基于深度强化学习的多无人机智能路径规划方法

Also Published As

Publication number Publication date
CN114205353B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN113254197B (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN110377353B (zh) 计算任务卸载系统与方法
CN113612843B (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN109669768B (zh) 一种面向边云结合架构的资源分配和任务调度方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN113032120B (zh) 一种基于边缘计算的工业现场大数据任务协同调度方法
CN110662238A (zh) 一种针对边缘网络下突发请求的强化学习调度方法及设备
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
CN113626104B (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN114285853A (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113364630A (zh) 一种服务质量QoS差异化优化方法、装置
CN114172558B (zh) 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116233927A (zh) 一种在移动边缘计算中负载感知的计算卸载节能优化方法
CN111740925A (zh) 一种基于深度强化学习的Coflow调度方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN116954866A (zh) 基于深度强化学习的边缘云下任务调度方法及系统
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN116828541A (zh) 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统
CN113452625B (zh) 基于深度强化学习的卸载调度与资源分配方法
CN116204319A (zh) 基于sac算法与任务依赖关系的云边端协同卸载方法及系统
CN114968402A (zh) 边缘计算任务处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant