CN114205353A - 一种基于混合动作空间强化学习算法的计算卸载方法 - Google Patents
一种基于混合动作空间强化学习算法的计算卸载方法 Download PDFInfo
- Publication number
- CN114205353A CN114205353A CN202111424091.8A CN202111424091A CN114205353A CN 114205353 A CN114205353 A CN 114205353A CN 202111424091 A CN202111424091 A CN 202111424091A CN 114205353 A CN114205353 A CN 114205353A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- mobile device
- edge server
- unloading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1008—Server selection for load balancing based on parameters of servers, e.g. available memory or workload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/101—Server selection for load balancing based on network conditions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于混合动作空间强化学习算法的计算卸载方法,该方法包括步骤:a)在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型;b)获取请求任务的状态;c)获得学习模型和d)求解卸载决策;通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间,并且通过为离散行为和连续行为分别制定不同的决策策略,取得更有效的优化效果。本发明基于处理具有混合动作空间的深度强化学习算法,将移动设备的任务完成时延和能量消耗作为优化目标,与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗,提升用户体验质量。
Description
技术领域
本发明涉及强化学习方法法应用于边缘计算领域,特别是涉及一种基于混合动作空间强化学习算法的计算卸载方法。
背景技术
随着物联网设备,如智能手机、传感器和可穿戴设备等的快速增长和应用,具有计算密集型任务的高级应用正在出现。然而,物联网设备通常具有有限的计算能力和内存限制。为了解决计算密集型应用和资源有限的物联网设备之间的冲突,一些计算任务必须被卸载到具有足够计算能力的服务器上。因此,云计算被提出来为物联网设备计算和存储提供强大的能力。然而,云服务器在物理上或逻辑上离设备很远,可能会产生很长的延迟,不能满足超低延迟的要求。
这一问题可以通过在网络边缘提供计算服务的移动边缘计算(MEC)得到缓解。MEC将原本位于云数据中心的服务和功能“下沉”到移动网络的边缘,通过在移动网络边缘部署计算、存储、网络和通信等资源,不仅减少了网络操作,而且降低了服务交付时延,提升用户服务体验。同时,大幅增长的网络数据,对回传链路和移动核心网造成了巨大的链路负载,MEC在网络边缘部署服务器后,可以在边缘对用户进行响应,降低了对回传网和核心网的带宽要求。为了实现对MEC系统计算资源的有效利用,满足设备的计算需求,需要采用一个智能计算卸载策略。因此,计算卸载策略吸引了众多学者进行研究,已有丰硕的研究成果,有许多不同的技术方法。
在现有的关于计算卸载策略研究的方法中,一类是采用基于优化或博弈的算法用来解决计算卸载问题的方法。该类方法大多采用基于Lyapunov优化方法或基于Stackelberg博弈论的方法将计算卸载问题建模为NP-hard问题,进而能够在卸载过程中动态的调整卸载策略,从而能够降低MEC系统的时延和能量消耗。但是该类采用基于优化或博弈的算法的方法只能得到一个近似的最佳解,且需要环境统计的先验知识,而这在动态MEC系统中可能无法实际获得。为了解决这些问题,研究人员已经转向将计算卸载问题建模为马尔可夫决策过程(MDP),并用强化学习(RL)或深度强化学习(DRL)方法来解决。
DRL最近取得了很大进展,并提出了各种算法。它已被应用于各种应用,如机器人学、计算机视觉和无人机导航。随着DRL的巨大成功,也有一些工作将RL或D RL用于计算卸载问题中。该类方法采用不同的深度学习算法并根据每个设备的本地情况进行观察以及自适应分配从而能够为不同的用户采取分散的计算卸载策略,最终在时延和能量消耗两方面取得比传统方法更显著的优化效果。但是该类方法是在离散行动空间或连续行动空间中建模的,而现实中卸载问题的行动空间往往是连续-离散混合的,每个设备需要共同决定连续和离散的行动来完成卸载过程,因此这些方法会限制对卸载决策的优化,且适应性较差。
发明内容
有鉴于此,本发明的目的在于提供一种基于混合动作空间强化学习算法的计算卸载方法,旨在解决边缘卸载系统中的任务卸载决策和资源分配问题。
为了实现上述目的,本发明提供的技术方案如下:
一种基于混合动作空间强化学习算法的计算卸载方法,该方法包括以下具体步骤:
S1、在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸载环境模型、计算任务模型、计算任务决策模型,计算任务传输网络模型、本地处理时延和能耗模型、卸载处理时延和能耗模型及具有混合动作空间的马尔可夫决策过程卸载模型;
S2、获取请求任务的状态,具体包括:
S3、获得学习模型,具体包括:
S301:获取需要执行的任务序列;
S302:采样k个学习任务,初始化离散行为网络参数θc、连续行为网络参数θd以及评估网络参数θs;
S303:采样获得状态行为集合,采取对应的动作,评估奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤S302;
S305:更新系统网络参数,获取学习模型;
S4、求解卸载决策,具体包括:
S402:采取对应的离散行为和连续行为,评估奖励。
步骤S1中所述计算任务模型,其建立具体包括:每个时隙移动设备会产生一个计算密集型任务用任务队列来处理到达其设备上的任务;将移动设备n的任务队列表示为其中表示在时隙t时移动设备n的任务队列中所需处理的数据总量,则表示移动设备n在时隙t内实际处理的数据大小,δ表示处理one-bit数据所需要消耗的计算资源即用CPU计算周期数来表示,Pn被用来表示移动设备的优先级,τn代表设备n在时隙t内对于完成大小的数据的最大延迟容忍度。
步骤S1中所述计算任务决策模型,其建立具体包括:允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用来定义移动设备n是否将任务卸载到边缘服务器上执行,若则表示任务完全在本地执行,而则表示将任务卸载到边缘服务器m上执行;接下来进行卸载率的选择;用表示卸载率,即移动设备n将会将比率大小的数据卸载到边缘服务器m上,剩余的部分的数据将会留在本地设备上执行;特殊的,当时代表移动设备n的任务将会完全在本地执行,当代表移动设备n的任务将会完全卸载到边缘服务器m上执行;最后边缘服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力;模型中使用来表示在时隙t内边缘服务器m为移动设备n分配的计算能力大小。
步骤S1中所述计算任务传输网络模型,其建立具体包括:移动设备n需要通过无线网络数据卸载到边缘服务器m上;由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器上执行的情况,要将服务器的带宽合理分给所有要将任务卸载到该服务器上的移动设备;依据香农公式,采用如下的公式计算不同设备在时隙t内卸载任务到边缘服务器m的上传速率:
其中Zn是移动设备用于上传数据的发射功率,hn是移动设备在无线信道中的信道增益,N0是复杂白高斯信道噪声的方差,Pn设备的优先级,Wm代表边缘服务器m的带宽。
步骤S1中所述本地处理时延和能耗模型,其建立具体包括:当移动设备n选择将比率大小的数据卸载到边缘服务器m上时,会有大小的数据留在本地执行,相应的需要的CPU计算周期数为而本地设备处理数据的计算能力大小为所以本地处理数据的时延为:相应的处理该部分的数据所消耗的能量为:其中,Vn为处理数据每个CPU计算周期需要消耗的能量。
步骤S1中所述卸载处理时延和能耗模型,其建立具体包括:移动设备n选择将比率大小的数据通过网络传输到边缘服务器m上时,会有大小的数据卸载到边缘服务器m上,并且需要大小的CPU时钟周期数来处理对应的数据,最后边缘服务器m会将完成的结果返回给设备n;在MEC系统中,将反馈传输的时间和能量消耗忽略不计;在计算任务传输网络模型中得到设备n上传任务到边缘服务器m的上传速率,那么该部分数据的传输时延为:相应的传输该部分数据到边缘服务器m上的能量消耗为:其中en为设备n单位时间传输数据所消耗的能量;则该部分的数据在边缘服务器m上的处理时延为:那么将数据卸载到边缘服务器m上的全部时延为:其中为数据该部分数据的传输时延,为该部分的数据在边缘服务器m上的处理时延。
步骤S1中所述具有混合动作空间的马尔可夫决策过程为:Tn=(S,A,R,π),式中元素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π;为求解所述马尔可夫决策过程,采用一种基于混合动作空间强化学习算法,该算法是基于强化学习中的Actor-critic架构,其架构中有两个平行的Actor网络及一个Critic网络;首先通过其中一个Actor网络选择要卸载的边缘服务器m,然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力;利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新,从而能够不断的最大化目标函数最终趋于稳定。
与现有技术相比,本发明的有益效果为:
本发明提供的基于混合动作空间强化学习算法的计算卸载方法通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间,并且通过为离散行为和连续行为分别制定不同的决策策略,能够取得更有效的优化效果。且本发明在任务卸载粒度的选择上执行了可拆分任务的形式,而非传统的二进制卸载策略,此方式能够更有效的利用边缘卸载系统中服务器和各设备的计算资源,从而能够达到时延更小的优化目标。最后本发明基于处理具有混合动作空间的深度强化学习算法,能够解决有效计算卸载与资源分配问题,解决传统深度强化学习算法对新任务的采样效率低的问题,实现在动态环境中的快速计算卸载决策。
综上,本发明将计算卸载过程中的卸载决策和资源分配行为划分为具有离散行为选择和连续行为决策的混合动作空间,在卸载决策过程中选择上执行了可拆分任务的形式,而且采取了多设备多服务器的环境模型,最后本发明基于处理具有混合动作空间的深度强化学习算法,将移动设备的任务完成时延和能量消耗作为优化目标,与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗,提升用户体验质量。
附图说明
图1为本发明实施例1提供的基于混合动作空间强化学习算法的计算卸载方法模型图;
图2为本发明实施例1提供的具有混合动作空间的动作决策图;
图3为本发明实施例2算法设计提供的深度强化学习算法图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
实施例1
1)模型建立
本实施例在移动协作式应用场景下建立具有混合动作空间的任务协作卸载与资源分配模型。如图1所示:模型建立的步骤如下:
(1)边缘卸载环境:据基站地理空间分布将边缘服务器分组为协作集群,在协作集群中包含数个边缘服务器和数个移动设备,边缘服务器用M={1,2...,M}来表示,移动设备用N={1,2...,N}来表示,并且边缘服务器和移动设备都有处理计算密集型任务的能力。
(2)计算任务:每个时隙移动设备会产生一个计算密集型任务用表示任务的大小,且Ba表示一个卸载任务的平均大小,β是一个服从高斯分布的参数。由于移动设备的计算能力有限导致一个任务很可能不能在一个时隙内完成,所以用任务队列来处理到达该设备上的任务。将移动设备n的任务队列表示为其中表示在时隙t时移动设备n的任务队列中的需要处理的数据总量。则表示移动设备n在时隙t内实际处理的数据大小,它与任务队列中剩余的数据以及移动设备n的最大处理任务负荷有关,因此其中bn,max代表设备n在每个时隙内最多能够处理的数据总量。δ表示处理one-bit数据所需要消耗的计算资源(用CPU计算周期数来表示),Pn被用来表示移动设备的优先级,每一类设备具有不同的优先级,优先级越高,则Pn越大,代表该类设备的任务会被优先处进行理。τn代表设备n在时隙t内对于完成大小的数据的最大延迟容忍度。则其中Bn,max代表了设备n的任务队列最多可容纳的数据量。
(3)计算任务决策:如图2所示,本发明采用更细粒度的而非传统的二进制卸载方法,即允许设备n将任务的一部分卸载到边缘服务器上进行处理。首先需要进行卸载决策的选择,用来定义移动设备n是否将任务卸载到边缘服务器上执行,若则表示任务完全在本地执行,而则表示将任务卸载到边缘服务器m上执行。接下来需要进行卸载率的选择,用表示卸载率,即移动设备n将会将比率大小的数据卸载到服务器上,剩余的部分的数据将会留在本地设备上执行。特殊的,当时代表移动设备n的任务将会完全在本地执行,当代表移动设备n的任务将会完全卸载到边缘服务器上执行。在本地移动设备n上进行处理的任务将会占用本地设备的全部计算能力即本地设备会以大小为的CPU时钟周期频率去处理需要在本地设备上完成的数据。最后服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配合适的计算能力,使用来表示在时隙t内服务器m为移动设备n分配的计算能力大小。
(4)任务传输网络:移动设备n需要通过无线网络数据卸载到服务器m上。由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器m上执行的情况,需要将服务器m的带宽Wm合理分给所有要将任务卸载到该服务器上的移动设备。在考虑到不同设备的优先级的情况下,依据香农公式,采用了如下的公式计算不同设备在时隙t内卸载任务到服务器m的上传速率:
Zn是移动设备用于上传数据的发射功率,hn是移动设备在无线信道中的信道增益,N0是复杂白高斯信道噪声的方差,Pn设备的优先级,Wm代表服务器m的带宽。
(5)本地处理时延和能耗:
(6)卸载处理时延和能耗:
总处理时延和能耗:
(7)具有混合动作空间的马尔可夫决策过程卸载模型:根据整个边缘卸载系统中服务器和移动设备的状况建模为参数化马尔科夫决策过程(PAMDP),参数化马尔可夫决策过程为:Tn=(S,A,R,π),式中元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略。
(a)状态:状态空间为其中表示移动设备i在时隙t内需要处理的数据总量,Pi(i∈[1,n])表示移动设备n的优先级,Wj(j∈[1,m])表示边缘服务器m的带宽,fj,max(j∈[1,m])表示边缘服务器m拥有的计算能力。
允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用来定义移动设备n是否将任务卸载到边缘服务器上执行,若则表示任务完全在本地执行,而则表示将任务卸载到边缘服务器k上执行;接下来进行卸载率的选择;用表示卸载率,即移动设备n将会将比率大小的数据卸载到服务器上,剩余的部分的数据将会留在本地设备上执行;特殊的,当时代表移动设备n的任务将会完全在本地执行,当代表移动设备n的任务将会完全卸载到边缘服务器上执行;最后服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力,模型中使用 来表示在时隙t内服务器m为移动设备n分配的计算能力大小。
(b)动作:动作空间为其中为离散行为决策,代表移动设备n决策将任务卸载到哪个服务器上进行处理。为连续参数选择,代表卸载率,即移动设备n将会将比率大小的数据卸载到服务器上,剩余的部分的数据将会留在本地设备上执行,为服务器m分配给移动设备n的CPU计算能力。根据采取的行为能获取在下一个时隙的状态St+1和整个系统在这个时隙因采取行动获取的奖励Rt。
(c)奖励:由于系统目标是最小化MEC系统的任务处理延迟和平均能量消耗,所以将奖励分为两部分,第一部分与处理任务的时间延迟相关,第二部分与为了完成任务所消耗的能量有关。与处理任务的时间延迟相关的奖励为:其中DLocal代表移动设备n的任务队列中大小的数据完全在本地处理所花费的时间,代表任务的重要性。
与完成任务所消耗的能量部分的奖励被定义为:其中ELogal代表移动设备n的任务队列中大小的数据完全在本地处理所消耗的能量,代表任务的重要性。因此,奖励被定义为其中ωd和ωe分别为与处理任务的时间延迟相关的奖励和与完成任务所消耗的能量相关的奖励的参数。
(d)策略:任务到达时的离散行为策略为连续行为策略为分别获取离散行动的选择4和连续参数的决策,而且要执行的完整动作是基于所选择的离散行动和连续参数的配对。在执行完动作之后,系统即进入一个新的状态并得到一个奖励,直到时间结束。
实施例2
算法设计
为了求解上述马尔可夫决策过程,本发明采用了一种基于混合动作空间强化学习算法,该算法的网络架构如图3所示。该算法是基于强化学习中的Actor-critic架构,有两个平行的Actor网络。这两个平行的Actor网络分别负责离散行动的选择和连续参数的决策。要执行的完整动作是基于所选择的离散行动和连续参数的配对,并且这两个Actor网络共享前几层编码信息来简化模型结构。除了两个平行的Actor网络之外,还有一个Critic网络,这个网络扮演着状态-价值函数的角色。在策略梯度优化上采用了PPO算法。
任务协作卸载算法的训练过程主要为深度强化学习算法训练,下面对这个部分的训练方法进行详细讨论。
算法的深度强化学习部分
本发明基于PPO(Proximal Policy Optimization)算法对上述网络进行训练,PPO算法是目前OpenAI基线集强化学习基准算法的默认算法,它通过简单的clip机制选择目标函数的保守下限,不需要计算TRPO算法约束,从而提高算法的数据采样效率,以及算法的鲁棒性,降低超参数选择的复杂性。PPO算法的具体过程是为待优化的策略维护两个策略网络。第一个策略网络是要优化的策略网络。第二个策略网络是以前用来收集样本的策略网络,现在还没有被更新。然后根据收集的样本,计算出优势估计值最后,通过最大化的目标函数来更新网络参数,从而优化策略πθ。PPO算法的目标函数如下:
综上所述,策略网络参数优化的更新规则为
其中,α为Inner Loop训练的学习率。在经过一定数量的样本学习之后,目标策略网络会将该网络的参数赋给采样策略网络,即
θold←θ
由于在算法架构中两个平行的Actor网络,所以需要同时对两个策略网络进行更新。
离散行为选择的策略网络的目标函数为:
连续参数决策的策略网络的目标函数为:
这两个目标函数分别按照PPO算法进行梯度更新从而优化这两个行为策略网络的参数。
实施例3
算法流程
本发明提出了一种基于混合动作空间强化学习算法的计算卸载方法,该方法分为为三个阶段:获取系统信息和任务状态,获得学习模型和获取卸载决策。其整体思路如图1所示。
(1)在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型
(2)获取系统信息和任务状态
步骤三:对系统信息和任务状态进行编码;
(3)获得学习模型
步骤一:获取需要执行的任务序列;
步骤二:采样k个学习任务,初始化离散行为网络参数θc、连续行为网络参数θd以及评估网络参数θs;
步骤三:采样获得状态行为集合,采取相应的动作,评估奖励;
步骤四:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤二。步骤五:更新系统网络参数,获取学习模型。
(4)获取卸载决策
Claims (7)
1.一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,该方法包括以下具体步骤:
S1、在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸载环境模型、计算任务模型、计算任务决策模型,计算任务传输网络模型、本地处理时延和能耗模型、卸载处理时延和能耗模型及具有混合动作空间的马尔可夫决策过程卸载模型;
S2、获取请求任务的状态,具体包括:
S3、获得学习模型,具体包括:
S301:获取需要执行的任务序列;
S302:采样k个学习任务,初始化离散行为网络参数θc、连续行为网络参数θ以及评估网络参数θs;
S303:采样获得状态行为集合,采取对应的动作,评估奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤S302;
S305:更新系统网络参数,获取学习模型;
S4、求解卸载决策,具体包括:
S402:采取对应的离散行为和连续行为,评估奖励。
3.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务决策模型,其建立具体包括:允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用来定义移动设备n是否将任务卸载到边缘服务器上执行,若则表示任务完全在本地执行,而则表示将任务卸载到边缘服务器m上执行;接下来进行卸载率的选择;用表示卸载率,即移动设备n将会将比率大小的数据卸载到边缘服务器m上,剩余的部分的数据将会留在本地设备上执行;特殊的,当时代表移动设备n的任务将会完全在本地执行,当代表移动设备n的任务将会完全卸载到边缘服务器m上执行;最后边缘服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力;模型中使用来表示在时隙t内边缘服务器m为移动设备n分配的计算能力大小。
6.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述卸载处理时延和能耗模型,其建立具体包括:移动设备n选择将比率大小的数据通过网络传输到边缘服务器m上时,会有大小的数据卸载到边缘服务器m上,并且需要大小的CPU时钟周期数来处理对应的数据,最后边缘服务器m会将完成的结果返回给设备n;在MEC系统中,将反馈传输的时间和能量消耗忽略不计;在计算任务传输网络模型中得到设备n上传任务到边缘服务器m的上传速率,那么该部分数据的传输时延为:相应的传输该部分数据到边缘服务器m上的能量消耗为:其中e为设备n单位时间传输数据所消耗的能量;则该部分的数据在边缘服务器m上的处理时延为:那么将数据卸载到边缘服务器m上的全部时延为:其中为数据该部分数据的传输时延,为该部分的数据在边缘服务器m上的处理时延。
7.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述具有混合动作空间的马尔可夫决策过程为:Tn=(S,A,R,π),式中元素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π;为求解所述马尔可夫决策过程,采用一种基于混合动作空间强化学习算法,该算法是基于强化学习中的Actor-critic架构,其架构中有两个平行的Actor网络及一个Critic网络;首先通过其中一个Actor网络选择要卸载的边缘服务器m,然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力;利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新,从而能够不断的最大化目标函数最终趋于稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424091.8A CN114205353B (zh) | 2021-11-26 | 2021-11-26 | 一种基于混合动作空间强化学习算法的计算卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424091.8A CN114205353B (zh) | 2021-11-26 | 2021-11-26 | 一种基于混合动作空间强化学习算法的计算卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114205353A true CN114205353A (zh) | 2022-03-18 |
CN114205353B CN114205353B (zh) | 2023-08-01 |
Family
ID=80649243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424091.8A Active CN114205353B (zh) | 2021-11-26 | 2021-11-26 | 一种基于混合动作空间强化学习算法的计算卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114205353B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938381A (zh) * | 2022-06-30 | 2022-08-23 | 西安邮电大学 | 一种基于深度强化学习的d2d-mec卸载方法、计算机程序产品 |
CN115016858A (zh) * | 2022-05-24 | 2022-09-06 | 武汉大学 | 一种基于后决策状态深度强化学习的任务卸载方法 |
CN117553803A (zh) * | 2024-01-09 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109257429A (zh) * | 2018-09-25 | 2019-01-22 | 南京大学 | 一种基于深度强化学习的计算卸载调度方法 |
CN111586696A (zh) * | 2020-04-29 | 2020-08-25 | 重庆邮电大学 | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 |
US20210271517A1 (en) * | 2021-05-19 | 2021-09-02 | Intel Corporation | Resource selection based in part on workload |
CN113434212A (zh) * | 2021-06-24 | 2021-09-24 | 北京邮电大学 | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 |
CN113568675A (zh) * | 2021-07-08 | 2021-10-29 | 广东利通科技投资有限公司 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
-
2021
- 2021-11-26 CN CN202111424091.8A patent/CN114205353B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109257429A (zh) * | 2018-09-25 | 2019-01-22 | 南京大学 | 一种基于深度强化学习的计算卸载调度方法 |
CN111586696A (zh) * | 2020-04-29 | 2020-08-25 | 重庆邮电大学 | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 |
US20210271517A1 (en) * | 2021-05-19 | 2021-09-02 | Intel Corporation | Resource selection based in part on workload |
CN113434212A (zh) * | 2021-06-24 | 2021-09-24 | 北京邮电大学 | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 |
CN113568675A (zh) * | 2021-07-08 | 2021-10-29 | 广东利通科技投资有限公司 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115016858A (zh) * | 2022-05-24 | 2022-09-06 | 武汉大学 | 一种基于后决策状态深度强化学习的任务卸载方法 |
CN115016858B (zh) * | 2022-05-24 | 2024-03-29 | 武汉大学 | 一种基于后决策状态深度强化学习的任务卸载方法 |
CN114938381A (zh) * | 2022-06-30 | 2022-08-23 | 西安邮电大学 | 一种基于深度强化学习的d2d-mec卸载方法、计算机程序产品 |
CN114938381B (zh) * | 2022-06-30 | 2023-09-01 | 西安邮电大学 | 一种基于深度强化学习的d2d-mec卸载方法 |
CN117553803A (zh) * | 2024-01-09 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
CN117553803B (zh) * | 2024-01-09 | 2024-03-19 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114205353B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254197B (zh) | 一种基于深度强化学习的网络资源调度方法及系统 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN110377353B (zh) | 计算任务卸载系统与方法 | |
CN113612843B (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN109669768B (zh) | 一种面向边云结合架构的资源分配和任务调度方法 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN113032120B (zh) | 一种基于边缘计算的工业现场大数据任务协同调度方法 | |
CN110662238A (zh) | 一种针对边缘网络下突发请求的强化学习调度方法及设备 | |
CN113064671A (zh) | 基于多智能体的边缘云可扩展任务卸载方法 | |
CN113626104B (zh) | 边云架构下基于深度强化学习的多目标优化卸载策略 | |
CN113645637B (zh) | 超密集网络任务卸载方法、装置、计算机设备和存储介质 | |
CN113867843B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN114285853A (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
CN113364630A (zh) | 一种服务质量QoS差异化优化方法、装置 | |
CN114172558B (zh) | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN116233927A (zh) | 一种在移动边缘计算中负载感知的计算卸载节能优化方法 | |
CN111740925A (zh) | 一种基于深度强化学习的Coflow调度方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN116954866A (zh) | 基于深度强化学习的边缘云下任务调度方法及系统 | |
CN114860337B (zh) | 一种基于元强化学习算法的计算卸载方法 | |
CN116828541A (zh) | 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统 | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 | |
CN116204319A (zh) | 基于sac算法与任务依赖关系的云边端协同卸载方法及系统 | |
CN114968402A (zh) | 边缘计算任务处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |