CN114205353A

CN114205353A - 一种基于混合动作空间强化学习算法的计算卸载方法

Info

Publication number: CN114205353A
Application number: CN202111424091.8A
Authority: CN
Inventors: 杨钊; 王廷; 蔡海滨
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-18
Anticipated expiration: 2041-11-26
Also published as: CN114205353B

Abstract

本发明公开了一种基于混合动作空间强化学习算法的计算卸载方法，该方法包括步骤：a）在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型；b）获取请求任务的状态；c）获得学习模型和d）求解卸载决策；通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间，并且通过为离散行为和连续行为分别制定不同的决策策略，取得更有效的优化效果。本发明基于处理具有混合动作空间的深度强化学习算法，将移动设备的任务完成时延和能量消耗作为优化目标，与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗，提升用户体验质量。

Description

一种基于混合动作空间强化学习算法的计算卸载方法

技术领域

本发明涉及强化学习方法法应用于边缘计算领域，特别是涉及一种基于混合动作空间强化学习算法的计算卸载方法。

背景技术

随着物联网设备，如智能手机、传感器和可穿戴设备等的快速增长和应用，具有计算密集型任务的高级应用正在出现。然而，物联网设备通常具有有限的计算能力和内存限制。为了解决计算密集型应用和资源有限的物联网设备之间的冲突，一些计算任务必须被卸载到具有足够计算能力的服务器上。因此，云计算被提出来为物联网设备计算和存储提供强大的能力。然而，云服务器在物理上或逻辑上离设备很远，可能会产生很长的延迟，不能满足超低延迟的要求。

这一问题可以通过在网络边缘提供计算服务的移动边缘计算(MEC)得到缓解。MEC将原本位于云数据中心的服务和功能“下沉”到移动网络的边缘，通过在移动网络边缘部署计算、存储、网络和通信等资源，不仅减少了网络操作，而且降低了服务交付时延，提升用户服务体验。同时，大幅增长的网络数据，对回传链路和移动核心网造成了巨大的链路负载，MEC在网络边缘部署服务器后，可以在边缘对用户进行响应，降低了对回传网和核心网的带宽要求。为了实现对MEC系统计算资源的有效利用，满足设备的计算需求，需要采用一个智能计算卸载策略。因此，计算卸载策略吸引了众多学者进行研究，已有丰硕的研究成果，有许多不同的技术方法。

在现有的关于计算卸载策略研究的方法中，一类是采用基于优化或博弈的算法用来解决计算卸载问题的方法。该类方法大多采用基于Lyapunov优化方法或基于Stackelberg博弈论的方法将计算卸载问题建模为NP-hard问题，进而能够在卸载过程中动态的调整卸载策略，从而能够降低MEC系统的时延和能量消耗。但是该类采用基于优化或博弈的算法的方法只能得到一个近似的最佳解，且需要环境统计的先验知识，而这在动态MEC系统中可能无法实际获得。为了解决这些问题，研究人员已经转向将计算卸载问题建模为马尔可夫决策过程(MDP)，并用强化学习(RL)或深度强化学习(DRL)方法来解决。

DRL最近取得了很大进展，并提出了各种算法。它已被应用于各种应用，如机器人学、计算机视觉和无人机导航。随着DRL的巨大成功，也有一些工作将RL或D RL用于计算卸载问题中。该类方法采用不同的深度学习算法并根据每个设备的本地情况进行观察以及自适应分配从而能够为不同的用户采取分散的计算卸载策略，最终在时延和能量消耗两方面取得比传统方法更显著的优化效果。但是该类方法是在离散行动空间或连续行动空间中建模的，而现实中卸载问题的行动空间往往是连续-离散混合的，每个设备需要共同决定连续和离散的行动来完成卸载过程，因此这些方法会限制对卸载决策的优化，且适应性较差。

发明内容

有鉴于此，本发明的目的在于提供一种基于混合动作空间强化学习算法的计算卸载方法，旨在解决边缘卸载系统中的任务卸载决策和资源分配问题。

为了实现上述目的，本发明提供的技术方案如下：

一种基于混合动作空间强化学习算法的计算卸载方法，该方法包括以下具体步骤：

S1、在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸载环境模型、计算任务模型、计算任务决策模型，计算任务传输网络模型、本地处理时延和能耗模型、卸载处理时延和能耗模型及具有混合动作空间的马尔可夫决策过程卸载模型；

S2、获取请求任务的状态,具体包括：

S201：获取边缘服务器信道带宽W_m和服务器处理能力

S202：获取各个移动设备的任务状况和设备的处理能力

S3、获得学习模型，具体包括：

S301：获取需要执行的任务序列；

S302：采样k个学习任务，初始化离散行为网络参数θ_c、连续行为网络参数θ_d以及评估网络参数θ_s；

S303：采样获得状态行为集合，采取对应的动作，评估奖励；

S304：判断奖励是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取参数集合，当奖励不收敛或未达到迭代次数上限时，同步评估网络和行为网络的参数返回步骤S302；

S305：更新系统网络参数，获取学习模型；

S4、求解卸载决策，具体包括：

S401：通过离散行为网络获取离散行为

通过连续行为网络获取连续行为

其中

代表边缘服务器的选择，

分别代表卸载率和边缘服务器分配给设备的计算能力；

S402：采取对应的离散行为和连续行为，评估奖励。

步骤S1中所述计算任务模型，其建立具体包括：每个时隙移动设备会产生一个计算密集型任务

用任务队列来处理到达其设备上的任务；将移动设备n的任务队列表示为

其中

表示在时隙t时移动设备n的任务队列中所需处理的数据总量，

则表示移动设备n在时隙t内实际处理的数据大小，δ表示处理one-bit数据所需要消耗的计算资源即用CPU计算周期数来表示，P_n被用来表示移动设备的优先级，τ_n代表设备n在时隙t内对于完成

大小的数据的最大延迟容忍度。

步骤S1中所述计算任务决策模型，其建立具体包括：允许设备n将任务的一部分卸载到边缘服务器上进行处理；首先进行卸载决策的选择，用

来定义移动设备n是否将任务卸载到边缘服务器上执行，若

则表示任务完全在本地执行，而

则表示将任务卸载到边缘服务器m上执行；接下来进行卸载率的选择；用

表示卸载率，即移动设备n将会将

比率大小的数据卸载到边缘服务器m上，剩余的

部分的数据将会留在本地设备上执行；特殊的，当

时代表移动设备n的任务将会完全在本地执行，当

代表移动设备n的任务将会完全卸载到边缘服务器m上执行；最后边缘服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力；模型中使用

来表示在时隙t内边缘服务器m为移动设备n分配的计算能力大小。

步骤S1中所述计算任务传输网络模型，其建立具体包括：移动设备n需要通过无线网络数据卸载到边缘服务器m上；由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器上执行的情况，要将服务器的带宽合理分给所有要将任务卸载到该服务器上的移动设备；依据香农公式，采用如下的公式计算不同设备在时隙t内卸载任务到边缘服务器m的上传速率：

其中Z_n是移动设备用于上传数据的发射功率，h_n是移动设备在无线信道中的信道增益，N₀是复杂白高斯信道噪声的方差，P_n设备的优先级,W_m代表边缘服务器m的带宽。

步骤S1中所述本地处理时延和能耗模型，其建立具体包括：当移动设备n选择将

比率大小的数据卸载到边缘服务器m上时，会有

大小的数据留在本地执行，相应的需要的CPU计算周期数为

而本地设备处理数据的计算能力大小为

所以本地处理数据的时延为：

相应的处理该部分的数据所消耗的能量为：

其中，V_n为处理数据每个CPU计算周期需要消耗的能量。

步骤S1中所述卸载处理时延和能耗模型，其建立具体包括：移动设备n选择将

比率大小的数据通过网络传输到边缘服务器m上时，会有

大小的数据卸载到边缘服务器m上，并且需要

大小的CPU时钟周期数来处理对应的数据，最后边缘服务器m会将完成的结果返回给设备n；在MEC系统中，将反馈传输的时间和能量消耗忽略不计；在计算任务传输网络模型中得到设备n上传任务到边缘服务器m的上传速率，那么该部分数据的传输时延为：

相应的传输该部分数据到边缘服务器m上的能量消耗为：

其中e_n为设备n单位时间传输数据所消耗的能量；则该部分的数据在边缘服务器m上的处理时延为：

那么将数据卸载到边缘服务器m上的全部时延为：

其中

为数据该部分数据的传输时延，

为该部分的数据在边缘服务器m上的处理时延。

步骤S1中所述具有混合动作空间的马尔可夫决策过程为：T_n＝(S，A，R，π)，式中元素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π；为求解所述马尔可夫决策过程，采用一种基于混合动作空间强化学习算法，该算法是基于强化学习中的Actor-critic架构，其架构中有两个平行的Actor网络及一个Critic网络；首先通过其中一个Actor网络选择要卸载的边缘服务器m，然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力；利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新，从而能够不断的最大化目标函数最终趋于稳定。

与现有技术相比，本发明的有益效果为：

本发明提供的基于混合动作空间强化学习算法的计算卸载方法通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间，并且通过为离散行为和连续行为分别制定不同的决策策略，能够取得更有效的优化效果。且本发明在任务卸载粒度的选择上执行了可拆分任务的形式，而非传统的二进制卸载策略，此方式能够更有效的利用边缘卸载系统中服务器和各设备的计算资源，从而能够达到时延更小的优化目标。最后本发明基于处理具有混合动作空间的深度强化学习算法，能够解决有效计算卸载与资源分配问题，解决传统深度强化学习算法对新任务的采样效率低的问题，实现在动态环境中的快速计算卸载决策。

综上，本发明将计算卸载过程中的卸载决策和资源分配行为划分为具有离散行为选择和连续行为决策的混合动作空间，在卸载决策过程中选择上执行了可拆分任务的形式，而且采取了多设备多服务器的环境模型，最后本发明基于处理具有混合动作空间的深度强化学习算法，将移动设备的任务完成时延和能量消耗作为优化目标，与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗，提升用户体验质量。

附图说明

图1为本发明实施例1提供的基于混合动作空间强化学习算法的计算卸载方法模型图；

图2为本发明实施例1提供的具有混合动作空间的动作决策图；

图3为本发明实施例2算法设计提供的深度强化学习算法图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

实施例1

1)模型建立

本实施例在移动协作式应用场景下建立具有混合动作空间的任务协作卸载与资源分配模型。如图1所示：模型建立的步骤如下：

(1)边缘卸载环境：据基站地理空间分布将边缘服务器分组为协作集群，在协作集群中包含数个边缘服务器和数个移动设备，边缘服务器用M＝{1,2...,M}来表示，移动设备用N＝{1,2...,N}来表示，并且边缘服务器和移动设备都有处理计算密集型任务的能力。

(2)计算任务：每个时隙移动设备会产生一个计算密集型任务

用

表示任务

的大小，且

B_a表示一个卸载任务的平均大小，β是一个服从高斯分布的参数。由于移动设备的计算能力有限导致一个任务很可能不能在一个时隙内完成，所以用任务队列来处理到达该设备上的任务。将移动设备n的任务队列表示为

其中

表示在时隙t时移动设备n的任务队列中的需要处理的数据总量。

则表示移动设备n在时隙t内实际处理的数据大小，它与任务队列中剩余的数据以及移动设备n的最大处理任务负荷有关，因此

其中b_n,max代表设备n在每个时隙内最多能够处理的数据总量。δ表示处理one-bit数据所需要消耗的计算资源(用CPU计算周期数来表示)，P_n被用来表示移动设备的优先级，每一类设备具有不同的优先级，优先级越高，则P_n越大，代表该类设备的任务会被优先处进行理。τ_n代表设备n在时隙t内对于完成

大小的数据的最大延迟容忍度。则

其中B_n,max代表了设备n的任务队列最多可容纳的数据量。

(3)计算任务决策：如图2所示，本发明采用更细粒度的而非传统的二进制卸载方法，即允许设备n将任务的一部分卸载到边缘服务器上进行处理。首先需要进行卸载决策的选择，用

来定义移动设备n是否将任务卸载到边缘服务器上执行，若

则表示任务完全在本地执行，而

则表示将任务卸载到边缘服务器m上执行。接下来需要进行卸载率的选择，用

表示卸载率，即移动设备n将会将

比率大小的数据卸载到服务器上，剩余的

部分的数据将会留在本地设备上执行。特殊的，当

时代表移动设备n的任务将会完全在本地执行，当

代表移动设备n的任务将会完全卸载到边缘服务器上执行。在本地移动设备n上进行处理的任务将会占用本地设备的全部计算能力

即本地设备会以大小为

的CPU时钟周期频率去处理需要在本地设备上完成的数据。最后服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配合适的计算能力，使用

来表示在时隙t内服务器m为移动设备n分配的计算能力大小。

(4)任务传输网络：移动设备n需要通过无线网络数据卸载到服务器m上。由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器m上执行的情况，需要将服务器m的带宽W_m合理分给所有要将任务卸载到该服务器上的移动设备。在考虑到不同设备的优先级的情况下，依据香农公式，采用了如下的公式计算不同设备在时隙t内卸载任务到服务器m的上传速率：

Z_n是移动设备用于上传数据的发射功率，h_n是移动设备在无线信道中的信道增益，N₀是复杂白高斯信道噪声的方差，P_n设备的优先级,W_m代表服务器m的带宽。

(5)本地处理时延和能耗：

任务在移动设备本地执行时延为

其中

为本地设备处理该部分数据所需要消耗的计算资源(CPU cycles)，本地设备n的CPU计算能力为

(CPUcycle/s)。

任务在移动设备本地执行能耗：

其中V_n为本地设备n上每个CPU计算周期所消耗的能量，k为能量系数。

为本地设备处理该部分数据所需要消耗的计算资源(CPU cycles)。

(6)卸载处理时延和能耗：

任务通过计算卸载到边缘执行的数据上传时延为：

其中

代表移动设备n上传到服务器的数据大小，

代表服务器m分配给移动设备n的上传速率。

任务通过计算卸载到边缘执行的任务处理时延为：

其中

为服务器处理该部分数据所需要消耗的计算资源(CPU cycles)，服务器m分配给移动设备n的CPU计算能力为

(CPU cycle/s)。

任务通过计算卸载到边缘执行的总时延为：

其中

表示任务通过计算卸载到边缘执行的数据上传时延，

为任务通过计算卸载到边缘执行的任务处理时延。

任务通过计算卸载的能量消耗主要为上传数据所消耗的能量：

其中为设备n单位时间传输数据所消耗的能量。

总处理时延和能耗：

在该时隙内，移动设备n和边缘服务器联合处理移动设备n的任务队列中大小为

的数据的总时延为：

其中

为任务在移动设备本地的执行时延，

为任务通过计算卸载到边缘执行的总时延。

的数据所消耗的总能量为：

其中

为任务在移动设备本地的执行能耗，

为任务通过计算卸载所消耗的能量。

(7)具有混合动作空间的马尔可夫决策过程卸载模型：根据整个边缘卸载系统中服务器和移动设备的状况建模为参数化马尔科夫决策过程(PAMDP)，参数化马尔可夫决策过程为：T_n＝(S，A，R，π)，式中元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略。

(a)状态：状态空间为

其中

表示移动设备i在时隙t内需要处理的数据总量，P_i(i∈[1,n])表示移动设备n的优先级，W_j(j∈[1,m])表示边缘服务器m的带宽，f_j,max(j∈[1,m])表示边缘服务器m拥有的计算能力。

允许设备n将任务的一部分卸载到边缘服务器上进行处理；首先进行卸载决策的选择，用

来定义移动设备n是否将任务卸载到边缘服务器上执行，若

则表示任务完全在本地执行，而

则表示将任务卸载到边缘服务器k上执行；接下来进行卸载率的选择；用

表示卸载率，即移动设备n将会将

比率大小的数据卸载到服务器上，剩余的

部分的数据将会留在本地设备上执行；特殊的，当

时代表移动设备n的任务将会完全在本地执行，当

代表移动设备n的任务将会完全卸载到边缘服务器上执行；最后服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力，模型中使用

来表示在时隙t内服务器m为移动设备n分配的计算能力大小。

(b)动作：动作空间为

其中

为离散行为决策，代表移动设备n决策将任务卸载到哪个服务器上进行处理。

为连续参数选择，

代表卸载率，即移动设备n将会将

比率大小的数据卸载到服务器上，剩余的

部分的数据将会留在本地设备上执行，

为服务器m分配给移动设备n的CPU计算能力。根据采取的行为

能获取在下一个时隙的状态S_t+1和整个系统在这个时隙因采取行动获取的奖励R_t。

(c)奖励：由于系统目标是最小化MEC系统的任务处理延迟和平均能量消耗，所以将奖励分为两部分，第一部分与处理任务的时间延迟相关，第二部分与为了完成任务所消耗的能量有关。与处理任务的时间延迟相关的奖励为:

其中D_Local代表移动设备n的任务队列中

大小的数据完全在本地处理所花费的时间，

代表任务的重要性。

与完成任务所消耗的能量部分的奖励被定义为:

其中E_Logal代表移动设备n的任务队列中

大小的数据完全在本地处理所消耗的能量，

代表任务的重要性。因此，奖励被定义为

其中ω_d和ω_e分别为与处理任务的时间延迟相关的奖励和与完成任务所消耗的能量相关的奖励的参数。

(d)策略：任务到达时的离散行为策略为

连续行为策略为

分别获取离散行动的选择4和连续参数的决策，而且要执行的完整动作是基于所选择的离散行动和连续参数的配对。在执行完动作之后，系统即进入一个新的状态并得到一个奖励，直到时间结束。

实施例2

算法设计

为了求解上述马尔可夫决策过程，本发明采用了一种基于混合动作空间强化学习算法，该算法的网络架构如图3所示。该算法是基于强化学习中的Actor-critic架构，有两个平行的Actor网络。这两个平行的Actor网络分别负责离散行动的选择和连续参数的决策。要执行的完整动作是基于所选择的离散行动和连续参数的配对，并且这两个Actor网络共享前几层编码信息来简化模型结构。除了两个平行的Actor网络之外，还有一个Critic网络，这个网络扮演着状态-价值函数的角色。在策略梯度优化上采用了PPO算法。

任务协作卸载算法的训练过程主要为深度强化学习算法训练，下面对这个部分的训练方法进行详细讨论。

算法的深度强化学习部分

本发明基于PPO(Proximal Policy Optimization)算法对上述网络进行训练，PPO算法是目前OpenAI基线集强化学习基准算法的默认算法，它通过简单的clip机制选择目标函数的保守下限，不需要计算TRPO算法约束，从而提高算法的数据采样效率，以及算法的鲁棒性，降低超参数选择的复杂性。PPO算法的具体过程是为待优化的策略维护两个策略网络。第一个策略网络是要优化的策略网络。第二个策略网络是以前用来收集样本的策略网络，现在还没有被更新。然后根据收集的样本，计算出优势估计值

最后，通过最大化的目标函数来更新网络参数，从而优化策略πθ。PPO算法的目标函数如下：

其中，clip函数用来限制的πθ的范围。r_t(θ)为采样策略与目标策略的比值

其中，

固定用来采样数据，π_θ(a_t|s_t)不断更新用来训练网络。

代表优势估计值：

综上所述，策略网络参数优化的更新规则为

其中，α为Inner Loop训练的学习率。在经过一定数量的样本学习之后，目标策略网络会将该网络的参数赋给采样策略网络，即

θ_old←θ

由于在算法架构中两个平行的Actor网络，所以需要同时对两个策略网络进行更新。

离散行为选择的策略网络的目标函数为：

连续参数决策的策略网络的目标函数为：

这两个目标函数分别按照PPO算法进行梯度更新从而优化这两个行为策略网络的参数。

实施例3

算法流程

本发明提出了一种基于混合动作空间强化学习算法的计算卸载方法，该方法分为为三个阶段：获取系统信息和任务状态，获得学习模型和获取卸载决策。其整体思路如图1所示。

(1)在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型

(2)获取系统信息和任务状态

步骤一：获取边缘服务器信道带宽W_m和服务器处理能力

步骤二：获取各个移动设备的任务状况和设备的处理能力

步骤三：对系统信息和任务状态进行编码；

(3)获得学习模型

步骤一:获取需要执行的任务序列；

步骤二:采样k个学习任务，初始化离散行为网络参数θ_c、连续行为网络参数θ_d以及评估网络参数θ_s；

步骤三:采样获得状态行为集合，采取相应的动作，评估奖励；

步骤四：判断奖励是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取参数集合，当奖励不收敛或未达到迭代次数上限时，同步评估网络和行为网络的参数返回步骤二。步骤五：更新系统网络参数，获取学习模型。

(4)获取卸载决策

步骤一：通过离散行为网络获取离散行为

通过连续行为网络获取连续行为

其中

代表边缘服务器的选择，

分别代表卸载率和边缘服务器分配给设备的计算能力。步骤二：采取相应的离散行为和连续行为，评估奖励。

Claims

1.一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，该方法包括以下具体步骤：

S2、获取请求任务的状态,具体包括：

S201：获取边缘服务器信道带宽W_m和服务器处理能力

S202：获取各个移动设备的任务状况和设备的处理能力

S3、获得学习模型，具体包括：

S301：获取需要执行的任务序列；

S302：采样k个学习任务，初始化离散行为网络参数θ_c、连续行为网络参数θ以及评估网络参数θ_s；

S303：采样获得状态行为集合，采取对应的动作，评估奖励；

S305：更新系统网络参数，获取学习模型；

S4、求解卸载决策，具体包括：

S401：通过离散行为网络获取离散行为

通过连续行为网络获取连续行为

其中

代表边缘服务器的选择，

分别代表卸载率和边缘服务器分配给设备的计算能力；

S402：采取对应的离散行为和连续行为，评估奖励。

2.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，步骤S1中所述计算任务模型，其建立具体包括：每个时隙移动设备会产生一个计算密集型任务

其中

则表示移动设备n在时隙t内实际处理的数据大小，表示处理one-bit数据所需要消耗的计算资源即用CPU计算周期数来表示，被用来表示移动设备的优先级，代表设备n在时隙t内对于完成

大小的数据的最大延迟容忍度。

3.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，步骤S1中所述计算任务决策模型，其建立具体包括：允许设备n将任务的一部分卸载到边缘服务器上进行处理；首先进行卸载决策的选择，用

来定义移动设备n是否将任务卸载到边缘服务器上执行，若

则表示任务完全在本地执行，而

表示卸载率，即移动设备n将会将

比率大小的数据卸载到边缘服务器m上，剩余的

部分的数据将会留在本地设备上执行；特殊的，当

时代表移动设备n的任务将会完全在本地执行，当

4.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，步骤S1中所述计算任务传输网络模型，其建立具体包括：移动设备n需要通过无线网络数据卸载到边缘服务器m上；由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器上执行的情况，要将服务器的带宽合理分给所有要将任务卸载到该服务器上的移动设备；依据香农公式，采用如下的公式计算不同设备在时隙t内卸载任务到边缘服务器m的上传速率：

5.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，步骤S1中所述本地处理时延和能耗模型，其建立具体包括：当移动设备n选择将

比率大小的数据卸载到边缘服务器m上时，会有

大小的数据留在本地执行，相应的需要的CPU计算周期数为

而本地设备处理数据的计算能力大小为

所以本地处理数据的时延为：

相应的处理该部分的数据所消耗的能量为：

其中，V_n为处理数据每个CPU计算周期需要消耗的能量。

6.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，步骤S1中所述卸载处理时延和能耗模型，其建立具体包括：移动设备n选择将

比率大小的数据通过网络传输到边缘服务器m上时，会有

大小的数据卸载到边缘服务器m上，并且需要

相应的传输该部分数据到边缘服务器m上的能量消耗为：

其中e为设备n单位时间传输数据所消耗的能量；则该部分的数据在边缘服务器m上的处理时延为：

那么将数据卸载到边缘服务器m上的全部时延为：

其中

为数据该部分数据的传输时延，

为该部分的数据在边缘服务器m上的处理时延。

7.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法，其特征在于，步骤S1中所述具有混合动作空间的马尔可夫决策过程为：T_n＝(S，A，R，π)，式中元素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π；为求解所述马尔可夫决策过程，采用一种基于混合动作空间强化学习算法，该算法是基于强化学习中的Actor-critic架构，其架构中有两个平行的Actor网络及一个Critic网络；首先通过其中一个Actor网络选择要卸载的边缘服务器m，然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力；利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新，从而能够不断的最大化目标函数最终趋于稳定。