CN113821346A

CN113821346A - 基于深度强化学习的边缘计算中计算卸载与资源管理方法

Info

Publication number: CN113821346A
Application number: CN202111121919.2A
Authority: CN
Inventors: 王晓飞; 李沅泽; 刘志成; 赵云凤; 宋金铎; 仇超
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-21
Anticipated expiration: 2041-09-24
Also published as: CN113821346B

Abstract

本发明公开了一种基于深度强化学习的边缘计算中计算卸载与资源管理方法，包括如下步骤：基于部分可观察马尔可夫决策过程构建边缘计算通信模型，包括M+N个智能体，M个智能体为边缘节点，N个智能体为用户；根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数；设置时隙长度，时间帧长度，初始化时隙和时间帧；边缘节点和用户分别利用部分可观察马尔可夫决策过程获取资源分配策略和任务卸载策略；根据任务卸载策略和资源分配策略利用参与者‑批评者模型对目标优化函数进行优化；根据优化后的目标优化函数将计算任务进行划分并处理。本发明解决了边缘设备与用户之间的不同利益追求，最大化地确保各自利益。

Description

基于深度强化学习的边缘计算中计算卸载与资源管理方法

技术领域

本发明属于边缘计算技术领域，具体涉及一种基于深度强化学习的边缘计算中计算卸载与资源管理方法。

背景技术

随着科学技术与工业生产能力的不断进步，移动设备的计算与通信能力不断提升，但各类崭新的移动应用也为移动设备提出了更高的业务需求。在一个多边缘多用户的集群中，用户可以选择将任务在本地进行计算或者卸载到边缘设备。为了响应对创新应用程序和用户体验日益增长的需求，计算卸载将计算密集型任务从用户迁移到边缘。边缘设备的计算能力一般强于用户，因此用户有可能通过卸载计算任务取得一些时延与功耗方面的好处。但是如果考虑到边缘可能分配给用户的计算资源过少或者选择卸载计算任务的用户过多造成的网络拥堵，卸载计算任务反而会损害用户的利益。因此用户需要决策是否卸载计算任务，通过哪个信道传输信息以及卸载到哪些边缘设备来最大化自身的利益。计算卸载作为一种具有前景的技术方法，可以帮助资源丰富的基础设施来增强用户设备，首先吸引了云计算领域的重要兴趣，然后在边缘计算中流行起来。边缘计算是云计算的一种发展，主张将集中的云资源推送到网络边缘，从处理延迟、能耗、节省带宽、数据隐私等方面得到好处。

从资源管理决策的角度来看，计算卸载解决了用户设备(以下简称用户)计算资源频繁短缺的问题，并提出了一种由边缘节点(以下简称边缘)制定的资源分配方案。由于单个边缘节点可能没有足够的资源，协同资源分配可以为用户提供服务，以维持服务性能，因此资源分配决策往往伴随着计算卸载决策一同产生。计算卸载与资源分配的联合决策构成了边缘计算中的一系列实际问题的基础，已有大量的论文与专利对这些问题进行了综合性的分析。实施集中决策控制是获得高质量解决方案的直接途径，它会面临理性遵从、用户隐私、决策可扩展性等方面的困境。另一方面，集中决策可能严重损害个体的理性，问题的复杂性逐渐超出传统方法的舒适区。因此，分布式决策方法是解决这一问题的一种有前途的方法。在此之上，已有的分布式工作认为将计算卸载和资源分配相结合能够进一步提高系统性能，但这往往无法通过优化单一类型的角色来实现，已有工作将综合计算卸载和资源分配问题建模为了非线性程序、stackelberg博弈、多时间尺度优化和markov决策过程，但是上述分布式决策的工作往往是从单一的关系来考虑问题。

基于学习的方法已经逐渐证明了它们在处理边缘计算中一些复杂的资源管理问题上的有效性，其中，多智能体深度强化学习(Multi-agent Deep ReinforcementLearning,MADRL)可以实现智能的分布式决策。然而，针对边缘计算中多个用户和多个边缘节点的计算卸载与资源管理问题，提出一种高效与定制化的方法仍然是一个悬而未决的问题，而这对于上述问题的解决具有较为深远的影响。另外，将多智能体学习应用到边缘计算的资源管理中，特别是扩展到多个决策者资源管理与计算卸载场景中，是近年研究者与工业界备受关注的问题。总的来说，一些已有的研究文献将多智能体学习应用到了协作、竞争或是混合的场景。然而，大多数论文(或专利)没有从边缘节点和用户双方角度去建立问题模型并求解。

发明内容

针对现有技术无法很好地确定资源分配与计算卸载决策的问题，本发明提出了一种基于深度强化学习的边缘计算中计算卸载与资源管理方法。为解决以上技术问题，本发明所采用的技术方案如下：

一种基于深度强化学习的边缘计算中计算卸载与资源管理方法，包括如下步骤：

S1，构建基于部分可观察马尔可夫决策过程的边缘计算通信模型，所述边缘计算通信模型包括M+N个智能体，M个智能体为边缘节点，N个智能体为用户；

S2，根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数；

S3，设置时隙长度τ_max，时间帧长度τ_s，初始化时隙s_t＝1和时间帧s＝1；

S4，获取每个边缘节点的总算力，边缘节点利用部分可观察马尔可夫决策过程获取资源分配策略；

S5，获取每个用户的计算任务、计算任务数据量和计算能力，用户利用部分可观察马尔可夫决策过程获取计算任务卸载策略；

S6，根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化；

S7，根据优化后的目标优化函数将计算任务进行划分，划分后的子任务由本地直接处理或者远程卸载到边缘节点处理，待计算任务处理完成后判断时间帧s是否小于时间帧长度τ_s，若是执行s＝s+1并返回步骤S5，否则判断时隙s_t是否小于时隙长度τ_max，若是执行s_t＝s_t+1并返回步骤S4，否则结束。

在步骤S3中，所述目标优化函数的表达式为：

max_Λ(-U₁，-∪₂，...，-U_n，...，-U_N，V₁，V₂，...，V_m，...，V_M)；

目标优化函数的约束条件为：

式中，

代表笛卡尔积，

是边缘节点m的资源分配策略的所有可行解，U_n表示用户n在一个时隙内处理计算任务的总成本，V_m表示边缘节点m在一个时隙内的效用，Λ表示τ_s个时间帧内的联合决策，联合决策Λ＝

其中，a^[s]表示第s时间帧内所有用户的信道决策集合，b^[s]表示第s时间帧内所有用户的边缘节点选择配置集合，K表示用户的计算任务无线传输时的信道，f为资源分配策略。

边缘节点m在一个时隙内的效用V_m的计算公式如下：

效用V_m的约束条件为：

式中，

为递减函数，

表示边缘节点m在第s时间帧的效用，

表示用户n在第s时间帧的信道决策，

表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率，

表示用户的集合，1_{·}为指标函数。

所述递减函数

为单调递减函数，其公式为：

式中，

表示边缘节点m的权重因子，且

表示用户n在第s时间帧内完成计算任务远程卸载的需求时间，

表示用户n在第s时间帧本地处理计算任务的执行时间。

用户n在一个时隙内处理计算任务的总成本U_n的计算公式为：

式中，

表示用户n在第s时间帧的信道决策，

表示用户n在第s时间帧的本地计算成本，

表示用户n在第s时间帧的远程卸载成本，1_{·}为指标函数；

用户n在一个时间帧内的本地计算成本

的计算公式为：

式中，

表示用户n处理计算任务的执行时间

的权重因子，

表示用户n处理计算任务的能量消耗

的权重因子；

用户n在一个时间帧内的远程卸载成本

的计算公式为：

式中，

表示用户n完成计算任务远程卸载的需求时间，

表示用户n的计算任务在整个传输过程中的能量消耗。

当用户n的计算任务本地处理时，执行时间

的计算公式为：

式中，C_n(1)表示将用户n的计算任务划分为一个子任务时的处理周期，

表示用户n的计算能力。

当用户n的计算任务本地处理时，能量消耗

的计算公式为：

式中，

表示用户n本地处理计算任务时的计算功率。

当用户n的计算任务远程卸载处理时，所述需求时间

的计算公式为：

式中，

表示完成用户n计算任务用时最长的一个边缘节点所用时间，

表示用户n的计算任务的无线传输时间，

表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延，

表示边缘节点m处理用户n卸载的计算任务的执行时间，b_n，m表示用户n将计算任务的计算转移到边缘节点m的概率；

当用户n的计算任务远程卸载处理时，计算任务在整个传输过程中的能量消耗

的计算公式为：

式中，p_n表示用户n的无线传输功率。

所述用户n的计算任务的无线传输时间

的计算公式为：

式中，D_n表示用户n通过信道卸载的计算任务的数据量，R_n(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率，

为修复值。

在步骤S4中，所述资源分配策略表示为f＝[f₁，f₂，...，f_m，...，f_M]，其中，f_m

表示边缘节点m的资源预算，资源预算f_m的表达式为：

f_m＝[f_m，t，f_m，2，...，f_m，n，...，f_m，N]^T；

资源预算f_m的约束条件为：

式中，f_m，n表示边缘节点m为与其相连的用户n所分配的算力，

表示边缘节点m的总算力，f_m表示边缘节点m的资源预算，

表示边缘节点的集合，

表示用户的集合。

本发明的有益效果：

本发明在强化学习算法的基础上将参与者-批评者模型与其相结合，对神经网络模型进行训练，边缘节点通过配置分配给每一个用户的计算资源，在最大化自己的特定利益的同时，解决了边缘设备与用户之间的不同利益追求，最大化了用户的自身利益。另外，在实际应用中，本发明可以做出合理的任务卸载与资源分配决策，减少计算任务的执行时间与用户的本地能源消耗，这对时延敏感型任务与能源受限的用户(如手机)具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为不同用户计算能力下用户和边缘节点的平均奖励。

图2为不同边缘节点计算能力下用户和边缘节点的平均奖励。

图3为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了应对终端设备处理能力不足、资源有限等问题，业界在移动边缘计算(MEC)中引入了计算卸载概念。边缘计算卸载即用户终端(UE)将计算任务卸载到MEC网络中，主要解决终端设备在资源存储、计算性能以及能效等方面的不足。计算卸载是MEC中的关键技术，主要包含卸载决策和资源分配两个部分，其通过有效的卸载决策和资源分配方案合理安排用户终端将计算任务卸载至MEC服务器，同时分配资源进行任务计算，以降低系统的时延和能耗。

一种基于深度强化学习的边缘计算中计算卸载与资源管理方法，如图3所示，包括如下步骤：

S1，基于部分可观察马尔可夫决策过程(Partially Observable MarkovDecision Process，POMDP)构建边缘计算通信模型，所述边缘计算通信模型包括M+N个智能体，M个智能体为边缘节点，N个智能体为用户；

所述边缘计算通信模型设置在某一地理区域内，包括均为智能体的用户和边缘节点，用户采用

表示地理区域内所有用户的集合，边缘节点采用

表示地理区域内所有边缘节点的集合，用户与边缘节点之间基于OFDMA(Orthogonal Frequency Division MultipleAccess，正交频分多址)进行无线通信，不同的边缘节点之间通过光纤进行有线通信。用户n拥有一个密集型的计算任务要处理，每个边缘节点上均部署了一个用于论证用户n的计算能力的无线接入点，每个用户均通过无线通信与一个边缘节点上的无线接入点连接，该用户与其关联的无线接入点之间的距离为单跳，边缘节点通过有线光纤连接到其它边缘节点，且边缘节点之间有一个固定的时延

其中，边缘节点

和边缘节点

若边缘节点m和边缘节点m′相同，则时延

本实施例中，所述地理区域的范围为几百米；所述无线接入点为微型基站。

由于计算卸载决策和资源分配决策具有不同的时间敏感性，现将离散时间划分为两个时间尺度，并且假设场景是准静态的。每个时间尺度内包含τ_max个时隙，每个时隙均包含τ_s个时间帧，在一个时间帧内边缘节点和用户的状态均保持不变，每个用户n均拥有固定数量的计算能力

用于本地计算，边缘节点m分配给到用户n的计算资源

用于服务。资源分配决策是指在每个时隙的开始处，每个边缘节点决定分配给每个用户的计算资源的数量。计算卸载决策是指每个用户在每一个时间帧中，都需要考虑是否卸载计算任务以及将计算任务卸载到哪些边缘节点。

所述计算任务表示为[D_n，C_n(x)]，其中，D_n表示用户n通过无线链路卸载计算任务的数据量，C_n(x)是将用户n的计算任务划分为x个子任务时，每个子任务的平均处理周期，且x个子任务可以以平行且负载平衡的方式执行，其中，

表示一个计算任务中所包含最大子任务的数量，本实施例中，

所述基于OFDMA的无线通信考虑了多区域多用户的OFDMA网络的上行传输，OFDMA网络的频谱被划分为若干个信道，信道的集合采用

来表示。将a_n∈{0}∪K表示为用户n的信道决策，如果用户n的信道决策a_n＝0，表示用户n决定不访问任何信道并在本地处理计算任务，否则用户n通过a_n∈{0}∪K信道连接至用户n的关联边缘节点ω(n)，且关联边缘节点

即为用户n直接关联到的边缘节点，所有用户的信道决策集合为a＝[a₁，a₂，…a_n，...，a_N]。

所述目标优化函数为：

max_Λ(-U₁，-U₂,…，-U_n，...，-U_N,V₁，V₂，...，V_m，...，V_M)；

目标优化函数的约束条件为：

式中，

代表笛卡尔积，

是边缘节点m的资源分配策略f的所有可行解，U_n表示用户n在一个时隙内处理计算任务的总成本，V_m表示边缘节点m在一个时隙内的效用，Λ表示τ_s个时间帧内的联合决策，联合决策Λ＝

其中，a^[s]表示第s时间帧内所有用户的信道决策集合，b^[s]表示第s时间帧内所有用户的边缘节点选择配置集合，且b＝[b₁,b₂,...，b_n，...，b_N]。

所述边缘节点选择配置b_n＝[b_n，t，b_n，2，…，b_n，m，...，b_n，M]^T，b_n，m表示用户n将计算任务的计算转移到边缘节点m的概率，若用户n决定将计算任务的计算转移到边缘节点m，则b_n，m的值为1，否则为0。

本发明将每个时隙视为一个独立的边缘节点的决策过程，将每个时间帧视为用户独立决定是否卸载任务或卸载到哪些边缘节点的决策过程，目标优化函数综合考虑了用户的个体理性即每个用户都做出最小化处理自己计算任务的代价的决定、边缘节点的集体合理性即存在至少一个联合决策，其中每个边缘节点不能在减少另一个边缘节点效用的情况下提高其效用。这是一个高复杂度的多目标混合整数优化问题，一般为NP-hard问题，甚至不能保证存在一个稳定解。考虑到这种混合关系，专注于一个方面的优化可能会导致其他方面的性能下降。此外，由于通信延迟和用户隐私等原因，在层次结构中也很难实现信息完全的条件。

所述边缘节点m在一个时隙内的效用V_m的计算公式如下：

效用V_m的约束条件为：

式中，

为递减函数，

表示边缘节点m在第s时间帧的效用，

表示用户n在第s时间帧的信道决策，

表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率，1_{·}为指标函数，如果指标函数对应的表达式为真则指标函数的值为1，否则其值为0。

所述递减函数

为平滑的、有界的单调递减函数，其公式为：

式中，

表示边缘节点m的权重因子，且

表示用户n在第s时间帧本地处理计算任务的执行时间。

所述用户n在一个时隙内处理计算任务的总成本U_n的计算公式为：

式中，

表示用户n在第s时间帧的信道决策，

表示用户n在第s时间帧的本地计算成本，

表示用户n在第s时间帧的远程卸载成本。

用户n在一个时间帧内的本地计算成本的计算公式为：

式中，

表示用户n处理计算任务的执行时间

的权重因子，

表示用户n处理计算任务的能量消耗

的权重因子，且

两个权重因子可以定量地反映用户n在不同条件下的需求偏好，确保了执行时间和能量消耗之间的权衡，

表示用户n的本地计算成本，是指用户n本地处理计算任务时的成本也即信道决策a_n＝0时的成本。

当用户n的计算任务本地处理时，执行时间

的计算公式为：

表示用户n的计算能力。

当用户n的计算任务本地处理时，能量消耗

的计算公式为：

式中，

表示用户n本地处理计算任务时的计算功率。

用户n在一个时间帧内的远程卸载成本的计算公式为：

式中，

表示用户n的远程卸载成本，是指用户n的计算任务通过远程卸载完成也即信道决策a_n＞0时的成本，

表示用户n完成计算任务远程卸载的需求时间，

表示用户n的计算任务在整个传输过程中的能量消耗。

所述需求时间

是指计算任务在用户n和选择的边缘节点之间无线传输的无线传输时间、计算任务在边缘节点上处理的执行时间、计算任务在边缘节点之间有线传输的有线传输时间三者的加总，需求时间

的计算公式为：

式中，

表示用户n的计算任务的无线传输时间，

表示边缘节点m处理用户n卸载的计算任务的执行时间，

表示完成用户n计算任务用时最长的一个边缘节点所用时间，也就是用户n完成计算任务花费的时间。

所述无线传输时间

的计算公式为：

式中，D_n表示用户n通过信道卸载计算任务的数据量，R_n(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率，

为修复值，表示卸载用户n的当前计算任务失败。

所述无线传输速率R_n(a)通过香农定理得到，其计算公式为：

式中，W表示信道带宽，I_n表示用户n和无线接入点之间的干扰，g_n表示用户n和关联边缘节点ω(n)上的无线接入点之间的信道增益，p_n表示用户n的无线传输功率，σ²表示高斯噪声。

所述用户n和无线接入点之间的干扰I_n的计算公式为：

式中，p_j表示用户j的无线传输功率，g_j表示用户n和关联边缘节点ω(j)上的无线接入点之间的信道增益，a_j表示用户j的信道决策，1_{·}为指标函数，如果指标函数对应的表达式为真则指标函数的值为1，否则其值为0。

所述边缘节点m处理用户n卸载的计算任务的执行时间

的计算公式为：

式中，f_n，m表示边缘节点m分配给用户n的算力，

表示将计算任务分配到所有被选择的边缘节点上时计算任务的计算量。

所述计算任务在整个传输过程中的能量消耗

的计算公式为：

当用户n决定远程卸载它的计算任务时，计算任务将被卸载到一个或多个边缘节点。在确定边缘节点选择后，将用户n的计算任务划分为对应的若干个子任务后通过无线链路和有线链路传输到选中的边缘节点，然后将相应的子任务独立并行处理，待所有处理过程结束后得到任务结果。

S4，获取每个边缘节点的总算力，边缘节点利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略；

所述资源分配策略是指一个时隙内所有边缘节点的资源预算的集合，资源分配策略表示为f＝[f₁，f₂，...，f_m，...，f_M]，其中，f_m表示边缘节点m的资源预算。

所述资源预算f_m是指边缘节点m分配给每个用户的计算资源的数量，资源预算f_m的表达式为：

f_m＝[f_m，1，f_m，2，...，f_m，n，...，f_m，N]^T；

资源预算的约束条件为：

表示边缘节点m的总算力，f_m表示边缘节点m的资源预算。

S5，获取每个用户的计算任务、计算任务数据量和计算能力，用户利用部分可观察马尔可夫决策过程进行训练获取计算任务卸载策略；

所述POMDP可以表示为

其中，

包含环境中的所有状态，

包含N个用户智能体和M个边缘节点智能体的观测值，相当于用户和边缘节点的属性信息，用户的属性信息包括用户的计算任务、计算任务的数据量、用户的计算能力等，边缘节点的属性信息包括边缘节点的总算力、边缘节点分配给用户的处理速率等，

是一组可能的行动，相当于资源分配策略和计算任务卸载策略。每一个智能体i根据一个以θ_i为参数的策略函数P_i：

执行一个行动，且边缘节点智能体每τ_s步做出一个决策，在其它时间保持之前的决策，用户在每个时间帧s中都需要做出一个决策，即需要考虑是否卸载计算任务及卸载到哪些边缘节点。多智能体将联合决策传递到环境中，根据状态转移方程

输出一个新状态

和一个立即的反馈r_i：

该反馈也即奖励由智能体i接收。每个智能体都致力于通过学习一项好的策略来最大化其预期的折扣未来奖励

其中，γ是长期收益的折现因子，

表示智能体i在t时刻的动作，i∈{1，2，…，M+N}，s^t表示在决策时间t时刻环境的状态。

在强化学习算法的基础上，针对每个边缘节点和每个用户分别设计了一个参与者-批评者模型，并分别使用gumble-softmax和argmax离散神经网络在训练和推理过程中的连续输出。在每个参与者-批评者模型中，有两种神经网络用于逼近行为者，用策略函数P_i表示相应的批评，用行动-价值函数Q_i表示以最大化目标函数

学习的目标是通过在梯度方向上调整参数来实现的，例如

使J(θ_i)最大化的结果算法的梯度为：

式中，

是一个重放缓冲区，包含(o_i，α_i，r_i，o′_i)形式的转换。o_i，α_i，r_i和o′_i是智能体i在重放缓冲区

中的观测值、动作、奖励和下一个观测值，动作-价值函数Q_i被更新为：

式中，y表示目标Q值。

式中，P′_i是参数为θ′_i的策略函数，α′_i是智能体i的下一个动作，Q′_i是一个目标网络，该目标网络的参数使用Q′_i的当前参数进行周期性更新，使训练更加稳定。就整体而言，

最小化当前和目标动作状态函数之间的差异期望。

工业智能制造领域出于提升产品质量的需求，往往需要通过人工智能技术实现图像识别，缺陷探测，危险预警等任务。处于工业制造环境与成本的考虑，工厂往往无法将全部的大量的深度学习任务在本地完成计算，需要将任务部分卸载到云端。在拥有多个本地设备与云端设备联合计算的情况下，本发明可以更合理的分配计算任务，带来整体的效益提升，以下基于真实EUA数据集进行模拟评估：

仿真参数设置：考虑一个边长为300米的正方形区域，包括8个基站和42个移动设备。每个基站的覆盖半径在[100,150]米内随机生成，每个基站部署边缘服务器，提供资源支持计算卸载。在无线接入方面，设置用户设备的传输功率为0.1瓦特，通信信道的带宽为5mhz，信道数为5。所有信道的通信增益建模为独立的瑞利衰落，功率损耗系数为-4，背景噪声为-100dBm。在计算方面，用户设备的计算能力随机分配在[1,1.5]GHz，计算功率为1瓦特，边缘服务器的计算能力随机分配在[16,48]GHz。所有加权因子随机分布在[0,1]。对于计算任务，每个任务生成的数据大小在100～400kb之间，完成任务所需的CPU周期平均为1千兆周。每个用户在每一帧中生成任务的概率在0.4到0.8之间，并随着时间的推移而逐渐变化。

模式设置：对于每个学习智能体，采用了105个经验重放缓冲区，并选择了64个小批量进行训练。此外，使用ADAM作为优化器，参与者的学习率为10-3，批评家的学习率为10-4，折扣因子为0.95。为每种情况下的每个智能体训练了100次，每次有20个时隙和200时间帧，其中一半的时隙用于训练。为了在重放缓冲区中收集足够数量的样本进行学习，在第十次开始学习过程。

评估基线和度量：将本发明与以下三种基线方法进行比较。·Local:所有任务都在本地计算。·Direct:对于每个任务，用户有一半的机会本地处理任务，一半的机会通过随机访问通道将其任务卸载到连接的边缘服务器。每个边缘服务器将其资源平均分配给关联的用户。·Random随机:每个用户随机选择访问通道、任务划分策略和子任务卸载目的地，每个边缘服务器将自己的资源平均分配给可能申请资源的用户。·DDPG(DeepDeterministic Policy Gradient，深度确定性策略梯度):也即本发明，边缘服务器和用户设备都是通过DDPG来获得动作的。

如图1所示显示了不同用户计算能力下用户设备和边缘服务器的平均奖励，结果表明，基于强化学习的决策方法能够很好地解决复杂问题。图2所示是不同边缘计算能力下用户和边缘服务器的平均奖励。通过合理的参数设置，将边缘计算能力的参数控制在0.75～1.25倍之间。此外，边缘服务器的数量相对小于用户设备的数量，因此，增加边缘计算资源对系统的性能并没有明显的改善。然而，本发明在平均边缘奖励和平均用户奖励方面领先于其它3个基线。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。