CN117194057B

CN117194057B - 一种基于强化学习优化边缘能耗与负载的资源调度方法

Info

Publication number: CN117194057B
Application number: CN202311478936.0A
Authority: CN
Inventors: 杨静; 周绪; 李少波; 熊川越; 鲁加林
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-01-23
Anticipated expiration: 2043-11-08
Also published as: CN117194057A

Abstract

本发明公开了一种基于强化学习优化边缘能耗与负载的资源调度方法，属于边缘计算技术领域，包括以下步骤：S1、构建两阶段软件定义任务和资源分配系统（TS‑SDTRA），TS‑SDTRA系统包括设备层、边缘层、中心云层；S2、基于TS‑SDTRA系统分别构建通信模型、时延模型、资源负载模型和能耗计算模型，将TS‑SDTRA系统中的负载均衡策略和能耗优化问题进行公式化；S3、将负载均衡策略和能耗优化问题转化为任务分配和资源调度优化问题，并将任务分配和资源调度优化问题描述为马尔科夫决策过程进行求解，采用深度强化学习算法完成能耗优化与负载均衡过程。本发明采用上述的一种基于强化学习优化边缘能耗与负载的资源调度方法，可以有效地降低能耗和实现负载均衡。

Description

一种基于强化学习优化边缘能耗与负载的资源调度方法

技术领域

本发明涉及边缘计算技术领域，尤其是涉及一种基于强化学习优化边缘能耗与负载的资源调度方法。

背景技术

在计算机网络和通信中，传统的调度方法往往可以实现很好的负载均衡或者较低的时延，但会浪费大量的计算资源和能耗。深度强化学习已经成功应用于解决游戏、负载均衡和路由等问题，与传统的调度方法不同，基于深度强化学习算法的资源调度具有自主学习能力，能处理高度复杂的环境和决策空间，同时优化能耗、负载等多个目标。

但是，许多基于深度强化学习的工作集中于优化卸载任务和计算任务产生的能耗，忽略了边缘服务器数量以及边缘服务器的资源运行状态对能耗和负载均衡的影响。另一方面，部分典型的工作专注于优化任务分配和资源调度过程中产生的时延或负载均衡，进而导致资源负载状态不平衡或过多的能耗浪费。此外，DVFS和DPM技术能有效优化边缘服务器能耗，在边缘能耗优化方面已有广泛的研究。边缘服务器中的能耗通常包括由于泄漏电流引起的静态功耗和由于切换活动引起的动态能耗，通过降低边缘服务器处理器频率（动态电压频率缩放（DVFS））或将边缘服务器电源模式切换到节能模式（动态电源管理（DPM））可以有效降低能耗。然而，目前，并未有研究考虑到用深度强化学习调节边缘服务器的资源使用率和实现边缘服务器的动态伸缩来研究边缘计算的能耗和负载问题。

发明内容

本发明的目的是提供一种基于强化学习优化边缘能耗与负载的资源调度方法，可以有效地降低能耗和实现负载均衡。

为实现上述目的，本发明提供了一种基于强化学习优化边缘能耗与负载的资源调度方法，包括以下步骤：

S1、构建TS-SDTRA系统，TS-SDTRA系统包括设备层、边缘层、中心云层；

S2、基于TS-SDTRA系统分别构建通信模型、时延模型、资源负载模型和能耗计算模型，将TS-SDTRA系统中的负载均衡策略和能耗优化问题进行公式化；

S3、将负载均衡策略和能耗优化问题转化为任务分配和资源调度优化问题，并将任务分配和资源调度优化问题描述为马尔科夫决策过程进行求解，采用深度强化学习算法完成能耗优化与负载均衡过程。

优选的，步骤S1中，设备层由需要卸载任务的用户设备群组成；边缘层由边缘服务器以及边缘服务器集群组成，任务的计算在边缘层进行；设备层与边缘层之间部署有边缘基站，用户设备通过无线链路连接到边缘基站，调度控制器部署在边缘基站；中心云层部署有云服务器，用于调度控制器训练和更新模型。

优选的，步骤S1中，在TS-SDTRA系统中，任务的处理流程如下：

只考虑完全卸载的情况，将用户设备产生的任务完全卸载到边缘服务器进行处理；移动设备产生的任务选择最近的基站进行任务请求，然后基站将相应的任务请求发送到调度控制器；调度控制器会获取边缘服务器的实时状态信息，并根据任务的时延、能耗和边缘服务器的负载状态给出任务的分流策略和边缘资源的分配策略；

服务器负载信息表包括服务器的CPU、内存的负载信息、集群数量和边缘服务器数量，任务信息表包括任务类型、任务数据量、任务计算量、用户设备与边缘服务器之间的距离信息。

优选的，步骤S2中，构建通信模型包括：

在TS-SDTRA系统中，目标是实现任务和资源高效分配的实时策略，将执行完所有任务所需要的时隙离散化表示为，边缘服务器集群的集合表示为，m表示服务器集群的数量，c代表边缘服务器集群，中每个元素的下标代表对应编号的边缘服务器集群；第k个边缘服务器集群中的边缘服务器的集合表示为，，n为服务器的数量，s代表服务器，中每个元素的下标代表对应编号的服务器，为第j台服务器；

在TS-SDTRA系统中，因为将任务卸载到远程云的时延高于卸载到边缘的时延，因此考虑完全卸载的情况，专注于将任务卸载到边缘以保证时延约束，即用户设备将任务完全卸载到边缘服务器进行处理而不考虑本地执行；假设TS-SDTRA系统中有q个用户设备，每个用户设备都有一个任务需要卸载到边缘服务器，则任务集合表示为，任务被建模为，其中表示任务的计算量；表示任务大小；和分别表示执行任务所需的CPU和内存资源；为任务的截止期限；q表示用户设备的数量；i表示用户；

当用户设备将任务卸载到边缘服务器时，令表示用户与边缘服务器群中的边缘服务器之间的信道增益，是一个常量，因此，用户的上行数据率为：

（1）

其中，是移动设备的噪声功率，B是信道带宽，是小区间干扰功率，为用户将任务发送到的发射功率；

根据式（1）得出用户将任务卸载到边缘服务器的传输时延如下：

（2）

其中，表示任务大小；

将除以得到任务的传输时间，再乘以发射功率，即为任务的传输能耗：

（3）。

优选的，构建时延模型包括：边缘中的总延迟有三部分组成，第一部分是传输任务所消耗的时间，第二部分是调度控制器调度时间开销，第三部分是边缘服务器处理任务所消耗的时间；

将调度时间开销定义为调度控制器给出任务调度决策的时间，表示为，边缘服务器处理任务所消耗的时间为：

（4）

其中，为中的计算能力，表示任务的计算量，为边缘服务器分配给任务的资源百分比，表示在时隙t边缘服务器上分配给任务的资源百分比的集合；x为边缘服务器的资源百分比的划分数量；

由此，任务的任务持续时间如下：

（5）

在TS-SDTRA系统中，边缘服务器有活跃状态和非活跃状态两种状态；没有接收和处理任何任务时的边缘服务器状态为非活跃状态，此时边缘服务器的使用率作为初始使用率，当边缘服务器收到任务请求时进入活跃状态，使用来表示边缘服务器群中的边缘服务器的活跃状态：

（6）

其中：为活跃状态，为非活跃状态，为边缘服务器的CPU使用率。

优选的，构建资源负载模型包括：当任务被分配到边缘服务器群中的边缘服务器时，边缘服务器的CPU使用率和RAM使用率为：

（7）

（8）

为的CPU资源总数，为的RAM资源总数，，，；

通过对边缘服务器使用率偏离平均值的计算，使用边缘服务器资源使用率的方差来衡量负载均衡状态，在时隙t，用边缘服务器当前的CPU使用率与RAM使用率加上一个权重值作为边缘服务器当前的资源使用率，则有：

（9）

其中，为CPU使用率的权重值，为RAM使用率的权重值，并且；则时隙t活跃服务器资源利用率的均值和方差为：

（10）

（11）

其中，为活跃边缘服务器的数量，方差即为负载优化目标。

优选的，构建功耗模型包括：采用DPM模型根据系统的实时需求动态地调整计算资源的功耗，当边缘服务器未进行任务处理时，让边缘服务器进入非活跃状态，只有接收到任务请求时边缘服务器才进入活跃状态；

时隙t边缘服务器的功耗包括静态功耗和动态功耗，两者都取决于时隙t边缘服务器的CPU使用率；

当时，为常数；

当低于时，线性增加，并随着功耗的增加超过该水平而呈二次方增长，系数为的功耗增加，系数为的功耗增加，则边缘服务器群中的边缘服务器在时隙t的动态功耗的计算公式为：

（12）

其中，为边缘服务器的最优CPU使用率；

在时隙t服务器的功耗为：

（13）

综上，时隙t系统中的总功耗为服务器群中所有服务器的功耗之和，表示为：

（14）

其中，为非活跃状态下边缘服务器的功耗；

设定则根据式（3）和式（14）得出TS-SDTRA系统的总能耗为：

（15）。

优选的，步骤S2中，将TS-SDTRA系统中的能耗优化问题和负载均衡策略进行公式化，包括能耗优化目标和负载优化目标：

（16）

约束为：

（17）

（18）

（19）

（20）

约束C1表示任务的调度时间必须小于任务设定的最迟完成时间；约束C2表示中CPU和RAM的最大使用率；约束C3表示边缘服务器剩余的CPU和RAM资源需要满足任务需求；约束C4表示所有任务的资源需求之和不能超过已有资源的总数。

优选的，步骤S3中，将任务分配和资源调度优化问题描述为马尔科夫决策过程进行求解，包括：

在时隙t，智能体在观察到状态空间中的一个环境状态，并根据策略从动作空间中采样一个动作，然后根据状态转移概率转移到下一个状态，并获得奖励值，和；

策略为某一状态到相应动作的映射，对应策略指导智能体在不同状态下执行动作，Y和A分别表示有限的状态空间和动作空间；智能体获得的累计奖励定义为：

（21）

其中，为奖励值；为获得的奖励值，为折扣因子，用来预测未来奖励的重要性；为时隙t的动作，智能体在状态下的状态价值函数定义为对累计奖励的期望，在任意初始状态下的表示为：

（22）

其中，V为状态价值函数；表示期望；为时隙t据策略采样的动作；根据贝尔曼方程将状态价值函数转换为差分的形式：

（23）

智能体的目标是制定一个最优控制策略，使其在当前状态下获得期望的最大累积折扣奖励，因此，负载均衡策略和能耗优化问题转化为寻找最优状态价值函数，并表示为：

（24）

状态下的最优动作为：

（25）。

优选的，步骤S3中，采用深度强化学习算法完成能耗优化与负载均衡过程之前，先对深度强化学习算法的动作空间、状态空间和奖励值进行设定；

状态空间的设定：在TS-SDTRA系统中，任务分配与资源调度的环境由任务、服务器的资源使用状态、能耗构成；时隙t任务队列为，服务器的资源状态定义为，服务器产生的功耗为，则状态空间向量可以描述为；

动作空间：智能体的目标是将状态空间映射到动作空间，调度控制器的目标是学习一个较优的策略，使得整个调度过程能耗最小化；

动作空间由两阶段组成：分别是在第一阶段的服务器群和第二阶段的服务器资源；在时隙t，第一阶段的动作定义为，其中为第k个服务器集群；第二阶段的动作定义为，为第j个服务器；因此，调度控制器的动作空间为；

奖励函数：智能体根据策略采样动作，并根据奖励函数获得即时奖励以最大化累积回报，与其它使用连续奖励值的方案不同，使用离散的奖励值，第一阶段，根据所有的边缘服务器在时隙t与t-1时隙的功耗的差值设定奖励值，差值如下所示：

（26）

根据差值得出第一阶段的奖励值设定方案为：

（27）

其中，、、分别为根据当前服务器的能耗差值设定的系数，，为设定的常量，会随着算法更新，为上一轮训练时的能耗差值，用来限制时隙t能耗差值的范围，以保证在第一阶段选择边缘服务器时能耗不会产生较大的波动；

第二阶段的目标是实现负载均衡，调度控制器根据边缘服务器的资源使用率选择边缘服务器进行任务调度，采用分段函数的形式为智能体设置离散奖励值，如下：

（28）

其中、、分别为根据当前边缘服务器的资源使用率设定的奖励值，；为最优CPU使用率的下界；为最优CPU使用率的上界；通过式（28）的奖励值的设定，保证进行任务调度的边缘服务器的资源使用率接近最优使用率；

通过限定边缘服务器的资源使用率与平均资源使用率之间的差值来进行奖励值改进，差值越小，说明更接近，应当给与智能体更多的奖励；反之，则给与更少的奖励值；将式（22）中的奖励值加上或减去一个偏置值作为最终奖励值，那么有：

（29）

其中，为的限定范围因此，本发明采用上述一种基于强化学习优化边缘能耗与负载的资源调度方法，其技术效果如下：

（1）从云、边、端角度出发，考虑调度时延、能耗与负载均衡，根据用户任务的动态实时需求，提出了一种可以有效降低能耗与实现负载均衡的两阶段软件定义任务分配模型（TS-SDTRA），并给出了模型训练与部署的整体架构设计。

（2）将问题表述为多目标优化问题，其目标是最小化整个边缘计算系统的能耗，并采用一种基于深度强化学习算法的方法解决这个问题。为了应对真实环境当中状态的部分可观察性，将卷积神经网络结构替换为循环神经网络，使调度模型具备一定的记忆能力。

（3）在提出的方法中，设计了两种简单有效的奖励值设定方法，可以有效降低能耗的同时，实现边缘服务器的弹性伸缩和负载均衡。具体来说，第一阶段设计了一种可以跟随迭代动态更新的奖励值更新方法，并根据边缘服务器的静态能耗与动态能耗选择边缘服务器集群；第二阶段根据边缘服务器资源使用状态设计奖励值，以选择最优的调度边缘服务器。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为平均能耗对比图；

图2为服务器数量对能耗的影响图；其中，图2（a）为100个服务器；图2（b）为150个服务器；图2（c）为200个服务器；

图3为任务数量对能耗的影响图；其中，图3（a）为1000个任务；图3（b）为1500个任务；图3（c）为2000个任务；

图4为服务器和任务数量对时间成本的影响图；其中，图4（a）为服务器数量对时间成本的影响；图4（b）为任务数量对时间成本的影响；

图5为PPO算法在500个时隙当中服务器资源使用率的变化情况；

图6为PPO-LSTM算法在500个时隙当中服务器资源使用率的变化情况；

图7为PPO-GRU算法在500个时隙当中服务器资源使用率的变化情况；

图8为PPO、PPO-LSTM以及PPO-GRU算法在500个时隙当中服务器资源使用率的方差变化对比情况；

图9为服务器数量和任务数量对活跃服务器数量的影响图；其中，图9（a）为服务器数量对活跃服务器数量的影响；图9（b）为任务数量对活跃服务器数量的影响；

图10在部分可观测的环境中PPO、PPO-LSTM和PPO-GRU的能耗优化性能对比；其中，图10（a）无干扰；图10（b）有干扰。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

实施例一

TS-SDTRA系统包括三个层面，即设备层、边缘层、中心云层。设备层由需要卸载任务的用户设备群组成，边缘层由边缘服务器以及边缘服务器集群组成，任务的计算主要在边缘层进行；设备层与边缘层之间部署有边缘基站，用户设备通过无线链路连接到边缘基站，调度控制器部署在边缘基站。资源分配和调度等功能集中在调度控制器上，调度控制器可以从全局的网络状态视图中收集边缘服务器负载信息表、任务信息表。中心云层部署有具有较强计算能力的云边缘服务器，为调度控制器训练和更新模型。软件定义网络（Software-Defined Networking，SDN）的数据平面主要对应设备层、边缘层、中心云层三层，控制平面由部署在边缘基站的调度控制器实现。

在TS-SDTRA系统，只考虑完全卸载的情况，将用户设备产生的任务完全卸载到边缘服务器进行处理。边缘服务器负载信息表包括边缘服务器的CPU、内存的负载信息、集群数量和边缘服务器数量，任务信息表包括任务类型、任务数据量、任务计算量、用户设备与边缘服务器之间的距离信息。移动设备产生的任务选择最近的基站进行任务请求，然后基站将相应的任务请求发送到调度控制器。调度控制器会获取边缘服务器的实时状态信息，并根据任务的时延、能耗和边缘服务器的负载状态给出任务的分流策略和边缘资源的分配策略。

通信模型

在TS-SDTRA系统中，目标是实现任务和资源高效分配的实时策略，为了方便研究，将执行完所有任务所需要的时隙离散化表示为。服务器集群表示为，每个服务器集群中的服务器表示为，。在TS-SDTRA系统中，因为将任务卸载到远程云的时延高于卸载到边缘的时延，因此考虑完全卸载的情况（与之相对的是部分卸载），专注于将任务卸载到边缘以保证时延约束，即用户设备将任务完全卸载到边缘服务器进行处理而不考虑本地执行。假设系统中有q个用户设备，每个用户设备都有一个任务需要卸载到边缘服务器，则任务集合表示为，任务被建模为，其中表示任务的计算量，即完成任务所需的CPU周期总数；表示任务大小，即数据内容的总量；和分别表示执行任务所需的CPU和内存资源；为任务的截止期限，即完成任务的最迟时间约束。

当用户设备将任务卸载到边缘服务器时，令表示用户与服务器群中的边缘服务器之间的信道增益，是一个常量。因此用户的上行数据率为：

（1）

其中是移动设备的噪声功率，B是信道带宽，是小区间干扰功率，为将任务发送到的发射功率。根据上式可以得出用户将任务卸载到边缘服务器的传输时延如下：

（2）

进一步，得到任务传输能耗为：

（3）

时延模型

边缘中的总时延有三部分组成，第一部分是传输任务所消耗的时间，第二部分是调度控制器调度时间开销，第三部分是边缘服务器处理任务所消耗的时间。将调度时间开销定义为调度控制器给出任务调度决策的时间，与算法内部结构的复杂度有关，表示为。用表示在时隙t服务器上分配给任务的资源百分比的集合，边缘服务器处理任务所消耗的时间为：

（4）

其中，为服务器分配给任务的资源百分比，为中的计算能力。由此，任务的任务持续时间由下式给出：

（5）

因为任务处理后的数据大小通常比处理前小，并且从BS到移动设备的下行链路速率高于从移动设备到BS的上行链路速率，因此忽略边缘云将任务结果发送回用户的传输延迟。

资源负载模型

在TS-SDTRA系统中，服务器有两种状态：1）活跃状态2）非活跃状态。将没有接收和处理任何任务时的服务器状态作为非活跃状态，此时服务器的利用率作为初始利用率，当服务器收到任务请求时进入活跃状态，使用来表示服务器群中的服务器的活跃状态：

（6）

其中：为活跃状态，为非活跃状态。在时隙t，当任务被分配到服务器时，服务器会被占用一定的CPU和内存开销。此时服务器的CPU使用率和RAM使用率为：

（7）

（8）

其中为的CPU资源总数，为的RAM资源总数，，，。

通过对服务器使用率偏离平均值的计算，使用服务器资源使用率的方差衡量负载均衡状态。服务器当前的CPU利用率与RAM利用率加上一个权重值作为服务器的资源利用率，则有：

（9）

其中，为CPU使用率的权重值，为RAM使用率的权重值，并且。则时隙t活跃服务器资源利用率的均值和方差为：

（10）

（11）

其中，为活跃服务器的数量。方差即为负载优化目标，方差越小，说明服务器的负载状态越均衡。

功耗模型

考虑了边缘服务器运行成本，即边缘服务器维持正常的调度工作所需要的功耗。本发明采用DPM模型根据系统的实时需求动态地调整计算资源的功耗，当边缘服务器未进行任务处理时，让边缘服务器进入低功耗模式（非活跃状态），只有接收到任务请求时边缘服务器才进入高功耗模式（活跃状态）。

时隙t边缘服务器的功耗主要由CPU产生，包括静态功耗和动态功耗，两者都取决于时隙t边缘服务器的CPU使用率。当时，为常数。另一方面，当低于时，线性增加，并随着功耗的增加超过该水平而呈二次方增长，系数为的功耗增加，系数为的功耗增加，则边缘服务器群中的边缘服务器在时隙t的动态功耗的计算公式为：

（12）

因此，边缘服务器的功耗为：

（13）

综上，时隙t，系统中的总功耗为边缘服务器群中所有边缘服务器的功耗之和，表示为：

（14）

其中，为非活跃状态下边缘服务器的功耗，通过DPM和DVFS来进行调节，降低边缘服务器中的通信、CPU等重要模块的功耗，但不进入休眠状态。

设定则根据式（3）和式（14）可以得出系统的总能耗为：

（15）

问题公式化

TS-SDTRA系统的目标是在延迟和资源的约束下，最大限度地降低系统中所有边缘服务器产生的能耗，同时最小化每个时隙t服务器之间的资源利用率差异。将TS-SDTRA系统中的能耗优化问题和负载均衡策略进行公式化，包括能耗优化目标和负载优化目标：：

（16）

约束为：

（17）

（18）

（19）

（20）

约束C1表示任务的调度时间必须小于任务设定的最迟完成时间，约束C2表示中CPU和RAM的最大使用率，约束C3表示边缘服务器剩余的CPU和RAM资源需要满足任务需求，约束C4表示所有任务的资源需求之和不能超过已有资源的总数。

采用基于DRL的方法来解决公式（16），将任务分配和资源调度问题描述为马尔科夫决策过程，以最小化整个系统的能耗。

并将任务分配和资源调度优化问题描述为马尔科夫决策过程进行求解

将优化问题近似为马尔科夫决策过程(MDP)，作为深度强化学习的基础，它描述了智能体通过不断与环境的交互来学习最优的调度策略的过程。在时隙t，智能体在观察到状态空间中的一个环境状态，并根据策略从动作空间中采样一个动作，然后根据状态转移概率转移到下一个状态，并获得奖励值，和。策略为某一状态到相应动作的映射，对应策略可以指导智能体在不同状态下执行动作，Y和A分别表示有限的状态空间和动作空间。智能体获得的累计奖励定义为：

（21）

其中为折扣因子，用来预测未来奖励的重要性，为获得的奖励值。智能体在状态下的状态价值函数定义为对累计奖励的期望，在任意初始状态下的可以表示为：

（22）

其中，表示期望。根据贝尔曼方程将状态价值函数转换为差分的形式：

（23）

根据上述过程，智能体的目标是制定一个最优控制策略，使其在当前状态下获得期望的最大累积折扣奖励。因此，优化问题转化为最优状态值函数，其表示为：

（24）

状态下的最优动作为：

（25）

状态空间、动作空间和奖励值的设定

①状态空间：在TS-SDTRA系统中，任务分配与资源调度的环境由任务、服务器的资源使用状态、能耗构成。第t个时隙任务队列为，服务器的资源状态定义为，服务器产生的功耗为，则状态空间向量可以描述为。

②动作空间：智能体的目标是将状态空间映射到动作空间，调度控制器的目标是学习一个较优的策略，使得整个调度过程能耗最小化。动作空间由两阶段组成：1）在第一阶段的服务器群；2）第二阶段的服务器资源。在时隙t，第一阶段的动作定义为，其中为第k个服务器集群；第二阶段的动作定义为，为第j个服务器。因此，调度控制器的动作空间为。

③奖励函数：智能体根据策略采样动作，并根据奖励函数获得即时奖励以最大化累积回报。与其它使用连续奖励值的方案不同，本发明方案使用离散的奖励值。第一阶段，根据所有的边缘服务器在时隙t与t-1时隙的功耗的差值设定奖励值。差值如下所示：

（26）

根据差值可以得出第一阶段的奖励值设定方案为：

（27）

其中，、、分别为根据当前服务器的能耗差值设定的系数，，为设定的常量，会随着算法更新，通常为上一轮训练时的能耗差值，用来限制时隙t能耗差值的范围，以保证在第一阶段选择服务器群时能耗与上一次调度相比不会产生较大的波动；

表1 能耗差值更新算法

;

第二阶段的目标是实现负载均衡，调度控制器根据边缘服务器的资源使用率选择边缘服务器进行任务调度。采用分段函数的形式为智能体设置离散奖励值，如下：

（28）

其中、、分别为根据当前边缘服务器的资源使用率设定的奖励值，；为最优CPU使用率的下界；为最优CPU使用率的上界。通过式（22）的奖励值的设定，可以保证每一次进行任务调度的边缘服务器的资源使用率接近最优使用率。

这里存在一个问题，虽然任务调度到了某一台边缘服务器上，但并不能保证这些当前正在进行任务处理的边缘服务器的使用率均衡。因此，通过限定边缘服务器的资源使用率与平均资源使用率之间的差值来进行奖励值改进，差值越小，说明更接近，应当给与智能体更多的奖励；反之亦然。将（22）中的奖励值加上或减去一个偏置值作为最终奖励值，那么有：

（29）

其中，为的限定范围。通过以上奖励值的设置，以减小边缘服务器平均资源使用率的波动，进而实现负载均衡。

采用深度强化学习算法完成能耗优化与负载均衡过程（本实施例采用PPO算法）

① PPO算法理论

PPO算法是由OpenAI提出的一种前沿的深度强化学习算法，分为两种：1）PPO-Penalty 和 2）PPO-Clip，本实施例选择的是第二种。PPO算法使用Actor-Critic网络结构，采用策略网络和价值网络拟合策略函数与价值函数，通过新策略与旧策略的比例，限制新策略的更新幅度，降低算法对学习步长的敏感性。PPO算法的目标函数为：

（30）

用表示新策略与旧策略的概率比，则有：

（31）

其中，旧策略，是新策略，为优势函数,为范围控制的超参数。通过裁剪操作，将限制在内，然后取裁剪过的目标和未裁剪过的目标中的最小值，限定结果偏差范围。为了提高算法的探索能力，在actor的目标函数中增加一项策略熵，并乘以一个权重，使得在优化actor_loss的同时，让策略的熵尽可能大。算法的目标是在策略更新大小的约束下寻找以最大化目标函数：

（32）

此外，PPO算法使用价值网络来拟合价值函数，并使用平方误差损失来进行优化，更新价值网络的目标函数如下：

（33）

其中为估计的回报，为价值网络的参数，是当前价值函数对的估计。

PPO中使用的广义优势估计器(GAE)的一般形式为：

（34）

其中为折扣因子，用于平衡方差和偏差，为时间差分误差，为状态价值函数。

②智能体策略更新算法

智能体策略更新算法如算法3所示。Agent的actor网络和critic网络开始会分别随机初始化一组参数，第1至3步根据采样的轨迹计算每个时隙状态的状态价值以及优势函数。在第4-8步，actor网络根据从中随机不重复抽样的样本计算策略函数，并通过随机梯度上升算法基于更新网络参数，更新公式如下：

（35）

critic网络根据从中随机不重复抽样的样本计算价值函数，并通过梯度下降算法基于更新网络参数，更新公式如下：

（36）

表2 智能体策略更新算法

;

基于PPO算法的两阶段任务分配与资源调度算法

在多用户和多边缘服务器的场景中，在调度控制器中创建两个智能体Agent 1和Agent 2来与环境进行交互，并分别输出任务的边缘服务器群调度动作和边缘服务器调度动作。

两阶段任务分配与资源调度算法如算法2所示。用户设备产生的数据任务存储在一个任务列表中，这些任务按照优先级进入调度控制器(先进先出等优先级算法)。首先，Agent 1和Agent 2开始时随机初始化一组模型参数。在第4步，Agent 1和Agent 2为当前需要调度的任务产生两个调度动作（选择边缘服务器群和边缘服务器）；第5-16步调度控制器判断选择的边缘服务器资源能否满足完成任务处理的时间和资源需求，当边缘服务器能满足所要分配的任务的时间和资源需求时，调度任务；否则，拒绝当前的调度动作。调度控制器会根据公式（27）和公式（29）计算出执行这个动作之后能获得的奖励值，然后第8步更新到下一个状态，并用一个经验池将Agent 1和Agent 2产生的调度轨迹采样存储起来。第17步，当经验池容量满时使用算法2更新Agent 1和Agent 2的参数。

表3 两阶段任务分配与资源调度算法

;

下面将本发明所提方法与其他方法进行对比

能耗优化性能分析

在这一部分，测试了模型的调度性能，取十轮调度过程中产生的能耗的平均值进行性能对比分析。表4和表5分别详细地对比了调度过程中不同算法的平均能耗随边缘服务器数量和任务数量的变化情况。

1）能耗对比

表4 平均能耗随服务器数量的变化情况

;

如图1所示，展示了训练过程中不同方法的平均能耗对比情况。明显可以观察到，在确定的边缘服务器数量和任务数量下，基于PPO的方法在能耗方面相比于其他强化学习方法表现尤为出色。实际上，它在所有对比的方法中都达到了最低的能耗水平。

2)边缘服务器数量对能耗的影响

如图2所示，当任务数量固定，而边缘服务器数量从50增至200时，所有基于深度强化学习的方法的平均能耗均呈上升趋势。具体来说，基于PPO的调度策略在能耗方面表现出了显著的优势，与Reinforce、A2C、D3QN、PPO-LSTM、PPO-GRU、DQN、Dueling DQN、DoubleDQN、RR、以及Random算法相比，PPO算法的调度能耗分别平均降低了11.44%、10.6%、19.37%、7.8%、-0.11%、16.79%、16.94%、16.67%、45.02%、以及34.75%。令人注目的是，本发明提出的基于PPO的方法对于边缘服务器数量的变动表现出极高的韧性。即使在边缘服务器数量发生变化时，其能耗依然可以最快地收敛到最优性能。这主要原因是边缘服务器的计算能力已知时，处理同一批任务所需的计算资源数量主要与任务数量与任务属性有关。从这一结果可以看出，本发明的方法在调度同一批任务时，能够在满足延迟约束的同时，始终找到最低能耗的调度方案。

表5 平均能耗随任务数量的变化情况

;

3)边缘服务器数量不变，改变任务数量

如图3所示，随着任务数量的逐渐增加，边缘服务器产生的总能耗也相应地上升。相较于Reinforce、A2C、D3QN、PPO-LSTM、PPO-GRU、DQN、Dueling DQN、Double DQN、RR和Random等多种算法，PPO都具有显著的能耗优势。具体地说，当边缘服务器数量保持不变，而任务数量从500增至2000时，与Reinforce、A2C、D3QN、PPO-LSTM、PPO-GRU、DQN、DuelingDQN、DoubleDQN、RR、以及Random算法相比，PPO算法的调度能耗分别平均降低了10.32%、11.62%、24.18%、7.52%、1.37%、40.55%、37.31%、39.12%、54.19%、以及55.91%。

负载均衡性能分析

本部分对RR算法与本发明所提出的PPO、PPO-LSTM、PPO-GRU三种算法从边缘服务器的弹性伸缩性能和活跃边缘服务器的负载均衡两个方面进行实验分析。

（1）使用率分析

在这一部分实验中，用于调度的用户任务总数为500，边缘服务器群数量为5，边缘服务器数量为50。主要对比了前500个调度时隙里，各活跃边缘服务器的资源使用率情况。图5到图7展示了提出的三种算法在进行任务分配与资源调度时活跃边缘服务器的资源使用率变化。从图中可以观察到，PPO-LSTM和PPO-GRU两种算法均调度了三台边缘服务器来执行任务。随着调度时隙的增加，这三台边缘服务器的资源使用率逐渐上升，但始终维持在平均资源使用率上下浮动。相较于此，PPO算法采取了略有不同的策略，仅调度了两台边缘服务器进行任务处理，但这两台边缘服务器的资源使用率同样保持在平均资源使用率上下波动。

（2）资源使用率的方差分析

本部分主要探讨了随着调度时隙的变化，上述三种策略与RR算法活跃边缘服务器方差的变化情况，详细结果见图8。从图中可见，提出的方法能够有效地将边缘服务器资源使用率的方差维持在较低的水平，三组实验中的方差基本稳定在0.015以内，这是因为每一台活跃边缘服务器的资源使用率和它们的平均资源使用率之间的波动较小。在一定程度上说明了，本发明的策略在活跃边缘服务器上的负载情况较稳定，并且在负载均衡性能上能够接近RR算法。

（3）边缘服务器弹性伸缩性能分析

任务数量和边缘服务器数量是影响活跃边缘服务器数量的主要原因。如图9(a)所示为边缘服务器数量对活跃边缘服务器的影响，当边缘服务器数量改变时，可能会使模型输出的调度策略改变，因此改变活跃边缘服务器的数量。如图9(b)所示为任务数量对活跃边缘服务器的影响，当任务数量从500增加到2000个时，活跃边缘服务器的数量都有一定的增加，这是因为随着任务数量的增加需要更多的边缘服务器才能处理完任务。总的来说，本发明所提方法可以根据任务的数量弹性变化活跃边缘服务器的数量，并且任务数量对活跃边缘服务器数量的影响较大，环境中的边缘服务器数量对活跃边缘服务器数量的影响较小。

面对干扰的性能评估

在部分可观测的环境中进行200轮测试，以评估PPO、PPO-LSTM、PPO-GRU的性能。具体来说，调度控制器只能观测到上一次调度的服务器群和服务器的状态，并让其中的部分服务器的资源使用率使用相同的方法产生一定的噪声干扰（服务器使用率波动），以模拟真实环境下的服务器调度场景。

图10(a)和10(b)分别为PPO、PPO-LSTM、PPO-GRU在部分可观测环境中无资源使用率干扰以及加入资源使用率干扰的性能。观察到，PPO、PPO-LSTM和PPO-GRU的性能在未加入干扰的部分可观测环境中的性能相近，PPO-LSTM的波动稍大。在加入随机扰动之后，三个算法的性能都有所下降，但PPO出现较大的波动，而PPO-LSTM和PPO-GRU的波动相对稳定。这是因为在非平稳的环境中，PPO-LSTM和PPO-GRU的记忆能力可以根据过去的状态和动作提供更多的信息来更好地适应环境，而PPO可能会因为遇到噪声干扰而不能有效地学习策略，因此PPO-LSTM和PPO-GRU相比PPO可以更好地处理这些干扰。因此，可以说明PPO-LSTM和PPO-GRU的抗干扰能力在一定程度上强于PPO算法。

因此，本发明采用上述一种基于强化学习优化边缘能耗与负载的资源调度方法，可以有效地降低能耗和实现负载均衡。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于强化学习优化边缘能耗与负载的资源调度方法，其特征在于，包括以下步骤：

S3、将负载均衡策略和能耗优化问题转化为任务分配和资源调度优化问题，并将任务分配和资源调度优化问题描述为马尔科夫决策过程进行求解，采用深度强化学习算法完成能耗优化与负载均衡过程；

步骤S2中，构建通信模型包括：

当用户设备将任务卸载到边缘服务器时，令表示用户i与边缘服务器群中的边缘服务器之间的信道增益，是一个常量，因此，用户的上行数据率为：

（1）

（2）

其中，表示任务大小；

（3）

构建时延模型包括：边缘中的总延迟有三部分组成，第一部分是传输任务所消耗的时间，第二部分是调度控制器调度时间开销，第三部分是边缘服务器处理任务所消耗的时间；

（4）

由此，任务的任务持续时间如下：

（5）

（6）

其中：为活跃状态，为非活跃状态，为边缘服务器的CPU使用率；

构建资源负载模型包括：当任务被分配到边缘服务器群中的边缘服务器时，边缘服务器的CPU使用率和RAM使用率为：

（7）

（8）

为的CPU资源总数，为的RAM资源总数，，，；

（9）

（10）

（11）

其中，为活跃边缘服务器的数量，方差即为负载优化目标；

构建功耗模型包括：采用DPM模型根据系统的实时需求动态地调整计算资源的功耗，当边缘服务器未进行任务处理时，让边缘服务器进入非活跃状态，只有接收到任务请求时边缘服务器才进入活跃状态；

当时，为常数；

当低于时，线性增加，并随着功耗的增加超过而呈二次方增长，系数为的功耗增加，系数为的功耗增加，则边缘服务器群中的边缘服务器在时隙t的动态功耗的计算公式为：

（12）

其中，为边缘服务器的最优CPU使用率；

在时隙t服务器的功耗为：

（13）

（14）

其中，为非活跃状态下边缘服务器的功耗；

设定则根据式（3）和式（14）得出TS-SDTRA系统的总能耗为：

（15）

步骤S2中，将TS-SDTRA系统中的能耗优化问题和负载均衡策略进行公式化，包括能耗优化目标和负载优化目标：

（16）

约束为：

（17）

（18）

（19）

（20）

约束C1表示任务的调度时间必须小于任务设定的最迟完成时间；约束C2表示中CPU和RAM的最大使用率；约束C3表示边缘服务器剩余的CPU和RAM资源需要满足任务需求；约束C4表示所有任务的资源需求之和不能超过已有资源的总数；

步骤S3中，将任务分配和资源调度优化问题描述为马尔科夫决策过程进行求解，包括：

（21）

（22）

（23）

（24）

状态下的最优动作为：

（25）

步骤S3中，采用深度强化学习算法完成能耗优化与负载均衡过程之前，先对深度强化学习算法的动作空间、状态空间和奖励值进行设定；

（26）

根据差值得出第一阶段的奖励值设定方案为：

（27）

（28）

（29）

其中，为的限定范围；

采用PPO算法完成完成能耗优化与负载均衡过程；

①PPO算法的目标函数为：

（30）

用表示新策略与旧策略的概率比，则有：

（31）

其中，为当前策略网络的参数，是旧策略网络的参数，是旧策略，是当前策略，为优势函数，为范围控制的超参数；通过裁剪操作，将限制在内，然后取裁剪过的目标和未裁剪过的目标中的最小值，限定结果偏差范围；

在actor的目标函数中增加一项策略熵，并乘以一个权重参数；PPO算法的目标是在策略更新大小的约束下寻找最优策略参数以最大化目标函数：

（32）

（33）

其中，为估计的回报，为估计值，和为不同时隙，为价值网络的参数，是当前价值函数对的估计；

PPO算法中使用的广义优势估计器的一般形式为：

（34）

其中为折扣因子，是用于平衡方差和偏差的参数，为时隙的时间差分误差，为状态价值函数；

②智能体策略更新方法

Agent的actor网络和critic网络开始分别随机初始化一组参数，根据采样的轨迹计算每个时隙状态的状态价值以及优势函数；

actor网络根据从中随机不重复抽样的样本计算策略函数，并通过随机梯度上升算法基于更新网络参数，更新公式如下：

（35）

其中，为目标策略的学习率；critic网络根据从中随机不重复抽样的样本计算价值函数，通过梯度下降算法基于更新网络参数，价值的学习率为，更新公式如下：

（36）

基于PPO算法的两阶段任务分配与资源调度方法：

在多用户和多边缘服务器的场景中，在调度控制器中创建两个智能体Agent 1和Agent 2来与环境进行交互，并分别输出任务的边缘服务器群调度动作和边缘服务器调度动作；

两阶段任务分配与资源调度：用户设备产生的数据任务存储在一个任务列表中，这些任务按照优先级进入调度控制器；

首先，Agent 1和Agent 2开始时随机初始化一组模型参数；

Agent 1和Agent 2为当前需要调度的任务产生两个调度动作；分别为选择边缘服务器群和边缘服务器；

调度控制器判断选择的边缘服务器资源能否满足完成任务处理的时间和资源需求，当边缘服务器能满足所要分配的任务的时间和资源需求时，调度任务；否则，拒绝当前的调度动作；

调度控制器会根据公式（27）和公式（29）计算出执行这个动作之后能获得的奖励值，然后更新到下一个状态，并用一个经验池将Agent 1和Agent 2产生的调度轨迹采样存储起来；

当Agent 1和Agent 2存储的经验池容量满时，使用基于PPO算法的两阶段任务分配与资源调度方法更新Agent 1和Agent 2的参数。

2.根据权利要求1所述的一种基于强化学习优化边缘能耗与负载的资源调度方法，其特征在于，步骤S1中，设备层由需要卸载任务的用户设备群组成；边缘层由边缘服务器以及边缘服务器集群组成，任务的计算在边缘层进行；设备层与边缘层之间部署有边缘基站，用户设备通过无线链路连接到边缘基站，调度控制器部署在边缘基站；中心云层部署有云服务器，用于调度控制器训练和更新模型。

3.根据权利要求1所述的一种基于强化学习优化边缘能耗与负载的资源调度方法，其特征在于，步骤S1中，在TS-SDTRA系统中，任务的处理流程如下：