CN112367353A

CN112367353A - 基于多智能体强化学习的移动边缘计算卸载方法

Info

Publication number: CN112367353A
Application number: CN202011067955.0A
Authority: CN
Inventors: 李轩衡; 汪意迟; 李慧瑶
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2021-02-12
Anticipated expiration: 2040-10-08
Also published as: CN112367353B

Abstract

本发明公布了一种基于多智能体强化学习的移动边缘计算卸载方法，属于边缘计算、无线网络领域，为“多用户‑多边缘节点”的复杂场景提供了一种智能的任务卸载方法。该方法采用多智能体强化学习算法，各用户设备在本地建立Actor和Critic深度学习网络，分别根据自己及其它设备的状态和动作进行动作选择和动作打分，综合考虑频谱资源、计算资源和能量资源，以优化任务延迟为目标制定卸载和资源分配策略。该方法不依赖网络具体模型，各设备能够通过“探索‑反馈”的学习过程自主智能地进行最优策略制定，且能够适应网络环境的动态变化。

Description

基于多智能体强化学习的移动边缘计算卸载方法

技术领域

本发明属于边缘计算、无线网络领域，涉及一种基于多智能体深度强化学习的计算卸载方法，特别涉及到计算任务卸载策略和多维资源联合分配问题。

背景技术

随着移动互联网技术的不断发展，虚拟现实、在线游戏、人脸识别、图像处理等计算密集型新兴应用迅速崛起。然而，由于终端设备的计算能力有限，这些计算密集型应用的普及受到限制。为解决该问题，云计算应运而生，其将终端设备端复杂的计算任务上传至计算能力更强大的云服务器上执行，以此来解除这些新兴应用对设备计算能力的依赖。然而传统的云计算解决方案存在较大的传输延迟和过高的回程带宽需求问题，难以满足未来海量的计算需求，因此，移动边缘计算的概念被提出。

移动边缘计算是指在移动网络边缘部署计算和存储资源，为移动网络提供IT服务环境和计算能力，用户可以将部分或全部计算任务交给边缘代理服务器进行处理，从而为用户提供超低时延的计算解决方案。其中，如何制定计算卸载策略是移动边缘计算的关键问题，主要包括卸载决策和资源分配这两方面。卸载决策是指根据用户的任务负载、数据量等属性，综合考虑能耗、响应时间等因素，决定是否卸载、卸载目标、卸载任务量等策略；资源分配重点解决终端设备在卸载过程中的资源占用问题，主要包括设备的能量和计算资源的分配。

目前针对移动边缘计算任务卸载和资源分配的联合策略设计主要基于全局优化方法，即假设网络中心节点已知全局信息，以最小化能耗或最小化延迟为目标，以移动终端的能量及计算资源、任务的延迟容忍等为约束建立优化问题并求解，从而获得最优策略。然而，这种决策优化问题通常是NP困难问题，尤其当网络规模较大时，即使通过启发式求解算法仍然需要通过较长的计算时间开销来获得最优策略。此外，网络的状态通常是动态变化的，这需要中心节点不断地求解复杂的优化问题，且难以自适应地跟踪网络的动态环境。

近年来，随着人工智能技术的迅速发展，强化学习算法受到了广泛关注。强化学习是机器学习的一个重要分支，主要由智能体、环境、状态、动作和奖励组成。智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖励指导行为，从而使智能体随着时间的推移自适应地实现特定目标的最优。由于强化学习是对动作进行评价并根据反馈修正动作选择及策略，所以其不需要依赖先验知识，且能够自适应地跟踪环境变化，适合解决较为复杂的决策问题，因此可以借助强化学习算法实现智能的计算卸载。考虑到网络中通常存在多个终端设备需要进行决策制定，且各自策略会彼此影响，本发明设计基于多智能体强化学习的计算卸载方法。与传统的的优化求解方法相比，该方法不需要求解复杂的优化问题，可有效降低决策制定的时间开销，更具有可行性，此外，各设备能够自适应地跟踪网络环境变化，智能地自主制定策略。因此，本发明设计的方法具有更佳的应用前景。

发明内容

本发明的目的是从网络总体性能角度出发，综合考虑用户设备的状态以及网络的通信与计算资源，为网络中各用户设备提供一种基于多智能体深度强化学习的智能边缘计算卸载方法。

本发明中，分别用

和

表示网络中存在的N个用户设备和M个边缘节点。考虑周期性时隙系统，各用户设备在每个时隙将进行计算卸载策略制定，包括任务的卸载比例、卸载的目标边缘节点、传输所用信道以及任务传输和本地执行的能量分配。用δ(秒)表示单个时隙的长度，并以整数j作为索引。本发明提供的基于多智能体深度强化学习的智能边缘计算卸载方法具体步骤如下：

第1、定义网络中各用户设备n在时隙j的状态集，动作集和奖赏函数。

定义1：用户设备n在时隙j的状态集用

表示，其中：

①.

表示该设备在时隙j需要完成的计算任务的输入数据量(比特)，

代

表完成任务所需的CPU循环数；

②.

表示在时隙j初该设备的剩余电量。假设各设备在每个时隙均可充电，

充电的功率为

且时隙初的剩余电量不超过电池容量E_n,max。

③.

表示时隙j内，用户设备n与M个边缘节点之间的信道增益的合集。其中

表示时隙j内用户设备n与边缘节点m之间的所有信道对应的增益的集合。

定义2：用户设备n在时隙j的动作集用

表示，其中：

①.

表示时隙j内用户设备n产生的任务卸载到边缘节点上的比例；

②.

表示时隙j内用户设备n卸载的边缘节点标号；

③.

表示时隙j内用户设备n传输所占用的信道标号；

④.

和

分别表示时隙j内，用户设备n分配给本地计算和任务传输的能量，其需要满足：

定义3：用户设备n在时隙j的奖赏函数定义为：

为用户设备n在时隙j处理计算任务所需要的总时延，满足

其中

表示本地处理时延，

表示传输时延，

表示边缘节点计算时延。当任务处理总时延

时，用户设备n在时隙j内的计算任务视为失败，

为任务失败所对应的惩罚。w₁和w₂分别为权重系数，计算得到用户设备n在时隙j的奖赏值。

1、关于总时延

的计算：

①.本地处理时延

的计算方式如下：

其中，

为该任务在本地所分配到的CPU循环频率，计算方式如下：

τ_n为第n个设备的有效开关电容，与移动设备的芯片架构有关。

②.任务传输时延

可通过联立求解如下方程组得出

其中，

表示该设备选择的第

个信道(即任务传输所用信道)的增益；

为该信道上行链路的最大传输速率；

为传输过程中的干扰；

为发射功率；W为上述信道的带宽；σ²为平均每个时隙内信道中的噪声功率。

③.边缘节点处理时延

的计算方式如下：

当边缘服务器同时处理多个计算任务时，假设每个任务平分计算资源。时隙j内用户设备n选择的边缘节点

中需要处理的计算任务个数用

表示，设边缘节点

服务器的总CPU循环频率为

则当前任务分配到的CPU频率为：

用

表示任务在边缘节点上处理的时延，其值为：

2.任务失败惩罚因子

的计算方式如下

假设所有任务的最大时延容忍度均为δ(秒)，则有：

①.若

即电量耗尽，当前任务无法执行，视作任务失败，此时任务的总时延定义为

任务失败惩罚因子

②.若

即任务处理超时，视作任务失败，此时任务的总时延定义为

任务失败惩罚因子

③.除去①、②中所述的情况之外，均视为任务处理成功，任务失败惩罚因子

第2、将用户设备

视作N个智能体，基于步骤1中定义的状态集合、动作集合和奖赏函数，进行基于多智能体深度强化学习算法的任务卸载和资源分配的联合策略训练。

每个智能体中均包含Actor网络和Critic网络，这两者又均包含在线深度神经网络和目标深度神经网络两个部分。其中Actor在线网络可以模拟当前的策略，即根据智能体输入的状态观测值输出实时的动作，并施加到环境中获取当前奖赏值和下一个时隙的状态；Actor目标网络的输出动作并不会实际执行，只是用来协助Critic进行参数的更新。Critic在线网络可依据所有智能体的当前状态和Actor在线网络输出的动作对Actor在线网络的输出进行评估；Critic目标网络可依据所有智能体的下一个状态和Actor目标网络输出的动作对Actor目标网络的输出进行评估。Critic在线与目标网络一同协助智能体完成策略的更新。使用在线和目标双网络模型的目的是让算法的学习过程更稳定，收敛更快。此外，该算法中还含有用于存储训练数据的经验池D。当需要进行网络训练时，从经验池中随机抽取小批量数据进行训练，由此来去除样本间的相关性和依赖性。具体步骤如下：

第2.1、随机初始化N个智能体的Actor在线网络参数

Critic在线网络参数

并初始化Actor的目标网络参数

为θ^A，Critic的目标网络参数

为θ^C；初始化经验池D；

第2.2、对于任意时隙j，将各智能体的状态

分别输入至对应的Actor网络，对于每一个智能体n，

①.以概率1-ε根据Actor在线网络的输出确定动作，公式如下：

其中

为由智能体n的Actor在线神经网络模拟出来的当前的策略，以下均用μ_n简化代替；N_t为随机噪声；

②.以概率ε随机选择动作

第2.3、各智能体执行动作

并根据执行动作之后的情况记录各自奖赏值

和新的状态

第2.4、将(x^j,a^j,r^j,x^j+1)存储至经验池D，并将各智能体的状态更新为x^j+1。

第2.5、更新网络参数。对于智能体n＝1到N，Actor和Critic网络参数的更新如下所示：

第2.5.1、从经验池D中随机抽取S个经验，设(x^k,a^k,r^k,x'^k)对应第k∈{1,...,S}条经验。对于k＝1至k＝S，重复步骤①、②：

①.将N个智能体的状态值

依次输入各智能体对应的Actor目标网络中，得到动作

将状态x'^k与得到的动作a'^k分别输入各智能体对应的Critic的目标网络，得到目标网络输出的评价值，用

表示第n个智能体目标网络输出的评价值；将状态x^k与动作a^k分别输入各智能体对应的Critic的在线网络，得到在线网络输出的评价值，用

表示第n个智能体在线网络输出的评价值。

②.定义目标评价值，并计算各智能体的目标评价值。

定义4：定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为：

其中γ为可人为设置的参数，

为第n个智能体的第k个抽样经验中的奖赏值。

第2.5.2、Critic在线网络的损失函数计算如下：

为最小化损失函数

基于梯度下降法更新Critic在线网络的参数

第2.5.3、Actor在线网络的策略梯度计算如下：

基于梯度上升法更新Actor在线网络的参数

第2.5.4、利用

更新智能体n的Actor和Critic目标网络，τ为人为设置的参数。

本发明的效果和益处

1、相比传统的全局优化方法，策略的制定不依赖网络参量的具体模型，且智能的强化学习算法使得策略能够适应环境的变化。

2、本发明采用多智能体强化学习算法，适用于“多用户-多边缘节点”的复杂网络场景，能够综合网络中各用户之间的影响，实现网络整体效用的最优。

3、本发明考虑了用户设备的充电特性，联合优化了“能量-通信-计算”多维资源。

具体实施方式

以4个用户设备和2个基站组成的移动边缘系统为例，设每个用户与基站之间都有2个信道可供使用，每个信道带宽为0.6MHz，信道的增益服从瑞利分布。每一个时隙的长度为1秒，假设用户在每个时隙通过无线充电收集到的能量服从泊松分布。两个基站的最大CPU循环频率分别为10GHz和30GHz，分配给各个任务的CPU循环频率分别为5GHz和10GHz。各设备在每个时隙初产生的任务的数据大小和需要消耗的CPU循环在一定范围内随机生成。

下表为基于多智能体强化学习算法的具体方案流程：

每一个智能体的Actor和Critic的在线和目标神经网络均采用四层全连接层的结构，包括输入层、两个隐藏层以及输出层。每个隐藏层设置为64个神经元，激活函数为ReLU。其中Actor网络的输入为状态集，输出为动作集，故其输入层设置为4个神经元，输出层设置为5个神经元，且设置输出层的激活函数为Softmax；Critic网络的输入为状态集和动作集的合集，输出为评价值，故其输入层设置为9个神经元，输出层设置为1个神经元。探索率ε初始化为0.9，每个时隙探索率ε将乘以0.999下降，直至下降到0.1保持不变。在进行网络训练时，每次从经验池中抽取的批量数S为256，经验池D的最大容量为10³，参数τ的默认取值为0.001，折损因子γ为0.95。随着网络训练的进行，各智能体的网络参数不断优化，最终可以收敛到长期最优策略，即得到了各智能体的任务卸载和资源分配的最优策略。此时向各智能体的Actor在线网络输入状态之后，得到的动作即为当前状态下用户设备的最佳动作。

Claims

1.一种基于多智能体强化学习的移动边缘计算卸载方法，其特征在于，步骤如下：

(1)定义网络中各用户设备n在时隙j的状态集，动作集和奖赏函数

定义1：用户设备n在时隙j的状态集用

表示，其中，

表示该设备在时隙j需要完成的计算任务的输入数据量：比特；

代表完成任务所需的CPU循环数；

表示在时隙j初该设备的剩余电量；假设各设备在每个时隙均可充电，充电的功率为

且时隙初的剩余电量不超过电池容量E_n,max；

表示时隙j内，用户设备n与M个边缘节点之间的信道增益的合集；其中

表示时隙j内用户设备n与边缘节点m之间的所有信道对应的增益的集合；

定义2：用户设备n在时隙j的动作集用

表示，其中，

表示时隙j内用户设备n卸载的边缘节点标号；

表示时隙j内用户设备n传输所占用的信道标号；

和

定义3：用户设备n在时隙j的奖赏函数定义为：

其中，

为用户设备n在时隙j处理计算任务所需要的总时延，满足

其中

表示本地处理时延，

表示传输时延，

表示边缘节点计算时延；当任务处理总时延

时，用户设备n在时隙j内的计算任务视为失败，

为任务失败所对应的惩罚；w₁和w₂分别为权重系数，计算得到用户设备n在时隙j的奖赏值；

(1.1)关于总时延

的计算：

①本地处理时延

的计算方式如下：

其中，

为该任务在本地所分配到的CPU循环频率，计算方式如下：

其中，τ_n为第n个设备的有效开关电容，与移动设备的芯片架构有关；

②任务传输时延

通过联立求解如下方程组得出

其中，

表示该设备选择的第

个信道即任务传输所用信道的增益；

为该信道上行链路的最大传输速率；

为传输过程中的干扰；

为发射功率；W为上述信道的带宽；σ²为平均每个时隙内信道中的噪声功率；

③边缘节点处理时延

的计算方式如下：

当边缘服务器同时处理多个计算任务时，假设每个任务平分计算资源；时隙j内用户设备n选择的边缘节点

中需要处理的计算任务个数用

表示，设边缘节点

服务器的总CPU循环频率为

则当前任务分配到的CPU频率为：

用

表示任务在边缘节点上处理的时延，其值为：

(1.2)任务失败惩罚因子

的计算方式如下：

假设所有任务的最大时延容忍度均为δ，则有：

①若

任务失败惩罚因子

②若

即任务处理超时，视作任务失败，此时任务的总时延定义为

任务失败惩罚因子

③除去①、②中所述的情况之外，均视为任务处理成功，任务失败惩罚因子

(2)将用户设备

视作N个智能体，基于步骤(1)中定义的状态集合、动作集合和奖赏函数，进行基于多智能体深度强化学习算法的任务卸载和资源分配的联合策略训练；

每个智能体中均包含Actor网络和Critic网络，两者又均包含在线深度神经网络和目标深度神经网络两个部分；其中Actor在线深度神经网络可模拟当前的策略，即根据智能体输入的状态观测值输出实时的动作，并施加到环境中获取当前奖赏值和下一个时隙的状态；Actor目标深度神经网络的输出动作并不会实际执行，只是用来协助Critic进行参数的更新；Critic在线深度神经网络依据所有智能体的当前状态和Actor在线深度神经网络输出的动作对Actor在线深度神经网络的输出进行评估；Critic目标深度神经网络依据所有智能体的下一个状态和Actor目标深度神经网络输出的动作对Actor目标深度神经网络的输出进行评估；Critic在线深度神经网络与Critic目标深度神经网络一同协助智能体完成策略的更新；此外，该算法中还含有用于存储训练数据的经验池D；当需要进行网络训练时，从经验池中随机抽取小批量数据进行训练，由此来去除样本间的相关性和依赖性；具体步骤如下：

(2.1)随机初始化N个智能体的Actor在线深度神经网络参数