CN111970154A

CN111970154A - 基于深度增强学习和凸优化的卸载决策及资源分配方法

Info

Publication number: CN111970154A
Application number: CN202010857421.1A
Authority: CN
Inventors: 宣志豪; 魏贵义; 陈钗君
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-20
Anticipated expiration: 2040-08-24
Also published as: CN111970154B

Abstract

本发明公开了一种基于深度增强学习和凸优化的卸载决策及资源分配方法，在边缘计算服务器算力受限的情况下，为边缘计算系统提供卸载决策和资源分配策略，以追求最小化用户设备所消耗的能耗和处理任务所需时延的综合成本。本发明将卸载决策和资源分配这个高耦合的问题进行解耦，分为卸载接触和资源分配两个子问题，并分别使用强化学习和凸优化的方法进行解决。实验证明，本发明方法取得了很好的效果，可以在短时间内产生最优决策，且具有良好的扩展性。

Description

基于深度增强学习和凸优化的卸载决策及资源分配方法

技术领域

本发明属于边缘计算技术领域，具体涉及一种基于深度增强学习和凸优化的卸载决策及资源分配方法。

背景技术

近年来，随着物联网技术的飞速发展及软件对硬件要求的不断提供，物联网设备正面临越来越多的计算机密集型和延迟敏感性任务，然而物联网设备却常常受制于体积大小、电量等因素，不适宜在设备自身上运行这些任务。

边缘计算可以将用户设备所需要计算的任务卸载到具有丰富计算资源的边缘计算服务器中进行计算，以求减少用户设备的能量消耗及计算任务的时延。与现有的云计算相比，边缘计算服务器部署在网络的边缘侧，例如基站或无线网络的接入点，与用户的距离较近，可以避免与云计算中心的长距离数据传输，从而降低计算任务所需要的时延和传输能耗，提升了用户的体验。

但与云计算不同的是，边缘计算服务器通常具有有限的计算能力和带宽，因此对用户进行卸载决策和资源分配成为了一个热点研究问题，也是边缘计算系统中的一个难点。在资源受限的情况下，对卸载决策和资源的不合理判断及分配，可能会导致时延和能耗消耗的增加，也可能使得系统的负载变得不均衡，影响系统的稳定性。

为了解决上述问题，目前已有许多学者进行了这方面的研究。文献[H.Zhang,F.Guo,H.Ji and C.Zhu,"Combinational Auction-Based Service Provider Selectionin Mobile Edge Computing Networks,"in IEEE Access,vol.5,pp.13455-13464,2017,doi:10.1109/ACCESS.2017.2721957.]提出了一种基于多轮拍卖的移动边缘计算调度决策算法，它的实现要求在用户设备和边缘计算服务器之间进行多轮通信。也有一些研究通过博弈论的方法解决上述问题，如文献[M.Messous,H.Sedjelmaci,N.Houari andS.Senouci,"Computation offloading game for an UAV network in mobile edgecomputing,"2017IEEE International Conference on Communications(ICC),Paris,2017,pp.1-6,doi:10.1109/ICC.2017.7996483.]，其方法仍然要求在设备和服务器之间进行多轮通信，但对于目前边缘计算中具有时延敏感性的任务来说，其复杂度和通信时间仍然过高。

近年来，机器学习的方法在不同领域都取得了一些突破，例如自然语言处理、数据挖掘、智能推荐等等领域，然而目前使用机器学习方法对边缘计算系统进行的研究却较少，且大部分研究仍基于Q学习，但Q学习内部的表格搜索结构其实并不适用于多维、高耦合的问题。也有学者使用深度学习方法进行了卸载决策方面的研究，但其对神经网络的训练要求暴力搜出最合适的卸载策略，也无法适应各种条件的变化。

综上所述，现有研究提出的方法在实际应用中或成本较高，或不能适应环境的变化，或对计算卸载决策和资源分配两个高耦合问题之一进行解决，实际应用可能性较小。

发明内容

鉴于上述，本发明提出了一种基于深度增强学习和凸优化的卸载决策及资源分配方法，在边缘计算服务器算力受限的情况下，为边缘计算系统提供卸载决策和资源分配策略，以追求最小化用户设备所消耗的能耗和处理任务所需时延的综合成本。

一种基于深度增强学习和凸优化的卸载决策及资源分配方法，包括如下步骤：

(1)对于一个边缘计算系统，该系统包含一个边缘服务器及其所服务的N个用户设备，边缘服务器与用户设备之间通过无线通信；获取系统中各用户设备当前需要处理的任务数据量，N为大于1的自然数；

(2)建立一个由输入层、隐藏层、输出层连接组成的深度神经网络并初始化网络参数，将各用户设备当前需要处理的任务数据量作为输入层，输出层则生成系统卸载策略；

(3)将所述系统卸载策略复制多份并对每份卸载策略进行修改，得到多份备选卸载策略，修改方式为：对于任一份卸载策略，随机从中选取若干个用户设备，若这些用户设备的卸载策略为本地计算，则将其更改为服务器计算，若这些用户设备的卸载策略为服务器计算，则将其更改为本地计算；

(4)对于系统卸载策略以及每一备选卸载策略，就策略中需进行计算卸载的用户设备，通过凸优化算法计算出边缘服务器为这些用户设备分配的算力；

(5)根据得到的算力分配方案，计算出系统卸载策略以及每一备选卸载策略的综合成本函数，取综合成本函数最小的卸载策略提供给系统执行，并将该卸载策略以及各用户设备当前需要处理的任务数据量作为一组样本存放至一固定容量的记忆模块中。

进一步地，所述深度神经网络包含有多个隐藏层，隐藏层采用ReLU作为激活函数，输出层采用Sigmoid作为激活函数。

进一步地，所述深度神经网络将各用户设备当前需要处理的任务数据量组成一个1×N大小的向量作为输入层；输出层生成的系统卸载策略则由一个1×N大小的向量表示，若该向量中的元素值大于等于0.5，则将其置1，表示对应的用户设备将进行计算卸载转由边缘服务器为其处理当前任务，若该向量中的元素值小于0.5，则将其置0，表示对应的用户设备将在本地处理当前任务。

进一步地，所述步骤(4)中以综合成本函数最小为目标，采用SLSQP(SequentialLeast Squares Programming)凸优化算法进行求解，得到边缘服务器为相关用户设备分配的算力。

进一步地，所述综合成本函数的表达式如下：

其中：Cost为综合成本函数，T_i ^local为第i台用户设备在本地处理当前任务的计算用时，E_i ^local为第i台用户设备在本地处理当前任务的能耗，α为给定的权重系数，T_i ^offload为第i台用户设备通过计算卸载转由边缘服务器处理当前任务的耗时，E_i ^offload为第i台用户设备通过计算卸载转由边缘服务器处理当前任务的能耗，x_i为卸载策略中对应第i台用户设备的决策值，即x_i＝1表示第i台用户设备将进行计算卸载转由边缘服务器为其处理当前任务，x_i＝0表示第i台用户设备将在本地处理当前任务。

进一步地，所述耗时T_i ^offload及能耗E_i ^offload的表达式如下：

T_i ^offload＝T_i ^t+T_i ^c

其中：T_i ^t为第i台用户设备将当前任务上传至边缘服务器所花费的时间，d_i为第i台用户设备当前任务的数据量大小，r_i为第i台用户设备与边缘服务器之间的数据传输速度，T_i ^c为边缘服务器处理第i台用户设备当前任务的计算用时，E_i ^upload为第i台用户设备将当前任务上传至边缘服务器所消耗的能量，p_upload为用户设备的任务上传功率，E_i ^waiting为第i台用户设备等待边缘服务器反馈结果这段时间所消耗的能量，p_waiting为用户设备的等待状态功率，f_i ^es为边缘服务器为第i台用户设备分配的算力(即单位时间内可处理的数据量大小)。

进一步地，所述计算用时T_i ^local及能耗E_i ^local的表达式如下：

其中：d_i为第i台用户设备当前任务的数据量大小，f_local为第i台用户设备单位时间内可处理的数据量大小，p^local为第i台用户设备在本地进行计算处理的运行功率。

进一步地，当经过多轮决策后，若记忆模块已满，则将最早放入记忆模块中的样本删除以腾出空间存放新的样本。

进一步地，所述深度神经网络每隔一定轮次需进行一次训练，即随机从记忆模块选取一批样本采用Adam算法对深度神经网络进行训练。

本发明对于在有限算力情况下以任务完成的时延和能耗优化为目标，提出了一种基于强化学习和凸优化的卸载决策和资源分配方法，该方法将卸载决策和资源分配这个高耦合的问题进行解耦，分为卸载接触和资源分配两个子问题，并分别使用强化学习和凸优化的方法进行解决。实验证明，本发明方法取得了很好的效果，可以在短时间内产生最优决策，且具有良好的扩展性。

附图说明

图1为边缘计算系统示意图。

图2为本发明方法的具体流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

在如图1所示的边缘计算系统中，其中包含一个边缘计算服务器ES和N个用户设备UE，这N个UE设备相同，用i＝{1,2,…,N}表示。ES和UE之间通过无线网络进行通信，且它们之间的传输时延可以忽略。一般来说，ES具有稳定的电力供应和较快的运算速度，而UE则正好相反，所以UE可以将自身所需要计算的任务卸载至ES进行计算，再从ES接收计算的结果，以求减少计算任务所需的能量消耗和时延。但对于ES来说，它具有有限的计算资源

所以它需要为决定进行任务卸载的UE进行算力分配，对算力的分配会影响到能耗和时延。本发明使用了一个二元卸载策略，对于某个UE来说，它的所有任务要么在本地计算，要么卸载至ES进行计算，计算卸载的决定用一个二元变量x_i∈{0,1}来表示，具体来说，当x_i＝0时表示第i个用户设备决定在本地进行运算，而当x_i＝1时则表示第i个用户设备决定进行任务卸载。

(2)若第i个用户设备UE_i决定将其所有任务卸载至ES中进行计算时，它需要将大小为d_i的数据通过无线网络上传至ES，上传的速度为ES给其分配的速度r_i。

一般情况下，计算结果的数据量都很小，且相比于上传数据量可以忽略不计，因此本发明忽略由下载计算结果所产生的能量消耗和时延。

首先对任务卸载所需的时间进行建模，UE_i将d_i的数据量在传输速度为r_i的情况下上传至ES所花费的时间为：

而在ES服务器中运算所需要的时间为：

其中：f_i ^es表示ES服务器为UE_i分配的算力，即单位时间内可以处理的数据量。综上，进行任务卸载所消耗的总时间为：

T_i ^offload＝T_i ^t+T_i ^c

接下来为任务卸载的能耗进行建模，假设每个UE的上传功率均为p_upload，则在上传任务的过程中，所消耗的能量为：

而在将任务上传至ES后到获取计算结果这段时间内，UE_i将处于等待状态，设在此期间所有用户设备的等待状态功率均为p_waiting，那么UE_i在这段时间所消耗的能量为：

根据上传任务所消耗的能量E_i ^upload以及等待结果时间内所消耗的能量E_i ^waiting可以求得任务卸载的能量消耗为：

现在为在本地进行计算的时延和能量消耗进行建模，用f_local来表示UE自身每秒可以处理的数据量，那么对于UE_i而言，在本地计算所需要的时间为：

接下来为本地计算的能量消耗建模，设在本地进行计算时的运行功率为p^local，那么所消耗的能量为：

为了最小化所有用户设备的时延与能量消耗，本发明使用线性加权法定义了一个由时延和能耗所组成的加权函数Cost(d,x,r)，使用线性加权法用以评价系统的表现：

其中：d＝{d_i|i∈N}，x＝{x_i|i∈N}，r＝{r_i|i∈N}，α表示能耗在加权函数中所占的权重，那么问题即为：

Q(d)＝minimize Q(d,x,r)

且满足以下条件：

对于问题Q(d)来说，同时求出卸载决策x和算力分配r会是一个高耦合的问题，存在多个参数相互影响，一般来说解决此类问题会比较困难，所以我们对问题进行解耦，分解为卸载决策问题和算力分配问题。

就卸载决策的产生来说，需要将所有设备的所需要进行计算的数据量d作为输入，并找出系统认为的最合适的卸载策略x，对于N个设备来说，卸载策略总共有2^N种可能，如果在实际情况中使用暴力搜索方法，其可选择的卸载策略数会随着设备数N的增加而呈指数级增加，所以暴力搜索方法在实际情况中并不适用，需要寻求一种既能保证决策的优异性又能保证决策速度的方法，为了解决上述问题，本发明采用了深度强化学习技术，其具体实现大体包含了两个模块，分别是卸载决策产生模块和对卸载决策的改进模块，其中卸载决策产生模块包含了算力分配问题的解决方法。

其中卸载决策产生模块包含一个神经网络模型，他会根据输入的每个用户需要进行计算的任务数据量d，产生一个卸载决策x。对于该神经网络，根据众所周知的万能近似定理，对于一个前馈神经网络，哪怕只有一个隐藏层，它也能无限逼近任何有界连续函数，所以在这里，我们使用ReLU作为隐藏层中的激活函数，而在输出层，使用Sigmoid激活函数。

而在产生一个卸载决策后，系统会对该卸载决策进行随机扰动，每一次扰动会对产生的卸载决策随机选取c个用户，如果该用户的决策为卸载，就改为本地计算，反之亦然，共产生K个不同的卸载决策。

但产生出K个不同的卸载决策后，问题Q(d)就变成了一个算力分配问题，即：

Q(d,x)＝minimize Q(d,x,r)

系统会根据这K个不同的卸载决策，分别根据凸优化的方案及成本函数计算其最优化的算力分配以及对应的成本，将对应成本最小的卸载决策进行输出。

鉴于前人已经对凸优化展开了广泛而深入的研究，目前对凸优化的研究已经存在了许多高效的算法，本发明对于算力分配问题，使用了一种名为SLSQP的凸优化算法进行求解。

而对于对卸载决策的改进模块，在卸载决策模块每一次产生最优的卸载决策后，都会将该卸载决策及其用户所需要的计算的任务量数据作为一个样本保存到记忆中，该记忆的存储容量是有限的，如果在加入新的最优卸载决策时记忆已满，则会淘汰最早加入记忆中的样本。

而在对卸载决策的改进模块中，每一次产生计算卸载决策的过程中，如果当前产生决策的次数正好为δ的倍数，则会从该记忆中随机选取一批样本进行训练，而不是传统方法中使用所有数据进行训练。在训练过程中，本发明应用Adam算法对神经网络的参数进行了更新，以减少平均交叉熵损失；由于使用的是自身产生的决策而非获得的最优决策，所以神经网络模型可以在无监督情况下不断改进自身模型，产生更好的卸载决策，而不像传统深度学习需要依靠通过暴力搜索的方法计算出最为适合的卸载策略。特别的，有限的记忆容量可以帮助提高训练的效率，因为新产生的样本一般情况下会比旧的样本更优，事实上，目前还要一些其他技术可以帮助加速训练，例如分布重要性抽样和优先体验重播。

如图2所示，本发明具体实施方式如下：

(1)初始化系统参数，包括用户设备个数、边缘计算服务器的最大算力(每秒能处理的最大数据量)、用户设备与边缘计算服务器之间的数据传输速率、用户设备的算力、用户设备进行任务处理时的功率、能耗和时延在综合成本中的权值、用户设备与边缘计算服务器进行通信时的功率、用户设备在等待结果时的待机功率。

(2)创建一个具有不少于四层、且输入和输出层大小均为1×N的DNN神经网络，并使用ReLU函数作为隐藏层的激活函数，使用Sigmoid函数作为输出层的激活函数，并使用随机值对该神经网络进行参数初始化。

(3)创建一个容量有限的记忆模块，用以存储每一轮中，用户设备所需要处理的任务数据量和最后的卸载决策，并初始化为空。

(4)在每一轮的卸载决策及算力分配过程中：

4.1用户设备将本轮需要处理的数据量发送给边缘计算服务器。

4.2将所有用户设备需要处理的数据量作为输入，输入进入DNN神经网络，并获得输出，若第i个用户设备的输出数值大于等于0.5，则置1，表示该设备的任务在这一轮将会进行计算卸载；若小于0.5，则置0，表示该设备这一轮将会在本地进行计算。

4.3将获得的计算卸载决策，进行多份备份，并对除原本的计算卸载决策之外的每份备份进行随机变化，在随机变化过程中，随机选取多个用户设备，如果该设备准备进行计算卸载，则将其改为本地计算，反之亦然，输出多份卸载决策。

4.4对步骤4.3中输出的多份卸载决策中，每一份卸载决策中，所确定的进行计算卸载的用户设备，结合服务器最大算力以及时延和能耗所组成的综合成本函数，使用SLSQP凸优化算法进行求解，目标为综合成本最小，输出多份对用户设备的算力分配。

4.5根据获得输出的多份算力分配方案和计算卸载决策，计算时延和能耗所组成的综合成本，并选取综合成本最小的所对应的卸载决策及其用户设备所需要处理的数据量，存入记忆模块中，并输出给用户设备执行；如果记忆模块已满，则淘汰最早加入的以存放最新产生的。

4.6如果当前轮数为设定的神经网络DNN每隔m轮就进行一次训练的倍数，则从记忆模块中随机选取一批样本进行训练，并使用Adam算法训练DNN神经网络。

以下我们通过仿真实验以评估所提出算法的性能。在仿真实验中，我们设用户设备的个数N＝10，用户任务不论类型在本地或服务器中计算速度均确定，每个用户设备的任务数据量服从5MB到25MB之间的均匀分布，边缘计算服务器每秒可以处理30MB的数据，用户设备于边缘计算服务器之间的通讯速度均为2.5MB/s，用户在发送数据时的功率为1W，在等待时的功率为0.5W，而用户本地计算时处理数据的速度为3MB/s，计算时的功率为3W，能耗在成本函数中的系数α＝1；我们设记忆模块的容量为256，神经网络模型为四层，每次会产生K＝7个卸载策略，随机扰动的用户数为c＝4，每10次预测进行一次学习，每次学习会从记忆模块中随机选取128个样本进行学习，学习率为0.01，而凸优化SLSQP方法使用scipy库中对应的函数进行实现。

我们将本发明算法与以下几种现有策略进行比较，它们分别是：

全部本地策略(ALL_LOCAL)：所有的用户设备都将任务在本地进行计算。

全部卸载+平分计算资源(ALL_OFFLOAD)：所有的用户设备都将任务卸载至边缘计算服务器进行计算，并对所有用户设备平分卸载资源。

梯度下降+平分计算资源(CD_AVERAGE)：由梯度下降方法计算出卸载策略，并对所有用户设备平分卸载资源。

梯度下降+凸优化分配计算资源(CD_SLSQP)：由梯度下降方法计算出卸载策略，并使用SLSQP算法分配计算资源。

我们对以上算法进行了10000次迭代进行比较，比较结果如表1所示，从表1中看出，ALL_LOCAL、ALL_OFFLOAD以及CD_AVERAGE表现较差，其最小成本与当前策略成本之比均处于0.86到0.9之间；而CD_SLSQP算法表现最好，其成本之比最接近1，稳定在0.999左右；而本发明算法，在经过一段时间的收敛之后，成本之比稳定在0.995左右。

表1

从表2中可以看出，本发明算法计算一个卸载策略及计算资源分配方案的所耗时间，相比于CD_SLSQP算法要远小的多，但用户设备数分别为10、15和20时，CD_SLSQP的耗时分别是本发明算法的6.8、12.9和21.5倍，可以看出CD_SLSQP算法的时间复杂度较高，且在用户设备数量增加时所耗时间会大量增加，而本发明算法所耗时间一直较少。

表2

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于深度增强学习和凸优化的卸载决策及资源分配方法，包括如下步骤：

2.根据权利要求1所述的卸载决策及资源分配方法，其特征在于：所述深度神经网络包含有多个隐藏层，隐藏层采用ReLU作为激活函数，输出层采用Sigmoid作为激活函数。

3.根据权利要求1所述的卸载决策及资源分配方法，其特征在于：所述深度神经网络将各用户设备当前需要处理的任务数据量组成一个1×N大小的向量作为输入层；输出层生成的系统卸载策略则由一个1×N大小的向量表示，若该向量中的元素值大于等于0.5，则将其置1，表示对应的用户设备将进行计算卸载转由边缘服务器为其处理当前任务，若该向量中的元素值小于0.5，则将其置0，表示对应的用户设备将在本地处理当前任务。

4.根据权利要求1所述的卸载决策及资源分配方法，其特征在于：所述步骤(4)中以综合成本函数最小为目标，采用SLSQP凸优化算法进行求解，得到边缘服务器为相关用户设备分配的算力。

5.根据权利要求1所述的卸载决策及资源分配方法，其特征在于：所述综合成本函数的表达式如下：