CN109257429A

CN109257429A - 一种基于深度强化学习的计算卸载调度方法

Info

Publication number: CN109257429A
Application number: CN201811143682.6A
Authority: CN
Inventors: 葛季栋; 李传艺; 潘林轩; 杨诗宇; 谢凯航; 陈书玉; 王帅惟; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-01-22

Abstract

本发明是一种基于深度强化学习的计算卸载调度方法，为物联网设备提供了一种计算卸载作出卸载决策方法，包括针对计算卸载的基本模型，对需要卸载的各个方面进行决策。基于不同的优化目标，通过改变价值函数，以达到不同的优化目标。本算法中的Deep‑SARSA算法相似于DQN算法是结合强化学习与深度学习的深度强化学习算法，在配合了经验池可以有效的将卸载状态与卸载动作转变为深度学习的可训练样本。本发明能够有效的对不限维度的卸载状态模型进行机器学习，降低学习的复杂度，该方法使用神经网络作为Q值得线性逼近器，可以有效的提高训练速度，减少训练所需要的样本，该方法能有效的在既定模型和优化目标下，通过深度强化学习，作出最优的决策。

Description

一种基于深度强化学习的计算卸载调度方法

技术领域

本发明涉及一种计算卸载的调度算法，具体涉及一种基于深度强化学习(Deep-SARSA)的计算卸载调度方法，该方法属于机器学习技术在分布式计算领域的应用。

背景技术

随着科技的进步，应用程序更加关注真实世界与虚拟世界的连接与互动，例如人脸识别、计算机视觉、自然语言处理等需要强大计算机能力的应用。然而，由于IOT设备固有的局限性(比如计算资源、电池、内存等)，资源受限设备和这类计算密集型应用之间的紧张关系成为提供令人满意的体验质量(QoE)的瓶颈，因此可能推迟成熟的移动应用市场的到来。在这种情况下，一种新的概念被提出——计算卸载，移动设备将执行的计算任务卸载到外部设备来计算以减少任务完成时间，同时减少移动设备能耗。在计算机科学领域，计算卸载指的是将资源密集型任务放到一个外部平台，例如集群、网格或者云。卸载的必要性可以体现在设备的硬件限制，例如有限的计算能力、存储和能源。当运行计算密集型服务时，计算卸载能够为移动设备节约能耗，特别是对于能够耗尽电池电量的移动服务。

在传统的云计算系统中，远程的公共云(如Amazon，谷歌云等等)可能被过多的利用，数据交换可能会发生堵塞以致会产生很长的等待时间。因此新的计算范式被提出——移动边缘计算MEC，MEC是一个于2014年提出的计算范式，它可以通过无线接入网为移动用户近距离提供计算能力。它的一个主要研究问题是从用户角度出发，基于边缘系统和云环境，决定任务卸载的时机和位置和如何做任务卸载(when，where and how)。MEC服务器可以看作是小型的数据中心，它的能耗远小于传统的云或是巨大规模的数据中心。在边缘计算网络中的主要挑战是如何处理动态性。

但是在卸载策略的选择上，单靠一些简单的判断是无法作出最优的选择的。近年来随着机器学习水平的进步，已有不少学者机器学习的方法用在计算卸载领域。在各种机器学习分类中，强化学习通过尝试与环境不断交互获得策略的改进，它是机器学习的一个重要研究分支。因为其试错学习和在线学习的特点与计算卸载决策尤为贴切，同时计算卸载模型又多为马尔可夫决策过程(MDP，Markov Decision Processes)，在大部分文献中，多使用强化学习来进行计算卸载。

但在某些特殊的复杂的场景下，由于人工无法提供较好的特征，仅仅使用RL将会无法获得较好的效果，所以这时候就需要引入深度学习。在过去的20年，基于神经网络的深度学习大幅度促进了高维度信息感知问题。深度学习可以自动提取学习特征然后再应用在强化学习上，以此来为RL提供训练信息。DRL首先由DeepMind团队在2015年的文章中提出，继而发展了许多的DRL。

在本发明中，我们关注于一个基于SARSA的DRL算法，也叫Deep-SARSA算法来为移动设备在移动云环境下卸载进行决策，并且与经验回放过程相结合。以此来对卸载做出对能量和时间以及任务完成率的等指标的优化的决策。

发明内容

本发明是一种基于深度强化学习的计算卸载调度方法，为物联网设备提供了一种计算卸载作出卸载决策方法，包括针对计算卸载的基本模型，对需要卸载的各个方面进行决策，比如卸载率、卸载目标的选择等。以及可以针对不同的卸载状态，由神经网络作出近似状态的计算，使其作出更优的计算卸载决策。基于不同的优化目标，通过改变价值函数，可以使机器进行不同状况的学习，以达到不同的优化目标。本算法中的Deep-SARSA算法相似于DQN算法是结合强化学习与深度学习的深度强化学习算法，在配合了经验池可以有效的将卸载状态与卸载动作转变为深度学习的可训练样本。该方法能够有效的对不限维度的卸载状态模型进行机器学习，降低学习的复杂度，该方法使用神经网络作为Q值得线性逼近器，可以有效的提高训练速度，减少训练所需要的样本，该方法能有效的在既定模型和优化目标下，通过深度强化学习，作出最优的决策。

1.本发明所述的一种基于深度强化学习的计算卸载调度方法，其特征在于包涵以下步骤：

步骤(1)建立计算卸载模型。

步骤(2)样本的获取与分组。

步骤(3)初始化神经网络参数。

步骤(4)发现初始状态并选择初始动作作为当前动作。

步骤(5)执行当前动作，发现下一个状态和即时回报。

步骤(6)执行经验回放过程。

步骤(7)选择下一个动作。

步骤(8)计算并优化损失函数并更新CNN参数。

步骤(9)将下一个动作作为当前动作，并跳转回步骤(5)直至本组样本耗尽。

步骤(10)跳转回步骤(4)进入下一组样本直至所有样本耗尽。

2.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(1)中的建立计算卸载模型。具体子步骤包括：

步骤(1.1)系统模型的建立。

步骤(1.2)任务模型的建立。

步骤(1.3)卸载模型与本地计算模型的建立。

(1.4)其他模型的建立。

3.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(2)中的训练样本的获取与分组。

4.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(3)中的初始化神经网络参数或载入已有网络参数。具体子步骤包括：

步骤(3.1)初始化各项参数。

步骤(3.2)载入已有神经网络参数。

5.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(4)中的发现初始状态并选择初始动作作为当前动作。具体子步骤包括：

步骤(4.1)获取第一个状态。分析获取现在可以用各种数据，以获取当前的状态，状态向量由哪些组成以及状态空间的大小会预先定义。

步骤(4.2)选择初始动作。通过某种算法在探索与利用之间达到平衡来选择当前的动作，动作向量由哪些组成以及动作空间大小会预先定义。

6.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(5)中的执行当前动作，发现下一个状态和即时回报。具体子步骤包括：

步骤(5.1)执行的当前动作。即将数据按照当前选择的动作执行卸载，并获得反馈。

步骤(5.2)计算即时回报。通过既定的公式计算本次卸载的即时回报。

步骤(5.3)获取下一个状态。与前面一样，分析当前数据获取下一个状态。

7.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(6)中的执行经验回放过程。具体子步骤包括：

步骤(6.1)存入经验池。通过元组的设计，将所需要的数据组合起来，存入经验池，经验池每次的大小是有限制的。

步骤(6.2)从经验池取出样本。一般通过随机采样的方式取出，取出的样本做优化损失函数使用。

8.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(7)中的选择下一步动作。与前面相同的，会根据某种合适的算法选择下一个动作。

9.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(8)中的计算并优化损失函数并更新CNN参数。具体子步骤包括：

步骤(8.1)计算损失函数。通过公式，根据回报和Q值计算损失函数。

步骤(8.2)优化损失函数并更新神经网络参数。执行梯度下降过程，降低损失函数的值，并不断更新网络参数。

10.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(9)中的将下一个状态与动作作为当前状态与动作，并跳转回步骤(5)直至本组样本耗尽。

11.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(10)中的跳转回步骤(4)进入下一组样本直至所有样本耗尽。调度的效果由输出的平均时间、平均能耗和任务成功率来决定。

本发明与现有技术相比，其显著优点是：不同于寻常的计算卸载调度算法使用智能算法或者RL算法，本发明使用神经网络来压缩学习过程中的状态-动作空间，也就是使用本发明可以有效的解决维度爆炸问题，无论状态空间和动作空间的维度是多少，都能足够快的运行计算，并节省大量内存空间；在现实生活中，对于计算卸载问题，状态和动作往往在数值上是连续的，而非离散的；本发明可以针对更加符合真实应用场景的模型进行有效的计算。同时引入经验回放过程，有效降低数据的相关性，提高训练效率。

附图说明

图1基于深度强化学习的计算卸载调度方法流程图。

图2计算卸载的基本框架。

图3训练过程中SARSA网络的数据流走向。

图4任务失败率实验对比。

图5平均能耗、时延、任务失败率随任务大小增长的影响。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决计算卸载的决策问题，提出了一种针对IOT设备的基于深度强化学习的计算卸载框架，以此来在状态-动作空间维度较高的情况下(更偏向于真实情况，而非离散化模拟)依旧能在既定要求内作出最优的卸载决策。此框架在寻常RL框架的基础上，结合了DL算法，该框架使用CNN来压缩学习过程中的状态-动作空间，以此来代替通常SARSA算法中Q-table。与此同时引入了经验回放机制，减少样本间的相关性并提高训练速度。

本发明概括来说主要包括以下步骤：

步骤(1)建立计算卸载模型。

步骤(2)样本的获取与分组。

步骤(3)初始化神经网络参数。

步骤(4)发现初始状态并选择初始动作作为当前动作。

步骤(5)执行当前动作，发现下一个状态和即时回报。

步骤(6)执行经验回放过程。

步骤(7)选择下一个动作。

步骤(8)计算并优化损失函数并更新CNN参数。

步骤(10)跳转回步骤(4)进入下一组样本直至所有样本耗尽。

上述一种基于深度强化学习的计算卸载调度方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.为IOT设备的计算卸载建立模型，具体步骤是：

步骤(1.1)建立系统模型，对整个IOT设备以及卸载的云系统进行建模。这里给出一个例子：

我们考虑整个系统模型中包含一个MEC网络和一个云服务器以及一个移动用户设备MD(Mobile Device)，一个MEC(Mobile Edge Computing)网络包含M个MEC设备。为每个MEC设备进行标号m∈{0，1，...，M}，特别的，当m＝0时，代表是云端。移动用户设备MD中运行着一个程序并且有一系列同构的任务请求。当任务到达时，对于每个任务移动设备可以选择在本地执行计算任务或者卸载任务到MEC设备和云服务器。这样可以通过虚拟机提供更高的计算性能，减少能量消耗与时间消耗。通过卸载任务，可以显著的提高计算能力。我们假设时间是间断的，并且将每个时间周期记为k，有k∈K＝{0，1，...}，每个周期的长度记为τ_k。

步骤(1.2)建立任务模型，对需要卸载的任务进行建模。这里给出一个例子：

每个计算任务由用户随机提出，不失一般性，任务将根据泊松过程到达，每个任务的等待时间记为w_i，任务的截止时间设为d_i，则每个任务都会有生命线，记为ls_i＝d_i-w_i，i∈{1，2，...}，特别的当未在任务生命周期内执行任务时，则视为任务执行失败，任务需计算部分大小为cd_i，结果部分数据大小为rd_i，任务在未被执行时在队列中排队，队列长度记为Q。任务是可分的，可在不同的设备上分别执行一部分任务。为了提高计算能力任务将根据信道状态来选择一个MEC设备m(1≤m≤M，云端为0)进行卸载，并且将卸载的数据百分比记为x^(k)，0≤x^(k)≤1。较为特殊的是，x^(k)＝0时，移动用户设备MD在本地执行计算任务，x^(k)＝1时，将卸载全部任务到MEC端或云端执行。如果0≤x^(k)≤1，则对于任务i，移动用户设备MD要卸载x^(k)cd_i大小的数据，并且(1-x^(k))cd_i大小的数据在本地执行。简便起见，我们将卸载系数x^(k)离散化为N_x+1个级，这样的话

步骤(1.3)建立云端或者为MEC设备处理模型和本地处理模型。这里给出一个例子：

移动用户设备MD会将计算任务传输给一个MEC设备m或者云服务器(m＝0)，由于MEC的不稳定性，移动用户设备MD向不同设备的传输速度会随着时间而变化，我们假设无线信道变化为独立同分布的分块衰落，也就是说在每个时间间隔信道保持不变，但是在不同的时间间隔会有变化。记传输带宽在时刻k时为则移动用户设备MD传输x^(k)cd_i大小的数据到MEC设备或者云端的时间为以及唤醒和等待延迟记为T′。移动用户设备MD上的能量消耗为P^(k)为传输卸载功率。时间方面，设在第m个MEC或云端的处理速度为v_m(云端时m＝0)，所以在第m个设备上执行的时间为下载数据大小为则k时刻总的执行时间

本地来说，任务可由移动用户设备MD选择在本地执行，只需计算直接处理时间，即使用移动用户设备MD的CPU进行计算，CPU的处理速度由CPU的周期频率f决定，设N为CPU计算一个bit所需的周期数，则一个任务所需要的周期数则为(1-x^(k))cd_iN。通过动态电压和频率改变技术(DVFS)，移动用户设备MD可以调整CPU频率f来控制能量消耗。f有极大值f^max，代表了它的计算能力限制。本地执行时间在k时刻记为T_l ^(k)，则有k时刻的移动用户设备MD的能量消耗为则有其中为有效电容系数。

步骤(1.4)建立其他模型，如容错模型、能量收集模型等以更真实的模拟显示情况。另外还有状态和动作模型也需要进行定义，这里给出一个例子：

移动用户设备MD在k时刻选择它的动作(策略)，包括卸载位置和卸载率，即a^(k)＝[m，x]∈A，A是所有可能动作的向量空间。

系统状态包括先前连接各个MEC设备的带宽，到云服务器的带宽，当前电池等级，预测可获得的能量，队列长度，当前任务剩余的生命周期。如下所示：

2.对样本进行采集和模拟，再对其进行分组。

3.由于计算卸载的模型不一样，以及样本与样本数不同，进行各项初始化的时候需要根据样本情况构建经验池，也会根据选择策略，进行是否热启动的选择来初始化CNN的参数。

4.为了进行SARSA学习，需要对第一个状态和动作进行计算和选择，具体步骤是：

步骤(4.1)获取第一个状态。分析获取现在可以用各种数据，以获取当前的状态，状态向量由哪些组成以及状态空间的大小会预先定义。根据模型的不同可选择不同的变量组成状态向量，下面给出一个例子。

在一个动态的计算卸载过程中，设备将根据系统状态选择卸载百分比和卸载策略，系统状态包括先前连接各个MEC设备的带宽，到云服务器的带宽，当前电池等级，预测可获得的能量，队列长度，当前任务剩余的生命周期。要求就是每个系统状态是独立于先前的状态和动作的。因为移动用户设备MD的下一个系统状态是独立于先前的状态和动作的，即只与当前的系统状态和当前的决策动作有关，这样，整个卸载过程就可以被看作一个马尔可夫决策过程(MDP，Markov Decision Processes)。

步骤(4.2)选择初始动作。通过某种算法在探索与利用之间达到平衡来选择当前的动作，动作向量由哪些组成以及动作空间大小会预先定义。在获取了第一个状态之后需要选择第一个执行的动作，这里动作包括卸载率和卸载目标地点，卸载的基本框架如图2所示。为了在学习过程中选择合适的动作进行探索或利用，本发明中使用的选择动作的方式是epsilon-greedy算法。

5.执行当前动作，并获得下一个状态以及当前动作执行的即时回报。具体步骤是：

步骤(5.1)执行的当前动作。即将数据按照当前选择的动作执行卸载，并获得反馈。执行当前动作，获得动作之后的反馈，包括成功与否，时间，能量消耗等。

步骤(5.2)计算即时回报。通过既定的公式计算本次卸载的即时回报。然后根据公式计算即时回报，公式可以根据优化目标不同来变换。这里给出一个示例来计算回报：

若是在能量不允许的情况时，计算任务将会执行失败。执行失败的损失定义为ψ。并且设一个判断函数I(ω)，如果ω是真的，在函数值为1，反之则为0。令β和γ分别为移动用户设备MD能量消耗和计算时间的权衡常数，移动用户设备MD在k时刻的计算时间为本地执行和卸载执行的时间中的较大值，即为移动用户设备MD设备在k时刻以x的卸载率向第m个设备的回报函数记为则有

6.执行经验回放过程在传统的强化学习算法中，学习和更新会按顺序循环。这就是说，每个样本都会触发一次更新，所以会使得学习过程非常缓慢。但如果将历史数据存储在内存中然后将在后续被不断地重训练。就可以提高数据的利用率。将当前状态、当前动作、即时回报、下一个状态定义为四元组e_t。具体步骤是：

步骤(6.1)存入经验池。通过元组的设计，将所需要的数据组合起来，存入经验池，经验池每次的大小是有限制的。将四元组e_t存入经验池。

步骤(6.2)从经验池取出样本。一般通过随机采样的方式取出，取出的样本做优化损失函数使用。采样的方式有很多种，本发明中使用均匀采样，使用这种采样方式有两个优点：第一，数据利用效率有所提升；第二，比较来说，连续采样可能会导致样本数据极大相关，而均匀采样可以减少输入数据的相关性。即从经验池中随机采样随机大小的mini-batch作为样本。

7.选择下一个动作。与前面相同，这里依旧采用epsilon-greedy算法。

8.优化损失函数并计算CNN参数。具体步骤是：

步骤(8.1)计算损失函数。通过公式，根据回报和Q值计算损失函数。将使用类似DQN的方式将SARSA学习整合到DRL框架里，则当前最优Q值可以通过下式来估计

Q^*(s，a)＝E[r+γQ(s′，a′)|s，a]

同样的，在deep-SARSA中，值函数使用CNN进行拟合，CNN结构如下图所示。CNN的输入为状态值，输出为所有动作的Q值。θ为CNN的网络参数，第i次训练迭代，网络的损失函数被定义为

L_i(θ_i)＝(y_i-Q(s，a；θ_i))²

其中y_i＝r+γQ(s′，a′；θ_i-1)

步骤(8.2)优化损失函数并更新神经网络参数。执行梯度下降过程，降低损失函数的值，并不断更新网络参数。主要目标是最小化损失函数L，让Q值趋近于目标Q值。根据监督学习的方法，y_i在训练中被看作标签，并且y_i是变化的。通过微分上式，得到损失函数的梯度为

其中为当前状态-动作值得梯度。

根据此式我们可以使用梯度下降法(SGD)或Adam在神经网络中优化损失函数。输出层输出各个动作的Q值。我们就可以通过选择动作然后使用SARSA方法来更新Q值。图3说明了在训练过程中SARSA网络的数据流走向。

9.将下一个动作和下一个状态定义为当前状态和当前动作，并执行循环，直至本组样本耗尽。

10.执行循环，直至所有样本耗尽。调度的效果由输出的平均时间、平均能耗和任务成功率来决定

在计算卸载领域，时效性和节能以及任务成功率永远是最要的三个方向，所以我们从这三个方向来对该方法进行评估，在实验评估是用普通的SRASA算法做对照，实验结果如图4、图5所示。可见，本发明的计算卸载调度决策效果要优于其他方法。

上面已经参考附图对根据本发明实施的一种基于深度强化学习的计算卸载调度方法进行了详细描述。本发明具有如下优点：不同于寻常的计算卸载调度算法使用智能算法或者RL算法，本发明使用神经网络来压缩学习过程中的状态-动作空间，也就是使用本发明可以有效的解决维度爆炸问题，无论状态空间和动作空间的维度是多少，都能足够快的运行计算，并节省大量内存空间；在现实生活中，对于计算卸载问题，状态和动作往往在数值上是连续的，而非离散的；本发明可以针对更加符合真实应用场景的模型进行有效的计算。同时引入经验回放过程，有效降低数据的相关性，提高训练效率。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对某些已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

步骤(1)建立计算卸载模型。

步骤(2)样本的获取与分组。

步骤(3)初始化神经网络参数。

步骤(4)发现初始状态并选择初始动作作为当前动作。

步骤(5)执行当前动作，发现下一个状态和即时回报。

步骤(6)执行经验回放过程。

步骤(7)选择下一个动作。

步骤(8)计算并优化损失函数并更新CNN参数。

步骤(10)跳转回步骤(4)进入下一组样本直至所有样本耗尽。

步骤(1.1)系统模型的建立。

步骤(1.2)任务模型的建立。

步骤(1.3)卸载模型与本地计算模型的建立。

步骤(1.4)其他模型的建立。

4.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(3)中的初始化神经网络参数。

(5.1)执行的当前动作。即将数据按照当前选择的动作执行卸载，并获得反馈。

(5.2)计算即时回报。通过既定的公式计算本次卸载的即时回报。

(5.3)获取下一个状态。与前面一样，分析当前数据获取下一个状态。

8.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法，其特征在于步骤(7)中的选择下一步动作。与前面相同会根据某种合适的算法选择下一个动作。