CN109257429A - 一种基于深度强化学习的计算卸载调度方法 - Google Patents

一种基于深度强化学习的计算卸载调度方法 Download PDF

Info

Publication number
CN109257429A
CN109257429A CN201811143682.6A CN201811143682A CN109257429A CN 109257429 A CN109257429 A CN 109257429A CN 201811143682 A CN201811143682 A CN 201811143682A CN 109257429 A CN109257429 A CN 109257429A
Authority
CN
China
Prior art keywords
unloading
unloads
dispatching method
state
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811143682.6A
Other languages
English (en)
Inventor
葛季栋
李传艺
潘林轩
杨诗宇
谢凯航
陈书玉
王帅惟
骆斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201811143682.6A priority Critical patent/CN109257429A/zh
Publication of CN109257429A publication Critical patent/CN109257429A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种基于深度强化学习的计算卸载调度方法,为物联网设备提供了一种计算卸载作出卸载决策方法,包括针对计算卸载的基本模型,对需要卸载的各个方面进行决策。基于不同的优化目标,通过改变价值函数,以达到不同的优化目标。本算法中的Deep‑SARSA算法相似于DQN算法是结合强化学习与深度学习的深度强化学习算法,在配合了经验池可以有效的将卸载状态与卸载动作转变为深度学习的可训练样本。本发明能够有效的对不限维度的卸载状态模型进行机器学习,降低学习的复杂度,该方法使用神经网络作为Q值得线性逼近器,可以有效的提高训练速度,减少训练所需要的样本,该方法能有效的在既定模型和优化目标下,通过深度强化学习,作出最优的决策。

Description

一种基于深度强化学习的计算卸载调度方法
技术领域
本发明涉及一种计算卸载的调度算法,具体涉及一种基于深度强化学习(Deep-SARSA)的计算卸载调度方法,该方法属于机器学习技术在分布式计算领域的应用。
背景技术
随着科技的进步,应用程序更加关注真实世界与虚拟世界的连接与互动,例如人脸识别、计算机视觉、自然语言处理等需要强大计算机能力的应用。然而,由于IOT设备固有的局限性(比如计算资源、电池、内存等),资源受限设备和这类计算密集型应用之间的紧张关系成为提供令人满意的体验质量(QoE)的瓶颈,因此可能推迟成熟的移动应用市场的到来。在这种情况下,一种新的概念被提出——计算卸载,移动设备将执行的计算任务卸载到外部设备来计算以减少任务完成时间,同时减少移动设备能耗。在计算机科学领域,计算卸载指的是将资源密集型任务放到一个外部平台,例如集群、网格或者云。卸载的必要性可以体现在设备的硬件限制,例如有限的计算能力、存储和能源。当运行计算密集型服务时,计算卸载能够为移动设备节约能耗,特别是对于能够耗尽电池电量的移动服务。
在传统的云计算系统中,远程的公共云(如Amazon,谷歌云等等)可能被过多的利用,数据交换可能会发生堵塞以致会产生很长的等待时间。因此新的计算范式被提出——移动边缘计算MEC,MEC是一个于2014年提出的计算范式,它可以通过无线接入网为移动用户近距离提供计算能力。它的一个主要研究问题是从用户角度出发,基于边缘系统和云环境,决定任务卸载的时机和位置和如何做任务卸载(when,where and how)。MEC服务器可以看作是小型的数据中心,它的能耗远小于传统的云或是巨大规模的数据中心。在边缘计算网络中的主要挑战是如何处理动态性。
但是在卸载策略的选择上,单靠一些简单的判断是无法作出最优的选择的。近年来随着机器学习水平的进步,已有不少学者机器学习的方法用在计算卸载领域。在各种机器学习分类中,强化学习通过尝试与环境不断交互获得策略的改进,它是机器学习的一个重要研究分支。因为其试错学习和在线学习的特点与计算卸载决策尤为贴切,同时计算卸载模型又多为马尔可夫决策过程(MDP,Markov Decision Processes),在大部分文献中,多使用强化学习来进行计算卸载。
但在某些特殊的复杂的场景下,由于人工无法提供较好的特征,仅仅使用RL将会无法获得较好的效果,所以这时候就需要引入深度学习。在过去的20年,基于神经网络的深度学习大幅度促进了高维度信息感知问题。深度学习可以自动提取学习特征然后再应用在强化学习上,以此来为RL提供训练信息。DRL首先由DeepMind团队在2015年的文章中提出,继而发展了许多的DRL。
在本发明中,我们关注于一个基于SARSA的DRL算法,也叫Deep-SARSA算法来为移动设备在移动云环境下卸载进行决策,并且与经验回放过程相结合。以此来对卸载做出对能量和时间以及任务完成率的等指标的优化的决策。
发明内容
本发明是一种基于深度强化学习的计算卸载调度方法,为物联网设备提供了一种计算卸载作出卸载决策方法,包括针对计算卸载的基本模型,对需要卸载的各个方面进行决策,比如卸载率、卸载目标的选择等。以及可以针对不同的卸载状态,由神经网络作出近似状态的计算,使其作出更优的计算卸载决策。基于不同的优化目标,通过改变价值函数,可以使机器进行不同状况的学习,以达到不同的优化目标。本算法中的Deep-SARSA算法相似于DQN算法是结合强化学习与深度学习的深度强化学习算法,在配合了经验池可以有效的将卸载状态与卸载动作转变为深度学习的可训练样本。该方法能够有效的对不限维度的卸载状态模型进行机器学习,降低学习的复杂度,该方法使用神经网络作为Q值得线性逼近器,可以有效的提高训练速度,减少训练所需要的样本,该方法能有效的在既定模型和优化目标下,通过深度强化学习,作出最优的决策。
1.本发明所述的一种基于深度强化学习的计算卸载调度方法,其特征在于包涵以下步骤:
步骤(1)建立计算卸载模型。
步骤(2)样本的获取与分组。
步骤(3)初始化神经网络参数。
步骤(4)发现初始状态并选择初始动作作为当前动作。
步骤(5)执行当前动作,发现下一个状态和即时回报。
步骤(6)执行经验回放过程。
步骤(7)选择下一个动作。
步骤(8)计算并优化损失函数并更新CNN参数。
步骤(9)将下一个动作作为当前动作,并跳转回步骤(5)直至本组样本耗尽。
步骤(10)跳转回步骤(4)进入下一组样本直至所有样本耗尽。
2.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(1)中的建立计算卸载模型。具体子步骤包括:
步骤(1.1)系统模型的建立。
步骤(1.2)任务模型的建立。
步骤(1.3)卸载模型与本地计算模型的建立。
(1.4)其他模型的建立。
3.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(2)中的训练样本的获取与分组。
4.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(3)中的初始化神经网络参数或载入已有网络参数。具体子步骤包括:
步骤(3.1)初始化各项参数。
步骤(3.2)载入已有神经网络参数。
5.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(4)中的发现初始状态并选择初始动作作为当前动作。具体子步骤包括:
步骤(4.1)获取第一个状态。分析获取现在可以用各种数据,以获取当前的状态,状态向量由哪些组成以及状态空间的大小会预先定义。
步骤(4.2)选择初始动作。通过某种算法在探索与利用之间达到平衡来选择当前的动作,动作向量由哪些组成以及动作空间大小会预先定义。
6.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(5)中的执行当前动作,发现下一个状态和即时回报。具体子步骤包括:
步骤(5.1)执行的当前动作。即将数据按照当前选择的动作执行卸载,并获得反馈。
步骤(5.2)计算即时回报。通过既定的公式计算本次卸载的即时回报。
步骤(5.3)获取下一个状态。与前面一样,分析当前数据获取下一个状态。
7.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(6)中的执行经验回放过程。具体子步骤包括:
步骤(6.1)存入经验池。通过元组的设计,将所需要的数据组合起来,存入经验池,经验池每次的大小是有限制的。
步骤(6.2)从经验池取出样本。一般通过随机采样的方式取出,取出的样本做优化损失函数使用。
8.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(7)中的选择下一步动作。与前面相同的,会根据某种合适的算法选择下一个动作。
9.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(8)中的计算并优化损失函数并更新CNN参数。具体子步骤包括:
步骤(8.1)计算损失函数。通过公式,根据回报和Q值计算损失函数。
步骤(8.2)优化损失函数并更新神经网络参数。执行梯度下降过程,降低损失函数的值,并不断更新网络参数。
10.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(9)中的将下一个状态与动作作为当前状态与动作,并跳转回步骤(5)直至本组样本耗尽。
11.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(10)中的跳转回步骤(4)进入下一组样本直至所有样本耗尽。调度的效果由输出的平均时间、平均能耗和任务成功率来决定。
本发明与现有技术相比,其显著优点是:不同于寻常的计算卸载调度算法使用智能算法或者RL算法,本发明使用神经网络来压缩学习过程中的状态-动作空间,也就是使用本发明可以有效的解决维度爆炸问题,无论状态空间和动作空间的维度是多少,都能足够快的运行计算,并节省大量内存空间;在现实生活中,对于计算卸载问题,状态和动作往往在数值上是连续的,而非离散的;本发明可以针对更加符合真实应用场景的模型进行有效的计算。同时引入经验回放过程,有效降低数据的相关性,提高训练效率。
附图说明
图1基于深度强化学习的计算卸载调度方法流程图。
图2计算卸载的基本框架。
图3训练过程中SARSA网络的数据流走向。
图4任务失败率实验对比。
图5平均能耗、时延、任务失败率随任务大小增长的影响。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于解决计算卸载的决策问题,提出了一种针对IOT设备的基于深度强化学习的计算卸载框架,以此来在状态-动作空间维度较高的情况下(更偏向于真实情况,而非离散化模拟)依旧能在既定要求内作出最优的卸载决策。此框架在寻常RL框架的基础上,结合了DL算法,该框架使用CNN来压缩学习过程中的状态-动作空间,以此来代替通常SARSA算法中Q-table。与此同时引入了经验回放机制,减少样本间的相关性并提高训练速度。
本发明概括来说主要包括以下步骤:
步骤(1)建立计算卸载模型。
步骤(2)样本的获取与分组。
步骤(3)初始化神经网络参数。
步骤(4)发现初始状态并选择初始动作作为当前动作。
步骤(5)执行当前动作,发现下一个状态和即时回报。
步骤(6)执行经验回放过程。
步骤(7)选择下一个动作。
步骤(8)计算并优化损失函数并更新CNN参数。
步骤(9)将下一个动作作为当前动作,并跳转回步骤(5)直至本组样本耗尽。
步骤(10)跳转回步骤(4)进入下一组样本直至所有样本耗尽。
上述一种基于深度强化学习的计算卸载调度方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。
1.为IOT设备的计算卸载建立模型,具体步骤是:
步骤(1.1)建立系统模型,对整个IOT设备以及卸载的云系统进行建模。这里给出一个例子:
我们考虑整个系统模型中包含一个MEC网络和一个云服务器以及一个移动用户设备MD(Mobile Device),一个MEC(Mobile Edge Computing)网络包含M个MEC设备。为每个MEC设备进行标号m∈{0,1,...,M},特别的,当m=0时,代表是云端。移动用户设备MD中运行着一个程序并且有一系列同构的任务请求。当任务到达时,对于每个任务移动设备可以选择在本地执行计算任务或者卸载任务到MEC设备和云服务器。这样可以通过虚拟机提供更高的计算性能,减少能量消耗与时间消耗。通过卸载任务,可以显著的提高计算能力。我们假设时间是间断的,并且将每个时间周期记为k,有k∈K={0,1,...},每个周期的长度记为τk
步骤(1.2)建立任务模型,对需要卸载的任务进行建模。这里给出一个例子:
每个计算任务由用户随机提出,不失一般性,任务将根据泊松过程到达,每个任务的等待时间记为wi,任务的截止时间设为di,则每个任务都会有生命线,记为lsi=di-wi,i∈{1,2,...},特别的当未在任务生命周期内执行任务时,则视为任务执行失败,任务需计算部分大小为cdi,结果部分数据大小为rdi,任务在未被执行时在队列中排队,队列长度记为Q。任务是可分的,可在不同的设备上分别执行一部分任务。为了提高计算能力任务将根据信道状态来选择一个MEC设备m(1≤m≤M,云端为0)进行卸载,并且将卸载的数据百分比记为x(k),0≤x(k)≤1。较为特殊的是,x(k)=0时,移动用户设备MD在本地执行计算任务,x(k)=1时,将卸载全部任务到MEC端或云端执行。如果0≤x(k)≤1,则对于任务i,移动用户设备MD要卸载x(k)cdi大小的数据,并且(1-x(k))cdi大小的数据在本地执行。简便起见,我们将卸载系数x(k)离散化为Nx+1个级,这样的话
步骤(1.3)建立云端或者为MEC设备处理模型和本地处理模型。这里给出一个例子:
移动用户设备MD会将计算任务传输给一个MEC设备m或者云服务器(m=0),由于MEC的不稳定性,移动用户设备MD向不同设备的传输速度会随着时间而变化,我们假设无线信道变化为独立同分布的分块衰落,也就是说在每个时间间隔信道保持不变,但是在不同的时间间隔会有变化。记传输带宽在时刻k时为则移动用户设备MD传输x(k)cdi大小的数据到MEC设备或者云端的时间为以及唤醒和等待延迟记为T′。移动用户设备MD上的能量消耗为P(k)为传输卸载功率。时间方面,设在第m个MEC或云端的处理速度为vm(云端时m=0),所以在第m个设备上执行的时间为下载数据大小为则k时刻总的执行时间
本地来说,任务可由移动用户设备MD选择在本地执行,只需计算直接处理时间,即使用移动用户设备MD的CPU进行计算,CPU的处理速度由CPU的周期频率f决定,设N为CPU计算一个bit所需的周期数,则一个任务所需要的周期数则为(1-x(k))cdiN。通过动态电压和频率改变技术(DVFS),移动用户设备MD可以调整CPU频率f来控制能量消耗。f有极大值fmax,代表了它的计算能力限制。本地执行时间在k时刻记为Tl (k),则有k时刻的移动用户设备MD的能量消耗为则有其中为有效电容系数。
步骤(1.4)建立其他模型,如容错模型、能量收集模型等以更真实的模拟显示情况。另外还有状态和动作模型也需要进行定义,这里给出一个例子:
移动用户设备MD在k时刻选择它的动作(策略),包括卸载位置和卸载率,即a(k)=[m,x]∈A,A是所有可能动作的向量空间。
系统状态包括先前连接各个MEC设备的带宽,到云服务器的带宽,当前电池等级,预测可获得的能量,队列长度,当前任务剩余的生命周期。如下所示:
2.对样本进行采集和模拟,再对其进行分组。
3.由于计算卸载的模型不一样,以及样本与样本数不同,进行各项初始化的时候需要根据样本情况构建经验池,也会根据选择策略,进行是否热启动的选择来初始化CNN的参数。
4.为了进行SARSA学习,需要对第一个状态和动作进行计算和选择,具体步骤是:
步骤(4.1)获取第一个状态。分析获取现在可以用各种数据,以获取当前的状态,状态向量由哪些组成以及状态空间的大小会预先定义。根据模型的不同可选择不同的变量组成状态向量,下面给出一个例子。
在一个动态的计算卸载过程中,设备将根据系统状态选择卸载百分比和卸载策略,系统状态包括先前连接各个MEC设备的带宽,到云服务器的带宽,当前电池等级,预测可获得的能量,队列长度,当前任务剩余的生命周期。要求就是每个系统状态是独立于先前的状态和动作的。因为移动用户设备MD的下一个系统状态是独立于先前的状态和动作的,即只与当前的系统状态和当前的决策动作有关,这样,整个卸载过程就可以被看作一个马尔可夫决策过程(MDP,Markov Decision Processes)。
步骤(4.2)选择初始动作。通过某种算法在探索与利用之间达到平衡来选择当前的动作,动作向量由哪些组成以及动作空间大小会预先定义。在获取了第一个状态之后需要选择第一个执行的动作,这里动作包括卸载率和卸载目标地点,卸载的基本框架如图2所示。为了在学习过程中选择合适的动作进行探索或利用,本发明中使用的选择动作的方式是epsilon-greedy算法。
5.执行当前动作,并获得下一个状态以及当前动作执行的即时回报。具体步骤是:
步骤(5.1)执行的当前动作。即将数据按照当前选择的动作执行卸载,并获得反馈。执行当前动作,获得动作之后的反馈,包括成功与否,时间,能量消耗等。
步骤(5.2)计算即时回报。通过既定的公式计算本次卸载的即时回报。然后根据公式计算即时回报,公式可以根据优化目标不同来变换。这里给出一个示例来计算回报:
若是在能量不允许的情况时,计算任务将会执行失败。执行失败的损失定义为ψ。并且设一个判断函数I(ω),如果ω是真的,在函数值为1,反之则为0。令β和γ分别为移动用户设备MD能量消耗和计算时间的权衡常数,移动用户设备MD在k时刻的计算时间为本地执行和卸载执行的时间中的较大值,即为移动用户设备MD设备在k时刻以x的卸载率向第m个设备的回报函数记为则有
步骤(5.3)获取下一个状态。与前面一样,分析当前数据获取下一个状态。
6.执行经验回放过程在传统的强化学习算法中,学习和更新会按顺序循环。这就是说,每个样本都会触发一次更新,所以会使得学习过程非常缓慢。但如果将历史数据存储在内存中然后将在后续被不断地重训练。就可以提高数据的利用率。将当前状态、当前动作、即时回报、下一个状态定义为四元组et。具体步骤是:
步骤(6.1)存入经验池。通过元组的设计,将所需要的数据组合起来,存入经验池,经验池每次的大小是有限制的。将四元组et存入经验池。
步骤(6.2)从经验池取出样本。一般通过随机采样的方式取出,取出的样本做优化损失函数使用。采样的方式有很多种,本发明中使用均匀采样,使用这种采样方式有两个优点:第一,数据利用效率有所提升;第二,比较来说,连续采样可能会导致样本数据极大相关,而均匀采样可以减少输入数据的相关性。即从经验池中随机采样随机大小的mini-batch作为样本。
7.选择下一个动作。与前面相同,这里依旧采用epsilon-greedy算法。
8.优化损失函数并计算CNN参数。具体步骤是:
步骤(8.1)计算损失函数。通过公式,根据回报和Q值计算损失函数。将使用类似DQN的方式将SARSA学习整合到DRL框架里,则当前最优Q值可以通过下式来估计
Q*(s,a)=E[r+γQ(s′,a′)|s,a]
同样的,在deep-SARSA中,值函数使用CNN进行拟合,CNN结构如下图所示。CNN的输入为状态值,输出为所有动作的Q值。θ为CNN的网络参数,第i次训练迭代,网络的损失函数被定义为
Lii)=(yi-Q(s,a;θi))2
其中yi=r+γQ(s′,a′;θi-1)
步骤(8.2)优化损失函数并更新神经网络参数。执行梯度下降过程,降低损失函数的值,并不断更新网络参数。主要目标是最小化损失函数L,让Q值趋近于目标Q值。根据监督学习的方法,yi在训练中被看作标签,并且yi是变化的。通过微分上式,得到损失函数的梯度为
其中为当前状态-动作值得梯度。
根据此式我们可以使用梯度下降法(SGD)或Adam在神经网络中优化损失函数。输出层输出各个动作的Q值。我们就可以通过选择动作然后使用SARSA方法来更新Q值。图3说明了在训练过程中SARSA网络的数据流走向。
9.将下一个动作和下一个状态定义为当前状态和当前动作,并执行循环,直至本组样本耗尽。
10.执行循环,直至所有样本耗尽。调度的效果由输出的平均时间、平均能耗和任务成功率来决定
在计算卸载领域,时效性和节能以及任务成功率永远是最要的三个方向,所以我们从这三个方向来对该方法进行评估,在实验评估是用普通的SRASA算法做对照,实验结果如图4、图5所示。可见,本发明的计算卸载调度决策效果要优于其他方法。
上面已经参考附图对根据本发明实施的一种基于深度强化学习的计算卸载调度方法进行了详细描述。本发明具有如下优点:不同于寻常的计算卸载调度算法使用智能算法或者RL算法,本发明使用神经网络来压缩学习过程中的状态-动作空间,也就是使用本发明可以有效的解决维度爆炸问题,无论状态空间和动作空间的维度是多少,都能足够快的运行计算,并节省大量内存空间;在现实生活中,对于计算卸载问题,状态和动作往往在数值上是连续的,而非离散的;本发明可以针对更加符合真实应用场景的模型进行有效的计算。同时引入经验回放过程,有效降低数据的相关性,提高训练效率。
需要明确,本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且,为了简明起见,这里省略对某些已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims (11)

1.本发明所述的一种基于深度强化学习的计算卸载调度方法,其特征在于包涵以下步骤:
步骤(1)建立计算卸载模型。
步骤(2)样本的获取与分组。
步骤(3)初始化神经网络参数。
步骤(4)发现初始状态并选择初始动作作为当前动作。
步骤(5)执行当前动作,发现下一个状态和即时回报。
步骤(6)执行经验回放过程。
步骤(7)选择下一个动作。
步骤(8)计算并优化损失函数并更新CNN参数。
步骤(9)将下一个动作作为当前动作,并跳转回步骤(5)直至本组样本耗尽。
步骤(10)跳转回步骤(4)进入下一组样本直至所有样本耗尽。
2.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(1)中的建立计算卸载模型。具体子步骤包括:
步骤(1.1)系统模型的建立。
步骤(1.2)任务模型的建立。
步骤(1.3)卸载模型与本地计算模型的建立。
步骤(1.4)其他模型的建立。
3.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(2)中的训练样本的获取与分组。
4.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(3)中的初始化神经网络参数。
5.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(4)中的发现初始状态并选择初始动作作为当前动作。具体子步骤包括:
步骤(4.1)获取第一个状态。分析获取现在可以用各种数据,以获取当前的状态,状态向量由哪些组成以及状态空间的大小会预先定义。
步骤(4.2)选择初始动作。通过某种算法在探索与利用之间达到平衡来选择当前的动作,动作向量由哪些组成以及动作空间大小会预先定义。
6.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(5)中的执行当前动作,发现下一个状态和即时回报。具体子步骤包括:
(5.1)执行的当前动作。即将数据按照当前选择的动作执行卸载,并获得反馈。
(5.2)计算即时回报。通过既定的公式计算本次卸载的即时回报。
(5.3)获取下一个状态。与前面一样,分析当前数据获取下一个状态。
7.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(6)中的执行经验回放过程。具体子步骤包括:
步骤(6.1)存入经验池。通过元组的设计,将所需要的数据组合起来,存入经验池,经验池每次的大小是有限制的。
步骤(6.2)从经验池取出样本。一般通过随机采样的方式取出,取出的样本做优化损失函数使用。
8.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(7)中的选择下一步动作。与前面相同会根据某种合适的算法选择下一个动作。
9.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(8)中的计算并优化损失函数并更新CNN参数。具体子步骤包括:
步骤(8.1)计算损失函数。通过公式,根据回报和Q值计算损失函数。
步骤(8.2)优化损失函数并更新神经网络参数。执行梯度下降过程,降低损失函数的值,并不断更新网络参数。
10.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(9)中的将下一个状态与动作作为当前状态与动作,并跳转回步骤(5)直至本组样本耗尽。
11.根据权利要求1所述的一种基于深度强化学习的计算卸载调度方法,其特征在于步骤(10)中的跳转回步骤(4)进入下一组样本直至所有样本耗尽。调度的效果由输出的平均时间、平均能耗和任务成功率来决定。
CN201811143682.6A 2018-09-25 2018-09-25 一种基于深度强化学习的计算卸载调度方法 Pending CN109257429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811143682.6A CN109257429A (zh) 2018-09-25 2018-09-25 一种基于深度强化学习的计算卸载调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811143682.6A CN109257429A (zh) 2018-09-25 2018-09-25 一种基于深度强化学习的计算卸载调度方法

Publications (1)

Publication Number Publication Date
CN109257429A true CN109257429A (zh) 2019-01-22

Family

ID=65047701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811143682.6A Pending CN109257429A (zh) 2018-09-25 2018-09-25 一种基于深度强化学习的计算卸载调度方法

Country Status (1)

Country Link
CN (1) CN109257429A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961147A (zh) * 2019-03-20 2019-07-02 西北大学 一种基于Q-Learning算法的自动化模型压缩方法
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN110366210A (zh) * 2019-06-20 2019-10-22 华南理工大学 一种针对有状态数据流应用的计算卸载方法
CN110549896A (zh) * 2019-08-28 2019-12-10 哈尔滨工程大学 一种基于强化学习的充电站选择方法
CN110794965A (zh) * 2019-10-23 2020-02-14 湖南师范大学 一种移动虚拟现实语言交际模拟学习计算系统和方法
CN110955463A (zh) * 2019-12-03 2020-04-03 天津大学 支持边缘计算的物联网多用户计算卸载方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111158912A (zh) * 2019-12-30 2020-05-15 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111338807A (zh) * 2020-05-21 2020-06-26 中国人民解放军国防科技大学 一种面向边缘人工智能应用的QoE感知的服务增强方法
CN111400031A (zh) * 2020-03-01 2020-07-10 南京大学 面向处理单元部署的基于值函数的强化学习方法
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111782301A (zh) * 2020-07-08 2020-10-16 北京邮电大学 卸载动作集合获取方法及装置
CN111831415A (zh) * 2020-07-10 2020-10-27 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN111866807A (zh) * 2020-06-22 2020-10-30 江苏大学 一种基于深度强化学习的软件定义车载任务细粒度卸载方法
CN112445617A (zh) * 2020-11-25 2021-03-05 中国石油大学(华东) 一种基于移动边缘计算的负载策略选择方法及系统
CN113377531A (zh) * 2021-06-04 2021-09-10 重庆邮电大学 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN113407345A (zh) * 2021-06-25 2021-09-17 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的目标驱动计算卸载方法
CN113574842A (zh) * 2019-03-12 2021-10-29 三星电子株式会社 用于对应用请求的处理进行优化的方法和系统
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN115686669A (zh) * 2022-10-17 2023-02-03 中国矿业大学 一种能量收集辅助的矿山物联网智能计算卸载方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324690A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Deep Learning Training System
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN108021451A (zh) * 2017-12-07 2018-05-11 上海交通大学 一种雾计算环境下的自适应容器迁移方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150324690A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Deep Learning Training System
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN108021451A (zh) * 2017-12-07 2018-05-11 上海交通大学 一种雾计算环境下的自适应容器迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUC VAN LE,CHEN-KHONG THAM: ""A deep reinforcement learning based offloading scheme in ad-hoc mobile clouds"", 《IEEE INFOCOM 2018 - IEEE CONFERENCE ON COMPUTER COMMUNICATIONS WORKSHOPS》 *
JI LI,HUI GAO,TIEJUN LV,YUEMING LU: ""Deep reinforcement learning based computation offloading and resource allocation for MEC"", 《2018 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113574842A (zh) * 2019-03-12 2021-10-29 三星电子株式会社 用于对应用请求的处理进行优化的方法和系统
CN109961147B (zh) * 2019-03-20 2023-08-29 西北大学 一种基于Q-Learning算法的自动化模型压缩方法
CN109961147A (zh) * 2019-03-20 2019-07-02 西北大学 一种基于Q-Learning算法的自动化模型压缩方法
CN110366210A (zh) * 2019-06-20 2019-10-22 华南理工大学 一种针对有状态数据流应用的计算卸载方法
CN110366210B (zh) * 2019-06-20 2023-01-06 华南理工大学 一种针对有状态数据流应用的计算卸载方法
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN110347495B (zh) * 2019-07-24 2023-04-28 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN110549896A (zh) * 2019-08-28 2019-12-10 哈尔滨工程大学 一种基于强化学习的充电站选择方法
CN110549896B (zh) * 2019-08-28 2022-08-02 哈尔滨工程大学 一种基于强化学习的充电站选择方法
CN110794965A (zh) * 2019-10-23 2020-02-14 湖南师范大学 一种移动虚拟现实语言交际模拟学习计算系统和方法
CN110794965B (zh) * 2019-10-23 2021-06-04 湖南师范大学 一种基于深度强化学习的虚拟现实语言任务卸载方法
CN110955463A (zh) * 2019-12-03 2020-04-03 天津大学 支持边缘计算的物联网多用户计算卸载方法
CN110955463B (zh) * 2019-12-03 2022-07-29 缀初网络技术(上海)有限公司 支持边缘计算的物联网多用户计算卸载方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN110971706B (zh) * 2019-12-17 2021-07-16 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111158912B (zh) * 2019-12-30 2023-04-21 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN111158912A (zh) * 2019-12-30 2020-05-15 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN111400031B (zh) * 2020-03-01 2023-08-22 南京大学 面向处理单元部署的基于值函数的强化学习方法
CN111400031A (zh) * 2020-03-01 2020-07-10 南京大学 面向处理单元部署的基于值函数的强化学习方法
CN111338807A (zh) * 2020-05-21 2020-06-26 中国人民解放军国防科技大学 一种面向边缘人工智能应用的QoE感知的服务增强方法
CN111338807B (zh) * 2020-05-21 2020-08-14 中国人民解放军国防科技大学 一种面向边缘人工智能应用的QoE感知的服务增强方法
CN111726826B (zh) * 2020-05-25 2024-03-19 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111866807A (zh) * 2020-06-22 2020-10-30 江苏大学 一种基于深度强化学习的软件定义车载任务细粒度卸载方法
CN111782301A (zh) * 2020-07-08 2020-10-16 北京邮电大学 卸载动作集合获取方法及装置
CN111831415B (zh) * 2020-07-10 2024-01-26 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN111831415A (zh) * 2020-07-10 2020-10-27 广东石油化工学院 一种多队列多集群的任务调度方法及系统
CN112445617A (zh) * 2020-11-25 2021-03-05 中国石油大学(华东) 一种基于移动边缘计算的负载策略选择方法及系统
CN113377531A (zh) * 2021-06-04 2021-09-10 重庆邮电大学 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN113377531B (zh) * 2021-06-04 2022-08-26 重庆邮电大学 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN113407345B (zh) * 2021-06-25 2023-12-15 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的目标驱动计算卸载方法
CN113407345A (zh) * 2021-06-25 2021-09-17 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的目标驱动计算卸载方法
CN114205353B (zh) * 2021-11-26 2023-08-01 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN115686669A (zh) * 2022-10-17 2023-02-03 中国矿业大学 一种能量收集辅助的矿山物联网智能计算卸载方法

Similar Documents

Publication Publication Date Title
CN109257429A (zh) 一种基于深度强化学习的计算卸载调度方法
Goudarzi et al. A distributed deep reinforcement learning technique for application placement in edge and fog computing environments
Zhang et al. PSAC: Proactive sequence-aware content caching via deep learning at the network edge
Zhang et al. A new task offloading algorithm in edge computing
Li et al. Energy-aware task offloading with deadline constraint in mobile edge computing
Xue et al. EosDNN: An efficient offloading scheme for DNN inference acceleration in local-edge-cloud collaborative environments
Hu et al. An efficient online computation offloading approach for large-scale mobile edge computing via deep reinforcement learning
Chen et al. Cache-assisted collaborative task offloading and resource allocation strategy: A metareinforcement learning approach
Liu et al. Deep reinforcement learning based approach for online service placement and computation resource allocation in edge computing
Zhao et al. Edgeml: An automl framework for real-time deep learning on the edge
Meng et al. Deep reinforcement learning based task offloading algorithm for mobile-edge computing systems
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN112287990A (zh) 一种基于在线学习的边云协同支持向量机的模型优化方法
CN113487029A (zh) 一种可移植的神经网络分布式并行策略搜索方法
Chen et al. Computing offloading decision based on DDPG algorithm in mobile edge computing
Leng et al. Graph convolutional network-based reinforcement learning for tasks offloading in multi-access edge computing
Li et al. Task computation offloading for multi-access edge computing via attention communication deep reinforcement learning
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
Chen et al. Real-time offloading for dependent and parallel tasks in cloud-edge environments using deep reinforcement learning
CN113360245A (zh) 基于移动云计算深度强化学习的物联网设备任务下载方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
Li et al. Graph tasks offloading and resource allocation in multi-access edge computing: a DRL-and-optimization-aided approach
Liu et al. Joint Optimization of Multiuser Computation Offloading and Wireless-Caching Resource Allocation With Linearly Related Requests in Vehicular Edge Computing System
Tan et al. Toward a task offloading framework based on cyber digital twins in mobile edge computing
Liu et al. Task scheduling model of edge computing for AI flow computing in Internet of Things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190122