CN113778648B - 分层边缘计算环境中基于深度强化学习的任务调度方法 - Google Patents

分层边缘计算环境中基于深度强化学习的任务调度方法 Download PDF

Info

Publication number
CN113778648B
CN113778648B CN202111012837.4A CN202111012837A CN113778648B CN 113778648 B CN113778648 B CN 113778648B CN 202111012837 A CN202111012837 A CN 202111012837A CN 113778648 B CN113778648 B CN 113778648B
Authority
CN
China
Prior art keywords
scheduling
task
strategy
neural network
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111012837.4A
Other languages
English (en)
Other versions
CN113778648A (zh
Inventor
陈卓
卫佩宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202111012837.4A priority Critical patent/CN113778648B/zh
Publication of CN113778648A publication Critical patent/CN113778648A/zh
Application granted granted Critical
Publication of CN113778648B publication Critical patent/CN113778648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种分层边缘计算环境中基于深度强化学习的任务调度方法;包括,基于Sequence‑to‑Sequence(Seq2Seq)建立的的神经网络模型,将该模型应用于求解最优的任务到边缘服务节点的映射,作为智能体中的神经网络结构;采用基于蒙特卡洛策略梯度的深度强化学习方法训练训练该模型,使得该模型具备自学习能力,以具备优化任务调度决策的能力;并在系统中部署有融合神经网络求解和启发式算法的任务调度算法,使得能显著提升调度决策的质量并能在效率与质量之间得到平衡。

Description

分层边缘计算环境中基于深度强化学习的任务调度方法
技术领域
本发明涉及计算机技术领域,具体涉及服务节点依照距离移动用户端的距离分层部署的边缘计算环境中,在面对任务请求动态化以及边缘服务节点资源异构化的情况下,一种基于深度强化学习的智能任务调度方法。
背景技术
随着云计算的快速发展和大规模部署,越来越多的移动应用将其计算密集型任务卸载到云数据中心,通过利用云端丰富的IT资源(如:计算资源、存储资源和网络资源)有效降低本地资源的开销。
但是,远端卸载任务需要较长的数据传输延迟,这影响了任务卸载之后移动应用的体验,特别是对于延迟敏感的移动应用,如:语音辨识和控制,视频图像的识别,交互游戏等应用。为了降低延迟改善移动应用体验,同时优化云数据中心的IT资源负载,边缘计算(边缘云)和雾计算等近端计算模式被提出。
边缘计算通过将许多规模较小的服务节点部署在网络边缘,使得附近的移动用户可以通过无线连接就近访问边缘云服务节点,这样移动设备可以在距离自己更近的边缘云中获得服务,在有效降低服务延迟的同时也避免了云数据中心的资源过载。随着分层部署边缘节点的新模式被提出,即根据任务规模和当前边缘节点的负载,让处于不同层次的节点为任务提供服务,从而达到服务更多任务的目的。如何在多个节点分层部署的边缘云中实现高效的任务调度决策,并使任务所获得的服务延迟最低需要同时考虑:(1)任务对边缘云的资源请求的差异;(2)当前的边缘云系统负载状况;(3)在IT资源异构且分层部署的多个服务节点上进行服务匹配决策;(4)调度决策应在尽可能短的时间做出且调度方案应尽可能逼近理论最优。
发明内容
针对现有技术中的缺陷,本发明提供一种分层边缘计算环境中基于深度强化学习的任务调度方法,以解决上述背景技术中的问题。
本发明的一目的在于提供了一种对于(Seq2Seq)模型的全新应用方案;
本发明的另一目的在于提出了一种使用融合神经网络和启发式混合方法完成任务调度决策的方法;
本发明的再一目的在于提供一种具有自学能力的且使得服务延极大减小的任务调度方法。
为达到上述目的,本发明提供了一种融合神经网络求解和启发式算法的任务调度方法,应用于分层边缘计算环境中,包括以下:
S1、建立一个基于Seq2Seq的神经网络模型,通过该神经网络模型完成卸载任务对边缘云节点的映射;
S2、采用基于蒙特卡洛策略梯度的深度强化学习方法训练基于Seq2Seq的所述神经网络模型,使得基于Seq2Seq的所述神经网络模型作为强化学习中的智能体并获得自学习以优化任务调度决策的能力;其中训练过程为:
1)状态集合:所有系统状态的集合,将边缘云向任务提供服务所产生的延迟作为状态,通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟,即产生状态间的转化。将此状态集合表示为:
St={h1(t),h2(t),…,hn(t)} (10)
其中,hi(t),i∈[1,n]表示在时间t第i个任务调度至服务节点hi(t)上;
2)动作空间:把边缘计算中心化协调器可能产生的潜在调度策略定义为动作空间,即一种调度策略是动作集合中的一个元素。此动作集合为:
Figure BDA0003239480790000021
上式中,
Figure BDA0003239480790000022
j∈[1,m]表示在时间t边缘云中心化协调器对第j个任务的调度动作;
3)回报模型:本发明中定义了系统的奖励和惩罚,将整个系统建模为带约束的优化问题,对违反约束条件的情况进行计算,并得到惩罚,其惩罚函数为:
Figure BDA0003239480790000031
其中
Figure BDA0003239480790000032
式中
Figure BDA0003239480790000033
为每次执行动作后违反约束的惩罚期望,/>
Figure BDA0003239480790000034
求得了系统中违反服务率,网络带宽,存储资源以及链路带宽约束条件的惩罚值总和,其中λx为惩罚因子,并定义了边缘云向任务提供服务的总延迟L,系统的动作奖励表示为:
Figure BDA0003239480790000035
所以,卸载任务调度模型的效益函数可表示为:
Figure BDA0003239480790000036
式中I(st,at,st+1)表示系统在状态为st选择行动at后,系统所获得的总收益,式中
Figure BDA0003239480790000037
为系统的总支出,系统目标为将收益最大化,即得到如下优化问题:
Figure BDA0003239480790000038
其中,ηt为折扣因子(0<ηt<1),并且ηt随着时间增加其值减少,得到最优策略π为系统中对于卸载任务的调度决策。
S3、在系统中部署首次适应启发式算法;当边缘云接收到任务后,会同时生成以通过步骤S2训练后的模型输出的调度解与启发式算法的调度解,所述边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,所述边缘计算中心化协调器将以通过步骤S2训练后的模型输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法获得在边缘云中总延迟最小,服务质量最高的调度方案。
进一步地,在步骤S3中融合神经网络求解和启发式算法混合的方法包括以下:
移动应用将自己的资源密集型任务通过就近连接的基站BS卸载至边缘云,当边缘云接收到任务后,会同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解,边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,边缘计算中心化协调器将以Seq2Seq神经网络训练后输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法;按照神经网络输出的主要策略依次完成对请求的调度,并在依次对请求任务执行调度时,检查完成本次操作是否会违反系统的服务率,网络带宽,存储资源以及链路带宽的四项约束,若违反则使用辅助调度算法,在可用服务节点中为该请求任务重新选择适合的服务节点。
进一步地,在步骤S2中基于蒙特卡洛策略梯度的深度强化学习下式(15)的方法包括以下:
得到的最优策略函数πθ(a|h(t))的具体参数,其中hi(t)∈St为输入的任务请求,策略函数πθ(a|h(t))中概率高的将会分配给惩罚低的动作a,概率低的则会分配给惩罚高的动作a,任务请求序列中未被调度的任务请求将根据已调度的的任务ah*和环境状态向量共同决定,即:基于历史调度以决定剩余任务的调度操作
Figure BDA0003239480790000041
一旦智能体在学习过程中达到收敛状态,向系统输入任务时,智能体将会返回合理的调度策略;为评估模型参数,策略梯度法定义了表示权重θ的每个向量的期望回报的目标式;该式为评估调度策略质量的优化目标式,且被每一种不同的调度策略定义,具体由当前环境状态和神经网络模型而设定,因而不直接依赖于模型,只取决于每一次智能体生成的调度策略;为此,定义了与输入请求调度策略相关的预期延迟La:
Figure BDA0003239480790000051
Agent通过每次输入的任务推断调度策略;因此根据任务分布的期望定义了预期延迟:
Figure BDA0003239480790000052
如式(19),问题转化为在满足约束条件的前提下,找到最小化预期延迟期望的策略,其中
Figure BDA0003239480790000053
为在式(14)定义的系统中违反服务率,网络带宽,存储资源以及链路带宽四项约束条件的惩罚值总和:
Figure BDA0003239480790000054
利用拉格朗日松弛算法,将公式(19)转化为无约束问题等式(20),等式(20)中,
Figure BDA0003239480790000055
为拉格朗日目标式:
Figure BDA0003239480790000056
采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ:
Figure BDA0003239480790000057
使用对数似然法获得拉格朗日函数的梯度;其中,L(a|h(t))为转化为无约束问题的拉格朗日对偶函数:
Figure BDA0003239480790000058
通过蒙特卡罗法对输入采样K个,分为h1(t),h2(t),…,hK(t),同时通过引入Baseline辅助网络bθ,减小了梯度的方差且没有引入偏差,加快了收敛速度,从而获得更加优质稳定的输出策略,因此将
Figure BDA0003239480790000059
作近似处理为:
Figure BDA00032394807900000510
使用Baseline辅助网络,预测了当前调度策略的惩罚,并采用随机梯度下降法对预测值bθ(hj(t))与环境实际惩罚值L(a|hj(t))的均方误差进行训练。
Figure BDA0003239480790000061
本发明的有益效果体现在:
(1)针对边缘网络卸载任务的Seq2Seq结构。本方法将机器翻译领域的Sequence-to-Sequence(Seq2Seq)模型,首次应用于求解最优的任务到边缘服务节点的映射,作为智能体中的神经网络结构,不仅能够能够有效完成任务对边缘服务节点的映射,且能够高效地提取卸载任务到达顺序这一特征。这种结构对于边缘网络中按序到达的批量网络任务这类需要连续进行信息采样尤其适合。
(2)提出使用融合神经网络和启发式混合方法完成任务调度决策。本方法以计算机算法的形式部署于边缘计算中心化协调器。该方法将强化学习应用于边缘网络中,在智能体于环境信息不断交互的过程,能显著提升调度决策的质量。神经网络和启发式融合方法使得任务调度解在求解质量与求解效率取得了良好的平衡。
(3)该方法使得任务请求的服务延迟大大减小。本方法的实验结果证明能够在与多数算法对比下最接近理论最优解,同时方法的开销相较于其他算法更小。
(4)本方法具有自学习的能力。本方法建立在网络场景中任务请求多变的数据基础之上,当出现历史数据中没有涵盖的任务需求以及到达顺序,环境能够将判断结果反馈至智能体Agent,极大提高了该方法在各种网络场景下的适应能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明面向分层边缘云的任务请求传输图;
图2为本发明中基于Seq2Seq神经网络的智能体训练流程图;
图3为本发明中强化学习的动作-奖励反馈循环图;
图4为本发明中JNNHSP算法执行的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本发明的场景适用于边缘网络场景。移动应用将自己的资源密集型任务通过就近连接的基站(Base station,BS)卸载至边缘云,边缘计算中心化协调器(Centralized Coordinator,CC)通过周期性的和边缘服务节点进行交互,能够及时了解当前分每个边缘服务节点的可用IT资源。当任务卸载至边缘云后,CC根据任务对各种资源的请求以及当前服务节点可用资源,运行调度策略将任务调度至合适的服务节点加以执行。
本发明提出的融合神经网络求解和启发式混合方法的任务调度算法(JointNeural Network and Heuristic Scheduling Policy,JNNHSP)将以计算机算法的形式部署于CC,CC按卸载任务到达网络的时间先后顺序进行调度决策并周期性的执行调度策略,在一批卸载任务执行完后为新的一批任务进行调度决策;其中本发明还构建了基于Seq2Seq的边缘云任务调度策略求解框架,以及基于蒙特卡洛梯度策略的强化学习训练方法以及融合神经网络和启发式算法的任务调度算法。
其具体为:首先在系统建立了一个基于序列到序列(Seq2Seq)的神经网络模型,通过基于Seq2Seq的神经网络模型完成卸载任务对边缘云节点的映射,采用基于蒙特卡洛策略梯度的深度强化学习(DRL)方法训练基于Seq2Seq神经网络模型,使得基于Seq2Seq的神经网络模型获得自学习以优化任务调度决策的能力,从而保证任务调度决策的质量。同时在系统中部署首次适应启发式算法,并在以上方法均无法提供优质的任务调度策略时,使用融合神经网络求解和启发式算法混合方法的任务调度算法获得在边缘云中总延迟最小,服务质量最高的调度方案。
如图2、图3所示,上述中的基于Seq2Seq的神经网络模型求解框架,通过使用强化学习策略梯度法对该模型进行训练过程:
该模型中的编码器与解码器由长短时记忆神经网络模型(Long Short-TermMemory,简称LSTM)构成,其解码步长与输入序列相同。到达边缘云的任务请求作为模型的输入,输入向量表示为R={r1,r2,…,rn},输出为将任务调度到的边缘云节点。模型将请求转化为词向量输入编码器,编码器保存由输入序列的隐藏状态之和组成的上下文向量,并进行加权处理输入解码器。解码器的隐藏状态是自身状态与上下文向量编码器状态相结合的结果,解码器最终输出调度向量,输出向量表示为P={p1,p2,…,pn}。在图3中,任务请求到达边缘网络表示为智能体(Agent)中Seq2Seq模型的输入rn,同时创建状态矢量St。Seq2Seq模型的输出作为调度策略Policy并执行调度动作At,边缘中分层部署的服务节点构成环境,并根据回报目标式获得反馈信号Rt+1以此评估当前调度策略并将Rt+1反馈给智能体对St加以更新。环境在和Agent交互过程中对Seq2Seq模型进行训练,使得Seq2Seq的调度输出逐渐趋于最优解。
若将CC与分层的边缘云网络视为一个系统,该系统在时刻t的系统状态只与t-1时刻的系统状态有关,而与t-1时刻以前系统状态无关。考虑到系统具有马尔可夫性以及任务时变的特性,可基于马尔科夫决策过程(Markov Decision Process,MDP)对Seq2Seq神经网络的训练过程进行建模分析。MDP主要描述智能体(Agent)和周围环境进行交互的行为和过程,主要包括:系统状态、执行动作、策略和回报。在MDP模型中,智能体(Agent)根据观察到系统的状态,从可行的行动集中选择一个行动加以执行,使系统转移到下一个状态并得到回报,然后再根据新观察到的系统状态和回报再做出新的决策,反复交互以获得系统的长期最优回报。一个马尔可夫决策过程可以描述为
Figure BDA0003239480790000091
Figure BDA0003239480790000092
其中:(1)S为所有系统状态的集合,用于描述当前情况的所有参数;/>
Figure BDA0003239480790000093
为可能出现的动作(Action)的集合,动作是对智能体行为的描述,是智能体决策的结果;(3)P为状态转移概率矩阵,即不同状态转移之间的概率关系;(4)R为智能体给出动作后环境对智能体的反馈;(5)η为折扣因子,η∈[0,1]。另外,Agent的策略可表示为:
Figure BDA0003239480790000094
结合本发明所面向的在边缘云中的任务调度问题,可做如下定义,状态集合:所有系统状态的集合,将边缘云向任务提供服务所产生的延迟作为状态,通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟,即产生状态间的转化。将此状态集合表示为:
St={h1(t),h2(t),…,hn(t)} (10)
其中,hi(t),i∈[1,n]表示在时间t第i个任务调度至服务节点hi(t)上。动作空间:把CC可能产生的潜在调度策略定义为动作空间,即一种调度策略是动作集合中的一个元素。此动作集合为:
Figure BDA0003239480790000095
上式中,
Figure BDA0003239480790000096
j∈[1,m]表示在时间t边缘云中心化协调器(CC)对第j个任务的调度动作。回报模型:本发明中定义了系统的奖励和惩罚,将整个系统建模为带约束的优化问题,对违反约束条件的情况进行计算,并得到惩罚,其惩罚函数为:
Figure BDA0003239480790000097
其中
Figure BDA0003239480790000098
式(14)中
Figure BDA0003239480790000101
为每次执行动作后违反约束的惩罚期望,/>
Figure BDA0003239480790000102
求得了系统中违反服务率,网络带宽,存储资源以及链路带宽约束条件的惩罚值总和,其中λx为惩罚因子。并定义了边缘云向任务提供服务的总延迟L,系统的动作奖励表示为:
Figure BDA0003239480790000103
所以,卸载任务调度模型的效益函数可表示为:
Figure BDA0003239480790000104
式(16)中I(st,at,st+1)表示系统在状态为st选择行动at后,系统所获得的总收益,式中
Figure BDA0003239480790000105
为系统的总支出,系统目标为将收益最大化。即得到如下优化问题:
Figure BDA0003239480790000106
其中,ηt为折扣因子(0<ηt<1),并且ηt随着时间增加其值减少。得到最优策略π为系统中对于卸载任务的调度决策。
进一步地,本发明使用强化学习中基于策略梯度方法的强化学习算法来学习式(15)得到的最优策略函数πθ(a|h(t))的具体参数,其中hi(t)∈St为输入的任务请求,策略函数πθ(a|h(t))中概率高的将会分配给惩罚低的动作a,概率低的则会分配给惩罚高的动作a。任务请求序列中未被调度的任务请求将根据已调度的的任务ah*和环境状态向量共同决定,即:基于历史调度以决定剩余任务的调度操作。
Figure BDA0003239480790000107
一旦智能体在学习过程中达到收敛状态,向系统输入任务时,智能体将会返回合理的调度策略。为评估模型参数,策略梯度法定义了表示权重θ的每个向量的期望回报的目标式。该式为评估调度策略质量的优化目标式,且被每一种不同的调度策略定义,具体由当前环境状态和神经网络模型而设定,因而不直接依赖于模型,只取决于每一次智能体生成的调度策略。为此,定义了与输入请求调度策略相关的预期延迟La:
Figure BDA0003239480790000111
Agent通过每次输入的任务推断调度策略。因此根据任务分布的期望定义了预期延迟:
Figure BDA0003239480790000112
如式(19),问题转化为在满足约束条件的前提下,找到最小化预期延迟期望的策略,其中
Figure BDA0003239480790000113
为在式(14)定义的系统中违反服务率,网络带宽,存储资源以及链路带宽四项约束条件的惩罚值总和:
Figure BDA0003239480790000114
利用拉格朗日松弛算法,将(19)转化为无约束问题(20),等式(20)中,
Figure BDA0003239480790000115
为拉格朗日目标式:
Figure BDA0003239480790000116
采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ:
Figure BDA0003239480790000117
使用对数似然法获得拉格朗日函数的梯度。其中,L(a|h(t))为转化为无约束问题的拉格朗日对偶函数:
Figure BDA0003239480790000118
where.L(a|h(t))=La(a|h(t))+∑xλx·Cx(a|h(t)) (22)
通过蒙特卡罗法对输入采样K个,分为h1(t),h2(t),…,hK(t)。同时,通过引入Baseline辅助网络bθ,减小了梯度的方差且没有引入偏差,加快了收敛速度,从而获得更加优质稳定的输出策略,因此将
Figure BDA0003239480790000119
作近似处理为:
Figure BDA00032394807900001110
使用Baseline辅助网络,预测了当前调度策略的惩罚,并采用随机梯度下降法对预测值bθ(hj(t))与环境实际惩罚值L(a|hj(t))的均方误差进行训练。
Figure BDA0003239480790000121
基于Seq2Seq神经网络求解框架的训练过程可描述为表1:
表1.基于Seq2Seq神经网络求解框架训练算法
Figure BDA0003239480790000122
进一步地,如图4所示,融合神经网络与启发式混合调度算法具体为:基于Seq2Seq神经网络的最优解的求解方法基础上,结合首次适应优先启发式算法(First_Fit,FF),本发明提出了JNNHSP算法,算法主要思想是:移动应用将自己的资源密集型任务通过就近连接的基站BS卸载至边缘云,当边缘云接收到任务后,会同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解,CC根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解。当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,CC将以Seq2Seq神经网络训练后输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法。按照神经网络输出的主要策略依次完成对请求的调度,并在依次对请求任务执行调度时,检查完成本次操作是否会违反系统的服务率,网络带宽,存储资源以及链路带宽的四项约束,若违反则使用辅助调度算法,在可用服务节点中为该请求任务重新选择适合的服务节点。
JNNHSP算法部署在CC之上,CC按卸载任务到达网络的时间先后顺序进行调度决策。算法以优化这些任务请求在网络场景中被服务的总延迟为目标,避免服务节点的IT资源过载和完成服务导致的边缘云中的网络链路过载。在满足资源需求的多个候选服务节点和网络链路中,选择能够使任务在边缘云中总延迟最小的调度方案。JNNHSP算法伪代码如表2:
表2.JNNHSP算法伪代码
Figure BDA0003239480790000131
Figure BDA0003239480790000141
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (3)

1.一种融合神经网络求解和启发式算法的任务调度方法,其特征在于,应用于分层边缘计算环境中,包括以下:
S1、建立一个基于Seq2Seq的神经网络模型,通过该神经网络模型完成卸载任务对边缘云节点的映射;
S2、采用基于蒙特卡洛策略梯度的深度强化学习方法训练基于Seq2Seq的所述神经网络模型,使得基于Seq2Seq的所述神经网络模型作为强化学习中的智能体并获得自学习以优化任务调度决策的能力;其中基于蒙特卡洛策略梯度的深度强化学习方法的训练过程为:
1)状态集合:所有系统状态的集合,将边缘云向任务提供服务所产生的延迟作为状态,通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟,即产生状态间的转化;将此状态集合表示为:
St={h1(t),h2(t),…,hn(t)} (10)
其中,hi(t),i∈[1,n]表示在时间t第i个任务调度至服务节点hi(t)上;
2)动作空间:把边缘计算中心化协调器可能产生的潜在调度策略定义为动作空间,即一种调度策略是动作集合中的一个元素;此动作集合为:
Figure QLYQS_1
式中,
Figure QLYQS_2
表示在时间t边缘云中心化协调器对第j个任务的调度动作;
3)回报模型:定义了系统的奖励和惩罚,将整个系统建模为带约束的优化问题,对违反约束条件的情况进行计算,并得到惩罚,其惩罚函数为:
Figure QLYQS_3
其中
Figure QLYQS_4
式中
Figure QLYQS_5
为每次执行动作后违反约束的惩罚期望,/>
Figure QLYQS_6
求得了系统中违反服务率,网络带宽,存储资源以及链路带宽约束条件的惩罚值总和,其中λx为惩罚因子,并定义了边缘云向任务提供服务的总延迟L,系统的动作奖励表示为:
Figure QLYQS_7
所以,卸载任务调度模型的效益函数可表示为:
Figure QLYQS_8
式中I(st,at,st+1)表示系统在状态为st选择行动at后,系统所获得的总收益,式中
Figure QLYQS_9
为系统的总支出,系统目标为将收益最大化,即得到如下优化问题:
Figure QLYQS_10
其中,ηt为折扣因子(0<ηt<1),并且ηt随着时间增加其值减少,得到最优策略π为系统中对于卸载任务的调度决策;
S3、在系统中部署首次适应启发式算法;当边缘云接收到任务后,会同时生成以通过步骤S2训练后的神经网络模型输出的调度解与启发式算法的调度解,边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,所述边缘计算中心化协调器将以通过步骤S2训练后的模型输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法获得在边缘云中总延迟最小,服务质量最高的调度方案。
2.根据权利要求1所述的一种融合神经网络求解和启发式算法的任务调度方法,其特征在于,在步骤S3中融合神经网络求解和启发式算法混合的方法包括以下:
移动应用将自己的资源密集型任务通过就近连接的基站卸载至边缘云,当边缘云接收到任务后,同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解,边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,边缘计算中心化协调器将以Seq2Seq神经网络训练后输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法;按照神经网络输出的主要策略依次完成对请求的调度,并在依次对请求任务执行调度时,检查完成本次操作是否会违反系统的服务率,网络带宽,存储资源以及链路带宽的四项约束,若违反则使用辅助调度算法,在可用服务节点中为该请求任务重新选择适合的服务节点。
3.根据权利要求1所述的一种融合神经网络求解和启发式算法的任务调度方法,其特征在于,在步骤S2中基于蒙特卡洛策略梯度的深度强化学习下式(15)的方法包括以下:
得到的最优策略函数πθ(a|h(t))的具体参数,其中hi(t)∈St为输入的任务请求,策略函数πθ(a|h(t))中概率高的将会分配给惩罚低的动作a,概率低的则会分配给惩罚高的动作a,任务请求序列中未被调度的任务请求将根据已调度的的任务ah*和环境状态向量共同决定,即:基于历史调度以决定剩余任务的调度操作
Figure QLYQS_11
一旦智能体在学习过程中达到收敛状态,向系统输入任务时,智能体将会返回合理的调度策略;为评估模型参数,策略梯度法定义了表示权重θ的每个向量的期望回报的目标式;该式为评估调度策略质量的优化目标式,且被每一种不同的调度策略定义,具体由当前环境状态和神经网络模型而设定,因而不直接依赖于模型,只取决于每一次智能体生成的调度策略;为此,定义了与输入请求调度策略相关的预期延迟La:
Figure QLYQS_12
智能体通过每次输入的任务推断调度策略;因此根据任务分布的期望定义了预期延迟:
Figure QLYQS_13
如式(19),问题转化为在满足约束条件的前提下,找到最小化预期延迟期望的策略,其中
Figure QLYQS_14
为在式(14)定义的系统中违反服务率,网络带宽,存储资源以及链路带宽四项约束条件的惩罚值总和:
Figure QLYQS_15
利用拉格朗日松弛算法,将公式(19)转化为无约束问题等式(20),等式(20)中,
Figure QLYQS_16
为拉格朗日目标式:
Figure QLYQS_17
采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ:
Figure QLYQS_18
使用对数似然法获得拉格朗日函数的梯度;其中,L(a|h(t))为转化为无约束问题的拉格朗日对偶函数:
Figure QLYQS_19
where.L(a|h(t))=La(a|h(t))+∑xλx·Cx(a|h(t)) (22)
通过蒙特卡罗法对输入采样K个,分为h1(t),h2(t),…,hK(t),同时通过引入Baseline辅助网络bθ,减小了梯度的方差且没有引入偏差,加快了收敛速度,从而获得更加优质稳定的输出策略,因此将
Figure QLYQS_20
作近似处理为:
Figure QLYQS_21
使用Baseline辅助网络,预测了当前调度策略的惩罚,并采用随机梯度下降法对预测值bθ(hj(t))与环境实际惩罚值L(a|hj(t))的均方误差进行训练;
Figure QLYQS_22
CN202111012837.4A 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法 Active CN113778648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012837.4A CN113778648B (zh) 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012837.4A CN113778648B (zh) 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法

Publications (2)

Publication Number Publication Date
CN113778648A CN113778648A (zh) 2021-12-10
CN113778648B true CN113778648B (zh) 2023-07-11

Family

ID=78840471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012837.4A Active CN113778648B (zh) 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法

Country Status (1)

Country Link
CN (1) CN113778648B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118300B (zh) * 2022-01-21 2022-05-20 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
CN114827142B (zh) * 2022-04-11 2023-02-28 浙江大学 一种确保容器化边缘服务请求实时性的调度方法
CN115174681B (zh) * 2022-06-14 2023-12-15 武汉大学 一种边缘计算服务请求调度方法、设备及存储介质
CN114942799B (zh) * 2022-06-21 2023-08-04 福州大学 云边环境下基于强化学习的工作流调度方法
CN115114030B (zh) * 2022-07-20 2023-06-16 杭州电子科技大学 一种基于强化学习的在线多工作流调度方法
CN115686846B (zh) * 2022-10-31 2023-05-02 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN116009990B (zh) * 2023-02-01 2024-03-29 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN115809686B (zh) * 2023-02-03 2023-06-16 中国科学技术大学 提升循环图结构数据处理系统处理效率方法、设备及介质
CN116820730B (zh) * 2023-08-28 2024-01-09 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质
CN117195728A (zh) * 2023-09-12 2023-12-08 重庆理工大学 一种基于图到序列强化学习的复杂移动任务部署方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257968A1 (en) * 2019-02-08 2020-08-13 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的移动边缘计算任务卸载研究;卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;;计算机研究与发展(第07期);全文 *

Also Published As

Publication number Publication date
CN113778648A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113778648B (zh) 分层边缘计算环境中基于深度强化学习的任务调度方法
CN112351503B (zh) 基于任务预测的多无人机辅助边缘计算资源分配方法
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN113568675A (zh) 一种基于分层强化学习的车联网边缘计算任务卸载方法
CN111191934A (zh) 一种基于强化学习策略的多目标云工作流调度方法
Liao et al. Online computation offloading with double reinforcement learning algorithm in mobile edge computing
CN113626104B (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
Qi et al. Vehicular edge computing via deep reinforcement learning
CN116489708B (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN114650228A (zh) 一种异构网络中基于计算卸载的联邦学习调度方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Wu et al. Delay-aware edge-terminal collaboration in green Internet of Vehicles: A multi-agent soft actor-critic approach
Matrouk et al. Mobility aware-task scheduling and virtual fog for offloading in IoT-fog-cloud environment
CN114885388A (zh) 联合rss预测的多业务类型自适应切换判决方法
He Optimization of edge delay sensitive task scheduling based on genetic algorithm
Wang Edge artificial intelligence-based affinity task offloading under resource adjustment in a 5G network
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN114826378B (zh) 基于数据驱动的星间链路调度方法及系统
Zhao et al. MEDIA: An Incremental DNN Based Computation Offloading for Collaborative Cloud-Edge Computing
CN116185523A (zh) 一种任务卸载和部署的方法
Zhang et al. Cooperative task offloading in cybertwin-assisted vehicular edge computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant