CN113778648A - 分层边缘计算环境中基于深度强化学习的任务调度方法 - Google Patents

分层边缘计算环境中基于深度强化学习的任务调度方法 Download PDF

Info

Publication number
CN113778648A
CN113778648A CN202111012837.4A CN202111012837A CN113778648A CN 113778648 A CN113778648 A CN 113778648A CN 202111012837 A CN202111012837 A CN 202111012837A CN 113778648 A CN113778648 A CN 113778648A
Authority
CN
China
Prior art keywords
scheduling
task
strategy
neural network
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111012837.4A
Other languages
English (en)
Other versions
CN113778648B (zh
Inventor
陈卓
卫佩宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202111012837.4A priority Critical patent/CN113778648B/zh
Publication of CN113778648A publication Critical patent/CN113778648A/zh
Application granted granted Critical
Publication of CN113778648B publication Critical patent/CN113778648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种分层边缘计算环境中基于深度强化学习的任务调度方法;包括,基于Sequence‑to‑Sequence(Seq2Seq)建立的的神经网络模型,将该模型应用于求解最优的任务到边缘服务节点的映射,作为智能体中的神经网络结构;采用基于蒙特卡洛策略梯度的深度强化学习方法训练训练该模型,使得该模型具备自学习能力,以具备优化任务调度决策的能力;并在系统中部署有融合神经网络求解和启发式算法的任务调度算法,使得能显著提升调度决策的质量并能在效率与质量之间得到平衡。

Description

分层边缘计算环境中基于深度强化学习的任务调度方法
技术领域
本发明涉及计算机技术领域,具体涉及服务节点依照距离移动用户端的距离分层部署的边缘计算环境中,在面对任务请求动态化以及边缘服务节点资源异构化的情况下,一种基于深度强化学习的智能任务调度方法。
背景技术
随着云计算的快速发展和大规模部署,越来越多的移动应用将其计算密集型任务卸载到云数据中心,通过利用云端丰富的IT资源(如:计算资源、存储资源和网络资源)有效降低本地资源的开销。
但是,远端卸载任务需要较长的数据传输延迟,这影响了任务卸载之后移动应用的体验,特别是对于延迟敏感的移动应用,如:语音辨识和控制,视频图像的识别,交互游戏等应用。为了降低延迟改善移动应用体验,同时优化云数据中心的IT资源负载,边缘计算(边缘云)和雾计算等近端计算模式被提出。
边缘计算通过将许多规模较小的服务节点部署在网络边缘,使得附近的移动用户可以通过无线连接就近访问边缘云服务节点,这样移动设备可以在距离自己更近的边缘云中获得服务,在有效降低服务延迟的同时也避免了云数据中心的资源过载。随着分层部署边缘节点的新模式被提出,即根据任务规模和当前边缘节点的负载,让处于不同层次的节点为任务提供服务,从而达到服务更多任务的目的。如何在多个节点分层部署的边缘云中实现高效的任务调度决策,并使任务所获得的服务延迟最低需要同时考虑:(1)任务对边缘云的资源请求的差异;(2)当前的边缘云系统负载状况;(3)在IT资源异构且分层部署的多个服务节点上进行服务匹配决策;(4)调度决策应在尽可能短的时间做出且调度方案应尽可能逼近理论最优。
发明内容
针对现有技术中的缺陷,本发明提供一种分层边缘计算环境中基于深度强化学习的任务调度方法,以解决上述背景技术中的问题。
本发明的一目的在于提供了一种对于(Seq2Seq)模型的全新应用方案;
本发明的另一目的在于提出了一种使用融合神经网络和启发式混合方法完成任务调度决策的方法;
本发明的再一目的在于提供一种具有自学能力的且使得服务延极大减小的任务调度方法。
为达到上述目的,本发明提供了一种融合神经网络求解和启发式算法的任务调度方法,应用于分层边缘计算环境中,包括以下:
S1、建立一个基于Seq2Seq的神经网络模型,通过该神经网络模型完成卸载任务对边缘云节点的映射;
S2、采用基于蒙特卡洛策略梯度的深度强化学习方法训练基于Seq2Seq的所述神经网络模型,使得基于Seq2Seq的所述神经网络模型作为强化学习中的智能体并获得自学习以优化任务调度决策的能力;其中训练过程为:
1)状态集合:所有系统状态的集合,将边缘云向任务提供服务所产生的延迟作为状态,通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟,即产生状态间的转化。将此状态集合表示为:
St={h1(t),h2(t),…,hn(t)} (10)
其中,hi(t),i∈[1,n]表示在时间t第i个任务调度至服务节点hi(t)上;
2)动作空间:把边缘计算中心化协调器可能产生的潜在调度策略定义为动作空间,即一种调度策略是动作集合中的一个元素。此动作集合为:
Figure BDA0003239480790000021
上式中,
Figure BDA0003239480790000022
j∈[1,m]表示在时间t边缘云中心化协调器对第j个任务的调度动作;
3)回报模型:本发明中定义了系统的奖励和惩罚,将整个系统建模为带约束的优化问题,对违反约束条件的情况进行计算,并得到惩罚,其惩罚函数为:
Figure BDA0003239480790000031
其中
Figure BDA0003239480790000032
式中
Figure BDA0003239480790000033
为每次执行动作后违反约束的惩罚期望,
Figure BDA0003239480790000034
求得了系统中违反服务率,网络带宽,存储资源以及链路带宽约束条件的惩罚值总和,其中λx为惩罚因子,并定义了边缘云向任务提供服务的总延迟L,系统的动作奖励表示为:
Figure BDA0003239480790000035
所以,卸载任务调度模型的效益函数可表示为:
Figure BDA0003239480790000036
式中I(st,at,st+1)表示系统在状态为st选择行动at后,系统所获得的总收益,式中
Figure BDA0003239480790000037
为系统的总支出,系统目标为将收益最大化,即得到如下优化问题:
Figure BDA0003239480790000038
其中,ηt为折扣因子(0<ηt<1),并且ηt随着时间增加其值减少,得到最优策略π为系统中对于卸载任务的调度决策。
S3、在系统中部署首次适应启发式算法;当边缘云接收到任务后,会同时生成以通过步骤S2训练后的模型输出的调度解与启发式算法的调度解,所述边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,所述边缘计算中心化协调器将以通过步骤S2训练后的模型输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法获得在边缘云中总延迟最小,服务质量最高的调度方案。
进一步地,在步骤S3中融合神经网络求解和启发式算法混合的方法包括以下:
移动应用将自己的资源密集型任务通过就近连接的基站BS卸载至边缘云,当边缘云接收到任务后,会同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解,边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,边缘计算中心化协调器将以Seq2Seq神经网络训练后输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法;按照神经网络输出的主要策略依次完成对请求的调度,并在依次对请求任务执行调度时,检查完成本次操作是否会违反系统的服务率,网络带宽,存储资源以及链路带宽的四项约束,若违反则使用辅助调度算法,在可用服务节点中为该请求任务重新选择适合的服务节点。
进一步地,在步骤S2中基于蒙特卡洛策略梯度的深度强化学习下式(15)的方法包括以下:
得到的最优策略函数πθ(a|h(t))的具体参数,其中hi(t)∈St为输入的任务请求,策略函数πθ(a|h(t))中概率高的将会分配给惩罚低的动作a,概率低的则会分配给惩罚高的动作a,任务请求序列中未被调度的任务请求将根据已调度的的任务ah*和环境状态向量共同决定,即:基于历史调度以决定剩余任务的调度操作
Figure BDA0003239480790000041
一旦智能体在学习过程中达到收敛状态,向系统输入任务时,智能体将会返回合理的调度策略;为评估模型参数,策略梯度法定义了表示权重θ的每个向量的期望回报的目标式;该式为评估调度策略质量的优化目标式,且被每一种不同的调度策略定义,具体由当前环境状态和神经网络模型而设定,因而不直接依赖于模型,只取决于每一次智能体生成的调度策略;为此,定义了与输入请求调度策略相关的预期延迟La:
Figure BDA0003239480790000051
Agent通过每次输入的任务推断调度策略;因此根据任务分布的期望定义了预期延迟:
Figure BDA0003239480790000052
如式(19),问题转化为在满足约束条件的前提下,找到最小化预期延迟期望的策略,其中
Figure BDA0003239480790000053
为在式(14)定义的系统中违反服务率,网络带宽,存储资源以及链路带宽四项约束条件的惩罚值总和:
Figure BDA0003239480790000054
利用拉格朗日松弛算法,将公式(19)转化为无约束问题等式(20),等式(20)中,
Figure BDA0003239480790000055
为拉格朗日目标式:
Figure BDA0003239480790000056
采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ:
Figure BDA0003239480790000057
使用对数似然法获得拉格朗日函数的梯度;其中,L(a|h(t))为转化为无约束问题的拉格朗日对偶函数:
Figure BDA0003239480790000058
通过蒙特卡罗法对输入采样K个,分为h1(t),h2(t),…,hK(t),同时通过引入Baseline辅助网络bθ,减小了梯度的方差且没有引入偏差,加快了收敛速度,从而获得更加优质稳定的输出策略,因此将
Figure BDA0003239480790000059
作近似处理为:
Figure BDA00032394807900000510
使用Baseline辅助网络,预测了当前调度策略的惩罚,并采用随机梯度下降法对预测值bθ(hj(t))与环境实际惩罚值L(a|hj(t))的均方误差进行训练。
Figure BDA0003239480790000061
本发明的有益效果体现在:
(1)针对边缘网络卸载任务的Seq2Seq结构。本方法将机器翻译领域的Sequence-to-Sequence(Seq2Seq)模型,首次应用于求解最优的任务到边缘服务节点的映射,作为智能体中的神经网络结构,不仅能够能够有效完成任务对边缘服务节点的映射,且能够高效地提取卸载任务到达顺序这一特征。这种结构对于边缘网络中按序到达的批量网络任务这类需要连续进行信息采样尤其适合。
(2)提出使用融合神经网络和启发式混合方法完成任务调度决策。本方法以计算机算法的形式部署于边缘计算中心化协调器。该方法将强化学习应用于边缘网络中,在智能体于环境信息不断交互的过程,能显著提升调度决策的质量。神经网络和启发式融合方法使得任务调度解在求解质量与求解效率取得了良好的平衡。
(3)该方法使得任务请求的服务延迟大大减小。本方法的实验结果证明能够在与多数算法对比下最接近理论最优解,同时方法的开销相较于其他算法更小。
(4)本方法具有自学习的能力。本方法建立在网络场景中任务请求多变的数据基础之上,当出现历史数据中没有涵盖的任务需求以及到达顺序,环境能够将判断结果反馈至智能体Agent,极大提高了该方法在各种网络场景下的适应能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明面向分层边缘云的任务请求传输图;
图2为本发明中基于Seq2Seq神经网络的智能体训练流程图;
图3为本发明中强化学习的动作-奖励反馈循环图;
图4为本发明中JNNHSP算法执行的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本发明的场景适用于边缘网络场景。移动应用将自己的资源密集型任务通过就近连接的基站(Base station,BS)卸载至边缘云,边缘计算中心化协调器(Centralized Coordinator,CC)通过周期性的和边缘服务节点进行交互,能够及时了解当前分每个边缘服务节点的可用IT资源。当任务卸载至边缘云后,CC根据任务对各种资源的请求以及当前服务节点可用资源,运行调度策略将任务调度至合适的服务节点加以执行。
本发明提出的融合神经网络求解和启发式混合方法的任务调度算法(JointNeural Network and Heuristic Scheduling Policy,JNNHSP)将以计算机算法的形式部署于CC,CC按卸载任务到达网络的时间先后顺序进行调度决策并周期性的执行调度策略,在一批卸载任务执行完后为新的一批任务进行调度决策;其中本发明还构建了基于Seq2Seq的边缘云任务调度策略求解框架,以及基于蒙特卡洛梯度策略的强化学习训练方法以及融合神经网络和启发式算法的任务调度算法。
其具体为:首先在系统建立了一个基于序列到序列(Seq2Seq)的神经网络模型,通过基于Seq2Seq的神经网络模型完成卸载任务对边缘云节点的映射,采用基于蒙特卡洛策略梯度的深度强化学习(DRL)方法训练基于Seq2Seq神经网络模型,使得基于Seq2Seq的神经网络模型获得自学习以优化任务调度决策的能力,从而保证任务调度决策的质量。同时在系统中部署首次适应启发式算法,并在以上方法均无法提供优质的任务调度策略时,使用融合神经网络求解和启发式算法混合方法的任务调度算法获得在边缘云中总延迟最小,服务质量最高的调度方案。
如图2、图3所示,上述中的基于Seq2Seq的神经网络模型求解框架,通过使用强化学习策略梯度法对该模型进行训练过程:
该模型中的编码器与解码器由长短时记忆神经网络模型(Long Short-TermMemory,简称LSTM)构成,其解码步长与输入序列相同。到达边缘云的任务请求作为模型的输入,输入向量表示为R={r1,r2,…,rn},输出为将任务调度到的边缘云节点。模型将请求转化为词向量输入编码器,编码器保存由输入序列的隐藏状态之和组成的上下文向量,并进行加权处理输入解码器。解码器的隐藏状态是自身状态与上下文向量编码器状态相结合的结果,解码器最终输出调度向量,输出向量表示为P={p1,p2,…,pn}。在图3中,任务请求到达边缘网络表示为智能体(Agent)中Seq2Seq模型的输入rn,同时创建状态矢量St。Seq2Seq模型的输出作为调度策略Policy并执行调度动作At,边缘中分层部署的服务节点构成环境,并根据回报目标式获得反馈信号Rt+1以此评估当前调度策略并将Rt+1反馈给智能体对St加以更新。环境在和Agent交互过程中对Seq2Seq模型进行训练,使得Seq2Seq的调度输出逐渐趋于最优解。
若将CC与分层的边缘云网络视为一个系统,该系统在时刻t的系统状态只与t-1时刻的系统状态有关,而与t-1时刻以前系统状态无关。考虑到系统具有马尔可夫性以及任务时变的特性,可基于马尔科夫决策过程(Markov Decision Process,MDP)对Seq2Seq神经网络的训练过程进行建模分析。MDP主要描述智能体(Agent)和周围环境进行交互的行为和过程,主要包括:系统状态、执行动作、策略和回报。在MDP模型中,智能体(Agent)根据观察到系统的状态,从可行的行动集中选择一个行动加以执行,使系统转移到下一个状态并得到回报,然后再根据新观察到的系统状态和回报再做出新的决策,反复交互以获得系统的长期最优回报。一个马尔可夫决策过程可以描述为
Figure BDA0003239480790000091
Figure BDA0003239480790000092
其中:(1)S为所有系统状态的集合,用于描述当前情况的所有参数;
Figure BDA0003239480790000093
为可能出现的动作(Action)的集合,动作是对智能体行为的描述,是智能体决策的结果;(3)P为状态转移概率矩阵,即不同状态转移之间的概率关系;(4)R为智能体给出动作后环境对智能体的反馈;(5)η为折扣因子,η∈[0,1]。另外,Agent的策略可表示为:
Figure BDA0003239480790000094
结合本发明所面向的在边缘云中的任务调度问题,可做如下定义,状态集合:所有系统状态的集合,将边缘云向任务提供服务所产生的延迟作为状态,通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟,即产生状态间的转化。将此状态集合表示为:
St={h1(t),h2(t),…,hn(t)} (10)
其中,hi(t),i∈[1,n]表示在时间t第i个任务调度至服务节点hi(t)上。动作空间:把CC可能产生的潜在调度策略定义为动作空间,即一种调度策略是动作集合中的一个元素。此动作集合为:
Figure BDA0003239480790000095
上式中,
Figure BDA0003239480790000096
j∈[1,m]表示在时间t边缘云中心化协调器(CC)对第j个任务的调度动作。回报模型:本发明中定义了系统的奖励和惩罚,将整个系统建模为带约束的优化问题,对违反约束条件的情况进行计算,并得到惩罚,其惩罚函数为:
Figure BDA0003239480790000097
其中
Figure BDA0003239480790000098
式(14)中
Figure BDA0003239480790000101
为每次执行动作后违反约束的惩罚期望,
Figure BDA0003239480790000102
求得了系统中违反服务率,网络带宽,存储资源以及链路带宽约束条件的惩罚值总和,其中λx为惩罚因子。并定义了边缘云向任务提供服务的总延迟L,系统的动作奖励表示为:
Figure BDA0003239480790000103
所以,卸载任务调度模型的效益函数可表示为:
Figure BDA0003239480790000104
式(16)中I(st,at,st+1)表示系统在状态为st选择行动at后,系统所获得的总收益,式中
Figure BDA0003239480790000105
为系统的总支出,系统目标为将收益最大化。即得到如下优化问题:
Figure BDA0003239480790000106
其中,ηt为折扣因子(0<ηt<1),并且ηt随着时间增加其值减少。得到最优策略π为系统中对于卸载任务的调度决策。
进一步地,本发明使用强化学习中基于策略梯度方法的强化学习算法来学习式(15)得到的最优策略函数πθ(a|h(t))的具体参数,其中hi(t)∈St为输入的任务请求,策略函数πθ(a|h(t))中概率高的将会分配给惩罚低的动作a,概率低的则会分配给惩罚高的动作a。任务请求序列中未被调度的任务请求将根据已调度的的任务ah*和环境状态向量共同决定,即:基于历史调度以决定剩余任务的调度操作。
Figure BDA0003239480790000107
一旦智能体在学习过程中达到收敛状态,向系统输入任务时,智能体将会返回合理的调度策略。为评估模型参数,策略梯度法定义了表示权重θ的每个向量的期望回报的目标式。该式为评估调度策略质量的优化目标式,且被每一种不同的调度策略定义,具体由当前环境状态和神经网络模型而设定,因而不直接依赖于模型,只取决于每一次智能体生成的调度策略。为此,定义了与输入请求调度策略相关的预期延迟La:
Figure BDA0003239480790000111
Agent通过每次输入的任务推断调度策略。因此根据任务分布的期望定义了预期延迟:
Figure BDA0003239480790000112
如式(19),问题转化为在满足约束条件的前提下,找到最小化预期延迟期望的策略,其中
Figure BDA0003239480790000113
为在式(14)定义的系统中违反服务率,网络带宽,存储资源以及链路带宽四项约束条件的惩罚值总和:
Figure BDA0003239480790000114
利用拉格朗日松弛算法,将(19)转化为无约束问题(20),等式(20)中,
Figure BDA0003239480790000115
为拉格朗日目标式:
Figure BDA0003239480790000116
采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ:
Figure BDA0003239480790000117
使用对数似然法获得拉格朗日函数的梯度。其中,L(a|h(t))为转化为无约束问题的拉格朗日对偶函数:
Figure BDA0003239480790000118
where.L(a|h(t))=La(a|h(t))+∑xλx·Cx(a|h(t)) (22)
通过蒙特卡罗法对输入采样K个,分为h1(t),h2(t),…,hK(t)。同时,通过引入Baseline辅助网络bθ,减小了梯度的方差且没有引入偏差,加快了收敛速度,从而获得更加优质稳定的输出策略,因此将
Figure BDA0003239480790000119
作近似处理为:
Figure BDA00032394807900001110
使用Baseline辅助网络,预测了当前调度策略的惩罚,并采用随机梯度下降法对预测值bθ(hj(t))与环境实际惩罚值L(a|hj(t))的均方误差进行训练。
Figure BDA0003239480790000121
基于Seq2Seq神经网络求解框架的训练过程可描述为表1:
表1.基于Seq2Seq神经网络求解框架训练算法
Figure BDA0003239480790000122
进一步地,如图4所示,融合神经网络与启发式混合调度算法具体为:基于Seq2Seq神经网络的最优解的求解方法基础上,结合首次适应优先启发式算法(First_Fit,FF),本发明提出了JNNHSP算法,算法主要思想是:移动应用将自己的资源密集型任务通过就近连接的基站BS卸载至边缘云,当边缘云接收到任务后,会同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解,CC根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解。当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,CC将以Seq2Seq神经网络训练后输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法。按照神经网络输出的主要策略依次完成对请求的调度,并在依次对请求任务执行调度时,检查完成本次操作是否会违反系统的服务率,网络带宽,存储资源以及链路带宽的四项约束,若违反则使用辅助调度算法,在可用服务节点中为该请求任务重新选择适合的服务节点。
JNNHSP算法部署在CC之上,CC按卸载任务到达网络的时间先后顺序进行调度决策。算法以优化这些任务请求在网络场景中被服务的总延迟为目标,避免服务节点的IT资源过载和完成服务导致的边缘云中的网络链路过载。在满足资源需求的多个候选服务节点和网络链路中,选择能够使任务在边缘云中总延迟最小的调度方案。JNNHSP算法伪代码如表2:
表2.JNNHSP算法伪代码
Figure BDA0003239480790000131
Figure BDA0003239480790000141
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (3)

1.一种融合神经网络求解和启发式算法的任务调度方法,其特征在于,应用于分层边缘计算环境中,包括以下:
S1、建立一个基于Seq2Seq的神经网络模型,通过该神经网络模型完成卸载任务对边缘云节点的映射;
S2、采用基于蒙特卡洛策略梯度的深度强化学习方法训练基于Seq2Seq的所述神经网络模型,使得基于Seq2Seq的所述神经网络模型作为强化学习中的智能体并获得自学习以优化任务调度决策的能力;其中基于蒙特卡洛策略梯度的深度强化学习方法的训练过程为:
1)状态集合:所有系统状态的集合,将边缘云向任务提供服务所产生的延迟作为状态,通过调度会使任务映射至不同的服务节点从而形成不同的处理延迟和传输延迟,即产生状态间的转化;将此状态集合表示为:
St={h1(t),h2(t),…,hn(t)} (10)
其中,hi(t),i∈[1,n]表示在时间t第i个任务调度至服务节点hi(t)上;
2)动作空间:把边缘计算中心化协调器可能产生的潜在调度策略定义为动作空间,即一种调度策略是动作集合中的一个元素;此动作集合为:
Figure FDA0003239480780000011
式中,
Figure FDA0003239480780000012
表示在时间t边缘云中心化协调器对第j个任务的调度动作;
3)回报模型:定义了系统的奖励和惩罚,将整个系统建模为带约束的优化问题,对违反约束条件的情况进行计算,并得到惩罚,其惩罚函数为:
Figure FDA0003239480780000013
其中
Figure FDA0003239480780000014
式中
Figure FDA0003239480780000015
为每次执行动作后违反约束的惩罚期望,
Figure FDA0003239480780000016
求得了系统中违反服务率,网络带宽,存储资源以及链路带宽约束条件的惩罚值总和,其中λx为惩罚因子,并定义了边缘云向任务提供服务的总延迟L,系统的动作奖励表示为:
Figure FDA0003239480780000021
所以,卸载任务调度模型的效益函数可表示为:
Figure FDA0003239480780000022
式中I(st,at,st+1)表示系统在状态为st选择行动at后,系统所获得的总收益,式中
Figure FDA0003239480780000023
为系统的总支出,系统目标为将收益最大化,即得到如下优化问题:
Figure FDA0003239480780000024
其中,ηt为折扣因子(0<ηt<1),并且ηt随着时间增加其值减少,得到最优策略π为系统中对于卸载任务的调度决策。
S3、在系统中部署首次适应启发式算法;当边缘云接收到任务后,会同时生成以通过步骤S2训练后的神经网络模型输出的调度解与启发式算法的调度解,边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,所述边缘计算中心化协调器将以通过步骤S2训练后的模型输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法获得在边缘云中总延迟最小,服务质量最高的调度方案。
2.根据权利要求1所述的一种融合神经网络求解和启发式算法的任务调度方法,其特征在于,在步骤S3中融合神经网络求解和启发式算法混合的方法包括以下:
移动应用将自己的资源密集型任务通过就近连接的基站卸载至边缘云,当边缘云接收到任务后,同时生成以Seq2Seq神经网络训练后输出的调度解和启发式算法的调度解,边缘计算中心化协调器根据两者的调度解的惩罚值以及预期延迟对其进行进一步评估,并在惩罚值小于零的基础上选择预期延迟最低的解为最优解;当出现调度解的惩罚值均大于零,或存在算法无法完成调度任务的情况,边缘计算中心化协调器将以Seq2Seq神经网络训练后输出的调度最优解为主要策略,以启发式调度算法为辅助调度算法;按照神经网络输出的主要策略依次完成对请求的调度,并在依次对请求任务执行调度时,检查完成本次操作是否会违反系统的服务率,网络带宽,存储资源以及链路带宽的四项约束,若违反则使用辅助调度算法,在可用服务节点中为该请求任务重新选择适合的服务节点。
3.根据权利要求1所述的一种融合神经网络求解和启发式算法的任务调度方法,其特征在于,在步骤S2中基于蒙特卡洛策略梯度的深度强化学习下式(15)的方法包括以下:
得到的最优策略函数πθ(a|h(t))的具体参数,其中hi(t)∈St为输入的任务请求,策略函数πθ(a|h(t))中概率高的将会分配给惩罚低的动作a,概率低的则会分配给惩罚高的动作a,任务请求序列中未被调度的任务请求将根据已调度的的任务ah*和环境状态向量共同决定,即:基于历史调度以决定剩余任务的调度操作
Figure FDA0003239480780000031
一旦智能体在学习过程中达到收敛状态,向系统输入任务时,智能体将会返回合理的调度策略;为评估模型参数,策略梯度法定义了表示权重θ的每个向量的期望回报的目标式;该式为评估调度策略质量的优化目标式,且被每一种不同的调度策略定义,具体由当前环境状态和神经网络模型而设定,因而不直接依赖于模型,只取决于每一次智能体生成的调度策略;为此,定义了与输入请求调度策略相关的预期延迟La:
Figure FDA0003239480780000032
智能体通过每次输入的任务推断调度策略;因此根据任务分布的期望定义了预期延迟:
Figure FDA0003239480780000033
如式(19),问题转化为在满足约束条件的前提下,找到最小化预期延迟期望的策略,其中
Figure FDA0003239480780000041
为在式(14)定义的系统中违反服务率,网络带宽,存储资源以及链路带宽四项约束条件的惩罚值总和:
Figure FDA0003239480780000042
利用拉格朗日松弛算法,将公式(19)转化为无约束问题等式(20),等式(20)中,
Figure FDA0003239480780000043
为拉格朗日目标式:
Figure FDA0003239480780000044
采用随机梯度下降法和蒙特卡罗策略梯度法计算优化该目标函数的权值θ:
Figure FDA0003239480780000045
使用对数似然法获得拉格朗日函数的梯度;其中,L(a|h(t))为转化为无约束问题的拉格朗日对偶函数:
Figure FDA0003239480780000046
where.L(a|h(t))=La(a|h(t))+∑xλx·Cx(a|h(t)) (22)
通过蒙特卡罗法对输入采样K个,分为h1(t),h2(t),…,hK(t),同时通过引入Baseline辅助网络bθ,减小了梯度的方差且没有引入偏差,加快了收敛速度,从而获得更加优质稳定的输出策略,因此将
Figure FDA0003239480780000047
作近似处理为:
Figure FDA0003239480780000048
使用Baseline辅助网络,预测了当前调度策略的惩罚,并采用随机梯度下降法对预测值bθ(hj(t))与环境实际惩罚值L(a|hj(t))的均方误差进行训练。
Figure FDA0003239480780000049
CN202111012837.4A 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法 Active CN113778648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012837.4A CN113778648B (zh) 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012837.4A CN113778648B (zh) 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法

Publications (2)

Publication Number Publication Date
CN113778648A true CN113778648A (zh) 2021-12-10
CN113778648B CN113778648B (zh) 2023-07-11

Family

ID=78840471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012837.4A Active CN113778648B (zh) 2021-08-31 2021-08-31 分层边缘计算环境中基于深度强化学习的任务调度方法

Country Status (1)

Country Link
CN (1) CN113778648B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118300A (zh) * 2022-01-21 2022-03-01 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
CN114827142A (zh) * 2022-04-11 2022-07-29 浙江大学 一种确保容器化边缘服务请求实时性的调度方法
CN114942799A (zh) * 2022-06-21 2022-08-26 福州大学 云边环境下基于强化学习的工作流调度方法
CN115114030A (zh) * 2022-07-20 2022-09-27 杭州电子科技大学 一种基于强化学习的在线多工作流调度方法
CN115174681A (zh) * 2022-06-14 2022-10-11 武汉大学 一种边缘计算服务请求调度方法、设备及存储介质
CN115686846A (zh) * 2022-10-31 2023-02-03 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN115809686A (zh) * 2023-02-03 2023-03-17 中国科学技术大学 提升循环图结构数据处理系统处理效率方法、设备及介质
CN116009990A (zh) * 2023-02-01 2023-04-25 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN116055378A (zh) * 2023-01-10 2023-05-02 中国联合网络通信集团有限公司 流量调度策略生成模型的训练方法及装置
CN116820730A (zh) * 2023-08-28 2023-09-29 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质
CN117195728A (zh) * 2023-09-12 2023-12-08 重庆理工大学 一种基于图到序列强化学习的复杂移动任务部署方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
US20200257968A1 (en) * 2019-02-08 2020-08-13 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257968A1 (en) * 2019-02-08 2020-08-13 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118300A (zh) * 2022-01-21 2022-03-01 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
CN114827142A (zh) * 2022-04-11 2022-07-29 浙江大学 一种确保容器化边缘服务请求实时性的调度方法
CN115174681A (zh) * 2022-06-14 2022-10-11 武汉大学 一种边缘计算服务请求调度方法、设备及存储介质
CN115174681B (zh) * 2022-06-14 2023-12-15 武汉大学 一种边缘计算服务请求调度方法、设备及存储介质
CN114942799A (zh) * 2022-06-21 2022-08-26 福州大学 云边环境下基于强化学习的工作流调度方法
CN114942799B (zh) * 2022-06-21 2023-08-04 福州大学 云边环境下基于强化学习的工作流调度方法
CN115114030B (zh) * 2022-07-20 2023-06-16 杭州电子科技大学 一种基于强化学习的在线多工作流调度方法
CN115114030A (zh) * 2022-07-20 2022-09-27 杭州电子科技大学 一种基于强化学习的在线多工作流调度方法
CN115686846A (zh) * 2022-10-31 2023-02-03 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN116055378A (zh) * 2023-01-10 2023-05-02 中国联合网络通信集团有限公司 流量调度策略生成模型的训练方法及装置
CN116055378B (zh) * 2023-01-10 2024-05-28 中国联合网络通信集团有限公司 流量调度策略生成模型的训练方法及装置
CN116009990A (zh) * 2023-02-01 2023-04-25 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN116009990B (zh) * 2023-02-01 2024-03-29 天津大学 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN115809686A (zh) * 2023-02-03 2023-03-17 中国科学技术大学 提升循环图结构数据处理系统处理效率方法、设备及介质
CN116820730A (zh) * 2023-08-28 2023-09-29 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质
CN116820730B (zh) * 2023-08-28 2024-01-09 苏州浪潮智能科技有限公司 多引擎计算系统的任务调度方法、装置及存储介质
CN117195728A (zh) * 2023-09-12 2023-12-08 重庆理工大学 一种基于图到序列强化学习的复杂移动任务部署方法

Also Published As

Publication number Publication date
CN113778648B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN113778648A (zh) 分层边缘计算环境中基于深度强化学习的任务调度方法
Song et al. Offloading dependent tasks in multi-access edge computing: A multi-objective reinforcement learning approach
Zhao et al. MESON: A mobility-aware dependent task offloading scheme for urban vehicular edge computing
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
Liao et al. Online computation offloading with double reinforcement learning algorithm in mobile edge computing
Fan et al. Dnn deployment, task offloading, and resource allocation for joint task inference in iiot
Qi et al. Vehicular edge computing via deep reinforcement learning
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Wu et al. Delay-aware edge-terminal collaboration in green Internet of Vehicles: A multi-agent soft actor-critic approach
Hao et al. Energy-aware offloading based on priority in mobile cloud computing
Yang et al. Cooperative task offloading for mobile edge computing based on multi-agent deep reinforcement learning
Lakew et al. Adaptive partial offloading and resource harmonization in wireless edge computing-assisted ioe networks
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
Lin et al. Computing assistance from the sky: Decentralized computation efficiency optimization for air-ground integrated MEC networks
Wang et al. On Jointly Optimizing Partial Offloading and SFC Mapping: A Cooperative Dual-Agent Deep Reinforcement Learning Approach
CN117195728A (zh) 一种基于图到序列强化学习的复杂移动任务部署方法
CN117236427A (zh) 一种针对任务行动的决策约束规则表征方法
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
Zhao et al. MEDIA: An Incremental DNN Based Computation Offloading for Collaborative Cloud-Edge Computing
Masdari et al. Energy-aware computation offloading in mobile edge computing using quantum-based arithmetic optimization algorithm
Meng et al. Edge computing task offloading method for load balancing and delay optimization
Aliyu et al. Dynamic Partial Computation Offloading for the Metaverse in In-Network Computing
Quan et al. Dynamic service selection based on user feedback in the IoT environment
Tong et al. D2OP: A fair dual-objective weighted scheduling scheme in Internet of Everything

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant