CN110662238A - 一种针对边缘网络下突发请求的强化学习调度方法及设备 - Google Patents

一种针对边缘网络下突发请求的强化学习调度方法及设备 Download PDF

Info

Publication number
CN110662238A
CN110662238A CN201911016176.5A CN201911016176A CN110662238A CN 110662238 A CN110662238 A CN 110662238A CN 201911016176 A CN201911016176 A CN 201911016176A CN 110662238 A CN110662238 A CN 110662238A
Authority
CN
China
Prior art keywords
request
model
reinforcement learning
network
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911016176.5A
Other languages
English (en)
Other versions
CN110662238B (zh
Inventor
陈宁
张胜
钱柱中
陆桑璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201911016176.5A priority Critical patent/CN110662238B/zh
Publication of CN110662238A publication Critical patent/CN110662238A/zh
Application granted granted Critical
Publication of CN110662238B publication Critical patent/CN110662238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出一种针对边缘网络下突发请求的强化学习调度方法及设备,方法包括:建立系统模型,包括通信模型、请求模型和服务器模型;根据系统模型为调度突发请求建立目标函数,将调度突发请求转化为优化问题;采用强化学习求解优化问题,定义状态空间、动作空间和奖赏函数,建立强化学习模型;采用A3C算法训练强化学习模型直至收敛;将训练好的模型用于边缘网络的请求调度。该方法以多服务器协作的方式处理突发请求,相邻的边缘服务器相互协作,从而最大化在deadline之前完成的请求数量。通过将调度问题迁移成强化学习的决策问题,针对每个请求,只需将当前的状态输入到强化学习的actor网络,即可从输出的概率分布图中选择动作,达到快速决策的效果。

Description

一种针对边缘网络下突发请求的强化学习调度方法及设备
技术领域
本发明涉及强化学习和边缘计算领域,具体是一种针对边缘网络下突发请求的强化学习调度方法及设备。
背景技术
5G的兴起极大地加强了人与机器之间的联系。同时,诸如交互式游戏、图像/视频处理、增强/虚拟现实和面部识别之类的计算密集型应用程序在移动设备上变得越来越流行,并且这些应用程序追求低延迟和低能耗。随着移动边缘计算(Mobile Edge Computing,MEC)范式的出现,数据和计算从集中式云计算基础架构推到了网络的逻辑边缘,从而可以使得移动设备快速使用边缘服务器上的资源来处理多样化的任务。在当前的MEC范式中,边缘云覆盖了较大的服务区域,用户可以在其中向该单个边缘云发送各种请求以进行处理。通常,单个边缘云能快速处理少量请求。然而,当计算密集型任务是突发到来时,单个边缘云处理遇到瓶颈。以多人虚拟现实(Virtual Reality,VR)游戏为例,如From Other Suns或Seeking Dawn,通常,VR具有严格的性能要求,体现在高于60的fps(即每秒帧数)和低于20ms的motion-to-photon延迟,计算密集型的渲染处理成为满足此类严格要求的关键障碍。而且,在VR交互过程中,许多玩家可能会同时发布渲染请求,这不可避免地导致计算密集型请求的突然到达。对于边缘云,它不仅需要为每个动作渲染前景和背景,而且还需要通过向每个用户发送实时图像来同步整个VR场景,这将导致不可预测的计算和通信成本。显然,单一资源受限的边缘云无法解决突发的请求。
边缘是一个动态变化和设备异构的聚合体,这主要体现在带宽的波动变化,以及移动设备的多样性。同时,用户在局域网中是移动的,并且需求是多样化的,因而很难有统一的规则来实现请求即来即服务。
发明内容
发明目的:针对现有技术的不足,本发明提出了一种针对边缘网络下突发请求的强化学习调度方法及设备,能够实现边缘网络中对突发请求的迅速调度。
技术方案:根据本发明的第一方面,提供一种针对边缘网络下突发请求的强化学习调度方法,包括如下步骤:
S1、建立系统模型,包括通信模型、请求模型和服务器模型;
S2、根据系统模型为调度突发请求建立目标函数,将调度突发请求转化为优化问题;
S3、采用强化学习求解优化问题,定义状态空间、动作空间和奖赏函数,建立强化学习模型;
S4、采用A3C算法训练强化学习模型直至收敛;
S5、将训练好的强化学习模型用于边缘网络的请求调度。
根据本发明的第二方面,提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如本发明第一方面所述的步骤。
有益效果:本发明的方法以一种多服务器协作的方式处理突发请求,在这种协作方式中,相邻的边缘服务器相互协作以处理请求,从而最大化在deadline之前完成的请求数量。通过将调度问题迁移成强化学习的决策问题,针对每个请求,只需将当前的状态输入到强化学习的actor网络,即可从输出的概率分布图中选择动作,达到快速决策的效果。
附图说明
图1是本发明的调度方法流程图;
图2是边缘网络下两阶段调度突发请求示意图;
图3是本发明的调度器(Deepload)基本运作机制示意图。
具体实施方式
下面结合附图对本发明的技术方案作更进一步的说明。
新兴的移动边缘计算大大减轻了用户不断提高的服务质量(QoS)与云计算的大量延迟之间的矛盾。此外,智能设备的普及使用户可以在任何地方发送计算密集型请求。边缘服务器能够快速处理少量请求,但是当遇到突发的计算密集型请求时,单个资源受限的边缘服务器可能就陷入了瓶颈。因此,本发明提出以一种多服务器协作的方式处理突发请求,在这种协作方式中,相邻的边缘服务器通过相互协作来处理突发请求,从而最大化在deadline之前完成的请求数量。所述方法通过建立通信模型、请求模型和服务器模型,并将其建模成长期优化问题,以最大程度地提高按时完成的请求数量,然后将多维背包问题规约到调度突发请求问题,证明其为NPC问题,考虑到该问题过高的计算复杂性,本发明提出一种基于深度强化学习的调度器DeepLoad,自动学习AP选择和工作量重分配的策略。
参照图1,本发明提出的针对边缘网络环境下突发请求的强化学习调度方法,包括以下步骤:
步骤S1,建立系统模型,包括通信模型、请求模型和服务器模型。
S1-1,建立通信模型:主要是指用户和基站之间的链路,分为上行链路和下行链路,在当前的MEC体系结构中,网络部署基于正交频分多址访问(OFDMA)。
针对通信模型,为了反映网络带宽的动态变化特性,将网络链接分为上行链路和下行链路。假设带宽H被分成|K|个不同频率的子波,移动设备端和服务器端的传输能力分别为pu和ps,上行和下行链路有相同的噪声N0,上行和下行链路的信道衰弱系数分别为hul和hdl,上行和下行链路的目标误码率分别为gul和gdl,用户和基站之间的距离为d,因为用户是通过移动设备发送请求,所以实际上用户和移动设备在这里是等价的。由于服务器一般是部署在基站,服务器和基站可以绑定在一起,所以这里在衡量距离时实际上它俩也是等价的,但为了清楚起见以及功能的针对性,以便于理解方案,表述时进行了区分。当前可用的的频率子波数量为k,路径损失系数为βl,通过加性高斯白噪声(AWGN)通道可得上行和下行链路的最大容量rul和rdl(bps):
Figure BDA0002245775590000031
Γ表示伽马函数。
S1-2,建立请求模型:可以将移动用户发布的请求视为特定作业,这些作业通过边缘服务器中安装的相应服务进行处理。一个请求可以细化地分为多个相互独立的任务,每个任务可以在为该类型的请求配置了相应服务的边缘服务器中独立执行。
针对请求模型,工作量大小通过输入规模来衡量。请求Ri的输入大小为Bi,不失一般性,用ω代表每字节需要的CPU周期数,那么总工作量Wi=ωBi,ω的取值和请求的时间和空间复杂度有关。每个请求都可以切分成一个个独立的任务,并且每个任务都可以独立的运行在配置相关服务(service)的服务器上。
S1-3,建立服务器模型:边缘服务器部署在AP上,通过VM或Docker管理资源和虚拟化资源。每个边缘服务器都具有有限的存储和计算功能,本发明侧重于服务器的计算能力上。
针对服务器模型,一个边缘服务器是资源受限的,因此只可以配置有限数量的服务,使用指示变量来指示APj是否有服务mi,使用
Figure BDA0002245775590000042
表示在APj为服务mi分配的核数,那么有:
Figure BDA0002245775590000043
M代表所有的服务集合,每台服务器上配置的服务是不同的,Cj表示部署在APj上的服务器的总核数。当且仅当当前服务器配置了相关服务时请求可以被处理。
步骤S2,根据系统模型为调度突发请求建立目标函数,将调度突发请求转化为优化问题。
对于任何请求来说,从产生到被执行最多经历两个阶段。第一个阶段中,移动设备选择一个最优的接入AP,并将请求发送到该AP上的服务器;第二个阶段中,若请求的预测完成时间超过请求允许被完成的最晚时间(deadline),则需要将一定比例的工作量卸载到相邻服务器。若请求在第一阶段就已经按时完成,则不需要执行第二阶段。图2是两阶段调度突发请求示意图,有两类箭头,序号为1表示第一阶段,序号为2表示第二阶段,若第一阶段上的服务器已经满足了请求的deadline,则不需要第二阶段。
为了更好的理解这两个阶段,考虑其离线场景。离线场景是指针对一个特定时隙,已知其网络拥塞状况和服务器的负载,以此来建模其目标函数,考虑传输延迟。这里时隙指的是一个特定的时间间隔,如五分钟。若请求只在本地服务器上处理,则只需要考虑上行和下行链路的传输时延,服务器处理时延和等待时延。首先表示出用户ui可以连接的AP集合
Figure BDA00022457755900000411
其中φ(ui)表示用户ui可以直接连接的AP集合,
Figure BDA0002245775590000046
指示APj是否为请求
Figure BDA0002245775590000047
配置了相关服务。
用指示变量
Figure BDA0002245775590000048
来指示是否选择了APj,那么:
Figure BDA00022457755900000410
Figure BDA0002245775590000052
Figure BDA0002245775590000053
其中
Figure BDA0002245775590000054
表示用户ui在t时刻发布的请求
Figure BDA0002245775590000055
的输入大小,Wi t表示请求
Figure BDA0002245775590000056
的工作量(cycles),
Figure BDA0002245775590000057
表示请求的上行传输时间,
Figure BDA0002245775590000059
为上行数据规模,
Figure BDA00022457755900000510
表示请求
Figure BDA00022457755900000511
的下行传输时间,
Figure BDA00022457755900000512
为下行数据规模,
Figure BDA00022457755900000513
表示用户ui到APj的上行链路容量,
Figure BDA00022457755900000514
表示APj到用户ui的下行链路容量,表示请求
Figure BDA00022457755900000516
在APj的计算处理时间,
Figure BDA00022457755900000517
表示APj的服务器为请求
Figure BDA00022457755900000518
分配的核数,f表示每个核的处理能力,
Figure BDA00022457755900000519
表示请求
Figure BDA00022457755900000520
在APj的计算时间,
Figure BDA00022457755900000521
表示APj的服务器上与同类的请求的等待队列,Wq表示等待队列中q的工作量。
Figure BDA00022457755900000523
Figure BDA00022457755900000524
表示请求
Figure BDA00022457755900000525
的deadline,则需要将当前工作量分配到相邻服务器,表示出与APi相邻且配置了相同service的AP集合:
用l(j,k)表示APj和APk之间的传播时延,
Figure BDA00022457755900000527
Figure BDA00022457755900000528
表示分配到接入APj和邻居APk的比例,
Figure BDA00022457755900000529
表示将任务量从APj重分配到APk的时延,那么:
Figure BDA00022457755900000530
Figure BDA00022457755900000532
Figure BDA00022457755900000533
其中
Figure BDA00022457755900000534
均为APj和APk之间的传播时延,
Figure BDA00022457755900000535
表示请求在APk的计算处理时间,
Figure BDA00022457755900000537
表示请求在APk的等待时间。
针对在时间T内到达的所有请求,我们希望最大化按时完成的请求数量,同时满足服务器和网络的资源限制,那么可得如下优化问题Ω:
Figure BDA00022457755900000539
s.t.
Figure BDA0002245775590000063
Figure BDA0002245775590000064
U表示所有用户集合,Θ表示所有AP集合。
步骤S3,采用强化学习求解Ω问题,定义其状态空间、动作空间和奖赏函数。
通过将每一个请求看成一个item,并且将每个可能的调度策略(接入AP,卸载到相邻服务器的百分比)获取的收益作为value,则可将多维的背包问题规约到Ω问题,显然Ω问题是NPC问题,复杂性过高。多维背包背包中,需要考虑的限制因素不止是重量了,可能还有其他(如流行度、用户偏好度)。上述所得Ω问题中的状态也是多维的,而且动作空间是离散的,并且每一种动作也对应一个reward,即价值。多维背包问题是NPC问题,复杂度很高,只可能存在伪多项式算法。我们将多维背包问题规约到了Ω问题,说明Ω的复杂度比多维背包问题还更高,显然Ω是NPC问题。考虑到深度强化学习(Deep ReinforcementLearning,DRL)在动态环境中出色的决策能力,本发明采用DRL解决Ω问题,所建立的调度模型本发明称为DeepLoad。首先需要定义出强化学习的三要素,即状态空间、动作空间和奖赏函数。
将状态表示成一个多维向量st={bu,bd,bp,w,c,req},其中包括从环境中获取的网络状态、服务器状态以及请求的特征,
Figure BDA0002245775590000065
分别表示从ui到各AP的上行和下行链路容量,bp=<l(i,j)|i≠j>表示基站(即AP)之间的传播距离,w=<w1,w2,…,wN>表示每个服务器上待处理的任务量,c=<c1,c2,…,cN>表示每个服务器为该service分配的核数,req=<W,B,ddl>表示请求的特征。
将动作也表示成一个多维向量
Figure BDA0002245775590000067
其中包括选择的接入AP,选择的相邻服务器,分配到每个服务器的任务量比例。APk表示选择接入的AP,表示选择的APk的邻居,Pk是指分配到部署到接入AP的服务器上的比例,
Figure BDA0002245775590000069
表示分别分配到相邻服务器
Figure BDA00022457755900000610
的工作量比例。策略π(at|st;θ)→[0,1]表示动作的概率分布图。一旦强化学习的智能体RL-agent对当前st做出了动作at,将会得到一个立即反馈rt。考虑到隐私泄露的风险,通常用户希望仅在第一阶段就完成他们的请求。但是,当第一阶段的估计延迟超过deadline时,则需要执行工作量重分配阶段。为了反映隐私泄露的风险和协作成本,将奖励定义为:
Figure BDA0002245775590000071
步骤S4,采用A3C算法训练强化学习模型直至收敛。
深度强化学习最关键的是定义动作空间、状态空间和奖赏函数,其次是采用何种方式训练其模型。建立调度突发请求的数学模型并将其迁移到深度强化模型后,本发明采用A3C来训练DeepLoad中的actor-critic网络,针对每一个状态,只需要根据actor网络中的动作概率分布图中选择动作,即可实现快速决策。actor-critic网络是A3C中要训练的网络,RL智能体每次都根据actor的动作概率分布图选择动作,以此来进行与环境进行交互,而critic在每次或每几次执行动作之后,都会评判actor的参数优劣,并通过梯度下降的方式不断更新actor网络以及自身网络。图3中,RL-agent通过将对环境的观察表示成一个状态向量,并将其输入到策略网络中,得到动作概率分布图,从中选择一个动作作用到环境中,得到一个立即奖励。
具体地,使用A3C来训练DeepLoad,其中包括critic网络(值函数V(st;θv))和actor网络(策略π(at|st;θ)),这个两个网络除了输出层不一样,其他的层共享参数。RL-agent每次都是根据策略网络的概率分布选择动作。同时开启了n个线程(即RL-agent),同时为避免相关性而采用了不同的环境设置。每个线程独自训练并异步更新全局策略,但在每个训练的训练周期(episode)结束时,会再次同步全局参数。DeepLoad使用梯度下降再更新θv和θ,θv和θ分别是actor和critic这两个网络的参数,关键思想是朝向最大总奖励的参数梯度方向。在每个episode中,基于累积的折扣奖励,可以进一步的更新参数。
步骤S5,利用训练好的模型实现对边缘网络后续请求的调度。
训练DeepLoad直至收敛后,每个用户只需将actor网络模型下载到本地,针对每个请求,只需将当前的状态输入到actor网络,根据输出的动作概率分布图选择动作即可。由于actor的参数规模较小,所以下载时间很短,几乎不占用网络带宽,由于边缘服务器距离用户较近,所以下载代价几乎忽略不计。
基于上述详细描述的调度方法步骤,在一个实施例中根据上海出租车的轨迹数据集,设计了一个模拟器来获取大量样本,并利用两个GeForce GTX TITAN Xp GPU可通过许多情节训练Actor-Critic网络。最后,进行了几个控制实验,结果证明了DeepLoad的优越性。
具体地,首先设计一个LAN模拟器来逼近真实的请求突发场景,并采用了上海出租车数据集的一些关键特征,如出租车每个时间点所在的经纬度以及汽车站每刻的车流量,模拟出了请求的到来模型和基站的分布模型。然后根据本发明所提的方法处理了2017年2月28日一天的数据量,按5分钟为一个时隙,共获取288个时隙,这个时隙可以认为是一个时间间隔(五分钟),T是24小时,所以一天就是288个时隙,将其作为一个训练的episode。
初始化每个请求以及网络的特征,如请求输入量,网络的上行和下行链路容量服从参数不一致的均匀分布,B∈[3000,4000],W∈[400,600],rul∈[125,175],rdl∈[225,275],wq∈[125,175],l(i,j)∈[25,35]模拟了网络的动态变化性,这主要体现在突发请求的到来和处理对网络带宽和服务器的影响。采用A3C算法来训练DeepLoad,并利用了两个GTXTITAN xp GPU来训练其actor-critic网络,这两个网络的隐藏层都是400×400×400。为其设置了三个基准值,分别为SSP(单服务器处理)、LOCP(链路最优处理)以及QOCP(排队最优处理),结果发现,随着训练次数的增加,DeepLoad性能也逐渐提高,可以使大部分请求都能按时完成。具体来说,当训练的周期达到3000时,DeepLoad已经能够使90%以上的请求按时完成,当训练周期为10000时,按时完成的比例达到了96%以上,然而LOSP和QOCP均只有50%,SSP更是低于40%。随后我们也分析了学习率和A3C中线程数量对DeepLoad性能的影响,结果发现,线程数量越多,DeepLoad性能越好,这也和理论相符,线程数量代表了对环境的搜索力度;学习率对DeepLoad的影响并不是线性的,学习率越高,性能波动越大,需要在多次调试中选择。
基于与方法实施例相同的技术构思,根据本发明的另一实施例,提供一种计算机设备,所述设备包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现方法实施例中的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种针对边缘网络下突发请求的强化学习调度方法,其特征在于,包括以下步骤:
S1、建立系统模型,包括通信模型、请求模型和服务器模型;
S2、根据系统模型为调度突发请求建立目标函数,将调度突发请求转化为优化问题;
S3、采用强化学习求解优化问题,定义状态空间、动作空间和奖赏函数,建立强化学习模型;
S4、采用A3C算法训练强化学习模型直至收敛;
S5、将训练好的强化学习模型用于边缘网络的请求调度。
2.根据权利要求1所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述步骤S1包括:
S1-1、建立通信模型:将网络链接分为上行链路和下行链路,假设带宽H被分成|K|个不同频率的子波,移动设备端和服务器端的传输能力分别为pu和ps,上行和下行链路有相同的噪声N0,上行和下行链路的信道衰弱系数分别为hul和hdl,上行和下行链路的目标误码率分别为gul和gdl,用户和基站之间的距离为d,当前可用的的频率子波数量为k,路径损失系数为βl,可得上行和下行链路的最大容量rul和rdl
Figure FDA0002245775580000011
S1-2、建立请求模型:利用输入规模来衡量工作量,设请求Ri的输入大小为Bi,ω代表每字节需要的CPU周期数,则总工作量Wi=ωBi
S1-3、建立服务器模型:根据边缘服务器资源受限,只能配置有限个服务的现实,使用指示变量
Figure FDA0002245775580000013
来指示APj是否有服务mi,使用
Figure FDA0002245775580000014
表示在APj为服务mi分配的核数,那么有:
Figure FDA0002245775580000015
M代表所有的服务集合,Cj表示部署在APj上的服务器的总核数。
3.根据权利要求2所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述步骤S2根据请求的两阶段处理特征,建立目标函数,包括:
S2-1、第一阶段,移动设备选择一个最优的接入AP,并将请求发送到该AP上的服务器,以
Figure FDA0002245775580000016
表示用户ui可以连接的AP集合:
其中φ(ui)表示用户ui可以直接连接的AP集合,
Figure FDA0002245775580000018
指示APj是否为请求配置了相关服务;
用指示变量
Figure FDA0002245775580000021
来指示是否选择了APj,那么:
Figure FDA0002245775580000023
Figure FDA0002245775580000024
其中
Figure FDA0002245775580000027
表示用户uj在t时刻发布的请求
Figure FDA0002245775580000028
的输入大小,Wi t表示请求
Figure FDA00022457755800000240
的工作量,
Figure FDA00022457755800000242
表示请求
Figure FDA00022457755800000211
的上行传输时间,表示用户ui到APj的上行链路容量,
Figure FDA00022457755800000243
为上行数据规模,
Figure FDA00022457755800000214
表示请求
Figure FDA00022457755800000215
的下行传输时间,
Figure FDA00022457755800000216
为下行数据规模,
Figure FDA00022457755800000217
表示APj到用户ui的下行链路容量,
Figure FDA00022457755800000218
表示请求
Figure FDA00022457755800000241
在APj的计算处理时间,
Figure FDA00022457755800000219
表示APj的服务器为请求
Figure FDA00022457755800000220
分配的核数,f表示每个核的处理能力,
Figure FDA00022457755800000221
表示请求在APj的计算时间,
Figure FDA00022457755800000223
表示APj的服务器上与
Figure FDA00022457755800000224
同类的请求的等待队列,Wq表示等待队列中q的工作量;
S2-2、若请求的预测完成时间超过请求允许被完成的最晚时间,则进入第二阶段,将一定比例的工作量卸载到相邻服务器;
Figure FDA00022457755800000225
表示与APi相邻且配置了相同服务的AP集合:
Figure FDA00022457755800000226
用l(j,k)表示APj和APk之间的传播时延,
Figure FDA00022457755800000227
Figure FDA00022457755800000228
表示分配到接入APj和邻居APk的比例,
Figure FDA00022457755800000229
表示将任务量从APj重分配到APk的时延,那么:
Figure FDA00022457755800000230
Figure FDA00022457755800000231
Figure FDA00022457755800000232
Figure FDA00022457755800000233
其中
Figure FDA00022457755800000234
Figure FDA00022457755800000235
均为APi和APj之间的传播时延,
Figure FDA00022457755800000236
表示请求
Figure FDA00022457755800000237
在APk的计算处理时间,
Figure FDA00022457755800000238
表示请求
Figure FDA00022457755800000239
在APk的等待时间;
S2-3、针对在时间T内到达的所有请求,要最大化按时完成的请求数量,同时满足服务器和网络的资源限制,得到如下优化问题Ω:
s.t.
Figure FDA0002245775580000032
Figure FDA0002245775580000033
Figure FDA0002245775580000034
Figure FDA0002245775580000035
其中
Figure FDA0002245775580000036
表示请求
Figure FDA0002245775580000037
允许被完成的最晚时间,U表示用户集合。
4.根据权利要求3所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述步骤S3将AP的选择、相邻服务器的选择、以及工作量的分配方案耦合成动作向量at,将网络状态、请求特征、服务器状态组合成状态向量st,通过时延和允许被完成的最晚时间定义其奖赏函数reward。
5.根据权利要求4所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述状态向量为st={bu,bd,bp,w,c,req},
Figure FDA0002245775580000038
Figure FDA0002245775580000039
分别表示从用户ui到各AP的上行和下行链路容量,bp=<l(i,j)|i≠j>表示AP之间的传播距离,w=<w1,w2,...,WN>表示每个服务器上待处理的任务量,c=<c1,c2,...,cN>表示每个服务器为该服务分配的核数,req=<W,B,ddl>表示请求的特征,W表示工作量,B表示输入大小,ddl表示允许被完成的最晚时间。
6.根据权利要求4所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述动作向量为
Figure FDA00022457755800000310
APk表示接入的AP,表示选择的APk的邻居,Pk表示分配到部署到接入AP的服务器上的工作量比例,
Figure FDA00022457755800000312
表示分别分配到相邻服务器的工作量比例。
7.根据权利要求4所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述奖励定义为:
8.根据权利要求4所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述步骤S4中,深度强化模型的critic网络使用值函数V(st;θv),actor网络使用策略π(at|st;θ),强化学习的智能体每次都是根据策略网络的概率分布图来选择动作,然后根据reward使用梯度下降再更新θv和θ,θv和θ分别表示critic网络和actor网络的参数。
9.根据权利要求1所述的针对边缘网络下突发请求的强化学习调度方法,其特征在于,所述步骤S5包括:将actor网络模型下载到本地,针对每个请求,将当前的状态输入到actor网络,根据输出的动作概率分布图选择动作。
10.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-9中的任一项所述的步骤。
CN201911016176.5A 2019-10-24 2019-10-24 一种针对边缘网络下突发请求的强化学习调度方法及设备 Active CN110662238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911016176.5A CN110662238B (zh) 2019-10-24 2019-10-24 一种针对边缘网络下突发请求的强化学习调度方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911016176.5A CN110662238B (zh) 2019-10-24 2019-10-24 一种针对边缘网络下突发请求的强化学习调度方法及设备

Publications (2)

Publication Number Publication Date
CN110662238A true CN110662238A (zh) 2020-01-07
CN110662238B CN110662238B (zh) 2020-08-25

Family

ID=69041620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911016176.5A Active CN110662238B (zh) 2019-10-24 2019-10-24 一种针对边缘网络下突发请求的强化学习调度方法及设备

Country Status (1)

Country Link
CN (1) CN110662238B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340222A (zh) * 2020-02-25 2020-06-26 北京百度网讯科技有限公司 神经网络模型搜索方法、装置以及电子设备
CN111445032A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 利用业务决策模型进行决策处理的方法及装置
CN111491332A (zh) * 2020-04-20 2020-08-04 中国石油大学(北京) 动态服务迁移方法及装置
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN111669291A (zh) * 2020-06-03 2020-09-15 北京理工大学 基于深度强化学习的虚拟化网络服务功能链部署方法
CN111736461A (zh) * 2020-06-30 2020-10-02 西安电子科技大学 基于q学习的无人机任务协同分配方法
CN111988168A (zh) * 2020-07-24 2020-11-24 北京邮电大学 边缘服务部署方法、装置及电子设备
CN112381212A (zh) * 2020-11-27 2021-02-19 重庆邮电大学 一种基于深度强化学习的移动边缘计算的服务组合方法
CN113015216A (zh) * 2021-02-05 2021-06-22 浙江大学 一种面向边缘服务网络的突发任务卸载与调度方法
WO2021164507A1 (zh) * 2020-02-19 2021-08-26 华为技术有限公司 调度方法、调度算法的训练方法及相关系统、存储介质
CN113490157A (zh) * 2021-07-06 2021-10-08 香港中文大学(深圳) 一种基于深度强化学习的组播调度方法
WO2022057811A1 (zh) * 2020-09-17 2022-03-24 浙江大学 一种面向边缘服务器的网络突发负载疏散方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235423A (zh) * 2017-12-29 2018-06-29 中山大学 基于q学习的无线通信防窃听干扰功率控制算法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235423A (zh) * 2017-12-29 2018-06-29 中山大学 基于q学习的无线通信防窃听干扰功率控制算法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王文文: "《浙江大学硕士学位论文 基于深度强化学习的边缘服务动态部署策略研究》", 31 August 2019 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164507A1 (zh) * 2020-02-19 2021-08-26 华为技术有限公司 调度方法、调度算法的训练方法及相关系统、存储介质
CN111340222A (zh) * 2020-02-25 2020-06-26 北京百度网讯科技有限公司 神经网络模型搜索方法、装置以及电子设备
CN111555907B (zh) * 2020-04-19 2021-04-23 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN111491332A (zh) * 2020-04-20 2020-08-04 中国石油大学(北京) 动态服务迁移方法及装置
CN111669291A (zh) * 2020-06-03 2020-09-15 北京理工大学 基于深度强化学习的虚拟化网络服务功能链部署方法
CN111669291B (zh) * 2020-06-03 2021-06-01 北京理工大学 基于深度强化学习的虚拟化网络服务功能链部署方法
CN111445032A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 利用业务决策模型进行决策处理的方法及装置
CN111736461A (zh) * 2020-06-30 2020-10-02 西安电子科技大学 基于q学习的无人机任务协同分配方法
CN111736461B (zh) * 2020-06-30 2021-05-04 西安电子科技大学 基于q学习的无人机任务协同分配方法
CN111988168B (zh) * 2020-07-24 2021-11-26 北京邮电大学 边缘服务部署方法、装置及电子设备
CN111988168A (zh) * 2020-07-24 2020-11-24 北京邮电大学 边缘服务部署方法、装置及电子设备
US11784931B2 (en) 2020-09-17 2023-10-10 Zhejiang University Network burst load evacuation method for edge servers
WO2022057811A1 (zh) * 2020-09-17 2022-03-24 浙江大学 一种面向边缘服务器的网络突发负载疏散方法
CN112381212A (zh) * 2020-11-27 2021-02-19 重庆邮电大学 一种基于深度强化学习的移动边缘计算的服务组合方法
CN112381212B (zh) * 2020-11-27 2023-02-17 重庆邮电大学 一种基于深度强化学习的移动边缘计算的服务组合方法
CN113015216B (zh) * 2021-02-05 2022-05-10 浙江大学 一种面向边缘服务网络的突发任务卸载与调度方法
CN113015216A (zh) * 2021-02-05 2021-06-22 浙江大学 一种面向边缘服务网络的突发任务卸载与调度方法
CN113490157A (zh) * 2021-07-06 2021-10-08 香港中文大学(深圳) 一种基于深度强化学习的组播调度方法

Also Published As

Publication number Publication date
CN110662238B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN110662238B (zh) 一种针对边缘网络下突发请求的强化学习调度方法及设备
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN109857546B (zh) 基于Lyapunov优化的多服务器移动边缘计算卸载方法及装置
Shu et al. Multi-user offloading for edge computing networks: A dependency-aware and latency-optimal approach
Zou et al. A3C-DO: A regional resource scheduling framework based on deep reinforcement learning in edge scenario
US9386086B2 (en) Dynamic scaling for multi-tiered distributed systems using payoff optimization of application classes
CN108509276A (zh) 一种边缘计算环境中的视频任务动态迁移方法
CN105703927B (zh) 一种资源分配方法、网络设备和网络系统
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN113364630A (zh) 一种服务质量QoS差异化优化方法、装置
Huang et al. Toward decentralized and collaborative deep learning inference for intelligent IoT devices
CN111988787B (zh) 一种任务的网络接入和服务放置位置选择方法及系统
CN108600299A (zh) 分布式多用户间计算任务卸载方法及系统
Zhang et al. Effect: Energy-efficient fog computing framework for real-time video processing
Ma et al. A cyclic game for service-oriented resource allocation in edge computing
CN116339849A (zh) 移动边缘计算环境下多用户多任务计算卸载方法及系统
Liu et al. Mobility-aware and code-oriented partitioning computation offloading in multi-access edge computing
Cao et al. A deep reinforcement learning approach to multi-component job scheduling in edge computing
CN113741999B (zh) 一种基于移动边缘计算的面向依赖型任务卸载方法及装置
CN113190342A (zh) 用于云-边协同网络的多应用细粒度卸载的方法与系统架构
Henna et al. Distributed and collaborative high-speed inference deep learning for mobile edge with topological dependencies
Ma et al. A cyclic game for joint cooperation and competition of edge resource allocation
Zhang et al. Effect-dnn: Energy-efficient edge framework for real-time dnn inference
Rezazadeh et al. A collaborative statistical actor-critic learning approach for 6G network slicing control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant