CN113485826A - 一种边缘服务器负载均衡方法、系统 - Google Patents

一种边缘服务器负载均衡方法、系统 Download PDF

Info

Publication number
CN113485826A
CN113485826A CN202110713628.6A CN202110713628A CN113485826A CN 113485826 A CN113485826 A CN 113485826A CN 202110713628 A CN202110713628 A CN 202110713628A CN 113485826 A CN113485826 A CN 113485826A
Authority
CN
China
Prior art keywords
network
edge server
load
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110713628.6A
Other languages
English (en)
Other versions
CN113485826B (zh
Inventor
何辞
张亚生
陈晨
袁颖
丛犁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
CETC 54 Research Institute
Original Assignee
Xidian University
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, CETC 54 Research Institute filed Critical Xidian University
Priority to CN202110713628.6A priority Critical patent/CN113485826B/zh
Publication of CN113485826A publication Critical patent/CN113485826A/zh
Application granted granted Critical
Publication of CN113485826B publication Critical patent/CN113485826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明属于边缘计算技术领域,公开了一种边缘服务器负载均衡方法、系统,采用深度强化学习的DQN算法,神经网络包括Q网络和目标Q网络,所述边缘服务器负载均衡方法包括:根据负载状态建立最小均方差值的负载优化模型;构建多隐层Q网络和目标Q模型;序列化决策过程的转化;初始化DQN相关参数,开始迭代,并判断本次迭代是否终止;进行训练;更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代。本发明通过了解边缘服务器负载的影响因素,在总控制器中通过北向接口接入用于调节边缘服务器负载的应用服务,实现边缘服务器的任务转移,能有效解决边缘服务器的负载失衡以及边缘服务器计算资源浪费的问题。

Description

一种边缘服务器负载均衡方法、系统
技术领域
本发明属于边缘计算技术领域,尤其涉及一种边缘服务器负载均衡方法、系统。
背景技术
目前,边缘计算作为一种新型计算模型,将计算存储和业务服务能力迁移到网络边缘,为终端用户提供低时延和高质量的服务。然而用户的不均匀分布造成边缘服务器的负载不均,密度大的情况下会造成边缘服务器的任务的滞留堆积,用户任务的完成时延增加;密度小的情况下造成边缘服务器存在空闲的情况,使得边缘服务器的计算资源浪费。通过对任务的转移进而实现边缘服务器的负载均衡能有提高计算资源的利用率,同时能够有效减少任务完成的平均时延。
近年来机器学习迅猛发展,其强大的学习能力和分析能力能有效适应边缘复杂多变的网络复杂。强化学习作为机器学习的子领域,旨在通过智能体与环境的交互经验和反馈来增强智能体的决策能力,智能体根据环境的变化实时制定合适的策略,最大化奖赏值来求解问题。
现在已有对边缘服务器的负载均衡已有较多的控制策略的研究,根据调度策略的不同主要包括静态负载均衡算法和动态负载均衡算法两类。静态负载均衡算法根据确定的策略来调度任务,不考虑服务器的负载状态,如轮询算法,随机算法等;动态负载均衡算法是根据服务器当前的负载状态为基础制定合理的负载均衡策略,比如最小连接法等。然而考虑大规模网络场景中边缘服务器的负载均衡时,很难求得最优的负载均衡策略而且模型计算收敛慢。将强化学习应用于该领域,借助神经网络来逼近价值函数来有效解决求解困难的问题。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有边缘服务器负载均衡控制方法中,在考虑大规模网络场景中边缘服务器的负载均衡时,很难求得最优的负载均衡策略而且模型计算收敛慢。
(2)在没有数据集的情况下,如何合理地使用人工智能方法,实现边缘服务器负载的均衡和计算资源的均衡有效利用。
(3)如何解决考虑多边缘服务器的负载均衡策略时解维度过高导致的模型求解困难等问题。
解决以上问题及缺陷的难度为:该发明中是基于深度强化学习实现的,需要实现负载均衡模型对强化学习中状态、动作和奖赏的映射;同时还需要建立模型的状态转移过程,根据反馈,即奖赏来实现问题的正确求解。
解决以上问题及缺陷的意义为:可以优先改善边缘服务器的负载状态,使得边缘服务器的负载均衡;可以充分利用边缘服务器的计算资源,通过深度强化学习总控制器与边缘服务器实时交互实现边缘服务器任务的合理调度。
发明内容
针对现有技术存在的问题,本发明提供了一种边缘服务器负载均衡方法、系统,尤其涉及一种基于深度强化学习算法的边缘服务器负载均衡方法、系统,旨在解决现有技术中模型求解过程中高维度解导致的求解困难以及收敛性差的问题。
本发明是这样实现的,一种边缘服务器负载均衡方法,所述边缘服务器负载均衡方法采用深度强化学习的DQN算法,神经网络包括Q网络和目标Q网络,所述边缘服务器负载均衡方法包括以下步骤:
步骤一,总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型;
步骤二,构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st +1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D;
步骤三,序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程;
步骤四,初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ等DQN相关参数,开始迭代;
步骤五,智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet
步骤六,存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练;
步骤七,根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则返回步骤五继续进行迭代。
通过上述步骤,将负载均衡模型映射为深度强化学习的期望奖赏最大的求解过程,有效降低了该问题的求解复杂度。同时建立深度强化学习中的神经网络模型,训练神经网络模型使其收敛。之后智能体根据动作映射得到负载均衡方案,实现边缘服务器任务的调度,合理的将计算任务分配给不同计算能力的边缘服务器。接下来针对上述步骤进行进一步说明。
进一步,步骤一中,所述总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型,包括:
当边缘服务器的负载超过阈值时,向总控制器发起负载均衡请求,每个边缘服务器m将超过负载阈值部分的任务Tm转移到任意一个总控制器管理的边缘服务器之上。
负载均衡策略为每个边缘服务器的任务转移目标,用M*M的矩阵G表示,gmi=1表示边缘服务器m将超载任务Tm转移到i上,反之gmi=0没有任务的转移,满足约束
Figure BDA0003133914450000041
用边缘服务器的任务的计算时延,即边缘服务器m的任务大小Dm与计算能力Cm的比值来描述,则负载表示为Lm=Dm/Cm;执行全局负载均衡策略时,负载状态改变为:
Figure BDA0003133914450000042
对于全局边缘服务器的负载均衡优化目标为:
Figure BDA0003133914450000043
其中,
Figure BDA0003133914450000044
为M个边缘服务器的平均负载值。
进一步,步骤二中,所述构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D,包括:
总控制器作为智能体,与其管理范围内的边缘服务器进行交互获得全局负载状态,并对边缘服务器依次制定负载均衡策略进行任务的转移获得新的负载状态。
构建Q网络和目标Q网络,以每个边缘服务器的负载状态作为状态特征向量st和下个状态st+1作为Q网络和目标Q网络的输入,输出为每种负载决策对应的动作价值Qt和Qt+1,并通过经验回放技术作为数据量进行网络训练。
搭建网络架构,确定神经网络每层的神经元数目,激励函数RELU,正态初始化网络的权值θ和θ',初始化偏置b接近为0的正数,确定用于经验回放技术的记忆池D的容量大小,并清空D进行存储训练经验数据。
总控制器依次对每个边缘服务器制定负载均衡决策,即任务的转移方案。动作区间A表示边缘服务器的能够进行任务转移的动作集合。
进一步,步骤三中,所述序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程,包括:
序列化决策过程将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,每次仅仅对一个边缘服务器制定负载均衡策略降低问题求解的复杂度。全局边缘服务器的负载值
Figure BDA0003133914450000051
映射为状态st
动作为at为每个边缘服务器的负载均衡策略,根据负载均衡策略G其动作区间为A映射为单位矩阵IM。当边缘服务器i制定负载均衡策略at={ai1,ai2,...,aiM},执行动作之后每个边缘服务器m的负载转变,则下个状态st+1中每个特征值
Figure BDA0003133914450000052
的状态转移过程为:
Figure BDA0003133914450000053
执行动作at之后,环境给出反馈,即获得的奖赏Rt用当前状态st与下个状态st+1的M个边缘服务器的负载的均方差的比值
Figure BDA0003133914450000054
来表示:
Figure BDA0003133914450000055
进一步,利用DQN算法改进求解,优化目标为:将负载均方差值最小转为连续奖赏的最大累乘值,形式为:
Figure BDA0003133914450000056
Figure BDA0003133914450000061
说明边缘服务器的负载均衡状态变差,引导奖赏Rt修改其值为负的常数-1。
进一步,步骤四中,所述初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ等DQN相关参数,开始迭代,包括:
初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ,贪心策略ε、经验池大小D以及训练样本数据集大小batchsize;从1到EPISODE进行每轮迭代,每轮迭代开始时初始化边缘服务器的负载状态st
DQN学习过程中,首先总控制器与其管理的边缘服务器进行交互获得多维状态值,并利用神经网络近似动作价值函数Q;然后根据引导奖赏来评估动作价值函数,并将Q值映射为相应的动作;最后边缘服务器执行动作,环境更新,总控制器得到下个负载状态,循环以上过程,旨在得到
Figure BDA0003133914450000062
的最大值,进而得最佳负载均衡策略。
进一步,步骤五中,所述智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet,包括:
对于贪心策略,首先通过设置ε∈(0,1)的值,则在选择执行动作时,以概率1-ξ选择当前状态下最大Q值对应的动作a*,以概率ε从动作区间A随机的选择动作增加智能体的探索行为,其中ε随着训练步数的增加逐渐减少。
done为该轮数迭代终止的指标。如果
Figure BDA0003133914450000063
本轮边缘服务器负载均衡策略的序列化求解结束,即负载状态相比当前状态更差,则done为true;否则done为false;done=true表示终止并跳出本轮迭代,初始化边缘服务器的负载状态重新开始序列化决策,done=false表示为终止继续进行本轮迭代。
进一步,步骤六中,所述存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练,包括:
在每次智能体与环境的交互过程中,将st、at、rt、st+1和donet组成的五元组<st,at,st+1,rt,donet>存放到记忆池D中;元组存入数量达到记忆池D的最大容量大小时,按照队列机制将先存入的旧数据弹出并将新数据存入D中;记忆池D中的元组数量达到最小批量训练样本batchsize时,就开始从D中随机选择batchsize个大小样本数据集开始训练Q网络。
进一步,步骤七中,所述根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则返回步骤五继续进行迭代,包括:
随机选择的样本数据集<st,at,st+1,rt,donet>,在Q网络和目标Q网络中分别使用当前状态st和下个状态st+1作为输入,得到每个动作对应的Qt值和Qt+1,根据对应奖赏rt与Qt +1计算得目标Qtarget
Qtarget=rt+γmaxQ(st+1,at+1);
使用均方误差函数最小化Qtarget和Qt的损失值Loss(θ),并通过神经网络的梯度反向传播来更新Q网络的参数θ值,目标Q网络的θ'更新为对θ值的拷贝。计算公式为:
Loss(θ)=∑(Qtarget-Q(s,a;θ))2
Figure BDA0003133914450000071
以此方式训练神经网络收敛,得到边缘服务器的最佳负载均衡策略。
本发明的另一目的在于提供一种应用所述的边缘服务器负载均衡方法的边缘服务器负载均衡系统,所述边缘服务器负载均衡系统包括:
负载优化模型构建模块,用于通过总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型;
多隐层网络和目标模型构建模块,用于构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D;
序列化决策转化模块,用于进行序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程;
初始化模块,用于初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ在内的DQN相关参数,开始迭代;
迭代模块,用于通过智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet
训练模块,用于存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练;
判断模块,用于根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则继续进行迭代。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的基于深度强化学习算法的边缘服务器负载均衡方法,通过了解边缘服务器负载的影响因素,在总控制器中通过北向接口接入用于调节边缘服务器负载的应用服务,实现边缘服务器的任务转移,能有效解决边缘服务器的负载失衡以及边缘服务器计算资源浪费的问题。本发明将多边缘服务器的负载均衡过程转化单个服务器的序列决策过程,通过一个Q深度神经网络来解决状态空间较大的问题。每个边缘服务器的负载值作为Q网络的输入,而Q网络的输出值为负载策略,即当前服务器的任务转移策略,通过经验回放来训练Q网络,得到多个边缘服务器的负载策略。
本发明首先考虑边缘服务器的计算能力的差异,建立多边缘服务器的负载均衡模型,将其求解过程映射为单边缘服务器的顺序决策过程,以此对问题的高维度的解进行降维,以此构建强化学习中的马尔科夫决策过程;然后为了解决边缘服务器的不同负载映射的高维状态空间,通过内嵌一个以边缘服务器负载状态向量作为输入,以每个边缘服务器的负载均衡策略/任务转移策略对应的动作作为输出的深度Q网络来逼近最佳Q值,通过神经网络来逼近最优动作价值函数,代替Q-leaning中的动作价值函数,提高了Q-learning的应用性能,解决了由于状态空间过大和动作维度高的多边缘服务器负载均衡策略难以求解的问题;利用Tensorflow搭建Deep Q network(DQN)的深度神经网络模型,将该模型部署部署在SDN控制器之上,利用SDN控制器来调度边缘服务器的计算任务来更新边缘服务器的负载状态并存储数据集通过经验回放技术来训练收敛Q网络的参数θ,以此得到最优的边缘服务器的负载均衡策略。所提的深度强化学习(Deep Reinforment Learning,DRL)算法通过奖赏机制利用马尔科夫决策过程有效解决高维解和状态空间的模型求解困难的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的边缘服务器负载均衡方法流程图。
图2是本发明实施例提供的边缘服务器负载均衡方法原理图。
图3是本发明实施例提供的边缘服务器负载均衡系统结构框图;
图中:1、负载优化模型构建模块;2、多隐层网络和目标模型构建模块;3、序列化决策转化模块;4、初始化模块;5、迭代模块;6、训练模块;7、判断模块。
图4是本发明实施例提供的DQN与边缘服务器的交互图。
图5是本发明实施例提供的总控制器对边缘服务器的任务调度图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种边缘服务器负载均衡方法、系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的边缘服务器负载均衡方法包括以下步骤:
S101,总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型;
S102,构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D;
S103,序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程;
S104,初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ等DQN相关参数,开始迭代;
S105,智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet
S106,存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练;
S107,根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则返回S105继续进行迭代。
本发明实施例提供的边缘服务器负载均衡方法原理图如图2所示。
如图3所示,本发明实施例提供的边缘服务器负载均衡系统包括:
负载优化模型构建模块1,用于通过总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型;
多隐层网络和目标模型构建模块2,用于构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D;
序列化决策转化模块3,用于进行序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程;
初始化模块4,用于初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ在内的DQN相关参数,开始迭代;
迭代模块5,用于通过智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet
训练模块6,用于存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练;
判断模块7,用于根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则继续进行迭代。
下面结合实施例对本发明的技术方案作进一步描述。
参见图4,总控制器管理边缘服务器的资源并调度任务,用户接入边缘设备,边缘服务器在网络边缘(靠近用户)的位置为用户提供计算服务。总控制器收集边缘服务器的计算任务大小考和计算能力获知全局内每个边缘服务器的任务的负载状态,根据全局负载状态制定负载均衡策略并下发边缘设备,边缘设备根据负载均衡策略进行任务的转移,实现全局边缘服务器的负载均衡。
其负载均衡方法过程参见图2,本发明基于深度强化学习算法的边缘服务器的负载均衡方法,包括以下步骤:
S1:当边缘服务器的负载超过阈值时,向总控制器发起负载均衡请求。总控制器根据当前时刻的全局拓扑信息建立负载均衡模型制定任务转移策略,具体为:
负载均衡策略为每个边缘服务器的任务转移目标,故用M*M的矩阵G表示负载均衡测开,gmi=1表示边缘服务器m将超载任务Tm转移到i上,反之gmi=0没有任务的转移,满足约束
Figure BDA0003133914450000121
该约束保证任务不会被重复或者没有被处理,只能被一个边缘服务器处理。
用边缘服务器的任务的处理时延,即每个边缘服务器m的任务大小Dm与计算能力Cm的比值来描述,则负载表示为Lm=Dm/Cm。执行负载均衡策略之后,每个边缘服务器的任务一是增加了其他边缘服务器转移到该边缘服务器任务,二是减少了该边缘服务器转移出去的任务,则负载状态改变为:
Figure BDA0003133914450000122
对于全局边缘服务器的负载均衡优化目标为:
Figure BDA0003133914450000131
其中
Figure BDA0003133914450000132
为M个边缘服务器的平均负载值,其计算式子为:
Figure BDA0003133914450000133
S2:构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at +1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D,具体为:
总控制器作为智能体,与其管理范围内的边缘服务器进行交互获得全局负载状态,并对边缘服务器依次制定负载均衡策略进行任务的转移获得新的负载状态和引导奖赏。
构建Q网络和目标Q网络,以每个边缘服务器的负载状态作为状态特征向量st和下个状态st+1作为Q网络和目标Q网络的输入,输出为每种负载决策对应的动作价值Qt和Qt+1,并通过经验回放技术作为数据量进行网络训练。
搭建网络架构,确定神经网络每层的神经元数目,激励函数RELU,正态初始化网络的权值θ和θ',初始化偏置b接近为0的正数;确定用于经验回放技术的记忆池D的容量大小,并清空D进行存储训练经验数据。
总控制器依次对每个边缘服务器制定负载均衡决策,即任务的转移方案。每个边缘服务器都有自己的动作区间,则Am表示边缘服务器m的能够进行任务转移的动作集合。
S3:序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程,具体如下:
序列化决策过程将每次仅仅对一个边缘服务器制定负载均衡策略,环境中边缘服务器的计算任务大小发生变化,进而影响使得边缘服务器的负载发生改变,将其映射为强化学习的动作执行导致状态更新的过程。
全局边缘服务器的负载值
Figure BDA0003133914450000141
映射为状态st
动作为at为每个边缘服务器的负载均衡策略,根据负载均衡策略G和其满足约束将每个服务器的映射为单位矩阵IM的动作区间为A。当边缘服务器i制定负载均衡策略at={ai1,ai2,...,aiM},执行动作之后每个边缘服务器m的负载转变,即下个状态st+1中每个特征值
Figure BDA0003133914450000142
的状态转移过程为:
Figure BDA0003133914450000143
每次执行负载均衡策略时获得的奖赏rt用当前状态st与下个状态st+1的个边缘服务器的负载的均方差的比值
Figure BDA0003133914450000144
来表示,即:
Figure BDA0003133914450000145
利用DQN算法改进模型的求解:
强化学习的目的是使得智能体在于环境交互过程中获得最大的累积奖赏,则根据奖赏最大化原则其优化目标修改为:
对于相同的初始状态,负载均方差值最小转为连续奖赏的最大累乘值,形式为:
Figure BDA0003133914450000146
为了取得连续的奖赏的累乘值最大,对于导致边缘服务器负载状态变坏的动作,为其施加惩罚。当
Figure BDA0003133914450000147
说明边缘服务器的负载均衡状态变差,引导奖赏rt修改其值为负的常数-1,则奖赏rt为:
Figure BDA0003133914450000151
S4:初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ等DQN相关参数,开始迭代,具体如下:
初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ,贪心策略ε、经验池大小D以及训练样本数据集大小batchsize,之后从1到EPISODE进行每轮迭代,每轮迭代开始时初始化边缘服务器的负载状态st
DQN学习过程中,首先总控制器与其管理的边缘服务器进行交互获得多维状态值st,利用神经网络逼近当前状态的动作价值函数Q(st,at);然后根据引导奖赏来评估动作价值函数,并将Q值映射为相应的动作;最后边缘服务器执行动作at,其负载状态更新,总控制器得到下个负载状态st+1,循环以上过程,得到Rt的最大值,进而得最佳负载均衡策略。
S5:智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q值,根据贪心策略ε选择Q值中对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet,具体如下:
对于贪心策略,首先通过设置ε∈(0,1)的值,则在选择执行动作时,以概率1-ξ选择当前最大Q值对应的动作a*,以概率ε从动作区间随机的选择动作增加智能体的探索行为:
Figure BDA0003133914450000152
|A(s)|为动作区间的大小,ε随着迭代过程逐渐减少,鼓励智能体在早期多进行探索,在后期关注贪婪方法,保证算法的收敛性。
done为该轮数迭代终止的指标,如果
Figure BDA0003133914450000153
本轮边缘服务器负载均衡策略的序列化求解失败,即负载状态相比当前状态更差,则done为true,否在done为false。
Figure BDA0003133914450000161
done=true表示终止并跳出本轮迭代,初始化边缘服务器的负载状态开始新一轮的训练,done=false表示不做处理,继续进行本轮迭代。
S6:存储形式为<st,at,st+1,rt,donet>的元组到记忆池D,当记忆池中元组数量到达一定数量时,开始进行训练,具体如下:
每次智能体与环境的交互过程中,将st、at、rt、st+1和donet组成的五元组<st、at、st +1、rt,donet>存放到记忆池D中。记忆池D中的元组数量达到最小批量训练样本batchsize时,就开始从D中随机选择batchsize个样本数据集打破数据集的相关性,开始训练Q网络。
当存入数量达到记忆池D的最大容量大小时,按照队列机制将先存入的旧数据弹出并将新数据存入D中,保证样本数据的有效性。
S7:根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则返回步骤S5继续进行迭代。具体如下:
对于随机选择的样本数据集<st、at、st+1、rt,donet>,进行DQN算法的训练,如图5所示:
在Q网络和目标Q网络中分别使用当前状态st和下个状态st+1作为输入,得到样本数据集中每个状态动作对应的Qt值和Qt+1,根据对应奖赏rt与Qt+1计算得目标Qtarget
Figure BDA0003133914450000162
通过最小化Qtarget和Qt的均方误差函数的损失值Loss(θ),利用神经网络的梯度反向传播来更新Q网络的参数θ值,目标Q网络的θ'更新为对θ值的拷贝;
Loss(θ)=∑(Qtarget-Q(s,a;θ))2
Figure BDA0003133914450000163
以此方式更新神经网络参数使其收敛,得到边缘服务器的最佳负载均衡策略。
下面结合工作原理对本发明的技术方案作进一步描述。
本发明将多边缘服务器的负载均衡转化为单服务器决策的序列化过程,对模型的问题求解进行分解,降低模型求解的复杂度。将该序列化决策过程映射为马尔科夫决策过程,通过多隐层的Q网络来寻找最佳负载均衡策略。这种基于无模型的强化学习方法,能够有效解决序列化问题并且具有较高的计算效率。
构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,状态为每个边缘服务器负载值作为神经网络的输入,输出值为动作区间A每动作a对应的Q值,即输出每个负载均衡策略对应动作价值Q(s,a)。执行动作a之后环境中边缘服务器的负载发生变化,智能体(总控制器)得到环境的反馈,即奖赏值R,智能体(总控制器)根据奖赏制定合适的负载均衡策略。Q网络的迭代收敛通过经验回放技术来训练。
本发明利用负载均衡策略实现任务的转移,改善边缘服务器的负载状态,进而提高其资源利用率。其控制目标为多个边缘服务器,考虑边缘服务器的计算任务以及计算能力影响因素描述边缘服务器的状态。
本发明环境中总控制器通过南向接口获知各个边缘服务器的负载值,然后通过北向接口调用基于深度强化学习算法的边缘服务器负载均衡算法制定负载均衡策略,利用包含Tensorflow架构的python环境实现该方法。
本发明在迭代更新的过程中,每次与环境交互过程中,总控制器都将st、at、st+1、rt,donet作为五元组存储到记忆池D中。为了保证样本的有效性,当记忆池D中的存储的元组数达到D的大小时,按照队列机制将先存储的数据弹出存储。为了打破样本的关联性,神经网络的训练数据集随机从记忆池D中选择最小样本数量batchsize,使用均方误差损失函数Loss(θ),通过神经网络的泛型传播更新Q网络的参数θ,目标Q网络的参数θ'通过拷贝Q网络的参数θ更新。
本发明针对不同计算能力和不同计算的边缘服务器进行负载均衡研究,通过本发明中基于深度强化学习算法的边缘服务器的负载均衡方法,边缘服务器的负载均方差值如表格所示:
表1基于深度强化学习的边缘服务器负载均衡对比图
边缘服务器数量 4 5 6 7
原均方差值 0.91322 0.82474 0.29152 0.80515
本发明的负载均方值 0.01770 0.00415 0.00895 0.10502
原均时延 2.17006 2.06546 1.91074 2.22423
本发明的平均时延 2.02798 1.94306 1.89383 2.12249
通过表格数据,本发明所描述的基于深度强化学习算法的边缘服务器的平均负载均方值有了明显的改善,同时由于边缘服务器资源利用率的提高降低了边缘服务器任务的处理时延。
在上述实施例中,本发明的实施可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种边缘服务器负载均衡方法,其特征在于,所述边缘服务器负载均衡方法采用深度强化学习的DQN算法,神经网络包括Q网络和目标Q网络,所述边缘服务器负载均衡方法包括以下步骤:
步骤一,总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型;
步骤二,构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at +1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D;
步骤三,序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程;
步骤四,初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ等DQN相关参数,开始迭代;
步骤五,智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet
步骤六,存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练;
步骤七,根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则返回步骤五继续进行迭代。
2.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤一中,所述总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型,包括:
当边缘服务器的负载超过阈值时,向总控制器发起负载均衡请求,每个边缘服务器m将超过负载阈值部分的任务Tm转移到任意一个总控制器管理的边缘服务器之上;
负载均衡策略为每个边缘服务器的任务转移目标,用M*M的矩阵G表示,gmi=1表示边缘服务器m将超载任务Tm转移到i上,反之gmi=0没有任务的转移,满足约束
Figure FDA0003133914440000021
用边缘服务器的任务的计算时延,即边缘服务器m的任务大小Dm与计算能力Cm的比值来描述,则负载表示为Lm=Dm/Cm;执行全局负载均衡策略时,负载状态改变为:
Figure FDA0003133914440000022
对于全局边缘服务器的负载均衡优化目标为:
Figure FDA0003133914440000023
其中,
Figure FDA0003133914440000024
为M个边缘服务器的平均负载值。
3.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤二中,所述构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D,包括:
总控制器作为智能体,与其管理范围内的边缘服务器进行交互获得全局负载状态,并对边缘服务器依次制定负载均衡策略进行任务的转移获得新的负载状态;
构建Q网络和目标Q网络,以每个边缘服务器的负载状态作为状态特征向量st和下个状态st+1作为Q网络和目标Q网络的输入,输出为每种负载决策对应的动作价值Qt和Qt+1,并通过经验回放技术作为数据量进行网络训练;
搭建网络架构,确定神经网络每层的神经元数目,激励函数RELU,正态初始化网络的权值θ和θ',初始化偏置b接近为0的正数,确定用于经验回放技术的记忆池D的容量大小,并清空D进行存储训练经验数据;
总控制器依次对每个边缘服务器制定负载均衡决策,即任务的转移方案;动作区间A表示边缘服务器的能够进行任务转移的动作集合。
4.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤三中,所述序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程,包括:
序列化决策过程将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,每次仅仅对一个边缘服务器制定负载均衡策略降低问题求解的复杂度;全局边缘服务器的负载值
Figure FDA0003133914440000031
映射为状态st
动作为at为每个边缘服务器的负载均衡策略,根据负载均衡策略G其动作区间为A映射为单位矩阵IM;当边缘服务器i制定负载均衡策略at={ai1,ai2,...,aiM},执行动作之后每个边缘服务器m的负载转变,则下个状态st+1中每个特征值
Figure FDA0003133914440000032
的状态转移过程为:
Figure FDA0003133914440000033
执行动作at之后,环境给出反馈,即获得的奖赏Rt用当前状态st与下个状态st+1的M个边缘服务器的负载的均方差的比值
Figure FDA0003133914440000034
来表示:
Figure FDA0003133914440000041
5.如权利要求4所述边缘服务器负载均衡方法,其特征在于,利用DQN算法改进求解,优化目标为:将负载均方差值最小转为连续奖赏的最大累乘值,形式为:
Figure FDA0003133914440000042
Figure FDA0003133914440000043
说明边缘服务器的负载均衡状态变差,引导奖赏Rt修改其值为负的常数-1。
6.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤四中,所述初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ等DQN相关参数,开始迭代,包括:
初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ,贪心策略ε、经验池大小D以及训练样本数据集大小batchsize;从1到EPISODE进行每轮迭代,每轮迭代开始时初始化边缘服务器的负载状态st
DQN学习过程中,首先总控制器与其管理的边缘服务器进行交互获得多维状态值,并利用神经网络近似动作价值函数Q;根据引导奖赏来评估动作价值函数,并将Q值映射为相应的动作;最后边缘服务器执行动作,环境更新,总控制器得到下个负载状态,循环以上过程,旨在得到R的最大值,进而得最佳负载均衡策略。
7.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤五中,所述智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet,包括:
对于贪心策略,首先通过设置ε∈(0,1)的值,则在选择执行动作时,以概率1-ξ选择当前状态下最大Q值对应的动作a*,以概率ε从动作区间A随机的选择动作增加智能体的探索行为,其中ε随着训练步数的增加逐渐减少;
done为该轮数迭代终止的指标;如果Pt<1,本轮边缘服务器负载均衡策略的序列化求解结束,即负载状态相比当前状态更差,则done为true;否则done为false;done=true表示终止并跳出本轮迭代,初始化边缘服务器的负载状态重新开始序列化决策,done=false表示为终止继续进行本轮迭代。
8.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤六中,所述存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练,包括:
在每次智能体与环境的交互过程中,将st、at、rt、st+1和donet组成的五元组<st,at,st+1,rt,donet>存放到记忆池D中;元组存入数量达到记忆池D的最大容量大小时,按照队列机制将先存入的旧数据弹出并将新数据存入D中;记忆池D中的元组数量达到最小批量训练样本batchsize时,就开始从D中随机选择batchsize个大小样本数据集开始训练Q网络。
9.如权利要求1所述边缘服务器负载均衡方法,其特征在于,步骤七中,所述根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则返回步骤五继续进行迭代,包括:
随机选择的样本数据集<st,at,st+1,rt,donet>,在Q网络和目标Q网络中分别使用当前状态st和下个状态st+1作为输入,得到每个动作对应的Qt值和Qt+1,根据对应奖赏rt与Qt+1计算得目标Qtarget
Qtarget=rt+γmaxQ(st+1,at+1);
使用均方误差函数最小化Qtarget和Qt的损失值Loss(θ),并通过神经网络的梯度反向传播来更新Q网络的参数θ值,目标Q网络的θ'更新为对θ值的拷贝;计算公式为:
Loss(θ)=∑(Qtarget-Q(s,a;θ))2
θ=θ+α▽θLoss(θ);
以此方式训练神经网络收敛,得到边缘服务器的最佳负载均衡策略。
10.一种实施权利要求1~9任意一项所述边缘服务器负载均衡方法的边缘服务器负载均衡系统,其特征在于,所述边缘服务器负载均衡系统包括:
负载优化模型构建模块,用于通过总控制器收集边缘服务器的计算任务大小,同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态,根据负载状态建立最小均方差值的负载优化模型;
多隐层网络和目标模型构建模块,用于构建多隐层Q网络和目标Q模型,输入分别为状态st和某个动作at对应的下个状态st+1的特征向量,输出值为动作区间A每动作at和at+1对应的动作价值Q(st,at)和Q(st+1,at+1),同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D;
序列化决策转化模块,用于进行序列化决策过程的转化,将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程,确定算法的状态、动作以及引导奖赏,并建立状态转移过程;
初始化模块,用于初始化迭代轮数EPISODE,每轮迭代的步数STEP,以及折扣因子γ在内的DQN相关参数,开始迭代;
迭代模块,用于通过智能体与环境交互获得当前状态st,在Q网络输入状态st得到每个动作对应的Q(s,a)值,根据贪心策略ε选择最大Q(s,a)值对应的动作at,执行动作at得到新的状态st+1和引导奖赏rt,并根据新的状态判断本次迭代是否终止donet
训练模块,用于存储形式为<st,at,st+1,rt,donet>元组到记忆池D,当记忆池中元组数量到达一定数量时,开始随机选择batchsize个元组作为样本数据集进行训练;
判断模块,用于根据样本数据集训练Q网络和目标Q网络,更新Q网络和目标Q网络的θ和θ',判断是否达到迭代轮数EPISODE结束全部迭代,否则继续进行迭代。
CN202110713628.6A 2021-06-25 2021-06-25 一种边缘服务器负载均衡方法、系统 Active CN113485826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110713628.6A CN113485826B (zh) 2021-06-25 2021-06-25 一种边缘服务器负载均衡方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110713628.6A CN113485826B (zh) 2021-06-25 2021-06-25 一种边缘服务器负载均衡方法、系统

Publications (2)

Publication Number Publication Date
CN113485826A true CN113485826A (zh) 2021-10-08
CN113485826B CN113485826B (zh) 2022-05-10

Family

ID=77936003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110713628.6A Active CN113485826B (zh) 2021-06-25 2021-06-25 一种边缘服务器负载均衡方法、系统

Country Status (1)

Country Link
CN (1) CN113485826B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114040016A (zh) * 2021-11-02 2022-02-11 清华大学 卫星边缘智能代理的编排方法、系统、介质及计算设备
CN114500551A (zh) * 2021-12-31 2022-05-13 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN114757352A (zh) * 2022-06-14 2022-07-15 中科链安(北京)科技有限公司 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN115242796A (zh) * 2022-06-15 2022-10-25 西安电子科技大学 一种面向云-边-端场景的任务调度方法
CN117573375A (zh) * 2024-01-15 2024-02-20 上海交通大学四川研究院 一种面向自适应解耦方程的动态负载平衡并行计算方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN CHEN: "An Edge Traffic Flow Detection Scheme Based on Deep Learning in an Intelligent Transportation System", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
刘雷,陈晨: "车载边缘计算中任务卸载和服务缓存的联合智能优化", 《通信学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114040016A (zh) * 2021-11-02 2022-02-11 清华大学 卫星边缘智能代理的编排方法、系统、介质及计算设备
CN114040016B (zh) * 2021-11-02 2022-08-12 清华大学 卫星边缘智能代理的编排方法、系统、介质及计算设备
CN114500551A (zh) * 2021-12-31 2022-05-13 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN114500551B (zh) * 2021-12-31 2024-04-05 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN114757352A (zh) * 2022-06-14 2022-07-15 中科链安(北京)科技有限公司 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN114757352B (zh) * 2022-06-14 2022-09-23 中科链安(北京)科技有限公司 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN115242796A (zh) * 2022-06-15 2022-10-25 西安电子科技大学 一种面向云-边-端场景的任务调度方法
CN115242796B (zh) * 2022-06-15 2024-02-20 西安电子科技大学 一种面向云-边-端场景的任务调度方法
CN117573375A (zh) * 2024-01-15 2024-02-20 上海交通大学四川研究院 一种面向自适应解耦方程的动态负载平衡并行计算方法
CN117573375B (zh) * 2024-01-15 2024-04-02 上海交通大学四川研究院 一种面向自适应解耦方程的动态负载平衡并行计算方法

Also Published As

Publication number Publication date
CN113485826B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN113485826B (zh) 一种边缘服务器负载均衡方法、系统
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN112286677B (zh) 一种面向资源受限边缘云的物联网应用优化部署方法
Guo et al. Cloud resource scheduling with deep reinforcement learning and imitation learning
CN111669291B (zh) 基于深度强化学习的虚拟化网络服务功能链部署方法
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN112346839B (zh) 一种基于进化算法的关联任务调度方法
CN111813506A (zh) 一种基于粒子群算法资源感知计算迁移方法、装置及介质
US11784931B2 (en) Network burst load evacuation method for edge servers
CN108418858B (zh) 一种面向Geo-distributed云存储的数据副本放置方法
CN111399933A (zh) 一种边缘-云混合计算环境下的dnn任务卸载方法及终端
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN115237581A (zh) 一种面向异构算力的多策略智能调度方法和装置
WO2023134403A1 (zh) 一种物联网资源分配方法、系统、终端以及存储介质
CN113708969A (zh) 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法
CN111176784B (zh) 一种基于极限学习机和蚁群系统的虚拟机整合方法
CN113722112A (zh) 一种服务资源负载均衡处理方法及系统
CN116321189A (zh) 一种面向边缘计算中基于深度强化学习的服务器部署方法
CN114025017B (zh) 基于深度循环强化学习的网络边缘缓存方法、装置及设备
CN115016889A (zh) 一种用于云计算的虚拟机优化调度方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN112764932B (zh) 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112165721B (zh) 基于边缘计算的多服务任务的卸载和服务迁移方法
CN114980216A (zh) 基于移动边缘计算的依赖型任务卸载系统及方法
CN116506352B (zh) 一种基于集中式强化学习的网络数据接续转发选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant