CN113485826A

CN113485826A - 一种边缘服务器负载均衡方法、系统

Info

Publication number: CN113485826A
Application number: CN202110713628.6A
Authority: CN
Inventors: 何辞; 张亚生; 陈晨; 袁颖; 丛犁
Original assignee: Xidian University; CETC 54 Research Institute
Current assignee: Xidian University; CETC 54 Research Institute
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-10-08
Anticipated expiration: 2041-06-25
Also published as: CN113485826B

Abstract

本发明属于边缘计算技术领域，公开了一种边缘服务器负载均衡方法、系统，采用深度强化学习的DQN算法，神经网络包括Q网络和目标Q网络，所述边缘服务器负载均衡方法包括：根据负载状态建立最小均方差值的负载优化模型；构建多隐层Q网络和目标Q模型；序列化决策过程的转化；初始化DQN相关参数，开始迭代，并判断本次迭代是否终止；进行训练；更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代。本发明通过了解边缘服务器负载的影响因素，在总控制器中通过北向接口接入用于调节边缘服务器负载的应用服务，实现边缘服务器的任务转移，能有效解决边缘服务器的负载失衡以及边缘服务器计算资源浪费的问题。

Description

一种边缘服务器负载均衡方法、系统

技术领域

本发明属于边缘计算技术领域，尤其涉及一种边缘服务器负载均衡方法、系统。

背景技术

目前，边缘计算作为一种新型计算模型，将计算存储和业务服务能力迁移到网络边缘，为终端用户提供低时延和高质量的服务。然而用户的不均匀分布造成边缘服务器的负载不均，密度大的情况下会造成边缘服务器的任务的滞留堆积，用户任务的完成时延增加；密度小的情况下造成边缘服务器存在空闲的情况，使得边缘服务器的计算资源浪费。通过对任务的转移进而实现边缘服务器的负载均衡能有提高计算资源的利用率，同时能够有效减少任务完成的平均时延。

近年来机器学习迅猛发展，其强大的学习能力和分析能力能有效适应边缘复杂多变的网络复杂。强化学习作为机器学习的子领域，旨在通过智能体与环境的交互经验和反馈来增强智能体的决策能力，智能体根据环境的变化实时制定合适的策略，最大化奖赏值来求解问题。

现在已有对边缘服务器的负载均衡已有较多的控制策略的研究，根据调度策略的不同主要包括静态负载均衡算法和动态负载均衡算法两类。静态负载均衡算法根据确定的策略来调度任务，不考虑服务器的负载状态，如轮询算法，随机算法等；动态负载均衡算法是根据服务器当前的负载状态为基础制定合理的负载均衡策略，比如最小连接法等。然而考虑大规模网络场景中边缘服务器的负载均衡时，很难求得最优的负载均衡策略而且模型计算收敛慢。将强化学习应用于该领域，借助神经网络来逼近价值函数来有效解决求解困难的问题。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有边缘服务器负载均衡控制方法中，在考虑大规模网络场景中边缘服务器的负载均衡时，很难求得最优的负载均衡策略而且模型计算收敛慢。

(2)在没有数据集的情况下，如何合理地使用人工智能方法，实现边缘服务器负载的均衡和计算资源的均衡有效利用。

(3)如何解决考虑多边缘服务器的负载均衡策略时解维度过高导致的模型求解困难等问题。

解决以上问题及缺陷的难度为：该发明中是基于深度强化学习实现的，需要实现负载均衡模型对强化学习中状态、动作和奖赏的映射；同时还需要建立模型的状态转移过程，根据反馈，即奖赏来实现问题的正确求解。

解决以上问题及缺陷的意义为：可以优先改善边缘服务器的负载状态，使得边缘服务器的负载均衡；可以充分利用边缘服务器的计算资源，通过深度强化学习总控制器与边缘服务器实时交互实现边缘服务器任务的合理调度。

发明内容

针对现有技术存在的问题，本发明提供了一种边缘服务器负载均衡方法、系统，尤其涉及一种基于深度强化学习算法的边缘服务器负载均衡方法、系统，旨在解决现有技术中模型求解过程中高维度解导致的求解困难以及收敛性差的问题。

本发明是这样实现的，一种边缘服务器负载均衡方法，所述边缘服务器负载均衡方法采用深度强化学习的DQN算法，神经网络包括Q网络和目标Q网络，所述边缘服务器负载均衡方法包括以下步骤：

步骤一，总控制器收集边缘服务器的计算任务大小，同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态，根据负载状态建立最小均方差值的负载优化模型；

步骤二，构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t ⁺¹，a^t+1)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D；

步骤三，序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程；

步骤四，初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ等DQN相关参数，开始迭代；

步骤五，智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q(s,a)值，根据贪心策略ε选择最大Q(s,a)值对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t；

步骤六，存储形式为<s^t,a^t,s^t+1,r^t,done^t>元组到记忆池D，当记忆池中元组数量到达一定数量时，开始随机选择batchsize个元组作为样本数据集进行训练；

步骤七，根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则返回步骤五继续进行迭代。

通过上述步骤，将负载均衡模型映射为深度强化学习的期望奖赏最大的求解过程，有效降低了该问题的求解复杂度。同时建立深度强化学习中的神经网络模型，训练神经网络模型使其收敛。之后智能体根据动作映射得到负载均衡方案，实现边缘服务器任务的调度，合理的将计算任务分配给不同计算能力的边缘服务器。接下来针对上述步骤进行进一步说明。

进一步，步骤一中，所述总控制器收集边缘服务器的计算任务大小，同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态，根据负载状态建立最小均方差值的负载优化模型，包括：

当边缘服务器的负载超过阈值时，向总控制器发起负载均衡请求，每个边缘服务器m将超过负载阈值部分的任务T_m转移到任意一个总控制器管理的边缘服务器之上。

负载均衡策略为每个边缘服务器的任务转移目标，用M*M的矩阵G表示，g_mi＝1表示边缘服务器m将超载任务T_m转移到i上，反之g_mi＝0没有任务的转移，满足约束

用边缘服务器的任务的计算时延，即边缘服务器m的任务大小D_m与计算能力C_m的比值来描述，则负载表示为L_m＝D_m/C_m；执行全局负载均衡策略时，负载状态改变为：

对于全局边缘服务器的负载均衡优化目标为：

其中，

为M个边缘服务器的平均负载值。

进一步，步骤二中，所述构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t+1)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D，包括：

总控制器作为智能体，与其管理范围内的边缘服务器进行交互获得全局负载状态，并对边缘服务器依次制定负载均衡策略进行任务的转移获得新的负载状态。

构建Q网络和目标Q网络，以每个边缘服务器的负载状态作为状态特征向量s^t和下个状态s^t+1作为Q网络和目标Q网络的输入，输出为每种负载决策对应的动作价值Q^t和Q^t+1，并通过经验回放技术作为数据量进行网络训练。

搭建网络架构，确定神经网络每层的神经元数目，激励函数RELU，正态初始化网络的权值θ和θ'，初始化偏置b接近为0的正数，确定用于经验回放技术的记忆池D的容量大小，并清空D进行存储训练经验数据。

总控制器依次对每个边缘服务器制定负载均衡决策，即任务的转移方案。动作区间A表示边缘服务器的能够进行任务转移的动作集合。

进一步，步骤三中，所述序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程，包括：

序列化决策过程将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，每次仅仅对一个边缘服务器制定负载均衡策略降低问题求解的复杂度。全局边缘服务器的负载值

映射为状态s^t。

动作为a^t为每个边缘服务器的负载均衡策略，根据负载均衡策略G其动作区间为A映射为单位矩阵I_M。当边缘服务器i制定负载均衡策略a^t＝{a_i1,a_i2,...,a_iM}，执行动作之后每个边缘服务器m的负载转变，则下个状态s^t+1中每个特征值

的状态转移过程为：

执行动作a^t之后，环境给出反馈，即获得的奖赏R^t用当前状态s^t与下个状态s^t+1的M个边缘服务器的负载的均方差的比值

来表示：

进一步，利用DQN算法改进求解，优化目标为：将负载均方差值最小转为连续奖赏的最大累乘值，形式为：

说明边缘服务器的负载均衡状态变差，引导奖赏R^t修改其值为负的常数-1。

进一步，步骤四中，所述初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ等DQN相关参数，开始迭代，包括：

初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ，贪心策略ε、经验池大小D以及训练样本数据集大小batchsize；从1到EPISODE进行每轮迭代，每轮迭代开始时初始化边缘服务器的负载状态s^t。

DQN学习过程中，首先总控制器与其管理的边缘服务器进行交互获得多维状态值，并利用神经网络近似动作价值函数Q；然后根据引导奖赏来评估动作价值函数，并将Q值映射为相应的动作；最后边缘服务器执行动作，环境更新，总控制器得到下个负载状态，循环以上过程，旨在得到

的最大值，进而得最佳负载均衡策略。

进一步，步骤五中，所述智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q(s,a)值，根据贪心策略ε选择最大Q(s,a)值对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t，包括：

对于贪心策略，首先通过设置ε∈(0,1)的值，则在选择执行动作时，以概率1-ξ选择当前状态下最大Q值对应的动作a*，以概率ε从动作区间A随机的选择动作增加智能体的探索行为，其中ε随着训练步数的增加逐渐减少。

done为该轮数迭代终止的指标。如果

本轮边缘服务器负载均衡策略的序列化求解结束，即负载状态相比当前状态更差，则done为true；否则done为false；done＝true表示终止并跳出本轮迭代，初始化边缘服务器的负载状态重新开始序列化决策，done＝false表示为终止继续进行本轮迭代。

进一步，步骤六中，所述存储形式为<s^t,a^t,s^t+1,r^t,done^t>元组到记忆池D，当记忆池中元组数量到达一定数量时，开始随机选择batchsize个元组作为样本数据集进行训练，包括：

在每次智能体与环境的交互过程中，将s^t、a^t、r^t、s^t+1和done^t组成的五元组<s^t,a^t,s^t+1,r^t,done^t>存放到记忆池D中；元组存入数量达到记忆池D的最大容量大小时，按照队列机制将先存入的旧数据弹出并将新数据存入D中；记忆池D中的元组数量达到最小批量训练样本batchsize时，就开始从D中随机选择batchsize个大小样本数据集开始训练Q网络。

进一步，步骤七中，所述根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则返回步骤五继续进行迭代，包括：

随机选择的样本数据集<s^t,a^t,s^t+1,r^t,done^t>，在Q网络和目标Q网络中分别使用当前状态s^t和下个状态s^t+1作为输入，得到每个动作对应的Q^t值和Q^t+1，根据对应奖赏r^t与Q^t ⁺¹计算得目标Q_target：

Q_target＝r_t+γmaxQ(s^t+1,a^t+1)；

使用均方误差函数最小化Q_target和Q^t的损失值Loss(θ)，并通过神经网络的梯度反向传播来更新Q网络的参数θ值，目标Q网络的θ'更新为对θ值的拷贝。计算公式为：

Loss(θ)＝∑(Q_target-Q(s,a；θ))²；

以此方式训练神经网络收敛，得到边缘服务器的最佳负载均衡策略。

本发明的另一目的在于提供一种应用所述的边缘服务器负载均衡方法的边缘服务器负载均衡系统，所述边缘服务器负载均衡系统包括：

负载优化模型构建模块，用于通过总控制器收集边缘服务器的计算任务大小，同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态，根据负载状态建立最小均方差值的负载优化模型；

多隐层网络和目标模型构建模块，用于构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t+1)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D；

序列化决策转化模块，用于进行序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程；

初始化模块，用于初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ在内的DQN相关参数，开始迭代；

迭代模块，用于通过智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q(s,a)值，根据贪心策略ε选择最大Q(s,a)值对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t；

训练模块，用于存储形式为<s^t,a^t,s^t+1,r^t,done^t>元组到记忆池D，当记忆池中元组数量到达一定数量时，开始随机选择batchsize个元组作为样本数据集进行训练；

判断模块，用于根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则继续进行迭代。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于深度强化学习算法的边缘服务器负载均衡方法，通过了解边缘服务器负载的影响因素，在总控制器中通过北向接口接入用于调节边缘服务器负载的应用服务，实现边缘服务器的任务转移，能有效解决边缘服务器的负载失衡以及边缘服务器计算资源浪费的问题。本发明将多边缘服务器的负载均衡过程转化单个服务器的序列决策过程，通过一个Q深度神经网络来解决状态空间较大的问题。每个边缘服务器的负载值作为Q网络的输入，而Q网络的输出值为负载策略，即当前服务器的任务转移策略，通过经验回放来训练Q网络，得到多个边缘服务器的负载策略。

本发明首先考虑边缘服务器的计算能力的差异，建立多边缘服务器的负载均衡模型，将其求解过程映射为单边缘服务器的顺序决策过程，以此对问题的高维度的解进行降维，以此构建强化学习中的马尔科夫决策过程；然后为了解决边缘服务器的不同负载映射的高维状态空间，通过内嵌一个以边缘服务器负载状态向量作为输入，以每个边缘服务器的负载均衡策略/任务转移策略对应的动作作为输出的深度Q网络来逼近最佳Q值，通过神经网络来逼近最优动作价值函数，代替Q-leaning中的动作价值函数，提高了Q-learning的应用性能，解决了由于状态空间过大和动作维度高的多边缘服务器负载均衡策略难以求解的问题；利用Tensorflow搭建Deep Q network(DQN)的深度神经网络模型，将该模型部署部署在SDN控制器之上，利用SDN控制器来调度边缘服务器的计算任务来更新边缘服务器的负载状态并存储数据集通过经验回放技术来训练收敛Q网络的参数θ，以此得到最优的边缘服务器的负载均衡策略。所提的深度强化学习(Deep Reinforment Learning，DRL)算法通过奖赏机制利用马尔科夫决策过程有效解决高维解和状态空间的模型求解困难的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的边缘服务器负载均衡方法流程图。

图2是本发明实施例提供的边缘服务器负载均衡方法原理图。

图3是本发明实施例提供的边缘服务器负载均衡系统结构框图；

图中：1、负载优化模型构建模块；2、多隐层网络和目标模型构建模块；3、序列化决策转化模块；4、初始化模块；5、迭代模块；6、训练模块；7、判断模块。

图4是本发明实施例提供的DQN与边缘服务器的交互图。

图5是本发明实施例提供的总控制器对边缘服务器的任务调度图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种边缘服务器负载均衡方法、系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的边缘服务器负载均衡方法包括以下步骤：

S101，总控制器收集边缘服务器的计算任务大小，同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态，根据负载状态建立最小均方差值的负载优化模型；

S102，构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t+1)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D；

S103，序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程；

S104，初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ等DQN相关参数，开始迭代；

S105，智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q(s,a)值，根据贪心策略ε选择最大Q(s,a)值对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t；

S106，存储形式为<s^t,a^t,s^t+1,r^t,done^t>元组到记忆池D，当记忆池中元组数量到达一定数量时，开始随机选择batchsize个元组作为样本数据集进行训练；

S107，根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则返回S105继续进行迭代。

本发明实施例提供的边缘服务器负载均衡方法原理图如图2所示。

如图3所示，本发明实施例提供的边缘服务器负载均衡系统包括：

负载优化模型构建模块1，用于通过总控制器收集边缘服务器的计算任务大小，同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态，根据负载状态建立最小均方差值的负载优化模型；

多隐层网络和目标模型构建模块2，用于构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t+1)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D；

序列化决策转化模块3，用于进行序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程；

初始化模块4，用于初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ在内的DQN相关参数，开始迭代；

迭代模块5，用于通过智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q(s,a)值，根据贪心策略ε选择最大Q(s,a)值对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t；

训练模块6，用于存储形式为<s^t,a^t,s^t+1,r^t,done^t>元组到记忆池D，当记忆池中元组数量到达一定数量时，开始随机选择batchsize个元组作为样本数据集进行训练；

判断模块7，用于根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则继续进行迭代。

下面结合实施例对本发明的技术方案作进一步描述。

参见图4，总控制器管理边缘服务器的资源并调度任务，用户接入边缘设备，边缘服务器在网络边缘(靠近用户)的位置为用户提供计算服务。总控制器收集边缘服务器的计算任务大小考和计算能力获知全局内每个边缘服务器的任务的负载状态，根据全局负载状态制定负载均衡策略并下发边缘设备，边缘设备根据负载均衡策略进行任务的转移，实现全局边缘服务器的负载均衡。

其负载均衡方法过程参见图2，本发明基于深度强化学习算法的边缘服务器的负载均衡方法，包括以下步骤：

S1：当边缘服务器的负载超过阈值时，向总控制器发起负载均衡请求。总控制器根据当前时刻的全局拓扑信息建立负载均衡模型制定任务转移策略，具体为：

负载均衡策略为每个边缘服务器的任务转移目标，故用M*M的矩阵G表示负载均衡测开，g_mi＝1表示边缘服务器m将超载任务T_m转移到i上，反之g_mi＝0没有任务的转移，满足约束

该约束保证任务不会被重复或者没有被处理，只能被一个边缘服务器处理。

用边缘服务器的任务的处理时延，即每个边缘服务器m的任务大小D_m与计算能力C_m的比值来描述，则负载表示为L_m＝D_m/C_m。执行负载均衡策略之后，每个边缘服务器的任务一是增加了其他边缘服务器转移到该边缘服务器任务，二是减少了该边缘服务器转移出去的任务，则负载状态改变为：

对于全局边缘服务器的负载均衡优化目标为：

其中

为M个边缘服务器的平均负载值，其计算式子为：

S2：构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t ⁺¹)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D，具体为：

总控制器作为智能体，与其管理范围内的边缘服务器进行交互获得全局负载状态，并对边缘服务器依次制定负载均衡策略进行任务的转移获得新的负载状态和引导奖赏。

搭建网络架构，确定神经网络每层的神经元数目，激励函数RELU，正态初始化网络的权值θ和θ'，初始化偏置b接近为0的正数；确定用于经验回放技术的记忆池D的容量大小，并清空D进行存储训练经验数据。

总控制器依次对每个边缘服务器制定负载均衡决策，即任务的转移方案。每个边缘服务器都有自己的动作区间，则A_m表示边缘服务器m的能够进行任务转移的动作集合。

S3：序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程，具体如下：

序列化决策过程将每次仅仅对一个边缘服务器制定负载均衡策略，环境中边缘服务器的计算任务大小发生变化，进而影响使得边缘服务器的负载发生改变，将其映射为强化学习的动作执行导致状态更新的过程。

全局边缘服务器的负载值

映射为状态s^t。

动作为a^t为每个边缘服务器的负载均衡策略，根据负载均衡策略G和其满足约束将每个服务器的映射为单位矩阵I_M的动作区间为A。当边缘服务器i制定负载均衡策略a^t＝{a_i1,a_i2,...,a_iM}，执行动作之后每个边缘服务器m的负载转变，即下个状态s^t+1中每个特征值

的状态转移过程为：

每次执行负载均衡策略时获得的奖赏r^t用当前状态s^t与下个状态s^t+1的个边缘服务器的负载的均方差的比值

来表示，即：

利用DQN算法改进模型的求解：

强化学习的目的是使得智能体在于环境交互过程中获得最大的累积奖赏，则根据奖赏最大化原则其优化目标修改为：

对于相同的初始状态，负载均方差值最小转为连续奖赏的最大累乘值，形式为：

为了取得连续的奖赏的累乘值最大，对于导致边缘服务器负载状态变坏的动作，为其施加惩罚。当

说明边缘服务器的负载均衡状态变差，引导奖赏r^t修改其值为负的常数-1，则奖赏r^t为：

S4：初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ等DQN相关参数，开始迭代，具体如下：

初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ，贪心策略ε、经验池大小D以及训练样本数据集大小batchsize，之后从1到EPISODE进行每轮迭代，每轮迭代开始时初始化边缘服务器的负载状态s^t。

DQN学习过程中，首先总控制器与其管理的边缘服务器进行交互获得多维状态值s^t，利用神经网络逼近当前状态的动作价值函数Q(s^t,a^t)；然后根据引导奖赏来评估动作价值函数，并将Q值映射为相应的动作；最后边缘服务器执行动作a^t，其负载状态更新，总控制器得到下个负载状态s^t+1，循环以上过程，得到R^t的最大值，进而得最佳负载均衡策略。

S5：智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q值，根据贪心策略ε选择Q值中对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t，具体如下：

对于贪心策略，首先通过设置ε∈(0,1)的值，则在选择执行动作时，以概率1-ξ选择当前最大Q值对应的动作a*，以概率ε从动作区间随机的选择动作增加智能体的探索行为：

|A(s)|为动作区间的大小，ε随着迭代过程逐渐减少，鼓励智能体在早期多进行探索，在后期关注贪婪方法，保证算法的收敛性。

done为该轮数迭代终止的指标，如果

本轮边缘服务器负载均衡策略的序列化求解失败，即负载状态相比当前状态更差，则done为true，否在done为false。

done＝true表示终止并跳出本轮迭代，初始化边缘服务器的负载状态开始新一轮的训练，done＝false表示不做处理，继续进行本轮迭代。

S6：存储形式为<s^t,a^t,s^t+1,r^t,done^t>的元组到记忆池D，当记忆池中元组数量到达一定数量时，开始进行训练，具体如下：

每次智能体与环境的交互过程中，将s^t、a^t、r^t、s^t+1和done^t组成的五元组<s^t、a^t、s^t ⁺¹、r^t,done^t>存放到记忆池D中。记忆池D中的元组数量达到最小批量训练样本batchsize时，就开始从D中随机选择batchsize个样本数据集打破数据集的相关性，开始训练Q网络。

当存入数量达到记忆池D的最大容量大小时，按照队列机制将先存入的旧数据弹出并将新数据存入D中，保证样本数据的有效性。

S7：根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则返回步骤S5继续进行迭代。具体如下：

对于随机选择的样本数据集<s^t、a^t、s^t+1、r^t,done^t>，进行DQN算法的训练，如图5所示：

在Q网络和目标Q网络中分别使用当前状态s^t和下个状态s^t+1作为输入，得到样本数据集中每个状态动作对应的Q^t值和Q^t+1，根据对应奖赏r^t与Q^t+1计算得目标Q_target：

通过最小化Q^target和Q^t的均方误差函数的损失值Loss(θ)，利用神经网络的梯度反向传播来更新Q网络的参数θ值，目标Q网络的θ'更新为对θ值的拷贝；

Loss(θ)＝∑(Q_target-Q(s,a；θ))²；

以此方式更新神经网络参数使其收敛，得到边缘服务器的最佳负载均衡策略。

下面结合工作原理对本发明的技术方案作进一步描述。

本发明将多边缘服务器的负载均衡转化为单服务器决策的序列化过程，对模型的问题求解进行分解，降低模型求解的复杂度。将该序列化决策过程映射为马尔科夫决策过程，通过多隐层的Q网络来寻找最佳负载均衡策略。这种基于无模型的强化学习方法，能够有效解决序列化问题并且具有较高的计算效率。

构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，状态为每个边缘服务器负载值作为神经网络的输入，输出值为动作区间A每动作a对应的Q值，即输出每个负载均衡策略对应动作价值Q(s，a)。执行动作a之后环境中边缘服务器的负载发生变化，智能体(总控制器)得到环境的反馈，即奖赏值R，智能体(总控制器)根据奖赏制定合适的负载均衡策略。Q网络的迭代收敛通过经验回放技术来训练。

本发明利用负载均衡策略实现任务的转移，改善边缘服务器的负载状态，进而提高其资源利用率。其控制目标为多个边缘服务器，考虑边缘服务器的计算任务以及计算能力影响因素描述边缘服务器的状态。

本发明环境中总控制器通过南向接口获知各个边缘服务器的负载值，然后通过北向接口调用基于深度强化学习算法的边缘服务器负载均衡算法制定负载均衡策略，利用包含Tensorflow架构的python环境实现该方法。

本发明在迭代更新的过程中，每次与环境交互过程中，总控制器都将s^t、a^t、s^t+1、r^t,done^t作为五元组存储到记忆池D中。为了保证样本的有效性，当记忆池D中的存储的元组数达到D的大小时，按照队列机制将先存储的数据弹出存储。为了打破样本的关联性，神经网络的训练数据集随机从记忆池D中选择最小样本数量batchsize，使用均方误差损失函数Loss(θ)，通过神经网络的泛型传播更新Q网络的参数θ，目标Q网络的参数θ'通过拷贝Q网络的参数θ更新。

本发明针对不同计算能力和不同计算的边缘服务器进行负载均衡研究，通过本发明中基于深度强化学习算法的边缘服务器的负载均衡方法，边缘服务器的负载均方差值如表格所示：

表1基于深度强化学习的边缘服务器负载均衡对比图

边缘服务器数量	4	5	6	7
					原均方差值	0.91322	0.82474	0.29152	0.80515
本发明的负载均方值	0.01770	0.00415	0.00895	0.10502
					原均时延	2.17006	2.06546	1.91074	2.22423
本发明的平均时延	2.02798	1.94306	1.89383	2.12249

通过表格数据，本发明所描述的基于深度强化学习算法的边缘服务器的平均负载均方值有了明显的改善，同时由于边缘服务器资源利用率的提高降低了边缘服务器任务的处理时延。

在上述实施例中，本发明的实施可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种边缘服务器负载均衡方法，其特征在于，所述边缘服务器负载均衡方法采用深度强化学习的DQN算法，神经网络包括Q网络和目标Q网络，所述边缘服务器负载均衡方法包括以下步骤：

步骤二，构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t ⁺¹)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D；

2.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤一中，所述总控制器收集边缘服务器的计算任务大小，同时考虑边缘服务器的计算能力得到全局内每个边缘服务器的任务的负载状态，根据负载状态建立最小均方差值的负载优化模型，包括：

当边缘服务器的负载超过阈值时，向总控制器发起负载均衡请求，每个边缘服务器m将超过负载阈值部分的任务T_m转移到任意一个总控制器管理的边缘服务器之上；

对于全局边缘服务器的负载均衡优化目标为：

其中，

为M个边缘服务器的平均负载值。

3.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤二中，所述构建多隐层Q网络和目标Q模型，输入分别为状态s^t和某个动作a^t对应的下个状态s^t+1的特征向量，输出值为动作区间A每动作a^t和a^t+1对应的动作价值Q(s^t，a^t)和Q(s^t+1，a^t+1)，同时初始化Q网络和目标Q网络的权值θ和θ'以及记忆池D，包括：

总控制器作为智能体，与其管理范围内的边缘服务器进行交互获得全局负载状态，并对边缘服务器依次制定负载均衡策略进行任务的转移获得新的负载状态；

构建Q网络和目标Q网络，以每个边缘服务器的负载状态作为状态特征向量s^t和下个状态s^t+1作为Q网络和目标Q网络的输入，输出为每种负载决策对应的动作价值Q^t和Q^t+1，并通过经验回放技术作为数据量进行网络训练；

搭建网络架构，确定神经网络每层的神经元数目，激励函数RELU，正态初始化网络的权值θ和θ'，初始化偏置b接近为0的正数，确定用于经验回放技术的记忆池D的容量大小，并清空D进行存储训练经验数据；

总控制器依次对每个边缘服务器制定负载均衡决策，即任务的转移方案；动作区间A表示边缘服务器的能够进行任务转移的动作集合。

4.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤三中，所述序列化决策过程的转化，将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，确定算法的状态、动作以及引导奖赏，并建立状态转移过程，包括：

序列化决策过程将多边缘服务器的负载均衡过程映射为单边缘服务器的顺序决策过程，每次仅仅对一个边缘服务器制定负载均衡策略降低问题求解的复杂度；全局边缘服务器的负载值

映射为状态s^t；

动作为a^t为每个边缘服务器的负载均衡策略，根据负载均衡策略G其动作区间为A映射为单位矩阵I_M；当边缘服务器i制定负载均衡策略a^t＝{a_i1,a_i2,...,a_iM}，执行动作之后每个边缘服务器m的负载转变，则下个状态s^t+1中每个特征值

的状态转移过程为：

来表示：

5.如权利要求4所述边缘服务器负载均衡方法，其特征在于，利用DQN算法改进求解，优化目标为：将负载均方差值最小转为连续奖赏的最大累乘值，形式为：

6.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤四中，所述初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ等DQN相关参数，开始迭代，包括：

初始化迭代轮数EPISODE，每轮迭代的步数STEP，以及折扣因子γ，贪心策略ε、经验池大小D以及训练样本数据集大小batchsize；从1到EPISODE进行每轮迭代，每轮迭代开始时初始化边缘服务器的负载状态s^t；

DQN学习过程中，首先总控制器与其管理的边缘服务器进行交互获得多维状态值，并利用神经网络近似动作价值函数Q；根据引导奖赏来评估动作价值函数，并将Q值映射为相应的动作；最后边缘服务器执行动作，环境更新，总控制器得到下个负载状态，循环以上过程，旨在得到R的最大值，进而得最佳负载均衡策略。

7.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤五中，所述智能体与环境交互获得当前状态s^t，在Q网络输入状态s^t得到每个动作对应的Q(s,a)值，根据贪心策略ε选择最大Q(s,a)值对应的动作a^t，执行动作a^t得到新的状态s^t+1和引导奖赏r^t，并根据新的状态判断本次迭代是否终止done^t，包括：

对于贪心策略，首先通过设置ε∈(0,1)的值，则在选择执行动作时，以概率1-ξ选择当前状态下最大Q值对应的动作a*，以概率ε从动作区间A随机的选择动作增加智能体的探索行为，其中ε随着训练步数的增加逐渐减少；

done为该轮数迭代终止的指标；如果P_t＜1，本轮边缘服务器负载均衡策略的序列化求解结束，即负载状态相比当前状态更差，则done为true；否则done为false；done＝true表示终止并跳出本轮迭代，初始化边缘服务器的负载状态重新开始序列化决策，done＝false表示为终止继续进行本轮迭代。

8.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤六中，所述存储形式为<s^t,a^t,s^t+1,r^t,done^t>元组到记忆池D，当记忆池中元组数量到达一定数量时，开始随机选择batchsize个元组作为样本数据集进行训练，包括：

9.如权利要求1所述边缘服务器负载均衡方法，其特征在于，步骤七中，所述根据样本数据集训练Q网络和目标Q网络，更新Q网络和目标Q网络的θ和θ'，判断是否达到迭代轮数EPISODE结束全部迭代，否则返回步骤五继续进行迭代，包括：

随机选择的样本数据集<s^t,a^t,s^t+1,r^t,done^t>，在Q网络和目标Q网络中分别使用当前状态s^t和下个状态s^t+1作为输入，得到每个动作对应的Q^t值和Q^t+1，根据对应奖赏r^t与Q^t+1计算得目标Q_target：

Q_target＝r_t+γmaxQ(s^t+1,a^t+1)；

使用均方误差函数最小化Q_target和Q^t的损失值Loss(θ)，并通过神经网络的梯度反向传播来更新Q网络的参数θ值，目标Q网络的θ'更新为对θ值的拷贝；计算公式为：

Loss(θ)＝∑(Q_target-Q(s,a；θ))²；

θ＝θ+α▽_θLoss(θ)；

10.一种实施权利要求1～9任意一项所述边缘服务器负载均衡方法的边缘服务器负载均衡系统，其特征在于，所述边缘服务器负载均衡系统包括：