CN116489226A

CN116489226A - 一种服务质量保障的在线资源调度方法

Info

Publication number: CN116489226A
Application number: CN202310457801.XA
Authority: CN
Inventors: 杨静; 罗俊; 张鸿; 王汝言; 吴大鹏; 李职杜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-25

Abstract

本发明涉及一种服务质量保障的在线资源调度方法，属于通信技术领域。该方法研究了边缘服务器资源协调和动态任务调度，目的是依靠现有网络资源实现更高的用户QoS。通过联合网络吞吐量和长期平均响应时延构建了用户QoS评估模型。为了对QoS进行优化，考虑到任务调度的时间连续性，采用一种基于多智能体双向协调网络的在线任务调度算法来进行调度决策的长期奖励学习，以实现长期全局最优的资源协调。相比于集中式学习，多智能体双向协调网络添加了双向循环神经网络作为智能体之间的通信层进行信息交流和暂存，有效降低了复杂性。

Description

一种服务质量保障的在线资源调度方法

技术领域

本发明属于通信技术领域，涉及一种服务质量保障的在线资源调度方法。

背景技术

随着物联网的飞速发展以及各类智能设备的不断普及，各种新兴行业例如工业控制、娱乐行业、智慧城市和智能医疗等产生了大量计算数据，这些数据依赖于实时高效的应用程序来进行处理和分析，例如虚拟现实(Virtual Reality,VR)、自动驾驶、可穿戴设备等。云计算由于计算资源充足，服务运营商已经在云中部署了相关的应用程序，因此可以有效应对各类任务的密集请求。但是由于远程云距离用户较远，产生的通信时延不能保证用户的服务质量(Quality of Service,QoS)。为了应对这一挑战，移动边缘计算(MobileEdge Computing,MEC)通过在靠近用户终端的位置架设边缘云来为用户提供服务，有效降低了通信时延，提升了用户的QoS。同时为了更好地利用边缘云的资源并增强任务处理的灵活性，服务供应商通过将应用程序分解成一系列松散耦合的微服务模块为用户提供轻量化服务。一旦用户产生了请求任务，部署在边缘云上的微服务就可以进行任务处理。

但是由于各类业务的请求量在时空上呈现出动态变化的形式，ES存在着负载不均的问题。这导致了部分服务器资源冗余，而另一部分则过载。为了实现网络中的资源协调，提高ES的资源利用率，有必要将任务调度到邻居ES进行协作处理。而协作调度将会产生额外的时延开销，进一步影响用户QoS。因此，如何在保证QoS的情况下进行协作任务调度以实现高效的资源协调是一个亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种服务质量保障的在线资源调度方法，在保证QoS的情况下进行协作任务调度以实现高效的资源协调。

为达到上述目的，本发明提供如下技术方案：

一种服务质量保障的在线资源调度方法，具体包括以下步骤：

S1：全局QoS评估：结合任务请求情况、微服务部署情况设定任务调度矩阵，并据此对响应时延进行细粒度分析，构建不同应用在时间范围T内的长期平均响应时延模型；结合任务的实时性需求，获取网络吞吐量，联合长期平均响应时延和吞吐量建立QoS评估模型；

S2：长期协作调度：根据ES的任务调度模式和网络QoS建立协同任务调度模型；采用MDP模型对长期连续调度过程进行分析，同时将每个ES视为智能体，智能体之间采用合作博弈模式进行协作决策；

S3：多智能体协作学习：采用双向协调网络BiCNet构建合作通信层，并利用Actor-Critic网络进行智能体和环境的交互，将全局QoS作为每个智能体的奖励，通过对策略和价值的迭代学习获取全局最优解，最后构建协同调度双向协调网络算法实现整体任务调度流程。

进一步，所述步骤S1具体包括以下步骤：

S11：假设时隙t内用户产生的请求集为为请求的种类数；请求k由一个四元组表示为/>其中，/>表示请求所需的微服务类型，/>表示请求的任务数据大小，ζ_k表示请求的时延容忍阈值，/>表示处理完成后的结果数据大小；时隙t内ESi内用户发出的请求k的数量为/>

定义时隙t的调度方案为e_t＝[e_k,i,j]_K×V×V，其中，e_t是一个K×V×V的三维矩阵，矩阵中的元素e_k,i,j表示由ESi调度到ESj的请求k的数量，是一个大于等于零的自然数，其满足约束

S12：根据实际任务调度过程，用户首先将请求上传给最近的ES节点，每个ES接收到当前时隙的所有请求之后，进行ES之间的协作任务调度，完成调度之后，每个ES按照调度结果将相应的任务发送到对应的ES中；对于无法处理的任务，将其发送到远程云，由远程云进行处理；任务在微服务处进行并行处理；任务处理完成后，将结果数据传输回原ES节点，并传送回用户；

S13：协同任务调度的目标是从长期的角度，最大化满足时延容忍阈值的任务数，并进一步最小化任务的ATRL；

对于请求k，如果其ATRL超过了时延容忍阈值ζ_k，则任务将中断；反之，任务将视为已完成，网络吞吐量增加；则时隙t内的网络吞吐量表示为：

在整个时间范围T内，网络中平均每时隙的吞吐量表示为：

S14：主目标是最大化整个时间范围内的吞吐量，同时在此基础上最小化ATRL，则由此构建的QoS评估指标表示为：

θ＝σ·P^ave-(1-σ)·T^ave

式中，σ为权重因子；令e＝[e₁,e₂,...,e_t,...,e_T]为整个时间序列上的调度决策，则协同任务调度问题(Collaborative Task Scheduling Problem，CTSP)表示为：

式中，表示远程云和所有ES节点组成的节点集，/>表示自然数集合。

进一步，步骤S12中，定义各阶段的时延如下：

任务上传时延描述为上传任务数据大小与数据传输速率的比值，用户到ES之间的无线传输速率由香农公式计算得出；用w_i表示ES i的无线信道带宽，SNR_i表示信噪比，则ESi内请求k的任务上传时延为：

任务上传到ES之后，ES按照调度结果进行任务传输，如果j＝0，则代表任务传输到远程云进行处理，用B_i,j表示ESi和ESj之间的链路传输带宽，则调度时延为：

完成调度之后，需要对任务进行处理；定义μ_k为处理请求k的微服务的任务处理速率，h_k,j和y_k,j分别为ESj上当前时隙的微服务k的剩余资源量和处理任务的资源使用量；y_k,j满足约束式：

0＜y_k,j≤h_k,j

如果邻居ES中没有所需微服务，则将任务调度到远程云中处理，即j＝0；用V表示网络中ES数量，则在并行处理的过程下，任务的处理时延表示为：

任务处理完毕，将任务的处理结果传回原ES节点，回传时延为：

最后，用户下载ES节点的处理结果产生一个下载时延表示为：

则在时隙t内，由ESi调度到ESj的请求k的协同处理总时延表示为：

如果ES上没有所需的微服务，则任务需要调度到远程云中处理，即j＝0，上述过程完全不变；如果从长期的角度考虑所有请求，那么K种请求在时间范围T内的长期平均任务响应时延(Average Tsk Response Latency，ATRL)表示为：

进一步，所述步骤S2具体包括以下步骤：

S21：采用一个元组描述协同任务调度的博弈模型；/>表示当前博弈的状态空间，由所有智能体共享；时隙t的网络状态表示为/>其中，为时隙t初始时网络的请求情况，h^t＝[h_1,1,h_1,2,...,h_k,i,...,h_K,V]为时隙t初始时所有ES的剩余微服务资源；ES i决策的动作空间表示为/> 为ESi在时隙t的动作；/>表示状态转移函数；/>表示ESi的奖励函数；

S22：对于ESj上的微服务k，定义第d组正在被占用的资源由一个二元组表示，/>表示占用资源量，/>表示剩余占用时间；令ψ^ooc表示占用资源的集合，则当前时隙开始时，资源使用量y_k,j将被放入占用资源集合/>同时更新所有占用资源的剩余时间：

则下一时隙开始时ESj上的微服务k的剩余资源量表示为：S23：每个ES通过观察当前时刻的环境状态做出自己的调度决策，并得到一个奖励值，则网络全局奖励由所有ES的奖励值的平均值来定义，表示为：式中，r^t表示在状态s^t下，所有智能体采用动作a^t后全局网络得到的奖励值，通过每个智能体i获得的奖励/>平均值来描述；V表示智能体的个数，等于ES数量；ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望/>其中，0≤δ＜1为折扣因子；因此网络在每个时刻的目的就是最大化状态s^t下采用动作a^t的动作价值函数Q^*，表示为：/>全局奖励函数反映出全体ES合作博弈的整体结果，这需要由每个ES的奖励值来共同决定，同时每个ES通过自身的奖励值来决定如何进行协同调度；

S24：根据步骤S11，ESi的奖励值计算为：式中，/>表示在状态s^t下，全局网络采用动作a^t后ESi得到的奖励值，由平均吞吐量和ATRL共同决定；则V个ES对应的动作价值函数表示为：/>通过将ES的奖励值作为ES的动作反馈来进行训练，在一定的学习训练之后，每个ES形成自己的决策模式，在每一时刻，ES通过在决策模式中找到最有利于全局最优的调度决策。

进一步，所述步骤S3具体包括以下步骤：

S31：首先将原始网络展开为由V个子节点组成的网络，并使用时间反向传播来计算反向梯度，对双向协调网络BiCNet进行参数学习；通过将所有智能体的奖励梯度传递到BiCNet网络中以指导智能体的策略，同时通过通信层的反向传播进一步更新BiCNet网络参数θ，对BiCNet网络进行训练；每个智能体的目标为最大化奖励r_i的期望总和其中，/>表示由状态转移函数F^state得到的动作a_θ的状态分布，多智能体的目标为：

由确定性策略梯度定理可知，参数θ对应的策略梯度表示为：

采用确定性非策略Actor-Critic算法进行建模；利用一个Critic函数来估计非策略探索的动作值/>采用平方和损失函数来训练Critic网络，参数化的Critic梯度为/>则参数ξ对应的梯度表示为：

最后，根据参数θ对应的策略梯度和参数ξ对应的梯度，采用随机梯度下降法来迭代优化Actor-Critic网络；

S32：基于上述分析，构建协同调度双向协调网络算法(Cooperative SchedulingBidirectionally-Coordinated Nets，CS-BiCNet)，具体步骤如下：

初始化模型：首先在有效范围内对Actor在线网络参数θ和Critic在线网络参数ξ进行随机取值，并根据θ和ξ确定目标网络参数的初始值，即θ′←θ和ξ′←ξ；初始化经验回放池初始化随机过程ε，以确定动作值；

执行策略：记录训练开始时每个ES的剩余资源状态以及网络请求情况，将其合并为MEC网络初始状态s^t；根据网络初始状态s^t和随机过程ε生成一个策略动作a＝a(s^t)+ε，执行完所有ES的动作之后，更新状态s^t+1＝s(a^t)，并根据步骤S14中所述的QoS评估指标计算奖励值，将状态转移作为经验数据存储到经验回放池/>中；

计算梯度估计：从经验回放池中小批量采样M条数据，并计算出第m条数据中第i个ES的目标价值/>表示为：

同时根据参数θ对应的策略梯度计算Actor网络的策略梯度，表示为：

根据参数ξ对应的梯度计算Critic网络的价值梯度，表示为：

更新目标网络：获得梯度和/>后，采用Adam优化器按照梯度下降法更新在线网络参数θ和ξ，并根据在线网络参数更新目标网络参数，表示为：

θ′＝β·θ+(1-β)·θ′,ξ′＝β·ξ+(1-β)·ξ′式中，β∈(0,1)为学习因子。

本发明的有益效果在于：本发明侧重于QoS优化，从网络全局和长期效益的角度进行动态任务调度以实现高效资源协调。具体来说，针对用户对不同应用发出的请求任务，以长期平均任务响应时延为目标之一，联合ATRL和网络吞吐量共同描述网络全局QoS。针对任务调度的时间连续性，采用MDP模型进行分析。为了促进边缘端的协作，采用双向协调网络作为通信层，并通过Actor-Critic网络实现边缘端与环境之间的交互。通过对动态任务调度策略进行迭代学习，能够保证做出有利于全局优化的任务调度决策。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的网络系统架构图；

图2为本发明动态任务调度的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，本发明所述的服务质量保障的在线资源调度方法，具体包含以下步骤：

步骤1：全局QoS评估：结合任务请求情况、微服务部署情况设定任务调度矩阵，并据此对响应时延进行细粒度分析，构建不同应用在时间范围T内的长期平均响应时延模型。结合任务的实时性需求，获取网络吞吐量，联合长期平均响应时延和吞吐量建立QoS评估模型；

步骤1.1：假设时隙t内用户产生的请求集为为请求的种类数。请求k由一个四元组表示为/>其中，/>表示请求所需的微服务类型，/>表示请求的任务数据大小，ζ_k表示请求的时延容忍阈值，/>表示处理完成后的结果数据大小。时隙t内ESi内用户发出的请求k的数量为/>

定义时隙t的调度方案为e_t＝[e_k,i,j]_K×V×V，其中，e_t是一个K×V×V的三维矩阵，矩阵中的元素e_k,i,j表示由ESi调度到ESj的请求k的数量，是一个大于等于零的自然数，需要满足约束

步骤1.2：根据实际任务调度过程，用户首先将请求上传给最近的ES节点，每个ES接收到当前时隙的所有请求之后，进行ES之间的协作任务调度，完成调度之后，每个ES按照调度结果将相应的任务发送到对应的ES中；对于无法处理的任务，将其发送到远程云，由远程云进行处理。任务在微服务处进行并行处理。任务处理完成后，将结果数据传输回原ES节点，并传送回用户。根据上述分析，定义各阶段的时延如下：

任务上传时延描述为上传任务数据大小与数据传输速率的比值，用户到ES之间的无线传输速率由香农公式计算得出。用w_i表示ES i的无线信道带宽，SNR_i表示信噪比，则ESi内请求k的任务上传时延为：

任务上传到ES之后，ES按照调度结果进行任务传输，注意，如果j＝0，则代表任务传输到远程云进行处理，用B_i,j表示ESi和ESj之间的链路传输带宽，则调度时延为：

完成调度之后，需要对任务进行处理。定义μ_k为处理请求k的微服务的任务处理速率，h_k,j和y_k,j分别为ESj上当前时隙的微服务k的剩余资源量和处理任务的资源使用量。注意，y_k,j必须满足约束式：

0＜y_k,j≤h_k,j

如果邻居ES中没有所需微服务，则需要将任务调度到远程云中处理，即j＝0。用V表示网络中ES数量，则在并行处理的过程下，任务的处理时延表示为：

如果ES上没有所需的微服务，则任务需要调度到远程云中处理，即j＝0，上述过程完全不变。如果从长期的角度考虑所有请求，那么K种请求在时间范围T内的长期平均任务响应时延(Average Tsk Response Latency，ATRL)表示为：

步骤1.3：在网络响应用户请求的过程中，ES期望消耗较少的资源以响应更多的任务请求，同时增强用户的QoS体验。协同任务调度的目标是从长期的角度，最大化满足时延容忍阈值的任务数，并进一步最小化任务的ATRL。

对于请求k，如果其ATRL超过了时延容忍阈值ζ_k，则任务将中断；反之，任务将视为已完成，网络吞吐量增加。则时隙t内的网络吞吐量表示为：

那么在整个时间范围T内，网络中平均每时隙的吞吐量表示为：

步骤1.4：受ES的资源限制，为了提高用户的QoS，需要尽可能增大资源利用率，同时使任务尽可能在ζ_k内被完成，因此主目标是最大化整个时间范围内的吞吐量，同时在此基础上最小化ATRL，则由此构建的QoS评估指标表示为：

θ＝σ·P^ave-(1-σ)·T^ave

式中，σ为权重因子。令e＝[e₁,e₂,...,e_t,...,e_T]为整个时间序列上的调度决策，则协同任务调度问题(Collaborative Task Scheduling Problem，CTSP)表示为：

步骤2：长期协作调度：根据ES的任务调度模式和网络QoS建立协同任务调度模型。由于任务调度过程具有时间连续性，因此采用MDP模型对长期连续调度过程进行分析，同时将每个ES视为智能体，为了有效实现全局最优，智能体之间采用合作博弈模式进行协作决策；

步骤2.1：采用一个元组描述协同任务调度的博弈模型。/>表示当前博弈的状态空间，由所有智能体共享。时隙t的网络状态表示为/>其中，/>为时隙t初始时网络的请求情况，h^t＝[h_1,1,h_1,2,...,h_k,i,...,h_K,V]为时隙t初始时所有ES的剩余微服务资源。ES i决策的动作空间表示为/> 为ESi在时隙t的动作。/>表示状态转移函数。/>表示ESi的奖励函数。

步骤2.2：对于ESj上的微服务k，定义第d组正在被占用的资源由一个二元组表示，/>表示占用资源量，/>表示剩余占用时间。令ψ^ooc表示占用资源的集合，则当前时隙开始时，资源使用量y_k,j将被放入占用资源集合/>同时更新所有占用资源的剩余时间：

则下一时隙开始时ESj上的微服务k的剩余资源量表示为：

步骤2.3：每个ES通过观察当前时刻的环境状态做出自己的调度决策，并得到一个奖励值，则网络全局奖励由所有ES的奖励值的平均值来定义，表示为：

式中，r^t表示在状态s^t下，所有智能体采用动作a^t后全局网络得到的奖励值，通过每个智能体i获得的奖励r_i ^t(s^t,a^t)平均值来描述；V表示智能体的个数，等于ES数量。ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望其中，0≤δ＜1为折扣因子。因此网络在每个时刻的目的就是最大化状态s^t下采用动作a^t的动作价值函数Q^*，表示为：

全局奖励函数可以反映出全体ES合作博弈的整体结果，这需要由每个ES的奖励值来共同决定，同时每个ES通过自身的奖励值来决定如何进行协同调度。

步骤2.4：根据步骤S11，ESi的奖励值可计算为：

式中，r_i ^t(s^t,a^t)表示在状态s^t下，全局网络采用动作a^t后ESi得到的奖励值，由平均吞吐量和ATRL共同决定。则V个ES对应的动作价值函数表示为：

可以通过将ES的奖励值作为ES的动作反馈来进行训练，在一定的学习训练之后，每个ES形成自己的决策模式，因此，在每一时刻，ES可以通过在决策模式中找到最有利于全局最优的调度决策。为了简化表达，从下面开始省略了公式中时隙t的头标符号。

步骤3：多智能体协作学习：为了促进ES之间的合作，采用双向协调网络构建合作通信层，并利用Actor-Critic网络进行智能体和环境的交互，将全局QoS作为每个智能体的奖励，通过对策略和价值的迭代学习获取全局最优解，最后构建协同调度双向协调网络算法实现整体任务调度流程。

步骤3.1：为了对双向协调网络(BiCNet)进行参数学习，首先将原始网络展开为由V个子节点组成的网络，并使用时间反向传播来计算反向梯度。为了对策略网络进行训练，通过将所有智能体的奖励梯度传递到策略网络中以指导智能体的策略，同时通过通信层的反向传播进一步更新策略网络参数θ。则每个智能体的目标为最大化奖励r_i的期望总和其中，/>表示由状态转移函数F^state得到的动作a_θ的状态分布。则多智能体的目标为：

为了在计算过程中减少方差，采用确定性非策略Actor-Critic算法进行建模。利用一个Critic函数来估计非策略探索的动作值/>采用平方和损失函数来训练Critic网络，参数化的Critic梯度为/>则参数ξ对应的梯度表示为：

最后，根据参数θ对应的策略梯度和参数ξ对应的梯度，采用随机梯度下降法来迭代优化Actor-Critic网络。

步骤3.2：基于上述分析，协同调度双向协调网络算法(Cooperative SchedulingBidirectionally-Coordinated Nets，CS-BiCNet)具体步骤如下：

初始化模型：首先在有效范围内对Actor在线网络参数θ和Critic在线网络参数ξ进行随机取值，并根据θ和ξ确定目标网络参数的初始值，即θ′←θ和ξ′←ξ；初始化经验回放池初始化随机过程ε，以确定动作值。

执行策略：记录训练开始时每个ES的剩余资源状态以及网络请求情况，将其合并为MEC网络初始状态s^t。根据网络初始状态s^t和随机过程ε生成一个策略动作a＝a(s^t)+ε，执行完所有ES的动作之后，更新状态s^t+1＝s(a^t)，并根据步骤1.4中所述的QoS评估指标计算奖励值，将状态转移作为经验数据存储到经验回放池/>中。

根据参数ξ对应的梯度计算Critic网络的价值梯度，表示为：

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种服务质量保障的在线资源调度方法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的服务质量保障的在线资源调度方法，其特征在于：所述步骤S1具体包括以下步骤：

在整个时间范围T内，网络中平均每时隙的吞吐量表示为：

式中，σ为权重因子；令e＝[e₁,e₂,...,e_t,...,e_T]为整个时间序列上的调度决策，则协同任务调度问题CTSP表示为：

s.t.C1:

C2:

3.根据权利要求2所述的服务质量保障的在线资源调度方法，其特征在于：步骤S12中，定义各阶段的时延如下：

任务上传时延描述为上传任务数据大小与数据传输速率的比值，用户到ES之间的无线传输速率由香农公式计算得出；用w_i表示ESi的无线信道带宽，SNR_i表示信噪比，则ESi内请求k的任务上传时延为：

0＜y_k,j≤h_k,j

如果ES上没有所需的微服务，则任务需要调度到远程云中处理，即j＝0，上述过程完全不变；如果从长期的角度考虑所有请求，那么K种请求在时间范围T内的长期平均任务响应时延ATRL表示为：

4.根据权利要求1所述的服务质量保障的在线资源调度方法，其特征在于：所述步骤S2具体包括以下步骤：

S21：采用一个元组描述协同任务调度的博弈模型；/>表示当前博弈的状态空间，由所有智能体共享；时隙t的网络状态表示为/>其中，为时隙t初始时网络的请求情况，h^t＝[h_1,1,h_1,2,...,h_k,i,...,h_K,V]为时隙t初始时所有ES的剩余微服务资源；ESi决策的动作空间表示为/> 为ESi在时隙t的动作；/>表示状态转移函数；/>表示ESi的奖励函数；

则下一时隙开始时ESj上的微服务k的剩余资源量表示为：S23：每个ES通过观察当前时刻的环境状态做出自己的调度决策，并得到一个奖励值，则网络全局奖励由所有ES的奖励值的平均值来定义，表示为：

式中，r^t表示在状态s^t下，所有智能体采用动作a^t后全局网络得到的奖励值，通过每个智能体i获得的奖励r_i ^t(s^t,a^t)平均值来描述；V表示智能体的个数，等于ES数量；ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望其中，0≤δ＜1为折扣因子；因此网络在每个时刻的目的就是最大化状态s^t下采用动作a^t的动作价值函数Q^*，表示为：

全局奖励函数反映出全体ES合作博弈的整体结果，这需要由每个ES的奖励值来共同决定，同时每个ES通过自身的奖励值来决定如何进行协同调度；

S24：根据步骤S11，ESi的奖励值计算为：

式中，r_i ^t(s^t,a^t)表示在状态s^t下，全局网络采用动作a^t后ESi得到的奖励值，由平均吞吐量和ATRL共同决定；则V个ES对应的动作价值函数表示为：

通过将ES的奖励值作为ES的动作反馈来进行训练，在一定的学习训练之后，每个ES形成自己的决策模式，在每一时刻，ES通过在决策模式中找到最有利于全局最优的调度决策。

5.根据权利要求1所述的服务质量保障的在线资源调度方法，其特征在于：所述步骤S3具体包括以下步骤：

根据参数ξ对应的梯度计算Critic网络的价值梯度，表示为：

更新目标网络：获得梯度▽θ和▽ξ后，采用Adam优化器按照梯度下降法更新在线网络参数θ和ξ，并根据在线网络参数更新目标网络参数，表示为：