CN116489226A - 一种服务质量保障的在线资源调度方法 - Google Patents
一种服务质量保障的在线资源调度方法 Download PDFInfo
- Publication number
- CN116489226A CN116489226A CN202310457801.XA CN202310457801A CN116489226A CN 116489226 A CN116489226 A CN 116489226A CN 202310457801 A CN202310457801 A CN 202310457801A CN 116489226 A CN116489226 A CN 116489226A
- Authority
- CN
- China
- Prior art keywords
- network
- task
- scheduling
- expressed
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007774 longterm Effects 0.000 claims abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 16
- 239000013257 coordination network Substances 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 40
- 230000009471 action Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 101150073426 Ctsj gene Proteins 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种服务质量保障的在线资源调度方法,属于通信技术领域。该方法研究了边缘服务器资源协调和动态任务调度,目的是依靠现有网络资源实现更高的用户QoS。通过联合网络吞吐量和长期平均响应时延构建了用户QoS评估模型。为了对QoS进行优化,考虑到任务调度的时间连续性,采用一种基于多智能体双向协调网络的在线任务调度算法来进行调度决策的长期奖励学习,以实现长期全局最优的资源协调。相比于集中式学习,多智能体双向协调网络添加了双向循环神经网络作为智能体之间的通信层进行信息交流和暂存,有效降低了复杂性。
Description
技术领域
本发明属于通信技术领域,涉及一种服务质量保障的在线资源调度方法。
背景技术
随着物联网的飞速发展以及各类智能设备的不断普及,各种新兴行业例如工业控制、娱乐行业、智慧城市和智能医疗等产生了大量计算数据,这些数据依赖于实时高效的应用程序来进行处理和分析,例如虚拟现实(Virtual Reality,VR)、自动驾驶、可穿戴设备等。云计算由于计算资源充足,服务运营商已经在云中部署了相关的应用程序,因此可以有效应对各类任务的密集请求。但是由于远程云距离用户较远,产生的通信时延不能保证用户的服务质量(Quality of Service,QoS)。为了应对这一挑战,移动边缘计算(MobileEdge Computing,MEC)通过在靠近用户终端的位置架设边缘云来为用户提供服务,有效降低了通信时延,提升了用户的QoS。同时为了更好地利用边缘云的资源并增强任务处理的灵活性,服务供应商通过将应用程序分解成一系列松散耦合的微服务模块为用户提供轻量化服务。一旦用户产生了请求任务,部署在边缘云上的微服务就可以进行任务处理。
但是由于各类业务的请求量在时空上呈现出动态变化的形式,ES存在着负载不均的问题。这导致了部分服务器资源冗余,而另一部分则过载。为了实现网络中的资源协调,提高ES的资源利用率,有必要将任务调度到邻居ES进行协作处理。而协作调度将会产生额外的时延开销,进一步影响用户QoS。因此,如何在保证QoS的情况下进行协作任务调度以实现高效的资源协调是一个亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种服务质量保障的在线资源调度方法,在保证QoS的情况下进行协作任务调度以实现高效的资源协调。
为达到上述目的,本发明提供如下技术方案:
一种服务质量保障的在线资源调度方法,具体包括以下步骤:
S1:全局QoS评估:结合任务请求情况、微服务部署情况设定任务调度矩阵,并据此对响应时延进行细粒度分析,构建不同应用在时间范围T内的长期平均响应时延模型;结合任务的实时性需求,获取网络吞吐量,联合长期平均响应时延和吞吐量建立QoS评估模型;
S2:长期协作调度:根据ES的任务调度模式和网络QoS建立协同任务调度模型;采用MDP模型对长期连续调度过程进行分析,同时将每个ES视为智能体,智能体之间采用合作博弈模式进行协作决策;
S3:多智能体协作学习:采用双向协调网络BiCNet构建合作通信层,并利用Actor-Critic网络进行智能体和环境的交互,将全局QoS作为每个智能体的奖励,通过对策略和价值的迭代学习获取全局最优解,最后构建协同调度双向协调网络算法实现整体任务调度流程。
进一步,所述步骤S1具体包括以下步骤:
S11:假设时隙t内用户产生的请求集为为请求的种类数;请求k由一个四元组表示为/>其中,/>表示请求所需的微服务类型,/>表示请求的任务数据大小,ζk表示请求的时延容忍阈值,/>表示处理完成后的结果数据大小;时隙t内ESi内用户发出的请求k的数量为/>
定义时隙t的调度方案为et=[ek,i,j]K×V×V,其中,et是一个K×V×V的三维矩阵,矩阵中的元素ek,i,j表示由ESi调度到ESj的请求k的数量,是一个大于等于零的自然数,其满足约束
S12:根据实际任务调度过程,用户首先将请求上传给最近的ES节点,每个ES接收到当前时隙的所有请求之后,进行ES之间的协作任务调度,完成调度之后,每个ES按照调度结果将相应的任务发送到对应的ES中;对于无法处理的任务,将其发送到远程云,由远程云进行处理;任务在微服务处进行并行处理;任务处理完成后,将结果数据传输回原ES节点,并传送回用户;
S13:协同任务调度的目标是从长期的角度,最大化满足时延容忍阈值的任务数,并进一步最小化任务的ATRL;
对于请求k,如果其ATRL超过了时延容忍阈值ζk,则任务将中断;反之,任务将视为已完成,网络吞吐量增加;则时隙t内的网络吞吐量表示为:
在整个时间范围T内,网络中平均每时隙的吞吐量表示为:
S14:主目标是最大化整个时间范围内的吞吐量,同时在此基础上最小化ATRL,则由此构建的QoS评估指标表示为:
θ=σ·Pave-(1-σ)·Tave
式中,σ为权重因子;令e=[e1,e2,...,et,...,eT]为整个时间序列上的调度决策,则协同任务调度问题(Collaborative Task Scheduling Problem,CTSP)表示为:
式中,表示远程云和所有ES节点组成的节点集,/>表示自然数集合。
进一步,步骤S12中,定义各阶段的时延如下:
任务上传时延描述为上传任务数据大小与数据传输速率的比值,用户到ES之间的无线传输速率由香农公式计算得出;用wi表示ES i的无线信道带宽,SNRi表示信噪比,则ESi内请求k的任务上传时延为:
任务上传到ES之后,ES按照调度结果进行任务传输,如果j=0,则代表任务传输到远程云进行处理,用Bi,j表示ESi和ESj之间的链路传输带宽,则调度时延为:
完成调度之后,需要对任务进行处理;定义μk为处理请求k的微服务的任务处理速率,hk,j和yk,j分别为ESj上当前时隙的微服务k的剩余资源量和处理任务的资源使用量;yk,j满足约束式:
0<yk,j≤hk,j
如果邻居ES中没有所需微服务,则将任务调度到远程云中处理,即j=0;用V表示网络中ES数量,则在并行处理的过程下,任务的处理时延表示为:
任务处理完毕,将任务的处理结果传回原ES节点,回传时延为:
最后,用户下载ES节点的处理结果产生一个下载时延表示为:
则在时隙t内,由ESi调度到ESj的请求k的协同处理总时延表示为:
如果ES上没有所需的微服务,则任务需要调度到远程云中处理,即j=0,上述过程完全不变;如果从长期的角度考虑所有请求,那么K种请求在时间范围T内的长期平均任务响应时延(Average Tsk Response Latency,ATRL)表示为:
进一步,所述步骤S2具体包括以下步骤:
S21:采用一个元组描述协同任务调度的博弈模型;/>表示当前博弈的状态空间,由所有智能体共享;时隙t的网络状态表示为/>其中,为时隙t初始时网络的请求情况,ht=[h1,1,h1,2,...,hk,i,...,hK,V]为时隙t初始时所有ES的剩余微服务资源;ES i决策的动作空间表示为/> 为ESi在时隙t的动作;/>表示状态转移函数;/>表示ESi的奖励函数;
S22:对于ESj上的微服务k,定义第d组正在被占用的资源由一个二元组表示,/>表示占用资源量,/>表示剩余占用时间;令ψooc表示占用资源的集合,则当前时隙开始时,资源使用量yk,j将被放入占用资源集合/>同时更新所有占用资源的剩余时间:
则下一时隙开始时ESj上的微服务k的剩余资源量表示为:S23:每个ES通过观察当前时刻的环境状态做出自己的调度决策,并得到一个奖励值,则网络全局奖励由所有ES的奖励值的平均值来定义,表示为:式中,rt表示在状态st下,所有智能体采用动作at后全局网络得到的奖励值,通过每个智能体i获得的奖励/>平均值来描述;V表示智能体的个数,等于ES数量;ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望/>其中,0≤δ<1为折扣因子;因此网络在每个时刻的目的就是最大化状态st下采用动作at的动作价值函数Q*,表示为:/>全局奖励函数反映出全体ES合作博弈的整体结果,这需要由每个ES的奖励值来共同决定,同时每个ES通过自身的奖励值来决定如何进行协同调度;
S24:根据步骤S11,ESi的奖励值计算为:式中,/>表示在状态st下,全局网络采用动作at后ESi得到的奖励值,由平均吞吐量和ATRL共同决定;则V个ES对应的动作价值函数表示为:/>通过将ES的奖励值作为ES的动作反馈来进行训练,在一定的学习训练之后,每个ES形成自己的决策模式,在每一时刻,ES通过在决策模式中找到最有利于全局最优的调度决策。
进一步,所述步骤S3具体包括以下步骤:
S31:首先将原始网络展开为由V个子节点组成的网络,并使用时间反向传播来计算反向梯度,对双向协调网络BiCNet进行参数学习;通过将所有智能体的奖励梯度传递到BiCNet网络中以指导智能体的策略,同时通过通信层的反向传播进一步更新BiCNet网络参数θ,对BiCNet网络进行训练;每个智能体的目标为最大化奖励ri的期望总和其中,/>表示由状态转移函数Fstate得到的动作aθ的状态分布,多智能体的目标为:
由确定性策略梯度定理可知,参数θ对应的策略梯度表示为:
采用确定性非策略Actor-Critic算法进行建模;利用一个Critic函数来估计非策略探索的动作值/>采用平方和损失函数来训练Critic网络,参数化的Critic梯度为/>则参数ξ对应的梯度表示为:
最后,根据参数θ对应的策略梯度和参数ξ对应的梯度,采用随机梯度下降法来迭代优化Actor-Critic网络;
S32:基于上述分析,构建协同调度双向协调网络算法(Cooperative SchedulingBidirectionally-Coordinated Nets,CS-BiCNet),具体步骤如下:
初始化模型:首先在有效范围内对Actor在线网络参数θ和Critic在线网络参数ξ进行随机取值,并根据θ和ξ确定目标网络参数的初始值,即θ′←θ和ξ′←ξ;初始化经验回放池初始化随机过程ε,以确定动作值;
执行策略:记录训练开始时每个ES的剩余资源状态以及网络请求情况,将其合并为MEC网络初始状态st;根据网络初始状态st和随机过程ε生成一个策略动作a=a(st)+ε,执行完所有ES的动作之后,更新状态st+1=s(at),并根据步骤S14中所述的QoS评估指标计算奖励值,将状态转移作为经验数据存储到经验回放池/>中;
计算梯度估计:从经验回放池中小批量采样M条数据,并计算出第m条数据中第i个ES的目标价值/>表示为:
同时根据参数θ对应的策略梯度计算Actor网络的策略梯度,表示为:
根据参数ξ对应的梯度计算Critic网络的价值梯度,表示为:
更新目标网络:获得梯度和/>后,采用Adam优化器按照梯度下降法更新在线网络参数θ和ξ,并根据在线网络参数更新目标网络参数,表示为:
θ′=β·θ+(1-β)·θ′,ξ′=β·ξ+(1-β)·ξ′式中,β∈(0,1)为学习因子。
本发明的有益效果在于:本发明侧重于QoS优化,从网络全局和长期效益的角度进行动态任务调度以实现高效资源协调。具体来说,针对用户对不同应用发出的请求任务,以长期平均任务响应时延为目标之一,联合ATRL和网络吞吐量共同描述网络全局QoS。针对任务调度的时间连续性,采用MDP模型进行分析。为了促进边缘端的协作,采用双向协调网络作为通信层,并通过Actor-Critic网络实现边缘端与环境之间的交互。通过对动态任务调度策略进行迭代学习,能够保证做出有利于全局优化的任务调度决策。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的网络系统架构图;
图2为本发明动态任务调度的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图2,本发明所述的服务质量保障的在线资源调度方法,具体包含以下步骤:
步骤1:全局QoS评估:结合任务请求情况、微服务部署情况设定任务调度矩阵,并据此对响应时延进行细粒度分析,构建不同应用在时间范围T内的长期平均响应时延模型。结合任务的实时性需求,获取网络吞吐量,联合长期平均响应时延和吞吐量建立QoS评估模型;
步骤1.1:假设时隙t内用户产生的请求集为为请求的种类数。请求k由一个四元组表示为/>其中,/>表示请求所需的微服务类型,/>表示请求的任务数据大小,ζk表示请求的时延容忍阈值,/>表示处理完成后的结果数据大小。时隙t内ESi内用户发出的请求k的数量为/>
定义时隙t的调度方案为et=[ek,i,j]K×V×V,其中,et是一个K×V×V的三维矩阵,矩阵中的元素ek,i,j表示由ESi调度到ESj的请求k的数量,是一个大于等于零的自然数,需要满足约束
步骤1.2:根据实际任务调度过程,用户首先将请求上传给最近的ES节点,每个ES接收到当前时隙的所有请求之后,进行ES之间的协作任务调度,完成调度之后,每个ES按照调度结果将相应的任务发送到对应的ES中;对于无法处理的任务,将其发送到远程云,由远程云进行处理。任务在微服务处进行并行处理。任务处理完成后,将结果数据传输回原ES节点,并传送回用户。根据上述分析,定义各阶段的时延如下:
任务上传时延描述为上传任务数据大小与数据传输速率的比值,用户到ES之间的无线传输速率由香农公式计算得出。用wi表示ES i的无线信道带宽,SNRi表示信噪比,则ESi内请求k的任务上传时延为:
任务上传到ES之后,ES按照调度结果进行任务传输,注意,如果j=0,则代表任务传输到远程云进行处理,用Bi,j表示ESi和ESj之间的链路传输带宽,则调度时延为:
完成调度之后,需要对任务进行处理。定义μk为处理请求k的微服务的任务处理速率,hk,j和yk,j分别为ESj上当前时隙的微服务k的剩余资源量和处理任务的资源使用量。注意,yk,j必须满足约束式:
0<yk,j≤hk,j
如果邻居ES中没有所需微服务,则需要将任务调度到远程云中处理,即j=0。用V表示网络中ES数量,则在并行处理的过程下,任务的处理时延表示为:
任务处理完毕,将任务的处理结果传回原ES节点,回传时延为:
最后,用户下载ES节点的处理结果产生一个下载时延表示为:
则在时隙t内,由ESi调度到ESj的请求k的协同处理总时延表示为:
如果ES上没有所需的微服务,则任务需要调度到远程云中处理,即j=0,上述过程完全不变。如果从长期的角度考虑所有请求,那么K种请求在时间范围T内的长期平均任务响应时延(Average Tsk Response Latency,ATRL)表示为:
步骤1.3:在网络响应用户请求的过程中,ES期望消耗较少的资源以响应更多的任务请求,同时增强用户的QoS体验。协同任务调度的目标是从长期的角度,最大化满足时延容忍阈值的任务数,并进一步最小化任务的ATRL。
对于请求k,如果其ATRL超过了时延容忍阈值ζk,则任务将中断;反之,任务将视为已完成,网络吞吐量增加。则时隙t内的网络吞吐量表示为:
那么在整个时间范围T内,网络中平均每时隙的吞吐量表示为:
步骤1.4:受ES的资源限制,为了提高用户的QoS,需要尽可能增大资源利用率,同时使任务尽可能在ζk内被完成,因此主目标是最大化整个时间范围内的吞吐量,同时在此基础上最小化ATRL,则由此构建的QoS评估指标表示为:
θ=σ·Pave-(1-σ)·Tave
式中,σ为权重因子。令e=[e1,e2,...,et,...,eT]为整个时间序列上的调度决策,则协同任务调度问题(Collaborative Task Scheduling Problem,CTSP)表示为:
式中,表示远程云和所有ES节点组成的节点集,/>表示自然数集合。
步骤2:长期协作调度:根据ES的任务调度模式和网络QoS建立协同任务调度模型。由于任务调度过程具有时间连续性,因此采用MDP模型对长期连续调度过程进行分析,同时将每个ES视为智能体,为了有效实现全局最优,智能体之间采用合作博弈模式进行协作决策;
步骤2.1:采用一个元组描述协同任务调度的博弈模型。/>表示当前博弈的状态空间,由所有智能体共享。时隙t的网络状态表示为/>其中,/>为时隙t初始时网络的请求情况,ht=[h1,1,h1,2,...,hk,i,...,hK,V]为时隙t初始时所有ES的剩余微服务资源。ES i决策的动作空间表示为/> 为ESi在时隙t的动作。/>表示状态转移函数。/>表示ESi的奖励函数。
步骤2.2:对于ESj上的微服务k,定义第d组正在被占用的资源由一个二元组表示,/>表示占用资源量,/>表示剩余占用时间。令ψooc表示占用资源的集合,则当前时隙开始时,资源使用量yk,j将被放入占用资源集合/>同时更新所有占用资源的剩余时间:
则下一时隙开始时ESj上的微服务k的剩余资源量表示为:
步骤2.3:每个ES通过观察当前时刻的环境状态做出自己的调度决策,并得到一个奖励值,则网络全局奖励由所有ES的奖励值的平均值来定义,表示为:
式中,rt表示在状态st下,所有智能体采用动作at后全局网络得到的奖励值,通过每个智能体i获得的奖励ri t(st,at)平均值来描述;V表示智能体的个数,等于ES数量。ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望其中,0≤δ<1为折扣因子。因此网络在每个时刻的目的就是最大化状态st下采用动作at的动作价值函数Q*,表示为:
全局奖励函数可以反映出全体ES合作博弈的整体结果,这需要由每个ES的奖励值来共同决定,同时每个ES通过自身的奖励值来决定如何进行协同调度。
步骤2.4:根据步骤S11,ESi的奖励值可计算为:
式中,ri t(st,at)表示在状态st下,全局网络采用动作at后ESi得到的奖励值,由平均吞吐量和ATRL共同决定。则V个ES对应的动作价值函数表示为:
可以通过将ES的奖励值作为ES的动作反馈来进行训练,在一定的学习训练之后,每个ES形成自己的决策模式,因此,在每一时刻,ES可以通过在决策模式中找到最有利于全局最优的调度决策。为了简化表达,从下面开始省略了公式中时隙t的头标符号。
步骤3:多智能体协作学习:为了促进ES之间的合作,采用双向协调网络构建合作通信层,并利用Actor-Critic网络进行智能体和环境的交互,将全局QoS作为每个智能体的奖励,通过对策略和价值的迭代学习获取全局最优解,最后构建协同调度双向协调网络算法实现整体任务调度流程。
步骤3.1:为了对双向协调网络(BiCNet)进行参数学习,首先将原始网络展开为由V个子节点组成的网络,并使用时间反向传播来计算反向梯度。为了对策略网络进行训练,通过将所有智能体的奖励梯度传递到策略网络中以指导智能体的策略,同时通过通信层的反向传播进一步更新策略网络参数θ。则每个智能体的目标为最大化奖励ri的期望总和其中,/>表示由状态转移函数Fstate得到的动作aθ的状态分布。则多智能体的目标为:
由确定性策略梯度定理可知,参数θ对应的策略梯度表示为:
为了在计算过程中减少方差,采用确定性非策略Actor-Critic算法进行建模。利用一个Critic函数来估计非策略探索的动作值/>采用平方和损失函数来训练Critic网络,参数化的Critic梯度为/>则参数ξ对应的梯度表示为:
最后,根据参数θ对应的策略梯度和参数ξ对应的梯度,采用随机梯度下降法来迭代优化Actor-Critic网络。
步骤3.2:基于上述分析,协同调度双向协调网络算法(Cooperative SchedulingBidirectionally-Coordinated Nets,CS-BiCNet)具体步骤如下:
初始化模型:首先在有效范围内对Actor在线网络参数θ和Critic在线网络参数ξ进行随机取值,并根据θ和ξ确定目标网络参数的初始值,即θ′←θ和ξ′←ξ;初始化经验回放池初始化随机过程ε,以确定动作值。
执行策略:记录训练开始时每个ES的剩余资源状态以及网络请求情况,将其合并为MEC网络初始状态st。根据网络初始状态st和随机过程ε生成一个策略动作a=a(st)+ε,执行完所有ES的动作之后,更新状态st+1=s(at),并根据步骤1.4中所述的QoS评估指标计算奖励值,将状态转移作为经验数据存储到经验回放池/>中。
计算梯度估计:从经验回放池中小批量采样M条数据,并计算出第m条数据中第i个ES的目标价值/>表示为:
同时根据参数θ对应的策略梯度计算Actor网络的策略梯度,表示为:
根据参数ξ对应的梯度计算Critic网络的价值梯度,表示为:
更新目标网络:获得梯度和/>后,采用Adam优化器按照梯度下降法更新在线网络参数θ和ξ,并根据在线网络参数更新目标网络参数,表示为:
θ′=β·θ+(1-β)·θ′,ξ′=β·ξ+(1-β)·ξ′式中,β∈(0,1)为学习因子。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种服务质量保障的在线资源调度方法,其特征在于:具体包括以下步骤:
S1:全局QoS评估:结合任务请求情况、微服务部署情况设定任务调度矩阵,并据此对响应时延进行细粒度分析,构建不同应用在时间范围T内的长期平均响应时延模型;结合任务的实时性需求,获取网络吞吐量,联合长期平均响应时延和吞吐量建立QoS评估模型;
S2:长期协作调度:根据ES的任务调度模式和网络QoS建立协同任务调度模型;采用MDP模型对长期连续调度过程进行分析,同时将每个ES视为智能体,智能体之间采用合作博弈模式进行协作决策;
S3:多智能体协作学习:采用双向协调网络BiCNet构建合作通信层,并利用Actor-Critic网络进行智能体和环境的交互,将全局QoS作为每个智能体的奖励,通过对策略和价值的迭代学习获取全局最优解,最后构建协同调度双向协调网络算法实现整体任务调度流程。
2.根据权利要求1所述的服务质量保障的在线资源调度方法,其特征在于:所述步骤S1具体包括以下步骤:
S11:假设时隙t内用户产生的请求集为 为请求的种类数;请求k由一个四元组表示为/>其中,/>表示请求所需的微服务类型,/>表示请求的任务数据大小,ζk表示请求的时延容忍阈值,/>表示处理完成后的结果数据大小;时隙t内ESi内用户发出的请求k的数量为/>
定义时隙t的调度方案为et=[ek,i,j]K×V×V,其中,et是一个K×V×V的三维矩阵,矩阵中的元素ek,i,j表示由ESi调度到ESj的请求k的数量,是一个大于等于零的自然数,其满足约束
S12:根据实际任务调度过程,用户首先将请求上传给最近的ES节点,每个ES接收到当前时隙的所有请求之后,进行ES之间的协作任务调度,完成调度之后,每个ES按照调度结果将相应的任务发送到对应的ES中;对于无法处理的任务,将其发送到远程云,由远程云进行处理;任务在微服务处进行并行处理;任务处理完成后,将结果数据传输回原ES节点,并传送回用户;
S13:协同任务调度的目标是从长期的角度,最大化满足时延容忍阈值的任务数,并进一步最小化任务的ATRL;
对于请求k,如果其ATRL超过了时延容忍阈值ζk,则任务将中断;反之,任务将视为已完成,网络吞吐量增加;则时隙t内的网络吞吐量表示为:
在整个时间范围T内,网络中平均每时隙的吞吐量表示为:
S14:主目标是最大化整个时间范围内的吞吐量,同时在此基础上最小化ATRL,则由此构建的QoS评估指标表示为:
式中,σ为权重因子;令e=[e1,e2,...,et,...,eT]为整个时间序列上的调度决策,则协同任务调度问题CTSP表示为:
s.t.C1:
C2:
式中,表示远程云和所有ES节点组成的节点集,/>表示自然数集合。
3.根据权利要求2所述的服务质量保障的在线资源调度方法,其特征在于:步骤S12中,定义各阶段的时延如下:
任务上传时延描述为上传任务数据大小与数据传输速率的比值,用户到ES之间的无线传输速率由香农公式计算得出;用wi表示ESi的无线信道带宽,SNRi表示信噪比,则ESi内请求k的任务上传时延为:
任务上传到ES之后,ES按照调度结果进行任务传输,如果j=0,则代表任务传输到远程云进行处理,用Bi,j表示ESi和ESj之间的链路传输带宽,则调度时延为:
完成调度之后,需要对任务进行处理;定义μk为处理请求k的微服务的任务处理速率,hk,j和yk,j分别为ESj上当前时隙的微服务k的剩余资源量和处理任务的资源使用量;yk,j满足约束式:
0<yk,j≤hk,j
如果邻居ES中没有所需微服务,则将任务调度到远程云中处理,即j=0;用V表示网络中ES数量,则在并行处理的过程下,任务的处理时延表示为:
任务处理完毕,将任务的处理结果传回原ES节点,回传时延为:
最后,用户下载ES节点的处理结果产生一个下载时延表示为:
则在时隙t内,由ESi调度到ESj的请求k的协同处理总时延表示为:
如果ES上没有所需的微服务,则任务需要调度到远程云中处理,即j=0,上述过程完全不变;如果从长期的角度考虑所有请求,那么K种请求在时间范围T内的长期平均任务响应时延ATRL表示为:
4.根据权利要求1所述的服务质量保障的在线资源调度方法,其特征在于:所述步骤S2具体包括以下步骤:
S21:采用一个元组描述协同任务调度的博弈模型;/>表示当前博弈的状态空间,由所有智能体共享;时隙t的网络状态表示为/>其中,为时隙t初始时网络的请求情况,ht=[h1,1,h1,2,...,hk,i,...,hK,V]为时隙t初始时所有ES的剩余微服务资源;ESi决策的动作空间表示为/> 为ESi在时隙t的动作;/>表示状态转移函数;/>表示ESi的奖励函数;
S22:对于ESj上的微服务k,定义第d组正在被占用的资源由一个二元组表示,/>表示占用资源量,/>表示剩余占用时间;令ψooc表示占用资源的集合,则当前时隙开始时,资源使用量yk,j将被放入占用资源集合/>同时更新所有占用资源的剩余时间:
则下一时隙开始时ESj上的微服务k的剩余资源量表示为:S23:每个ES通过观察当前时刻的环境状态做出自己的调度决策,并得到一个奖励值,则网络全局奖励由所有ES的奖励值的平均值来定义,表示为:
式中,rt表示在状态st下,所有智能体采用动作at后全局网络得到的奖励值,通过每个智能体i获得的奖励ri t(st,at)平均值来描述;V表示智能体的个数,等于ES数量;ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望其中,0≤δ<1为折扣因子;因此网络在每个时刻的目的就是最大化状态st下采用动作at的动作价值函数Q*,表示为:
全局奖励函数反映出全体ES合作博弈的整体结果,这需要由每个ES的奖励值来共同决定,同时每个ES通过自身的奖励值来决定如何进行协同调度;
S24:根据步骤S11,ESi的奖励值计算为:
式中,ri t(st,at)表示在状态st下,全局网络采用动作at后ESi得到的奖励值,由平均吞吐量和ATRL共同决定;则V个ES对应的动作价值函数表示为:
通过将ES的奖励值作为ES的动作反馈来进行训练,在一定的学习训练之后,每个ES形成自己的决策模式,在每一时刻,ES通过在决策模式中找到最有利于全局最优的调度决策。
5.根据权利要求1所述的服务质量保障的在线资源调度方法,其特征在于:所述步骤S3具体包括以下步骤:
S31:首先将原始网络展开为由V个子节点组成的网络,并使用时间反向传播来计算反向梯度,对双向协调网络BiCNet进行参数学习;通过将所有智能体的奖励梯度传递到BiCNet网络中以指导智能体的策略,同时通过通信层的反向传播进一步更新BiCNet网络参数θ,对BiCNet网络进行训练;每个智能体的目标为最大化奖励ri的期望总和其中,/>表示由状态转移函数Fstate得到的动作aθ的状态分布,多智能体的目标为:
由确定性策略梯度定理可知,参数θ对应的策略梯度表示为:
采用确定性非策略Actor-Critic算法进行建模;利用一个Critic函数来估计非策略探索的动作值/>采用平方和损失函数来训练Critic网络,参数化的Critic梯度为/>则参数ξ对应的梯度表示为:
最后,根据参数θ对应的策略梯度和参数ξ对应的梯度,采用随机梯度下降法来迭代优化Actor-Critic网络;
S32:基于上述分析,构建协同调度双向协调网络算法(Cooperative SchedulingBidirectionally-Coordinated Nets,CS-BiCNet),具体步骤如下:
初始化模型:首先在有效范围内对Actor在线网络参数θ和Critic在线网络参数ξ进行随机取值,并根据θ和ξ确定目标网络参数的初始值,即θ′←θ和ξ′←ξ;初始化经验回放池初始化随机过程ε,以确定动作值;
执行策略:记录训练开始时每个ES的剩余资源状态以及网络请求情况,将其合并为MEC网络初始状态st;根据网络初始状态st和随机过程ε生成一个策略动作a=a(st)+ε,执行完所有ES的动作之后,更新状态st+1=s(at),并根据步骤S14中所述的QoS评估指标计算奖励值,将状态转移作为经验数据存储到经验回放池/>中;
计算梯度估计:从经验回放池中小批量采样M条数据,并计算出第m条数据中第i个ES的目标价值/>表示为:
同时根据参数θ对应的策略梯度计算Actor网络的策略梯度,表示为:
根据参数ξ对应的梯度计算Critic网络的价值梯度,表示为:
更新目标网络:获得梯度▽θ和▽ξ后,采用Adam优化器按照梯度下降法更新在线网络参数θ和ξ,并根据在线网络参数更新目标网络参数,表示为:
θ′=β·θ+(1-β)·θ′,ξ′=β·ξ+(1-β)·ξ′式中,β∈(0,1)为学习因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457801.XA CN116489226A (zh) | 2023-04-25 | 2023-04-25 | 一种服务质量保障的在线资源调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457801.XA CN116489226A (zh) | 2023-04-25 | 2023-04-25 | 一种服务质量保障的在线资源调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116489226A true CN116489226A (zh) | 2023-07-25 |
Family
ID=87222806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310457801.XA Pending CN116489226A (zh) | 2023-04-25 | 2023-04-25 | 一种服务质量保障的在线资源调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116489226A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117041330A (zh) * | 2023-10-10 | 2023-11-10 | 三峡高科信息技术有限责任公司 | 一种基于强化学习的边缘微服务细粒度部署方法及系统 |
CN117255126A (zh) * | 2023-08-16 | 2023-12-19 | 广东工业大学 | 基于多目标强化学习的数据密集任务边缘服务组合方法 |
-
2023
- 2023-04-25 CN CN202310457801.XA patent/CN116489226A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117255126A (zh) * | 2023-08-16 | 2023-12-19 | 广东工业大学 | 基于多目标强化学习的数据密集任务边缘服务组合方法 |
CN117041330A (zh) * | 2023-10-10 | 2023-11-10 | 三峡高科信息技术有限责任公司 | 一种基于强化学习的边缘微服务细粒度部署方法及系统 |
CN117041330B (zh) * | 2023-10-10 | 2023-12-15 | 三峡高科信息技术有限责任公司 | 一种基于强化学习的边缘微服务细粒度部署方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Intelligent VNF orchestration and flow scheduling via model-assisted deep reinforcement learning | |
Chen et al. | An intelligent task offloading algorithm (iTOA) for UAV edge computing network | |
CN116489226A (zh) | 一种服务质量保障的在线资源调度方法 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN115190033B (zh) | 一种基于强化学习的云边融合网络任务卸载方法 | |
CN115277689A (zh) | 一种基于分布式联邦学习的云边网络通信优化方法及系统 | |
Qi et al. | Vehicular edge computing via deep reinforcement learning | |
CN115037751B (zh) | 一种无人机辅助的异构车联网任务迁移与资源分配方法 | |
CN115033359A (zh) | 一种基于时延控制的物联代理多任务调度方法和系统 | |
Cho et al. | QoS-aware workload distribution in hierarchical edge clouds: a reinforcement learning approach | |
Tao et al. | Drl-driven digital twin function virtualization for adaptive service response in 6g networks | |
Yan et al. | A task offloading algorithm with cloud edge jointly load balance optimization based on deep reinforcement learning for unmanned surface vehicles | |
Wu et al. | Delay-aware edge-terminal collaboration in green internet of vehicles: A multiagent soft actor-critic approach | |
De Mendoza et al. | Near optimal VNF placement in edge-enabled 6G networks | |
CN113946423A (zh) | 基于图注意力网络的多任务边缘计算调度优化方法 | |
CN114051252A (zh) | 无线接入网中多用户智能发射功率控制方法 | |
CN117202264A (zh) | Mec环境中面向5g网络切片的计算卸载方法 | |
CN116009990B (zh) | 基于宽注意力机制的云边协同元强化学习计算卸载方法 | |
CN112445617A (zh) | 一种基于移动边缘计算的负载策略选择方法及系统 | |
CN116774584A (zh) | 一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法 | |
CN116185523A (zh) | 一种任务卸载和部署的方法 | |
CN116455903A (zh) | 一种利用深度强化学习优化车联网中依赖性任务卸载方法 | |
CN114022731A (zh) | 基于drl的联邦学习节点选择方法 | |
Qu et al. | A game theory based approach for distributed dynamic spectrum access | |
Huang et al. | Optimal service caching, pricing and task partitioning in mobile edge computing federation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |