CN112612610A - 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法 - Google Patents

一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法 Download PDF

Info

Publication number
CN112612610A
CN112612610A CN202011502510.0A CN202011502510A CN112612610A CN 112612610 A CN112612610 A CN 112612610A CN 202011502510 A CN202011502510 A CN 202011502510A CN 112612610 A CN112612610 A CN 112612610A
Authority
CN
China
Prior art keywords
task
user
resource pool
service
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011502510.0A
Other languages
English (en)
Other versions
CN112612610B (zh
Inventor
周德雨
何小德
陈宗朗
陈永杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jingyuan Safety Technology Co ltd
Original Assignee
Guangzhou Jingyuan Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jingyuan Safety Technology Co ltd filed Critical Guangzhou Jingyuan Safety Technology Co ltd
Priority to CN202011502510.0A priority Critical patent/CN112612610B/zh
Publication of CN112612610A publication Critical patent/CN112612610A/zh
Application granted granted Critical
Publication of CN112612610B publication Critical patent/CN112612610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于Actor‑Critic深度强化学习的SOC服务质量保障系统,包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块、QoE评估模块;输入所有用户的任务列表,资源池占用情况、每一个用户的业务负载和当前空闲的资源池编号,以QoE作为效果评估反馈依据,运行Actor‑Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池上的分配方案;根据任务分配方案,通过SOC平台的任务调度接口完成任务调度,指派相应的资源执行特定的用户的特定任务,为所有用户任务列表中罗列的任务寻找一种最优的资源分配方案,按最优的顺序安排用户的任务给资源池中的资源完成服务,使用户的主观质量感受QoE最大化。

Description

一种基于Actor-Critic深度强化学习的SOC服务质量保障系 统及方法
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法。
背景技术
安全运营中心SOC(Security Operations Center)通过云端安全资源为用户提供安全服务,通过大群化模式降低了安全服务成本,并使得安全服务易于获取。这种云服务模式的优势是依靠对云端共享的服务资源的有效调度得以体现的,由于对于用户来说云端资源是统计共享的,因此其可获得的服务质量并不能完全确定,而是在一定的范围内波动。所以,对于SOC安全运营模式如何在有限的云端资源的限制条件下为用户提供达成事先约定的服务质量(SLA,Service Level Agreement)就成为关键技术之一。
目前解决这个问题的方法是为用户群按其期望的服务质量分类,为不同类别的用户群承诺提供不同的服务质量SLA。根据不同用户群的数量及具体SLA指标预留足够的服务资源,形成服务于不同用户群体的服务资源池。在服务资源池内部,通过采集不同服务(如服务器硬件)资源的实际使用情况(如服务器的当前CPU占用率、内存占用率、磁盘空间等等)进行任务调度,避免资源瓶颈的出现。在不同服务资源池之间可以有限地实现共享。
目前也有用深度强化学习算法进行云资源自动分配的方法,采集服务器集群的资源状况及待处理任务情况,以平均任务完成时间等作为优化目标进行最优化资源调配。
基于按用户分群固定或半固定分配资源池的做法有以下缺点:
1.按不同服务质量用户群分割服务资源为独立的或有限共享的资源池,破坏了云服务中通过对资源的充分统计复用而最大程度降低成本的原则。
2.用户按服务质量QoS(Quality of Service)分群,云平台也是按照服务质量QoS的客观指标,如服务响应时间,服务完成时间等对资源进行预留和调度,这些客观的QoS指标虽然和用户的主观感受有关,但仍存在差异,而这种差异会进一步放大依据纯粹客观QoS指标调度资源做法造成的资源浪费。
3.用户更关注的是其对服务质量的主观感受QoE(Quality of Experience,体验质量,用户对设备、网络和系统、应用或业务的质量和性能的主观感受),而不是服务质量的客观度量。现有的SOC云平台服务提供商往往采用问卷调查的方式了解用户的主观感受,但这样的做法实时性很差,并且无法和云平台资源的调度算法有机结合。
目前用深度强化学习算法进行云资源自动分配的方法有以下缺陷:
其针对的是一般性云服务中功能扁平化资源池的资源调度,无法针对SOC安全运营云平台上依靠业务类型划分的资源池进行最优化分配;
SOC安全运营服务以一个业务序列为单位为用户提供服务,用户的业务质量感知是基于这种业务序列的,现有的算法针对这种业务序列指标实施优化;
最后,现有算法直接使用采集到客观指标作为优化目标,无法体现用户对服务质量的主观感受。
因此,需要对现有的技术进行进一步的改进,提供一种一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,为所有用户任务列表中罗列的任务寻找一种最优的资源分配方案,按最优的顺序安排用户的任务给资源池中的资源完成服务,使用户的主观质量感受QoE最大化。
发明内容
为了解决上述技术问题,本发明提供提出了一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,为所有用户任务列表中罗列的任务寻找一种最优的资源分配方案,按最优的顺序安排用户的任务给资源池中的资源完成服务,使用户的主观质量感受QoE最大化。
为实现上述目的,本发明采取的技术方案如下:一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块和QoE评估模块;
多个所述资源池任务最佳分配模块与所述用户任务生成器和业务任务调度器连接;所述业务任务调度器与多个所述资源池连接;多个所述资源池通过所述业务负载评估模块与多个所述资源池任务最佳分配模块一一对应连接;多个所述资源池通过所述QoE评估模块与多个所述资源池任务最佳分配模块一一对应连接;
所述用户任务生成器根据用户购买的SOC业务包及用户的实时需求,定时生成每一个用户未来时间窗口内的任务列表,并输出到资源池任务最佳分配模块;记第j个用户的任务列表向量为:
Tj=(tj1,tj2…tjN),j∈[1,M],
其中,M表示M个用户任务列表,M≥2且M为整数,N表示N个资源池,N≥2且N为整数,上式中tjn表示第j个用户在时间窗口内申请使用第n类业务的次数,n∈[1,N];
所述业务负载评估模块用于实时监测各个资源池,生成每一个用户提交的各类任务的归一化资源负载需求向量,同时,根据各个资源池的资源占用情况形成归一化资源池占用情况向量以及获取当前空闲的资源池编号,并反馈给资源池任务最佳分配模块;所述资源负载需求向量定义为:
CLj=(clj1,clj2…cljN),j∈[1,M],式中cljn表示的是第j个用户申请第n类业务时在云端为其提供一次该业务服务产生的负载,n∈[1,N];
所述资源池占用情况向量定义为:
SL=(sl1,sl2…slN),式中sln表示的是第n个资源池的资源占用情况,n∈[1,N];
当前空闲的资源池编号为k,k∈[1,N];
资源池任务最佳分配模块的最佳分配算法由该空闲资源池信号驱动运行;
当所述业务负载评估模块监测到任一资源池k完成了当前的任务有空闲资源为用户提供服务时,定义此时刻为观测停时,当监测到观测停时后,所述业务负载评估模块向相应的资源池k的资源池任务最佳分配模块发送当前相关评估数据并驱动该资源池任务最佳分配模块完成一次最佳分配算法的迭代;
所述QoE评估模块用于实时监测各个资源池内的任务执行情况,从而得出用户对服务质量的主观感知QoE,并输出给资源池任务最佳分配模块;
所述资源池任务分配最佳模块根据用户任务生成器生成的所有用户的任务列表以及业务负载评估模块输出的各个资源池的归一化的资源池占用情况向量SL、每一个用户提交的各类任务的归一化的资源负载需求向量CLj和当前空闲的资源池编号K,以QoE评估模块输出的主观感知QoE作为效果评估反馈依据,运行Actor-Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池上的分配方案;
所述业务任务调度器用于接收来自资源池任务最佳分配模块输出的任务分配方案,通过任务调度接口完成任务调度,并指派相应的资源池执行任务分配方案中指定的用户任务。
优选地,所述时间窗口记为W,所述时间窗口是一个可配置的常数,该时间窗口的大小根据服务质量保障系统的算力决定,缺省配置下W为24小时。
优选地,所述QoE评估模块根据每个用户订购服务时的业务打包情况以及用户实时业务申请的情况,为每一个用户统计时间窗口W内完整业务序列的质量指标QoS;
所述质量指标QoS包括每个用户每个业务任务的平均等待时间和平均执行时间;
所述质量指标QoS进行算数平均后记为QoSj,j∈[1,M],经过韦伯-费希纳定律运算获得各用户对业务质量主观感受的定量评价QoEj,j∈[1,M];
M个QoE评估向量输出给任务最佳分配模块作为深度强化学习的反馈信号。
优选地,所述资源占用情况包括CPU、RAM以及HD的占用情况。
优选地,所述最佳分配算法的状态向量由所有用户的任务预期负载向量和资源负载向量拼接而成;
用户的任务预期负载向量定义为:
CTLj=(clj1·tj1,clj2·tj2...cljN·tjN),j∈[1,M];
所述最佳分配算法的状态向量定义为:
St=[CTL1(t),CTL2(t)…CTLN(t),SL(t)],
其中,t表示最佳分配算法被驱动进行迭代的时刻。
优选地,所述最佳分配算法中的策略生成网络以状态向量St作为输入,以策略向量为输出,所述策略向量定义为:π(a)=(p1,p2…PM),其中的成分pi表示选择第i个用户的任务使用资源的概率,即所述策略向量所有成分之和为1,i∈[1,M];所述最佳分配算法中的策略概率取样器根据策略生成网络给出的策略向量,依据各用户任务被选中使用资源的概率选中一个具体的用户任务作为当前状态下的动作
Figure BDA0002844021450000041
所述最佳分配算法中的V值估计网络以状态向量St为输入,以价值Vt作为输出,根据公式
Figure BDA0002844021450000051
计算损失,用于训练策略生成网络;其中n为每一轮训练的样本数量;根据公式
Figure BDA0002844021450000052
计算损失,用于训练V值估计网络;其中n为每一轮训练的样本数量,
Figure BDA0002844021450000053
为动作评值,其中λ、n均为系统可配置参数,式中Vt和Vt+1分别为V值估计网络在时刻t和时刻t+1时的输出值。
优选地,所述动作评值
Figure BDA0002844021450000054
由QoE评估模块按如下方法计算得出:
a.QoE评估模块统计各资源池内各用户任务执行的实际情况,即统计用户完成时间窗口内所有任务的等待时间CWj(t)及任务执行时的持续时间CHj(t);
b.根据韦伯-费希纳定律,人类主观感受和客观物理刺激的关系为
Figure BDA0002844021450000055
进而得出
Figure BDA0002844021450000056
式中s为测量得到的客观物理刺激的量,s0为客观物理刺激的基本参考值,P为人的主观感受值,k为常数;运用在主观感知QoE中,综合CWj(t)及CHj(t)两个客观QoS指标,以QoE评估模块输出的用户的主观感知QoE作为
Figure BDA0002844021450000057
Figure BDA0002844021450000058
其中,k1,k2,CW0,CH0均为系统可配置参数。
本发明还提供了一种基于Actor-Critic深度强化学习的SOC服务质量保障方法,其特征在于,该方法应用于如上述任意一项所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统中,该方法包括以下步骤:
S1:根据用户购买的SOC业务包及用户的实时需求,定时生成每一个用户未来时间窗口内的任务列表;
S2:实时监测各个资源池并生成每一个用户提交的各类任务的归一化的资源负载需求向量,同时,根据各个资源池的资源占用情况形成归一化的资源池占用情况向量以及获取当前空闲的资源池编号;
S3:实时监测各个资源池内任务执行情况,得出用户对服务质量的主观感知QoE;
S4:根据所有用户的任务列表、各个资源池的归一化的资源池占用情况向量、每一个用户提交的各类任务的归一化的资源负载需求向量和当前空闲的资源池编号,以主观感知QoE作为效果评估反馈依据,运行Actor-Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池上的分配方案;
S5:根据任务分配方案,通过SOC平台的任务调度接口完成任务调度,并指派相应的资源池执行任务分配方案中指定的用户任务。
优选地,所述时间窗口是一个可配置的常数,所述时间窗口的大小根据服务质量保障系统的算力决定,在缺省配置下所述时间窗口为24小时。
与现有技术相比,本发明有益的技术效果:
(1)在多类型业务专用资源池的SOC云业务运行环境中,使用基于Actor-Critic深度强化学习的方法,对用户的动态业务需求进行渐进全局最优化任务-资源池分配;
(2)采用多Actor-Critic最优分配模块并行运行的方式,每一个模块服务于一个特定类型业务的资源池,解决了空间维数过大的问题;
(3)提出了基于业务负载评估模块观测停时的方法驱动算法的迭代,优化了最优分配算法的运行效率;
(4)云端资源分配的目标不是针对云端资源的利用率进行优化,而是直接以最优化用户主观业务感受QoE作为优化目标;
(5)使用韦伯-费希纳定律对云端业务的QoE进行定义和计算,避免了通过人工问卷调查的方式造成的效率低下和无法实时进行自动化优化的问题;
(6)由于QoS和QoE存在非线性关系,而用户主观感受是系统的真正优化目标,使用QoE作为算法的训练参数能够更好地收敛于最优方案。
附图说明
图1为本发明的系统结构图;
图2为本发明的资源池k的任务最佳分配模块的分配算法结构图;
图3本发明的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明,但本发明要求保护的范围并不局限于下述具体实施例。
如图1所示,一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块、QoE(Quality of Experience,是指用户对设备、网络和系统、应用或业务的质量和性能的主观感受)评估模块。
多个所述资源池任务最佳分配模块与所述用户任务生成器和业务任务调度器连接;所述业务任务调度器与多个所述资源池连接;多个所述资源池通过所述业务负载评估模块与多个所述资源池任务最佳分配模块一一对应连接;多个所述资源池通过所述QoE评估模块与多个所述资源池任务最佳分配模块一一对应连接。
SOC(片上系统,是一个有专用目标的集成电路,包含完整系统并有嵌入软件的全部内容)平台由于其业务的特殊性,为用户提供的服务是按不同业务进行打包的,例如系统漏洞扫描、系统基线扫描、日志管理等等,每种业务必须由专门的资源池提供服务。本实施例中记提供N种安全业务,这N种业务在SOC平台中分别由N(N≥2且N为整数)个资源池提供服务,第i个资源池记为Si,i∈[1,N]。
SOC平台的用户生成器根据用户的业务请求定期生成任务列表,记第j个用户的任务列表为:Tj=(tj1,tj2…tjN),j∈[1,M],M表示M个用户任务列表,M≥2且M为整数,式中tjn表示第j个用户在时间窗口内申请使用第n类业务的次数,n∈[1,N];本方案的目标就是为所有M个用户任务列表中罗列的任务寻找一种最优的资源分配方案,按最优的顺序安排用户的任务给资源池中的资源完成服务,最优化的目标是用户的主观质量感受QoE最大化。
SOC平台的用户任务生成器根据用户购买的SOC业务包及用户的实时需求,定时生成每一个用户未来时间窗口W内的任务列表Tj=(tj1,tj2…tjN),j∈[1,M]。该时间窗口W是一个可配置的常数,该时间窗口的大小根据服务质量保障系统的算力决定,缺省配置下W为24小时。
所述业务负载评估模块实时监测各个资源池并生成以下数据反馈给最佳分配模块:
(1)每一个资源池的资源占用情况,包括CPU/RAM(磁盘)/HD(硬盘)的占用情况,形成归一化的资源池占用情况向量SL=(sl1,sl2…slN),式中sln表示的是第n个资源池的资源占用情况,n∈[1,N];
(2)每一个用户提交的各类任务的归一化的资源负载需求向量:
CLj=(clj1,clj2…cljN),j∈[1,M],式中cljn表示的是第j个用户申请第n类业务时在云端为其提供一次该业务服务产生的负载,n∈[1,N]。
(3)当前空闲的资源池编号k,k∈[1,N];
资源池任务最佳分配模块的最佳分配算法是由这个空闲资源池信号驱动运行的,即当所述业务负载评估模块监测到任一资源池k完成了当前的任务有空闲资源为用户提供服务时,定义此时刻为观测停时,当监测到观测停时后,所述业务负载评估模块向资源池k的资源池任务最佳分配模块发送当前相关评估数据并驱动该资源池任务最佳分配模块完成一次最佳分配算法的迭代。
所述QoE评估模块实时监测各个资源池内任务执行情况,从而得出用户对服务质量的主观感知QoE;因为SOC安全运营中心服务的特殊性,用户的服务是由时间窗口内特定业务序列组成的,因此QoE也由一个时间窗口内完整的业务序列的统计值计算得来;QoE评估模块根据每个用户订购服务时的业务打包情况以及用户实时业务申请的情况,为每一个用户统计时间窗口W内完整业务序列的质量指标QoS,质量指标QoS包括每个用户每个业务任务的平均等待时间和平均执行时间,进行算数平均后记为QoSj,j∈[1,M],不完整的业务序列不予统计。再经过韦伯-费希纳定律运算获得各用户对业务质量主观感受的定量评价QoEj,j∈[1,M],这M个QoE评估向量输出给资源池任务最佳分配模块作为深度强化学习的反馈信号。
每一个资源池任务最佳分配模块针对一个资源池,在该资源池可以接纳下一个任务的时候,判断将哪一个有该类业务需求的用户的任务调度进入资源池以进行服务;资源池任务最佳分配模块的最佳分配算法根据任务生成器生成的所有用户的任务列表,以及业务负载评估模块输出的每一个资源池的归一化的资源占用情况向量SL、每一个用户提交的各类任务的归一化的资源负载需求向量CLj以及当前空闲的资源池编号K,以QoE评估模块输出的数据作为算法的效果评估反馈依据,运行Actor-Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池i上的分配方案,i∈[1,N]。
如图2所示,所述最佳分配算法的任务分配原理如下:
1.用户任务生成器产生的向量Tj=(tj1,tj2…tjn),j∈[1,M]中,每一个分量表示该用户在时间窗口内申请使用分量所对应的业务的次数,而每一个用户的任务归一化的资源负载需求向量CLj表示的是用户申请某一类业务时在云端为其提供一次该业务服务产生的负载情况,所以作为最佳分配算法的状态组成部分之一;用户的任务预期负载向量定义为:
CTLj=(clj1·tj1,clj2·tj2...cljN·tjN),j∈[1,M];
最佳分配算法的状态向量定义为St,状态向量St由所有用户的任务预期负载向量和资源负载向量拼接而成,即
St=[CTL1(t),CTL2(t)…CTLN(t),SL(t)],
其中,t表示最佳分配算法被驱动进行迭代的时刻;
2.策略生成网络以状态向量St作为输入,以策略向量π(a)=(p1,p2,pi,…PM)为输出,该向量中的成分pi(i∈[1,M])表示选择第i个用户的任务使用资源的概率,所以该向量所有成分之和为一;
3.策略概率取样器根据策略生成网络给出的策略向量,依据各用户任务被选中使用资源的概率选中一个具体的用户任务作为当前状态下的动作
Figure BDA0002844021450000091
4.V值估计网络以状态向量St为输入,以价值Vt作为输出;
5.根据公式
Figure BDA0002844021450000092
计算损失,用于训练策略生成网络;
根据公式
Figure BDA0002844021450000093
计算损失,用于训练V值估计网络;
其中n为每一轮训练的样本数量,
Figure BDA0002844021450000094
为动作评值,且λ、n均为系统可配置参数;式中Vt和Vt+1分别为V值估计网络在时刻t和时刻t+1时的输出值。
6.所述动作评值
Figure BDA0002844021450000095
由QoE评估模块按如下方法计算提供:
a.所述QoE评估模块统计各资源池内各用户任务执行的实际情况,即统计用户完成时间窗口内所有任务的等待时间CWj(t)及任务执行时的持续时间CHj(t)。之所以要统计后者,是因为安全运营中心SOC提供的安全类服务在执行期间,会影响用户的网络或信息资产的正常运行,进而影响用户的主观感受;
b.根据韦伯-费希纳定律,人类主观感受和客观物理刺激的关系为
Figure BDA0002844021450000096
所示,进而得出
Figure BDA0002844021450000097
式中s为测量得到的客观物理刺激的量,s0为客观物理刺激的基本参考值,P为人的主观感受值,k为常数;运用在主观感知QoE中,综合CWj(t)及CHj(t)两个客观QoS指标,以QoE评估模块输出的用户的主观感知QoE作为动作评值
Figure BDA0002844021450000101
Figure BDA0002844021450000102
其中,k1,k2,CW0,CH0均为系统可配置参数。
所述业务任务调度器接收来自资源池任务最佳分配模块输出的任务分配方案,通过SOC平台的任务调度接口完成任务调度,指派相应的资源池执行任务分配方案中指定的用户任务。
如图3所示,本发明还提供了一种基于Actor-Critic深度强化学习的SOC服务质量保障方法,该方法应用于上述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统中,该方法包括以下步骤:
S1:根据用户购买的SOC业务包及用户的实时需求,定时生成每一个用户未来时间窗口内的任务列表;所述时间窗口是一个可配置的常数,该时间窗口的大小根据服务质量保障系统的算力决定,缺省配置下所述时间窗口为24小时;
S2:实时监测各个资源池并生成每一个用户的任务归一化的资源负载需求向量,同时,根据各个资源池的资源占用情况形成归一化的资源池占用情况向量以及获取当前空闲的资源池编号;所述资源池的资源占用情况包括CPU/RAM(磁盘)/HD(硬盘)等的占用情况;
S3:实时监测各个资源池内任务执行情况,从而得出用户对服务质量的主观感知QoE;
S4:根据所有用户的任务列表、各个资源池的归一化的资源池占用情况向量、每一个用户的任务归一化的资源负载需求向量和当前空闲的资源池编号,以主观感知QoE作为效果评估反馈依据,运行Actor-Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池上的分配方案;
S5:根据任务分配方案,通过SOC平台的任务调度接口完成任务调度,并指派相应的资源池执行任务分配方案中指定的用户任务。
与现有技术相比,本发明有益的技术效果:
(1)在多类型业务专用资源池的SOC云业务运行环境中,使用基于Actor-Critic深度强化学习的方法,对用户的动态业务需求进行渐进全局最优化任务-资源池分配;
(2)采用多Actor-Critic最优分配模块并行运行的方式,每一个模块服务于一个特定类型业务的资源池,解决了空间维数过大的问题;
(3)提出了基于业务负载评估模块观测停时的方法驱动算法的迭代,为优化最优分配算法的运行效率;
(4)云端资源分配的目标不是针对云端资源的利用率进行优化,而是直接以最优化用户主观业务感受QoE作为优化目标;
(5)使用韦伯-费希纳定律对云端业务的QoE进行定义和计算,避免了通过人工问卷调查的方式造成的效率低下和无法实时进行自动化优化的问题;
(6)由于QoS和QoE存在非线性关系,而用户主观感受是系统的真正优化目标,使用QoE作为算法的训练参数能够更好地收敛于最优方案。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对发明构成任何限制。

Claims (9)

1.一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块和QoE评估模块;
多个所述资源池任务最佳分配模块与所述用户任务生成器和业务任务调度器连接;所述业务任务调度器与多个所述资源池连接;多个所述资源池通过所述业务负载评估模块与多个所述资源池任务最佳分配模块一一对应连接;多个所述资源池通过所述QoE评估模块与多个所述资源池任务最佳分配模块一一对应连接;
所述用户任务生成器根据用户购买的SOC业务包及用户的实时需求,定时生成每一个用户未来时间窗口内的任务列表,并输出到资源池任务最佳分配模块;记第j个用户的任务列表向量为:
Tj=(tj1,tj2…tjN),j∈[1,M],
其中,M表示M个用户任务列表,M≥2且M为整数,N表示N个资源池,N≥2且N为整数,上式中tjn表示第j个用户在时间窗口内申请使用第n类业务的次数,n∈[1,N];
所述业务负载评估模块用于实时监测各个资源池,生成每一个用户提交的各类任务的归一化资源负载需求向量,同时,根据各个资源池的资源占用情况形成归一化资源池占用情况向量以及获取当前空闲的资源池编号,并反馈给资源池任务最佳分配模块;所述资源负载需求向量定义为:
CLj=(clj1,clj2…cljN),j∈[1,M],式中cljn表示的是第j个用户申请第n类业务时在云端为其提供一次该业务服务产生的负载,n∈[1,N];
所述资源池占用情况向量定义为:
SL=(sl1,sl2…slN),式中sln表示的是第n个资源池的资源占用情况,n∈[1,N];
当前空闲的资源池编号为k,k∈[1,N];
资源池任务最佳分配模块的最佳分配算法由该空闲资源池信号驱动运行;
当所述业务负载评估模块监测到任一资源池k完成了当前的任务有空闲资源为用户提供服务时,定义此时刻为观测停时,当监测到观测停时后,所述业务负载评估模块向相应的资源池k的资源池任务最佳分配模块发送当前相关评估数据并驱动该资源池任务最佳分配模块完成一次最佳分配算法的迭代;
所述QoE评估模块用于实时监测各个资源池内的任务执行情况,从而得出用户对服务质量的主观感知QoE,并输出给资源池任务最佳分配模块;
所述资源池任务分配最佳模块根据用户任务生成器生成的所有用户的任务列表以及业务负载评估模块输出的各个资源池的归一化的资源池占用情况向量SL、每一个用户提交的各类任务的归一化的资源负载需求向量CLj和当前的资源池编号K,以QoE评估模块输出的主观感知QoE作为效果评估反馈依据,运行Actor-Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池上的分配方案;
所述业务任务调度器用于接收来自资源池任务最佳分配模块输出的任务分配方案,通过任务调度接口完成任务调度,并指派相应的资源池执行任务分配方案中指定的用户任务。
2.如权利要求1所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,所述时间窗口记为W,所述时间窗口是一个可配置的常数,该时间窗口的大小根据服务质量保障系统的算力决定,缺省配置下W为24小时。
3.如权利要求2所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,所述QoE评估模块根据每个用户订购服务时的业务打包情况以及用户实时业务申请的情况,为每一个用户统计时间窗口W内完整业务序列的质量指标QoS;
所述质量指标QoS包括每个用户每个业务任务的平均等待时间和平均执行时间;
所述质量指标QoS进行算数平均后记为QoSj,j∈[1,M],经过韦伯-费希纳定律运算获得各用户对业务质量主观感受的定量评价QoEj,j∈[1,M];
M个QoE评估向量输出给任务最佳分配模块作为深度强化学习的反馈信号。
4.如权利要求3所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,所述资源占用情况包括CPU、RAM以及HD的占用情况。
5.如权利要求4所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,所述最佳分配算法的状态向量由所有用户的任务预期负载向量和资源负载向量拼接而成;
用户的任务预期负载向量定义为:
CTLj=(clj1·tj1,clj2·tj2...cljN·tjN),j∈[1,M];
所述最佳分配算法的状态向量定义为:
St=[CTL1(t),CTL2(t)…CTLN(t),SL(t)],
其中,t表示最佳分配算法被驱动进行迭代的时刻。
6.如权利要求5所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,所述最佳分配算法中的策略生成网络以状态向量St作为输入,以策略向量为输出,所述策略向量定义为:π(a)=(p1,p2…PM),其中的成分pi表示选择第i个用户的任务使用资源的概率,即所述策略向量所有成分之和为1,i∈[1,M];所述最佳分配算法中的策略概率取样器根据策略生成网络给出的策略向量,依据各用户任务被选中使用资源的概率选中一个具体的用户任务作为当前状态下的动作
Figure FDA0002844021440000038
所述最佳分配算法中的V值估计网络以状态向量St为输入,以价值Vt作为输出,根据公式
Figure FDA0002844021440000031
计算损失,用于训练策略生成网络;其中n为每一轮训练的样本数量;根据公式
Figure FDA0002844021440000032
计算损失,用于训练V值估计网络;其中n为每一轮训练的样本数量,
Figure FDA0002844021440000033
为动作评值,其中λ、n均为系统可配置参数,式中Vt和Vt+1分别为V值估计网络在时刻t和时刻t+1时的输出值。
7.如权利要求6所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统,其特征在于,所述动作评值
Figure FDA0002844021440000039
由QoE评估模块按如下方法计算得出:
a.QoE评估模块统计各资源池内各用户任务执行的实际情况,即统计用户完成时间窗口内所有任务的等待时间记为及任务执行时的持续时间,所述等待时间记为CWj(t),所述持续时间记为CHj(t);
b.根据韦伯-费希纳定律,人类主观感受和客观物理刺激的关系为
Figure FDA0002844021440000034
进而得出
Figure FDA0002844021440000035
式中s为测量得到的客观物理刺激的量,s0为客观物理刺激的基本参考值,P为人的主观感受值,k为常数;运用在主观感知QoE中,综合CWj(t)及CHj(t)两个客观QoS指标,以QoE评估模块输出的用户的主观感知QoE作为
Figure FDA0002844021440000036
Figure FDA0002844021440000037
其中,k1,k2,CW0,CH0均为系统可配置参数。
8.一种基于Actor-Critic深度强化学习的SOC服务质量保障方法,其特征在于,该方法应用于如权利要求1-7任意一项所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统中,该方法包括以下步骤:
S1:根据用户购买的SOC业务包及用户的实时需求,定时生成每一个用户未来时间窗口内的任务列表;
S2:实时监测各个资源池并生成每一个用户提交的各类任务的归一化的资源负载需求向量,同时,根据各个资源池的资源占用情况形成归一化的资源池占用情况向量以及获取当前空闲的资源池编号;
S3:实时监测各个资源池内任务执行情况,得出用户对服务质量的主观感知QoE;
S4:根据所有用户的任务列表、各个资源池的归一化的资源池占用情况向量、每一个用户提交的各类任务的归一化的资源负载需求向量和当前空闲的资源池编号,以主观感知QoE作为效果评估反馈依据,运行Actor-Critic深度强化学习算法,得到下一时刻用户待执行任务在资源池上的分配方案;
S5:根据任务分配方案,通过SOC平台的任务调度接口完成任务调度,并指派相应的资源池执行任务分配方案中指定的用户任务。
9.如权利要求8所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障方法,其特征在于,所述时间窗口是一个可配置的常数,所述时间窗口的大小根据服务质量保障系统的算力决定,在缺省配置下所述时间窗口为24小时。
CN202011502510.0A 2020-12-18 2020-12-18 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法 Active CN112612610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011502510.0A CN112612610B (zh) 2020-12-18 2020-12-18 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011502510.0A CN112612610B (zh) 2020-12-18 2020-12-18 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法

Publications (2)

Publication Number Publication Date
CN112612610A true CN112612610A (zh) 2021-04-06
CN112612610B CN112612610B (zh) 2021-08-03

Family

ID=75240879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011502510.0A Active CN112612610B (zh) 2020-12-18 2020-12-18 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法

Country Status (1)

Country Link
CN (1) CN112612610B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756352A (zh) * 2022-04-29 2022-07-15 苏州浪潮智能科技有限公司 一种调度服务器计算资源的方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957780A (zh) * 2010-08-17 2011-01-26 中国电子科技集团公司第二十八研究所 一种基于资源状态信息的网格任务调度处理器及方法
WO2018020306A1 (en) * 2016-07-29 2018-02-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for resource-aware and time-critical iot frameworks
CN109857546A (zh) * 2019-01-03 2019-06-07 武汉理工大学 基于Lyapunov优化的多服务器移动边缘计算卸载方法及装置
US20200068440A1 (en) * 2018-08-22 2020-02-27 Verizon Patent And Licesing Inc. Systems and methods for hybrid management of an in-premises network
CN111240701A (zh) * 2019-12-31 2020-06-05 重庆大学 一种端-边-云协同计算的任务卸载优化方法
CN111711666A (zh) * 2020-05-27 2020-09-25 梁宏斌 一种基于强化学习的车联网云计算资源优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957780A (zh) * 2010-08-17 2011-01-26 中国电子科技集团公司第二十八研究所 一种基于资源状态信息的网格任务调度处理器及方法
WO2018020306A1 (en) * 2016-07-29 2018-02-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for resource-aware and time-critical iot frameworks
US20200068440A1 (en) * 2018-08-22 2020-02-27 Verizon Patent And Licesing Inc. Systems and methods for hybrid management of an in-premises network
CN109857546A (zh) * 2019-01-03 2019-06-07 武汉理工大学 基于Lyapunov优化的多服务器移动边缘计算卸载方法及装置
CN111240701A (zh) * 2019-12-31 2020-06-05 重庆大学 一种端-边-云协同计算的任务卸载优化方法
CN111711666A (zh) * 2020-05-27 2020-09-25 梁宏斌 一种基于强化学习的车联网云计算资源优化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756352A (zh) * 2022-04-29 2022-07-15 苏州浪潮智能科技有限公司 一种调度服务器计算资源的方法、装置及介质

Also Published As

Publication number Publication date
CN112612610B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
US10452451B2 (en) Systems and methods for scheduling of workload-aware jobs on multi-clouds
CN102667724B (zh) 用于动态管理加速器资源的方法和系统
EP3048774B1 (en) Service processing method, system and device
Park et al. GRAF: A graph neural network based proactive resource allocation framework for SLO-oriented microservices
US8352951B2 (en) Method and apparatus for utility-based dynamic resource allocation in a distributed computing system
US20170255496A1 (en) Method for scheduling data flow task and apparatus
CN102724103B (zh) 代理服务器、分层次网络系统及分布式工作负载管理方法
Tani et al. Smarter round robin scheduling algorithm for cloud computing and big data
CN109788315A (zh) 视频转码方法、装置及系统
US20070250630A1 (en) Method and a system of generating and evaluating potential resource allocations for an application
CN103064744B (zh) 一种基于SLA的面向多层Web应用的资源优化方法
CN104572302B (zh) 一种实现资源分配的方法及装置
CN105022668B (zh) 一种作业调度方法及系统
Qiu et al. Probabilistic demand allocation for cloud service brokerage
Kowsigan et al. An efficient performance evaluation model for the resource clusters in cloud environment using continuous time Markov chain and Poisson process
CN112612610B (zh) 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法
CN117827456A (zh) 算力资源调度方法、装置、电子设备和存储介质
Giagkos et al. Darly: Deep Reinforcement Learning for QoS-aware scheduling under resource heterogeneity Optimizing serverless video analytics
CN117707763A (zh) 分层算力调度方法、系统、设备及存储介质
Farooq et al. Adaptive and resilient revenue maximizing dynamic resource allocation and pricing for cloud-enabled IoT systems
Mills et al. Can economics-based resource allocation prove effective in a computation marketplace?
CN117135130A (zh) 服务器控制方法、装置、电子设备及存储介质
Baldoss et al. Optimal Resource Allocation and Quality of Service Prediction in Cloud.
Ray et al. Is high performance computing (HPC) ready to handle big data?
Selvi et al. Trust based grid scheduling algorithm for commercial grids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant