CN112612610A

CN112612610A - 一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法

Info

Publication number: CN112612610A
Application number: CN202011502510.0A
Authority: CN
Inventors: 周德雨; 何小德; 陈宗朗; 陈永杰
Original assignee: Guangzhou Jingyuan Safety Technology Co ltd
Current assignee: Guangzhou Jingyuan Safety Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-06
Anticipated expiration: 2040-12-18
Also published as: CN112612610B

Abstract

本发明公开了一种基于Actor‑Critic深度强化学习的SOC服务质量保障系统，包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块、QoE评估模块；输入所有用户的任务列表，资源池占用情况、每一个用户的业务负载和当前空闲的资源池编号，以QoE作为效果评估反馈依据，运行Actor‑Critic深度强化学习算法，得到下一时刻用户待执行任务在资源池上的分配方案；根据任务分配方案，通过SOC平台的任务调度接口完成任务调度，指派相应的资源执行特定的用户的特定任务，为所有用户任务列表中罗列的任务寻找一种最优的资源分配方案，按最优的顺序安排用户的任务给资源池中的资源完成服务，使用户的主观质量感受QoE最大化。

Description

一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种基于Actor-Critic深度强化学习的SOC服务质量保障系统及方法。

背景技术

安全运营中心SOC(Security Operations Center)通过云端安全资源为用户提供安全服务，通过大群化模式降低了安全服务成本，并使得安全服务易于获取。这种云服务模式的优势是依靠对云端共享的服务资源的有效调度得以体现的，由于对于用户来说云端资源是统计共享的，因此其可获得的服务质量并不能完全确定，而是在一定的范围内波动。所以，对于SOC安全运营模式如何在有限的云端资源的限制条件下为用户提供达成事先约定的服务质量(SLA，Service Level Agreement)就成为关键技术之一。

目前解决这个问题的方法是为用户群按其期望的服务质量分类，为不同类别的用户群承诺提供不同的服务质量SLA。根据不同用户群的数量及具体SLA指标预留足够的服务资源，形成服务于不同用户群体的服务资源池。在服务资源池内部，通过采集不同服务(如服务器硬件)资源的实际使用情况(如服务器的当前CPU占用率、内存占用率、磁盘空间等等)进行任务调度，避免资源瓶颈的出现。在不同服务资源池之间可以有限地实现共享。

目前也有用深度强化学习算法进行云资源自动分配的方法，采集服务器集群的资源状况及待处理任务情况，以平均任务完成时间等作为优化目标进行最优化资源调配。

基于按用户分群固定或半固定分配资源池的做法有以下缺点：

1.按不同服务质量用户群分割服务资源为独立的或有限共享的资源池，破坏了云服务中通过对资源的充分统计复用而最大程度降低成本的原则。

2.用户按服务质量QoS(Quality of Service)分群，云平台也是按照服务质量QoS的客观指标，如服务响应时间，服务完成时间等对资源进行预留和调度，这些客观的QoS指标虽然和用户的主观感受有关，但仍存在差异，而这种差异会进一步放大依据纯粹客观QoS指标调度资源做法造成的资源浪费。

3.用户更关注的是其对服务质量的主观感受QoE(Quality of Experience，体验质量，用户对设备、网络和系统、应用或业务的质量和性能的主观感受)，而不是服务质量的客观度量。现有的SOC云平台服务提供商往往采用问卷调查的方式了解用户的主观感受，但这样的做法实时性很差，并且无法和云平台资源的调度算法有机结合。

目前用深度强化学习算法进行云资源自动分配的方法有以下缺陷：

其针对的是一般性云服务中功能扁平化资源池的资源调度，无法针对SOC安全运营云平台上依靠业务类型划分的资源池进行最优化分配；

SOC安全运营服务以一个业务序列为单位为用户提供服务，用户的业务质量感知是基于这种业务序列的，现有的算法针对这种业务序列指标实施优化；

最后，现有算法直接使用采集到客观指标作为优化目标，无法体现用户对服务质量的主观感受。

因此，需要对现有的技术进行进一步的改进，提供一种一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，为所有用户任务列表中罗列的任务寻找一种最优的资源分配方案，按最优的顺序安排用户的任务给资源池中的资源完成服务，使用户的主观质量感受QoE最大化。

发明内容

为了解决上述技术问题，本发明提供提出了一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，为所有用户任务列表中罗列的任务寻找一种最优的资源分配方案，按最优的顺序安排用户的任务给资源池中的资源完成服务，使用户的主观质量感受QoE最大化。

为实现上述目的，本发明采取的技术方案如下：一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块和QoE评估模块；

多个所述资源池任务最佳分配模块与所述用户任务生成器和业务任务调度器连接；所述业务任务调度器与多个所述资源池连接；多个所述资源池通过所述业务负载评估模块与多个所述资源池任务最佳分配模块一一对应连接；多个所述资源池通过所述QoE评估模块与多个所述资源池任务最佳分配模块一一对应连接；

所述用户任务生成器根据用户购买的SOC业务包及用户的实时需求，定时生成每一个用户未来时间窗口内的任务列表，并输出到资源池任务最佳分配模块；记第j个用户的任务列表向量为：

T_j＝(t_j1，t_j2…t_jN)，j∈[1，M]，

其中，M表示M个用户任务列表，M≥2且M为整数，N表示N个资源池，N≥2且N为整数，上式中t_jn表示第j个用户在时间窗口内申请使用第n类业务的次数，n∈[1，N]；

所述业务负载评估模块用于实时监测各个资源池，生成每一个用户提交的各类任务的归一化资源负载需求向量，同时，根据各个资源池的资源占用情况形成归一化资源池占用情况向量以及获取当前空闲的资源池编号，并反馈给资源池任务最佳分配模块；所述资源负载需求向量定义为：

CL_j＝(cl_j1，cl_j2…cl_jN)，j∈[1，M]，式中cl_jn表示的是第j个用户申请第n类业务时在云端为其提供一次该业务服务产生的负载，n∈[1，N]；

所述资源池占用情况向量定义为：

SL＝(sl₁，sl₂…sl_N)，式中sl_n表示的是第n个资源池的资源占用情况，n∈[1，N]；

当前空闲的资源池编号为k，k∈[1，N]；

资源池任务最佳分配模块的最佳分配算法由该空闲资源池信号驱动运行；

当所述业务负载评估模块监测到任一资源池k完成了当前的任务有空闲资源为用户提供服务时，定义此时刻为观测停时，当监测到观测停时后，所述业务负载评估模块向相应的资源池k的资源池任务最佳分配模块发送当前相关评估数据并驱动该资源池任务最佳分配模块完成一次最佳分配算法的迭代；

所述QoE评估模块用于实时监测各个资源池内的任务执行情况，从而得出用户对服务质量的主观感知QoE，并输出给资源池任务最佳分配模块；

所述资源池任务分配最佳模块根据用户任务生成器生成的所有用户的任务列表以及业务负载评估模块输出的各个资源池的归一化的资源池占用情况向量SL、每一个用户提交的各类任务的归一化的资源负载需求向量CL_j和当前空闲的资源池编号K，以QoE评估模块输出的主观感知QoE作为效果评估反馈依据，运行Actor-Critic深度强化学习算法，得到下一时刻用户待执行任务在资源池上的分配方案；

所述业务任务调度器用于接收来自资源池任务最佳分配模块输出的任务分配方案，通过任务调度接口完成任务调度，并指派相应的资源池执行任务分配方案中指定的用户任务。

优选地，所述时间窗口记为W，所述时间窗口是一个可配置的常数，该时间窗口的大小根据服务质量保障系统的算力决定，缺省配置下W为24小时。

优选地，所述QoE评估模块根据每个用户订购服务时的业务打包情况以及用户实时业务申请的情况，为每一个用户统计时间窗口W内完整业务序列的质量指标QoS；

所述质量指标QoS包括每个用户每个业务任务的平均等待时间和平均执行时间；

所述质量指标QoS进行算数平均后记为QoS_j，j∈[1，M]，经过韦伯-费希纳定律运算获得各用户对业务质量主观感受的定量评价QoE_j，j∈[1，M]；

M个QoE评估向量输出给任务最佳分配模块作为深度强化学习的反馈信号。

优选地，所述资源占用情况包括CPU、RAM以及HD的占用情况。

优选地，所述最佳分配算法的状态向量由所有用户的任务预期负载向量和资源负载向量拼接而成；

用户的任务预期负载向量定义为：

CTL_j＝(cl_j1·t_j1，cl_j2·t_j2...cl_jN·t_jN)，j∈[1，M]；

所述最佳分配算法的状态向量定义为：

S_t＝[CTL₁(t)，CTL₂(t)…CTL_N(t)，SL(t)]，

其中，t表示最佳分配算法被驱动进行迭代的时刻。

优选地，所述最佳分配算法中的策略生成网络以状态向量S_t作为输入，以策略向量为输出，所述策略向量定义为：π(a)＝(p₁，p₂…P_M)，其中的成分p_i表示选择第i个用户的任务使用资源的概率，即所述策略向量所有成分之和为1，i∈[1，M]；所述最佳分配算法中的策略概率取样器根据策略生成网络给出的策略向量，依据各用户任务被选中使用资源的概率选中一个具体的用户任务作为当前状态下的动作

所述最佳分配算法中的V值估计网络以状态向量S_t为输入，以价值V_t作为输出，根据公式

计算损失，用于训练策略生成网络；其中n为每一轮训练的样本数量；根据公式

计算损失，用于训练V值估计网络；其中n为每一轮训练的样本数量，

为动作评值，其中λ、n均为系统可配置参数，式中V_t和V_t+1分别为V值估计网络在时刻t和时刻t+1时的输出值。

优选地，所述动作评值

由QoE评估模块按如下方法计算得出：

a.QoE评估模块统计各资源池内各用户任务执行的实际情况，即统计用户完成时间窗口内所有任务的等待时间CW_j(t)及任务执行时的持续时间CH_j(t)；

b.根据韦伯-费希纳定律，人类主观感受和客观物理刺激的关系为

进而得出

式中s为测量得到的客观物理刺激的量，s₀为客观物理刺激的基本参考值，P为人的主观感受值，k为常数；运用在主观感知QoE中，综合CW_j(t)及CH_j(t)两个客观QoS指标，以QoE评估模块输出的用户的主观感知QoE作为

其中，k₁，k₂，CW₀，CH₀均为系统可配置参数。

本发明还提供了一种基于Actor-Critic深度强化学习的SOC服务质量保障方法，其特征在于，该方法应用于如上述任意一项所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统中，该方法包括以下步骤：

S1：根据用户购买的SOC业务包及用户的实时需求，定时生成每一个用户未来时间窗口内的任务列表；

S2：实时监测各个资源池并生成每一个用户提交的各类任务的归一化的资源负载需求向量，同时，根据各个资源池的资源占用情况形成归一化的资源池占用情况向量以及获取当前空闲的资源池编号；

S3：实时监测各个资源池内任务执行情况，得出用户对服务质量的主观感知QoE；

S4：根据所有用户的任务列表、各个资源池的归一化的资源池占用情况向量、每一个用户提交的各类任务的归一化的资源负载需求向量和当前空闲的资源池编号，以主观感知QoE作为效果评估反馈依据，运行Actor-Critic深度强化学习算法，得到下一时刻用户待执行任务在资源池上的分配方案；

S5：根据任务分配方案，通过SOC平台的任务调度接口完成任务调度，并指派相应的资源池执行任务分配方案中指定的用户任务。

优选地，所述时间窗口是一个可配置的常数，所述时间窗口的大小根据服务质量保障系统的算力决定，在缺省配置下所述时间窗口为24小时。

与现有技术相比，本发明有益的技术效果：

(1)在多类型业务专用资源池的SOC云业务运行环境中，使用基于Actor-Critic深度强化学习的方法，对用户的动态业务需求进行渐进全局最优化任务-资源池分配；

(2)采用多Actor-Critic最优分配模块并行运行的方式，每一个模块服务于一个特定类型业务的资源池，解决了空间维数过大的问题；

(3)提出了基于业务负载评估模块观测停时的方法驱动算法的迭代，优化了最优分配算法的运行效率；

(4)云端资源分配的目标不是针对云端资源的利用率进行优化，而是直接以最优化用户主观业务感受QoE作为优化目标；

(5)使用韦伯-费希纳定律对云端业务的QoE进行定义和计算，避免了通过人工问卷调查的方式造成的效率低下和无法实时进行自动化优化的问题；

(6)由于QoS和QoE存在非线性关系，而用户主观感受是系统的真正优化目标，使用QoE作为算法的训练参数能够更好地收敛于最优方案。

附图说明

图1为本发明的系统结构图；

图2为本发明的资源池k的任务最佳分配模块的分配算法结构图；

图3本发明的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明，但本发明要求保护的范围并不局限于下述具体实施例。

如图1所示，一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块、QoE(Quality of Experience，是指用户对设备、网络和系统、应用或业务的质量和性能的主观感受)评估模块。

多个所述资源池任务最佳分配模块与所述用户任务生成器和业务任务调度器连接；所述业务任务调度器与多个所述资源池连接；多个所述资源池通过所述业务负载评估模块与多个所述资源池任务最佳分配模块一一对应连接；多个所述资源池通过所述QoE评估模块与多个所述资源池任务最佳分配模块一一对应连接。

SOC(片上系统，是一个有专用目标的集成电路，包含完整系统并有嵌入软件的全部内容)平台由于其业务的特殊性，为用户提供的服务是按不同业务进行打包的，例如系统漏洞扫描、系统基线扫描、日志管理等等，每种业务必须由专门的资源池提供服务。本实施例中记提供N种安全业务，这N种业务在SOC平台中分别由N(N≥2且N为整数)个资源池提供服务，第i个资源池记为S_i，i∈[1，N]。

SOC平台的用户生成器根据用户的业务请求定期生成任务列表，记第j个用户的任务列表为：T_j＝(t_j1，t_j2…t_jN)，j∈[1，M]，M表示M个用户任务列表，M≥2且M为整数，式中t_jn表示第j个用户在时间窗口内申请使用第n类业务的次数，n∈[1，N]；本方案的目标就是为所有M个用户任务列表中罗列的任务寻找一种最优的资源分配方案，按最优的顺序安排用户的任务给资源池中的资源完成服务，最优化的目标是用户的主观质量感受QoE最大化。

SOC平台的用户任务生成器根据用户购买的SOC业务包及用户的实时需求，定时生成每一个用户未来时间窗口W内的任务列表T_j＝(t_j1，t_j2…t_jN)，j∈[1，M]。该时间窗口W是一个可配置的常数，该时间窗口的大小根据服务质量保障系统的算力决定，缺省配置下W为24小时。

所述业务负载评估模块实时监测各个资源池并生成以下数据反馈给最佳分配模块：

(1)每一个资源池的资源占用情况，包括CPU/RAM(磁盘)/HD(硬盘)的占用情况，形成归一化的资源池占用情况向量SL＝(sl₁，sl₂…sl_N)，式中sl_n表示的是第n个资源池的资源占用情况，n∈[1，N]；

(2)每一个用户提交的各类任务的归一化的资源负载需求向量：

CL_j＝(cl_j1，cl_j2…cl_jN)，j∈[1，M]，式中cl_jn表示的是第j个用户申请第n类业务时在云端为其提供一次该业务服务产生的负载，n∈[1，N]。

(3)当前空闲的资源池编号k，k∈[1，N]；

资源池任务最佳分配模块的最佳分配算法是由这个空闲资源池信号驱动运行的，即当所述业务负载评估模块监测到任一资源池k完成了当前的任务有空闲资源为用户提供服务时，定义此时刻为观测停时，当监测到观测停时后，所述业务负载评估模块向资源池k的资源池任务最佳分配模块发送当前相关评估数据并驱动该资源池任务最佳分配模块完成一次最佳分配算法的迭代。

所述QoE评估模块实时监测各个资源池内任务执行情况，从而得出用户对服务质量的主观感知QoE；因为SOC安全运营中心服务的特殊性，用户的服务是由时间窗口内特定业务序列组成的，因此QoE也由一个时间窗口内完整的业务序列的统计值计算得来；QoE评估模块根据每个用户订购服务时的业务打包情况以及用户实时业务申请的情况，为每一个用户统计时间窗口W内完整业务序列的质量指标QoS，质量指标QoS包括每个用户每个业务任务的平均等待时间和平均执行时间，进行算数平均后记为QoS_j，j∈[1，M]，不完整的业务序列不予统计。再经过韦伯-费希纳定律运算获得各用户对业务质量主观感受的定量评价QoE_j，j∈[1，M]，这M个QoE评估向量输出给资源池任务最佳分配模块作为深度强化学习的反馈信号。

每一个资源池任务最佳分配模块针对一个资源池，在该资源池可以接纳下一个任务的时候，判断将哪一个有该类业务需求的用户的任务调度进入资源池以进行服务；资源池任务最佳分配模块的最佳分配算法根据任务生成器生成的所有用户的任务列表，以及业务负载评估模块输出的每一个资源池的归一化的资源占用情况向量SL、每一个用户提交的各类任务的归一化的资源负载需求向量CL_j以及当前空闲的资源池编号K，以QoE评估模块输出的数据作为算法的效果评估反馈依据，运行Actor-Critic深度强化学习算法，得到下一时刻用户待执行任务在资源池i上的分配方案，i∈[1，N]。

如图2所示，所述最佳分配算法的任务分配原理如下：

1.用户任务生成器产生的向量T_j＝(t_j1，t_j2…t_jn)，j∈[1，M]中，每一个分量表示该用户在时间窗口内申请使用分量所对应的业务的次数，而每一个用户的任务归一化的资源负载需求向量CL_j表示的是用户申请某一类业务时在云端为其提供一次该业务服务产生的负载情况，所以作为最佳分配算法的状态组成部分之一；用户的任务预期负载向量定义为：

CTL_j＝(cl_j1·t_j1，cl_j2·t_j2...cl_jN·t_jN)，j∈[1，M]；

最佳分配算法的状态向量定义为S_t，状态向量S_t由所有用户的任务预期负载向量和资源负载向量拼接而成，即

S_t＝[CTL₁(t)，CTL₂(t)…CTL_N(t)，SL(t)]，

其中，t表示最佳分配算法被驱动进行迭代的时刻；

2.策略生成网络以状态向量S_t作为输入，以策略向量π(a)＝(p₁，p₂，p_i，…P_M)为输出，该向量中的成分p_i(i∈[1，M])表示选择第i个用户的任务使用资源的概率，所以该向量所有成分之和为一；

3.策略概率取样器根据策略生成网络给出的策略向量，依据各用户任务被选中使用资源的概率选中一个具体的用户任务作为当前状态下的动作

4.V值估计网络以状态向量S_t为输入，以价值V_t作为输出；

5.根据公式

计算损失，用于训练策略生成网络；

根据公式

计算损失，用于训练V值估计网络；

其中n为每一轮训练的样本数量，

为动作评值，且λ、n均为系统可配置参数；式中V_t和V_t+1分别为V值估计网络在时刻t和时刻t+1时的输出值。

6.所述动作评值

由QoE评估模块按如下方法计算提供：

a.所述QoE评估模块统计各资源池内各用户任务执行的实际情况，即统计用户完成时间窗口内所有任务的等待时间CW_j(t)及任务执行时的持续时间CH_j(t)。之所以要统计后者，是因为安全运营中心SOC提供的安全类服务在执行期间，会影响用户的网络或信息资产的正常运行，进而影响用户的主观感受；

所示，进而得出

式中s为测量得到的客观物理刺激的量，s₀为客观物理刺激的基本参考值，P为人的主观感受值，k为常数；运用在主观感知QoE中，综合CW_j(t)及CH_j(t)两个客观QoS指标，以QoE评估模块输出的用户的主观感知QoE作为动作评值

其中，k₁，k₂，CW₀，CH₀均为系统可配置参数。

所述业务任务调度器接收来自资源池任务最佳分配模块输出的任务分配方案，通过SOC平台的任务调度接口完成任务调度，指派相应的资源池执行任务分配方案中指定的用户任务。

如图3所示，本发明还提供了一种基于Actor-Critic深度强化学习的SOC服务质量保障方法，该方法应用于上述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统中，该方法包括以下步骤：

S1：根据用户购买的SOC业务包及用户的实时需求，定时生成每一个用户未来时间窗口内的任务列表；所述时间窗口是一个可配置的常数，该时间窗口的大小根据服务质量保障系统的算力决定，缺省配置下所述时间窗口为24小时；

S2：实时监测各个资源池并生成每一个用户的任务归一化的资源负载需求向量，同时，根据各个资源池的资源占用情况形成归一化的资源池占用情况向量以及获取当前空闲的资源池编号；所述资源池的资源占用情况包括CPU/RAM(磁盘)/HD(硬盘)等的占用情况；

S3：实时监测各个资源池内任务执行情况，从而得出用户对服务质量的主观感知QoE；

S4：根据所有用户的任务列表、各个资源池的归一化的资源池占用情况向量、每一个用户的任务归一化的资源负载需求向量和当前空闲的资源池编号，以主观感知QoE作为效果评估反馈依据，运行Actor-Critic深度强化学习算法，得到下一时刻用户待执行任务在资源池上的分配方案；

与现有技术相比，本发明有益的技术效果：

(3)提出了基于业务负载评估模块观测停时的方法驱动算法的迭代，为优化最优分配算法的运行效率；

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对发明构成任何限制。

Claims

1.一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，包括用户任务生成器、多个资源池、多个资源池任务最佳分配模块、业务任务调度器、业务负载评估模块和QoE评估模块；

T_j＝(t_j1，t_j2…t_jN)，j∈[1，M]，

所述资源池占用情况向量定义为：

SL＝(sl₁，sl₂…sl_N)，式中sln表示的是第n个资源池的资源占用情况，n∈[1，N]；

当前空闲的资源池编号为k，k∈[1，N]；

所述资源池任务分配最佳模块根据用户任务生成器生成的所有用户的任务列表以及业务负载评估模块输出的各个资源池的归一化的资源池占用情况向量SL、每一个用户提交的各类任务的归一化的资源负载需求向量CL_j和当前的资源池编号K，以QoE评估模块输出的主观感知QoE作为效果评估反馈依据，运行Actor-Critic深度强化学习算法，得到下一时刻用户待执行任务在资源池上的分配方案；

2.如权利要求1所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，所述时间窗口记为W，所述时间窗口是一个可配置的常数，该时间窗口的大小根据服务质量保障系统的算力决定，缺省配置下W为24小时。

3.如权利要求2所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，所述QoE评估模块根据每个用户订购服务时的业务打包情况以及用户实时业务申请的情况，为每一个用户统计时间窗口W内完整业务序列的质量指标QoS；

4.如权利要求3所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，所述资源占用情况包括CPU、RAM以及HD的占用情况。

5.如权利要求4所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，所述最佳分配算法的状态向量由所有用户的任务预期负载向量和资源负载向量拼接而成；

用户的任务预期负载向量定义为：

CTL_j＝(cl_j1·tj₁，cl_j2·tj₂...cl_jN·t_jN)，j∈[1，M]；

所述最佳分配算法的状态向量定义为：

S_t＝[CTL₁(t)，CTL₂(t)…CTL_N(t)，SL(t)]，

其中，t表示最佳分配算法被驱动进行迭代的时刻。

6.如权利要求5所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，所述最佳分配算法中的策略生成网络以状态向量S_t作为输入，以策略向量为输出，所述策略向量定义为：π(a)＝(p₁，p₂…P_M)，其中的成分p_i表示选择第i个用户的任务使用资源的概率，即所述策略向量所有成分之和为1，i∈[1，M]；所述最佳分配算法中的策略概率取样器根据策略生成网络给出的策略向量，依据各用户任务被选中使用资源的概率选中一个具体的用户任务作为当前状态下的动作

7.如权利要求6所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统，其特征在于，所述动作评值

由QoE评估模块按如下方法计算得出：

a.QoE评估模块统计各资源池内各用户任务执行的实际情况，即统计用户完成时间窗口内所有任务的等待时间记为及任务执行时的持续时间，所述等待时间记为CW_j(t)，所述持续时间记为CH_j(t)；

进而得出

其中，k₁，k₂，CW₀，CH₀均为系统可配置参数。

8.一种基于Actor-Critic深度强化学习的SOC服务质量保障方法，其特征在于，该方法应用于如权利要求1-7任意一项所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障系统中，该方法包括以下步骤：

9.如权利要求8所述的一种基于Actor-Critic深度强化学习的SOC服务质量保障方法，其特征在于，所述时间窗口是一个可配置的常数，所述时间窗口的大小根据服务质量保障系统的算力决定，在缺省配置下所述时间窗口为24小时。