CN115878295B

CN115878295B - 基于深度强化学习的软件定义安全中台调度方法

Info

Publication number: CN115878295B
Application number: CN202310191174.XA
Authority: CN
Inventors: 邱日轩; 孙欣; 李元诚; 肖子洋; 彭超; 郑富永; 傅裕; 游闽; 井思桐
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-30
Anticipated expiration: 2043-03-02
Also published as: CN115878295A

Abstract

本发明公开了基于深度强化学习的软件定义安全中台调度方法，所述方法包括以下步骤：将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中；通过深度强化学习结合云计算技术提高安全中台的实时匹配和动态适应能力；生成满足QoS目标的安全中台实时资源调度策略。本发明提出的方法不但保证负载均衡，还提高了18.7%的服务质量，降低了34.2%的平均响应时间，而且具有很好的鲁棒性更适用于实时环境。

Description

基于深度强化学习的软件定义安全中台调度方法

技术领域

本发明涉及软件定义调度技术领域，具体涉及基于深度强化学习的软件定义安全中台调度方法。

背景技术

近年来，在新基建、数字化转型浪潮下，信息接入终端设备种类不断丰富，物联网、边缘计算、机器学习技术飞速发展，互联网与人类生活日益密切，数据面临的风险更加复杂多元，安全业务的碎片化越来越严重，碎片化的安全需求与安全场景是近年来网络安全所面临的巨大挑战之一，碎片化难题也使得安全防护手段与业务场景不匹配的矛盾日益凸显，安全产品的服务质量和实时响应能力越来越受到重视。

现有技术存在以下不足：软件定义安全场景中的服务质量（QoS）实时优化方案，因安全防护手段与业务场景不匹配造成适用困难和性能下降。

发明内容

本发明的目的是提供基于深度强化学习的软件定义安全中台调度方法，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：基于深度强化学习的软件定义安全中台调度方法，所述方法包括以下步骤：

S1：将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中；

S2：通过深度强化学习结合云计算技术提高安全中台的实时匹配和动态适应能力；

S3：生成满足QoS目标的安全中台实时资源调度策略。

在一个优选的实施方式中，所述软件定义安全中台云模型包括用户、安全应用平面、控制平面、安全中台平面、基础设施平面，控制平面包含DRL调度器、应用管理模块和信息收集器，信息收集器包括资源监视器和作业监视器，用于收集中台资源池中的安全中台资源和前台作业信息。

在一个优选的实施方式中，用户在安全应用平面通过使用终端安全产品，以连续作业请求的方式提交用户需求；

控制平面通过对用户的请求解析，分析作业请求包括资源利用率、计算能力、内存、所需的响应时间、QoS；

安全中台平面部署到公有云中，并将安全中台资源利用IaaS、PaaS、SaaS技术建模封装成虚拟机。

在一个优选的实施方式中，软件定义安全中台的前台安全业务以作业调度的形式在中台资源池中选择合适的安全中台资源，包括以下步骤：

当一个作业到达时，控制平面资源调度模块的调度器在中台资源池寻找安全中台资源虚拟机分配作业，并执行请求的作业；

作业调度器根据用户提交的QoS要求做出决策。

在一个优选的实施方式中，所述DRL调度器通过面向事件的决策机制减少行动，在前台作业到达控制平面后立即对作业进行实时分析，为前台安全业务传来的作业建模表达式为：

，

式中，

是前台作业ID，/>

是作业到达时间, />

是作业类型，/>

是作业长度,

是作业的服务质量要求。

在一个优选的实施方式中，所述安全中台资源定义为：

，

其中，

是安全中台资源ID, />

是安全中台资源类型, />

是安全中台资源计算速度, />

是安全中台资源IO速度；

当作业被分配给安全中台VM实例时，首先进入等待队列

；

作业的响应时间将由等待时间和执行时间两部分组成，响应时间表述为：

，

式中，

是作业响应时间，/>

是作业执行时间，/>

是作业等待时间；

作业执行时间定义为：

，

是作业执行时间，/>

是作业所需计算长度，/>

是作业所需IO长度，/>

是安全中台资源计算处理速度，/>

是安全中台资源IO处理速度。

在一个优选的实施方式中，作业等待时间定义为：

，

当前台作业

被调度到资源/>

，并完成处理后，安全中台资源的空闲时间更新为：

，

是作业等待时间，/>

是安全中台资源的空闲时间，/>

是作业到达时间，若等待队列为空，作业立即执行，否则等待。

在一个优选的实施方式中，所述DRL调度器调度包括决策阶段和训练阶段；

决策阶段采用深度Q-learning技术，将作业分配给安全中台资源VM实例，根据特定的要求做决策，代理获得相应的奖励，代理检查更新当前的环境状态做出下一决定；

深度强化学习中，所有中台资源池中的安全中台资源虚拟机实例总数的集合，标定为

，计算公式为：

，

式中，

为CPU型安全中台资源，/>

为IO型安全中台资源。

在一个优选的实施方式中，训练阶段：在训练初期，深度强化学习在安全中台资源虚拟机上用概率

随机分配作业，随着算法的学习，/>

不断变化；代理随机分配作业，通过贪婪的策略探索。

在一个优选的实施方式中，所述DRL调度器的优化算法为：

输入深度强化学习参数中随机概率

，动作选择概率/>

，折扣系数/>

初始值，学习率/>

，开始学习时间/>

，迷你经验池/>

，重放时间/>

；

初始化容量为

的记忆重放/>

；

初始化随机参数为

的行动-价值评价函数/>

；

初始化随机参数为

的行动-价值目标函数/>

；

每份在

时间到达的新作业/>

do；

概率为

随机选择一个行动；否则此次行动定义/>

,含义为选择/>

参数状态/>

能得到最大Q的动作/>

为/>

；

根据行动

调度作业/>

，受到奖励/>

，并在下一个决策时刻/>

观察到状态更新到新状态/>

；

把转移参数

储存到/>

；

如果

并且/>

；

且如果

，重置/>

；

否则从

随机抽取样本迷你经验池/>

；

中的每次转移/>

；

用

来估计/>

，期望行动定义为/>

，期望参数定义为/>

，

；

使用损失函数

差值最小更新DNN参数/>

；

逐渐减少直到下限。

在上述技术方案中，本发明提供的技术效果和优点：

本发明通过将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中，然后通过深度强化学习结合云计算技术提高安全中台的实时匹配和动态适应能力，最后生成满足QoS目标的安全中台实时资源调度策略，实验结果表明，与现有方法相比，提出的方法不但保证负载均衡，还提高了18.7%的服务质量，降低了34.2%的平均响应时间，而且具有很好的鲁棒性更适用于实时环境。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的软件定义安全中台架构图。

图2为本发明的基于深度强化学习的软件定义安全中台QoS优化架构图。

图3为本发明基于深度强化学习的软件定义安全中台QoS实时优化算法示意图。

图4为本发明随机工作负载模式平均响应时间示意图。

图5为本发明随机工作负载模式成功率示意图。

图6为本发明低频工作负载模式平均响应时间示意图。

图7为本发明低频工作负载模式成功率示意图。

图8为本发明高频工作负载模式平均响应时间示意图。

图9为本发明高频工作负载模式成功率示意图。

图10为本发明交替工作负载模式平均响应时间示意图。

图11为本发明交替工作负载模式成功率示意图。

图12为本发明受攻击工作负载模式平均响应时间示意图。

图13为本发明受攻击工作负载模式成功率示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

实施例1

请参阅图1和图2所示，本实施例所述基于深度强化学习的软件定义安全中台调度方法，所述方法包括以下步骤：

首先将碎片化的安全需求与安全基础设施统一到软件定义安全中台云模型中，然后通过深度强化学习结合云计算技术提高安全中台的实时匹配和动态适应能力，最后生成满足QoS目标的安全中台实时资源调度策略。

具体而言，本申请主要包括以下三个方面：

1) 架构层面：提出面向碎片化安全需求和安全场景的SDSmp自动控制框架，实现对安全中台资源的在线实时调度和自动化控制。

2) 建模层面：通过建立软件定义安全中台QoS 优化模型，结合混合云技术和深度强化学习算法，使控制平面的调度器能够根据经验在线学习如何合理的选择安全中台资源，从而实现高服务质量，低响应时间，负载均衡。

3) 实现层面：搭建了软件定义安全中台实验环境，将提出的基于深度强化学习的软件定义安全中台QoS实时优化算法，在不同的工作负载模式下与现有实时作业调度算法进行比较。实验结果表明，提出的方法在平均响应时间和QoS成功率方面普遍优于现有方法。

面向关键信息基础设施所面临的安全挑战及重点防护要求，为解决软件定义安全场景中，遇到的QoS优化方案适用困难和性能下降问题，针对安全防护手段与业务场景不匹配问题，先提出面向碎片化安全需求和安全场景的SDSmp自动控制框架，在此基础上提出软件定义安全中台QoS优化模型，实现实时自动化控制。

实施例2

软件定义控制平面与数据平面分离的精髓在于控制平面对虚拟化资源池中的资源统一调度，安全中台，大中台小前台的宗旨，碎片化的安全需求与安全场景，都对资源调度提出了更高的要求，不同的调度算法对软件定义安全中台性能影响巨大。

请参阅图2所示，软件定义安全中台架构的控制平面，北向为安全应用平面，南向为安全中台平面。优化架构如图2所示，用两种箭头区分传输过程中的控制信息和实际工作信息，软件定义安全中台QoS优化架构由用户、安全应用平面、控制平面、安全中台平面、基础设施平面组成，控制平面中对于调度起关键作用的是资源调度模块的DRL调度器，其他关键部分如作业队列、应用管理模块、信息收集器包括资源监视器和作业监视器，用于收集中台资源池中的安全中台资源和前台作业信息。

日常使用中，用户在安全应用平面通过使用终端安全产品，以连续作业请求的方式提交用户需求。控制平面，通过对用户的请求解析，分析作业请求，如资源利用率、计算能力、内存、所需的响应时间、QoS等。为了最大化实现软件定义安全中台的优势，将虚拟化的安全中台平面部署到公有云中，并将安全中台资源利用IaaS、PaaS、SaaS技术建模封装成虚拟机（VM）。

本模型描述软件定义安全中台的前台到中台资源池的作业调度过程。当一个作业到达时，控制平面资源调度模块的调度器会在中台资源池中寻找合适的封装好的安全中台资源虚拟机（VM）来分配作业，并执行请求的作业。因此，作业调度器是核心模块，它在特定的时间间隔内根据用户提交的QoS要求做出决策。对应DRL的运作机制中，作业调度器采取将前台作业分配给特定的安全中台资源池中某一具体虚拟机的行动，根据这一行动，由环境提供奖励并更新状态，迭代实现调度器的智能学习。在这个过程中，资源和作业监控器负责管理作业队列的工作量和性能，以及作业的执行和分配。

为了对优化问题进行建模，下面给出了负载和安全中台资源的数学定义，还有调度的执行机制，使用的符号如表1所示，具体说明定义中将作业

调度给/>

：/>

，

表1，

对于所研究的安全中台问题，由于它是高度封装解耦的，在不丧失一般性的前提下，不妨假设在实时场景中的作业是独立的，在执行过程中没有其他作业可以相互干扰，数据服务化。

为了减少DRL中无数可能的行动，本申请引入一个面向事件的决策机制，在前台作业到达控制平面后立即对作业进行实时分析。这些信息被用来训练作业调度机制。对于提出的模型，考虑了两种典型的作业类型：计算密集型作业和I/O密集型作业，以下参数为前台安全业务传来的作业的建模：

(1)，

是前台作业ID，/>

是作业到达时间, />

是作业类型，/>

是作业长度, />

是作业的服务质量要求。

为了最大化实现云端软件定义安全中台（SDSmp）的优势，将虚拟化的安全中台平面部署到公有云中，并将安全中台资源利用IaaS、PaaS、SaaS技术建模封装成虚拟机（VM）。

在SDSmp作业调度模型中，安全中台资源，对应按中台结构封装的虚拟机（VM）集群，是逻辑上的执行单位，物理上的实际执行单位是具体的基础设施层安全设备，基础设施平面通过NFV技术和云计算技术，按功能映射到不同的虚拟机集群，实现逻辑设备无关。

在作业的调度运行中，由于前台用户提交的作业可能属于不同的类型，它们在不同类型的安全中台虚拟机VM上有不同的响应时间。

与作业负载类似，考虑两种类型的安全中台资源，即I/O密集型虚拟机

连接基础设施层的最终执行资源例如监控器，计算密集型虚拟机/>

连接基础设施层的最终执行资源例如数据加密解密模块。

每个安全中台资源定义为：

(2)，

是安全中台资源ID, />

是安全中台资源类型, />

是安全中台资源计算速度, />

是安全中台资源IO速度。

调度决策后，当一个作业被分配给一个特定的安全中台VM实例时，该作业首先进入一个等待队列

。

在不失一般性的前提下，假设每个虚拟机实例在任何时候都只能独占式执行其等待队列中的一个作业。

作业调度器是核心组件，负责根据最终用户的要求将作业分配给合适的中台资源池中的资源。如果等待队列是空的，被分配的作业会顺利的通过队列到虚拟机上，并被立即执行，否则先进入等待状态。

根据上述假设，作业的响应时间将由等待时间和执行时间两部分组成，响应时间可以表述为：

(3)，

是作业响应时间，/>

是作业执行时间，/>

是作业等待时间。

作业执行时间会因为调度到不同的安全中台资源而不同，对于具体某一个固定类型前台作业而言，由于每一个安全中台资源在实际运行中，作业的各部分都是并行的，影响作业在中台资源上运行时间的主要因素是，作业类型对应的长度，其它类型的作业长度相较之下很短可以忽略，并不会产生实际的影响。因此作业执行时间定义为：

(4)，

是作业执行时间，/>

是作业所需计算长度，/>

是作业所需IO长度，/>

是安全中台资源计算处理速度，/>

是安全中台资源IO处理速度。

可以看到，对应长度的作业类型是主要的影响因素，但是作业有可能会被调度到合适或者不同类型的中台资源，类似于木桶效应，如果作业类型与资源类型匹配，安全中台资源对应类型的性能强，作业执行时间短；如果不匹配，由于中台资源对应类型性能弱，作业执行时间会长的多。另外，作业等待时间会影响资源调度，作业等待时间定义如下：

(5)，

是作业等待时间，/>

是安全中台资源的空闲时间，/>

是作业到达时间，如果等待队列为空，作业被立即执行，否则需要等待。

当前台作业

被调度到资源/>

，并完成处理后，安全中台资源的空闲时间更新如下：/>

(6)，

是作业等待时间，/>

是安全中台资源的空闲时间，/>

实施例3

为了解决目前主流的服务质量（QoS）优化方案因为安全防护手段与业务场景的碎片化和不匹配导致适用困难和性能下降的问题，例如传统的控制论调度算法和基于启发式的调度算法均难以适用，提出基于深度强化学习的软件定义安全中台QoS实时优化算法。

优化控制平面的调度算法，保证安全中台既能提供给前台安全业务更高的QoS和性能，安全中台平面还能给基础设施平面更高的负载均衡和更低的成本。此外，模型的训练阶段和运行决策阶段都是在线的，能更好的适应多变的安全场景。

DQN是一种无模型的强化学习（RL）算法，代理几乎不需要人为输入先验的知识。

强化学习模型包括，环境、代理、行动、状态、奖励，奖励函数

，目的是预测最大化奖励的行动，奖励函数是回报函数/>

的基础。代理通过试错互动做出决定，每执行一个行动后，环境会移动到下一个新的状态/>

。同时，代理将获得奖励/>

，实验重放机制是连续的。

，

其中

是一个折扣系数，用来指导模型更侧重于当下还是未来可能的奖励，

是从开始到结束所有R的加权累加。训练最常用的损失是平均平方误差（MSE）损失，可以表述为：

(8)，

其中，

是迷你经验池规模，/>

是在参数为/>

下的期望Q值，计算MSE损失时是固定的，/>

是在状态/>

下采取行动/>

获得的奖励，/>

是折扣系数，其值在（0,1]。代理利用深度神经网络（DNN）产生的奖励回馈环境，在具体的状态上做决策，所有状态-行动对相关。

如图3所示，软件定义安全中台控制平面根据前台到达的安全业务，流处理模块将其清洗归纳成不同的作业类型，资源调度模块与资源池管理模块协调，把每个作业分配给最适合的中台资源池中的中台资源，形成原子化的中台服务，交由封装映射的安全中台资源执行。

在安全中台环境中，传入作业负载的属性和类型是无法预测的。对于这样的场景，基于RL的模型表现出色，因为它们几乎不需要人为输入的先验经验，如状态转移和其他系统信息。

在每次决策迭代中，RL代理观察当前的环境状态，然后使用DNN来估计所有中台资源池中可用的中台资源的Q值，从而产生自我训练的数据，提高未来的决策能力。

根据特定的策略，将选择一个中台资源池中的实例来执行作业并获得奖励。由于状态空间很大，训练DNN的时间也可能很大。为了避免这种情况，本申请使用面向事件的决策机制。基于这个机制，当新的作业到达时，资源调度模块的智能代理将做出在线决策。所有作业都遵循先来先服务（FCFS）。

作业到达后，所需的行动是在软件定义安全中台资源池中分配该作业。得益于在线决策机制，同样减少了可选行动的数量。我们的DRL方法分为两个阶段：决策阶段和训练阶段，详情如下：

决策阶段：采用深度Q-learning技术，将作业分配给适当的安全中台资源VM实例。根据特定的要求做决策，代理获得相应的奖励。代理检查更新当前的环境状态做出下一个可能的决定。

以下是强化学习模型的重要组成部分：

动作空间（

）是代理在特定环境中可以采取的所有行动的集合。动作空间可以表示为所有中台资源池中的安全中台资源虚拟机实例总数的集合，描述为/>

，包含的行动为将前台安全业务分配给安全中台资源池，长度可以表示为所有可用安全中台资源的数量。每个虚拟机都有自己的队列来容纳传入的作业请求。对传入的作业请求没有长度限制：

(9)，

其中

和/>

适用于不同类型的环境，例如设置/>

为高CPU型安全中台资源，/>

为高IO型安全中台资源。

状态空间（

）是一个由代理可以根据行动更新的所有状态组成的集合，这些行动会产生有限的状态空间。对于软件定义安全中台，一个新的前台安全业务提交的作业i在时间t到达，此刻的状态空间可以用安全资源的总状态和作业的当前状态描述：

(10)，

其中，

是作业i在时间t到达时候的所有安全资源的状态，/>

是当前作业需要调度的状态。

行动选择和状态转移。模型考虑当前状态和DNN网络Q值中预测的未来状态采取行动。

训练初，模型在安全中台资源虚拟机上用概率

随机分配作业；

随着算法的学习，

不断变化；

代理随机分配作业，用贪婪的策略探索几种可能性；

这里将选择最高的预测Q值。随着工作的分配，状态将从

转移到/>

。

奖励函数（

），在当前状态/>

下采取行动后，系统更新到状态/>

，并从环境中获得奖励/>

。每次迭代中，环境都会给予奖励。奖励正负，取决于行动的情况，代理能通过行动获得不同的奖励，奖励函数引导代理为作业调度框架的目标做出智能决定。在本模型中，作业调度的高QoS是主要的优化目标，使QoS成功率最大化。此外，对于完成QoS要求的每个作业，响应时间越小，服务就越好。基于此定义一个作业的奖励如下：/>

(11)，

其中，

是作业响应时间，/>

是QoS要求时间，/>

是作业长度，/>

是中台资源执行速度，当且仅当作业的响应时间低于QoS要求时，定义为成功处理，否则失败。

训练过程：为了从经验中学习，DRL将当前状态、行动、奖励和下一状态的过渡值存储在容量为

的重放存储器/>

中。DNN的参数/>

将在Q-learning更新时使用/>

进行更新，存储时间是每一个U决策集之后，为避免时间复杂度过大U/>

1。经验重放机制从随机样本中学习，减少数据相关性，减少/>

的方差。使用目标网络生成Q值，采用目标网络和评估网络消除DNN的分歧和振荡，目标网络和评价网络结构相同，但参数不同。

基于DRL的算法如下：

1) 输入：初始值随机概率

，动作选择概率/>

，折扣系数/>

，学习率/>

，开始学习时间/>

，迷你经验池/>

，重放时间/>

；

2) 初始化容量为

的记忆重放/>

；

3) 初始化随机参数为

的行动-价值评价函数/>

；

4) 初始化随机参数为

的行动-价值目标函数/>

；

5) for每份在

时间到达的新作业/>

do；

6) 概率为

随机选择一个行动；否则此次行动定义

,含义为选择/>

参数状态/>

能得到最大Q的动作/>

为/>

；

7) 根据行动

调度作业/>

，受到奖励/>

，并在下一个决策时刻/>

观察到状态更新到新状态/>

；

8) 把转移参数

储存到/>

；

9) if

并且/>

；

10) if

；

11) 重置

；

12) end if；

13) 从

随机抽取样本迷你经验池/>

；

14) for

中的每次转移/>

；

15) 用

来估计/>

，期望行动定义为/>

，期望参数定义为/>

，

；

16) 使用损失函数

更新DNN参数/>

；

17) end for；

18)

逐渐减少直到下限；

19) end if；

20) end for。

实施例4

本实施例中，通过一系列实验来评估提出的基于深度强化学习的软件定义安全中台QoS实时优化算法，并与常见的五种在线作业调度方法进行比较。

首先对实验进行了合理的设置和必要的简化，保证实验顺利进行并具有说服力；

接着说明了建议的模型和对比方法中的参数，对五种对照方法、各个参数说明介绍；

然后设置五种不同的工作负载模式来模拟真实情况，进行充分的仿真实验验证提出的算法能适应不同类型的环境。

实验硬件软件配置为Python3，TensorFlow，使用 2.7 GHz 英特尔酷睿 i5 处理器和16GB RAM的机器。

实验模拟环境：考虑安全中台平面上已经被池化虚拟化的中台资源池，对于控制平面的资源池管理模块而言，显示为统一调用的不同类型不同性能的API。

为了简化实验，将中台资源池的安全中台资源VM设置为高CPU型和高IO型，应用平面通过应用管理模块传入控制平面的作业是连续的计算密集型和I/O密集型。

控制平面将北向的应用平面传来的作业调度到安全中台平面去执行。安全业务作业如果被调度到同种类型的安全中台资源，执行速度快，如果执行不同种类的作业类型，执行速度慢，表2中为安全中台资源应对前台安全业务不同作业类型的平均处理能力：

，

表2，

实验中，默认情况下，工作长度由平均值100 MIPS和标准差20MIPS的正态分布生成。

每个作业的QoS要求（即可接受的最大响应时间）在250毫秒和350毫秒之间均匀随机生成。

新到达作业类型在计算密集型和IO密集型之间均匀的随机选择。作业到达率和作业类型的概率分布每5秒为一个周期刷新。

对于每个模拟工作负载模式，实验都随机生成20个安全中台资源虚拟机实例，并追踪每个安全资源从开始运行到结束一共持续300秒。

模型参数：基于深度强化学习的软件定义安全中台QoS实时优化算法使用前馈神经网络构建底层DNN，该网络的全连接隐藏层具有20个神经元，设置记忆重放

=1000的容量，迷你经验池/>

=40。采用AdamOptimizer算法对评价网络参数进行更新，学习速率为0.01。每50个决策集从评估网络克隆一次参数给目标网络。在重播内存中累积了足够的过渡样本后，DNN 开始进行训练。设置/>

=500，/>

=1，/>

=0.9，/>

每轮学习迭代中从0.9降低0.002。

对比方法和评价指标：为了评估本申请提出的基于深度强化学习的软件定义安全中台QoS实时优化算法（以"DRL"表示）性能，把它与其它五种常见方法做对照，它们分别是：随机调度方法、循环调度方法、最早的调度方法、最佳拟合计划方法和合理的调度方法。

常见的控制论调度算法中，随机调度方法（由"random"表示）是一种非常简单的方法，它为每个作业选择一个随机的VM实例。循环调度方法（以"round-robin"表示）主要侧重于如何公平地将作业调度到VM实例。因此，VM实例按循环顺序选择以执行传入作业。最早的调度方法（由"earliest"表示）是一种时间贪婪策略，其中新到达的作业计划到最早的空闲VM实例。

最佳拟合计划方法（以"suitable"表示）是一种贪婪的策略。与最早的调度方法相比，最佳拟合调度方法不仅考虑了时间因素，还考虑了所选VM实例的类型是否与新到达作业的类型匹配。如前所述，将作业分配给类型适合的VM实例可以减少执行时间。因此，最佳拟合计划方法将新作业分配给其类型适合此作业的所有VM实例中最早的空闲作业。

合理的调度方法（由"sensibleR"表示）是一种自适应的启发式算法，它使用基于预期QoS的随机路由策略，即本申请中的平均作业响应时间。作业分配到概率较高的VM实例，该实例在一段时间内平均响应时间较低。合理的调度方法需要两个参数：持续观察时间D和折扣系数a。本申请实验设置D=5s，a=0.7。

此外，用两个不同的指标来评估每种方法的性能。第一个指标是QoS成功率，用来衡量有多少作业被成功处理，当且仅当一个作业的响应时间低于预先定义的QoS要求时，定义为成功处理。第二个指标是平均响应时间（ART），用于衡量处理每个作业的平均时间。

工作负载模式：设置五种不同的工作负载模式，工作负载的作业到达率按照规律随机生成，下面对它进行总结，如表3所示：

，

表3，

表3是五种模拟实验环境工作负载模式的参数。作业类型概率分布始终会随着时间而变化。

对实验结果与各工作负载模式的对应关系给出提示，如表4所示：

，

表4，

以下是实验结果。

随机工作负载模式：首先用大幅度波动的随机工作负载模式，来测试模型的性能。

随机工作负载模式的作业到达率在[0,100]%之间随机生成均值266.65（请求/s），标准差147.56（请求/s）。作业类型每五秒刷新一次，和工作负载类型都是随机生成的。

如图4、图5所示，可以看到，初始化的所有负载队列都为空，最初五秒涌入了大量的作业，所有方法表现不好但能正常运作；5到20秒，请求作业到达率较低为8到35%/s，所有方法拉不开差别，且表现良好；25到125秒，由于作业量突增并且在一个极高频状态保持，等待队列压力过大，出现了堵塞的情况，所有方法均受到影响；125秒到300秒结束，作业不会持续高频输入，作业队列不再严重堵塞，中台调度有序进行，suitable方法和DQN方法效果最好。

总体来看，50秒之前，本申请的DQN方法处在积极的线训练阶段，无法拉开差别；50秒左右，可以看到DQN方法逐渐完成了在线训练，并和其他方法拉开了差距；之后无论是高频还是低频，均效果最佳，优于suitable方法。

低频工作负载模式：为了测试算法在安全中台大多数日常低频静息使用场景中的性能，设置了低频工作负载模式。

随机工作负载模式的作业到达率在[20,40]之间随机生成，均值30.07%，标准差6.36%。

如图6、图7所示，所有方法的平均响应时间都不高，QoS成功率很高，sensible在工作负载模式中表现不佳。值得一提的是，DQN方法在最初40秒在线训练阶段表现不佳，20秒到40秒平均响应时间逐渐超过其它方法，并且保持平稳运行。

高频工作负载模式：为了测试算法在安全中台极端恶劣使用场景如用户使用量爆发式增长并始终保持在高频中的性能，设置了高频工作负载模式。

随机工作负载模式的作业到达率在[60,80]之间随机生成，均值70.32%，标准差5.57%。

如图8、图9所示，大多数算法已经难以适应这种高强度的模式。在整个过程中，random，round-robin，earliest的平均响应时间持续增长，因此QoS成功率在80秒后全部为0；而suitable在高频工作负载模式中表现良好，保持正常运行，平均响应时间基本低于2500ms，QoS成功率基本高于百分之40，但均波动很大。而DQN算法始终保持在极高的水准运行，除了最初30秒QoS成功率在70%到95%，其余时间均接近100%，所需的训练时间缩短到20秒。

交替工作负载模式：安全中台服务于应用层，用户使用应用层提供的应用程序。人有白天夜间的活动规律，类似的，软件使用有闲时忙时的周期性变化。为了展示提出的算法在这样更贴近日常生活的场景中的性能，模拟用户访问量突增，集中在一天某个时间段，设置了交替工作负载模式。

随机工作负载模式的作业到达率在0到50秒、100秒到150秒、200秒到250秒，[60，80]%之间随机生成模拟高频工作负载模式，50秒到100秒、150秒到200秒、250秒到300秒，在[20，40]%之间随机生成模拟高频工作负载模式。整体均值266.65（请求/s），标准差147.56（请求/s）。

如图10、图11所示，所有方法均产生大幅度的波动，DQN使用保持在较为稳定的状态下运行，40秒后QoS成功率一直接近100%，平均响应时间在140秒250秒的高频阶段稍有起伏，整体没有受到交替变化太大的影响，60秒后平均响应时间均低于220ms。

受攻击工作负载模式：模拟中台遭受黑客攻击（比如DDOS攻击，工作负载突然持续高频）并被及时修复隔离的过程，为了进一步验证算法在突变环境下的效果，展示算法的鲁棒性，设置受攻击工作负载模式。

随机工作负载模式的作业到达率在0到150秒、200秒到300秒[20，40]%之间随机生成，模拟日常和被修复后的工作负载模式，150秒到200秒在[60，80]%之间随机生成模拟被攻击时工作负载模式。整体均值37%，标准差17.21%。

如图12、图13，可以看到平均响应时间所有方法均受到了影响，150秒到200秒受到攻击，其它比较方法因为等待队列被迅速填满陷入阻塞状态，QoS成功率都下降到0到50%。200秒后修复成功，各自消化自己剩余的作业直到240秒完全恢复正常。但是DQN充分表现出其良好的鲁棒性，150秒到240秒无论是平均响应时间还是QoS成功率都保持稳定，QoS成功率接近100%。

另外面对被DDOS攻击到瘫痪无法及时修复的工作负载模式，资源调度模块的调度性能已经显得意义不大，面对这种情况，更重要的是应用管理模块的安全防护功能，使用类似主动防御等技术手段，会更加明智，资源调度模块，是软件定义安全中台控制平面的核心，但不是唯一。

在上面五种工作负载模式的实验结果中，通过将提出的方法与五种现有实时方法做对比，可以看出提出的安全中台资源调度算法适合各种场景，性能优于其它算法，可以归纳出以下结论：

1) 随着输入作业量的数量或频率增加，基于深度强化学习的软件定义安全中台QoS实时优化算法平均响应时间会增加。对比低频和高频工作负载模式，提出的算法在高频工作负载模式中显现出更大的优势，尤其是当其他方法已经明显不能正常运行的时候，suitable和提出的算法依然满足可用性；

2) 提出的算法需要一定量的样本完成初期的在线训练，因此最开始的阶段初期效果并不显著，但作业到达率越高，完成训练时间越短。无论是那种工作负载模式，40秒后，该模型学会了怎样把不同类型的作业分配给最合适的安全中台资源，所有模式中均表现良好，因为中台调度是一个长期持续的过程，所以影响不大。在线训练的意义在于重新部署新的安全中台服务时无需下线系统重新训练；

3) 对比随机、交替、受攻击工作负载模式，提出的算法基于训练的经验，一但完成训练，便具有良好的鲁棒性。安全中台平面因为结构的封装，软件定义也使得它远离原因平面和基础设施平面，后期平稳运行过程中产生的新数据较少；

4) 因为提出的模型是在线训练的，运行过程中一旦有新中台业务上线，不需要下线软件定义中台控制平面重新进行离线训练，只需要，在正常运行的过程中用很小的代价差异训练新数据即可，具有更好的可拓展性。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。