CN114785548B

CN114785548B - 流量智能监测平台

Info

Publication number: CN114785548B
Application number: CN202210290089.4A
Authority: CN
Inventors: 杜学绘; 王文娟; 陈性元; 王娜; 任志宇; 曹利峰; 单棣斌; 杨智; 刘敖迪
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2024-04-30
Anticipated expiration: 2042-03-23
Also published as: CN114785548A

Abstract

本发明属于网络安全技术领域，特别涉及一种基于加权自适应集成学习的虚拟流量异常检测方法、系统及流量智能监测平台，利用加权自适应集成分类模型将异质基分类器加权集成以生成具有较强学习能力和泛化能力的强分类器，提高网络流量分类精度和分类效果，实现虚拟流量高精准地分类检测；并进一步借助软件定义安全SDS的流规则驱动能力和安全服务编排能力，实现安全设备的逻辑部署与流量监控，便于实际场景应用；并进一步在入侵检测评估数据集NSL‑KDD上验证加权自适应集成分类模型WAHEL的有效性，其分类精度高于标准集成分类器以及任意单一基分类器，便于网络流量数据异常行为分析与识别，具有较好的应用前景。

Description

流量智能监测平台

技术领域

本发明属于网络安全技术领域，特别涉及一种基于加权自适应集成学习的虚拟流量异常检测方法、系统及流量智能监测平台。

背景技术

云计算环境中的租户行为会产生海量的网络流量，这些网络流量主要包括南北流量和东西流量，南北流量是指租户从云外访问云计算业务的流量，也称为纵向流量；东西流量是指云内网中虚拟机之间的虚拟流量，也称为横向流量。思科云计算产业调研报告预测，截止2021年全球云网络流量将达到19.5ZB，占到数据中心总流量的95％，而东西流量占据总流量85％的比重。云内虚拟机之间的海量流量中往往充斥着大量异常流量，主要是由恶意程序传播、DoS攻击等恶意行为以及不可避免的网络故障、配置失误等造成的。异常流量往往会导致云租户服务质量急剧下降，甚至导致云环境服务瘫痪，对云计算的正常运营和声誉造成了极大的破坏。因此，为了保障云环境安全可靠地运行，需要对虚拟机间的东西流量进行实时检测，以发现云内正在发生的恶意行为或潜在的安全隐患。

传统基于特征分析的检测方法其误报率较低，但漏报率较高，且无法适应大规模网络数据流，而基于人工智能的异常检测方法通过对网络数据规律的学习和把握，其检测精度高于传统方法，且能够发现未知的攻击模式，在网络流量检测方面表现出了极大的潜力。网络流量智能检测是指利用机器学习和深度学习等人工智能方法对网络流量数据进行异常行为分析与识别的科学方法。目前基于机器学习的网络流量检测方法主要采用单一分类器，尽管单一分类器的优化与改进如增量支持向量机、增量决策树等，在一定程度上能够提高分类精度，但鉴于每种分类器都有其自身的优势与局限性，每种分类器针对同一数据进行分类，分类效果往往有好有坏，而同一分类器针对不同数据进行分类，分类效果也不尽相同，因此仅依赖或追求单一分类器的分类结果和分类效果不够，进而影响网络异常流量的检测性能。

发明内容

为此，本发明提供一种基于加权自适应集成学习的虚拟流量异常检测方法、系统及流量智能监测平台，基于集成分类学习方法对虚拟流量进行智能检测，保证云计算恶意行为可控，提供网络安全，便于实际场景应用。

按照本发明所提供的设计方案，一种基于加权自适应集成学习的虚拟流量异常检测方法，包含如下内容：

收集带标签的样本数据，并将样本数据划分为训练样本集和测试样本集；

构建用于虚拟流分类识别的多分类器加权集成模型，并利用带标签的样本数据对多分类器加权集成模型进行训练测试，其中，该多分类器加权集成模型包含：由强化分类器和若干异质基分类器组成栈式集成结构，若干异质基分类器用于对输入的虚拟流特征向量进行初级分类，并在初级分类中对各基分类器的权重进行判定；强化分类器用于依据判定权重对基分类器初级分类结果进行多元线性回归的集成预测；

采集目标网络节点的虚拟流数据，并提取虚拟流数据的特征向量；利用已训练测试的多分类器加权集成模型对提取的特征向量进行类别预测，以识别目标节点虚拟流数据是正常流类型或攻击流类型。

作为本发明基于加权自适应集成学习的虚拟流量异常检测方法，进一步地，利用k-折交叉验证法将带标签的样本数据随机划分为k个子集，选中其中一个子集作为测试样本集，其他k-1个子集作为训练样本集，利用训练样本集和测试样本集对多分类器加权集成模型进行训练测试。

作为本发明基于加权自适应集成学习的虚拟流量异常检测方法，进一步地，初级分类中，依据每个基分类器的分类精度来判定各基分类器的权重，判定公式表示为：其中，m为基分类器个数，a_j为基分类器L_j的分类精度。

作为本发明基于加权自适应集成学习的虚拟流量异常检测方法，进一步地，对初级分类结果进行多元线性回归的过程表示为：

z＝b₀+w₁b₁y₁+w₂b₂y₂+…w_mb_my_m+ε，其中，b₀,b₁…b_m为常数项，y_m为基分类器L_m的分类结果，ε为回归系数。

作为本发明基于加权自适应集成学习的虚拟流量异常检测方法，进一步地，利用已训练的无监督学习网络来提取虚拟流数据中的特征向量。

进一步地，本发明还提供一种基于加权自适应集成学习的虚拟流量异常检测系统，包含：样本收集模块、模型构建模块及目标识别模块，其中，

样本收集模块，用于收集带标签的样本数据，并将样本数据划分为训练样本集和测试样本集；

模型构建模块，用于构建用于虚拟流分类识别的多分类器加权集成模型，并利用带标签的样本数据对多分类器加权集成模型进行训练测试，其中，该多分类器加权集成模型包含：由强化分类器和若干异质基分类器组成栈式集成结构，若干异质基分类器用于对输入的虚拟流特征向量进行初级分类，并在初级分类中对各基分类器的权重进行判定；强化分类器用于依据判定权重对基分类器初级分类结果进行多元线性回归的集成预测；

目标识别模块，用于采集目标网络节点的虚拟流数据，并提取虚拟流数据的特征向量；利用已训练测试的多分类器加权集成模型对提取的特征向量进行类别预测，以识别目标节点虚拟流数据是正常流类型或攻击流类型。

进一步地，本发明还提供一种流量智能监测平台，基于软件定义安全来实现物理主机内虚拟机间的网络流量检测，包含：资源层、控制层和安全业务层，其中，资源层，将物理和/或虚拟形态下进行智能检测的网络安全节点进行池化并分解成用于部署配置的各安全实体，每个安全实体中基于上述方法中的基分类器和/或强化分类器来进行虚拟流量的异常分类检测；控制层，利用安全控制器编排安全业务、制定安全策略并下发安全任务，依据安全任务和安全策略通过网络控制器来驱动虚拟流迁移至各安全实体进行处理；安全业务层，将各安全实体提供的流量异常检测抽象为原子服务，依据用户需求选择对应原子服务加入服务编排来制定用户所需的安全服务。

作为本发明流量智能监测平台，进一步地，资源层网络安全节点，利用可编程网络交换机OFS连接云主机并转发云主机之间的流量，利用可编程网络交换机OVS来转发云主机内虚拟机VM间的虚拟流量，且每个可编程网络交换机OFS和可编程网络交换机OVS中都设置有用于指示流量转发的流表；控制层的网络控制器集中控制可编程网络交换机并将虚拟流量迁移至目标安全实体进行异常检测。

作为本发明流量智能监测平台，进一步地，安全控制器包含：安全服务管理编排模块、安全策略智能模块、流指令推送模块和安全设备管理模块，其中，安全服务管理编排模块，用于接收用户订阅的安全服务，并指定组合满足用户安全服务链的目标安全实体；安全策略智能模块，用于依据用户安全服务链需求制定安全策略，利用该安全策略表示安全服务与安全实体之间映射关系；流指令推送模块，用于将安全策略翻译为流指令，并将流指令推送至网络控制器；安全设备管理模块，用于维护并调度资源池中安全实体。

作为本发明流量智能监测平台，进一步地，安全策略利用三元组P＝(R,C,A)表示，其中，R＝{r_i}表示安全服务需求r_i集合，C＝{c_i}表示满足安全服务需求r_i的安全实体c_i集合，A＝{a_i}表示安全实体c_i所采取的动作a_i集合。

本发明的有益效果：

本发明利用加权自适应集成分类模型将异质基分类器加权集成以生成具有较强学习能力和泛化能力的强分类器，提高网络流量分类精度和分类效果，实现虚拟流量高精准地分类检测；并进一步借助软件定义安全SDS的流规则驱动能力和安全服务编排能力，实现安全设备的逻辑部署与流量监控，便于实际场景应用；并进一步在入侵检测评估数据集NSL-KDD上验证加权自适应集成分类模型WAHEL的有效性，其分类精度高于标准集成分类器以及任意单一基分类器，比标准集成分类器的分类精度高出3.2％，比相对差的基分类器高出10％，便于网络流量数据异常行为分析与识别，具有较好的应用前景。

附图说明：

图1为实施例中基于加权自适应集成学习的虚拟流量异常检测方法流程示意；

图2为实施例中生成基分类器和元数据示意；

图3为实施例中基分类器和强分类器的测试示意；

图4为实施例中加权自适应集成学习模型中基分类器和元数据生成示意；

图5为实施例中加权自适应集成学习模型中强分类器生成示意；

图6为实施例中流量智能监测平台架构示意；

图7为实施例中虚拟流迁移过程示意；

图8为实施例中异常智能检测框架构建示意；

图9为实施例中各基分类器的5-分类ROC曲线示意；

图10为实施例中各分类模型的预测值与真实值拟合程度示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

虚拟流量异常智能检测是保障云环境恶意行为可控的重要措施，针对单一机器学习方法在多种异常共存、异常不断演化的复杂云环境中存在检测精度不高、泛化能力较差等问题，本发明实施例，提供一种基于加权自适应集成学习的虚拟流量异常检测方法，参见图1所示，包含如下内容：

S101、收集带标签的样本数据，并将样本数据划分为训练样本集和测试样本集；

S102、构建用于虚拟流分类识别的多分类器加权集成模型，并利用带标签的样本数据对多分类器加权集成模型进行训练测试，其中，该多分类器加权集成模型包含：由强化分类器和若干异质基分类器组成栈式集成结构，若干异质基分类器用于对输入的虚拟流特征向量进行初级分类，并在初级分类中对各基分类器的权重进行判定；强化分类器用于依据判定权重对基分类器初级分类结果进行多元线性回归的集成预测；

S103、采集目标网络节点的虚拟流数据，并提取虚拟流数据的特征向量；利用已训练测试的多分类器加权集成模型对提取的特征向量进行类别预测，以识别目标节点虚拟流数据是正常流类型或攻击流类型。

集成学习(Ensemble Learning,EL)是指将若干个机器学习算法结合起来共同来完成某一个特定的学习任务。通过将多个不同种类的、易于实现的个体分类器(也称为基分类器)按照某种结合策略集成得到一个强分类器(也称为元分类器)，从而获得较强的学习能力和泛化能力，提高学习效果。根据被集成的基分类器之间类型相同与否，可将集成学习分为同质集成和异质集成。同质集成是指强分类器由同种类型的基分类器组成，但各基分类器的参数有所不同。而异质集成是指将不同类型的基分类器结合起来，例如将神经网络和支持向量机集成。每种分类器都有其自身的优势与局限性，对于同一数据的分类效果往往不尽相同，而通过多个不同种类的分类器优劣互补，可以更大范围地改善机器学习的分类效果。因此，构建异质集成学习模型(Heterogeneous Ensemble Learning Medel,HEL)，通过融合多个不同类型的分类器进行网络流异常检测。

可利用训练数据集，基于k-折交叉验证法训练得到若干个基分类器，然后基于学习法结合策略，将基分类器的输出结果作为下一层学习算法的训练数据集，从而训练得到强分类器。k折交叉验证法是指将包含n条样本的训练集随机分为k个子集，其中一个单独的子样本集D_i作为验证集，剩余的k-1个子样本集作为训练集，重复执行k次则每个子样本集验证一次，平均k次的结果得到最终训练结果。结合策略包括平均法、投票法和学习法等，平均法和投票法仅是对基分类器的结果进行简单的逻辑处理，而学习法是再增加一层学习器，用来对基分类器的结果再学习，得到栈式结构的异质集成学习模型HEL。

参见图2所示，首先将初始训练集D随机分成k个子样本集(D₁,…,D_i,…,D_k)，执行k-折交叉验证，循环执行k次后生成m个基分类器及所产生的类别结果集合，称为元数据。每一项元数据均包含m个基分类器产生的类别值y'以及样本的真实类别值y，表示为(y'₁,y'₂,...,y'_m,y)，该层训练基分类器的过程也可认为是Level 0层的初级学习过程。将Level0层产生的元数据作为新的训练数据集，Level 1层选定的学习算法进行训练从而得到强分类器，该层对元数据的训练过程可认为是次级学习过程。强分类器是由m个基分类器集成得到的，其最终结果取决于每一个基分类器的预测结果，且各基分类器之间是互斥的，故可以选择多元线性回归(Multiple Linear Regression,MLR)算法作为强分类器的学习算法，强分类器的结果为因变量z，各基分类器产生的预测结果为自变量y'₁,y'₂,...,y'_m，多元线性回归算法如式(1)所示，

z＝b₀+b₁y'₁+b₂y'₂+L b_my'_m+ε (1)

其中，b₀,b₁…b_m为常数项，ε为回归系数，ε～N(0,σ²)来自于正态分布。

参见图3所示，利用带标签的训练样本集分别对Level 0层的基分类器和Level 1层的强分类器进行了训练，接下来利用带标签的测试样本集分别对各基分类器和强分类器进行测试，以评估分类器的性能，同样可以对Level 0层的各基分类器进行并行测试。

构建的异质集成学习模型HEL是一种多分类器组合预测的方式，且多分类器之间可以并行学习以提高学习效率，HEL采用栈式学习结构，通过两层学习提高泛化能力。从理论上讲，HEL模型综合了各异质分类器的优势，其分类性能将优于每一个单一的基分类器。然而在实际应用中，各基分类器的分类效果往往不尽相同，可能存在某个基分类器其表现较差，而影响总的分类性能无法得到最大程度的提升。本发明实施例中，利用加权自适应的异质集成学习模型(Weighted Adaptive HEL,WAHEL)，采取“扬优抑劣”策略，即提升性能优异的基分类器在集成过程中所占的分量，例如：基分类器的分类精度越高，其权重也就越高，相应地降低较差基分类器造成的影响。该策略充分地考虑各基分类器的分类效果，通过权重促使优异基分类器发挥更大的作用。与异质集成学习模型HEL相比，WAHEL模型，一方面在HEL的Level 0层计算产生每个基分类器的权重，由于各基分类器是基于k-折交叉验证得到的，通过k次的迭代训练能够获得较成熟可靠的基分类器，基于该过程中基分类器的分类精度进行权重的判定，权重的可靠性相对较高。另一方面是将权重应用到对Level 1层强分类的训练中，利用权重提升优异基分类器的分量，降低较差基分类器的影响，从而使最终的分类精度得到更大程度地提升。

进一步地，参见图4所示，依据分类精度计算每一个基分类器的权值，产生元数据，。在Level 0层的学习过程中，WAHEL模型与HEL模型的过程是相似的，但不同的是，在通过k折交叉验证获得元数据(y'₁,y'₂,...,y'_m)，以及每一个基分类器的分类精度(a₁,a₂,...,a_j,...,a_m)之后，需要对各基分类器的表现情况进行评价，并赋予其权重值。各基分类器的权重值为(w₁,w₂,...,w_j,...,w_m)，其中，基分类器L_j的权值w_j为其分类精度a_j除以所有基分类器的分类精度之和，如式2所示，

参见图5所示，将元数据作为新的训练数据集，并与各基分类器的权重(w₁,w₂,...,w_j,...,w_m)相结合，对多元线性回归模型进行训练从而得到强分类器。由于引入了各基分类器的权重值，则多元线性回归模型MLR可表示为式(3)所示，不难看出，权值越大，则对应的基分类器在集成过程中所占的分量越大，能够更好地发挥该优异基分类器的作用，获得更准确的最终分类结果。

z＝b₀+w₁b₁y₁+w₂b₂y₂+L w_mb_my_m+ε (3)

利用产生的测试元数据(y'₁,y'₂,...,y'_m)及其对应的权重(w₁,w₂,...,w_j,...,w_m)，对强分类器进行测试，得到强分类器的分类性能。当分类性能满足要求时，便可以基于构建好的WAHEL模型对未标记数据进行实时分类预测。

WAHEL模型算法可设计如下：

输入为包括n条样本的训练数据集，其中/>，输出为基分类器base_classifier及强分类器H。

基于该模型进行网络流量异常检测的优势主要体现三个方面：一是该模型采用了栈式学习结构，首先利用多个异质基分类器进行初级学习，获得初步的分类结果，然后综合每个基分类器的优势进行次级学习，能够获得优于单一基分类器的分类结果；二是对每个基分类器的权重进行计算与判定，通过权重提升优异基分类器的参与度，降低较差基分类器的影响，从而更大程度地提升集成学习的效果，且权重是由k折交叉验证所得到的分类精度计算的，其可靠性与准确性相对较高；三是WAHEL模型中基分类器的数量和种类可以根据需求增加或调整，则集成学习模型的分类效果也会随之而改变，且任一基分类器性能的提升都能相应地提升集成学习模型的性能，因此该模型具有较强的自适应性。

进一步地，基于上述的方法，本发明实施例还提供一种基于加权自适应集成学习的虚拟流量异常检测系统，包含：样本收集模块、模型构建模块及目标识别模块，其中，

云内虚拟机间的网络流量发生在物理主机内部，这导致安全设备对虚拟流量是不可见、不可控的，无法进行安全监测或实施防御策略。软件定义安全(Software DefinedSecurity,SDS)具有数据平面与控制平面分离、集中控制、可定制等特点，为虚拟流量检测提供了新的思路。进一步地，本发明实施例还提供一种流量智能监测平台，基于软件定义安全来实现物理主机内虚拟机间的网络流量检测，包含：资源层、控制层和安全业务层，其中，资源层，将物理和/或虚拟形态下进行智能检测的网络安全节点进行池化并分解成用于部署配置的各安全实体，每个安全实体中基于上述方法中的基分类器和/或强化分类器来进行虚拟流量的异常分类检测；控制层，利用安全控制器编排安全业务、制定安全策略并下发安全任务，依据安全任务和安全策略通过网络控制器来驱动虚拟流迁移至各安全实体进行处理；安全业务层，将各安全实体提供的流量异常检测抽象为原子服务，依据用户需求选择对应原子服务加入服务编排来制定用户所需的安全服务。

参见图6所示，该架构根据具体的用户服务需求选择不同的原子服务加入到服务链编排中，从而实现灵活的、按需定制的智能检测服务，架构可分为3个层次，自下而上分别为资源层、控制层和安全业务层。在资源层由各种物理和虚拟形态的安全节点、网络节点等组成，这里将智能检测安全节点池化，并分解成若干虚拟形态的安全实体，每种安全实体提供一种基本的安全能力，采用虚拟安全实体进行部署，使得重配置各安全实体、动态迁移到任意安全节点中都会变得相对容易。控制层包括安全控制器SC和网络控制器NC，SC是DIDA框架的核心，主要负责安全业务编排、安全策略制定以及安全任务下发，NC则负责驱动虚拟流逐步迁移至各安全实体进行安全处理。安全业务层将各安全实体所提供的安全能力抽象成原子服务，用户根据需求选择若干原子服务并加入服务编排，以实现可定制的安全服务，基于此进一步地将检测、响应、态势感知等加入服务编排，能够实现全生命周期的安全服务链。

进一步地，资源层网络安全节点，利用可编程网络交换机OFS连接云主机并转发云主机之间的流量，利用可编程网络交换机OVS来转发云主机内虚拟机VM间的虚拟流量，且每个可编程网络交换机OFS和可编程网络交换机OVS中都设置有用于指示流量转发的流表；控制层的网络控制器集中控制可编程网络交换机并将虚拟流量迁移至目标安全实体进行异常检测。

资源层的网络节点主要由可编程网络交换机(OpenFlow Switches,OFS)和(OpenFlow vSwitches,OVS)组成，OFS负责连接云主机，转发云主机之间的流量，而云主机内VM间的网络流则由OVS来转发，每个OFS和OVS中都存在流表，指示应该如何转发流量。实际上OFS和OVS仅完成数据转发功能，路由控制则由网络控制器NC来完成，NC通过统一的南向接口如Openfolw协议集中控制交换机。通过控制与转发相分离，一方面便于可编程交换机快速匹配网络流，适应流量日益增长的需求，另一方面能够将网络流迁移至或绕过安全设备，实现安全设备的逻辑部署或撤销，集中控制也便于NC获取网络拓扑结构、统计网络流量等。

利用网络控制器NC的流驱动能力，能够将虚拟流迁移至目标主机，例如当云主机PM1内的虚拟机VM1向虚拟机VM2发起一个恶意网络连接，且需要安全节点SM1对虚拟流进行异常检测时，虚拟流迁移过程如图7所示。网络连接请求首先到达PM1中的OVS并等候处理，由于这是一个新的连接，故OVS内不存在相应的流表，OVS便向NC发送packet_in消息询问处理方式。NC位于云主机PM1外部，故这一过程需要经过OFS发送至NC，NC收到请求消息后生成两条流规则，通过packet_out消息下发至OVS，一条流规则是将虚拟流转发到VM2，另一条是迁移至SM1中负责异常智能检测的VM。接下来OVS依据流表转发虚拟流，将其逐步迁移至异常智能检测组件中进行处理。

进一步地，安全控制器包含：安全服务管理编排模块、安全策略智能模块、流指令推送模块和安全设备管理模块，其中，安全服务管理编排模块，用于接收用户订阅的安全服务，并指定组合满足用户安全服务链的目标安全实体；安全策略智能模块，用于依据用户安全服务链需求制定安全策略，利用该安全策略表示安全服务与安全实体之间映射关系；流指令推送模块，用于将安全策略翻译为流指令，并将流指令推送至网络控制器；安全设备管理模块，用于维护并调度资源池中安全实体。

安全控制器SC位于该框架的中心，在南北方向上，负责从北向接口接收订阅的安全服务，通过南向接口管理资源池里的安全资源，并接收安全资源的南向报警日志；在东西方向上，负责从网络控制器NC获取网络拓扑信息，并向NC推送流指令，由NC将虚拟流迁移至各安全实体进行安全检查。

安全控制器由多个模块组成，其中，安全服务管理编排模块，负责接收用户对安全服务的订阅，并指定能够满足该安全服务的安全实体，以提供相应的安全能力。当用户选择若干安全服务时，则需要对安全服务进行有效组合、合理编排，形成一条安全服务链，并指定满足安全服务链的一系列安全实体。

安全策略制定模块，依据一系列安全服务需求制定相关安全策略，安全策略可表示为P＝(R,C,A)，其中R＝{r_i}表示安全服务需求，C＝{c_i}表示满足某服务需求r_i的安全实体集合，A＝{a_i}表示安全实体所采取的动作。安全策略实际上是制定安全服务需求R与安全能力实体C之间的映射关系，例如P＝(r₁＝集成分类器,c₁＝base_SVM,c₂＝base_NN,c₃＝base_DT,c₄＝meta_MLR,a₃＝log)，则表示安全服务需求r₁为集成分类，满足该需求则需要四个安全实体，分别是SVM、NN和DT构建基分类器，MLR构建元分类器，并将MLR分类器结果进行日志。因此，依据安全服务需求制定一系列安全策略，为具体的安全任务实施提供指导依据。

流指令推送模块，负责将安全策略翻译为流指令，并推送至网络控制器NC。流指令主要指明了需要将虚拟流迁移至哪些安全实体，NC接收流指令制定流规则，驱动各OpenFlow交换机将虚拟流依次迁移至各安全能力实体，从而实现协同的安全防护。

安全设备管理模块，负责维护调度资源池里的安全实体。报警库，当虚拟流被检测到时会产生报警日志，报警被推送到报警库，依据报警日志可进一步制定安全策略，并通过流指令驱动网络节点丢弃发起恶意行为计算节点的虚拟流。进一步地，通过报警关联能够检测出高层次的如DDOS攻击、APT攻击等单点检测难以发现的复杂多步攻击。

DIDA框架基于底层池化的安全实体以提供基本的安全能力，并将其抽象成安全业务层的原子服务，用户根据具体服务需求选择若干原子服务加入到服务链编排中，从而实现灵活的、按需定制的智能检测服务，以满足不同的检测需求。DIDA框架可通过构建6个安全实体以提供不同的安全能力，其中特征向量规范化实体，对特征向量进行规范化处理构造生成标准特征记录；特征提取实体，利用现有技术中无监督学习网络进行特征提取，例如可利用现有无监督特征提取模型SCAE抽取出具有学习能力、健壮的抽象特征表示；基分类器实体和元分类器实体，负责对降维得到的低维特征进行分类检测，以识别异常网络流，这里主要构建了SVM、NN及DT等3种异质基分类器，并基于多元线性回归算法进行加权集成，生成元分类器。根据具体服务需求可组合不同的安全实体，以提供不同的安全能力，满足不同智能检测场景的需求。比如，可选取不同的单一分类器，也可选择集成分类器，以满足在精度或效率上的不同的检测需求。融合特征提取模型SCAE与加权集成学习模型WAHEL，构建了异常智能检测框架，充分利用它们的优势，实现对虚拟网络流自动化、高精准地智能异常检测。其构建思想是使用样本数据的相应特征和类别离线训练与测试SCAE深度分析模型、多分类器加权集成模型，并利用已训练好的模型在线预测实时网络流的类别标记，识别该网络流是“正常流”还是某种“攻击流”，如图8所示。综上，可定义的虚拟流量智能检测架构DIDA，能够实现灵活地选择检测方法、集中控制的协同防护、快速地实施应急响应。

为验证本案方案有效性，下面结合试验数据做进一步解释说明：

采用入侵检测评估数据集NSL-KDD，在Tensorflow平台上完成加权集成学习模型的构建。采用SCAE方法提取低维特征，利用提取的低维特征进行加权多分类器集成学习。

加权自适应的集成学习模型WAHEL属于异质集成技术，包含若干不同种类的分类器，从而实现优势互补，在Level-0层分别采用支持向量机SVM、神经网络NN、以及C4.5决策树构建生成基分类器，在Level-1层选取多元线性回归算法MLR构建强分类器。为了证明WAHEL模型具有更好的分类效果，设计了3组对比实验：

(1)各基分类器的学习效果对比，分别使用单一SVM、单一NN及单一C4.5算法进行分类，得到各基分类器的分类精度，并对各单一分类器的分类精度进行评价，赋予其相应的权重值；

(2)构建标准集成学习模型HEL，将HEL模型的分类精度并与各单一基分类器进行比较分析；

(3)构建加权集成学习模型WAHEL，利用各基分类器的权重值及分类结果构建WAHEL模型，并与HEL模型进行对比分析。

通过这3组实验构建5个分类模型，如表1所示，分别是与深度收缩自编码特征提取相结合的SCAE+SVM模型、SCAE+NN模型、SCAE+DT模型、SCAE+HEL模型以及本案方案所提的SCAE+WAHEL模型，通过对比分析来验证WAHEL模型的有效性。上述3组对比实验在NSL-KDD数据集的5分类任务上进行。

表1 WAHELM模型比较

在基于特征提取方法SCAE获取最优特征子集的基础上，分别使用单一机器学习算法SVM、NN、C4.5算法构建基分类器，利用NSL-KDD训练数据集进行5折交叉验证，生成各基分类器及其分类结果即元数据，并获得各基分类器的分类精度，如表2显示了各基分类器在5-分类任务中的分类性能，其中Train ACC表示对训练数据集进行k折交叉验证后的分类精度，Test ACC表示在测试数据集上的分类精度，AUC表示ROC曲线下的面积。

由表2分类结果可知，SCAE+SVM模型的训练精度和测试精度分别为99.24％、87.33％，分别高于SCAE+NN模型1.44％、2.03％，高于SCAE+DT模型4.21％、3.68％，可见，SCAE+SVM模型的检测精度相对较高，SCAE+NN模型次之，SCAE+DT模型则相对较差。

表2各基分类器的检测性能比较

图9(a-c)展示各基分类器的5-分类ROC曲线，虚线表示对应基分类器总的ROC曲线，实线分别表示5种攻击类型的ROC曲线。可以看出，三种基分类器的ROC曲线下面积差别并不大。

在训练得到各基分类器及元数据后，利用多元线性回归算法对各基分类器进行集成生成强分类器。表3显示了集成学习模型SCAE+HEL在NSL-KDD测试集上的分类效果，相较于各个单一分类器，集成学习模型HEL的分类效果要好一些。但是集成学习模型HEL的分类性能提升效果并不大，仅比最优的单一SCAE+SVM分类器的精度高出1.3％。这是因为各基分类器在集成过程中所占的分量是一样，虽然SVM的分类精度较高，但并没有发挥其作用，因此HEL模型的分类效果并不显著。

表3 SCAE+HEL模型的分类性能

WAHEL的思想是为各基分类器赋予权重，从而提升优秀基分类器的分量，降低较差基分类器的影响。由表2可以计算与判定出每个基分类器的权值，每个基分类器的权值为其分类精度除以所有基分类器的分类精度之和，这里利用5折交叉验证后得到的分类精度进行权重评价。经过权重评定，SVM分类器的分类性相对较高，其权重也相应较高，其权重值为0.341，NN分类器和DT分类器的权重分别是0.333和0.326。

接下来，依据各基分类器的权重进行集成，表4显示了加权集成学习模型SCAE+WAHEL在NSL-KDD测试集上的分类效果。SCAE+WAHEL模型的分类精度达到了91.46％，比最优的单一SCAE+SVM分类器的精度高出4.1％，比较差的SCAE+DT分类器的精度高出了10％，比标准集成模型SCAE+HEL的分类精度也高出了3.2％，可见，SCAE+WAHEL模型的分类优于所有单一分类器，通过加权集成使得分类精度得到了一定程度的提升。

表4 SCAE+WAHEL模型的分类性能

图10(a-d)展示各分类模型中类别的真实值与预测值的拟合程度，横坐标表示测试样本数量，纵坐标为测试样本的类别值，分别为0～4，图中灰色线表示测试样本中类别的真实值(y_test)，深色线表示类别的预测值(y_pred)，灰色和深色的拟合程度越好，说明预测值越接近于真实值，模型的分类效果越好。图中，(a-b)分别是SCAE+NN模型和SCAE+DT的拟合情况，可以看出仍然存在大量样本的预测值与真实值是不一致的，拟合程度还比较差，分类精度还比较低；(c)是SCAE+HEL模型的拟合情况，该模型集成了各基分类器的优势，可以看出拟合程度比各基分类器的拟合程度有了一定的提升，但提升的程度并不是很大；(d)是SCAE+WAHEL模型的拟合情况，可以看出该模型的拟合程度相比各基分类器和标准集成模型有了较大程度的提升，SCAE+WAHEM模型取得的总精度最高，比任一单分类器都取得了更好的分类效果。并且可以发现，SCAE+WAHEM模型对类别值为4的少量样本的检测精度最好，这也说明了该模型的泛化能力相对较好。

针对现有基于机器学习的检测方法在多种异常共存、异常不断演化的云环境中存在的检测精度不高、泛化能力差等问题，本案实施例，基于加权集成学习的网络流分类中，可采用支持向量机、神经网络、决策树等方法生成基分类器，利用多元线性回归算法构建具有较强学习能力和泛化能力的强分类器，有效提高检测精度；并基于软件定义安全SDS的虚拟流量迁移，借助SDS的流规则驱动能力和流迁移能力，将虚拟流逐步迁移至安全设备进行处理，解决了传统检测系统对虚拟网络流不可见、不可控问题。利用基于软件定义安全的虚拟流异常智能检测框架，可根据具体服务需求选择不同原子服务并加入到服务链编排中，实现灵活可定制的异常智能检测服务，以满足不同智能检测场景的需求。最后通过实验进一步验证了本案加权集成学习方案的有效性，其分类精度高于标准集成分类器以及任意基分类器。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法和/或系统，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

基于上述的方法和/或系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种流量智能监测平台，其特征在于，基于软件定义安全来实现物理主机内虚拟机间的网络流量检测，包含：资源层、控制层和安全业务层，其中，资源层，将物理和/或虚拟形态下进行智能检测的网络安全节点进行池化并分解成用于部署配置的各安全实体，每个安全实体中基于基分类器和/或强化分类器来进行虚拟流量的异常分类检测；控制层，利用安全控制器编排安全业务、制定安全策略并下发安全任务，依据安全任务和安全策略通过网络控制器来驱动虚拟流迁移至各安全实体进行处理；安全业务层，将各安全实体提供的流量异常检测抽象为原子服务，依据用户需求选择对应原子服务加入服务编排来制定用户所需的安全服务；且资源层网络安全节点，利用可编程网络交换机OFS连接云主机并转发云主机之间的流量，利用可编程网络交换机OVS来转发云主机内虚拟机VM间的虚拟流量，且每个可编程网络交换机OFS和可编程网络交换机OVS中都设置有用于指示流量转发的流表；控制层的网络控制器集中控制可编程网络交换机并将虚拟流量迁移至目标安全实体进行异常检测；安全控制器包含：安全服务管理编排模块、安全策略智能模块、流指令推送模块和安全设备管理模块，其中，安全服务管理编排模块，用于接收用户订阅的安全服务，并指定组合满足用户安全服务全生命周期下安全服务链的目标安全实体，所述目标安全实体包括流量异常检测安全实体、响应安全实体和态势感知安全实体；安全策略智能模块，用于依据用户安全服务链需求制定安全策略，利用该安全策略表示安全服务与安全实体之间映射关系；流指令推送模块，用于将安全策略翻译为流指令，并将流指令推送至网络控制器；安全设备管理模块，用于维护并调度资源池中安全实体；基于基分类器和/或强化分类器来进行虚拟流量的异常分类检测过程包含如下内容：

构建用于虚拟流分类识别的多分类器加权集成模型，并利用带标签的样本数据对多分类器加权集成模型进行训练测试，其中，该多分类器加权集成模型包含：由强化分类器和若干异质基分类器组成栈式集成结构，若干异质基分类器利用训练样本集并基于k-折交叉验证法训练得到，且强化分类器基于学习法并将基分类器的输出结果作为学习算法的训练样本集训练得到，以通过若干异质基分类器对输入的虚拟流特征向量进行初级分类，并在初级分类中对各基分类器的权重进行判定；强化分类器依据判定权重对基分类器初级分类结果进行多元线性回归的集成预测；在初级分类中对各基分类器的权重进行判定的公式表示为：其中，m为基分类器个数，a_j为基分类器L_j的分类精度；多元线性回归的过程表示为：

z＝b₀+w₁b₁y₁+w₂b₂y₂+…w_mb_my_m+ε，其中，b₀,b₁…b_m为常数项，y_m为基分类器L_m的分类结果，ε为回归系数；

2.根据权利要求1所述的流量智能监测平台，其特征在于，安全策略利用三元组P＝(R,C,A)表示，其中，R＝{r_i}表示安全服务需求r_i集合，C＝{c_i}表示满足安全服务需求r_i的安全实体c_i集合，A＝{a_i}表示安全实体c_i所采取的动作a_i集合。

3.根据权利要求1所述的流量智能监测平台，其特征在于，利用k-折交叉验证法将带标签的样本数据随机划分为k个子集，选中其中一个子集作为测试样本集，其他k-1个子集作为训练样本集，利用训练样本集和测试样本集对多分类器加权集成模型进行训练测试。

4.根据权利要求1所述的流量智能监测平台，其特征在于，利用已训练的无监督学习网络来提取虚拟流数据中的特征向量。