CN113810333A

CN113810333A - 基于半监督谱聚类和集成svm的流量检测方法及系统

Info

Publication number: CN113810333A
Application number: CN202010531581.7A
Authority: CN
Inventors: 龙春; 魏金侠; 万巍; 赵静; 杜冠瑶; 杨帆
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-12-17
Anticipated expiration: 2040-06-11
Also published as: CN113810333B

Abstract

本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法及系统，所述检测方法首先将未知网络流量和已知网络流量区分开来。因此，首先解决的是未知网络流量的筛选问题，通过半监督谱聚类方法实现对未知网络流量的筛选，提高了未知网络流量筛选的效率；其次建立基于SVM的集成分类器，避开了从归纳到演绎的传统过程，大大简化了分类与回归问题，同时具有很好的鲁棒性，在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率，实现对未知网络流量进行攻击类型的精准检测。

Description

基于半监督谱聚类和集成SVM的流量检测方法及系统

技术领域

本发明属于未知流量攻击类型检测技术领域，特别涉及一种基于半监督谱聚类和集成SVM的流量检测方法及系统。

背景技术

网络流量数据来源广、层次多、差异大、纬度高、内在关系错综复杂，未知恶意流量隐藏的比较深；同时应用传统的统计方法不能高效率检测、分析和处理。在如此复杂的网络环境下，如何将未知流量筛选出来，并实现对未知流量攻击类型的高准确性检测，降低检测误报率是目前急需解决的技术问题。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法和系统。

本发明其中一个技术方案提供一种基于半监督谱聚类和集成SVM的流量检测方法，所述检测方法包括如下步骤：

构建综合数据集；

利用半监督谱聚类方法从综合数据集内筛选出未知网络流量；

利用集成学习方法对未知网络流量的攻击类型进行检测。

优选地，所述构建综合数据集包括如下步骤：

获取已知网络流量的数据集，去掉数据集中的标签信息，形成无标签数据集；

将无标签数据集与未知网络流量混合形成无标签的综合数据集。

优选地，所述利用半监督谱聚类方法从综合数据集内筛选出未知网络流量包括如下步骤：

计算综合数据集中两点之间的欧氏距离；

修改距离矩阵D；

构造矩阵S；

构造矩阵

其中，T为对角矩阵，

i为矩阵S的行角标，j为矩阵S的列角标，i、j＝1至n；

经过谱聚类过程获得2个类；

对已知网络流量的数据集进行聚类，分别计算2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离，距离已知网络流量的数据集的平均距离小的类为已知网络流量，另一类为未知网络流量。

优选地，所述利用集成学习方法对未知网络流量的攻击类型进行检测包括如下步骤：

获取训练样本集合M，进行多轮训练，获得多个弱分类器；

多个弱分类器的加权求和获取强分类器，将未知网络流量输入到强分类器内，输出攻击类型。

优选地，所述进行多轮训练，获得多个弱分类器具体为从训练样本集合M开始训练第一弱分类器，每完成一轮训练后，都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。

优选地，所述挑选出下一轮训练过程的训练数据集包括如下步骤：

从训练样本集合M中随机选择N-Q^α个样本形成样本集合P，其中N是本轮训练中选择的训练样本，N＜M，Q表示本轮训练过程中分类错误的样本集合；Q^α表示将样本集合Q中的样本复制α次之后的样本的集合；

将样本集合P和集合Q^α组合成为下一轮训练过程中的训练数据集。

优选地，所述挑选出下一轮训练过程的训练数据集包括：

将|Q|与H和L进行比较；

当|Q|＜L，从训练数据集M中随机选择N个样本，组成下一轮训练过程中的训练数据集；

当|Q|＞H，从样本集合Q中随机选择H个样本形成新的集合Q₁，然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P₁，将样本集合P₁和集合Q₁ ^α组合作为下一轮训练过程中的训练数据集；

当L≤|Q|≤H，从训练数据集M中随机选取N-α|Q|个样本形成集合P₂，样本集合P₂和集合Q^α组合作为下一轮训练过程中的训练数据集。

本发明另一个技术方案提供一种基于半监督谱聚类和集成SVM的流量检测系统，所述检测系统包括：

综合数据集构建模块，所述综合数据集构建模块被配置为用于构建综合数据集；

筛选模块，所述筛选模块被配置为利用半监督谱聚类方法从综合数据集内筛选出未知网络流量；

攻击类型检测模块，所述攻击类型检测模块被配置为利用集成学习方法对未知网络流量的攻击类型进行检测。

本发明另一个技术方案还一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行一种基于半监督谱聚类和集成SVM的流量检测方法时实现的步骤。

本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法及系统，所述检测方法首先利用半监督谱聚类方解决未知流量的筛选问题，提高了未知流量筛选的准确性；其次建立基于SVM的集成分类器实现对未知流量攻击类型的检测，大大简化了分类与回归问题，同时使得检测方法具有很好的鲁棒性，在检测异常流量攻击方面体现出较高的准确率且显著较低了误报率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的一种基于半监督谱聚类和集成SVM的流量检测方法的流程示意图；

图2构建综合数据集的方法流程图；

图3是利用半监督谱聚类方法从综合数据集内筛选出未知网络流量的流程图；

图4是利用集成学习方法对未知网络流量的攻击类型进行检测的流程图；

图5是本发明提供的一种基于半监督谱聚类和集成SVM的流量检测系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明其中一个实施例提供一种基于半监督谱聚类和集成SVM的流量检测方法，所述检测方法包括如下步骤：

S1：构建综合数据集；

如图2所示，在一些优选的实施例中，构建综合数据集的具体方法为：

S11：获取已知网络流量的数据集，去掉数据集中的标签信息，形成无标签数据集；

其中，已知网络流量的数据集为已知网络流量攻击类型的数据集，数据集内每一网络流量都带有攻击类型的标签信息。

S12：将无标签数据集与未知网络流量混合形成无标签的综合数据集；

其中，未知网络流量是指攻击类型未知的网络流量，所述未知网络流量可以为模拟生成的网络流量、数据库中存储的网络流量或者实时获取的网络流量，本申请不对未知网络流量的来源进行具体的限定。

S2：利用半监督谱聚类方法从综合数据集内筛选出未知网络流量；

其中，本申请将上述综合数据集标记为两类集合作为监督信息，分别表示距离远的同类集M’和距离近的不同类集D；具体解释为：距离远且属于同一类数据集合表示M’，距离近且属于不同类的数据集合表示D。通过对上述数据集的分类方法可以避免边界上的点被分错。

如图3所示，在一些优选的实施例中，利用半监督谱聚类方法从综合数据集内筛选出未知网络流量的方法包括如下步骤：

S21：计算综合数据集中两点之间的欧氏距离；

S22：修改距离矩阵D，若这两点属于集合1，则矩阵元素为0；若这两点属于集合2，则矩阵元素为无穷；

S23：构造矩阵S，各个元素为距离矩阵的倒数；

S24：构造矩阵

其中，T为对角矩阵，

i为矩阵S的行角标，j为矩阵S的列角标，i、j＝1至n；

S25：经过谱聚类过程获得2个类；

S26：对已知网络流量的数据集进行聚类，分别计算步骤S25获得的2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离，距离已知网络流量的数据集的平均距离小的类为已知网络流量，另一类为未知网络流量。

本发明通过半监督谱聚类算法将未知网络流量和已知网络流量区分开，通过将距离远属于同类以及距离近属于不同类作为监督信息去修改距离矩阵，距离远的同类数据对应的距离矩阵元素调整为0(几乎在一起)，距离近的不同类数据距离矩阵元素调整为无穷(特别特别远)，显著降低了边界点分错的概率，提高了未知网络流量筛选的准确率。

S3：利用集成学习方法对未知网络流量的攻击类型进行检测。

其中，利用集成SVM分类器对未知网络流量的攻击类型进行检测。集成SVM分类器指的是多分类器，涉及到的SVM基分类器是适用于多分类的场景。

如图4所示，利用集成学习方法对未知网络流量的攻击类型进行检测的方法包括如下步骤：

S31：获取训练样本集合M，进行多轮训练，获得多个弱分类器；

其中获取的训练样本集合M为攻击类型已知的网络流量集合。

S32：多个弱分类器的加权求和获取强分类器，将未知网络流量输入到强分类器内，输出攻击类型。

在一些优选的实施例中，进行多轮训练，获得多个弱分类器具体包括如下步骤：

从训练样本集合M开始训练第一弱分类器，每完成一轮训练后，都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。

其中，挑选出下一轮训练过程的训练数据集包括如下步骤：

为了避免离群点对训练样本的重采样造成影响，设定错位分类阈值的上限H和下限L，挑选出下一轮训练过程的训练数据集包括如下步骤：

将|Q|与H和L进行比较；

当|Q|＞H，从样本集合Q中随机选择H个样本形成新的集合Q₁，然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P₁，将样本集合P₁和集合Q₁ ^α组合作为下一轮训练过程中的训练数据集；其中，Q₁ ^α表示集合Q₁中的样本复制α次之后的样本集合；

其中，N，α，L和H是超参数，通过十折交叉验证的方式获得最优值。

通过以上方法对每轮训练的样本进行过采样，提高了检测模型的精度和召回率。

本申请提供的一种基于半监督谱聚类和集成SVM的流量检测方法能更准确的对未知网络流量的攻击类型进行识别，首先将未知网络流量和已知网络流量区分开来。因此，首先解决的是未知网络流量的筛选问题，通过半监督谱聚类方法实现对未知网络流量的筛选，提高了未知网络流量筛选的准确率。其次建立基于SVM的集成分类器，避开了从归纳到演绎的传统过程，大大简化了分类与回归问题，同时具有很好的鲁棒性，在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率，实现对未知网络流量进行攻击类型的精准检测。

在一些优选的实施例中，为了提高检测的准确率，本发明进一步对样本集合Q中各样本的复制次数进行了具体的限定，具体包括如下步骤：

将样本集合Q内的样本进行聚类，形成w个聚类簇；

其中聚类的方法可以利用已知K-Means聚类方法或其他方法进行聚类，本申请不做具体限定。

找出样本集合Q的中心点，及w个聚类簇的聚类中心；

根据聚类中心距离样本集合Q中心点之间的距离，将w个聚类簇分成三类样本集合；将聚类中心距离样本集合Q中心点距离小于x的所有聚类簇内的样本形成第一样本集合，将聚类中心距离样本集合Q中心点距离大于y的所有聚类簇内的样本形成第三样本集合，其余各聚类簇的样本形成第二样本集合，其中y＞x；

在第一样本集合中距离最远的两个样本之间插入一新的样本；新形成的所有样本再在距离最远的两个样本之间插入一新的样本，循环α次后，所以样本形成新的集合F₁；

其中，新样本的插入方式为在距离最远的两个样本之间插入一距离两个样本距离相同的新样本；

将第二样本集合内的每一样本复制α次，形成新的集合F₂；

在第三样本集合中距离最近的两个样本之间插入一新的样本；新形成的所有样本再在距离最近的两个样本之间插入一新的样本，循环α次后，所以样本形成新的集合F₃；

其中，新样本的插入方式为在距离最接近的两个样本之间插入一距离两个样本距离相同的新样本。

集合F1、F2和F3组成样本集合Q^α。

根据每个聚类簇内聚类中心距离样本集合Q中心点的不同距离，将聚类簇再进行分类，然后对不同的样本集合采用不同的复制方式，考虑了边界分错点分错的情况，显著提高了进一步检测的准确率。

如图5所示，本发明另一个实施例提供一种基于半监督谱聚类和集成SVM的流量检测系统，所述检测系统包括：

综合数据集构建模块10，所述综合数据集构建模块被配置为用于构建综合数据集；

其中，构建综合数据集包括如下步骤：

将无标签数据集与未知网络流量混合形成无标签的综合数据集；

筛选模块20，所述筛选模块被配置为利用半监督谱聚类方法从综合数据集内筛选出未知网络流量；

利用半监督谱聚类方法从综合数据集内筛选出未知网络流量的方法包括如下步骤：

计算综合数据集中两点之间的欧氏距离；

修改距离矩阵D，若这两点属于集合1，则矩阵元素为0；若这两点属于集合2，则矩阵元素为无穷；

构造矩阵S，各个元素为距离矩阵的倒数；

构造矩阵

其中，T为对角矩阵，

i为矩阵S的行角标，j为矩阵S的列角标，i、j＝1至n；

经过谱聚类过程获得2个类；

对已知网络流量的数据集进行聚类，分别计算步骤S25获得的2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离，距离已知网络流量的数据集的平均距离小的类为已知网络流量，另一类为未知网络流量。

攻击类型检测模块30，所述攻击类型检测模块被配置为利用集成学习方法对未知网络流量的攻击类型进行检测。

利用集成学习方法对未知网络流量的攻击类型进行检测的方法包括如下步骤：

获取训练样本集合M，进行多轮训练，获得多个弱分类器；

其中获取的训练样本集合M为攻击类型已知的网络流量集合。

其中，挑选出下一轮训练过程的训练数据集包括如下步骤：

将|Q|与H和L进行比较；

本申请提供的一种基于半监督谱聚类和集成SVM的流量检测系统能更准确的对未知网络流量的攻击类型进行识别，首先将未知网络流量和已知网络流量区分开来。因此，首先解决的是未知网络流量的筛选问题，通过半监督谱聚类方法实现对未知网络流量的筛选，提高了未知网络流量筛选的效率。其次建立基于SVM的集成分类器，避开了从归纳到演绎的传统过程，大大简化了分类与回归问题，同时具有很好的鲁棒性，在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率，实现对未知网络流量进行攻击类型的精准检测。

本发明另一个实施例提供另一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行以上实施例中所提供的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述检测方法包括如下步骤：

构建综合数据集；

利用集成学习方法对未知网络流量的攻击类型进行检测。

2.根据权利要求1所述的基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述构建综合数据集包括如下步骤：

3.根据权利要求2所述的基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述利用半监督谱聚类方法从综合数据集内筛选出未知网络流量包括如下步骤：

计算综合数据集中两点之间的欧氏距离；

修改距离矩阵D；

构造矩阵S；

构造矩阵

其中，T为对角矩阵，

i为矩阵S的行角标，j为矩阵S的列角标，i、j＝1至n；

经过谱聚类过程获得2个类；

4.根据权利要求1所述的基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述利用集成学习方法对未知网络流量的攻击类型进行检测包括如下步骤：

获取训练样本集合M，进行多轮训练，获得多个弱分类器；

5.根据权利要求4所述的基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述进行多轮训练，获得多个弱分类器具体为从训练样本集合M开始训练第一弱分类器，每完成一轮训练后，都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。

6.根据权利要求5所述的基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述挑选出下一轮训练过程的训练数据集包括如下步骤：

7.根据权利要求5所述的基于半监督谱聚类和集成SVM的流量检测方法，其特征在于，所述挑选出下一轮训练过程的训练数据集包括：

将|Q|与H和L进行比较；

8.一种基于半监督谱聚类和集成SVM的流量检测系统，其特征在于，所述系统包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-7任一项权利要求所述方法的步骤。