CN106060039B

CN106060039B - 一种面向网络异常数据流的分类检测方法

Info

Publication number: CN106060039B
Application number: CN201610370689.6A
Authority: CN
Inventors: 柳毅; 杨融泽; 凌捷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2019-08-23
Anticipated expiration: 2036-05-27
Also published as: CN106060039A

Abstract

在面向大规模数据流的监控应用中，为了使管理更加高效，必须针对异常数据流的特征进行准确的在线识别。由于网络数据流在大规模网络实时环境中具有多维异构的特点，对异常数据流的挖掘必须使用较高的计算性能和较小的计算开销来满足所有符合匹配规则的异常数据流。本发明提出了一种面向异常数据流层次聚类挖掘算法，这种算法能够很好的适应多源异构环境下的异常流。挖掘算法主要包括两个部分，约束归并和层次聚类。算法将数据流进行嵌套层次聚类的同时进行约束归并，约束归并主要将聚类的数据流进行必连和不连约束并将约束进行闭包操作，防止类别间的过早聚类所产生分析误差。实验表明，该算法在挖掘异常数据流中相比其他分类检测算法具有较高的精确度。

Description

一种面向网络异常数据流的分类检测方法

技术领域

本发明涉及网络安全研究领域，具体涉及通过一种异常数据流分类方法对网络数据流进行检测并对异常流量进行稳定的分类。

背景技术

随着大数据技术的逐渐发展，企业大数据处理水平不断提高，面向企业的大规模数据流逐渐出现多源异构等特点.一些大型企业集团开始重视面向在线数据流的监控和挖掘以及相关技术的实现。因此，数据流挖掘技术在大数据环境下针对不同属性维度的数据流具有广泛的应用前景；通过数据流挖掘能够客观的评估数据流状态并预测数据流趋势。需要训练的数据流持续不断的经过在线检测系统,系统需要将原来的学习结果和实时的训练结果进行有效的综合，并能够保证系统的计算能力和知识发现的准确度。最后，在原有的异常判断规则中添加新的异常检测规则。

近年来，国内外针对异常流检测和分析的相关研究工作不断增多。根据不同的类型的数据源，检测范围和不同层面的流量异常检测内容，研究人员使用多种研究方法从数据流量属性特征出发，对异常数据流进行多维多层次的分析。

数据包和网络流量是异常数据流挖掘技术主要研究的基本单位，数据流挖掘技术的主要研究方法包括近似技术、滑动窗口技术、衰减因子以及自适应技术。其中，自适应技术是目前流挖掘技术的主要研究方向。从数据流的多维特征中提取出某种异常流量形式的特征流，结合其他大规模数据流的正常行为模式，从而确定网络流量的异常行为。例如，一些畸形的大规模流量从固定的几个源端口发送出去，这种流量异常所体现的网络行为代表的某种蠕虫特征，常见于flash堵塞和DDos中。

本文发明一种面向网络异常数据流的分类检测方法，这种方法能够很好的适应多源异构网络环境下的异常数据流。挖掘检测方法主要包括两个部分，约束归并和层次聚类。算法将数据流进行嵌套层次聚类的同时进行约束归并，约束归并主要将聚类的数据流进行必连和不连约束并将约束进行闭包操作，防止类别间的过早聚类所产生分析误差。实验表明，该方法在挖掘异常数据流中相比其他流挖掘算法具有较高的精确度。发明中所使用的一些技术原理如下。

1、约束传递原理

在数据挖掘思想中，半监督学习要求不仅使用标记数据集进行分析，而且通过标记数据集产生的分类模式能够合理的引导未经标识的数据集进行数据挖掘。

半监督层次聚类算法使用了必连和不连两种约束。算法的主要思想是：首先对符合必连约束的数据集划分为数据类别M₁，…M_r，对于不涉及必连约束的数据样本集合划分类别为C₁，…C_r。之后通过输入初始化类别和相似度测量来运行层次化聚类算法。与标准的层次聚类算法不同的是，如果C_a与C_b之间的所有样本点不存在满足不连约束的点，则与C_b可以进行合并，否则寻找次小的两个类别。如果不存在两个类别，则算法终止。

由于半监督层次聚类算法对类别进行初始化约束判断，对于层次聚类的效果具有一定的影响，具有必连约束的类别不一定是最近，有可能最远，对于新产生类别的中心点有可能与其他类别重合，降低挖掘精度。因此，引入约束的思想动态变换类间的约束。

由同类传递和异类传递的原理可知，对于必连约束集合μ和不连约束集合有其中约束集合μ和是一个闭包是指μ是一个同类闭包同时是一个异类闭包。

同类闭包是指所有可以通过传递规则推断的集合可以最终推断并包含在必连约束集合中。

异类闭包是指所有可以通过传递规则推断的集合可以最终推断并包含在不连约束集合中。

2、约束归并方法

给定需要合并的类别C₁和C₂，合并结果C_∪，必连约束集合μ和不连约束集合

步骤1.对满足(C₁，C_k)∈μ或(C₂，C_k)∈μ，则将(C_∪，C_k)加入μ，即μ＝μ∪(C_∪，C_k)；

步骤2.对满足或则将(C_∪，C_k)加入即

步骤3.分别计算与C₁和C₂满足必连约束的集合μ₁和μ₂，以及满足不连约束的集合和并进行如下操作：

将(C_k，C_s)加入即

将(C_k，C_s)加入μ，即μ＝μ∪(C_k，C_s)。

步骤4.从μ和中将所有关于C₁或C₂的约束去除；

步骤5.返回归并后的必连和不连约束集合μ和

半监督层次聚类要求数据源同时包含标记数据的训练集和未标记数据的测试集，由于网络异常通常表现为极大的多样性：在种类上包括扫描、DDos、蠕虫以及网络堵塞等。系统可以通过训练数据流进行初始化分类为这些异常，并通过测试数据流更加精确的对数据流进行分类处理。

发明内容

本发明使用的网络数据流检测分类方法包含三个主要步骤：将约束数据流关联，数据流特征属性聚类，约束归并。首先将所有的必连约束数据流集和不连约束数据流集进行闭包关联，对数据流聚类需要计算训练数据集的相似度，同时在构建聚类树时完成约束规则的动态更新。

一种面向网络异常数据流的分类检测方法，该方法包括：

步骤一：对网络异常数据流开始分类检测，判断是否符合数据流约简要求，如果是，则执行步骤二；如果否，则返回；

步骤二：使用自定义向量因子约简数据流集，

步骤三：关联数据流集合约束控制矩阵；

步骤四：计算类间相似度并选出相似度最小的一对数据集，将该数据集合并为新的集合，更新数据流集，并更新约束控制矩阵；

步骤五：判断是否满足聚类停止条件，如果是，则输出异常流聚类树状图，结束算法分类检测过程，如果否，则返回步骤三。

附图说明

图1分类检测方法流程；

图2针对不同异常数据流的检测效果；

图3不同算法对数据流的分类性能。

具体实施方式

在多源异构的网络环境中，对于异常流量的准确分析和判断有助于网络管理人员及时做出应急响应措施。本文通过从网络原始流量中收集的流量数据和具有标识的网络流数据，从训练数据集和测试数据集两个角度进行半监督聚类分析，将相似的数据流归为一类。为了提高聚类结果的精确性，通过类间约束更新能够较为有效的提高层次聚类合并的准确度，并防止聚类之间的过早合并所产生的分类误差。图1为分类检测方法的流程。

表1描述了实验过程所使用的数据集信息。训练数据流使用的是在某商业网链路上搜集一个月的流量记录。恶意异常流量数据采用CAIDA组织收集到的Witty蠕虫数据、DDOS数据以及Conficker蠕虫数据。

表1数据集统计信息表

其中，Witty和Conficker蠕虫数据流量使用工具Telescope采集，DDOS数据是针对某主干链路采集到的一次ICMP DDOS攻击。原始背景训练数据流是通过流量收集的方式进行数据收集，在商业网中异常流量相对于背景流量总体较少，不利于流量挖掘算法对其进行分析。因此，实验使用异常数据流注入的方式改善原始数据的总体特征效果。由于原始数据集过于庞大，为了对系统进行验证，从各数据代表集中选取具有代表性的15％数据集作为测试。

表2给出了在评价指标下算法的分类效果，其中可以看出DDos与蠕虫的分类误判率较低，精确度较高。说明算法可以有效的对这两种攻击特征属性进行聚类划分。针对链路失效的分类效果同时可以达到85.5％，说明针对特征向量以及分析视角的选择对分类结果的精确度有一定的影响力。

表2算法分类效果表

图2为算法在针对不同异常数据流中识别效果，通过注入异常数据流来确定算法的识别精度。从图中可以看出，当异常数据流注入比例达到％6时对异常的识别效果达到最优，接近％100。当异常数据流小于％6时，算法识别效果较低，误判率较高，检测准确率在％40-％80。因此，算法检测精度可以定义为％6。

图3选取人工注入的背景数据流集进行算法分类性能比较。并使用COP-KMEANS和C-DBSCAN算法。由于数据集数据规模以及不同分析视图下数据特征属性存在一定的差别，CM-HC算法在异常环境下的分类表现存在一定的差异。从图中可以看出CM-HC算法分类精度相对而言较高，从而避免了类间过早合并，在大数据流环境下可以稳定的进行分类操作。

通过与其他相似聚类算法的类比表明，当约束数量达到一定数值时，算法可以达到比较理想的效果。基于约束归并的层次聚类算法在分类精度上相比其他算法具有较高的准确性和较强的稳定性。

1、可以将网络数据流定义为多元组表示，并将重要的数据流特征定义为元组属性，本文使用元组形式为I＝(sIP,dIP,sPort,dPort,Protocol)其中，sIP和dIP为数据流源IP地址和目的IP地址,sPort和dPort为数据流源端口和目的端口,Protocol为数据流所使用的协议类型。

2、使用基于向量因子对属性元组进行约简，令向量因子为X＝(x₁,x₂,x₃,x₄,x₅)，更新后得到数据流元组表示为I₁＝I·X，得到数据流属性元组的通俗表示形式。

3、定义算法过程使用的约束控制矩阵Conj(i,j)，Conj(i,j)的表示形式如下：

其中d_ij为类间相似度测距，δ为约束控制标准。Conj(i,j)为1时x_i与x_j一定同一个簇，此时类间关系为必连。当Conj(i,j)为-1时一定属于不同的簇，此时类间关系为不必连。δ的计算方法可以根据不同的需求自行进行设定，本发明使用计算方法如下：

其中k为更新后需要进行约束判断的类别，n为数据流样本点个数。

4、层次聚类停止条件为S，S计算方式如下：

S＝||Cm|-|Cn||

其中|C_m|和|C_n|分别为必连约束集Cm和不必连约束集Cn中的势。

具体算法过程如下所示：

将经过约简的数据流样本集元组X和向量因子矩阵Conj(i,j)以及需要聚类的个数作为输入参数，定义ConstrainedMergeFlow函数作为异常流量分类检测的核心过程。具体实现算法的部分伪代码如下：

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向网络异常数据流的分类检测方法，该方法包括：

步骤二：使用自定义向量因子约简数据流集；

步骤三：关联数据流集和约束控制矩阵，其关联关系为：C1＝X·Conj；然后通过定义的δ更新C1中的必连元组；

步骤四：计算类间相似度并选出相似度最小的一对数据集，将该数据集合并为新的集合，移除原始数据流集，更新数据流集，并更新约束控制矩阵；

步骤五：判断是否满足聚类停止条件，如果是，则输出异常流聚类树状图，结束算法分类检测过程，如果否，则返回步骤三；

所述约束控制矩阵Conj(i,j)，Conj(i,j)的表示形式如下：

其中d_ij为类间相似度测距，δ为约束控制标准；Conj(i,j)为1时x_i与x_j一定同一个簇,此时类间关系为必连；当Conj(i,j)为-1时一定属于不同的簇，此时类间关系为不必连；其中，x_i和x_j表示不同的数据流簇集合。

2.根据权利要求1所述的一种面向网络异常数据流的分类检测方法，其特征在于：该网络异常数据流定义为多元组表示，使用元组形式为：

I＝(sIP,dIP,sPort,dPort,Protocol)，

其中，sIP和dIP为数据流源IP地址和目的IP地址，sPort和dPort为数据流源端口和目的端口，Protocol为数据流所使用的协议类型。

3.根据权利要求2所述的一种面向网络异常数据流的分类检测方法，其特征在于：该网络数据流重要特征定义为元组属性。

4.根据权利要求1所述的一种面向网络异常数据流的分类检测方法，其特征在于：所述δ为：

其中n为数据流样本点个数。