CN101668006A

CN101668006A - 一种用于异常检测的自适应网络流量采样方法

Info

Publication number: CN101668006A
Application number: CN200910073048A
Authority: CN
Inventors: 杨武; 王巍; 苘大鹏; 何晓冰; 玄世昌; 莫锡昌; 康喜; 司贺华
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2009-10-12
Filing date: 2009-10-12
Publication date: 2010-03-10

Abstract

本发明提供的是一种用于异常检测的自适应网络流量采样方法。基于时间分层的思想，把时间分成一些预先确定的、不重叠的称为块或层的间隔。同一个时间间隔内，用同一概率对属于相同流的所有数据报文进行采样，并实时检测流是否期满。时间间隔结束时，用当前时间间隔采样到的报文数目和采样概率估计流大小，并预测下一个时间间隔的流大小分布，然后把预测的流大小作为确定下一个时间间隔的采样概率的重要参数，同时结合强制采样方法对较小流的数据报文进行强制采样。与现有技术相比，本发明的优点是：算法简便、灵活，能为异常检测提供正确的数据源，同时能够提高处理速度和节约存储空间。

Description

一种用于异常检测的自适应网络流量采样方法

(一)技术领域

本项目涉及一种采样技术，特别是一种针对异常检测的数据包采样技术。

(二)背景技术

随着大规模、高速互联网的发展，流量全采集测量技术已经无法继续进行。由于监测设备软硬件的限制，在高速链路和路由器中，使用包采样技术来减少需要处理的数据包数目已成为流量监测分析中的一种重要方法，也是IETF的IPFIX和PSAMP工作组推荐的方法。现有的数据包采样算法在网络流量监测分析中得到了广泛的应用，如思科的NetFlow。近年来，随着安全分析变得越来越重要，网络流量的采样数据又被广泛作为异常检测的数据源，如用来检测拒绝服务攻击DoS、蠕虫攻击和端口扫描攻击等。因此，对于ISP来说，为了确保服务质量和提供增值服务，准确捕获网络中的异常流不仅是可取的也是必需的。

随着采样技术逐渐应用到异常检测中，采样算法对异常检测的影响也成为学术界广泛讨论的话题。目前，在网络流量抽样测量方面，使用最广泛的是基于IP流的随机报文采样方法，它的特点是简单，可行，易于操作。它倾向于采集长流，而对短流的采样率则很低。然而，网络异常流通常由突发的一系列短流组成，且大部分仅为单个报文。不难想象，如果用随机采样方法的抽样数据作为异常检测分析的数据源，不可避免地会对异常检测产生影响。为了分析现有的采样算法对异常检测的影响，研究者分别将随机包采样、随机流采样、smart采样和sample-and-hold采样应用在流量异常检测和portscan检测这两种检测技术上进行实验。通过分析不同采样算法对流量异常检测和portscan检测的影响，指出由于这些采样算法在设计时并没有考虑将来要用于异常检测，所以其抽样结果影响了异常检测的正确性，同时还建议今后需要设计一种新的抽样方法来解决该问题。

由于现有的采样技术极大地影响了其用于异常检测时检测结果的正确性，已有不少研究者开展了这方面的研究工作，提出了一些解决此问题的方法和技术。例如利用攻击流的特征分布和入侵检测系统检测结果的反馈来指导采样过程。这种方法在采样概率较大时能很好地捕获攻击报文，但当采样概率相对攻击规模来说较小时，采样数据的失真会导致入侵检测系统检测率的大幅下降。又如将采样概率设置为数据包的位置参数的减函数来进行采样。虽然这种方法可以减小抽样数据对于异常检测的影响，但是它需要记录每个流中每个包的位置信息，同时在每个包到达时都需要计算一次决定是否采样该数据包的采样概率。

(三)发明内容

本发明的目的是提供一种可以克服采样失真、缺乏灵活性、处理速度低和存储空间大等缺陷等问题的一种用于异常检测的自适应网络流量采样方法。

本发明的具体工作过程是通过以下几个步骤来实现的：

步骤一：采用预先定义的采样概率p₀对数据包进行采样，直到到达第二个时间间隔；

步骤二：以旁路侦听方式捕获网络上的TCP/IP数据包；

步骤三：将新到达的数据包按流标识快速分类，对流标识进行哈希，得到HASH值，该HASH值即为流ID；

步骤四：用对应流的采样概率对到来的数据包进行采样；若采样，则将记录时间间隔内采样报文数目数组中的该流ID对应的关联计数器加1，否则丢弃该数据包；

步骤五：实时检测IP流是否期满，期满的IP流将被从缓冲区删除；

步骤六：判断时间间隔是否结束，若没有，则转到步骤二，继续考察下一个数据包，若时间间隔结束，则用当前时间间隔采样到的报文数目和采样概率估计流大小，预测下一个时间间隔的流大小；

步骤七：若预测的流大小小于指定的阈值T，则对下一个时间间隔该流的所有数据包进行强制采样，否则根据流大小计算下一个时间间隔的采样概率；

步骤八：将记录时间间隔内采样报文数目的数组清零。

本发明还可以包括：

1、所述的将新到达的数据包按流标识快速分类的方法为：从捕获的网络数据包中分解出能唯一标识所属流的数据项；流是一组具有相同属性的数据包集合，数据报文a_i的流标识关键字为：

f_ID(a_i)＝<Src.IP，Src.Port，Dst.IP，Dst.Port，Protocol>

其中，Src.IP代表源IP地址，Src.Port代表源端口，Dst.IP代表目的IP地址，Dst.Port代表目的端口，Protocol代表协议类型；如果数据报文a_i到达，则利用哈希函数H计算出f_ID(a_i)所对应的流ID。

2、所述实时检测流是否期满的方法为：

(1)、不活动超时：某条流的空闲时间超过一个阈值T₁，即流不活动超时，会被判为期满；

(2)、协议：收到某些标志连接结束的报文，如TCP连接中，收到FIN(TCP连接结束标志)或者RST(重新建立连接标志)时，原流被判为期满；

(3)、内存管理：缓冲区满时，原流被判为期满；

(4)、活动超时：某条流的活动时间超过指定的阈值T₂，被判为期满。

3、所述预测下一个时间间隔的流大小的方法为：在计算下一个时间间隔的采样概率之前用AR模型预测其流大小。

本发明基于时间分层的思想，把时间分成一些预先确定的、不重叠的称为块或层的间隔。同一个时间间隔内，按照流标识对数据报文进行快速分类，用同一概率对属于相同流的所有数据报文进行采样，并实时检测流是否期满。时间间隔结束时，用当前时间间隔采样到的报文数目和采样概率估计流大小，并预测下一个时间间隔的流大小分布，然后把预测的流大小作为确定下一个时间间隔的采样概率的重要参数，同时结合强制采样方法对较小流的数据报文进行强制采样。

与现有技术相比，本发明的优点在于：算法简便、灵活，能为异常检测提供正确的数据源，同时能够提高处理速度和节约存储空间。

(四)附图说明

图1是本发明的时间分层图

图2是本发明的采样概率调整流程图

(五)具体实施方式

下面通过在IDS设备中实施本发明进行详细描述。实施时，需要在IDS中设置自适应采样模块，该模块完成网络数据包的采样、统计功能。

本发明的步骤是：

步骤一、程序启动，初始化系统参数，采用预先定义的采样概率p₀对数据包进行采样，直到到达第二个时间间隔。分别将用来记录流大小和时间间隔内采样报文数目的数组清零。系统参数的初始值如下：

p₀	ε	T	T₁	T₂
p₀	ε	T	T₁	T₂	0.9	0.001	10	15sec	30min

步骤二、以旁路侦听方式捕获网络上的TCP/IP数据包；

步骤三、将新到达的数据包按流标识快速分类，对流标识进行哈希，得到HASH值，该HASH值即为流ID，

按流标识进行快速分类是指从捕获的网络数据包中分解出能唯一标识所属流的数据项；流是一组具有相同属性的数据包集合，流是一组具有相同属性的数据包集合，数据报文a_i的流标识关键字为：

f_ID(a_i)＝<Src.IP，Src.Port，Dst.IP，Dst.Port，Protocol>

其中，Src.IP代表源IP地址，Src.Port代表源端口，Dst.IP代表目的IP地址，Dst.Port代表目的端口，Protocol代表协议类型；如果数据报文a_i到达，则利用哈希函数H计算出f_ID(a_i)所对应的流ID；

步骤四、用对应流的采样概率对到来的数据包进行采样；若采样，则将记录时间间隔内采样报文数目的数组中的该流ID对应的关联计数器加1，同时把该数据包送到IDS的异常分析模块，否则丢弃该数据包；

步骤五、实时检测IP流是否期满，期满的IP流将被从缓冲区上删除；

步骤六、判断时间间隔是否结束，若没有，则转到步骤二，继续考察下一个数据包，若时间间隔结束，则用当前时间间隔采样到的报文数目和采样概率估计流大小，预测下一个时间间隔的流大小，

估计流大小的方法为：

s + = \frac{m}{P_{s}} - - - (1)

其中m为当前时间间隔采样到的某个IP流的报文数目，P_s为该流的采样概率，s为该流的大小；

步骤七、若预测的流大小小于指定的阈值T，则对下一个时间间隔该流的所有数据包进行强制采样，否则根据流大小计算下一个时间间隔的采样概率，

下一个时间间隔各个流的采样概率为：

P_{s} = \{\begin{matrix} \frac{1}{1 + ϵ^{2} s}, & s > T \\ 1, & s \leq T \end{matrix} - - - (2)

这里的s是预测的下一个时间间隔的流大小，T是指定的阈值大小，ε是常数；

步骤八、将记录时间间隔内采样报文数目的数组清零；

步骤九、转到步骤二。

最后所应说明的是：以上实施方式仅用以说明而非限制本发明的技术方案，尽管参照上述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：依照可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改与局部替换，其均应涵盖在本发明的权利要求范围内。

Claims

1、一种用于异常检测的自适应网络流量采样方法，其特征是：

步骤一：采用预先定义的采样概率对数据包进行采样，直到到达第二个时间间隔；

步骤二：以旁路侦听方式捕获网络上的TCP/IP数据包；

步骤四：用对应流的采样概率对到来的数据包进行采样；若采样，则将记录时间间隔内采样报文数目的数组中的该流ID对应的关联计数器加1，否则丢弃该数据包；

步骤六：判断时间间隔是否结束，若没有，则转到步骤二，继续考察下一个数据包，若时间间隔结束，则用当前时间间隔采样到的报文数目和采样概率估计流大小，并预测下一个时间间隔的流大小；

步骤七：若预测的流大小小于指定的阈值，则对下一个时间间隔该流的所有数据包进行强制采样，否则根据流大小计算下一个时间间隔的采样概率；

步骤八：将记录时间间隔内采样报文数目的数组清零。

2、根据权利要求1所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述的将新到达的数据包按流标识快速分类的方法为：从捕获的网络数据包中分解出能唯一标识所属流的数据项；流是一组具有相同属性的数据包集合，数据报文a_i的流标识关键字为：

f_ID(a_i)＝<Src.IP，Src.Port，Dst.IP，Dst.Port，Protocol>

3、根据权利要求1或2所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述实时检测流是否期满的方法为：

(2)、协议：收到标志连接结束的报文时，原流被判为期满；

(3)、内存管理：缓冲区满时，原流被判为期满；

4、根据权利要求1或2所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述估计流大小的方法为：

s + = \frac{m}{P_{s}}

其中m为当前时间间隔采样到的某个IP流的报文数目，P_s为该流的采样概率，s为该流的大小。

5、根据权利要求3所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述估计流大小的方法为：

s + = \frac{m}{P_{s}}

6、根据权利要求1或2所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述预测下一个时间间隔的流大小的方法为：在计算下一个时间间隔的采样概率之前用AR模型预测其流大小；

通过预测的流大小分布，得到下一个时间间隔的采样概率：

P_{s} = \{\begin{matrix} \frac{1}{1 + ϵ^{2} s}, & s > T \\ 1, & s \leq T \end{matrix}

这里的s是预测的下一个时间间隔的流大小，T是指定的阈值大小，ε是常数。

7、根据权利要求3所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述预测下一个时间间隔的流大小的方法为：在计算下一个时间间隔的采样概率之前用AR模型预测其流大小；

通过预测的流大小分布，得到下一个时间间隔的采样概率：

P_{s} = \{\begin{matrix} \frac{1}{1 + ϵ^{2} s}, & s > T \\ 1, & s \leq T \end{matrix}

8、根据权利要求4所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述预测下一个时间间隔的流大小的方法为：在计算下一个时间间隔的采样概率之前用AR模型预测其流大小；

通过预测的流大小分布，得到下一个时间间隔的采样概率：

P_{s} = \{\begin{matrix} \frac{1}{1 + ϵ^{2} s}, & s > T \\ 1, & s \leq T \end{matrix}

9、根据权利要求5所述的一种用于异常检测的自适应网络流量采样方法，其特征是所述预测下一个时间间隔的流大小的方法为：在计算下一个时间间隔的采样概率之前用AR模型预测其流大小；

通过预测的流大小分布，得到下一个时间间隔的采样概率：

P_{s} = \{\begin{matrix} \frac{1}{1 + ϵ^{2} s}, & s > T \\ 1, & s \leq T \end{matrix}