CN101668006A - 一种用于异常检测的自适应网络流量采样方法 - Google Patents

一种用于异常检测的自适应网络流量采样方法 Download PDF

Info

Publication number
CN101668006A
CN101668006A CN200910073048A CN200910073048A CN101668006A CN 101668006 A CN101668006 A CN 101668006A CN 200910073048 A CN200910073048 A CN 200910073048A CN 200910073048 A CN200910073048 A CN 200910073048A CN 101668006 A CN101668006 A CN 101668006A
Authority
CN
China
Prior art keywords
stream
sampling
time interval
size
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910073048A
Other languages
English (en)
Inventor
杨武
王巍
苘大鹏
何晓冰
玄世昌
莫锡昌
康喜
司贺华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN200910073048A priority Critical patent/CN101668006A/zh
Publication of CN101668006A publication Critical patent/CN101668006A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供的是一种用于异常检测的自适应网络流量采样方法。基于时间分层的思想,把时间分成一些预先确定的、不重叠的称为块或层的间隔。同一个时间间隔内,用同一概率对属于相同流的所有数据报文进行采样,并实时检测流是否期满。时间间隔结束时,用当前时间间隔采样到的报文数目和采样概率估计流大小,并预测下一个时间间隔的流大小分布,然后把预测的流大小作为确定下一个时间间隔的采样概率的重要参数,同时结合强制采样方法对较小流的数据报文进行强制采样。与现有技术相比,本发明的优点是:算法简便、灵活,能为异常检测提供正确的数据源,同时能够提高处理速度和节约存储空间。

Description

一种用于异常检测的自适应网络流量采样方法
(一)技术领域
本项目涉及一种采样技术,特别是一种针对异常检测的数据包采样技术。
(二)背景技术
随着大规模、高速互联网的发展,流量全采集测量技术已经无法继续进行。由于监测设备软硬件的限制,在高速链路和路由器中,使用包采样技术来减少需要处理的数据包数目已成为流量监测分析中的一种重要方法,也是IETF的IPFIX和PSAMP工作组推荐的方法。现有的数据包采样算法在网络流量监测分析中得到了广泛的应用,如思科的NetFlow。近年来,随着安全分析变得越来越重要,网络流量的采样数据又被广泛作为异常检测的数据源,如用来检测拒绝服务攻击DoS、蠕虫攻击和端口扫描攻击等。因此,对于ISP来说,为了确保服务质量和提供增值服务,准确捕获网络中的异常流不仅是可取的也是必需的。
随着采样技术逐渐应用到异常检测中,采样算法对异常检测的影响也成为学术界广泛讨论的话题。目前,在网络流量抽样测量方面,使用最广泛的是基于IP流的随机报文采样方法,它的特点是简单,可行,易于操作。它倾向于采集长流,而对短流的采样率则很低。然而,网络异常流通常由突发的一系列短流组成,且大部分仅为单个报文。不难想象,如果用随机采样方法的抽样数据作为异常检测分析的数据源,不可避免地会对异常检测产生影响。为了分析现有的采样算法对异常检测的影响,研究者分别将随机包采样、随机流采样、smart采样和sample-and-hold采样应用在流量异常检测和portscan检测这两种检测技术上进行实验。通过分析不同采样算法对流量异常检测和portscan检测的影响,指出由于这些采样算法在设计时并没有考虑将来要用于异常检测,所以其抽样结果影响了异常检测的正确性,同时还建议今后需要设计一种新的抽样方法来解决该问题。
由于现有的采样技术极大地影响了其用于异常检测时检测结果的正确性,已有不少研究者开展了这方面的研究工作,提出了一些解决此问题的方法和技术。例如利用攻击流的特征分布和入侵检测系统检测结果的反馈来指导采样过程。这种方法在采样概率较大时能很好地捕获攻击报文,但当采样概率相对攻击规模来说较小时,采样数据的失真会导致入侵检测系统检测率的大幅下降。又如将采样概率设置为数据包的位置参数的减函数来进行采样。虽然这种方法可以减小抽样数据对于异常检测的影响,但是它需要记录每个流中每个包的位置信息,同时在每个包到达时都需要计算一次决定是否采样该数据包的采样概率。
(三)发明内容
本发明的目的是提供一种可以克服采样失真、缺乏灵活性、处理速度低和存储空间大等缺陷等问题的一种用于异常检测的自适应网络流量采样方法。
本发明的具体工作过程是通过以下几个步骤来实现的:
步骤一:采用预先定义的采样概率p0对数据包进行采样,直到到达第二个时间间隔;
步骤二:以旁路侦听方式捕获网络上的TCP/IP数据包;
步骤三:将新到达的数据包按流标识快速分类,对流标识进行哈希,得到HASH值,该HASH值即为流ID;
步骤四:用对应流的采样概率对到来的数据包进行采样;若采样,则将记录时间间隔内采样报文数目数组中的该流ID对应的关联计数器加1,否则丢弃该数据包;
步骤五:实时检测IP流是否期满,期满的IP流将被从缓冲区删除;
步骤六:判断时间间隔是否结束,若没有,则转到步骤二,继续考察下一个数据包,若时间间隔结束,则用当前时间间隔采样到的报文数目和采样概率估计流大小,预测下一个时间间隔的流大小;
步骤七:若预测的流大小小于指定的阈值T,则对下一个时间间隔该流的所有数据包进行强制采样,否则根据流大小计算下一个时间间隔的采样概率;
步骤八:将记录时间间隔内采样报文数目的数组清零。
本发明还可以包括:
1、所述的将新到达的数据包按流标识快速分类的方法为:从捕获的网络数据包中分解出能唯一标识所属流的数据项;流是一组具有相同属性的数据包集合,数据报文ai的流标识关键字为:
fID(ai)=<Src.IP,Src.Port,Dst.IP,Dst.Port,Protocol>
其中,Src.IP代表源IP地址,Src.Port代表源端口,Dst.IP代表目的IP地址,Dst.Port代表目的端口,Protocol代表协议类型;如果数据报文ai到达,则利用哈希函数H计算出fID(ai)所对应的流ID。
2、所述实时检测流是否期满的方法为:
(1)、不活动超时:某条流的空闲时间超过一个阈值T1,即流不活动超时,会被判为期满;
(2)、协议:收到某些标志连接结束的报文,如TCP连接中,收到FIN(TCP连接结束标志)或者RST(重新建立连接标志)时,原流被判为期满;
(3)、内存管理:缓冲区满时,原流被判为期满;
(4)、活动超时:某条流的活动时间超过指定的阈值T2,被判为期满。
3、所述预测下一个时间间隔的流大小的方法为:在计算下一个时间间隔的采样概率之前用AR模型预测其流大小。
本发明基于时间分层的思想,把时间分成一些预先确定的、不重叠的称为块或层的间隔。同一个时间间隔内,按照流标识对数据报文进行快速分类,用同一概率对属于相同流的所有数据报文进行采样,并实时检测流是否期满。时间间隔结束时,用当前时间间隔采样到的报文数目和采样概率估计流大小,并预测下一个时间间隔的流大小分布,然后把预测的流大小作为确定下一个时间间隔的采样概率的重要参数,同时结合强制采样方法对较小流的数据报文进行强制采样。
与现有技术相比,本发明的优点在于:算法简便、灵活,能为异常检测提供正确的数据源,同时能够提高处理速度和节约存储空间。
(四)附图说明
图1是本发明的时间分层图
图2是本发明的采样概率调整流程图
(五)具体实施方式
下面通过在IDS设备中实施本发明进行详细描述。实施时,需要在IDS中设置自适应采样模块,该模块完成网络数据包的采样、统计功能。
本发明的步骤是:
步骤一、程序启动,初始化系统参数,采用预先定义的采样概率p0对数据包进行采样,直到到达第二个时间间隔。分别将用来记录流大小和时间间隔内采样报文数目的数组清零。系统参数的初始值如下:
  p0   ε   T   T1   T2
  0.9   0.001   10   15sec   30min
步骤二、以旁路侦听方式捕获网络上的TCP/IP数据包;
步骤三、将新到达的数据包按流标识快速分类,对流标识进行哈希,得到HASH值,该HASH值即为流ID,
按流标识进行快速分类是指从捕获的网络数据包中分解出能唯一标识所属流的数据项;流是一组具有相同属性的数据包集合,流是一组具有相同属性的数据包集合,数据报文ai的流标识关键字为:
fID(ai)=<Src.IP,Src.Port,Dst.IP,Dst.Port,Protocol>
其中,Src.IP代表源IP地址,Src.Port代表源端口,Dst.IP代表目的IP地址,Dst.Port代表目的端口,Protocol代表协议类型;如果数据报文ai到达,则利用哈希函数H计算出fID(ai)所对应的流ID;
步骤四、用对应流的采样概率对到来的数据包进行采样;若采样,则将记录时间间隔内采样报文数目的数组中的该流ID对应的关联计数器加1,同时把该数据包送到IDS的异常分析模块,否则丢弃该数据包;
步骤五、实时检测IP流是否期满,期满的IP流将被从缓冲区上删除;
步骤六、判断时间间隔是否结束,若没有,则转到步骤二,继续考察下一个数据包,若时间间隔结束,则用当前时间间隔采样到的报文数目和采样概率估计流大小,预测下一个时间间隔的流大小,
估计流大小的方法为:
s + = m P s - - - ( 1 )
其中m为当前时间间隔采样到的某个IP流的报文数目,Ps为该流的采样概率,s为该流的大小;
步骤七、若预测的流大小小于指定的阈值T,则对下一个时间间隔该流的所有数据包进行强制采样,否则根据流大小计算下一个时间间隔的采样概率,
下一个时间间隔各个流的采样概率为:
P s = 1 1 + &epsiv; 2 s , s > T 1 , s &le; T - - - ( 2 )
这里的s是预测的下一个时间间隔的流大小,T是指定的阈值大小,ε是常数;
步骤八、将记录时间间隔内采样报文数目的数组清零;
步骤九、转到步骤二。
最后所应说明的是:以上实施方式仅用以说明而非限制本发明的技术方案,尽管参照上述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:依照可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改与局部替换,其均应涵盖在本发明的权利要求范围内。

Claims (9)

1、一种用于异常检测的自适应网络流量采样方法,其特征是:
步骤一:采用预先定义的采样概率对数据包进行采样,直到到达第二个时间间隔;
步骤二:以旁路侦听方式捕获网络上的TCP/IP数据包;
步骤三:将新到达的数据包按流标识快速分类,对流标识进行哈希,得到HASH值,该HASH值即为流ID;
步骤四:用对应流的采样概率对到来的数据包进行采样;若采样,则将记录时间间隔内采样报文数目的数组中的该流ID对应的关联计数器加1,否则丢弃该数据包;
步骤五:实时检测IP流是否期满,期满的IP流将被从缓冲区删除;
步骤六:判断时间间隔是否结束,若没有,则转到步骤二,继续考察下一个数据包,若时间间隔结束,则用当前时间间隔采样到的报文数目和采样概率估计流大小,并预测下一个时间间隔的流大小;
步骤七:若预测的流大小小于指定的阈值,则对下一个时间间隔该流的所有数据包进行强制采样,否则根据流大小计算下一个时间间隔的采样概率;
步骤八:将记录时间间隔内采样报文数目的数组清零。
2、根据权利要求1所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述的将新到达的数据包按流标识快速分类的方法为:从捕获的网络数据包中分解出能唯一标识所属流的数据项;流是一组具有相同属性的数据包集合,数据报文ai的流标识关键字为:
fID(ai)=<Src.IP,Src.Port,Dst.IP,Dst.Port,Protocol>
其中,Src.IP代表源IP地址,Src.Port代表源端口,Dst.IP代表目的IP地址,Dst.Port代表目的端口,Protocol代表协议类型;如果数据报文ai到达,则利用哈希函数H计算出fID(ai)所对应的流ID。
3、根据权利要求1或2所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述实时检测流是否期满的方法为:
(1)、不活动超时:某条流的空闲时间超过一个阈值T1,即流不活动超时,会被判为期满;
(2)、协议:收到标志连接结束的报文时,原流被判为期满;
(3)、内存管理:缓冲区满时,原流被判为期满;
(4)、活动超时:某条流的活动时间超过指定的阈值T2,被判为期满。
4、根据权利要求1或2所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述估计流大小的方法为:
s + = m P s
其中m为当前时间间隔采样到的某个IP流的报文数目,Ps为该流的采样概率,s为该流的大小。
5、根据权利要求3所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述估计流大小的方法为:
s + = m P s
其中m为当前时间间隔采样到的某个IP流的报文数目,Ps为该流的采样概率,s为该流的大小。
6、根据权利要求1或2所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述预测下一个时间间隔的流大小的方法为:在计算下一个时间间隔的采样概率之前用AR模型预测其流大小;
通过预测的流大小分布,得到下一个时间间隔的采样概率:
P s = 1 1 + &epsiv; 2 s , s > T 1 , s &le; T
这里的s是预测的下一个时间间隔的流大小,T是指定的阈值大小,ε是常数。
7、根据权利要求3所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述预测下一个时间间隔的流大小的方法为:在计算下一个时间间隔的采样概率之前用AR模型预测其流大小;
通过预测的流大小分布,得到下一个时间间隔的采样概率:
P s = 1 1 + &epsiv; 2 s , s > T 1 , s &le; T
这里的s是预测的下一个时间间隔的流大小,T是指定的阈值大小,ε是常数。
8、根据权利要求4所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述预测下一个时间间隔的流大小的方法为:在计算下一个时间间隔的采样概率之前用AR模型预测其流大小;
通过预测的流大小分布,得到下一个时间间隔的采样概率:
P s = 1 1 + &epsiv; 2 s , s > T 1 , s &le; T
这里的s是预测的下一个时间间隔的流大小,T是指定的阈值大小,ε是常数。
9、根据权利要求5所述的一种用于异常检测的自适应网络流量采样方法,其特征是所述预测下一个时间间隔的流大小的方法为:在计算下一个时间间隔的采样概率之前用AR模型预测其流大小;
通过预测的流大小分布,得到下一个时间间隔的采样概率:
P s = 1 1 + &epsiv; 2 s , s > T 1 , s &le; T
这里的s是预测的下一个时间间隔的流大小,T是指定的阈值大小,ε是常数。
CN200910073048A 2009-10-12 2009-10-12 一种用于异常检测的自适应网络流量采样方法 Pending CN101668006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910073048A CN101668006A (zh) 2009-10-12 2009-10-12 一种用于异常检测的自适应网络流量采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910073048A CN101668006A (zh) 2009-10-12 2009-10-12 一种用于异常检测的自适应网络流量采样方法

Publications (1)

Publication Number Publication Date
CN101668006A true CN101668006A (zh) 2010-03-10

Family

ID=41804446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910073048A Pending CN101668006A (zh) 2009-10-12 2009-10-12 一种用于异常检测的自适应网络流量采样方法

Country Status (1)

Country Link
CN (1) CN101668006A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495851A (zh) * 2011-11-17 2012-06-13 百度在线网络技术(北京)有限公司 时序数据的存储和查询方法、系统及装置
CN104486116A (zh) * 2014-12-12 2015-04-01 北京百度网讯科技有限公司 多维度查询流量数据的方法及系统
CN105675045A (zh) * 2016-01-27 2016-06-15 安徽容知日新信息技术有限公司 一种设备数据的分层采集方法和装置
CN108418835A (zh) * 2018-04-08 2018-08-17 北京明朝万达科技股份有限公司 一种基于Netflow日志数据的端口扫描攻击检测方法及装置
CN110572300A (zh) * 2019-08-30 2019-12-13 西南交通大学 Tcp流已传输数据量估计方法
CN111447218A (zh) * 2020-03-25 2020-07-24 北京天地和兴科技有限公司 一种tcp端口扫描的检测方法
CN111581489A (zh) * 2020-05-22 2020-08-25 哈尔滨工程大学 一种基于共享计数树的存储空间优化采样方法
CN115001853A (zh) * 2022-07-18 2022-09-02 山东云天安全技术有限公司 一种异常数据的识别方法、装置、存储介质及计算机设备
CN115563570A (zh) * 2022-12-05 2023-01-03 上海飞旗网络技术股份有限公司 一种资源的异常检测方法、装置及设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495851A (zh) * 2011-11-17 2012-06-13 百度在线网络技术(北京)有限公司 时序数据的存储和查询方法、系统及装置
CN102495851B (zh) * 2011-11-17 2014-11-05 百度在线网络技术(北京)有限公司 时序数据的存储和查询方法、系统及装置
CN104486116A (zh) * 2014-12-12 2015-04-01 北京百度网讯科技有限公司 多维度查询流量数据的方法及系统
CN105675045A (zh) * 2016-01-27 2016-06-15 安徽容知日新信息技术有限公司 一种设备数据的分层采集方法和装置
CN105675045B (zh) * 2016-01-27 2018-03-02 安徽容知日新科技股份有限公司 一种设备数据的分层采集方法和装置
CN108418835A (zh) * 2018-04-08 2018-08-17 北京明朝万达科技股份有限公司 一种基于Netflow日志数据的端口扫描攻击检测方法及装置
CN110572300A (zh) * 2019-08-30 2019-12-13 西南交通大学 Tcp流已传输数据量估计方法
CN111447218A (zh) * 2020-03-25 2020-07-24 北京天地和兴科技有限公司 一种tcp端口扫描的检测方法
CN111447218B (zh) * 2020-03-25 2022-08-05 北京天地和兴科技有限公司 一种tcp端口扫描的检测方法
CN111581489A (zh) * 2020-05-22 2020-08-25 哈尔滨工程大学 一种基于共享计数树的存储空间优化采样方法
CN115001853A (zh) * 2022-07-18 2022-09-02 山东云天安全技术有限公司 一种异常数据的识别方法、装置、存储介质及计算机设备
CN115001853B (zh) * 2022-07-18 2022-11-04 山东云天安全技术有限公司 一种异常数据的识别方法、装置、存储介质及计算机设备
CN115563570A (zh) * 2022-12-05 2023-01-03 上海飞旗网络技术股份有限公司 一种资源的异常检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN101668006A (zh) 一种用于异常检测的自适应网络流量采样方法
US10469364B2 (en) System and method for real-time load balancing of network packets
US8510830B2 (en) Method and apparatus for efficient netflow data analysis
US8677485B2 (en) Detecting network anomaly
CN103281293A (zh) 一种基于多维分层相对熵的网络流量异常检测方法
CN104618377A (zh) 基于NetFlow的僵尸网络检测系统与检测方法
CN103001972B (zh) Ddos攻击的识别方法和识别装置及防火墙
Choi et al. Adaptive random sampling for traffic load measurement
CN105376110A (zh) 以大数据流式技术实现网络数据包的分析方法及系统
EP3282643B1 (en) Method and apparatus of estimating conversation in a distributed netflow environment
CN107302534A (zh) 一种基于大数据平台的DDoS网络攻击检测方法及装置
CN104932742B (zh) 一种触屏设备获取多点操作轨迹的方法及系统
CN103269337B (zh) 数据处理方法及装置
WO2016161713A1 (zh) 路由设备中数据流分析的方法、装置及路由设备
Johnson et al. Network anomaly detection using autonomous system flow aggregates
JP5192451B2 (ja) ネットワーク品質算出システムと方法およびプログラム
Liu et al. Identifying elephant flows using a reversible multilayer hashed counting bloom filter
JP5437194B2 (ja) フロー通信品質推定方法及び装置及びプログラム
WO2017206499A1 (zh) 网络攻击检测方法以及攻击检测装置
Silva et al. Enhancing traffic sampling scope and efficiency
Cheng Estimating the number of active flows from sampled packets
Yu Based on the network sniffer implement network monitoring
Sun et al. Comparison of five Packet-Sampling-Based methods for detecting elephant flows
Lan et al. Passive overall packet loss estimation at the border of an ISP
JP4898648B2 (ja) 高パケットレートフローのオンライン検出方法およびそのためのシステムならびにそのためのプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100310