CN106789444A - 一种基于流数约减的自适应公平抽样方法 - Google Patents

一种基于流数约减的自适应公平抽样方法 Download PDF

Info

Publication number
CN106789444A
CN106789444A CN201710046224.XA CN201710046224A CN106789444A CN 106789444 A CN106789444 A CN 106789444A CN 201710046224 A CN201710046224 A CN 201710046224A CN 106789444 A CN106789444 A CN 106789444A
Authority
CN
China
Prior art keywords
sampling
stream
fluxion
flow
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710046224.XA
Other languages
English (en)
Inventor
卜佑军
刘洪�
张震
韩伟涛
伊鹏
陈鸿昶
李向涛
马海龙
白冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201710046224.XA priority Critical patent/CN106789444A/zh
Publication of CN106789444A publication Critical patent/CN106789444A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • H04L43/024Capturing of monitoring data by sampling by adaptive sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络流量测量领域,具体涉及一种基于流数约减的自适应公平抽样方法,该方法包括:根据到达分组是否属于已有流表项,得到不同的网络流公平性抽样策略;根据流数约减对该分组所属流进行大小流区分计数,得到选择性抽取比例,建立存储器缓存中的流表项;根据新流表项到达测量点的速度进行自适应抽取,得到流个数整体压缩的所有样本流集合;根据所有样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果。本发明能够实现网络流量测量中抽样算法统计结果高的准确性,同时不仅能够解决高速链路上抽样算法的扩展性问题,还能有效提高算法的公平性。

Description

一种基于流数约减的自适应公平抽样方法
技术领域
本发明属于网络流量测量领域,具体的涉及一种基于流数约减的自适应公平抽样保证方法。
背景技术
网络流量测量将流的各项指标量化,直观地描述当前网络流量的组成成分,反映网络当前的运行状态,在流量计费,流量识别,故障检测和网络安全等应用中起着极其重要的作用。由于网络上数据的增长速度远远超过存储器性能的增长速度,因此对每个流进行实时统计成为高速骨干网实时流量测量的巨大难题,通过抽样对数据进行压缩是实时测量高速网络的重要手段。然而现有的抽样算法以牺牲大流的准确性为代价来提高小流的准确性,从而导致算法的公平性不强。虽然通过对每个流进行统计可以提高算法的公平性,但是从存储开销的角度来看,并不能实现可扩展的流量测量。
由于小流统计准确性低往往严重影响到网络安全和异常检测的正常进行,网络流量测量希望进一步提高小流的准确性以满足公平性要求,并且解决算法的可扩展性问题。目前网络流量测量虽然实现了一定程度的公平抽样,但是缺乏对算法扩展性和公平性的综合考虑。如何实现算法的公平性和扩展性,是网络流量测量面临的重要挑战。
发明内容
本发明针对现有的抽样算法以牺牲大流的准确性为代价来提高小流的准确性,从而导致算法的公平性不强,不能很好的解决算法的可扩展性等问题,提出一种基于流数约减的自适应公平抽样保证方法。
本发明的技术方案是:一种基于流数约减的自适应公平抽样方法,包括以下步骤:
步骤1:根据到达分组是否属于已有流表项,得到不同的网络流公平性抽样策略;
步骤2:利用流数约减对该分组所属流进行大小流区分计数,得到选择性抽取比例,并建立存储器缓存中的新流表项;
步骤3:根据后续流到达测量点的速度进行自适应抽取,得到流个数整体压缩的所有样本流集合;
步骤4:根据所有样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;
步骤5:根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果。
所述的基于流数约减的自适应公平抽样方法,所述步骤1中网络流公平性抽样策略包括:
步骤201:根据到达测量点的分组数据包,查询缓存中所属流表项是否存在;
步骤202:根据该分组所属流缓存存在与否,判断是否采用流数约减策略,得到所有样本流集合;
步骤203:根据得到的所有样本流集合,进行样本集合的网络流公平抽样。所述的基于流数约减的自适应公平抽样方法,所述步骤2的具体包括:
步骤301:根据流数约减策略对分组所属流采用计数型布鲁姆过滤器进行大小流区分计数;
步骤302:根据不同大小流的计数值,以概率Pf进行选择性抽取分组;
步骤303:根据选中的流分组数目,建立存储器新的缓存流表项。
所述的基于流数约减的自适应公平抽样方法,所述步骤3具体包括:
步骤401:根据新流表项到达测量点的速度,得到被抽取建立表项的新到达分组的数目;
步骤402:根据已建立流表项的分组数目,自适应改变流个数的压缩集合;
步骤403:根据得到的流数整体约减的分组集合,得到需要统计的所有样本流集合。
所述的基于流数约减的自适应公平抽样方法,所述步骤4获得抽样概率函数簇具体包括:
步骤501:根据样本流中流大小的重尾分布特征,结合两个类幂指数抽样概率函数,寻求一个流大小是减函数的抽样概率函数;
步骤502:根据流大小估计值的相对误差不超过参数值ε,使得小流的抽样概率准确性提高;
步骤503:根据不同的抽样函数特性,提出一个新的抽样概率函数簇。
所述的基于流数约减的自适应公平抽样方法,所述步骤5样本中大小流的公平性抽样结果操作包括:
步骤601:根据当前分组所属流的大小决定抽样概率P;
步骤602:根据抽样概率函数簇决定包所对应计数器为i的流的抽样概率Pi
步骤603:根据不同流大小的抽样概率,得到所有流相对误差基本一致的公平性抽样结果。
本发明的有益效果是:本发明与现有技术相比,具有以下优点:具有可扩展性和公平性,本发明提供的公平抽样方法通过流数约减方法对流进行等比例抽取,实现了测量的可扩展性;同时利用新的概率抽样函数簇对样本流集合进行公平抽样,提高了算法的公平性;算法不需要提取每个流的统计特征,能够有效地降低算法的机算复杂度,提高小流的统计准确性。
附图说明
图1为本发明的整体步骤流程示意图;
图2为流数约减和公平抽样策略步骤流程示意图;
图3为新的缓存流表项构建步骤流程示意图;
图4为抽样概率函数簇步骤流程示意图;
图5为新的抽样概率函数簇步骤流程示意图;
图6为公平抽样结果步骤流程示意图;
具体实施方式
结合图1-图6,为了方便本领域的技术人员理解本发明,下面对本文出现的技术名词或术语进行解释;
网络流量测量:获得网络行为实时参数和指标最有效的手段,分为主动测量和被动测量。
流数约减:采用均匀抽样的方法对流进行等比例抽取,实现对流个数的整体压缩。
抽样:一种非常有效的数据压缩技术,具备良好的可适性和抽样精度,广泛应用于高速骨干网链路数据流的流量测量。
一种基于流数约减的自适应公平抽样方法,包括以下步骤:
步骤1:根据到达分组是否属于流表项,得到不同的网络流公平性抽样策略;具体得到网络流公平性抽样策略,该开发过程包括:
步骤201:根据到达测量点的分组数据包,查询缓存中所属流表项是否存在;
步骤202:若该分组所属流缓存不存在,则判断采用流数约减策略,该策略利用均匀抽样的方法对流进行等比例抽取,从而将原始流数目按照等比例压缩以适应高速缓存内存小的限制,得到约减的样本流集合;
步骤203:根据约减的样本流集合以及分组所属缓存存在的样本流集合,得到需要统计的所有样本流集合,进行不同样本集合的网络流公平抽样。
步骤2:根据流数约减策略对该分组所属流进行大小流区分计数,得到选择性抽取比例,并建立存储器中的新缓存流表项;建立新缓存流表项,该开发过程包括:
步骤301:根据流数约减策略对分组所属流采用计数型布鲁姆过滤器进行大小流区分计数,实现对小流流量的逐包精确统计;
步骤302:根据大小流服从重尾分布以及不同大小流的计数值,定义抽取比例Pf,Pf是按照大小流数目占比进行抽取的比例函数,使得能够在不改变数据流在整体中所占比例的情况下进行选择性抽取分组;
步骤303:根据选中的流分组数目,建立存储器新的缓存流表项。
步骤3:根据后续流的到达的测量点的速度进行自适应抽取,得到流个数整体压缩的样本流集合;得到所有样本流集合,该开发过程包括:
步骤401:根据后续流到达测量点的速度,自适应改变流抽样比Pf的数值,利用计数器得到被抽取建立表项的新到达分组的数目;
步骤402:根据后续到达需要建立流表项的分组数目,将这些分组添加到缓存流表项,得到压缩流个数的约减集合;
步骤403:根据流数整体压缩的约减集合和已在存储器缓存中的分组集合,从原始流中选取得到需要统计的所有样本流集合。
步骤4:根据样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;提出抽样概率函数簇,该开发过程包括:
步骤501、根据样本流中流大小的重尾分布特征,结合两个类幂指数抽样概率函数,寻求一个流大小是减函数的抽样概率函数;
步骤502、根据流大小估计值的相对误差不超过参数值ε,其中ε为常数,代表任意流大小估计值的最大误差值,从而使得小流的抽样概率准确性提高;
步骤503、根据流大小的分布特性和不同的抽样概率函数特性,结合SGS算法和ANLS算法类似幂指数函数的推导过程,提出一个新的为流大小减函数的抽样概率函数簇,其中a为取值范围为(O,1)的常数。
步骤5:根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果:得到公平抽样结果,该开发过程包括:
步骤601、根据当前分组所属流的大小,为使得统计结果符合流大小重尾分布,流的大小越大,抽样率Pi越小,其中Pi由抽样概率函数g决定,即Pi=g(i);
步骤602、根据抽样概率函数簇决定包所对应计数器为i的流的抽样概率Pi
步骤603、根据不同流大小的抽样概率,得到所有流相对误差基本一致的公平性抽样结果。

Claims (6)

1.一种基于流数约减的自适应公平抽样方法,其特征在于,包括以下步骤:
步骤1:根据到达分组是否属于已有流表项,得到不同的网络流公平性抽样策略;
步骤2:利用流数约减对该分组所属流进行大小流区分计数,得到选择性抽取比例,并建立存储器缓存中的新流表项;
步骤3:根据后续流到达测量点的速度进行自适应抽取,得到流个数整体压缩的所有样本流集合;
步骤4:根据所有样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;
步骤5:根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果。
2.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤1中网络流公平性抽样策略包括:
步骤201:根据到达测量点的分组数据包,查询缓存中所属流表项是否存在;
步骤202:根据该分组所属流缓存存在与否,判断是否采用流数约减策略,得到所有样本流集合;
步骤203:根据得到的所有样本流集合,进行样本集合的网络流公平抽样。
3.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤2的具体包括:
步骤301:根据流数约减策略对分组所属流采用计数型布鲁姆过滤器进行大小流区分计数;
步骤302:根据不同大小流的计数值,以概率Pf进行选择性抽取分组;
步骤303:根据选中的流分组数目,建立存储器新的缓存流表项。
4.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤3具体包括:
步骤401:根据新流表项到达的速度,得到被抽取建立表项的新到达分组的数目;
步骤402:根据已建立流表项的分组数目,自适应改变流个数的压缩集合;
步骤403:根据得到的流数整体约减的分组集合,得到需要统计的所有样本流集合。
5.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤4获得抽样概率函数簇具体包括:
步骤501:根据样本流中流大小的重尾分布特征,结合两个类幂指数抽样概率函数,寻求一个流大小是减函数的抽样概率函数;
步骤502:根据流大小估计值的相对误差不超过参数值ε,使得小流的抽样概率准确性提高;
步骤503:根据不同的抽样函数特性,提出一个新的抽样概率函数簇。
6.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤5样本中大小流的公平性抽样结果操作包括:
步骤601:根据当前分组所属流的大小决定抽样概率P;
步骤602:根据抽样概率函数簇决定包所对应计数器为i的流的抽样概率Pi
步骤603:根据不同流大小的抽样概率,得到所有流相对误差基本一致的公平性抽样结果。
CN201710046224.XA 2017-01-22 2017-01-22 一种基于流数约减的自适应公平抽样方法 Pending CN106789444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710046224.XA CN106789444A (zh) 2017-01-22 2017-01-22 一种基于流数约减的自适应公平抽样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710046224.XA CN106789444A (zh) 2017-01-22 2017-01-22 一种基于流数约减的自适应公平抽样方法

Publications (1)

Publication Number Publication Date
CN106789444A true CN106789444A (zh) 2017-05-31

Family

ID=58943721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710046224.XA Pending CN106789444A (zh) 2017-01-22 2017-01-22 一种基于流数约减的自适应公平抽样方法

Country Status (1)

Country Link
CN (1) CN106789444A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826955A (zh) * 2022-05-26 2022-07-29 电子科技大学 一种IPv6网络中业务流动态分组抽样方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252485A (zh) * 2008-04-11 2008-08-27 清华大学 业务流的自适应非线性抽样统计方法
CN102469024A (zh) * 2010-11-04 2012-05-23 华为技术有限公司 指示和获取用户流数的方法及通信装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252485A (zh) * 2008-04-11 2008-08-27 清华大学 业务流的自适应非线性抽样统计方法
CN102469024A (zh) * 2010-11-04 2012-05-23 华为技术有限公司 指示和获取用户流数的方法及通信装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李海莉: "《中国优秀硕士学位论文全文数据库-信息科技辑》", 15 July 2016 *
李海莉等: "一种基于流数约减的非线性公平采样算法", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826955A (zh) * 2022-05-26 2022-07-29 电子科技大学 一种IPv6网络中业务流动态分组抽样方法
CN114826955B (zh) * 2022-05-26 2023-03-21 电子科技大学 一种IPv6网络中业务流动态分组抽样方法

Similar Documents

Publication Publication Date Title
CN105376260B (zh) 一种基于密度峰值聚类的网络异常流量监测系统
CN103647670B (zh) 一种基于sketch的数据中心网络流量分析方法
CN104283737B (zh) 数据流的处理方法和装置
US20110167149A1 (en) Internet flow data analysis method using parallel computations
CN113132180B (zh) 一种面向可编程网络的协作式大流检测方法
TW201624310A (zh) 估計熵值之方法與系統
CN111159243B (zh) 用户类型识别方法、装置、设备及存储介质
CN103353883A (zh) 一种按需聚类的大数据流式聚类处理系统及方法
WO2009142854A3 (en) Method and apparatus to index network traffic meta-data
CN109714266A (zh) 一种数据处理方法及网络设备
CN109547251B (zh) 一种基于监控数据的业务系统故障与性能预测方法
CN109952743B (zh) 用于低内存和低流量开销大流量对象检测的系统和方法
CN104468567A (zh) 一种网络多媒体业务流识别和映射的系统及方法
CN107404398A (zh) 一种网络用户行为判别系统
CN106789444A (zh) 一种基于流数约减的自适应公平抽样方法
CN106559281A (zh) 生成应用特征库的方法和装置、虚拟机、及终端
CN102801586B (zh) QoS粒度与精度的自动化测试方法及装置
CN104794896B (zh) 基于升降式限高架的高架桥拥堵空间热点自动提取方法
CN105183612B (zh) 服务器可用内存异常增长及运行状况的评估方法
CN111200542B (zh) 一种基于确定性替换策略的网络流量管理方法及系统
CN116055362A (zh) 基于时间窗口的两级哈希-Sketch网络流量测量方法
CN107067024A (zh) 高压断路器机械状态识别方法
CN114666273B (zh) 一种面向应用层未知网络协议的流量分类方法
CN107240957B (zh) 一种基于大数据流式计算用于电网监测预警的方法
CN110138684A (zh) 一种基于dns日志的流量监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531