CN106789444A - 一种基于流数约减的自适应公平抽样方法 - Google Patents
一种基于流数约减的自适应公平抽样方法 Download PDFInfo
- Publication number
- CN106789444A CN106789444A CN201710046224.XA CN201710046224A CN106789444A CN 106789444 A CN106789444 A CN 106789444A CN 201710046224 A CN201710046224 A CN 201710046224A CN 106789444 A CN106789444 A CN 106789444A
- Authority
- CN
- China
- Prior art keywords
- sampling
- stream
- fluxion
- flow
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
- H04L43/024—Capturing of monitoring data by sampling by adaptive sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- Environmental & Geological Engineering (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及网络流量测量领域,具体涉及一种基于流数约减的自适应公平抽样方法,该方法包括:根据到达分组是否属于已有流表项,得到不同的网络流公平性抽样策略;根据流数约减对该分组所属流进行大小流区分计数,得到选择性抽取比例,建立存储器缓存中的流表项;根据新流表项到达测量点的速度进行自适应抽取,得到流个数整体压缩的所有样本流集合;根据所有样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果。本发明能够实现网络流量测量中抽样算法统计结果高的准确性,同时不仅能够解决高速链路上抽样算法的扩展性问题,还能有效提高算法的公平性。
Description
技术领域
本发明属于网络流量测量领域,具体的涉及一种基于流数约减的自适应公平抽样保证方法。
背景技术
网络流量测量将流的各项指标量化,直观地描述当前网络流量的组成成分,反映网络当前的运行状态,在流量计费,流量识别,故障检测和网络安全等应用中起着极其重要的作用。由于网络上数据的增长速度远远超过存储器性能的增长速度,因此对每个流进行实时统计成为高速骨干网实时流量测量的巨大难题,通过抽样对数据进行压缩是实时测量高速网络的重要手段。然而现有的抽样算法以牺牲大流的准确性为代价来提高小流的准确性,从而导致算法的公平性不强。虽然通过对每个流进行统计可以提高算法的公平性,但是从存储开销的角度来看,并不能实现可扩展的流量测量。
由于小流统计准确性低往往严重影响到网络安全和异常检测的正常进行,网络流量测量希望进一步提高小流的准确性以满足公平性要求,并且解决算法的可扩展性问题。目前网络流量测量虽然实现了一定程度的公平抽样,但是缺乏对算法扩展性和公平性的综合考虑。如何实现算法的公平性和扩展性,是网络流量测量面临的重要挑战。
发明内容
本发明针对现有的抽样算法以牺牲大流的准确性为代价来提高小流的准确性,从而导致算法的公平性不强,不能很好的解决算法的可扩展性等问题,提出一种基于流数约减的自适应公平抽样保证方法。
本发明的技术方案是:一种基于流数约减的自适应公平抽样方法,包括以下步骤:
步骤1:根据到达分组是否属于已有流表项,得到不同的网络流公平性抽样策略;
步骤2:利用流数约减对该分组所属流进行大小流区分计数,得到选择性抽取比例,并建立存储器缓存中的新流表项;
步骤3:根据后续流到达测量点的速度进行自适应抽取,得到流个数整体压缩的所有样本流集合;
步骤4:根据所有样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;
步骤5:根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果。
所述的基于流数约减的自适应公平抽样方法,所述步骤1中网络流公平性抽样策略包括:
步骤201:根据到达测量点的分组数据包,查询缓存中所属流表项是否存在;
步骤202:根据该分组所属流缓存存在与否,判断是否采用流数约减策略,得到所有样本流集合;
步骤203:根据得到的所有样本流集合,进行样本集合的网络流公平抽样。所述的基于流数约减的自适应公平抽样方法,所述步骤2的具体包括:
步骤301:根据流数约减策略对分组所属流采用计数型布鲁姆过滤器进行大小流区分计数;
步骤302:根据不同大小流的计数值,以概率Pf进行选择性抽取分组;
步骤303:根据选中的流分组数目,建立存储器新的缓存流表项。
所述的基于流数约减的自适应公平抽样方法,所述步骤3具体包括:
步骤401:根据新流表项到达测量点的速度,得到被抽取建立表项的新到达分组的数目;
步骤402:根据已建立流表项的分组数目,自适应改变流个数的压缩集合;
步骤403:根据得到的流数整体约减的分组集合,得到需要统计的所有样本流集合。
所述的基于流数约减的自适应公平抽样方法,所述步骤4获得抽样概率函数簇具体包括:
步骤501:根据样本流中流大小的重尾分布特征,结合两个类幂指数抽样概率函数,寻求一个流大小是减函数的抽样概率函数;
步骤502:根据流大小估计值的相对误差不超过参数值ε,使得小流的抽样概率准确性提高;
步骤503:根据不同的抽样函数特性,提出一个新的抽样概率函数簇。
所述的基于流数约减的自适应公平抽样方法,所述步骤5样本中大小流的公平性抽样结果操作包括:
步骤601:根据当前分组所属流的大小决定抽样概率P;
步骤602:根据抽样概率函数簇决定包所对应计数器为i的流的抽样概率Pi;
步骤603:根据不同流大小的抽样概率,得到所有流相对误差基本一致的公平性抽样结果。
本发明的有益效果是:本发明与现有技术相比,具有以下优点:具有可扩展性和公平性,本发明提供的公平抽样方法通过流数约减方法对流进行等比例抽取,实现了测量的可扩展性;同时利用新的概率抽样函数簇对样本流集合进行公平抽样,提高了算法的公平性;算法不需要提取每个流的统计特征,能够有效地降低算法的机算复杂度,提高小流的统计准确性。
附图说明
图1为本发明的整体步骤流程示意图;
图2为流数约减和公平抽样策略步骤流程示意图;
图3为新的缓存流表项构建步骤流程示意图;
图4为抽样概率函数簇步骤流程示意图;
图5为新的抽样概率函数簇步骤流程示意图;
图6为公平抽样结果步骤流程示意图;
具体实施方式
结合图1-图6,为了方便本领域的技术人员理解本发明,下面对本文出现的技术名词或术语进行解释;
网络流量测量:获得网络行为实时参数和指标最有效的手段,分为主动测量和被动测量。
流数约减:采用均匀抽样的方法对流进行等比例抽取,实现对流个数的整体压缩。
抽样:一种非常有效的数据压缩技术,具备良好的可适性和抽样精度,广泛应用于高速骨干网链路数据流的流量测量。
一种基于流数约减的自适应公平抽样方法,包括以下步骤:
步骤1:根据到达分组是否属于流表项,得到不同的网络流公平性抽样策略;具体得到网络流公平性抽样策略,该开发过程包括:
步骤201:根据到达测量点的分组数据包,查询缓存中所属流表项是否存在;
步骤202:若该分组所属流缓存不存在,则判断采用流数约减策略,该策略利用均匀抽样的方法对流进行等比例抽取,从而将原始流数目按照等比例压缩以适应高速缓存内存小的限制,得到约减的样本流集合;
步骤203:根据约减的样本流集合以及分组所属缓存存在的样本流集合,得到需要统计的所有样本流集合,进行不同样本集合的网络流公平抽样。
步骤2:根据流数约减策略对该分组所属流进行大小流区分计数,得到选择性抽取比例,并建立存储器中的新缓存流表项;建立新缓存流表项,该开发过程包括:
步骤301:根据流数约减策略对分组所属流采用计数型布鲁姆过滤器进行大小流区分计数,实现对小流流量的逐包精确统计;
步骤302:根据大小流服从重尾分布以及不同大小流的计数值,定义抽取比例Pf,Pf是按照大小流数目占比进行抽取的比例函数,使得能够在不改变数据流在整体中所占比例的情况下进行选择性抽取分组;
步骤303:根据选中的流分组数目,建立存储器新的缓存流表项。
步骤3:根据后续流的到达的测量点的速度进行自适应抽取,得到流个数整体压缩的样本流集合;得到所有样本流集合,该开发过程包括:
步骤401:根据后续流到达测量点的速度,自适应改变流抽样比Pf的数值,利用计数器得到被抽取建立表项的新到达分组的数目;
步骤402:根据后续到达需要建立流表项的分组数目,将这些分组添加到缓存流表项,得到压缩流个数的约减集合;
步骤403:根据流数整体压缩的约减集合和已在存储器缓存中的分组集合,从原始流中选取得到需要统计的所有样本流集合。
步骤4:根据样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;提出抽样概率函数簇,该开发过程包括:
步骤501、根据样本流中流大小的重尾分布特征,结合两个类幂指数抽样概率函数,寻求一个流大小是减函数的抽样概率函数;
步骤502、根据流大小估计值的相对误差不超过参数值ε,其中ε为常数,代表任意流大小估计值的最大误差值,从而使得小流的抽样概率准确性提高;
步骤503、根据流大小的分布特性和不同的抽样概率函数特性,结合SGS算法和ANLS算法类似幂指数函数的推导过程,提出一个新的为流大小减函数的抽样概率函数簇,其中a为取值范围为(O,1)的常数。
步骤5:根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果:得到公平抽样结果,该开发过程包括:
步骤601、根据当前分组所属流的大小,为使得统计结果符合流大小重尾分布,流的大小越大,抽样率Pi越小,其中Pi由抽样概率函数g决定,即Pi=g(i);
步骤602、根据抽样概率函数簇决定包所对应计数器为i的流的抽样概率Pi;
步骤603、根据不同流大小的抽样概率,得到所有流相对误差基本一致的公平性抽样结果。
Claims (6)
1.一种基于流数约减的自适应公平抽样方法,其特征在于,包括以下步骤:
步骤1:根据到达分组是否属于已有流表项,得到不同的网络流公平性抽样策略;
步骤2:利用流数约减对该分组所属流进行大小流区分计数,得到选择性抽取比例,并建立存储器缓存中的新流表项;
步骤3:根据后续流到达测量点的速度进行自适应抽取,得到流个数整体压缩的所有样本流集合;
步骤4:根据所有样本流集合的流量大小分布特征,提出一个新的抽样概率函数簇;
步骤5:根据概率函数簇对样本流集合进行公平抽样,得到样本中大小流的公平性抽样结果。
2.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤1中网络流公平性抽样策略包括:
步骤201:根据到达测量点的分组数据包,查询缓存中所属流表项是否存在;
步骤202:根据该分组所属流缓存存在与否,判断是否采用流数约减策略,得到所有样本流集合;
步骤203:根据得到的所有样本流集合,进行样本集合的网络流公平抽样。
3.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤2的具体包括:
步骤301:根据流数约减策略对分组所属流采用计数型布鲁姆过滤器进行大小流区分计数;
步骤302:根据不同大小流的计数值,以概率Pf进行选择性抽取分组;
步骤303:根据选中的流分组数目,建立存储器新的缓存流表项。
4.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤3具体包括:
步骤401:根据新流表项到达的速度,得到被抽取建立表项的新到达分组的数目;
步骤402:根据已建立流表项的分组数目,自适应改变流个数的压缩集合;
步骤403:根据得到的流数整体约减的分组集合,得到需要统计的所有样本流集合。
5.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤4获得抽样概率函数簇具体包括:
步骤501:根据样本流中流大小的重尾分布特征,结合两个类幂指数抽样概率函数,寻求一个流大小是减函数的抽样概率函数;
步骤502:根据流大小估计值的相对误差不超过参数值ε,使得小流的抽样概率准确性提高;
步骤503:根据不同的抽样函数特性,提出一个新的抽样概率函数簇。
6.根据权利要求1所述的基于流数约减的自适应公平抽样方法,其特征在于,所述步骤5样本中大小流的公平性抽样结果操作包括:
步骤601:根据当前分组所属流的大小决定抽样概率P;
步骤602:根据抽样概率函数簇决定包所对应计数器为i的流的抽样概率Pi;
步骤603:根据不同流大小的抽样概率,得到所有流相对误差基本一致的公平性抽样结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710046224.XA CN106789444A (zh) | 2017-01-22 | 2017-01-22 | 一种基于流数约减的自适应公平抽样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710046224.XA CN106789444A (zh) | 2017-01-22 | 2017-01-22 | 一种基于流数约减的自适应公平抽样方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106789444A true CN106789444A (zh) | 2017-05-31 |
Family
ID=58943721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710046224.XA Pending CN106789444A (zh) | 2017-01-22 | 2017-01-22 | 一种基于流数约减的自适应公平抽样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106789444A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114826955A (zh) * | 2022-05-26 | 2022-07-29 | 电子科技大学 | 一种IPv6网络中业务流动态分组抽样方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101252485A (zh) * | 2008-04-11 | 2008-08-27 | 清华大学 | 业务流的自适应非线性抽样统计方法 |
CN102469024A (zh) * | 2010-11-04 | 2012-05-23 | 华为技术有限公司 | 指示和获取用户流数的方法及通信装置 |
-
2017
- 2017-01-22 CN CN201710046224.XA patent/CN106789444A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101252485A (zh) * | 2008-04-11 | 2008-08-27 | 清华大学 | 业务流的自适应非线性抽样统计方法 |
CN102469024A (zh) * | 2010-11-04 | 2012-05-23 | 华为技术有限公司 | 指示和获取用户流数的方法及通信装置 |
Non-Patent Citations (2)
Title |
---|
李海莉: "《中国优秀硕士学位论文全文数据库-信息科技辑》", 15 July 2016 * |
李海莉等: "一种基于流数约减的非线性公平采样算法", 《计算机应用研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114826955A (zh) * | 2022-05-26 | 2022-07-29 | 电子科技大学 | 一种IPv6网络中业务流动态分组抽样方法 |
CN114826955B (zh) * | 2022-05-26 | 2023-03-21 | 电子科技大学 | 一种IPv6网络中业务流动态分组抽样方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105376260B (zh) | 一种基于密度峰值聚类的网络异常流量监测系统 | |
CN103647670B (zh) | 一种基于sketch的数据中心网络流量分析方法 | |
CN104283737B (zh) | 数据流的处理方法和装置 | |
US20110167149A1 (en) | Internet flow data analysis method using parallel computations | |
CN113132180B (zh) | 一种面向可编程网络的协作式大流检测方法 | |
TW201624310A (zh) | 估計熵值之方法與系統 | |
CN111159243B (zh) | 用户类型识别方法、装置、设备及存储介质 | |
CN103353883A (zh) | 一种按需聚类的大数据流式聚类处理系统及方法 | |
WO2009142854A3 (en) | Method and apparatus to index network traffic meta-data | |
CN109714266A (zh) | 一种数据处理方法及网络设备 | |
CN109547251B (zh) | 一种基于监控数据的业务系统故障与性能预测方法 | |
CN109952743B (zh) | 用于低内存和低流量开销大流量对象检测的系统和方法 | |
CN104468567A (zh) | 一种网络多媒体业务流识别和映射的系统及方法 | |
CN107404398A (zh) | 一种网络用户行为判别系统 | |
CN106789444A (zh) | 一种基于流数约减的自适应公平抽样方法 | |
CN106559281A (zh) | 生成应用特征库的方法和装置、虚拟机、及终端 | |
CN102801586B (zh) | QoS粒度与精度的自动化测试方法及装置 | |
CN104794896B (zh) | 基于升降式限高架的高架桥拥堵空间热点自动提取方法 | |
CN105183612B (zh) | 服务器可用内存异常增长及运行状况的评估方法 | |
CN111200542B (zh) | 一种基于确定性替换策略的网络流量管理方法及系统 | |
CN116055362A (zh) | 基于时间窗口的两级哈希-Sketch网络流量测量方法 | |
CN107067024A (zh) | 高压断路器机械状态识别方法 | |
CN114666273B (zh) | 一种面向应用层未知网络协议的流量分类方法 | |
CN107240957B (zh) | 一种基于大数据流式计算用于电网监测预警的方法 | |
CN110138684A (zh) | 一种基于dns日志的流量监控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |