CN101986607A

CN101986607A - 基于随机抽样报文流长分布的流量流数推断方法

Info

Publication number: CN101986607A
Application number: CN2010105664176A
Authority: CN
Inventors: 程光
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2011-03-16
Anticipated expiration: 2030-11-30
Also published as: CN101986607B

Abstract

一种基于随机抽样报文流长分布的流数推断方法，首先假设原始流的分布等于抽样流分布，设置一个抽样流长评价界限n和原始流长估计界限m，将假设的原始流长按照抽样比率p，采用二项分布的公式估计流长为1到n的抽样流数分布，然后比较计算抽样流数和真实抽样流数之间的关系，如果计算抽样流数和真实抽样流数之间的相对误差大于定义的阀值，根据计算抽样流数和真实流数之间的关系计算新的原始流估计值，重新采用二项分布进行计算抽样，否则将假设的原始流估计值作为原始流量的分布估计，然后采用二项分布公式计算假设原始流中没有被抽样的流数总和，累加未被抽样的流数和抽样流中的所有流数计算出流数。

Description

基于随机抽样报文流长分布的流量流数推断方法

技术领域

本发明涉及网络流量测量技术，特别是有利于采用抽样统计推断技术的推断网络流数的测量技术，使得该测量方法可以利用抽样报文流量以的统计分布中较高精度推断出原始流量的流数数量。属于网络流量抽样测量领域。

背景技术

网络流量测量和监控是网络管理的一个重要内容，其中网络流量中的流数信息对于我们网络行为、安全分析等具有重要意义。流就是在一个测量时间段内通过一条链路的报文中源IP、宿IP、源端口、宿端口和协议五元个字段或其中若干个字段完全相同的报文集合。流数就是在这些集合中不同流的数量。由于蠕虫、病毒、扫描等事件都和流数相关，因此准确测量出网络中的流数信息对网络管理和网络安全非常重要。

流就是在一个测量时间段内通过一条链路的报文中源IP、宿IP、源端口、宿端口和协议五元个字段或其中若干个字段完全相同的报文集合，流数就是在这些集合中不同流的数量。然而由于处理器能力、缓存容量、网络带宽等硬件资源的限制，测量高速链路中传输的所有报文信息代价过大，因此普遍采用从链路中按照一定的比例抽取部分报文进行流量测量，如Cisco路由器的Netflow就具有报文抽样功能。对于从随机抽样报文的中估计流数的方法主要有3种，第一种是直接将抽样报文的流数除以抽样比率估计为流数，第二种是简单地使用抽样报文中的流数作为原始流数。这两种方法是非常简单，其缺点是没有考虑流量分布具有重尾特性，在抽样时造成的大量短流信息的丢失，第一种方法的估计流数过高，第二种方法估计流数过低。第三种方法可以采用EM算法推断出原始流量的流长分布，然后根据原始流量的流长分布统计出流数，但是这种方法中的EM算法虽然能够用来估计原始流数，但EM算法时间复杂度非常高，同时EM算法对于大流和短流混合估计造成精度很低。

二项分布(Binomial Distribution)，即重复n次的伯努力试验(Bernoulli Experiment)。如果一个被报文抽样的概率是p，则报文没有被抽样的概率q＝1-p，经过n次独立重复试验中抽取k个报文的概率是二项分布公式

p (X = k) = (\begin{matrix} n \\ k \end{matrix}) p^{k} {(1 - p)}^{n - k} = b (k; n, p), (k = 0,1, . . ., n)

式中X为在n次贝努里试验中出现成功的次数，

表示在n次抽样试验中抽样到k个报文的各种组合情况，称为二项系数(binomial coefficient)。

本发明就是对抽样报文进行统计分析来推断原始流量中的流数，与传统的数据流方法的主要区别在于将原始流量的流数推断分成未抽样部分流数和已抽样部分流数，对抽样流量进行统计计算出已抽样流量部分，而未抽样部分的流数的推断是采用二项分布估计出短流没有被抽样的概率，而原始流量中长流由于没有被抽样的概率非常低，直接将长流丢弃，而对于短流分布的估计方法采用递归的方法估计。本发明的方法由于将未抽样流数和已抽样流数分开计算，与传统方法相比，可以对抽样报文中的流数进行较高精度的推断。

发明内容

本发明提供一种兼顾运行效率并能够提高估计精度的基于随机抽样报文流长分布的流量流数推断方法。

本发明提出一种基于随机抽样报文流长分布的流量流数推断方法，首先假设原始流量的分布等于抽样流的分布，设置一个抽样流长评价界限n，n取值大小在2到40之间取值，设置一个原始流长估计界限m，m取值在2到400之间取值，然后根据假设的原始流长1到m的所有流的分布按照抽样比率p采用二项分布的公式估计流长为1到n的理论抽样流数，然后比较流长在1到n之间的实际抽样流数和理论抽样流数之间的比值关系，如果实际抽样流数和理论抽样流数之间的相对误差大于定义的阀值，修正出新的原始流量估计初值，将估计初值除以抽样流长的概率累加和计算得到新的原始流量估计值，继续将该新的原始流量流数分布重新采用二项分布进行计算抽样，否则将该新的原始流量估计值作为原始流量的流数分布估计，采用二项分布公式计算原始流量的估计流长没有被抽样的流数总和，将没有被抽样的流数总和累加抽样流量中的所有流数即为原始流数的估计值，具体步骤如下：

步骤1：设定参数

设置抽样流长评价界限n，n取值大小在2到40之间取值，设置一个原始流量流长估计界限m，m取值在2到400之间取值，m取值大于等于n，已知抽样流量的流长j的流数为f_j，设置初始的假设原始流量流长j的流数为g_j，初始的假设原始流量流长j的流数g_j等于抽样流量的流长j的流数f_j，g_j＝f_j，其中j的取值范围为从1到流长估计界限m之间，设置估计循环结束阀值d，d取值范围在0.1到0.5之间，假设实际抽样流量的流数为sam_flow，设置报文抽样概率p，进入步骤2；

步骤2：计算假设原始流量抽样到各个流长的流数

对于假设原始流量流长为j的流数，其以报文抽样概率p理论抽样到流长为i的概率b(i；j，p)服从二项分布，b(i；j，p)表示原始流量流长j以报文抽样概率p抽样到i的概率，则估计原始流量流长j以报文抽样概率p到抽样流长i的流数为s(j，i)＝b(i；j，p)·g_j，其中，i∈[1，n]，j∈[i，m]，进入步骤3，

步骤3：计算假设原始流量理论抽样的流数累加和

计算所有理论抽样到抽样流长i的流数累加和

{\overset{&OverBar;}{f}}_{i} = Σ_{j = 1}^{m} s (j, i), i &Element; [1, n],

进入步骤4，

步骤4：循环结束判断

计算流长1到n之间的假设原始流量理论抽样后的流数总和

计算流长1到n之间的实际抽样流量的流数总和

如果

则循环推断结束，进入步骤7，否则进入步骤5，

步骤5：修正理论抽样的流数

计算实际抽样流量流长i的流数和假设原始流量理论抽样后流长i的流数之间比值

i∈[1，n]，修正假设原始流量流长j估计流长i的流数

其中，i∈[1，n]，j∈[i，m]，进入步骤6，

步骤6：计算修正后的假设原始流量的流数

对于原始流量流长为j，如果j小于等于n，则原始流量流长j抽样修正后的初始流数为

原始流量流长j抽样到1到j的累加概率为

如果j大于n，则原始流量流长j抽样修正后的初始流数为原始流量流长j抽样到1到n的累加概率为

修正后的假设原始流量流长j的流数为抽样修正后的初始流数

除以累加概率p_j，即

进行新一轮循环推断，回到步骤2，

步骤7：推断原始流量流数

假设原始流量流长j以报文抽样概率p一个报文都没有抽样到的概率服从二项分布b(0；j，p)＝(1-p)^j，则估计原始流量流长j以报文抽样概率p没有被抽样的流数为unflow_j＝(1-p^j)·g_j，j∈[1，m]，原始流量的流数flow推断为没有被抽样的流数

加上实际抽样流量的流数samp_flow，即

将四舍五入后的整数flow输出作为原始流量的流数，方法结束。

与现有技术相比，本发明具有如下优点及有效效果：

(1)本发明将原始流量的流数推断分成未抽样部分流数和已抽样部分流数，对抽样流量进行统计出已抽样流量部分，由于原始流量中长流没有被抽样的概率非常低，未抽样的流主要是来源于短流，因而采用递归方法对原始短流分布进行估计，然后采用估计的短流分布推断出没有被抽样的流数，对短流采用递归方法进行统计估计，而长流对未抽样的流数影响很小，分开统计实现对短流估计精度较高，一方面大大提高了算法的运行效率，同时也提高了估计精度；

(2)本发明能够对随机报文抽样中的流量进行统计推断，可以以较高的精度推断出流量中的流数，并能够支持低抽样概率报文的统计估计；

(3)本发明在短流统计估计中采用了抽样概率补偿方法，对由于未被抽样的流和未在计算范围内的长流采用二项分布进行概率估计，从而采用概率补偿的机制对短流统计中的未被统计抽样的流进行补偿估计，避免在统计过程中出现系统型误差；

(4)本发明中基于未抽样的流主要是原始流量中的中短流构成，而且抽样流量中的短流主要来源于原始流量中的中短流，因此在估计范围选择的时候抽样流量的选取采用短流估计原始流量中的中短流的分布，提高方法的运行效率。

附图说明

图1流长为i的流被抽样后的抽样流长示意图，原始流量流长中的每个报文被随机抽样后，抽样后的流长在0到i之间分布，其中分布概率服从二项分布。

图2抽样流量中流长为i的流是由原始流量流长i到m之间抽样的示意图，每个原始流量流长i被抽样到抽样流长j的概率服从二项分布。

图3基于随机抽样报文流长分布的原始流量流数推断方法示意图。

具体实施方式

本发明提出一种基于随机抽样报文流长分布的流量流数推断方法，首先假设原始流量的分布等于抽样流的分布，设置一个抽样流长评价界限n，n取值大小在2到40之间取值，设置一个原始流长估计界限m，m取值在2到400之间取值，然后根据假设的原始流长1到m的所有流的分布按照抽样比率p采用二项分布的公式估计流长为1到n的理论抽样流数，然后比较流长在1到n之间的实际抽样流数和理论抽样流数之间的比值关系，如果实际抽样流数和理论抽样流数之间的相对误差大于定义的阀值，修正出新的原始流量估计初值，将估计初值除以抽样流长的概率累加和计算得到新的原始流量估计值，继续将该新的原始流量流数分布重新采用二项分布进行计算抽样，否则将该新的原始流量估计值作为原始流量的流数分布估计，采用二项分布公式计算原始流量的估计流长没有被抽样的流数总和，将没有被抽样的流数总和累加抽样流量中的所有流数即为原始流数的估计值，

参照附图，具体推断步骤如下：

步骤1：设置参数

设置抽样流长评价界限2，设置一个原始流长估计界限4，已知抽样流量的流长为1的流数f₁为4，抽样流量的流长为2的流数f₂为4，抽样流量的流长为3的流数f₃为2，抽样流量的流长为4的流数f₄为2，设置初始的假设原始流量流长为j的流数为g_j，其中j的取值范围为从1到流长评价界限4之间，初始的假设原始流量流长为1的流数为g₁＝f₁＝4，初始的假设原始流量流长为2的流数为g₂＝f₂＝4，初始的假设原始流量流长为1的流数为g₃＝f₃＝2，初始的假设原始流量流长为1的流数为g₄＝f₄＝2，设置估计循环结束阀值0.01，假设实际抽样流量的流数为sam_flow＝16，设置报文抽样比率p＝1/2，进入步骤2，

步骤2：计算假设原始流量抽样到各个流长的流数

计算出所有的假设原始流长j以抽样概率1/2到抽样流长i的分布，其中j的取值为范围为从1到流长估计界4之间，i的取值范围为从1到流长评价界限2之间，对于假设原始流长为1的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；1，1/2)＝1/2，表示原始则估计原始流长1以概率1/2到抽样流长1的流数为s(1，1)＝b(1；1，1/2)·4＝2，假设原始流长为2的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；2，1/2)＝1/2，表示原始则估计原始流长2以概率1/2到抽样流长1的流数为s(2，1)＝b(1；2，1/2)·4＝2，假设原始流长为2的流数，其以概率1/2抽样到流长为2的概率为二项分布b(2；2，1/2)＝1/4，表示原始则估计原始流长2以概率1/2到抽样流长2的流数为s(2，2)＝b(2；2，1/2)·4＝1，假设原始流长为3的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；3，1/2)＝3/8，表示原始则估计原始流长3以概率1/2到抽样流长1的流数为s(3，1)＝b(1；3，1/2)·2＝3/4，假设原始流长为3的流数，其以概率1/2抽样到流长为2的概率为二项分布b(2；3，1/2)＝3/8，表示原始则估计原始流长3以概率1/2到抽样流长2的流数为s(3，2)＝b(2；3，1/2)·2＝3/4，假设原始流长为4的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；4，1/2)＝1/4，表示原始则估计原始流长4以概率1/2到抽样流长1的流数为s(4，1)＝b(1；4，1/2)·2＝1/2，假设原始流长为4的流数，其以概率1/2抽样到流长为2的概率为二项分布b(2；4，1/2)＝3/8，表示原始则估计原始流长4以概率1/2到抽样流长2的流数为s(4，2)＝b(2；4，1/2)·2＝3/4，进入步骤3，

步骤3：计算假设原始流量理论抽样的流数累加和

将所有理论抽样到流长1的流数累加和

将所有理论抽样到流长2的流数累加和

进入步骤4，

步骤4：循环结束判断

计算流长1到2之间的假设原始流量理论抽样后的流数总和

计算流长1到n之间的抽样流量的流数总和

如果|8-7.75|/8＝0.03＞0.01，否则进入步骤5，

步骤5：修正理论抽样的流数

计算实际抽样流长1的流数和假设原始流量理论抽样后流长1的流数之间的比值

计算实际抽样流长2的流数和假设原始流量理论抽样后流长2的流数之间的比值对于抽样流中的每个流长，采用假设原始流量估计流长为i的流数和实际抽样流长为i的流数之间比值修正假设原始流量估计流长为i的流数，修正的假设原始流量流长j估计流长为i的流数

其中(i∈[1，2]，j∈[i，4])，修正的假设原始流量流长1估计流长为1的流数

修正的假设原始流量流长2估计流长为1的流数

修正的假设原始流量流长3估计流长为1的流数修正的假设原始流量流长4估计流长为1的流数

修正的假设原始流量流长2估计流长为2的流数修正的假设原始流量流长3估计流长为2的流数

修正的假设原始流量流长4估计流长为2的流数

进入步骤6，

步骤6：计算修正后的假设原始流量的流数

对于原始流长为1，则原始流长1抽样修正后的流数为

原始流长1抽样到1到1的累加概率为

对于原始流长为2，则原始流长2抽样修正后的流数为

原始流长2抽样到1到2的累加概率为对于原始流长为3，则原始流长3抽样修正后的流数为原始流长3抽样到1到2的累加概率为

对于原始流长为4，则原始流长4抽样修正后的流数为

原始流长4抽样到1到2的累加概率为

假设原始流量流长分布计算为将抽样修正后的流数除以累加概率，对于流长j的对于流长1的g₁＝1.52/0.5＝3.04，对于流长2的g₂＝3.12/0.75＝4.16，对于流长3的g₃＝1.77/0.75＝2.36，对于流长4的g₄＝1.58/(5/8)＝2.53，进行新一轮循环推断，回到步骤2，

步骤2：

步骤2：计算假设原始流量抽样到各个流长的流数

计算出所有的假设原始流量流长j以抽样概率1/2到抽样流长i的分布，其中j的取值为范围为从1到流长估计界4之间，i的取值范围为从1到流长评价界限2之间，对于假设原始流长为1的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；1，1/2)＝1/2，表示原始则估计原始流长1以概率1/2到抽样流长1的流数为s(1，1)＝b(1；1，1/2)·3.04＝1.52，假设原始流长为2的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；2，1/2)＝1/2，表示原始则估计原始流长2以概率1/2到抽样流长1的流数为s(2，1)＝b(1；2，1/2)·4.16＝2.08，假设原始流长为2的流数，其以概率1/2抽样到流长为2的概率为二项分布b(2；2，1/2)＝1/4，表示原始则估计原始流长2以概率1/2到抽样流长2的流数为s(2，2)＝b(2；2，1/2)·4.16＝1.04，假设原始流长为3的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；3，1/2)＝3/8，表示原始则估计原始流长3以概率1/2到抽样流长1的流数为s(3，1)＝b(1；3，1/2)·2.36＝0.89，假设原始流长为3的流数，其以概率1/2抽样到流长为2的概率为二项分布b(2；3，1/2)＝3/8，表示原始则估计原始流长3以概率1/2到抽样流长2的流数为s(3，2)＝b(2；3，1/2)·2.36＝0.89，假设原始流长为4的流数，其以概率1/2抽样到流长为1的概率为二项分布b(1；4，1/2)＝1/4，表示原始则估计原始流长4以概率1/2到抽样流长1的流数为s(4，1)＝b(1；4，1/2)·2.53＝0.63，假设原始流长为4的流数，其以概率1/2抽样到流长为2的概率为二项分布b(2；4，1/2)＝3/8，表示原始则估计原始流长4以概率1/2到抽样流长2的流数为s(4，2)＝b(2；4，1/2)·2.53＝0.95，进入步骤3，

步骤3：计算假设原始流量理论抽样的流数累加和

将所有理论抽样到流长1的流数累加和

对于将所有理论抽样到流长2的流数累加和

进入步骤4，

步骤4：循环结束判断

计算流长1到2之间的假设原始流量理论抽样后的流数总和

计算流长1到n之间的抽样流量的流数总和

进入步骤7，

步骤7：推断原始流量流数

计算出所有的假设原始流长j以抽样概率1/2没有被抽样的概率，其中j的取值为范围为从1到流长估计界4之间，以概率1/2没有抽样到假设原始流长为1的流数的概率为二项分布b(0；1，1/2)＝(1-1/2)¹＝1/2，则估计原始流长1以概率1/2没有被抽样的流数为uflow₁＝(1-1/2)¹·3.04＝1.52，以概率1/2没有抽样到假设原始流长为2的流数的概率为二项分布b(0；2，1/2)＝(1-1/2)²＝1/4，则估计原始流长2以概率1/2没有被抽样的流数为unflow₂＝(1-1/2)²·4.16＝1.04，以概率1/2没有抽样到假设原始流长为3的流数的概率为二项分布b(0；3，1/2)＝(1-1/2)³＝1/8，则估计原始流长3以概率1/2没有被抽样的流数为unflow₃＝(1-1/2)³·2.36＝0.30，以概率1/2没有抽样到假设原始流长为4的流数的概率为二项分布b(0；4，1/2)＝(1-1/2)⁴＝1/16，则估计原始流长4以概率1/2没有被抽样的流数为unflow₄＝(1-1/2)⁴·2.53＝0.16，原始流量的流数flow推断为没有抽样的流数加上被抽样的流数samp_flow，即

将四舍五入后的整数19输出为原始流量的流数，推断结束。

Claims

1.一种基于随机抽样报文流长分布的流量流数推断方法，首先假设原始流量的分布等于抽样流的分布，设置一个抽样流长评价界限n，n取值大小在2到40之间取值，设置一个原始流长估计界限m，m取值在2到400之间取值，然后根据假设的原始流长1到m的所有流的分布按照抽样比率p采用二项分布的公式估计流长为1到n的理论抽样流数，然后比较流长在1到n之间的实际抽样流数和理论抽样流数之间的比值关系，如果实际抽样流数和理论抽样流数之间的相对误差大于定义的阀值，修正出新的原始流量估计初值，将估计初值除以抽样流长的概率累加和计算得到新的原始流量估计值，继续将该新的原始流量流数分布重新采用二项分布进行计算抽样，否则将该新的原始流量估计值作为原始流量的流数分布估计，采用二项分布公式计算原始流量的估计流长没有被抽样的流数总和，将没有被抽样的流数总和累加抽样流量中的所有流数即为原始流数的估计值，具体步骤如下：

步骤1：设定参数

步骤2：计算假设原始流量抽样到各个流长的流数

步骤3：计算假设原始流量理论抽样的流数累加和

计算所有理论抽样到抽样流长i的流数累加和