CN101465759A

CN101465759A - 一种基于对数坐标平均筛选的网络流量参数估计方法

Info

Publication number: CN101465759A
Application number: CNA2009100605501A
Authority: CN
Inventors: 喻莉; 刘祖浩; 赵博; 赵佳; 李静茹
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2009-01-16
Filing date: 2009-01-16
Publication date: 2009-06-24
Anticipated expiration: 2029-01-16
Also published as: CN101465759B

Abstract

针对传统R/S方法的计算复杂性和在对数坐标下拟合时的尾部数据对结果影响过大的特点，本发明提出了一种基于对数坐标平均筛选的网络流量参数估计方法。该方法通过使筛选的数据在对数坐标下尽量均匀的分布，削弱尾部数据的影响，并适当减少参与拟合的点的数目，从而在不影响拟合效果的前提下提高了计算效率。经过大量的实验验证，该方法不仅有效克服了原有R/S方法估计网络流量参数的精度低，稳定性差的缺点，而且降低了其计算量，能应用于实际网络流量的网络流量参数估计，对自相似网络流量模型的研究和应用有重要作用。

Description

一种基于对数坐标平均筛选的网络流量参数估计方法

技术领域

本发明属于计算机网络技术领域，涉及自相似网络流量领域中网络流量参数估计方法，能直接应用于实际网络中，实时准确估计网络流量的自相似(Hurst)参数。

背景技术

20世纪90年代初，W.E.Leland等人首次发现网络流量具有自相似特性。自相似性质是网络流量本质特性之一，它揭示了网络流量复杂的行为：网络流量在任何时间尺度下都是极度无规则的。也就是说，这种不规则性不仅表现为流量强度大幅度的波动，同时这种波动在长时间内持续相关。网络流量的自相似性质是传统网络流量分析中广泛应用的基于分析流量马尔可夫性的泊松模型无法描述的。当时间尺度增大时，泊松流量将趋于平滑，不规则性消失。将这种传统泊松模型应用于现代通信网络中，可能会从本质上对网络性能指标的估计，如延时，丢包率等，产生偏差。

自相似又称为单分形(monofractal)，是Mandelbrot在上世纪60年代首先提出的。自相似过程在不同尺度下统计特性保持不变。在数学上，过程X(t)是自相似，则：

X (t) \overset{d}{=} c^{- H} X (ct), &ForAll; t &GreaterEqual; 0, &ForAll; c > 0 - - - (1)

其中H参数称为Hurst(自相似)参数。H参数是自相似特性的度量。H参数在自相似网络流量模型，如FBM，FARIMA，LFSN模型中起着核心作用，它体现了网络流量的自相似特性。H参数估计是网络流量自相似建模的关键步骤，如何准确、快速地从网络流量中提取H参数是网络流量自相似模型需要解决的重要问题。

在Hurst参数的估计方法中，R/S方法是最早也是最常用的方法，且具有很强的实用性和估计准确性。通过R/S方法计算序列的Hurst参数，首先要计算样本均值

和样本方差S²(n)，并定义一个调节尺度统计量(Rescaledadjusted range statistic，or R/S statistic)为

R (n) / S (n) = \frac{\max (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n}) - \min (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n})}{S (n)} - - - (2)

其中

W_k＝(X₁+X₂+…+X_k)-kX(n)，1≤k≤n (3)

然后利用关系：

E[R(n)/S(n)]→cn^H，n→∞ (4)

对原始数据作出log(R(n)/S(n))对log(n)的样本图，然后对样本点使用最小二乘估计，斜率即为Hurst参数H。

R/S方法虽然具有很多优点，但该算法复杂度高，缺乏稳定性，不适于对网络流量H参数进行准确，快速的估计，这便使改进R/S方法成为一种必要。

发明内容

本发明的目的是提供一种基于对数坐标平均筛选数据点的网络流量参数估计方法，该方法可以提高网络流量参数估计中R/S方法的计算效率，降低其复杂度，并使其计算结果更加稳定。

为达到以上目的，本发明提供的基于对数坐标平均筛选的网络流量参数估计方法，其步骤包括：

步骤(1)在网络路由器节点上分别采集N个测量时间单位内的网络流量数据，作为原始样本点；

步骤(2)在原始样本点中选取第一个参与拟合的拟合样本点，设该拟合样本点在原始样本点中的序号为k，k<N，则该拟合样本点在对数坐标中的横坐标为ln(k)；

步骤(3)记录当前拟合样本点在原始样本点中的序号为h，即h＝k；

步骤(4)令k＝k+1，如果k>N，则筛选过程结束，跳至步骤(6)，否则进入步骤(5)；

步骤(5)判断ln(k)-ln(h)是否大于用户设定的筛选尺度值t，如果是，则将其筛选出来，并跳至步骤(3)；如果不是，则将其摒弃，并跳至步骤(4)；

步骤(6)利用公式(I)和(II)，对筛选后的数据作出ln(R(n)/S(n))对1n(n)的样本图，其中n为各拟合样本点在原始样本点中的序号，然后对各拟合样本点进行线性拟合，拟合后直线的斜率即为Hurst参数；

R (n) / S (n) = \frac{\max (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n}) - \min (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n})}{S (n)} - - - (I)

W_i＝(X₁+X₂+…+X_i)-iX(n)，i＝1，…，n (II)

公式(II)中的X_k为第k个原始样本点的数据，

为前n个原始样本点数据的均值。

通过深入分析R/S方法的机制原理以及计算过程，发现导致该算法在复杂度上存在瓶颈的原理，本发明提出了上述一种基于对数坐标平均筛选的改进策略。与传统的R/S方法相比，本发明方法在准确性几乎不变的情况下，很大程度的降低了计算复杂度，使复杂度从平方级优化到O(nlog(n))，另外，通过试验仿真还发现，改进后的方法比原方法更加稳定，对同一网络不同时刻的数据进行Hurst参数估计时波动更小，其原因在于降低了尾部数据对结果的影响。所以本发明能适应复杂的网络环境而应用于实际网络中对网络流量参数进行准确估计。

附图说明

图1为本发明自相似网络流量参数估计方法的流程图。

图2为网络流量示意图。

图3为参与拟合的样本点的拟合结果示意图。

具体实施方式

本发明提出一种筛选数据点的策略，即在不影响计算结果的条件下，将多余的数据点剔除，以达到提高计算速度的目的。在实现R/S方法的具体步骤中发现，由于n是线性增长的，而转化成对数坐标后后面的数据点较前面的数据点要密集很多，这样的话存在几个问题：1.使用最小二乘法拟合的话，后面的数据点较多，则n较大的数据点会对结果造成很大的影响；2.当n较大时，数据点过于密集，且相邻的点基本重合，增加了过多的不必要的计算。

由于log(R(n)/S(n))对log(n)的线性性比较好，所以适当的筛选掉一些数据对结果并不会造成明显的影响。本发明提供的基于对数坐标平均筛选的网络流量参数估计方法，在原始样本点中选取部分样本点，使最后参加拟和的点在对数坐标上尽量均匀的分布。

如图1所示，本发明方法具体包括下述步骤：

步骤(1)：在网络路由器节点上分别采集N个测量时间单位(如秒，十分之一秒，百分之一秒等)内的网络流量数据，单位为byte，作为原始样本点。所采集的长度为N的网络流量序列作为进行自相似参数估计的对象。为保证能正确的估算出网络流量的自相似参数，N的取值通常不少于1万，如N＝10万。

步骤(2)：在原始样本点中选取第一个参与拟合的拟合样本点，设该拟合样本点在原始样本点中的序号为k，k<N，则该拟合样本点在对数坐标中的横坐标为ln(k)；(为了保证R和S的有效性，最好不从第一个样本点开始拟合，通常40<k<N，如可以将k的值设为50)。

步骤(3)：记录当前拟合样本点在原始样本点中的序号为h，即h＝k。

步骤(4)：令k＝k+1，如果k>N，则筛选过程结束，跳至步骤(6)，否则进入步骤(5)。

步骤(5)：判断ln(k)-ln(h)是否大于筛选尺度值t，如果是，则将其筛选出来，并跳至步骤(4)；如果不是，则将其摒弃，并跳至步骤(5)。

筛选尺寸t的物理含义为：对数坐标轴上两个相邻的参与拟合的拟合样本点横坐标之差的最小值。这个值由用户确定，它决定了筛选的尺度，t越小，则从原始样本点中筛选入拟合样本点的数目也就越多。t的经验取值为：0.01～0.05。

步骤(6)利用公式(I)和(II)，对筛选后的数据作出ln(R(n)/S(n))对ln(n)的样本图，其中n为各拟合样本点在原始样本点中的序号，然后对各拟合样本点进行线性拟合，拟合后直线的斜率即为Hurst参数；

R (n) / S (n) = \frac{\max (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n}) - \min (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n})}{S (n)} - - - (I)

W_i＝(X₁+X₂+…+X_i)-iX(n)，i＝1，…，n (II)

公式(II)中的X_k为第k个原始样本点的数据，X(n)为前n个原始样本点数据的均值。

实例：

对BC-Oct89Ext.TL网络数据进行以秒为单位的提取，结果如图2所示。

取第一个样本点的序号为50，另t＝0.05，对样本点进行筛选，最后筛选出来的点的拟合结果如图3所示。求的Hurst参数值为0.7366。

使用两种R/S方法进Hurst参数估计的比较。在Oct89Ext.TL样本集中针对不同的样本点个数分别取30组数据进行了反复实验。改进前后的实验结果比较如下：

通过上述两种数据的试验，可以发现通过数据筛选后的改进方法既可以达到原R/S方法的准确率，又在计算速度上有较大的提高，而且它比上述两种方法更稳定，对同一种网络流量数据进行估计时波动更小。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护的范围。

Claims

1、一种基于对数坐标平均筛选的网络流量参数估计方法，其步骤包括：

R (n) / S (n) = \frac{\max (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n}) - \min (0, W_{1}, W_{2}, \cdot \cdot \cdot W_{n})}{S (n)} - - - (I)

W_{i} = (X_{1} + X_{2} + \cdot \cdot \cdot + X_{i}) - i \overset{&OverBar;}{X (n)}, i = 1, \cdot \cdot \cdot n - - - (II)

公式(II)中的X_k为第k个原始样本点的数据，为前n个原始样本点数据的均值。