CN100493001C

CN100493001C - G比特流率下多粒度的网络自动聚类方法

Info

Publication number: CN100493001C
Application number: CNB2007100646786A
Authority: CN
Inventors: 杨家海; 李云琪; 张辉; 安常青
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-03-23
Filing date: 2007-03-23
Publication date: 2009-05-27
Anticipated expiration: 2027-03-23
Also published as: CN101022370A

Abstract

G比特流率下多粒度的网络自动聚类方法属于计算机网络测量技术领域。其特征在于基于网络测量的周期性采样机制，采用了基于流量预测的启发式算法，同时通过将IP包头的不同字段看成是网络特征空间中的不同维度，提出了针对多维空间的数据进行自动分类的自适应算法。其主要步骤在于：1.设置相关参数；2.启动测量程序；3.在一个测量周期内，对于每一个到达的报文依次执行一维源地址和目的地址的聚类，源/目的地址队聚类和端口聚类；4.数据的压缩与输出；5.流量预测。实验表明，本方法能够实时运行在G比特速率的互联网之上，达到了预期发明目标。

Description

G比特流率下多粒度的网络自动聚类方法

技术领域

G比特流率下多粒度的网络自动聚类方法属于计算机网络测量技术领域。

背景技术

互联网络已经成为当代信息社会的重要基础设施。随着互联网络技术的不断进步和网络融合趋势的不断增强，IP网络上开始承载越来越多的传统电信网和电视网上的业务；与此同时，互联网本身也不断涌现更多的新业务，尤其是对等网络P2P(peer-to-peer)的出现，改变了整个互联网络的发展方向。互联网络正在朝着超高速、移动、大容量、多业务的方向变化，如何对基于高速互连网络的应用进行精确的测量、监控成为当前急需解决的课题。

网络流量的聚类分析是实现有效网络测量的关键和基础技术。传统的网络测量系统一般是对IP包头的某些特定字段进行归类。而聚类集合算法也因管理功能的不同需求而各不相同，如应用于网络安全的聚类算法根据对目的地址的聚合进行拒绝服务攻击的检测。这类聚类分析方法存在的缺点是：每一个测量系统侧重于流量聚类分析的一个方面，且不能满足现代网络管理全面掌握网络运行状态的需要。通过将IP包头的不同字段看作是网络数据的不同维度，研究并提出针对多维空间中的数据点进行自动聚类分析的自适应算法，则可克服传统网络测量技术存在的上述不足。区别于传统的基于特定网络字段匹配规则的网络聚类方法，这种方法可以通过预先设定的网络状态阈值进行动态的聚类。所谓多粒度，有如下两个含义：1)测量目标包括多种网络特征(源，目的IP地址和端口号。2)测量结果的网络地址层次有可能不同，比如说可能精确到某一个单一IP，也有可能精确到某一个子网，只要它们都满足预先设定的网络状态，比如说发送或者接收的流量都超过了某一个阈值。这种测量结果符合网络流量分布不均衡的鼠象分布特性，为网络管理员对于网络状态的诊断提供了有效的手段。

与已有的类似离线系统研究工作相比，(Estan，C.，Savage，S.，and Varghese，G.Automatically Inferring Patterns of Resource Consumption in Network Traffic.In Proceedings ofACM SIGCOMM，Karlsruhe，Germany，2003，137-148.-该方法在下文的实验中简称为CP)，本方法基于网络测量的周期性采样机制，采用了基于流量预测的启发式算法，减少了已有算法所需要的时间和空间开销，实验表明，能够实时运行在1G比特/秒的高速互联网之上，达到了预期发明目标。

发明内容

本发明的目的在于提供多粒度的网络流量高速自动聚类方法。本发明的实际部署图见图3，本测量方法属于网络测量领域的被动测量范畴，通过路由器或者高端交换机的端口镜像功能将网络报文转发到服务器上。我们的系统实际测试环境为清华大学校园网，它是一个典型的拥有近四万个IP地址的园区网络。本系统系统部署在一个校园网络的骨干出口处。在实际运用中，可以用此方法进行单向接口的测量，也可以进行双向接口的测量。

说明方法中用到的相关数据结构如下所示：

IP地址树模型：如果把32比特的IP地址从高位到低位进行层次化划分，节点的深度W即为IP前缀的深度，比如说节点^*.^*.^*.^*代表最顶层的节点，(也就是说任何其他地址内容都包含在该根节点中，符号^*表示为地址通配符，也就是说地址^*.^*.^*.^*可以包括任何节点)，图1表示了节点1.2.3.4和节点1.2.3.5的地址树模型。树的根节点，即IP地址“^*.^*.^*.^*”，其节点深度为0。每一个树节点的孩子节点即为拥有相同前缀的下一个深度的IP地址，比如说地址树中的节点1.2.3.^*所对应的孩子节点为”1.2.3.4，1.2.3.5”等等。考虑到网管实际需要，将节点的最大层次设置为4，也就是说对于任何一个地址，可以位于单一地址，子网地址，和子网所属的小区，以及顶点地址(^*.^*.^*.^*)四个层次。

显然，对于任意一层的树节点可以用IP地址的前缀来唯一表示。前缀的长度决定节点的深度。在节点层次按照IP地址长度均匀分成4层的情况下，节点的二进制IP地址树节点的前缀长度N和IP所处的深度W的关系为W＝N/8。

一维树节点：在IP地址树模型中的每一个节点内的数据结构如下

二维叉乘表格：如图4所示。叉乘表格H的两个维度分别是源地址与目的地址的深度。而每一个节点位置存贮在该深度下的源地址与目的地址的索引表格。在编程实现中，使用二维矩阵进行存贮，矩阵中的每一个元素为一个哈希表格，哈希表格的索引为源地址和目的地址在当前深度下的节点标识，其存贮内容为所对应于该地址深度的当前测量数值和前次测量数值，为初始设置的报文大小或报文个数。比如说：H[2][3]中存贮源地址深度为2，目的地址深度为3的所有节点集合。其中可能包括IP字段<1.2.^*.^*，3.4.5.^*>，其表示的内容为数据报文的源地址和目的地址分别为1.2.^*.^*，3.4.5.^*在本测量周期和前次测量周期内得到的报文大小或者报文个数。

端口哈希表格：端口哈希表格P存贮着有关端口的数据信息，其索引IP地址其存贮的内容为相应的端口-容量对。比如说表格P<1，2，3，4>中存贮的内容为{(80，125)，(135，45)}，在默认情况下表示在网络报文的IP地址1.2.3.4的端口80传输的数据报文大小为125字节，端口135传输的数据报文大小为45字节。

关于节点压缩的说明：

为了节省系统空间资源，系统在压缩和输出的时候，仅仅输出补偿之后的节点，所谓补偿就是指，如果某一个节点的孩子节点被标记为聚类节点(指节点当前容量和孩子容量之和大于某一个阈值的节点)，那么该节点的输出标记为该节点的容量减去所有标记为聚类节点的孩子节点的容量。显然，如果不进行补偿，那么对于任何一个孩子节点未聚类的父亲节点来说，其当前容量必然包括孩子节点容量，这些数据对于网络管理者来说是无意义的。

本发明的特征在于，所提出的方法依次含有以下步骤(其中的总体流程框图如图2所示)：

总体步骤：

本程序在启动之后，即在网络中以如下方式进行工作，

步骤(1).设置如下参数：

在时间间隔T内对网络报文进行测量的测量周期，T＝1分钟；

测量目标值，为报文大小；

聚类程度Phi＝1％，Phi反映聚类结果的网络测量目标值占当前总网络的测量目标值的比值，用以反映单个网络聚类的测量值占总测量目标值1％以上的各个网络聚类；

测量误差允许值ε，ε＝1％·Phi；

当前测量周期T内的总测量目标值V_cur，前次测量周期测量值V_last和下轮测量周期预测值V为0；

启发式算法预测深度阈值T_g，默认为0.8phi＝0.008，(ε<<T_g≤phi)，T_g为启发式算法的性能参数；

滑动因子α，α＝0.5；

分裂阈值T_split，初始值为0；

节点最大深度W_max，即IP前缀的最大深度，W_max＝4，IP地址树模型中根节点的深度为W＝0；

步骤(2)启动测量程序，设定当前测量总目标值V_cur＝0；

步骤(3)在一个测量周期T内，对于每一个到达的报文E依次执行以下步骤：

步骤(3.1)设定一维树状存贮结构内，每一个树节点的数据结构为：

孩子指针，是指向树节点的孩子节点指针，指向孩子节点所在内存空间，用一个指针数组表示多个孩子指针，初始值为空；

预测深度，是在下一个测量周期内所述节点所处的深度，初始值为0；

实际深度，是当前节点深度；

叶子属性，为真表示所述节点为是叶子节点，为假则否，初始值为否；

当前容量，树节点在当前测量周期内所包含的初始报文大小，用字节表示；

孩子节点容量，树节点的孩子节点所包含的初始报文大小，初始值为0；

前次容量，树节点在上一测量周期内所包含的全部报文的大小，等于上一测量周期内得到的节电当前容量和孩子节点容量之和，初始值为0；

步骤(3.2)按以下步骤更新一维树状存贮结构，输入报文的源地址和E的测量目标值，返回源地址深度W1；

步骤(3.2.1)设置标识为^*.^*.^*.^*的IP地址树根节点为IP地址的当前节点；

步骤(3.2.2)满足下列三个条件中的任何一条，则所述步骤(3.2)的当前节点退出：

出现叶子节点，且其当前容量加上测量目标值小于分裂阈值T_split，则更新当前节点容量值为当前测量值加上当前节点容量，返回当前节点的预测深度；

出现叶子节点，且其当前容量加上测量目标值不小于分裂域值T_split，但其当前深度已达到最大深度W_max，则更新当前节点为孩子节点，容量为测量目标值，返回当前节点的预测深度；否则，设置叶子节点属性为假；

出现非叶子节点，其当前容量加上测量目标值不小于分裂域值T_split，但其当前深度等于最大深度W_max，则返回当前节点的预测深度；

如果不满足以上三条退出条件，则无论节点是否为叶子节点均更新所述当前节点的孩子节点容量为当前节点的孩子节点容量再加上测量目标值；在以上条件中，若节点容量的增长超过分裂域值T_split，但当前深度小于最大深度时，该节点根据输入IP地址和当前的深度分裂新的孩子节点并同时取代原有的节点成为当前节点继续执行步骤(3.2.2)，直到节点处于最大深度W_max；

步骤(3.3)按照步骤(3.2)所述方法更新—维树状存贮结构，输入的参数为报文的目的地址和E的测量目标值，返回目的地址的深度W2；

步骤(3.4)根据步骤(3.2)和步骤(3.3)返回的源地址和目的地址的深度，分别执行以下步骤

步骤(34.1)若返回的源地址深度或者目的地址深度有一个大于0，则根据源地址和目的地址得到在相应深度下的IP前缀标识，设为prefix1和prefix2，如果不存在二维叉乘表格H[W1][W2]中的哈希索引表格中，则开辟空间，初始化测量值为0；否则，更新测量值为原有测量值再加上报文E的测量目标值，所述二维叉乘表格的两个维度分别为源地址的深度[W1]和目的地址的深度[W2]，而每一个节点的位置存贮在该深度下的源地址与目的地址的索引表格中，该索引表格使用二维矩阵存贮，矩阵中每一个元素为一个哈希表格，哈西表格中的索引为源地址和目的地址在当前深度下的节点标识；其存贮内容为该地址深度的当前测量目标值和上一个测量周期的测量目标值；

步骤(3.4.2)如果返回的源地址或目的地址的深度为最大值W_max，则更新端口哈希表P：当该地址索引在P中不存在时，则开辟相关的空间，初始化测量值为0；否则，更新源地址或目的地址索对应的端口测量值为原有测量值加上E的测量目标值；

步骤(3.5)把报文的测量目标值增加到当前测量总目标值V_cur，对下一个报文重复步骤(3.2)-(3.4)；

步骤(4)按照以下步骤分别设置所述当前节点为源地址树和目的地址树的根节点，其节点标识均为^*.^*.^*.^*，分别对这两个节点树按照步骤(4.1)进行压缩；

步骤(4.1).如果当前节点的当前容量加上当前节点的孩子节点容量小于V·Phi，那么设置当前节点的叶子属性为真，其中预测容量V根据步骤7计算得到；

步骤(4.1.1)如果当前节点当前容量和孩子节点容量之和大于预测深度容量Tg·V，则更新当前节点的预测深度为当前节点的当前深度；

步骤(4.1.2)如果当前节点当前容量和孩子节点容量之和小于Tg·V，则更新当前深度为节点深度减1，清空其所有孩子节点空间，释放相关资源；

步骤(4.2)如果当前节点的当前容量和孩子节点容量之和超过V·Phi，则设置当前节点的预测深度为当前节点的当前深度；对于当前节点的每一个孩子节点，将其设置为当前节点按照步骤(4.1)，依次进行压缩；

步骤(5)对源地址和目的地址分别执行如下子步骤，输出一维源地址和目的地址的聚类结果，其示意图如图8所示；

步骤(5.1)设置当前节点V为地址树的根节点^*.^*.^*.^*，初始化节点队列Q空；对于节点V的孩子指针指向的每一个不为空的孩子节点，将其进入队列Q；

步骤(5.2)取出队列Q的第一个节点V1，将V1从队列Q中移除，将其设置为当前节点，将其补偿数值T设定为0；

步骤(5.3)对于当前节点V1的每一个孩子来说，分别执行以下步骤，以下以V11举例说明；

步骤(5.3.1)如果孩子节点V11的当前容量和孩子节点V11的孩子节点容量大于V·Phi，则增加补偿值T为T的原有容量再加上V11的当前容量和V11的孩子节点容量，并将该孩子节点V11放入队列Q中；

步骤(5.4)如果当前节点V1的容量加上当前节点V1的孩子节点容量减去补偿值T大于阈值V*Phi，输出当前节点V1为静态聚类节点；

步骤(5.5)如果当前节点V1的当前容量加V11的孩子节点容量减去其前次容量大于阈值V*Phi的话，输出当前节点V1为动态节点；

步骤(5.6)设定当前节点V1的前次容量为V11的当前容量加孩子节点容量，设定其当前容量为0；设定V1的孩子节点容量为0；

步骤(5.7)若队列Q不为空，返回步骤(5.2)继续，否则退出步骤(5)；

步骤(6)压缩并且输出叉乘表格中的源目的地址对，即对于叉乘表中的每一个维度以及维度里面的每一个哈希索引所对应的数据项e，依次执行以下步骤

步骤(6.1)如果e的当前容量减去上次容量的绝对值大于阈值V_cur·Phi时，输出e为动态聚类节点；

步骤(6.2)如果e的当前容量大于V_cur·Phi，则输出节点e为静态聚类节点；

步骤(6.3)如果e的当前容量为0则删除该节点，继续执行步骤(6)；

步骤(6.4)设定节点的前次容量为当前容量，设定节点的当前容量为0，继续执行步骤(6)；步骤(7)流量预测，采用简单的加权指数平均模型，按照如下公式进行预测下一次的流量V；

V＝αV_cur+(1-α)V_last，________________________(1)

步骤(8).计算步骤3中所用的分裂阈值T_split；

T_split＝ε·(phi)·V/W，____________________(2)

步骤(9).返回步骤(3)，进入下一个测量周期。

附图说明

图1.地址树模型示意图；

图2.多粒度的网络流量高速自动聚类方法框架图；

图3.多粒度的网络流量高速自动聚类方法部署图；

图4.叉乘表格H(Cross-product table)示意图

X-源地址深度，取值为0到W的整数

Y-目的地址深度，取值为0到W的整数

<prefix1，prefix2>-表示在特定深度下的源地址和目的地址前缀集合。

图5.实验测量本发明和已有方法正确率比较；

-□-传统的CP算法，具体内容请参见背景技术

-O-发明(HCP)算法在T_g＝Phi条件下

-^*-发明(HCP)算法在T_g＝0.6*Phi条件下

图6.实验测量本发明和已有方法时间比较；

-O-发明(HCP)算法在T_g＝Phi条件下

-

-发明(HCP)算法在T_g＝0.6*Phi条件下

图7.数据压缩和未压缩方法比较情况

图8.输出一维地址树聚类结果示意图

具体实施方式

本算法是在2.4GHz的CPU，内存512M的Linux工作环境中实现，全部代码利用C语言编写。下面从不同的侧面对本试验进行进一步的说明。需要说明的是，由于算法采用启发式算法，在网络报文的第一个测量周期内Tg＝0因此无法正确标记网络聚类，所以实验的结果需要从第2次测量周期开始统计。

实际误差分析：

本试验的正确率分析如图5所示，可以看到，当通常情况下取Phi＝1％时，其错误率制在2％以下，对于不同的phi值，可以通过调整门限参数T_g进行准确性与系统资源之间的平衡。时间性能分析：

本试验环境下的所用时间分析如图6所示，当设置测量时间间隔T为1分钟时，测量所需要时间可以控制在1分钟之内，能够达到线速处理要求。

空间性能分析：

本实验中，压缩与不压缩数据的空间比较如图7所示。

理论误差分析：

对于一维情况来说，每一个聚类的节点最大为ε·phi·V/W，所以对于底层节点的最大流量的误差为ε·phi·V，则其相对最大误差为ε·phi·V/(phi·V)＝ε。

本试验的错误率：

1).如果预测的深度>实际的深度，也就是说聚类过细，这种情况可以在结尾的数据压缩中进行处理，因此不会增加误差。

2).如果预测的深度<实际的深度，那么会出现聚类精度不够的情况，会产生误正率(FalsePositive)。在实际中，由于网络流量在短期内具有较大的相关性，因此不会对测量方法的正确率产生较大影响。(具体的实验数据请参见图5)

由此可见，本发明达到了预期目的。

Claims

1.G比特流率下的多粒度网络自动聚类方法，其特征在于所述方法是在一个通过路由器或者高端交换机的端口镜像功能接受报文的流量检测服务器中实现的，其步骤依次如下：步骤(1)，设置如下参数：

在时间间隔T内对网络报文进行测量的测量周期，T＝1分钟；

测量目标值，为报文大小；

测量误差允许值ε，ε＝1％·Phi；

启发式算法预测深度阈值T_g，默认为0.8phi＝0.008，ε<<T_g≤phi，T_g为启发式算法的性能参数；

滑动因子α，α＝0.5；

分裂阈值T_split，初始值为0；

步骤(2)启动测量程序，设定当前测量总目标值V_cur＝0；

步骤(3)在一个测量周期T内，对于每一个到达的报文E依次执行步骤(3.1)-步骤(3.5)：

步骤(3.1)设定一维树状存贮结构，每一个树节点的数据结构为：

实际深度，是当前节点深度；

前次容量，树节点在上一测量周期内所包含的全部报文的大小，等于上一测量周期内得到的节点当前容量和孩子节点容量之和，初始值为0；

步骤(3.2)按以下步骤(3.2.1)-(3.2.2)更新一维树状存贮结构，输入报文的源地址和E的测量目标值，返回源地址深度W1；

步骤(3.2.1)设置标识为*.*.*.*的IP地址树根节点为IP地址的当前节点；

步骤(3.3)按照步骤(3.2)所述方法更新一维树状存贮结构，输入的参数为报文的目的地址和E的测量目标值，返回目的地址的深度W2；

步骤(3.4)根据步骤(3.2)和步骤(3.3)返回的源地址和目的地址的深度，分别执行以下步骤(3.4.1)-(3.4.2)：

步骤(3.4.1)若返回的源地址深度或者目的地址深度有一个大于0，则根据源地址和目的地址得到在相应深度下的IP前缀标识，设为prefix1和prefix2，如果不存在二维叉乘表格H[W1][W2]中的哈希索引表格中，则开辟空间，初始化测量值为0；否则，更新测量值为原有测量值再加上报文E的测量目标值，所述二维叉乘表格的两个维度分别为源地址的深度W1和目的地址的深度W2，而每一个节点的位置存贮在该深度下的源地址与目的地址的索引表格中，该索引表格使用二维矩阵存贮，矩阵中每一个元素为一个哈希表格，哈西表格中的索引为源地址和目的地址在当前深度下的节点标识；其存贮内容为该地址深度的当前测量目标值和上一个测量周期的测量目标值；

步骤(3.4.2)如果返回的源地址或目的地址的深度为最大值W_max，则更新端口哈希表P：当该地址在P中不存在时，则开辟相关的空间，初始化测量值为0；否则，更新源地址或目的地址所对应的端口测量值为原有测量值加上E的测量目标值；

步骤(4)按照以下步骤(4.1)-(4.2)分别设置所述当前节点为源地址树和目的地址树的根节点，其节点标识均为*.*.*.*，分别对这两个节点树按照步骤(4.1)进行压缩；

步骤(4.2)如果当前节点的当前容量和孩子节点容量之和超过V·Phi，则设置当前节点的预测深度为当前节点的当前深度，对于当前节点的每一个孩子节点，将其设置为当前节点按照步骤(4.1)，依次进行压缩；

步骤(5)对源地址和目的地址分别执行如下子步骤(5.1)-(5.7)，输出一维源地址和目的地址的聚类结果；

步骤(5.1)设置当前节点V0为地址树的根节点*.*.*.*，初始化节点队列Q空，对于节点V0的孩子指针指向的每一个不为空的孩子节点，将其进入队列Q；

步骤(5.2)取出队列Q的第一个节点V1，将V1从队列Q中移除，将当前节点V0设置为V1，将其补偿数值T设定为0；

步骤(5.3)对于当前节点V0的每一个孩子V11来说，分别执行以下步骤；

步骤(5.4)如果当前节点V0的容量加上当前节点V0的孩子节点容量减去补偿值T大于阈值V*Phi，输出当前节点V0为静态聚类节点；

步骤(5.5)如果当前节点V0的当前容量加V11的孩子节点容量减去其前次容量大于阈值V*Phi的话，输出当前节点V0为动态节点；

步骤(5.6)设定当前节点V0的前次容量为V11的当前容量加孩子节点容量，设定其当前容量为0；设定V0的孩子节点容量为0；

步骤(6)压缩并且输出叉乘表格中的源目的地址对，即对于叉乘表中的每一个维度以及维度里面的每一个哈希索引所对应的数据项e，依次执行以下步骤(6.1)-(6.4)：

步骤(6.4)设定节点的前次容量为当前容量，设定节点的当前容量为0，继续执行步骤(6.1)-(6.3)；

步骤(7)流量预测，采用简单的加权指数平均模型，按照如下公式进行预测下一次的流量V；

V＝αV_cur+(1-α)V_last，------------------------(1)

步骤(8)，步骤3中所用的分裂阈值T_split；

T_split＝ε·(phi)·V/W，--------------------(2)

步骤(9)，步骤(3)，进入下一个测量周期。