CN104618361A

CN104618361A - 一种网络流数据重排序方法

Info

Publication number: CN104618361A
Application number: CN201510033154.5A
Authority: CN
Inventors: 董尚文; 张广兴; 付乔宾; 贺泰华; 彭群
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2015-05-13
Anticipated expiration: 2035-01-22
Also published as: CN104618361B

Abstract

本发明提供了一种网络流数据存储方法，包括：1)接收流数据，对于每个流数据，根据其源IP地址所属网段和目的IP地址所属网段计算索引值，并根据所计算的索引值找到Hash表中对应的Hash桶，其中Hash表是预先建立的用于缓存流数据的数据结构；2)在Hash桶内，根据流数据五元组之间的差量对桶内的流数据进行分组，同组的流数据被排列到一起。本发明能够大幅提升网络流数据存储系统的存储性能，减小数据熵，提高压缩比，减小流数据存储所需空间，加快流数据查询速度。

Description

一种网络流数据重排序方法

技术领域

本发明涉及计算机网络技术领域，具体地说，本发明涉及一种网络流数据重排序方法。

背景技术

随着互联网的高速发展，网络中每天都会有很多数据产生，由于现代网络不断高速化、复杂化，网络运营商越来越重视当前网络状况变化。为了处理好网络安全问题，需要进行网络数据分析、行为模式模拟预测等等，而这些都需要有海量数据支持，需要有长时间持续的流数据作为统计分析源头，所以流数据分析是发现安全问题，查找问题源，追溯事件发生原因的重要手段之一。

与其他普通数据不同，在网络流中，流数据总是具有时间局部性和空间局部性的。现有的网络流存储系统的主要流程为：重排序、分列、分块压缩、存储。其中，重排序正是利用了网络流量的特性，在内存中缓存一段时间内的数据，利用时间局部性和空间局部性将相似流数据整合到一起，以减小数据熵，提高压缩比。例如，oLSH算法是现有技术中一种典型的流数据重排序技术，它能够显著地提升流数据的压缩效果，同时减短流数据查询的时间。

oLSH算法中，利用p-stable算法将流数据的五元组看作一个个数值，从而把五元组从高维空间映射到一维空间中，然后再依据一维空间中的长度值在Hash表中对流数据进行排序。这种方案计算复杂度很低，能够适用于高速实时存储系统，然而，实践中发现其数据熵仍然相对较高，不利于提高压缩比。例如，依据oLSH算法，以下两个流数据(10.2.1.2,10.2.1.3)与(10.2.1.2,11.2.1.1)具有相似性，可能会被放在相邻位置。但实际上这两个数据根本不在同一网段，毫无关联性可言。也就是说，oLSH算法不能保证重排序后存储位置相邻的流数据都具备较高的相似性，因此基于oLSH算法的流数据存储方案数据熵仍然相对较高，其流数据的压缩效果还有待提高。

发明内容

本发明的目的是提供一种计算复杂度低，数据熵小的流数据重排序方法。

为实现上述发明目的，本发明提供了一种网络流数据重排序方法，包括下列步骤：

1)接收流数据，对于每个流数据，根据其源IP地址所属网段和目的IP地址所属网段计算索引值，并根据所计算的索引值找到Hash表中对应的Hash桶，其中Hash表是预先建立的用于缓存流数据的数据结构；

2)在Hash桶内，根据流数据五元组之间的差量对桶内的流数据进行分组，同组的流数据被排列到一起。

其中，所述网络流数据为基于IPv4的流数据，所述步骤1)中，对于任意一个流数据，根据该流数据源IP地址和目的IP地址所属的网段来计算所述索引值。

其中，所述步骤1)中，所述索引值为源IP地址与目的IP地址前16位之和对所述Hash表的Hash桶数目取余的值。

其中，所述步骤1)还包括，对于每个流数据，在根据所计算的索引值找到对应的Hash桶后，将源IP地址，目的IP地址前16位完全相同的流数据组成该Hash桶的一条冲突链。

其中，所述步骤2)中，五元组之间的差量包括：IP地址差量，端口差量和协议号差量。

其中，所述步骤2)中，所述IP地址差量是：将IP地址看做32位int型整数直接相减并取绝对值。

其中，所述步骤2)中，当两个流数据的端口号一致时，端口差量为零，当两个流数据的端口号不一致时，端口差量取为端口差量预设的固定值；当两个流数据的协议版本号一致时，协议号差量为零，当两个流数据的协议版本号不一致时，协议号差量取为协议号差量预设的固定值。

其中，所述步骤1)中，对于每个数据流，执行下列子步骤：

11)根据当前流数据的源IP地址和目的IP地址的前16位计算该流数据的Hash索引值；

12)根据Hash索引值找到对应的Hash桶，根据当前流数据的源IP地址和目的IP地址查找Hash桶内是否有匹配的冲突链，如果没有则新建一条冲突链，并把当前流数据作为该新建冲突链的首个数据，如果有，则直接将当前流数据插入到匹配的冲突链中。

其中，所述步骤2)中，对于每个冲突链，执行下列子步骤：

21)对于冲突链中第一个流数据，将其作为第一组的head；

22)对于后续每一个流数据，找到当前每组的head，与head数据计算所述五元组之间的数值差量，如果差量小于差量阈值T，则把这条流数据加到该head数据所在组的末尾；否则，重新添加一组，并把当前流数据作为该新建组的head。

其中，所述的网络流数据重排序方法还包括步骤：

3)将Hash表中的流数据导出；

所述步骤3)包括下列子步骤：

31)当Hash表中数据个数达到F_max时，开始执行步骤42；

32)取出数据最多的Hash桶；

33)从Hash桶中找出最长的冲突链，将该冲突链的流数据导出，并存储至存储设备；

34)判断当前Hash表中流数据个数是否少于F_min，如果是，则停止本次导出；否则，重新执行步骤32)。

与现有技术相比，本发明具有下列技术效果：

1、本发明计算复杂度低，数据插入速度快，能在满足10G链路流数据实时存储的需求。

2、本发明能够减小数据熵，提高压缩比，减小流数据存储所需空间。

3、本发明有助于加快流数据查询速度。

附图说明

图1是本发明的一个实施例中流数据存储方法的流程图；

图2是本发明的一个实施例中流数据存入Hash表的示意图；

图3是基于不同重排序方法所存储的数据在被查询时需读入数据块的对比图；

图4是基于不同重排序方法所存储的数据的压缩索引文件的对比图；

图5是基于不同重排序方法所存储的数据在被查询时所需时间对比图。

具体实施方式

根据本发明的一个实施例，提供了一种网络流数据存储方法，概括说来，在内存中创建一个Hash表，然后根据一定规则，通过低复杂度的数据处理将所接收到的网络流数据快速存储到该Hash表的相应位置，实现对网络流数据的重排序，使得相似流数据被整合到一起存储。

图1是本发明的一个实施例中流数据存储方法的流程图，所述网络流数据存储方法包括下列步骤1至4。

步骤1：创建Hash表。Hash表的长度可以根据需要设定，为便于描述，下文中Hash表的长度取为65535。Hash表中每一个索引值均对应于一个Hash桶，长度为65535的Hash表就有65535个Hash桶，并且每个Hash桶中可以建立任意数量的冲突链。

步骤2：接收网络流数据，所接收的流数据中带有五元组信息，在本发明中五元组信息是指网络流数据的源IP地址、目的IP地址、源端口号、目的端口号以及传输协议类型(传输协议类型可以以版本号表示)。对于每组流数据，根据其五元组中提取的源IP地址所属网段和目的IP地址所属网段计算索引值，并根据所计算的索引值找到对应的Hash桶。

本实施例中，网络流数据为基于IPv4的流数据。IPv4地址可以看做一个int型数(它是二进制数，下文中不再赘述)，用IP地址前16位表示该IP地址所属的网段，来计算hash索引值。在一个例子中，Hash索引值为源IP地址与目的IP地址前16位之和对Hash桶数目取余的值。根据所计算的索引值即可找到当前流数据所对应的Hash桶。进一步地，本实施例中，在同一Hash桶内，将源IP地址，目的IP地址前16位完全相同的流数据组成一条冲突链。

图2示出了一个Hash表的示例。该Hash表中示出了4个流数据：流数据11、流数据12、流数据13、流数据14。其中，

流数据11的源IP＝10.0.11.1、目的IP＝159.226.1.2；

流数据12的源IP＝10.0.27.8、目的IP＝159.226.81.2；

流数据13的源IP＝10.0.141.10，目的IP＝159.226.9.88；

流数据14的源IP＝10.21.11.1、目的IP＝159.205.1.2。

基于前文所述的计算流数据索引值的方法：采用流数据的源IP地址与目的IP地址的前16位之和对Hash桶的数量取余。流数据11、12、13的索引值均是：(10*256+0+159*256+226)％65535＝43490，流数据14的索引值为：(10*256+21+159*256+205)％65535，其结果也是43490。因此流数据11、12、13均被分配到索引值为43490的Hash桶中。进一步地，流数据11、12、13的源IP地址与目的IP地址的前16位均相同，因此，流数据11、12、13组成一条冲突链，而流数据14的源IP地址与目的IP地址的前16位与流数据11、12、13不同，因此被分配到另一条冲突链中。

步骤3：对于属于同一条冲突链内的多个流数据，根据它们五元组之间的数值差量大小进行分组，并将同组的流数据排列到一起。

在执行完步骤2后，对于每条冲突链，可以保证源IP地址和目的IP地址的前16位完全相同，但是这些数据的相似性并不是完全一致的。差量重排是一种以较小的计算复杂度代价，将冲突链中相似度高的数据分类到一起的方案。本实施例中，差量计算是基于五元组对两个数据流的总差量的计算，包括对IP地址差量的计算，对端口差量的计算和对协议号差量的计算。其中，对IP地址差量计算是：将IP地址看做32位整数直接相减并取绝对值。源IP地址差量加上目的IP地址差量为当前的总差量。对端口差量计算，是比较端口数值是否相同，若相同，则当前总差量不变，否则根据端口权重对总差量进行向上修正，例如原总差量加上端口差量得到新的总差量，本实施例中，端口差量预先设定，它只与端口在五元组中的权重有关，与两个流数据端口号的差值大小无关。对于协议号差量计算，与端口差量类似，若两个流数据的协议号相同，则总差量不变，否则根据协议号权重对总差量进行向上修正，例如原总差量加上协议号差量得到新的总差量，本实施例中，协议号差量预先设定，它只与协议号在五元组中的权重有关，与两个流数据协议号的差值大小无关。

差量重排主要是将冲突链中的流数据调整顺序，重组为关联度高，数据熵小的序列，核心思想是将链中数据分组，为此定义一个差量阈值T，超过此阈值的两个流数据被认为不相似，不属于同一个分组。

步骤4：根据Hash表将流数据依次导出并存储。流数据的到来通常是未知的，有可能很快也有可能很慢。为应对这一现象，本实施例中，对于Hash表大小限制最大流数据个数门限F_max，当Hash表中数据个数达到F_max后，对Hash表中数据进行导出操作，以减小Hash表中数据。同时设置最小个数门限F_min，作为该次导出结束的条件。

在一个实施例中，步骤2可以按下列子步骤执行：

步骤21：接收一个流数据；

步骤22：根据当前流数据的源IP地址，目的IP地址所属网段计算该流数据的Hash索引值；Hash索引值为源IP地址与目的IP地址前16位之和对Hash桶数目取余的值；

步骤23：根据Hash索引值找到对应的Hash桶，根据当前流数据的源IP地址，目的IP地址查找Hash桶内是否有相应冲突链，如果没有则新建一条冲突链，并把当前流数据作为该新建冲突链的首个数据插入到该新建冲突链中，如果有，即Hash桶中查找到匹配的冲突链，则将当前流数据插入到所匹配的冲突链中。

对于不断地接收流数据，并按照上述步骤21～23进行处理，即可把大量的流数据高速分配到Hash表各个桶的相应冲突链中。

在一个实施例中，所述步骤3中，对于每条冲突链，差量重排过程包括下列子步骤：

步骤31：对于冲突链中第一个流数据，将其作为第一组的head；

步骤32：对于后续每一个流数据，找到当前每组的head，与head数据计算差量(指基于五元组计算的总差量)，如果差量小于差量阈值T，则把这条流数据加到该head数据所在组的末尾；否则，重新添加一组，并把当前流数据作为该新建组的head。

上述子步骤中，由于每一分组的尾数据都可能是不断替换的，并且随着新的分组不断产生，头数据也随之增加，所以执行此操作时需要记录每一组数据的头数据与尾数据，以便在分组时找到每一组的起始和结尾。

上述基于五元组计算总差量的方法并不是唯一的，在本发明的其它实施例中也可利用五元组以其它方法计算总差量，然后按照上述步骤31、32对同一冲突链内的流数据进行分组。

在一个实施例中，流数据从内存中导出并存储的过程包括下列子步骤：

步骤41：当Hash表中数据个数达到F_max时，开始执行步骤42；

步骤42：取出数据最多的Hash桶；

步骤43：从Hash桶中找出最长的冲突链，将该冲突链的流数据导出，并存储至存储设备(例如硬盘，磁盘阵列等)；

步骤44：判断当前Hash表中流数据个数是否少于F_min，如果是，则停止本次导出；否则，重新执行步骤42。

需要说明的是，上述流数据从内存中导出并存储的方法并不是唯一的，例如，在本发明的另一个实施例中，以固定时间来导出或存储流数据，只要将属于同一冲突链的流数据存储在一起即可。

本发明提供的流数据存储方法能够大幅提升网络流数据存储系统的存储性能，存储位置相邻的流数据的相似性高，减小了数据熵，提高了数据压缩比，能够减小流数据存储所需空间，并且有利于流数据的检索。并且，本发明的计算复杂度与oLSH算法属于同一级别，插入速度较高，插入数据的速度可以达到50万条每秒，能够满足10G链路流数据导出要求。

本发明由于将关联度高的流数据归类到一起整理，使得相邻的流数据中数据冗余度高，利于源文件和数据库索引压缩；由于索引文件的大幅减小，会使得流数据查询时的索引读取时间减少，同时由于高度的数据聚合使得在进行网段查询时，利于数据的读取，从而加快流数据查询速度。基于本发明的存储方法所得的网络流数据可适用于基于现有的各类查询方法的查询。

下面再结合流数据的查询，从压缩效果，索引文件大小，以及查询时间等各个角度来说明本发明存储方法所带来的技术效果。

通常来说，长时间持续的流数据存储会消耗大量硬盘空间，因此需要对流数据进行压缩，与此相应的是，在对压缩的流数据进行查询时，需要先读入压缩数据块再进行解压缩，最后才能读取到所需数据。本发明的减小数据熵效果可通过存储在硬盘后所占空间大小判别，发明人从真实网络中获取了三个不同大小的流数据集做对比试验，对于两种不同重排序方案的导出数据，采用相同的lzo压缩方法，试验结果见表1，表1中Hash-Diff表示本发明所采用的重排序方法，oLSH表示oLSH重排序方法，lzo表示所采用的压缩方法。

表1

	流数据条数	流数据大小	oLSH+lzo	Hash‐Diff+lzo
					数据集1	587,054	48MB	13MB	11MB
数据集2	4,341,009	352MB	81MB	72MB
					数据集3	95,905,038	7.6GB	1.9GB	1.6GB

从表1可以看出，本发明的重排序方案处理后的流数据的压缩效果显著优于oLSH算法。

另一方面，对于同一查询，需读出的压缩数据块数目越少，证明获取查询数据时所需读数据的时间越少，间接减少了查询时间。图3示出了采用本发明和oLSH方案存储的压缩流数据在查询时需读入数据块的对比图。发明人在对比实验时使用了由多种查询构成的查询SQL集合，查询条件是不同范围的流五元组组合。

如图3所示，利用本发明的方法缓存流数据后，查询数据时平均需要读入的数据块仅为现有的oLSH方法的10％，大大减少了对压缩数据块的读入量。无论是网段查询还是准确查询，本发明读取的数据块都少于oLSH方法，当然，本发明对于网段查询的效果更佳。

进一步地，还可以通过索引文件大小来考察所存储流数据的数据熵的大小。对于按不同方法存储流数据，用相同的索引算法生成索引文件，索引文件越小，则说明所存储流数据的数据熵越小，且查询时读入索引文件时间减少，更加便于查询。图4示出了无重排，基于oLSH算法的重排方法，以及基于本发明的重排方法所存储的数据，分别按照COMPAX算法生成索引后，所生成的索引文件大小的对比图。在测试时，流数据存储是把IP地址(共32位)分为4个部分进行的，这4部分分别是IP的第一个字节，第二个字节，第三个字节，第四个字节。比如图4是对于某一数据集的存储后IP地址索引文件大小对比。SRC_ADDR1是指源IP地址第一个字节产生的索引文件大小；SRC_ADDR2是指源IP地址第二个字节产生的索引文件大小；SRC_ADDR3是指源IP地址第三个字节产生的索引文件大小；SRC_ADDR4是指源IP地址第四个字节产生的索引文件大小；DST ADDR1、2、3、4则分别是指目的IP地址第一、二、三、四字节产生的索引文件大小。如图4所示，采用本发明的方法对流数据进行存储后，为了进行流数据查询而建立的索引文件大小远小于现有的oLSH存储方法以及无重排直接存储的流数据。

图5是采用不同存储方法的流数据进行查询所需时间的对比图，如图5所示，采用本发明的方法进行存储后，查询所需的时间明显优于无重排时的情况，并且与现有的oLSH方案以及采用FastBit系统(FastBit是一个开源的列存储数据库)方案进行存储的情况相比，本发明提供的方法在查询时间上也具备显著的进步。

最后，上述的实施例仅用来说明本发明，它不应该理解为是对本发明的保护范围进行任何限制。而且，本领域的技术人员可以明白，在不脱离上述实施例精神和原理下，对上述实施例所进行的各种等效变化、变型以及在文中没有描述的各种改进均在本专利的保护范围之内。

Claims

1.一种网络流数据重排序方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的网络流数据重排序方法，其特征在于，所述网络流数据为基于IPv4的流数据，所述步骤1)中，对于任意一个流数据，根据该流数据源IP地址和目的IP地址所属的网段来计算所述索引值。

3.根据权利要求2所述的网络流数据存储方法，其特征在于，所述步骤1)中，所述索引值为源IP地址与目的IP地址前16位之和对所述Hash表的Hash桶数目取余的值。

4.根据权利要求3所述的网络流数据重排序方法，其特征在于，所述步骤1)还包括，对于每个流数据，在根据所计算的索引值找到对应的Hash桶后，将源IP地址，目的IP地址前16位完全相同的流数据组成该Hash桶的一条冲突链。

5.根据权利要求4所述的网络流数据重排序方法，其特征在于，所述步骤2)中，五元组之间的差量包括：IP地址差量，端口差量和协议号差量。

6.根据权利要求5所述的网络流数据重排序方法，其特征在于，所述步骤2)中，所述IP地址差量是：将IP地址看做32位int型整数直接相减并取绝对值。

7.根据权利要求5所述的网络流数据重排序方法，其特征在于，所述步骤2)中，当两个流数据的端口号一致时，端口差量为零，当两个流数据的端口号不一致时，端口差量取为端口差量预设的固定值；当两个流数据的协议版本号一致时，协议号差量为零，当两个流数据的协议版本号不一致时，协议号差量取为协议号差量预设的固定值。

8.根据权利要求2所述的网络流数据重排序方法，其特征在于，所述步骤1)中，对于每个数据流，执行下列子步骤：

9.根据权利要求4所述的网络流数据重排序方法，其特征在于，所述步骤2)中，对于每个冲突链，执行下列子步骤：

21)对于冲突链中第一个流数据，将其作为第一组的head；

10.根据权利要求9所述的网络流数据重排序方法，其特征在于，还包括步骤3)将Hash表中的流数据导出；

所述步骤3)包括下列子步骤：

31)当Hash表中数据个数达到F_max时，开始执行步骤42；

32)取出数据最多的Hash桶；