CN107357843A

CN107357843A - 基于数据流结构的海量网络数据查找方法

Info

Publication number: CN107357843A
Application number: CN201710493232.9A
Authority: CN
Inventors: 程光; 郭春生; 周余阳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2017-11-17
Anticipated expiration: 2037-06-23
Also published as: CN107357843B

Abstract

本发明公开了一种基于数据流结构的海量网络数据查找方法，包括实时数据的存储方法和实时查询方法。网络中数据是以数据流形式到达，需要对网络数据进行约减，截取每条网络报文数据的特定长度，之后按照特定的数据文件大小存储有效信息，对于每条网络报文中源、宿IP使用布隆过滤器(Bloom Filter)算法建立索引文件；实时查询时，先对索引文件查找，匹配之后再对数据存储文件进行查找，获得详细信息。本发明可以快速处理海量网络数据，占用存储空间小，保存大量网络细节信息，使用Bloom Filter哈希算法对网络报文数据建立索引，实现文件内容的分级检索，且索引结构简单，占用空间小，使用三个不同的哈希函数计算使得哈希冲突率低，而检索时，索引匹配查找快速且准确，有很好的时间和空间效率。

Description

基于数据流结构的海量网络数据查找方法

技术领域

本发明涉及海量数据处理领域，尤其是一种对于海量网络数据的查找方法。

背景技术

数据查找是指根据查找需求对一个计算机文件或数据库提取所需要数据的一种技术。目前针对文件数据的常见数据查找方法有：线性查找，对分查找，跳步查找等；线性查找是把给定的关键字值与文件中的记录逐个进行比较，直至找到与之匹配的记录为止。这种方法简单易行，但对于海量数据查询时效率低下，难以满足需求。对分查找是将文件中的记录按关键字值大小顺序排列，使用分治法，将文件一分为二，用给定关键字值与中点的记录进行比较，若匹配，则查找成功；否则判断所要查找的记录可能在上半部分，还是在下半部分。然后，对确定的部分继续上述过程，直至找到要求的记录，查找成功；或最后只剩下一个记录仍不能匹配，查找失败。这种方法适用于关键字值是可比较，且有一定结构化性质的，对于非结构化数据来说没法进行顺序排列。跳步查找是先用大步跳过一部分记录，再用较小的步长或顺序查找方法在较小的范围内找到要查找的记录。这些查找方法对于海量数据来说，查找速度较慢，难以达到需求。因此本发明提出一种基于数据流结构的海量网络数据查找方法，通过对海量网络数据进行约减存储、建立关键字索引的方法，提高对海量数据的查找效率。

随着信息技术的快速发展，社会进入大数据时代，对于海量数据的查找成为研究的热点，大量结构化、非结构化数据需要相应的方法进行查找。目前对于海量数据的查询一般是基于大型数据库的，通过分布式计算技术、表分区技术和查询分解技术来对海量数据进行查询，这种方法主要针对结构化数据；对于非结构化数据的查找一般基于索引技术，通过对数据进行哈希建立索引，按照索引进行查找以减少查找工作量，查找速度较快，目前主流的哈希算法有MD5算法、Bit-Map算法、Bloom Filter算法等，MD5算法是将数据进行运算后得到一个128位的信息摘要，将原有数据压缩，使得索引结构存储空间减小，但信息摘要仍然占用较大的存储空间；Bit-Map算法是将数据映射到BitSet中的某一位上，每条数据对应于一个bit位，索引结构空间极小，但容易出现哈希表冲突，对于查询来说出错的概率较高；Bloom Filter算法是使用一个m位的BitSet，用k个哈希函数对数据进行哈希，每个哈希函数的取值范围为0到m-1，每个哈希函数将数据映射到BitSet的某一位去，这样BitSet的k个位对应于一个数据，不仅使得索引结构存储空间小，还降低了冲突率，查询效率高。本发明中的海量网络数据就是非结构化数据，因此使用Bloom Filter算法对数据建立索引，使用三个不同的哈希函数对网络数据建立索引，查找快捷。

哈希函数就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值或哈希值。这种转换是一种压缩映射，也就是，哈希值的空间通常远小于输入的空间，不同的输入可能会哈希成相同的输出，而不可能从哈希值来唯一的确定输入值。简单的说就哈希函数是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

发明内容

本发明提供一种能够实现分级检索、索引结构简单、占用空间小且查找快速快的基于数据流结构的海量网络数据的查找方法。

本发明采用如下技术方案：

一种基于数据流结构的海量网络数据查找方法，包括：实时数据的存储方法和实时查询方法，

所述实时数据的存储方法为：

步骤101配置参数，设一文件阈值F，设置两个大小均为2N的比特向量Bsip、Bdip，N为大于1的正整数，比特向量Bsip、Bdip中的所有2N比特的初始值设置为0，

步骤102创建新空网络数据存储文件及源IP/宿IP索引文件，所述网络数据存储文件的阈值取为步骤101所设的文件阈值F，

步骤103获取网络报文，截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据，并从所截取的字节流中提取源IP和宿IP，K为所截取字节流的字节数并为正整数，

步骤104选取哈希值的取值范围为0到2N-1的哈希函数，对源IP和宿IP进行哈希值计算，得到当前网络报文的源IP和宿IP的哈希值n，再在比特向量Bsip、Bdip中的第n位上置1，保存并形成当前比特向量Bsip、Bdip，同时将当前截取的字节流作为一条数据记录，写入网络数据存储文件，保存并形成当前网络数据存储文件，

步骤105如果网络数据存储文件的当前存储量大于网络数据存储文件的阈值，则将当前比特向量Bsip、Bdip写入源宿IP索引文件并置于源宿IP索引文件库中，将当前网络数据存储文件存放于网络数据存储文件库中，然后再清空当前比特向量Bsip、Bdip，得到初始值为0的比特向量Bsip、Bdip，返回步骤102；否则，返回步骤103；

所述实时查询方法为：

步骤201配置一个大小为2N的比特向量Bip，N为大于1的正整数，比特向量Bip中所有2N比特的初始值设置为0，

步骤202获取待查源IP或宿IP，采用步骤104所选的哈希函数，对源IP和宿IP进行哈希值计算，得到待查源IP或宿IP的哈希值，再在比特向量Bip中的第位上置1，保存并形成待查源宿IP比特向量，

步骤203将待查源宿IP比特向量与源宿IP索引文件库中的每个源宿IP索引文件进行逐个匹配，查找出第位置上为1的源宿IP索引文件，在根据查到的源宿IP索引文件，从网络数据存储文件库中查找出相应的网络数据存储文件，进而获得字节流、网络报文。

与现有技术相比，本发明具有如下优点：

(1)本发明中对数据流结构的网络报文数据采取的是以提取关键信息的方式存储，而不是对报文的全文内容存储，占用存储空间小且存取效率高；其他非全文内容存储的方式中以提取结构化的数据存储到数据库中，而本发明提取到的报文关键信息是非结构化的，以文件的形式存储，处理速率较快，记录了更多有效细节信息；本发明使用BloomFilter哈希算法对网络报文数据建立索引，实现文件内容的分级检索，检索时先查找索引文件，匹配后再查找数据文件，查询效率高；本发明在对网络报文数据建立索引时，对每条报文数据中的源IP、宿IP信息使用布隆过滤器(Bloom Filter)哈希算法建立索引，多条报文数据哈希映射到一个M位的比特向量，索引结构简单，占用空间小，且使用三个不同的哈希函数计算使得哈希冲突率低，而检索时，索引匹配查找快速，有很好的时间和空间效率。

(2)本发明将网络数据存储文件按特定文件大小分割，每个文件中报文数据记录一定，多条报文数据使用哈希算法建立索引，索引结构简单，每个数据存储文件中的数据经过哈希建立索引文件，实现了分级检索，查找某个数据时，先去索引文件查找是否存在，若存在之后再去数据存储文件中进行查找，节约了查找时间。

(3)本发明在对数据流结构的网络数据的存储过程中，处理速度快且存储下有效的网络信息，达到实时的处理数据流信息，对数据建立索引时，索引结构简单，占用系统内存较少，整体系统处理速度快捷，对于查找数据，先查找索引文件，再去数据存储文件查找，分级检索速度快且省去无用的时间消耗，查找快速且准确。

附图说明

为了更清楚的说明本发明实施实例的技术方案，下面对实施实例或现有技术描述中所使用的附图做简单介绍。

图1是海量网络数据查找方法功能流程图。

图2 Bloom Filter算法使用三个不同哈希函数的哈希映射示意图。

具体实施方式

下面结合本发明实施实例中的附图，对本发明实施实例中的技术方案进行清楚、完整地描述，当然所描述的实施实例仅仅是本发明一部分实施实例，而不是全部的实施实例

实施例1：

所述实时数据的存储方法为：

步骤103获取网络报文，截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据，并从所截取的字节流中提取源IP和宿IP，K为所截取字节流的字节数并为正整数，本实施例中K取值为64，

步骤104选取哈希值的取值范围为0到2N-1的哈希函数，对源IP和宿IP进行哈希值计算，得到当前网络报文的源IP和宿IP的哈希值n，再在比特向量Bsip、Bdip中的第n位上置1，保存并形成当前比特向量Bsip、Bdip，同时将当前截取的字节流作为一条数据记录，写入网络数据存储文件，保存并形成当前网络数据存储文件，所述哈希值计算可以选取1个哈希函数，也可以采用bloom filter算法，选取多个哈希函数，

所述实时查询方法为：

步骤203将待查源宿IP比特向量与源宿IP索引文件库中的每个源宿IP索引文件进行逐个匹配，查找出第位置上为1的源宿IP索引文件，在根据查到的源宿IP索引文件，从网络数据存储文件库中查找出相应的网络数据存储文件，进而获得字节流、网络报文；

在本实施例中，步骤102所述的网络数据存储文件是以创建时的系统时间为名称的网络数据存储文件，所述的源IP索引文件是以创建时的系统时间加上尾缀SIP为名称的源IP索引文件，宿IP索引文件是以创建时的系统时间加上尾缀DIP为名称的宿IP索引文件。

实施例2：

一种基于数据流结构的海量网络数据查找方法，包括：实时数据的存储方法和实时查询方法，其特征在于，

所述实时数据的存储方法为：

步骤103获取网络报文，截取所获取网络报文的前K个字节的字节流且所述前K个字节的字节流包括源IP、宿IP和网络数据，并从所截取的字节流中提取源IP和宿IP，K为所截取字节流的字节数并为正整数，K可为64，

步骤104选取哈希值的取值范围为0到2N-1的哈希函数，对源IP和宿IP进行哈希值计算，哈希值计算采用bloom filter算法并采用三个不同的哈希函数Hash1(IP)、Hash2(IP)及Hash3(IP)，得到三个哈希值n₁、n₂、n₃，并在比特向量Bsip、Bdip中的第n₁、n₂和n₃位上均置1，保存并形成当前比特向量Bsip、Bdip，同时将当前截取的字节流作为一条数据记录，写入网络数据存储文件，保存并形成当前网络数据存储文件，

所述实时查询方法为：

步骤202获取待查源IP或宿IP，采用步骤104所选的哈希函数，对待查源IP和宿IP进行哈希值计算，待查源IP或宿IP的哈希值计算采用所述的bloom filter算法并采用所述的三个不同的哈希函数Hash1(IP)、Hash2(IP)及Hash3(IP)，得到三个哈希值n₄、n₅、n₆，并在比特向量Bip的第n₄、n₅和位置n₆上均置1，保存并形成待查源宿IP比特向量。

步骤203将待查源宿IP比特向量与源宿IP索引文件库中的每个源宿IP索引文件进行逐个匹配，查找出第n₄、n₅和位置n₆上均为1的源宿IP索引文件，在根据查到的源宿IP索引文件，从网络数据存储文件库中查找出相应的网络数据存储文件，进而获得字节流、网络报文。

Claims

1.一种基于数据流结构的海量网络数据查找方法，包括：实时数据的存储方法和实时查询方法，其特征在于，

所述实时数据的存储方法为：

所述实时查询方法为：

2.根据权利要求1所述的基于数据流结构的海量网络数据查找方法，其特征在于，步骤102所述的网络数据存储文件是以创建时的系统时间为名称的网络数据存储文件，所述的源IP索引文件是以创建时的系统时间加上尾缀SIP为名称的源IP索引文件，宿IP索引文件是以创建时的系统时间加上尾缀DIP为名称的宿IP索引文件。

3.根据权利要求1或2所述的基于数据流结构的海量网络数据查找方法，其特征在于，步骤104中的哈希值计算采用布隆过滤器(Bloom Filter)算法并采用三个不同的哈希函数Hash1(IP)、Hash2(IP)及Hash3(IP)，得到三个哈希值n₁、n₂、n₃，并在比特向量Bsip、Bdip中的第n₁、n₂和n₃位上均置1，保存并形成当前比特向量Bsip、Bdip；步骤202中的待查源IP或宿IP的哈希值计算采用所述的布隆过滤器(Bloom Filter)算法并采用所述的三个不同的哈希函数Hash1(IP)、Hash2(IP)及Hash3(IP)，得到三个哈希值n₄、n₅、n₆，并在比特向量Bip的第n₄、n₅和位置n₆上均置1，保存并形成待查源宿IP比特向量。

4.根据权利要求3所述的基于数据流结构的海量网络数据查找方法，其特征在于，K取值为64。

5.根据权利要求4所述的基于数据流结构的海量网络数据查找方法，其特征在于，K的取值单位为字节数。