CN111680035A

CN111680035A - 一种针对网络流数据及其位图索引压缩编码及解码方法

Info

Publication number: CN111680035A
Application number: CN202010377471.XA
Authority: CN
Inventors: 马戈; 顾维玺; 黄启洋; 王青春
Original assignee: China Industrial Internet Research Institute
Current assignee: China Industrial Internet Research Institute
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-18
Anticipated expiration: 2040-05-07
Also published as: CN111680035B

Abstract

本发明公开一种针对网络流数据及其位图索引压缩编码方法，过程如下：步骤1：将原始流数据序列按照字段属性拆分，以列式数据库进行存储；步骤2：将每一列数据序列以4K行为单位进行分块得到原始数据块；步骤3：将每一个原始数据块内的数据按行进行排序，得到重排数据块，并生成一个重排改进位图表；步骤4：对重排数据块构建一个改进位图索引表；步骤5：对重排数据块、重排改进位图表、改进位图索引表分别进行游程编码压缩，记录0/1类型和长度，生成连续的8或16比特的字，形成压缩数据块、重排改进位图压缩表、改进位图索引压缩表。本发明方法大大提高了压缩率，在降低编码复杂度的同时，大大减少了编码长度。

Description

一种针对网络流数据及其位图索引压缩编码及解码方法

技术领域

本发明涉及一种针对网络流数据及其位图索引压缩编码及解码方法，属于计算机网络、信息检索、大数据分析领域。

背景技术

互联网技术和移动设备的高速发展把我们带进了移动互联网的时代，使得用户可以从任何地方，任何时间访问网络上的任何内容，产生了更为丰富流量数据。据思科公司预测，任何一家大型互联网公司在日常运营中生成和累计的用户流量数据是相当庞大的，以至于不能用过去十年的数据量级来衡量。为此，思科曾预言，网络的数据流量在2017到2022 年之间将以3倍的速率增长，并于2022年达到4.8Zetta字节。而根据中国联通的数据，联通4G网络移动用户流量的年复合增长率超过135％，目前已经达到17PB/天。

网络的自由性造成了网络攻击的普遍性。在网络链路方面，网络中某个节点的错误配置可能会给整个网络带来灾难性的后果；网络攻击会造成链路的阻塞，服务器的崩溃，甚至是局部网络通信的中断。在网络内容方面，人们可以在各个地方上传不良信息，进行非法活动，给其他使用者带来不好的思想、经济等方面的影响和损失。由于这些行为常常不能被及时发现，因此需要对网络流量进行记录，以供后期进行研究、分析和举证。

流量记录的一项核心技术是高速网包索引，流量记录的目的是为以后检索与查找，从而识别可能的网络事件。以10Gbps链路为例，如果按每个网包64字节计算，每秒将达1400万网包，产生的索引量巨大，检索查找速度慢。

网包的索引信息具有以下一些特点：海量、数据结构固定、只增不改、重复性较高。海量是指网包索引信息条数众多，一天可以产生几百万条甚至上亿条索引信息。数据结构固定是指每一条网包的索引信息都有固定的格式和固定的长短。只增不改是指网包的索引信息只会不断增加，一旦产生，以后不可能也不需要在进行修改。重复性高指就每一个域来看，一个域中的千万条数据出现大量的重复。这些特点导致使用关系型数据库处理这样的数据效率并不高，因为传统的关系型数据库是面向更改的，储存在数据库中的数据需要经常的改动。

位图索引数据库专门为科学数据而设计，这些数据通常是由科学仪器或是科学仿真产生的，特点是数据量极其大，而且不再更改。位图索引数据库解决了如何在海量的科学数据中快速的找出那些需要的少量的数据的问题，而传统关系型数据库并不适合这项任务。

位图索引数据库中用到的技术主要是位图索引、位图压缩和归类。在位图索引数据库中，数据是按列存储的，一个列的数据存储在一起，并做位图索引。一个简单的位图索引的例子如下表1所示。

表1位图索引表

其中行号(RowID)表示对应值在表中第几行，生成的索引是一个矩阵，矩阵中每一行只有一个1，其余都是0，标1的位置对应于该行数据在这一列上的取值。这样生成的位图索引有一个比较大的缺点，索引的列数随着取值的多样话而线性增长。为了控制索引的大小和查询时间，需要对索引压缩和归类。压缩是减小索引中大量0或1带来的空间消耗，归类是对位图索引的一些列的合并。比如值1.01和1.02可以归类成1。通过归类可以减少位图索引的列数，增加查询和储存的效率。

目前主要的位图索引压缩方法为WAH，Concise和COMPAX。

(一)WAH索引压缩方法

WAH是Fastbit比特位压缩数据库的默认方法。将原始码流分成以31bits(对于WAH64 就是63bits)为单位的group。group有两种类型：(1)Literal，即这31bits中有0有1；(2)Fill，即这31bits全为0或者全为1。

Literal类型的Group:类型标志位为0，余下的31bit即为原来的literal group；Fill类型的Group:分为1-Fill和0-Fill，此时32bits中类型标志位为1，第二位作为Fill类型的标志(0-Fill即为0，1-Fill即为1)，余下为30bits作为counter，表示连续出现多少个0-Fill(或者1-Fill)的group的。

(二)Concise索引压缩方法

同样是将原始码流分成以31bits为单位的group。Group也和上文一样分成Literal和 Fill两种类型，但是压缩方式有变化。

第一步：依照WAH方法对于Fill-group和Literal-Group添加标志位与编码，形成一组以32-bits word为单位的编码(标志位为0称之为literal-word，标志位为1的称之为fill-word，下同)。此处的区别是对于fill-word只有低25bits作为counter(WAH方法是低30bits都是counter，PLWAH要留出中间的5bits作为position list，下面会用到。)

第二步：

检查每个fill-word后的word。如果下一个word是literal-word且是”nearlyidentical” 的(nearly identical定义是literal-word和上一个fill-word的差异小于等于s位，s此处暂时为1，后面会进一步讨论)，则在fill-word的position list上填入下一个word(此时为 literal-word)的差异位位置(此处是31位，因此差异位标号为1-31，第一步中留出5bits 目的在此)，同时删去下一个word(因为信息已经保存在此fill-word中，没有必要继续留着)若fill-word后的word是如下三种情况：(1)异类型的fill-word(2)非nearly-identical 的literal-word(3)同类型的fill-word(这种情况产生的原因是连续的fill-group超出了1 个fill-word的counter的计数范围)，则position list不变。

(三)COMPAX索引压缩方法

COMPAX方法如图1所示，这里以32位为例。

COMPAX的标志位相对较多。这里Literal和Fill的定义同WAH和Concise。

同样是每31bits分成一个group，并且将这些group按照以下特征分组：

1.Literal-Fill-Literal(LFL),即1个literal group+N个Fill group+1个literal group，且这两个literal group的非0位(或者非1位)在同一个byte上(一个group在前面补一位 0即构成4个完整的byte，要求非零位在同一个完整的byte上)。

2.Fill-Literal-Fill(FLF),即N个Fill-group+1个literal group+N个fill-group(对literal group的要求同上)。

3.Fill(F)，分为0-Fill和1-Fill,无法按照1和2进行分组的fill-group即归入此类型。

4.Literal(L)，无法按照1和2进行分组的literal group即归入此类型。

对于上述四种类型，有四种不同的word。

1.L-word第一位为标志位1，余下31位即为原来的literal group。

2.F-word第一位为标志位0，对于0-Fill第二、三位为00，对于1-Fill第二、三位为11。余下29bits为counter，即记录有多少个连续这样的group。

3.LFL-word第一位为标志位0，第二、三位为01，第四、五位(2bits)标示第一个literal group的非零byte位置(共4个byte，标号为00-11),第六、七位(2bits)标示第二个literal group的非零byte位置(共4个byte,标号为0-3)第八位标识F类型，0为0-Fill,1为1-Fill；第九-十六位(8bits，1byte)为第一个literal group中非零byte，第十七-二十四位(8bits,1byte)为Fill的counter，标示有多少个连续的fill group(即多少个连续31bits 的0/1),第二十五-三十二位(8bits，1byte)为第二个literal group中的非零byte。

4.FLF-word第一位为标志位0，第二、三位为10，第四位为第一个fill的类型(0-Fill 为0，1-Fill为1，下同),第五位为第二个fill的类型，第六、七位为L的非零byte位置(标号为00-11),第八位空闲。第九-十六位(8bits)为第一个fill的counter，第十七-二十四位(8bits,1byte)为literal group的非零byte，第二十五-三十二位为第二个fill的counter。

在已知COMPAX的情况读码方式如下：

1.第一位如果为1，为L-word；

2.第一位如果为0：

2.1第二、三位为00：0-fill word

2.2第二、三位为11：1-fill word

2.3第二、三位为01：LFL

2.4第二、三位为10：FLF。

网络流归档数据中，通常共享一个公共前缀(如，IP地址)，位于一个特定范围内(如，端口号)，且在一个相对较短的时间窗口内具有较高的重复级别。但现有方法对于这种网络流数据位图索引并不能很好适用，而且它们并不能同步压缩原始网络流数据。因此，本发明提供了一种针对网络流数据及其位图索引压缩编码及解码方法。

发明内容

本发明的目的在于提供一种针对网络流数据及其位图索引压缩编码及解码方法，以着重对于重排后的网络流数据、位图索引进行编码，能够有效提高压缩率，并不降低索引查询效率。

一种针对网络流数据及其位图索引压缩编码方法，其具体编码过程如下：

步骤1：将原始流数据序列按照字段属性拆分，以列式数据库进行存储；

步骤2：将每一列数据序列以4K行为单位进行分块得到原始数据块；

步骤3：将步骤2得到的每一个原始数据块内的数据按行进行排序，得到重排数据块，并生成一个重排改进位图表；

步骤4：对重排数据块构建一个改进位图索引表；

步骤5：对重排数据块、重排改进位图表、改进位图索引表分别进行游程编码压缩，记录0/1类型和长度，生成连续的8或16比特的字，形成压缩数据块、重排改进位图压缩表、改进位图索引压缩表。

一种针对网络流数据的位图索引压缩解码方法，其具体解码过程如下：

根据编码时生成的改进位图索引压缩表查找含1的字，并根据重排改进位图压缩表中的偏移量来确定字所在原始位置，最后通过解码压缩数据块序列来得到所需信息。

一种改进位图索引表的编码结构，编码字长度为8位或16位；第1位为类型标志位，为0代表为0填充字(0-fill-word)，为1则是1填充字(1-fill word)；第2位表示该0/1 填充字的长度，为0代表长度为1字节，为1代表长度为2字节；对于长度为1字节的 0/1填充字，第3位到第8位为所代表的连续0/1比特的位计数器；对于长度为2字节的 0/1填充字，第3位到第16位为所代表的连续0/1比特的位计数器。

一种重排改进位图表的编码结构，编码字长度为8位；第1位为类型标志位，为0代表为0填充字(0-fill-word)，为1则是非填充字(dirty-word)；对于0填充字，第2位到第8位为所代表的连续0比特的序列块计数器(连续7个比特组成一个序列块)；对于非填充字，第2位到第8位为连续7比特的非连续0序列块。

一种重排数据块的编码结构，编码字长度为16位；第1位到第8位表示字段属性值；第9位到第16位表示连续相同属性值的数量。

本发明一种针对网络流数据的位图索引压缩编码及解码方法，其优点在于：

(1)引入了对流数据的分块、排序机制。传统位图压缩方法中，并没有考虑流数据之间的关联，而本方法通过对流数据进行排序，大大提高了其压缩率。

(2)对重排后的数据块、重排改进位图表、改进位图索引表均采用简洁的游程压缩方法。传统位图压缩方法中对于0和1比特出现的位置会有要求，如果不合适的话，虽然是连续的0和1比特，中间也会有非0/1填充字类型的存在；而本方法则只关注的是连续出现的0/1比特数量，在降低编码复杂度的同时，大大减少了编码长度。

附图说明

图1所示为现有位图索引压缩方法。

图2所示为实施例1原始网络流数据按列存储示意图。

图3所示为实施例1列式数据按4K行进行分块示意图。

图4所示为实施例1重排块和重排改进位图表示意图。

图5所示为实施例1改进位图索引表示意图。

图6所示为实施例2改进位图索引表编码。

图7所示为实施例3改进重排位图表编码。

图8所示为实施例4重排数据块编码。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

实施例1

本发明提供一种针对网络流数据及其位图索引压缩编码方法，具体步骤如下：

第一步：将原始流数据序列按照字段属性拆分，以列式数据库进行存储；其中将源目的地址序列按照字段属性拆分，按列储存，得到如图2所示的数据库；

第二步：将每一列数据序列以4K行为单位进行分块；得到如图3所示的分块结果即原始数据块；

第三步：将所述原始数据块中每一个数据块内的数据按行进行排序，生成如图4所示的排序后的重排数据块，其中，所述的排序，可以按首字母、按大小、哈希排序等；并进一步得到关联所述原始数据块和重排数据块映射关系的重排改进位图表；

第四步：对重排数据块构建一个改进位图索引表，如图5所示；

改进位图索引表(例如表2)是将一个m×n的普通位图索引表(表1所示)，转化为 2个m×n₁和m×n₂两个子位图索引表，其中

(n₁-1)×n₂＜n≤n₁×n₂

如果普通位图表的m₁行数据的位图位置为

对应改进位图索引表的位图位置分别为

和

满足

表2改进位图索引表

第五步：对重排数据块、重排改进位图表、改进位图索引表分别进行游程编码压缩，记录0/1类型和长度，生成连续的8或16比特的字，形成压缩数据块、重排位图压缩表、位图索引压缩表。

实施例2

本发明进一步提供一种改进位图索引表的编码结构(如图6)；

编码字长度为8位或16位。第1位为类型标志位，为0代表为0填充字(0-fill-word)，为1则是1填充字(1-fill word)；第2位表示该0/1填充字的长度，为0代表长度为1字节，为1代表长度为2字节。对于长度为1字节的0/1填充字，第3位到第8位为所代表的连续0/1比特的位计数器；对于长度为2字节的0/1填充字，第3位到第16位为所代表的连续0/1比特的位计数器。

实施例3

本发明进一步提供一种重排改进位图表的编码结构(如图7)；

编码字长度为8位。第1位为类型标志位，为0代表为0填充字(0-fill-word)，为1则是非填充字(dirty-word)。对于0填充字，第2位到第8位为所代表的连续0比特的序列块计数器(连续7个比特组成一个序列块)；对于非填充字，第2位到第8位为连续7 比特的非连续0序列块。

实施例4

本发明进一步提供一种重排数据块的编码结构(如图8)；

编码字长度为16位。第1位到第8位表示字段属性值；第9位到第16位表示连续相同属性值的数量。

实施例5

本发明进一步一种针对网络流数据的位图索引压缩解码方法，其具体解码过程如下：

Claims

1.一种针对网络流数据及其位图索引压缩编码方法，其特征在于：其具体编码过程如下：

步骤4：对重排数据块构建一个改进位图索引表；

2.一种改进位图索引表的编码结构，其特征在于：编码字长度为8位或16位；第1位为类型标志位，为0代表为0填充字，为1则是1填充字；第2位表示该0/1填充字的长度，为0代表长度为1字节，为1代表长度为2字节；对于长度为1字节的0/1填充字，第3位到第8位为所代表的连续0/1比特的位计数器；对于长度为2字节的0/1填充字，第3位到第16位为所代表的连续0/1比特的位计数器。

3.一种重排改进位图表的编码结构，其特征在于：编码字长度为8位；第1位为类型标志位，为0代表为0填充字，为1则是非填充字；对于0填充字，第2位到第8位为所代表的连续0比特的序列块计数器即连续7个比特组成一个序列块；对于非填充字，第2位到第8位为连续7比特的非连续0序列块。

4.一种重排数据块的编码结构，其特征在于：编码字长度为16位；第1位到第8位表示字段属性值；第9位到第16位表示连续相同属性值的数量。

5.一种针对网络流数据的位图索引压缩解码方法，其特征在于：其具体解码过程如下：