CN102609491A

CN102609491A - 一种基于列存储的区级数据压缩方法

Info

Publication number: CN102609491A
Application number: CN2012100199459A
Authority: CN
Inventors: 乐嘉锦; 王梅; 夏小玲
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2012-01-20
Filing date: 2012-01-20
Publication date: 2012-07-25

Abstract

本发明涉及一种基于列存储的数据压缩方法，其特征在于包括以下步骤：步骤1、将按列存储的数据进一步划分为多个区；步骤2、为区中的数据定义一组统计信息；步骤3、利用步骤2中的统计信息，为每一个区按顺序定义一组统计量，进行该区数据分布特点的量化估计；步骤4、利用学习得到的区的统计量计算相邻两区之间的相似因子；步骤5、对于一列中的第一个区，依次计算各个统计量的值，采用逐步选择的方法，根据统计值进行压缩方法选择；步骤6、对于剩余第i个区，利用该区的统计值计算相邻两区之间的相似因子；若相似性较高，则直接沿用上一区的压缩策略，否则按照步骤5中压缩方法选择方式，重新选择压缩方法；步骤7、对当前区按获得的压缩方法进行压缩。本发明提供了一种基于列存储的压缩方法，按区进行压缩，并设计了高效的压缩策略选择方法，能够有效的支持面向列存储的海量数据管理。

Description

一种基于列存储的区级数据压缩方法

技术领域

本发明涉及一种基于列存储的区级压缩方法。

背景技术

目前，数据仓库等分析型应用中包含的数据量急剧增加，为了提高读优化(read-optimized)系统的性能，人们开始考虑一种与传统行存储不同的存储方式-----列存储。列存储技术是将数据表以列为单位进行存储，数据表记录中的同一属性值被存储在一起。在进行查询的时候，只需要将需要的列读入内存，减少了读入的数据量，使得系统的查询效率得到提高。然而，数据仓库需要处理的数据量是非常庞大的，这造成查询时大量的I/O。由于CPU处理与磁盘访问发展的不平衡，使得I/O成为了查询的瓶颈。因此，减少I/O的次数能显著的提高查询的效率。而数据压缩则能在一定程度上减少I/O的次数。列存储中，数据具有相同的数据类型，相邻数据之间具有较高的相似性，使得列存储系统和传统的行存储系统相比具有更好的压缩效率。因此，基于列存储的数据压缩成为了一个研究的热点。

研究表明，不同压缩方法对同种数据类型的压缩效果是不同的，同样相同的压缩方法对不同类型数据的压缩效果也是不同的。因此，对不同的数据类型采用不同的压缩方法十分必要。现存的基于列存储的压缩技术往往是建立在整个列上面的，即这些方法将一个列的数据采用同一种压缩方式进行压缩，忽略了局部数据在分布上存在着差异性。由此看来在较小的粒度上面进行压缩可以提高压缩率。然而，为每个区进行学习时间复杂度高，并不可行。因此，如何设计有效的压缩方法成为一项迫切需要解决的任务。

发明内容

本发明的目的是提供一种基于列存储的压缩方法，克服传统方法的局限性，提高压缩率，减少压缩的复杂度。

为了达到上述目的，本发明的技术方案是提供了一种基于列存储的区级数据压缩方法，其特征在于，步骤为：

步骤1、对于按列列存储的数据，任意一个列A_i中的数据在逻辑上对应一个数据段S_i，S_i∈S，S为所有数据段的集合，将每个数据段均匀分为若干个区，区是一系列连续块的集合；

步骤2、定义一组统计信息，记为集合T_i＝{t，o，r，s，a，d，n，c，l}，其中t表示第i个区的数据类型，o表示i个区是否排序，r表示第i个区中item的数目，s表示区中相同值的数目，a表示区中相同值的总的item条数，d表示区中不同值的数，n表示区中空值的数目，c表示区中相同值连续的平均数目，l表示区中item的平均长度；

步骤3、在步骤2的基础上按顺序定义一组统计量，第i个区的该组统计量记为

各统计量分别描述第i区中数据分布的不同特点，依次对应于：区的数据类型，为枚举类型，包括整型、浮点型、字符型、布尔型、变长字符等，区中数据是否排序，区中空值记录所占的百分比，区中相同值所占的百分比，区中相同值连续的平均数目，区中不同值的数目，区中连续块的平均长度；

步骤4、利用区的统计量估计相邻两区数据分布的相似性，定义了第i区与第i+1区之间统计量的相似因子

步骤5、对于一列中的第一个区，利用统计量进行压缩方法选择；

步骤6、对于剩余的第i个区，利用步骤4获得其与前一区的相似因子，若相似性较高，则直接沿用上一区的压缩策略，否则利用步骤3中当前区统计值，重新选择压缩方法；

步骤7、对该区按获得的压缩方法进行压缩。

优选地，所述步骤5的特点为采用逐步选择的方式，按顺序依次计算q_i中各统计量的值，并根据统计值逐步进行压缩方法选择，将选择过程中最后使用到的统计量下标保存在变量j中。

优选地，所述步骤6的特点为无需为每个区进行所有统计量的学习，利用同一列数据的分布相似性进行压缩方法推荐，减少压缩复杂度，具体为：

6.1、根据上一区的j值，按顺序依次计算当前区的统计量

及对应的相似因子；若过程中存在某相似因子小于指定阈值，令当前区的推荐压缩方法＝上一区的压缩方法；

6.2、否则，获取当前区的其它统计信息，重复步骤5中选择压缩方法的过程，获取当前区的压缩方法。

本发明的优点是：提供了一种基于列存储的压缩方法，按区进行压缩，并设计了高效的压缩策略选择方法，能够有效的支持面向列存储的海量数据管理。

具体实施方式

为使本发明更明显易懂，兹以一优选实施例详细说明如下。

本发明提供了一种基于列存储的区级数据压缩方法，其步骤为：

步骤1、对于按列列存储的数据，任意一个列Ai中的数据在逻辑上对应一个数据段S_i，S_i∈S，S为所有数据段的集合，将每个数据段均匀分为若干个区，区是一系列连续块的集合，块中依次存放该列的数据记录(以下记为item)；

步骤2、定义一组统计信息，第i个区的统计信息记为集合T_i＝{t，o，r，s，a，d，n，c，l}，其中t表示第i个区的数据类型，o表示i个区是否排序，r表示第i个区中item的数目，s表示区中相同值的数目，a表示区中相同值的总的item条数，d表示区中不同值的数，n表示区中空值的数目，c表示区中相同值连续的平均数目，l表示区中item的平均长度；

步骤3、在步骤2的基础上按顺序定义一组统计量，第i个区的该组统计量记为q_i中各统计量的值分别描述第i区中数据分布的不同特点，依次对应于：区的数据类型，包括整型、浮点型、字符型、布尔型、变长字符等，区中数据是否排序，区中空值记录所占的百分比，区中相同值所占的百分比，区中相同值连续的平均数目，区中不同值的数目，区中连续块的平均长度。其中统计量的计算方式如下：

q_{i}^{1} = t;

q_{i}^{2} = o;

q_{i}^{3} = a * 100 / r;

q_{i}^{4} = n * 100 / r;

q_{i}^{5} = c;

q_{i}^{6} = d;

q_{i}^{7} = 1;

步骤5、对于一列中的第一个区，利用步骤2和3，按顺序依次计算该区的各统计值，在现有的压缩方法中选择一个压缩方法，可供选择的压缩方法包括字典编码、游程编码、位图编码、空值编码、整数编码、LZ编码。由于使用LZ编码压缩的数据在查询过程中需全部解压缩，时间复杂度较高，上述过程将其放在压缩策略选择的最后一步。将选择过程中最后使用到的统计值下标保存在变量j中。选择压缩方法的规则如下：

1)初始化推荐压缩策略(以下简称为mtemp)＝不压缩；

2)计算

若第i个区中的数据是整数类型，则mtemp＝整数压缩编码，令j＝1；

3)判断第i个区中的数据是否是布尔类型，若是，进一步计算

若数据有序，则令mtemp＝游程编码，否则无序，则为位图编码，令j＝2；

4)若第i个区中的数据不是布尔类型，则计算

判断是否成立？若成立，则mtemp＝空值编码，j＝3；

5)若不成立，则计算

判断

是否成立？若不成立，则mtemp＝字典编码，令j＝4。

6)若成立，计算

若

则mtemp＝游程编码，j＝5；否则，若

则mtemp＝位图编码，令j＝6；

7)计算

若则mtemp＝LZ编码，令h＝7。

其中，σ₁，σ₂，σ₃，σ₄，σ₅是用来估计压缩算法的阈值，其具体取值根据数据特点经验给出。

步骤6、对于剩余的区采取基于区的压缩模式。无需对每个区进行压缩方法学习和选择，利用局部连续区之间的数据分布一般情况下具有一致性的特点，进行压缩策略推荐，其步骤为：首先利用步骤4中得到的相似因子，若相似性较高，则直接沿用上一区的压缩策略，否则利用步骤3中当前区的统计量，进行压缩方法的修正，其具体过程如下：

1)、根据上一区的j值，按顺序依次计算当前区的统计量

2)、否则，获取当前区的其它统计信息，重复步骤5中选择压缩方法的过程，获取当前区的压缩方法步骤

7、对当前区按获得的压缩方法进行压缩。

Claims

1.一种基于列存储的区级数据压缩方法，其特征在于，步骤为：

步骤1、对于按列列存储的数据，任意一个列Ai中的数据在逻辑上对应一个数据段S_i，S_i∈S，S为所有数据段的集合，将每个数据段均匀分为若干个区，区是一系列连续块的集合；

步骤2、定义一组统计信息，记为集合T_i＝{t，o，s，a，d，n，c，l}，其中t表示第i个区的数据类型，o表示i个区是否排序，r表示第i个区中item的数目，s表示区中相同值的数目，a表示区中相同值的总的item条数，d表示区中不同值的数，n表示区中空值的数目，c表示区中相同值连续的平均数目，l表示区中item的平均长度；

步骤3、在步骤2的基础上按顺序定义一组统计量，第i个区的该组统计量记为各统计量分别描述第i区中数据分布的不同特点，依次对应于：区的数据类型，为枚举类型，包括整型、浮点型、字符型、布尔型、变长字符等，区中数据是否排序，区中空值记录所占的百分比，区中相同值所占的百分比，区中相同值连续的平均数目，区中不同值的数目，区中连续块的平均长度；

步骤7、对当前区按获得的压缩方法进行压缩。

2.如权利要求1所述的一种基于列存储的区级数据压缩方法，其特征在于，所述步骤5的特点为采用逐步选择的方式，按顺序依次计算q_i中各统计量的值，并根据统计值逐步进行压缩方法选择，将选择过程中最后使用到的统计量下标保存在变量j中。

3.如权利要求1所述的一种基于列存储的区级数据压缩方法，其特征在于，所述步骤6的特点为无需为每个区进行所有统计量的学习，利用同一列数据的分布相似性进行压缩方法推荐，减少压缩复杂度，具体为：

6.1、根据上一区的j值，按顺序依次计算当前区的统计量