CN104753539A

CN104753539A - 一种数据压缩方法及装置

Info

Publication number: CN104753539A
Application number: CN201310740206.3A
Authority: CN
Inventors: 陈洪岭
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2015-07-01

Abstract

本发明公开了一种数据压缩方法及装置，能够对列式数据库的数据进行合理压缩。该数据压缩方法包括：针对列式数据库中的每一列，获取连续的第一预设数量个数据；根据获取的数据中是否存在出现次数大于等于第二预设数量的指定数据，确定是否对该列数据进行压缩；其中，该第一预设数量大于等于该第二预设数量。

Description

一种数据压缩方法及装置

技术领域

本发明涉及数据库领域，尤其涉及一种列式数据库的数据压缩方法及装置。

背景技术

列式数据库是相对于传统的以记录或数据行为单位进行数据处理的数据库来说的，它以数据表中的列为单位对数据进行存储和查询等处理。随着数据库的规模越来越大，如何在数据库中使用数据压缩是很多研究者关注的热点。

目前可应用于列式数据库的数据压缩算法主要有游程编码算法(Run-length Encoding)、词典编码算法(Dictionary Encoding)、位向量编码算法(Bit-Vector Encoding)。

游程编码算法用一个三元组记录原始数据、原始数据出现的起始位置和持续长度(即行程)，以代替若干个连续出现的原始数据，三元组的存储长度少于若干个连续出现的原始数据的长度。图1即为采用游程编码算法对列式数据库进行数据压缩的示意图。

词典编码算法生成一个原始数据和替代数据的对照词典。为了起到压缩的作用，替代数据的长度小于原始数据的长度。存储时存储替代数据而不是原始数据，从而压缩了存储空间。图2即为采用词典编码算法对列式数据库进行数据压缩的示意图。

位向量编码算法为每一个不同的原始数据生成一个位向量，根据位向量(串)中不同的位置取值0或1来对应并确定不同的原始数据。

上述三种数据压缩算法均适用于数据重复度较高的列式数据库。现有技术中，在选择数据压缩算法时，由工作人员根据自身经验并参考大量数据来选择出一种算法，使用选择出的算法对整个列式数据库的数据进行压缩。然而，通过人为选择数据压缩算法，很难保证选择的合理性，甚至有些时候，会导致压缩后的数据占用的存储空间大于压缩前的数据占用的存储空间，使数据压缩失去意义。

发明内容

本发明实施例提供一种数据压缩方法及装置，用以解决现有技术中存在的列式数据库的数据压缩方案不合理的问题。

本发明实施例提供一种数据压缩方法，包括：

针对列式数据库中的每一列，获取连续的第一预设数量个数据；

根据获取的数据中是否存在出现次数大于等于第二预设数量的指定数据，确定是否对该列数据进行压缩；其中，所述第一预设数量大于等于所述第二预设数量。

本发明实施例提供一种数据压缩装置，包括：

获取单元，用于针对列式数据库中的每一列，获取连续的第一预设数量个数据；

确定单元，用于根据获取的数据中是否存在出现次数大于等于第二预设数量的指定数据，确定是否对该列数据进行压缩；其中，所述第一预设数量大于等于所述第二预设数量。

本发明的有益效果包括：

本发明实施例提供的方案中，针对列式数据库中的每一列，获取连续的第一预设数量个数据作为采样数据，根据采样数据中数据的重复度确定是否对该列数据进行压缩，相比于现有技术完全依靠于人为选择的数据压缩方案，采用本发明实施例提供的方案能够提高数据压缩的合理性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为采用游程编码算法对列式数据库进行数据压缩的示意图；

图2为采用词典编码算法对列式数据库进行数据压缩的示意图；

图3为本发明实施例提供的数据压缩方法的流程图；

图4为本发明实施例提供的数据压缩方法的详细流程图；

图5为采用本发明实施例提供的数据压缩方法对列式数据库进行数据压缩的示意图；

图6为本发明实施例提供的数据压缩装置的结构示意图。

具体实施方式

为了给出对列式数据库的数据进行合理压缩的实现方案，本发明实施例提供了一种数据压缩方法及装置，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种数据压缩方法，如图3所示，包括：

步骤301、针对列式数据库中的每一列，获取连续的第一预设数量个数据；

步骤302、根据获取的数据中是否存在出现次数大于等于第二预设数量的指定数据，确定是否对该列数据进行压缩；其中，该第一预设数量大于等于该第二预设数量。

第二预设数量具体可以设定为第一预设数量的一个百分比，例如，第二预设数量具体可以设定为第一预设数量的50%，也可以设定为第一预设数量的40%。

进一步的，在确定对该列数据进行压缩时，可以根据该列数据的数据排列、该列数据的数据长度等，来确定具体采用的数据压缩算法。

下面结合附图，用具体实施例对本发明实施例提供的数据压缩方法进行详细描述。

实施例1：

图4所示为本发明实施例提供的数据压缩方法的详细流程图，具体包括：

步骤401、针对列式数据库中的每一列，获取连续的第一预设数量个数据。

步骤402、判断获取的数据中是否存在出现次数大于等于第二预设数量的指定数据。

当获取的数据中不存在出现次数大于等于第二预设数量的指定数据时，该列数据重复性较低，不对该列数据进行压缩，结束该路程；当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，进入步骤403。

步骤403、判断指定数据中是否存在连续出现次数大于等于第二预设数量的数据。

当指定数据中存在连续出现次数大于等于第二预设数量的数据时，进入步骤404；当指定数据中不存在连续出现次数大于等于第二预设数量的数据时，进入步骤407。

步骤404、判断该连续出现的数据中是否存在长度大于等于预设长度的数据。

当该连续出现的数据中存在长度大于等于预设长度的数据时，进入步骤405；当该连续出现的数据中不存在长度大于等于预设长度的数据时，进入步骤406。

预设长度可以由用户根据实际情况进行设定。

步骤405、采用游程编码算法和/或词典编码算法对该列数据进行压缩。

该流程结束。

即当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，若指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中存在长度大于等于预设长度的数据，此时，该列数据不但重复性较高，并且存在连续重复的数据，并且该连续重复的数据长度较长，既可以采用游程编码算法对该列数据进行压缩，也可以采用词典编码算法对该列数据进行压缩，较佳的，可以同时采用游程编码算法和词典编码算法对该列数据进行压缩。

步骤406、采用游程编码算法对该列数据进行压缩。

该流程结束。

即当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，若指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中不存在长度大于等于预设长度的数据，此时，该列数据不但重复性较高，并且存在连续重复的数据，但该连续重复的数据长度较短，采用游程编码算法对该列数据进行压缩较为合理。

步骤407、判断指定数据中是否存在长度大于等于预设长度的数据。

当指定数据中存在长度大于等于预设长度的数据时，进入步骤408；当指定数据中不存在长度大于等于预设长度的数据时，进入步骤409。

步骤408、采用词典编码算法对该列数据进行压缩。

该流程结束。

即当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，若指定数据中不存在连续出现次数大于等于第二预设数量的数据，且指定数据中存在长度大于等于预设长度的数据，此时，该列数据重复性较高，并且重复的数据长度较长，但不存在连续重复的数据，采用词典编码算法对该列数据进行压缩较为合理。

步骤409、确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比和/或数据平均查询时间。

即当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，若指定数据中不存在连续出现次数大于等于第二预设数量的数据，且指定数据中不存在长度大于等于预设长度的数据，此时，可以仅确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比，也可以仅确定采用各预设数据压缩算法对获取的数据进行压缩所对应的数据平均查询时间，也可以同时确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比和数据平均查询时间。具体可以由用户根据需求设定需要确定的参数。

例如当用户仅对数据压缩后的数据的大小有所要求，但对数据查询时间没有要求时，本步骤409中，便仅需要确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比，不需要确定数据平均查询时间；当用户既对数据压缩后的数据的大小有所要求，又对数据查询时间有所要求时，本步骤409中，便既需要确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比，又需要确定数据平均查询时间。

采用预设数据压缩算法对获取的数据进行压缩所对应的压缩比，即为采用该预设数据压缩算法对获取的数据进行压缩后的数据的大小和压缩前的获取的数据的大小的比值。

采用预设数据压缩算法对获取的数据进行压缩所对应的数据平均查询时间，具体可以采用如下方式确定：

针对该预设数据压缩算法，在获取的数据中选择第三预设数量个数据作为查询关键字；其中，第一预设数量大于等于该第三预设数量；在采用该预设算法对获取的数据进行压缩后数据中，分别基于各查询关键字进行查询，确定完成查询的查询时间；确定各查询关键字对应的查询时间的平均值为该预设算法对获取的数据进行压缩所对应的数据平均查询时间。

第三预设数量具体可以设定为第一预设数量的一个百分比，例如，第二预设数量具体可以设定为第一预设数量的10%。

进一步的，上述预设数据压缩算法可以由用户进行设定。在本发明实施例中，预设数据压缩算法包括游程编码算法、词典编码算法和位向量编码算法三种。在本发明的其它实施例中，预设数据压缩算法还可以包括更多的数据压缩算法，或者仅包括游程编码算法、词典编码算法和位向量编码算法三种中的任意两种数据压缩算法，本发明对此不做限定。

步骤410、根据预设规则，从各预设数据压缩算法中选择出指定数据压缩算法对该列数据进行压缩；其中，该预设规则基于压缩比和/或数据平均查询时间设定。

该预设规则可以有多种设定方式，例如：

方式一：当用户期望压缩后的数据越小越好时，可以将预设规则设定为选择压缩比最小的预设数据压缩算法；

方式二：当用户期望压缩后的数据数据查询速度越快越好时，可以将预设规则设定为选择数据平均查询时间最短的预设数据压缩算法；

方式三：当用户期望综合考虑压缩后的数据的大小以及数据查询速度时，可以将规则设定为选择压缩效率最大的预设数据压缩算法；其中，压缩效率等于压缩比和数据平均查询时间的比值。

上述三种预设规则的设定方式仅为示例，并不用于限定本发明。

可见，采用本发明实施例提供的数据压缩方法，根据列式数据库中每一列数据的数据重复度来确定对该列数据是否进行压缩，避免数据压缩后的大小大于数据压缩前的大小；在确定对该列数据进行压缩后，进一步根据该列数据的数据排列、该列数据的数据长度，来确定具体采用的数据压缩算法，能够保证对该列数据进行压缩所选择的数据压缩算法的合理性。

实施例2：

图5所示为采用本发明实施例提供的数据压缩方法对列式数据库进行数据压缩的示意图。

在本发明实施例2中，针对列式数据库中的每一列，获取连续的7个数据作为采样数据，即第一预设数量为7，设定第二预设数量为4，设定预设长度为5。

压缩前数据中，列式数据库第一列c1中仅存在一个出现次数大于等于第二预设数量4的指定数据，即数据Q1，数据Q1为连续出现次数大于等于第二预设数量4的数据，且数据Q1长度小于预设长度5，因此，采用游程编码算法对第一列c1的数据进行压缩。

列式数据库第二列c2中仅存在一个出现次数大于等于第二预设数量4的指定数据，即数据10000，数据10000为连续出现次数大于等于第二预设数量4的数据，且数据10000长度大于等于预设长度5，因此，同时采用游程编码算法和词典编码算法对第二列c2的数据进行压缩。

列式数据库第三列c3中不存在出现次数大于等于第二预设数量4的指定数据，因此，对第三列c3数据不进行压缩。

显然，相比于现有数据，采用本发明实施例提供的数据压缩方法更为合理。

基于同一发明构思，根据本发明上述实施例提供的数据压缩方法，相应地，本发明实施例还提供一种数据压缩装置，其结构示意图如图6所示，具体包括：

获取单元601，用于针对列式数据库中的每一列，获取连续的第一预设数量个数据；

确定单元602，用于根据获取的数据中是否存在出现次数大于等于第二预设数量的指定数据，确定是否对该列数据进行压缩；其中，该第一预设数量大于等于该第二预设数量。

进一步的，确定单元602，具体用于当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，对该列数据进行压缩；当获取的数据中不存在出现次数大于等于第二预设数量的指定数据时，不对该列数据进行压缩。

进一步的，确定单元602，具体用于若该指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中存在长度大于等于预设长度的数据，则采用游程编码算法和/或词典编码算法对该列数据进行压缩；若该指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中不存在长度大于等于预设长度的数据，则采用游程编码算法对该列数据进行压缩；若该指定数据中不存在连续出现次数大于等于第二预设数量的数据，且该指定数据中存在长度大于等于预设长度的数据，则采用词典编码算法对该列数据进行压缩。

进一步的，确定单元602，还具体用于若该指定数据中不存在连续出现次数大于等于第二预设数量的数据，且该指定数据中不存在长度大于等于预设长度的数据，则确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比和/或数据平均查询时间；根据预设规则，从各预设数据压缩算法中选择出指定数据压缩算法对该列数据进行压缩；其中，该预设规则基于压缩比和/或数据平均查询时间设定。

进一步的，该预设数据压缩算法包括游程编码算法、词典编码算法和位向量编码算法。

上述各单元的功能可对应于图3或图4所示流程中的相应处理步骤，在此不再赘述。

综上所述，采用本发明实施例提供的方案，能够对列式数据库的数据进行合理压缩。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据压缩方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，根据获取的数据中是否存在出现次数大于等于第二预设数量的指定数据，确定是否对该列数据进行压缩，具体包括：

当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，对该列数据进行压缩；

当获取的数据中不存在出现次数大于等于第二预设数量的指定数据时，不对该列数据进行压缩。

3.如权利要求2所述的方法，其特征在于，对该列数据进行压缩，具体包括：

若所述指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中存在长度大于等于预设长度的数据，则采用游程编码算法和/或词典编码算法对该列数据进行压缩；

若所述指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中不存在长度大于等于预设长度的数据，则采用游程编码算法对该列数据进行压缩；

若所述指定数据中不存在连续出现次数大于等于第二预设数量的数据，且所述指定数据中存在长度大于等于预设长度的数据，则采用词典编码算法对该列数据进行压缩。

4.如权利要求3所述的方法，其特征在于，对该列数据进行压缩，还包括：

若所述指定数据中不存在连续出现次数大于等于第二预设数量的数据，且所述指定数据中不存在长度大于等于预设长度的数据，则确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比和/或数据平均查询时间；

根据预设规则，从各预设数据压缩算法中选择出指定数据压缩算法对该列数据进行压缩；其中，所述预设规则基于压缩比和/或数据平均查询时间设定。

5.如权利要求4所述的方法，其特征在于，所述预设数据压缩算法包括游程编码算法、词典编码算法和位向量编码算法。

6.一种数据压缩装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述确定单元，具体用于当获取的数据中存在出现次数大于等于第二预设数量的指定数据时，对该列数据进行压缩；当获取的数据中不存在出现次数大于等于第二预设数量的指定数据时，不对该列数据进行压缩。

8.如权利要求7所述的装置，其特征在于，所述确定单元，具体用于若所述指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中存在长度大于等于预设长度的数据，则采用游程编码算法和/或词典编码算法对该列数据进行压缩；若所述指定数据中存在连续出现次数大于等于第二预设数量的数据，且该连续出现的数据中不存在长度大于等于预设长度的数据，则采用游程编码算法对该列数据进行压缩；若所述指定数据中不存在连续出现次数大于等于第二预设数量的数据，且所述指定数据中存在长度大于等于预设长度的数据，则采用词典编码算法对该列数据进行压缩。

9.如权利要求8所述的装置，其特征在于，所述确定单元，还具体用于若所述指定数据中不存在连续出现次数大于等于第二预设数量的数据，且所述指定数据中不存在长度大于等于预设长度的数据，则确定采用各预设数据压缩算法对获取的数据进行压缩所对应的压缩比和/或数据平均查询时间；根据预设规则，从各预设数据压缩算法中选择出指定数据压缩算法对该列数据进行压缩；其中，所述预设规则基于压缩比和/或数据平均查询时间设定。

10.如权利要求9所述的装置，其特征在于，所述预设数据压缩算法包括游程编码算法、词典编码算法和位向量编码算法。