CN112217521A

CN112217521A - 一种基于gzip的大文件分布式压缩方法

Info

Publication number: CN112217521A
Application number: CN202011093139.7A
Authority: CN
Inventors: 李方翔; 金宏洲; 程亮
Original assignee: Hangzhou Tiangu Information Technology Co ltd
Current assignee: Hangzhou Tiangu Information Technology Co ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-12
Anticipated expiration: 2040-10-13
Also published as: CN112217521B

Abstract

本发明提供一种基于GZIP的大文件分布式压缩方法，步骤如下：S1将大文件按照设定长度进行切割分段；S2大文件根据顺序切割形成多个子文件，子文件必须包含前一段子文件的最末尾的一个窗口长度的内容；S3：子文件按顺序编号，分发到专职处理压缩的第一集群进行处理；S4第一集群的某台服务器处理完成一个子文件的作业，将处理完成的子文件放置到统一的存储空间，再通过另一台独立服务器处理合并；S5总Huffman编码会送到第二集群，第二集群根据总Huffman编码，将之前处理后的子文件内容，替换成Huffman编码内容；S6将S5步骤完成后的Huffman编码内容按编号顺序重新组合，进行数据合并，完成最终压缩文件的组合。

Description

一种基于GZIP的大文件分布式压缩方法

技术领域

本发明涉及一种文件压缩方法，尤其是涉及一种基于GZIP的大文件分布式压缩方法。

背景技术

GZIP技术在互联网中无处不在，对于小文件而言不存在较大问题。对于大文件，目前的压缩技术只能完全依赖CPU性能以及在多核的基础上进行计算优化。

主要缺陷在于：由于在压缩过程中使用了大量的计算资源，而对于大文件而言，计算过程将会随着CPU的性能持续不同的时间，一旦CPU性能有限，将会导致压缩过程过长，同时也会导致在压缩过程中，其他的计算将很难得到支持，接近于服务不可用。

发明内容

本发明提供了一种基于GZIP的大文件分布式压缩方法，解决了提高压缩性能，减少压缩成本的问题，其技术方案如下所述：

一种基于GZIP的大文件分布式压缩方法，包括以下步骤：

S1：将大文件按照设定的切割长度进行切割；

S2：大文件根据顺序切割形成多段子文件，除了首段子文件，其他子文件必须包含前一段子文件最末尾的一个滑动窗口长度的内容，作为重复串；

S3：所有子文件按顺序编号，并用调度程序统一调度，分发到专职处理压缩的第一集群进行处理，完成所有子文件的改进型LZ77算法与对应的Huffman编码处理；

S4：第一集群将处理完成的子文件放置到一个统一的存储空间，此时通过另一台独立服务器对处理完成的子文件根据Huffman编码处理合并，形成总的Huffman编码；

S5：总的Huffman编码会送到第二集群进行处理，第二集群会根据总的Huffman编码，将之前改进型LZ77算法处理后的子文件内容，替换成Huffman编码((p,l,c)中关于c的编码进行Huffman编码的替换；

S6：将S5步骤完成后的Huffman编码内容按步骤S3的编号顺序重新组合，进行数据合并，即完成了最终压缩文件的组合。

进一步的，步骤S2中，切割长度大于滑动窗口长度，滑动窗口长度为4KB，切割长度的上限能够根据提供切割处理的服务器性能动态调整，且不大于32Mb。

进一步的，步骤S2中，所述重复串是前一段子文件最末尾的一个滑动窗口长度的内容，其将直接作为后一段子文件进行改进型LZ77算法处理的窗口，如此子内容的编码相当于完全连续于前一段内容的后续编码过程。

进一步的，步骤S3中，所述第一集群是指服务器集合，每个服务器都统一部署了能够接收子文件并进行改进型LZ77算法与Huffman编码处理的服务；第一集群通过内部多台可无限扩展的服务器同时处理，每台服务器处理完成一个子文件的作业。

进一步的，步骤S4中，独立服务器只需要实现包含Huffman编码的子文件合并，合并是指分段统计后的汇总。

所述基于GZIP的大文件分布式压缩方法将计算分离，计算的性能成本，通常不是常数级提升，使用一个高性能的CPU来优化压缩性能，往往得不偿失，通过分布式压缩的方式，虽然增加了网路的开销，但是随着各种通信技术的提升与成熟(例如5G)，此类开销将越来越低，同时可以横向扩展压缩性能，极端情况下，甚至可以达到传输速率的压缩速率。

附图说明

图1是所述基于GZIP的大文件分布式压缩方法的流程示意图；

图2是建立Huffman树的示意图；

图3是加入节点的Huffman树的示意图；

图4是选择剩余最小的字符的示意图；

图5是完成的Huffman的树的建立示意图；

具体实施方式

本发明提供的基于GZIP的大文件分布式压缩方法，压缩方式是将大文件切割后，对子文件进行处理，进而完成压缩。其中，子文件的处理主要分为两步，首先利用改进型LZ77算法通过各子文件的滑动窗口寻找重复串得处理结果，再通过Huffman编码完成大文件最终的压缩。

其中，LZ77算法是使用历史出现过的字符串做字典，编码未出现过的字符。具体实现中，是通过文件前端设置的滑动窗口实现，所述滑动窗口在数据扫描过程中用于存储历史字符。

对于待压缩字符串“CABAABCBADEFCBA”，下表1的第一个无内容的黑框是滑动窗口(一般应用中，滑动窗口是4kb长度，为简易说明，下面例子中是8个字节)，通过额外设置一个“前向缓冲区”(下表中第二个黑框)，前向缓冲区的目的是只编码(使用时应用为压缩)该区中的内容：

表1：

编码方式如下：

用(p,l,c)的结构表示前向缓冲区中字符串的最长匹配结果，其中，

p表示最长匹配时，字典中字符开始时的位置(相对于前向缓冲区的起始位置)；

l为最长匹配字符串的长度；

c指前向缓冲区中最长匹配结束时的下一字符。

开始压缩：

移入字符C，由于滑动窗口中无内容，无法压缩编码，直接输出(0,0,C)，并向右移动1格窗口，如表2，

表2：

A、B同理，分别输出编码(0,0,A),(0,0,B)，并向右移动1格窗口，如表3，表3：

此时前向缓冲区中只有开头字母A发生匹配，输出(2,1,A)，这里的A其实是前向缓冲区中“AABC”中的第二个A，并向右移动滑动窗口，如表4，

表4：

此时前向缓冲区中匹配了字符“AB”，输出(3,2,C)，并向右移动2格窗口，如表5，

表5：

匹配C，输出(6,1,B)，并向右移动1格窗口，如表6，

表6：

匹配BA，输出(5,2,D)，并向右移动2格窗口，如表7，

表7：

此时首字符C滑出了窗口边界，不再参与匹配编码，仅由窗口中的“ABAABCBA”作为字典继续匹配与编码。重复以上步骤得到最终编码：(0,0,C)(0,0,A)(0,0,B)(2,1,A)(3,2,C)(6,1,B)(5,2,D)(0,0,E)(0,0,F)(0,0,C)(6,1,B)(6,2,null)

以上是lz77算法基于滑动窗口的处理步骤，基于此算法得到扩展结论，得到改进型LZ77算法：为了将连续的内容编码分段，本发明可以将分段后的子内容的首部，包含前一段子内容的最末尾的滑动窗口长度的内容，作为重复串，这段冗余的内容将直接作为分段后子内容进行编码的窗口(字典)，如此子内容的编码相当于完全连续于前一段内容的后续编码过程。

Huffman编码算法：

通过lz77算法对待压缩字符串完成全部编码的处理后，再使用Huffman编码对上述最终编码中出现的C,A,B等字符进行编码，Huffman编码是对数据进行建立Huffman树的过程，以进一步压缩数据。

哈夫曼树是一个完全二叉树，每一叶子节点都有自己的权重，这里的权重是字符出现的次数，那么从根出发到叶子节点的路径一定是最短的，可以达到以最小位数完成字符编码的目的。具体步骤如下：

(1)统计编码出现的个数，上述的原始编码为C,A,B,A,C,B,D,E,F,C,B，统计后为C(3),A(2),B(3),D(1),E(1),F(1)；

(2)如图2所示，寻找统计后，出现次数最少的2个字符，建立Huffman树，这里是D,E；

(3)如图3所示，加入节点F(1)，建立Huffman树；

(4)如图4所示，选择剩余最小的字符，A(2)；

(5)如图5所示，剩余的字符中，最小的是C与B，因为次数Huffman树的根节点已经达到了5，因此C与B建立新的Huffman树，此时完成了Huffman的树的建立；

(6)左子树路径编码为0，右子树编码为1，得到最终编码：

D:0000

E:0001

F:001

A:01

B:11

C:10

所述Huffman编码实际上是对字符数量的统计，那么可知，基于一个完整的数据内容关于字符数量的统计，与把这个数据内容分段统计后，再汇总统计，得到的结果必定是相同的。那么就可以对一个完整内容分段后的Huffman编码结果，再进行合并，可以得出一个针对完整内容直接进行Huffman编码完全相同的结果。

如图1所示，基于上述原理以及扩展结论，本发明提供的基于GZIP的大文件分布式压缩方法，包括以下步骤：

S1：将大文件按照设定的切割长度进行切割，切割长度的限定是大于4Kb，上限可根据实施切割处理的服务器性能动态调整，切割长度一般建议不大于32Mb；

其中，4Kb是滑动窗口长度。

S2：大文件根据顺序按固定尺寸切割后，形成多个子文件，除了包含首段的子文件，其他子文件必须包含前一段子文件的最末尾的一个滑动窗口长度的内容(见LZ77的扩展结论)；

S3：子文件按顺序编号，并用调度程序统一调度，分发到专职处理压缩的集群进行处理，这里的集群是指一个普通的服务器集合，他们都统一部署了可以接收文件并进行LZ77编码与对应的Huffman编码处理的服务；

S4：集群中有多台可无限扩展的服务器对子文件进行同时处理，此时相当于将集中计算能力分布式处理；一旦有某一台服务器处理完成一个子文件的作业，即完成该子文件的LZ77算法处理与对应的Huffman编码处理，就会将处理完成的子文件放置到一个统一的存储空间，此时会有另一台独立服务器专职处理合并，独立服务器的工作内容只需要将包含Huffman编码的子文件合并，该阶段Huffman编码的子文件合并相当于分段统计后的汇总，得到总的Huffman编码，因此计算量相比整个过程可忽略不计。

S5：计算完成后的总的Huffman编码会送到一个新集群进行处理，这里几乎不涉及计算，是大量的内存读写操作，因此这里如果采用新集群，就可以有利于新集群关于计算和IO的成本充分利用；

新集群进行处理时，这里的新集群将会根据此总的Huffman编码，将之前改进型LZ77算法处理后的子文件内容，替换成Huffman编码((p,l,c)中关于c的编码进行Huffman编码的替换。

其中，(p,l,c)是一种和huffman不同的编码方式，其中的c本质上没有编码，需要用huffman编码进行替换来完成这部分编码的压缩。

S6：将S5步骤完成后的内容按步骤S3的编号顺序重新组合，即完成了大文件的最终压缩文件的组合。

本发明通过分布式压缩的方式，可以横向扩展压缩性能，极端情况下，甚至可以达到传输速率的压缩速率。

Claims

1.一种基于GZIP的大文件分布式压缩方法，包括以下步骤：

S1：将大文件按照设定的切割长度进行切割；

2.根据权利要求1所述的基于GZIP的大文件分布式压缩方法，其特征在于：步骤S2中，切割长度大于滑动窗口长度，滑动窗口长度为4KB，切割长度的上限能够根据提供切割处理的服务器性能动态调整，且不大于32Mb。

3.根据权利要求1所述的基于GZIP的大文件分布式压缩方法，其特征在于：步骤S2中，所述重复串是前一段子文件最末尾的一个滑动窗口长度的内容，其将直接作为后一段子文件进行改进型LZ77算法处理的窗口，如此子内容的编码相当于完全连续于前一段内容的后续编码过程。

4.根据权利要求1所述的基于GZIP的大文件分布式压缩方法，其特征在于：步骤S3中，所述第一集群是指服务器集合，每个服务器都统一部署了能够接收子文件并进行改进型LZ77算法与Huffman编码处理的服务；第一集群通过内部多台可无限扩展的服务器同时处理，每台服务器处理完成一个子文件的作业。

5.根据权利要求1所述的基于GZIP的大文件分布式压缩方法，其特征在于：步骤S4中，独立服务器只需要实现包含Huffman编码的子文件合并，合并是指分段统计后的汇总。