CN102122960B

CN102122960B - 一种针对二进制数据的多字符组合无损数据压缩方法

Info

Publication number: CN102122960B
Application number: CN 201110009620
Authority: CN
Inventors: 张毅坤; 李啸; 黑新宏; 华灯鑫; 陈浩
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2011-01-18
Filing date: 2011-01-18
Publication date: 2013-11-06
Anticipated expiration: 2031-01-18
Also published as: CN102122960A

Abstract

一种针对二进制数据的多字符组合无损数据压缩方法，数据的压缩包括对待压缩的原始二进制数据运用多字符组合式字典压缩算法的初次压缩，以及对初次压缩得到的字符串运用Huffmnan算法进行的二次压缩；数据的解压缩：包括依次完成Huffmnan算法的解压缩，以及字典构建方式的无损压缩模型的解压缩。本发明解决了数据完整性还原的问题，不仅压缩比高，而且算法复杂度低，压缩速度较快，为数据的无损压缩提供了新的思路。

Description

一种针对二进制数据的多字符组合无损数据压缩方法

技术领域

本发明属于数据处理技术领域，涉及一种针对二进制数据的多字符组合无损数据压缩方法。

背景技术

信息技术的飞速发展，不断影响着人类的日常生活和工作，改变着人们的活动方式。目前，人类社会已经进入了信息时代。人们每天都可以通过各种渠道（如PDA、网络、电视、广播等）获得大量的信息，这些信息给我们的生活增加了很多色彩。

然而，庞大的信息数据量一方面带来数据存储和传输的困难，另一方面出于通信带宽和通信传输速度的限制，使得数据不经过压缩处理而直接传输所付出的代价极大。虽然存储器硬件容量在不断增加，在一定程度上缓解了数据存储的需求，但现阶段解决海量数据存储和传输问题的根本途径还是要研究更为有效的压缩方法。

数据压缩技术分类一般是分为无损压缩和有损压缩。对于不是很注重细节的数据如图像、视频等，当今流行的压缩技术大都采用有损压缩技术，如MPEG，H.263，H.264等。而对于程序、电子档案、指纹识别以及医学图像等重要信息，则必须采用无损压缩技术，以使数据恢复时不会破坏其完整性。

目前现有无损压缩算法中，有压缩速度较慢，但是压缩比高的算法；也有压缩速度较快，但压缩比较低的算法；但是压缩比高，压缩速度快的算法还不多见。

发明内容

本发明的目的是提供了一种针对二进制数据的多字符组合无损数据压缩方法，解决了数据完整性压缩和还原的问题，不仅压缩比高，而且算法复杂度低，压缩速度较快，为数据的无损压缩提供了新的思路。

本发明所采用的技术方案是，一种针对二进制数据的多字符组合无损数据压缩方法，包括以下步骤：

A、数据的压缩：包括对待压缩的原始二进制数据运用多字符组合捆绑式字典压缩算法进行的初次压缩，以及对初次压缩得到的字符串运用Huffman算法进行的二次压缩；

其中，初次压缩包括：

1）、选定组合因子个数m,m的选值满足：2≤m≤8；

2）、初始化字典：将组合因子个数为m的二进制字符排列组合得到的不同字符串，以及特殊字符和自定义字符作为字典条目构建字典，并依次赋予字典序号，其中，所述二进制字符排列组合得到的字符串的个数n满足：n=2^m；

3）、初次压缩数据：依次读入待压缩的原始二进制数据，先读入待压缩字符串的前m个字符作为前缀，再读入接下来的m个字符作为后缀，将前缀和后缀组成的2m个字符作为整体，在字典中查找是否有相同条目；若有相同条目，则将前2m个字符在字典中的序号作为前缀，再读入m个字符作为后缀，将其作为整体再在字典中查找是否有相同条目，若有相同条目，按照此做法继续进行；若无相同条目，则先将这2m个字符添加到字典中，作为新的字典条目，并赋予字典序号，再将前缀m个字符对应的字典条目的序号输出，舍去前缀的m个字符，将后缀作为前缀，再读入待压缩原始数据的m个字符，作为后缀，把现有的2m个字符作为整体再在字典中查找是否有相同条目，依次循环直至读入全部待压缩的原始二进制数据，最终得到初次压缩后的字符串；

二次压缩包括：

4）、对上述步骤3）得到的字符串中的每个字符进行概率统计，使用的公式为：

P (X) = \underset{x_{i} &Element; S}{Σ} P (x_{i})

其中，P(X)表示整个字符串中某一字符X出现的总概率，S表示整个字符串，P(x_i)表示每一个X出现的概率；

5）、根据步骤4）得到的概率统计结果，运用Huffman算法对步骤3）得到的字符串进行进行编码储存，最终实现数据的无损压缩；

B、数据的解压缩：包括依次完成Huffman算法的解压缩，以及多字符组合捆绑式字典压缩算法的解压缩。

其中，数据压缩的过程中，步骤3）里，字典查找采用哈希算法。

本发明的针对二进制数据的多字符组合无损数据压缩方法主要优点是压缩速度快，压缩比高。其基于多字符组合捆绑构建字典思想的无损压缩方法，该方法突出的特点是打破了LZ系列字典算法单个处理源字符流的方式，将多个待处理字符组合捆绑起来一起处理，并计算出它们的每种不同排列的组合方式，随后把按照不同排列组合构成的字符串存入字典，这样构建无损压缩模型的好处是可以大大降低压缩后的数据量，进而提高信道的传输和存储器的存储能力，对无损压缩算法的创新开发，尤其是对LZ系列压缩算法的发展具有重要意义。

具体实施方式

下面结合附图对本发明进行详细说明。

本发明多字符组合无损数据压缩方法，包括以下步骤：

A、数据的压缩：包括对待压缩的原始二进制数据运用多字符组合式字典压缩算法进行的初次压缩，以及对初次压缩得到的字符串运用Huffman算法进行的二次压缩；

其中，初次压缩包括：

1）、选定组合因子个数m,m的选值满足：2≤m≤8，组合因子即每次读入字符的个数；

本发明初次压缩中字典压缩算法采用多字符组合捆绑式字典算法，其改变了传统字典算法逐个处理字符的方式，取而代之，每次读入m个字符，作为一个字符单元，即所谓“捆绑”，而后进行后续处理。

二进制数据只包含“1”和“0”两种字符。例如，若选取组合因子m=2，则二进制字符排列组合后有四种不同字符串，即“00”、“01”、“10”以及“11”。若选取m=3，则二进制字符排列组合后有八种不同字符串，即“000”、“001”、“010”、“011”、“100”、“101”、“110”以及“111”。不难发现，组合因子选取越大，组合后出现的“捆绑”字符的形式越多。

用L表示待压缩原始二进制数据的长度，那么采用上述字符组合捆绑方法的待压缩二进制数据的长度仅为L/m。可以看出，组合因子m选值越大，L/m的值就会相对减少，但初始化字典中所含的条目数量会以2m的数量级增加。要求m的取值不超过8，否则，初始化时字典中条目数过多，会引起字典的快速膨胀，导致压缩速度的降低。

现有技术中，基于字典的无损压缩算法初始化字典时是将0-255项共256个ASCII码逐个初始化进字典中，这会加入许多无用字符，一定程度上增加了查找字典的时间。很多特定领域的数据仅包含特定的字符，本发明中，仅将需要的这些特征字符初始化到字典中，可以相对降低查找字典的时间。

对于二进制数据，若组合因子个数m的选值为2，则把“00”、“01”、“10”以及“11”四项先初始化到字典中，并给每一组字符编号；若组合因子选取为3，则把“000”、“001”、“010”、“011”、“100”、“101”、“110”以及“111”八项先初始化到字典中，再给这八项内容编号。由于原始数据往往都存在某些特殊字符，如清空符“Clear”，结束符“End”，以及一些自定义字符，将这些字符也初始化到字典中，并赋予编号即可。

3）、初次压缩数据：依次读入待压缩的原始二进制数据，先读入待压缩字符串的前m个字符作为前缀，再读入接下来的m个字符作为后缀，将前缀和后缀组成的2m个字符作为整体，在字典中查找是否有相同条目；若有相同条目，则将前2m个字符在字典中的序号作为前缀，再读入m个字符作为后缀，将其作为整体再在字典中查找是否有相同条目，若有相同条目，按照此做法继续进行；若无相同条目，则先将这2m个字符添加到字典中，作为新的字典条目，并赋予字典序号，再将前缀m个字符对应的字典条目的序号输出，舍去前缀的m个字符，将后缀作为新的前缀，再读入待压缩原始数据的m个字符，作为新的后缀，把现有的2m个字符作为整体再在字典中查找是否有相同条目，依次循环直至读入全部待压缩的原始二进制数据，最终得到初次压缩后的字符串；其中，字典查找采用哈希算法。

由于哈希算法将所要查找内容和其存储位置之间建立对应关系，在查找时根据此关系直接找到所需要内容，时间复杂度为O(1)，能够快速定位到查找内容的地址编号上面，节省字典查找时间。

上述过程表明，初次压缩的速度可以随着组合因子m的变大而增加，但是，不同对象的二进制数据变化规律不尽相同，压缩比不一定随之增加。

二次压缩包括：

P (X) = \underset{x_{i} &Element; S}{Σ} P (x_{i})

在经过初次压缩后，由于多字符组合捆绑式压缩算法本身的编码特点，其输出是字典的序号，即输出是由0-9这十个数字组成的字符串，所以压缩后的数据里面将存在大量不连续重复字符。此时数据量会大大减少，仅需统计0-9这十个数字出现的概率即可。

5）、根据步骤4）得到的概率统计结果，运用Huffman算法对步骤3）得到的字符串进行进行编码储存，以实现数据的无损压缩；

B、数据的解压缩：包括依次完成Huffman算法的解压缩，以及多字符组合捆绑式字典压缩算法的解压缩，解压缩时可完全恢复原始数据，进而满足准确、实时无损的要求。

实施例：

设待压缩的原输入数据为：101010011001100011......。

A、数据的压缩：包括该对待压缩的原始二进制数据运用多字符组合捆绑式字典压缩算法的初次压缩，以及对初次压缩得到的字符串运用Huffman算法进行的二次压缩；

其中，所述初次压缩包括：

1）、选定组合因子个数m的选值为2；

2）、将组合因子个数为m为2的二进制字符排列组合得到字符串为：“00”、“01”、“10”以及“11”，特殊字符和自定义字符选取“Clear”与“End”两项，构建字典如表1所示:

表1

0	1	2	3	4	5
						00	01	10	11	Clear	End

表1中，第一行为字符的编码，即字典序号，第二行是每个编号对应存储的内容。不难发现，这样简化后的字典条目数量不是256，仅含有需要的组合捆绑后的字符串项和特殊字符相等，共6项，字典大大简化，起到了减少初始化字典容量的作用。

3）先读入待压缩字符串的前2个字符“10”作为前缀，再读入接下来的2个字符“10”作为后缀，将“1010”作为整体，在如表1所示的字典中的条目进行匹配，即查找是否有相同条目。查找结果为无相同条目，即“不认识”，则先将“1010”添加到字典中，作为新的字典条目，并赋予字典序号6，此时，生成字典如表2所示：

表2

0	1	2	3	4	5	6
							00	01	10	11	Clear	End	1010

接着，将后缀“10”作为新的前缀，再读入待压缩原始数据的2个字符“10”，作为新的后缀，将“1010”作为整体，在如表2所示的字典中的条目进行匹配，即查找是否有相同条目。此时，字典中已经存在“1010”，且字典编号为6，则定义为“认识”，字典结构不变，不添加字典新条目，并将“1010”的编号“6”作为前缀，再读入下2个字符“01”，把“601”作为整体再与字典的条目内容进行匹配。可以发现，用“6”代替了两个“10”的编号“2”，即起到了提高压缩比的效果。如此重复，直到待压缩字符串全部处理完毕。其中，字典查找采用哈希算法。

如表3所示为上述初次压缩中步骤3的过程，

表3

第几步	前缀	后缀	读入	认识（Y/N）	输出	编号
							1		10	（10）
2	10	10	（10 10）	N	2	6
							3	10	10	（10 10）	Y
4	6	01	（6 10）	N	6	7
							5	01	10	（01 10）	N	1	8
6	10	01	（10 01）	N	2	9
							7	01	10	（01 10）	Y
8	8	00	（8 00）	N	8	10
							9	00	11	（00 11）	N	0	11

………

初次压缩后的输出是字符串对应的字典序号，即261280......，与原始数据流101010011001100011......相比，字符数减少很多，起到了压缩效果。

二次压缩包括：

4）、对上述步骤3）得到的字符串中的0-9的每个字符进行概率统计，使用的公式为：

P (X) = \underset{x_{i} &Element; S}{Σ} P (x_{i})

5）、根据步骤4）得到的概率统计结果，运用Huffman算法对步骤3）得到的字符串进行进行编码储存，即将出现概率大的字符赋予短码，出现概率小的字符赋予长码，以实现数据的无损压缩；

B、数据的解压缩：根据压缩时采用压缩算法的反向顺序依次解压数据流，即包括依次完成Huffman算法的解压缩，以及多字符组合捆绑式字典构建方式的无损压缩模型的解压缩，从而达到完整地复原原始数据的目的。

Claims

1.一种针对二进制数据的多字符组合无损数据压缩方法，其特征在于，包括以下步骤：

其中，所述初次压缩包括：

1）、选定组合因子个数m,m的选值满足：2≤m≤8；

所述二次压缩包括：

P (X) = \underset{x_{i} &Element; S}{Σ} P (x_{i})

5）、根据步骤4）得到的概率统计结果，运用Huffman算法对步骤3）得到的字符串进行编码储存，最终实现数据的无损压缩；

2.按照权利要求1所述的针对二进制数据的多字符组合无损数据压缩方法，其特征在于，所述数据压缩的过程中，步骤3）里，字典查找采用哈希算法。