CN1737791A

CN1737791A - 一种对数据进行有限穷举优化的压缩方法

Info

Publication number: CN1737791A
Application number: CN 200510096002
Authority: CN
Inventors: 陈淮琰; 张汪洋; 闫海红
Original assignee: Inventec Besta Xian Co Ltd
Current assignee: Inventec Besta Xian Co Ltd
Priority date: 2005-09-08
Filing date: 2005-09-08
Publication date: 2006-02-22
Anticipated expiration: 2025-09-08
Also published as: CN100349160C

Abstract

本发明涉及一种对数据统计特征进行有限穷举优化的压缩方法。其技术解决方案包括以下步骤：1)判断待压缩数据的编码类型，然后进行长字节码替换或者码数据预压缩；2)判断是否为字典类数据；3)统计最大长度范围内的重复语言单位；4)利用有限穷举法搜寻最优替代重复语言单位的长度范围；5)顺次从长到短替换最优替代重复语言单位的长度范围内的重复语言单位，并对其进行编码，输出替代信息文件，同时记录重复语言单位；6)统计非替代字符的频率，根据该频率生成Huffman树；7)生成压缩数据。本发明提供一种对数据量大，语言重复率高等具有统计特征的数据进行有限穷举优化的压缩方法，其数据压缩适应性强、可实现压缩数据的优化、提高了压缩率。

Description

一种对数据进行有限穷举优化的压缩方法

一、技术领域

本发明涉及一种对数据统计特征进行有限穷举优化的压缩方法。

二、背景技术

当今世界系一个电子信息化产业飞速发展的世界，计算器等高科技产品发展迅猛。随着当前的掌上型电子消费产品的广泛应用，人们对掌上型电子消费产品的使用要求越来越高，未来的掌上型电子消费产品能否提供更超大容量的知识和其它讯息服务已成为评价高科技产品技术是否领先的标志。

但是，当前的掌上型电子消费产品，尤其是各种嵌入式设备由于受资源的限制，如内存有限和CPU速度有限，有时无法解决超大容量数据的储存和快速读取问题，因此需要对数据进行压缩。而目前在数据压缩等数据处理过程中，一般是采用HUFFMAN压缩算法加定长重复语言单位替代，其不能对数据充分压缩。因此，当遇到大容量数据，尤其像字典数据中语言重复频率高的数据时，如果不针对数据的自身特点，提出最优的压缩方案，那么将可能造成存储器存储空间的浪费。

而对各种字典类数据进行压缩时，由于字典语言具有重复性和独立性的特点，采用定长重复语言单位替代并不能达到最优，同时会影响字典压缩的大范围适应性。

三、发明内容

本发明为解决背景技术中的数据压缩方法存在的上述技术问题，而提供一种对数据量大，语言重复率高等具有统计特征的数据进行有限穷举优化的压缩方法，其数据压缩适应性强、可实现压缩数据的优化、提高了压缩率。

本发明的技术解决方案是本发明为一种对数据进行有限穷举优化的压缩方法，其特殊之处在于：该方法包括以下步骤：

1)判断待压缩数据的编码类型是Unicode码数据，还是本地码数据，若为Unicode码数据则进行长字节码替换，对Unicode码数据进行预压缩，对码值小于0×80的编码消除高字节，其它编码按使用频率排序，使用频率较高的127个编码用码值0×80-0×FE替代，余下的编码使用0×ff标记加上两字节编码替代，然后进至步骤2)，若为本地码数据，则直接进至步骤2)；

2)判断是否为字典类数据，若为字典类数据，则记录该字典类数据的分块标记，然后进至步骤3)，若否，则直接进至步骤步骤3)；

3)统计最大长度范围内的重复语言单位；首先统计数据中所有相同字符的位置，然后对所有相同字符依后续字符进行排序，最后找出最大长度范围内的所有重复语言单位并按照长度进行记录；

4)利用有限穷举法搜寻最优替代重复语言单位的长度范围；

5)根据最优替代重复语言单位的长度范围生成重复语言单位替代信息文件，顺次从长到短替换最优替代重复语言单位的长度范围内的重复语言单位，并对其进行编码，输出替代信息文件，同时记录重复语言单位；

6)根据原数据和替代信息文件，统计非替代字符的频率，根据该频率生成Huffman树；

7)生成压缩数据；根据替代信息文件和Huffman树对原数据利用LZSS算法和Huffman算法进行混合编码替换，同时根据块信息进行分块，生成最终文件，最后把重复语言单位、块信息和Huffman树打入最终数据。

上述步骤4)中的具体步骤如下：

4.1)确定从基准值到最大重复语言单位长度为有限穷举寻优范围；

4.2)以寻优范围内的每一个重复语言单位长度为最优长度进行由长到短的逐次替代，然后记录每个替代后减小的长度；

4.3)根据每个替代后减小的长度，找到一个最大减小长度，最大减小长度对应的重复语言单位的长度范围即为最优替代重复语言单位的长度范围。

本发明主要是针对在当前嵌入式设备开发时，数据压缩处理方法上一般都采用哈夫曼(HUFFMAN)压缩方法，再加上对指定长度范围内的重复语言单位进行替代，实现压缩。然而由于数据的独立性和数据长度的变化，指定的重复语言长度的范围也要相应发生变动，才能达到最大限度的压缩，才可以同时保证不增加解压缩的时间复杂度和空间复杂度。

因此，针对上述情况，本发明方法主要是通过统计技术得到数据的特点，依据数据特点统计出最大长度重复语言单位的数量，然后再使用有限穷举法寻找最优替代方法，根据最优替代方法依序号替换重复语言单位，而对非重复单位简单语言则按照哈夫曼予以编码，从而达到不增加解压缩空间复杂度的前提下提高数据压缩效率的目的，另外，再利用字典类DATABASE的分块独特性，将其大数据分成小块，进行小分块压缩，从而提高数据查询速度，从而达到不增加解压缩时间复杂度的前提下提高数据压缩效率的目的。

因此本发明具有以下优点：

1、本发明采用有限穷举优化可对数据的重复语言单位进行充分压缩，从而提高了数据压缩率和保证压缩算法的适应性。

2、本发明通过对数据进行分块压缩，消除了块与块之间的相关性，提高了数据的查询速度，同时实现块单位的随机解压。

3、本法明可实现大数据，在时间空间需求较小的情况下正确解压，适用于资源有限的嵌入式系统。

四、附图说明

图1为本发明的方法流程图；

图2为本发明步骤4的具体流程图；

图3为本发明在进行有限穷举优化时减小长度记录表的实施例；

图4为应用本发明和习知的压缩方法对大英英中日韩辞典数据压缩的压缩结果对照表；

图5为应用本发明和习知的压缩方法对牛津辞典数据压缩的压缩结果对照表。

五、具体实施方式

参见图1，本发明的方法流程如下：

4)利用有限穷举法搜寻最优替代重复语言单位的长度范围；

参见图2，根据上述流程说明，可以看出有限穷举寻找最优替代范围是实现本发明方法、提高数据压缩率的关键，因此下面将对实现统计数据重复率的算法做一简要介绍：Len为重复语言单位长度；Rep为重复语言单位复次数；nBit为重复语言单位编码的位数；CompressRate为压缩率

重复语言单位替代的压缩率为

k＝[0，kMax-1]

Lenk＝BEG_NUM+k

Repk＞＝kMax+BEG_NUM-1-k

CompressRate % = \frac{Σ_{k = 0}^{kMax - 1} {Len}_{k} + Σ_{k = 0}^{kMax - 1} [(\underset{i = 0}{Σ} {Re p}_{ki}) * nBit / 8]}{Σ_{k = 0}^{kMax} [{Len}_{k} * (\underset{i = 0}{Σ} {Re p}_{ki})]}

单条重复语言单位替代的压缩率

CompressRate % = \frac{1}{Re p} + \frac{nBit}{Len * 8}

由单条重复语言单位替代之压缩率可知

Rep越大，压缩率就会相应越小；

Len越大，压缩率就会相应越小；

由上可知，重复语言长度的增加，可能有利于压缩。另外考虑到重复语言单位的交叉(cat和at)，有可能降低替代效率，并且重复语言单位之交叉属于复杂现象，难于定量估值。因此本发明使用首先统计大长度重复语言单位，然后有限穷举寻找最优压缩实现压缩优化。其具体步骤如下：

4.3)根据每个替代后减小的长度，找到一个最大减小长度，最大减小长度对应的重复语言单位长度范围即为最优替代重复语言单位的长度范围。

参见图3，该实施例的列表为每个替代后减小的长度列表，最大减小长度对应的35即为最优替代重复语言单位的长度范围。

下面结合具体实施例对本发明作进一步详细说明。

参见图4，有一笔大英英中日韩辞典数据，其原始文件长度为45,776,158bytes，首先预处理后文件长度为27,668,745bytes，统计出大长度(0x7f)数据重复字符串和重复字符串频率存放于.rep文件中，有限穷举优化后最优长度为35，对最优长度范围内的重复字符串有长到短进行编号，得到重复字符串长度为491,862bytes，为克服字典类大容量DATABASE对数据径行分块，并在每个分块头建立地址索引，将地址索引存放于.idx文件中，其长度为55,379bytes，做完上述工作后，开始对数据进行压缩，得到压缩结果12,115,479bytes；而使用已有的压缩方法压缩该笔辞典数据时，其数据长度为12,839,525bytes。

另外，本发明方法压缩的数据共分为24,862块，压缩率为28.05％，而已有的压缩方法压缩率为66.7％。

参见图5，再以设置在掌上型电子产品中的牛津辞典数据来看，根据该牛津辞典数据压缩结果对照表，可看到原始数据长度为22,580,376Bytes，压缩后数据长度为4,505,792Bytes；而以已有的压缩方法进行压缩得到数据长度为5,089,223Bytes。由此，本发明方法压缩的数据共分为146,292块，压缩率为19.95％，而已有的压缩方法压缩率为22.54％。

通过具体实际数据对比可以看出，本发明方法不仅提高了数据压缩的效率，而且对超大容量数据特别是重复字符串频率高的数据，更是在处理上实现了更快、更方便统计字符串重复频率的功效。

Claims

1、一种对数据进行有限穷举优化的压缩方法，其特征在于：该方法包括以下步骤：

4)利用有限穷举法搜寻最优替代重复语言单位的长度范围；

2、根据权利要求1所述的对数据进行有限穷举优化的压缩方法，其特征在于：所述步骤4)中的具体步骤如下：