CN117465471A

CN117465471A - 一种针对文本文件的无损压缩系统及其压缩方法

Info

Publication number: CN117465471A
Application number: CN202310049608.2A
Authority: CN
Inventors: 武彦霞; 徐松; 奚彩萍; 聂鹏强
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2024-01-30

Abstract

本发明公开了一种针对文本文件的无损压缩系统及其压缩方法，该系统包括数据输入单元、数据压缩单元、数据传输单元、数据解压缩单元和数据输出单元；数据输入单元用于接收原始输入数据，通过模数转化将原始模拟信息转化为待压缩的数字信息，并传递到数据压缩单元；数据压缩单元用于接收数字数据信息，并进行无损压缩，生成压缩数据；数据传输单元用于接收和传递压缩数据；数据解压缩单元用于完成解压缩过程；数据输出单元用于将原始输入数据输出到工作端。本发明具有完整的压缩与解压缩流程以及更好的适用性，克服了统计压缩算法固有的局限性问题，减少了数据冗余，提高了存储空间利用率，实现了字典自动更新以及删除，提高了压缩性能。

Description

一种针对文本文件的无损压缩系统及其压缩方法

技术领域

本发明属于数据压缩技术领域，具体涉及一种针对文本文件的无损压缩系统及其压缩方法。

背景技术

随着计算机技术和多媒体技术的快速发展，各行各业产生的数据量成倍增长，海量数据给信息存储与传输造成了诸多困难，为了节省信息存储空间，提高信息传输效率，需要对数据进行压缩。数据压缩技术是指在不损失有效信息的前提下，通过一定算法对数据进行重新编码，以减少数据的冗余，提高其传输、存储和处理效率。

按照压缩所依据的信源输出分布特性，将数据压缩分为统计编码和字典编码两类。统计编码根据信源输出符号的统计特性进行编码，最大限度地去除被压缩数据之间的统计相关性，实现压缩的目的。字典编码又称为LZ编码，是从信源输出数据中选择字符串，并把每个字符串编码为一个标识，利用查字典的原理对字符串编码，实现压缩的目的。

Huffman编码是著名的统计压缩算法，主要依赖于输入数据流的统计特性来构造Huffman树，通过将固定长度的字符代码转换为可变长度的字符，输出平均码长最短的不等长编码。Huffman树的构造原理是先将输入数据流按照概率递减的次数进行排序，将两个最小概率相加作为新字符的概率，并始终将较大概率赋值为‘1’，较小概率赋值为‘0’，以此类推，直到仅剩两个字符的概率之和为1。沿逆序取得到的码符号，构成的码符号序列即为对应字符的码字。

LZW编码属于字典压缩算法。压缩时首先将字母表中的所有字符初始化到字典中，输入数据逐字符地与字典进行匹配，并累积形成一个字符串，每输入一个字符就被串接在前缀字符串后面形成新的字符串，当新字符串与字典中包含的字符或字符串相匹配时，该过程就会继续，直到前缀字符串在字典中，而新字符串不在字典中时，就会输出字典相应前缀字符串的标识，也就是编码码字。只要编码码字的位数小于输入数据流中对应匹配串的位数，就实现了压缩。

LZW动态编码是在LZW编码基础上改进的字典压缩算法。压缩流程与LZW编码相同，但在存储压缩数据时以动态编码代替固定输出位宽，给不同大小的码字分配变长码，以动态编码的方式存储压缩数据。

Huffman编码需要统计信源输出的所有符号的发生概率，经过统计与编码两个过程会导致压缩时间较长，降低压缩性能；而且在实际应用中，只有当信源输出字符出现概率差异较大时，编码效果才明显。LZW编码与LZW动态编码在输入任何数据之前就先占用了字典的前256项，在压缩过程中会将输入文件中不重复的字符串加入到字典中，当输入文件比较大时，字典易被填满，这会导致数据的压缩效率降低。同时，LZW编码输出为定长码，对于位数较小的码元需要补零，这带来了很大的数据冗余，导致压缩效率下降。虽然LZW动态编码输出位数整体小于定长码，但是仍然存在冗余。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种针对文本文件的无损压缩系统及其压缩方法，其提出了一种针对文本文件具有更好适用性的无损字典压缩算法，能够提高压缩性能，降低通信成本；其解决了统计算法压缩性能依赖于字符概率分布的局限性问题，减少了数据冗余；其解决了字典压缩算法压缩大文件时字典易被填满导致压缩性能下降，以及压缩输出位数需补零而导致压缩效率较低的问题。

技术方案：为实现上述目的，本发明提供一种针对文本文件的无损压缩系统，包括数据输入单元、数据压缩单元、数据传输单元、数据解压缩单元和数据输出单元；

所述数据输入单元用于接收需要传输处理的原始输入数据，通过模数转化将原始模拟信息转化为待压缩的数字信息，并将处理后的数字数据信息传递到数据压缩单元；

所述数据压缩单元用于接收经数据输入单元处理后的数字数据信息，并通过字典压缩算法对海量数据流进行无损压缩，生成压缩数据；

所述数据传输单元用于接收压缩数据，并且将压缩数据传递到数据解压缩单元；

所述数据解压缩单元用于采用压缩算法的逆过程将压缩数据恢复为原始输入数据，完成解压缩过程；

所述数据输出单元用于将数据解压缩单元恢复得到的原始输入数据输出到工作端。

本发明还提供一种针对文本文件的无损压缩系统的压缩方法，包括如下步骤：

S1：数据输入单元接收需要传输处理的原始输入数据，通过模数转化将原始模拟信息转化为待压缩的数字信息，并将处理后的数字数据信息传递到数据压缩单元；

S2：数据压缩单元接收经数据输入单元处理后的数字数据信息，并通过字典压缩算法对海量数据流进行无损压缩，生成压缩数据；

S3：数据传输单元接收生成的压缩数据，并且将压缩数据传递到数据解压缩单元；

S4：数据解压缩单元采用字典压缩算法的逆过程将压缩数据恢复为原始输入数据，完成解压缩过程；

S5：数据输出单元将数据解压缩单元恢复得到的原始输入数据输出到工作端，实现实际应用。

所述步骤S2的字典压缩算法中构建了主字典和参考字典。

进一步地，所述步骤S2中数据压缩单元进行无损压缩的过程如下：

A1：初始化主字典和参考字典，开始时主字典和参考字典都为空，不包含任何字符串，当前前缀字符串P也为空；

A2：读取当前输入字符C，判断C是否在主字典中；如果“是”，则将前缀字符串P与当前字符C组成新的字符串S，即S＝P+C；如果“否”，则将C存入主字典，将C及其在主字典的索引存入参考字典，并令S＝P+C；

A3：判断S是否在主字典中：如果“是”，则将S作为前缀字符串P，即P＝S；如果“否”，则输出P对应码元作为输出码，将S存入主字典，并令P＝C；

A4：判断输入数据是否结束：如果“是”，输出P对应的码元；如果“否”，重复步骤A2和A3。

进一步地，所述步骤S4中数据解压缩单元的解压缩过程如下：

B1：初始化主字典和参考字典，开始时主字典为空，不包含任何字符串，参考字典是由压缩过程构建而来，当前前缀解码字符串P也为空；

B2：读取参考字典的第一个字符C_f,存入主字典，删除接受码元的首位，将C_f作为前缀解码字符串P并输出；

B3：读取下一个接受码元W并判断其解码字符C_w是否在主字典中：如果“是”，令新字符串S＝C_w；如果“否”，继续判断参考字典下一个字符索引是否与主字典大小相等：如果“是”，提取参考字典的下一个字符C_h，将C_h存入主字典，并令S＝C_h并输出S；如果“否”，令S＝P+S的首字符，输出S；

B4：将P+S的首字符存入主字典，令P＝S；

B5：判断接受码元是否结束：如果“是”，解码结束；如果“否”，重复步骤B3和B4。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明提供了一种针对文本文件的无损压缩与解压缩方法，具有完整的压缩与解压缩流程以及更好的适用性。

2、本发明克服了统计压缩算法固有的局限性问题，减少了数据冗余，提高了存储空间利用率。具体来说，统计压缩算法主要依赖于输入数据流的统计特性，在压缩前会计算输入数据符号出现的概率，从而为字符分配不同长度的码字。因而该类压缩算法常伴随着由于统计字符概率导致压缩时间长，压缩后仍存在数据冗余的问题。而本发明利用类似查字典的方式对数据压缩处理，字典的构建与数据流压缩同时进行，大大减短了压缩时间，减少了数据冗余。

3、本发明解决了字典压缩算法由于原始文件太大导致字典被填满的问题，实现了字典自动更新以及删除，提高了压缩性能。具体来说，传统的字典压缩算法为每个字符分配12bit，其字典最大可包含2¹²＝4096个字符串，当原始输入文件较大时，字典易被填满。传统字典压缩算法当字典被填满不再更新字典，因而字典匹配度差，压缩率低。而本发明构建了一个主字典和一个参考字典，当主字典被填满时，系统会自动删除主字典中最早出现的字符串，重新更新主字典，随着主字典自动更新及删除，字符匹配度更高，压缩率更高。

4、本发明具有更小的压缩位数和更好的压缩率，降低了通信成本，并可在有限资源下实现压缩方案。

附图说明

图1为本发明无损压缩系统的结构示意图；

图2为数据压缩单元的压缩流程图；

图3为数据压缩单元的压缩示例流程图；

图4为数据解压缩单元的解压缩流程图；

图5为数据解压缩单元的解压缩示例流程图；

图6为测试文件数据图；

图7为相关算法压缩位数对比图；

图8为相关算法压缩率对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明提供一种针对文本文件的无损压缩系统，包括数据输入单元、数据压缩单元、数据传输单元、数据解压缩单元和数据输出单元；

数据输入单元用于接收需要传输处理的原始输入数据，通过模数转化将原始模拟信息转化为待压缩的数字信息，并将处理后的数字数据信息传递到数据压缩单元；

数据压缩单元用于接收经数据输入单元处理后的数字数据信息，并通过字典压缩算法对海量数据流进行无损压缩，生成压缩数据；

数据传输单元用于接收压缩数据，并且将压缩数据传递到数据解压缩单元；

数据解压缩单元用于采用压缩算法的逆过程将压缩数据恢复为原始输入数据，完成解压缩过程；

数据输出单元用于将数据解压缩单元恢复得到的原始输入数据输出到工作端。

基于上述无损压缩系统，本发明还提供一种针对文本文件的无损压缩系统的压缩方法，参照图1，其包括如下步骤：

字典压缩算法中构建了主字典和参考字典，数据压缩单元的压缩流程如图2所示，具体的压缩流程为如下步骤A1～A4：

数据压缩单元工作时依赖于由压缩过程动态生成的主字典和参考字典。未识别到输入数据流时，主字典和参考字典都为空，随着压缩过程的进行，每个首次出现的字符或字符串会被存入到主字典中，同时主字典为每个加入的字符或字符串分配唯一的索引。如果加入到主字典中的是首次出现的单字符，该字符同时也会被存入参考字典中。编码结束后，将生成的输出码流与参考字典一起传递到解压缩端。数据压缩单元的输出码流用对应字符的实际二进制位形式表示。

本实施例中以输入数据流为‘ORANGEBANANAS’为例，压缩流程及输出结果如图3所示。

数据解压缩单元的解压缩流程如图4所示，解压缩流程具体为如下步骤B1～B5：

B4：将P+S的首字符存入主字典，令P＝S；

数据解压缩单元进行解压缩时需要利用由压缩单元编码生成的参考字典，并将压缩端生成的输出码流作为解压缩端的输入数据。解压缩可以视为压缩的逆过程，首先读取参考字典的首字符，将其加入到目前未包含任何字符串的主字典。接着从第二个输入码元开始依次读取输入码元，判断当前读取码元的解码字符是否在主字典中，如果主字典可以找到对应匹配字符，则将该解码字符作为恢复的原始数据输出；如果主字典未匹配到相应字符，则判断参考字典是否包含该字符，如果在参考字典找到，则将该字符作为原始数据输出；否则该字符被视为前缀字符，不直接作为原始解码字符输出。

本实施例同样以输入数据流为‘ORANGEBANANAS’为例，解压缩流程及输出结果如图5所示。

为了验证本发明方案的实际效果，本实施例中将本发明算法与Huffman压缩算法、LZW压缩算法、LZW动态压缩算法进行实例压缩对比，具体的对比数据如下：

由图6可以看出，本发明算法压缩后的字典数要少于LZW压缩算法、LZW动态压缩算法。

由图7可以看出，本发明算法的压缩位数要低于Huffman压缩算法、LZW压缩算法、LZW动态压缩算法。

由图8可以看出，本发明算法的压缩率要高于Huffman压缩算法、LZW压缩算法、LZW动态压缩算法。

由图6～图8可见，本发明算法的压缩效果更好。

Claims

1.一种针对文本文件的无损压缩系统，其特征在于，包括数据输入单元、数据压缩单元、数据传输单元、数据解压缩单元和数据输出单元；

2.根据权利要求1所述的一种针对文本文件的无损压缩系统的压缩方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的一种针对文本文件的无损压缩系统的压缩方法，其特征在于，所述步骤S2的字典压缩算法中构建了主字典和参考字典。

4.根据权利要求3所述的一种针对文本文件的无损压缩系统的压缩方法，其特征在于，所述步骤S2中数据压缩单元进行无损压缩的过程如下：

5.根据权利要求4所述的一种针对文本文件的无损压缩系统的压缩方法，其特征在于，所述步骤S4中数据解压缩单元的解压缩过程如下：

B4：将P+S的首字符存入主字典，令P＝S；