CN1447603A

CN1447603A - 基于信源高阶熵的数据压缩方法

Info

Publication number: CN1447603A
Application number: CN03114423A
Authority: CN
Inventors: 李春林
Original assignee: 李春林
Current assignee: Beijing Tangheng Technology Development Co., Ltd.
Priority date: 2003-01-10
Filing date: 2003-01-10
Publication date: 2003-10-08
Anticipated expiration: 2023-01-10
Also published as: CN1209925C

Abstract

本发明涉及信息技术领域中的数据无损压缩和解压缩技术。现有的基于信源熵编码的无损压缩和解压缩方法，都是基于信源的一阶熵来压缩数据；基于非前缀码的熵编码方法，都要先根据信源的出现频率建立一棵二叉树，然后通过从根到叶子的搜索来建立信源的编码。本发明是基于信源的高阶(2阶或3阶)熵，能较大地提高数据的压缩比；是自适应算法，不需要事先知道各信源的出现频率；是直接根据信源的出现频率建立非前缀编码，不需要建立二叉树，适用于所有数字化文件的压缩和解压缩，也可作为图像、声音等信息有损压缩方法中的熵编码算法，还可用于各种实时流媒体信息的压缩和解压缩。

Description

基于信源高阶熵的数据压缩方法

技术领域

本发明涉及信息技术领域中数据的无损压缩和解压缩技术，具体地涉及基于信源熵编码的数据压缩和解压缩技术。

背景技术

现有的数据无损压缩方法，主要有三种类型：第一类是基于游程编码的压缩方法，第二类是基于字典编码的压缩方法，主要有LZ77、LZ78和LZW；第三类就是基于信源熵编码的压缩方法，主要有Huffman算法，Shannon-Fano算法和算术编码算法。

Huffman编码是可变字长编码的一种。Huffman于1952年提出一种编码方法，该方法完全依据字符出现概率来构造非前缀码的平均长度最短的码字，有时称之为最佳编码。产生Huffman编码需要对原始数据扫描两遍。第一遍扫描要精确地统计出原始数据中，每个待编码字符出现的频率，第二遍是建立Huffman树并进行编码。Huffman编码的前身，是由Claude·E·Shannon和R·M·Fano两人提出的Shannon-Fano编码。编码前要求编码字符的出现概率已经统计出来。Shannon-Fano编码的核心仍然是构造二叉树，构造的步骤如下：

1)将待编码字符按其出现频率从大到小排序。

2)将序列分成上下两部分，使得上部频率总和尽可能接近下部频率总和。

3)把第二步中划分出的上部作为二叉树的左子树，记0，下部作为二叉树的右子树，记1。

4)分别对左右子树重复2、3两步，直到所有的符号都成为二叉树的树叶为止。

Huffman算法和Shannon-Fano算法都是基于信源一阶熵的压缩算法。根据Shannon的信息熵理论，利用信源的高阶熵可以进一步提高压缩效率。举个典型的例子来说明。在英语文本文件中，字符‘u’的出现频率是很低的，在Huffman算法或Shannon-Fano算法中，要给‘u’分配一个较长的编码。而根据英语语言的特点，在字符‘q’之后，字符‘u’出现的概率是很高的。因此，在前一字符为‘q’的情况下，给字符‘u’分配的编码长度就可以很短，甚至只需一位(bit)即可。由此可见，基于信源的高阶熵可以有效提高压缩效率。

发明内容

本发明的目的是基于信源高阶熵的数据压缩方法，是自适应方法，不需要事先知道各信源的出现频率，是直接根据信源的出现频率建立非前缀编码，在产生非前缀编码和解码时，不需要建立二叉树，可以更大的提高压缩比，减少压缩时间。

关于信源熵阶的定义，按照Shannon的定义，信源的一阶熵为：

H = - Σ_{i = 1}^{m} p_{i} \log_{2} p_{i}

bits/character (1)其中m为信源的个数，p_i为第i个信源的出现概率。信源的二阶熵为

H = - Σ_{i = 1}^{m} p_{i} Σ_{j = 1}^{m} P_{j | i} \log_{2} P_{j | i}

bits/character (2)其中m为信源的个数，P_j|i为当前信源为j，前一信源为i的条件概率。信源的三阶熵为：

H = - Σ_{i = 1}^{m} p_{i} Σ_{j = 1}^{m} P_{j | i} Σ_{k = 1}^{m} P_{k | j, i} \log_{2} P_{k | j, i}

bits/character (3)其中m为信源的个数，P_k|j，i为当前信源为k，前一信源为j，再前一信源为i的条件概率。

本发明是基于信源高阶熵的数据压缩方法，在产生非前缀编码和解码时，不需要建立二叉树，根据信源的P_j|i或P_k|j，i，即当前信源为j，再前一信源为i，或当前信源为k，前一信源为j，再前一信源为i的条件概率进行数据压缩。

根据所有前一信源相同，再前一信源也相同(基于3阶熵时)的所有信源的出现频率，降序排列后按一定的规则分为左右子块，根据当前信源在数组中的位置决定其编码，若位于左子块则编码为‘0’，位于右子块则编码为‘1，，继续划分当前信源所在的子块，直到该块信源的个数只有一个时为止。其中右子块中信源的个数总为2ⁱ个，i＝0，1，2，3，4，5，6，7(当信源总数为256个时)。

划分左右子块的规则是：在划分左子块时，将子块开头部分的2ⁱ个(i从0开始)信源出现频率之和，与第2ⁱ⁺¹个信源之后的所有信源出现频率之和进行比较，若前者大于后者，则前者为右子块，其余为左子块，否则，将i值加1后再比较；若划分的是右子块，直接按信源的个数，平分为左右子块，频率大的部分为右子块，频率小的部分为左子块。

同样的，解压缩时也不需要建立二叉树。先根据划分规则，划分出左右子块，然后取出1位(bit)压缩编码，若取出的是‘1’，则再划分右子块；若是‘0’，则再划分左子块，直到该块的信源个数为1时，该信源即为解压得出的信源。

具体实施方式

下面结合附图以三阶熵为例对本发明作进一步描述

首先，设定信源是由一个字节的字符构成，其代码为从0到255，共有256个。定义两个256*256*256的数组，一个用来存放前一信源为j，再前一信源为i的当前各信源的出现次数，用Count[i][j][256]来表示，初始值全部置为0；另一个用来存放前一信源为j，再前一信源为i的当前各信源依出现次数排序后相对应的信源字符，用Char[i][j][256]来表示。举例说明：在前一信源为j，再前一信源为i的前提条件下，当前信源‘1‘的出现次数为20，在256个信源字符中按降序排列后位于第五位，则Count[i][j][4]＝20，Char[i][j][4]＝1。Char[i][j][256]的初始值与该信源的值相等，即第0位为0，第1位为1，以此类推，最后一位为255。每次建立当前信源的编码时，依据的就是这Count[i][j][256]，参与编码的信源个数为256个。对当前信源字符k来说，其出现概率为P_k|j，i，对应于该信源的三阶熵。压缩前，直接输出第一个信源的字符和第二个信源的字符。然后，每压缩一个字符后，就循环更新前一字符和再前一字符，即将前一字符作为再前一字符，当前字符变作前一字符，读入的新字符为当前字符。

其次，建立当前信源k的编码时，并不需要建立整棵二叉树。先根据数组Char[i][j][256]来确定当前信源k在数组中的位置，用Position表示。该位置也是当前信源k在Count[i][j][256]中按降序排列后的位置。然后根据数组Count[i][j][256]，用下面的方法来将数组分为左右两块。总的分块原则，是使右子块信源的个数为2ⁱ(i＝0～7)个，有利于快速分出左右子块。若第1位的出现频率大于第3到第256位的出现频率之和，则第1位为右子块，其余为左子块；否则，若第1和第2位出现频率之和大于第5位至第256位出现频率之和，则右子块为第1位和第2位，其余为左子块；否则，若第1至4位出现频率之和大于第9至256位出现频率之和，则右子块为第1至4位，其余为左子块；否则，若第1至8位出现频率之和大于第17至256位出现频率之和，则右子块为第1至8位，其余为左子块，如此比较下去，直到某个i值符合条件为止。右子块个数为2ⁱ(右子块最大个数为128个)，其余为左子块。分出左右子块后，根据Position值的大小，确定当前信源k是属于右子块还是属于左子块。若属于左子块，则编码为‘0’。再将左子块按上述的方法分出左右子块，然后用Position的值进行判断，直到左子块只剩下一个信源。若属于右子块，则编码为‘1’。若右子块元素的个数大于1，则将右子块按信源个数平分为二，出现频率大的为右子块，出现频率小的为左子块，再根据Position的值，确定信源k是属于左子块还是右子块，左子块则编码为‘0’，右子块则编码为‘1’。这样，不用建立整棵二叉树，也不用通过搜索二叉树来确定信源的编码，只需根据信源的出现频率就能直接得到信源的编码。

接下来，将信源k的出现频数增一，再将Count[i][j][256]排成降序，更新前一信源代码和再前一信源代码，读入新的信源代码为当前代码。回到上一步，直到所有输入的信源编码完成。

下面再说明编码的解码方法。首先，按压缩编码时的方法初始化数组Count[256][256][256]和Char[256][256][256]，读入第一个字符FirstChar和第二个字符SecondChar。从第三个字符起，是信源压缩后的编码。然后，按照压缩过程的方法那样，将前一信源为SecondChar，再前一信源为FirstChar的256个信源，即Char[FirstChar][SecondChar][256]，按出现的频数分成左右子块。取出压缩编码的第1位(bit)，若该位为1，则说明待解压信源位于右子块；若该位为0，则说明待解压信源位于左子块；只要所在子块的信源个数大于1，则按分块规则，再分为左右子块，压缩编码左移一位，取出其第一位，按上述相同的方法判断待解码信源位于左子块还是右子块。就这样分解下去，直到左子块或右子块的信源个数为1时，则该信源即为解压缩得出的原始信源。

本方法可以基于信源的二阶熵或三阶熵进行数据压缩。基于信源高阶熵的压缩方法，不适宜采用静态的方法。一方面是因为采用静态编码的方法，要对待压缩数据扫描两遍，且不能用于实时数据的压缩；另一方面是因为要保留大量的头文件信息(各信源及其编码)，降低了压缩编码效率。因此，只能采用自适应的压缩方法。

为了与已有的压缩方法进行比较，根据本方法分别基于信源的二阶熵和三阶熵编写出程序(LCL)，与Huffman算法程序、LZW算法程序一起，对Windows98第二版操作系统内的几种不同格式的文件进行压缩，试验结果如下表所示。用到的Huffman算法程序和LZW算法程序，均是从Internet上下载来的，作者分别是Fredrik Qvarfort和Mark R.Nelson

表1 压缩效果比较

文件名	原文件大小(Bytes)	Huffman压缩后(Bytes)	LZW压缩后(Bytes)	LCL压缩后(基于二阶熵)(Bytes)	LCL压缩后(基于三阶熵)(Bytes)
文件名	原文件大小(Bytes)	Huffman压缩后(Bytes)	LZW压缩后(Bytes)	LCL压缩后(基于二阶熵)(Bytes)	LCL压缩后(基于三阶熵)(Bytes)	Clouds.bmp	307,514	193,732	134,856	89,996	84,738
Forest.bmp	66,146	52,774	57,582	41,795	53,042	Clouds.bmp	307,514	193,732	134,856	89,996	84,738
Forest.bmp	66,146	52,774	57,582	41,795	53,042	Setup.bmp	173,718	83,265	72,067	39,103	39,850
Imgedit.ocx	331,776	248,648	277,501	199,236	175,838	Setup.bmp	173,718	83,265	72,067	39,103	39,850
Imgedit.ocx	331,776	248,648	277,501	199,236	175,838	Mci32.ocx	198,456	148,855	176,445	129,332	108,170
Plugin.ocx	81,760	63,319	74,851	55,979	50,310	Mci32.ocx	198,456	148,855	176,445	129,332	108,170
Plugin.ocx	81,760	63,319	74,851	55,979	50,310	Arialni.ttf	141,328	122,468	172,017	119,932	105,086
Simfang.ttf	2,386,140	1,735,886	3,134,415	1,546,392	1,521,762	Arialni.ttf	141,328	122,468	172,017	119,932	105,086
Simfang.ttf	2,386,140	1,735,886	3,134,415	1,546,392	1,521,762	Tahoma.ttf	249,012	215,642	298,951	202,757	182,058
Connect.hlp	77,279	49,770	54,207	46,142	39,506	Tahoma.ttf	249,012	215,642	298,951	202,757	182,058
Connect.hlp	77,279	49,770	54,207	46,142	39,506	Dao35.hlp	649,868	543,011	739,215	561,902	531,398
Winabc.hlp	346,749	216,234	392,860	173,796	124,702	Dao35.hlp	649,868	543,011	739,215	561,902	531,398
Winabc.hlp	346,749	216,234	392,860	173,796	124,702	Display.txt	14,030	12,178	8,886	8,263	7,866
Network.txt	23,272	19,691	14,158	12,964	11,922	Display.txt	14,030	12,178	8,886	8,263	7,866
Network.txt	23,272	19,691	14,158	12,964	11,922	Programs.txt	35,320	29,566	21,547	19,111	17,454
Kodakimg.exe	528,384	404,057	525,039	300,525	280,550	Programs.txt	35,320	29,566	21,547	19,111	17,454
Kodakimg.exe	528,384	404,057	525,039	300,525	280,550	Regedit.exe	122,880	88,026	105,319	76,355	68,810
Welcome.exe	278,528	173,615	241,728	102,141	89,742	Regedit.exe	122,880	88,026	105,319	76,355	68,810
Welcome.exe	278,528	173,615	241,728	102,141	89,742	Asp.dll	328,512	256,368	345,429	216,623	191,914
Mfc42.dll	995,383	796,656	871,719	652,956	578,510	Asp.dll	328,512	256,368	345,429	216,623	191,914
Mfc42.dll	995,383	796,656	871,719	652,956	578,510	Msvbvm60.dll	1,409,024	1,157,614	1,364,005	987,042	861,662
Publish.mdb	79,872	31,327	21,702	18,799	15,886	Msvbvm60.dll	1,409,024	1,157,614	1,364,005	987,042	861,662
Publish.mdb	79,872	31,327	21,702	18,799	15,886	Repostry.mdb	303,104	101,031	84,310	78,514	70,106
Sampledb.mdb	75,776	28,576	17,149	18,986	16,078	Repostry.mdb	303,104	101,031	84,310	78,514	70,106
Sampledb.mdb	75,776	28,576	17,149	18,986	16,078	Desk.cpl	221,280	168,926	229,777	122,793	102,774
Joy.cpl	374,032	267,484	356,761	231,572	188,138	Desk.cpl	221,280	168,926	229,777	122,793	102,774
Joy.cpl	374,032	267,484	356,761	231,572	188,138	Modem.cpl	92,263	73,334	96,765	56,400	49,766
Gameenum.sys	10,512	8,789	8,833	7,992	7,634	Modem.cpl	92,263	73,334	96,765	56,400	49,766
Gameenum.sys	10,512	8,789	8,833	7,992	7,634	Logos.sys	129,078	17,871	2,692	17,260	17,114
Portcls.sys	165,424	130,949	132,049	105,752	92,518	Logos.sys	129,078	17,871	2,692	17,260	17,114

1 压缩编码示例假设当前信源为字符A，在FirstChar和SecondChar为某一确定值的情况下，出现的次数为12次，在按出现次数排列的数组中位于第17位。其它信源出现的次数分别为55，51，47，45，41，38，37，35，34，31，29，27，24，22，18，16，12，11，9，7，6，6，4，3，3，2，2，1，1，1。第1步：分左右子块。因为(55)不大于

Σ_{i = 3}^{30} C_{i} = 512,

其中C_i为各信源的出现次数，(55+51)也不大于

Σ_{i = 5}^{30} C_{i} = 420,

(55+51+47+45)＝198也不大于而(55+51+47+45+41+38+37+35)＝319，大于

Σ_{i = 17}^{30} C_{i} = 68,

故右子块由前8个信源组成，左子块由后面的22个信源组成。右子块编码字1，左子块编码字0。如图1所示。第二步：由于当前信源位于第17位，属于左子块，下一步只需再分左子块即可。由于(34)不大于

Σ_{i = 11}^{30} C_{i} = 204,

(34+31)也不大于

Σ_{i = 13}^{30} C_{i} = 148,

而(34+31+29+27)＝121，大于

Σ_{i = 17}^{30} C_{i} = 68,

故再将左子块分为新的左子块和右子块。右子块由第9，10，11，12信源组成，由第13至30信源组成左子块。如图2所示。第三步：当前信源属于新的左子块，再分左子块。由于(24)不大于

Σ_{i = 15}^{30} C_{i} = 102,

(24+22)＝46也不大于

Σ_{i = 17}^{30} C_{i} = 68,

而(24+22+18+16)＝80，大于

Σ_{i = 21}^{30} C_{i} = 29,

故新的右子块由第13至16信源组成，新的左子块由第17至30信源组成。如图3所示。第四步：当前信源属于新的左子块，再分左子块。由于(12)不大于

Σ_{i = 19}^{30} C_{i} = 45,

(12+11)也不大于

Σ_{i = 21}^{30} C_{i} = 29,

而(12+11+9+7)＝39，大于

Σ_{i = 25}^{30} C_{i} = 10,

故新的右子块由第17至20信源组成，新的左子块由第21至30信源组成。如图4所示。第五步：当前信源属于新的右子块，再分右子块。对于右子块，只需要将右子块按信源的个数平分即可。故新的右子块由第17，18信源组成，左子块由第19，20信源组成。如图5所示。第六步：当前信源属于新的右子块，再分右子块。新的右子块由第17信源组成，左子块由第18信源组成。由于右子块的信源个数只有1个，故编码过程至此结束。如图6所示。

从树的根往下编码，右子树编1，左子树编0，故可得当前信源的编码为000111。2 编码解压缩示例以上例来说明编码的解码过程。同上例的第一步，先求出左右子块，右子块由第1至8信源组成，其余信源为左子块。现取出编码的第1位，是‘0’，说明待解压缩信源位于左子块；再按上例第二步，将左子块再分为新的左子块和右子块。取出编码的第1位，又是‘0’，说明待解压缩信源仍位于左子块。再按上例第三步，将左子块再分为新的左子块和右子块。取出编码的第1位，又是‘0’，说明待解压缩信源仍位于左子块。再按上例第四步，将左子块再分为新的左子块和右子块。取出编码的第1位，是‘1’，说明待解压缩信源位于右子块，此时右子块只有第17至20信源。再按上例第五步，将右子块再分为新的左子块和右子块。取出编码的第1位，是‘1’，说明待解压缩信源仍位于右子块，此时右子块只有第17和18信源。再按上例第六步，将右子块再分为新的左子块和右子块。取出编码的第1位，是‘1’，说明待解压缩信源位于右子块，此时右子块只有第17信源，故解压缩得到的编码为第17信源，输出该信源，这样，就完成了一个信源的解码。

附图说明

图1压缩编码示例的第一步

图2压缩编码示例的第二步

图3压缩编码示例的第三步

图4压缩编码示例的第四步

图5压缩编码示例的第五步

图6压缩编码示例的第六步

图7数据压缩器示意图

Claims

1.一种基于信源高阶熵的数据压缩方法，其特征是指根据信源的P_j|i或P_k|j，i，即当前信源为j，再前一信源为i，或当前信源为k，前一信源为j，再前一信源为i的条件概率进行数据压缩。

2.如权利要求1所述的数据压缩方法，其特征是指根据所有前一信源相同，再前一信源也相同(基于3阶熵时)的所有信源的出现频率，降序排列后按一定的规则分为左右子块，根据当前信源在数组中的位置决定其编码，若位于左子块则编码为‘0’，位于右子块则编码为‘1’，继续划分当前信源所在的子块，直到该块信源的个数只有一个时为止。

3.如权利要求2所述的数据压缩方法，其特征是将信源数组分为左右子块，其中右子块中信源的个数总为2ⁱ个，i＝0，1，2，3，4，5，6，7(当信源总数为256个时)。

4.如权利要求2所述的数据压缩方法，其特征为划分左右子块的规则是：若划分左子块时，将子块开头部分的2ⁱ个信源出现频率之和(i从0开始)，与第2ⁱ⁺¹个信源之后的所有信源出现频率之和进行比较，若前者大于后者，则前者为右子块，其余为左子块，否则，将i值加1后再比较；若划分的是右子块时，直接按信源的个数，平分为左右子块，频率大的部分为右子块，频率小的部分为左子块。

5.如权利要求1中所述的数据压缩方法，其特征为解压缩编码时不需要建立二叉树，先根据划分规则，划分出左右子块，然后取出1位(bit)压缩编码，若取出的是‘1’，则再划分右子块；若是‘0’，则再划分左子块，直到该块的信源个数为1时，该信源即为解压得出的信源。

6.一种由执行如权利要求1的方法的控制器组成的数据压缩器。

7.一种用于数据压缩器的计算机程序产品，这个计算机程序产品包含一套执行如权利要求1的方法的指令。