CN114726926B

CN114726926B - 一种用于拉普拉斯信源的自适应变长编码方法

Info

Publication number: CN114726926B
Application number: CN202210324798.XA
Authority: CN
Inventors: 朱策; 张凡; 姜泽宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-03-31
Anticipated expiration: 2042-03-30
Also published as: CN114726926A

Abstract

本发明属于编码技术领域，具体涉及一种用于拉普拉斯信源的自适应变长编码方法。本发明包含两个部分：自适应参数m的计算以及变长编码的构造。自适应参数m计算由拉普拉斯分布参数以及量化步长决定，由此可以确定最符合该信源分布的变长编码码字。变长编码的构造由自适应参数m决定，由前缀部分和后缀部分组成，该变长编码构造方法区别于任何一种现有的变长编码，是一种编码效率接近最佳码的编码方式。本发明能够适应任意拉普拉斯分布并具有良好的压缩效率。

Description

一种用于拉普拉斯信源的自适应变长编码方法

技术领域

本发明属于编码技术领域，具体涉及一种用于拉普拉斯信源的自适应变长编码方法。

背景技术

拉普拉斯分布信源广泛存在于编码中，如量化残差、小波变换高频系数都服从拉普拉斯分布。

任何均值为μ的拉普拉斯信源都可以通过移位来使该信源关于0对称分布。

一般来说，对信源进行量化在传输或存储能节约相应的资源消耗。当使用量化步长Qstep，得到0均值拉普拉斯信源量化系数并映射到非负整数后的概率分布如下所示：

其中

对于符合上式分布的信源，目前没有针对该概率分布的除哈夫曼编码以外的高效率变长编码方式。

拉普拉斯信源量化系数的概率分布f(c)在c＝0时与c≠0时不属于同一解析式，故考虑其f(c)的等价分布如下

其中k为任意的正整数，规定上式中c＝-0时，c+1＝+0。

现有的变长编码方法包括：哈夫曼编码、一元编码、哥伦布编码、指数哥伦布编码、哥伦布rice编码。

文献“Huffman D A.A method for the construction of minimum-redundancycodes[J].Proceedings of the IRE,1952,40(9):1098-1101.”提出的哈夫曼编码：哈夫曼编码是任何信源的最佳变长编码，其核心思想即为给概率大的符号分配较短码字，给概率小的符号分配较长码字，从而使得平均码长最短。哈夫曼编码的构造时先挑选出概率最小的两个符号，合并这两个符号为一个集合，以这两个符号的概率和代表集合的概率，在集合内通过符号“0”和“1”来区分这两个符号，重复该操作直至只有所有的符号合并到一个集合。图1为哈夫曼编码树构造过程。

哈夫曼编码为最佳变长码，但是出于其编码和解码的复杂性，以及哈夫曼树需要额外的比特进行存储和传输，实际的编码应用中很少使用哈夫曼编码。故以下讨论均不涉及哈夫曼编码。

一元编码：对于符号集合X＝{x₁,x₂,x₃,…}，符号x₁对应的码字为x₁个“0”紧接一个1。一元编码也称为逗号编码。

文献“Golomb S.Run-length encodings(corresp.)[J].IEEE transactions oninformation theory,1966,12(3):399-401.”提出的哥伦布编码是对几何分布信源分布参数

时的补充，几何分布如下所示

f(x)＝(1-ρ)ρ^x

哥伦布编码由前缀部分和后缀部分组成。考虑下式，哥伦布编码即是用前缀部分表示x_q，使用后缀部分表示x_r，其中m为参数。表1为哥伦布编码不同m对应的码字：

x＝m·x_q+x_r

表1哥伦布编码不同m对应的码字

文献“Taubman D,Marcellin M.JPEG2000 image compression fundamentals,standards and practice:image compression fundamentals,standards and practice[M].Springer Science&

Business Media,2012”提出的一种内容自适应的哥伦布编码的参数m的计算方式为：

其中E[X]为信源的期望。

文献“Teuhola J.A compression method for clustered bit-vectors[J].Information processing letters,1978,7(6):308-311.”提出的指数哥伦布编码是变长编码的一种，具有很好的结构性。指数哥伦布编码由前缀和后缀组成，前缀和后缀都依赖于指数哥伦布编码的阶数k，如表2所示，用于表示非负整数N的k阶指数哥伦布码可由下列步骤生成：

1.将数字N由二进制形式写出，去掉最低的k个比特位，之后加1；

2.计算留下的比特数，将此数减1，即是需要增加的前缀0的个数。

3.将步骤1中去掉的最低k个比特位不会比特串尾部。

表2k阶指数哥伦布编码的码字

文献“Gallager R,Van Voorhis D.Optimal source codes for geometricallydistributed integer alphabets(corresp.)[J].IEEE Transactions on Informationtheory,1975,21(2):228-230.”提出的哥伦布Rice编码为哥伦布编码的简化，即当m为2的整数次幂的哥伦布编码。

现有的变长编码方式，虽然能够完成对拉普拉斯信源的编码，但其都不能完全符合拉普拉斯信源的特点，故除哈夫曼编码外其编码效率都不如本文提出的变长编码方法。虽然哈夫曼编码为最佳变长编码，但是其编码和解码都更加复杂，并且哈夫曼树需要更多的比特来传输和存储。

发明内容

本发明提供了一种对于拉普拉斯信源的内容自适应的变长编码方式，本发明从拉普拉斯信源分布出发，构造了一种具有自适应特性且符合信源分布特点的变长码字，优于现有的除哈夫曼编码以外的变长编码方法。

本发明的技术方案如下：

一种用于拉普拉斯信源的自适应变长编码方法，其特征在于，包括以下步骤：

S1、输入待编码的拉普拉斯信源，定义符号集合为X＝{x₁,x₂,x₃,…}；

S2、估计拉普拉斯信源的参数

/>

其中median{}表示获得集合X＝{x₁,x₂,x₃,…}的中位数；

若

则将信源集合X的所有符号减去/>

使得信源关于0对称；若/>

则不对信源集合X操作。得到信源符号集合X′＝{x′₁,x′₂,x′₃,…}，计算信源X′的分布参数/>

其中n为符号集合X′的数目；

S3、对符号集合X′进行量化，量化步长为Qstep，得到量化系数集合C＝{c₁,c₂,c₃,…}，量化的公式为：

c_i＝x′_i/Qstep

S4、将属于整数集合的量化系数集合C映射到正整数，得到编码系数集合C′＝{c′₁,c′₂,c′₃,…}

其中i＝1,2,3…n；

S5、计算编码自适应参数m：

其中，

表示下取整；

S6、根据编码自适应参数m计算码字后缀参数k_a和k_b：

k_a＝k_b+1

S7、对编码系数c′_i进行处理：当m≠2^p-1,p∈N⁺，且当c′_i≠0时，将c′_i加1，其中N⁺为正整数集合；

S8、计算c_i,q和c_i,r：

c_i,q＝c′_i/m

c_i,r＝c′_i％m

其中“％”表示取余运算，“/”表示除法运算，其中i＝1,2,3…n；

S9、计算编码系数c′_i对应的变长编码码字，码字由前缀部分和后缀部分组成：

前缀部分：由c_i,q个0后紧接一个1组成；

后缀部分：定义参数

判断c′_i＝0是否成立，若是，则令suffixCount＝suffixCount-1，同时定义/>

从而得到后缀部分为，由sffixCount个二进制位表示的数值suffix；否则，c′_i＝0不成立，则定义/>

从而得到后缀部分为，由sffixCount个二进制位表示的数值suffix。

本发明的有益效果：

本发明根据信源的概率分布推导得出，相对于其他变长编码方式，本发明构造的码字集合更加适合信源服从的拉普拉斯概率分布，具有更高的编码效率。

本发明中的编码自适应参数m由信源分布参数b和量化步长Qstep决定，本发明能够根据不同信源分布来得到最优变长编码码字集合，达到节省比特提高编码效率的目的。

附图说明

图1是哈夫曼编码树构造过程；

图2是本发明提出的对于拉普拉斯信源的自适应变长编码的构造方法框图；

图3是本发明方法中计算码字的算法框图。

具体实施方式

下面结合附图，详细说明本发明的技术方案。

本发明提出的自适应变长编码方法的思路为：因为符号集合{c}的分布呈现和几何分布的相似性，直接对符号集合{c}应用哥伦布编码求得哥伦布编码中的参数m，最后当m≠2^p-1,p∈N⁺时合并c＝-0和c＝+0时的码字用以表示c＝0，既可得到本发明提出的变长编码方法。本发明实际上是对哥伦布编码在拉普拉斯信源上的改进，最终得到的码字集合区别于哥伦布编码码字集合，并且，相对于哥伦布编码，新得到的变长编码码字具有更高的压缩效率。

以下为本发明的逻辑推导：

考虑量化系数c为下式所示，将对c的编码由对商部分c_q的前缀以及对余数部分c_r后缀组成。其中c_q的概率密度函数由f_Cq(c_q)表示，c_r的概率密度函数由

表示。

c＝m·c_q+c_r

通过改变m的取值，使得一元编码为c_q的最优码字。一元编码为c_q的最优码字的充分条件即为下式：

求解上述不等式即可得到m需要满足的关系为：

将

代入上式，即可得到m的计算公式：/>

其中b为拉普拉斯分布参数，一般根据样本进行参数估计得到的

替代。根据m得到，写出符号集合C＝{-0,+0,1,2,3,…}的哥伦布码字集合为表3所示：

表3哥伦布码字集合

当m≠2^p-1,p∈N⁺时合并c＝-0和c＝+0时的码字以表示符号c＝0，则可得到表4所示的码字集合，即本发明提出的变长编码码字集合。

表4变长编码码字集合

图2展示的本发明提出的对于拉普拉斯信源的自适应变长编码的构造方法框图，图3展示图2中的“计算得到c_i ^′对应的码字”，即步骤F、G、H、I对应的算法框图：

A、进行编码的拉普拉斯信源，其符号集合X＝{x₁,x₂,x₃,…}。

B、拉普拉斯信源，估计其参数

若/>

则将信源集合X的所有符号减去/>

使得信源关于0对称；若/>

则不对信源集合X操作。得到信源符号集合X′＝{x′₁,x′₂,x′₃,…}。。计算信源X′的分布参数/>

C、符号集合X′进行量化，量化步长为Qstep，得到量化系数集合C＝{c₁,c₂,c₃,…}。量化的公式为：

c_i＝x′_i/Qstep

D、于整数集合的量化系数集合C映射到正整数，得到编码系数集合C′＝{c′₁,c′₂,c′₃,…}

其中i＝1,2,3…n。

E、编码自适应参数m。m的计算方式如下：

其中，

表示下取整。

F、根据编码自适应参数m计算码字后缀参数k_a和k_b:

k_a＝k_b+1

G、由于不同m对应的码字计算方式不同，需要先对编码系数c′_i进行处理：当m≠2^p-1,p∈N⁺，且当c′_i≠0时，将c′_i加1，其中N⁺为正整数集合。

计算c_i,q和c_i,r，c_i,q和c_i,r均为自然数。

其中“％”表示取余运算，“/”表示除法运算，其中i＝1,2,3…n。

H、计算编码系数c′_i对应的变长编码码字，码字由前缀部分和后缀部分组成

前缀部分：由c_i,q个0紧接一个1组成；

后缀部分：由suffixCount个二进制位表示的数值suffix，其中

其中，当c′_i＝0时，将suffixCount减1。

/>

步骤B中的参数

的估计方式为：

其中median{}表示获得集合X＝{x₁,x₂,x₃,…}的中位数。参数

的估计方式为：

其中n为符号集合X′的数目。

步骤I得到的是编码系数集合C′对应的码字集合，表二为不同m时编码系数集合对应的码字集合。

下面结合仿真结论证明本发明的有效性：

将本发明公开的自适应变长编码方法应用在SUVC增强层编码时，本发明相对于0阶指数格伦布获得了平均5.13％(Y-PSNR)、5.11％(U-PSNR)、5.14％(V-PSNR)的BD-rate节省，如表5所示：

表5

/>