CN107666324B

CN107666324B - 一种polar码结合算术编码的信源有损压缩编码方法

Info

Publication number: CN107666324B
Application number: CN201710841670.XA
Authority: CN
Inventors: 刘荣科; 冯宝平; 王闰昕; 赵岭
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2021-01-01
Anticipated expiration: 2037-09-18
Also published as: CN107666324A

Abstract

本发明提供了一种polar码结合算术编码来实现信源有损压缩的编码方法，属于通信领域。本发明通过利用polar码的极化Z(U_i|U₁i‑1,Y₁ ^N)来保证系统的失真性能，然后选择算术编码实现更好的压缩性能。在有限长情况，算术编码可以近似达到无损压缩容量，并且该方法的理论性能不同于polar码极化Z(U_i|U₁i‑1)的渐近性能，算术编码在有限长时也能达到很好的性能。本发明polar码和算术编码结合的结构，同时进行极化和编码，算术编码压缩时依然使用基于polar码使用的概率进行计算。因此，使用polar码结合算术编码来实现信源有损压缩编码可以获得更好的性能，同时算术编码的复杂度对于码长是线性的，所以使用算术编码几乎不影响总的复杂度。

Description

一种polar码结合算术编码的信源有损压缩编码方法

技术领域

本发明属于通信信道编码技术领域，具体涉及一种polar码结合算术编码的信源有损压缩编码方法。

背景技术

Polar Codes，即极化码，是2009年由E.

提出的一种新型信道编码，是第一种能够通过严格的数学证明达到信道容量的编码方案。Polar码基于信道极化的性质，在码长趋于无穷时，可以将原始信息编码成两部分，一部分由之前的比特和信道接收信息决定，另一部分几乎随机。在信道编码中，被决定的部分用于保护信息，根据信道接收到的信息，就可以恢复原始信息，这一方案符合信道编码的要求。同时几乎随机的部分也有重要的意义，在压缩数据时，我们希望将信息压缩到完全随机，来实现信息最大程度的压缩，polar编码中几乎随机的部分正好满足这点，所以，polar码也可以作为信源编码。

然而，polar码的极化是一种渐近性质，完美极化需要无限长码长，有限长码长时的性能总不是很理想。为了改进polar码的有限长性能，一方面可以改进polar码在有限长的编译码结构，来改进整体性能，另一方面，可以替换polar码中的部分极化结构，从而得到更好的有限长性能。虽然在信道编码或有损压缩中没有其他的结构可以在有限长时最优，但是在无损压缩当中，有很多结构可以在有限长时达到几乎最优的性能。例如，算术编码即使在有限码长时依然具有良好的压缩性能。

发明内容

为了改进polar码的有限长性能，本发明提供了一种polar码结合算术编码的信源有损压缩编码方法，用算术编码代替polar编码过程中的部分极化，从而实现有限长时，polar码在信源压缩中得到更好的性能。

本发明提供的polar码结合算术编码的信源有损压缩编码方法，包括：

步骤1：根据互信息

确定冻结集；

设信源序列Y₁ ^N经失真重构为输入码字序列

压缩码字序列

G_N为极化码的生成矩阵；

统计U_i与

的条件熵

以及U_i与Y₁ ^N,

的条件熵

计算已知

输入U_i与输出Y₁ ^N的互信息

其中，N为正整数，U_i表示第i个压缩码字；

根据每个子信道的互信息大小确定冻结集

信息集

步骤2：用polar码进行有损压缩。

利用polar编码将Y₁ ^N转化为

根据Polar码的极化作用，将Y₁ ^N压缩为码字序列

同时计算出概率

表示u_i与序列

的条件概率，其中u_i、

分别为U_i、

Y₁ ^N的标量表示。

步骤3：用算术编码进行无损压缩。

根据概率

对

的压缩码字

中的比特u_i进行算术编码，设编码后码字为

其中b取值为0或1，所得到的

作为

最终的压缩码字。

本发明提出的一种polar码结合算术编码的信源有损压缩方法，与现有的只用polar码做有损压缩的方法相比较，具有如下优点和积极效果：

(1)本发明方法在有限码长下，用算术编码替换polar码中进行无损压缩部分可以提高压缩性能。利用算术编码代替用于设置重构码字分布的

的极化，算术编码对于有限码长N的压缩可以几乎达到

的熵率，相对于polar码有限码长N时对于

的无损压缩，算术编码可以取得更好的性能。同时，本发明采用的方法可以保持polar码的理论性能和低复杂度性能。

(2)本发明方法中的polar码和算术编码结合的结构，不是简单地编码级联，是可以同时进行极化和编码，两种运算并不冲突，算术编码压缩时依然使用基于polar码使用的概率进行计算。

附图说明

图1是本发明所提供的有损信源编码模型示意图；

图2是本发明的polar码结合算术编码的信源有损压缩编码方法的流程图；

图3是本发明所提供的有损信源编码结构示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供了一种polar码结合算术编码来实现信源有损压缩的编码方法。本发明方法通过利用polar码的极化

来保证系统的失真性能，然后选择算术编码实现更好的压缩性能。在有限长情况，算术编码可以近似达到无损压缩容量，并且该方法的理论性能不同于polar码极化

的渐近性能，算术编码在有限长时也能达到很好的性能。因此，使用polar码结合算术编码来实现信源有损压缩编码可以获得更好的性能，同时算术编码的复杂度对于码长是线性的，所以使用算术编码几乎不影响总的复杂度。Z(X|Y)是Bhattacharyya参数，用来度量X和Y的相关性的大小。

设在有损压缩中，

是需要被压缩的信源，

表示信源的分布空间，X∈{0,1}是Y的重构信息，W(Y|X)是测试信道的转移概率，U作为压缩码字。本发明的信道模型如图1所示，输入信源Y经失真重构为输入码字X，输入码字X经过极化编码器和算术编码器编码压缩输出压缩码字U，压缩码字经过传输被接收后经过译码器还原为码字X。

对于N个独立同分布(i.i.d.)的(X,Y)，设

表示测试信道的N个输入和输出对，经过压缩后得到的压缩码字为

其中

G_N表示极化码的生成矩阵。

以及

利用Y₁ ^N的极化可以表示为：

针对有损压缩，定义

P_X,Y(0,y)和P_X,Y(1,y)分别表示输出为y，输入是0和1的联合概率。

表示信源编码中输入U_i时，输出

Y₁ ^N的可能性的大小。

表示输入U_i与输出

的可能性。β是任意值且β＜1/2。H(X|Y)表示变量X和Y的条件熵，熵用来描述信息的统计特征，定义为随机变量的平均自信息量的大小。U_i表示压缩码字的第i个比特，

表示包含第1个至第i-1个比特的压缩码字序列，Y₁ ^N表示包含第1个至第N个比特的信源序列，

表示包含第1个至第N个比特的输入码字序列。N为正整数，代表子信道个数。

本发明实现polar码结合算术编码来进行信源有损压缩的编码方法，主要流程如图2所示，下面说明各实现步骤。

步骤1，确定冻结集。

信道好坏的度量可以用互信息I确定，根据条件互信息的定义，有

其中，

表示已知码字

输入U_i与输出Y₁ ^N的互信息的大小；

表示U_i与

的条件熵，

表示U_i与Y₁ ^N,

的条件熵。分别统计

和

并根据其差值的大小，直接使用条件互信息作为选择位置的依据。

在非对称条件时，由于错误不再有对称特性，不能用某个码字下的错误概率估算一般情况下的错误概率，冻结集选择使用Monte Carlo方法。在实际使用时，可以用时间平均代替集平均，用Monte Carlo仿真的方式统计

条件熵，表示如下：

其中，E(.)表示随机变量的数学期望，

表示变量的集平均，E_T(.)表示变量的时间平均。

表示输入u_i与输出

的条件概率。U_i和

分别为u_i和

的向量表示，Y₁ ^N为

的向量表示，

为

的向量表示，小写字母代表是标量，是具体实例。

表示输入u_i与输出

的条件概率。对于信道的熵来说，集平均表示不同的信道在同一时刻的熵的统计值，时间平均表示同一信道在不同时刻的熵的统计值，由于集平均的统计在实际使用时应用比较困难，时间平均的计算可以对一个样本进行长时间的统计，得到其统计数据，一般比较容易实现。因此，熵是一个统计数据，是集平均，在实际使用时，可以用时间平均来近似代替集平均。

然后，根据每个子信道的互信息的大小来选择编码输入序列的冻结集与信息集，互信息按照式(4)进行统计选择。

其中，

表示序列

的联合概率，

表示u_i关于序列

的条件概率，

表示序列

与序列

的联合概率。E_T(.)表示随机变量的数学期望，是时间平均。

表示时刻t时u_i与序列

的条件概率，

表示时刻t时u_i与序列

的条件概率，t表示不同的时间。根据式(3)关于集平均与时间平均的解释，因为这里是时间平均，即统计该信道在不同时刻的熵的大小。

概率

通过每次译码计算得到，通过多次译码获得一系列不同Y₁ ^N,

取值时的概率值

用这些概率值按上式取时间平均近似精确值。具体而言，概率

是polar码译码判决函数，每次译码都需要计算，而与普通译码的不同在于，这个计算的概率需要的是真实概率，即译码时需要使用训练序列，使用预先得知的译码输入信息

进行计算，而不能直接根据前面比特的译码结果

计算。

确定冻结集的步骤包括：

步骤1.1：根据Monte Carlo算法统计得到的每个码字的互信息

步骤1.2：对所得到的互信息

从小到大进行排序；

步骤1.3：根据编码参数：码率和码长，计算冻结集和信息集的长度；

步骤1.4：选择排序后前

个互信息的索引作为冻结集，其余

个索引作为信息集。其中，

表示一个集合，包含位置1到位置N中的部分元素，这些位置被选为冻结位，

是其补集，表示信息位的集合，

|.|表示集合中元素的数目。

以Honda J.,Yamamoto H等在2013年公开了一种polar编码(参考文献：Honda J.,Yamamoto H..Polar coding without alphabet extension for asymmetric models[J].IEEE Transactions on Information Theory,2013,vol.59,no.12,pp.7829-7838)作为对比，该方法简称HY方法。本发明方法相对于HY方法，通过分别统计

和

并根据其差值的大小，直接使用条件互信息

作为选择位置的依据，选择冻结集的计算更简单。

步骤2，用polar码进行有损压缩。

利用polar编码将信源Y₁ ^N转化为非均匀重构码字

如图1信源编码模型所示，根据Polar码的极化作用，将信源序列Y₁ ^N压缩为码字序列

计算过程如图所示。

步骤2.1，对于

为冻结集，根据下式决定u_i；

比特

采用随机方式决定，用λ_i:{0,1}^i-1→{0,1}表示决定冻结比特u_i的函数，用Λ_i表示λ_i的函数族。对任意

根据以下条件选择λ_i。

表示u_i＝1时，关于序列

的条件概率。对于非对称系统，不同的冻结位置采用不同的随机函数，公式(6)表示不同位置在函数族中选择对应的随机函数。

特别地，本发明通过编译码端共享伪随机数实现随机函数λ_i，生成u_i如下。

步骤2.2，对于

为信息集，根据下式决定u_i，如下：

根据重构信源

的概率分布计算压缩后信息

概率分布，已知

即可以认为

是

的一个函数。在这种情况下，当

的概率分布给定时，

的概率分布也就给定了。对于polar码来说，当

的概率分布给定时，

可以通过polar码的SC(连续删除译码)算法计算得到。因为，有如下公式推导成立：

表示u_i＝0时与序列

的联合概率，

表示u_i＝1时与序列

的联合概率，

表示u_i＝1时与序列

的联合概率，

表示u_i＝0时与序列

的联合概率，

表示序列

的联合概率。

式(9)的计算与式(10)信道编码的计算非常相似，都可以用递归算法计算。区别仅在于初始化输入，信道编码时的输入为

而式(9)的输入为

当

不是均匀分布时，不同位置的U_i将会具有不同的概率分布。

步骤3，用算术编码进行无损压缩。根据概率

对

的u_i进行算术编码，编码为

其中b∈{0,1}，

作为

的码字。

步骤3.1：根据步骤2得到需要压缩的信息序列为

待压缩的信息字符为0和1两种，信息序列中每个信息出现的概率

为了算法描述简洁，将信息序列改写为

概率表示为

步骤3.2：算术编码初始区间s＝[0,1]，首先根据信息序列的第一个概率值p₁，将区间划分为[0,p₁)和[p₁,1]，然后根据v₁的值更新s，如果v₁＝0，则s＝[0,p₁)，如果v₁＝1，则s＝[p₁,1]。

步骤3.3：对于第k个信息，根据第k-1个信息得到的概率区间s＝[p′,p″)，取信息序列的第k个概率值p_k，将区间s＝[p′,p″)划分为[p′,p′+(p″-p′)*p_k)和[p′+(p″-p′)*p_k,p″)，然后根据v_k的值更新s，如果v_k＝0，则s＝[p′,p′+(p″-p′)*p_k)，若v_k＝1，则s＝[p′+(p″-p′)*p_k,p″)。

步骤3.4：重复执行步骤3.3，直到

得到更新后的s，然后在区间s内选择一个容易用二进制表示的数，作为信息序列进行算术压缩编码十进制结果，将其转化为二进制表示，然后去掉小数点和小数点左边的0，所得序列即为信息序列

的压缩结果，记所得序列为

其中b∈{0,1}，将

作为

的压缩后的最终码字。

实施例：

信源输入为Y₁ ^N＝{y₁,y₂,y₃,...,y_N}，y_i∈{0,1}，测试信道的信道转移概率为w(y|x)。依据本发明方法进行如下步骤，对Y₁ ^N进行压缩编码。

步骤1，确定冻结集

根据蒙特卡罗算法统计每个码字的互信息

具体应用到实际系统中则需要统计的是

概率

是polar码译码判决函数，每次译码都需要计算，然后根据公式(4)计算出

蒙特卡罗算法就是多次实验，取其统计结果，作为实际值，一般实验次数越多，统计得到的结果越准确。计算出每个码字的互信息之后，对其进行从小到大排序。接下来根据编码参数：码率R和码长N，确定冻结集和信息集的长度，用

表示冻结集，

表示信息集，集合里面的元素为编码序列位置1到位置N的部分位置集合，并且

将排序后的互信息的前

个位置选为冻结集，将这些位置加入集合

中，剩余位置作为信息集，加入集合

中。

步骤2，用polar码进行有损压缩，将信源Y₁ ^N压缩为

并且计算出概率

用于步骤3。已知测试信道的信道转移概率为w(y|x)，

由于G_N是可逆矩阵，并且在模2运算下，G_N*G_N＝I_N，I_N是单位矩阵，所以，已知信道转移概率，根据Y₁ ^N计算U可以看作是信道译码的过程，所以可以根据算式(10)的信道译码公式，求出步骤2.2中概率

和

从而根据算式(8)可以确定

但是这里要计算

必须已知

所以为了保证计算的所有可能情况，仍然需要计算

的值。在信道编码中冻结集比特错误概率较高，不能用来传输信息，因此一般将冻结位置设为固定值，而在压缩信源编码中，冻结集位置错误概率较高，每个位置的值比较随机，导致彼此相关性较差，无法进行压缩，因此，在压缩信源编码中用随机函数λ_i生成冻结集位置的值，这里选用一组随机函数去计算每个位置的值是考虑到一般情况，即当系统是非对称时，对于冻结比特的每一个值其随机函数的决定方式是不同的，所以可以提前生成一系列随机函数族或者假设系统是对称的，用一个随机函数去实现，并且编译码端共享该随机函数生成的随机数，然后根据算式(7)确定冻结集的每个比特位的值，其中

可以根据Polar码的SC译码的递归计算得到，递归过程如下式计算：

其中，小脚标e表示偶数，o表示奇数。

已知时，算式(9)保证了

可以被计算出来，这里需要考虑当

不是均匀分布时，不同位置的U_i将会具有不同的概率分布，式(9)的初始化输入也需要随

的分布而变化，以上过程可以确定

并同时可以得到

的值。

步骤3，用算术编码对

进行无损压缩，得到码字

将其作为最终

的压缩码字；根据步骤2得到polar码的压缩后的结果

作为算术编码的输入信息，即

u_i∈{0,1}，输入信息序列中每个位置的信息出现的概率

即步骤2得到的结果。

首先，将信息序列改写为

概率

然后，进行算术编码，给定算术编码初始区间s＝[0,1]，根据输入信息序列的第一个概率值p₁，将区间划分为[0,p₁)和[p₁,1]，然后根据v₁的值更新概率区间s，更新步骤如下：

如果v₁＝0，则s＝[0,p₁)，否则v₁＝1，s＝[p₁,1]。

对于第k个信息，根据第k-1个信息得到的概率区间s＝[p′,p″)，取信息序列的第k个概率值p_k，将区间s＝[p′,p″)划分为[p′,p′+(p″-p′)*p_k)和[p′+(p″-p′)*p_k,p″)，然后根据v_k的值更新s，如果v_k＝0，则s＝[p′,p′+(p″-p′)*p_k)，如果v_k＝1，则s＝[p′+(p″-p′)*p_k,p″)。直到

得到更新后的s，然后在区间s内选择一个容易用二进制表示的数，作为

进行算术压缩编码后十进制结果，将其转化为二进制表示，然后去掉小数点和小数点左边的0，所得序列即为

的压缩结果，记所得序列为

其中b∈{0,1}，将

作为最终

的压缩码字。

在HY方法中有损和无损压缩是同时使用polar码进行，本发明方法在给定Y₁ ^N时用polar码进行有损压缩，在不需要给定Y₁ ^N时就已经确定的部分使用算术编码进行无损压缩，即用算术编码代替用于设置重构码字分布的

的极化，只用

的极化实现有损压缩保证其失真性能。算术编码对于有限码长N的压缩可以几乎达到

的熵率，相对于polar码有限码长N时对于

的无损压缩，算术编码可以取得更好的性能。因此本发明所提的结构相较于现有的HY结构可以得到更小的码率。