CN106658003A

CN106658003A - 一种基于字典学习的图像压缩系统的量化方法

Info

Publication number: CN106658003A
Application number: CN201610857310.4A
Authority: CN
Inventors: 陶晓明; 王隽; 徐迈; 刘喜佳; 葛宁; 陆建华
Original assignee: Tsinghua University; Beihang University
Current assignee: Tsinghua University; Beihang University
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2017-05-10
Anticipated expiration: 2036-09-27
Also published as: CN106658003B

Abstract

一种“基于字典学习的图像压缩系统”的量化方法属于多媒体通信中的图像压缩技术领域，其特征在于，对系数矩阵进行去除零系数、对非零系数值排序、用估计的截断系数百分比截断非零系数序列、归一化保留的非零系数序列，对处理后的非零系数序列用均匀量化法划分成相等的子区间，在每个子区间内独立进行K均值聚类量化，K均值聚类量化的迭代过程中，各类别中所有元素的均值作为所在类别的新的聚类中心，在满足迭代终止条件后，把各类别中的所有非零系数量化为对应的聚类中心值。计算重建图像PSNR，并与设定的重建图像最低PSNR给定值进行比较，调整截断系数百分比，重复进行以上操作，直到重建图像PSNR计算值不低于重建图像最低PSNR给定值为止。本发明与单独使用均匀量化或K均值聚类量化相比，具有最佳量化性能。

Description

一种基于字典学习的图像压缩系统的量化方法

技术领域

本发明属于多媒体通信中的图像压缩技术领域。

背景技术

图像压缩一直是图像处理领域的经典问题之一，旨在于去除图像中的冗余和相关，以实现图像数据的高效传输或存储。为满足日益增长的应用需求，多媒体通信技术的快速发展，视频、图像等多媒体文件不断向更高精度、更高分辨率方向突破，随之而来的庞大数据量对有限的传输带宽以及存储能力提出了严峻的挑战。为了有效解决这一问题，图像压缩一直是图像处理领域的研究热点。

图像压缩方法可分为两大类：即无损压缩和有损压缩。前者要求解码端必须无失真的恢复出原图像，而后者允许存在少量的失真。在实际应用中，我们通常并不要求精确的恢复出原图像，因此有损压缩方法的使用更为广泛。有损压缩系统一般由三部分组成：图像变换，量化和编码。JPEG和JPEG2000是目前最为常用的两种图像压缩标准，分别以离散预先变换(DCT)和离散小波变换(DWT)实现图像变换。在接下来的量化步骤中，JPEG根据人类视觉系统对高、低频系数敏感性的不同选择量化矩阵，控制压缩的比例，在大小和画质中找到平衡；JPEG2000则先用较小的步长对信号进行细致的量化，然后根据用户的需求，采用不同的步长进行逆量化，以提供给用户不同质量的图像。最后，JPEG和JPEG2000分别对量化系数采用霍夫曼编码和算术编码进行熵编码。

近年来，“基于字典学习的图像压缩系统”引起了众多研究者的兴趣。该系统进行图像压缩的思路主要基于图像的稀疏表示理论。所谓稀疏表示，即以少量基函数的线性组合来近似图像信号，从而可以用较少的系数表示图像信息。因此，“基于字典学习的图像压缩系统”的压缩原理就是对图像进行变换，使图像能量得到充分的集中，以获得图像的稀疏表示，进而对其中少量的非零系数进行编码，由此达到压缩的目的。

“基于字典学习的图像压缩系统”的数学模型可表示为：

X＝DW+ε，

其中，X表示待压缩的图像，D表示学习字典，即变换基，W表示稀疏系数矩阵，ε表示近似误差。与DCT和DWT的完备正交基相比，利用过完备变换基的冗余性可以产生更加稀疏的变换系数，因此D一般具有过完备性。同时，不同类别的图像具有各自不同的特点，例如图像可分为自然图像、遥感图像、人脸图像等。进一步细分，遥感图像又可分为平滑图像、细纹理图像、粗纹理图像等，自然图像可分为人物图像、景物图像等。针对特定图像类型选用适应图像内容的过完备变换基，可以更有效的捕捉图像的各种特征。因此，如何训练过完备变换基，即对学习字典算法的研究，成为“基于字典学习的图像压缩系统”的关键之一。该压缩系统的另一关键是，给定待压缩图像X和学习字典D，如何实现图像的稀疏变换，得到系数矩阵W。由于该问题是一个NP问题，难以求得精确解，因此大量研究集中于寻求问题的最优近似解，试图在最小的近似误差下得到最稀疏的解。

“基于字典学习的图像压缩系统”框图如图1所示，包括离线和在线两部分。在离线部分中，编码端采用字典学习算法对大量训练样本进行学习，得到学习字典D，存储在编码和解码两端。在线部分中，采用稀疏编码算法对待压缩图像X在D下稀疏分解，得到系数矩阵W。接下来，提取W中的非零系数Y及相应的位置S，对Y进行量化，对量化系数和S进行熵编码，转换为适合存储或传输的数据形式。在解码端，对接收数据进行熵解码和系数矩阵的重建，将与学习字典D相乘，即可得到重建图像

目前，大多数“基于字典学习的图像压缩系统”以字典学习和稀疏编码算法为研究重点。其中，经典的字典学习算法有KSVD，MOD，ML等，以及稀疏编码算法OMP，Lasso，BP等。

常用量化方法有下列两种：

量化作为图像压缩系统的一大组成部分，发挥着重要的作用。量化用于将信号的连续取值近似为较少的离散值，因此是造成编解码失真的根源。在一定的主观保真度图像的前提下，量化通过丢掉那些对视觉影响不大的信息，获得较高的压缩比。但目前，“基于字典学习的图像压缩系统”尚未对量化展开进一步的研究和技术的创新，现有系统设计普遍采用均匀量化和K均值聚类量化。

均匀量化

设输入信号的最小值和最大值分别为a和b，量化电平数为M，则均匀量化的量化间隔为

量化器输出量化值m_q为

m_q＝q_i，当m_i-1＜m≤m_i

其中，m_i为第i个量化区间的终点，可写成m_i＝a+iΔv，q_i为第i个量化区间的量化电平，可选取i＝1，2，...，M。

通常，均匀量化的性能由量化信噪比S_q/N_q来度量。其中，S_q为量化器的信号功率，表示为

其中，x为输入信号值，f(x)为x的概率密度函数。

N_q为量化噪声功率，表示为

均匀量化操作简单，但它的显著缺点是量化信噪比随信号电平的减小而下降。注意到无论输入信号大小如何，量化噪声的均方根值都固定不变。因此，当信号较小时，量化信噪比很小。

K均值聚类量化

K均值算法是一种聚类算法，它以欧式距离作为相似度准则，将所有数据与K个聚类中心的距离最小为目标进行迭代优化，最终将数据聚为K类，同时得到K个最优的聚类中心。具体算法如下：

(1)初始化：设定迭代终止误差ε，随机选取K个值作为初始的聚类中心Q(0)＝[Q₁(0)，Q₂(0)，...，Q_K(0)]，每个聚类中心代表一个类别。

(2)迭代：

①更新类别：在第m次迭代中，计算所有数据与K个聚类中心的距离，定义为差值的二范数：

距离＝||y_n-Q_k(m)||，n＝1，2，...，N_i k＝1，...，K

将数据归入距离最小的类别中。

②更新聚类中心：将每个类别中所有数据的均值作为新的聚类中心Q_k(m+1)。

(3)若则迭代终止，否则返回(2)。

K均值聚类量化以聚类中心作为量化电平，将数据映射为其所属类别的聚类中心，从而实现量化。K均值聚类量化的步长通常与数据的密集程度相关，即某个范围内的数据越集中，量化越精细。然而当数据具有不同的权重时，尤其是当数据密集区域的权重较小时，该方法的量化性能较差。

发明内容

通过分析图像X由学习字典D变换得到的系数的特点，提出一种“基于学习字典的图像压缩系统”的量化方法。由于量化方法的设计以及参数的选取与系数直接相关，因此在介绍本发明之前，首先对系数特点进行分析。

本发明解决问题的思路：

系数矩阵W为一稀疏矩阵，即包含大量的零系数，以其中少量的非零系数代替W，可达到压缩的目的。由于图像的重要可视信息都集中在幅值较大的系数上，随着系数的幅值减小，所携带的图像有关信息也随之减少。因此，通过舍弃一部分近似为零的系数可进一步提高压缩比。

分别测试10幅遥感图像，10幅自然图像和10幅人脸图像，观察截断系数百分比p对重建图像PSNR的影响，结果取10幅图像的平均值。如图2所示，随着p增大，PSNR呈现下滑趋势，与理论相符。实际应用中，p可根据对重建图像PSNR的需求选取。例如，若要求重建PSNR不低于50dB，则遥感图像，自然图像，人脸图像的截断比例分别取60％，75％，50％。

接下来，进一步观察保留系数的分布特点。为统一图像的系数取值范围，均归一化到(0，10]区间。以1为间隔，将(0，10]区间均匀划分为10个子区间，统计各子区间的系数比例。结果图3如所示。结果表明，90％以上的系数集中在(0，1]区间。若采用均匀量化对保留系数进行量化，由于系数分布的不均匀性，会造成较大的量化误差。若采用K均值聚类量化，根据其最小欧氏距离准则，大多数量化电平将集中在(0，1]区间。但系数的幅值大小与所带信息量的多少呈正相关，因此图像也会因大幅值系数没有分配到足够多的量化电平而产生较大失真。

基于上述分析，本发明提出一种针对“基于字典学习的图像压缩系统”的量化方法。该方法结合了均匀量化和K均值聚类量化，同时根据图像类型以及实际的应用需求，选择合适的参数取值(包括截断系数百分比p，子区间个数M)，实现系数的自适应量化。

本发明的特征在于：是在一个基于字典学习的图像压缩系统中，采用均匀量化和K均值聚类量化相结合的方法依次按以下步骤实现的：

离线部分：

用K-SVD字典学习算法对自然图像、遥感图像、人脸图像或其他类型图像的至少一幅用于训练的图像数据进行学习，得到学习字典，

在线部分：

在编码端，依次按以下步骤把待压缩的图像数据转化为适合信道传输的比特流：

步骤(1)，初始化：

存入所述的学习字典D，

设定一幅待压缩的图像X经重建后至少要达到的峰值信噪比称为重建图像最低给定值，

设定分配给采用均匀量化法均分出的各子区间的初始的量化电平数目c，

设定K均值聚类量化算法在满足终止迭代条件时的误差允许范围ε₁，

设定K均值聚类量化算法的最大迭代次数为T，用t表示迭代次数的序号，

输入：待压缩的图像，先分解为互不重叠的有限数的图像块，再把每个所述图像块拉伸为列向量，组成矩阵，然后用OMP稀疏分解算法对其进行稀疏表示，得到系数矩阵W；

步骤(2)，采用均匀量化和K均值聚类量化相结合的方法对所述系数矩阵W进行量化：

步骤(2.1)，采用均匀量化的方法对截断后保留下来的非零系数序列进行量化，以均分出子区间：

步骤(2.1.1)扫描所述系数矩阵W，以舍弃其中的零值，保留非零系数并记录其行列位置，在对所有的所述非零系数由小到大顺序排序后，得到所述系数矩阵W的非零系数序列Y，表示如下：

Y＝[y₁，y₂，...，y_n，...，y_N]，n为非零系数序号，n＝1，2，...，n，...，N，N为非零系数的个数，并对各非零系数的行列位置进行调整，表示为S，

步骤(2.1.2)，按照步骤(1)中的重建图像最低给定值估计一个截断系数百分比p，顺序截断百分比p的非零系数序列Y，保留下来的非零系数序列记作Y′，并再次调整其行列位置为S′，

步骤(2.1.3)，用均匀量化法划分出所述Y′的各子区间：

把所述Y′均匀划分为估算得到的有限的M段间隔，各间隔长度均为1，把所述Y′归一化到(0，M]区间，对各所述子区间分配等量的量化电平数目，各c个，得到所述Y′的初始的总量化电平数C＝c×M，各间隔表示为：I₁＝(0，1]，I₂＝(1，2]，...，I_M＝(M-1，M]，所述各间隔用子区间I_m表示，m＝1，2，...，m，...，M，下同，

步骤(2.1.4)，把所述Y′中的每一个非零系数按幅值大小归类到各对应的子区间I_m中，得到：Y′₁∈I₁，Y′₂∈I₂，...，Y′_m∈I_m，...，Y′_M∈I_M，其中：Y′_m表示所述Y′中归类到子区间I_m中的所有系数，

步骤(2.2)，对步骤(2.1.4)得到的所有的所述子区间I_m用K均值聚类量化法独立产生量化电平，

步骤(2.2.1)，将属于各所述子区间I_m的所有非零系数记为Y′_m，表示为：n为Y′_m中各元素序号，n＝1，2，...，n，...，N_m，N_m为Y′_m中所有元素的个数，

步骤(2.2.2)，对每个所述子区间I_m进行K均值聚类算法的初始化：

在属于各所述子区间I_m的所有元素Y′_m中任意选取c个元素，构成一个初始聚类中心序列Q_m(0)，符号“0”表示初始状态，Q_m(0)＝{q_m1(0)，q_m2(0)，...，q_mk(0)，...，q_mc(0)}，k是各聚类中心的序号，k＝1，2，...，k，...，c，q_mk表示子区间I_m内第k个聚类中心的值，

步骤(2.2.3)，按以下步骤对各所述子区间I_m进行K均值聚类量化迭代：

步骤(2.2.3.1)，在第t次迭代时，计算Y′_m中的每个元素与各个所述聚类中心q_mk(t)的距离，定义为差值的二范数：

步骤(2.2.3.2)，把每个所述元素归入与自己距离最小的某个聚类中心的类别中，

步骤(2.2.3.3)，更新聚类中心：

经过K均值聚类后，把各类别的所述聚类中心中所有元素的均值作为该类别的新的聚类中心q_mk(t+1)，用于第t+1次迭代，

步骤(2.2.3.4)，若各聚类中心均满足迭代终止条件：则迭代终止，将各类别中所有的非零系数都量化为对应的聚类中心，若所述迭代终止条件不满足，若t＜T，则返回步骤(2.2.3.1)继续迭代，直至满足所述迭代终止条件为止，若t≥T，则迭代终止，返回步骤(2.2.2)重新迭代，直至满足所述迭代终止条件为止，最终得到截断后保留下来的非零系数序列Y′经过K均值聚类量化后的量化值序列Y″，

步骤(3)，采用霍夫曼编码或算术编码对所述Y″及其行列位置S′进行熵编码，去除冗余的图像数据后再将得到的编码符号转化为适合信道传输的比特流发送到解码端，

在解码端，依次执行以下步骤：

步骤(4)，熵解码后，重建系数矩阵简称

步骤(5)，利用预先存储的与编码端存储的相同的学习字典D，与所述相乘，得到重建图像

步骤(6)，按下式计算所述重建图像的

U，V分别为待压缩图像X在横轴u、纵轴v上的像素总数，

步骤(7)，计算重建图像的峰值信噪比与在步骤(1)中的重建图像的最低给定值之差：若：

则程序终止，

则更新截断系数百分比重复执行步骤(2.1.2)至步骤(6)，直到满足终止条件为止。

本发明的优点在于比单独使用均匀量化或K均值聚类量化具有更好的量化性能，尤其在比特率较大时，本发明的性能优势更明显。

附图说明

图1，基于字典学习的图像压缩系统框图。

图2，截断系数百分比与重建图像PSNR，

分别代表遥感图像、自然图像和人脸图像。

图3，非零系数各区间分布比例，

分别代表遥感图像、自然图像和人脸图像。

图4，10幅用于训练学习字典的自然图像样本。

图5，待压缩的自然图像。

图6，三种量化方法用于“基于字典学习的图像压缩系统”的性能比较，

分别代表均匀量化、K均值聚类量化和本发明。

图7，本发明的程序流程框图。

具体实施方式

具体要求：

用图4所示的10幅大小为512×512的自然图像训练学习字典，利用该学习字典对图5所示的大小为512×512的自然图像使用“基于字典学习的图像压缩系统”进行压缩，要求其重建图像PSNR至少达到50dB。

离线部分：

采用K-SVD字典学习算法，以图4所示的10幅大小为512×512的自然图像数据为训练样本，训练一个大小为64×512的学习字典D，

在线部分：

在编码端，依次按以下步骤把图5所示的待压缩的自然图像数据，转化为适合信道传输的比特流：

步骤(1)，初始化：

存入所述的学习字典D，

设定重建图像最低给定值为50dB，

设定分配给采用均匀量化法均分出的各子区间的初始的量化电平数目c为10，

设定K均值聚类量化算法在满足终止迭代条件时的误差允许范围ε₁为(0，0.01)，

设定K均值聚类量化算法的最大迭代次数为T为100，用t表示迭代次数的序号，

输入：待压缩的图像，先分解为大小为8×8的互不重叠的图像块，再把每个所述图像块拉伸为列向量，组成大小为64×4096的矩阵，然后用OMP稀疏分解算法对其进行稀疏表示，得到大小为512×4096的系数矩阵W；

步骤(2.1.1)扫描所述系数矩阵W，其中零系数共计1848322个，非零系数共计248830个，舍弃其中的零值，保留非零系数并记录其行列位置，在对所有的所述非零系数由小到大顺序排序后，得到所述系数矩阵W的非零系数序列Y，表示如下：

Y＝[y₁，y₂，...，y_n，...，y_N]，n为非零系数序号，n＝1，2，...，n，...，N，N为非零系数的个数，N＝248830，并对各非零系数的行列位置进行调整，表示为S，

步骤(2.1.2)，按照步骤(1)中的重建图像最低给定值50dB估计截断系数百分比p，初次设定为70％，则顺序截断百分比p的非零系数序列Y，保留下来的非零系数序列记作Y′，并再次调整其行列位置为S′，

步骤(2.1.3)，用均匀量化法划分出所述Y′的各子区间：

把所述Y′均匀划分为估算得到的有限的7段间隔，把所述Y′归一化到(0，7]区间，将区间(0，7]均匀划分为7段间隔，各间隔长度均为1，对各所述子区间分配等量的量化电平数目，各10个，得到所述Y′的初始的总量化电平数C＝70，各间隔表示为：I₁＝(0，1]，I₂＝(1，2]，...，I₇＝(6，7]，所述各间隔用子区间I_m表示，m＝1，2，...，m，...，7，下同，

步骤(2.2)，对步骤(2.1.4)得到的所有的所述子区间I_m用K均值聚类量化独立产生量化电平，

在属于各所述子区间I_m的所有元素Y′_m中任意选取10个元素，构成一个初始聚类中心序列Q_m(0)，符号“0”表示初始状态，Q_m(0)＝{q_m1(0)，q_m2(0)，...，q_mk(0)，...，q_m10(0)}，k是各聚类中心的序号，k＝1，2，...，k，...，10，q_mk表示子区间I_m内第k个聚类中心的值，

步骤(2.2.3.1)，在第t次迭代时，计算Y′_m中的每个元素与各个所述聚类中心q_mk(t)的距离，定义为差值的二范数：步骤(2.2.3.2)，把每个所述元素归入与自己距离最小的某个聚类中心的类别中，

步骤(2.2.3.3)，更新聚类中心：

步骤(2.2.3.4)，前38次迭代均不满足迭代终止条件：返回步骤(2.2.3.1)继续迭代，第39次迭代后，各聚类中心均满足迭代终止条件，迭代终止，将各类别中所有的非零系数都量化为对应的聚类中心，最终得到截断后保留下来的非零系数序列Y′经过K均值聚类量化后的量化值序列Y″，

在解码端，依次执行以下步骤：

步骤(4)，熵解码后，重建系数矩阵简称

步骤(6)，按下式计算所述重建图像的

步骤(7)，计算重建图像的峰值信噪比与在步骤(1)中的重建图像的最低给定值之差：

则更新截断系数百分比再次执行步骤(2.1.2)至步骤(6)，

经计算，满足终止条件。

分别使用均匀量化和K均值聚类量化替换掉本发明的量化方法，同样对图5所示的自然图像通过“基于字典学习的图像压缩系统”进行压缩，对单独使用均匀量化、K均值聚类量化时的性能和使用本发明提出的量化方法的性能进行比较，结果如图6所示。低比特率下，三者的性能相近，随着比特率的提高，三者性能均稳步上升，差距也逐渐拉开。例如当比特率为1bpp时，使用本发明提出的量化方法比单独使用均匀量化和K均值聚类量化分别有1dB和2dB的性能优势。

Claims

1.一种“基于字典学习的图像压缩系统”的量化方法，其特征在于，是在一个“基于字典学习的图像压缩系统”中，采用均匀量化和K均值聚类量化相结合的方法依次按以下步骤实现的：

离线部分：

在线部分：

步骤(1)，初始化：

存入所述的学习字典D，

Y＝[y₁,y₂,...,y_n,...,y_N]，n为非零系数序号，n＝1,2,...,n,...,N，N为非零系数的个数，并对各非零系数的行列位置进行调整，表示为S，

步骤(2.1.3)，用均匀量化法划分出所述Y′的各子区间：

把所述Y′均匀划分为估算得到的有限的M段间隔，各间隔长度均为1，把所述Y′归一化到(0,M]区间，对各所述子区间分配等量的量化电平数目，各c个，得到所述Y′的初始的总量化电平数C＝c×M，各间隔表示为：I₁＝(0,1]，I₂＝(1,2]，...，I_M＝(M-1,M]，所述各间隔用子区间I_m表示，m＝1,2,...,m,...,M，下同，

步骤(2.1.4)，把所述Y′中的每一个非零系数按幅值大小归类到各对应的子区间I_m中，得到：Y₁′∈I₁，Y₂′∈I₂，...，Y_m′∈I_m，...，Y′_M∈I_M，其中：Y_m′表示所述Y′中归类到子区间I_m中的所有系数，

步骤(2.2.1)，将属于各所述子区间I_m的所有非零系数记为Y_m′，表示为：

n为Y_m′中各元素序号，n＝1,2,...,n,...,N_m，N_m为Y_m′中所有元素的个数，

在属于各所述子区间I_m的所有元素Y_m′中任意选取c个元素，构成一个初始聚类中心序列Q_m(0)，符号“0”表示初始状态，Q_m(0)＝{q_m1(0),q_m2(0),...,q_mk(0),...,q_mc(0)}，k是各聚类中心的序号，k＝1,2,...,k,...,c，q_mk表示子区间I_m内第k个聚类中心的值，

步骤(2.2.3.1)，在第t次迭代时，计算Y_m′中的每个元素与各个所述聚类中心q_mk(t)的距离，定义为差值的二范数：

步骤(2.2.3.3)，更新聚类中心：

步骤(2.2.3.4)，若各聚类中心均满足迭代终止条件：则迭代终止，将各类别中所有的非零系数都量化为对应的聚类中心，若所述迭代终止条件不满足，若t<T，则返回步骤(2.2.3.1)继续迭代，直至满足所述迭代终止条件为止，若t≥T，则迭代终止，返回步骤(2.2.2)重新迭代，直至满足所述迭代终止条件为止，最终得到截断后保留下来的非零系数序列Y′经过K均值聚类量化后的量化值序列Y″，

在解码端，依次执行以下步骤：

步骤(4)，熵解码后，重建系数矩阵简称

步骤(6)，按下式计算所述重建图像的

{PSNR}_{\hat{X}} = 10 \times l o g \frac{255^{2}}{\sqrt{Σ_{u = 1}^{U} Σ_{v = 1}^{V} {(\hat{X} (u, v) - X (u, v))}^{2}}}

U,V分别为待压缩图像X在横轴u、纵轴v上的像素总数，

则程序终止，