CN117676149A

CN117676149A - 一种基于频域分解的图像压缩方法

Info

Publication number: CN117676149A
Application number: CN202410148424.6A
Authority: CN
Inventors: 凌强; 王健; 李峰; 方毅
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-03-08
Anticipated expiration: 2044-02-02
Also published as: CN117676149B

Abstract

本发明公开了一种基于频域分解的图像压缩方法，使用非线性分析变换网络将待编码图片转换成隐状态变量；将其输入到超先验分析变换网络，得到超先验变量，将解码的超先验变量输入到超先验合成变换网络，得到上采样的超先验变量；划分得到4个通道隐状态变量块；对于第一个变量块，将上采样的超先验变量输入到通道熵模型来预测均值和方差，然后使用算数编解码进行编码和解码。对于所述非第一个变量，将上采样的超先验变量和所有已经解码的变量块输入到通道熵模型来预测均值和方差，然后使用算法编码进行编码和解码；将上述解码的通道隐状态变量块在通道维度上合并，得到解码的隐状态变量；将其输入到非线性合成变换网络得到解码的图像。

Description

一种基于频域分解的图像压缩方法

技术领域

本发明涉及一种基于频域分解的图像压缩方法，属于图像压缩技术领域。

背景技术

图像压缩是一项基础的计算机视觉任务，目的在于降低图像的存储空间和网络传输带宽。传统的图像压缩标准包括JPEG, JPEG2000, HEVC,VVC等，JPEG由联合图像专家组于1992年发布，主要编解码流程包括变换，量化和编码，已经成为最广泛使用的图像压缩标准。为了进一步提高压缩性能，联合专家组于2000年发布了JPEG2000，JPEG2000重要的改进之一是使用离散小波变换代替了JPEG使用的离散余弦变换。HEVC和VVC属于高级视频编码标准，其帧内模式可以用于图像压缩，高级标准引入了帧内预测模式。帧内预测模式首先会根据已经编码的像素来预测待编码的像素值，再编码待编码像素和预测像素之间的残差。然而，基于传统算法的图像压缩算法依赖于手工设计的编码规则，限制了编码性能的进一步提升。

近年来，随着神经网络模型的发展，基于深度学习的图像压缩算法取得了比传统图像压缩标准更优的性能。基于深度学习的图像压缩算法流程主要包括：非线性分析变换，非线性合成变换，量化，熵模型。其中非线性分析变换将输入的图像转换成隐状态变量，量化将连续的隐状态变量转换成离散的隐状态变量，熵模型用于预测隐状态变量的均值和方差，并根据均值和方差对隐状态变量进行编码和解码，能够降低编码隐状态变量所需的比特数。

对于非线性变换模块，目前已有的方法主要有基于卷积神经网络(CNN)的非线性变换，基于Transformer的非线性变换和基于Transformer和CNN混合模型的非线性变换。基于Transformer和CNN混合模型的非线性变换方法已经被证明能获得比只使用CNN或Transformer的非线性变换更好的效果。已有的方法将输入图像分别输入残差网络和Swin-Transformer网络，残差网络捕获局部的细节信息，Swin-Transformer捕获非全局的上下文信息。然而，上述方法没有考虑到CNN关注图像的高频信息，Transformer关注图像的低频信息，因此，上述简单融合CNN和Transformer结构的方法达不到最优的图像压缩性能。

发明内容

本发明提出了一种基于频域分解的非线性分析网络和非线性合成变换网络提升图像编码的率失真性能。还提出了一种通道熵模型提升图像编码的率失真性能。

本发明的技术方案如下：

一种基于频域分解的图像压缩方法，包括以下步骤：

步骤1：使用基于频域分解的非线性分析变换网络将待编码图片转换成隐状态变量，非线性分析变换网络由卷积层，除法正则化层和频域分解块组成；

步骤2：将所述隐状态变量输入到超先验分析变换网络，得到超先验变量，超先验变量的分辨率是隐状态变量的1/4，对超先验变量进行编码和解码，将解码的超先验变量输入到超先验合成变换网络，得到上采样的超先验变量；

步骤3：将所述隐状态变量输入按照非均匀通道划分的方式得到4个通道隐状态变量块；

步骤4：对于第一个通道隐状态变量块，将步骤2中上采样的超先验变量输入到通道熵模型来预测第一个通道隐状态变量块的均值和方差，然后使用算数编解码进行编码和解码，得到解码的第一个通道隐状态变量块；对于所述第k个通道隐状态变量块，k>1，将步骤2中上采样的超先验变量和已经解码的前k-1个通道隐状态变量块输入到通道熵模型来预测第k个通道隐状态变量块的均值和方差，然后使用算法编解码进行编码和解码；

步骤5：将上述解码的4个通道隐状态变量块在通道维度上合并，得到解码的隐状态变量；将解码的隐状态变量输入到基于频域分解的非线性合成变换网络得到解码的图像，非线性合成变换网络由反卷积层，逆除法正则化层和频域分解块组成。

为了进一步优化上述方案，本发明还包含以下技术措施：

进一步地，步骤1和步骤5中的频域分解块由动态频域滤波器，可逆神经网络块，混合注意力网络块组成；其中假设输入特征为，动态频域滤波器将输入特征/>分解成高频分量/>和低频分量/>，低频分量/>的分辨率设置为输入特征/>分辨率的一半，高频分量的分辨率保持和输入特征分辨率相同,可逆神经网络块在网络传输过程中来处理高频分量/>，得到高频特征/>，进一步构建混合注意力网络块来处理低频分量/>得到低频特征/>，混合注意力网络块由两个基于窗口的Transformer块和一个基于通道的Transformer块组成，基于窗口的Transformer块通过窗口注意力来捕获基于空间窗口的低频长程依赖，基于通道的Transformer块通过通道注意力来捕获基于空间全局的低频长程依赖，低频特征/>经过子像素卷积上采样后和高频特征/>在通道上级联，并采用一个3x3卷积来融合低频特征/>和高频特征/>，将融合后的特征通过残差连接来得到更新的输入特征/>，计算过程表示如下：

，

其中，DFF表示动态频域滤波器，INNB表示可逆神经网络块，HAB表示混合注意力网络块，Conv3x3表示卷积核大小为3x3的卷积层，Subpel表示子像素卷积上采样。

进一步，步骤4中，通道熵模型使用混合注意力网络块来去除低频冗余，混合注意力网络块中的基于窗口的Transformer块和基于通道的Transformer块分别关注基于窗口和全局的空间冗余；通道熵模型首先在通道上级联已经解码的通道隐状态变量块和上采样的超先验变量，然后将级联的特征输入到4层的混合注意力网络块来预测第k个通道隐状态变量块的上下文，再通过两个卷积核大小为/>的卷积层来预测第k个通道隐状态变量块的均值/>和方差/>，假设输入特征为/>，计算过程表示如下：

，

其中，表示卷积核大小为/>的卷积层；当k=1时，输入特征/>仅表示上采样的超先验变量，当k>1时，输入特征/>是由上采样的超先验变量和已经解码的前k-1个通道隐状态变量块在通道上级联的变量，根据已经预测的均值/>和方差/>，通过算数编解码来完成对第k个通道隐状态变量块的编码和解码。

本发明具有以下有益技术效果：

1. 本发明提出了基于频域分解块的非线性分析变换网络和非线性合成变换网络。已有的基于Transformer和CNN的图像压缩模型没有考虑到Transformer具有关注低频特征和CNN关注高频特征的特点，导致特征提取能力较弱。本发明从频域的角度出发，将输入特征分解成高频分量和低频分量，并利用Transformer网络处理低频分量提取低频特征，CNN网络处理高频分量提取高频特征。其中，Transformer网络由基于窗口的Transformer块和基于通道的Transformer块组成的混合注意力网络块(HAB)实现，分别提取基于窗口和全局的低频空间特征。CNN网络由可逆神经网络块组成，能够保证高频的纹理细节不失真。上述频域分解的方法能够有效提高图像编码网络的特征提取能力，降低编码图像所需的比特率，提高解码图像质量。

2. 通道熵模型根据已经编码的通道隐状态变量块和上采样的超先验变量来预测待编码通道隐状态变量块的均值和方差。本发明考虑到经过非线性分析变换提取的隐状态变量具有低频冗余的特点，提出混合注意力网络块(HAB)来实现通道熵模型，混合注意力网络块(HAB)采用基于窗口的Transformer块和基于通道的Transformer块分别捕获空间窗口和空间全局的低频冗余。为低频冗余设计的通道熵模型能够更加准确的预测待编码通道隐状态变量的均值和方差，从而降低编码图像所需的比特率，提高解码图像的质量。

附图说明

图1为图像压缩框架图；

图2为频域分解块图；

图3为动态频域滤波器图；

图4为可逆神经网络块图；

图5为混合注意力网络块图；

图6为图像压缩性能示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

一种基于频域分解的非线性分析变换网络和非线性合成变换网络，所述非线性分析变换网络和非线性合成变换网络由卷积层，反卷积层，除法正则化层，逆除法正则化层和频域分解块组成，如图1所示。

频域分解块如图2所示，假设输入特征为，特征/>输入动态频域滤波器分解成低频特征/>和高频特征/>，其中低频分量/>的分辨率是输入特征的一半，高频分量的分辨率和输入特征相同。低频分量/>输入由Transformer结构组成的混合注意力网络块提取低频特征/>，高频分量/>输入由卷积神经网络结构组成的可逆神经网络块提取高频特征/>。最后，使用子像素卷积上采样低频特征，并和高频特征融合，并利用残差连接来更新输入特征。上述过程可以表示成：

，

其中，表示核大小为/>的卷积层，/>表示子像素卷积层。

动态频域滤波器如图3所示，对于每一个的输入特征，在通道上均匀划分成三等份/>，分别输入到步长为2，核大小为/>的平均池化层来提取低频分量，然后在通道上级联/>得到低频分量/>，上述过程表示如下：

，

其中，分别表示通道划分，平均池化和通道级联操作，平均池化的步长为2。将输入特征/>减去上采样的低频特征得到高频分量/>：

，

其中，表示上采样操作，通过最近邻插值来实现。高频分量的分辨率和输入特征相同。

可逆神经网络块如图4的左图所示，该可逆神经网络块可以由输入特征前向传播得到输出特征，也可以由输出特征反向传播得到输入特征。因此，可逆神经网络块具有在网络传播过程中不损失信息的特点。高频分量包含了大量的纹理和细节信息，采用可逆神经网络块处理高频分量能够保证纹理和细节不失真。可逆神经网络块的前向传播过程表示如下：

，

其中，是高频分量的通道数目，高频分量在通道上被均匀分成两部分，其中/>，/>表示哈达玛乘积。/>可以是任意的映射变换。为了平衡可逆神经网络的性能和计算复杂度，本专利采用瓶颈残差块来实现，瓶颈残差块结构如图4的右图所示。假设输入特征/>，瓶颈残差块通过以下方式来实现：

，

其中，表示核大小为/>的卷积层，/> 表示限制最大输出为6的Relu激活函数，/>表示核大小为/>的深度级卷积层。

混合注意力网络块如图5所示，该混合注意力网络块用于处理低频分量来得到低频特征，包括两个的基于窗口的Transformer块和一个基于通道的Transformer块级联组成。

基于窗口的Transformer块用于提取局部窗口内的低频信息，为了计算多头注意力，假设输入高度为H，宽度为W，通道数为C的特征,该特征首先被划分成个大小为/>的窗口特征。在第一个基于窗口的Transformer块中，采用基于窗口的多头注意力(W-MSA)。在第二个基于窗口的Transformer块中，采用基于滑动窗口的多头注意力(SW-MSA)，滑动距离设置为窗口大小的一半。然后通过线性映射每个窗口内特征得到/>，窗口多头注意力计算如下：

，

其中，表示/>的通道维度，/>表示Softmax激活函数，/>表示相对位置编码。假设输入特征为/>，两个基于窗口的Transformer块的计算表示如下：

，

其中，MLP表示多层感知机，LN表示层归一化，分别表示第一个和第二个基于窗口的Transformer块的输出特征。

基于通道的Transformer块用于进一步扩大感受野，提取全局的低频特征，假设输入特征为，计算表示如下：

，

其中，SCA表示通道注意力，SG表示门控网络。通道注意力实现如下：

，

其中，AVG表示空间全局平均池化，表示通道级乘法操作。门控网络SG使用1x1卷积层(Conv1x1)将通道数扩展到两倍，然后在通道上均匀划分(Split)提取的特征成两部分，再将两部分相乘，假设输入特征为/>，实现过程如下：

，

由待编码图像生成的隐状态变量通常在通道上存在一定的冗余。因为不同通道上的高频分量通常对应编码图像上的纹理和细节特征，所以不同通道的高频分量不存在冗余。隐状态变量每个通道上的低频分量都对应编码图像的语义信息，因此不同通道的低频分量存在冗余。

本发明的通道熵模型使用混合注意力网络块来去除低频冗余。混合注意力网络块中的基于窗口的Transformer块和基于通道的Transformer块分别关注基于窗口和全局的空间冗余。通道熵模型首先在通道上级联已经解码的通道隐状态变量块和上采样的超先验变量，然后将级联的特征输入到4层的混合注意力网络块来预测第k个通道隐状态变量块的上下文，再通过两个卷积核大小为/>的卷积层来预测第k个通道隐状态变量块的均值和方差/>，假设输入特征为/>，计算过程表示如下：

，

其中，表示卷积核大小为/>的卷积层；当k=1时，/>仅表示上采样的超先验变量，当k>1时，/>是由上采样的超先验变量和已经解码的前k-1个通道隐状态变量块在通道上级联的变量，根据已经预测的均值/>和方差/>，通过算数编解码来完成对第k个通道隐状态变量块的编码和解码。

在图6中，测试了本发明和VVC(H266)帧内压缩方法在Kodak数据集上的性能，其中两张图的横坐标是编码每个像素所需的比特数(bpp)，第一张图的纵坐标是负对数结构相似度(-log(1-MS-SSIM))，第二张图的纵坐标是峰值信噪比(PSNR)。从两张图中可以看出，本发明方法能够有效的提高结构相似度(MS-SSIM)和峰值信噪比(PSNR)。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于频域分解的图像压缩方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1和步骤5中的频域分解块由动态频域滤波器，可逆神经网络块，混合注意力网络块组成；其中假设输入特征为，动态频域滤波器将输入特征/>分解成高频分量/>和低频分量/>，低频分量/>的分辨率设置为输入特征/>分辨率的一半，高频分量的分辨率保持和输入特征分辨率相同，可逆神经网络块在网络传输过程中来处理高频分量/>，得到高频特征/>，进一步构建混合注意力网络块来处理低频分量/>得到低频特征/>，混合注意力网络块由两个基于窗口的Transformer块和一个基于通道的Transformer块组成，基于窗口的Transformer块通过窗口注意力来捕获基于空间窗口的低频长程依赖，基于通道的Transformer块通过通道注意力来捕获基于空间全局的低频长程依赖，低频特征/>经过子像素卷积上采样后和高频特征/>在通道上级联，并采用一个3x3卷积来融合低频特征/>和高频特征/>，将融合后的特征通过残差连接来得到更新的输入特征/>，计算过程表示如下：

，

3.根据权利要求2所述的方法，其特征在于，步骤4中，通道熵模型使用混合注意力网络块来去除低频冗余，混合注意力网络块中的基于窗口的Transformer块和基于通道的Transformer块分别关注基于窗口和全局的空间冗余；通道熵模型首先在通道上级联已经解码的通道隐状态变量块和上采样的超先验变量，然后将级联的特征输入到4层的混合注意力网络块来预测第k个通道隐状态变量块的上下文，再通过两个卷积核大小为/>的卷积层来预测第k个通道隐状态变量块的均值/>和方差/>，假设输入特征为/>，计算过程表示如下：

，