CN113709455A

CN113709455A - 一种使用Transformer的多层次图像压缩方法

Info

Publication number: CN113709455A
Application number: CN202111138182.5A
Authority: CN
Inventors: 刘美琴; 梁甲名; 林春雨; 白慧慧; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-11-26
Anticipated expiration: 2041-09-27
Also published as: CN113709455B

Abstract

本发明公开一种使用Transformer的多层次图像压缩方法，以Transformer模块为主，辅之以卷积层神经网络的多层次的图像压缩框架，Transformer模块包括多层编码器组件组件、解码器组件，编码端采用编码器组件，解码端采用解码器组件；解码器拥有交叉注意力机制，该交叉注意力机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算，对压缩压缩框架编码器的编码端学习到的特征充分利用。本发明保留了Transformer中的解码器组件及其交叉注意力机制，应用在解码端以实现对编码端学习到的特征的充分利用，达到更好的效果。且本发明框架对硬件的需求更小。

Description

一种使用Transformer的多层次图像压缩方法

技术领域

本申请涉及计算机技术图像处理领域，尤其涉及一种使用Transformer的多层次图像压缩方法。

背景技术

随着互联网和数字媒体的飞速发展、大数据时代的到来，互联网上每天都有海量的图像数据产生、存储和传输，这些数据会占用很大空间和带宽。为了实现更高效的存储和传输图像数据，图像压缩算法应运而生。图像压缩旨在通过去除图像数据中的冗余信息以减少表示数字图像时需要的数据量，从而实现对图像数据的高效压缩，这也是图像处理领域常见的基本研究问题之一。

在较早的时期，一些经典的传统图像压缩算法被研究出来，比如离散余弦变换(DCT变化)、矢量量化、差分脉冲编码调制、游程编码、哈夫曼编码、算术编码等，传统的图像压缩框架通过使用这些算法，实现了不错的压缩效果，比如经典的JPEG标准[G.K Wallace,“The JPEG still picture compression standard”,IEEE Trans.on ConsumerElectronics,vol.38,no.1,pp.43-59,Feb.1991.]，以及后来的JPEG2000[Majid Rabbani,Rajan Joshi,“An overview of the JPEG2000still image compression standard”,LSEVIER Signal Processing:Image Communication,vol.17,no,1,pp.3-48,Jan.2002.]、BPG(HEVC帧内编码)[G.J.Sullivan,J.Ohm,W.Han and T.Wiegand,“Overview of theHigh Effificiency Video Coding(HEVC)Standard”,IEEE Transactions on Circuitsand Systems for Video Technology,vol.22,no.12,pp.1649-1668,Dec.2012.]、VVC帧内编码[G.J.Sullivan and J.R.Ohm,“Versatile video coding Towards the nextgeneration of video compression”,Picture Coding Symposium,Jun.2018.]等，它们的效果都逐步提升，并且广泛地应用在互联网、工业等领域。

后来，随着深度学习的发展，许多基于卷积神经网络的图像压缩框架被提出来，并且在效果上实现了对传统压缩算法的超越。最早的是由Google团队于2017年提出的一种端到端的图像压缩框架bls2017[Ballé J,Laparra V,Simoncelli E P.End-to-endoptimized image compression[J].arXiv preprint arXiv:1611.01704,2016.]，后来的基于深度学习的图像压缩框架也都是在此框架的基础上改进的。该框架采用自编码器[P.Vincent,H.Larochelle,Y.Bengio and P.-A.Manzagol,“Extracting and composingrobust features with denoising autoencoders”,Intl.conf.on Machine Learning(ICML),pp.1096-1103,July 5-9.2008.]风格，使用卷积神经网络来代替压缩框架中的变换部分，以在图像数据中学习利于量化编码的特征，同时该工作还提出了GDN/IGDN方法，对像素域特征进行分裂归一化，处理后特征的分布相比于其他非线性方法对压缩任务更有利。2018年，Google团队提出了一种使用超先验的图像压缩框架bmshj2018[Ballé J,Minnen D,Singh S,et al.Variational image compression with a scale hyperprior[J].arXiv preprint arXiv:1802.01436,2018.]，该工作通过改进熵编码部分，在编码的过程中添加超先验模块对特征的分布进行学习和预测并建模成高斯分布，如此使得对提取出的特征的重建更加精确，减少了信息量，实现了效果的提升。同年，Google又对熵编码部分进行改进，提出了使用上下文模块的分层超先验的框架mbt2018[Minnen D,Ballé J,Toderici G.Joint autoregressive and hierarchical priors for learned imagecompression[J].arXiv preprint arXiv:1809.02736,2018.]，虽然上下文模块的实现是自回归的，这难免会使得运算速度变慢，但也又进一步提升了特征重建的精确性，从而提升了框架性能。2020年，早稻田大学的团队提出了一种基于高斯混合模型的框架[Cheng Z,Sun H,Takeuchi M,et al.Learned image compression with discretized gaussianmixture likelihoods and attention modules[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020:7939-7948.]，它将超先验中使用的单高斯分布改进为包含三个子高斯分布的混合高斯分布，进一步提高了对特征计算的精确性。除了这些，还有很多其他的工作从其他方面对压缩框架进行改进，比如工作[Lee J,Cho S,Kim M.An End-to-End joint learning scheme of image compressionand quality enhancement with improved entropy minimization[J].arXiv preprintarXiv:1912.12817,2019.]在框架的解码端之后添加了用于去噪的GRDN模型作为后处理模块，同时调整训练策略，实现了对重建图像质量的提升；工作[Zhou,A.Nakagawa,K.Kato,S.Wen,K.Kazui and Z.Tan,"Variable Rate Image Compression Method with Dead-zone Quantizer,"2020 IEEE/CVF Conference on Computer Vision and PatternRecognition Workshops(CVPRW),2020,pp.624-628,doi:10.1109/CVPRW50498.2020.00089.]改进了压缩框架的量化部分，近似实现了可变码率的效果(图像压缩在不同码率有不同的重建质量，通常要为每个码率分别获取一个对应的模型)；工作[Zhang R,Isola P,Efros A A,et al.The unreasonable effectiveness of deepfeatures as a perceptual metric[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2018:586-595.]思考了图像压缩框架效果的评价标准，从主观视觉感受的角度提升模型的效果，等等。

2021年，将原本在自然语言处理领域用于做文本翻译的Transformer[Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neuralinformation processing systems.2017:5998-6008.]迁移至计算机视觉领域成了一个潮流，陆续有很多工作被提出。最开始，IPT[Chen H,Wang Y,Guo T,et al.Pre-trainedimage processing transformer[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2021:12299-12310.]、ViT[Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16x16 words:Transformers forimage recognition at scale[J].arXiv preprint arXiv:2010.11929,2020.]通过大量的实验实现了使用Transformer解决视觉任务。后来，CvT[Wu H,Xiao B,Codella N,etal.Cvt:Introducing convolutions to vision transformers[J].arXiv preprintarXiv:2103.15808,2021.]、PVT[Wang W,Xie E,Li X,et al.Pyramid visiontransformer:A versatile backbone for dense prediction without convolutions[J].arXiv preprint arXiv:2102.12122,2021.]、Swin-Transformer[Liu Z,Lin Y,CaoY,et al.Swin transformer:Hierarchical vision transformer using shiftedwindows[J].arXiv preprint arXiv:2103.14030,2021.]等工作陆续发布，它们采用了全新的分层结构的框架，填补了IPT、ViT不能适应输入数据具有高分辨率的缺陷，也通过基于窗口的方法解决了Transformer显存占用大的问题，实现了不错的效果。Uformer[Wang Z,Cun X,Bao J,et al.Uformer:A General U-Shaped Transformer for ImageRestoration[J].arXiv preprint arXiv:2106.03106,2021.]在分层架构的基础上，模拟UNet添加了跳接的设计，通过对特征的复用实现更好的图像重建效果。

这些Transformer的工作中，IPT、Uformer等是用于实现图像去噪、图像超分变率等任务的；ViT、CvT、PVT、Swin-Transformer等工作是用于实现高层视觉任务的，如图像分类；但是尚未有工作使用Transformer实现图像压缩任务，且由于图像编码与计算机视觉任务间存在的差异，实现使用Transformer进行图像压缩的过程中必然还有很多其他要面对的难题。

现有的基于深度学习的图像压缩框架都是使用卷积神经网络实现的，但是由于卷积神经网络是在局部感受野内进行计算的，所以卷积神经网络并不能很好的学习局部区域之外的远距离信息或全局信息。Transformer具备优秀的学习全局信息的能力，并且Transformer中的注意力机制也相当于为特征值分配权重，从而可以使处理之后的特征值的分布更有利于压缩任务的效果。于是本发明实现了一个以Transformer模块为主，辅之以卷积层的多层次的图像压缩框架，该框架可以在利用卷积降低特征图分辨率、提取局部特征的同时兼顾全局特征分布，从而实现优秀的图像压缩效果。

近来涌现出许多将Transformer迁移至计算机视觉领域任务的工作，Transformer包括编码器和解码器两种组件，解码器组件与编码器组件最大的不同在于解码器拥有交叉注意力机制，该机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算，以充分利用编码端的学习结果。而前面所提到的那些工作在引用Transformer时，丢弃了解码器组件。

发明内容

本发明的发明目的是提供一种保留了解码器组件并应用于压缩框架的解码端、以利用其交叉注意力机制对压缩框架编码端学习到的特征进行充分利用的使用Transformer的多层次图像压缩方法。

为实现本发明的发明目的，本发明提供的技术方案是：一种使用Transformer的多层次图像压缩方法，所述的多层次图像压缩方法为以Transformer模块为主，辅之以卷积层神经网络的多层次的图像压缩框架，该框架利用卷积层神经网降低特征图分辨率、提取局部特征的同时兼顾全局特征分布；其中，Transformer模块包括多层编码器组件组件、解码器组件，编码端采用编码器组件，解码端采用解码器组件；解码器拥有交叉注意力机制，该交叉注意力机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算，对压缩压缩框架编码器的编码端学习到的特征充分利用。

所述的图像压缩框架的编码端和解码端是对称的分层结构，每一层称之为一个阶段，每个阶段包含一个上下采样模块、一个Transformer模块和必要的特征变形；

每个阶段的上下采样模块通过一个卷积层来实现，分阶段的上下采样有利于适应图像压缩任务输入图像分辨率大而提取特征分辨率小的特点；同时在卷积之后使用GDN/IGDN层对特征进行非线性变换处理，以使特征排列更有利于压缩。

所述的图像压缩框架包括：

输入图像数据x先经过压缩框架的编码端计算得到图像的潜在特征y，随后超先验模块的编码部分对y进行计算提取出边信息z，z先经过量化再通过超先验模块的解码部分重建出特征

与经过掩码处理的y进行拼接，一同输入到上下文预测模块中以预测y的概率分布，概率模型采用由三个子高斯分布组成的混合高斯分布模型；其中，在训练的过程中，对y直接进行量化得到

经过压缩框架解码端的计算实现对原图像x的重建；在测试过程中，则是基于对y的概率分布的预测，自回归地重建

然后再重建原始图像x。

所述的特征变形包括两个操作：维度转变和分块拉长，维度转变适应Transformer在从自然语言处理领域迁移至计算机视觉领域的过程中数据维度的差异，分块拉长解决Transformer中注意力机制的显存占用过高导致内存溢出错误的问题。

所述的分块拉长的操作发生在上下采样卷积之后、维度转变之前，由于图像特征图的高和宽的乘积相较于文本序列长度会很大，先分块拉长再转变维度输入到Transformer中有助于大幅度减少注意力机制的显存占用，注意力机制的计算公式如下：

公式中的Q、K、V分别代表查询向量、键向量、值向量，这三个向量是通过输入特征经过三个不同的全连接层产生的，d_k为单头注意力维度；注意力机制中显存占用最大的部分是计算Q与K点积得到的注意力矩阵，即公式中的QK^T，Q与K的形状与Transformer的输入的形状相同，假定卷积后特征图的形状为(B,H,W,C)，如果直接维度转变，形状变为(B,H×W,C)输入到Transformer中，那么QK点积的形状为(B,N,N)，N＝H×W。

所述的编码器组件包含两个模块：多头自注意力模块和前馈神经网络模块，每个模块的都设计成残差连接的形式并且有一个层归一化的操作；

其中，多头自注意力模块是在注意力机制的基础上设计成多头的形式，公式如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i ^Q,KW_i ^K,V W_i ^V)

head_i表示单头注意力，W_i表示对应全连接层操作的权重，可见多头注意力即将Q、K、V在全连接层处理时按通道拆分为多组，每组分别进行注意力计算，再将各计算结果按通道拼接进行后续操作；

前馈神经网络模块包含两个全连接层，两层之间设计有一层relu激活函数，表达式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

通过这一系列计算，编码器可以充分捕获全局信息，与各阶段卷积层提取的局部特征互补，实现对特征的更精确地计算；同时，注意力机制为特征重新分配权重，使特征的分布被处理成更有利于任务目标的形式。

所述的解码器组件也包含两个模块：多头交叉注意力模块和前馈神经网络模块，解码器组件使用交叉注意力取代了自注意力机制，交叉注意力的K与V是由编码端学习得到的m产生的，通过解码器的输入y求得的Q与编码器的输出m求得的K之间计算交叉注意力，再将注意力权重附加到V上计算，可以更充分的利用编码端学习到的信息丰富的特征，从而实现效果的提升。

所述的超先验模块包括编码部分、解码部分、上下文预测部分；超先验的编码部分和解码部分与压缩框架的编码端和解码端一样，也是使用Transformer的分层结构，采用相同的编码器、解码器组件实现对边信息的提取。

所述的上下文预测部分包括一个mask卷积组件实现的掩码处理，一个上下文预测模块和一个高斯混合模型建模模块GMM；经过掩码处理的特征和超先验的编解码部分从特征中学习到的信息拼接输入上下文预测模块，以学习特征的概率分布并输出相关参数；上下文预测模块由三个通道数递增的卷积层实现，概率建模采用包含三个子高斯模型的高斯混合模型，故输出的参数是三组均值和方差以及三个对应的权重；

利用预测得到的概率参数对特征y进行概率建模，建模公式如下：

公式中K＝3表示三个子高斯分布，w、μ、σ²分别为对应的子高斯分布的权重、均值和方差，U(-1/2,1/2)是均匀噪声用于模拟量化。

本发明的有益效果是：

近来的将Transformer迁移至计算机视觉的绝大多数工作对硬件需求都很高，一般需要32G左右的显存支持，本发明的框架在一张显存11G的NVIDIA GeForce RTX 2080Ti显卡上即可充分训练。

与现有使用卷积神经网络的基于深度学习的压缩框架相比，本发明大规模使用Transformer取代以往的卷积神经网络实现图像压缩。Transformer拥有更优秀的全局信息学习能力，这也是目前使用卷积神经网络的框架的局限。同时Transformer的注意力机制还可为特征重新分配权重，从而使特征的分布更有利于实现任务效果。于是本发明实现了一个以Transformer模块为主，辅之以卷积层的多层次的图像压缩框架，该框架可以在利用卷积降低特征图分辨率、提取局部特征的同时兼顾全局特征分布，从而实现优秀的图像压缩效果。

与现有的将Transformer迁移至其他视觉任务的工作相比，本发明保留了Transformer中的解码器组件及其交叉注意力机制，应用在解码端以实现对编码端学习到的特征的充分利用，达到更好的效果。且本发明框架对硬件的需求更小。

附图说明

图1为本发明的整体框架图；

图2为码器组件结构图；

图3为解码器组件结构图；

图4为mask卷积示意图；

图5为Kodak数据集上以PSNR为评价标准的率失真曲线。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述。

本发明提出了一种使用Transformer实现的端到端的多层次图像压缩方法，整体框架图如图1所示。

与经过掩码处理的y进行拼接，一同输入到上下文预测模块中以预测y的概率分布，概率模型采用由三个子高斯分布组成的混合高斯分布模型。在训练的过程中，对y直接进行量化得到

然后再重建原始图像x。

X.编码端和解码端

本发明压缩框架的编码端和解码端是对称的分层结构，每一层称之为一个阶段，每个阶段包含一个上下采样模块、一个Transformer模块和必要的特征变形。

每个阶段的上下采样模块通过一个卷积层来实现，分阶段的上下采样有利于适应图像压缩任务输入图像分辨率大而提取特征分辨率小的特点。同时在卷积之后使用GDN/IGDN层对特征进行非线性变换处理，以使特征排列更有利于压缩。Transformer模块由多层编解码器计算组件构成，编码端采用编码器组件，解码端采用解码器组件，这两种组件都在原Transformer中的结构上进行了适应性微调，是本发明框架进行特征处理的最重要的部分。必要的特征变形包括特征维度的改变和对特征的分块拉长操作。

接下来对特征变形、编码器组件、解码器组件进行展开描述。

X.1.1特征变形

特征变形包括两个操作：维度转变和分块拉长，前者是为了适应Transformer在从自然语言处理领域迁移至计算机视觉领域的过程中数据维度的差异，后者是为了解决Transformer中注意力机制的显存占用过高导致内存溢出错误的问题。

Transformer从自然语言处理领域迁移至计算机视觉领域首先面对的问题是数据维度不一致，自然语言处理领域的数据是一维的文本序列，形状为(B,N,T)，计算机视觉领域的数据是二维的图像，形状为(B,H,W,C)，其中B都代表训练批次大小即样本个数，N是序列长度，也即序列中单词的个数，T是为每个单词嵌入词向量的维度，H和W分别为图像或特征图的高和宽，C是每个位置上的通道数，也即每个位置特征向量的维度。所以，为了将Transformer应用于二维特征数据，要将图像“文本化”，和很多其他工作一样，本发明将图像视作块的序列，即一张高为H宽为W的特征图有N个块，每个块处理成一个特征向量，此时N＝H×W，T＝C，块的选取是由每个阶段卷积层实现的，故此处的块是卷积核大小的重叠的块，这个块也可以被视作“视觉单词”。

分块拉长的操作发生在上下采样卷积之后、维度转变之前，由于图像特征图的高和宽的乘积相较于文本序列长度会很大，先分块拉长再转变维度输入到Transformer中有助于大幅度减少注意力机制的显存占用，注意力机制的计算公式如下：

公式中的Q、K、V分别代表查询向量、键向量、值向量，这三个向量是通过输入特征经过三个不同的全连接层产生的，d_k为单头注意力维度。注意力机制中显存占用最大的部分是计算Q与K点积得到的注意力矩阵，即公式中的QK^T，Q与K的形状与Transformer的输入的形状相同，假定卷积后特征图的形状为(B,H,W,C)，如果直接维度转变，形状变为(B,H×W,C)输入到Transformer中，那么QK点积的形状为(B,N,N)，N＝H×W。分块拉长操作则是指将特征划分成若干不重叠的小块，注意此处分块和上文中维度转变的块概念不一样，本发明采用的块大小为2×2，分块拉长则是将2×2×C的特征块变形为1×1×4C的特征向量，那么特征图会先变形为(B,H/2,W/2,4C)，再维度转变为(B,(H×W)/4,4C)输入到Transformer中，此时QK点积的形状为(B,N,N)，N＝(H×W)/4，显存相较于不做分块拉长处理时缩减为1/4，从而解决了程序内存溢出的问题。

X.1.2编码器组件

图2为码器组件结构图，如图2所示，压缩框架编码端的每个阶段的Transformer模块中有多个编码器组件，是用于特征处理的重要部分，内部结构如图2所示。编码器组件包含两个模块：多头自注意力模块(MSA)和前馈神经网络模块(MLP)，每个模块的都设计成残差连接的形式并且有一个层归一化的操作。

多头自注意力模块是在注意力机制的基础上设计成多头的形式，公式如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i ^Q,KW_i ^K,V W_i ^V)

head_i表示单头注意力，W_i表示对应全连接层操作的权重，可见多头注意力即将Q、K、V在全连接层处理时按通道拆分为多组，每组分别进行注意力计算，再将各计算结果按通道拼接进行后续操作。多头注意力可以实现并行的计算，且不同的头对应的注意力可以捕获来自不同位置的不同表示空间的信息。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

通过这一系列计算，编码器可以充分捕获全局信息，与各阶段卷积层提取的局部特征互补，实现对特征的更精确地计算。同时，注意力机制为特征重新分配权重，使特征的分布被处理成更有利于任务目标的形式。

X.1.3解码器组件

压缩框架解码端每个阶段的Transformer模块中有多个解码器组件，解码器内部结构如图3所示。解码器组件也包含两个模块：多头交叉注意力模块(MCA)和前馈神经网络模块(MLP)，与编码器组件的不同在于使用交叉注意力取代了自注意力机制。

相比于自注意力，交叉注意力的K与V不再是由解码器的输入y产生，而是由编码端学习得到的m产生的，通过解码器的输入y求得的Q与编码器的输出m求得的K之间计算交叉注意力，再将注意力权重附加到V上计算，可以更充分的利用编码端学习到的信息丰富的特征，从而实现效果的提升。本发明的m取自编码端的输出，在第一阶段与y相等，由于解码端各阶段有上采样的过程，m也对等地进行上采样，具体是通过在旁路使用1×1卷积实现的。

X.2超先验模块

超先验模块包括编码部分、解码部分、上下文预测部分。超先验的编码部分和解码部分与压缩框架的编码端和解码端一样，也是使用Transformer的分层结构，采用相同的编码器、解码器组件实现对边信息的提取。

上下文预测部分包括一个mask卷积组件实现的掩码处理，一个上下文预测模块和一个高斯混合模型建模模块GMM。所谓上下文指的是在编码当前位置的信息时，应当假定当前位置及之后位置的信息是不可见的，掩盖不可见信息的方式则是通过mask卷积来实现，示意图如图4所示，赋值为0的红色部分即不可见区域。

经过掩码处理的特征和超先验的编解码部分从特征中学习到的信息拼接输入上下文预测模块，以学习特征的概率分布并输出相关参数。上下文预测模块由三个通道数递增的卷积层实现，本发明的概率建模采用包含三个子高斯模型的高斯混合模型，故输出的参数是三组均值和方差以及三个对应的权重。

最后，利用预测得到的概率参数对特征y进行概率建模，建模公式如下：

经过这一系列操作，使得本发明方法能够更精确的预测从图像x中提取出来的潜在特征y，减少了特征表示的信息量，从而实现了框架效果的提升。

X.3实验部分

为了验证本发明方法的有效性，本文完成了一系列实验。

X.3.1实验设置

本发明实验使用从经典的ImageNet数据集[J.Deng,W.Dong,R.Socher,L.Li,K.Liand L.Fei-Fei,“ImageNet:A Large-Scale Hierarchical Image Database”,IEEEConf.on Computer Vision and Pattern Recognition,pp.1-8,June 20-25,2009.]的验证集中随机抽取的13500张图像作为实验的训练数据集，图像在输入模型前先随机剪裁成256×256大小的图像块。训练采用的批次大小为8张图像，采用的优化器为Adam优化器[D.P.Kingma and J.Ba,“Adam:A method for stochastic optimization”,arXiv:1412.6980,pp.1-15,Dec.2014.]，参数设置为β1＝0.9，β2＝0.999，ε＝10-8，初始学习率设置为5×10-5，训练迭代次数700000次后将学习率衰减为2×10-5再训练100000次迭代。训练损失函数中，权衡码率和失真的参数λ分别设置为0.02、0.015、0.01、0.0075以实现不同码率下对应的不同重建效果。实验设备为一张显存11G的NVIDIA GeForce RTX 2080TiGPU。

X.3.2实验结果

本文选取了近几年常见的、经典的图像压缩算法与本发明算法进行对比实验，测试数据集选用包含24张分辨率为512×768的图像的Kodak24数据集[Kodak Lossless TrueColor Image Suite,Download from http://r0k.us/graphics/kodak/]，实验效果使用峰值信噪比(PSNR)与比特率(bpp)联合绘制的率失真曲线来衡量，在测试数据集上，各算法在不同比特率(bpp)下的峰值信噪比(PSNR)的率失真曲线如图5所示。

如图5所示，横坐标为比特率bpp，纵坐标为峰值信噪比PSNR，比特率的含义为每个像素的平均比特率，峰值信噪比代表的则是最大值信号和图像重建过程中导致的噪声之间的比例，故比特率越小、峰值信噪比越高，对应的压缩算法效果就越好。图中带有五角星的曲线为本发明算法的实验效果，从图中可以看出，本发明的算法的效果超过了很多经典算法，包括常见的传统算法JPEG、JPEG2000和基于深度学习的图像压缩算法bls2017、bmshj2018等，不过与BPG的效果相比还是略逊一筹。但是，本发明作为首个以Transformer模块为主要计算模块的图像压缩框架，效果上超越了很多包括经典框架以及使用卷积神经网络的框架在内的压缩框架，也是今后使用Trasnformer的图像压缩框架进一步发展的一个良好开始。

所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.一种使用Transformer的多层次图像压缩方法，其特征在于，所述的多层次图像压缩方法为以Transformer模块为主，辅之以卷积层神经网络的多层次的图像压缩框架，该框架利用卷积层神经网降低特征图分辨率、提取局部特征的同时兼顾全局特征分布；其中，Transformer模块包括多层编码器组件组件、解码器组件，编码端采用编码器组件，解码端采用解码器组件；解码器拥有交叉注意力机制，该交叉注意力机制将解码器的输入的自注意力特征与编码器的自注意力特征进行联合计算，对压缩压缩框架编码器的编码端学习到的特征充分利用。

2.根据权利要求1所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的图像压缩框架的编码端和解码端是对称的分层结构，每一层称之为一个阶段，每个阶段包含一个上下采样模块、一个Transformer模块和必要的特征变形；

3.根据权利要求1或2所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的图像压缩框架包括：

然后再重建原始图像x。

4.根据权利要求2所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的特征变形包括两个操作：维度转变和分块拉长，维度转变适应Transformer在从自然语言处理领域迁移至计算机视觉领域的过程中数据维度的差异，分块拉长解决Transformer中注意力机制的显存占用过高导致内存溢出错误的问题。

5.根据权利要求4所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的分块拉长的操作发生在上下采样卷积之后、维度转变之前，由于图像特征图的高和宽的乘积相较于文本序列长度会很大，先分块拉长再转变维度输入到Transformer中有助于大幅度减少注意力机制的显存占用，注意力机制的计算公式如下：

6.根据权利要求1所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的编码器组件包含两个模块：多头自注意力模块和前馈神经网络模块，每个模块的都设计成残差连接的形式并且有一个层归一化的操作；

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i ^Q,KW_i ^K,V W_i ^V)

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

7.根据权利要求1所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的解码器组件也包含两个模块：多头交叉注意力模块和前馈神经网络模块，解码器组件使用交叉注意力取代了自注意力机制，交叉注意力的K与V是由编码端学习得到的m产生的，通过解码器的输入y求得的Q与编码器的输出m求得的K之间计算交叉注意力，再将注意力权重附加到V上计算，可以更充分的利用编码端学习到的信息丰富的特征，从而实现效果的提升。

8.根据权利要求3所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的超先验模块包括编码部分、解码部分、上下文预测部分；超先验的编码部分和解码部分与压缩框架的编码端和解码端一样，也是使用Transformer的分层结构，采用相同的编码器、解码器组件实现对边信息的提取。

9.根据权利要求8所述的一种使用Transformer的多层次图像压缩方法，其特征在于，所述的上下文预测部分包括一个mask卷积组件实现的掩码处理，一个上下文预测模块和一个高斯混合模型建模模块GMM；经过掩码处理的特征和超先验的编解码部分从特征中学习到的信息拼接输入上下文预测模块，以学习特征的概率分布并输出相关参数；上下文预测模块由三个通道数递增的卷积层实现，概率建模采用包含三个子高斯模型的高斯混合模型，故输出的参数是三组均值和方差以及三个对应的权重；