CN116980611A

CN116980611A - 图像压缩方法、装置、设备、计算机程序产品及介质

Info

Publication number: CN116980611A
Application number: CN202310136843.3A
Authority: CN
Inventors: 吕悦; 项进喜; 张军; 韩骁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-10-31

Abstract

本发明提供了一种图像压缩方法，装置、设备及介质，方法包括：对待压缩图像进行编码，得到所述待压缩图像对应的第一隐变量；确定所述第一隐变量对应的超先验概率估计值；根据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果；根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，其中，所述压缩后图像的体积小于所述待压缩图像。本发明能够提升图像的压缩效率，节省压缩后的图像占用的存储空间。

Description

图像压缩方法、装置、设备、计算机程序产品及介质

技术领域

本发明涉及机器学习技术，尤其涉及一种图像压缩方法、装置、电子设备、计算机程序产品及存储介质。

背景技术

相关技术中，深度神经网络在许多计算机视觉任务中获得了非常好的性能。但是在通过神经网络模型对图像进行压缩时，目前的主流方法使用基础的卷积网络对进行图像变换，在压缩率较低时，需要从字节流中恢复隐变量重建高质量图像，而图像非线性变换网络的能力限制网络重建高质量图像的能力；同时目前的主流上下文模型使用PixelCNN串行解码，使得图像压缩的效率较低。

发明内容

有鉴于此，本发明实施例提供一种图像压缩方法、装置、电子设备、计算机程序产品及存储介质，能够通过利用图像处理模型的提升图像压缩的效率，同时经过压缩的图像的体积更小，降低了图像的存储成本。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种图像压缩方法，所述方法包括：

对待压缩图像进行编码，得到所述待压缩图像对应的第一隐变量；

确定所述第一隐变量对应的超先验概率估计值；

据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果；

根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；

利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，其中，所述压缩后图像的体积小于所述待压缩图像。

本发明实施例还提供了一种图像生成装置，所述装置包括：

信息传输模，用于对待压缩图像进行编码，得到所述待压缩图像对应的第一隐变量；

信息传处理，用于确定所述第一隐变量对应的超先验概率估计值；

所述信息传处理，用于据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果；

所述信息传处理，用于根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；

所述信息传处理，用于利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，其中，所述压缩后图像的体积小于所述待压缩图像。

上述方案中，

所述信息处理模块，用于对所述第一隐变量进行编码，得到第三隐变量；

所述信息处理模块，用于对所述第三隐变量进行熵编码处理，得到所述第三隐变量的熵编码；

所述信息处理模块，用于对所述第三隐变量的熵编码进行解码处理，得到第四隐变量；

所述信息处理模块，用于对所述第四隐变量进行解码处理，得到所述超先验概率估计值。

上述方案中，

所述信息处理模块，用于对所述第二隐变量进行分组，得到至少两组子隐变量；

所述信息处理模块，用于通过棋盘格自回归对每一组子隐变量进行处理；

所述信息处理模块，用于当每一组子隐变量完成空间自回归后，通过所述部分解码结果预测未解码的通道组，直至所述第二隐变量完全完成自回归处理，得到所述第二隐变量的均值和方差。

上述方案中，

所述信息处理模块，用于利用所述均值和所述方差对所述第二隐变量进行解码，得到所述第二隐变量的解码结果；

所述信息处理模块，用于对所述第二隐变量的解码结果交替进行分割和注意力机制转移处理，直至所述第二隐变量的解码结果完全分割，得到所述压缩后图像。

上述方案中，所述方法基于图像处理模型所实现，所述图像处理模型包括：图像变换网络、超先验网络和上下文网络，

所述信息处理模块，用于通过图像处理模型的图像变换网络对待压缩图像进行编码，得到第一隐变量；

通过所述超先验网络，根据所述第一隐变量确定所述超先验概率估计值；

通过所述上下文网络根据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述部分解码结果；

通过所述上下文网络，根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；

通过所述图像变换网络利用所述均值和所述方差对所述第二隐变量进行解码，得到所述压缩后图像。

上述方案中，

所述信息处理模块，用于获取与所述图像处理模型对应的第一训练样本集合，其中所述第一训练样本集合包括至少一组无噪声的训练样本；

所述信息处理模块，用于为所述第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合；

所述信息处理模块，用于通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理，得到所述图像处理模型的初始参数；

所述信息处理模块，用于基于所述图像处理模型的初始参数和所述图像处理模型的损失函数，通过所述第一训练样本集合和所述第二训练样本集合，对所述图像处理模型进行训练，确定所述图像处理模型的图像变换网络参数、超先验网络参数和上下文网络参数。

上述方案中，

所述信息处理模块，用于当所述图像处理模型的使用环境为视频图像压缩时，确定与所述图像处理模型的使用环境相匹配的动态噪声数量阈值；

所述信息处理模块，用于根据所述动态噪声数量阈值，为所述第一训练样本配置动态数量的随机噪声，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块，用于当所述图像处理模型的使用环境为医疗图像压缩时，确定与所述图像处理模型的使用环境相匹配的固定噪声数量阈值；

所述信息处理模块，用于根据所述固定噪声数量阈值，为所述第一训练样本配置固定数量的随机噪声，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

本发明实施例还提供了一种图像处理装置，其特征在于，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的图像处理方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序或指令被处理器执行时，实现前序的图像处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的图像处理方法。

本发明实施例具有以下有益效果：

1)本发明实施例通过图像处理模型的图像变换网络对待压缩图像进行编码，得到第一隐变量，所述超先验网络根据所述第一隐变量确定超先验概率估计值；由此，利用转移窗口注意力机制所构建的图像变换网络和超先验网络对图像进行处理，可以提升图像压缩的性能，使得经过解码得到压缩后图像的体积更小，降低了图像的存储成本。

2)上下文网络根据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到部分解码结果；所述上下文网络根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；通过所述图像变换网络利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，由此，上下文网络用先解码的通道分组信息作为后续待解码的通道分组的先验知识减少后续的压缩冗余，节省了压缩图像的耗时，同时，上下文网络可以从空间维度和通道维度上交替进行自回归，进一步地提高了压缩效率。

附图说明

图1是本发明实施例提供的一种图像压缩方法的使用环境示意图；

图2为本发明实施例提供的图像处理装置的组成结构示意图；

图3A为本发明实施例提供的图像压缩方法一个可选的流程示意图；

图3B为本发明实施例提供的图像压缩方法一个可选的流程示意图；

图4为本发明实施例中图像处理模型的数据流转示意图；

图5为本发明实施例中图像处理模型的模型结构示意图；

图6为本发明实施例中空间深度转换层和深度空间转换层的工作过程示意图；

图7为本发明实施例中转移窗口注意力机制模块的组成结构示意图；

图8为本发明实施例中转移窗口注意力机制模块的计算原理示意图；

图9为本发明实施例中上下文网络的自回归处理示意图；

图10为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图；

图11为本发明实施例提供的图像处理模型的效果测试示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)Wasserstein distance：一种距离度量函数，主要用于衡量两个分布之间的差异。

2)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

3)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

4)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多图像分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出图像压缩结果。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

5)变分自编码器(VAE)。变分自编码器是图像压缩中的常用网络架构，它对输入的高维图像进行图像变换，生成低维度的隐变量(latent code)。隐变量服从某种固有的先验概率，输入图像服从以隐变量为条件的条件概率，则低维变量可描述输入图像包含的信息，并可以通过采样重建高维的输入图像。在对图像进行压缩时，变分自编码器压缩低维隐变量，减少信息冗余。

6)超先验(hyper prior)。在输入图片通过编码器得到的隐变量的基础上，超先验使用轻量级网络对隐变量中的每一个点进行标熵模型建模，通过对特征值的熵模型获取特征点的出现情况以用于码率估计和熵编码。超先验将隐变量的概率建模使用较小的字节量进行存储，解码时优先解码超先验模块存储的字节流，接着使用从字节流中解码的概率恢复隐变量重建图像。

7)上下文模型(context model)。上下文模型通常使用自回归的方式，利用已解码的像素信息预测未解码像素点信息，减少信息冗余。常用的自回归模型利用滑动窗口线性串行预测，复杂度随输入数据的维度成倍增长。尽管自回归的上下文模型能够极大地提高模型的性能，但压缩模型的计算复杂度也随之大幅增加。

8)熵编码：即编码过程中按熵原理不丢失任何信息的无损编码方式，也是有损编码中的一个关键模块，处于编码器的末端。信息熵为信源的平均信息量(不确定性的度量)。常见的熵编码有：香农(Shannon)编码、哈夫曼(Huffman)编码，指数哥伦布编码(Exp-Golomb)和算术编码(arithmetic coding)。由于熵编码的是编码器通过量化、变换、运动、预测等一系列操作之后得到的需要编码的符号，根据编码符号的分布情况选择适合的熵编码模型，因此熵编码是一个相对独立的单元，可以不止适用于视频编解码，在其他编码器，如图像编码、点云编码中同样适用。

在介绍本申请提供的图像压缩方法之前，首先对相关技术中的图像压缩方法的缺陷进行说明；传统图像编码方法需要手工设置图像特征，如JPEG、BPG和VVC-intra使用正交线性变换，如离散余弦变换(DCT)和离散小波变换(DWT)在量化和编码之前对图像像素进行去相关。其中JPEG压缩基于人眼对颜色敏感而对亮度较为敏感的前提对Y、Cb、Cr分别进行压缩。具体来说，对于一张自然图片，jpeg对其每个8*8的patch进行DCT分解，得到64个DCT参数，根据能量聚合原理，较为重要的参数基本集中在低频区域，故无需全部参数即可将图片恢复到可接受的质量范围内。将DCT参数进行量化后可使用变长编码和哈夫曼编码进一步压缩冗余。但是，目前的主流方法使用基础的卷积网络对进行图像变换，这部分仍有提升空间。在压缩率较低时，需要从字节流中恢复隐变量重建高质量图像，而图像非线性变换网络的能力限制网络重建高质量图像的能力；同时目前的主流上下文模型使用PixelCNN串行解码，效率较低。

为了解决上述缺陷，本申请提供了一种图像压缩方法，利用包括图像变换网络、超先验网络和上下文网络的图像处理模型对图像进行压缩，提升压缩效率的同时，提高压缩图像的质量。

图1为本发明实施例提供的图像压缩方法的使用场景示意图，参考图1，终端(包括终端10-1和终端10-2)上设置有图像处理功能软件的客户端或者视频处理功能软件的客户端，用户通过所设置的图像处理软件客户端可以输入相应的待处理图像，图像处理客户端也可以接收相应的压缩后图像，并将所接收的压缩后图像向用户进行展示；视频处理软件客户端可以通过本申请提供的图像处理模型对视频中的每一帧图像进行压缩，以减少视频所占用的服务器存储空间。终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述图像处理模型并对所述图像处理模型进行训练，以确定图像处理模型中图像变换网络、超先验网络和上下文网络的网络参数；并在图像处理模型训练完成后通过终端(终端10-1和/或终端10-2)展示图像处理模型所生成的与待处理图像相对应的压缩后图像。

当然在通过图像处理模型对目标待处理图像进行处理以生成相应的压缩后图像之前，还需要对图像处理模型进行训练，以确定图像变换网络、超先验网络和上下文网络的网络参数。

下面对本发明实施例的图像处理装置的结构做详细说明，图像处理装置可以各种形式来实施，如带有图像处理模型训练功能的专用终端，也可以为设置有图像处理模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的图像处理装置的组成结构示意图，可以理解，图2仅仅示出了图像处理装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的图像处理装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。图像处理装置20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的图像处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像处理模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像压缩方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的图像处理装置采用软硬件结合实施的示例，本发明实施例所提供的图像处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的图像压缩方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的图像处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的图像压缩方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持图像处理装置20的操作。这些数据的示例包括：用于在图像处理装置20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从图像压缩方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的图像处理装置可以采用软件方式实现，图2示出了存储在存储器202中的图像处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括图像处理装置，图像处理装置中包括以下的软件模块：信息传输模2081和信息处理模块2082。当图像处理装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的图像压缩方法，下面介绍本发明实施例中图像处理装置中各个软件模块的功能，其中，信息传输模2081，用于对待压缩图像进行编码，得到所述待压缩图像对应的第一隐变量；

信息传处理2082，用于确定所述第一隐变量对应的超先验概率估计值；

所述信息传处理2082，用于据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果；

所述信息传处理模块2082，用于根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；

所述信息传处理模块2082，用于利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，其中，所述压缩后图像的体积小于所述待压缩图像。

上述方案中，

所述信息处理模块2082，用于对所述第一隐变量进行编码，得到第三隐变量；

所述信息处理模块2082，用于对所述第三隐变量进行熵编码处理，得到所述第三隐变量的熵编码；

所述信息处理模块2082，用于对所述第三隐变量的熵编码进行解码处理，得到第四隐变量；

所述信息处理模块2082，用于对所述第四隐变量进行解码处理，得到所述超先验概率估计值。

上述方案中，

所述信息处理模块2082，用于对所述第二隐变量进行分组，得到至少两组子隐变量；

所述信息处理模块2082，用于通过棋盘格自回归对每一组子隐变量进行处理；

所述信息处理模块2082，用于当每一组子隐变量完成空间自回归后，通过所述部分解码结果预测未解码的通道组，直至所述第二隐变量完全完成自回归处理，得到所述第二隐变量的均值和方差。

上述方案中，

所述信息处理模块2082，用于利用所述均值和所述方差对所述第二隐变量进行解码，得到所述第二隐变量的解码结果；

所述信息处理模块2082，用于对所述第二隐变量的解码结果交替进行分割和注意力机制转移处理，直至所述第二隐变量的解码结果完全分割，得到所述压缩后图像。

上述方案中2082，所述方法基于图像处理模型所实现，所述图像处理模型包括：图像变换网络、超先验网络和上下文网络，

所述信息处理模块2082，用于通过图像处理模型的图像变换网络对待压缩图像进行编码，得到第一隐变量；

上述方案中，

所述信息处理模块2082，用于获取与所述图像处理模型对应的第一训练样本集合，其中所述第一训练样本集合包括至少一组无噪声的训练样本；

所述信息处理模块2082，用于为所述第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合；

所述信息处理模块2082，用于通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理，得到所述图像处理模型的初始参数；

所述信息处理模块2082，用于基于所述图像处理模型的初始参数和所述图像处理模型的损失函数，通过所述第一训练样本集合和所述第二训练样本集合，对所述图像处理模型进行训练，确定所述图像处理模型的图像变换网络参数、超先验网络参数和上下文网络参数。

上述方案中，

所述信息处理模块2082，用于当所述图像处理模型的使用环境为视频图像压缩时，确定与所述图像处理模型的使用环境相匹配的动态噪声数量阈值；

所述信息处理模块2082，用于根据所述动态噪声数量阈值，为所述第一训练样本配置动态数量的随机噪声，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块2082，用于当所述图像处理模型的使用环境为医疗图像压缩时，确定与所述图像处理模型的使用环境相匹配的固定噪声数量阈值；

所述信息处理模块2082，用于根据所述固定噪声数量阈值，为所述第一训练样本配置固定数量的随机噪声，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述信息处理模块2082，用于获取所述压缩后图像的和所述待压缩图像的像素差值；

所述信息处理模块2082，用于获取所述图像处理模型中第二隐变量和第四隐变量的进行存储时的字节数；

所述信息处理模块2082，用于根据所述像素差值和所述字节数计算所述图像处理模型的融合损失函数。

根据图2所示的图像处理模型训练装置，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像压缩方法的各种可选实现方式中所提供的不同实施例及实施例的组合。

当图像处理模型训练完成之后，可以部署在服务器中或者云服务器网络中，本申请所提供的图像生成装置也可以部署在图2所示的电子设备中，执行本申请提供的图像处理方法。

结合图2示出的图像处理装置20说明本发明实施例提供的图像处理方法，参见图3A，图3A为本发明实施例提供的图像压缩方法一个可选的流程示意图，具体包括以下步骤：

步骤3001：对待压缩图像进行编码，得到待压缩图像对应的第一隐变量。

以电子游戏应用场景为例，由于游戏图像数量较多，为了压缩图像，通常会对电子游戏中的高清图片分批进行4倍的压缩处理，例如：原始游戏图像的分辨率为1024*1024，进行4倍压缩处理后，形成分辨率为256*256的低分辨率游戏图像。但是通过本申请的图像压缩方法可以批量地将图片资源转化为适配于终端的图形处理器(Graphics ProcessingUnit，GPU)运行的压缩后图像，进而减少终端侧的内存开销和图像传输时的网络开销，例如将分辨率为1024*1024原始游戏图像，进行8倍压缩处理，使得经过解码得到压缩后图像的体积更小，降低了图像的存储成本。

步骤3002：确定第一隐变量对应的超先验概率估计值。

步骤3003：根据超先验概率估计值，对第一隐变量进行部分解码，得到第一隐变量的部分解码结果。

步骤3004：对第一隐变量进行量化处理，得到第二隐变量；根据部分解码结果对第二隐变量进行自回归处理，得到第二隐变量的均值和方差。

步骤3005：利用所述均值和所述方差对所述第二隐变量进行解码，对第二隐变量进行解码，得到压缩后图像，其中，压缩后图像的体积小于待压缩图像。

通过图3A所示的处理处理步骤，从空间维度和通道维度上交替进行自回归，大幅提高了压缩效率。对于一张输入图像，在压缩过程中首先对所输入的图像进行图像变换，生成低维度的隐变量(latent code)，接着对隐变量进行概率估计建模，最终根据计算概率使用熵编码的处理方式将隐变量压缩为比特流；在解压过程中首先根据比特流解码恢复隐变量，然后根据隐变量重建图像，实现图像的高效压缩。

图3A所示的处理步骤在实际使用时，可以利用图像处理模型所实现，不同于相关技术中的图像处理模型，本申请所提供的图像压缩方法中所使用的图像处理模型包括：图像变换网络、超先验网络和上下文网络，下面对图像处理模型包括：图像变换网络、超先验网络和上下文网络的工作过程分别进行说明。

参见图3B，图3B为本发明实施例提供的图像压缩方法一个可选的流程示意图，可以理解地，图3B所示的步骤可以由运行图像处理模型装置的各种电子设备执行，例如可以是如带有图像压缩功能的服务器或者服务器集群，用于通过图像处理模型对接收的图像或者接收的视频中每一个图像帧进行压缩，减少图像存储所占用的存储空间。下面针对图3B示出的步骤进行说明。

步骤301：图像处理装置通过图像处理模型的图像变换网络对待压缩图像进行编码，得到第一隐变量。

参考图4，图4为本发明实施例中图像处理模型的数据流转示意图，本申请中的图像处理模型包括：图像变换网络、超先验网络和上下文网络；具体作用如下：

1)图像变换网络的作用是利用高分辨率的自然图像生成低维度的隐变量(latentcode)，假定第一隐变量服从某种固有的先验概率，输入的待压缩图像服从以隐变量为条件的条件概率，图像变换网络应使编码器和解码器构造的概率估计足够接近，使隐变量重建出的图像接近原始图像。

2)超先验网络在隐变量的基础上使用编码器结构和解码器结构对隐变量中的每一个点进行熵值建模，通过特征值的熵模型获取过程中熵值特征点的出现情况来对压缩后图像的码率进行估计并进行熵编码处理。超先验网络可以将隐变量的概率建模使用较小的字节量进行存储，为后续上下文网络的解码提供辅助参考。

3)上下文网络使用自回归处理的方式，利用已解码的像素信息预测未解码像素点信息，最终将预测结果输入图像变换网络的解码器网络中进行解码处理，得到压缩后图像，上下文网络可以实现减少信息冗余，提升图像压缩的效率。

下面对图像处理模型所包括的图像变换网络、超先验网络和上下文网络的模型结构和工作原理分别进行说明。

参考图5，图5为本发明实施例中图像处理模型的模型结构示意图，其中，图像变换网络包括：图像编码器网络和图像解码器网络；图像编码器网络包括：转移窗口注意力机制模块(Swin Transformer Block)和块融合模块(Patch Merge Block)，其中，块融合模块依次包括：空间深度转换层(Space-to-Depth)、归一化层(LayerNorm)和映射层(Linear)；图像解码器网络包括：转移窗口注意力机制模块(Swin Transformer Block)和块分割模块(Patch Split Block)，其中，块分割模块依次包括：映射层(Linear)、归一化层(LayerNorm)和深度空间转换层(Depth-to-Space)。

参考图6，图6为本发明实施例中空间深度转换层和深度空间转换层的工作过程示意图，由于图像处理模型需要对待压缩图像进行压缩，使得压缩后图像的体积小于待压缩图像，但是分辨率接近待压缩图像，因此，编码器网络中的空间深度转换层(Space-to-Depth)用于进行下采样，解码器网络中的深度空间转换层(Depth-to-Space)用于进行上采样，如图6所示，对于一个4*4的待压缩图像，Space-to-Depth将每个2*2的相邻像素划分为一个块(patch)，将每个块中相同位置(同一阴影)像素拼接后沿通道方向进行连接，得到4个2*2块。Depth-to-Space为Space-to-Depth的逆向操作，通过上采样将4个2*2块转换为4*4的图像。

参考图7，图7为本发明实施例中转移窗口注意力机制模块的组成结构示意图，其中，转移窗口注意力机制模块(Swin-Transformer block)主要包括层标准化、多层感知器以及一个正常的窗口多注意力以及一个转移窗口的多头注意力机制，值得注意的是利用窗口注意力机制相对于传统注意力机制可以有效地降低运算过程中的计算复杂度，大大提高计算的效率，使得注意力机制可以应用在大图像的处理过程中。然而如果只利用正常的窗口注意力机制严重限制框架的感受野，因此通过添加转移窗口注意力机制在不增加计算复杂度的前提下大大提高了注意力机制的感受野。转移窗口注意力机制模块通过合并更深层的图像块来构建分层特征图，并且由于只在每个局部窗口内计算注意力，因此对于输入图像大小具有线性计算复杂度。如图7所示，本申请中，转移窗口注意力机制模块在特征图的每个非重叠窗口内执行局部自注意力，并保留特征大小。图7展示了两个连续SwinTransformer Block的内部结构，包含Layer Norm、多头自注意力和全连接层，内部使用short cut进行连接。图像变换网络的编码器网络和解码器网络使用的窗口大小为8，通道数依次为128,192,256,320，转移窗口注意力机制模块络叠加个数依次为2，2，6，2。

参考图8，图8为本发明实施例中转移窗口注意力机制模块的计算原理示意图，其中，将输入图片HxWx3划分为不重合的patch集合，其中每个patch尺寸为4x4，那么每个patch的特征维度为4x4x3＝48，patch块的数量为H/4xW/4；如图8所示，stage1：先通过一个linear embedding将输划分后的patch特征维度变成C，然后送入转移窗口注意力机制模块；stage2-stage4操作相同，先通过一个patch merging，将输入按照2x2的相邻patches合并，这样子patch块的数量就变成了H/8x W/8，特征维度就变为4C，如图8所示，每一个转移窗口注意力机制模块的处理结果如下：stage1：【H/4x W/4，C】，stage2：【H/8x W/8，2C】stage3：【H/16x W/16，4C】stage4：【H/32x W/32，8C】，转移窗口注意力机制模块随着网络深度的加深数量会逐渐减少并且每个块的感知范围会扩大，这个设计是为了方便转移窗口注意力机制模块的层级构建，并且能够适应视觉任务的多尺度。

步骤302：图像处理装置通过超先验网络根据第一隐变量确定超先验概率估计值。

其中，如图4所示，超先验网络的编码器网络包括：转移窗口注意力机制模块和块融合模块；超先验网络的解码器网络包括：转移窗口注意力机制模块和块分割模块，窗口大小为4，通道数依次为192，192，转移窗口注意力机制模块叠加个数依次为5，1。

在本发明的一些实施例中，超先验网络根据第一隐变量确定超先验概率估计值，可以通过以下方式实现：

通过超先验网络的编码器网络对第一隐变量y进行编码，得到第三隐变量z；通过超先验网络的量化模块(Q)、算数编码模块(AD)以及算数解码模块(AE)，对第三隐变量z进行量化，得到第四隐变量压缩时使用算术编码模块对第四隐变量/>进行熵编码，得到字节流(即第四隐变量/>的熵编码)。解压缩时使用算术解码器从字节流中解码第四隐变量，如图4所示，第四隐变量是对第三隐变量z进行量化后获得的。压缩时是对第四隐变量进行压缩以获得字节流，解压缩时从字节流恢复第四隐变量，通过图4所示的超先验网络的解码器网络对第四隐变量/>进行解码，得到超先验概率估计值N(μ,σ)。

在本发明的一些实施例中，由于在使用高斯分布参数对压缩后隐变量进行算数编码和算数解码的阶段都需要解码点的出现概率或者累计概率分布(CDF)，故而需要将出现概率或者累计概率分布传输到解码端用于正确的熵解码。因此超先验网络的编码器需要对概率或者累计概率分布先压缩成z，通过对z进行量化熵编码传输至超先验网络的编码器的解码端，通过解码端解码学习潜在表示y的建模参数。通过超先验网络的编码器获取得到y潜在表示的建模分布后，通过对其建模并且对量化后的第二隐变量进行熵编码得到压缩后的码流文件，而算术解码从字节流中得到再将熵解码结果输入到解码模块，得到最终的压缩后图像。

步骤303：图像处理装置对所述第一隐变量进行量化处理后得到第二隐变量，并将第二隐变量输入上下文网络。

步骤304：图像处理装置通过上下文网络对第二隐变量进行自回归处理，得到第二隐变量的均值和方差。

其中，图像处理装置通过上下文网络计算得到第二隐变量的均值和方差之后，算术编码器根据第二隐变量的概率分布进行建模，得到字节流。

其中，图像处理装置通过上下文网络根据部分解码结果对第二隐变量进行自回归处理，对第二隐变量进行概率建模，计算第二隐变量的均值和方差，之后，算术编码器根据第二隐变量的概率分布进行建模，得到字节流。

其中，参考图9，图9为本发明实施例中上下文网络的自回归处理示意图，在本发明的一些实施例中，上下文网络根据部分解码结果对第二隐变量进行自回归处理，得到第二隐变量的均值和方差，可以通过以下方式实现：

对第二隐变量进行分组，得到至少两组子隐变量；通过棋盘格自回归对每一组子隐变量进行处理；当每一组子隐变量完成空间自回归后，通过部分解码结果预测未解码的通道组，直至第二隐变量完全完成自回归处理，得到第二隐变量的概率分布。具体来说，空间维度的自回归处理可以通过以下方式实现：将当前解码符号与已解码符号相关联，变量进行概率建模，根据所有可观测的相邻符号使用空间方向上的自回归卷积g_sp预测在第i个位置的上下文表达Φ_sp，i，其中上下文网络中的上下文表达的计算参考公式1：

通道维度自回归处理可以通过以下方式实现：将第二隐变量的通道分为K组进行自回归以减少通道间的冗余，使用先解码的通道组进行通道方向上的自回归卷积g_ch预测未解码的通道组的上下文表达过程参考公式2:

在通道自回归中，通道分组个数的设置对于平衡压缩性能和运行速度至关重要。分组数k越大，计算粒度越细腻，率失真性能越好，但参数估计越慢，k＝5作为分组数为本申请图像处理模型的优选值。

如图9所示，结合棋盘格的空间上下文自回归模型和通道上下文自回归模型，实现了一种在空间和通道维度上正交地交替进行自回归的加速运算。具体是在通道维度上对隐变量进行分组，在每个隐变量分组内部使用棋盘格自回归代替串行自回归，待该组第二隐变量内部完成空间自回归后，使用通道自回归用先解码的通道组预测未解码的通道组。在自回归初始阶段，上下文网络根据超先验的概率建模进行自回归预测，首先预测出第一个通道分组中的棋盘格第一部分，接着以当前预测出的棋盘格结果来对剩余棋盘格部分进行预测。在两次棋盘格自回归过后，第一个通道分组已完成预测。在预测第二组通道分组时，第一组已预测的结果将作为后续概率建模的信息参考共同进行运算。整个运算过程在空间和通道维度上正交交替地进行自回归，由此，有效提升图像的压缩速率。

步骤305：图像处理装置通过图像变换网络，利用均值和所述方差对第二隐变量进行解码，得到压缩后图像。

结合前序图4所示，通过图像变换网络的解码器网络的转移窗口注意力机制模块对第二隐变量进行解码，得到第二隐变量的解码结果；利用第二隐变量交替通过转移窗口注意力机制模块和块分割模块得到压缩后图像，其中压缩后图像的体积小于待压缩图像。

图10为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图，可以理解地，图10所示的步骤可以由运行图像处理模型训练装置的各种电子设备执行，例如可以是如带有样本生成功能的专用终端、带有图像处理模型训练功能的服务器或者服务器集群。下面针对图10示出的步骤进行说明。

步骤1001：图像处理模型训练装置获取第一训练样本集合，其中第一训练样本集合包括至少一组无噪声的训练样本。

步骤1002：图像处理模型训练装置为第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合。

在本发明的一些实施例中，为第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合，可以通过以下方式实现：

当图像处理模型的使用环境为小程序游戏图像生成时，确定与图像处理模型的使用环境相匹配的动态噪声数量阈值；根据动态噪声数量阈值，为第一训练样本配置动态数量的随机噪声，以形成与动态噪声阈值相匹配的第二训练样本集合。其中，由于小程序游戏图像的使用环境多种多样，例如可以是角色扮演类小程序游戏图像，可以是终端采集的用户的图像作为小程序游戏图像，也可以是视频图像帧中截取的图像作为小程序游戏图像，由于训练样本来源于不同的数据源，数据源中包括各类型应用场景的数据作为相应的训练本的数据来源，针对这些图像处理模型的不同使用场景，可以使用与动态噪声阈值相匹配的第二训练样本集合对图像处理模型进行针对性的训练。

当图像处理模型的使用环境为医疗图像生成时，确定与图像处理模型的使用环境相匹配的固定噪声数量阈值；根据固定噪声数量阈值，为第一训练样本配置固定数量的随机噪声，以形成与固定噪声阈值相匹配的第二训练样本集合。由于训练样本来源于固定的数据源，数据源中包括固定场景的数据作为相应的训练本的数据来源(例如任一种产生医疗图像的电子设备)，例如，本发明所提供的图像处理模型可以作为软件模块封装于移动检测电子设备中，也可以封装于不同的固定医疗检查设备中(包括但不限于：手持诊断仪，病房中央监测系统，床边监测系统)，当然也可以固化于智能机器人的硬件设备中，针对这些图像处理模型的不同使用场景，可以使用固定噪声阈值相匹配的第二训练样本集合对图像处理模型进行针对性的训练，以提升图像处理模型的训练速度。

步骤1003：图像处理模型训练装置计算图像处理模型的损失函数。

在本发明的一些实施例中，首先，获取压缩后图像的和待压缩图像的像素差值；之后获取图像处理模型中第二隐变量和第四隐变量的进行存储时的字节数；最后根据像素差值和字节数计算图像处理模型的融合损失函数。图像处理模型的损失函数参考公式3：

L＝R+λD

其中R表示rate，为第二隐变量和第四隐变量存储所需字节。D表示distortion，通常用计算压缩后图像与待压缩图像之间的差异，其中d通常为均方误差MSE。λ为控制rate和distortion的参数，λ一般越大，对应模型的像素深度(BPP Bits Per Pixel)越大，图像的重建质量越高。

步骤1004：图像处理模型训练装置基于图像处理模型的初始参数和图像处理模型的损失函数，通过第一训练样本集合和第二训练样本集合，对图像处理模型进行训练，确定图像处理模型的图像变换网络参数、超先验网络参数和上下文网络参数。

训练完成的测试阶段，图11为本发明实施例提供的图像处理模型的效果测试示意图，其中，在标准数据集Kodak上进行了性能测试，以bpp为横坐标，PSNR(Peak Signal toNoise Ratio峰值信噪比)为纵坐标绘制模型在不同压缩率下的率失真性能。其中本申请的图像处理模型中四个测试点的λ取值依次为0.002、0.005、0.02以及0.04，可见本申请的图像处理模型的提升图像压缩的效率，同时经过压缩的图像的体积更小，相同的PSNR＝32时，本申请的bpp＝0.4大于相关技术的bpp＝0.25。

本发明具有以下有益技术效果：

1)本发明实施例通过图像处理模型的图像变换网络对待压缩图像进行编码，得到第一隐变量，超先验网络根据第一隐变量确定超先验概率估计值；由此，利用转移窗口注意力机制所构建的图像变换网络和超先验网络对图像进行处理，可以提升图像压缩的性能，使得经过解码得到压缩后图像的体积更小，降低了图像的存储成本。

2)上下文网络根据超先验概率估计值，对第一隐变量进行部分解码，得到部分解码结果；上下文网络根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，其中，所述压缩后图像的体积小于所述待压缩图像，由此，上下文网络用先解码的通道分组信息作为后续待解码的通道分组的先验知识减少后续的压缩冗余，节省了压缩图像的耗时，同时，上下文网络可以从空间维度和通道维度上交替进行自回归，进一步地提高了压缩效率。

3)图像处理模型在训练时，可以根据不同的使用需求，灵活地调整训练样本集合，使得图像处理模型能够适用于不同的图像压缩环境中。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像压缩方法，其特征在于，所述方法包括：

确定所述第一隐变量对应的超先验概率估计值；

根据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果；

对所述第一隐变量进行量化处理，得到第二隐变量；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一隐变量对应的超先验概率估计值，包括：

对所述第一隐变量进行编码，得到第三隐变量；

对所述第三隐变量进行熵编码处理，得到所述第三隐变量的熵编码；

对所述第三隐变量的熵编码进行解码处理，得到第四隐变量；

对所述第四隐变量进行解码处理，得到所述超先验概率估计值。

3.根据权利要求1所述的方法，其特征在于，所述根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差，包括：

对所述第二隐变量进行分组，得到至少两组子隐变量；

通过棋盘格自回归对每一组子隐变量进行处理；

当每一组子隐变量完成空间自回归后，通过所述部分解码结果预测未解码的通道组，直至所述第二隐变量完全完成自回归处理，得到所述第二隐变量的均值和方差。

4.根据权利要求1所述的方法，其特征在于，所述利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，包括：

利用所述均值和所述方差对所述第二隐变量进行解码，得到所述第二隐变量的解码结果；

对所述第二隐变量的解码结果交替进行分割和注意力机制转移处理，直至所述第二隐变量的解码结果完全分割，得到所述压缩后图像。

5.根据权利要求1所述的方法，其特征在于，所述方法基于图像处理模型所实现，所述图像处理模型包括：图像变换网络、超先验网络和上下文网络，所述对待压缩图像进行编码，得到所述待压缩图像对应的第一隐变量，包括：

通过图像处理模型的图像变换网络对待压缩图像进行编码，得到第一隐变量；

所述确定所述第一隐变量对应的超先验概率估计值，包括：

所述根据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果，包括：

所述根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差，包括：

所述利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述图像变换网络包括：图像编码器网络和图像解码器网络；

所述图像编码器网络包括：转移窗口注意力机制模块和块融合模块，其中，所述块融合模块依次包括：空间深度转换层、归一化层和映射层；

所述图像解码器网络包括：转移窗口注意力机制模块和块分割模块，其中，所述块分割模块依次包括：映射层、归一化层和深度空间转换层。

7.根据权利要求5所述的方法，其特征在于，所述方法仅包括：

获取与所述图像处理模型对应的第一训练样本集合，其中所述第一训练样本集合包括至少一组无噪声的训练样本；

为所述第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合；

通过所述图像处理模型对所述第一训练样本集合和所述第二训练样本集合进行处理，得到所述图像处理模型的初始参数；

基于所述图像处理模型的初始参数和所述图像处理模型的损失函数，通过所述第一训练样本集合和所述第二训练样本集合，对所述图像处理模型进行训练，确定所述图像处理模型的图像变换网络参数、超先验网络参数和上下文网络参数。

8.根据权利要求7所述的方法，其特征在于，所述为所述第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合，包括：

当所述图像处理模型的使用环境为视频图像压缩时，确定与所述图像处理模型的使用环境相匹配的动态噪声数量阈值；

根据所述动态噪声数量阈值，为所述第一训练样本配置动态数量的随机噪声，以形成与所述动态噪声阈值相匹配的第二训练样本集合。

9.根据权利要求7所述的方法，其特征在于，所述为所述第一训练样本集合配置随机噪声，以形成相应的第二训练样本集合，包括：

当所述图像处理模型的使用环境为医疗图像压缩时，确定与所述图像处理模型的使用环境相匹配的固定噪声数量阈值；

根据所述固定噪声数量阈值，为所述第一训练样本配置固定数量的随机噪声，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取所述压缩后图像的和所述待压缩图像的像素差值；

获取所述图像处理模型中第二隐变量和第四隐变量的进行存储时的字节数；

根据所述像素差值和所述字节数计算所述图像处理模型的融合损失函数。

11.一种图像生成装置，其特征在于，所述装置包括：

信息传处理模块，用于确定所述第一隐变量对应的超先验概率估计值；

所述信息传处理模块，用于据所述超先验概率估计值，对所述第一隐变量进行部分解码，得到所述第一隐变量的部分解码结果；

所述信息传处理模块，用于根据所述部分解码结果对所述第二隐变量进行自回归处理，得到第二隐变量的均值和方差；

所述信息传处理模块，用于利用所述均值和所述方差对所述第二隐变量进行解码，得到压缩后图像，其中，所述压缩后图像的体积小于所述待压缩图像。

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时实现权利要求1至10任一项所述的图像压缩方法。

13.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现权利要求1至10任一项所述的图像压缩方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的图像压缩方法。