CN117857795A

CN117857795A - 生成-熵估计联合的极限图像压缩、解压缩方法及系统

Info

Publication number: CN117857795A
Application number: CN202410251403.7A
Authority: CN
Inventors: 毛琪; 薛乃夫; 张远
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2024-03-06
Filing date: 2024-03-06
Publication date: 2024-04-09
Anticipated expiration: 2044-03-06
Also published as: CN117857795B

Abstract

本发明提供一种生成‑熵估计联合的极限图像压缩、解压缩方法及系统，通过将原图像转换为初始量化索引矩阵表示，同时提取原图像的边缘信息，生成掩码并将其施加于初始量化索引矩阵，得到掩蔽后的量化索引矩阵；然后使用多阶段Transformer生成模型进行自回归计算，对掩蔽后的量化索引矩阵进行先验分布建模，将保留的索引压缩至比特流，并使用额外的熵编码器将物体边缘信息压缩至比特流；相应的，在解码端依次通过解码物体边缘信息、生成掩码以恢复掩蔽元素的位置信息，使用多阶段Transformer生成模型计算先验分布、解码保留的索引取值预测对丢弃的索引，以重构处理以获取重建图像。利用本发明能够有效提高编解码器在极低传输带宽下的可用性。

Description

生成-熵估计联合的极限图像压缩、解压缩方法及系统

技术领域

本发明涉及图像视觉编码领域，更为具体地，涉及一种生成-熵估计联合的极限图像压缩、解压缩方法及系统。

背景技术

面向超低比特率的图像/视频压缩任务极具挑战性，特别是在传输带宽极其有限的条件下（例如卫星通信），会导致大量信息丢失。目前解决这一问题的压缩技术有基于块的压缩编解码器和基于学习的压缩技术。但是，基于块的压缩编解码器，例如最新的视频编码标准VVC（Versatile Video Coding），在此类场景中只能使用较大的量化步长，不可避免地会导致明显的模糊和块效应。而尽管基于学习的压缩技术具有优异的率失真（Rate-Distortion，R-D）性能，但由于其依赖于面向像素的失真指标的优化，这些方法会在低比特率下产生模糊的图像。

为了解决超低比特率场景的压缩挑战，现有的生成压缩方法采用生成模型来增强解码图像的视觉质量，主要关注生成器产生高频图像细节的能力。该生成压缩方法遵循两个主要技术途径：一种技术路线涉及使用感知和对抗性损失来训练现有的端到端图像编解码器，另一种技术路线利用专门设计的编码器将图像压缩为更紧凑的表示。尽管这些方法均有效地实现了低码率下的生成式图像压缩，但其往往忽视了对图像内容的先验分布进行建模，这是区分图像生成和图像重建任务的一个关键方面。

因此，如何在保证极低码率场景下重建图像的主观视觉质量，以提高编解码器在极低传输带宽下的可用性，成为目前图像压缩方案中亟需解决的技术问题之一。

发明内容

鉴于上述目前在传输带宽极其有限的条件下所采用的压缩方案中存在的重建图像质量差的问题，本发明的目的提供一种生成-熵估计联合的极限图像压缩、解压缩方法及系统，通过生成模型建模先验分布实现图像生成-压缩结合并设计多阶段Transformer生成模型基于图像内容空间相关性准确建模先验分布，不仅能通过丢弃索引节省码率，还能从先验分布中采样准确生成图像内容以保证极低码率场景下重建图像的主观视觉质量，从而提高了编解码器在极低传输带宽下的可用性。

其中，本发明提供的一种生成-熵估计联合的极限图像压缩方法，应用于电子装置，在图像编码端实现；包括：

基于预设的矢量量化编码器和掩码生成模块，获取原图像的量化索引矩阵和保留物体边缘量化索引的棋盘格掩码m；

使用所述棋盘格掩码m将所述量化索引矩阵中所丢弃的元素替换为Mask标记，以得到掩蔽后的量化索引矩阵/>；

对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所述先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；

将所述原图像中的物体边缘信息压缩至所述紧凑比特流。

其中，可选的方案是，基于预训练的多阶段Transformer生成模型对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所述先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；其中，训练所述多阶段Transformer生成模型，包括：

构建用于先验分布建模的目标函数及多阶段Transformer生成模型；

通过预定义的矢量量化编码器反复根据样本图像集中的图像生成量化索引矩阵；

随机将所述量化索引矩阵中的部分元素替换为Mask标记得到掩蔽后的量化索引矩阵；

使用所述多阶段Transformer生成模型根据掩蔽后的量化索引矩阵预测原始量化索引矩阵/>中所有元素的概率分布，并基于预测结果优化所述目标函数，直至所述目标函数达到最优。

其中，可选的方案是，基于预训练的多阶段Transformer生成模型对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，包括：

基于所述多阶段Transformer生成模型将掩蔽后的量化索引矩阵在空间上按2x2单元划分为有顺序的4个分组，其中每个2x2单元的左上位置为分组0，右下位置为分组1，左下位置为分组2，右上位置为分组3；

通过所述多阶段Transformer生成模型分为4个阶段依次处理各个分组，使用滑动窗口按光栅扫描顺序遍历分组内所有量化索引；其中，

在第0阶段，滑动窗口遍历所述分组0内的所有索引，滑动窗口内当前预测的索引仅能参考所述分组0所在的滑动窗口内、所述分组0上方和左方已估计完分布的分组0索引，以估计所述分组0自身的先验分布；

在第1阶段，滑动窗口遍历分组1内的所有索引，滑动窗口内当前预测的索引可参考所述分组1所在的滑动窗口内、所述分组1上方和左方已估计完分布的分组1的索引和分组0在滑动窗口内的全部索引，以估计所述分组1自身的先验分布；

在第2阶段，滑动窗口遍历分组2内的所有索引，滑动窗口内当前预测的索引可参考所述分组2所在的滑动窗口内其上方和左方已估计完分布的分组2的索引和分组0、分组1在滑动窗口内的全部索引，以估计所述分组2自身的先验分布；

在第3阶段，滑动窗口遍历分组3内的所有索引，滑动窗口内当前预测的索引参考所述分组3所在的滑动窗口内其上方和左方已估计完分布的分组3的索引和分组0、分组1、分组2在滑动窗口内的全部索引，以估计所述分组3自身的先验分布。

其中，可选的方案是，在所述多阶段Transformer生成模型的训练过程中，随机掩码仅被施加于分组2和分组3所在的索引元素中，以得到掩蔽后的量化索引矩阵；

掩蔽后的量化索引矩阵被送入所述多阶段Transformer生成模型以预测原始量化索引矩阵/>中所有元素的概率分布。

其中，可选的方案是，所述多阶段Transformer生成模型使用滑动窗口以光栅自回归的顺序，遍历掩蔽后的量化索引矩阵中当前处理的分组；其中，

待估计先验分布的量化索引位于滑动窗口的中心位置；

所述多阶段Transformer生成模型的输入为滑动窗口中已经估计完先验分布的量化索引取值，其中，

已估计完先验分布的量化索引元素、各个分组的量化索引，按光栅扫描顺序展开为索引元素序列，每个分组对应的索引元素序列，按照分组0-3的顺序拼接得到所述多阶段Transformer生成模型的输入序列，输入到所述多阶段Transformer生成模型；

所述多阶段Transformer生成模型的输出为当前处理的量化索引的先验分布。

相应的，本发明还提供一种生成-熵估计联合的极限图像压缩系统，应用于电子装置，以实现如前所述的生成-熵估计联合的极限图像压缩方法，所述压缩系统包括：

图像特征获取单元，用于基于预设的矢量量化编码器和掩码生成模块，获取原图像的量化索引矩阵和保留物体边缘量化索引的棋盘格掩码m；

特征掩蔽单元，用于使用所述棋盘格掩码m将所述量化索引矩阵中所丢弃的元素替换为Mask标记，以得到掩蔽后的量化索引矩阵/>；

保留元素压缩单元，用于对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所述先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；

边缘信息压缩单元，用于将所述原图像中的物体边缘信息压缩至所述紧凑比特流。

另一方面，本发明还提供一种生成-熵估计联合的极限图像解压缩方法，应用于电子装置，在图像解码端实现；用于对利用前述的生成-熵估计联合的极限图像压缩方法压缩而成的紧凑的比特流进行解压缩处理，包括：

从所述紧凑比特流中解码出所述原图像的物体边缘信息，并基于预设的掩码生成模块，获得保留物体边缘量化索引的棋盘格掩码，以及，根据所述棋盘格掩码恢复掩蔽后的量化索引矩阵中各个Mask标记的位置；

根据所述棋盘格掩码将所述Mask标记填入掩蔽后的量化索引矩阵；

按照与图像编码端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，根据所述先验分布从所述紧凑比特流中解码出棋盘格掩码m中标记为保留的元素并填入在所述图像解码端预生成的掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>中；其中，对于所述掩蔽后的量化索引矩阵/>中被标记为Mask的元素，从所述先验分布中采样作为所述被标记为Mask的元素的预测并填入所述包含预测元素的量化索引矩阵；

将所述包含预测元素的量化索引矩阵输入预定义的矢量量化解码器以获取包含预测内容的重建图像。

其中，可选的方案是，所述图像解码端在根据所述棋盘格掩码将所述Mask标记填入掩蔽后的量化索引矩阵之前，还包括：生成空白的掩蔽后的量化索引矩阵/>和空白的包含预测元素的量化索引矩阵/>。

相应的，本发明还提供一种生成-熵估计联合的极限图像解压缩系统，应用于电子装置，以实现如前所述的生成-熵估计联合的极限图像解压缩方法，所述解压缩系统包括：

图像特征解压单元，用于从所述紧凑比特流中解码出所述原图像的物体边缘信息，并基于预设的掩码生成模块，获得保留物体边缘量化索引的棋盘格掩码，以及，根据所述棋盘格掩码恢复掩蔽后的量化索引矩阵中各个Mask标记的位置；

掩蔽特征标记单元，用于根据所述棋盘格掩码将所述Mask标记填入掩蔽后的量化索引矩阵；

量化矩阵索引形成单元，按照与图像编码端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，根据所述先验分布从所述紧凑比特流中解码出棋盘格掩码m中标记为保留的元素并填入在所述图像解码端预生成的掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>中；其中，对于所述掩蔽后的量化索引矩阵/>中被标记为Mask的元素，从所述先验分布中采样作为所述被标记为Mask的元素的预测并填入所述包含预测元素的量化索引矩阵/>；

解码重建单元，用于将所述包含预测元素的量化索引矩阵输入预定义的矢量量化解码器以获取包含预测内容的重建图像。

本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的生成-熵估计联合的极限图像压缩方法以及生成-熵估计联合的极限图像解压缩方法中的步骤。

从上面的技术方案可知，本发明提供的生成-熵估计联合的极限图像压缩解压缩方法及系统，基于用于先验建模的多阶段Transformer生成模型，通过在图像编码端（发送端）将原图像输入预设的矢量量化编码器转换为初始量化索引矩阵表示，同时提取原图像的边缘信息，生成掩码并将其施加于初始量化索引矩阵，得到掩蔽后的量化索引矩阵；然后使用多阶段Transformer生成模型进行自回归计算，对掩蔽后的量化索引矩阵进行先验分布建模，使用该分布指导算术编码器将保留的索引压缩至比特流，对被掩蔽的索引丢弃不予编码，使用额外的熵编码器将物体边缘信息压缩至比特流；相应的，在图像解码端（接收端）首先解码物体边缘信息，生成掩码以恢复掩蔽元素的位置信息，使用多阶段Transformer生成模型进行自回归计算以计算先验分布，将保留的索引使用该分布指导算术解码器从比特流中解码索引取值，对丢弃的索引从该分布采样得到预测值，而后对经过解码和预测的量化索引矩阵进行重构处理以获取重建图像。本发明通过生成模型建模先验分布实现图像生成-压缩结合并设计多阶段Transformer生成模型基于图像内容空间相关性准确建模先验分布，不仅能通过丢弃索引节省码率，还能从先验分布中采样准确生成图像内容以保证极低码率场景下重建图像的主观视觉质量，从而提高了编解码器在极低传输带宽下的可用性。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的生成-熵估计联合的极限图像压缩方法的流程示意图；

图2为根据本发明实施例的生成-熵估计联合的极限图像解压缩方法的流程示意图；

图3为根据本发明实施例的图像压缩及解压缩生成重建的流程示意图；

图4为根据本发明实施例的生成-熵估计联合的极限图像压缩、解压缩方法的原理示意图；

图5为根据本发明实施例的训练多阶段Transformer生成模型的流程示意图；

图6为根据本发明实施例多阶段Transformer生成模型对于输入的量化索引图的划分以及处理顺序示意图；

图7为根据本发明实施例的利用多阶段Transformer生成模型为掩蔽后的量化索引矩阵计算先验分布的流程示意图；

图8为根据本发明实施例的生成-熵估计联合的极限图像压缩方法所涉及的对比方法的示意图；

图9为根据本发明实施例的生成-熵估计联合的极限图像压缩系统的方框示意图；

图10为根据本发明实施例的生成-熵估计联合的极限图像解压缩系统的方框示意图；

图11为根据本发明实施例的电子设备的示意图。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

针对现有的问题，本发明提供一种生成-熵估计联合的极限图像压缩系统、方法，通过。

为了更好地说明本发明的技术方案，下面先对本发明中所涉及的部分技术术语进行简单说明。

Transformer（转换器），是一个利用自注意力机制来提高模型训练速度的模型，由Encoder（编码）和 Decoder（解码）两个部分组成，Encoder 和 Decoder 都包含 6 个block，其中，在编码部分，每一个的小编码器里的结构是一个自注意力机制加上一个前馈神经网络，每一个的小编码器的输入是前一个小编码器的输出，而每一个小解码器的输入不仅包括它的前一个解码器的输出，还包括了整个编码部分的输出。

VQGAN模型，是一种视觉生成模型，可以在多任务上实现高性能表现的视觉生成范式，相对于普通的图像生成模型，VQGAN模型的突出点在于其使用codebook来离散编码模型中间特征，并且使用Transformer（GPT-2模型）作为编码生成工具。

最大似然估计（MLE，Maximum Likelihood Estimation），是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它将概率分布拟合到数据集，将寻找数据分布的参数视为一个优化问题，通过最大化似然函数，找到最可能的解矢量量化（VectorQuantization，简称VQ）, 在图像压缩、声音压缩、语音识别等多个压缩场景下使用。Vectorquantizer由编码器和解码器两个部分组成。编码器采用输入向量并输出提供最低失真的码字索引。

Mask（掩码、掩膜），是深度学习中的常见操作，相当于在原始张量上覆盖一层掩膜，从而屏蔽或者选择一些特定元素。

以下将结合附图对本发明的具体实施例进行详细描述。

在下述实施例中，所涉及的参数/字符包括：棋盘格掩码m（简称掩码m），原图像的量化索引矩阵，掩蔽后的量化索引矩阵/>，包含预测元素的量化索引矩阵/>，预设矢量量化编码器E，预设的掩码生成模块M，预定义的矢量量化解码器D，输入图像的长度H，输入图像的宽度W，下采样步长M，物体边缘信息R。

需要说明的是，以下示例性实施例的描述实际上仅仅是说明性的，不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

在由于带宽极其有限而发生重大信息丢失的情况下，本申请根据通过从先前分布中采样来重建一些丢失的内容的合理性，以及高效的熵编码要求提供被编码符号准确的概率分布，基于估计先验概率分布（无损压缩中的熵最小化和生成中的对数似然最大化之间）的数学等价性提出了一个可能的而解决方案：开发一种对这两种熵的先验分布进行建模的方法，将压缩中的估计和生成中的采样统一在一个框架内。

自然语言处理（NLP）领域的相关研究已经证明序列生成模型，例如大型语言模型（LLM），可以有效地用于无损压缩。然而，图像的广泛表示空间对有效建模先验分布提出了重大挑战。从好的方面来说，矢量量化图像建模 (VIM)在使用矢量量化 (VQ) 编码器将图像压缩为紧凑且离散的标记表示方面取得了长足的进步。这一发展使得能够利用类似于LLM的离散生成模型来进行熵估计和标记生成为了可能。

因此，设计一种联合图像生成-图像压缩的极限图像压缩方法，用于实现图像生成与图像压缩领域的联合，并提供一种能够有效提高图像压缩质量的方法是合理的。

为了说明本发明提供的生成-熵估计联合的极限图像压缩系统、方法，图1、图2、图3、图4对本发明实施例的生成-熵估计联合的极限图像压缩、解压缩方法流程、系统架构进行了示例性标示；图5对本发明实施例的生成-熵估计联合的极限图像压缩方法进行了示例性标示。

其中，图1和图3分别示出了根据本发明实施例的生成-熵估计联合的极限图像压缩方法流程及解压缩方法流程。

如图1所示，本发明提供的生成-熵估计联合的极限图像压缩方法，应用于电子装置，在图像编码端（也可以视为发送端）实现，主要包括如下步骤：

S110：基于预设的矢量量化编码器和掩码生成模块，获取原图像的量化索引矩阵和保留物体边缘量化索引的棋盘格掩码m；

S120：使用所述棋盘格掩码m将所述量化索引矩阵中所丢弃的元素替换为Mask标记，以得到掩蔽后的量化索引矩阵/>；

S130：对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所述先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；

S140：将所述原图像中的物体边缘信息压缩至所述紧凑比特流。

对应的，如图2所示，本发明提供的生成-熵估计联合的极限图像解压缩方法，应用于电子装置，在图像的解码端（也可以视为接收端）实现，以对利上述的生成-熵估计联合的极限图像压缩方法压缩而成的紧凑的比特流进行解压缩处理，主要包括如下步骤：

S210：从所述紧凑比特流中解码出所述原图像的物体边缘信息，并基于预设的掩码生成模块，获得保留物体边缘量化索引的棋盘格掩码，以及，根据所述棋盘格掩码恢复掩蔽后的量化索引矩阵中各个Mask标记的位置；

S220：根据所述棋盘格掩码将所述Mask标记填入掩蔽后的量化索引矩阵；

S230：按照与图像编码端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，根据所述先验分布从所述紧凑比特流中解码出棋盘格掩码m中标记为保留的元素并填入在所述图像解码端预生成的掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>中；其中，对于所述掩蔽后的量化索引矩阵/>中被标记为Mask的元素，从所述先验分布中采样作为所述被标记为Mask的元素的预测并填入所述包含预测元素的量化索引矩阵/>；

S240：将所述包含预测元素的量化索引矩阵输入预定义的矢量量化解码器以获取包含预测内容的重建图像。

上述生成-熵估计联合的极限图像压缩方法和对应的生成-熵估计联合的极限图像解压缩方法，提供了一种编码方式的图像编码（压缩）解码（解压缩）框架，通过多阶段Transformer生成模型建立先验分布并将其同时用于量化索引的熵编码与丢失内容的生成，该方法在发送端丢失部分量化索引，并在接收端根据先验分布预测的量化索引，实现图像内容压缩与图像内容生成的有效结合，不仅能够提高编码性能，节约传输带宽，还能够在压缩数据传输之后重建出具有高视觉感知的重建图像，在泛化性和可靠传输方面具有不可比拟的优势。

具体的作为示例，图3示出了根据本发明实施例的应用上述生成-熵估计联合的极限图像压缩方法和对应的生成-熵估计联合的极限图像解压缩方法进行图像压缩及解压缩生成重建的流程，图4示出了根据本发明实施例的生成-熵估计联合的极限图像压缩、解压缩方法的原理。如图3和图4共同所示，生成-熵估计联合的极限图像压缩及解压缩方法包括如下步骤：

S310：将源图像输入预设的矢量量化编码器以获取相应的量化索引矩阵；

S320：提取源图像的边缘信息，输入预设的掩码生成模块，获得保留物体边缘的棋盘格掩码，将掩码施加于量化索引矩阵，得到掩蔽后的量化索引矩阵；

S330：使用多阶段Transformer生成模型以多阶段自回归的方式，对掩蔽后的量化索引矩阵建立先验分布；

S340：根据先验分布指导算术编码器，将保留的量化索引压缩至紧凑的比特流表示，使用额外的熵编码器将边缘信息压缩至紧凑的比特流表示；

S350：接收端从比特流中解码边缘信息，生成掩码；

S360：使用多阶段Transformer生成模型进行多阶段自回归计算，根据已经解码的且被保留的量化索引建立先验分布，使用该分布指导算术解码器从比特流中解码被保留的量化索引，同时从该分布中采样以作为被丢弃的量化索引的估计值；

S370：将经过解码和预测的量化索引矩阵输入预定义的解码器获得重建图像。

在上述图1至图4所示的实施例中，预设矢量量化编码器、预设的掩码生成模块、所述多阶段Transformer生成模型、所述预定义的矢量量化解码器均集成在端到端的压缩-生成联合的极限图像压缩、解压缩系统中，其中，所述端到端的压缩-生成联合的极限图像压缩、解压缩系统通过预采集的样本图像集反复训练而成。

在本发明的一个具体实施例中，预定义的矢量量化编码器、预定义的矢量量化解码器使用已经训练完成的模型，无需额外训练；预设的掩码生成模块不包含神经网络，也无需进行训练。

多阶段Transformer生成模型为预训练模型，本发明实施例提供的生成-熵估计联合的极限图像压缩、解压缩方法通过预采集的样本图像集迭代训练而成，该迭代训练包括对多阶段Transformer生成模型的迭代训练。在本发明中的一个具体实施例中，基于预训练的多阶段Transformer生成模型对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所该先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；相应的，对掩码中标记为不保留（丢弃）的元素，则跳过不予编码（压缩）至该紧凑比特流。

具体的，作为示例，图5示出了根据本发明实施例的训练多阶段Transformer生成模型的流程。如图5所示，训练所述多阶段Transformer生成模型，包括如下步骤：

S510：构建用于先验分布建模的目标函数及多阶段Transformer生成模型；

S520：使用所述待预定义的矢量量化编码器反复根据所述样本图像集中的图像生成量化索引矩阵并随机掩蔽部分元素；

S530：使用多阶段Transformer生成模型根据掩蔽后的量化索引矩阵预测原始量化索引矩阵中所有元素的概率分布，并基于预测结果优化所述目标函数，直至所述目标函数达到最优；

S450：重复步骤S520和步骤S530，将最后一次训练生成的多阶段Transformer生成模型作为端到端的压缩-生成联合的极限图像压缩系统中的多阶段Transformer生成模型。

具体的，作为示例，上述生成-熵估计联合的极限图像压缩方法，基于预设矢量量化编码器E、预设的掩码生成模块M、所述多阶段Transformer生成模型MST、预定义的矢量量化解码器D实现。其中，

矢量量化编码器E，用于将输入图像提取为量化索引矩阵。此处的H代表输入图像的长度，W代表输入图像的宽度，M表示下采样步长。

矢量量化解码器D，用于将量化索引矩阵变换为生成的重建图像。

掩码生成模块M，用于根据物体边缘信息，生成与量化索引矩阵大小相同的，保留图像边缘的棋盘格掩码/>。

多阶段Transformer生成模型MST，用于根据提供的条件信息，生成量化索引的概率分布向量，其中，/>表示量化索引的取值个数，概率分布向量/>中各个元素代表其对应的量化索引的取值概率，在0到1之间。

本发明中，图像压缩与图像生成的结合体现于，通过多阶段Transformer生成模型构造量化索引的先验分布，在发送端根据掩码丢弃部分量化索引，使用算术编码器根据先验分布将保留的量化索引压缩至紧凑的比特流表示，同时忽略被丢弃的量化索引；在接收端根据先验分布，指导算术解码器从比特流中解码被保留的量化索引，同时采样先验分布以预测丢弃的量化索引取值。

其中，丢失的量化索引的采样，其实现方法为：选取先验分布中，概率最高的量化索引取值，作为丢失量化索引的采样值；

下面，将结合更为具体的实施例对本发明的上述生成-熵估计联合的极限图像压缩、解压缩方法，在编码端与解码端的运行流程进行更详细的说明。

具体的，作为示例，本发明所述的压缩-生成联合的极限图像压缩方法，在图像编码端的压缩流程如下：

将原图像输入预设的矢量量化编码器以获取相应的量化索引矩阵/>，此处的H代表输入图像的长度，W代表输入图像的宽度，M表示下采样步长；

提取原图像中的物体边缘信息，输入预设的掩码生成模块M，获得保留物体边缘量化索引的棋盘格掩码/>，在掩码m中，0表示丢弃该位置的量化索引，1表示保留该位置的量化索引；

使用掩码m将量化索引矩阵中所有丢弃的元素替换为Mask标记，得到掩蔽后的量化索引矩阵/>，如下所示：

其中，表示矩阵中元素的坐标。

使用多阶段Transformer生成模型MST对掩蔽后的量化索引矩阵中的元素进行概率估计，得到各个元素对应的先验分布，并根据该分布将掩码中标记为保留的元素使用算术编码器压缩至紧凑的比特流，对掩码中标记为丢弃的元素跳过不予编码至比特流；

使用额外熵编码器将物体边缘信息压缩至紧凑的比特流；

相应的，作为示例，本发明所述的压缩-生成联合的极限图像解压缩系统，在图像解码端（接收端）的解压缩流程如下：

比特流中首先解码图像的物体边缘信息，输入预设的掩码生成模块M，获得保留物体边缘量化索引的棋盘格掩码m，并根据掩码m恢复掩蔽后的量化索引矩阵中各个Mask标记的位置；

生成空白的掩蔽后的量化索引矩阵和空白的包含预测元素的量化索引矩阵，并根据掩码将Mask标记填入掩蔽后的量化索引矩阵/>；

使用多阶段Transformer生成模型按发送端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，对于掩码m中标记为保留的元素直接根据分布从比特流中解码并填入掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>，对于掩码中丢弃的元素（掩蔽后的量化索引矩阵/>中被标记为Mask的元素）则从先验分布中采样作为该元素的预测并填入包含预测元素的量化索引矩阵/>，如下所示：

其中，表示矩阵中元素的坐标，/>表示采样操作，即选取先验分布中具有最高概率的取值作为该量化索引的预测值；

将包含预测元素的量化索引矩阵输入预定义的矢量量化解码器以获取包含预测内容的重建图像/>。

在本发明的一个具体实施例中，上述用于压缩物体边缘信息的额外熵编码器，采用开源的Zlib熵编码器，将仅包含0和1的物体边缘信息视为比特流进行压缩与解压缩，该编解码器无需额外提供先验分布。

该生成-熵估计联合的设计可以充分去除图像中的空间冗余信息，以进一步降低比特率，节约带宽，并在接收端借助于多阶段Transformer生成模型的生成能力，合理地补全图像中的缺失信息，以提供具有高视觉质量的重建图像。

此外，为了充分利用图像信息的空间相关性以建立准确的先验分布，本发明中还提出了用于所述的压缩-生成联合的极限图像压缩方法中先验分布建模的多阶段Transformer生成模型。该模型通过对量化索引矩阵进行空间分组，改变自回归的计算顺序以确保在预测多数量化索引的分布时可以参考其四周已经完成编解码的索引。这种方法相较于传统的光栅扫描自回归顺序中，当前正在编解码的索引只能参考其左上方已经完成编解码的索引，可以更好地挖掘量化索引矩阵中的空间相关性，以生成更准确的先验分布预测。

下面，将结合更为具体的实施例对本发明的上述多阶段Transformer生成模型进行更详细的说明。作为示例，图6示出了多阶段Transformer生成模型对于输入的量化索引图的划分以及处理顺序。

具体的，如图6所示，多阶段Transformer生成模型将量化索引矩阵在空间上按2x2单元划分为有顺序的4组，其中每个2x2单元的左上位置为第0组，右下位置为第1组，左下位置为第2组，右上位置为第3组；

随后，所述多阶段Transformer生成模型分为4个阶段依次对每个分组内的量化索引，使用滑动窗口按光栅扫描顺序进行遍历，依次建模每一个量化索引的先验分布。其中，当前正在处理的索引，只能使用已经计算完先验分布的量化索引作为参考，计算其先验分布。

图7示出了根据本发明实施例的利用多阶段Transformer生成模型为掩蔽后的量化索引矩阵计算先验分布的流程，如图7所示，该计算先验分布的具体流程包括：

S710：将掩蔽后的量化索引矩阵在空间上按2x2单元划分为有序的4组；

S720：在第0阶段，滑动窗口遍历分组0内的所有索引，滑动窗口内当前预测的索引仅能参考其所在的滑动窗口内其上方和左方已估计完分布的分组0的索引，估计其自身的先验分布；

S730：在第1阶段，滑动窗口遍历分组1内的所有索引，滑动窗口内当前预测的索引可参考其所在的滑动窗口内其上方和左方已估计完分布的分组1的索引和分组0在滑动窗口内的全部索引，估计其自身的先验分布；

S740：在第2阶段，滑动窗口遍历分组2内的所有索引，滑动窗口内当前预测的索引可参考其所在的滑动窗口内其上方和左方已估计完分布的分组2的索引和分组0、1在滑动窗口内的全部索引，估计其自身的先验分布；

S750：在第3阶段，滑动窗口遍历分组3内的所有索引，滑动窗口内当前预测的索引可参考其所在的滑动窗口内其上方和左方已估计完分布的分组3的索引和分组0、1、2在滑动窗口内的全部索引，估计其自身的先验分布。

在上述步骤中，多阶段Transformer生成模型将滑动窗口内，用作参考的量化索引，按每个分组以光栅扫描顺序展开，将每个分组展开的量化索引，按分组0、分组1、分组2、分组3的顺序依次拼接，作为多阶段Transformer生成模型的输入序列。多阶段Transformer生成模型输出为当前处理的量化索引的先验分布。

从上述多阶段Transformer生成模型的自回归过程可以看出，分组1、分组2、分组3内的量化索引可以参考其上下左右四个方向的内容，充分利用图像内容的空间相关性，提升先验分布估计精度。

在图6所示的多阶段Transformer生成模型中，训练过程中随机掩码仅被施加于分组2和分组3所在的索引元素，以得到掩蔽后的量化索引矩阵，该矩阵被送入多阶段Transformer生成模型以预测原始量化索引矩阵/>中所有元素的概率分布，并使用最大似然估计优化模型，目标函数可表示为：

其中，k表示索引。

此外，为了避免随机添加掩码造成图像中重要的纹理结构丢失，本发明引入了保留边缘的棋盘格掩码。

具体而言，所述的掩码生成模块首先生成与量化索引矩阵相同尺寸的交错棋盘格掩码模板/>：

其中，为矩阵中元素的坐标，/>表示掩码模板/>中位于/>行/>列元素的取值。

随后，根据原图像中的物体边缘信息，将掩码m中物体边缘所在的量化索引全部设置为1，得到最终的掩码m。

图8示出了根据本发明实施例的生成-熵估计联合的极限图像压缩方法所涉及的对比方法的示意图。如图8所示，将本发明与传统压缩编码方法VVC、基于学习的生成式图像编码方法HiFiC在相邻比特率下压缩同一张图片的结果进行对比实验，从左至右分别为原图和应用VVC、HiFiC、本发明的压缩编码方法所得到的最终图像，由实验结果可知，在低码率下，应用本发明的基于压缩-生成联合的极限图像压缩方法能够显著降低比特率，重建图像也有着更好的主观感知质量。

如上描述了根据本发明实施例的生成-熵估计联合的极限图像压缩、解压缩方法。

可以确定，本发明提供的上述生成-熵估计联合的极限图像压缩、解压缩方法，在发送端将源图像输入预设矢量量化编码器以获取量化索引矩阵，并使用掩码生成模块根据图像的边缘信息/>生成与量化索引矩阵/>尺寸相同的掩码m；之后使用掩码m将量化索引矩阵/>中所有丢弃的元素替换为Mask标记，得到掩蔽后的量化索引矩阵/>，使用多阶段Transformer生成模型估计该矩阵各元素先验分布，并将保留的量化索引使用先验分布压缩至紧凑的比特流表示，同时将边缘图/>使用额外的熵编码器压缩至紧凑的比特流表示；在接收端首先使用额外的上解码器从比特流中解码边缘图/>并使用掩码生成模块生成掩码m以确定被丢弃索引在矩阵中的位置，随后使用多阶段Transformer生成模型预测先验分布，解码保留的量化索引并生成丢弃的量化索引，得到包含预测元素的量化索引矩阵/>，最后将该矩阵输入预定义的矢量量化解码器以获取包含预测内容的重建图像。如此，该方法实现图像生成算法与图像压缩算法的结合，通过丢失量化索引可以进一步节省传输数据量，在接收端使用该方法生成量化索引保证重建图像具有高视觉感知质量，具有低码率高主观质量的优势。

利用本发明的上述生成-熵估计联合的极限图像压缩与解压缩方法进行图像的压缩和解压缩，重建图像具有高视觉感知质量，通过丢失量化索引并在接受端生成的方法可以显著提高编码性能，节约传输带宽。本发明的上述生成-熵估计联合的极限图像压缩与解压缩方法，可以采用软件实现，也可以采用硬件实现，或采用软件和硬件组合的方式实现。

与上述生成-熵估计联合的极限图像压缩与解压缩方法相对应，本发明还提供一种生成-熵估计联合的极限图像压缩系统、生成-熵估计联合的极限图像解压缩系统。

具体的，图9和图10分别示出了根据本发明实施例的生成-熵估计联合的极限图像压缩系统800和生成-熵估计联合的极限图像解压缩系统900的方框示意图。如图8所示，生成-熵估计联合的极限图像压缩系统800主要包括图像特征获取单元810、特征掩蔽单元820、保留元素压缩单元830和边缘信息压缩单元840。其中，

图像特征获取单元810，用于基于预设的矢量量化编码器和掩码生成模块，获取原图像的量化索引矩阵和保留物体边缘量化索引的棋盘格掩码m；

特征掩蔽单元820，用于使用所述棋盘格掩码m将所述量化索引矩阵中所丢弃的元素替换为Mask标记，以得到掩蔽后的量化索引矩阵/>；

保留元素压缩单元830，用于对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所述先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；

边缘信息压缩单元840，用于将所述原图像中的物体边缘信息压缩至所述紧凑比特流。

具体的，作为示例，在特征掩蔽单元820，为了进一步去除图像中的空间冗余，该模块通过掩码以棋盘格方式均匀地丢失部分量化索引，具体而言，该特征掩蔽单元820通过图像特征获取单元810生成掩码，基于预设的多阶段Transformer生成模型估计量化索引先验分布，然后通过保留元素压缩单元830是算术编码器压缩量化索引以及通过边缘信息压缩单元840的熵编码器（图中未示出）压缩物体边缘信息。

其中，边缘信息压缩单元840，根据原图像中的物体边缘信息，构造保留物体边缘棋盘格掩码，并将其施加于量化索引矩阵，得到掩蔽后的量化索引矩阵，其中，被丢弃的量化索引被替换为Mask标记；多阶段Transformer生成模型对掩蔽后的量化索引矩阵中各个元素构造其先验分布；对于被保留的量化索引，使用其先验分布指导算术编码器将其压缩至紧凑比特流表示，同时对于被丢弃的量化索引不予编码；使用熵编码器压缩物体边缘信息至紧凑比特流表示。

如图9所示，生成-熵估计联合的极限图像解压缩系统900主要包括图像特征解压单元910、掩蔽特征标记单元920、量化矩阵索引形成单元930以及解码重建单元940。其中，

图像特征解压单元910，用于从所述紧凑比特流中解码出所述原图像的物体边缘信息，并基于预设的掩码生成模块，获得保留物体边缘量化索引的棋盘格掩码，以及，根据所述棋盘格掩码恢复掩蔽后的量化索引矩阵中各个Mask标记的位置；

掩蔽特征标记单元920，用于根据所述棋盘格掩码将所述Mask标记填入掩蔽后的量化索引矩阵；

量化矩阵索引形成单元930，按照与图像编码端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，根据所述先验分布从所述紧凑比特流中解码出棋盘格掩码m中标记为保留的元素并填入在所述图像解码端预生成的掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>中；其中，对于所述掩蔽后的量化索引矩阵/>中被标记为Mask的元素，从所述先验分布中采样作为所述被标记为Mask的元素的预测并填入所述包含预测元素的量化索引矩阵/>；

解码重建单元940，用于将所述包含预测元素的量化索引矩阵输入预定义的矢量量化解码器以获取包含预测内容的重建图像。

具体的，作为示例，在解码端获取编码端压缩发送的紧凑比特流后，首先使用熵解码器解码物体边缘信息，并使用掩码生成单元恢复与发送端相同的掩码；随后，使用多阶段Transformer生成模型计算先验分布，对于保留的量化索引，使用算术解码器根据该分布从紧凑的比特流中解码量化索引，对于丢弃的量化索引，使用补全单元从先验分布中采样概率最大的量化索引取值作为预测。

最后通过解码重建单元840对矢量量化索引进行重建得到重建图像。

需要说明的是，上述多阶段Transformer生成模型重新组织自回归模型的执行顺序，将量化索引矩阵在空间上按2x2单元均匀划分为有顺序的4组，分为4个阶段依次使用滑动窗口按光栅扫描顺序遍历分组内所有量化索引并建模其先验分布，从而充分利用量化索引之间的空间依赖关系，以提升先验分布的建模精度。

如此，重建图像具有高视觉感知质量，通过丢失量化索引并在接受端生成的方法可以显著提高编码性能，节约传输带宽。

上述生成-熵估计联合的极限图像压缩、解压缩系统是和前述生成-熵估计联合的极限图像压缩、解压缩方法相对应的实现系统，其具体的逻辑结构的实现可参照上述生成-熵估计联合的极限图像压缩、解压缩方法的具体实施例，在此不再做一一详述。

如图11所示，本发明还提供一种电子设备，该电子设备包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

该存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的生成-熵估计联合的极限图像压缩、解压缩方法中的步骤。

本领域技术人员可以理解的是，图11示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的生成-熵估计联合的极限图像压缩、解压缩程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

将所述原图像中的物体边缘信息压缩至所述紧凑比特流。

以及，

按照与图像编码端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，根据所述先验分布从所述紧凑比特流中解码出棋盘格掩码m中标记为保留的元素并填入在所述图像解码端预生成的掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>中；其中，对于所述掩蔽后的量化索引矩阵/>中被标记为Mask的元素，从所述先验分布中采样作为所述被标记为Mask的元素的预测并填入所述包含预测元素的量化索引矩阵/>；

具体地，所述处理器10对上述指令的具体实现方法可参考图4对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

如上参照附图以示例的方式描述了根据本发明提出的生成-熵估计联合的极限图像压缩、解压缩方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的生成-熵估计联合的极限图像压缩、解压缩方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种生成-熵估计联合的极限图像压缩方法，应用于电子装置，在图像编码端实现；其特征在于，包括：

将所述原图像中的物体边缘信息压缩至所述紧凑比特流。

2.如权利要求1所述的生成-熵估计联合的极限图像压缩方法，其特征在于，基于预训练的多阶段Transformer生成模型对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，并根据所述先验分布将所述棋盘格掩码中标记为保留的元素压缩至紧凑比特流；其中，训练所述多阶段Transformer生成模型，包括：

3.如权利要求2所述的生成-熵估计联合的极限图像压缩方法，其特征在于，基于预训练的多阶段Transformer生成模型对所述掩蔽后的量化索引矩阵中的元素进行概率估计，以得到各个元素对应的先验分布，包括：

4.如权利要求3所述的生成-熵估计联合的极限图像压缩方法，其特征在于，在所述多阶段Transformer生成模型的训练过程中，随机掩码仅被施加于分组2和分组3所在的索引元素中，以得到掩蔽后的量化索引矩阵；

5.如权利要求4所述的生成-熵估计联合的极限图像压缩方法，其特征在于，所述多阶段Transformer生成模型使用滑动窗口以光栅自回归的顺序，遍历掩蔽后的量化索引矩阵中当前处理的分组；其中，

待估计先验分布的量化索引位于滑动窗口的中心位置；

6.一种生成-熵估计联合的极限图像压缩系统，应用于电子装置，以实现如权利要求1至5中任一项所述的生成-熵估计联合的极限图像压缩方法，所述压缩系统包括：

7.一种生成-熵估计联合的极限图像解压缩方法，应用于电子装置，在图像解码端实现；用于对利用如权利要求1至5中任一项所述的生成-熵估计联合的极限图像压缩方法压缩而成的紧凑的比特流进行解压缩处理，包括：

基于预训练的多阶段Transformer生成模型，按照与图像编码端相同的顺序估计掩蔽后的量化索引矩阵中各个元素的先验分布，根据所述先验分布从所述紧凑比特流中解码出棋盘格掩码m中标记为保留的元素并填入在所述图像解码端预生成的掩蔽后的量化索引矩阵/>和包含预测元素的量化索引矩阵/>中；其中，对于所述掩蔽后的量化索引矩阵中被标记为Mask的元素，从所述先验分布中采样作为所述被标记为Mask的元素的预测并填入所述包含预测元素的量化索引矩阵/>；

8.如权利要求7所述的生成-熵估计联合的极限图像解压缩方法，其特征在于，所述图像解码端在根据所述棋盘格掩码将所述Mask标记填入掩蔽后的量化索引矩阵之前，还包括：生成空白的掩蔽后的量化索引矩阵/>和空白的包含预测元素的量化索引矩阵/>。

9.一种生成-熵估计联合的极限图像解压缩系统，应用于电子装置，以实现如权利要求7或8所述的生成-熵估计联合的极限图像解压缩方法，所述解压缩系统包括：

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的生成-熵估计联合的极限图像压缩方法以及如权利要求7或8所述的生成-熵估计联合的极限图像解压缩方法中的步骤。