CN115880379A

CN115880379A - 语义可伸缩图像编码方法、系统、设备及存储介质

Info

Publication number: CN115880379A
Application number: CN202111134977.9A
Authority: CN
Inventors: 李厚强; 凃涵越; 李礼; 周文罡
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-03-31

Abstract

本发明公开了一种语义可伸缩图像编码方法、系统、设备及存储介质，通过联合进行特征和图像压缩，解决现有技术中单独压缩图像和压缩特征时存在的问题，不仅可以兼顾面向人类视觉的图像质量与语义分析任务精度，还可以降低信息冗余与码率。

Description

语义可伸缩图像编码方法、系统、设备及存储介质

技术领域

本发明涉及图像压缩技术领域，尤其涉及一种语义可伸缩图像编码方法、系统、设备及存储介质。

背景技术

图像压缩旨在用一种更紧致的形式去表征原始的像素空间，以减少图像的存储与传输开销。目前广泛使用的传统图像压缩框架包括JPEG、JPEG2000、BPG等等。近年来，随着深度学习技术的迅速发展，基于深度学习的端到端图像压缩框架也取得了很大的成功。端到端图像压缩框架主要由编码器、解码器和熵编码模块三部分构成，其中编码器将图像变换为更紧致的隐表征，隐表征经过量化后，通过熵编码模块进行无损压缩得到用于传输的比特流，在接收端，对比特流进行解压缩后得到量化后的隐表征，通过解码器将量化后的隐表征重新变换到像素空间，重建输入图像。图像压缩的目标则是在保证重建图像的质量的同时，尽可能减少编码后所需的码率。

在端到端图像压缩中，为了解决量化不可微的问题，一种通用的方法是在训练时用加性的均分分布噪声来模拟量化过程。现有的一种模型框架如图1所示。其中，编码器g_a由多层卷积构成，将图像信号x变为待编码的隐表征y。为了提高熵编码的效率，现有工作引入一个额外的变量z作为超先验，并假设给定z时，y的每一个元素是条件独立的，这样能减少编码y时的空间冗余。为了方便起见，通常将给定z时y的条件概率建模为高斯分布。在具体实现上，使用一个变换h_a基于y得到z，再通过另一个变换h_s，基于z生成高斯分布P(y|z)的相关参数，即均值与方差；图1中，两处U|Q的含义是相同的，Q代表量化(quantization)，是在测试时使用的，U代表加上均匀分布的噪声(uniform noise)，是在训练过程中用于模拟量化；

表示加上均匀噪声后的x、y、z，/>

表示加上均匀噪声后的x、y、z；g_s表示解码器。最终优化的损失为R+λD，其中R为变量y和z的码率之和，D为图像重建的误差，λ为加权系数。

但是，现有的图像压缩方案只考虑了面向人类视觉的图像质量，未考虑压缩后图像进行语义分析任务时的精度，低码率下的失真会严重降低语义任务的精度。而且，由于基于图像的语义分析过程(即特征提取过程)往往需要大量的计算资源，仅压缩图像意味着云端需要承载很大的计算负荷，这会阻碍深度学习模型在实际中的部署。

深度神经网络可以被看为是堆叠的特征提取器。从图片中提取的特征具有丰富的语义信息，能用于不同的视觉任务分析，如图像分类、目标检测等。在基于云端的视觉分析系统中，图像、视频数据在前端被采集，语义分析过程在云端完成。传统的数据通信系统通常采用“先压缩、再分析”的模式，即前端完成图像的获取、压缩和编码等工作，云端则负责对解码后的图片进行语义分析。然而，由于基于深度学习的特征提取通常都需要大量的计算资源，云端难以承载随着数据规模的日益扩大而带来的巨大的计算开销。为了减少传输所需的带宽以及降低云端的计算开销，可以采取另一种“先分析、再压缩”的模式。前端完成图像的获取和特征提取工作，提取出的特征被压缩并传输到云端，云端直接基于解码后的特征进行语义分析。和图像压缩不同的是，特征压缩相关的技术还不是很成熟，有待进一步研究。

现有技术中，压缩深度神经网络特征图的方法大多是基于图像或视频压缩的方法。现有工作将维度为C的特征图看成是一个C帧的视频序列，使用视频编码器(如HEVC等)逐帧进行压缩。由于HEVC要求输入的长和宽为8的整数倍，且只能处理输入为8比特或更高比特的情况，压缩前需要对特征图进行预处理，包括在边缘进行补零，并将数值范围缩放至[0，255]后量化为整数。

但是，由于特征图的尺寸相对于输入图像来说，通常都比较小，且特征图的空间相关性也较弱，因此对每一维的特征图单独使用HEVC等视频编码器的压缩效率较低。另一方面，在很多情况下，机器视觉并不能完全代替人的推理和决策，然而由于特征提取过程中损失了大量的信息，基于特征图很难高质量地重建输入图像，这也限制了特征压缩的应用场景。此外，若同时压缩不同层次的特征图和图像，现有技术没有考虑相邻层的特征以及特征与图像间的相关性，因此存在大量的信息冗余，导致编码效率不够高。

发明内容

本发明的目的是提供一种语义可伸缩图像编码方法、系统、设备及存储介质，能够兼顾面向人类视觉的图像质量与语义分析任务精度，并提升编码效率。

本发明的目的是通过以下技术方案实现的：

一种语义可伸缩图像编码方法，包括：

构建包含压缩模型和跨层上下文模型的可伸缩图像编码器；

利用所述可伸缩图像编码器对输入图像以及特征提取器输出的图像特征进行联合压缩，包括：利用可伸缩图像编码器对图像特征进行压缩，利用压缩后的图像特征作为先验，估计输入图像经压缩模型中特征编码器输出的隐表征的概率分布，将压缩后的图像特征输入至跨层上下文模型，估计出概率分布的参数；由压缩模型中的熵编码模型利用概率分布的参数对输入图像进行熵编码，再经压缩模型中的解码器得到编码后的图像。

一种语义可伸缩图像编码系统，包括：

模型构建单元，用于包含压缩模型和跨层上下文模型的可伸缩图像编码器；

联合压缩单元，用于利用所述可伸缩图像编码器对输入图像以及特征提取器输出的图像特征进行联合压缩，包括：利用可伸缩图像编码器对图像特征进行压缩，利用压缩后的图像特征作为先验，估计输入图像经压缩模型中特征编码器输出的隐表征的概率分布，将压缩后的图像特征输入至跨层上下文模型，估计出概率分布的参数；由压缩模型中的熵编码模型利用概率分布的参数对输入图像进行熵编码，再经压缩模型中的解码器得到编码后的图像。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过联合进行特征和图像压缩，解决现有技术中单独压缩图像和压缩特征时存在的问题，不仅可以兼顾面向人类视觉的图像质量与语义分析任务精度，还可以降低信息冗余与码率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的现有的图像编码框架示意图；

图2为本发明实施例提供的一种语义可伸缩图像编码方法的示意图；

图3为本发明实施例提供的实施例一的方案流程图；

图4为本发明实施例提供的图像压缩性能对比结果示意图；

图5为本发明实施例提供的一种语义可伸缩图像编码系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种语义可伸缩图像编码方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

本发明实施例提供的语义可伸缩图像编码方法，主要包括如下步骤：

1、构建包含压缩模型和跨层上下文模型的可伸缩图像编码器。

本发明实施例中，所述跨层上下文模型可以包括依次设置的三个卷积层，相邻卷积层之间设有激活函数Leaky ReLU。

本发明实施例中，所述压缩模型包括：特征编码器、特征解码器与熵编码模型；其中，编码器可以包括依次设置的三个卷积层，相邻卷积层之间设有非线性的归一化层GDN(generalized divisive normalization)；熵编码模型中依次执行算术编码与算术解码；解码器可以包括依次设置的三个卷积层，相邻卷积层之间设有IGDN层，IGDN层执行GDN层的逆过程；熵编码模型可以使用现有模型结构，例如，可分解的概率模型。

2、利用所述可伸缩图像编码器对输入图像以及特征提取器输出的图像特征进行联合压缩，包括：利用可伸缩图像编码器对图像特征进行压缩，利用压缩后的图像特征作为先验，估计输入图像经压缩模型中特征编码器输出的隐表征的概率分布，将压缩后的图像特征输入至跨层上下文模型，估计出概率分布的参数；由压缩模型中的熵编码模型利用概率分布的参数对输入图像进行熵编码，再经解码器得到编码后的图像。

本发明实施例中，对于输入图像与图像特征进行联合压缩时，所涉及的图像特征可以是一个层次的图像特征，也可以是多个层次的图像特征。1)当图像特征仅包含一个层次的图像特征时，直接利用压缩模型对图像特征进行压缩，压缩后的图像特征将作为先验用于输入图像的编码；图像特征压缩过程如下：输入的图像特征经编码器与熵编码器后，得到量化后的隐表征，通过特征解码器重建，获得压缩后的图像特征。2)当图像特征包含多个层次的图像特征时，利用压缩模型对最高层N的图像特征进行压缩(与前述第1)种情况中的方式相同)；再从高到低依次进行图像压缩，当压缩第i层的图像特征时，将压缩后的第j+1层的图像特征作为先验，估计出第j层的图像特征经压缩模型中特征编码器输出的隐表征的概率分布，将压缩后的第j+1层的图像特征输入至跨层上下文模型，估计出概率分布的参数；由压缩模型中的熵编码模型利用概率分布的参数对第j层的图像特征输入图像进行熵编码，再经解码器重建得到压缩后的第j层的图像特征；i＝1，...，N-1；压缩后的第1层的特征图像将作为先验用于输入图像的编码。

基于以上方案，在训练时，对压缩模型和跨层上下文模型进行联合训练，优化优化率失真损失函数R+λD，其中，R为输入图像和图像特征的码率之和，D为输入图像和图像特征的重建误差，λ为加权系数。

如图2所示，为本发明提供的语义可伸缩图像编码方法的示意图。该编码方法采用了一种全新的图像编码方式，通过联合进行图像特征和图像压缩，解决现有单独压缩图像和压缩特征时存在的问题。如之前所述，联合压缩时所涉及可以是多个层次的图像特征，由于低层次特征是从图像信号中提取出来的，而高层次特征又是从低层次特征中提取出来的，相邻层的特征与图像之间存在着很强的相关性，单独压缩存在着大量信息冗余，本发明上述方案中，通过渐进式地联合压缩高层次特征、低层次特征和输入图像，以降低信息冗余，提升编码效率，即以高层次的图像特征作为输入，当作一种跨层的先验，基于该先验预测低层次特征的条件概率分布，在编码低层次特征时，基于预测的条件概率分布设计熵编码器，以减少层间的信息冗余。类似地，当压缩图像信号时，跨层上下文模型以低层次特征作为输入，预测图像信号的条件概率分布，再基于预测的概率分布进行熵编码。

如图2所示，展示了联合编码结果所适用的场景，图2中的各项语义任务可根据实际情况选定，例如，语义任务C可以是图像识别，语义任务B可以是目标检测、语义任务A可以是目标分割。通过本发明提供的联合压缩，能够得到可伸缩的比特流，它是熵编码器模型的输出，是按前文介绍方式完成编码后得到的一个结果。其中，底层为基本层为高层次图像特征的比特流，它是高层图像特征经熵编码模型获得的结果，包含粗粒度的语义信息；倒数第二层至顶层依次为第一、二、三级增强层，第一级增强层为较高层次特征，第二级增强层为低层次特征，第三级增强层为图像层，类似的也是相应图像特征或者输入图像经熵编码模型获得的结果。根据不同的任务需求可以选择相应比特流通过压缩模型的解码器后重建出相应特征，以完成相应任务。

此处的高层次、较高层次、低层次属于相对概念，高、低对应着深度神经网络中特征提取器的深度，具体的划分方式可以由用户根据实际情况或者经验进行调整，例如，高层次特征可以对应最后一个特征提取器输出的图像特征，低层次特征可以对应第一个特征提取器输出的图像特征，其余特征提取器输出的图像特征的可以称为较高层次特征。

需要说明的是：1)本发明实施例提供的跨层上下文模型是一种通用的压缩模型，可以用于不同的特征提取网络，用于减少层间的信息冗余，如图像分类网络，目标检测网络，图像分割网络等等。2)本发明实施例提供的跨层上下文模型与其他端到端的压缩或熵编码模型相结合，如超先验模型、自回归上下文模型等。

为了便于理解，下面结合三个实施例进行介绍。

实施例一

本实施例中，将提出的跨层上下文模型与基于残差网络(ResNet)的图像分类网络结合使用，同时压缩用于图像分类的卷积神经网络的多层图像特征与输入图像，本实施例中，残差网络由四个阶段组成，因此N取为4，如图3所示，主要步骤如下：

第一步：训练图像分类网络，并对最高层图像特征f_N进行池化后的特征f_u，加上码率约束，训练时联合优化分类的精度和最高层特征的压缩性能，得到压缩后的特征

该特征可以通过一个线性分类器直接完成分类任务。码率约束可以通过一个可分解的概率模型实现。

第二步：压缩中间层特征中的最高层图像特征f₄，压缩后的图像特征记为

压缩支路中，En_N表示编码器，De_N表示解码器，N为序号(此实施例中N＝4)，Q表示量化，AE表示算式编码，AD表示算式解码。使用的特征编码器和解码器结构如图3右侧所示，熵编码模型使用可分解的概率模型。

第三步：从高到低依次压缩中间层特征中的较低图像特征f_j，j＝1，2，3。当压缩第j层图像特征时，将压缩后的第j+1层图像特征

作为先验，估计第j层图像特征的隐表征z_j在压缩后的第j+1层图像特征/>

时的条件概率分布。假设该条件概率分布符合高斯分布，跨层上下文模型(CLCM)将压缩后的第j+1层图像特征/>

作为输入，预测高斯分布的均值μ与方差σ，预测的参数用于第j层图像特征的熵编码过程；跨层上下文模型结构如图3右侧所示；右侧三个虚线框中，卷积层(Conv)部分的参数A×B×C：A是卷积层输出的通道数目，B、C是卷积层的卷积核大小，例如，跨层上下文模型第一卷积层参数K1×3×3即表示卷积层输出通道数为K1(即，有K1个卷积核)，卷积核的尺寸为3×3。

第四步：将第三步中压缩的最浅层图像特征

作为先验，估计输入图像隐表征y的概率分布，用于编码输入图像x。类似地，假设给定压缩后的图像特征/>

时隐表征y的条件概率符合高斯分布，将压缩后的图像特征/>

输入跨层上下文模型，预测高斯分布的均值μ与方差σ，用于输入图像的熵编码，最终经解码器完成编码，编码结果记为/>

第五步：联合训练第二步至第四步的压缩模型和跨层上下文模型，优化率失真损失函数R+λD，其中，R为图像信号和各层特征的码率之和，D为图像信号和各层特征的重建误差，λ为加权系数。训练完成后，得到最终的可伸缩图像编码器。

实施例二

本实施例将提出的跨层上下文模型与图像分类网络结合使用，与实施例一不同的是，本实施例考虑仅压缩中间单层的特征和图像信号。

本实施例的主要步骤如下：

第一步：压缩中间层图像特征f₂，压缩结果记为

使用的特征编码器和解码器结构如图3右侧所示，熵编码模型使用可分解的概率模型。

第二步：将第一步中压缩的图像特征

作为先验，估计图像信号隐表征y的概率分布，用于编码图像信号。假设给定压缩的图像特征/>

时隐表征y的条件概率符合高斯分布，将压缩的图像特征/>

输入跨层上下文模型，预测高斯分布的均值μ与方差σ，用于输入图像的熵编码，最终经解码器完成编码。

第三步：联合训练前两步的压缩模型和跨层上下文模型，优化率失真损失函数R+λD，其中，R为图像信号和各层特征的码率之和，D为图像信号和各层特征的重建误差，λ为加权系数。训练完成后，得到最终的可伸缩图像编码器。

实施例三

本实施例将提出的跨层上下文模型与基于特征金字塔的目标检测网络结合使用，同时压缩用于目标检测的不同尺度的图像特征与输入图像。

本实施例的具体步骤如下：

第一步：压缩特征金字塔中的最高层图像特征p₅，压缩结果记为

使用的特征编码器和解码器结构如图2右侧所示，熵编码模型使用可分解的概率模型。

第二步：从高到低依次压缩特征金字塔中的较低特征p_j，j＝2，3，4。当压缩第j层图像特征时，将压缩后的第j+1层图像特征

作为先验，估计第j层图像特征的隐表征z_j在给定压缩后的第j+1层图像特征/>

作为输入，预测高斯分布的均值μ与方差σ，预测的参数用于第j层图像特征的熵编码过程。

第三步：将第三步中压缩的最浅层特征

作为先验，估计图像信号隐表征y的概率分布，用于编码输入图像。类似地，假设给定特征p₂时隐表征y的条件概率符合高斯分布，将压缩后的图像特征/>

第四步：联合训练第二步至第四步的压缩模型和跨层上下文模型，优化率失真损失函数R+λD，其中，R为图像信号和各层特征的码率之和，D为图像信号和各层特征的重建误差，λ为加权系数。训练完成后，得到最终的可伸缩图像编码器。

为了说明本发明上述方案的效果，通过如下两种对比实验进行说明。

1)以实施例一的方案与不使用跨层上下文模型、各层特征单独压缩的方法相比，在CUB-200-2011数据集上，图像特征f₁和f₂压缩后的码率分别降低了23.6％和11.0％。在FGVC-Aircraft数据集上，图像特征f₁和f₂压缩后的码率分别降低了21.9％和10.7％。

2)输入图像的压缩性能对比不使用跨层上下文模型的方法也有明显提升，结果如图4所示，左侧部分为CUB-200-2011数据集的实验结果；右侧部分为FGVC-Aircraft数据集上的实验结果，括号里的f1、f2分别指将特征f₁、f₂作为压缩图像时的跨层先验，

本发明另一实施例还提供一种语义可伸缩图像编码系统，其主要用于实现前述实施例提供的方法，如图5所示，该系统主要包括：

本发明另一实施例还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

本发明另一实施例还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种语义可伸缩图像编码方法，其特征在于，包括：

构建包含压缩模型和跨层上下文模型的可伸缩图像编码器；

2.根据权利要求1所述的一种语义可伸缩图像编码方法，其特征在于，所述利用可伸缩图像编码器对图像特征进行压缩包括：

当图像特征仅包含一个层次的图像特征时，利用压缩模型对图像特征进行压缩。

3.根据权利要求1所述的一种语义可伸缩图像编码方法，其特征在于，所述利用可伸缩图像编码器对图像特征进行压缩包括：

当图像特征包含多个层次的图像特征时，利用压缩模型对最高层N的图像特征进行压缩；再从高到低依次进行图像压缩，当压缩第j层的图像特征时，将压缩后的第j+1层的图像特征作为先验，估计出第j层的图像特征经压缩模型中特征编码器输出的隐表征的概率分布，将压缩后的第j+1层的图像特征输入至跨层上下文模型，估计出概率分布的参数；由压缩模型中的熵编码模型利用概率分布的参数对第j层的图像特征输入图像进行熵编码，再经解码器重建得到压缩后的第j层的图像特征；j＝1,…,N-1；

其中，压缩后的第1层的特征图像将作为先验用于输入图像的编码。

4.根据权利要求1所述的一种语义可伸缩图像编码方法，其特征在于，所述压缩模型包括：特征编码器、特征解码器与熵编码模型；训练时，对压缩模型和跨层上下文模型进行联合训练，优化优化率失真损失函数R+λD，其中，R为输入图像和图像特征的码率之和，D为输入图像和图像特征的重建误差，λ为加权系数。

5.根据权利要求1所述的一种语义可伸缩图像编码方法，其特征在于，所述跨层上下文模型包括依次设置的三个卷积层，相邻卷积层之间设有激活函数Leaky ReLU。

6.根据权利要求1所述的一种语义可伸缩图像编码方法，其特征在于，所述压缩模型中的特征编码器包括依次设置的三个卷积层，相邻卷积层之间设有非线性的归一化层GDN。

7.根据权利要求1所述的一种语义可伸缩图像编码方法，其特征在于，所述压缩模型中的特征解码器包括依次设置的三个卷积层，相邻卷积层之间设有IGDN层。

8.一种语义可伸缩图像编码系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。