CN113079377B

CN113079377B - 一种深度图像/视频压缩网络的训练方法

Info

Publication number: CN113079377B
Application number: CN202110357098.6A
Authority: CN
Inventors: 陈志波; 郭宗昱
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2022-09-30
Anticipated expiration: 2041-04-01
Also published as: CN113079377A

Abstract

本发明公开了一种深度图像/视频压缩网络的训练方法，一方面，能够消除由于加性均值噪声带来的量化误差，通过二阶段的解码器微调来实现训练测试的一致性，能显著提高整体压缩网络的率失真性能。另一方面，通过从边际信息中预先产生数据内容自适应的量化步长，来灵活的控制编码网络的量化粒度，是一种新的空域码率分配策略，使得网络在量化时可以根据图像内容自适应的控制空域上的比特分配。此外，两阶段自适应量化策略能对于所以采用加性均值噪声的编码网络都有效，同时能显著保证编码网络训练的稳定。综上，本发明能够使得基于深度神经网络的视频/图像压缩更加的通用、灵活、高效。

Description

一种深度图像/视频压缩网络的训练方法

技术领域

本发明涉及图像/视频压缩编码，尤其涉及一种深度图像/视频压缩网络的训练方法。

背景技术

图像与视频的压缩编码是电子信息时代的重要技术，有助于减小图像视频的传输带宽与存储消耗。图像/视频压缩本质上通过控制码率(表征图像视频所需要的二进制数据大小)与失真(恢复图像视频与原图像视频的差异)之间的关系，来实现信息的有效表征。

现有的基于变分神经网络的图像/视频压缩由于包含量化层，所以会导致直接训练梯度无法通过量化层的问题。具体来说，以图像压缩算法为例，非线性变换网络会首先将输入图像变换成为隐层变量，然后通过量化传输得到的隐层变量，解码端可以通过离散的隐层变量重建图像。但是由于直接量化隐层变量所用的函数几乎是不可导的，主流的基于变分自编码器的图像编码器(BalléJ,Minnen D,Singh S,et al.Variational imagecompression with a scale hyperprior[J].ICLR,2018.)在训练的时候会使用加性的均值噪声来近似量化误差，这种量化近似可以被解释为变分量化。但是在实际编解码的时候，整个量化层会采用直接四舍五入取整的方法来得到离散的隐层变量，这造成了训练-测试的不一致的问题，进而使得网络的编码性能下降很大。同时，由于加性的均值噪声通常取值范围是-0.5到0.5，所以限制了量化的步长，导致了隐层变量只能进行整型量化，进而限制了压缩网络的灵活性。

发明内容

本发明的目的是提供一种深度图像/视频压缩网络的训练方法，可以保证训练测试一致性，且通过控制量化步长，使得网络在量化时可以根据图像内容自适应的控制空域上的比特分配。

本发明的目的是通过以下技术方案实现的：

一种深度图像/视频压缩网络的训练方法，包括：

第一个阶段中，输入的图像x通过变换编码网络g_a产生隐层变量y，隐层变量y经过熵编码网络h_a产生边际码流z，加上加性均值噪声U后变为带噪边际码流

再经过噪声产生分支h_sq恢复出覆盖整个隐层空间的量化步长Δ，通过量化步长Δ上采样均值噪声U_Δ生成

再通过变换解码网络g_s恢复出解码图像

同时，采用包含上下文模型g_cm的熵估计模块和熵解码模块h_s结合带噪边际码流

来估计隐层变量

的分布，进而在训练时计算隐层变量

的码率；此阶段将得到训练好的变换编码网络g_a、熵编码网络h_a与噪声产生分支h_sq；

第二阶段中，固定变换编码网络g_a、熵编码网络h_a与噪声产生分支h_sq，将加性均值噪声U替换为硬量化的方式，采用硬量化的方式得到带噪边际码流

以及采用硬量化的方式得到离散的量化结果

再输入至变换解码网络g_s，第二阶段中采用与第一阶段相同的流程训练，训练对象为包含上下文模型g_cm的熵估计模块和熵解码模块h_s、以及变换解码网络g_s。

由上述本发明提供的技术方案可以看出，1)能够消除由于加性均值噪声带来的量化误差，通过二阶段的解码器微调来实现训练测试的一致性，能显著提高整体压缩网络的率失真性能。2)通过从边际信息中预先产生数据内容自适应的量化步长，来灵活的控制编码网络的量化粒度，是一种新的空域码率分配策略，使得网络在量化时可以根据图像内容自适应的控制空域上的比特分配。3)两阶段自适应量化策略能对于所以采用加性均值噪声的编码网络都有效，同时能显著保证编码网络训练的稳定。综上，本方案能够使得基于深度神经网络的视频/图像压缩更加的通用、灵活、高效。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的常用编码网络结构的示意图；

图2为本发明实施例提供的引入硬量化的第二阶段训练的示意图；

图3为本发明实施例提供的引入空域自适应的量化的第一阶段训练的示意图；

图4为本发明实施例提供的引入空域自适应的量化与硬量化的第二阶段训练的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种深度图像/视频压缩网络的训练方法，主要包含了两种量化层的改进，一种是通过实施准确的四舍五入硬量化，来训练微调解码器，以保证训练测试一致性。另一种是通过从边际信息中预先产生数据内容自适应的量化步长，来灵活的控制编码网络的量化粒度；

如图1所示，为常用编码网络结构。编码网络由于常常采用加性均值噪声，所以训练的时候，量化层的输出与测试时候的输出是不一致的。因此，本发明提出先软后硬的量化策略来解决这个问题。

本发明提出先软后硬的量化策略是一个两阶段的量化方法，在第一个阶段，可以直接沿用图1的结构和训练方法，也就是采用加性均值噪声(图1中表示为U)来进行所有结构的训练。第二个阶段，如图2所示，固定了经过第一阶段训练好的编码网络(encoder)，也就是灰色方框部分。之后，通过实施准确的四舍五入硬量化(图2中表示为Q)，来训练微调解码器(decoder)，也就是剩下的白色方框部分，从而消除由于加性均值噪声带来的量化误差，通过二阶段的解码器微调来实现训练测试的一致性。能显著提高整体压缩网络的率失真性能。

另一方面，本发明还涉及了自适应量化分支，通过自适应量化策略，来灵活的控制编码网络的量化粒度。如图3所示，在图1的基础上引入了噪声产生分支h_sq。熵编码网络h_a的输入y是变换编码网络g_a对于输入的图像x产生的隐层变量，输出为边际码流z(粗糙纹理)；之后，经过噪声产生分支h_sq首先恢复出覆盖整个隐层空间的量化步长Δ，使得网络可以根据图像的纹理自适应的产生量化步长，进而量化编码整个隐层变量y。由于量化步长是从边际码流中首先产生的，所以在算术编解码的时候可以保证量化的一致性。值得注意的是，噪声产生分支h_sq在第一个阶段中进行训练，第二个阶段固定。

图2和图3分别介绍了两种量化层的改进，即可以保证训练测试一致性的二阶段硬量化训练示意图，通过边际信息产生自适应的量化步长的框图。图2与图3结合在一起即形成了图4的第二阶段空域自适应量化；同样的，图4中灰色方框部分固定，训练白色方框部分。

基于上述原理，本发明实施例提供的一种深度图像/视频压缩网络的训练方法主要如下：

如图3所示，第一个阶段中，输入的图像x通过变换编码网络g_a产生隐层变量y，隐层变量y经过熵编码网络h_a产生边际码流z，加上加性均值噪声U后变为带噪边际码流

再经过噪声产生分支h_sq恢复出覆盖整个隐层空间的量化步长Δ；这里的噪声产生分支由三层卷积层和一个指数激活层依次连接构成，保证网络输出的量化步长数值上是正数。通过得到的量化步长Δ，我们可以在区间[-Δ/2,Δ/2]上采样均值噪声U_Δ，加到y上，生成

再通过变换解码网络g_s恢复出解码图像

为了得到对隐层变量

的码率估计，我们采用了包含上下文模型g_cm的熵估计模块和熵解码模块h_s结合带噪边际码流

一起来估计隐层变量

的分布，

的分布由混合高斯分布的参数μ,σ,π决定，进而在训练的时候计算

的码率；此阶段将得到训练好的变换编码网络g_a、熵编码网络h_a与噪声产生分支h_sq。当网络的率失真性能在测试数据集上几乎不再发生变化(也即变化量不超过设定的门限值)时，我们就认为第一阶段训练完毕。

如图4所示，第二阶段中，固定变换编码网络g_a、熵编码网络h_a与噪声产生分支h_sq，将加性均值噪声U替换为硬量化的方式，其余的训练流程与第一阶段相似，具体来说：通过熵编码网络h_a输出的边际码流z采用硬量化的方式得到带噪边际码流

并由噪声产生分支输出形状与隐层变量y相同的量化步长Δ′用以量化y，再采用硬量化的方式产生离散的量化结果

这里round表示四舍五入。(由于此时将加性均值噪声拟合的量化改变为由实际的量化步长决定的量化，所以与第一阶段存在差异)；

与

将输入至与解码相关的部分，这次是与第一阶段类似的流程，但是解码相关的模块的输入输出都发生了变化，

输入至变换解码网络g_s恢复出解码图像

以及采用包含上下文模型g_cm的熵估计模块和熵解码模块h_s结合带噪边际码流

来估计隐层变量

的分布，进而在训练的时候计算

的码率；本阶段中，通过实际的率失真损失函数来训练解码网络(包含上下文模型g_cm的熵估计模块和熵解码模块h_s、以及变换解码网络g_s)。

本发明实施例中，所述输入的图像x可以是单独的一幅图像，也可以是视频中的单帧图像。

本发明实施例中，图1～图4中，波浪符号“～”与尖符号“^”的主要是为了区分第一阶段与第二阶段的x、y、z；因为第一阶段与第二阶段中，量化方式的不一致导致了解码器的输入输出都发生了变化(第一阶段是采用加性均值噪声拟合量化函数，第二阶段采用硬量化)。同时，图中的

与

均表示硬量化的方式。

本发明实施例中，包含上下文模型g_cm的熵估计模块和熵解码模块h_s工作过程可参照常规方案，本发明不做赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。