CN114450938A

CN114450938A - 具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置

Info

Publication number: CN114450938A
Application number: CN202180005484.7A
Authority: CN
Inventors: 蒋薇; 王炜; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-06-29
Filing date: 2021-06-22
Publication date: 2022-05-06
Anticipated expiration: 2041-06-22
Also published as: CN114450938B; US20210407146A1; EP4029240A1; KR102627748B1; KR20220066371A; JP7418570B2; WO2022005817A1; JP2023501638A; EP4029240A4; US11488329B2

Abstract

一种具有可堆叠嵌套模型结构的多速率神经图像压缩方法，由至少一个处理器执行，并且包括：在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中第一神经网络的第一先前权重集保持不变；使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集，对输入图像进行编码，以获得已编码表示；以及对所获得的已编码表示进行编码，以确定已压缩表示。

Description

具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置

相关申请的交叉引用

本申请基于2020年6月29日提交的申请号为63/045,342的美国临时专利申请和2021年6月16日提交的申请号为17/348,894的美国专利申请，并要求它们的优先权，这两个申请的公开内容通过引用整体并入本申请中。

背景技术

标准组织和公司一直在积极地寻找未来视频编解码技术标准化的潜在需要。这些标准组织和公司聚焦于使用深度神经网络(DNN)的基于人工智能(AI)的端到端神经图像压缩(NIC)。这种方法的成功为先进的神经图像和视频压缩方法带来了越来越多的工业利益。

灵活的比特率控制仍然是先前NIC方法的挑战性问题。通常，它可以包括对多个模型实例进行训练，分别针对速率和失真(压缩图像的质量)之间的每个期望的折衷。所有这些多个模型实例可能需要存储并部署在解码器侧，以从不同的比特率重建图像。这对于具有有限存储和计算资源的很多应用而言，可能成本高得令人望而却步。

发明内容

根据实施例，一种具有可堆叠嵌套模型结构的多速率神经图像压缩方法，由至少一个处理器执行，并且包括：在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，第一神经网络的第一先前权重集保持不变；使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集，对输入图像进行编码，以获得已编码表示；以及对所获得的已编码表示进行编码，以确定已压缩表示。

根据实施例，一种用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置，包括：至少一个存储器，被配置为存储程序代码；以及至少一个处理器，被配置为读取程序代码并按照程序代码的指令进行操作。程序代码包括：第一堆叠代码，被配置为使至少一个处理器在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，第一神经网络的第一先前权重集保持不变；第一编码代码，被配置为使至少一个处理器使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集，对输入图像进行编码，以获得已编码表示；以及第二编码代码，被配置为使至少一个处理器对所获得的已编码表示进行编码，以确定已压缩表示。

根据实施例，一种非易失性计算机可读介质，存储指令，所述指令在由至少一个处理器执行以用于具有可堆叠嵌套模型结构的多速率神经图像压缩时，使至少一个处理器：在对应于先前超参数的第一神经网络的第一先前权重集上迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，第一神经网络的第一先前权重集保持不变；使用堆叠有第一多个可堆叠神经网络的第一多个权重集第一神经网络的第一先前权重集，对输入图像进行编码，以获得已编码表示；以及对所获得的已编码表示进行编码以确定已压缩表示。

附图说明

图1是根据实施例的可以实施本公开所描述的方法、装置和系统的环境的示意图。

图2是图1的一个或多个设备的示例组成部分的框图。

图3是根据实施例的在测试阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的测试装置的框图。

图4是根据实施例的在训练阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的训练装置的框图。

图5是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像压缩方法的流程图。

图6是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置的框图。

图7是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像解压缩方法的流程图。

图8是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像解压缩装置的框图。

具体实施方式

本公开描述了用于通过具有可堆叠嵌套模型结构的多速率NIC模型来对输入图像进行压缩的方法和装置。仅使用一个NIC模型实例来实现多比特率的图像压缩。

图1是根据实施例的可以实施本公开所描述的方法、装置和系统的环境100的示意图。

如图1所示，环境100可以包括用户设备110、平台120和网络130。环境100的设备可以通过有线连接、无线连接或有线和无线连接的组合进行互连。

用户设备110包括一个或多个设备，该一个或多个设备能够接收、生成、存储、处理和/或提供与平台120相关的信息。例如，用户设备110可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，智能眼镜或智能手表)或相似设备。在一些实施方式中，用户设备110可以从平台120接收信息和/或向平台120发送信息。

平台120包括如本文中其它地方所描述的一个或多个设备。在一些实施方式中，平台120可以包括云服务器或云服务器组。在一些实施方式中，平台120可以被设计成模块化，使得软件组件可以被换入或换出。这样，可以容易地和/或快速地重新配置平台120以具有不同的用途。

在一些实施方式中，如图所示，平台120可以被托管(hosted)在云计算环境122中。值得注意的是，虽然本文所述的实施方式将平台120描述为托管在云计算环境122中，但是在一些实施方式中，平台120不是基于云的(即，可以在云计算环境外部实现)或者可以是部分基于云的。

云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务，这些服务不需要终端用户(例如，用户设备110)了解托管平台120的系统和/或设备的物理位置和配置。如图所示，云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并分别称为“计算资源(computing resource)124”)。

计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实施方式中，计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实施方式中，计算资源124可以通过有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。

进一步如图1所示，计算资源124包括一组云资源，例如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。

应用程序124-1包括一个或多个软件应用程序，其可以提供给用户设备110和/或平台120，或由用户设备110和/或平台120访问。应用程序124-1无需在用户设备110上安装和执行软件应用程序。例如，应用程序124-1可以包括与平台120相关的软件，和/或，能够通过云计算环境122提供的任何其它软件。在一些实施方式中，一个应用程序124-1可以通过虚拟机124-2向或从一个或多个其它应用程序124-1发送/接收信息。

虚拟机124-2包括机器(例如，计算机)的软件实现，该机器执行程序，类似于物理机。虚拟机124-2可以是系统虚拟机，也可以是进程虚拟机，这取决于虚拟机124-2对任何真实机的使用和对应程度。系统虚拟机可以提供完整系统平台，其支持完整操作系统(“OS”)的执行。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实施方式中，虚拟机124-2可以代表用户(例如，用户设备110)执行，并且可以管理云计算环境122的基础架构，例如数据管理、同步或长期数据传输。

虚拟化存储124-3包括一个或多个存储系统和/或一个或多个设备，该一个或多个设备在计算资源124的存储系统或设备内使用虚拟化技术。在一些实施方式中，在存储系统的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储从物理存储的抽象(或分离)，以便可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理存储文件的位置之间的依赖性。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。

管理程序(Hypervisor)124-4可以提供硬件虚拟化技术，其允许多个操作系统(例如，“客户操作系统”)在诸如计算资源124的主计算机上同时执行。管理程序124-4可以向客户操作系统提供虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络130包括一个或多个有线和/或无线网络。例如，网络130可以包括蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PublicLand Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如，公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等，和/或这些或其它类型的网络的组合。

图1所示的设备和网络的数量和排列被作为示例来提供。实际上，与图1所示的设备和/或网络相比，可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可以实现为多个分布式设备。另外或可替代地，环境100的一组设备(例如，一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。

图2是图1中一个或多个设备的示例组件的框图。

设备200可以对应于用户设备110和/或平台120。如图2所示，设备200可以包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。

总线210包括允许设备200的组件之间进行通信的组件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中，处理器220包括一个或多个能够被编程以执行功能的处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)，其存储供处理器220使用的信息和/或指令。

存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如，存储组件240可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质，以及相应的驱动器。

输入组件250包括允许设备200例如通过用户输入接收信息的组件，例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风。另外或可替代地，输入组件250可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件，例如，显示器、扬声器和/或一个或多个发光二极管(LED)。

通信接口270包括类似收发器的组件(例如，收发器和/或单独的接收器和发送器)，该组件使设备200能够例如通过有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如，通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备200可以执行本文中所描述的一个或多个过程。设备200可以响应于处理器220执行由非易失性计算机可读介质(例如存储器230和/或存储组件240)存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储空间或分布在多个物理存储设备上的存储空间。

软件指令可以通过通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储组件240。当被执行时，存储在存储器230和/或存储组件240中的软件指令可以使处理器220执行本文中所描述的一个或多个过程。另外或可替代地，可以使用硬件连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或多个过程。因此，本文中所描述的实施方式不限于硬件电路和软件的任何特定组合。

图2所示的组件的数量和排列被作为示例来提供。实际上，与图2所示的组件相比，设备200可能包括更多的组件、更少的组件、不同的组件或排列不同的组件。另外或可替代地，设备200的一组组件(例如，一个或多个组件)可以执行被描述为由设备200的另一组组件执行的一个或多个功能。

现在将详细地描述用于具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置。

本公开描述了用于学习和部署仅一个支持多速率图像压缩的NIC模型实例的多速率NIC框架。描述了用于编码器和解码器两者的可堆叠嵌套模型结构，其中，编码模块或解码模块是渐进地堆叠，以实现越来越高的比特率压缩结果。

图3是根据实施例的在测试阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的测试装置300的框图。

如图3所示，测试装置300包括测试DNN编码器310、测试编码器320、测试解码器330、测试DNN解码器340、测试DNN编码器350和测试DNN解码器360。测试DNN编码器350包括可堆叠DNN编码器350A、350B、……和350N，测试DNN解码器360包括可堆叠DNN解码器360A、360B、……和360N。

给定大小为(h，w，c)的输入图像x，其中，h、w、c分别是高度、宽度和信道的数量，NIC工作流的测试阶段的目标可以描述如下。计算针对存储和传输紧凑的已压缩表示

然后，基于已压缩表示

重建图像

重建的图像

应当与初始输入图像x相似。

计算已压缩表示

的过程分成两部分。第一部分，DNN编码过程使用测试DNN编码器310将输入图像x编码成经DNN编码的表示y。第二部分，编码过程使用测试编码器320将经DNN编码的表示y编码(对其执行量化和熵编码)为已压缩表示

相应地，解码过程分成两部分。第一部分，解码过程使用测试解码器330将已压缩表示

解码(对其执行解码和去量化)为已恢复表示

第二部分，DNN解码过程使用测试DNN解码器340将已恢复表示

解码为重建的图像

在本公开中，对用于DNN编码的测试DNN编码器310或用于DNN解码的测试DNN解码器340的网络结构没有任何限制。对用于编码或解码的方法(量化方法和熵编解码方法)没有任何限制。

为了学习NIC模型，需要处理两个互相竞争的需求：更好的重建质量与更少的比特消耗。使用损失函数

来测量重建误差，重建误差被称为图像x与

之间的失真损失，诸如峰值信噪比(PSNR)和/或结构相似性指数度量(SSIM)。计算速率损失

以对已压缩表示

的比特消耗进行测量。因此，折衷超参数λ用于优化联合率失真(R-D)损失：

使用较大的超参数λ进行训练，得到的压缩模型的失真较小但比特消耗较多，反之亦然。对于每个预定义的超参数λ，将训练一个NIC模型实例，该实例不适用于超参数λ的其它值。因此，为了实现压缩流的多比特率，传统的方法可能需要训练和存储多个模型实例。

在本公开中，使用NIC网络的一个单一的训练好的模型实例，用可堆叠嵌套模型结构实现多速率NIC。所述NIC网络包含多个可堆叠嵌套模型结构，针对超参数λ的不同值，渐进地堆叠每个可堆叠嵌套模型结构。具体地，令λ₁、……、λ_N表示以降序排列的N个超参数，对应于具有逐步减小的失真(逐步增加的质量)和逐步增加的速率损失(逐步减小的比特率)的已压缩表示。令

和

分别表示对应于超参数λ_i的已压缩表示和重建图像。令

表示针对超参数λ_i的测试DNN编码器310的权重系数集。对于NIC模型，

类似地，令

表示针对超参数λ_i的测试DNN解码器340的权重系数集。

是用于超参数λ_i的、堆叠在用于超参数λ_i-1的测试DNN编码器310之上的可堆叠DNN编码器350A、350B、……或350N的权重系数集。

是用于超参数λ_i的、堆叠在用于超参数λ_i-1的测试DNN解码器340之上的可堆叠DNN解码器360A、360B、……或360N的权重系数集。每个

是测试DNN编码器310(测试DNN解码器360)的可堆叠DNN编码器350A、350B、……或350N(可堆叠DNN解码器360A、360B、……或360N)的第j层的权重系数。而且，用于超参数λ_i的每个值的可堆叠DNN编码器350A、350B、……和350N以及可堆叠DNN解码器360A、360B、……和360N可以具有不同的DNN结构。在本公开中，对底层DNN编码器/解码器网络模型没有任何限制。

图3给出了该方法的测试阶段的整个工作流程。给定输入图像x，以及给定目标超参数λ_i，测试DNN编码器310使用权重系数集

来计算经DNN编码的表示y。然后，由测试编码器320在编码过程中计算出已压缩表示

基于已压缩表示

可以使用测试解码器330通过DNN解码过程来计算已恢复表示

使用超参数λ_i，测试DNN解码器340使用权重系数集

基于已恢复表示

来计算重建的图像

图4是根据实施例的在训练阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的训练装置400的框图。

如图4所示，训练装置400包括权重更新模块410、训练DNN编码器420、训练DNN解码器430、添加可堆叠模块440和权重更新模块450。训练DNN编码器420包括可堆叠DNN编码器420A、420B、……和420N，训练DNN解码器430包括可堆叠DNN解码器430A、430B、……和430N。

图4给出了该方法的训练阶段的整个工作流程。目标是学习嵌套的权重

渐进式多阶段训练框架可以实现该目标。

假设有初始权重系数集

和

这些初始权重系数可以根据某个分布，随机地进行初始化。还可以使用某个预训练数据集对它们进行预训练。在一个实施例中，权重更新模块410通过常规的反向传播的权重更新过程，使用训练数据集S_tr，通过优化以超参数λ_N为目标的等式(1)的R-D损失，来学习模型权重集

和

在另一实施例中，可以跳过该权重更新过程，将

和

直接设置为初始值

和

现在假设已经训练好了具有权重系数

和

的当前模型实例，目标是训练针对于超参数λ_i的附加权重

和

添加可堆叠模块440在添加可堆叠模块过程中，堆叠可堆叠DNN编码器420A、420B、……和

以及可堆叠DNN解码器430A、430B、……和

其中，

和

被初始化为

和

然后，在权重更新过程中，权重更新模块450固定已经学习的权重

和

通过常规的反向传播，使用以超参数λ_i为目标的等式(1)的R-D损失，来更新新添加的权重

和

典型地，在该权重更新过程中将采用多个时期(epoch)迭代来优化R-D损失，例如，直到达到最大迭代次数或直到损失收敛为止。

与先前的端到端(E2E)图像压缩方法相比，图3和图4的实施例可以仅包括一个模型实例来实现具有可堆叠嵌套模型结构的多速率压缩效果，以及训练框架来学习该模型实例。相应地，这些实施例可以包括大大减少的部署存储，以实现多速率压缩，并且包括适应各种类型的NIC模型的灵活框架。此外，来自执行较高比特率压缩的嵌套网络结构的共享计算可以通过重用较低比特率压缩的计算来实现，这节省了多速率压缩中的计算。

图5是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像压缩方法500的流程图。

在一些实施方式中，图5的一个或多个处理框可由平台120来执行。在一些实施方式中，图5的一个或多个处理框可由与平台120分开或包括平台120的另一设备或设备群组(诸如用户设备110)来执行。

如图5所示，在操作510中，方法500包括：在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集。第一神经网络的第一先前权重集保持不变。

在操作520中，方法500包括：使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集，对输入图像进行编码，以获得已编码表示。

在操作530中，方法500包括：对所获得的已编码表示进行编码，以确定已压缩表示。

虽然图5示出了方法500的示例框，但是在一些实施方式中，方法500可以包括图5中描绘的那些框之外的框、比其更少的框、与其不同的框或与其布置不同的框。附加地或可选地，方法500的框中的两个或更多个框可以并行地执行。

图6是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置600的框图。

如图6所示，装置600包括第一堆叠代码610、第一编码代码620和第二编码代码630。

第一堆叠代码610被配置为使至少一个处理器在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，第一神经网络的第一先前权重集保持不变。

第一编码代码620被配置为使至少一个处理器使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集，对输入图像进行编码，以获得已编码表示。

第二编码代码630被配置为使至少一个处理器对所获得的编码表示进行编码，以确定已压缩表示。

图7是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像解压缩方法700的流程图。

在一些实施方式中，图7的一个或多个处理框可由平台120来执行。在一些实施方式中，图7的一个或多个处理框可由与平台120分开或包括平台120的另一设备或设备群组(诸如用户设备110)来执行。

如图7所示，在操作710中，方法700包括：在对应于先前超参数的第二神经网络的第二先前权重集上，迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集。第二神经网络的第二先前权重集保持不变。

在操作720中，方法700包括：对所确定的已压缩表示进行解码，以确定已恢复表示。

在操作730中，方法700包括：使用堆叠有第二多个可堆叠神经网络的第二多个权重集的第二神经网络的第二先前权重集，对所确定的已恢复表示进行解码，以重建输出图像。

可以通过以下步骤对第一神经网络和第二神经网络进行训练：更新第一神经网络的第一初始权重集和第二神经网络的第二初始权重集，以优化基于输入图像、输出图像和已压缩表示确定的率失真损失；在第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，第一神经网络的第一先前权重集保持不变；在第二神经网络的第二先前权重集上，迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集，其中，该第二神经网络的第二先前权重集保持不变；以及更新堆叠的第一多个可堆叠神经网络的第一多个权重集和堆叠的第二多个可堆叠神经网络的第二多个权重集，以优化率失真损失。可以以相同的方式迭代地堆叠附加的神经网络。第一神经网络的第一先前权重集在整个迭代堆叠过程中保持不变。

第一多个可堆叠神经网络的第一多个权重集和第二多个可堆叠神经网络的第二多个权重集中的一个或多个可以不对应于当前超参数。

虽然图7示出了方法700的示例框，但是在一些实施方式中，方法700可以包括图7中描绘的那些框之外的框、比其更少的框、与其不同的框或与其布置不同的框。附加地或可选地，方法700的框中的两个或更多个框可以并行地执行。

图8是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像解压缩装置800的框图。

如图8所示，装置800包括第二堆叠代码810、第一解码代码820和第二解码代码830。

第二堆叠代码810被配置为使至少一个处理器在对应于先前超参数的第二神经网络的第二先前权重集上，迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集，其中，第二神经网络的第二先前权重集保持不变。

第一解码代码820被配置为使至少一个处理器对所确定的已压缩表示进行解码，以确定已恢复表示。

第二解码代码830被配置为使至少一个处理器使用堆叠有第二多个可堆叠神经网络的第二多个权重集的第二神经网络的第二先前权重集，对所确定的已恢复表示进行解码，以重建输出图像。

可以通过以下步骤对第一神经网络和第二神经网络进行训练：更新第一神经网络的第一初始权重集和第二神经网络的第二初始权重集，以优化基于输入图像、输出图像和已压缩表示确定的率失真损失；在第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，第一神经网络的第一先前权重集保持不变；在第二神经网络的第二先前权重集上，迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集，其中，该第二神经网络的第二先前权重集保持不变；以及更新堆叠的第一多个可堆叠神经网络的第一多个权重集和堆叠的第二多个可堆叠神经网络的第二多个权重集，以优化率失真损失。

这些方法可以单独使用或以任何顺序组合使用。此外，方法(或实施例)、编码器和解码器中的每一者可由处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现。在一个示例中，一个或多个处理器执行存储在非易失性计算机可读介质中的程序。

上述公开内容提供了说明和描述，但并不旨在穷举或将实现限制为所公开的精确形式。根据上述公开，修改和变化是可能的，或者可以从实现的实践中获得修改和变化。

如本文所使用的，术语部件旨在被广泛地解释为硬件、固件或硬件和软件的组合。

显然，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现的限制。因此，本文在没有参考特定软件代码的情况下描述了系统和/或方法的操作和行为—应当理解，软件和硬件可以被设计成基于本文的描述来实现系统和/或方法。

即使在权利要求中列举和/或在说明书中公开了特征的组合，但这些组合并不旨在限制可能实现的公开。实际上，这些特征中的许多可以以未在权利要求中具体列举和/或在说明书中公开的方式组合起来。虽然下面列出的每个从属权利要求可以直接依赖于仅一个权利要求，但是可能的实现的公开包括与权利要求集中的所有其他权利要求结合的每个从属权利要求。

本文使用的元素、动作或指令不能被解释为关键的或必要的，除非明确地这样描述。而且，如本文所使用的，冠词“一”和“一个”旨在包括一个或多个项目，并且可与“一个或多个”互换使用。此外，如本文所使用的，术语“集合”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关和不相关项目的组合等)，并且可与“一个或多个”互换使用。在仅意指一个项目的情况下，使用术语“一个”或类似的语言。而且，如在本文所使用的，术语“有(has)”、“有(have)”、“具有(having)”等旨在是开放式术语。此外，除非另有明确说明，否则短语“基于”旨在意为“至少部分地基于”。

Claims

1.一种具有可堆叠嵌套模型结构的多速率神经图像压缩方法，其特征在于，所述方法由至少一个处理器执行，所述方法包括：

在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，所述第一神经网络的所述第一先前权重集保持不变；

使用堆叠有所述第一多个可堆叠神经网络的所述第一多个权重集的所述第一神经网络的所述第一先前权重集，对输入图像进行编码，以获得已编码表示；以及

对所获得的已编码表示进行编码，以确定已压缩表示。

2.根据权利要求1所述的方法，其特征在于，还包括：

在对应于所述先前超参数的第二神经网络的第二先前权重集上，迭代地堆叠对应于所述当前超参数的第二多个可堆叠神经网络的第二多个权重集，其中，所述第二神经网络的所述第二先前权重集保持不变；

对所确定的已压缩表示进行解码，以确定已恢复表示；以及

使用堆叠有所述第二多个可堆叠神经网络的所述第二多个权重集的所述第二神经网络的所述第二先前权重集，对所确定的已恢复表示进行解码，以重建输出图像。

3.根据权利要求2所述的方法，其特征在于，所述第一神经网络和所述第二神经网络是通过以下步骤进行训练：更新所述第一神经网络的第一初始权重集和所述第二神经网络的第二初始权重集，以优化基于所述输入图像、所述输出图像和所述已压缩表示确定的率失真损失。

4.根据权利要求3所述的方法，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：在所述第一神经网络的所述第一先前权重集上，迭代地堆叠对应于所述当前超参数的所述第一多个可堆叠神经网络的所述第一多个权重集，其中，所述第一神经网络的所述第一先前权重集保持不变。

5.根据权利要求4所述的方法，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：在所述第二神经网络的所述第二先前权重集上，迭代地堆叠对应于所述当前超参数的所述第二多个可堆叠神经网络的所述第二多个权重集，其中，所述第二神经网络的所述第二先前权重集保持不变。

6.根据权利要求5所述的方法，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：更新堆叠的所述第一多个可堆叠神经网络的第一多个权重集和堆叠的所述第二多个可堆叠神经网络的第二多个权重集，以优化所述率失真损失。

7.根据权利要求2所述的方法，其特征在于，所述第一多个可堆叠神经网络的所述第一多个权重集和所述第二多个可堆叠神经网络的所述第二多个权重集中的一个或多个，不对应于所述当前超参数。

8.一种用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置，其特征在于，所述装置包括：

至少一个存储器，被配置为存储程序代码；以及

至少一个处理器，被配置为读取所述程序代码并按照所述程序代码的指示进行操作，所述程序代码包括：

第一堆叠代码，被配置为使所述至少一个处理器在对应于先前超参数的第一神经网络的第一先前权重集上，迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集，其中，所述第一神经网络的所述第一先前权重集保持不变；

第一编码代码，被配置为使所述至少一个处理器使用堆叠有所述第一多个可堆叠神经网络的所述第一多个权重集的所述第一神经网络的所述第一先前权重集，对输入图像进行编码，以获得已编码表示；以及

第二编码代码，被配置为使所述至少一个处理器对所获得的已编码表示进行编码，以确定已压缩表示。

9.根据权利要求8所述的装置，其特征在于，所述程序代码进一步包括：

第二堆叠代码，被配置为使所述至少一个处理器在对应于所述先前超参数的第二神经网络的第二先前权重集上，迭代地堆叠对应于所述当前超参数的第二多个可堆叠神经网络的第二多个权重集，其中，所述第二神经网络的所述第二先前权重集保持不变；

第一解码代码，被配置为使所述至少一个处理器对所确定的已压缩表示进行解码，以确定已恢复表示；以及

第二解码代码，被配置为使所述至少一个处理器使用堆叠有所述第二多个可堆叠神经网络的所述第二多个权重集的所述第二神经网络的所述第二先前权重集，对所确定的已恢复表示进行解码，以重建输出图像。

10.根据权利要求9所述的装置，其特征在于，所述第一神经网络和所述第二神经网络是通过以下步骤进行训练：更新所述第一神经网络的第一初始权重集和所述第二神经网络的第二初始权重集，以优化基于所述输入图像、所述输出图像和所述已压缩表示确定的率失真损失。

11.根据权利要求10所述的装置，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：在所述第一神经网络的所述第一先前权重集上，迭代地堆叠对应于所述当前超参数的所述第一多个可堆叠神经网络的所述第一多个权重集，其中，所述第一神经网络的所述第一先前权重集保持不变。

12.根据权利要求11所述的装置，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：在所述第二神经网络的所述第二先前权重集上，迭代地堆叠对应于所述当前超参数的所述第二多个可堆叠神经网络的所述第二多个权重集，其中，所述第二神经网络的所述第二先前权重集保持不变。

13.根据权利要求12所述的装置，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：更新堆叠的所述第一多个可堆叠神经网络的第一多个权重集和堆叠的所述第二多个可堆叠神经网络的第二多个权重集，以优化所述率失真损失。

14.根据权利要求9所述的装置，其特征在于，所述第一多个可堆叠神经网络的所述第一多个权重集和所述第二多个可堆叠神经网络的所述第二多个权重集中的一个或多个，不对应于所述当前超参数。

15.一种存储指令的非易失性计算机可读介质，其特征在于，所述指令在由至少一个处理器执行以用于具有可堆叠嵌套模型结构的多速率神经图像压缩时，使所述至少一个处理器：

对所获得的已编码表示进行编码，以确定已压缩表示。

16.根据权利要求15所述的非易失性计算机可读介质，其特征在于，所述指令在由所述至少一个处理器执行时还使所述至少一个处理器：

对所确定的已压缩表示进行解码，以确定已恢复表示；以及

17.根据权利要求16所述的非易失性计算机可读介质，其特征在于，所述第一神经网络和所述第二神经网络是通过以下步骤进行训练：更新所述第一神经网络的第一初始权重集和所述第二神经网络的第二初始权重集，以优化基于所述输入图像、所述输出图像和所述已压缩表示确定的率失真损失。

18.根据权利要求17所述的非易失性计算机可读介质，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：在所述第一神经网络的所述第一先前权重集上，迭代地堆叠对应于所述当前超参数的所述第一多个可堆叠神经网络的所述第一多个权重集，其中，所述第一神经网络的所述第一先前权重集保持不变。

19.根据权利要求18所述的非易失性计算机可读介质，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：在所述第二神经网络的所述第二先前权重集上，迭代地堆叠对应于所述当前超参数的所述第二多个可堆叠神经网络的所述第二多个权重集，其中，所述第二神经网络的所述第二先前权重集保持不变。

20.根据权利要求19所述的非易失性计算机可读介质，其特征在于，所述第一神经网络和所述第二神经网络还通过以下步骤进行训练：更新堆叠的所述第一多个可堆叠神经网络的第一多个权重集和堆叠的所述第二多个可堆叠神经网络的第二多个权重集，以优化所述率失真损失。