CN115315956A

CN115315956A - 具有自适应帧内预测的神经网络图像压缩

Info

Publication number: CN115315956A
Application number: CN202180020895.3A
Authority: CN
Inventors: 蒋薇; 王炜; 丁鼎; 刘杉; 许晓中
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-01-19
Filing date: 2021-10-04
Publication date: 2022-11-08
Also published as: US20220232212A1; KR20220156896A; WO2022159151A1; EP4088467A4; US11652994B2; JP2023520593A; EP4088467A1

Abstract

具有自适应帧内预测的神经网络图像压缩方法由至少一个处理器执行，包括：接收最佳分区；接收输入的压缩表示，所述输入包括第一组块；对所述第一组块中的每个块，接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块，并基于接收到的所述块选择信号，执行第一恢复和第二恢复中的一个；及，合并所述当前恢复块，以获得重建的图像；其中，所述第一恢复包括：使用第一神经网络，压缩所述第一组块中的块，以计算第一压缩表示；使用第二神经网络，解压缩所述第一压缩表示，以计算所述第一恢复块；所述第二恢复包括：基于一组先前恢复块和一组先前恢复的微块，计算第一预测块；基于所述第一组块中的当前块和预测块，计算第一残差；基于所述第一残差，生成恢复残差；对所述第一预测块进行分区，并且添加所述恢复残差，以获得所述第二恢复块。

Description

具有自适应帧内预测的神经网络图像压缩

相关申请的交叉引用

本申请要求于2021年1月19日提交美国专利局、申请号为63/138,963的美国临时申请的优先权，以及于2021年9月29日提交美国专利局、申请号为17/488,532的美国正式申请的优先权，其全部内容通过引用结合在本申请中。

背景技术

标准组和公司一直在积极寻找对未来视频编解码技术进行标准化的潜在需求。这些标准组和公司已经建立了JPEG-AI组，集中在使用神经网络(NN)实现基于AI的端到端的神经网络图像压缩。近期一些先进的神经网络图像和视频压缩方法的成功，带来了越来越多的工业兴趣。

给定输入图像x，NIC的目标是使用图像x作为NN编码器的输入，计算得到压缩表示

该压缩对于存储和传输而言是紧凑(compact)的，然后，使用

作为NN解码器的输入，重建图像

先前的NIC方法采用变分自动编码器(Variational AutoEncoder，VAE)结构，其中，NN编码器直接使用整个图像x作为其输入，通过像黑盒一样工作的一组网络层，计算得到输出表示

相应地，NN解码器采用整个表示

作为其输入，通过像另一黑盒一样工作的另一组网络层，计算得到重建的

基于块的帧内预测和残差编解码机制，对预测块与原始块之间的残差进行编码，而不是直接对原始完整图像进行编码。这种机制已经被证明在现代视频编解码标准中的图像帧压缩是非常有效的，如HEVC和VVC。整个图像被分区成各种大小的块，沿着各种角度方向，复制先前压缩块的边界像素，从而生成预测块，然后压缩原始块与预测块之间的残差。与原始像素相比，可以更有效地对残差进行编码，因此可以实现更好的编解码性能。不同的块大小直接影响压缩性能，并且最佳的块大小通常取决于特定的图像。

发明内容

根据本申请实施例，一种具有自适应帧内预测的神经网络图像压缩方法，由至少一个处理器执行，包括：接收最佳分区；接收输入的压缩表示，所述输入包括第一组块；对所述第一组块中的每个块，接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块，并基于接收到的所述块选择信号，执行第一恢复和第二恢复中的一个；及，合并所述当前恢复块，以获得重建的图像；其中，所述第一恢复包括：使用第一神经网络，压缩所述第一组块中的块，以计算第一压缩表示；使用第二神经网络，解压缩所述第一压缩表示，以计算所述第一恢复块；所述第二恢复包括：基于一组先前恢复块和一组先前恢复的微块，计算第一预测块；基于所述第一组块中的当前块和预测块，计算第一残差；基于所述第一残差，生成恢复残差；对所述第一预测块进行分区，并且添加所述恢复残差，以获得所述第二恢复块。

根据本申请实施例，一种具有自适应帧内预测的神经网络图像压缩装置，包括：至少一个存储器，用于存储计算机程序代码；至少一个处理器，用于读取所述计算机程序代码，根据所述计算机程序代码的指令进行操作，所述程计算机序代码包括：第一接收代码，用于使得所述至少一个处理器，接收最佳分区；第二接收代码，用于使得所述至少一个处理器，接收输入的压缩表示，所述输入包括第一组块；第三接收代码，用于使得所述至少一个处理器，对所述第一组块中的每个块，接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块，并基于接收到的所述块选择信号，执行第一恢复和第二恢复中的一个；及，合并代码，用于使得所述至少一个处理器，合并所述当前恢复块，以获得重建的图像；其中，所述第一恢复包括：第一压缩代码，用于使得所述至少一个处理器，使用第一神经网络，压缩所述第一组块中的块，以计算第一压缩表示；第一解压缩代码，用于使得所述至少一个处理器，使用第二神经网络，解压缩所述第一压缩表示，以计算所述第一恢复块；所述第二恢复包括：第一预测代码，用于使得所述至少一个处理器，基于一组先前恢复块和一组先前恢复的微块，计算第一预测块；第一残差代码，用于使得所述至少一个处理器，基于所述第一组块中的当前块和预测块，计算第一残差；第一生成代码，用于使得所述至少一个处理器，基于所述第一残差，生成恢复残差；第一分区代码，用于使得所述至少一个处理器，对所述第一预测块进行分区，并且添加所述恢复残差，以获得所述第二恢复块。

根据本申请实施例，一种非易失性计算机可读介质，其特征在于，其上存储有指令，所述指令由至少一个处理器执行具有自适应帧内预测的神经网络图像压缩时，使得所述至少一个处理器：接收最佳分区；接收输入的压缩表示，所述输入包括第一组块；对所述第一组块中的每个块，接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块，并基于接收到的所述块选择信号，执行第一恢复和第二恢复中的一个；及，合并所述当前恢复块，以获得重建的图像；其中，所述第一恢复包括：使用第一神经网络，压缩所述第一组块中的块，以计算第一压缩表示；使用第二神经网络，解压缩所述第一压缩表示，以计算所述第一恢复块；所述第二恢复包括：基于一组先前恢复块和一组先前恢复的微块，计算第一预测块；基于所述第一组块中的当前块和预测块，计算第一残差；基于所述第一残差，生成恢复残差；对所述第一预测块进行分区，并且添加所述恢复残差，以获得所述第二恢复块。

附图说明

图1示出了根据本申请实施例的实施本文中所述方法、装置和系统的环境的示意图；

图2示出了图1的至少一个设备的示例部件的方框图；

图3示出了根据本申请实施例的在测试阶段的NIC编码器装置的方框图；

图4示出了根据本申请实施例的在测试阶段的图3中分区选择模块的详细工作流；

图5示出了根据本申请实施例的在测试阶段的NIC解码器装置的方框图；

图6示出了根据本申请实施例的在训练阶段的NIC帧内预测装置的工作流；

图7示出了根据本申请实施例的具有自适应帧内预测的神经网络图像压缩方法的流程图；

图8示出了根据本申请实施例的具有自适应帧内预测的神经网络图像压缩装置的方框图。

具体实施方式

本申请提出了神经网络图像压缩(NIC)框架，使用基于块的帧内预测机制以及自适应块大小，通过神经网络(DNN)，对输入图像进行压缩。下面结合附图来描述示例性实施例。在附图中，相同的模块使用相同的附图标记，因此，必要时省略了重复的描述。图1是根据本申请实施例的实施本文中所述方法、装置和系统的环境的示意图。

如图1所示，环境100可以包括用户设备110、平台120和网络130。环境100的设备可以经由有线连接、无线连接或有线和无线连接的组合进行互连。

用户设备110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或多个设备。例如，用户设备110可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，一对智能眼镜或智能手表)或类似设备。在一些实现方式中，用户设备110可以从平台120接收信息和/或向平台120传输信息。

平台120包括能够通过多频带同步神经声码器生成音频输出信号的一个或多个设备，如本申请别处所述。在一些实现方式中，平台120可以包括云服务器或一组云服务器。在一些实现方式中，平台120可以被设计为模块化的，使得可以根据特定需要换入或换出某些软件部件。这样，平台120可以容易地和/或快速地重新配置用于不同的用途。

在一些实现方式中，如图所示，平台120可以托管在云计算环境122中。值得注意的是，虽然本申请描述的实现方式将平台120描述为托管在云计算环境122中，但是在一些实现方式中，平台120不是基于云的(即，可以在云计算环境之外实现)或者可以是部分基于云的。

云计算环境122包括托管平台120的环境。云计算环境122可以提供不需要最终用户(例如，用户设备110)了解托管平台120的一个或多个系统和/或设备的物理位置和配置的计算、软件、数据访问、存储等服务。如图所示，云计算环境122可以包括一组计算资源124(统称为“计算资源124”，并且单独称为“计算资源124”)。

计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实现方式中，计算资源124可以是托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传送设备等。在一些实现方式中，计算资源124可以经由有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。

如图1中进一步所示，计算资源124包括一组云资源，诸如一个或多个应用程序(“APP”)124－1、一个或多个虚拟机(“VM”)124－2、虚拟化存储(“VS”)124－3、一个或多个管理程序(“HYP”)124－4等。

应用程序124－1包括可以提供给用户设备110和/或传感器设备120或由用户设备110和/或传感器设备120访问的一个或多个软件应用程序。应用程序124－1可以消除在用户设备110上安装和执行软件应用程序的需要。例如，应用程序124－1可以包括与平台120相关联的软件和/或能够经由云计算环境122提供的任何其它软件。在一些实现方式中，一个应用程序124－1可以经由虚拟机124－2向/从一个或多个其它应用程序124－1发送/接收信息。

虚拟机124－2包括像物理机器一样执行程序的机器(例如，计算机)的软件实现。虚拟机124－2可以是系统虚拟机或进程虚拟机，这取决于虚拟机124－2的使用和与任何真实机器的对应程度。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实现方式中，虚拟机124－2可以代表用户(例如，用户设备110)执行，并且可以管理云计算环境122的基础设施，诸如数据管理、同步或长持续时间数据传送。

虚拟化存储124－3包括使用计算资源124的存储系统或设备内的虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现方式中，在存储系统的上下文中，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储与物理存储的抽象(或分离)，使得可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员在管理员如何管理最终用户的存储方面具有灵活性。文件虚拟化可以消除在文件级访问的数据与物理地存储文件的位置之间的依赖性。这可以实现存储使用、服务器整合和/或无中断文件迁移的性能的优化。

管理程序124－4可以提供允许多个操作系统(例如，“客户操作系统”)在诸如计算资源124等主机计算机上并发执行的硬件虚拟化技术。管理程序124－4可以向客户操作系统呈现虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化的硬件资源。

网络130包括一个或多个有线和/或无线网络。例如，网络130可以包括蜂窝网络(例如，第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公共交换电话网络(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等，和/或这些或其它类型的网络的组合。

图1中所示的设备和网络的数量和布置被提供作为示例。在实践中，可以存在比图1所示的设备和/或网络更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络，或不同布置的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可以实现为多个分布式设备。附加地或替换地，环境100的一组设备(例如，一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。

图2示出了图1的至少一个设备的示例部件的方框图。

设备200可以对应于用户设备110和/或平台120。如图2所示，设备200可以包括总线210、处理器220、存储器230、存储部件240、输入部件250、输出部件260和通信接口270。

总线210包括允许设备200的部件之间的通信的部件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现方式中，处理器220包括能够被编程以执行功能的一个或多个处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储供处理器220使用的信息和/或指令的另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)。

存储部件240存储与设备200的操作和使用相关的信息和/或软件。例如，存储部件240可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、压缩盘(CD)、数字通用光盘(DVD)、软盘、盒式磁带、磁带和/或其它类型的非易失性计算机可读介质，以及对应的驱动器。

输入部件250包括允许设备200诸如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的部件。附加地或替换地，输入部件250可以包括用于感测信息的传感器(例如，全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出部件260包括提供来自设备200的输出信息的部件(例如，显示器、扬声器和/或一个或多个发光二极管(LED))。

通信接口270包括类似收发器的部件(例如，收发器和/或单独的接收器和发射器)，其使得设备200能够诸如经由有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如，通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi－Fi接口、蜂窝网络接口等。

设备200可以执行本申请描述的一个或多个过程。设备200可以响应于处理器220执行由诸如存储器230和/或存储部件240等非易失性计算机可读介质存储的软件指令而执行这些过程。计算机可读介质在本申请中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储器空间或分布在多个物理存储设备的存储器空间。

软件指令可以经由通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储部件240。当被执行时，存储在存储器230和/或存储部件240中的软件指令可以使处理器220执行本申请描述的一个或多个过程。附加地或替换地，硬连线电路可以代替软件指令或与软件指令结合使用，以执行本申请描述的一个或多个过程。因此，本申请描述的实现方式不限于硬件电路和软件的任何特定组合。

图2中所示的部件的数量和布置被提供作为示例。在实践中，设备200可以包括与图2所示的部件相比更多的部件、更少的部件、不同的部件或不同布置的部件。附加地或替换地，设备200的一组部件(例如，一个或多个部件)可以执行被描述为由设备200的另一组部件执行的一个或多个功能。

用于NIC中使用基于块的帧内预测机制以及自适应块大小的方法和装置，将在下文中进行详细描述。

本申请提出了NIC框架，使用基于块的帧内预测机制以及自适应块大小。对预测块和原始块之间的残差进行编码，而代替了对原始的像素进行编码，并且基于压缩质量，例如，率失真(Rate-Distortion，R-D)损失，对块大小进行自适应地确定。

图3示出了根据本申请实施例的在测试阶段的NIC编码器300装置的方框图.

如图3所示，编码器300包括分区模块310和分区选择模块320。

在编码器侧，给定输入图像x，分区模块310将输入图像x分区成k个微块，大小为(w_m，h_m)，

其中，m_i表示第i个微块。每个微块m_i可以被进一步分区成块b_i,1,…,b_i,n，其中，b_i,j是微块m_i中的第j个块。对于不同的块，块b_i,j的大小可以变化。在示例性实施例中，在当前视频编解码工具中，微块与CTU分区对齐。每个CTU微块可以被进一步分区成2×2,4×4,8×8,16×16,32×32或64×64块。实施例不对CTU的大小或如何分区CTU中的块施加任何限制。

假设有P种不同的方式，将每个微块m_i分区成多个块。现在将详细描述如何在分区选择模块320中确定最佳分区方式的工作流。

图4示出了根据本申请实施例的在测试阶段的图3中分区选择模块320的详细工作流。

如图4所示，分区选择模块320包括帧内预测模块410、残差神经压缩模块420、残差神经解压缩模块430、计算残差压缩损失模块440、神经压缩模块450、神经解压缩模块460、计算压缩损失模块470、块选择模块480和计算分区损失模块490。

分区选择模块320的输出包括最佳分区方式p^*、一组块选择信号

和一组压缩表示

通常，在通过量化和熵编码进一步压缩之后，将这些输出发送到解码器侧(例如，图5中详述的解码器500)。

令

表示通过第p个分区方式获得的块。用于该分区的块n_p的总数由微块m_i的大小和块的大小自动确定。对于每个分区块b_i,p,j，可以由帧内预测模块410基于预测网络来计算预测的块

预测网络将从x中选择的一组图像像素作为输入，其中，所选择的像素可以来自两个源：来自在微块m_i之前被编码的微块

以及来自在分区块b_i,p,j之前被编码的微块m_i中的块

有许多方式可以选择像素并且形成预测网络的输入。例如，在空间上最接近上下文区域中的分区块b_i,p,j的相邻像素，可以按某种顺序(堆叠、串接、在空间上变换等)进行组织，以形成预测网络的输入。通过推断计算，预测网络输出预测块

预测网络可以具有各种架构。对于每种分区方式，预测网络可以使用不同的NN模型用于预测。通常使用卷积层和完全连接层。实施例不对用于像素选择的上下文区域的大小和形状、将像素转换成预测网络的输入的方式，或预测网络的网络架构施加任何限制。

对于分区块b_i,p,j，在计算预测块

之后，可以基于分区块b_i,p,j和预测块

来计算残差r_i,p,j，例如通过减法。令

表示以第p个方式分区的整个第i个微块m_i的残差。可以将此残差

重新分区成一组q个残差块

注意，残差块的重新分区可以与预测块

的原始分区相同或不同。当q＝1时，整个微块将被作为一个整体进行处理。也可以以相同的方式，对对应的微块

和预测块

分别进行重新分区，得到重新分区的微块

和重新分区的预测块

残差神经压缩模块420可以对每个残差块

进行压缩，计算得到压缩残差表示

残差神经解压缩模块430对压缩残差表示

进行解压缩，计算得到恢复的残差块

可以将恢复的残差块

再添加到对应的重新分区的预测块

从而获得重建的块

计算残差压缩损失模块440基于重新分区的微块

重建的块

和压缩残差表示

计算残差压缩质量损失

例如，在示例性实施例中，速率失真(R-D)损失可以被计算为质量测量(残差质量损失)，如下所示：

其中，

是重新分区的微块

与重建的块

之间的失真。

是速率损失，用于测量压缩残差表示

的比特消耗。λ是平衡不同项的重要性的折衷超参数。在这里当然可以使用其它压缩质量损失。实施例不对用于压缩质量损失、失真或速率损失的特定测量施加任何限制。

同时，每个原始块

可以由神经压缩模块450直接压缩，计算得到压缩表示

神经解压缩模块460对压缩表示

进行解压缩，直接计算得到恢复的块

在计算压缩损失模块470中，可以基于原始块

重建的块

和压缩表示

以与残差质量损失

相同的方式，计算得到压缩质量损失

基于压缩质量损失

和残差质量损失

块选择模块480生成选择信号s_i,p,j，来指示是否使用残差块

或原始

来生成压缩残差表示

或压缩表示

例如通过选择具有较少质量损失的选项。这给出了压缩当前第j个块

的最佳质量损失

例如

计算分区损失模块490计算针对微块m_i的第p个分区方式的总质量损失L_i,p，如下所示：

其中，每个w_i,p,j是与原始块

相关联的权重。通过简单地将所有权重设置为1，所有块被同等地处理。一些块可以用比其它块更多的注意力来处理，并且注意力图(attention map)(或重要性图significance map)可以用于获得权重。

通过对分区的所有P方式重复相同的过程，可以获得质量损失L_i,p,p＝1,…,P。然后可以选择最佳的分区方式p^*，例如，作为具有最佳损失(即，p^*＝argmin_pL_i,p、

)的分区。对应的块选择信号

也可以被确定为分区选择模块320的输出。

令

表示为微块m_i选择的最佳分区块。根据块选择信号

对应的压缩残差表示

或压缩表示

也可以被确定为块

的实际压缩表示

该组压缩表示

也从分区选择模块320输出。最佳分区p^*、压缩表示

和块选择信号

被进一步编码，例如通过量化和熵编码，以生成编码流并且被发送到解码器侧(在图5中详述)。

神经压缩模块450和残差神经压缩模块420可以使用任何神经压缩方法。实施例不对用于这两个模块的特定方法或网络架构施加任何限制。

图5示出了根据本申请实施例的在测试阶段的NIC解码器500装置的方框图。

如图5所示，解码器500包括帧内预测模块410、残差神经解压缩模块430、神经解压缩模块460和合并模块510。

在解码器500侧，系统接收最佳分区p^*、压缩表示

和块选择信号

(通常从接收的码流通过熵解码和解量化后恢复得到)。基于每个块选择信号

系统选择以下方法中的一个来计算恢复的块

如果选择信号

指示恢复的块来自于在编码器300侧基于压缩表示

进行解码得到的块，则神经解压缩模块460将用于计算恢复的块

如果选择信号

指示恢复的块来自于在编码器300侧基于压缩残差表示

进行解码得到的块，则残差神经解压缩模块430将用于计算恢复的残差

在使用恢复的残差

的情况下,帧内预测模块410基于该组先前恢复的块

和先前恢复的微块

通过使用预测网络计算预测块

以相同的方式在编码器300中计算。唯一的区别是，在编码器300侧，预测网络的输入是由原始输入图像x的像素形成。在解码器500侧，输入来自对应的恢复的块和微块。然后可以将恢复的残差

添加回(以与编码器300相同的方式)重新分区的预测块

以获得恢复的块

计算出的恢复的块(

或

)将给出实际恢复的块

解码器继续处理下一个块。最终，在合并模块510中，微块m_i的恢复的块

被聚集到重建的图像

在一些实施例中，合并模块510可以进一步处理恢复的块以去除伪像，诸如解块、去噪等。实施例不对如何将恢复的块聚集到重建的图像

中的特定方法施加任何限制。

现在将描述NIC帧内预测训练过程。图6是根据实施例的NIC帧内预测装置600在训练阶段期间的工作流。

如图6所示，NIC帧内预测训练装置600包括分区模块310、分区选择模块320、帧内预测模块410、剩余神经解压缩模块430、神经解压缩模块460、合并模块510、计算整体损失模块610和计算附加损失模块620。

训练过程的目标是学习预测网络、神经压缩模块450、神经解压缩模块460、残差神经压缩模块420和残差神经解压缩模块430。在使用可学习合并模块510和块选择模块480的情况下，例如，当NN用于将恢复的块聚集到恢复的图像中时，也可以在训练过程中学习对应的可学习参数。在训练过程中，对要学习的上述网络和模块的权重系数进行初始化，例如，通过使用预训练的模型，或将它们的参数设置为随机数。然后，给定输入训练图像x，它通过图3中描述的编码器300，然后通过图5中描述的解码器500，计算得到最佳分区p^*、压缩表示

用于每个微块m_i的块选择信号

以及最终重建的图像

可以计算失真损失

诸如传统的PSNR、MS-SSIM或两者的权重组合。可以计算速率损失

以测量压缩表示

的比特消耗。因此，可以在计算总损失模块610中计算总R-D损失

其中α，β_i是平衡不同项的重要性的超参数。

也可以在计算附加损失模块620(例如，MSE或SSIM测量)中计算其它形式的损失，诸如恢复的残差

与原始残差

之间的失真损失

和失真损失

还可以任选

和

与整个R-D损失

组合为整个系统的最终损失。可以计算最终损失的梯度，并且反向传播，以更新系统中的可学习参数。注意，可以用不同的更新频率在不同的时间更新不同的部件(即，网络或模块)。在一些实施例中，一些部件或一些部件中的部分参数可以进行预训练并固定，训练过程中仅更新剩余的参数。

图7是根据实施例的具有自适应帧内预测的神经网络图像压缩方法的流程图。

在一些实施方案中，图7的一个或多个过程块可以由平台120执行。在一些实施方案中，图7的一个或多个过程块可以由与平台120分离或包括平台120的另一设备或一组设备(诸如用户设备110)来执行。虽然图7示出了该方法的示例块，但是在一些实施方案中，该方法可以包括相比图7中描绘的那些块附加的块、更少的块、不同的块或不同地布置的块。附加地或替代地，可以并行地执行该方法的两个或更多个块。

如图7所示，在操作701中，该方法包括接收最佳分区方式和接收输入的压缩表示，所述输入包括第一组块。对第一组块中的每个块，执行操作702至操作709。

在操作702中，图7的方法包括接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块。

在操作703中，基于块选择信号，该方法继续到操作704至操作705或操作706至操作709中的一个。

在操作704中，图7的方法包括使用第一神经网络，压缩第一组块中的块，以计算第一压缩表示。

在操作705中，图7的方法包括使用第二神经网络，解压缩第一压缩表示，以计算第一恢复块。

在操作706中，图7的方法包括基于一组先前恢复块和一组先前恢复的微块，计算第一预测块。

在操作707中，图7的方法包括基于第一组块中的当前块和预测块，计算第一残差。

在操作708中，图7的方法包括基于第一残差，生成恢复残差。

在操作709中，图7的方法包括对第一预测块进行分区，并且添加恢复残差，以获得第二恢复块。

在操作710中，图7的方法包括合并每一个当前恢复块，以获得重建的图像。

图8是根据实施例的用于具有自适应帧内预测的神经网络图像压缩的装置的块图。

如图8所示，该装置包括第一接收代码801、第二接收代码802、第三接收代码803、第一压缩代码804、第一解压缩代码805、第一预测代码806、第一残差代码807、第一生成代码808、第一分区代码809和合并代码810。

第一接收代码801被配置为使至少一个处理器接收最佳分区方式。

第二接收代码802被配置为使至少一个处理器接收输入的压缩表示，所述输入包括第一组块，并且用于第一组块中的每个块。

第三接收代码803被配置为使至少一个处理器接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块。

第一压缩代码804被配置为使至少一个处理器使用第一神经网络，压缩第一组块中的块，以计算第一压缩表示。

第一解压缩代码805被配置为使至少一个处理器使用第二神经网络，解压缩第一压缩表示，以计算第一恢复块。

第一预测代码806被配置为使至少一个处理器基于一组先前恢复的块和一组先前恢复的微块，预测第一预测块。

第一残差代码807被配置为使至少一个处理器基于第一组块中的当前块和预测块，计算第一残差。

第一生成代码808被配置为使至少一个处理器基于第一残差，生成恢复残差。

第一分区代码809被配置为使至少一个处理器对第一预测块进行分区，并且添加恢复残差，以获得第二恢复块。

合并代码810被配置为使至少一个处理器合并每一个当前恢复块，以获得重建的图像。

虽然图8示出了装置的示例块，但是在一些实现方式中，装置可以包括与图4中描绘的那些框相比更多的块、更少的块、不同的块或不同布置的块。附加地或替换地，可以合并装置的两个或更多个块。

本申请实施例描述了使用帧内预测以及原始图像像素进行自适应块分区和块压缩方法选择的方法，以及使用不同块大小用于帧内预测残差生成和基于块的神经压缩的方法。这种INC编解码方法有利于得到一种灵活和通用的架构，来适应不同的帧内预测方法、同时用于残差和原始图像块的不同的神经压缩方法、不同的微块和块的分区。

所提出的INC编解码方法可以单独使用，或者按任何顺序进行合并。进一步，每个方法(或实施例)、编码器和解码器，可以由处理电路(例如，至少一个处理器，或者，至少一个集成电路)实施。在一个示例中，所述至少一个处理器执行存储在非易失性计算机可读介质中的程序。

上述公开内容提供了说明和描述，但并不旨在穷举或将实现方式限制为所公开的精确形式。根据上述公开内容可以进行修改和变化，或者可以从实现方式的实践中获得修改和变化。

如本申请所使用的，术语部件旨在被广泛地解释为硬件、固件或硬件和软件的组合。

显然，本申请描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现方式的限制。因此，本申请描述了系统和/或方法的操作和行为，而没有参考特定的软件代码——应当理解，软件和硬件可以被设计成基于本申请的描述来实现系统和/或方法。

即使在权利要求中列举和/或在说明书中公开了特征的特定组合，这些组合并不旨在限制可能实现方式的公开。事实上，这些特征中的许多特征可以以权利要求中未具体叙述和/或说明书中未公开的方式组合。虽然下面列出的每个从属权利要求可以直接依赖于仅一个权利要求，但是可能实现方式的公开包括与权利要求集中的所有其它权利要求结合的每个从属权利要求。

除非明确说明，否则本申请使用的任何元素、行为或指令均不应被解释为关键或必要的。此外，如本申请所使用的，术语“组”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关和不相关项目的组合等)，并且可以与“一个或多个”互换使用。此外，除非另有明确说明，否则短语“基于”旨在表示“至少部分地基于”。

Claims

1.一种具有自适应帧内预测的神经网络图像压缩方法，所述方法由至少一个处理器执行，其特征在于，包括：

接收最佳分区；

接收输入的压缩表示，所述输入包括第一组块；

对所述第一组块中的每个块，接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块，并基于接收到的所述块选择信号，执行第一恢复和第二恢复中的一个；及，

合并所述当前恢复块，以获得重建的图像；

其中，所述第一恢复包括：

使用第一神经网络，压缩所述第一组块中的块，以计算第一压缩表示；

使用第二神经网络，解压缩所述第一压缩表示，以计算所述第一恢复块；

所述第二恢复包括：

基于一组先前恢复块和一组先前恢复的微块，计算第一预测块；

基于所述第一组块中的当前块和预测块，计算第一残差；

基于所述第一残差，生成恢复残差；

对所述第一预测块进行分区，并且添加所述恢复残差，以获得所述第二恢复块。

2.根据权利要求1所述的方法，其特征在于，还包括：

将所述输入分区为一组微块，将所述一组微块中的每个微块重新分区为第二组块，对于每个块：

基于从所述输入选择出的一组像素，计算第二预测块；

同时执行第一计算和第二计算；

基于所述第一计算和所述第二计算，生成所述块选择信号；

其中，所述第一计算包括：

基于所述第二组块中的块和所述第二预测块，计算第二残差；

基于第二压缩残差表示，生成第二重建块；

基于所述第二组块、所述第二重建块以及所述第二压缩残差表示，计算第一质量损失；

所述第二计算包括：

压缩所述第二组块中的块，以计算第二压缩表示；

解压缩所述第二压缩表示，以计算第三恢复块；

基于所述第二组块、所述第三恢复块以及所述第二压缩表示，计算第二质量损失。

3.根据权利要求2所述的方法，其特征在于，当所述第一质量损失小于所述第二质量损失时，所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示；

当所述第二质量损失小于所述第一质量损失时，所述块选择信号指示所述第二组块中的块将用于生成所述压缩表示。

4.根据权利要求1所述的方法，其特征在于，还包括：

将所述第一残差分区为第一残差块；

其中，生成所述恢复残差，是使用第三神经网络，压缩所述第一残差块中的块，以获得第一压缩残差表示；

使用第四神经网络，对所述第一压缩残差表示进行解压缩，以获得所述恢复残差。

5.根据权利要求4所述的方法，其特征在于，对所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络中的每一个进行训练，通过：

对权重系数进行初始化；

计算总损失并向后传播所述总损失的梯度，以更新可学习参数。

6.根据权利要求2所述的方法，其特征在于，所述一组像素是从所述一组先前恢复块或所述一组先前恢复的微块中选择出来的。

7.根据权利要求2所述的方法，其特征在于，还包括：

使用多种方式对所述输入进行分区；

其中，所述最佳分区方式是指将所述输入分区后，使得来自所述第二组块的质量损失最小的方式。

8.一种具有自适应帧内预测的神经网络图像压缩装置，其特征在于，包括：

至少一个存储器，用于存储计算机程序代码；

至少一个处理器，用于读取所述计算机程序代码，根据所述计算机程序代码的指令进行操作，所述程计算机序代码包括：

第一接收代码，用于使得所述至少一个处理器，接收最佳分区；

第二接收代码，用于使得所述至少一个处理器，接收输入的压缩表示，所述输入包括第一组块；

第三接收代码，用于使得所述至少一个处理器，对所述第一组块中的每个块，接收块选择信号，所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块，并基于接收到的所述块选择信号，执行第一恢复和第二恢复中的一个；及，

合并代码，用于使得所述至少一个处理器，合并所述当前恢复块，以获得重建的图像；

其中，所述第一恢复包括：

第一压缩代码，用于使得所述至少一个处理器，使用第一神经网络，压缩所述第一组块中的块，以计算第一压缩表示；

第一解压缩代码，用于使得所述至少一个处理器，使用第二神经网络，解压缩所述第一压缩表示，以计算所述第一恢复块；

所述第二恢复包括：

第一预测代码，用于使得所述至少一个处理器，基于一组先前恢复块和一组先前恢复的微块，计算第一预测块；

第一残差代码，用于使得所述至少一个处理器，基于所述第一组块中的当前块和预测块，计算第一残差；

第一生成代码，用于使得所述至少一个处理器，基于所述第一残差，生成恢复残差；

第一分区代码，用于使得所述至少一个处理器，对所述第一预测块进行分区，并且添加所述恢复残差，以获得所述第二恢复块。

9.根据权利要求8所述的装置，其特征在于，还包括：

第二分区代码，用于使得所述至少一个处理器，将所述输入分区为一组微块，将所述一组微块中的每个微块重新分区为第二组块，对于每个块：

第二预测代码，用于使得所述至少一个处理器，基于从所述输入选择出的一组像素，计算第二预测块；

执行代码，用于使得所述至少一个处理器，同时执行第一计算和第二计算；

块选择代码，用于使得所述至少一个处理器，基于所述第一计算和所述第二计算，生成所述块选择信号；

其中，所述第一计算包括：

第一残差代码，用于使得所述至少一个处理器，基于所述第二组块中的块和所述第二预测块，计算第二残差；

第二生成代码，用于使得所述至少一个处理器，基于第二压缩残差表示，生成第二重建块；

第一质量损失代码，用于使得所述至少一个处理器，基于所述第二组块、所述第二重建块以及所述第二压缩残差表示，计算第一质量损失；

所述第二计算包括：

第二压缩代码，用于使得所述至少一个处理器，压缩所述第二组块中的块，以计算第二压缩表示；

第二解压缩代码，用于使得所述至少一个处理器，解压缩所述第二压缩表示，以计算第三恢复块；

第二质量损失代码，用于使得所述至少一个处理器，基于所述第二组块、所述第三恢复块以及所述第二压缩表示，计算第二质量损失。

10.根据权利要求8所述的装置，其特征在于，当所述第一质量损失小于所述第二质量损失时，所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示；

11.根据权利要求8所述的装置，其特征在于，还包括：

残差分区代码，用于使得所述至少一个处理器，将所述第一残差分区为第一残差块；

12.根据权利要求11所述的装置，其特征在于，对所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络中的每一个进行训练，通过：

对权重系数进行初始化；

13.根据权利要求9所述的装置，其特征在于，所述一组像素是从所述一组先前恢复块或所述一组先前恢复的微块中选择出来的。

14.根据权利要求9所述的装置，其特征在于，所述第二分区代码，还用于使得所述至少一个处理器，使用多种方式对所述输入进行分区；

15.一种非易失性计算机可读介质，其特征在于，其上存储有指令，所述指令由至少一个处理器执行具有自适应帧内预测的神经网络图像压缩时，使得所述至少一个处理器：

接收最佳分区；

接收输入的压缩表示，所述输入包括第一组块；

合并所述当前恢复块，以获得重建的图像；

其中，所述第一恢复包括：

所述第二恢复包括：

基于所述第一组块中的当前块和预测块，计算第一残差；

基于所述第一残差，生成恢复残差；

16.根据权利要求15所述的非易失性计算机可读介质，其特征在于，所述指令由至少一个处理器执行，还使得所述至少一个处理器：

基于从所述输入选择出的一组像素，计算第二预测块；

同时执行第一计算和第二计算；

基于所述第一计算和所述第二计算，生成所述块选择信号；

其中，所述第一计算包括：

基于第二压缩残差表示，生成第二重建块；

所述第二计算包括：

压缩所述第二组块中的块，以计算第二压缩表示；

解压缩所述第二压缩表示，以计算第三恢复块；

17.根据权利要求15所述的非易失性计算机可读介质，其特征在于，当所述第一质量损失小于所述第二质量损失时，所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示；

18.根据权利要求15所述的非易失性计算机可读介质，其特征在于，所述指令由至少一个处理器执行，还使得所述至少一个处理器：

当所述第一质量损失小于所述第二质量损失时，所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示；

19.根据权利要求18所述的非易失性计算机可读介质，其特征在于，对所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络中的每一个进行训练，通过：

对权重系数进行初始化；

20.根据权利要求16所述的非易失性计算机可读介质，其特征在于，所述指令由至少一个处理器执行，还使得所述至少一个处理器：

使用多种方式对所述输入进行分区；

其中，所述最佳分区方式是指将所述输入分区后，使得来自所述第二组块的质量损失最小的方式；

所述一组像素是从所述一组先前恢复块或所述一组先前恢复的微块中选择出来的。