CN117256142A

CN117256142A - 用于使用基于人工神经网络的工具对图像和视频进行编码/解码的方法和装置

Info

Publication number: CN117256142A
Application number: CN202280031824.8A
Authority: CN
Inventors: J·贝盖特; F·拉卡佩; S·费尔特曼; A·普什帕拉贾
Original assignee: Vid Scale Inc
Current assignee: Vid Scale Inc
Priority date: 2021-04-13
Filing date: 2022-04-13
Publication date: 2023-12-19
Also published as: WO2022221374A1; KR20230169239A; EP4324205A1; WO2022221374A9

Abstract

公开了用于使用神经网络对图像或视频进行编码/解码的方法和装置。在一些实施方案中，从允许使第一基于神经网络的解码器适配的比特流对辅助信息进行解码，向第一基于神经网络的解码器提供解码辅助信息和表示从该比特流或单独比特流获得的图像或视频的编码数据作为输入，并且从第一基于神经网络的解码器的输出获得重建的图像或视频。

Description

用于使用基于人工神经网络的工具对图像和视频进行编码/ 解码的方法和装置

相关申请的交叉引用

本申请要求2021年4月13日提交的美国临时专利申请63/174,105号的权益，该专利申请全文以引用方式并入本文。

技术领域

本实施方案中的至少一个实施方案通常涉及一种用于使用基于人工神经网络(ANN)的工具来压缩图像和视频的方法或装置。

背景技术

ISO/MPEG和ITU之间的联合视频探索小组(JVET)目前正在研究替换最新标准H.266/VVC的一些模块的工具，以及通过端到端自编码器方法替换整个结构。

发明内容

本实施方案中的至少一个实施方案大体上涉及一种在使用新颖的基于人工神经网络(ANN)的工具来压缩图像和视频的背景下的方法或装置。

根据第一方面，提供了一种方法。该方法包括从比特流对用于使第一基于神经网络的解码器适配的辅助信息进行解码，向第一基于神经网络的解码器提供解码辅助信息和表示从该比特流或单独比特流获得的图像或视频的编码数据作为输入，从第一基于神经网络的解码器的输出获得重建的图像或视频。

根据第二方面，提供了一种方法。该方法包括从第一神经网络编码器获得包括表示图像或视频的编码数据的至少一个第一潜像，向第二神经网络编码器提供该至少一个第一潜像，从第二神经网络编码器获得至少一个第二潜像，该至少一个第二潜像包括用于在对该至少一个第一潜像进行解码时使第一基于神经网络的解码器适配的辅助信息，生成包括该至少一个第一潜像和该至少一个第二潜像的至少一个比特流。

根据另一方面，提供了一种方法，该方法包括对包括表示图像或视频的编码数据的比特流进行解码，其中解码包括从比特流对语法元素进行解码，该语法元素指示第一基于神经网络的解码器的适配是否用于对从比特流获得的至少一个潜像进行解码。

根据另一方面，提供了一种方法，该方法包括在比特流中对图像或视频进行编码，其中对图像或视频进行编码包括使用第一神经网络编码器在比特流中对表示图像或视频的数据进行编码，在比特流中对语法元素进行编码，该语法元素指示第一基于神经网络的解码器的适配是否用于从比特流对表示图像或视频的数据进行解码。

根据另一方面，提供了一种装置。该装置包括处理器。该处理器可被配置为通过执行所述的方法中任一个方法来实现一般方面。

根据至少一个实施方案的另一个一般方面，提供了一种设备，该设备包括：根据解码实施方案中的任一实施方案的装置；以及以下项中的至少一者：(i)天线，该天线被配置为接收信号，该信号包括视频块或图像；(ii)频带限制器，该频带限制器被配置为将所接收的信号限制为包括该视频块或图像的频带；和(iii)显示器，该显示器被配置为显示表示视频块或图像的输出。

根据至少一个实施方案的另一方面，提供了一种非暂态计算机可读介质，该非暂态计算机可读介质包括根据所描述的编码实施方案或变型中的任一者生成的数据内容。

根据至少一个实施方案的另一方面，提供了一种信号，该信号包括根据所描述的编码实施方案或变型中的任一者生成的视频数据。

根据至少一个实施方案的另一方面，比特流被格式化以包括根据所描述的编码实施方案或变型中的任一者生成的数据内容。

根据至少一个实施方案的另一方面，提供了一种计算机程序产品，该计算机程序产品包括指令，当由计算机执行程序时，该指令使计算机执行所描述的解码实施方案或变型中的任一者。

通过将结合附图阅读的示例性实施方案的以下详细描述，一般方面的这些和其他方面、特征和优点将变得显而易见。

附图说明

在附图中：

图1是其中可实现本实施方案的各方面的系统的框图。

图2是视频编码器的实施方案的框图。

图3是视频解码器的实施方案的框图。

图4是基于人工神经网络的自编码器的实施方案的框图。

图5示出了具有8个帧的GOP的随机存取结构的示例。

图6示出了Agustsson等人的用于压缩视频帧的架构的示例。

图7示出了根据本发明原理的实施方案的基于人工神经网络的自编码器的示例。

图8示出了根据本发明原理的另一实施方案的基于人工神经网络的自编码器的示例。

图9示出了根据本发明原理的另一实施方案的基于人工神经网络的自编码器的示例。

图10示出了根据本发明原理的实施方案的基于人工神经网络的解码器的适配的示例。

图11示出了根据本发明原理的实施方案的用于对图像或视频进行编码的方法的示例。

图12示出了根据本发明原理的实施方案的用于对图像或视频进行解码的方法的示例。

图13示出了根据本发明原理的另一实施方案的用于对图像或视频进行编码的方法的示例。

图14示出了根据本发明原理的另一实施方案的用于对图像或视频进行解码的方法的示例。

图15示出了用于使用本发明原理对图像或视频进行编码或解码的装置的一个实施方案。

图16示出了根据本发明原理的示例的通过通信网络进行通信的两个远程设备。并且

图17示出了根据本发明原理的示例的信号的语法。

具体实施方式

本申请描述了各个方面，包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面，并且至少示出个体特性，通常以可能听起来有限的方式描述。然而，这是为了描述清楚，并不限制这些方面的应用或范围。实际上，所有不同的方面可组合和互换以提供进一步的方面。此外，这些方面也可与先前提交中描述的方面组合和互换。

本文中描述和设想的方面可以许多不同的形式实现。下文关于图1至图3论述一些实施方案，但设想了其它实施方案，并且图1至图3的论述不应视为限制此类具体实施的广度。这些方面中的至少一个方面通常涉及视频编码和解码，并且至少一个其他方面通常涉及传输生成或编码的比特流。这些和其他方面可实现为方法、装置、其上存储有用于根据所述方法中任一种对视频数据进行编码或解码的指令的计算机可读存储介质，和/或其上存储有根据所述方法中任一种生成的比特流的计算机可读存储介质。

图1示出了其中可实现各种方面和实施方案的系统的示例的框图。系统100可体现为一种设备，该设备包括下文所述的各种部件，并且被配置为执行本申请所述各方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视接收器、个人视频录制系统、连接的家用电器和服务器。系统100的元件可单独地或组合地体现在单个集成电路、多个IC和/或分立部件中。例如，在至少一个实施方案中，系统100的处理和编码器/解码器元件跨多个IC和/或分立的部件分布。在各种实施方案中，系统100经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他系统或其他电子设备。在各种实施方案中，系统100被配置为实现本申请所述的方面的一个或多个方面。

系统100包括至少一个处理器110，该至少一个处理器被配置为执行加载到其中的指令，以用于实现例如本申请所述的各个方面。处理器110可包括嵌入式存储器、输入输出接口和本领域已知的各种其它电路。系统100包括至少一个存储器120(例如，易失性存储器设备和/或非易失性存储器设备)。系统100包括存储设备140，该存储设备可包括非易失性存储器和/或易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备140可包括内部存储设备、附接存储设备和/或网络可访问的存储设备。

系统100包括编码器/解码器模块130，该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频，并且编码器/解码器模块130可包括其自身的处理器和存储器。编码器/解码器模块130表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知，设备可包括编码模块和解码模块中的一者或两者。另外，编码器/解码器模块130可被实现为系统100的独立元件，或可被结合在处理器110内作为本领域技术人员已知的硬件和软件的组合。

要加载到处理器110或编码器/解码器130上以执行本申请中所述的各个方面的程序代码可存储在存储设备140中，并且随后加载到存储器120上以供处理器110执行。根据各种实施方案，处理器110、存储器120、存储设备140和编码器/解码器模块130中的一者或多者可在本申请中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码视频或解码视频的部分、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。

在一些实施方案中，在处理器110和/或编码器/解码器模块130内部的存储器用于存储指令以及提供在编码或解码期间所需的用于处理的工作存储器。然而，在其他实施方案中，处理设备(例如，处理设备可为处理器110或编码器/解码器模块130)外部的存储器用于这些功能中的一个或多个功能。外部存储器可为存储器120和/或存储设备140，例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中，外部非易失性闪存存储器用于存储例如电视的操作系统。在至少一个实施方案中，快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器，诸如MPEG-2(MPEG是指运动图片专家组，MPEG-2也称为ISO/IEC 13818，并且13818-1也称为H.222，并且13818-2也称为H.262)、HEVC(HEVC是指高效视频编码，也称为H.265和MPEG-H部分2)或VVC(通用视频编码，由JVET开发的标准)。

可通过如框105中所指示的各种输入设备来提供对系统100的元件的输入。此类输入设备包括但不限于：(i)射频(RF)部分，其接收例如由广播器通过空中传输的RF信号；(ii)分量(COMP)输入端子(或一组COMP输入端子)；(iii)通用串行总线(USB)输入端子；和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图1中未示出的其他示例包括复合视频。

在各种实施方案中，块105的输入设备具有如本领域中已知的相关联的相应的输入处理元件。例如，RF部分可与适于以下项的元件相关联：(i)选择期望的频率(也称为选择信号，或将信号频带限制到一个频带)，(ii)下变频选择的信号，(iii)再次将频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带，(iv)解调经下变频和频带限制的信号，(v)执行纠错，以及(vi)解复用以选择期望的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件，例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包含执行这些功能中的各种功能的调谐器，这些功能包含例如下变频接收的信号至更低频率(例如，中频或近基带频率)或至基带。在一个机顶盒实施方案中，RF部分及其相关联的输入处理元件接收通过有线(例如，电缆)介质发射的RF信号，并且通过滤波、下变频和再次滤波至期望的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序，移除这些元件中的一些元件，和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件，例如，插入放大器和模拟-数字转换器。在各种实施方案中，RF部分包括天线。

另外，USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统100连接到其它电子设备的相应接口处理器。应当理解，输入处理(例如，Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器110内实现。类似地，USB或HDMI接口处理的各方面可根据需要在单独的接口IC内或在处理器110内实现。将解调流、纠错流和解复用流提供给各种处理元件，包括例如处理器110以及编码器/解码器130，该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。

系统100的各种元件可设置在集成壳体内。在集成壳体内，各种元件可使用合适的连接布置115(例如，本领域已知的内部总线，包括芯片间(I2C)总线、布线和印刷电路板)互连并在这些元件之间传输数据。

系统100包括通信接口150，该通信接口允许经由通信信道190与其它设备的通信。通信接口150可包括但不限于被配置为通过通信信道190传输和接收数据的收发器。通信接口150可包括但不限于调制解调器或网卡，并且通信信道190可在有线和/或无线介质等内实现。

在各种实施方案中，使用无线网络诸如Wi-Fi网络例如IEEE 802.11(IEEE是指电气电子工程师学会)将数据流式传输或以其他方式提供给系统100。这些实施方案的Wi-Fi信号是通过适于Wi-Fi通信的通信信道190和通信接口150来接收。这些实施方案中的通信信道190通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以允许流式应用和其它OTT通信。其它实施方案使用机顶盒向系统100提供流式传输的数据，该机顶盒通过输入块105的HDMI连接来递送数据。还有其它实施方案使用输入块105的RF连接向系统100提供流式传输的数据。如上所述，各种实施方案以非流式的方式提供数据。另外地，各种实施方案使用除了Wi-Fi以外的无线网络，例如蜂窝网络或蓝牙网络。

系统100可向各种输出设备(包括显示器165、扬声器175和其他外围设备185)提供输出信号。各种实施方案的显示器165包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一个或多个显示器。显示器165可用于电视、平板电脑、膝上型电脑、蜂窝电话(移动电话)或其他设备。显示器1100还可与其他部件集成(例如，如在智能电话中)，或可为独立的显示器(例如，用于膝上型电脑的外部监视器)。在实施方案的各种示例中，其他外围设备185包括独立数字视频光盘(或数字多功能光盘)(DVR，可表示这两个术语)、碟片播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用一个或多个外围设备185，该一个或多个外围设备基于系统100的输出来提供功能。例如，碟片播放器执行播放系统100的输出的功能。

在各种实施方案中，使用信令诸如AV.Link、消费电子控制(CEC)或允许带有或不带有用户干预的设备到设备控制的其他通信协议，在系统100与显示器165、扬声器175或其他外围设备185之间传送控制信号。可通过相应的接口160、170和180经由专用连接将输出设备通信地耦接到系统100。另选地，可经由通信接口150使用通信信道190将输出设备连接到系统100。在电子设备(诸如例如电视)中，显示器165和扬声器175可与系统100的其他部件集成在单个单元中。在各种实施方案中，显示器接口160包括显示驱动器，诸如例如定时控制器(T Con)芯片。

或者，例如，如果输入105的RF部分是单独机顶盒的一部分，则显示器165和扬声器175可与其它部件中的一个或多个部件分开。在显示器165和扬声器175为外部部件的各种实施方案中，输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供。

该实施方案可由处理器110实现的计算机软件，或由硬件，或由硬件和软件的组合来进行。作为非限制性示例，这些实施方案可由一个或多个集成电路实现。作为非限制性示例，存储器120可为适于技术环境的任何类型，并且可使用任何适当的数据存储技术(诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器)来实现。作为非限制性示例，处理器110可为适于技术环境的任何类型，并且可涵盖微处理器、通用计算机、专用计算机、数字信号处理器(DSP)和基于多核架构的处理器中的一者或多者。

图2是示例性视频编码器200的框图，诸如High编码器。图2还可以示出在其中对HEVC标准进行改善的编码器，或采用类似于HEVC的技术的编码器，诸如由JVET开发的VVC编码器。

在本申请中，术语“重建”和“解码”可以互换使用，术语“经编码”或“编码”可以互换使用，术语“像素”或“样本”可以互换使用，并且术语“图像”、“图片”和“帧”可以互换使用。通常，但不必然，术语“重建”在编码器侧使用，而“解码”在解码器侧使用。

在进行编码之前，视频序列可经过预编码处理(201)，例如，将颜色变换应用于输入彩色图片(例如，从RGB 4:4:4到YCbCr 4:2:0的转换)，或执行输入图片分量的重新映射，以便获得对于压缩更有弹性的信号分布(例如，使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附加到比特流。

在编码器200中，由编码器元件对图片进行编码，如下所述。在例如CU的单元中对待编码的图片进行分区(202)和处理。例如，使用帧内模式或帧间模式对每个单元进行编码。当在帧内模式中对单元进行编码时，该编码器执行帧内预测(260)。在帧间模式中，执行运动估计(275)和运动补偿(270)。编码器决定(205)使用帧内模式或帧间模式中的哪一个模式对该单元进行编码，并且通过例如预测模式标记来指示帧内/帧间决定。编码器还可以混合(263)帧内预测结果和帧间预测结果，或混合来自不同帧内/帧间预测方法的结果。

例如，通过从原始图像块减去(210)预测块来计算预测残差。运动修正模块(272)使用已经可用的参考图片，以便在不参考原始块的情况下修正块的运动场。区域的运动场可以被认为是关于该区域的所有像素的运动向量的集合。如果运动向量基于子块，则运动场也可以表示为区域中的所有子块运动向量的集合(子块内的所有像素具有相同的运动向量，并且子块与子块之间的运动向量可能不同)。如果单个运动向量用于该区域，则该区域的运动场也可以由单个运动向量(针对区域中的所有像素的相同运动向量)表示。

然后，对预测残差进行变换(225)和量化(230)。对量化的变换系数以及运动向量和其他语法元素进行熵编码(245)以输出比特流。该编码器可跳过变换，并对未变换的残差信号直接应用量化。该编码器可绕过变换和量化两者，即，在不应用变换或量化过程的情况下直接对残差进行编码。

该编码器对编码块进行解码以提供进一步预测的参考。对量化的变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测块，重建图像块。将环内滤波器(265)应用于重建的图片以执行例如解块/SAO(样本自适应偏移)滤波，从而减少编码伪影。将经滤波的图像存储在参考图片缓冲器(280)处。

图3是示例性视频解码器300的框图。在解码器300中，由解码器元件对比特流进行解码，如下所述。视频解码器300一般执行与图2中所述的编码过程相反的解码过程。编码器200通常还执行视频解码作为对视频数据进行编码的一部分。

具体地，解码器的输入包括视频比特流，该视频比特流可由视频编码器200生成。首先，对比特流进行熵解码(330)以获得变换系数、运动向量和其他经编码的信息。图片分区信息指示如何对图片进行分区。因此，解码器可根据经解码的图片分区信息来划分(335)图片。对变换系数进行解量化(340)和逆变换(350)以对预测残差进行解码。组合(355)经解码的预测残差和预测块，重建图像块。

可从帧内预测(360)或运动补偿预测(即，帧间预测)(375)获得(370)预测块。解码器可以混合(373)帧内预测结果和帧间预测结果，或混合来自多个帧内/帧间预测方法的结果。在运动补偿之前，可通过使用已经可用的参考图片来修正(372)运动场。将环内滤波器(365)应用于重建的图像。将经滤波的图像存储在参考图片缓冲器(380)处。

解码的图片可进一步经过解码后处理(385)，例如，逆颜色变换(例如，从YCbCr 4:2:0到RGB 4:4:4的转换)，或执行在预编码处理(201)中执行的重新映射过程的逆的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中有信号通知的元数据。

根据实施方案，参考图1、图2和图3描述的视频编码器和解码器的全部或部分可使用人工神经网络(ANN)来实现。

近年来，基于神经网络的新型图像和视频压缩方法已被开发。与应用预定义预测模式和变换的传统方法相反，基于人工神经网络(ANN)的方法依赖于在训练期间通过迭代地最小化损失函数在大数据集上学习的参数。在压缩情况下，损失函数描述了编码的比特流的比特率估计和解码的内容的性能两者。传统上，经重构的图像的质量例如基于对信号失真或人感知的视觉质量的近似的度量而被优化。

在图4中，示出了端到端压缩系统40的示例性框图。网络的编码器部分的输入X可包括：

-视频的图像或帧，

-图像的一部分

-表示一组图像的张量

-表示一组图像的一部分(裁切)的张量。

在每种情况下，输入可以具有一个或多个分量，例如：单色分量、RGB分量或YCbCr分量。

输入张量X被馈送到编码器网络41。

编码器网络41通常是具有激活函数的一系列卷积层。卷积或空间到深度(space-to-depth)运算(再成形和置换，例如大小为(N,H,W)的张量被再成形和置换为(N*2*2,H//2,W//2))中的大步幅可以用于降低空间分辨率，同时增加信道数。编码器网络41可以被看作是学习型变换。

编码器网络41的输出，即“特征图”或“潜像”Z被量化(未示出)和熵编码(EC,42)为二进制流(比特流)，以用于存储或传输。

对比特流进行熵解码(ED,43)以获得Z的重建版本。解码器网络44使/>原始X张量的近似值从潜像/>生成。解码器网络44通常是一系列上采样卷积序列(例如：“去卷积”或卷积后的上采样滤波器)或深度到空间的操作。解码器网络44可以被看作是学习型逆变换，或者是去噪和生成变换。

存在更为复杂的架构，例如向网络添加“超先验自编码器”(超先验)，以便联合地学习编码器输出的潜分布特性。以下描述的任何实施方案不限于自编码器的使用。任何端到端的可区分编解码器都可以考虑。

为了移除视频序列帧之间的冗余，传统的视频编码方法包括帧间预测工具。图像被分区成块。

对于待编码的每个块，运动估计器试图在先前重建的参考图片中找到预测因子。传统上视为是平移，运动估计器在与当前块协同定位的窗口内的相同形状的块中搜索以进行预测。当找到最佳匹配时，运动向量，即当前块的位置与其预测因子之间的水平坐标差值和竖直坐标差值，被编码并在具有参考图片索引的比特流中传输。源块和预测因子之间的差值也称为残差，通常在比特流中被变换、量化和熵编码。

在解码器处，运动信息以及残差被解码。使用解码的运动向量在用发信号通知的参考帧中访问预测因子。然后通过将解码的残差添加到预测因子来构建解码的块。

在此种方案中，编码器执行在参考帧中的窗口内寻找最佳匹配块的复杂任务，以当前块的位置为中心。解码器仅需要解析运动信息。

若干时间结构使得编码器能够在先前解码的图片当中选择参考帧。在广播生态系统中使用的典型结构被称为随机接入结构。该结构由周期性的图片组(GOP)组成，这些图片组包括重复的最小时间帧结构。

图5示出了在8帧的GOP的情况下的此种结构。第一帧是帧内帧或I帧，这说明第一帧不依赖于要解码的其它帧。然后可以将其用作随机接入点，其中解码器可以开始对序列进行解码。在广播中，这些帧通常被第二视频分开，这使得TV观众能够切换频道并开始解码他们所选择的新频道，并且不要等待太长时间才能开始显示视频。然而，这些帧通常花费大量比特来传输，因为这些帧不是使用先前解码的内容来预测的。在I帧之间，使用先前解码的帧来预测其它帧。在图5的结构中，可以注意到编码顺序与显示顺序不同。这使得编码器能够使用过去和未来的先前重构的图片来预测帧。这些帧因此被称为用于双向预测的B帧。然后，该结构遵循具有B₀、B₁、B₂和B₃类型帧的分层模式。每个GOP的B₀是要编码的第一帧，该第一帧是使用来自先前GOP的最后关键帧(I或B₀)来预测的，例如，显示顺序中的第8帧是根据第0帧预测的。可以使用过去和未来帧来预测编码顺序中的后续帧，如箭头所描绘。帧B₁可以使用类型I、B₀的帧，帧B₂可以根据帧I、B₀和B₁等来预测。然后，当前帧与参考帧之间的距离根据编码器所做出的决定而变化。

存在其它GOP结构，该示例示出了参考与预测之间不同距离的帧之间可能的依赖关系，这极大地提高了译码效率。在上面的示例中，当场景中的运动不太快和不稳定并且没有场景切换时，B₃图片花费很少的比特，因为这些图片大部分是从相邻帧内插的。

关于图6，描述了基于人工神经网络的视频压缩方法的示例。此种视频压缩方法依赖于自编码器架构来编码不同的元素，并通过计算光流来解决帧间冗余的移除，该光流估计帧之间的密集运动流，即每个像素位置被分配不同的2d运动向量(水平和竖直)。

结合传统的基于块的帧间预测和残差编码，光流迄今未能以合理的复杂性示出优于先前描述的基于块的方法的益处。然而，最近使用自编码器对运动场进行编码的工作已经示出有希望的结果。

图6示出了在E.Agustsson.D.Minnen,N.Johnston,J.Ballé,S.J.Hwang,G.Toderici,CVPR 2020的“Scale-space flow for end-to-end optimized videocompression”中呈现的一般架构。左边的I帧块表示独立编码(帧内)的关键帧的编码。该块由自编码器组成，由卷积分析和合成模块组成，如针对基于ANN的图像压缩所开发的。在推断时，熵编码器(EC)和熵解码器(ED)用于算术移除冗余。

预测帧(P)按照右侧的过程进行编码。在编码器处，输入是当前帧x_cur和先前重建的参考帧两个图像均用于导出和编码运动信息。它们被连结为唯一的张量，该张量是运动流自编码器的输入(f_a,f_s)，该运动流自编码器产生重建的流/>后者用于将参考帧翘曲到当前帧上，因为解码器将仅访问重建的流。这产生了针对当前帧/>的预测因子。对应于/>的残差然后由(r_a,r_s)编码。重建的残差最终被添加到重建的预测中，以形成解码的图像/>

在图6中由[1 0 0…1 1]表示的比特流则由二进制码组成，该二进制码表示I帧的潜在表示，或者在预测帧的情况下表示运动场和残差的潜在表示。

在传统压缩中，编码器可在用于预测、变换、量化的模式列表中进行选择，以针对给定内容生成经优化比特流。在端到端压缩中，不存在编码模式的概念，并且期望在大多数情况下执行非线性变换编码的基于人工神经网络的编码器在其受训练的速率-失真约束下生成最佳可压缩潜在表示。

如上所述，模块的权重/参数在训练期间被学习并且然后被部署用于推断。这些方法的一个主要限制是经训练的模型需要能够处理所有类型的图像/视频。

根据本发明原理的一个方面，提供了一种用于使用自适应或参数化的神经网络解码器来压缩图像或视频的方法和装置。因此，建议使用可区分的辅助信息通道，以使用附加的(编码的)参数来使用于内容的编码潜像的解码器参数化。此种方案允许将模式的类似概念引入到端到端压缩。

端到端压缩依赖于所学习的分析和合成非线性变换，并且不提供任何适应性机制。这对于以多个比特率为目标是特别关注的，因为部署数百万参数的多个模型对于大多数视频应用是不实际的。已经提出了一些解决方案，如通过利用所学习的系数(按层)重新缩放中间特征映射或者学习每比特率的归一化层并且在运行中切换它们来调节变换。然而，这被限制于比特率目标确定的使用情况，并且可以仅影响特征映射缩放，对于改善压缩效率将具有有限的效果。

根据本发明原理，提供了用于对图像/视频进行编码/解码的方法和装置，以通过将附加的辅助信息与比特流一起发送以使解码器网络的部分(重新)参数化来改善端到端压缩。整体架构类似于其它现有的端到端压缩方法。

根据实施方案，在主自编码器的顶部上使用附加编码器/解码器网络来学习辅助信息，该辅助信息用于在对包括图像/视频编码数据的比特流进行解码时使解码器参数化。在主编码器的顶部上使用第二自编码器来学习所需的辅助信息允许改善压缩效率。这允许保持解码器具有合理的大小和复杂度，该大小和复杂度可以有效地压缩各种各样的内容。

让我们注意g_a()是分析变换(编码器)，g_s()是合成变换(解码器)，X是输入图像，Z是由编码器输出的潜像，Q是量化算子，是重建图像。使用基于神经网络的编码器和基于神经网络的解码器的端到端压缩可以被表示为：

-g_a(X)＝Z，对应于潜像生成(编码)

-对应于从量化潜像Q(Z)重建图像(解码)

在上述设置中，解码器是固定的，并且对每个输入应用相同的操作。

根据本发明原理，附加卷积/去卷积被添加到主自编码器。

根据实施方案，利用f_a()和f_s()两个分析和合成变换来学习附加网络，W是从附加编码器网络输出的辅助信息潜像，P是参数化算子。

根据实施方案，端到端压缩可以被表示为：

-g_a(X)＝Z，对应于包括图像/视频编码数据的主潜像

-f_a(Z)＝W，对应于辅助信息潜像

-对应于从量化潜像重建的辅助信息，

-对应于从量化潜像/>使用与重建的辅助信息/>适配的基于神经网络的解码器重建的图像/视频。

f_a、f_s可以是任何类型的兼容网络。这里，提出分别对f_a和f_s使用卷积/去卷积与最终的平坦化运算和添加到f_s的一些致密层(诸如完全连接的层)运算，以从特征图(2d)生成向量(1d)。也可以使用非线性和/或归一化运算(例如：ReLU、BatchNorm)来改善网络性能。

通过选择可微分的算子P，解码器现在可以在运行时针对每个编码内容被参数化。

图7示出了根据本发明原理的实施方案的基于人工神经网络的自编码器70的示例。

输入张量X(包括要编码的图像或视频)被馈送到基于神经网络的编码器71中。例如，编码器网络71是具有激活函数的一系列卷积层。

包括表示图像/视频的编码数据的第一潜像Z由编码器网络41输出。第一潜像Z然后被量化(未示出)和熵编码(EC,72)以生成用于存储或传输的二进制流(比特流)。

向第二基于神经网络的编码器75提供第一潜像作为输入以生成辅助信息，该辅助信息进一步用于在对第一潜像Z进行解码时使神经网络解码器适配。

从第二基于神经网络的编码器75输出第二潜像W。第二潜像被量化(未示出)和熵编码76以生成二进制流。第二潜像可在与第一潜像相同的比特流中进行编码，或者在单独的比特流中进行编码。

包括第一潜像和第二潜像的流被存储或传输到接收器。

一旦接收到，包括第一潜像的比特流被熵解码(ED,73)以获得Z的量化版本。

包括第二潜像的比特流被熵解码(ED,77)以获得W的量化版本。重建的第二潜像/>与熵解码的第一潜像/>一起作为输入提供给基于神经网络的解码器74。第二潜像/>包括允许使基于神经网络的解码器74适配的辅助信息。

解码器网络74生成图像/视频的重建

根据该实施方案，第一神经网络编码器71、第一神经网络解码器74和第二神经网络编码器75利用损失函数并使用例如通用数据集来联合训练。

图8示出了根据本发明原理的另一实施方案的基于人工神经网络的自编码器80的示例。附图标记81-87分别类似于图7中的附图标记71-77。在图8中描述的实施方案中，基于神经网络的解码器88被添加在辅助信息潜像的熵解码器87之后

根据该实施方案，第一神经网络编码器81、第一神经网络解码器84、第二神经网络编码器85和第二神经网络解码器88利用损失函数并使用例如通用数据集来联合训练。

也可以使用存在更为复杂的架构，例如可以向网络添加“超先验自编码器”(超先验)，以便联合地学习编码器输出的潜分布特性。

图9示出了根据本发明原理的另一实施方案的基于人工神经网络的自编码器的示例。根据该实施方案，从超先验网络生成辅助信息。

近年来，超先验网络已经非常成功地用于端到端压缩。附加的自编码器网络与主自编码器一起学习以预测参数分布函数的参数。例如，每个潜像元素可以利用从超先验解码器预测的参数(例如：用于高斯分布的均值/位置标度/标准)编码为高斯分布或拉普拉斯分布。

根据该实施方案，超先验网络被重新用于学习辅助信息。如图9所示，附图标记91-95、961、962分别类似于图7中的附图标记71-77。

向基于超先验神经网络的编码器95提供由编码器91输出的第一潜像Z作为输入，该编码器生成与第一潜像分布的学习参数对应的潜像Y和包括辅助信息的另一潜像W，该辅助信息进一步用于在对第一潜像Z进行解码时使神经网络解码器适配。对每个潜像W和Z进行熵编码(EC,960,961)。

在解码侧上，对潜像进行熵解码(ED,970,971)，并将其作为输入提供给超先验解码器98。超先验解码器98被修改为具有第二分支，该第二分支用于对解码器修改94所需要的辅助信息潜像进行解码。

超先验解码器98的第一分支将第一潜像Z分布的参数提供给熵解码器93以对用于第一潜像Z进行熵解码。

注意，提出这点是为了减小编码器的存储器和复杂度覆盖区。在一些使用中，使超先验和辅助信息网络两者单独操作可能是有意义的。

根据该实施方案，第一神经网络编码器91、第一神经网络解码器94、超先验神经网络编码器95和超先验神经网络解码器98利用损失函数并使用例如通用数据集来联合训练。

图10示出了根据本发明原理的实施方案的基于人工神经网络的解码器的适配的示例。基于人工神经网络的解码器可以是例如如图7至图9所示的解码器74、84、94。

根据变型，使第一解码器适配的可微算子P包括调制卷积。在该变型中，通过将第一解码器的至少一个卷积的权重乘以来自辅助信息向量的投影向量来修改该第一解码器的至少一个卷积。

例如，可以学习辅助信息解码器的至少一个致密层以将辅助信息潜像变换为可以应用于第一解码器的层以进行适配的向量。换句话说，根据第一解码器结构，辅助信息潜像被解码并被投影到向量。因此，投影向量包括k个向量，其中k是要适配的解码器的层数，k个向量中的每一个向量包括与解码器的对应层的权重相乘的权重。还可以添加一些归一化以防止权重溢出(例如：l2范数)。

图10示出了解码器的更新，其中解码器的每个层C0-C3被适配有来自辅助信息向量的对应向量。

根据另一变型，使第一解码器适配的可微算子P包括条件卷积滤波器。在该变型中，学习要适配的神经网络第一解码器的至少一个卷积，以不具有一组权重而是具有N组权重。

在推断期间，在解码器的每个可参数化层C0-C3处，将辅助信息向量投影为大小为N的向量，并且将该辅助信息向量针对每组权重激活/归一化为在范围[0,1]内(例如，利用SoftMax运算)。对于每个可参数化卷积，在推断期间，从乘以大小为N的向量的权重的训练集导出权重，并且对这些权重进行合计(求和)。然后通过在推断/运行时导出的这些权重来对特征映射进行卷积。

应当注意，并非解码器中的所有层都需要可参数化。在一些实施方案中，至少一个层被参数化。

根据另一实施方案，不需要参数化，并且如果网络已经被如此训练，则可以在没有参数化的情况下使用该网络。

在一些实施方案中，通过针对自编码器的所有块(例如，关键帧、流、残差等)具有相同类型的参数化，将本发明原理扩展到视频，如图6所示。根据该实施方案，与编码比特流一起编码的辅助信息可以应用于视频解码器的任何基于神经网络的部分，诸如例如图6的I帧块、流块或残差块。因此，根据该实施方案，从由编码器的基于神经网络的部分中的任一个部分(例如，图6中的g_a、f_a、r_a)提供的潜像生成辅助信息，并且该辅助信息用于使对应的基于神经网络的解码器(例如，图6中的g_s、f_s、r_s)适配。

图11示出了根据本发明原理的实施方案的用于对图像或视频进行编码的方法。操作开始于1101，其中向第一基于神经网络的编码器提供要编码的图像或视频。在1110处，从第一基于神经网络的编码器获得包括表示图像或视频的编码数据的至少一个第一潜像。在1120处，向第二神经网络编码器提供至少一个第一潜像。在1130处，从第二神经网络编码器获得一个第二潜像。该至少一个第二潜像包括辅助信息，以用于当第一基于神经网络的解码器对至少一个第一潜像进行解码以将输入图像或视频重建时，使第一基于神经网络的解码器适配。在1140处，对至少一个第一潜像和至少一个第二潜像进行熵编码以生成至少一个比特流。取决于实施方案，编码的图像或视频数据和辅助信息可以在同一比特流中或在单独的比特流中进行编码。

在变型中，基于从超先验网络解码器预测的参数对第一潜像进行熵编码。在进一步的变型中，第二基于神经网络的解码器对应于超先验网络解码器。因此，在该进一步的变型中，超先验网络解码器具有两个输出分支，一个分支提供对第一潜像的分布参数的预测，并且一个分支提供包括用于使第一基于神经网络的解码器适配的辅助信息的潜像。

图12示出了根据本发明原理的实施方案的用于对图像或视频进行解码的方法的示例。操作在1201处开始，其中获得例如从通信信道接收或从存储器检索的至少一个比特流。在1210处，从比特流对表示图像或视频的编码数据进行熵解码，从而提供第一潜像。在1220处，从比特流对辅助信息进行解码。辅助信息允许使第一基于神经网络的解码器适配。在1230处，向第一基于神经网络的解码器提供解码的辅助信息和包括熵解码的图像或视频的第一潜像作为输入。在1240处，当使用第一基于神经网络的解码器对第一潜像进行解码/变换时，使用辅助信息使第一基于神经网络的解码器适配。在1250处，从第一基于神经网络的解码器的输出获得重建的图像或视频。

根据变型，在1220处，从比特流将辅助信息解码为张量，该张量包括用于使基于神经网络的解码器适配的信息中的至少一个项目。在该变型中，在编码器侧上，例如使用基于神经网络的编码器以潜像对辅助信息进行编码/变换，并且使用算术编码器对该辅助信息进行熵编码。在解码器侧上，在1220处，从比特流对表示辅助信息的编码数据进行熵解码。

根据进一步的变型，在1220处，在熵解码之后，向第二基于神经网络的解码器提供包括表示辅助信息的数据的潜像作为输入。包括用于使第一基于神经网络的解码器适配的辅助信息的张量因此由第二基于神经网络的解码器输出。

在变型中，在1210处，对比特流进行熵解码以获得第一潜像包括使用从超先验网络解码器预测的参数。

在进一步的变型中，第二基于神经网络的解码器对应于超先验网络解码器。因此，向超先验网络解码器提供包括表示辅助信息的数据的潜像作为输入，并且由超先验网络解码器输出张量，该张量包括用于使第一基于神经网络的解码器适配的辅助信息。

图13示出了根据本发明原理的另一实施方案的用于对图像或视频进行编码的方法的示例。操作开始于1301，其中提供要编码的图像或视频作为输入。在1310处，使用第一神经网络编码器对表示图像或视频的数据进行编码，并且生成包括编码数据的比特流。在1320处，在比特流中对语法元素进行编码，该语法元素指示当从比特流对表示图像或视频的数据进行解码时是否应当使用第一基于神经网络的解码器的适配。换句话说，对于要编码的给定图像或视频，语法元素允许在图像或视频被解码和重建时打开或关闭用于使解码器适配的辅助信息的使用。

因此，当确定在对表示图像或视频的数据进行解码时应当使用第一基于神经网络的解码器的适配时，执行以上关于图7至图11描述的实施方案中的任一个实施方案以用于对图像/视频进行编码并且获得用于解码器的适配的辅助信息。

当确定在对表示图像或视频的数据进行解码时不使用第一基于神经网络的解码器的适配时，使用第一基于神经网络的编码器对图像/视频进行编码，例如，如关于图4、图6至图11或图12描述的，而没有辅助信息获得方面。

图14示出了根据本发明原理的另一实施方案的用于对图像或视频进行解码的方法的示例。操作开始于1401，其中从存储器接收或检索要解码的比特流，且将其作为输入提供。在1410处，从比特流对语法元素进行解码，该语法元素指示第一基于神经网络的解码器的适配是否用于对从比特流获得的至少一个潜像进行解码。

当语法元素指示使用适配时，执行上文关于图7至图10或图12描述的实施方案中的任一个实施方案以用于对在比特流中编码的图像/视频进行解码和重建，并且在从比特流对图像/视频进行解码和重建时获得用于解码器的适配的辅助信息。

图15示出了用于使用上述方法对图像或视频进行压缩、编码或解码的装置1500的一个实施方案。该装置包括处理器1510并且可通过至少一个端口互连到存储器1520。处理器1510和存储器1520两者还可具有与外部连接的一个或多个附加的互连。

处理器1510还被配置为在比特流中插入或接收信息，并且使用上述方法进行压缩、编码或解码。

语法

如上所述，在上述方法中，解码器对携带辅助信息的向量进行解析并解码，这驱动解码器的参数化。

语法元素可被添加到高级语法以开启/关闭重新参数化。如上所述，该方法可以被关闭，然后解码器对应于预先训练的基本模型。

还可添加语法结构或旗标集以指定重新参数化哪些层。这些元素可以在序列级(序列参数集)或图片级(图片参数集)设置。

图16示出了根据本发明原理的示例的通过通信网络进行通信的两个远程设备。

图17示出了根据本发明原理的示例的信号的语法。

根据本发明原理的示例，如图16所示，在经通信网络NET的两个远程设备A与B之间的传输上下文中，设备A包括与存储器RAM和ROM相关的处理器，其被配置为实现用于对图像或视频进行编码的方法，如使用上述方法所述，并且设备B包括与存储器RAM和ROM相关的处理器，其被配置为实现用于对图像或视频进行解码的方法，如使用上述方法所述。根据示例，网络是广播网络，适于将编码的辅助信息与编码的图像或视频一起从设备A广播/传输到包括设备B的解码设备。

旨在待由设备A传输的信号携带包括表示图像或视频和辅助信息的编码数据的至少一个比特流，如上面所解释。根据上述实施方案中的任一个实施方案，比特流可包括用于辅助信息的语法元素。

根据实施方案，该信号还可携带表示图像或视频的编码数据。图17示出了此种信号在通过基于分组的传输协议传输辅助信息时的语法的示例。每个已传输的分组P包括报头H和有效载荷PAYLOAD。根据实施方案，有效载荷PAYLOAD可包括以下元素中的至少一者：

-指示第一基于神经网络的解码器的参数化的使用的语法元素，该第一基于神经网络的解码器被配置用于对从比特流获得的至少一个潜像进行解码，

-指示第一基于神经网络的解码器的层在对表示图像或视频的编码数据进行解码时进行适配的至少一个语法元素。

根据实施方案，有效载荷包括编码数据，该编码数据表示根据上述实施方案中的任一个实施方案进行编码的图像或视频。

本文描述了各种方法，并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作，否则可修改或组合特定步骤和/或动作的顺序和/或用途。此外，术语诸如“第一”、“第二”等可用于各种实施方案以修改元件、分量、步骤、操作等，诸如“第一解码”和“第二解码”。除非具体要求，否则使用此类术语并不暗示对修改操作的排序。因此，在这个示例中，第一解码不需要在第二解码之前执行，并且可例如在第二解码之前、期间或在重叠的时间段中发生。

本申请案中所描述的各种方法及其他方面可以用于修改如图2和图3中所示出的视频编码器200及解码器300或如图4至图6中所示出的图像或视频自编码器40、基于神经网络的块的模块。此外，本发明方面不限于VVC或HEVC，并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外，否则本申请中所述的方面可单独或组合使用。

在本申请中使用各种数值。具体值是为了示例目的，并且所述方面不限于这些具体值。

各种具体实施参与解码。如本申请中所用，“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分，以便产生适于显示的最终输出。在各种实施方案中，此类过程包括通常由解码器执行的一个或多个过程，例如熵解码、逆量化、逆变换和差分解码。在各种实施方案中，此类过程还包括或另选地包括由本应用中所述的各种具体实施的解码器执行的过程。

作为进一步的示例，在一个实施方案中，“解码”仅是指熵解码，在另一个实施方案中，“解码”仅是指差分解码，并且在又另一个实施方案中，“解码”是指熵解码和差分解码的组合。短语“解码过程”旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的，并且被认为会被本领域的技术人员很好地理解。

各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式，如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中，此类过程包括通常由编码器执行的一个或多个过程，例如，分区、差分编码、变换、量化和熵编码。在各种实施方案中，此类过程还包括或另选地包括由本应用中所述的各种具体实施的编码器执行的过程。

作为进一步的示例，在一个实施方案中，“编码”仅是指熵编码，在另一个实施方案中，“编码”仅是指差分编码，并且在又一个实施方案中，“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。

注意，本文所用的语法元素是描述性术语。因此，它们不排除使用其他语法元素名称。

本公开已描述了例如可被传输或存储的各种信息，诸如例如语法。此信息能够以多种方式封装或布置，包括例如视频标准中常见的方式，诸如将信息放入SPS、PPS、NAL单元、标头(例如，NAL单元标头或切片标头)或SEI消息中。其他方式也是可用的，包括例如用于系统级或应用级标准的通用方式，诸如将信息放入以下中的一者或多者：

a.SDP(会话描述协议)，其为用于描述多媒体通信会话以用于会话通知和会话邀请的一种格式，例如，如在RFC中所述并与RTP(实时传输协议)传输结合使用。

b.DASH MPD(媒体展示描述)描述符，例如如在DASH中使用并且通过HTTP传输，一种与表示或表示的集合相关联以向内容表示提供附加的特性的描述符。

c.RTP标头扩展，例如，如在RTP流式传输期间使用。

d.ISO基础媒体文件格式，例如，如在OMAF中使用并且使用box，该box是由唯一类型标识符和长度定义的面向对象的构建块，在某些规范中也称为“atom”。

e.通过HTTP传输的HLS(HTTP实时流式传输)清单。例如，清单可与内容的版本或版本集合相关联，以提供版本或版本集合的特性。

当附图呈现为流程图时，应当理解，其还提供了对应装置的框图。类似地，当附图呈现为框图时，应当理解，其还提供了对应的方法/过程的流程图。

本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法讨论)，讨论的特征的具体实施也可以其他形式(例如，装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实现，该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型，意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此，短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。

另外，本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。

此外，本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如，从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。

另外，本申请可涉及“接收”各种信息。与“访问”一样，接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如，从存储器)中的一者或多者。此外，在诸如例如存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间，“接收”通常以一种方式或另一种方式参与。

应当理解，例如，在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下，使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或选择两个选项(A和B)。作为进一步的示例，在“A、B和/或C”和“A、B和C中的至少一者”的情况下，此类短语旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或仅选择第三列出的选项(C)，或仅选择第一列出的选项和第二列出的选项(A和B)，或仅选择第一列出的选项和第三列出的选项(A和C)，或仅选择第二列出的选项和第三列出的选项(B和C)，或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是，这可扩展到所列出的尽可能多的项目。

而且，如本文所用，词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。这样，在一个实施方案中，在编码器侧和解码器侧两者均使用相同的参数。因此，例如，编码器可将特定参数发射(显式信令)到解码器，使得解码器可使用相同的特定参数。相反，如果解码器已具有特定参数以及其他，则可在不发射(隐式信令)的情况下使用信令，以简单允许解码器知道和选择特定参数。通过避免传输任何实际功能，在各种实施方案中实现了比特节省。应当理解，信令可以各种方式实现。例如，在各种实施方案中，使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式，但是词语“signal(信号)”在本文也可用作名词。

对于本领域的普通技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。众所周知，信号可通过各种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

我们描述了多个实施方案。这些实施方案的特征可在各种权利要求类别和类型中单独地或以任何组合提供。此外，实施方案可包括以下特征、设备或方面中的一个或多个，单独地或以任何组合，跨各种权利要求类别和类型：

·对包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号进行创建和/或传输和/或接收和/或解码。

·根据所述实施方案中任一个实施方案所述的创建和/或传输和/或接收和/或解码。

·根据所述实施方案中任一个实施方案所述的方法、过程、装置、存储指令的介质、存储数据的介质或信号。

·根据所描述的实施方案中的任一个实施方案执行NN编码器的适配的电视机、机顶盒、移动电话、平板电脑或其他电子设备。

·根据所描述的实施方案中的任一个实施方案执行NN解码器的适配，并且(例如，使用监视器、屏幕或其他类型的显示器)显示所得的图像/视频的电视机、机顶盒、蜂窝电话、平板电脑或其他电子设备。

·选择(例如，使用调谐器)信道以接收包括编码图像的信号，并

且根据所描述的实施方案中的任一个实施方案执行NN解码器的适配的电视机、机顶盒、蜂窝电话、平板电脑或其他电子设备。

·通过空中接收(例如，使用天线)包括编码图像/视频的信号，并

Claims

1.一种方法，所述方法包括：

从比特流对用于使第一基于神经网络的解码器适配的辅助信息进行解码，

向所述第一基于神经网络的解码器提供所述解码辅助信息和表示从所述比特流或单独比特流获得的图像或视频的编码数据作为输入；以及

从所述第一基于神经网络的解码器的输出获得重建的图像或视频。

2.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于：

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中所述解码辅助信息是包括用于使所述基于神经网络的解码器适配的信息中的至少一个项目的张量。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的装置，其中对所述比特流进行解码包括对所述比特流进行熵解码。

5.根据权利要求3至4中任一项所述的方法或根据权利要求3至4中任一项所述的装置，其中对辅助信息进行解码包括从第二基于神经网络的解码器的输出获得所述张量。

6.根据权利要求3至5中任一项所述的方法，所述方法还包括根据权利要求3至5中任一项所述的装置，其中所述一个或多个处理器还被配置用于使所述第一基于神经网络的解码器适配，其中适配包括将所述第一基于神经网络的解码器的至少一个层的至少一个权重与所述张量中的至少一个项目相乘。

7.根据权利要求3至6中任一项所述的方法，所述方法还包括根据权利要求3至6中任一项所述的装置，其中所述一个或多个处理器还被配置用于使所述第一基于神经网络的解码器适配，其中使所述第一基于神经网络的解码器适配包括利用至少一个潜像执行至少一个条件卷积，所述至少一个潜像包括表示从所述比特流和所述张量获得的图像或视频的所述编码数据。

8.根据权利要求1或3至7中任一项所述的方法或根据权利要求2至7中任一项所述的装置，其中所述第一基于神经网络的解码器是以下中的一者：

帧内编码帧解码器，

运动流解码器；和

残差解码器。

9.根据权利要求1或3至8中任一项所述的方法，所述方法还包括，或根据权利要求2至8中任一项所述的装置，其中所述一个或多个处理器还被配置用于：

通过使用从超先验网络解码器预测的参数对所述比特流进行熵解码，来获得包括表示图像或视频的所述编码数据的至少一个潜像。

10.根据权利要求9所述的方法或装置，其中使用所述超先验网络解码器从所述比特流获得用于使所述第一基于神经网络的解码器适配的辅助信息。

11.一种方法，所述方法包括：

从第一神经网络编码器获得包括表示图像或视频的编码数据的至少一个第一潜像，

向第二神经网络编码器提供所述至少一个第一潜像，

从所述第二神经网络编码器获得至少一个第二潜像，所述至少一个第二潜像包括用于在对所述至少一个第一潜像进行解码时使第一基于神经网络的解码器适配的辅助信息；以及

生成至少一个比特流，所述至少一个比特流包括所述至少一个第一潜像和所述至少一个第二潜像。

12.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于：

向第二神经网络编码器提供所述至少一个第一潜像，

13.根据权利要求11所述的方法或根据权利要求12所述的装置，其中所述第一神经网络编码器、所述第一神经网络编码器、所述第二神经网络编码器联合训练。

14.根据权利要求13所述的方法或装置，其中用于在熵解码之后从所述至少一个第二潜像获得解码辅助信息的第二神经网络解码器与所述第一神经网络编码器、所述第一神经网络编码器、所述第二神经网络编码器联合训练。

15.一种方法，所述方法包括对比特流进行解码，所述比特流包括表示图像或视频的编码数据，其中对所述比特流进行解码包括：

从所述比特流对语法元素进行解码，所述语法元素指示第一基于神经网络的解码器的适配是否用于对从所述比特流获得的至少一个潜像进行解码。

16.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于对比特流进行解码，所述比特流包括表示图像或视频的编码数据，其中对所述比特流进行解码包括：

17.根据权利要求15所述的方法或根据权利要求16所述的装置，其中响应于确定所述语法元素指示使用所述第一基于神经网络的解码器的适配，对所述比特流进行解码包括：

对用于使第一基于神经网络的解码器适配的辅助信息进行解码，向所述第一基于神经网络的解码器提供所述解码辅助信息和所述至少一个潜像作为输入；以及

18.一种方法，所述方法包括在比特流中对图像或视频进行编码，其中对所述图像或所述视频进行编码包括：

使用第一神经网络编码器在所述比特流中对表示所述图像或所述视频的数据进行编码；以及

在所述比特流中对语法元素进行编码，所述语法元素指示第一基于神经网络的解码器的适配是否用于从所述比特流对表示所述图像或所述视频的所述数据进行解码。

19.一种装置，所述装置包括一个或多个处理器，所述一个或多个处理器被配置用于在比特流中对图像或视频进行编码，其中对所述图像或所述视频进行编码包括：

20.根据权利要求18所述的方法或根据权利要求19所述的装置，其中响应于确定所述第一基于神经网络的解码器的适配用于对表示所述图像或所述视频的所述数据进行解码，所述方法还包括，或所述一个或多个处理器还被配置用于：

从所述第一神经网络编码器获得包括表示所述图像或所述视频的所述编码数据的至少一个第一潜像，

向第二神经网络编码器提供所述至少一个第一潜像，

从所述第二神经网络编码器获得至少一个第二潜像，所述至少一个第二潜像包括用于在对所述至少一个第一潜像进行解码时使所述第一基于神经网络的解码器适配的辅助信息；以及

在所述比特流或单独比特流中对所述至少一个第二潜像进行编码。

21.一种比特流，所述比特流包括表示图像或视频的编码数据和用于使第一基于神经网络的解码器适配的辅助信息。

22.一种比特流，所述比特流包括表示图像或视频的编码数据和指示使用第一基于神经网络的解码器的参数化的至少一个语法元素，所述第一基于神经网络的解码器被配置用于对从所述比特流获得的至少一个潜像进行解码。

23.根据权利要求1、3至11、13至15或17至18、20中任一项所述的方法，或根据权利要求2至10、12至14或16至17、19至20中任一项所述的装置，或根据权利要求21至22中任一项所述的比特流，其中所述比特流包括至少一个语法元素，所述至少一个语法元素指示所述第一基于神经网络的解码器的层在对表示所述图像或所述视频的所述编码数据进行解码时进行适配。

24.一种计算机可读介质，所述计算机可读介质包括根据权利要求21至23中任一项所述的比特流。

25.一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的指令，所述指令用于致使一个或多个处理器执行根据权利要求1、3至11、13至15、17至18或20中任一项所述的方法。

26.一种计算机程序产品，所述计算机程序产品包括指令，当所述程序由一个或多个处理器执行时，所述指令致使所述一个或多个处理器执行根据权利要求1、3至11、13至15、17至18或20中任一项所述的方法。

27.一种设备，所述设备包括：

根据权利要求2至10或16至17或19至20中任一项所述的装置；以及

以下各项中的至少一者：(i)天线，所述天线被配置为接收信号，所述信号包括根据权利要求21至23中任一项所述的比特流；(ii)频带限制器，所述频带限制器被配置为将所接收的信号限制为包括根据权利要求21至23中任一项所述的比特流的频带；或(iii)显示器，所述显示器被配置为显示所述重建的图像或视频。

28.根据权利要求27所述的设备，所述设备包括电视机、蜂窝电话、平板电脑或机顶盒。

29.一种装置，所述装置包括：

访问单元，所述访问单元被配置为访问数据，所述数据包括根据权利要求21至23中任一项所述的比特流的信号；

发射器，所述发射器被配置为传输所访问的数据。

30.一种方法，所述方法包括：访问包括根据权利要求21至23中任一项所述的比特流的数据，以及传输所访问的数据。