CN118014019A

CN118014019A - 熵约束神经视频表示

Info

Publication number: CN118014019A
Application number: CN202311488466.6A
Authority: CN
Inventors: R·G·D·A·阿泽维多; C·M·P·V·戈梅斯; C·R·施罗尔斯
Original assignee: Eidgenoessische Technische Hochschule Zurich ETHZ; Disney Enterprises Inc
Current assignee: Eidgenoessische Technische Hochschule Zurich ETHZ; Disney Enterprises Inc
Priority date: 2022-11-10
Filing date: 2023-11-09
Publication date: 2024-05-10

Abstract

一种包括神经网络(NN)的系统，其具有矩阵扩展块，配置用于构建输入序列的矩阵表示；分量合并块，配置用于将矩阵表示与网格合并；编码器，配置用于接收分量合并块的输出；卷积级，配置用于使用编码器的输出生成与输入序列相对应的输出的多分量表示；以及卷积放大级，配置用于使用输出的多分量表示生成与输入序列相对应的输出序列。一种由系统使用的方法，其包括接收输入序列，对输入序列建模以生成输入序列的神经网络表示，压缩神经网络表示以生成压缩的神经网络表示，以及从压缩的神经网络表示生成与输入序列相对应的压缩的输出序列。

Description

熵约束神经视频表示

相关申请

本申请要求2022年11月10日提交的美国临时专利申请序列号No.63/424，427的利益和优先权，该申请题为“基于熵约束卷积的神经视频表示”，现通过引用将其完全并入本申请。

技术领域

本申请涉及神经视频表示领域，具体地，涉及一种包括神经网络(NN)的系统和一种用于包括硬件处理器和神经网络(NN)的系统的方法。

背景技术

视频压缩是一个长期存在的难题，激发了大量研究。视频压缩的主要目标是用最少的存储需求来表示数字视频，同时将质量损失降到最低。尽管传统视频编解码器在过去几十年中取得了许多进步，但深度学习的出现激发了基于神经网络的方法，使新形式的视频处理成为可能。

然而，对于有损视频压缩任务而言，传统技术通常仍然优于现有的神经视频表示(NVR)方法。造成这种表现差距的原因是，目前的NVR方法：i)使用的架构不能有效地获得时间和空间输入坐标的紧凑表示；ii)通过首先在视频上过度拟合网络，然后使用启发式技术(如后训练量化或权重剪枝)来压缩模型，从而最大限度地分别降低速率和失真。

发明内容

本申请公开了生成熵约束神经视频表示的系统和方法，解决并克服了传统技术中的不足。本发明解决上述技术问题的技术方案如下：

一种系统，其包括：

矩阵扩展块，其用于构建输入序列的矩阵表示；

分量合并块，其用于将矩阵表示与网格合并；

编码器，其用于接收分量合并块的输出；

卷积级，其配置为使用编码器的输出，生成对应于输入序列的输出的多分量表示；以及

卷积放大级，其配置为使用输出的多分量表示，生成对应于输入序列的输出序列。

一种用于包括硬件处理器和神经网络(NN)的系统的方法，所述方法包括：

由硬件处理器控制的NN接收输入序列；

由硬件处理器控制的NN对输入序列进行建模，以生成输入序列的神经网络表示；

由硬件处理器控制的NN压缩输入序列的神经网络表示，以生成输入序列的压缩的神经网络表示；以及

由硬件处理器控制的NN从压缩的神经网络表示中生成与输入序列相对应的压缩的输出序列。

由硬件处理器控制的NN接收视频序列的帧索引；

由硬件处理器控制的NN构建视频序列的矩阵表示；

由硬件处理器控制的NN将矩阵表示与固定坐标网格合并，以提供空间-时间数据结构；

由硬件处理器控制的NN使用NN的第一卷积神经网络(CNN)和空间-时间数据结构，生成对应于视频序列的输出的空间-时间表示；以及

由硬件处理器控制的NN对输出的时空表示进行放大并使用NN的第二CNN，以生成与视频序列相对应的输出序列。

附图说明

图1显示了根据示例性实施方案生成熵约束神经视频表示的系统示意图；

图2显示了神经网络的一部分示意图，该图描述了根据一种实施方式进行基于隐式神经表示(INR-based)的视频压缩的本方法。

图3描述了根据一种实施方案，使用上文参照图2所述方法进行的前向和后向传递；

图4显示了根据一个实施方案的示例性神经网络架构图，该架构用于实现本申请所公开的熵约束神经视频表示解决方案；

图5显示了流程图，概述了根据一种示例性实施方案生成熵约束神经视频表示的示例性方法；以及

图6显示了流程图，概述了根据另一个示例性实施方案生成基于熵约束卷积神经视频表示的示例性方法。

具体实施方式

以下描述包含了与本公开中的实施方案有关的具体信息。本领域的技术人员会认识到，本公开内容的实施方式可能与本文具体讨论的方式不同。本申请中的附图及其附带的详细说明仅针对示例性实施方案。除非另有说明，图中的相同或相应元件可以用相同或相应的附图标记表示。此外，本申请中的附图和图例基本不按比例绘制，也不旨在与实际相对尺寸相对应。

如上所述，视频压缩是一个长期存在的难题，激发了大量研究。视频压缩的主要目标是以最小的存储需求量来表示数字视频(通常包括一系列帧，每个帧由二维(2D)像素阵列表示，颜色为RGB或YUV)，同时尽量减少质量损失。尽管传统视频编解码器在过去几十年中取得了许多进步，但深度学习的出现激发了基于神经网络的方法，使新形式的视频处理成为可能。

然而，如上文所述，对于有损视频压缩任务而言，传统技术通常仍然优于现有的神经视频表示(NVR)方法。造成这种表现差距的原因是，目前的NVR方法：i)使用的架构不能有效地获得时间和空间输入坐标的紧凑表示；ii)通过首先在视频上过度拟合网络，然后使用启发式技术(如后训练量化或权重剪枝)来压缩模型，从而最大限度地分别降低速率和失真。

本应用程序采用一种创新方法来解决视频压缩问题，即用神经网络来表示视频。这样的神经网络就可以进行有损压缩，并以最小的感知质量损失重建视频。此外，本应用还提供了一种新颖的基于卷积的神经网络架构来表示视频，对该表示的熵进行正式建模，并将表示的压缩定义为速率-失真(R-D)问题，可在训练网络的同时对该问题进行优化。这种新架构可加快编码(即训练)和解码时间，同时为视频表示和压缩提供统一的解决方案。此外，本申请所公开的熵约束神经视频表示方案可以有利地作为基本自动化的系统和方法来实施。

需要注意的是，在本应用中，术语“自动化”、“自动的”、“使自动”和“自动地”指的是不需要人类系统操作员参与的系统和流程。虽然在某些实施方案中，系统操作员或管理员可以根据本文所述的自动化方法，检查甚至调整自动化系统的性能，但这种人工参与是可选的。因此，本申请中描述的方法可以在所公开的处理分量的自动化系统硬件的控制下执行。

正如本应用中所定义的，表述“神经网络”(以下简称“NN”)是指一种数学模型，用于根据从数据样本或“训练数据”中学到的模式预测未来。例如，可以训练NN来执行图像处理、自然语言理解(NLU)和其他推理数据处理任务。各种学习算法可用于映射输入数据和输出数据之间的相关性。这些相关性构成了数学模型，可用于对新输入数据进行未来预测。在深度学习的背景中，“深度神经网络”指的是在输入层和输出层之间使用多个隐藏层的NN，它可以根据原始数据中未明确定义的特征进行学习。在本申请中，被识别为NN的特征指的是深度神经网络。

图1显示了根据一种实施方案的生成熵约束视频表示的示例性系统100。如图1所示，系统100包括计算平台102，该计算平台具有硬件处理器104和实施为计算机可读非暂时性存储介质的系统存储器106。根据本示例实施方案，系统存储器106存储NN110。

如图1进一步所示，系统100在使用环境中实施，该使用环境包括通信网络108、包括显示屏122在内的用户系统120以及用户系统120的用户124。此外，图1还包括输入序列112以及系统100使用NN110生成的输出序列116，输入序列112的形式可以是例如系统100接收到的视频序列，视频序列包括实际的视频帧或视频序列的帧索引，帧索引通过帧编号标识视频帧。图1中还显示了通信网络108的网络通信链路118，用于交互连接系统100和用户系统120。

尽管为了概念上的清晰，本申请提及的NN110存储在系统存储器106中，但更一般地说，系统存储器106可以是任何计算机可读非暂时性存储介质的形式。本应用中使用的“计算机可读非暂时性存储介质”这一表述指的是任何介质，不包括向计算平台102的硬件处理器104提供指令的载波或其他暂时性信号。因此，计算机可读非暂时性存储介质可对应于各种类型的介质，例如易失性介质和非易失性介质。易失性介质可包括动态存储器，如动态随机存取存储器(动态RAM)，而非易失性存储器可包括光学、磁性或静电存储设备。计算机可读非暂时性存储介质的常见形式包括例如DVD等光盘、RAM、可编程只读存储器(PROM)、可擦除PROM(EPROM)和闪存。

尽管图1将存储NN110的系统存储器106描绘成位于单个计算平台102上，但提供这种表示也只是为了帮助厘清概念。更一般地说，系统100可以包括一个或多个计算平台102，例如计算机服务器，这些平台可以位于同一地点，也可以形成交互链接但分布式的系统，例如基于云的系统。因此，硬件处理器104和系统存储器106可对应于系统100中的分布式处理器和存储资源。因此，在某些实施方案中，下文将参照图4更详细地显示和描述NN 110的分量，这些分量可彼此远程存储在系统100的分布式存储资源上。

硬件处理器104可包括多个硬件处理单元，例如一个或多个中央处理单元、一个或多个图形处理单元、一个或多个张量处理单元、一个或多个现场可编程门阵列(FPGA)、用于机器学习训练或推理的定制硬件，以及应用编程接口(API)服务器等。作为定义，本申请中使用的术语“中央处理器”(CPU)、“图形处理器”(GPU)和“张量处理单元”(TPU)具有本领域的常规含义。也就是说，CPU包括用于执行计算平台102算术和逻辑运算的算术逻辑单元(ALU)，以及用于从系统存储器106中检索程序的控制单元(CU)，而GPU则可以通过执行计算密集型图形或其他处理任务来减少CPU的处理负担。TPU是一种专用集成电路(ASIC)，配置专门用于机器学习等人工智能流程。

在某些实施方案中，计算平台102可对应于一个或多个可通过分组交换网络(例如互联网)访问的网络服务器。或者，计算平台102可以对应于支持广域网(WAN)、局域网(LAN)的一台或多台计算机服务器，或者包含在另一种类型的专用或有限分配网络中。附加地或替代地，在某些实施方案中，系统100还可以使用局域广播方法，例如用户数据报协议(UDP)或蓝牙。此外，在某些实施方案中，系统100可以虚拟地实施，例如在数据中心中。例如，在某些实施方案中，系统100可以实施为软件或虚拟机。此外，在某些实施方案中，通信网络108可以是适用于高性能计算(HPC)的高速网络，例如10GigE网络或Infiniband网络。

需要进一步指出的是，虽然图1中用户系统120显示为台式计算机，但这只是举例说明。在其他实施方案中，用户系统120可以采用任何合适的移动的或固定的计算设备或系统的形式，这些设备或系统具有足够的数据处理能力，可以提供用户界面，支持与通信网络108的连接，并实现本文赋予用户系统120的功能。也就是说，在其他实施方案中，用户系统120可以采用笔记本电脑、平板电脑或智能手机等形式。另外，在某些实施方案中，用户系统120可以是系统100的“哑终端”外围设备。在这些实施方案中，显示器122可以由计算平台102的硬件处理器104控制。

还需注意的是，用户系统120的显示屏122可以采用液晶显示屏(LCD)、发光二极管(LED)显示屏、有机发光二极管(OLED)显示屏、量子点(QD)显示屏或其他执行信号到光的物理转换的任何合适的显示屏形式。此外，显示屏122可以与用户系统120物理集成，也可以与用户系统120通信连接但与用户系统120物理分离。例如，当用户系统120作为智能手机、笔记本电脑或平板电脑使用时，显示屏122通常与用户系统120集成在一起。相比之下，如果用户系统120是作为台式计算机来实现的，那么显示器122可以采用与用户系统120(以计算机塔的形式)分离的屏幕形式。

图2显示了NN 210的一部分示意图，该图描述了根据一种实施方式进行基于隐式神经表示(INR-based)的视频压缩的本方法。需要注意的是，NN 210与图1中的NN 110大致对应，这些对应的特征可以共享本公开所赋予任一对应特征的任何属性。

综上所述，利用神经表示压缩视频的问题最初可以从压缩任何一般信号的角度来解决。图2所示的实现方法旨在使用隐式神经表示法紧凑地表示信号其中上标I表示输入坐标的维度，下标O表示信号s的维度。信号s的隐式神经表示是根据信号s的一组样本S生成的，其中/>并且包括输入坐标x_i和目标值y_i。使用由参数化的隐式神经表示/>来近似信号s，将任意坐标x作为输入，并生成目标值y的近似值。信号s的恢复可通过密集采样f_θ来实现，从而有效地将信号s存储在参数θ中。

为了实现紧凑性，上述过程可被视为速率-失真(R-D)问题。在R-D问题中，目标是找到使量D+λR最小化的参数θ，其中，R表示存储参数θ的成本，D表示f_θ与信号s之间的失真，并且λ确定两者之间的权衡。该量D+λR可作为信号s的替代物，并通过梯度下降法在数据集S上最小化。λ数值越大，在优化中R的权重就越大，从而使信号s的表示更加紧凑，但代价可能是增加一些失真。λ数值越小，会产生相反效果。

因此，根据图2中描述的示例性实施方式，隐式神经表示被用于拟合输入序列212。在训练过程中，上述失真度量D与隐式表示视频的神经网络权重熵一起被最小化。对输入序列212进行建模，生成输入序列212的神经网络表示226，然后使用熵编码227对其进行压缩，生成输入序列212的压缩神经网络表示228。需要注意的是，输入序列212与图1中的输入序列112大致对应，这些对应的特征可以共享本公开所赋予任一对应特征的任何属性。

需要进一步指出的是，失真度量D可以定义为任何能够捕捉信号s的失真度的合理度量，并希望对其进行优化。R被定义为编码在参数θ中的信息量，如上所述，表示存储参数θ的成本。根据香农源编码定理，R可以表示为：

-log₂p(θ) (式1)

p为所有权重的集合的概率。这也可以解释为熵编码参数所占比特数的严格下限。在训练结束时，可以使用任何形式的熵编码对权重进行编码，从而获得接近这一下限的信号的紧凑表示。要利用香农源编码定理，必须使用离散的神经网络权重的集。不过，为了优化，使用了连续权重。

为了使用连续权重实现香农源编码定理，可以定义量化函数Q_y(具有可学习参数γ)，将连续权重映射为离散符号，以及定义去量化函数将符号映射为各自量化区间中心的值。需要注意的是，实现离散化(即量化)神经网络权重的连续值表示的一种方法是创建量化区间，将连续值映射到量化区间中。使用量化区间的一个简单例子是将位于(X-0.5，X+0.5)之间的值映射为整数X。例如，连续值序列(1.2，1.34，5.6，2.67)可以映射为(1，1，6，3)，这些是离散值，可以进行熵编码。需要进一步指出，/>并不是Q的精确的倒数，因此，除非x的值正好是量化区间的中心之一，否则在恢复x中操作/>会产生误差。

对连续参数θ进行优化，利用符号进行速率计算，利用带有量化误差的权重/>与神经网络进行前向传递，获得信号的近似值。此外，作出简化假设，即/>是由无记忆源产生的符号，其连续输出在统计上是独立的。因此，优化问题变成了：

其中，是/>的概率质量函数(pmf)，可以很容易地计算出来。为了优化这种损失，该过程通过学习能够适当表示信号s的参数θ，以及提供足够小的量化误差的γ，使失真最小化。Q_γ(θ)的分布的熵也应足够小，以尽量减少R-D性能的速率项。

在上述过程中可能会识别两个引入的误差源。第一个是在利用f_θ近似信号s时引入的误差，可以通过增加用于模型s的参数的数量或更好地选择隐式神经表示的架构等方法将该误差降至最低。第二个误差源是由Q_γ引入的量化误差，可以通过适当移动量化区间的中心或使用更多宽度更小的区间来尽量减小该误差，但会增加分布熵的成本。

为了定义函数Q_γ，使用了标量量化，将整数作为离散的符号集，并定义Q_γ为仿射变换，分别带有缩放和偏移参数Q_γ和β，然后取整为最接近的整数：

自然定义为：

神经网络的每一层都是单独量化的，都有自己的参数s和φ，这些参数本身也是通过学习获得的。这样就可以在一定程度上改变不同参数的量化程度，同时又不会在必须存储的缩放和偏移参数数量上产生过大的负担。

这个过程的一个问题是取整操作的不可微分性。解决这一问题的方法主要有两种。第一种方法是用与量化区间相同大小的均匀噪声代替取整操作。这经常被用来替代量化。第二种是在计算取整操作的梯度时使用直通估计器(Straight Through Estimator)(STE)，这在本领域是众所周知的。这两种方法被定义为两个函数，Q_noise和Q_ste。由于使用Q_ste计算失真度而避免了随机噪声的引入，而且利用Q_noise以计算熵项，因此取得了良好的效果。

给定对神经网络中所有权重进行编码的最小比特长度可按照如下计算：

其中

这种方法的问题在于不可微分的运算符使用梯度下降法训练网络时，需要使用权重离散分布的可微分的近似值。为了提供这种可微分的近似值，可以通过将用Q_noise代替Q从而用微分熵来代替离散速率项。然后寻找参数化函数p_φ，以近似受均匀噪声/>扰动的参数的概率密度函数。

这一近似值的参数可与隐式神经表示的参数共同拟合，使用的损失函数与上述式2相同。由于只有R-D性能的速率项的梯度会影响该模型，因此关注该速率项。此外，为了更好地近似基本分布，可以用标准均匀密度对近似值p_φ进行卷积。

给定p_φ，根据式7的定义，完全损失为：

其中γ收集各层的所有α和β。左项使用量化权重计算数据集的失真度D，而量化权重是使用各层的α和β计算得出的。右项估计最小比特长度，该最小比特长度用于使用p_φ编码近似量化的参数。该速率项除以像素总数，使λ与视频的分辨率和帧数无关。

图3显示了图300，其中描述了根据一种实施方法，使用上文参考图2所述的量化感知训练和熵-惩罚损失方法进行的前向和后向传递。在前向传递(1)中，给定输入坐标X和带有量化误差的权重，计算失真度量。为了计算(2)处的速率项，量化被均匀噪声所取代。在后向传递(3)中，梯度流回熵模型参数和各层的量化参数。在(4)中，直通估计器(STE)被用来近似量化操作的梯度。

图4显示了NN410的示例架构，该架构配置为实现本应用所公开的熵约束神经视频表示方案。如图4所示，NN410可包括矩阵扩展块442，矩阵扩展块442配置为构建时间输入序列t(以下称输入序列412)的矩阵表示(显示为归一化帧索引)；分量合并块444，配置为将矩阵表示与网格(可以是固定坐标网格)合并；以及编码器446a和446b，在图4中显示为位置编码器(PE)446a和446b，配置为分别接收分量合并块444和输入序列412的输出。关于上文提到的“归一化帧索引”特征，需要指出的是，帧索引(未归一化)通常是整数(例如，帧索引＝0、帧索引＝1、帧索引＝15等)。归一化版本可以只是将帧索引整数转换为连续范围，如0到1(0.0-1.0)。例如，如果一个视频序列有三百个帧，归一化帧索引＝0相当于帧索引＝0，归一化帧索引＝0.5相当于帧索引＝150，归一化帧索引＝1相当于帧索引＝299。

NN 410还包括卷积级448，其配置为使用编码器446a的输出生成与输入序列412相对应的输出的多分量表示450，以及卷积放大级460，其配置为使用输出的多分量表示450生成与输入序列412相对应的输出序列416。如图4所示，NN 410的卷积放大级460包括多个放大块462，每个放大块由自适应实例归一化(AdaIN)模块464和多层感知器(MLP)466组成。

输入序列412和NN 410基本分别对应图1和图2中的输入序列112/212和NN 110/210。因此，输入序列112/212和NN 110/210可以共享本公开内容赋予各自输入序列412和NN410的任何特性，反之亦然。因此，虽然图1和图2中未显示，但NN 110/210可包括分别对应于矩阵扩展块442、分量合并块444、编码器446a和446b、卷积级448(配置为生成多分量表示450)和卷积放大级460的特征。

此外，图4中的输出序列416与图1中的输出序列116大致对应。因此，输出序列116可以共享本公开内容赋予输出序列416的任何特性，反之亦然。需要注意的是，在某些实施方案中，输入序列112/212/412和输出序列116/416可以是或包括视频序列。

参考图4，可以进一步注意到，由矩阵扩展块442生成的输入序列412的矩阵表示可以采用输入序列412的神经网络表示形式。然后，输入序列412的神经网络表示被卷积级448压缩，生成多分量表示450，这可以是输入序列412的压缩神经网络表示。也就是说，与输入序列412的矩阵表示相比，多分量表示450是经过压缩的。在某些实施方案中，与输入序列相对应的输出的多分量表示450是或包括输出的空间-时间表示，这可能是有利的或理想的。因此，在这些实施方案中，配置用于生成多分量表示450的卷积级448可以是或包括空间-时间卷积级。

不过，在其他实施方案中，多分量表示450可包括一个或多个立体坐标或光场坐标，并可称为输出的多视图表示。举例来说，本方法的一个扩展适用于所表示的视频为多视角视频的使用情况，这意味着输入序列可能包括额外的N-D空间索引。例如，在三维立体视频使用案例中，左眼透视和右眼透视视频的输入分别为(0，t)和(1，t)。在光场使用案例中，每个时间“t”都有二维图像阵列，这样神经网络的输入就是(u，v，t)，代表时间t的角度位置(u，v)。

关于产生NN 140/440新颖和创新的架构的熵约束神经视频表示的方法，注意到，就计算效率和R-D性能而言，基于帧的隐式神经表示比基于像素的表示具有显著优势。然而，传统的基于帧的隐式神经表示完全依赖于全连接层，以便从标量时间输入中生成时间-空间特征，这导致参数的使用效率低下。

根据图4所示的示例性实施方案，本发明的新颖和创新的解决方案利用将时间输入融合或合并到其中的坐标网格，来提供有助于神经网络学习过程的位置信息，以及利用卷积层对传统架构进行了修改。总之，输入序列412可以是归一化为[0；1]范围内的帧索引，可以作为输入接收，而全分辨率帧则作为输出序列416提供。将归一化的帧索引作为输入，扩展块442构建矩阵其中每个元素都被设置为t。在分量合并块444中，将所构建的矩阵与固定的坐标网格/>进行串级或以其他方式合并，对于分辨率为WxH的目标视频，其中/>以及/>然后，使用PE 446a和446b对结果张量的每个元素进行位置编码，接着应用两个卷积层，卷积层例如可能包括3x3卷积核和160个通道。这样就生成了传递给卷积放大级460的时间-空间特征张量，用式8表示为：

γ(x)＝(sin(1.25⁰πx)，cos(1.25⁰πx)，...，sin(1.25^L-1πx)，cos(1.25^L-1πx))

在传统的“视频神经表示”(NeRV)中，卷积放大级460是由一系列放大块组成，每个块包括一个卷积层和一个PixelShuffle模块。不过，如上所述，卷积放大级460的每个放大块462在每个块的起始处进一步包括AdaIN模块464。此外，对于每个放大块462，还有小型MLP 466，用于处理时间输入坐标，为每个AdaIN模块生成输入。虽然这意味着NN 410技术上包含非卷积层，但这些MLP只占模型参数总数的很小一部分(在最小的模型中≈2％，在最大的模型中≈0.6％)。为了便于比较，我们采用NeRV中使用的损耗(如下式9所示)作为损耗的失真成分。这是L1和结构相似性指数(SSIM)的结合，其中x为原始帧，x′为网络输出。

D(x，x′)＝0.7×||x-x′||₁+0.3×(1-SSIM(xx′)) (式9)

图1和图4显示了包括NN 110/410在内的系统100的功能，下面将参考图5和图6对其进行进一步描述。图5显示了流程图580，概述了根据一个示例性实施方案生成熵约束神经视频表示的示例性方法，图6显示了流程图690，概述了根据另一个示例性实施方案生成基于卷积的熵约束神经视频表示的示例性方法。关于图5和图6中概述的方法，需要注意的是，流程图580和690中省略了某些细节和特征，以免影响对本申请中的发明特征的讨论。

结合图1和图2参阅图5，流程图580包括接收输入序列112/212(操作581)。如上所述，在某些实施方案中，输入序列112/212可以采用视频序列或视频序列帧索引的形式。如图1所示，系统100可通过通信网络108和网络通信链路118从用户系统120接收输入序列112/212。在操作581中，输入序列112/212由NN 110/210接收，NN 110/210由系统100的硬件处理器104控制。

结合图1和图2继续参考图5，流程图580进一步包括对输入序列112/212建模，以生成输入序列112/212的神经网络表示226(操作582)。在操作582中，输入序列112/212的神经网络表示226可由NN 110/210生成，NN 110/210由系统100的硬件处理器104控制，具体方式如上文参考图2所述。

结合图1和图2继续参考图5，流程图580进一步包括压缩输入序列112/212的神经网络表示226，以生成压缩的输入序列112/212的神经网络表示228(操作583)。如上文参考图2所述，输入序列的神经网络表示226可以使用熵编码227进行压缩。对输入序列112/212的神经网络表示226进行压缩，以生成输入序列112/212的压缩神经网络表示，可由NN 110/210执行，NN 110/210由系统100的硬件处理器104控制，参照上文图2、图3和图4所述的方式。

参阅图4以及图1、图2和图5，在某些实施方案中，NN 110/210/410可包括一个或多个CNN。在其中一些实施方案中，压缩输入序列112的神经网络表示以生成输入序列的压缩的神经网络表示可由一个或多个CNN的第一CNN(即卷积级448)执行。

结合图1和图2继续参考图5，流程图580还包括从输入序列112/212的压缩的神经网络表示228生成与输入序列112/212相对应的输出序列116(操作584)。需要注意的是，输出序列116是相对于输入序列112/212的压缩的输出序列。此外，如上所述，在某些实施方案中，输入序列112/212和输出序列116可以是或包括视频序列。在操作584中，可由NN 110/210以上述参考图2、图3和图4的方式，从输入序列112/212的压缩的神经网络表示228生成输出序列116，NN 110/210由系统100的硬件处理器104控制。参照图4，在NN 410包括一个或多个CNN的某些实施方案中，可由一个或多个CNN中的第二个CNN(即卷积放大级460)执行从输入序列的压缩的神经网络表示生成输出序列。

参阅图6以及图1和图4，流程图690所概述的方法包括接收视频序列帧索引形式的输入序列112/412(操作691)。如图1所示，系统100可通过通信网络108和网络通信链路118从用户系统120接收输入序列112/412。在操作691中，输入序列112/412由NN 110/410接收，NN 110/410由系统100的硬件处理器104控制。

结合图1和图4继续参考图6，流程图690进一步包括构建视频序列的矩阵表示(操作692)。在操作692中，视频序列的矩阵表示可由NN 110/410使用矩阵扩展块442以上述参考图4的方式构建，NN 110/410由系统100的硬件处理器104控制。

结合图1和图4继续参考图6，流程图690进一步包括将视频序列的矩阵表示(即时间序列)与固定空间坐标网格合并，以提供空间-时间数据结构，其中输入序列与固定空间坐标网格连接(操作693)。操作693可由NN 110/410执行，NN 110/410由系统100的硬件处理器104控制，并使用分量合并块444，执行方式如上文参考图4所述。

结合图1和图4继续参考图6，流程图690可以进一步包括对操作693(操作694)中提供的空间-时间数据结构进行位置编码。操作694可由NN 110/410执行，NN 110/410由系统100的硬件处理器104控制，并按照上文参考图4所述的方式使用PE 446a。

继续结合图1和图4参考图6，流程图690进一步包括使用NN 110/410的第一CNN(即卷积块448)和操作693中提供的空间-时间数据结构，生成与视频序列对应的输出的多坐标表示450，作为该输出的空间-时间表示(操作695)。值得注意的是，与操作693中提供的空间-时间数据结构相比，操作695中生成的空间-时间表示是压缩的。需要进一步指出的是，在操作695中生成的空间-时间表示可以使用熵编码进行压缩。操作695可由NN 110/410执行，NN 110/410由系统100的硬件处理器104控制，执行方式如上文参考图4所述。

继续结合图1和图4参阅图6，流程图690进一步包括使用NN 110/410的第二CNN(即卷积上标块460)对操作695中生成的输出的空间-时间表示进行放大，以生成与视频序列116/416相对应的输出序列，其中帧索引作为输入序列112/412在操作691中被接收(操作696)。需要注意的是，在操作696中产生的输出序列116/416是压缩的视频序列，相对于在操作691中作为输入序列112/412接收帧索引的视频序列而言。在操作696中，输出序列116/416可以由NN 110/410生成，NN 110/410由系统100的硬件处理器104控制，其方式如上文参考图4所述。

关于流程图580和690所概述的方法，需要注意的是，操作581、582、583和584，和/或操作691、692、693、695和696，或操作691、692、693、694、695和696，可以在基本自动化的流程中执行，其中可以省略人工参与。

因此，本申请公开了生成熵约束神经视频表示的系统和方法，解决并克服了传统技术中的不足。本应用中公开的用于神经视频表示的全卷积架构可加快训练(编码)和解码速度，在参数数量与以前的神经视频表示解决方案相同的情况下，可获得更高的图像质量。此外，以往使用神经视频表示的视频压缩解决方案将压缩神经表示的问题作为单独的过程，该过程使用启发式技术，如训练后量化或权重剪枝。通过本公开的端到端训练程序，所有学习到的量化参数都得到了优化，无需进行后期训练操作。

本熵约束神经视频表示解决方案通过为神经视频表示引入一种新颖、创新的紧凑型卷积架构，推进了最先进技术的发展，其表示能力比NeRV更强，编码和解码速度比加速神经视频表示(E-NeRV)更快。此外，本文公开的熵约束神经视频表示解决方案通过权重熵建模和使用量化感知训练，将隐式神经表示的信号压缩正式定义为R-D问题，从而使端到端训练成为可能，无需使用剪枝等后训练技术。

从上述描述中可以看出，可以使用各种技术来实现本申请中描述的概念，而不会偏离这些概念的范围。此外，虽然在描述这些概念时具体参考了某些实施方案，但本领域的一般技术人员会认识到，在不偏离这些概念范围的情况下，可以在形式和细节上做出改变。因此，所述实施方案在所有方面均应视为说明性的，而非限制性的。还应理解的是，本申请并不局限于本文所述的特定实施方案，在不脱离本公开的范围内，可以进行许多重新安排、修改和替换。

Claims

1.一种系统，其包括：

矩阵扩展块，其用于构建输入序列的矩阵表示；

分量合并块，其用于将矩阵表示与网格合并；

编码器，其用于接收分量合并块的输出；

2.根据权利要求1所述的系统，其中与输入序列的矩阵表示相比，对应于输入序列的输出的多分量表示被压缩。

3.根据权利要求1所述的系统，其中输入序列和输出序列包括视频序列。

4.根据权利要求1所述的系统，其中网格包括固定的坐标网格。

5.根据权利要求1所述的系统，其中编码器包括位置编码器。

6.根据权利要求1所述的系统，其中卷积级包括空间-时间卷积级。

7.根据权利要求1所述的系统，其中对应于输入序列的输出的多分量表示包括输出的空间-时间表示。

8.根据权利要求1所述的系统，其中对应于输入序列的输出的多分量表示包括多视图表示。

9.根据权利要求1所述的系统，其中卷积放大级包括多个放大块，每个放大块都包含自适应实例归一化(AdaIN)模块。

10.根据权利要求9所述的系统，其中多个放大块中的每个进一步包括多层感知器。

11.一种用于包括硬件处理器和神经网络(NN)的系统的方法，所述方法包括：

由硬件处理器控制的NN接收输入序列；

12.根据权利要求11所述的方法，其中输入序列和输出序列包括视频序列。

13.根据权利要求12所述的方法，其中输入序列的神经网络表示使用熵编码进行压缩。

14.根据权利要求11所述的方法，其中所述NN包括一个或多个卷积神经网络(CNN)。

15.根据权利要求14所述的方法，其中压缩输入序列的神经网络表示以生成输入序列的压缩的神经网络表示是由一个或多个CNN中的第一CNN执行的。

16.根据权利要求15所述的方法，其中由一个或多个CNN中的第二CNN从压缩的神经网络表示生成与输入序列相对应的压缩的输出序列。

17.一种用于包括硬件处理器和神经网络(NN)的系统的方法，所述方法包括：

由硬件处理器控制的NN接收视频序列的帧索引；

由硬件处理器控制的NN构建视频序列的矩阵表示；

18.根据权利要求17所述的方法，其中与空间-时间数据结构相比，与视频序列相对应的输出的空间-时间表示被压缩。

19.根据权利要求18所述的方法，其中对应于视频序列的输出的空间-时间表示使用熵编码进行压缩。

20.根据权利要求17所述的方法，其还包括：

在使用第一CNN和时空数据结构生成与视频序列相对应的输出的空间-时间表示之前，由硬件处理器控制的NN对空间-时间数据结构进行位置编码。