CN115834905B

CN115834905B - 帧间预测的方法、装置、电子设备及介质

Info

Publication number: CN115834905B
Application number: CN202310089995.2A
Authority: CN
Inventors: 马思伟; 林凯; 贾川民; 王苫社; 冯亚楠; 周效军; 李琳
Original assignee: Peking University; MIGU Culture Technology Co Ltd
Current assignee: Peking University; MIGU Culture Technology Co Ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-04-11
Anticipated expiration: 2043-02-09
Also published as: CN115834905A

Abstract

本申请公开了一种帧间预测的方法、装置、电子设备及介质。本申请中，将参考帧输入到预设的第一时序学习模型中，推理一段时间内时空域的变化规律，并依据此导出初始预测信号；获取参考帧与待编码帧的高维特征，并将高维特征与初始预测信号融合到预设的第二时序学习模型中，得到扩展运动信息；基于扩展运动信息，对初始预测信号调整和增强。通过应用本申请的技术方案，可以实现一种利用第一时序学习模型提取用于表征若干个相邻的参考帧在时空域的变化规律的时域转换特征，导出内在运动信息，并利用第二序学习模型，学习扩展运动信息并以此得到预测帧。从而达到避免相关技术中出现的，采用固有的运动信息进行帧间预测会导致帧间预测的效果不佳的问题。

Description

帧间预测的方法、装置、电子设备及介质

技术领域

本申请中涉及图像数据处理技术，尤其是一种帧间预测的方法、装置、电子设备及介质。

背景技术

深度学习在传统计算机视觉任务上不断取得突破。结合深度神经网络与非线性激活函数，端到端图像编码算法在编码效率上已经超越最先进的传统图像标准VVC。除了空域相关性，视频具有更加复杂的时域相关性，需要引入帧间预测模块来去除时域冗余。其中，帧间预测主要包含运动表示、运动估计和运动补偿等部分组成。

其中，现有的图像压缩方法往往采用遵循亮度恒定假设的像素级的光流作为运动信息，结合反向映射（Backward Warping）进行运动补偿。然而，这样的方式在复杂编码场景下会导致帧间预测的效果不佳的问题。

发明内容

本申请实施例提供一种帧间预测的方法、装置、电子设备及介质。用以解决相关技术中存在的，采用固有的运动信息进行帧间预测会导致帧间预测的效果不佳的问题。

其中，根据本申请实施例的一个方面，提供的一种帧间预测的方法，包括：

将参考帧输入到预设的第一时序学习模型中，得到初始预测信号；

获取所述参考帧与待编码帧的高维特征，并将所述高维特征与所述初始预测信号输入到预设的第二时序学习模型中，得到扩展运动信息；

基于所述扩展运动信息，对所述初始预测信号进行帧间调整增强，得到预测帧。

可选地，在基于本申请上述方法的另一个实施例中，所述获取所述参考帧与待编码帧的高维特征，包括：

将所述参考帧与所述待编码帧转换为输入向量；

将所述输入向量输入到编码器中，提取所述输入向量的所述高维特征，所述高维特征用于反映所述参考帧的颜色、纹理、形状以及空间关系。

可选地，在基于本申请上述方法的另一个实施例中，在所述将所述输入向量输入到编码器中，提取所述输入向量的所述高维特征之后，还包括：

将所述高维特征进行量化，得到量化特征；

将所述量化特征输入到解码器中进行解析，得到解析后的高维特征；

将所述解析后的高维特征与所述时域转换特征输入到预设的第二时序学习模型中，得到所述扩展运动信息。

可选地，在基于本申请上述方法的另一个实施例中，所述将参考帧输入到预设的第一时序学习模型中，得到所述参考帧对应的初始预测信号，包括：

将所述参考帧输入到所述第一时序学习模型中，得到用于反映所述参考帧的内在运动信息的时域转换特征；

基于所述时域转换特征，得到所述待编码帧对应的初始预测信号。

可选地，在基于本申请上述方法的另一个实施例中，在所述基于所述扩展运动信息，得到所述待编码帧的预测帧之后，还包括：

计算得到所述待编码帧对应的原始像素与所述预测帧对应的预测像素之间的残差像素；

利用所述残差像素，对图像帧进行压缩。

其中，根据本申请实施例的又一个方面，提供的一种帧间预测的装置，其特征在于，包括：

输入模块，被配置为将参考帧输入到预设的第一时序学习模型中，得到初始预测信号；

输出模块，被配置为获取所述参考帧与待编码帧的高维特征，并将所述高维特征与所述初始预测信号输入到预设的第二时序学习模型中，得到扩展运动信息；

生成模块，被配置为基于所述扩展运动信息，对所述初始预测信号进行帧间调整增强，得到预测帧。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

显示器，用于与所述存储器以执行所述可执行指令从而完成上述任一所述帧间预测的方法的操作。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述帧间预测的方法的操作。

本申请中，将参考帧输入到预设的第一时序学习模型中，推理一段时间内时空域的变化规律，并依据此导出初始预测信号；获取参考帧与待编码帧的高维特征，并将高维特征与初始预测信号融合到预设的第二时序学习模型中，得到扩展运动信息；基于扩展运动信息，对初始预测信号调整和增强。通过应用本申请的技术方案，可以实现一种利用第一时序学习模型提取用于表征若干个相邻的参考帧在时空域的变化规律的时域转换特征，导出内在运动信息，并利用第二序学习模型，学习扩展运动信息并以此得到预测帧。从而达到避免相关技术中出现的，采用固有的运动信息进行帧间预测会导致帧间预测的效果不佳的问题。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1示出了本申请一实施例所提供的一种帧间预测的方法示意图；

图2示出了本申请一实施例所提供的一种帧间预测的整体架构示意图；

图3示出了本申请一实施例所提供的一种帧间预测的方法的流程示意图；

图4示出了本申请一实施例所提供的一种电子装置的结构示意图；

图5示出了本申请一实施例所提供的一种电子设备的结构示意图；

图6示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应的随之改变。

下面结合图1-图3来描述根据本申请示例性实施方式的用于进行帧间预测的方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

本申请还提出一种帧间预测的方法、装置、电子设备及介质。

图1示意性地示出了根据本申请实施方式的一种帧间预测的方法的流程示意图。如图1所示，该方法包括：

S101，将参考帧输入到预设的第一时序学习模型中，得到初始预测信号。

S102，获取参考帧与待编码帧的高维特征，并将高维特征与初始预测信号输入到预设的第二时序学习模型中，得到扩展运动信息。

S103，基于扩展运动信息，对初始预测信号进行帧间调整增强，得到预测帧。

一种方式中，现有的端到端视频压缩方法往往采用像素级的光流作为运动表示形式，结合反向映射（Backward Warping）进行运动补偿。然而，光流遵循亮度恒定假设，无法高效处理复杂编码场景下的不确定性。

基于上述存在的问题，本申请提出一种帧间预测的方法，其思想为利用时序学习模型提取用于表征若干个相邻的参考帧在时空域的变化规律的时域转换特征，并利用序学习模型得到模型内部沿时域维度传递的隐式状态作为运动信息表示。从而用于实现从参考帧到编码帧的高效时域预测。

一种方式中，本申请实施例中的时序学习模型可以为长短期记忆网络（LongShort-Term Memory，LSTM）。

如图2所示，为了避免达到避免相关技术中出现的，采用固有的运动信息进行帧间预测会导致帧间预测的效果不佳的问题。本申请实施例中在进行帧间预测的过程中，得到运动信息的方式从利用时序模型内部传导的隐藏状态来得到，具体可以分解为内在运动信息和扩展运动信息两部分。

其中，对于内在运动信息来说，本申请实施例可以从连续的已解码图像（即参考帧）中推导得到用于反映参考帧的内在运动信息的时域转换特征，即将参考帧输入到预设的第一时序学习模型中，以得到用于感知连续的参考帧之间时空域的变化规律的时域转换特征。

进一步的，本申请实施例还提出了扩展运动信息作为补偿。其以边信息的形式在码流中传递，以保证编解码端的共享。对内在运动信息与扩展运动信息这两种形式，使用LSTM进行相同的运动表示以及运动补偿方法。

对于扩展运动信息的获取，本申请实施例可以将参考帧和待编码帧作为编码模块的输入。其中，编码器负责从输入向量中提取相应的高维特征（高维特征用于反映参考帧的颜色、纹理、形状以及空间关系），量化之后传递到解码器部分。

进一步的，解码器从码流中解析得到高维特征后，为了使当前扩展运动信息的获取过程能够考虑到参考帧对应的时域转换特征，同时尽可能减少获取扩展运动信息所需要的码率，本申请实施例将S101中得到的初始预测信号同样输入到解码器中。以使解码器将解析后的高维特征与该时域转换特征共同输入到预设的第二时序学习模型中，从而得到该扩展运动信息。以使后续根据该扩展运动信息，得到待编码帧的预测帧。

进一步的，本申请实施例还可以利用原始像素与帧间预测相减得到残差像素，残差像素可以基于端到端图像编码方法进行压缩。整个网络框架基于率失真代价进行端到端的优化，损失函数如下公式所示：。

其中，码率包含两部分，分别用来传输扩展运动信息和残差像素。和分别表示原始像素和重构像素，用于度量两者的失真。

将所述参考帧与所述待编码帧转换为输入向量；

将所述高维特征进行量化，得到量化特征；

利用所述残差像素，对图像帧进行压缩。

一种方式中，本申请实施例利用已解码图像作为时域参考帧参与时序学习模型的迭代过程，感知时域连续变化的若干参考帧在时空域的变化规律的时域转换特征，隐式推导内在的状态张量，作为运动信息的表示。

进一步的，相邻近的若干个参考帧通过时域传递的隐式状态张量，可以完成从参考帧到当前编码帧的时域转换，即为运动补偿过程。另外，由于考虑到仅依赖从时域参考帧中的推演无法准确建模运动变化，本申请进一步提出扩展运动信息作为时域转换特征的补充，其以边信息的形式在码流中传递。

本申请实现了一种高效的端到端视频压缩方法中的帧间预测过程。突破了固有的采用光流的亮度恒定假设问题，运动信息可以由模型内部自适应隐式推导，实现紧凑的运动信息表征。同时，本申请不依赖于反向映射等非硬件友好操作，仅通过常见的卷积、激活函数等操作就可以部署实现。

进一步而言，本申请结合图3，对方案进行具体步骤说明：

步骤1、将参考帧输入到预设的第一时序学习模型中，根据输出的参考帧在一段时间内时空域的变化规律（即内在运动信息），得到初始预测信号。

步骤2、将参考帧与待编码帧转换为输入向量。

步骤3、将输入向量输入到编码器中，提取输入向量的高维特征。

其中，高维特征用于反映参考帧的颜色、纹理、形状以及空间关系。

步骤4、将高维特征进行量化，得到量化特征。

步骤5、将量化特征输入到解码器中进行解析，得到解析后的高维特征。

步骤6、将解析后的高维特征与初始预测信号输入到预设的第二时序学习模型中，得到扩展运动信息。

步骤7、利用扩展运动信息，对初始预测信号在特征域进行调整和增强，通过特征复原后转换到像素空间，得到待编码帧的预测帧。

步骤8、计算得到待编码帧对应的原始像素与预测帧对应的预测像素之间的残差像素。

步骤9、利用残差像素，对图像帧进行压缩。

可选的，在本申请的另外一种实施方式中，如图4所示，本申请还提供一种帧间预测的装置。其中包括：

输入模块201，被配置为将参考帧输入到预设的第一时序学习模型中，得到初始预测信号；

输出模块202，被配置为获取所述参考帧与待编码帧的高维特征，并将所述高维特征与所述初始预测信号输入到预设的第二时序学习模型中，得到扩展运动信息；

生成模块203，被配置为基于所述扩展运动信息，对所述初始预测信号进行帧间调整增强，得到预测帧。

在本申请的另外一种实施方式中，输出模块202，被配置执行的步骤包括：

将所述参考帧与所述待编码帧转换为输入向量；

将所述高维特征进行量化，得到量化特征；

利用所述残差像素，对图像帧进行压缩。

本申请实施方式还提供一种电子设备，以执行上述帧间预测的方法。请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示，电子设备3包括：处理器300，存储器301，总线302和通信接口303，所述处理器300、通信接口303和存储器301通过总线302连接；所述存储器301中存储有可在所述处理器300上运行的计算机程序，所述处理器300运行所述计算机程序时执行本申请前述任一实施方式所提供的帧间预测的方法。

其中，存储器301可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatilememory），例如至少一个磁盘存储器。通过至少一个通信接口303（可以是有线或者无线）实现该装置网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器301用于存储程序，所述处理器300在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述帧间预测的方法可以应用于处理器300中，或者由处理器300实现。

处理器300可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器，包括处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301，处理器300读取存储器301中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的帧间预测的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的帧间预测的方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘40，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的帧间预测的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的帧间预测的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。

更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种帧间预测的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取所述参考帧与待编码帧的高维特征，包括：

将所述参考帧与所述待编码帧转换为输入向量；

3.如权利要求2所述的方法，其特征在于，在所述将所述输入向量输入到编码器中，提取所述输入向量的所述高维特征之后，还包括：

将所述高维特征进行量化，得到量化特征；

将所述解析后的高维特征与时域转换特征输入到预设的第二时序学习模型中，得到所述扩展运动信息。

4.如权利要求1所述的方法，其特征在于，所述将参考帧输入到预设的第一时序学习模型中，得到所述参考帧对应的初始预测信号，包括：

5.如权利要求1所述的方法，其特征在于，在所述基于所述扩展运动信息，得到所述待编码帧的预测帧之后，还包括：

利用所述残差像素，对图像帧进行压缩。

6.一种帧间预测的装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及，

处理器，用于执行所述可执行指令从而完成权利要求1-5中任一所述帧间预测的方法的操作。

8.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被处理器执行时执行权利要求1-5中任一所述帧间预测的方法的操作。