CN117750020A

CN117750020A - 可学习视频编码方法、系统、设备及存储介质

Info

Publication number: CN117750020A
Application number: CN202311760229.0A
Authority: CN
Inventors: 李礼; 盛锡华; 刘�东; 李厚强
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-22

Abstract

本发明公开了一种可学习视频编码方法、系统、设备及存储介质，将当前待编码帧与参考帧分别进行空间分解，得到低频结构部分和高频细节部分，分别对视频的低频结构部分和高频细节部分进行运动估计，经过空间分解，两帧(即当前待编码帧与参考帧)的低频结构的运动包含了原本两帧更为一致的运动，局部区域的运动差异减小，而两帧的高频细节部分的运动包含了原本不一致性运动的残差，并且对参考特征也进行空间分解，得到参考特征的低频结构部分和高频细节部分；通过先进行空间分解再进行运动估计，可以更准确估计出运动矢量，从而更好的进行后续编码工作，以提升编码性能。

Description

可学习视频编码方法、系统、设备及存储介质

技术领域

本发明涉及视频编码技术领域，尤其涉及一种可学习视频编码方法、系统、设备及存储介质。

背景技术

视频作为一种多媒体数据形式，在广播电视、手机直播、道路监控、智慧城市等领域被广泛应用。对于一个分辨率为1080p、每秒30帧的视频，其数据量可以达到每秒180Mbytes(兆字节)。庞大的数据量，造成了巨大的视频的传输与存储代价。因此，在传输与存储前，通常需要压缩视频的大小，将视频编码为更紧凑的码流，以减小其传输与存储代价。

传统视频编码标准，如H.264/AVC、H.265/HEVC、H.266/VVC，大都采用基于块的混合编码框架，包含基于块的运动预测、运动补偿、变换、量化、熵编码等模块。尽管传统视频编码标准已取得了巨大的成功，但其编码性能也陷入瓶颈，想要取得更大的编码性能也愈加困难。近年来，基于神经网络的可学习视频编码方法开启了一个新的方向，为取得更大的编码性能带来了希望。可学习的视频编码方法利用神经网络实现了传统混合编码框架中的各个编码模块，利用率失真(RDO)函数，联合训练所有编码模块。

已有的可学习条件编码方法主要可以分为两类，包括基于残差编码的方法和基于条件编码的方法。

这两类方法的共同点在于都需要运动预测和运动补偿。运动预测通常将当前待编码帧和参考帧送入运动估计网络，例如光流网络，得到当前帧和参考帧之间运动的矢量，例如光流(包含了当前帧的每个像素的运动矢量)。预测得到的运动矢量需要经过编码解码，在可学习的视频编码方法中，常用自编码器实现运动矢量的编码和解码，运动编码器将预测的运动矢量压缩为码流，运动解码器将码流解码为重建的运动矢量。运动补偿指得到重建的运动矢量后，需要利用参考帧，得到当前待编码帧的预测。

这两类方法的主要区别在于：经运动预测、运动补偿后，残差编码方法(Lu,G.,Ouyang,W.,Xu,D.,Zhang,X.,Cai,C.,&Gao,Z.(2019).Dvc:An end-to-end deep videocompression framework.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(pp.11006-11015).)将当前待编码视频帧和预测帧相减得到残差，以减少时域冗余，然后用另一个自编码器的编码网络编码残差，得到残差的隐变量，隐变量再经熵编码得到码流。在解码器中，熵解码器将码流重新解码为残差的隐变量，自编码器的解码网络将隐变量解码为残差后再加上预测帧，得到重建帧。除了像素域的残差编码，Hu等人(Hu,Z.,Lu,G.,&Xu,D.(2021).FVC:A new framework towards deepvideo compression in feature space.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(pp.1502-1511).)还提出了特征域的残差编码，先对原始待编码视频帧和参考帧提取深度特征，然后在特征域进行运动预测和运动补偿，然后编码当前帧的深度特征和预测帧的深度特征的残差。

对于条件的编码方法，Li(Li,J.,Li,B.,&Lu,Y.(2021).Deep contextual videocompression[DCVC].Advances in Neural Information Processing Systems,34,18114-18125.)等人提出了DCVC可学习视频编码方法，在该方法中，得到预测帧后，将预测帧送入神经网络提取深度特征，作为上下文特征，和待编码帧一起送入(常见的方式为在通道维度级联concatenate)自编码器的编码网络中，不显式地计算残差，而是让编码网络自动地学习减少时域冗余，编码网络将输入帧编码为隐变量，再利用熵编码器，将隐变量无损地编码为码流。在解码端，熵解码器将码流无损地解码为隐变量，自编码器的解码网络将隐变量解码为重建帧。在解码网络获得重建帧前，再把上下文特征送入(常见的方式为在通道维度级联concatenate)解码网络中。Sheng等人(Sheng,X.,Li,J.,Li,B.,Li,L.,Liu,D.,&Lu,Y.(2022).Temporal context mining for learned video compression.IEEETransactions on Multimedia.)在DCVC的基础上还提出DCVC-TCM可学习视频编码方法，该方法提出了特征域的运动补偿，将获得上一帧的重建帧之前的解码网络的中间特征作为编码下一帧的参考特征，利用重建光流对参考特征进行特征域的运动补偿，得到预测特征，然后从预测特征提取多尺度的上下文特征。在编码网络编码和解码网络解码的过程中，将多尺度的上下文特征以条件编码的方式送入编码网络和解码网络中，以此利用时域相关性，减小时域冗余。Li等人(Li,J.,Li,B.,&Lu,Y.(2022,October).Hybrid spatial-temporalentropy modelling for neural video compression.In Proceedings of the 30th ACMInternational Conference on Multimedia(pp.1503-1511)，提出了DCVC-HEM可学习视频编码方法，该方法沿用了DCVC-TCM的特征域运动补偿和多尺度上下文特征的技术，并在此基础上进一步加入了混合时空熵模型。Li等人(Li,J.,Li,B.,&Lu,Y.(2023).Neural videocompression with diverse contexts.In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(pp.22616-22626).)在DCVC-HEM的基础上进一步提出了DCVC-DC可学习视频编码方法，该方法提出了基于四叉树划分的混合时空域熵模型，大幅提升了可学习视频编码方法的编码性能，让其编码性能超越了传统视频编码标准H.266/VVC的参考软件。

上述方案中，DCVC-DC可学习视频编码方法与本发明最为相关，但是，它的缺陷在于：在视频帧中，不同的运动物体往往具有不同的运动方式(例如非均匀运动、旋转、放缩)，导致视频帧的不同区域的运动往往是不一致的，例如，一个局部区域可能同时包含着前景和背景物体，它们的运动可能是不同的，区域内物体的运动不一致特性给运动估计带来了巨大挑战。但是，DCVC-DC可学习视频编码方法，没有显式区分具有不一致运动的物体，对于一些具有不一致运动物体的区域，反倒会减小不同物体的运动的不一致性，无法准确地估计运动，进而制约了编码性能。

发明内容

本发明的目的是提供一种可学习视频编码方法、系统、设备及存储介质，可以实现更准确的帧间预测，有效提高了视频编码的性能。

本发明的目的是通过以下技术方案实现的：

一种可学习视频编码方法，包括：

步骤1、对当前待编码帧和参考帧分别进行空间分解，并进行运动估计，获得低频结构的运动矢量和高频细节的运动矢量；

步骤2、对低频结构的运动矢量和高频细节的运动矢量联合编码与联合解码；

步骤3、将当前待编码帧的参考特征进行空间分解，并使用联合解码获得的重建低频结构运动矢量和高频细节运动矢量，分别相应对空间分解获得的参考特征的低频结构部分和高频细节部分做运动补偿，再通过特征融合得到多尺度时域上下文特征；

步骤4、结合多尺度时域上下文特征对当前待编码帧进行编码与解码；

步骤5、对步骤4输出的解码特征进行变换，获得当前待编码帧的重建帧，以及用于下一待编码帧的参考特征。

一种可学习视频编码系统，包括可学习视频编码模型，通过可学习视频编码模型进行视频编码，所述可学习视频编码模型包括：

基于结构与细节分解的运动估计模块，用于对当前待编码帧和参考帧分别进行空间分解，并进行运动估计，获得低频结构的运动矢量和高频细节的运动矢量；

基于结构与细节分解的运动矢量编码网络，用于对低频结构的运动矢量和高频细节的运动矢量联合编码与联合解码；

基于结构与细节分解的时域上下文挖掘模块，用于将当前待编码帧的参考特征进行空间分解，并使用联合解码获得的重建低频结构运动矢量和高频细节运动矢量，分别相应对空间分解获得的参考特征的低频结构部分和高频细节部分做运动补偿，再通过特征融合得到多尺度时域上下文特征；

上下文编码网络，用于结合多尺度时域上下文特征对当前待编码帧进行编码与解码；

帧生成器，用于对上下文解码器输出的解码特征进行变换，获得当前待编码帧的重建帧，以及用于下一待编码帧的参考特征。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，将当前待编码帧与参考帧分别进行空间分解，得到低频结构部分和高频细节部分，分别对视频的低频结构部分和高频细节部分进行运动估计，经过空间分解，两帧(即当前待编码帧与参考帧)的低频结构的运动包含了原本两帧更为一致的运动，局部区域的运动差异减小，而两帧的高频细节部分的运动包含了原本不一致性运动的残差，并且对参考特征也进行空间分解，得到参考特征的低频结构部分和高频细节部分；通过先进行空间分解再进行运动估计，可以更准确估计出运动矢量，通过对分解后的低频结构和高频细节分别进行运动补偿，可以预测出更准确的时域上下文特征，从而减少时域冗余，以提升编码性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种可学习视频编码方法的示意图；

图2为本发明实施例提供的一种可学习视频编码方法的模型架构示意图；

图3为本发明实施例提供的空间分解示意图；

图4为本发明实施例提供的基于空间分解的运动估计和运动压缩示意图；

图5为本发明实施例提供的基于空间分解的运动补偿示意图；

图6为本发明实施例提供的第一种主观质量对比结果示意图；

图7为本发明实施例提供的第二种主观质量对比结果示意图；

图8为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种可学习视频编码方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种可学习视频编码方法，如图1所示，其主要包括如下步骤：

步骤1、对当前待编码帧和参考帧分别进行空间分解，并进行运动估计，获得低频结构的运动矢量和高频细节的运动矢量。

本步骤中：对当前待编码帧x_t和参考帧分别进行空间分解，获得当前待编码帧与参考帧的低频的结构部分/>以及高频的细节部分/>其中，s为低频的结构部分的标识，d为高频的细节部分标识，t为视频帧序号；对低频的结构部分/>高频的细节部分/>分别进行运动估计，获得低频结构的运动矢量/>以及高频细节的运动矢量/>

本领域技术人员可以理解，低频结构通常指的是对图像进行低通滤波后得到的图像，高频细节通常指的是对图像进行高通滤波后得到的图像。

示例性的，可以对图像依次通过下采样与上采样获得低频结构，再由图像减去低频结构，得到高频细节。

步骤2、对低频结构的运动矢量和高频细节的运动矢量联合编码与联合解码。

本步骤中：联合低频结构的运动矢量和高频细节的运动矢量/>量化为隐变量[m_t]；对隐变量[m_t]进行概率分布参数的估计，根据估计的概率分布参数将隐变量[m_t]无损熵编码为运动矢量码流；结合概率分布参数，将运动矢量码流无损熵解码为隐变量[m_t]，再将隐变量[m_t]联合解码为重建的低频结构运动矢量/>和高频细节运动矢量/>

步骤3、将当前待编码帧的参考特征进行空间分解，并使用联合解码获得的重建低频结构运动矢量和高频细节运动矢量，分别相应对空间分解获得的参考特征的低频结构部分和高频细节部分做运动补偿，再通过特征融合得到多尺度时域上下文特征。

本步骤中：将当前待编码帧的参考特征进行空间分解，获得参考特征的低频结构部分/>和高频细节部分/>利用重建的低频结构运动矢量/>对参考特征的低频结构部分/>进行补偿，获得低频结构部分的多尺度上下文特征/>与/>利用重建的高频细节运动矢量/>对参考特征的高频细节部分/>进行补偿，获得高频细节部分的多尺度上下文特征/>与/>其中，0、1、2为三个尺度的标识，标识的数值越大，尺度越小；将低频结构部分的多尺度上下文特征/>与/>与高频细节部分的多尺度上下文特征/>与/>对应的融合，获得多尺度时域上下文特征/>与/>

步骤4、结合多尺度时域上下文特征对当前待编码帧进行编码与解码。

本步骤中：在多尺度时域上下文特征与/>的辅助下，将当前待编码帧x_t量化后隐变量[y_t]；对隐变量[y_t]进行概率分布参数的估计，根据估计的概率分布参数将隐变量[y_t]无损熵编码为视频码流；其中，0、1、2为三个尺度的标识；结合概率分布参数，将视频码流无损熵解码为隐变量[y_t]，再结合多尺度时域上下文特征/>与/>对隐变量[y_t]进行解码，获得解码特征。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、原理说明。

在视频帧中，不同的运动物体往往具有不同的运动方式，例如非均匀运动、旋转、放缩，导致视频帧的不同区域的运动往往是不一致的。例如，一个局部区域可能同时包含着前景和背景物体，他们的运动可能是不同的。区域内物体的运动不一致特性给运动估计带来了巨大挑战。在现有的可学习视频编码方法中，在训练时，常利用重建光流对像素域的参考帧进行运动补偿得到预测帧，然后计算预测帧和当前待编码帧的均方误差，以此来训练光流估计网络和光流自编码器。然而，这种训练方式没有显式区分具有不一致运动的物体，只能得到所有区域的平均最小预测误差，对于一些具有不一致运动物体的区域，这种训练方式会减小不同物体的运动的不一致性，无法准确地估计运动。相比于现有技术，本发明将视频进行空间分解，得到低频结构部分和高频细节部分，分别对视频的低频结构部分和高频细节部分进行运动估计。经过空间分解，两帧的低频结构的运动包含了原本两帧更为一致的运动，局部区域的运动差异减小，而两帧的高频细节部分的运动包含了原本不一致性运动的残差。然后对参考特征也进行空间分解，得到参考特征的低频结构部分和高频细节部分。使用估计的低频结构部分和高频细节部分的运动，对参考特征的低频结构部分和高频细节部分分别进行运动补偿，然后融合运动补偿后的低频结构预测特征和高频细节特征，得到融合后的预测特征(多尺度时域上下文特征)。本发明通过先进行空间分解再进行运动估计，可以更准确估计出运动矢量，通过对分解后的低频结构和高频细节分别进行运动补偿，可以预测出更准确的时域上下文特征，从而减少时域冗余，以提升编码性能。

二、方案介绍。

对照图1所示流程，步骤1通过基于结构与细节分解的运动估计模块实现，步骤2通过基于结构与细节分解的运动矢量编码网络实现，步骤3通过基于结构与细节分解的时域上下文挖掘模块实现，步骤4通过上下文编码网络实现，步骤5通过帧生成器实现；它们共同形成了可学习视频编码模型，如图2所示。

1、基于结构与细节分解(SDD)的运动估计模块(SDD-based Motion Estimation)。

该模块的输入当前待编码帧x_t和参考帧输出是双方低频结构部分的运动矢量/>和高频细节部分的运动矢量/>如图3所示，为空间分解示意图；首先将当前待编码帧x_t和参考帧/>进行空间上的结构与细节分解，得到当前帧和参考帧的低频的结构部分和高频的细节部分/>

示例性的，可以选用对视频帧先进行双线性下采样和再进行双线性上采样，得到低频的结构部分，再用原视频帧减去低频结构部分得到高频细节部分。

其中，Down表示双线性下采样，Up表示双线性上采样。

如图4所示，为基于空间分解的运动估计和运动压缩(Compression)示意图，左侧虚线框为基于空间分解的运动估计部分，右侧虚线框为基于空间分解的运动压缩(Compression)，包含由基于结构与细节分解的运动矢量编码器与运动矢量解码器实现的联合编码与联合解码过程，具体在后文进行介绍。

如图4左侧虚线框所示，得到当前待编码帧和参考帧的低频结构部分和高频细节部分后，分别对低频结构部分和高频细节部分/>做运动估计，得到各自的运动矢量(Motion Vector，缩写为MV)/>示例性的，可选用SpyNet作为光流估计网络，估计像素级的运动矢量，即每个像素位置都估计一个运动矢量。

在实际应用中，用户可以自主设计高低频分解方法，本发明强调的是在运动估计前先对视频帧进行通过空间分解，得到视频帧的低频结构部分和高频细节部分，再分别对他们进行运动估计，得到各自的运动信息。

2、基于结构与细节分解(SDD)的运动矢量编码网络。

本发明实施例中，基于结构与细节分解(SDD)的运动矢量编码网络主要包括：基于结构与细节分解(SDD)的运动矢量编码器(SDD-based MV Encoder)、基于结构与细节分解(SDD)的运动矢量解码器(SDD-based MV Decoder)与运动熵模型(MV Entropy Model)。

如图4所示，基于结构与细节分解的运动矢量编码器的输入是当前待编码帧x_t和参考帧的低频结构部分的运动矢量/>和高频细节部分的运动矢量/>输出是运动矢量的码流。该模块的功能是联合编码低频结构的运动矢量/>和高频细节部分的运动矢量/>为量化后隐变量[m_t]。然后利用运动熵模型对[m_t]进行概率分布，根据概率分布使用算数熵编码器(AE)将[m_t]无损熵编码为码流。

运动熵模型的输入是运动隐变量[m_t]，输出是运动隐变量的概率分布参数。运动熵模型的功能是估计运动隐变量的概率分布参数，对隐变量进行熵编码。

如图4所示，基于结构与细节分解的运动矢量解码器的输入是从编码端传输到解码端的运动矢量码流，输出是重建的低频结构的运动矢量和高频细节部分的运动矢量运动矢量码流首先由算数解码器(AD)根据编解码端公用的概率分布，无损熵解码为隐变量[m_t]，再由运动矢量解码器将[m_t]联合解码为重建的低频结构的运动矢量/>和高频细节部分的运动矢量/>

本发明实施例中，基于结构与细节分解的运动矢量编码器和运动矢量解码器组成了自编码器结构，用户可以自主设计网络结构，本发明强调的是运动矢量解码器对重建的低频结构部分的运动矢量和高频细节部分的运动矢量/>进行联合编码与联合解码。

3、基于结构与细节分解(SDD)的时域上下文挖掘模块(SDD-based TemporalContext Mining)。

如图5所示，为基于空间分解的运动补偿示意图，该模块的输入是参考特征重建的低频结构的运动矢量/>重建的高频细节部分的运动矢量/>输出是多尺度的时域上下文/>首先将参考特征/>在空间上进行结构与细节分解，得到参考特征的低频结构部分/>和高频细节部分/>

示例性的，同样采用前文介绍的空间分解方案。

然后，利用重建的低频结构的运动矢量重建的高频细节部分的运动矢量/>对和/>分别进行特征域的运动补偿(warp操作)，以及从小尺度到大尺度的预测特征的逐级融合，得到低频结构部分的多尺度上下文/>和高频细节部分的多尺度上下文/>然后将/>和/>相加，得到融合后的时域上下文

4、上下文编码网络。

本发明实施例中，上下文编码网络包括：上下文编码器(Contextual Encoder)、上下文解码器(Contextual Decoder)与上下文熵模型(Contextual Entropy Model)。

上下文编码器的输入是当前待编码视频帧x_t和多尺度时域上下文输出是视频码流。上下文编码器在多尺度时域上下文/>的辅助下将当前待编码视频帧编码x_t为量化后隐变量[y_t]。然后利用上下文熵模型对[y_t]进行概率分布，根据概率分布使用算数熵编码器(AE)将[y_t]无损熵编码为视频码流。

上下文熵模型的输入是视频隐变量[y_t]和多尺度时域上下文输出是视频隐变量[y_t]的概率分布参数。上下文熵模型的功能是估计视频码流的概率分布参数，进行熵编码。

上下文解码器的输入是视频码流和多尺度时域上下文输出是一个不完全解码的特征。视频码流首先由算数解码器(AD)根据编解码端公用的概率分布，无损熵解码为隐变量[y_t]，上下文解码器将隐变量[y_t]解码为一个特征。

本发明实施例中，上下文编码器和解码器组成了常见的自编码器结构，用户可以自主设计网络结构。

5、帧生成器(Frame Generator)：

帧生成器的输入是上下文解码器输出的特征，输出是像素域的重建帧和作为下一帧参考特征的重建特征/>帧生成器的作用是将重建特征变换至像素域，得到像素域的重建视频/>在得到/>之前，将帧生成器的最后一层卷积前的输入特征/>用于下一帧编码，作为下一帧的参考特征。

同时，帧生成器示出的重建视帧和参考特征都放入一个图像与特征缓存单元(Picture&Feature Buffer)中，供下一帧编码时使用。

三、模型训练方案。

本发明实施例提供的上述模型需要预先进行训练，训练方式如下：

步骤11：获得训练数据，并输入至可学习视频编码模型，通过执行步骤1～步骤2。

步骤12：利用输出的当前待编码帧的预测帧与当前待编码帧的误差，计算损失函数L₁，并以此训练基于结构与细节分解的运动估计模块、以及基于结构与细节分解的运动矢量编码器与基于结构与细节分解的运动矢量解码器。

示例性的，此处可使用均方误差计算损失函数L₁，表示为：

此处的当前待编码帧的预测帧是使用低频结构的运动矢量和高频细节的运动矢量对参考帧进行运动补偿得到的，它是对当前待编码帧的估计。

步骤13：在损失函数L₁中加入运动矢量熵模型估计的运动矢量隐变量码率项，用拉格朗日乘子λ控制像素域的预测帧和当前待编码帧的均方误差与码率的平衡，获得损失函数L₂，以此联合训练基于结构与细节分解的运动估计模块、基于结构与细节分解的运动矢量编码器、基于结构与细节分解的运动矢量解码器、以及运动矢量熵模型。

其中，运动矢量隐变量码率项利用估计出的运动矢量隐变量[m_t]的概率分布参数得到，将概率分布参数中每个位置处的概率值记为p，则码率为-log2(p)，综合所有位置，获得运动矢量隐变量码率项，记为R([m_t])，则损失函数

步骤14：完成步骤13后，固定这些模块，再次执行通过执行步骤1～步骤5，利用输出的当前待编码帧的重建帧与当前待编码帧的误差，计算损失函数L₃，并以此训练基于结构与细节分解的时域上下文挖掘模块、上下文编码器、上下文解码器与帧生成器。

同样的，以均方误差计算损失函数L₃，表示为：

步骤15：步骤4的编码与解码时还使用上下文熵模型，完成步骤14后，在损失函数L₃中加入上下文熵模型估计的视频隐变量码率项，获得损失函数L₄，以此联合训练基于结构与细节分解的时域上下文挖掘模块、上下文编码器、上下文解码器、上下文熵模型与帧生成器。

类似的，视频隐变量码率项也是利用估计出的隐变量[y_t]的概率分布参数得到，将视频隐变量码率项记为R([y_t])，则损失函数

步骤16：完成步骤15后，在损失函数L₄中加入步骤13中所述的运动矢量隐变量码率项，获得损失函数L₅，以此联合训练整个可学习视频编码模型。

此处损失函数

四、实验说明。

本发明实施例提供的可学习视频编码方法，相比于现在的视频编码方法，取得了最好的编码性能。具体的，在帧内间距为32的条件下，在RGB颜色空间使用BD-rate衡量编码增益，以H.266/VVC编码标准的参考软件VTM-13.2为基线，配置为encoder_lowdelay_vtm，负值表示编码性能提升的百分比，正值表示编码性能下降的百分比，结果如表1、表2所示。表中的HM为H.265/HEVC编码标准的参考软件，配置为encoder_lowdelay_main_rext。表中的RLVC、M-LVC、DVC_Pro、DCVC、CANF-VC、TCMVC、HEM是已有的端到端视频编码方法。Ours是本发明所提出的方法。

表1：相对于VTM的性能增益，重建视频和原始视频的差异用PSNR衡量

表2：相对于VTM的性能增益，重建视频和原始视频的差异用MS-SSIM衡量

除了在客观指标上带来编码性能增益上，本发明提出的方法还能够取得更好的主观质量。如图6所示，第一种主观质量对比结果，具体的，它是未编码视频、VTM重建的视频和本发明所提出的方法得到的重建视频的主观质量对比，可以看到，本方法能够保留更多纹理细节。

通过本发明所提的基于结构与细节分解的帧间预测技术，可以得到更准确的运动信息。如图7所示，第二种主观质量对比结果，具体的，它是未编码视频、使用没有结构与细节分解的帧间预测技术得到的预测视频、使用有结构与细节分解的帧间预测技术得到的预测视频的主观质量对比，以及预测视频和为编码视频的残差大小的对比；可以看到，使用本发明提出的基于结构与细节分解的帧间预测技术得到的运动矢量对参考帧进行运动补偿，得到的预测帧的边缘更加平滑，预测误差更小。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种可学习视频编码系统，其主要用于实现前述实施例提供的方法，该系统包括可学习视频编码模型，通过可学习视频编码模型进行视频编码，所述可学习视频编码模型包括：

考虑到上述模型具体的技术细节在之前的实施例中已经做了详细的说明，故不再赘述。

实施例三

本发明还提供一种处理设备，如图8所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种可学习视频编码方法，其特征在于，包括：

2.根据权利要求1所述的一种可学习视频编码方法，其特征在于，所述步骤1中：

对当前待编码帧x_t和参考帧分别进行空间分解，获得当前待编码帧与参考帧的低频的结构部分/>以及高频的细节部分/>其中，s为低频的结构部分的标识，d为高频的细节部分标识，t为视频帧序号；

对低频的结构部分高频的细节部分/>分别进行运动估计，获得低频结构的运动矢量/>以及高频细节的运动矢量/>

3.根据权利要求1所述的一种可学习视频编码方法，其特征在于，所述步骤2中：

联合低频结构的运动矢量和高频细节的运动矢量/>量化为隐变量[m_t]；对隐变量[m_t]进行概率分布参数的估计，根据估计的概率分布参数将隐变量[m_t]无损熵编码为运动矢量码流；

结合概率分布参数，将运动矢量码流无损熵解码为隐变量[m_t]，再将隐变量[m_t]联合解码为重建的低频结构运动矢量和高频细节运动矢量/>

4.根据权利要求1所述的一种可学习视频编码方法，其特征在于，所述步骤3中：

将当前待编码帧的参考特征进行空间分解，获得参考特征的低频结构部分/>和高频细节部分/>

利用重建的低频结构运动矢量对参考特征的低频结构部分/>进行补偿，获得低频结构部分的多尺度上下文特征/>与/>利用重建的高频细节运动矢量/>对参考特征的高频细节部分/>进行补偿，获得高频细节部分的多尺度上下文特征/>与/>其中，0、1、2为三个尺度的标识；

将低频结构部分的多尺度上下文特征与/>与高频细节部分的多尺度上下文特征/>与/>对应的融合，获得多尺度时域上下文特征/>与/>

5.根据权利要求1所述的一种可学习视频编码方法，其特征在于，所述步骤4中：

在多尺度时域上下文特征与/>的辅助下，将当前待编码帧x_t量化后隐变量[y_t]；对隐变量[y_t]进行概率分布参数的估计，根据估计的概率分布参数将隐变量[y_t]无损熵编码为视频码流；其中，0、1、2为三个尺度的标识；

结合概率分布参数，将视频码流无损熵解码为隐变量[y_t]，再结合多尺度时域上下文特征与/>对隐变量[y_t]进行解码，获得解码特征。

6.根据权利要求1～5任一项所述的一种可学习视频编码方法，其特征在于，步骤1通过基于结构与细节分解的运动估计模块实现，步骤2通过基于结构与细节分解的运动矢量编码网络实现，步骤3通过基于结构与细节分解的时域上下文挖掘模块实现，步骤4通过上下文编码网络实现，步骤5通过帧生成器实现；它们共同形成了可学习视频编码模型，且该可学习视频编码模型预先进行训练。

7.根据权利要求6所述的一种可学习视频编码方法，其特征在于，可学习视频编码模型训练方式如下：

步骤11：获得训练数据，并输入至可学习视频编码模型，通过执行步骤1～步骤2；

步骤12：利用输出的当前待编码帧的预测帧与当前待编码帧的误差，计算损失函数L₁，其中，当前待编码帧的预测帧使用低频结构的运动矢量和高频细节的运动矢量对参考帧进行运动补偿得到，基于结构与细节分解的运动矢量编码网络包括：基于结构与细节分解的运动矢量编码器、基于结构与细节分解的运动矢量解码器与运动矢量熵模型，运动矢量熵模型用于估计联合编码与联合解码时使用的概率分布参数；利用损失函数L₁训练基于结构与细节分解的运动估计模块、基于结构与细节分解的运动矢量编码器与基于结构与细节分解的运动矢量解码器；

步骤13：在损失函数L₁中加入运动矢量熵模型估计的运动矢量隐变量码率项，获得损失函数L₂，以此联合训练基于结构与细节分解的运动估计模块、基于结构与细节分解的运动矢量编码器、基于结构与细节分解的运动矢量解码器、以及运动矢量熵模型；其中，运动矢量隐变量码率项通过相应概率分布参数确定；

步骤14：完成步骤13后，固定这些模块，再次执行通过执行步骤1～步骤5，利用输出的当前待编码帧的重建帧与当前待编码帧的误差，计算损失函数L₃，其中，上下文编码网络包括：上下文编码器、上下文解码器与上下文熵模型，上下文熵模型用于估计编码与解码当前待编码帧时使用的概率分布参数；利用损失函数L₃训练基于结构与细节分解的时域上下文挖掘模块、上下文编码器、上下文解码器与帧生成器；

步骤15：在损失函数L₃中加入上下文熵模型估计的视频隐变量码率项，获得损失函数L₄，以此联合训练基于结构与细节分解的时域上下文挖掘模块、上下文编码器、上下文解码器、上下文熵模型与帧生成器；其中，视频隐变量码率项通过相应概率分布参数确定；步骤16：完成步骤15后，在损失函数L₄中加入步骤13中所述的运动矢量隐变量码率项，获得损失函数L₅，以此联合训练整个可学习视频编码模型。

8.一种可学习视频编码系统，其特征在于，包括可学习视频编码模型，通过可学习视频编码模型进行视频编码，所述可学习视频编码模型包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。