CN115002482B

CN115002482B - 使用结构性保持运动估计的端到端视频压缩方法及系统

Info

Publication number: CN115002482B
Application number: CN202210449954.5A
Authority: CN
Inventors: 叶茂; 高寒; 李帅
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-04-16
Anticipated expiration: 2042-04-27
Also published as: CN115002482A

Abstract

本发明公开一种使用结构性保持运动估计的端到端视频压缩方法，应用于视频数据处理领域，针对现有技术难以进行运动估计的问题；本发明利用编码器侧的参考帧，有效地检索丢失的信息，可以提高当前帧的压缩性能。具体的：提取当前帧特征与已解码的前一帧特征之间的主运动场，以及当前帧特征与原始的前一帧特征之间的辅助运动场；然后提出了一个融合模块，将这两个运动场融合，形成最终待传输的能够保持结构性的运动场，以最大限度发挥卷积神经网络的结构性优势；利用传输的运动场和解码的前一帧特征来预测和增强当前的特征。

Description

使用结构性保持运动估计的端到端视频压缩方法及系统

技术领域

本发明属于视频数据处理领域，特别涉及一种视频压缩技术。

背景技术

视频数据的传输是导致互联网拥堵的重要原因之一。因此，有效的压缩方案一直是降低传输和存储成本的高需求。在过去的几十年里，研究人员先后开发了一些列视频编码标准，包括H.264/AVC、H.265/HEVC和H.266/VVC等。这些方案采用人工设计的模块来减少时空冗余，并实现了良好的压缩性能。

如当下被广泛应用的标准H.265/HEVC，其框架包括如下几个模块：变换、量化、熵编码、帧内预测、帧间预测以及环路滤波。帧内预测的主要功能是去除图像的空间相关性，通过编码后的重构信息块来预测当前像素块以去除空间冗余信息，提高图像的压缩效率。帧间预测的主要功能是去除时间相关性，通过将已编码的图像作为当前帧的参考图像，来获取各个块的运动信息，从而去除时间冗余，提高压缩效率。变换量化的作用是通过对残差数据去除频域相关性，对数据进行有损压缩。变换编码将图像从时域信号变换至频域，将能量集中至低频区域。量化模块可以减小图像编码的动态范围。熵编码模块将编码控制数据、量化变换系数、帧内预测数据、运动数据、滤波器控制数据编码为二进制进行存储和传输。熵编码模块的输出数据即是原始视频压缩后的码流。环路滤波的作用主要是去除编解码过程中所产生的噪声，主要包括去块滤波器(DBF)和样点自适应补偿滤波(SAO)。 DBF的主要作用是去方块效应，而SAO的主要作用是去除振铃效应。

目前，深度神经网络在数据压缩领域具有广泛的应用空间，最近基于深度学习的视频压缩方案的性能突破验证了这一事实。然而现存的大多数方法都忽略了编码端的上一帧的作用，仅仅使用已解码的上一帧作为参考，参考帧的信息失真将导致当前帧的压缩性能下降。

相关现有技术如下：

北京市商汤科技开发有限公司鲁国、欧阳万里、张小云、蔡春磊、徐东和高志勇的发明《视频压缩处理方法及装置、电子设备及存储介质》，公开号为：CN109451308A。

在该方案中，他们将传统视频压缩方案中的各个模块替换成神经网络，以一种端到端的方式进行联合优化，但像素域的运动补偿会难以避免的带来压缩伪影，而特征域的处理才能充分发挥机器学习的优势，因此该方法的性能有限。

北京航空航天大学胡智昊的发明《一种基于深度学习特征空间的视频压缩方法》，公开号为：CN113298894A。

在该方案中，他们首次将可变形卷积应用到视频压缩领域，并在特征域进行一系列的操作，充分利用了特征域所包含的丰富信息，实现了较大的性能突破。但该方案忽略了编码端上一时刻帧的作用，同时使用Non-local模块的后处理操作也极大的增加了模型的复杂度，这将会给编解码速度带来极大的挑战。

综上，数字视频是人类获取信息、感知世界最重要的多媒体载体之一。但未压缩的视频会产生巨大的数据量。因此，在带宽和存储有限的网络中传输视频时，采用视频压缩技术来显著地节省编码比特率是很有必要的。然而，对于一般的视频压缩方法而言，他们仅使用已解码的前一个帧作为参考。众所周知，视频编解码器是具有有损性的，因此被解码的帧与相应的原始帧并不完全相同，若仅用它继续作为参考帧，将难以避免的出现找不到对应点，以至于难以进行运动估计的情况。并且这会导致运动域缺乏结构性，与传统的编解码方案不同，卷积神经网络能发挥最大作用的前提是保证特征的结构统一性。但值得一提的是，这些丢失的细节可以在它们相应的原始帧中找到，因此通过附加的信息来帮助更好的运动估计是急需解决的。然而，使用更多的信息也是一个巨大的挑战，因为它可能会带来额外的信息传输和比特率提高。

发明内容

为解决上述技术问题，本发明提出一种结构性保持的运动估计方法，来提高视频压缩的性能。一方面，通过提出的结构性保持运动域生成模块，将编码端的上一帧充分考虑进来，因为其带有丰富的未失真像素信息，这将有利于当前帧的运动估计；另一方面，使用一个预测增强模块来进一步提高运动补偿的性能。

本发明采用的技术方案之一为：一种使用结构性保持运动估计的端到端视频压缩方法，包括：

S1、提取待编码的当前帧、原始的前一帧以及经解码处理的前一帧各自的特征；

S2、根据步骤S1提取的待编码的当前帧的特征与经解码处理的前一帧的特征，计算得到主运动场；

S3、根据步骤S1提取的待编码的当前帧的特征与原始的前一帧的特征，计算得到辅运动场；

S4、对步骤S2的主运动场和S3的辅运动场进行融合，得到结构性保持的运动场；

S5、对步骤S4得到的运动场进行压缩，得到重构运动场；

S6、根据重构运动场与经解码处理的前一帧的特征生成预测特征，并优化预测特征；

S7、计算经编码处理的当前帧的特征与预测特征之间的残差；

S8、根据残差与预测特征，得到重建特征；

S9、根据重建特征对当前帧进行重建。

本发明采用的技术方案之二为：一种使用结构性保持运动估计的端到端视频压缩系统，包括：特征提取模块、结构性保持运动估计模块、运动压缩模块、运动补偿和预测增强模块、残差压缩模块、重建模块；

特征提取模块的输入为当前帧、解码后的前一帧、解码前的前一帧，特征提取模块的输出为当前帧特征、解码后的前一帧特征、解码后的前一帧特征；

结构性保持运动估计模块根据输入的当前帧特征、解码后的前一帧特征、解码后的前一帧特征，提取运动场；

运动压缩模块将输入的运动场进行压缩，从而输出重构运动场；

运动补偿和增强模块根据输入的重构运动场与解码后的前一帧特征，生成预测特征；

残差压缩模块对当前帧特征与预测特征之间的残差进行压缩；

重建模块根据输入的压缩后的残差、预测特征，得到重建后的当前帧。

本发明的有益效果：充分挖掘编码端的上一时刻帧的作用，以此作为辅助信息来帮助当前帧的运动估计。具体地说，由于存在失真，在解码帧中丢失的细节信息可以在编码器侧相应的原始帧中找到。利用编码器侧的参考帧，有效地检索丢失的信息，可以维持运动场以及残差信息的结构性，最大限度的发挥卷积神经网络的结构性学习和表征能力，提高当前帧的压缩性能。本发明提出了一种结构性保持运动估计网络(SPM-Net)，提取当前帧特征与已解码的前一帧特征之间的主运动场，以及当前帧特征与原始的前一帧特征之间的辅助运动场。然后提出了一个融合模块，将这两个运动场融合，形成最终待传输的能够保持结构性的运动场。此外，提出了一种运动补偿和预测增强网络(MCPE-Net)，利用传输的运动场和解码的前一帧特征来预测和增强当前的特征。在该网络中，预测特征也得到了增强，以获得更好的帧重构效果。

附图说明

图1为本发明方法的整体框图；

图2为本发明的融合模块示意图；

图3为本发明的运动补偿模块与增强模块的结合示意图；

图4为背景技术中“公开号为：CN113298894A”的专利申请中的示意图；

图5为本发明实施例提供的比特率-失真曲线；

其中，(a)为测试集为HEVC Class B时本发明方法与现有技术的PSNR对比，(b) 为测试集为HEVC Class C时本发明方法与现有技术的PSNR对比，(c)为测试集为HEVC ClassD时本发明方法与现有技术的PSNR对比，(d)为测试集为HEVC Class B时本发明方法与现有技术的MS-SSIM对比，(e)为测试集为HEVC Class C时本发明方法与现有技术的MS-SSIM对比，(f)为测试集为HEVC Class D时本发明方法与现有技术的MS-SSIM 对比，(g)为测试集为HEVC Class E时本发明方法与现有技术的PSNR对比，(h)为测试集为UVG时本发明方法与现有技术的PSNR对比，(i)为测试集为MCL-JVC时本发明方法与现有技术的PSNR对比，(j)为测试集为HEVC Class E时本发明方法与现有技术的 MS-SSIM对比，(k)为测试集为UVG时本发明方法与现有技术的MS-SSIM对比，(l)为测试集为MCL-JVC时本发明方法与现有技术的MS-SSIM对比。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，首先对以下技术术语进行说明：

H.264/AVC：是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT，Joint Video Team)提出的高度压缩数字视频编解码器标准。

H.265/HEVC：是继H.264之后所制定的新的视频编码标准，保留了原有的H.264编码标准的某些技术，同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系，以求达到最优化设置。

H.266/VVC：最新一代视频编码标准，在H.265的基础上进一步提高了压缩效率。

end-to-end：指整个模型可以通过统一的损失函数进行端到端的优化。

I帧，Intra-coded picture(帧内编码图像帧)：不参考其他图像帧，只利用本帧的信息进行编码。

P帧，Predictive-coded picture(预测编码图像帧)：利用之前的I帧或P帧，采用运动预测的方式进行帧间预测编码。

GOP，Group of pictures(图像组)：指两个I帧之间的距离。

LDP，Low Delay P：只有第一帧是I帧编码，而其他的都是P帧编码。

Peak Signal to Noise Ratio(PSNR)：峰值信噪比，一种评价图像的客观标准。

structural similarity(SSIM)：结构相似性，是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构三方面度量图像相似性。

BDBR(Bit Delta of Bit Rate)：使用相同PSNR或SSIM时的平均位变化。

以下结合附图对本发明的内容进行阐述：

本发明的整体框架如图1所示，设X＝{X₁,X₂,…,X_t-1,X_t,…}是一个视频序列中的某个GOP(Group Of Pictures，图像组)。在LDP(Low Delay P，低延迟P帧)编码模式下，X₁是一个关键帧(I帧)，其他帧都是前向帧(P帧)。X_t是在当前时刻要编码的帧。本发明的目标是使用前面的帧作为参考，并使用尽可能低的比特数，以获得更高质量的重构帧在本发明的方法中，/>和X_t-1都被用作运动估计的参考。该框架由7个模块组成：特征提取(FeatureExtraction)、结构性保持运动估计网络(SPM-Net)、运动压缩(Motion Compression)、运动补偿和预测增强网络(MCPE-Net)、残差压缩(Residual Compression)、重建网络(Recon-Net)和熵编码(Entropy Coding)。熵编码主要应用于本发明的运动压缩(MotionCompression)和残差压缩(Residual Compression)中。

本发明的工作原理为：本发明通过特征提取模块将当前帧、解码后的前一帧和编码器侧的原始前一帧映射到各自的特征空间，提取的三个特征依次为F_t、F_t-1。然后将这三个特征输入到结构性保持运动估计网络(SPM-Net)中，以计算运动场θ_t。然后通过运动压缩模块将运动场θ_t进行压缩，发送到解码器侧，形成相应的重构运动场/>此外，利用运动补偿和预测增强网络(MCPE-Net)，借助/>和/>生成预测特征/>然后，通过残差压缩模块将F_t和/>之间的残差R_t送至解码端，再与/>相加形成重建特征/>最后，使用一个重建网络(Recon-Net)来重建当前的帧/>

结构性保持运动估计模块(SPM-Net，Structure-Preserving Motion estimationNetwork)：如图1所示，该网络包括三个部分：主运动场计算、辅助运动场计算、运动场融合。

首先通过一个轻量级网络生成主运动场△_main：

其中，Conv_3×3代表卷积核尺寸为3×3的卷积操作，ReLU代表激活函数，C()代表通道级的拼接操作，表示从后往前的顺序操作，比如△_main这个公式就是：先拼接，然后经过第一个卷积，再经过一个ReLU激活函数，最后经过第二个卷积。这里的轻量级网络结构具体包括：2层3×3卷积与中间的ReLU激活函数。

同时通过一个相同的轻量级网络生成辅助运动场△_aux：

融合模块(Fusion Module)结构如图2所示，包括：2层3×3卷积一层线性层的自适应网络、包括2层3×3卷积加Sigmoid激活函数的轻量网络、包括2层3×3卷积的针对Δ_main的卷积操作、以及用于融合的3×3卷积；其中2层3×3卷积和一层线性层(Linear)的自适应网络是用来生成自适应卷积核的，达到从空间上融合的作用；2层3×3卷积加Sigmoid 激活函数的轻量网络用于从通道层面上融合。主运动场分别在空间层面和通道层面上与辅助运动场深度融合。

在空间层面上，通过提取△_aux中的空间信息，本发明设计了一个自适应网络来预测卷积核：

其中Linear表示一个线性层，(·)ⁿ表示n个模块的串行级联，这里的n＝2。之后将这些卷积核分别用于针对△_main的卷积操作中：

其中Conv_k代表使用预测卷积核的卷积操作，这里的Conv代表卷积操作，而下标的k 代表使用的卷积核是由2层3×3卷积和一层线性层的自适应网络生成的。

在通道层面，首先利用轻量级网络获得通道注意力权值：

之后由权重和主运动场相乘得到△_c：

最后本发明将△_s和△_c融合，以达到在空间层面和通道层面融合运动场的作用θ_t＝△_main+Conv_3×3(△_s+△_c)。

运动补偿和预测增强网络(MCPE-Net，Motion Compensation and PredictionEnhancement Network)：如图3所示，首先借助可变形卷积在和/>的指导下生成初始预测特征/>用于可变形卷积的偏移表示为：/>其中“G”代表可变形卷积中的通道组，“H”和“W”分别代表特征图的高和宽，“3×3”代表每个点有 9个方向的偏移。之后，初始预测特征计算如下：

由于可变形卷积DCN(Deformable Convolution Networks)在处理大的平坦区域时不是很有效，而且由于帧的连续性，中仍然有一些有用的信息可以在被使用。因此，本发明使用与图4相似的结构来细化/>具体结构见图3中/>之后的处理结构，具体的：使用作为辅助信息，加入了空间注意力机制与通道注意力机制，然后采用加法模块对空间注意力机制与通道注意力机制的输出进行融合，得到增强后的预测特征；其中空间注意力机制结构为：包括2层3×3卷积一层线性层的自适应网络、2层3×3卷积；通道注意力机制的结构为：包括2层3×3卷积加Sigmoid激活函数的轻量网络、乘法模块。如图3所示，在空间层面：

在通道层面：

最后生成了增强后的预测特征：

图4为背景技术中“公开号为：CN113298894A”的专利申请中的已知技术。

本发明使用Vimeo-90k作为训练集，并将图像的分辨率从448×256随机切割到256×256。本发明使用HEVC，UVG，MCL-JCV作为测试集。HEVC数据集(B类、C类、D类、E类) 包含16个视频，分辨率从416×240到1920×1080。UVG数据集包含7个视频，分辨率为 1920x1080。MCL-JCV数据集由30个1080p的视频序列组成。

本发明设置了四个λ值(MSE：256、512、1024、2048；MS-SSIM：8、16、32、64)来拟合速率失真的权衡。对于每个λ值，本发明使用损失函数L＝λD+R以端到端方式对模型训练80轮。当使用MS-SSIM来度量性能时，本发明进一步使用MS-SSIM损失函数，从第80 轮开始继续进行优化，以达到最佳性能。本发明将batch size设置为4，并使用Adam优化器。整个模型由pytorch实现，并在NVIDIA RTX 3090GPU上完成训练。

为了验证本发明的方法可以作为视频压缩框架中的插件单元广泛使用，将本发明的方法从FVC移植到DCVC(Deep Contextual Video Compression，发表于NIPS2021)。DCVC是一个基于条件编码的框架，旨在基于运动估计和补偿生成准确的上下文信息。上下文被认为是时间先验，它被用于指导熵编码。如图5所示，其中SPME(FVC*)和SPME(DCVC) 为本发明的方法，分别表示在两个不同的基线上做的实验，其他模块的结构与DCVC模块相同。

为了验证本发明提出的方法的有效性，本发明将模型的测试结果与传统方法H.265、基线方法FVC、DCVC进行了比较。对于H.265，本发明使用基于深度学习的方法DVC-Pro 中的相同指令，以medium模式执行FFmpegX265压缩软件。对于帧内编码，本发明直接使用现有的深度图像压缩模型cheng-2020anchor和hyperprior来实现，其质量水平对应四个λ值分别设置为3、4、5和6。对于FVC，考虑到复杂度和公平的比较，本发明复现了没有多帧特征融合模块的模型，称为FVC*。按照基于深度学习的方法DVC-Pro和基线方法FVC，本发明将HEVC、UVG和MCL-JCV数据集的GOP大小分别设置为10、12和 12。

图5显示了这些方法在HEVC、UVG和MCL-JCV数据集上的速率失真曲线。图5中(a) -(l)每个子图中均标注了采用的数据集；图5中横坐标为bpp(bit per pixel)，表示比特率；纵坐标为PSNR或MS-SSIM，均表示重建帧的质量，PSNR、MS-SSIM是不同的衡量方式。

从图5可以发现，在PSNR和MS-SSIM方面，本发明的方法在所有比特率范围内都优于基线FVC*。表1给出了BDBR值与H.265在PSNR方面的比较结果。本发明的模型在这些数据集上获得了约14.75％的收益，而FVC*只能获得约4.76％的收益。而对于DCVC，它可以实现26.82％的码率下降，但如果加上本发明的方法，就可以实现30.41％的码率下降。这表明，本发明提出的方法有利于在特征空间中的压缩方案。

表1各个方法对比H.265的码率节省

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种使用结构性保持运动估计的端到端视频压缩方法，其特征在于，包括：

S1、提取待编码的当前帧、原始的前一帧以及经解码处理后的前一帧各自的特征；

S2、根据步骤S1提取的当前帧的特征与经解码处理后的前一帧的特征，计算得到主运动场；

S3、根据步骤S1提取的当前帧的特征与原始的前一帧的特征，计算得到辅运动场；

S4、对步骤S2的主运动场和S3的辅运动场进行融合，得到结构性保持的运动场；步骤S4具体为：主运动场分别在空间层面和通道层面上与辅助运动场深度融合，空间层面，表达式为：

θ_t＝Δ_main+Conv_3×3(Δ_s+Δ_c)

其中，θ_t表示结构性保持的运动场，Δ_main表示主运动场，Conv_3×3代表卷积核尺寸为3×3的卷积操作，Conv_k代表使用预测卷积核的卷积操作，预测卷积核通过提取辅运动场的空间信息得到，/>y表示由辅助运动场得到的通道注意力权值；

S5、对步骤S4得到的运动场进行压缩，得到重构运动场；

S6、根据重构运动场与经解码处理的前一帧的特征生成初始预测特征，并优化得到增强预测特征；

S7、计算当前帧的特征与增强预测特征之间的残差；

S8、根据残差与增强预测特征，得到重建特征；

S9、根据重建特征对当前帧进行重建。

2.根据权利要求1所述的一种使用结构性保持运动估计的端到端视频压缩方法，其特征在于，预测卷积核表达式为：

其中，Linear表示一个线性层，(·)ⁿ表示n个模块的串行级联，Δ_aux表示辅运动场。

3.根据权利要求2所述的一种使用结构性保持运动估计的端到端视频压缩方法，其特征在于，步骤S6具体为：

S61、根据结构性保持的运动场，计算用于可变形卷积的偏移O_t；

S62、根据O_t与经解码处理的前一帧的特征，得到初始预测特征

S63、在空间层面对进行增强；

S64、在通道层面对进行增强；

S65、根据步骤S62、S63、S64的结果，得到增强预测特征，计算式为：

其中，表示增强预测特征，/>表示在通道层面对/>进行增强的结果，/>表示在空间层面对/>进行增强的结果。

4.根据权利要求3所述的一种使用结构性保持运动估计的端到端视频压缩方法，其特征在于，的计算式为：/>

5.根据权利要求3所述的一种使用结构性保持运动估计的端到端视频压缩方法，其特征在于，的计算式为/>

6.一种使用结构性保持运动估计的端到端视频压缩系统，其特征在于，包括：特征提取模块、结构性保持运动估计模块、运动压缩模块、运动补偿和预测增强模块、残差压缩模块、重建模块；

特征提取模块的输入为待编码的当前帧、原始的前一帧以及经解码处理的前一帧，特征提取模块的输出为待编码的当前帧、原始的前一帧以及经解码处理的前一帧各自的特征；

结构性保持运动估计模块根据输入的待编码的当前帧、原始的前一帧以及经解码处理的前一帧各自的特征，提取运动场；具体的：结构性保持运动估计模块包括了三个部分：主运动场计算单元、辅运动场计算单元、运动场融合单元；其中，主运动场计算单元使用当前帧的特征与经解码处理后的前一帧的特征计算得到主运动场，辅运动场计算单元使用当前帧的特征与原始的前一帧的特征计算得到辅运动场；运动场融合单元包括三个融合过程，第一个融合是从空间层面融合主运动场与辅运动场，第二个融合是通道层面融合主运动场与辅运动场，第三个融合是对空间层面融合后的结果与通道层面的融合结果进行再次融合，最后得到结构性保持的运动场；

运动补偿和增强模块根据输入的重构运动场与经解码处理的前一帧的特征，生成预测特征；

7.根据权利要求6所述的一种使用结构性保持运动估计的端到端视频压缩系统，其特征在于，运动补偿和增强模块，包括：初始预测特征生成单元、空间层面增强单元、通道层面增强单元、融合单元；

初始预测特征生成单元包括可变形卷积，根据输入的结构性保持的运动场与经解码处理的前一帧的特征，生成初始预测特征；

所述空间层面增强单元包括自适应网络与2层卷积，根据输入的初始预测特征与经解码处理的前一帧的特征，输出空间层面增强信息；

所述通道层面增强单元包括轻量网络，根据输入的初始预测特征、经解码处理的前一帧的特征，输出通道层面增强信息；

所述融合单元输入为初始预测特征、空间层面增强信息以及通道层面增强信息，得到增强后的预测特征。