CN113450280A

CN113450280A - 一种由粗到细地融合时空信息的压缩视频质量增强方法

Info

Publication number: CN113450280A
Application number: CN202110768143.7A
Authority: CN
Inventors: 叶茂; 罗登宴
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-09-28
Also published as: CN113592746A; CN113592746B

Abstract

本发明公开一种由粗到细地融合时空信息的压缩视频质量增强方法，应用于视频处理领域，针对现有技术中存在的压缩后的视频不可避免地会出现压缩伪影，严重影响主观上的体验和客观上的质量的问题；本发明使用一种无需光流估计进行显示地预测对齐偏移的多帧质量增强网络，通过由粗到细地融合帧间信息来更好地预测对齐偏移从而充分利用相邻帧间的时间信息实现了压缩视频质量的提高，使得压缩视频从主观和客观上都得到增强。

Description

一种由粗到细地融合时空信息的压缩视频质量增强方法

技术领域

本发明属于视频处理领域，特别涉及一种增强压缩视频质量的技术。

背景技术

压缩视频质量增强方法自视频压缩国际标准被提出以来，就得到了工业界和学术界的广泛研究。在深度学习被提出之前，增强压缩视频质量的方法主要是以数学推导为基础的对单帧图像进行增强的空域法和频域法。在深度学习成功地应用到图像增强领域之后，各种新的方法被提出来用于增强压缩视频的质量，得到了比传统方法更好的结果和更强的泛化性。

现在最常用的H.265/HEVC标准，都采用基于块的混合编码框架，其核心过程包括：预测编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相关性，导致编码重建图像呈现块效应，即人眼可以感知到块边界的明显不连续性(当步长较大且比特率较低时，这些效果更加明显)；同时，量化是基于变换域中的块扩展，这个量化过程是不可逆的。另外，运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中误差的积累，上述效应也会影响后续帧的编码质量，从而导致视频图像的客观评价质量下降，人眼的视觉感知质量降低。

北京航空航天大学徐迈、杨韧、王祖林的发明《一种基于卷积神经网络的图像或视频质量增强方法》2017年9月26日向中国国家知识产权局申请专利并获得批准，于2017年12月15日公开，公开号为：公开号CN107481209A；首先设计了两个用于视频(或图像)质量增强的卷积神经网络，两个网络具有不同的计算复杂度；然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练；根据实际需要，选择一个计算复杂度较为合适的卷积神经网络，将质量待增强的图像或视频输入到选择的网络中；最后，该网络输出经过质量增强的图像或视频。该发明可以有效增强视频质量；用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。

该专利设计了两个不同复杂度的卷积神经网络，由用户根据设备的情况来选择网络，两个网络的区别只是卷积神经网络的深度不同，仅仅通过加深网络深度来提高质量增强效果的方案是不可行的，而且没有针对图像视频的特点设计网络，即网络未能利用视频帧与帧之间的时间相关性，因此该方法质量增强的效果有限。

福建帝视信息科技有限公司高钦泉、聂可卉、刘文哲、童同的发明《一种基于自适应可分离卷积的视频质量增强方法》2018年6月12日向中国国家知识产权局申请专利并获得批准，于2018年11月27日公开，公开号为：CN108900848A。

《一种基于自适应可分离卷积的视频质量增强方法》将自适应可分离卷积作为第一个模块应用于网络模型当中，将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核，参数量由n²变为n+n。第二，利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计，通过选取连续的两帧作为网络输入，对于每两张连续输入可以得到一对可分离的二维卷积核，而后该2维卷积核被展开成四个1维卷积核，得到的1维卷积核随输入的改变而改变，提高网络自适应性。该发明用一维卷积核取代二维卷积核，使得网络训练模型参数减少，执行效高。

该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块，其结构是在传统的对称编解码模块网络的基础上，把最后一个解码模块替换为一个分离卷积模块，虽然有效的降低了模型的参数，但是质量增强的效果还有待进一步的提高。

北京航空航天大学徐迈、杨韧、刘铁、李天一、方兆吉的发明《一种有损压缩视频的多帧质量增强方法及装置》2018年2月8日向中国国家知识产权局申请专利并获得批准，于2018年7月20日公开，公开号为：公开号CN108307193A。

《一种有损压缩视频的多帧质量增强方法及装置》方法包括：针对解压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强，以播放质量增强后的第i帧；所述m个帧属于所述视频流中的帧，且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值；m为大于1的自然数。在具体应用中，可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。所述方法3减轻了视频流播放过程中多帧之间的质量波动，同时使得有损压缩后视频中的各帧质量得到增强。

虽然该发明考虑到了相邻帧间的时间信息，但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet)，其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现对齐，光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪影。然而精确的光流估计本身就是具有挑战性的和耗时的，因此该发明质量增强的效果仍有限。

综上，在带宽有限的网络中传输视频时，采用视频压缩技术来显著地节省编码比特率是很有必要的。然而，压缩后的视频不可避免地会出现压缩伪影，这将严重影响主观上的体验和客观上的质量。

发明内容

为了解决压缩视频后导致的主观和客观质量下降的问题，本发明中提出了一个基于多帧的压缩视频质量增强网络，通过更好地预测对齐偏移来融合相邻帧间的时间信息从而提高压缩视频的质量。同时，本发明的网络不再需要利用光流估计来显示地预测对齐偏移，达到了网络训练更加简单的目的。

本发明采用的技术方案为：一种由粗到细地融合时空信息的压缩视频质量增强方法，所述方法基于的网络结构包括：粗略融合模块、多级残差融合模块、D2D融合模块、重建模块；低质量压缩视频帧序列经粗略融合模块后得到粗略的融合特征图，所述粗略的融合特征图经多级残差融合模块后得到全局和局部的精细融合特征；根据全局和局部的精细融合特征来联合预测所有用于对齐的可变形偏移，D2D融合模块根据可变形偏移得到对齐后的融合特征图，对齐后的融合特征图经重建模块后得到重建结果。

所述粗略融合模块包括：多个伴随激活函数的C3D与瓶颈卷积，这多个伴随激活函数的C3D用于提取低质量压缩视频帧序列中的时空信息；瓶颈卷积从时间维度上融合提取出的时空信息，得到粗略的融合特征图。

所述多级残差融合模块包括并行的三级，分别记为L1级、L2级、L3级，所述L1级包括一个残差块；L2级包括下采样块、多个残差块以及上采样块；L2级包括两个下采样块、多个残差块以及两个上采样块；

L1级中残差块的第一输入为粗略的融合特征图，第二输入为L2级中第一个残差块的输出，该残差块的输出作为L1级的输出结果；

L2级中粗略的融合特征图经下采样块后作为其第一个残差块的第一输入，所述第一个残差块的第二输入为L3级中第一个残差块的输出，其最后一个残差块的输出作为上采样块的输入，上采样块的输出作为L2级的输出结果；

L3级中粗略的融合特征图经两个下采样块后输入至七第一个残差块，最后一个残差块的输出经两个上采样块进行处理后的输出作为L3级的输出结果；

还包括卷积块，将L1级的输出结果、L2级的输出结果、L3级的输出结果相加后输入到该卷积块中，提取全局和局部的精细融合特征。

采用调制可变形卷积得到对齐的融合特征图。

所述重建模块的实现过程为：将经D2D融合模块对齐后的融合特征图输入到重建模块得到增强残差

将增强残差

与当前帧

逐元素相加而得到重建帧

所述网络结构采用端到端的方式进行训练。

训练采用的损失函数为：

其中，

表示原始帧，

表示当前迭代的重建结果，||·||₂表示2范数。

本发明的有益效果：本发明通过由粗到细地融合帧间信息以更好地预测对齐偏移来对当前低质量的帧进行增强，使得压缩视频的主观和客观质量都得到明显的增强；并且本发明的网络不再需要利用光流估计来显示地预测对齐偏移，达到了网络训练更加简单的目的。

附图说明

图1为本发明提出的质量增强网络结构图；

图2为本发明的多级残差融合模块的架构图；

图3为本发明的重建模块的架构图；

图4为序列BasketballPass、RaceHorses和PartyScene在QP＝37时的主观质量对比图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，首先对以下技术术语进行解释：

H.265/HEVC：是继H.264之后所制定的新的视频编码标准，保留了原有的H.264编码标准的某些技术，同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系，以求达到最优化设置。

GOP，Group of pictures(图像组)：指两个I帧之间的距离。

I帧，Intra-coded picture(帧内编码图像帧)：不参考其他图像帧，只利用本帧的信息进行编码。

P帧，Predictive-coded picture(预测编码图像帧)：利用之前的I帧或P帧，采用运动预测的方式进行帧间预测编码。

Low Delay P(LDP)：只有第一帧是I帧编码，而其他的都是P帧编码。

Peak Signal to Noise Ratio(PSNR)：峰值信噪比，一种评价图像的客观标准。

structural similarity(SSIM)：结构相似性，是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构三方面度量图像相似性。

振铃效应：对于图像里的强边缘，由于高频交流系数的量化失真，解码后会在边缘周围产生波纹现象，这种失真被称为振铃效应。

PQF：峰值质量帧，即GOP中的高质量帧，也可以看作是GOP中的I帧。

non-PQF：非峰值质量帧，即GOP中的低质量帧，也可看作是GOP中P帧。

Deformable 2D Convolution(D2D)：可变形2D卷积。

3D Convolution(C3D)：3D卷积。

Rectified Linear Unit(ReLU)：一种激活函数，增加神经网络各层之间的非线性关系。

以下结合附图对本发明的内容做详细阐述：

本发明方案提出的质量增强网络如图1所示，包括四个部分组成：粗略融合模块(Coarse Fusion Module，CFModule)、多级残差融合模块(Multi-level Residual FusionModule，MLRF)、D2D融合模块(D2D Fusion Module，D2DF)和重建模块(ReconstructionModule，REModule)。给定一个含2N+1个连续的低质量的压缩视频帧

序列，其中

是参考帧，其他帧是其相邻帧。本发明的目的是根据原始帧

的压缩帧

推断出高质量的帧

首先将输入序列

经过由p个3DConvolution(C3D)所组成的CFModule来粗略地融合输入帧而得到粗略的融合特征图F_c。然后用一个MLRF模块从不同级生成全局和局部的精细融合特征F_L。

由以上由粗到细生成的融合特征F_L来联合预测所有用于对齐的可变形偏移，而不是像光流估计那样一次仅预测一个偏移。

然后将经D2DF对齐后的融合特征图F_f输入到由几个密集连接块所组成的REModule而得到增强残差

最后增强残差

与当前帧

逐元素相加而得到重建帧

图1中I_TN表示输入的2N+1帧沿着通道拼接后的特征。

以下分别对四个模块进行详细阐述：

粗略融合模块(CFModule)

它由两个伴随着ReLU激活函数的C3D来粗略地提取和融合输入序列

中的时空信息：

其中，H×W表示输入帧的大小，T＝2N+1表示输入序列长度，C表示通道数，O_C3D代表2个C3D操作。

然后用一个1×1的瓶颈卷积(bottleneck)从时间维度上进一步融合提取的特征F_3D∈R^{C′×T×H×W}得到粗略的融合特征图F_c∈R^C″×H×W：

F_c＝O_B(F_3D)

其中，C′表示C3D滤波器的数量，C″表示瓶颈卷积的滤波器的数量，O_B代表瓶颈卷积操作，R表示维度记号，R的右上角的表示多少维，比如这里的R^{C′×T×H×W}表示四维张量。注意，本发明在F_3D输入到瓶颈卷积之前，首先将其转化为3维的张量C·T×H×W。

多级残差融合模块(MLRF)

多级残差融合模块的示意图如图2所示，它包括三个级：L1、L2和L3。

L1级被用来提取与F_c图像大小相同的全局特征，并融合来自L2级相应阶段的输出特征。它主要由一个残差块组成，L1级可以表示为：

其中，

(i＝1,2)分别表示L1和L2级中第一个残差块的输出。

表示L1级第一个残差块操作。O_tc表示转置卷积操作。F_L1表示L1级输出的特征图。

L2级主要由一个下采样块和一个上采样块以及多个残差块组成。与L1级不同，本发明使用一个步长为2的3×3的步长卷积和一个3×3的卷积来对输入的粗略的融合特征F_c进行下采样。然后使用几个残差块来提取和融合来自L3级的特征。最终用一个转置卷积和一个3×3的卷积将提取的特征上采样到F_c图像大小。L2级可以表示为：

其中，

和

分别指一次下采样和一次上采样操作(比例都为2)。

(i＝2，3)分别表示L2和L3级中第一个残差块的输出。

(j＝1,2)分别表示L2级中第一个残差块和第二个残差块操作。F_L2表示L2级输出的特征图。本发明在图2中给出了残差模块具体的实现结构，本领域技术人员应知残差模块为深度学习中的基础模块，其具体实现结构在本实施例中不再做详细阐述。

L3级主要指逐步向上采样的结构，以提取按4的比例向下采样的信息特征。首先，用两个比例为2的下采样块对F_c进行操作。然后下采样的特征被逐步输入到一些残差块和上采样块中。L3级可以表示为：

其中，

和

分别指两次下采样和两次上采样操作(比例都为2)。

指L3级中第一个残差块的输出。

(j＝1,2)分别表示L3级中第一个残差块和第二个残差块操作。F_L3表示L3级输出的特征图。

L2和L3中的残差块个数越多，一般性能越好，但模型越复杂，计算量也越，本实施例中采用2个残差块。

最终，从L1、L2和L3级提取的特征逐元素相加后输入到一个3×3的卷积来融合提取的全局和局部的精细融合特征F_L：

F_L＝O_C(F_L1+F_L2+F_L3)

其中，O_C指卷积操作。

通过以上由粗到细的融合策略，使本发明的网络能够更好地预测生成可变形偏移所需的融合特征。

D2D融合模块(D2DF)

令X和Y分别表示一个常规卷积的输入和输出。对于每一个Y上的位置p，一个卷积操作可以描述为：

其中，p_k代表具有K个采样位置的采样网格，w_k代表每个位置的权重。例如，K＝9和p_k∈{(-1,-1),(-1,0),…,(0,1),(1,1)}表示一个3×3的卷积核。在调制可变型卷积中，预测的偏移和调制掩膜被添加到采样网格中，使卷积核发生空间变化。这里，本发明使用调制可变形卷积“Zhu X,Hu H,Lin S,et al.Deformable convnets v2:More deformable,better results[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2019:9308-9316.”来得到对齐的融合特征图F_f。调制可变型卷积的操作如下：

其中，Δp_k和Δm_k分别是第k个位置可学习的偏移和调制掩膜。I_TN表示输入序列

沿着通道拼接后的特征。卷积将在具有动态权重的不规则位置上进行操作，以实现对输入特征I_TN的自适应采样。相应的可变型采样参数可通过如下学习得到：

其中，

表示一个用于生成可变形偏移ΔP的常规卷积，其滤波器数量为(2N+1)·2k²。

指一个用于生成调制掩膜ΔM的常规卷积，其滤波器数量为(2N+1)·k²。Δp_k∈ΔP，Δm_k∈ΔM。因为Δp_k可能是分数，我们也使用双线性插值，如“Dai J,Qi H,Xiong Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEEinternational conference on computer vision.2017:764-773.”一样。

重建模块(REModule)

所提出的重建模块如图3所示。本发明首先用一个3×3的卷积层来提取对齐后的融合特征图F_f中更有用的特征F_fu：

F_fu＝O_c(F_f)

然后，跟随“Mehta S,Kumar A,Reda F,et al.EVRNet:Efficient VideoRestoration on Edge Devices[J].arXiv preprint arXiv：2012.02228，2020.”，本发明结合特征相减和特征求和作为一个有效避免计算复杂性的操作：

F_fus＝F_fu+D(F_fu-D(F_fu))

其中，D指密集连接操作，即首先用一个ReLU激活函数来增加网络的非线性性，然后依次经过三个卷积层，最终，将不同层的卷积输出和输入沿着通道拼接后作为整个模块的输出。

进一步地，将F_fus输入到一个密集连接块和一个3×3的卷积层来得到不同层的融合特征F_H：

F_H＝O_C([F_fu，D(F_fu)，F_fus，D(F_fus)])

其中，O_C代表一个3x3的卷积操作。最终FH与Ffu逐元素相加后经过两个卷积层而得到增强残差

其中，

代表两个卷积层。

网络的损失函数

在本发明的方法中，粗略融合模块、多级残差融合模块、D2D融合模块和重建模块以端到端的方式联合训练(即原始帧到重建结果的端到端训练方式)，且网络不需要先训练收敛某一子网，因此损失函数只由一项组成。本发明使用L₂-norm作为本发明网络的损失函数：

其中，||·||₂表示2范数。

本实施例定性地和定量地评估了本发明的方法的有效性，其中定量评估则根据ΔPSNR和ΔSSIM与MFQE(Yang R，Xu M，Wang Z，et al.Multi-frame quality enhancementfor compressed video[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018：6664-6673.)、SDTS(Meng X，Deng X，Zhu S，etal.Enhancing quality for VVC compressed videos by joimly exploiting spatialdetails and temporal structure[C]//2019IEEE International Conference on ImageProcessing(ICIP).IEEE，2019：1193-1197.)、MFQE2.0(Guan Z,Xing Q,Xu M,et al.MFQE2.0:A new approach for multi-frame quality enhancement on compressed video[J].IEEE transactions on pattern analysis and machine intelligence,2019.)、MGANet(Meng X,Deng X,Zhu S,et al.Mganet:A robust model for qualityenhancement of compressed video[J].arXiv preprint arXiv:1811.09150,2018.)、MGANet2.0(Meng X,Deng X,Zhu S,et al.A Robust Quality Enhancement Method Basedon Joint Spatial-Temporal Priors for Video Coding[J].IEEE Transactions onCircuits and Systems for Video Technology,2020.)、FastMSDD(Xiao W,He H,Wang T,et al.The Interpretable Fast Multi-Scale Deep Decoder for the Standard HEVCBitstreams[J].IEEE Transactions on Multimedia,2020,22(7):1680-1691.)和STDF(Deng J,Wang L,Pu S,et al.Spatio-temporal deformable convolution forcompressed video quality enhancement[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence.2020,34(07):10696-10703.)进了比较；定性评估则与MFQE2.0和STDF进行了比较。

表1五个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10^-4)的总体比较

定量评估：表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果。可以看出，我们的方法始终优于其他的视频质量增强方法。具体来说，在输入帧半径N＝1和QP＝22时，我们的方法平均ΔPSNR值达到了0.707dB，比STDF-N1(0.556dB)高出27.1％，比MFQE2.0(0.458dB)高出54.4％，比FastMSDD(0.350dB)高出102％。随着输入帧的半径N增加到3时，我们的方法平均ΔPSNR值达到了0.845dB，比STDF(0.646dB)高出30.8％，比MFQE2.0(0.458dB)高出84.5％，比FastMSDD(0.350dB)高出141.4％。

在其他的QP点时，本发明的方法在ΔPSNR和ΔSSIM上也都优于其他的方法。此外，本发明还用BD-rate的降低来对比了网络的性能，如表2所示，本发明的网络的BD-rate平均降低了24.69％，优于先进的方法STDF(21.61％)。

表2和FastMSDD[11]、MFQE[8]、MFQE2.0[3]、STDF[4]的BD-rate(％)比较结果

定性评估：图4展示了序列BasketballPass、RaceHorses和PartyScene在QP＝37时的主观质量表现。从图4中可以看出，本发明的方法相比于MFQE2.0和STDF方法可以减少更多的压缩伪影，实现了更好的视觉体验。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种由粗到细地融合时空信息的压缩视频质量增强方法，其特征在于，所述方法基于的网络结构包括：粗略融合模块、多级残差融合模块、D2D融合模块、重建模块；低质量压缩视频帧序列经粗略融合模块后得到粗略的融合特征图，所述粗略的融合特征图经多级残差融合模块后得到全局和局部的精细融合特征；根据全局和局部的精细融合特征来联合预测所有用于对齐的可变形偏移，D2D融合模块根据可变形偏移得到对齐后的融合特征图，对齐后的融合特征图经重建模块后得到重建结果。

2.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法，其特征在于，所述粗略融合模块包括：多个伴随激活函数的C3D与瓶颈卷积，这多个伴随激活函数的C3D用于提取低质量压缩视频帧序列中的时空信息；瓶颈卷积从时间维度上融合提取出的时空信息，得到粗略的融合特征图。

3.根据权利要求2所述的一种由粗到细地融合时空信息的压缩视频质量增强方法，其特征在于，所述多级残差融合模块包括并行的三级，分别记为L1级、L2级、L3级，所述L1级包括一个残差块；L2级包括下采样块、多个残差块以及上采样块；L2级包括两个下采样块、多个残差块以及两个上采样块；

L3级中粗略的融合特征图经两个下采样块后输入至其第一个残差块，其最后一个残差块的输出经两个上采样块进行处理后的输出作为L3级的输出结果；

4.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法，其特征在于，D2D融合模块采用调制可变形卷积得到对齐的融合特征图。

5.根据权利要求1所述的一种由粗到细地融合时空信息的压缩视频质量增强方法，所述重建模块的实现过程为：将经D2D融合模块对齐后的融合特征图输入到重建模块得到增强残差