CN114827616B

CN114827616B - 一种基于时空信息平衡的压缩视频质量增强方法

Info

Publication number: CN114827616B
Application number: CN202210460169.XA
Authority: CN
Inventors: 叶茂; 王泽洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-03-10
Anticipated expiration: 2042-04-28
Also published as: CN114827616A

Abstract

本发明公开一种基于时空信息平衡的压缩视频质量增强方法，应用于视频处理领域，针对现有压缩技术存在的视频质量下降的问题；本发明采用了一个可即插即用的时空信息平衡模块，通过提取空间特征与时间特征，并对提取的时间特征与空间特征在特征空间中再次对齐；能够有效的去除对齐引入的噪声以及冗余的时间信息；同时能够自适应平衡时空信息占比，解决了PQF与non‑PQF的统一建模问题。能显著提高现有的视频质量增强方法的效果。

Description

一种基于时空信息平衡的压缩视频质量增强方法

技术领域

本发明属于视频处理领域，特别涉及一种视频压缩技术。

背景技术

现在最常用的H.265/HEVC标准，都是采用基于块的混合编码框架，其核心过程包括：预测编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相关性，导致编码重建图像呈现方块效应，即人眼可以感知到块边界的明显不连续性(当步长较大且比特率较低时，这些效果更加明显)；同时，量化是基于变换域中的块扩展，这个量化过程是不可逆的。另外，运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中误差的积累，上述效应也会影响后续帧的编码质量，从而导致视频图像的客观评价质量下降，和人眼主观的感知质量降低。

为了解决压缩视频后导致的主观和客观质量下降的问题，有研究者提出了基于深度学习的压缩视频质量增强方法。近年来，与基于单帧的算法相比，压缩视频的多帧质量增强算法的性能有了很大的提高。然而，现有的方法主要集中于挖掘多帧的时间信息。大量参考帧减少了对空间信息的占比，然而现有的基于单帧的增强、去噪和超分辨率算法都证明了空间信息的重要性。

相关现有技术如下：

北京航空航天大学徐迈、杨韧、王祖林的发明《一种基于卷积神经网络的图像或视频质量增强方法》，公开号为：公开号CN107481209A。该专利设计了两个不同复杂度的卷积神经网络，由用户根据设备的情况来选择网络，两个网络的区别只是卷积神经网络的参数量的不同。该方案由于没有使用视频的相邻帧作参考，缺少时间信息，故质量增强结果有限。

复旦大学；上海哔哩哔哩科技有限公司许燚、高龙文、田凯、周水庚、孙胡杨的发明《视频质量增强方法和系统》，公开号为：CN112584158A；使用None-local替代了显示的运动补偿，虽然有更好的效果，但计算量显著增加。使用LSTM可捕获长时间范围的信息，但相对而言也增加了运算量。总的来说模型复杂度过高，效率较为低下。

北京航空航天大学徐迈、杨韧、刘铁、李天一、方兆吉的发明《一种有损压缩视频的多帧质量增强方法及装置》，公开号为：公开号CN108307193A。虽然该发明考虑到了相邻帧间的时间信息，但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet)，其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现帧与帧之间的对齐。然而光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入新的伪影。同时精确的光流估计本身就是具有挑战性的和耗时的，因此该发明质量增强的效果仍有限。且为PQF单独使用了一个模型，虽然能提高对PQF的增强效果，但会显著增加计算成本。

综上，由于存储设备以及传输带宽的限制，视频通常会以有损的方式被压缩。然而，有损编码虽然降低了视频的大小，但却不可避免的引入了噪声与伪影，这些噪声除了会降低用户体验质量外，也会影响一些计算机视觉任务的算法性能；现有的视频增强方法大致可以分为单帧增强与多帧增强两种，单帧增强方法虽可以同时应用于图像上，但忽略了视频中的帧间信息，增强效果有限。多帧方法利用了视频的时间信息，但在很大程度上忽略了空间信息。

发明内容

为解决上述技术问题，本发明提出一种基于时空信息平衡的压缩视频质量增强方法，采用一个即插即用的时空信息平衡(STIB)模块来自适应地平衡时空信息。本模块还细化了时间信息，以更有利于时空信息的融合。实验表明，该模块能够显著提高现有多帧增强算法的性能。

本发明采用的技术方案为：一种基于时空信息平衡的压缩视频质量增强方法，包括：

S1、将当前帧及其前后r帧组成的序列进行对齐后；

S2、将经步骤S1对齐后的结果以及当前帧输入时空信息平衡模块；

S3、根据时空信息平衡模块的输出与当前帧，得到增强帧。

所述时空信息平衡模块的结构包括：空间特征提取模块、特征细化模块、再对齐模块以及卷积模块，所述空间特征提取模块采用残差网络提取当前帧的空间特征；所述特征细化模块采用空间掩膜生成器提取经步骤S2对齐后的结果的时间特征；所述再对齐模块包括浅层网络与可变形卷积，通过浅层网络预测空间特征与时间特征的偏移量，可变形卷积根据偏移量得到对齐后的时间特征；卷积模块根据空间特征与对齐后的时间特征，得到平衡后的时空信息。

所述残差网络包括一层卷积与3层残差块。

空间特征的表达式为：

其中，

表示x_t对应的空间特征，

表示残差网络，x_t表示当前帧。

特征细化模块提取的时间特征表达式为：

其中，rf表示x_t对应的时间特征，⊙表示哈达玛积，

表示空间掩膜生成器，f表示当前帧及其前后r帧组成的序列进行对齐后的结果。

所述浅层网络包括一层卷积与2层残差块。

偏移量的计算式为：

δ＝Conv(Concat(c⁰+r¹+r²))

其中，δ表示偏移量，Concat表示连接操作，

表示第i个残差块，i＝1,2，c⁰、r¹、r²分别表示卷积层及两个残差块的输出。

对齐后的时间特征表达式为：

其中，rf′表示对齐后的时间特征，

表示可变形卷积。

采用的损失函数，具体公式为：

其中

为增强后的帧，y_t为x_t在编码前的原始帧，∈为一个固定常量，∈大小设置为10^-6。

本发明的有益效果：本方案提出了一个可即插即用的时空信息平衡模块，加入到现有的多帧视频增强算法中能够有效的去除对齐引入的噪声以及冗余的时间信息。同时能够自适应平衡时空信息占比，解决了PQF与non-PQF的统一建模问题。能显著提高现有的视频质量增强方法的效果。

附图说明

图1为本发明的时空信息平衡模块的应用场景示意图；

其中，(a)为传统的多帧视频质量增强算法架构图，(b)为本发明的方法的应用场景；

图2为本发明的架构图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，首先对以下技术术语进行说明：

H.264/AVC：H.264是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组提出的高度压缩数字视频编解码器标准。

H.265/HEVC：是继H.264之后所制定的新的视频编码标准，保留了原有的H.264编码标准的的某些技术，同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系，以求达到最优化设置。

量化：指将信号的连续取值(或大量可能的离散取值)映射为有限多个离散取值的过程，实现信号取值多对一的映射。

振铃效应：对于图像里的强边缘，由于高频交流系数的量化失真，解码后会在边缘周围产生波纹现象，这种失真被称为振铃效应。

I帧，Intra-coded picture(帧内编码图像帧)：不参考其他图像帧，只利用本帧的信息进行编码。

P帧，Predictive-coded picture(预测编码图像帧)：利用之前的I帧或P帧，采用运动预测的方式进行帧间预测编码。

GOP，Group of pictures(图像组)：指两个I帧之间的距离。

PQF：峰值质量帧，即GOP中的高质量帧，也可以看作是GOP中的I帧。

non-PQF：非峰值质量帧，即GOP中的低质量帧，也可看作是GOP中P帧。

Random Access(RA)：随机接入编码模式，对于实现信道切换、寻道操作和动态流服务至关重要，适用于广播及流媒体等的应用需求。

Low Delay P(LDP)：只有第一帧是I帧编码，而其他的都是P帧编码。

Peak Signal to Noise Ratio(PSNR)：峰值信噪比，一种评价图像的客观标准。

structural similarity(SSIM)：结构相似性，是一种全参考的图像质量评价指标，它分别从亮度、对比度、结构三方面度量图像相似性。

以下结合附图对本发明的内容进行阐述：

本发明提出了一个时空信息平衡(Spatio-Temporal Information Balance)模块，简称STIB模块。该模块可在现有的多帧视频增强算法上即插即用，具体使用方法如图1所示。图1(a)为现有的主流多帧视频增强方法的架构图，包含一个对齐模块以及一个增强模块。图1(b)为现有方法加入本发明的模块后的架构图，如图1所示，本发明方法可以轻松加入到现有的方法中，实现即插即用。

使用

表示一个一共有N帧图像的待增强视频，x_n表示视频中的第n帧图像。本发明在YUV/YCbCr色彩空间上对亮度分量进行增强。假设视频的分辨率为H×W，则

当增强第t帧x_t时，本发明会选择其相邻的2r帧作为参考帧，本发明将这2r+1帧表示为X＝{x_t-r,…,x_t,…,x_t+r}。

图1(a)描述了传统的视频增强架构，即对齐-增强架构，用公式表述为：

其中

和

分别为质量增强的输出和对齐模块的输出。本发明的模块可以轻松加入到现有的对齐-增强架构的视频增强算法中。如图1(b)所示，对齐后的帧不再直接送入到增强模块中，而是与压缩的当前帧一同送入本发明的STIB模块中进行时空重组。这一过程可描述为：

其中

为本发明提出的时空信息平衡(STIB)模块。

图2为本发明的STIB模块的网络架构。本发明的模块可以分为四个子模块：空间特征提取，特征细化模块、再对齐模块以及卷积模块。为了证明本发明方法的有效性，本发明没有使用复杂的网络结构，如非特别说明，网络中所有的卷积核大小均为3×3，激活函数一律使用ReLU。下面是四个子模块的具体细节。

空间特征提取模块：

对于LD与RA编码模式，视频质量会有波动，在对PQF进行增强时，其参考帧要么质量更低，要么时间间隔很远，这表明PQF帧的增强更应考虑使用空间信息而非时间信息，MFQE1.0与MFQE2.0都使用了独立的模型来增强PQF，而在STDF中没有考虑这一问题。为了解决这一问题，本发明需要自适应平衡时空信息的占比。f中包含空间信息但并不多，这使得本发明难以直接在f中挖掘空间信息。所以本发明使用了一个深度特征提取模块，重新对x_t进行了特征提取，公式如下：

其中，Conv表示卷积，

是一个由一层卷积及3层残差块组成的残差网络。三个改进的残差块用于加深网络，以提取更丰富的空间信息。每个残差块由两层卷积和中间的ReLU激活函数组成。与原始残差块相比不含BN层。

特征细化模块：

如上所述，参考帧中会有冗余信息，同时对齐会引入噪声和伪影。因此，有必要对时间信息进行处理。本发明利用空间注意机制设计了一个模块来细化对齐特征。使用公式可以描述为

其中⊙表示哈达玛积，

是一个由m层卷积堆叠而成且最后一层由Sigmoid函数激活的空间掩膜生成器，f为对齐模块的输出。将f作为特征细化模块的输入，

会生成一个与f具有相同维度相同大小的掩膜M，将f与M计算哈达玛积可以得到细化后的时间特征rf。

空间注意力机制能有效捕捉到本发明感兴趣的区域。空间掩膜对重要的像素分配更高的权重，这有利于消除空间特征中的冗余信息。

再对齐模块：

在空间特征提取和时间信息细化之后，细化的时间特征rf将与空间特征

在特征空间中对齐。对齐有利于时空信息的融合。再对齐模块的公式描述为：

其中

表示可变形卷积，δ为基于特征rf和

预测的偏移量。

为了减少参数量，本发明使用了由卷积和残差块组成的浅层网络

来预测偏移量δ。如图2所示，本发明将网络不同层的输出连接在一起，以共同预测偏移量，从而可以对齐不同量级的运动。可有公式表述为

δ＝Conv(Concat(c⁰+r¹+r²))

其中，Concat表示连接操作，

表示第i个残差块，c⁰,r¹和r²分别表示卷积层及两个残差块的输出。网络最终的输出O可表示为

将rf′与

连接后作为输入，使用一个简单的通道注意力模块

完成信息选择，输出时空融合信息O。

x_t与O相加可得增强后的帧

网络的损失函数：

本发明使用Charbonnier Loss作为本发明模型的损失函数，具体公式为

其中

为增强后的帧，y_t为x_t在编码前的原始帧，∈大小设置为10^-6。

本发明在MFQE2.0数据集上进行实验。它由108个训练视频和18个测试视频组成。这些视频的分辨率从352×240到2560×1600。所有序列用HM16.5在Low Delay P(LDP)配置下进行压缩。分别在4个不同的Quantization Parameters(QPs)下进行了压缩(即22、27、32、37)，来评估不同程度压缩后模型的性能。

本发明使用RFDA作为本发明的基线模型，同时去掉了RFDA中的RF模块，原因是RF模块参数量较大且对模型整体带来的增益较低。本发明的实验基于RFDA+STIB进行。

在训练过程中，本发明将原始序列(及未压缩过的原始帧y_t)和压缩序列裁剪成128×128大小的patch作为训练对，batch size设置为32。本发明选择6个相邻帧作为参考帧(即时域半径R＝3)，本发明使用旋转和翻转作为数据增加策略来进一步地扩大数据集。用β₁＝0.9,β₂＝0.999和ε＝1×10^-8的Adam作为优化器来训练本发明的模型3×10⁵个迭代次数。学习率设置为3×10^-4并在整个训练过程中不变。本发明首先从头开始训练QP＝37的模型，然后对于其他QPs的模型从该训练好的模型进行微调以节约训练时间。所提出的模型由PyTorch实现，并在NVIDIA GeForce RTX 1080Ti GPUs上进行训练。

本发明定量地评估了本发明的方法的有效性，根据ΔPSNR和ΔSSIM与ARCNN、DnCNN、DS-CNN、MFQE1.0、MFQE2.0、STDF-R3L和RFDA等方法进行了比较。

表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果。从表1中可以看出，所有的多帧质量增强方法都比单帧质量增强方法更好，因为利用了时间信息。同时，本发明所提出的STIB方法在4个QPs上始终优于其他先进的视频质量增强方法。这证明了本发明所提出了质量增强模块能够进一步地促进高频信息的恢复从而提高重建性能。

此外，本发明还用BD-rate的降低来对比了网络的性能，如表2所示，本发明以HEVC作为参考计算了MFQE1.0、MFQE2.0、STDF-R3L和RFDA等方法的BD-rate，结果显示本发明的方法优于现有的其他方法。

表1四个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10^-4)的总体比较

表2和MFQE1.0、MFQE2.0、STDF-R3、STDF-R3L的BD-rate(％)比较结果

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于时空信息平衡的压缩视频质量增强方法，其特征在于，包括：

S1、将当前帧及其前后r帧组成的序列进行对齐后；

S2、将经步骤S1对齐后的结果以及当前帧输入时空信息平衡模块；所述时空信息平衡模块的结构包括：空间特征提取模块、特征细化模块、再对齐模块以及卷积模块，所述空间特征提取模块采用残差网络提取当前帧的空间特征；所述特征细化模块采用空间掩膜生成器提取经步骤S1对齐后的结果的时间特征；所述再对齐模块包括浅层网络与可变形卷积，通过浅层网络预测空间特征与时间特征rf的偏移量δ，根据时间特征rf和偏移量δ进行可变形卷积得到对齐后的时间特征；卷积模块根据空间特征与对齐后的时间特征，得到平衡后的时空信息；

空间特征提取模块：使用一个深度特征提取模块，重新对x_t进行了特征提取，公式如下：