CN116977163A

CN116977163A - 基于增强交互时空网络的压缩视频超分辨率方法

Info

Publication number: CN116977163A
Application number: CN202210409554.1A
Authority: CN
Inventors: 何小海; 程俊雄; 熊淑华; 任超; 张廷蓉; 陈洪刚; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-10-31

Abstract

本发明公开了一种基于增强交互时空网络的压缩视频超分辨率方法。主要包括以下步骤：对输入的低分辨率压缩视频序列，将连续的五帧作为网络的输入，利用多个帧间信息提取单元提取相邻两帧的低维度特征，同时利用基于像素重排的非局部模块来提取连续五帧的自相似性；通过前向传播和后向传播来传递并聚合低维度特征，以减少压缩痕迹；将不同层级的特征信息输入到重建模块，利用通道重校准机制来融合和细化高维度特征；利用亚像素卷积实现上采样过程，得到高分辨率视频帧；构建训练样本对，完成网络训练并得到最终模型。本发明所述的方法能够很好地去除视频的压缩痕迹并实现分辨率的提升，是一种有效的压缩视频超分辨率重建方法。

Description

基于增强交互时空网络的压缩视频超分辨率方法

技术领域

本发明涉及压缩视频超分辨率重建技术，具体涉及一种基于增强交互时空网络的压缩视频超分辨率方法，属于图像处理领域。

背景技术

超分辨率重建通过软件技术将已有的降质图像或视频进行重建处理，在提升分辨率的同时恢复图像或视频帧丢失的高频细节，具有成本低、实用性强的特点，成为图像处理领域的研究热点。现阶段，面向非压缩视频的常规超分辨率重建方法已经得到了广泛的研究。然而，在实际应用中观测到的视频往往同时受到下采样以及压缩降质的影响，视频质量的进一步下降也增加了超分重建任务的难度。另外，压缩带来的噪声通常与视频帧本身的内容有很强的相关性，常规意义上的超分重建可能难以平衡压缩噪声抑制和细节保留，往往会放大噪声甚至导致较差的超分辨率性能。

发明内容

本发明的目的就是为了解决上述问题而提供一种基于增强交互时空网络的压缩视频超分辨率方法。本发明使用深度学习网络，构建了一个端到端的卷积神经网络，将压缩视频的超分辨率过程隐式地分为去压缩部分和重建部分，使得网络可在提升图像分辨率的同时，有效去除视频中的压缩伪影，同时恢复压缩和下采样降质过程中损失的高频细节。

本发明提出的基于增强交互时空网络的压缩视频超分辨率方法，主要包括以下操作步骤：

(1)对输入的低分辨率压缩视频序列，将相邻两帧作为帧间信息提取单元的输入，然后利用光流估计、扭曲对齐和残差网络初步提取低维度特征；

(2)将连续五帧作为引导网络的输入，利用基于像素重组的非局部块提取帧间相似信息，并通过残差块得到引导信息；

(3)将低维度特征、引导信息输入到前向传播和后向传播两个分支，融合得到高维度特征输出，通过一层卷积层得到低分辨率视频帧，并计算其与没有压缩的低分辨率目标视频帧之间的损失；

(4)将不同层级的特征信息和步骤三中得到的低分辨率视频帧作为重建模块的输入，利用多通道自校准模块和亚像素卷积层上采样完成超分辨率重建，得到最终的高分辨率目标视频帧；

(5)构建训练样本对，采用最小化损失函数的方法训练网络参数，当重建的高分辨率视频帧计算模型的损失函数最小时，完成网络训练并且得到最终模型。

附图说明

图1是本发明基于增强交互时空网络的压缩视频超分辨率方法的原理框图。

图2是本发明网络中多通道自校准模块的框图。

图3是本发明与另外六种方法对测试视频“BQMall”重建结果对比图，其中(a)是原始高分辨率图像，(b)是双三次插值的重建结果，(c)到(g)是方法1到5的重建结果，(h)是本发明的重建结果。

图4是本发明与另外六种方法对测试视频“Cactus”重建结果对比图，其中(a)是原始高分辨率图像，(b)是双三次插值的重建结果，(c)到(g)是方法1到5的重建结果，(h)是本发明的重建结果。

具体实施方式

下面结合附图对本发明作进一步说明：

图1中，基于增强交互时空网络的压缩视频超分辨率方法，具体可以分为以下五个步骤：

(1)对输入的低分辨率压缩视频序列，将相邻两帧作为帧间信息提取单元的输入，然后利用光流估计模块、扭曲对齐模块和残差模块初步提取低维度特征；

(2)将连续五帧作为引导网络的输入，利用基于像素重组的非局部块提取帧间相似信息，并通过残差模块得到引导信息；

(5)采用最小化损失函数的方法训练网络参数，当重建的高分辨率视频帧计算模型的损失函数最小时，完成网络训练并且得到最终模型；

具体地，所述步骤(1)中，对原始视频序列进行双三次下采样，获得低分辨率视频序列，使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码，获得低分辨率压缩视频序列。将连续五帧低分辨率压缩视频帧作为整个网络的输入，将相邻两帧作为帧间信息提取单元的输入，然后利用光流估计、扭曲对齐和残差网络初步提取低维度特征，整个过程用公式表示如下：

其中，x_i,x_i+1表示相邻两帧，S(·),W(·),R(·)分别表示光流估计模块、扭曲对齐模块和残差模块，分别表示其对应的输出。

所述步骤(2)中，搭建的基于像素重组的非局部引导模块结构如图1所示。将连续五帧作为非局部网络模块的输入，利用像素采样和重组得到子图张量，并将子图张量送入非局部模块，利用帧内帧间冗余的相似信息补偿和修正缺失的细节，最后并通过残差块得到引导信息：

g_i＝F_p(X),

其中，X表示输入的连续五帧，F_p表示基于像素重组的非局部引导模块，g_i表示输出的引导信息。

所述步骤(3)中，将低维度特征、引导信息输入到前向传播和后向传播两个分支，利用非局部信息来引导双向传播分支对长距离视频帧信息的传递和融合，可得到高维度特征输出：

其中，F_b,F_f分别表示反向传播分支和前向传播分支，M(·)表示多通道自校准模块。

然后通过一层卷积层得到低分辨率视频帧，并计算其与没有压缩的低分辨率目标视频帧之间的损失；增强了时空信息，实现了压缩效应的去除和高频细节信息的保留。

所述步骤(4)中，搭建的多通道自校准模块结构如图2所示。多通道自校准模块根据通道的重要性对提取的特征进行重缩放，即对不同的信道赋予不同的权值，有助于对重要信息给予更多的关注。利用多通道自校准模块对步骤(3)中的特征进行自适应性融合和再利用：

其中，M_k(·)表示第k个多通道自校准模块的作用函数，u_k表示第第k个多通道自校准模块的输出。通过对浅层特征的引入和自适应再融合，有效地防止大量细节信息在深度网络中丢失，提高后续重建质量。

所述步骤(5)中，输入连续视频帧序列到训练好的网络模型中，得到超分辨率重建结果。

为了更好地说明本发明的有效性，在常用测试视频中选择了“BQMall”和“Cactus”测试集。我们对原始视频序列进行双三次下采样，获得低分辨率视频序列，使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码，获得低分辨率压缩视频序列。实验中，选择双三次插值Bicubic和两种“一步法”和其他三种“两步法”压缩视频超分辨率方法作为对比。

选择的算法为：

算法1：Guan等人提出的方法，参考文献“Spatio-temporal deformableconvolution for compressed video quality enhancement[C]//Proceedings of theAAAI conference on artificial intelligence.2020,34(07):10696-10703.”。

算法2：Wang等人提出的方法，参考文献“Deep video super-resolution usingHR optical flow estimation.IEEE Transactions on Image Processing 29:4323-4336,2020”。

算法3：Zhao等人提出的方法，参考文献“Efficient image super-resolutionusing pixel attention[C]//European Conference on Computer Vision.Springer,Cham,2020:56-72.”。

算法4：Ho等人提出的方法，参考文献“Down-sampling based video coding withdegradation-aware restoration-reconstruction deep neural network.In:International Conference on Multimedia Modeling.Springer,Cham.99-110,2020”。

算法5：Ho等人提出的方法，参考文献“RR-DnCNN v2.0:Enhanced Restoration-Reconstruction Deep Neural Network for Down-Sampling-Based Video Coding.IEEETransactions on Image Processing 30:1702-1715,2021”。

对比的压缩视频超分辨率重建方法为：

方法1：算法1+双三次插值(Bicubic)

方法2：算法1+算法2

方法3：算法1+算法3

方法4：算法4

方法5：算法5

实验1，分别用双三次插值Bicubic，方法1到5，以及本发明对降质后得到的低分辨率压缩测试视频的2倍重建。超分辨率重建结果分别由图3到图4所示。重建结果的客观评价结果如表1所示。PSNR(Peak Signal to Noise Ratio，单位dB)和SSIM(StructureSimilarity Index)分别用来评价重建效果，PSNR/SSIM的数值越高表明重建效果越好。

从表1可以看出，本发明取得了较高的PSNR和SSIM。从图3和图4中可以看出，本发明重建的结果具有清晰自然的边缘，展现出更多细节，而对比度算法的重建结果在主观视觉效果上存在一定的伪影和较模糊的边缘。综上所述，相比于对比方法，本发明的重建结果在主客观评价上都取得了较大的优势。因此本发明是一种有效的压缩视频超分辨率重建方法。

表1

Claims

1.基于增强交互时空网络的压缩视频超分辨率方法，其特征在于包括以下步骤：

步骤一：构建帧间信息提取单元，用于低维度特征提取；具体地，对输入的低分辨率压缩视频序列，将相邻两帧作为帧间信息提取单元的输入，然后利用光流估计、扭曲对齐和残差网络初步提取低维度特征；

步骤二：引导模块；具体地，将连续五帧作为引导网络的输入，利用基于像素重组的非局部块提取帧间相似信息，并通过残差块得到引导信息；

步骤三：增强交互模块；具体地，将低维度特征、引导信息输入到前向传播和后向传播两个分支，融合得到高维度特征输出，通过一层卷积层得到低分辨率视频帧，并计算其与没有压缩的低分辨率目标视频帧之间的损失；

步骤四：重建模块；具体地，将不同层级的特征信息和步骤三中得到的低分辨率视频帧作为重建模块的输入，利用多通道特征自校准模块和亚像素卷积层上采样完成超分辨率重建，得到最终的高分辨率目标视频帧；

步骤五：构建训练样本对，采用最小化损失函数的方法训练网络参数，当重建的高分辨率视频帧计算模型的损失函数最小时，完成网络训练并且得到最终模型。

2.根据权利要求1所述的基于增强交互时空网络的压缩视频超分辨率方法，其特征在于步骤一中利用帧间信息提取单元提取低维度特征，具体地，利用光流估计网络计算相邻两帧之间的光流，然后进行特征层面的扭曲对齐，最后利用堆叠的残差块提取低维度特征。

3.根据权利要求1所述的基于增强交互时空网络的压缩视频超分辨率方法，其特征在于步骤三中将引导信息和低维度特征作为输入，利用非局部信息来引导双向传播分支对长距离视频帧信息的传递和聚合。

4.根据权利要求1所述的基于增强交互时空网络的压缩视频超分辨率方法，其特征在于步骤四中将步骤三中不同层级的特征作为输入，使用多通道特征自校准模块进行自适应性融合和再利用，防止大量细节信息丢失，提高后续重建质量。