CN115409695A

CN115409695A - 基于深度特征融合网络的压缩视频超分辨率

Info

Publication number: CN115409695A
Application number: CN202110579150.2A
Authority: CN
Inventors: 吴晓红; 王越; 何小海; 任超; 陈洪刚; 熊淑华
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-11-29

Abstract

本发明公开了一种基于深度特征融合网络的压缩视频超分辨率方法。主要包括以下步骤：对输入的低分辨率压缩视频序列，将连续五帧作为网络的输入，利用混合卷积块和残差块提取低维度特征信息；通过复原模块中的常微分方程块减少压缩痕迹并得到高维度特征信息；将不同维度特征图融合并输入到重建模块中，利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建，得到高分辨率目标视频帧；在视频数据集中构建训练样本对，完成网络训练并且得到最终模型。本发明所述方法用于把低分辨率的压缩视频重建为高分辨率视频，是一种有效的压缩视频超分辨率重建方法。

Description

基于深度特征融合网络的压缩视频超分辨率

技术领域

本发明涉及压缩视频超分辨率重建技术，具体涉及一种基于深度特征融合网络的压缩视频超分辨率方法，属于图像处理领域。

背景技术

超分辨率的目标是从观测到的低分辨率图像或视频中恢复出高分辨率图像或视频。在一些对图像或视频分辨率和细节要求较高的领域，如医学成像、到遥感成像和卫星检测等，都有着广泛的应用。目前大多数常用的视频超分辨率算法都是针对经过下采样后的降质视频帧。然而，由于硬件成本、存储容量、传输带宽和响应时间等方面的限制，安全和流量监控系统以及互联网应用通常只能获取低分辨率的压缩视频，视频质量的进一步下降也增大了复原和重建的难度。另外，压缩带来的噪声通常与视频帧本身的内容有很强的相关性，如果直接重建包含两种退化(压缩和下采样)的视频帧或在超分辨率前简单去除压缩伪影，往往会放大噪声、丢失重要信息或降低超分辨率性能。

发明内容

本发明是利用卷积神经网络提取和融合时空信息特征和常微分方程网络减少压缩痕迹，进而构建一种有效的压缩视频超分辨率方法。

本发明提出的基于深度特征融合网络的压缩视频超分辨率，主要包括以下操作步骤：

(1)对输入的低分辨率压缩视频序列，将连续五帧作为网络的输入，然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息；

(2)输入得到的低维度特征到复原模块中，利用常微分方程(ODE)模块减少压缩痕迹，并通过一层卷积层后计算该输出与没有压缩过的低分辨率目标视频帧之间的损失；

(3)将原始特征图、步骤一和步骤二的输出这些不同维度的特征图融合在一起得到特征信息；

(4)输入步骤三和步骤二的输出结果到重建模块中，利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建，得到最终的高分辨率目标视频帧；

(5)在视频数据集中构建训练样本对，训练网络参数，当重建的高分辨率视频帧计算模型的损失函数最小时，完成网络训练并且得到最终模型。

附图说明

图1是本发明基于深度特征融合网络的压缩视频超分辨率的框图。

图2是本发明网络中常微分方程块的框图。

图3是本发明与另外六种方法对测试视频“BQMall”重建结果对比图，其中(a)是原始高分辨率图像，(b)是双三次插值的重建结果，(c)到(g)是方法1到6的重建结果，(h)是本发明的重建结果。

图4是本发明与另外六种方法对测试视频“PartyScene”重建结果对比图，其中(a)是原始高分辨率图像，(b)是双三次插值的重建结果，(c)到(g)是方法1到6的重建结果，(h)是本发明的重建结果。

具体实施方式

下面结合附图对本发明作进一步说明：

图1中，基于深度特征融合网络的压缩视频超分辨率，具体可以分为以下五个步骤：

(3)将原始特征图、步骤一和步骤二的输出这些不同维度的特征图通过融合块融合在一起得到特征信息；

(5)训练网络参数，当重建的高分辨率视频帧计算模型的损失函数最小时，完成网络训练并且得到最终模型；

具体地，所述步骤(1)中，对原始视频序列进行双三次下采样，获得低分辨率视频序列，使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码，获得低分辨率压缩视频序列。将连续五帧低分辨率压缩视频帧作为网络的输入，然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息。

所述步骤(2)中，搭建的常微分方程模块结构如图2所示。

在数学上常微分方程(ODE)的定义为：

dy/dx＝f(x,y)

其中x和y分别为自变量和因变量。动态系统的映射关系可用ODE表示为：

Ψ(y₀,x)＝y(x:y₀)

其中Ψ是映射关系，y₀是输入特征的初始状态。假设p(y0)是输入特征y₀在域中的分布Ω。如果将补偿视频高频信息的过程视为一个动态系统，则解决方案是最小化以下方程：

L＝∫_Ω/Ψ(y₀,x)-y/dp(y₀)

当系统是非线性时，在许多情况下很难用简单的公式来描述映射关系。因此，在求解问题时，通常用差分近似代替微分，其中最简单的方法是前向欧拉法。将区间[0,T]作N等分，h称为步长，x_n＝n*h(n＝0,1,2,...,N)称为节点，f(x,y)的近似值可表示为f(x,y)≈yn+1-yn/h。因此，前向欧拉法的公式定义为：

f(x,y)≈yn+1-yn/h

当表示第y_n个残差块的输入，而y_n+1表示输出时，残差块有类似的表达形式：

y_n+1＝y_n+S(y_n)

S(y_n)＝h*f(x_n,y_n)

其中S(·)表示残差操作。上述前向欧拉算法是一个简单的一阶数值方法，不稳定且精度不高，所以将其改为二阶Velocity Verlet算法表示为：

y_n+2＝y_n+h*(y'_n+y'_n+2)

其中h＝1。

为了获得特定的块结构并保持其灵活性，将上述二阶Velocity Verlet算法过程分为三个公式，形成一个块结构，可以表示为：

y_n+1＝y_n+2*y'_n

y_n+2＝y_n+2*y'_n+1

y_n+2＝y_n+(y'_n+y'_n+2)

其中，求导过程解释为通过一个参数修正线性单元PReLU和一个3×3的卷积层。

所述步骤(3)中，搭建的融合块块结构如图1所示。不同维度特征提取同时利用了帧内空间信息和帧间时间信息，将原始特征图、低维度特征图和高维度特征图三个不同深度的特征图通过融合块融合在一起，增强了时空信息，有效防止细节信息丢失。然后将融合后的特征映射与复原模块的输出串联，作为重建模块的输入。

所述步骤(4)中，通道注意力机制根据通道的重要性对提取的特征进行重缩放，即对不同的信道赋予不同的权值，有助于对重要信息给予更多的关注，而像素注意机制生成特征映射中所有像素的注意系数。利用自适应通道注意力和像素注意力模块，能有效获得高频信息重建的中间信息特性，提高重建结果质量。

所述步骤(5)中，输入连续视频帧序列到步骤(4)中训练好的网络模型中，得到超分辨率重建结果。为了更好地说明本发明的有效性，在常用测试视频中选择了“BQMall”和“PartyScene”测试集。我们对原始视频序列进行双三次下采样，获得低分辨率视频序列，使用HM 16.0对低分辨率视频序列在量化参数(QP)为32,37,42,47下进行编码，获得低分辨率压缩视频序列。实验中，选择双三次插值Bicubic和两种“一步法”和其他三种“两步法”压缩视频超分辨率方法作为对比。

选择的算法为：

算法1：Guan等人提出的方法，参考文献“MFQE 2.0:A new approach for multi-frame quality enhancement on compressed video.IEEE Transactions on PatternAnalysis and Machine Intelligence.2019”。

算法2：Wang等人提出的方法，参考文献“Deep video super-resolution usingHR optical flow estimation.IEEE Transactions on Image Processing 29:4323-4336,2020”。

算法3：Zhao等人提出的方法，参考文献“Efficient image super-resolutionusing pixel attention.arXiv preprint arXiv:2010.01073,2020.”。

算法4：Ho等人提出的方法，参考文献“Down-sampling based video coding withdegradation-aware restoration-reconstruction deep neural network.In:International Conference on Multimedia Modeling.Springer,Cham.99-110,2020”。

算法5：Ho等人提出的方法，参考文献“RR-DnCNN v2.0:Enhanced Restoration-Reconstruction Deep Neural Network for Down-Sampling-Based Video Coding.IEEETransactions on Image Processing 30:1702-1715,2021”。

对比的压缩视频超分辨率重建方法为：

方法1：算法1+双三次插值(Bicubic)

方法2：算法1+算法2

方法3：算法1+算法3

方法4：算法4

方法5：算法5

实验1，分别用双三次插值Bicubic，方法1到5，以及本发明对降质后得到的低分辨率压缩测试视频的2倍重建。超分辨率重建结果分别由图3到图4所示。重建结果的客观评价结果如表1所示。PSNR(Peak Signal to Noise Ratio，单位dB)和SSIM(StructureSimilarity Index)分别用来评价重建效果，PSNR/SSIM的数值越高表明重建效果越好。

从表1可以看出，本发明取得了较高的PSNR和SSIM。从图3和图4中可以看出，本发明重建的结果具有清晰自然的边缘，展现出更多细节，而对比度算法的重建结果在主观视觉效果上存在一定的伪影和较模糊的边缘。综上所述，相比于对比方法，本发明的重建结果在主客观评价上都取得了较大的优势。因此本发明是一种有效的压缩视频超分辨率重建方法。

表1

Claims

1.基于深度特征融合网络的压缩视频超分辨率，其特征在于包括以下步骤：

步骤一：低维度特征提取；具体地，对输入的低分辨率压缩视频序列，将连续五帧作为网络的输入，然后利用2D/3D混合卷积块和残差网络初步提出低维度特征信息；

步骤二：复原模块；具体地，将得到的低维度特征作为复原网络的输入，利用常微分方程(ODE)块减少压缩痕迹，并通过一层卷积层后计算该输出(高维度特征)与没有压缩的低分辨率目标视频帧之间的损失；

步骤三：不同维度特征提取；具体地，将原始特征图、低维度特征图和高维度特征图通过融合块融合在一起得到不同维度特征信息；

步骤四：重建模块；具体地，将步骤三和步骤二的输出结果合并作为重建模块的输入，利用自适应通道注意力和像素注意力模块和亚像素卷积层上采样完成超分辨率重建，得到最终的高分辨率目标视频帧；

步骤五：在视频数据集中构建训练样本对，训练网络参数，当重建的高分辨率视频帧计算模型的损失函数最小时，完成网络训练并且得到最终模型。

2.根据权利要求1所述的基于深度特征融合网络的压缩视频超分辨率，其特征在于步骤二中利用常微分方程(ODE)块减少压缩痕迹，具体地，利用视频去压缩过程输入输出相似度高的特点，从动态系统角度引入常微分方程理论，用常微分方程代替残差块，将常规的一阶前向欧拉算法改为二阶Velocity Verlet算法，并将算法过程分为三个公式，形成一个块结构，过程表示为：y_n+1＝y_n+2*y'_n，y_n+2＝y_n+2*y'_n+1，y_n+2＝y_n+(y'_n+y'_n+2)，式中，y_n表示ODE块的输入，y_n+1和第一个y_n+2表示中间过程输出，求导过程解释为通过一个参数修正线性单元(PReLU)和一个3×3的卷积层。

3.根据权利要求1所述的基于深度特征融合网络的压缩视频超分辨率，其特征在于步骤三中使用融合块将原始特征图、低维度特征图融合后再与深层特征融合，以获得不同维度特征信息，防止大量细节信息丢失，提高后续重建质量。