CN113052764B

CN113052764B - 一种基于残差连接的视频序列超分重建方法

Info

Publication number: CN113052764B
Application number: CN202110418081.7A
Authority: CN
Inventors: 杨绿溪; 胡欣毅; 韩志伟; 惠鸿儒; 李春国; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-11-08
Anticipated expiration: 2041-04-19
Also published as: CN113052764A

Abstract

本发明公开了一种基于残差连接的视频序列超分重建方法，包括以下步骤，对视频数据进行视频帧提取，将视频数据抽帧为图像集，进行时序拆分并随机加噪进行数据扩增；将数据进行随机裁剪，并输入到前端的3D卷积层中，并将卷积层拆分为两层，进行时序动态信息融合，得到浅层特征；将浅层特征进行深层特征处理并进行上采样，得到单帧图像；将单帧图像集进行合并得到视频序列；进行网络模型训练，当训练损失收敛且图像视觉指标PSNR上升稳定后保存网络模型，最后进行测试集推理。通过本发明可以降低模型参数量与计算量，使得超分结果更加的光滑、真实，保证PSNR性能指标并增强可视化效果，缓解输出视频中的局部跳帧问题，从而有效提升了超分视频的视觉效果。

Description

一种基于残差连接的视频序列超分重建方法

技术领域

本发明涉及计算机视觉图像处理的技术领域，尤其涉及一种基于残差连接的视频序列超分重建方法。

背景技术

图像超分辨率重建(Super-Resolution,SR)是计算机视觉领域一项经典的低级语义任务，其目的是利用低分辨率(Low-Resolution,LR)的图片获得高分辨率(High-Resolution,HR)图片，通过一系列图像处理策略提升图像的可视化效果。图像分辨率高，高频边缘与低频纹理信息丰富，可以大大降低后期的高级语义任务的难度。但是由于数字图像采集设备自带物理噪声、储存过程中的信息丢失等真实场景的限制，我们获得的真实场景下的样本质量比较一般、视觉效果差，加上提升硬件设备条件的成本及难度较大，需要通过图像处理的软件方式重建获得高分辨率图像。在监控系统、安防、识别等多个场景有着广泛的应用。

图像超分辨率重建按输入图像的帧数可分为单幅图像超分辨率和多幅图像超分辨率，视频序列的超分重建可基于后者的基础进行研究。但实际上,一张低分辨率的图像往往可以对应于许多高分辨率的图像,使得图像超分任务并非一个一对一的恢复任务，这是一个不适定的问题。为了解决这样的问题，人们提出了很多种方法来学习LR和HR图像对之间的映射关系，大致分为基于各种插值策略的重建方法、基于编码学习的方法和基于深度卷积神经网络(CNN)的方法。

早期的插值方法来进行图像上采样，有操作简单，复杂度、计算量低，速度快，算法稳定等优点。但是往往在边缘过渡的区域出现锯齿、马赛克纹理，不能满足要求较高的场景。近年来，基于深度卷积神经网络(CNN)的方法应用在图像超分辨率重建领域，与传统的超分方法相比有了显著改进。

基于深度学习的方法SRCNN首次将卷积神经网络应用与图像超分，并超越了传统的方法。但是由于其网络结构简单，感受野小，难以学习更多的特征，图像细节恢复得不够。逐渐地，VDSR、EDSR等优秀的模型方法被提出，有效提升了超分图像的性能指标。但是卷积神经网络在处理不同类型的信息时缺乏灵活性，会平等地对待通道特征，缺乏跨特征通道的判别学习能力，并阻碍了深度网络的表示能力。出于这样的考虑，Zhang等人于2019年提出了一种残差通道注意力网络，可以训练非常深的网络，并同时自适应地学习更多有用的通道特征。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于残差连接的视频序列超分重建方法，该发明能够有效提升重建效率和重建后超分视频的视觉效果。

技术方案：为了实现上述发明目的，本发明提供了一种基于残差连接的视频序列超分重建方法，包括以下步骤，

步骤1，对视频数据进行视频帧提取，将视频数据抽帧为图像集，进行时序拆分并随机加噪进行数据扩增；

步骤2，构建残差通道注意力网络，将得到的数据取连续5帧进行随机裁剪，并输入到残差通道注意力网络前端的3D卷积层中，将卷积层拆分为两个子卷积层，子卷积层的卷积核尺寸分别为T×1×1和1×3×3，进行时序动态信息融合，得到融合了时序动态信息的浅层特征；

步骤3，将浅层特征输入到后续上采样网络中进行深层特征处理并在处理过程中实现4×4倍的上采样操作，得到的输出为超分后的单帧图像；

步骤4，将得到的单帧图像集利用图像工具进行合并，合并后的输出为与输入视频数据为同时长的视频序列；

步骤5，初始化残差通道注意力网络参数，该任务为回归任务，模型为端到端的训练过程，监督信息为数据集高分辨率视频抽取的对应图像，当训练损失收敛且图像视觉指标PSNR上升稳定后保存模型，最后进行测试集推理。

进一步的，在本发明中：所述步骤1还包括以下步骤，

步骤1-1，将视频训练集抽帧成图像，并将图像通过水平翻转与竖直镜像翻转进行数据扩充；

步骤1-2，将扩充后的数据进行随机加噪处理从而增强数据集的全面性。

进一步的，在本发明中：所述步骤2还包括以下步骤，

步骤2-1，对输入图像进行随机裁剪成尺寸为128×128的Patch像素块；

步骤2-2，在超分辨率重建模型结构的前端添加了3D卷积层，提取连续5帧的时域信息作为3D卷积层的输入，即对于t帧时刻的图像，补充t-2、t-1、t+1和t+2四帧信息；

步骤2-3:对常用的尺寸为T×3×3的3D卷积核进行了分解，其中T为时序维度，将其分解为T×1×1和1×3×3的卷积核，前者融合了先后5帧的时序信息，后者如正常的卷积操作，以3×3的感受野进行特征提取，样本通过这两层时序处理层得到连续5帧融合对应的浅层特征I_LR，且：

I_LR＝Conv3D(I_in)

其中，I_in为输入张量，Conv3D(˙)为两层卷积的映射，得到的浅层特征I_LR将在后续进一步处理。

进一步的，在本发明中：所述步骤3还包括以下步骤，

步骤3-1，所述步骤2得到的浅层特征I_LR经过一层卷积后得到第一深层特征F₀，即：

F₀＝Conv(I_LR)

其中，Conv(·)为普通卷积的映射；

步骤3-2:将第一深层特征F₀输入至RIR模块，其中RIR表示残差套残差结构，包含一系列的残差组，是基于残差网络中短跨接的一个模块，将其记为H_RIR，可以得到的第二深层特征F_DF为：

F_DF＝H_RIR(F₀)

此时特征的尺寸与输入图像的尺寸保持相同；

步骤3-3，对经过多级的网络提取的深度特征进行上采样操作，此处的设置为4×4倍，可根据需求修改上采样的级数更改超分特征的尺寸，即

F_UP＝H_UP(F_UF)

其中，H_UP(·)为上采样模块，F_UP为上采样后的特征；

步骤3-4，此时特征尺寸已经达到预计的大小，最后需要一层重建层对特征进行恢复得到重建图像，其具体实现子模块为多重标准卷积，

I_SR＝H_REC(F_UP)＝H_RCAN(I_LR)＝H_RCAN(Conv3D(I_in))

其中，I_SR为重建图像，H_REC(·)为重建层，H_RCAN(·)为残差网络RCAN结构。

进一步的，在本发明中：所述步骤5还包括以下步骤，

步骤5-1，对残差通道注意力网络参数进行初始化；

步骤5-2，该预测任务为回归任务，选定像素级的监督损失进行网络训练，其中超分网络在输出端的监督采取的损失函数L₁为：

其中，H_total(·)为修正后的网络模型，||·||₁为L₁范数，i是样本序号，N为训练样本总数，此引入L₂损失平滑超分结果，损失函数L₂的计算公式为：

其中，||·||₂为L₂范数，i是样本序号，N为训练样本总数，联合L₁损失和L₂损失，得到的训练损失L为：

L＝L₁+λL₂

其中，λ是两个损失平衡的超参数，超参数λ可以通过网格搜索的方式确认其合适值；

步骤5-3，使用梯度下降法SGD对网络进行训练，训练损失为L，监督信息为数据集高分辨率视频抽取的对应图像，当训练损失收敛并图像视觉指标PSNR上升稳定后保存模型，训练结束。

有益效果：本发明与现有技术相比，其有益效果是：

(1)本发明以一种极为直接的方式将图像超分辨率的方法延拓至视频超分辨率领域，适用范围广，移植方法简单；

(2)将视频的超分重建退化成图像超分重建任务，在模型前端引入了3D卷积并拆解卷积核进行时序信息的补充，从而降低了时序信息处理过程中模型的参数量和计算量；

(3)本发明在传统损失函数的基础上引入新的损失函数，使得超分结果更加的光滑、真实，保证PSNR性能指标并增强可视化效果，缓解输出视频中的局部跳帧问题。

附图说明

图1为本发明提出的基于残差连接的视频序列超分重建方法的整体流程示意图；

图2为本发明中残差通道注意力网络示意图；

图3为本发明中添加3D卷积修正的RCAN网络模型的网络流程示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以用许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。

如图1所示，图1为本发明提出的一种基于残差连接的视频序列超分重建方法的整体流程示意图，该方法具体包括以下步骤，

具体的，步骤1还包括以下步骤，

步骤1-1，将视频训练集抽帧成图像，并将图像通过水平翻转与竖直镜像翻转进行数据扩充，此时可以得到的数据集的图像数量为未扩充前的图像数量的4倍；本实施例中使用的视频训练集为公开数据集，具体可以为阿里巴巴天池平台的公开视频数据集。

步骤1-2，将扩充后的数据进行随机加噪处理，加噪方式包括色彩抖动、高斯噪声与椒盐噪声、图像保存导致的bit噪声，以及深度学习中的对抗样本，多种方式混合处理从而增强数据集的全面性。

步骤2，构建残差通道注意力网络，将得到的数据取连续5帧进行随机裁剪，并输入到残差通道注意力网络前端的3D卷积层中，为了降低参数量和计算量，将卷积层拆分为两个子卷积层，子卷积层的卷积核尺寸分别为T×1×1和1×3×3，进行时序动态信息融合，得到融合了时序动态信息的浅层特征；其中，残差通道注意力网络的结构参照图2的示意。

具体的，步骤2还包括以下步骤，

步骤2-1，由于输出图像尺寸较大，在输入图像的基础上上采样了4×4倍，容易造成内存溢出，因此实际操作中需要对输入图像进行随机裁剪成尺寸为128×128的Patch像素块。该操作既能够降低计算量，且不同Epoch时期采取的像素块不完全一样，等价地进行了数据增强，强化了模型的拟合能力；

步骤2-2:在本发明所描述的视频超分任务中，将视频提取成图片帧进行处理；作为性能补充，在超分辨率重建模型结构的前端添加了3D卷积层，提取连续5帧的时域信息作为3D卷积层的输入，即对于t帧时刻的图像，补充t-2、t-1、t+1和t+2四帧信息。同时，视频样本中需要验证不存在跳帧等快速运动的场景；

步骤2-3:引入了一个维度的3D卷积参数较多，计算量较大，从而带来了过大的训练难度。为了缓解3D卷积的不足，对常用的尺寸为T×3×3的3D卷积核进行了分解，其中T为时序维度，将其分解为T×1×1和1×3×3的卷积核，前者融合了先后5帧的时序信息，后者如正常的卷积操作，以3×3的感受野进行特征提取，样本通过这两层时序处理层得到连续5帧融合对应的浅层特征I_LR，且：

I_LR＝Conv3D(I_in)

参照图2的示意，为残差通道注意力网络RCAN的示意图，进一步利用残差通道注意力网络中的通道注意力机制，其通过全局平均池化将通道的全局空间信息带入通道描述。对于大小为H×W×C的输入特征图X，且X＝[x₁,…,x_c,…,x_C]，池化为1×1×C向量z_c，即：

其中，x_c为第c层的特征图，i和j为特征图上的位置。

全局池化统计整个特征图的信息，为了通过全局平均池从聚合信息中完全捕获通道方式的依赖性，引入了门控机制。多层的全连接层及激活函数获得不同通道的特征的权重，通过像素级乘积作用于特征图上，故此残差块的不同通道便会自适应调整权重以选取更有助益的特征图，经过以上操作得到的输出为超分后的单帧图像。

具体的，步骤3还包括以下步骤，

F₀＝Conv(I_LR)

其中，Conv(·)为普通卷积的映射；

F_DF＝H_RIR(F₀)

此时特征的尺寸与输入图像的尺寸保持相同；

F_UP＝H_UP(F_DF)

其中，H_UP(·)为上采样模块，F_UP为上采样后的特征；

I_SR＝H_REC(F_UP)＝H_RCAN(I_LR)＝H_RCAN(Conv3D(I_in))

参照图3的示意，连续5帧的输入图像帧联合得到一帧的高清输出，因此得到的高分序列对应的网络输入图像存在较大程度的交叉重叠，得到的高清视频连续性较为优越，视觉效果较佳。

步骤4，将得到的单帧图像集利用图像工具进行合并，合并后的输出为与输入视频数据为同时长的视频序列；其中，图像工具可以为ffempeg开源程序。

具体的，步骤5还包括以下步骤，

步骤5-1，对残差通道注意力网络参数进行初始化；

其中，H_total(·)为修正后的网络模型，||·||₁为L₁范数，i是样本序号，N为训练样本总数。

然而在视频超分任务中，需要得到更好的可视化效果，单独的L₁损失更侧重于生成与监督图像像素之间的绝对差异，可以得到更高的PSNR，但会损失图像的显示效果，带来伪影等不利因素，故在此引入L₂损失平滑超分结果，损失函数L₂的计算公式为：

其中，||·||₂为L₂范数，i是样本序号，N为训练样本总数。

最终的损失联合L₁损失和L₂损失，一方面保留提升PSNR性能指标的优势，另一方面提升超分模型的可视化效果，方便后期输出图像序列化成视频后的连续性，得到的训练损失L为：

L＝L₁+λL₂

步骤5-3，使用梯度下降法SGD对网络进行训练，训练损失为L，监督信息为数据集高分辨率视频抽取的对应图像。当训练损失收敛并图像视觉指标PSNR上升稳定后保存模型，训练结束。

步骤6，使用经过训练后的残差通道注意力网络模型对输入的视频进行超分辨率重建。

应说明的是，以上所述实施例仅表达了本发明的部分实施方式，其描述并不能理解为对本发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干改进，这些均应落入本发明的保护范围。

Claims

1.一种基于残差连接的视频序列超分重建方法，其特征在于：包括以下步骤，

2.如权利要求1所述的基于残差连接的视频序列超分重建方法，其特征在于：所述步骤1还包括以下步骤，

3.如权利要求1或2所述的基于残差连接的视频序列超分重建方法，其特征在于：所述步骤2还包括以下步骤，

I_LR＝Conv3D(l_in)

其中，I_in为输入张量，Conv3D(·)为两层卷积的映射，得到的浅层特征I_LR将在后续进一步处理。

4.如权利要求3所述的基于残差连接的视频序列超分重建方法，其特征在于：所述步骤3还包括以下步骤，

F₀＝Conv(I_LR)

其中，Conv(.)为普通卷积的映射；

步骤3-2：将第一深层特征F₀输入至RIR模块，其中RIR表示残差套残差结构，包含一系列的残差组，是基于残差网络中短跨接的一个模块，将其记为H_RIR，可以得到的第二深层特征F_DF为：

F_DF＝H_RIR(F₀)

此时特征的尺寸与输入图像的尺寸保持相同；

F_UP＝H_UP(F_DF)

其中，H_UP(·)为上采样模块，F_UP为上采样后的特征；

I_SR＝H_REC(F_UP)＝H_RCAN(I_LR)＝H_RCAN(Conv3D(I_in))

5.如权利要求4所述的基于残差连接的视频序列超分重建方法，其特征在于：所述步骤5还包括以下步骤，

步骤5-1，对残差通道注意力网络参数进行初始化；

L＝L₁+λL₂