CN111915492B

CN111915492B - 一种基于动态重建的多分支视频超分辨率方法及系统

Info

Publication number: CN111915492B
Application number: CN202010838584.5A
Authority: CN
Inventors: 邵杰; 张东阳; 梁振文; 申恒涛
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2021-03-30
Anticipated expiration: 2040-08-19
Also published as: CN111915492A

Abstract

本发明公开了一种基于动态重建的多分支视频超分辨率方法及系统，方法包括以下步骤：S1、以7个帧为单位作为一个输入数据；S2、分别通过第一分支、第二分支和第三分支得到一个特征图；S3、将三个特征图进行大小调整得到大小调整后的数据；S4、进行维度调整得到维度调整后的数据；S5、根据维度调整后的数据获取权重；S6、将每个分支生成的特征图和对应的权重相乘，并将三个相乘结果之和作为目标特征图；S7、将目标特征图进行子像素卷积上采样，完成视频超分辨率。本发明采用多分支的网络结构，并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系，最终使神经网络的性能有较大的提升，且计算成本小。

Description

一种基于动态重建的多分支视频超分辨率方法及系统

技术领域

本发明属于图像处理领域，具体涉及一种基于动态重建的多分支视频超分辨率方法及系统。

背景技术

超分辨率指将低分辨率图像转换为高分辨率的过程，过去几年超分辨率问题在计算机视觉领域引起了越来越多的关注，并且有许多模型在单图像超分辨率方向取得了非常不错的效果，例如DBPN(Deep Back-Projection Networks)，该方法使用了一种迭代地计算上采样和下采样投影误差的错误反馈机制，对重建过程进行引导以得到更好的结果。RDN(Residual Dense Networks)，堆叠多个残差稠密块，提出了一个残差稠密网络，充分利用网络中各个层级的特征。RCAN(Residual Channel Attention Networks)则发现之前的网络中的特征包含有多余的低频信息，但是网络对于所有信息是同等对待的，从而限制了网络的表达能力。

与单图像超分辨率相比，视频超分辨率得到的关注较少，同时也是一个更复杂的问题。随着二维卷积神经网络网络的发展，目前的神经网络在单张图像重建的问题上取得了非常优秀的结果。但是，同时也有许多著作如[1]、[2]直接证明了，如果使用普通的单张图片超分辨率网络进行视频超分辨率，产生的结果不会很好。因此，在视频超分辨率中一个非常重要的任务就是如何利用帧与帧之间的时间关系，从而进行视频的重建。

现有的一个提取时间信息的方法是利用光流算法(Optical flow algorithm)实现实际视频帧的估算和运动补偿。这种方法首先计算光流从而估算输入的图片序列当中的运动场。估算出的运动场会被用来完成最终高分辨率视频的重建，如文献[3]中提出的网络VESPCN(Video Efficient Sub-Pixel Convolutional Neural Network)就是通过光流算法进行运动补偿。然而，光流算法存在一定程度的不确定性，这些误差会被引入到各个帧当中，最终损害到之后的超分辨率过程。除此之外，光流算法在整个算法中也是一个独立的模块，这会带来额外的计算开销，同时也会影响网络端到端的训练过程。因此，在视频超分辨率的过程中，光流算法的引入会带来不小的有害影响。然而无论使用或者不使用光流算法，之前的神经网络模型都是传统的二维卷积神经网络，并不能完全解决时间信息难以利用的问题，最终导致模型的性能不佳。所以，三维卷积神经网络被引入到视频处理领域，使视频超分辨率模型得到了快速的发展。例如C3D(Convolution 3D)模块以及文献[4]中提出的FRB(Fast Residual Block)模块，C3D模块是最原始的三维卷积模块与残差连接的结合，而FRB模块则是针对C3D模块的一个改进。然而这些三维卷积通常会消耗巨大的计算成本。所以，如何利用有限的计算资源进行有效的视频超分辨率仍是一个有待解决的问题。其中，文献[5]提出了TDAN(Temporally Deformable Alignment Network)，利用可变形卷积模块组成了网络，自适应的给当前帧和相邻帧做对齐：动态估计像素/特征空间上的偏移。

参考文献：

[1]A.Kappeler,S.Yoo,Q.Dai,and A.K.Katsaggelos,“Video super-resolutionwith convolutional neural networks,”IEEE Trans.Computational Imaging,pp.109–122,2016.

[2]S.Y.Kim,J.Lim,T.Na,and M.Kim,“Video super-resolution based on 3d-cnns with consideration of scene change,”in 2019 IEEE InternationalConference on Image Processing,ICIP 2019,Taipei,Taiwan,September 22-25,2019,pp.2831–2835.

[3]J.Caballero,C.Ledig,A.P.Aitken,A.Acosta,J.Totz,Z.Wang,and W.Shi,“Real-time video super-resolution with spatio-temporal networks and motioncompensation,”in 2017 IEEE Conference on Computer Vision and PatternRecognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,2017,pp.2848–2857.

[4]S.Li,F.He,B.Du,L.Zhang,Y.Xu,and D.Tao,“Fast spatio-temporalresidual network for video super-resolution,”in 2019 IEEE Conference onComputer Vision and Pattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019,2019,pp.10522–10531.

[5]Y.Tian,Y.Zhang,Y.Fu,and C.Xu,“TDAN:temporally deformable alignmentnetwork for video super-resolution,”in 2020 IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2020,Seattle,WA,USA,July 16-20,2020,2020。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于动态重建的多分支视频超分辨率方法及系统解决了现有视频超分辨率计算成本大的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于动态重建的多分支视频超分辨率方法，其包括以下步骤：

S1、将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据；

S2、将输入数据的全部7个帧输入到第一分支，将输入数据的中间5个帧输入第二分支，将输入数据的中间3个帧输入第三分支，分别通过第一分支、第二分支和第三分支得到一个特征图；其中第一分支包括5个依次相连的MREB模块(多分辨率提取模块，Multi-Resolution Extraction Block)，第二分支包括4个依次相连的MREB模块，第三分支包括3个依次相连的MREB模块；第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连，第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连，n＝1,2,3,4；m＝1,2,3；每个分支的通道数均为64；

S3、将三个分支生成的特征图直接相加后，通过二元自适应均值池化层将相加后的数据的高和宽均调整为1，得到大小调整后的数据；

S4、通过第一全连接层将大小调整后的数据的维度调整为8，得到维度调整后的数据；

S5、将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层，得到三个64维不同大小的特征描述变量，并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重；

S6、将每个分支生成的特征图和对应的权重相乘，并将三个相乘结果之和作为目标特征图；

S7、将目标特征图进行子像素卷积上采样，完成视频超分辨率。

进一步地，步骤S2中第一分支的大小为7×7，第二分支的大小为5×5，第三分支的大小为3×3。

进一步地，步骤S2中每个MREB模块均包括依次相连的第一E3DB单元(高效三维卷积单元，Efficient 3D convolutional Block)、第二E3DB单元、第一相加单元和第二相加单元，依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元，以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元；第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端；第二下采样单元的输入端与第一下采样单元的输出端相连，第二上采样单元的输出端与第三相加单元的另一个输入端相连，第一上采样单元与第一相加单元的另一个输入端相连；第二相加单元的输出端为MREB模块的输出端。

进一步地，第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元，通道维度分离子单元的输入端为其所在E3DB单元的输入端，通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端，第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端；连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层，第一PReLU激活层的输出端为其所在E3DB单元的输出端；

第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层；第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层；其中第一分支中E3DB单元的K值为7，第二分支中的E3DB单元的K值为5，第三分支中的E3DB单元的K值为3。

提供一种基于动态重建的多分支视频超分辨率系统，其包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块；

取帧模块，用于将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据；

特征图生成模块，包括第一分支、第二分支和第三分支，其中第一分支包括5个依次相连的MREB模块，第二分支包括4个依次相连的MREB模块，第三分支包括3个依次相连的MREB模块；第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连，第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连，n＝1,2,3,4；m＝1,2,3；每个分支的通道数均为64；用于将输入数据的全部7个帧输入到第一分支，将输入数据的中间5个帧输入第二分支，将输入数据的中间3个帧输入第三分支，分别通过第一分支、第二分支和第三分支得到一个特征图；

大小调整模块，用于将三个分支生成的特征图直接相加后，通过二元自适应均值池化层将相加后的数据的高和宽均调整为1，获取大小调整后的数据；

维度调整模块，用于通过第一全连接层将大小调整后的数据的维度调整为8，获取维度调整后的数据；

权重获取模块，用于将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层，得到三个64维不同大小的特征描述变量，并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重；

目标特征图获取模块，用于将每个分支生成的特征图和对应的权重相乘，并将三个相乘结果之和作为目标特征图；

超分辨率模块，用于将目标特征图进行子像素卷积上采样，完成视频超分辨率。

进一步地，第一分支的大小为7×7，第二分支的大小为5×5，第三分支的大小为3×3。

进一步地，每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元，依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元，以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元；第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端；第二下采样单元的输入端与第一下采样单元的输出端相连，第二上采样单元的输出端与第三相加单元的另一个输入端相连，第一上采样单元与第一相加单元的另一个输入端相连；第二相加单元的输出端为MREB模块的输出端。

本发明的有益效果为：

1、本发明中三分支之间的信息传递通过不同大小的特征图之间的信息交换，实现了低分辨率-高分辨率图像对的相互依赖关系的充分利用，以一个非常小的计算成本实现了重建能力的较大提升，相比现有技术具备更低的计算成本。此外，本发明采用多分支的网络结构，并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系，最终使神经网络的性能有较大的提升。

2、本发明采用三组一维的卷积核代替了传统的三维卷积核，从而使我们的模型在保持了较小运算量的同时充分利用了单张图片的空间信息和图像序列的时间信息。

3、本发明可以从多个分支自适应地确定时间相关的最佳信息。比起传统的方法，例如直接向量相加或向量相乘，该动态策略有着更好的表现。

附图说明

图1为本方法的流程示意图；

图2为本系统的结构示意图；

图3为特征图生成模块的结构示意图；

图4为MREB模块的结构示意图；

图5为E3DB单元的工作流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于动态重建的多分支视频超分辨率方法包括以下步骤：

S2、将输入数据的全部7个帧输入到第一分支，将输入数据的中间5个帧输入第二分支，将输入数据的中间3个帧输入第三分支，分别通过第一分支、第二分支和第三分支得到一个特征图；如图3所示，其中第一分支包括5个依次相连的MREB模块(多分辨率提取模块，Multi-Resolution Extraction Block)，第二分支包括4个依次相连的MREB模块，第三分支包括3个依次相连的MREB模块；第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连，第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连，n＝1,2,3,4；m＝1,2,3；每个分支的通道数均为64；

步骤S2中第一分支的大小为7×7，第二分支的大小为5×5，第三分支的大小为3×3。如图4所示，步骤S2中每个MREB模块均包括依次相连的第一E3DB单元(高效三维卷积单元，Efficient 3D convolutional Block)、第二E3DB单元、第一相加单元和第二相加单元，依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元，以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元；第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端；第二下采样单元的输入端与第一下采样单元的输出端相连，第二上采样单元的输出端与第三相加单元的另一个输入端相连，第一上采样单元与第一相加单元的另一个输入端相连；第二相加单元的输出端为MREB模块的输出端。

第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元，通道维度分离子单元的输入端为其所在E3DB单元的输入端，通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端，第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端；连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层，第一PReLU激活层的输出端为其所在E3DB单元的输出端；

如图2所示，该基于动态重建的多分支视频超分辨率系统包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块；

如图3所示，特征图生成模块，包括第一分支、第二分支和第三分支，其中第一分支包括5个依次相连的MREB模块，第二分支包括4个依次相连的MREB模块，第三分支包括3个依次相连的MREB模块；第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连，第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连，n＝1,2,3,4；m＝1,2,3；每个分支的通道数均为64；用于将输入数据的全部7个帧输入到第一分支，将输入数据的中间5个帧输入第二分支，将输入数据的中间3个帧输入第三分支，分别通过第一分支、第二分支和第三分支得到一个特征图；每个分支在向前卷积的过程中，分支之间也加入了信息的传递，方式为不同分支之间的特征图同时向右对齐，对齐后上下特征图相加生成新的特征图进行后续卷积，方向为从大卷积核分支逐步传递到小卷积核分支，从高感受野分支传递到低感受野分支；

第一分支的大小为7×7，第二分支的大小为5×5，第三分支的大小为3×3。如图4所示，每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元，依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元，以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元；第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端；第二下采样单元的输入端与第一下采样单元的输出端相连，第二上采样单元的输出端与第三相加单元的另一个输入端相连，第一上采样单元与第一相加单元的另一个输入端相连；第二相加单元的输出端为MREB模块的输出端。

在具体实施过程中，上采样及下采样采用的方法为三线性插值法。由于三个特征描述变量要作为权重，分别和三个分支的输出相乘，所以它们的大小和那三个分支的输出各自相等。

在本发明的一个实施例中，如图5所示，每个E3DB单元首先将输入进行通道维度上的分离，分离出的两个子分支各自拥有原来一半的维度数目，假如输入特征图大小为H×W×C，分离出的两个特征图大小则都是H×W×(C/2)。这两个子分支当中，第一个子分支先进行1×K×1的卷积，再进行1×1×K的卷积；第二个子分支先进行1×1×K的卷积，再进行1×K×1的卷积。然后两个子分支分别进行PReLU激活层的激活，之后将两个子分支产生的结果直接相连，再统一经过K×1×1的卷积和PReLU的激活后输出。

从表1中可以看出E3DB单元在参数数量和运算速度上都远远优于传统的C3D、FRB模块。其次，三分支之间的信息传递通过不同大小的特征图之间的信息交换，实现了低分辨率-高分辨率图像对的相互依赖关系的充分利用，以一个非常小的计算成本实现了重建能力的较大提升。最后，三个不同卷积核大小的分支输出的不同维度的特征图之间有很大的区别，简单的相加、相乘或者相连都不能很好地保证合理利用每个特征图中包含的信息，本发明可以为不同的特征图附上不同的权重，而该权重又由特征图本身的性质所决定，该方式可以更加有效的完成特征融合的过程，最终提升整体性能。

表1：E3DB单元对比实验

模块名称	参数数量	每秒所需浮点运算数
			C3D	≈111K	≈1784M
FRB	≈49K	≈793M
			E3DB	≈25K	≈396M

从表2中可以看出本发明相比现有技术中提到的现有方法在峰值信噪比(PSNR)和结构相似性(SSIM)方面效果更好(数值越大效果越好)。

表2：实验结果对比

综上所述，本发明中三分支之间的信息传递通过不同大小的特征图之间的信息交换，实现了低分辨率-高分辨率图像对的相互依赖关系的充分利用，以一个非常小的计算成本实现了重建能力的较大提升，相比现有技术具备更低的计算成本。此外，本发明采用多分支的网络结构，并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系，最终使神经网络的性能有较大的提升。

Claims

1.一种基于动态重建的多分支视频超分辨率方法，其特征在于，包括以下步骤：

S2、将输入数据的全部7个帧输入到第一分支，将输入数据的中间5个帧输入第二分支，将输入数据的中间3个帧输入第三分支，分别通过第一分支、第二分支和第三分支得到一个特征图；其中第一分支包括5个依次相连的MREB模块，第二分支包括4个依次相连的MREB模块，第三分支包括3个依次相连的MREB模块；第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连，第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连，n＝1,2,3,4；m＝1,2,3；每个分支的通道数均为64；

S7、将目标特征图进行子像素卷积上采样，完成视频超分辨率；

步骤S2中第一分支的大小为7×7，第二分支的大小为5×5，第三分支的大小为3×3；

步骤S2中每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元，依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元，以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元；所述第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端；所述第二下采样单元的输入端与第一下采样单元的输出端相连，所述第二上采样单元的输出端与第三相加单元的另一个输入端相连，所述第一上采样单元与第一相加单元的另一个输入端相连；所述第二相加单元的输出端为MREB模块的输出端；

第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元，通道维度分离子单元的输入端为其所在E3DB单元的输入端，通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端，所述第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端；连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层，第一PReLU激活层的输出端为其所在E3DB单元的输出端；

2.一种基于动态重建的多分支视频超分辨率系统，其特征在于，包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块；

所述取帧模块，用于将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据；

所述特征图生成模块，包括第一分支、第二分支和第三分支，其中第一分支包括5个依次相连的MREB模块，第二分支包括4个依次相连的MREB模块，第三分支包括3个依次相连的MREB模块；第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连，第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连，n＝1,2,3,4；m＝1,2,3；每个分支的通道数均为64；用于将输入数据的全部7个帧输入到第一分支，将输入数据的中间5个帧输入第二分支，将输入数据的中间3个帧输入第三分支，分别通过第一分支、第二分支和第三分支得到一个特征图；

所述大小调整模块，用于将三个分支生成的特征图直接相加后，通过二元自适应均值池化层将相加后的数据的高和宽均调整为1，获取大小调整后的数据；

所述维度调整模块，用于通过第一全连接层将大小调整后的数据的维度调整为8，获取维度调整后的数据；

所述权重获取模块，用于将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层，得到三个64维不同大小的特征描述变量，并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重；

所述目标特征图获取模块，用于将每个分支生成的特征图和对应的权重相乘，并将三个相乘结果之和作为目标特征图；

所述超分辨率模块，用于将目标特征图进行子像素卷积上采样，完成视频超分辨率；

第一分支的大小为7×7，第二分支的大小为5×5，第三分支的大小为3×3；

每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元，依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元，以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元；所述第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端；所述第二下采样单元的输入端与第一下采样单元的输出端相连，所述第二上采样单元的输出端与第三相加单元的另一个输入端相连，所述第一上采样单元与第一相加单元的另一个输入端相连；所述第二相加单元的输出端为MREB模块的输出端；