CN111915492B - 一种基于动态重建的多分支视频超分辨率方法及系统 - Google Patents

一种基于动态重建的多分支视频超分辨率方法及系统 Download PDF

Info

Publication number
CN111915492B
CN111915492B CN202010838584.5A CN202010838584A CN111915492B CN 111915492 B CN111915492 B CN 111915492B CN 202010838584 A CN202010838584 A CN 202010838584A CN 111915492 B CN111915492 B CN 111915492B
Authority
CN
China
Prior art keywords
branch
unit
module
e3db
mreb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010838584.5A
Other languages
English (en)
Other versions
CN111915492A (zh
Inventor
邵杰
张东阳
梁振文
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202010838584.5A priority Critical patent/CN111915492B/zh
Publication of CN111915492A publication Critical patent/CN111915492A/zh
Application granted granted Critical
Publication of CN111915492B publication Critical patent/CN111915492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于动态重建的多分支视频超分辨率方法及系统,方法包括以下步骤:S1、以7个帧为单位作为一个输入数据;S2、分别通过第一分支、第二分支和第三分支得到一个特征图;S3、将三个特征图进行大小调整得到大小调整后的数据;S4、进行维度调整得到维度调整后的数据;S5、根据维度调整后的数据获取权重;S6、将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;S7、将目标特征图进行子像素卷积上采样,完成视频超分辨率。本发明采用多分支的网络结构,并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系,最终使神经网络的性能有较大的提升,且计算成本小。

Description

一种基于动态重建的多分支视频超分辨率方法及系统
技术领域
本发明属于图像处理领域,具体涉及一种基于动态重建的多分支视频超分辨率方法及系统。
背景技术
超分辨率指将低分辨率图像转换为高分辨率的过程,过去几年超分辨率问题在计算机视觉领域引起了越来越多的关注,并且有许多模型在单图像超分辨率方向取得了非常不错的效果,例如DBPN(Deep Back-Projection Networks),该方法使用了一种迭代地计算上采样和下采样投影误差的错误反馈机制,对重建过程进行引导以得到更好的结果。RDN(Residual Dense Networks),堆叠多个残差稠密块,提出了一个残差稠密网络,充分利用网络中各个层级的特征。RCAN(Residual Channel Attention Networks)则发现之前的网络中的特征包含有多余的低频信息,但是网络对于所有信息是同等对待的,从而限制了网络的表达能力。
与单图像超分辨率相比,视频超分辨率得到的关注较少,同时也是一个更复杂的问题。随着二维卷积神经网络网络的发展,目前的神经网络在单张图像重建的问题上取得了非常优秀的结果。但是,同时也有许多著作如[1]、[2]直接证明了,如果使用普通的单张图片超分辨率网络进行视频超分辨率,产生的结果不会很好。因此,在视频超分辨率中一个非常重要的任务就是如何利用帧与帧之间的时间关系,从而进行视频的重建。
现有的一个提取时间信息的方法是利用光流算法(Optical flow algorithm)实现实际视频帧的估算和运动补偿。这种方法首先计算光流从而估算输入的图片序列当中的运动场。估算出的运动场会被用来完成最终高分辨率视频的重建,如文献[3]中提出的网络VESPCN(Video Efficient Sub-Pixel Convolutional Neural Network)就是通过光流算法进行运动补偿。然而,光流算法存在一定程度的不确定性,这些误差会被引入到各个帧当中,最终损害到之后的超分辨率过程。除此之外,光流算法在整个算法中也是一个独立的模块,这会带来额外的计算开销,同时也会影响网络端到端的训练过程。因此,在视频超分辨率的过程中,光流算法的引入会带来不小的有害影响。然而无论使用或者不使用光流算法,之前的神经网络模型都是传统的二维卷积神经网络,并不能完全解决时间信息难以利用的问题,最终导致模型的性能不佳。所以,三维卷积神经网络被引入到视频处理领域,使视频超分辨率模型得到了快速的发展。例如C3D(Convolution 3D)模块以及文献[4]中提出的FRB(Fast Residual Block)模块,C3D模块是最原始的三维卷积模块与残差连接的结合,而FRB模块则是针对C3D模块的一个改进。然而这些三维卷积通常会消耗巨大的计算成本。所以,如何利用有限的计算资源进行有效的视频超分辨率仍是一个有待解决的问题。其中,文献[5]提出了TDAN(Temporally Deformable Alignment Network),利用可变形卷积模块组成了网络,自适应的给当前帧和相邻帧做对齐:动态估计像素/特征空间上的偏移。
参考文献:
[1]A.Kappeler,S.Yoo,Q.Dai,and A.K.Katsaggelos,“Video super-resolutionwith convolutional neural networks,”IEEE Trans.Computational Imaging,pp.109–122,2016.
[2]S.Y.Kim,J.Lim,T.Na,and M.Kim,“Video super-resolution based on 3d-cnns with consideration of scene change,”in 2019 IEEE InternationalConference on Image Processing,ICIP 2019,Taipei,Taiwan,September 22-25,2019,pp.2831–2835.
[3]J.Caballero,C.Ledig,A.P.Aitken,A.Acosta,J.Totz,Z.Wang,and W.Shi,“Real-time video super-resolution with spatio-temporal networks and motioncompensation,”in 2017 IEEE Conference on Computer Vision and PatternRecognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,2017,pp.2848–2857.
[4]S.Li,F.He,B.Du,L.Zhang,Y.Xu,and D.Tao,“Fast spatio-temporalresidual network for video super-resolution,”in 2019 IEEE Conference onComputer Vision and Pattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019,2019,pp.10522–10531.
[5]Y.Tian,Y.Zhang,Y.Fu,and C.Xu,“TDAN:temporally deformable alignmentnetwork for video super-resolution,”in 2020 IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2020,Seattle,WA,USA,July 16-20,2020,2020。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于动态重建的多分支视频超分辨率方法及系统解决了现有视频超分辨率计算成本大的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于动态重建的多分支视频超分辨率方法,其包括以下步骤:
S1、将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
S2、将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;其中第一分支包括5个依次相连的MREB模块(多分辨率提取模块,Multi-Resolution Extraction Block),第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;
S3、将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,得到大小调整后的数据;
S4、通过第一全连接层将大小调整后的数据的维度调整为8,得到维度调整后的数据;
S5、将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
S6、将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
S7、将目标特征图进行子像素卷积上采样,完成视频超分辨率。
进一步地,步骤S2中第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3。
进一步地,步骤S2中每个MREB模块均包括依次相连的第一E3DB单元(高效三维卷积单元,Efficient 3D convolutional Block)、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元的输入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另一个输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的输出端为MREB模块的输出端。
进一步地,第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
提供一种基于动态重建的多分支视频超分辨率系统,其包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块;
取帧模块,用于将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
特征图生成模块,包括第一分支、第二分支和第三分支,其中第一分支包括5个依次相连的MREB模块,第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;用于将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;
大小调整模块,用于将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,获取大小调整后的数据;
维度调整模块,用于通过第一全连接层将大小调整后的数据的维度调整为8,获取维度调整后的数据;
权重获取模块,用于将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
目标特征图获取模块,用于将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
超分辨率模块,用于将目标特征图进行子像素卷积上采样,完成视频超分辨率。
进一步地,第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3。
进一步地,每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元的输入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另一个输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的输出端为MREB模块的输出端。
进一步地,第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
本发明的有益效果为:
1、本发明中三分支之间的信息传递通过不同大小的特征图之间的信息交换,实现了低分辨率-高分辨率图像对的相互依赖关系的充分利用,以一个非常小的计算成本实现了重建能力的较大提升,相比现有技术具备更低的计算成本。此外,本发明采用多分支的网络结构,并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系,最终使神经网络的性能有较大的提升。
2、本发明采用三组一维的卷积核代替了传统的三维卷积核,从而使我们的模型在保持了较小运算量的同时充分利用了单张图片的空间信息和图像序列的时间信息。
3、本发明可以从多个分支自适应地确定时间相关的最佳信息。比起传统的方法,例如直接向量相加或向量相乘,该动态策略有着更好的表现。
附图说明
图1为本方法的流程示意图;
图2为本系统的结构示意图;
图3为特征图生成模块的结构示意图;
图4为MREB模块的结构示意图;
图5为E3DB单元的工作流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该基于动态重建的多分支视频超分辨率方法包括以下步骤:
S1、将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
S2、将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;如图3所示,其中第一分支包括5个依次相连的MREB模块(多分辨率提取模块,Multi-Resolution Extraction Block),第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;
S3、将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,得到大小调整后的数据;
S4、通过第一全连接层将大小调整后的数据的维度调整为8,得到维度调整后的数据;
S5、将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
S6、将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
S7、将目标特征图进行子像素卷积上采样,完成视频超分辨率。
步骤S2中第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3。如图4所示,步骤S2中每个MREB模块均包括依次相连的第一E3DB单元(高效三维卷积单元,Efficient 3D convolutional Block)、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元的输入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另一个输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的输出端为MREB模块的输出端。
第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
如图2所示,该基于动态重建的多分支视频超分辨率系统包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块;
取帧模块,用于将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
如图3所示,特征图生成模块,包括第一分支、第二分支和第三分支,其中第一分支包括5个依次相连的MREB模块,第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;用于将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;每个分支在向前卷积的过程中,分支之间也加入了信息的传递,方式为不同分支之间的特征图同时向右对齐,对齐后上下特征图相加生成新的特征图进行后续卷积,方向为从大卷积核分支逐步传递到小卷积核分支,从高感受野分支传递到低感受野分支;
大小调整模块,用于将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,获取大小调整后的数据;
维度调整模块,用于通过第一全连接层将大小调整后的数据的维度调整为8,获取维度调整后的数据;
权重获取模块,用于将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
目标特征图获取模块,用于将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
超分辨率模块,用于将目标特征图进行子像素卷积上采样,完成视频超分辨率。
第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3。如图4所示,每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元的输入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另一个输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的输出端为MREB模块的输出端。
第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
在具体实施过程中,上采样及下采样采用的方法为三线性插值法。由于三个特征描述变量要作为权重,分别和三个分支的输出相乘,所以它们的大小和那三个分支的输出各自相等。
在本发明的一个实施例中,如图5所示,每个E3DB单元首先将输入进行通道维度上的分离,分离出的两个子分支各自拥有原来一半的维度数目,假如输入特征图大小为H×W×C,分离出的两个特征图大小则都是H×W×(C/2)。这两个子分支当中,第一个子分支先进行1×K×1的卷积,再进行1×1×K的卷积;第二个子分支先进行1×1×K的卷积,再进行1×K×1的卷积。然后两个子分支分别进行PReLU激活层的激活,之后将两个子分支产生的结果直接相连,再统一经过K×1×1的卷积和PReLU的激活后输出。
从表1中可以看出E3DB单元在参数数量和运算速度上都远远优于传统的C3D、FRB模块。其次,三分支之间的信息传递通过不同大小的特征图之间的信息交换,实现了低分辨率-高分辨率图像对的相互依赖关系的充分利用,以一个非常小的计算成本实现了重建能力的较大提升。最后,三个不同卷积核大小的分支输出的不同维度的特征图之间有很大的区别,简单的相加、相乘或者相连都不能很好地保证合理利用每个特征图中包含的信息,本发明可以为不同的特征图附上不同的权重,而该权重又由特征图本身的性质所决定,该方式可以更加有效的完成特征融合的过程,最终提升整体性能。
表1:E3DB单元对比实验
模块名称 参数数量 每秒所需浮点运算数
C3D ≈111K ≈1784M
FRB ≈49K ≈793M
E3DB ≈25K ≈396M
从表2中可以看出本发明相比现有技术中提到的现有方法在峰值信噪比(PSNR)和结构相似性(SSIM)方面效果更好(数值越大效果越好)。
表2:实验结果对比
Figure BDA0002640598470000131
综上所述,本发明中三分支之间的信息传递通过不同大小的特征图之间的信息交换,实现了低分辨率-高分辨率图像对的相互依赖关系的充分利用,以一个非常小的计算成本实现了重建能力的较大提升,相比现有技术具备更低的计算成本。此外,本发明采用多分支的网络结构,并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系,最终使神经网络的性能有较大的提升。

Claims (2)

1.一种基于动态重建的多分支视频超分辨率方法,其特征在于,包括以下步骤:
S1、将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
S2、将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;其中第一分支包括5个依次相连的MREB模块,第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;
S3、将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,得到大小调整后的数据;
S4、通过第一全连接层将大小调整后的数据的维度调整为8,得到维度调整后的数据;
S5、将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
S6、将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
S7、将目标特征图进行子像素卷积上采样,完成视频超分辨率;
步骤S2中第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3;
步骤S2中每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;所述第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;所述第二下采样单元的输入端与第一下采样单元的输出端相连,所述第二上采样单元的输出端与第三相加单元的另一个输入端相连,所述第一上采样单元与第一相加单元的另一个输入端相连;所述第二相加单元的输出端为MREB模块的输出端;
第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,所述第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
2.一种基于动态重建的多分支视频超分辨率系统,其特征在于,包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块;
所述取帧模块,用于将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
所述特征图生成模块,包括第一分支、第二分支和第三分支,其中第一分支包括5个依次相连的MREB模块,第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;用于将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;
所述大小调整模块,用于将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,获取大小调整后的数据;
所述维度调整模块,用于通过第一全连接层将大小调整后的数据的维度调整为8,获取维度调整后的数据;
所述权重获取模块,用于将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
所述目标特征图获取模块,用于将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
所述超分辨率模块,用于将目标特征图进行子像素卷积上采样,完成视频超分辨率;
第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3;
每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;所述第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;所述第二下采样单元的输入端与第一下采样单元的输出端相连,所述第二上采样单元的输出端与第三相加单元的另一个输入端相连,所述第一上采样单元与第一相加单元的另一个输入端相连;所述第二相加单元的输出端为MREB模块的输出端;
第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,所述第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
CN202010838584.5A 2020-08-19 2020-08-19 一种基于动态重建的多分支视频超分辨率方法及系统 Active CN111915492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010838584.5A CN111915492B (zh) 2020-08-19 2020-08-19 一种基于动态重建的多分支视频超分辨率方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010838584.5A CN111915492B (zh) 2020-08-19 2020-08-19 一种基于动态重建的多分支视频超分辨率方法及系统

Publications (2)

Publication Number Publication Date
CN111915492A CN111915492A (zh) 2020-11-10
CN111915492B true CN111915492B (zh) 2021-03-30

Family

ID=73279414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010838584.5A Active CN111915492B (zh) 2020-08-19 2020-08-19 一种基于动态重建的多分支视频超分辨率方法及系统

Country Status (1)

Country Link
CN (1) CN111915492B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581372B (zh) * 2021-02-26 2021-05-28 杭州海康威视数字技术股份有限公司 一种跨时空映射超分辨光场成像方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060291750A1 (en) * 2004-12-16 2006-12-28 Peyman Milanfar Dynamic reconstruction of high resolution video from low-resolution color-filtered video (video-to-video super-resolution)
CN106254722A (zh) * 2016-07-15 2016-12-21 北京邮电大学 一种视频超分辨率重建方法和装置
CN109325915B (zh) * 2018-09-11 2022-11-08 合肥工业大学 一种用于低分辨率监控视频的超分辨率重建方法
CN110310227B (zh) * 2019-06-27 2020-09-08 电子科技大学 一种基于高低频信息分解的图像超分辨率重建方法

Also Published As

Publication number Publication date
CN111915492A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN108376387B (zh) 基于聚合膨胀卷积网络的图像去模糊方法
CN106991646B (zh) 一种基于密集连接网络的图像超分辨率方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN108596841B (zh) 一种并行实现图像超分辨率及去模糊的方法
CN111242846B (zh) 基于非局部增强网络的细粒度尺度图像超分辨率方法
CN107633297B (zh) 一种基于并行快速fir滤波器算法的卷积神经网络硬件加速器
Sun et al. Lightweight image super-resolution via weighted multi-scale residual network
CN114731408A (zh) 使用结构化神经网络进行视频帧插值的系统、设备和方法
CN111932461A (zh) 一种基于卷积神经网络的自学习图像超分辨率重建方法及系统
CN112884650B (zh) 一种基于自适应纹理蒸馏的图像混合超分辨率方法
Yang et al. Aim 2022 challenge on super-resolution of compressed image and video: Dataset, methods and results
CN113421187B (zh) 一种超分辨率重建方法、系统、存储介质、设备
CN112419191A (zh) 基于卷积神经网络的图像运动模糊去除方法
CN111915492B (zh) 一种基于动态重建的多分支视频超分辨率方法及系统
CN111931927B (zh) 一种在npu中减少计算资源占用的方法及装置
CN114761968B (zh) 用于频域静态通道滤波的方法、系统和存储介质
WO2022007265A1 (zh) 一种膨胀卷积加速计算方法及装置
CN111640061B (zh) 一种自适应图像超分辨率系统
CN107146259A (zh) 一种基于压缩感知理论的新型图像压缩方法
CN116862795A (zh) 一种基于逐像素退化预测网络的多级去运动模糊方法
CN116993585A (zh) 基于多注意力的视频超分辨率重建网络构建方法及其应用
CN107197291B (zh) 低复杂度直接计算的立方卷积样条插值方法
CN116128722A (zh) 基于频域-纹理特征融合的图像超分辨率重建方法及系统
CN110648291B (zh) 一种基于深度学习的无人机运动模糊图像的复原方法
CN114066713A (zh) 基于小波变换提升图像处理效率的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant