CN108830790B - 一种基于精简卷积神经网络的快速视频超分辨率重建方法 - Google Patents

一种基于精简卷积神经网络的快速视频超分辨率重建方法 Download PDF

Info

Publication number
CN108830790B
CN108830790B CN201810467095.6A CN201810467095A CN108830790B CN 108830790 B CN108830790 B CN 108830790B CN 201810467095 A CN201810467095 A CN 201810467095A CN 108830790 B CN108830790 B CN 108830790B
Authority
CN
China
Prior art keywords
network
reconstruction
video
representing
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810467095.6A
Other languages
English (en)
Other versions
CN108830790A (zh
Inventor
蒋刚毅
潘志勇
郁梅
谢登梅
彭宗举
陈芬
邵华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201810467095.6A priority Critical patent/CN108830790B/zh
Publication of CN108830790A publication Critical patent/CN108830790A/zh
Application granted granted Critical
Publication of CN108830790B publication Critical patent/CN108830790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本发明涉及一种基于精简卷积神经网络的快速视频超分辨率重建方法,其既能利用视频帧之间的邻域信息,又保证重建速度。首先,考虑到输入的尺寸大小会直接影响网络的运算速度,本发明网络省去传统方法的预插值过程,直接对多个低分辨率输入视频帧提取特征,并进行多维特征通道融合;接着,为了避免网络中产生零梯度而丢失视频的重要信息,采用参数线性纠正单元作为激活函数,并采用更小的滤波器尺寸调整网络结构以进行多层映射;最后,在网络末端添加反卷积层上采样得到重建视频。同时,本发明还采用网络迁移策略快速实现了不同缩放因子下的重建模型,重建的视频图像中能够保留更多高频细节信息,同时重建速度更快。

Description

一种基于精简卷积神经网络的快速视频超分辨率重建方法
技术领域
本发明涉及视频超分辨率重建技术领域,尤其是涉及一种基于精简卷积神经网络的快速视频超分辨率重建方法。
背景技术
近年来一些高清晰度视频显示器迅猛发展,给用户带来了一系列良好的视觉体验,使得视频通信和娱乐成为最有前途的服务之一,例如超高清(Ultra High Definition,UHD)电视。与此同时,由于视频拍摄设备的限制,大部分UHD分辨率的视频内容不能直接得到,因此,需要对所获取的低分辨率(Low-Resolution,LR)视频进行超分辨率(Super-Resolution,SR)重建,得到高分辨率(High-Resolution,HR)视频,从而满足用户日益增长的需求,该技术在最近几年已经成为国际上最为活跃的研究领域之一。
现有的视频超分辨率重建方法可以分为三大类:基于插值、基于多帧重建和基于单图重建的方法。第一类基于插值的方法的基本思想是采用插值核函数进行重建。目前使用最广泛的插值方法是双三次(Bicubic)插值,其像素值通过矩形网格中最近的十六个采样点的加权平均得到。该类方法实现较为简单,重建速度快,适合实时性的应用,但是会产生振铃和锯齿伪影现象,不能较好恢复图像在下采样过程中丢失的高频分量,因此其结果不足以满足实际需求。
第二类方法是基于多帧重建的方法,将多个相邻视频帧作为输入,并对其时域相关性建模,从而重建出HR视频。例如Shan等人提出快速视频重建(Fast video Upsampling,FUS)方法,结合了图像形成模型,并且考虑了自然图像统计,同时自动保持时域一致性,从输入数据中恢复出HR视频。然而其在抽取过程中丢失的边缘或纹理无法恢复,而且该类方法往往需要解决复杂的优化问题,重建速度偏慢。
第三类基于单图重建的方法的基本思路是通过训练集获取LR图像和HR图像之间的映射关系,从而对输入的LR图像寻找最优解。例如Yang等人采用一个复杂的稀疏编码(Sparse Coding,SC)模型,训练出高低分辨率字典,假定LR/HR图像块拥有共同的稀疏表达系数,由LR字典对应的稀疏表达系数与HR字典相乘得到HR图像块。然而,该类基于稀疏编码的SR方法计算量大,不适用于有实时要求的重建。随着深度神经网络成功应用于计算机视觉领域,研究者开始尝试用深度学习模型进行超分辨率重建。Dong等人首次提出基于卷积神经网络(Convolutional Neural Networks,CNN)的超分辨率重建模型(Super-Resolution Convolutional NeuralNetwork,SRCNN),通过建立深度学习模型与稀疏编码模型之间的关系,直接学习LR图像到HR图像的端到端的映射。但是若直接将其应用于视频SR,会忽略视频帧之间的时域相关性。而这种时域相关性对视频SR至关重要。
虽然相关研究已经取得了较好的视频超分辨率重建效果,但在计算速度和重建效果上仍存在一定不足。
发明内容
本发明所要解决的技术问题是提供一种能够提高运算速度、增强网络学习能力,并且优化重建效果的基于精简卷积神经网络的快速视频超分辨率重建方法。
本发明所采用的技术方案是,一种基于精简卷积神经网络的快速视频超分辨率重建方法,包括以下步骤:
(1)、建立网络结构:a、将当前帧、当前帧的前两帧以及当前帧的后两帧,共五帧作为系统的输入量,表示为XT,索引T∈{t-2,t-1,t,t+1,t+2},其中t表示当前时刻,并用Yt表示重建的当前视频帧;b、将输入量XT通过特征提取及通道融合法获取到融合输出量,记为H1,然后将H1通过特征映射法获取到映射后的输出量,记为H2,再将H2通过反卷积重建法得到网络结构中重建的当前视频帧Yt
(2)、训练网络结构:将训练集记为
Figure BDA0001662344900000021
其中Xt (k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像,Zt (k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像,N表示训练样本个数,Xt (k)与Zt (k)的缩放比例因子s=2,3,4;用Yt (k)表示重建得到的高分辨率视频帧子图像,采用均方差作为目标函数,最小化Yt (k)与Zt (k)之间的误差,并估计各网络结构中各层的网络参数θ,用随机梯度下降法对网络参数θ进行更新;为了快速得到不同缩放因子s下的重建模型,先从零开始训练s=3的模型A,再相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,分别得到s=2和s=4的模型B和模型C;
(3)、利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧XT进行超分辨率重建,最终得到对应缩放因子s下的重建的当前视频帧Yt
上述步骤(1)中,特征提取及通道融合法的具体步骤为:
a、首先采用滤波器对输入量XT进行卷积提取特征,表示成高维向量,记为H1T,H1T=W1T*XT+b1T,并采用参数线性纠正单元函数对H1T进行非线性操作:H1T=max(H1T,0)+a1T min(0,H1T),其中‘*’表示卷积操作,W1T表示对应索引T的大小为f1T×f1T×c1T×n1T的滤波器,f1T表示滤波器尺寸,c1T表示输入XT的通道数,n1T表示滤波器个数,b1T表示对应索引T的1×n1T的偏置项,a1T表示H1T的负数部分的系数,该层操作记为Conv(f1T×f1T×c1T×n1T)+PReLU,其中PReLU表示参数线性纠正单元函数;
b、然后采用通道融合层对上述各个索引的H1T进行融合,融合后的输出记为H1,表示为:H1=[H1t-2,H1t-1,H1t,H1t+1,H1t+2],其中,[]操作表示将H1T在通道维度上进行连接,即经过第一部分特征提取及通道融合层后得到的H1包含了所有输入的n1T维特征。
上述步骤(1)中,特征映射法的具体步骤为:
a、首先利用通道收缩模块对融合后的输出量H1进行降维,降维后的输出记为H2S,H2S=max(W2S*H1+b2S,0)+a2S min(0,W2S*H1+b2S),其中,W2S表示大小为f2S×f2S×c2S×n2S的滤波器,b2S表示1×n2S的偏置项,a2S表示W2S*H1+b2S的负数部分的系数,该层操作记为Conv(f2S×f2S×c2S×n2S)+PReLU,其中PReLU表示参数线性纠正单元函数;
b、然后采用m个大小为f2M×f2M×c2M×n2M的滤波器W2M和1×n2M的偏置项b2M对H2S进行多级映射,并通过PReLU函数进行非线性变换得到特征向量,得到的特征向量记为H2M,该层操作记为m×[Conv(f2M×f2M×c2M×n2M)+PReLU];
c、接着采用通道扩展模块对H2M进行升维,升维后的输出记为H2,H2=max(W2E*H2M+b2E,0)+a2Emin(0,W2E*H2M+b2E),其中,W2E表示大小为f2E×f2E×c2E×n2E的滤波器,b2E表示1×n2E的偏置项,a2E表示W2E*H2M+b2E的负数部分的系数。该操作记为Conv(f2E×f2E×c2E×n2E)+PReLU。
上述步骤(1)中,反卷积重建法的具体方法为:对升维后的输出H2反卷积得到网络结构中重建的当前视频帧Yt
Figure BDA0001662344900000031
其中,
Figure BDA0001662344900000032
表示反卷积操作,可视为卷积操作的逆运算,WD3和bD3分别表示大小为fD3×fD3×cD3×nD3的反卷积滤波器和1×nD3维向量的偏置项,该层操作记为:Deconv(fD3×fD3×cD3×nD3)。
本发明的有益效果体现在这三个方面:
第一、本发明方法考虑到输入的尺寸大小会直接影响网络的运算速度,因此省去传统方法的预插值过程,直接对多个LR输入视频帧提取特征,并进行多维特征通道融合,通过在网络末端添加反卷积层重建一个HR视频帧,降低了网络对机器内存的要求。
第二、本发明方法为了避免网络中产生零梯度而丢失视频的重要信息,采用参数线性纠正单元(Parametric Rectified LinearUnit,PReLU)替代传统的激活函数线性纠正单元(Rectified Linear Unit,ReLU),并通过通道收缩模块、多级映射模块以及通道扩展模块进行特征映射,有效地增加了网络的学习能力。
第三、本发明方法为了快速得到不同缩放因子s下的重建模型,根据缩放因子s之间的相邻性,首先从零开始训练s=3的模型A,然后根据另外两个缩放因子s=2、s=4相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,得到模型B和C,通过该网络迁移策略更快地训练出不同缩放因子下的重建模型,优化了重建效果。
附图说明
图1为本发明方法的网络结构图;
图2为本发明方法的反卷积重建操作示意图;
图3为本发明方法与其他方法进行对比的收敛曲线图;
图4为本发明方法与其他方法对City序列第5帧图像在缩放因子s=2的重建结果以及PSNR值在Y通道的数值示意图;
图5为本发明方法与其他方法对Calendar序列第3帧图像在缩放因子s=3的重建结果以及PSNR值在Y通道的数值示意图。
具体实施方式
以下参照附图并结合具体实施方式来进一步描述发明,以令本领域技术人员参照说明书文字能够据以实施,本发明保护范围并不受限于该具体实施方式。
本发明所采用的技术方案是,一种基于精简卷积神经网络的快速视频超分辨率重建方法,包括以下步骤:
(1)、建立网络结构:
a、将当前帧、当前帧的前两帧以及当前帧的后两帧,共五帧作为系统的输入量,表示为XT,索引T∈{t-2,t-1,t,t+1,t+2},其中t表示当前时刻,并用Yt表示重建的当前视频帧;
b、特征提取及通道融合:①、首先采用滤波器对输入量XT进行卷积提取特征,表示成高维向量,记为H1T,H1T=W1T*XT+b1T,并采用参数线性纠正单元函数对H1T进行非线性操作:H1T=max(H1T,0)+a1T min(0,H1T),其中‘*’表示卷积操作,W1T表示对应索引T的大小为f1T×f1T×c1T×n1T的滤波器,f1T表示滤波器尺寸,c1T表示输入XT的通道数,n1T表示滤波器个数,b1T表示对应索引T的1×n1T的偏置项,a1T表示H1T的负数部分的系数,该层操作记为Conv(f1T×f1T×c1T×n1T)+PReLU,其中PReLU表示参数线性纠正单元函数;②、然后采用通道融合层对上述各个索引的H1T进行融合,融合后的输出记为H1,表示为:H1=[H1t-2,H1t-1,H1t,H1t+1,H1t+2],其中,[]操作表示将H1T在通道维度上进行连接,即经过特征提取及通道融合层后得到的H1包含了所有输入的n1T维特征;在具体实施例中,取f1T=3,c1T=1,n1T=56;
c、特征映射:①、首先利用通道收缩模块对融合后的输出量H1进行降维,降维后的输出记为H2S,H2S=max(W2S*H1+b2S,0)+a2S min(0,W2S*H1+b2S),其中,W2S表示大小为f2S×f2S×c2S×n2S的滤波器,b2S表示1×n2S的偏置项,a2S表示W2S*H1+b2S的负数部分的系数,该层操作记为Conv(f2S×f2S×c2S×n2S)+PReLU,其中PReLU表示参数线性纠正单元函数;②、然后采用m个大小为f2M×f2M×c2M×n2M的滤波器W2M和1×n2M的偏置项b2M对H2S进行多级映射,并通过PReLU函数进行非线性变换得到特征向量,得到的特征向量记为H2M,该层操作记为m×[Conv(f2M×f2M×c2M×n2M)+PReLU];③、接着采用通道扩展模块对H2M进行升维,升维后的输出记为H2,H2=max(W2E*H2M+b2E,0)+a2Emin(0,W2E*H2M+b2E),其中,W2E表示大小为f2E×f2E×c2E×n2E的滤波器,b2E表示1×n2E的偏置项,a2E表示W2E*H2M+b2E的负数部分的系数。该操作记为Conv(f2E×f2E×c2E×n2E)+PReLU;在具体实施例中,取f2S=1,c2S=280,n2S=12,m=4,f2M=3,c2M=12,n2M=12,f2E=1,c2E=12,n2E=56;
d、反卷积重建:对升维后的输出H2反卷积得到网络结构中重建的当前视频帧Yt
Figure BDA0001662344900000061
其中,
Figure BDA0001662344900000062
表示反卷积操作,可视为卷积操作的逆运算,WD3和bD3分别表示大小为fD3×fD3×cD3×nD3的反卷积滤波器和1×nD3维向量的偏置项,该层操作记为:Deconv(fD3×fD3×cD3×nD3);在具体实施例中,取fD3=9,cD3=56,nD3=1;
(2)、训练网络结构:将训练集记为
Figure BDA0001662344900000063
其中Xt (k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像,Zt (k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像,N表示训练样本个数,Xt (k)与Zt (k)的缩放比例因子s=2,3,4;用Yt (k)表示重建得到的高分辨率视频帧子图像,采用均方差作为目标函数,最小化Yt (k)与Zt (k)之间的误差,并估计网络结构中各网络结构层的网络参数θ,用随机梯度下降法对网络参数θ进行更新;为了快速得到不同缩放因子s下的重建模型,先从零开始训练s=3的模型A,再相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,分别得到s=2和s=4的模型B和模型C;
(3)、利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧XT进行超分辨率重建,最终得到对应缩放因子s下的重建的当前视频帧Yt
为进一步说明上述发明方法的可行性和有效性,进行如下实验。
在具体实施例中,将视频图像转化到YCbCr颜色空间,只采用亮度通道Y的数据进行训练和测试,并进行下述客观评价指标的分析,对于结果显示的彩色图像,使用双三次差值(Bicubic)采样得到Cb、Cr通道。
本实施例采用来自Xiph.org的公共标准清晰(Standard Definition,SD)视频序列作为训练数据集,并根据缩放因子s采样原始视频形成LR视频序列(低分辨率视频序列),为了提供足够的数据给本发明方法的网络进行训练,同时也为了降低网络的训练复杂度,从LR视频序列的连续5帧中随机裁剪出5×fsub×fsub像素的子图像,其中,每个fsub×fsub像素的子图像分别从前述5帧的每帧视频图像中提取,对应的HR视频序列子图像是从原始视频序列的5帧连续视频的中间帧中裁剪sfsub×sfsub像素。由于采用深度学习平台Caffe训练模型,对于不同的缩放因子s,其末端反卷积滤波器输出尺寸为(sfsub-s+1)2,而不是(sfsub)2,因此需要裁剪上述高分辨率子图像的(s-1)个边界像素,最终,对于缩放因子s=2,3,4,其LR/HR训练子图像的尺寸分别为132/252,92/252和72/252
接下来,为了测试本发明方法的泛化性能,采用不同于上述公共视频序列的其他视频序列(Videoset),即:Calendar、City、Foliage以及Walk作为测试视频序列,这些视频序列的分辨率和帧数参数如下表1所示。
Videoset Calendar City Foliage Walk
分辨率 720×576 704×576 720×480 720×480
帧数 31 31 31 31
表1测试视频序列Videoset的参数说明
然后,根据缩放因子s之间的相邻性,首先按照本发明方法的步骤过程,从零开始训练s=3的模型A,然后根据另外两个缩放因子s=2,4相应地微调最后的反卷积层,而保持所有卷积层参数不变,得到模型B和C。
根据上述理论和实践经验,本发明方法的网络结构及其超参数设置如图1所示,为了加强图像块之间的相关性,所有卷积层都根据滤波器尺寸进行零填充,并设置步长为1。对于反卷积层,为了重建高分辨率的图像尺寸,其步长等于缩放因子s。因此,对于模型A,B,C,其反卷积层步长分别为3,2,4。模型A的卷积层和反卷积层的学习率分别设置为10-4和10-5,然后在微调阶段,模型B和C的反卷积层的学习率均减半。考虑参数初始化,采用PReLU中的方法初始化卷积层的滤波器权重,由于网络末端不经过激活函数,因此反卷积层的滤波器权重采用均值为0,标准差为0.001的高斯分布随机初始化,所有偏置项采用0初始化。
为了验证本发明方法的有效性,实验记录了模型A、模型B以及模型C在测试视频序列上的重建性能。如图3所示,采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)作为每次训练过程中测试误差的衡量标准,一方面随着训练次数(epoch)的增加,本发明方法重建的测试序列的PSNR值逐步上升,直至收敛;另一方面,从图3中的图(a)、(b)和(c)的收敛曲线变化中,可以看出模型B和模型C较模型A能在更少的训练次数下得以收敛,且重建性能优于相应缩放因子s下的Bicubic方法和基于卷积神经网络的方法(SRCNN)。这表明了先初始训练模型A,然后通过微调得到模型B和C这一网络迁移策略的可行性和高效性。
然后,为了分析本发明方法的重建性能,将一种基于插值的方法:Bicubic,两种基于单图重建的方法:基于稀疏编码模型的方法(SC)以及基于卷积神经网络的方法(SRCNN),两种基于多帧重建的方法:基于自然图像统计和时域一致性的方法(FUS)以及用于视频SR的商业软件方法(Enhancer),上述五种方法与本发明方法(Proposed)进行对比,由于SC方法只有s=2时的参数设置,因此当s=3,4时,不需要采用SC来进行对比。除了采用常用的PSNR作为评价指标,还采用了结构相似度(Structural Similarity,SSIM)来评价重建效果。表2与表3分别为本发明方法与不同对比方法在PSNR以及SSIM的实验结果。由表2和表3中所列的数据可见,本发明方法相比Enhancer,SRCNN在三种缩放因子的亮度PSNR值上分别平均增加了0.47dB,0.16dB,在SSIM指标上分别平均提升了0.0211,0.0108。
Figure BDA0001662344900000081
表2本发明方法与其他重建方法在不同缩放因子s上的PSNR(dB)的比较
Figure BDA0001662344900000082
Figure BDA0001662344900000091
表3本发明方法与其他重建方法在不同缩放因子s上的SSIM的比较
图4显示了本发明方法(Proposed)与基于单图的重建方法:Bicubic、SC、SRCNN,在缩放因子s为2时的City序列第5帧的重建结果,从局部细节放大区域可以看出,Bicubic、SC重建出的建筑物整体比较模糊,而且本发明的方法(Proposed)相比SRCNN能保留更多的窗户细节。图5显示了本发明方法与基于多帧重建方法:FUS、Enhancer,在缩放因子s为3时的Calendar序列第3帧的重建结果,可以看出,相比FUS和Enhancer,本发明方法(Proposed)能充分结合相邻视频帧的信息,使得房屋条纹更加锐利,以及字母“MAREE”更加清晰。
综上所述,本发明方法的主客观质量结果均与原始图像较为接近,充分说明本发明方法的优异性。
最后,分析本发明方法(Proposed)的计算复杂度,所有对比算法均运行在相同的机器上,机器的CPU为Intel 2.30-GHz,内存16GB,以及GPU为GeForce GTX 960M。本发明方法(Proposed)与其他方法在表1所列出的测试视频序列Videoset上的平均每帧重建时间如表4所示。一方面,对于缩放因子s=2,3,4,本发明方法(Proposed)采用GPU的重建速度分别可达到0.046秒/帧,0.022秒/帧,0.017秒/帧,即每秒分别可重建21帧,45帧,58帧;另一方面,相比与FUS,本发明方法(Proposed)的重建时间明显缩短,相比SRCNN不仅在每个缩放因子s下的重建速度更快,而且随着缩放因子s的增大重建时间在逐步缩短。结果表明本发明方法(Proposed)的运算效率很高。
Figure BDA0001662344900000092
Figure BDA0001662344900000101
表4本发明方法与其他方法在Videoset上的平均每帧重建时间(单位:秒)
本发明提出的视频超分辨率算法的创新性主要体现在三个方面:
1)本发明方法考虑到输入的尺寸大小会直接影响网络的运算速度,因此省去传统方法的预插值过程,直接对多个LR输入视频帧提取特征,并进行多维特征通道融合,通过在网络末端添加反卷积层重建一个HR视频帧,降低了网络对机器内存的要求。
2)本发明方法为了避免网络中产生零梯度而丢失视频的重要信息,采用参数线性纠正单元(Parametric Rectified Linear Unit,PReLU)替代传统的激活函数线性纠正单元(Rectified Linear Unit,ReLU),并通过通道收缩模块、多级映射模块以及通道扩展模块进行特征映射,有效地增加了网络的学习能力。
3)本发明方法为了快速得到不同缩放因子s下的重建模型,根据缩放因子s之间的相邻性,首先从零开始训练s=3的模型A,然后根据另外两个缩放因子s=2,4相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,得到模型B和C。通过该网络迁移策略更快地训练出不同缩放因子下的重建模型。

Claims (2)

1.一种基于精简卷积神经网络的快速视频超分辨率重建方法,其特征在于:包括以下步骤:
(1)、建立网络结构:a、将当前帧、当前帧的前两帧以及当前帧的后两帧,共五帧作为系统的输入量,表示为XT,索引T∈{t-2,t-1,t,t+1,t+2},其中t表示当前时刻,并用Yt表示重建的当前视频帧;b、将输入量XT通过特征提取及通道融合法获取到融合输出量,记为H1,然后将H1通过特征映射法获取到映射后的输出量,记为H2,再将H2通过反卷积重建法得到网络结构中重建的当前视频帧Yt
所述的输入量XT通过特征提取及通道融合法获取到融合输出量的具体步骤为:(b-01)、首先采用滤波器对输入量XT进行卷积提取特征,表示成高维向量,记为H1T,H1T=W1T*XT+b1T,并采用参数线性纠正单元函数对H1T进行非线性操作:H1T=max(H1T,0)+a1Tmin(0,H1T),其中‘*’表示卷积操作,W1T表示对应索引T的大小为f1T×f1T×c1T×n1T的滤波器,f1T表示滤波器W1T的尺寸,c1T表示输入XT的通道数,n1T表示滤波器W1T的个数,b1T表示对应索引T的1×n1T的偏置项,a1T表示H1T的负数部分的系数,该层操作记为Conv(f1T×f1T×c1T×n1T)+PReLU,其中PReLU表示参数线性纠正单元函数;(b-02)、然后采用通道融合层对上述各个索引的H1T进行融合,融合后的输出记为H1,表示为:H1=[H1t-2,H1t-1,H1t,H1t+1,H1t+2],其中,[]操作表示将H1T在通道维度上进行连接,即经过第一部分特征提取及通道融合层后得到的H1包含了所有输入的n1T维特征;
所述的将H1通过特征映射法获取到映射后的输出量的具体步骤为:(b-11)、首先利用通道收缩模块对融合后的输出量H1进行降维,降维后的输出记为H2S,H2S=max(W2S*H1+b2S,0)+a2Smin(0,W2S*H1+b2S),其中,W2S表示大小为f2S×f2S×c2S×n2S的滤波器,b2S表示1×n2S的偏置项,a2S表示W2S*H1+b2S的负数部分的系数,该层操作记为Conv(f2S×f2S×c2S×n2S)+PReLU,其中PReLU表示参数线性纠正单元函数;(b-12)、然后采用m个大小为f2M×f2M×c2M×n2M的滤波器W2M和1×n2M的偏置项b2M对H2S进行多级映射,并通过PReLU函数进行非线性变换得到特征向量,得到的特征向量记为H2M,该层操作记为m×[Conv(f2M×f2M×c2M×n2M)+PReLU];(b-13)、接着采用通道扩展模块对H2M进行升维,升维后的输出记为H2,H2=max(W2E*H2M+b2E,0)+a2Emin(0,W2E*H2M+b2E),其中,W2E表示大小为f2E×f2E×c2E×n2E的滤波器,b2E表示1×n2E的偏置项,a2E表示W2E*H2M+b2E的负数部分的系数,该操作记为Conv(f2E×f2E×c2E×n2E)+PReLU;
(2)、训练网络结构:将训练集记为
Figure FDA0003621014190000021
其中Xt (k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像,Zt (k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像,N表示训练样本个数,Xt (k)与Zt (k)的缩放比例因子s=2,3,4;用Yt (k)表示重建得到的高分辨率视频帧子图像,采用均方差作为目标函数,最小化Yt (k)与Zt (k)之间的误差,并估计各网络结构中各层的网络参数θ,用随机梯度下降法对网络参数θ进行更新;为了快速得到不同缩放因子s下的重建模型,先从零开始训练s=3的模型A,再相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,分别得到s=2和s=4的模型B和模型C;
(3)、利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧XT进行超分辨率重建,最终得到对应缩放因子s下的重建的当前视频帧Yt
2.根据权利要求1所述的一种基于精简卷积神经网络的快速视频超分辨率重建方法,其特征在于:上述步骤(1)中,反卷积重建法的具体方法为:对升维后的输出H2反卷积得到网络结构中重建的当前视频帧Yt
Figure FDA0003621014190000022
其中,
Figure FDA0003621014190000023
表示反卷积操作,可视为卷积操作的逆运算,WD3和bD3分别表示大小为fD3×fD3×cD3×nD3的反卷积滤波器和1×nD3维向量的偏置项,该层操作记为:Deconv(fD3×fD3×cD3×nD3)。
CN201810467095.6A 2018-05-16 2018-05-16 一种基于精简卷积神经网络的快速视频超分辨率重建方法 Active CN108830790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810467095.6A CN108830790B (zh) 2018-05-16 2018-05-16 一种基于精简卷积神经网络的快速视频超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810467095.6A CN108830790B (zh) 2018-05-16 2018-05-16 一种基于精简卷积神经网络的快速视频超分辨率重建方法

Publications (2)

Publication Number Publication Date
CN108830790A CN108830790A (zh) 2018-11-16
CN108830790B true CN108830790B (zh) 2022-09-13

Family

ID=64148120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810467095.6A Active CN108830790B (zh) 2018-05-16 2018-05-16 一种基于精简卷积神经网络的快速视频超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN108830790B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840941B (zh) * 2019-02-20 2023-01-24 尹大龙 一种内窥镜探测物体的表面重建方法及系统
CN111800630A (zh) * 2019-04-09 2020-10-20 Tcl集团股份有限公司 一种视频超分辨率重建的方法、系统及电子设备
CN112116526A (zh) * 2019-06-19 2020-12-22 中国石油化工股份有限公司 基于深度卷积神经网络的火炬烟雾图像的超分辨率方法
CN110706155B (zh) * 2019-09-12 2022-11-29 武汉大学 一种视频超分辨率重建方法
CN110647936B (zh) * 2019-09-20 2023-07-04 北京百度网讯科技有限公司 视频超分辨率重建模型的训练方法、装置和电子设备
CN110572710B (zh) * 2019-09-25 2021-09-28 北京达佳互联信息技术有限公司 视频生成方法、装置、设备及存储介质
CN110969577B (zh) * 2019-11-29 2022-03-11 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法
CN111382309B (zh) * 2020-03-10 2023-04-18 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN111461983B (zh) * 2020-03-31 2023-09-19 华中科技大学鄂州工业技术研究院 一种基于不同频度信息的图像超分辨率重建模型及方法
CN113556496B (zh) * 2020-04-23 2022-08-09 京东方科技集团股份有限公司 视频分辨率提升方法及装置、存储介质及电子设备
CN112183675B (zh) * 2020-11-10 2023-09-26 武汉工程大学 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN112381839B (zh) * 2020-11-14 2022-08-02 四川大学华西医院 一种基于深度学习的乳腺癌病理图像he癌巢分割方法
CN113688694B (zh) * 2021-08-03 2023-10-27 上海交通大学 基于非配对学习的提升视频清晰度的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379612B2 (en) * 2004-12-16 2008-05-27 The Regents Of The University Of California, Santa Cruz Dynamic reconstruction of high-resolution video from color-filtered low-resolution video-to-video super-resolution
CN103108209A (zh) * 2012-12-28 2013-05-15 宁波大学 基于视觉阈值与通道融合的立体图像客观质量评价方法
CN105247869A (zh) * 2013-05-24 2016-01-13 株式会社Kt 用于在多层结构中引出运动信息的方法以及使用该方法的设备
CN107274347A (zh) * 2017-07-11 2017-10-20 福建帝视信息科技有限公司 一种基于深度残差网络的视频超分辨率重建方法
CN107610140A (zh) * 2017-08-07 2018-01-19 中国科学院自动化研究所 基于深度融合修正网络的精细边缘检测方法、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101220413B1 (ko) * 2010-10-15 2013-01-09 중앙대학교 산학협력단 다중 컬러-필터 조리개를 이용하여 촬영된 영상의 화질 개선 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379612B2 (en) * 2004-12-16 2008-05-27 The Regents Of The University Of California, Santa Cruz Dynamic reconstruction of high-resolution video from color-filtered low-resolution video-to-video super-resolution
CN103108209A (zh) * 2012-12-28 2013-05-15 宁波大学 基于视觉阈值与通道融合的立体图像客观质量评价方法
CN105247869A (zh) * 2013-05-24 2016-01-13 株式会社Kt 用于在多层结构中引出运动信息的方法以及使用该方法的设备
CN107274347A (zh) * 2017-07-11 2017-10-20 福建帝视信息科技有限公司 一种基于深度残差网络的视频超分辨率重建方法
CN107610140A (zh) * 2017-08-07 2018-01-19 中国科学院自动化研究所 基于深度融合修正网络的精细边缘检测方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Video Super-Resolution With Convolutional Neural Networks;Armin Kappeler 等;《IEEE TRANSACTIONS ON COMPUTATIONAL IMAGING》;20160630;第103-112页 *
一种监控视频人脸图像超分辨技术;王嫣然 等;《光学学报》;20170331;第0318012-1-8页 *

Also Published As

Publication number Publication date
CN108830790A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108830790B (zh) 一种基于精简卷积神经网络的快速视频超分辨率重建方法
CN107507134B (zh) 基于卷积神经网络的超分辨率方法
Wang et al. Esrgan: Enhanced super-resolution generative adversarial networks
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及系统
CN111311490B (zh) 基于多帧融合光流的视频超分辨率重建方法
CN106709875B (zh) 一种基于联合深度网络的压缩低分辨率图像复原方法
CN106952228B (zh) 基于图像非局部自相似性的单幅图像的超分辨率重建方法
CN107274347A (zh) 一种基于深度残差网络的视频超分辨率重建方法
CN110634105B (zh) 一种光流法和深度网络结合的视频高时空分辨率信号处理方法
CN107492070A (zh) 一种双通道卷积神经网络的单图像超分辨率计算方法
CN110120011A (zh) 一种基于卷积神经网络和混合分辨率的视频超分辨方法
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN108830812B (zh) 一种基于网格结构深度学习的视频高帧率重制方法
CN110827198B (zh) 基于压缩感知和超分辨率重构的多相机全景图像构建方法
CN108805808A (zh) 一种利用卷积神经网络提高视频分辨率的方法
CN111105376B (zh) 基于双分支神经网络的单曝光高动态范围图像生成方法
CN111696033B (zh) 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法
CN112102163B (zh) 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法
CN111932461A (zh) 一种基于卷积神经网络的自学习图像超分辨率重建方法及系统
CN113052764B (zh) 一种基于残差连接的视频序列超分重建方法
CN111583107A (zh) 一种基于注意力机制的图像超分辨率重建方法和系统
CN115526779A (zh) 一种基于动态注意力机制的红外图像超分辨率重建方法
CN115953294A (zh) 一种基于浅层通道分离与聚合的单图像超分辨率重建方法
CN114757828A (zh) 基于Transformer的视频时空超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant