CN113052764B - 一种基于残差连接的视频序列超分重建方法 - Google Patents
一种基于残差连接的视频序列超分重建方法 Download PDFInfo
- Publication number
- CN113052764B CN113052764B CN202110418081.7A CN202110418081A CN113052764B CN 113052764 B CN113052764 B CN 113052764B CN 202110418081 A CN202110418081 A CN 202110418081A CN 113052764 B CN113052764 B CN 113052764B
- Authority
- CN
- China
- Prior art keywords
- image
- video
- resolution
- training
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000005520 cutting process Methods 0.000 claims abstract description 6
- 230000003321 amplification Effects 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000011276 addition treatment Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 235000009508 confectionery Nutrition 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241001061264 Astragalus Species 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于残差连接的视频序列超分重建方法,包括以下步骤,对视频数据进行视频帧提取,将视频数据抽帧为图像集,进行时序拆分并随机加噪进行数据扩增;将数据进行随机裁剪,并输入到前端的3D卷积层中,并将卷积层拆分为两层,进行时序动态信息融合,得到浅层特征;将浅层特征进行深层特征处理并进行上采样,得到单帧图像;将单帧图像集进行合并得到视频序列;进行网络模型训练,当训练损失收敛且图像视觉指标PSNR上升稳定后保存网络模型,最后进行测试集推理。通过本发明可以降低模型参数量与计算量,使得超分结果更加的光滑、真实,保证PSNR性能指标并增强可视化效果,缓解输出视频中的局部跳帧问题,从而有效提升了超分视频的视觉效果。
Description
技术领域
本发明涉及计算机视觉图像处理的技术领域,尤其涉及一种基于残差连接的视频序列超分重建方法。
背景技术
图像超分辨率重建(Super-Resolution,SR)是计算机视觉领域一项经典的低级语义任务,其目的是利用低分辨率(Low-Resolution,LR)的图片获得高分辨率(High-Resolution,HR)图片,通过一系列图像处理策略提升图像的可视化效果。图像分辨率高,高频边缘与低频纹理信息丰富,可以大大降低后期的高级语义任务的难度。但是由于数字图像采集设备自带物理噪声、储存过程中的信息丢失等真实场景的限制,我们获得的真实场景下的样本质量比较一般、视觉效果差,加上提升硬件设备条件的成本及难度较大,需要通过图像处理的软件方式重建获得高分辨率图像。在监控系统、安防、识别等多个场景有着广泛的应用。
图像超分辨率重建按输入图像的帧数可分为单幅图像超分辨率和多幅图像超分辨率,视频序列的超分重建可基于后者的基础进行研究。但实际上,一张低分辨率的图像往往可以对应于许多高分辨率的图像,使得图像超分任务并非一个一对一的恢复任务,这是一个不适定的问题。为了解决这样的问题,人们提出了很多种方法来学习LR和HR图像对之间的映射关系,大致分为基于各种插值策略的重建方法、基于编码学习的方法和基于深度卷积神经网络(CNN)的方法。
早期的插值方法来进行图像上采样,有操作简单,复杂度、计算量低,速度快,算法稳定等优点。但是往往在边缘过渡的区域出现锯齿、马赛克纹理,不能满足要求较高的场景。近年来,基于深度卷积神经网络(CNN)的方法应用在图像超分辨率重建领域,与传统的超分方法相比有了显著改进。
基于深度学习的方法SRCNN首次将卷积神经网络应用与图像超分,并超越了传统的方法。但是由于其网络结构简单,感受野小,难以学习更多的特征,图像细节恢复得不够。逐渐地,VDSR、EDSR等优秀的模型方法被提出,有效提升了超分图像的性能指标。但是卷积神经网络在处理不同类型的信息时缺乏灵活性,会平等地对待通道特征,缺乏跨特征通道的判别学习能力,并阻碍了深度网络的表示能力。出于这样的考虑,Zhang等人于2019年提出了一种残差通道注意力网络,可以训练非常深的网络,并同时自适应地学习更多有用的通道特征。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于残差连接的视频序列超分重建方法,该发明能够有效提升重建效率和重建后超分视频的视觉效果。
技术方案:为了实现上述发明目的,本发明提供了一种基于残差连接的视频序列超分重建方法,包括以下步骤,
步骤1,对视频数据进行视频帧提取,将视频数据抽帧为图像集,进行时序拆分并随机加噪进行数据扩增;
步骤2,构建残差通道注意力网络,将得到的数据取连续5帧进行随机裁剪,并输入到残差通道注意力网络前端的3D卷积层中,将卷积层拆分为两个子卷积层,子卷积层的卷积核尺寸分别为T×1×1和1×3×3,进行时序动态信息融合,得到融合了时序动态信息的浅层特征;
步骤3,将浅层特征输入到后续上采样网络中进行深层特征处理并在处理过程中实现4×4倍的上采样操作,得到的输出为超分后的单帧图像;
步骤4,将得到的单帧图像集利用图像工具进行合并,合并后的输出为与输入视频数据为同时长的视频序列;
步骤5,初始化残差通道注意力网络参数,该任务为回归任务,模型为端到端的训练过程,监督信息为数据集高分辨率视频抽取的对应图像,当训练损失收敛且图像视觉指标PSNR上升稳定后保存模型,最后进行测试集推理。
进一步的,在本发明中:所述步骤1还包括以下步骤,
步骤1-1,将视频训练集抽帧成图像,并将图像通过水平翻转与竖直镜像翻转进行数据扩充;
步骤1-2,将扩充后的数据进行随机加噪处理从而增强数据集的全面性。
进一步的,在本发明中:所述步骤2还包括以下步骤,
步骤2-1,对输入图像进行随机裁剪成尺寸为128×128的Patch像素块;
步骤2-2,在超分辨率重建模型结构的前端添加了3D卷积层,提取连续5帧的时域信息作为3D卷积层的输入,即对于t帧时刻的图像,补充t-2、t-1、t+1和t+2四帧信息;
步骤2-3:对常用的尺寸为T×3×3的3D卷积核进行了分解,其中T为时序维度,将其分解为T×1×1和1×3×3的卷积核,前者融合了先后5帧的时序信息,后者如正常的卷积操作,以3×3的感受野进行特征提取,样本通过这两层时序处理层得到连续5帧融合对应的浅层特征ILR,且:
ILR=Conv3D(Iin)
其中,Iin为输入张量,Conv3D(˙)为两层卷积的映射,得到的浅层特征ILR将在后续进一步处理。
进一步的,在本发明中:所述步骤3还包括以下步骤,
步骤3-1,所述步骤2得到的浅层特征ILR经过一层卷积后得到第一深层特征F0,即:
F0=Conv(ILR)
其中,Conv(·)为普通卷积的映射;
步骤3-2:将第一深层特征F0输入至RIR模块,其中RIR表示残差套残差结构,包含一系列的残差组,是基于残差网络中短跨接的一个模块,将其记为HRIR,可以得到的第二深层特征FDF为:
FDF=HRIR(F0)
此时特征的尺寸与输入图像的尺寸保持相同;
步骤3-3,对经过多级的网络提取的深度特征进行上采样操作,此处的设置为4×4倍,可根据需求修改上采样的级数更改超分特征的尺寸,即
FUP=HUP(FUF)
其中,HUP(·)为上采样模块,FUP为上采样后的特征;
步骤3-4,此时特征尺寸已经达到预计的大小,最后需要一层重建层对特征进行恢复得到重建图像,其具体实现子模块为多重标准卷积,
ISR=HREC(FUP)=HRCAN(ILR)=HRCAN(Conv3D(Iin))
其中,ISR为重建图像,HREC(·)为重建层,HRCAN(·)为残差网络RCAN结构。
进一步的,在本发明中:所述步骤5还包括以下步骤,
步骤5-1,对残差通道注意力网络参数进行初始化;
步骤5-2,该预测任务为回归任务,选定像素级的监督损失进行网络训练,其中超分网络在输出端的监督采取的损失函数L1为:
其中,Htotal(·)为修正后的网络模型,||·||1为L1范数,i是样本序号,N为训练样本总数,此引入L2损失平滑超分结果,损失函数L2的计算公式为:
其中,||·||2为L2范数,i是样本序号,N为训练样本总数,联合L1损失和L2损失,得到的训练损失L为:
L=L1+λL2
其中,λ是两个损失平衡的超参数,超参数λ可以通过网格搜索的方式确认其合适值;
步骤5-3,使用梯度下降法SGD对网络进行训练,训练损失为L,监督信息为数据集高分辨率视频抽取的对应图像,当训练损失收敛并图像视觉指标PSNR上升稳定后保存模型,训练结束。
有益效果:本发明与现有技术相比,其有益效果是:
(1)本发明以一种极为直接的方式将图像超分辨率的方法延拓至视频超分辨率领域,适用范围广,移植方法简单;
(2)将视频的超分重建退化成图像超分重建任务,在模型前端引入了3D卷积并拆解卷积核进行时序信息的补充,从而降低了时序信息处理过程中模型的参数量和计算量;
(3)本发明在传统损失函数的基础上引入新的损失函数,使得超分结果更加的光滑、真实,保证PSNR性能指标并增强可视化效果,缓解输出视频中的局部跳帧问题。
附图说明
图1为本发明提出的基于残差连接的视频序列超分重建方法的整体流程示意图;
图2为本发明中残差通道注意力网络示意图;
图3为本发明中添加3D卷积修正的RCAN网络模型的网络流程示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明可以用许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。
如图1所示,图1为本发明提出的一种基于残差连接的视频序列超分重建方法的整体流程示意图,该方法具体包括以下步骤,
步骤1,对视频数据进行视频帧提取,将视频数据抽帧为图像集,进行时序拆分并随机加噪进行数据扩增;
具体的,步骤1还包括以下步骤,
步骤1-1,将视频训练集抽帧成图像,并将图像通过水平翻转与竖直镜像翻转进行数据扩充,此时可以得到的数据集的图像数量为未扩充前的图像数量的4倍;本实施例中使用的视频训练集为公开数据集,具体可以为阿里巴巴天池平台的公开视频数据集。
步骤1-2,将扩充后的数据进行随机加噪处理,加噪方式包括色彩抖动、高斯噪声与椒盐噪声、图像保存导致的bit噪声,以及深度学习中的对抗样本,多种方式混合处理从而增强数据集的全面性。
步骤2,构建残差通道注意力网络,将得到的数据取连续5帧进行随机裁剪,并输入到残差通道注意力网络前端的3D卷积层中,为了降低参数量和计算量,将卷积层拆分为两个子卷积层,子卷积层的卷积核尺寸分别为T×1×1和1×3×3,进行时序动态信息融合,得到融合了时序动态信息的浅层特征;其中,残差通道注意力网络的结构参照图2的示意。
具体的,步骤2还包括以下步骤,
步骤2-1,由于输出图像尺寸较大,在输入图像的基础上上采样了4×4倍,容易造成内存溢出,因此实际操作中需要对输入图像进行随机裁剪成尺寸为128×128的Patch像素块。该操作既能够降低计算量,且不同Epoch时期采取的像素块不完全一样,等价地进行了数据增强,强化了模型的拟合能力;
步骤2-2:在本发明所描述的视频超分任务中,将视频提取成图片帧进行处理;作为性能补充,在超分辨率重建模型结构的前端添加了3D卷积层,提取连续5帧的时域信息作为3D卷积层的输入,即对于t帧时刻的图像,补充t-2、t-1、t+1和t+2四帧信息。同时,视频样本中需要验证不存在跳帧等快速运动的场景;
步骤2-3:引入了一个维度的3D卷积参数较多,计算量较大,从而带来了过大的训练难度。为了缓解3D卷积的不足,对常用的尺寸为T×3×3的3D卷积核进行了分解,其中T为时序维度,将其分解为T×1×1和1×3×3的卷积核,前者融合了先后5帧的时序信息,后者如正常的卷积操作,以3×3的感受野进行特征提取,样本通过这两层时序处理层得到连续5帧融合对应的浅层特征ILR,且:
ILR=Conv3D(Iin)
其中,Iin为输入张量,Conv3D(˙)为两层卷积的映射,得到的浅层特征ILR将在后续进一步处理。
步骤3,将浅层特征输入到后续上采样网络中进行深层特征处理并在处理过程中实现4×4倍的上采样操作,得到的输出为超分后的单帧图像;
参照图2的示意,为残差通道注意力网络RCAN的示意图,进一步利用残差通道注意力网络中的通道注意力机制,其通过全局平均池化将通道的全局空间信息带入通道描述。对于大小为H×W×C的输入特征图X,且X=[x1,…,xc,…,xC],池化为1×1×C向量zc,即:
其中,xc为第c层的特征图,i和j为特征图上的位置。
全局池化统计整个特征图的信息,为了通过全局平均池从聚合信息中完全捕获通道方式的依赖性,引入了门控机制。多层的全连接层及激活函数获得不同通道的特征的权重,通过像素级乘积作用于特征图上,故此残差块的不同通道便会自适应调整权重以选取更有助益的特征图,经过以上操作得到的输出为超分后的单帧图像。
具体的,步骤3还包括以下步骤,
步骤3-1,所述步骤2得到的浅层特征ILR经过一层卷积后得到第一深层特征F0,即:
F0=Conv(ILR)
其中,Conv(·)为普通卷积的映射;
步骤3-2:将第一深层特征F0输入至RIR模块,其中RIR表示残差套残差结构,包含一系列的残差组,是基于残差网络中短跨接的一个模块,将其记为HRIR,可以得到的第二深层特征FDF为:
FDF=HRIR(F0)
此时特征的尺寸与输入图像的尺寸保持相同;
步骤3-3,对经过多级的网络提取的深度特征进行上采样操作,此处的设置为4×4倍,可根据需求修改上采样的级数更改超分特征的尺寸,即
FUP=HUP(FDF)
其中,HUP(·)为上采样模块,FUP为上采样后的特征;
步骤3-4,此时特征尺寸已经达到预计的大小,最后需要一层重建层对特征进行恢复得到重建图像,其具体实现子模块为多重标准卷积,
ISR=HREC(FUP)=HRCAN(ILR)=HRCAN(Conv3D(Iin))
其中,ISR为重建图像,HREC(·)为重建层,HRCAN(·)为残差网络RCAN结构。
参照图3的示意,连续5帧的输入图像帧联合得到一帧的高清输出,因此得到的高分序列对应的网络输入图像存在较大程度的交叉重叠,得到的高清视频连续性较为优越,视觉效果较佳。
步骤4,将得到的单帧图像集利用图像工具进行合并,合并后的输出为与输入视频数据为同时长的视频序列;其中,图像工具可以为ffempeg开源程序。
步骤5,初始化残差通道注意力网络参数,该任务为回归任务,模型为端到端的训练过程,监督信息为数据集高分辨率视频抽取的对应图像,当训练损失收敛且图像视觉指标PSNR上升稳定后保存模型,最后进行测试集推理。
具体的,步骤5还包括以下步骤,
步骤5-1,对残差通道注意力网络参数进行初始化;
步骤5-2,该预测任务为回归任务,选定像素级的监督损失进行网络训练,其中超分网络在输出端的监督采取的损失函数L1为:
其中,Htotal(·)为修正后的网络模型,||·||1为L1范数,i是样本序号,N为训练样本总数。
然而在视频超分任务中,需要得到更好的可视化效果,单独的L1损失更侧重于生成与监督图像像素之间的绝对差异,可以得到更高的PSNR,但会损失图像的显示效果,带来伪影等不利因素,故在此引入L2损失平滑超分结果,损失函数L2的计算公式为:
其中,||·||2为L2范数,i是样本序号,N为训练样本总数。
最终的损失联合L1损失和L2损失,一方面保留提升PSNR性能指标的优势,另一方面提升超分模型的可视化效果,方便后期输出图像序列化成视频后的连续性,得到的训练损失L为:
L=L1+λL2
其中,λ是两个损失平衡的超参数,超参数λ可以通过网格搜索的方式确认其合适值;
步骤5-3,使用梯度下降法SGD对网络进行训练,训练损失为L,监督信息为数据集高分辨率视频抽取的对应图像。当训练损失收敛并图像视觉指标PSNR上升稳定后保存模型,训练结束。
步骤6,使用经过训练后的残差通道注意力网络模型对输入的视频进行超分辨率重建。
应说明的是,以上所述实施例仅表达了本发明的部分实施方式,其描述并不能理解为对本发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干改进,这些均应落入本发明的保护范围。
Claims (5)
1.一种基于残差连接的视频序列超分重建方法,其特征在于:包括以下步骤,
步骤1,对视频数据进行视频帧提取,将视频数据抽帧为图像集,进行时序拆分并随机加噪进行数据扩增;
步骤2,构建残差通道注意力网络,将得到的数据取连续5帧进行随机裁剪,并输入到残差通道注意力网络前端的3D卷积层中,将卷积层拆分为两个子卷积层,子卷积层的卷积核尺寸分别为T×1×1和1×3×3,进行时序动态信息融合,得到融合了时序动态信息的浅层特征;
步骤3,将浅层特征输入到后续上采样网络中进行深层特征处理并在处理过程中实现4×4倍的上采样操作,得到的输出为超分后的单帧图像;
步骤4,将得到的单帧图像集利用图像工具进行合并,合并后的输出为与输入视频数据为同时长的视频序列;
步骤5,初始化残差通道注意力网络参数,该任务为回归任务,模型为端到端的训练过程,监督信息为数据集高分辨率视频抽取的对应图像,当训练损失收敛且图像视觉指标PSNR上升稳定后保存模型,最后进行测试集推理。
2.如权利要求1所述的基于残差连接的视频序列超分重建方法,其特征在于:所述步骤1还包括以下步骤,
步骤1-1,将视频训练集抽帧成图像,并将图像通过水平翻转与竖直镜像翻转进行数据扩充;
步骤1-2,将扩充后的数据进行随机加噪处理从而增强数据集的全面性。
3.如权利要求1或2所述的基于残差连接的视频序列超分重建方法,其特征在于:所述步骤2还包括以下步骤,
步骤2-1,对输入图像进行随机裁剪成尺寸为128×128的Patch像素块;
步骤2-2,在超分辨率重建模型结构的前端添加了3D卷积层,提取连续5帧的时域信息作为3D卷积层的输入,即对于t帧时刻的图像,补充t-2、t-1、t+1和t+2四帧信息;
步骤2-3:对常用的尺寸为T×3×3的3D卷积核进行了分解,其中T为时序维度,将其分解为T×1×1和1×3×3的卷积核,前者融合了先后5帧的时序信息,后者如正常的卷积操作,以3×3的感受野进行特征提取,样本通过这两层时序处理层得到连续5帧融合对应的浅层特征ILR,且:
ILR=Conv3D(lin)
其中,Iin为输入张量,Conv3D(·)为两层卷积的映射,得到的浅层特征ILR将在后续进一步处理。
4.如权利要求3所述的基于残差连接的视频序列超分重建方法,其特征在于:所述步骤3还包括以下步骤,
步骤3-1,所述步骤2得到的浅层特征ILR经过一层卷积后得到第一深层特征F0,即:
F0=Conv(ILR)
其中,Conv(.)为普通卷积的映射;
步骤3-2:将第一深层特征F0输入至RIR模块,其中RIR表示残差套残差结构,包含一系列的残差组,是基于残差网络中短跨接的一个模块,将其记为HRIR,可以得到的第二深层特征FDF为:
FDF=HRIR(F0)
此时特征的尺寸与输入图像的尺寸保持相同;
步骤3-3,对经过多级的网络提取的深度特征进行上采样操作,此处的设置为4×4倍,可根据需求修改上采样的级数更改超分特征的尺寸,即
FUP=HUP(FDF)
其中,HUP(·)为上采样模块,FUP为上采样后的特征;
步骤3-4,此时特征尺寸已经达到预计的大小,最后需要一层重建层对特征进行恢复得到重建图像,其具体实现子模块为多重标准卷积,
ISR=HREC(FUP)=HRCAN(ILR)=HRCAN(Conv3D(Iin))
其中,ISR为重建图像,HREC(·)为重建层,HRCAN(·)为残差网络RCAN结构。
5.如权利要求4所述的基于残差连接的视频序列超分重建方法,其特征在于:所述步骤5还包括以下步骤,
步骤5-1,对残差通道注意力网络参数进行初始化;
步骤5-2,该预测任务为回归任务,选定像素级的监督损失进行网络训练,其中超分网络在输出端的监督采取的损失函数L1为:
其中,Htotal(·)为修正后的网络模型,||·||1为L1范数,i是样本序号,N为训练样本总数,此引入L2损失平滑超分结果,损失函数L2的计算公式为:
其中,||·||2为L2范数,i是样本序号,N为训练样本总数,联合L1损失和L2损失,得到的训练损失L为:
L=L1+λL2
其中,λ是两个损失平衡的超参数,超参数λ可以通过网格搜索的方式确认其合适值;
步骤5-3,使用梯度下降法SGD对网络进行训练,训练损失为L,监督信息为数据集高分辨率视频抽取的对应图像,当训练损失收敛并图像视觉指标PSNR上升稳定后保存模型,训练结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418081.7A CN113052764B (zh) | 2021-04-19 | 2021-04-19 | 一种基于残差连接的视频序列超分重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110418081.7A CN113052764B (zh) | 2021-04-19 | 2021-04-19 | 一种基于残差连接的视频序列超分重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113052764A CN113052764A (zh) | 2021-06-29 |
CN113052764B true CN113052764B (zh) | 2022-11-08 |
Family
ID=76520341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110418081.7A Active CN113052764B (zh) | 2021-04-19 | 2021-04-19 | 一种基于残差连接的视频序列超分重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052764B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4365820A1 (en) * | 2021-07-20 | 2024-05-08 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Video super-resolution network, and video super-resolution, encoding and decoding processing method and device |
CN113691792B (zh) * | 2021-08-03 | 2022-07-29 | 上海交通大学 | 基于3d卷积的视频比特位深扩展方法、装置及介质 |
CN113361510B (zh) * | 2021-08-11 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 超分网络模型训练方法、装置、电子设备以及存储介质 |
CN115278249A (zh) * | 2022-06-27 | 2022-11-01 | 北京大学 | 基于视觉自注意力网络的视频块级率失真优化方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889895B (zh) * | 2019-11-11 | 2023-01-03 | 南昌大学 | 一种融合单帧重建网络的人脸视频超分辨率重建方法 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN111524068B (zh) * | 2020-04-14 | 2023-06-02 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
-
2021
- 2021-04-19 CN CN202110418081.7A patent/CN113052764B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113052764A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052764B (zh) | 一种基于残差连接的视频序列超分重建方法 | |
CN110120011B (zh) | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN111489372B (zh) | 基于级联卷积神经网络的视频前背景分离方法 | |
CN110969589B (zh) | 基于多流注意对抗网络的动态场景模糊图像盲复原方法 | |
CN108830790B (zh) | 一种基于精简卷积神经网络的快速视频超分辨率重建方法 | |
CN103413286B (zh) | 一种基于学习的高动态范围与高分辨率图像联合重建方法 | |
CN109785236B (zh) | 一种基于超像素和卷积神经网络的图像超分辨方法 | |
CN111008938B (zh) | 一种基于内容和连续性引导的实时多帧比特增强方法 | |
CN111462013A (zh) | 一种基于结构化残差学习的单图去雨方法 | |
CN114677304A (zh) | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 | |
CN112288632A (zh) | 基于精简esrgan的单图像超分辨率方法及系统 | |
CN112580473B (zh) | 一种融合运动特征的视频超分辨率重构方法 | |
CN112884650B (zh) | 一种基于自适应纹理蒸馏的图像混合超分辨率方法 | |
CN109886906B (zh) | 一种细节敏感的实时弱光视频增强方法和系统 | |
Xu et al. | Joint demosaicing and super-resolution (JDSR): Network design and perceptual optimization | |
CN111696033A (zh) | 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法 | |
CN112422870B (zh) | 一种基于知识蒸馏的深度学习视频插帧方法 | |
CN112365403A (zh) | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 | |
Pham et al. | Low-light image enhancement for autonomous driving systems using DriveRetinex-Net | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 | |
CN109871790B (zh) | 一种基于混合神经网络模型的视频去色方法 | |
CN115147274A (zh) | 获取图像超分辨率方法、获取系统设备以及存储介质 | |
CN112489103B (zh) | 一种高分辨率深度图获取方法及系统 | |
CN113362239A (zh) | 一种基于特征交互的深度学习图像修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |