CN112991183A - 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 - Google Patents
一种基于多帧注意力机制渐进式融合的视频超分辨率方法 Download PDFInfo
- Publication number
- CN112991183A CN112991183A CN202110381167.7A CN202110381167A CN112991183A CN 112991183 A CN112991183 A CN 112991183A CN 202110381167 A CN202110381167 A CN 202110381167A CN 112991183 A CN112991183 A CN 112991183A
- Authority
- CN
- China
- Prior art keywords
- frame
- resolution
- video
- attention mechanism
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000004927 fusion Effects 0.000 title claims abstract description 51
- 230000000750 progressive effect Effects 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 20
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 230000008707 rearrangement Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 101100247599 Hordeum vulgare RCAB gene Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多帧注意力机制渐进式融合的视频超分辨率方法,首先对视频数据集进行抽帧以生成训练集;然后连接多帧注意力机制渐进式融合模块、特征提取模块和重建模块来搭建视频超分网络,再利用低冗余度训练策略在训练集上对网络进行训练,即只对目标帧进行学习,前后帧仅作为辅助信息而不再作为目标帧进行训练,大大提高了学习效率;最后使用训练得到的视频超分模型对待放大的视频进行重建,最终得到高分辨率视频。本发明可以充分利用前后帧的信息来帮助目标帧重建,有效提高视频超分辨率效果。
Description
技术领域
本发明涉及基于深度学习的图像超分辨率(SISR)技术、视频超分辨率(VSR)技术领域,特别是一种基于多帧注意力机制渐进式融合的视频超分辨率方法。
背景技术
基于深度学习的图像超分辨率(SISR)技术,主要以卷积神经网络(CNN)为学习模型,通过大量数据学习低分辨率图像缺失的纹理细节等高频信息,实现低分辨率图像到高分辨率图像端到端的转换。相比传统的插值方法,深度学习的方法表现出很大的优势,在PSNR、SSIM等效果评价指标上实现了显著的提升,近年来涌现出了一大批优秀的基于深度学习的图像超分辨率算法。
Dong等人2014年提出的SRCNN是第一个基于卷积神经网络的图像超分辨率算法,将深度学习引入到图像超分领域,利用三个卷积层完成图像块提取、非线性映射和图像重建等操作,训练了一个端到端的图像超分辨率模型,即输入一个低分辨率图像可以输出对应高分辨率图像的估计,虽然网络只有三层,但相比于传统的插值方法,SRCNN输出的高分辨率图像更清晰。然而SRCNN在预处理时需要先对低分辨率图像通过双三次(Bicubic)插值,放大得到目标图像大小后作为网络的输入,即在高维度空间进行学习,计算复杂度比较高。于是SRCNN的作者Dong又提出了FSRCNN,将网络最后一层改为反卷积(Deconvolution)层,这样网络就可以直接从原始的低分辨率图像直接进行学习,并且使用了更小的卷积核但是了更多的映射层,减少学习的参数,极大的提升了学习效率。除了使用反卷积的方法,ESPCN给出了另一种避免在高维空间学习的方法,即亚像素卷积层(Sub-pixelConvolution),输入为原始的低分辨率图像(H×W×C),上一层的卷积层不改变图像大小但通道数变为r2C(r为放大倍数,此时特征图为(H×W×r2C),在网络最后一层才对特征图进行放大,即将学习到的特征图重新排列得到高分辨率图像(rH×rW×C),通过使用亚像素卷积层,图像从低分辨率到高分辨率放大的插值函数被隐含地包含在前面的卷积层中,可以自动学习到,而前面的卷积运算都在低分辨率图像上进行,因此大大降低了计算复杂度,之后的图像超分辨率方法图像重建环节基本都是采用亚像素卷积操作。
在深度学习中,网络越深一般拟合能力越强,但是随着网络的加深会带来梯度消失或梯度爆炸等问题,训练比较困难,为了搭建更深的网络,VDSR将残差学习引入超分领域,并使用梯度裁剪来解决网络加深带来的训练难的问题,将网络增加到20层卷积层,每层卷积滤波器尺寸较小数量较多,能够增加图像局部感受野,超分效果得到了进一步提升。在RCAN中,Yulun Zhang等人提出了一种基于通道注意力机制(Channel Attention)的残差结构,将注意力机制引入到残差块中,来捕获通道间的相互联系,对不同通道特征区别对待,进一步增强了网络的特征学习能力,并且RCAN采用分组的形式,利用长、短跳跃连接让网络更加专心学习高频信息而让大部分冗余的低频信息从旁路通过,提高了网络的学习效率,RCAN将网络深度提高到了近1000层,获得了更好的超分辨率效果和精度。
尽管上述图像超分辨率方法可以用来处理视频超分辨率任务,但是它们只考虑了单张图像里的自然先验和自我相似性,忽略了视频序列里丰富的时序信息,因此直接使用图像超分辨率来对视频进行超分显得并不够高效。基于在实际生活中高质量视频的大量需求(如高清电视、网络视频、视频监控等),视频超分辨率算法发挥着越来越大的作用,但目前视频超分辨率的效果在视觉质量和计算复杂度方面还不够令人满意。对于视频超分辨率任务,由于要考虑前后帧的时序信息,时间对齐和融合起着十分关键的作用,如何有效地融合相邻帧的信息成为了大家的关注点,根据聚合方式的不同可将目前的视频超分辨率方法分为三类:
第一类方法是没有对视频序列进行任何精确的对齐,比如直接采用3D卷积直接从多帧图片里提取特征。这种方法虽然简单,但是计算复杂度很大,训练成本很高。
第二类方法是利用光流去补偿帧间的运动信息来处理时间对齐问题。然而,这种方法需要处理估计光流信息和高分辨率图像重建这两个相对独立的问题,其中光流的估计精度严重影响着视频重建质量,而光流估计本身也是个具有挑战性的任务,尤其在大运动场景情况下精确的流信息是很难估计的。
第三类方法则是采用可变形卷积(Deformable Convolution)网络来处理视频超分辨率任务,比如在DUF和TDAN中通过隐藏的运动补偿来解决光流估计问题并且效果超越了基于流信息估计的方法,但这类方法所用的可变形卷积对输入比较敏感,容易因为不合理的偏置生成明显的重建伪影。
可见,现有的视频超分辨率方法均存在着不足之处,如何有效提高视频超分效果及效率是目前需要解决的技术问题。
发明内容
本发明的目的在于解决现有技术的不足,提出一种基于多帧注意力机制渐进式融合的视频超分辨率方法,可以充分利用前后帧的信息来帮助目标帧重建并且没有使用计算复杂度较高的3D卷积,有效提高了视频超分辨率效率和增强了图片的重建效果。
本发明的目的通过下述技术方案实现:一种基于多帧注意力机制渐进式融合的视频超分辨率方法,包括如下步骤:
S1、对视频数据集进行抽帧处理,得到训练集;
S2、将多帧注意力机制渐进式融合模块、特征提取模块以及重建模块连接,从而搭建得到初始网络;
S3、利用低冗余度训练策略对初始网络进行训练,即只对训练集中的目标帧进行学习,训练集中目标帧的前、后帧仅作为辅助信息不再作为目标帧进行训练,训练完成后得到视频超分辨率模型;
其中,多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合,融合后得到的特征图作为特征提取模块的输入,特征提取模块提取出特征图的特征并输入到重建模块,重建模块输出像素重排列后的图像;
S4、对于待放大的低于目标分辨率的低分辨率视频,使用训练好的视频超分辨率模型对该视频的每一帧进行重建,最终生成放大若干倍数后达到目标分辨率的高分辨率视频。
优选的,在步骤S1中,将达到目标分辨率的高分辨率视频、低于目标分辨率的低分辨率视频的全部帧保留,每一张低分辨率视频图像都有对应的一张视频内容相同的高分辨率视频图像,构成初始训练集;初始训练集共有N对图像:{(x1L,x1H),(x2L,x2H),…,(xNL,xNH)},其中,xNL代表第N对图像中的低分辨率视频图像;xNH代表第N对图像中与低分辨率视频图像内容相同的高分辨率视频图像,N是正整数;
在训练初始网络之前,低分辨率视频不需要抽帧,即将初始训练集中的低分辨率视频的全部帧都保留,而对应的高分辨率视频图像,从第帧开始,从每M帧抽取出一帧中间帧,M为大于2的正奇数,使得每M帧连续的低分辨率视频图像对应一帧从每M帧抽取出来的高分辨率视频图像,最终整个训练集的输入形式为:
其中,每M帧连续的低分辨率视频图像作为多帧注意力机制渐进式融合模块的输入,且多帧注意力机制渐进式融合模块以M帧中的中间帧即第帧作为目标帧进行重建,目标帧的前帧、后帧作为辅助帧,用于帮助目标帧重建;为向上取整函数,为向下取整函数;对应的一帧高分辨率视频图像作为目标帧的标签。
更进一步的,多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合的过程如下:
(2)根据时序距离的远近将目标帧与前、后帧进行融合:
其中,Hconv、HMFAB分别代表卷积操作和多帧注意力机制;
更进一步的,多帧注意力机制的处理过程如下:
首先,将需要融合的3个特征图分别转换成一个一维向量,即特征图F的维度由3×H×W×C变为3×HWC:
F=Hreshape(Ft-1,Ft,Ft+1)
其中,Hreshape表示变形操作,用一个一维向量来代表每一帧的信息压缩;H表示特征图的高;W表示特征图的宽;C表示特征图的通道数;
然后,将F和它的转置矩阵FT进行相乘,并在横向维度上使用softmax函数处理得到3×3的相关系数矩阵:
Mcorrelation=fsoftmax(F×FT)
其中,fsoftmax代表softmax函数,对于相关系数矩阵Mcorrealtion里的每一个相关系数wij:
式中,F×FT是3×3的矩阵,i、j分别是该矩阵某个位置的横坐标和纵坐标;这里其实就是对矩阵每一行做归一化处理,相关系数矩阵代表了原始多帧输入之间的相关性,即时间维度上的注意力;
更进一步的,初始网络训练过程中使用L1损失函数和L2损失函数作为目标函数:
其中,ISR表示网络生成的高分辨率图像;IHR表示真实的高分辨率图像,也即标签;在训练开始阶段使用L1损失函数进行学习,等到网络接近收敛的时候再使用L2损失函数继续优化,以使模型收敛到更优的值。
补帧处理后,原低分辨率视频的每一帧在作为目标帧时都能够组成M帧的输入形式。
优选的,特征提取模块以通道注意力机制残差块作为基本单元;在特征提取模块中,每B个通道注意力机制残差块依次连接来组成一个残差组,一共组成G个残差组,每个残差组的输入与输出进行跳跃连接;G个残差组依次堆叠,且第一个残差组的输入与最后一个残差组的输出进行跳跃连接。
更进一步的,特征提取模块中的通道注意力机制残差块的处理过程如下:
假设输入的特征图为X∈RH×W×C,首先经过通道注意力机制残差块原来的卷积、ReLU得到特征图F′:
F′=W3×3(δ(W3×3X))
其中,W3×3代表卷积操作,δ代表ReLU函数;H表示特征图的高;W表示特征图的宽;C表示特征图的通道数;
接着,通道注意力机制先在空间维度对特征图F′的通道信息进行压缩,得到每个特征通道的描述,具体是采用全局平均池化来完成:
其中,F′c(i,j)代表特征图F′的第c个特征通道在位置(i,j)处值,HGP()代表全局平均池化函数,得到的zc作为第c个特征通道信息的一个表征;
然后使用一种Sigmoid形式的门机制将上一步得到的通道全局描述生成每个通道的注意力信息表示F′s:
F′s=fsigmoid(WUδ(WDz))
其中,z代表平均池化后的通道描述,形状为1×1×C;WD代表的卷积核,即对z的通道数下采样转换为的形式,r为下采样倍数;δ代表非线性激活函数ReLU;WU代表1×1×C的卷积核,即对通道上采样转换为形状1×1×C的形式,其实就是将通道数目恢复到原来的大小;fsigmoid代表Sigmoid函数,能够将输入映射到0、1之间,这里作为每个通道的注意力系数;
最后将得到的通道注意力表示F′s乘以特征图F′并加上输入X得到最终的输出Y:
Y=F′sF′+X。
优选的,重建模块由相连接的亚像素卷积层和卷积层构成。
优选的,在步骤S1中,利用ffmpeg工具对视频数据集进行抽帧处理;
在步骤S4中,利用ffmpeg工具将低分辨率视频所有帧的重建结果编码成视频的形式,得到最终的高分辨率视频。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明针对目前基于深度学习的视频超分辨率技术中存在的计算复杂度高、时间对齐和视频帧融合困难的问题,提出一种基于多帧注意力机制渐进式融合的视频超分辨率方法,多帧注意力机制可以使网络充分学习多帧输入之间的时间相关性,即对前后帧学习不同的权重,从而实现融合时对前后帧的区别对待,使得前后帧的信息更好地和目标帧进行融合。而渐进式的融合方式可以使前后帧的有用信息更高效地聚合到目标帧,降低融合难度。网络训练时使用了一种低冗余度的训练策略来提高学习效率,加速网络的收敛,进一步增强了超分效果和提高了超分效率。
(2)本发明多帧注意力机制渐进式融合模块将时间注意力机制引入视频超分辨率任务中,利用时序距离对输入的连续帧进行分组实现渐进式地融合,这样可以让网络集中注意力学习重要的信息,忽略对目标帧重建没有帮助的冗余信息。
(3)本发明特征提取模块以通道注意力机制残差块作为基本单元,既可以方便地插入到卷积神经网络中,堆叠成较深的模型结构,且可以通过通道注意力机制实现区别对待特征通道间的信息,更多地关注更有用的特征通道。
(4)本发明重建模块采用亚像素卷积层,不涉及到卷积运算,可实现高效、快速、无参的像素重排列的上采样操作,进而可以提高图像重建效率。
附图说明
图1为本发明基于多帧注意力机制渐进式融合的视频超分辨率方法的流程图。
图2为视频超分辨率模型的示意图。
图3为特征提取模块的示意图。
图4为多帧注意力机制渐进式融合模块的融合过程示意图。
图5为多帧注意力机制的示意图。
图6为通道注意力机制残差块的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例提供了一种基于多帧注意力机制渐进式融合的视频超分辨率方法,如图1所示,包括如下步骤:
S1、视频解码:利用ffmpeg工具对视频数据集进行抽帧并保存为图片,以生成训练集。
这里,视频数据集含有视频内容相同的高分辨率视频和低分辨率视频,高分辨率视频是指达到目标分辨率的视频,低分辨率视频是指低于目标分辨率的视频。
将高、低分辨率视频的全部帧保留,每一张低分辨率视频图像都有对应的一张高分辨率视频图像,构成初始训练集;初始训练集共有N对图像:{(x1L,x1H),(x2L,x2H),…,(xNL,xNH)},其中,xNL代表第N对图像中的低分辨率视频图像;xNH代表第N对图像中与低分辨率视频图像内容相同的高分辨率视频图像,N是正整数。高分辨可以是低分辨率的2倍、4倍、8倍等,为方便描述,假设目标分辨率为低分辨率的4倍,本实施例方法以分辨率增大4倍为例进行说明。
为方便后续的低冗余度训练,在训练之前,低分辨率视频不需要抽帧,即将初始训练集中的低分辨率视频的全部帧都保留,而对应的高分辨率视频图像,从第4帧开始,从每7帧抽取出一帧中间帧,使得每7帧连续的低分辨率视频图像与每7帧中的第4帧高分辨率视频图像相对应,最终整个训练集的输入形式为:
{([x1L,x2L,x3L,x4L,x5L,x6L,x7L],x4H),([x8L,x9L,x10L,x11L,x12L,x13L,x14L],x11H),...}
其中,每7帧连续的低分辨率视频图像作为多帧注意力机制渐进式融合模块的输入,且多帧注意力机制渐进式融合模块以7帧中的中间帧即第4帧作为目标帧进行重建,目标帧的前3帧、后3帧作为辅助帧,用于帮助目标帧重建;对应的一帧高分辨率视频图像作为目标帧的标签。
当然,为方便后续验证网络模型效果,本实施例还可以利用视频数据集生成验证集,验证集视频不需抽帧处理,验证集也含有多对高分辨率视频图像和低分辨率视频图像。
S2、搭建网络:将多帧注意力机制渐进式融合模块、特征提取模块以及重建模块连接,从而搭建得到初始网络,可参见图2。
为了搭建更深的网络结构,本实施例特征提取模块(Feature Extractor)是通过分组的形式来搭建的。如图3所示,每B个(B为大于1的正整数)通道注意力机制残差块(Residual Channel Attention Block,RCAB)组成一个残差组(Residual Group,RG),一共组成G个(G为大于1的正整数)残差组,每个残差组的输入与输出进行跳跃连接。G个RG依次堆叠来形成较深的特征提取模块,且第一个残差组的输入与最后一个残差组的输出进行跳跃连接,使得随着网络加深时也能够利用上浅层学习到的特征,进而提高学习效率。
重建模块(Upscale Module)由相连接的亚像素卷积层(Sub-Pixel Convolution)和卷积层构成。虽然称为亚像素卷积,但是实际上并不涉及到卷积运算,是一种高效、快速、无参的像素重排列的上采样方式,这种方式只需要保证在模型倒数第二层学习对应的通道数为r2C(此时特征图形状为H×W×r2C),其中r为放大倍数,C为最终的通道数,如输出是RGB图,则C为3,最后对这些特征通道的像素重新排列就可以得到放大r倍的高分辨率图像(rH×rW×C),像素重排列的方式是每连续r2个通道的像素点重新排列成rH×rH的形状。
S3、模型训练:利用低冗余度训练策略对初始网络进行训练,即只对训练集中的目标帧进行学习,训练集中目标帧的前、后帧仅作为辅助信息不再作为目标帧进行训练,训练网络的目的就是让生成的图像尽可能和标签图像一样,训练完成后得到视频超分辨率模型。
这种低冗余度训练策略可以提高网络的表征能力和学习效率。这是因为视频相邻帧之间的冗余度通常是很高的,若对每一帧都进行学习的话,会影响网络的学习效果,达到局部收敛,为了使得网络能够学习到最有代表性的特征,避免重复学习一些相同的特征,在训练时只使用前后帧来辅助目标帧重建,而不再将前后帧作为目标帧进行学习,而在实际应用时才需要将每一帧当作目标帧来处理。
这里,多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧图像与其前、后帧进行融合,融合后得到的特征图作为特征提取模块的输入,特征提取模块提取出特征图的特征并输入到重建模块,重建模块输出像素重排列后的图像。
在本实施例中,为了充分利用相邻帧之间的时序信息,多帧注意力机制渐进式融合模块采用连续7帧图片作为输入,中间帧为目标帧,前三帧和后三帧用于帮助目标帧重建。如图4所示,多帧注意力机制渐进式融合模块的融合过程具体如下:
(2)根据时序距离的远近将目标帧与前、后帧进行融合:
其中,Hconv、HMFAB分别代表卷积操作和多帧注意力机制;
其中,多帧注意力机制可参见图5,其处理过程具体是:
1)首先,将需要融合的3个特征图分别转换成一个一维向量,即特征图F的维度由3×H×W×C变为3×HWC:
F=Hreshape(Ft-1,Ft,Ft+1)
Hreshape表示变形操作,用一个一维向量来代表每一帧的信息压缩;H表示特征图的高;W表示特征图的宽;C表示特征图的通道数。
2)然后,将F和它的转置矩阵FT进行相乘,并在横向维度上使用softmax函数处理得到3×3的相关系数矩阵:
Mcorrelation=fsoftmax(F×FT)
fsoftmax代表softmax函数,对于相关系数矩阵Mcorrealtion里的每一个相关系数Wij:
式中,F×FT是3×3的矩阵,i、j分别是该矩阵某个位置的横坐标和纵坐标,这里其实就是对矩阵每一行做归一化处理。这里得到的相关系数矩阵代表了原始多帧输入之间的相关性,即时间维度上的注意力。
上述三次融合过程中使用的多帧注意力机制其实是一种时间注意力机制。由于不同帧包含的信息有差异,对目标帧重建起的作用也不同,因此应该对这些帧有区别地进行学习,保留更多对目标帧重建有用的关键信息,而忽略那些不重要的信息,提高学习效率。本实施例的多帧注意力机制渐进式融合模块将时间注意力机制引入视频超分辨率任务中,对输入的多帧图像按权重进行融合,权重系数通过学习的方式得到,这样可以让网络集中注意力学习重要的信息,忽略对目标帧重建没有帮助的冗余信息。
本实施例的通道注意力机制残差块将通道注意力机制引入残差块,使得特征通道间的信息能够被有差别地对待,更有用的特征通道会被关注更多。其处理过程可参见图6,具体如下:
1)假设输入的特征图为X∈RH×W×C,首先经过通道注意力机制残差块原来的卷积层、ReLU函数得到特征图F′:
F′=W3×3(δ(W3×3X))
2)接着,通道注意力机制先在空间维度对特征图F′的通道信息进行压缩,得到每个特征通道的描述,具体是采用全局平均池化来完成:
F′c(i,j)代表特征图F′的第c个特征通道在位置(i,j)处值,HGP()代表全局平均池化函数,得到的zc作为第c个特征通道信息的一个表征。
3)然后使用一种Sigmoid形式的门机制将上一步得到的通道全局描述生成每个通道的注意力信息表示F′s:
F′s=fsigmoid(WUδ(WDz))
z代表平均池化后的通道描述,形状为1×1×C;WD代表的卷积核,即对z的通道数下采样转换为的形式,r为下采样倍数;δ代表非线性激活函数ReLU;WU代表1×1×C的卷积核,即对通道上采样转换为形状1×1×C的形式,其实就是将通道数目恢复到原来的大小;fsigmoid代表Sigmoid函数,能够将输入映射到0、1之间,这里作为每个通道的注意力系数。
4)最后将得到的通道注意力表示F′s乘以特征图F′并加上输入X得到最终的输出Y:
Y=F′sF′+X。
在本实施例中,整个初始网络在训练的过程中使用了L1损失函数和L2损失函数作为目标函数:
其中,ISR表示网络生成的高分辨率图像;IHR表示真实的高分辨率图像,也即标签;在训练开始阶段使用L1损失函数进行学习,等到网络接近收敛的时候再使用L2损失函数继续优化,以使模型收敛到更优的值。
S4、视频预测及编码:对于待放大的低于目标分辨率的低分辨率视频,使用训练好的视频超分辨率模型对该视频的每一帧进行重建,再利用ffmpeg工具将低分辨率视频所有帧的重建结果编码成视频的形式,得到最终的放大若干倍数后达到目标分辨率的高分辨率视频。
其中,由于低分辨率视频的每一帧都会作为目标帧,而当视频头部的3帧和尾部的3帧作为目标帧时,会出现辅助帧数量不足的情况,因此还需要进行补帧处理,补帧处理后,原低分辨率视频的每一帧在作为目标帧时都能够组成7帧的输入形式。
补帧处理具体是将离补帧位置最近的图像作为该补帧位置的值。例如,当视频头部的第一帧作为目标帧时,由于缺少前三帧,因此需要复制三张第一帧作为第一帧的前三帧辅助帧;当视频头部的第二帧作为目标帧时,由于前面只有一帧辅助帧,因此需要复制两张图像以凑齐前三帧,此时可以复制视频头部的第一帧,也可以复制视频头部的第二帧;当视频头部的第三帧作为目标帧时,由于前面只有两帧辅助帧,因此需要复制一张图像以凑齐前三帧,此时可以复制视频头部的第二帧,也可以复制视频头部的第三帧。尾部的3帧作为目标帧时以此类推进行补帧。
为更好地描述本实施例,下面以一具体实例加以说明。
以阿里巴巴2019年提出的优酷视频增强和超分数据集作为视频数据集,该数据集的生成模型完全是模拟实际业务中的噪声模式,包括不同内容品类和噪声模型。目前公布的数据集有1000个视频,每个视频时间长度为5秒左右,低质视频分辨率为270P,高清视频分辨率为1080P。
这里,使用其中的600个视频作为训练集,共60000张视频图像,采用上述的低冗余度训练策略后,最终用于训练的低分辨率图像为59990张,高分辨率图像8570张,即共有8570个低冗余度训练对。取其中7570对图像作为训练集,1000对图像作为验证集。视频超分辨率模型训练过程采用的深度学习框架为Pytorch,模型放大倍数为4,学习率设置为10-5,batchsize为64,共训练了100个epoch。
通过仿真实验,对本实施例方法与图像超分辨率算法RCAN进行了超分效果对比,评价指标采用超分辨率领域常用的峰值信噪比(PSNR),PSNR越大,说明生成的图像质量越好,其计算方法如下:
其中,MSE为均方误差。
最终实验结果如表1所示:
表1
方法 | 平均PSNR(dB) |
图像超分辨率算法RCAN | 35.594 |
本实施例方法 | 35.740 |
由上述实验结果可知,本实施例方法相比图像超分辨率方法RCAN,在PSNR上得到了提升,说明本实施例方法可以有效增强视频超分辨率重建的效果。
可通过各种手段实施本发明描述的技术。举例来说,这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案,处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。对于固件和/或软件实施方案,可用执行本文描述的功能的模块(例如,过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。
Claims (10)
1.一种基于多帧注意力机制渐进式融合的视频超分辨率方法,其特征在于,包括如下步骤:
S1、对视频数据集进行抽帧处理,得到训练集;
S2、将多帧注意力机制渐进式融合模块、特征提取模块以及重建模块连接,从而搭建得到初始网络;
S3、利用低冗余度训练策略对初始网络进行训练,即只对训练集中的目标帧进行学习,训练集中目标帧的前、后帧仅作为辅助信息不再作为目标帧进行训练,训练完成后得到视频超分辨率模型;
其中,多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合,融合后得到的特征图作为特征提取模块的输入,特征提取模块提取出特征图的特征并输入到重建模块,重建模块输出像素重排列后的图像;
S4、对于待放大的低于目标分辨率的低分辨率视频,使用训练好的视频超分辨率模型对该视频的每一帧进行重建,最终生成放大若干倍数后达到目标分辨率的高分辨率视频。
2.根据权利要求1所述的视频超分辨率方法,其特征在于,在步骤S1中,将达到目标分辨率的高分辨率视频、低于目标分辨率的低分辨率视频的全部帧保留,每一张低分辨率视频图像都有对应的一张视频内容相同的高分辨率视频图像,构成初始训练集;初始训练集共有N对图像:{(x1L,x1H),(x2L,x2H),…,(xNL,xNH)},其中,xNL代表第N对图像中的低分辨率视频图像;xNH代表第N对图像中与低分辨率视频图像内容相同的高分辨率视频图像,N是正整数;
在训练初始网络之前,低分辨率视频不需要抽帧,即将初始训练集中的低分辨率视频的全部帧都保留,而对应的高分辨率视频图像,从第帧开始,从每M帧抽取出一帧中间帧,M为大于2的正奇数,使得每M帧连续的低分辨率视频图像对应一帧从每M帧抽取出来的高分辨率视频图像,最终整个训练集的输入形式为:
3.根据权利要求2所述的视频超分辨率方法,其特征在于,多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合的过程如下:
(2)根据时序距离的远近将目标帧与前、后帧进行融合:
其中,Hconv、HMFAB分别代表卷积操作和多帧注意力机制;
4.根据权利要求3所述的视频超分辨率方法,其特征在于,多帧注意力机制的处理过程如下:
首先,将需要融合的3个特征图分别转换成一个一维向量,即特征图F的维度由3×H×W×C变为3×HWC:
F=Hreshape(Ft-1,Ft,Ft+1)
其中,Hreshape表示变形操作,用一个一维向量来代表每一帧的信息压缩;H表示特征图的高;W表示特征图的宽;C表示特征图的通道数;
然后,将F和它的转置矩阵FT进行相乘,并在横向维度上使用softmax函数处理得到3×3的相关系数矩阵:
Mcorrelation=fsoftmax(F×FT)
其中,fsoftmax代表softmax函数,对于相关系数矩阵Mcorrealtion里的每一个相关系数wij:
式中,F×FT是3×3的矩阵,i、j分别是该矩阵某个位置的横坐标和纵坐标;这里其实就是对矩阵每一行做归一化处理,相关系数矩阵代表了原始多帧输入之间的相关性,即时间维度上的注意力;
7.根据权利要求1所述的视频超分辨率方法,其特征在于,特征提取模块以通道注意力机制残差块作为基本单元;在特征提取模块中,每B个通道注意力机制残差块依次连接来组成一个残差组,一共组成G个残差组,每个残差组的输入与输出进行跳跃连接;G个残差组依次堆叠,且第一个残差组的输入与最后一个残差组的输出进行跳跃连接。
8.根据权利要求7所述的视频超分辨率方法,其特征在于,特征提取模块中的通道注意力机制残差块的处理过程如下:
假设输入的特征图为X∈RH×W×C,首先经过通道注意力机制残差块原来的卷积、ReLU得到特征图F′:
F′=W3×3(δ(W3×3X))
其中,W3×3代表卷积操作,δ代表ReLU函数;H表示特征图的高;W表示特征图的宽;C表示特征图的通道数;
接着,通道注意力机制先在空间维度对特征图F′的通道信息进行压缩,得到每个特征通道的描述,具体是采用全局平均池化来完成:
其中,F′c(i,j)代表特征图F′的第c个特征通道在位置(i,j)处值,HGP()代表全局平均池化函数,得到的zc作为第c个特征通道信息的一个表征;
然后使用一种Sigmoid形式的门机制将上一步得到的通道全局描述生成每个通道的注意力信息表示F′s:
F′s=fsigmoid(WUδ(WDz))
其中,z代表平均池化后的通道描述,形状为1×1×C;WD代表的卷积核,即对z的通道数下采样转换为的形式,r为下采样倍数;δ代表非线性激活函数ReLU;WU代表1×1×C的卷积核,即对通道上采样转换为形状1×1×C的形式,其实就是将通道数目恢复到原来的大小;fsigmoid代表Sigmoid函数,能够将输入映射到0、1之间,这里作为每个通道的注意力系数;
最后将得到的通道注意力表示F′s乘以特征图F′并加上输入X得到最终的输出Y:
Y=F′sF′+X。
9.根据权利要求1所述的视频超分辨率方法,其特征在于,重建模块由相连接的亚像素卷积层和卷积层构成。
10.根据权利要求1所述的视频超分辨率方法,其特征在于,在步骤S1中,利用ffmpeg工具对视频数据集进行抽帧处理;
在步骤S4中,利用ffmpeg工具将低分辨率视频所有帧的重建结果编码成视频的形式,得到最终的高分辨率视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110381167.7A CN112991183B (zh) | 2021-04-09 | 2021-04-09 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110381167.7A CN112991183B (zh) | 2021-04-09 | 2021-04-09 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991183A true CN112991183A (zh) | 2021-06-18 |
CN112991183B CN112991183B (zh) | 2023-06-20 |
Family
ID=76339555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110381167.7A Active CN112991183B (zh) | 2021-04-09 | 2021-04-09 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991183B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592746A (zh) * | 2021-07-07 | 2021-11-02 | 电子科技大学 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
CN113610713A (zh) * | 2021-08-13 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
CN113691817A (zh) * | 2021-08-23 | 2021-11-23 | 电子科技大学 | 一种跨帧信息融合的屏幕内容视频质量增强网络 |
CN113780444A (zh) * | 2021-09-16 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于渐进式学习的舌苔图像分类模型的训练方法 |
CN113807395A (zh) * | 2021-08-10 | 2021-12-17 | 深延科技(北京)有限公司 | 模型训练方法、超分辨率感知方法及相关装置 |
CN113902623A (zh) * | 2021-11-22 | 2022-01-07 | 天津大学 | 引入尺度信息的任意倍视频超分辨率方法 |
CN114037624A (zh) * | 2021-10-27 | 2022-02-11 | 成都大学附属医院 | 一种用于糖尿病肾脏病变分类的图像增强方法及设备 |
CN114663285A (zh) * | 2022-04-01 | 2022-06-24 | 哈尔滨工业大学 | 基于卷积神经网络的老电影超分辨系统 |
CN115052187A (zh) * | 2022-04-26 | 2022-09-13 | 复旦大学 | 一种基于在线训练的超分辨率直播系统 |
CN115115516A (zh) * | 2022-06-27 | 2022-09-27 | 天津大学 | 基于Raw域的真实世界视频超分辨率算法 |
CN115994857A (zh) * | 2023-01-09 | 2023-04-21 | 深圳大学 | 一种视频超分辨率方法、装置、设备及存储介质 |
WO2023179385A1 (zh) * | 2022-03-22 | 2023-09-28 | 中国科学院深圳先进技术研究院 | 一种视频超分方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301447A1 (en) * | 2010-06-07 | 2011-12-08 | Sti Medical Systems, Llc | Versatile video interpretation, visualization, and management system |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
-
2021
- 2021-04-09 CN CN202110381167.7A patent/CN112991183B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301447A1 (en) * | 2010-06-07 | 2011-12-08 | Sti Medical Systems, Llc | Versatile video interpretation, visualization, and management system |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
Non-Patent Citations (4)
Title |
---|
XINTAO WANG ET AL: "EDVR: Video Restoration with Enhanced Deformable Convolutional Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 * |
YULUN ZHANG ET AL: "Image Super-Resolution Using Very Deep Residual Channel Attention Networks", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
刘佳等: "基于帧循环网络的视频超分辨率技术", 《电子技术应用》 * |
董猛等: "基于注意力残差卷积网络的视频超分辨率重构", 《长春理工大学学报(自然科学版)》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592746A (zh) * | 2021-07-07 | 2021-11-02 | 电子科技大学 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
CN113592746B (zh) * | 2021-07-07 | 2023-04-18 | 电子科技大学 | 一种由粗到细地融合时空信息的压缩视频质量增强方法 |
CN113807395A (zh) * | 2021-08-10 | 2021-12-17 | 深延科技(北京)有限公司 | 模型训练方法、超分辨率感知方法及相关装置 |
CN113610713A (zh) * | 2021-08-13 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
CN113610713B (zh) * | 2021-08-13 | 2023-11-28 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
CN113691817B (zh) * | 2021-08-23 | 2023-03-24 | 电子科技大学 | 一种跨帧信息融合的屏幕内容视频质量增强方法 |
CN113691817A (zh) * | 2021-08-23 | 2021-11-23 | 电子科技大学 | 一种跨帧信息融合的屏幕内容视频质量增强网络 |
CN113780444B (zh) * | 2021-09-16 | 2023-07-25 | 平安科技(深圳)有限公司 | 基于渐进式学习的舌苔图像分类模型的训练方法 |
CN113780444A (zh) * | 2021-09-16 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于渐进式学习的舌苔图像分类模型的训练方法 |
CN114037624A (zh) * | 2021-10-27 | 2022-02-11 | 成都大学附属医院 | 一种用于糖尿病肾脏病变分类的图像增强方法及设备 |
CN114037624B (zh) * | 2021-10-27 | 2023-05-23 | 成都市第二人民医院 | 一种用于糖尿病肾脏病变分类的图像增强方法及设备 |
CN113902623A (zh) * | 2021-11-22 | 2022-01-07 | 天津大学 | 引入尺度信息的任意倍视频超分辨率方法 |
WO2023179385A1 (zh) * | 2022-03-22 | 2023-09-28 | 中国科学院深圳先进技术研究院 | 一种视频超分方法、装置、设备及存储介质 |
CN114663285A (zh) * | 2022-04-01 | 2022-06-24 | 哈尔滨工业大学 | 基于卷积神经网络的老电影超分辨系统 |
CN114663285B (zh) * | 2022-04-01 | 2023-06-09 | 哈尔滨工业大学 | 基于卷积神经网络的老电影超分辨系统 |
CN115052187A (zh) * | 2022-04-26 | 2022-09-13 | 复旦大学 | 一种基于在线训练的超分辨率直播系统 |
CN115052187B (zh) * | 2022-04-26 | 2024-05-03 | 复旦大学 | 一种基于在线训练的超分辨率直播系统 |
CN115115516A (zh) * | 2022-06-27 | 2022-09-27 | 天津大学 | 基于Raw域的真实世界视频超分辨率算法 |
CN115994857A (zh) * | 2023-01-09 | 2023-04-21 | 深圳大学 | 一种视频超分辨率方法、装置、设备及存储介质 |
CN115994857B (zh) * | 2023-01-09 | 2023-10-13 | 深圳大学 | 一种视频超分辨率方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112991183B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991183A (zh) | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
Hui et al. | Fast and accurate single image super-resolution via information distillation network | |
Liu et al. | Learning temporal dynamics for video super-resolution: A deep learning approach | |
CN108961186B (zh) | 一种基于深度学习的老旧影片修复重制方法 | |
CN112653899B (zh) | 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法 | |
CN111311490A (zh) | 基于多帧融合光流的视频超分辨率重建方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN112291570B (zh) | 一种基于轻量级可形变卷积神经网络的实时视频增强方法 | |
CN110751597A (zh) | 基于编码损伤修复的视频超分辨方法 | |
CN112422870B (zh) | 一种基于知识蒸馏的深度学习视频插帧方法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN112767283A (zh) | 一种基于多图像块划分的非均匀图像去雾方法 | |
CN116152120A (zh) | 一种融合高低频特征信息的低光图像增强方法及装置 | |
Zhang et al. | Multi-branch networks for video super-resolution with dynamic reconstruction strategy | |
CN114972134A (zh) | 一种提取并融合局部和全局特征的低光图像增强方法 | |
CN113469906A (zh) | 一种用于图像修复的跨层全局和局部感知网络的方法 | |
CN115115514A (zh) | 基于高频信息特征融合的图像超分辨率重建方法 | |
Löhdefink et al. | GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation | |
CN112017116A (zh) | 基于非对称卷积的图像超分辨率重建网络及其构建方法 | |
CN115170392A (zh) | 一种基于注意力机制的单图像超分辨率算法 | |
CN112862675A (zh) | 时空超分辨率的视频增强方法和系统 | |
CN112634127B (zh) | 一种无监督立体图像重定向方法 | |
CN113362239A (zh) | 一种基于特征交互的深度学习图像修复方法 | |
WO2023185284A1 (zh) | 视频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |