CN116993585A - 基于多注意力的视频超分辨率重建网络构建方法及其应用 - Google Patents
基于多注意力的视频超分辨率重建网络构建方法及其应用 Download PDFInfo
- Publication number
- CN116993585A CN116993585A CN202310866905.6A CN202310866905A CN116993585A CN 116993585 A CN116993585 A CN 116993585A CN 202310866905 A CN202310866905 A CN 202310866905A CN 116993585 A CN116993585 A CN 116993585A
- Authority
- CN
- China
- Prior art keywords
- super
- resolution
- attention
- video frame
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 230000002776 aggregation Effects 0.000 claims abstract description 32
- 238000004220 aggregation Methods 0.000 claims abstract description 32
- 230000003287 optical effect Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000000644 propagated effect Effects 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 230000005540 biological transmission Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 239000007921 spray Substances 0.000 description 7
- 230000002411 adverse Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于多注意力的视频超分辨率重建网络构建方法及其应用,属于视频超分辨率重建技术领域,包括:建立待训练的超分辨率重建网络,并利用低分辨率的视频帧序列及其对应的高分辨率视频帧序列构建的超分辨率数据集进行训练、验证和测试;网络包括:对齐模块,用于对视频帧序列进行光流估计;传播模块,用于使光流信息进行前、后向传播后与对应视频帧拼接,然后进行特征提取,得到待传播特征;聚合模块,用于基于空间注意力和时间注意力对待传播特征进行聚合;上采样重建模块,用于对聚合特征图上采样;以及超分辨图像生成模块,用于将各视频帧与上采样结果融合为超分辨率图像。本发明能够提高面向海面目标的视频超分辨率重建质量。
Description
技术领域
本发明属于视频超分辨率重建技术领域,更具体地,涉及基于多注意力的视频超分辨率重建网络构建方法及其应用。
背景技术
如今,海面目标图像/视频在海防边防、海运贸易中都被广泛应用,但是海面的粼光、波浪和较远的观测距离等因素导致海面目标成像受干扰严重,目标像尺寸小、清晰程度低,难以看清。海面目标“看不清”的问题成为了学者们的一个研究焦点,其中利用软件方式进行超分辨率重建、增强目标信息质量成为了一个解决上述问题的重要研究方向。
由于单一的低分辨率视频可以获得多个不同的重建解,如何在众多重建解中寻找一个对高分辨率视频逼近的超分辨率重建解成为了一个极具挑战性的问题。传统的视频超分辨率方法包括插值法、重建法和传统学习法,这些方法在处理运动估计时仍然无法得到高精度的结果,从而导致重建效果较差。
随着深度学习在各个计算机视觉领域的广泛应用,深度学习技术对超分辨率效果有了较为明显的改善,但是海面目标的超分辨率重建与其他领域的超分辨率重建具有较大的差异。这是因为,在图像超分辨率重建过程中,海面目标尺寸较小、携带信息量较少、特征存在丢失现象导致重建效果欠佳;在视频超分辨率重建过程中,海面背景中存在的粼光和起伏的海浪,造成序列图像的学习注意力会被海面背景的连续变化所牵引,影响了建模过程中对海面目标的关注度。目前的一些超分辨率重建技术没有关注海面目标的特殊性,在训练学习过程中,海面目标尺寸小的问题和海面背景影响往往都是对超分辨率重建处理的不利因素。因此,如何提出一种可有效提高目标空间分辨率、增强目标信息质量的超分辨率重建方法,使其可应用于海面目标的重建,是一个亟待解决的问题。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了基于多注意力的视频超分辨率重建网络构建方法及其应用,其目的在于,抑制浪花纹理和海面粼光等对海面目标重建结果的不利影响,提高面向海面目标的视频超分辨率重建质量。
为实现上述目的,按照本发明的一个方面,提供了一种基于多注意力的视频超分辨率重建网络构建方法,包括:
建立待训练的超分辨率重建网络,其包括:
对齐模块,用于对输入的视频帧序列进行光流估计,得到相邻视频帧间的光流图;
传播模块,用于使光流图中的光流信息在前向和后向两个方向上传播,得到各视频帧对应的前向对齐特征和后向对齐特征,并将各视频帧以及对应的前向对齐特征和后向对齐特征拼接后进行特征提取,得到各视频帧对应的待传播特征;
聚合模块,用于计算各视频帧对应的待传播特征的空间注意力,并融合到对应的待传播特征,得到第一注意力特征图;基于第一注意力特征图计算各待传播特征图与选定的关键视频帧对应的待传播特征之间的相似性,得到各待传播特征图的时间权重图,与对应的待传播特征相乘,得到各视频帧对应的聚合特征图;
上采样重建模块,用于将各视频帧对应的聚合特征图上采样,得到各视频帧对应的超分辨率残差图;
以及超分辨图像生成模块,用于将各视频帧与其对应的超分辨率残差图融合,得到各视频帧对应的超分辨率图像;
利用低分辨率的视频帧序列及其对应的高分辨率视频帧序列构建超分辨率数据集,并划分为训练集、验证集和测试集;
分别利用训练集、验证集和测试集对待训练的超分辨率重建网络进行训练、验证和测试,得到训练好的超分辨率重建网络。
进一步地,聚合模块包括:
空间注意力分支,用于计算各视频帧对应的待传播特征的空间注意力,并融合到对应的待传播特征,得到第一注意力特征图;
时间注意力分支,用于将选定的关键视频帧对应的待传播特征进行卷积后,与各视频帧对应的第一注意力特征图进行点乘,然后按照通道维度将特征逐一相加,获得特征矩阵,并利用sigmoid激活函数进行加权,得到各视频帧对应的时间注权重图;
以及聚合分支,用于将各视频帧对应的待传播特征与对应的时间权重图相乘,得到融合了时空注意力的特征图,作为各视频帧对应的聚合特征。
进一步地,空间注意力分支包括依次连接的高效通道注意力模块和空间注意力模块。
进一步地,上采样重建模块包括一个或多个通道注意力模块。
进一步地,对待训练的超分辨率重建网络进行训练、验证和测试的过程中,损失函数为:
L=Lpixel+Lobj
其中,L为总体损失;Lpixel为像素损失,用于表示重建得到的超分辨图像相对于高分辨率视频帧标签的损失;Lobj为目标边缘感知损失,用于表示重建得到的超分辨图像相对于高分辨率视频帧标签在边缘处的损失。
进一步地,
其中,I和分别表示重建得到的超分辨图像和高分辨视频帧标签,H、W和C分别表示超分辨图像的高度、宽度和维数;ε为预设值。
进一步地,
其中,E(i,j)∈{0,1},E(i,j)=1表示(i,j)处的像素是图像边缘点,E(i,j)=0表示(i,j)处的像素不是图像边缘点。
按照本发明的又一个方面,提供了一种基于多注意力的视频超分辨率重建方法,包括:
将视频帧序列输入至训练好的超分辨率重建网络,从训练好的超分辨率重建网络的输出中提取各视频帧对应的超分辨率图像,得到超分辨率视频帧;
其中,训练好的超分辨率重建网络由本发明提供的上述基于多注意力的视频超分辨率重建网络构建方法构建所得。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行本发明提供的基于多注意力的视频超分辨率重建网络构建方法,和/或,本发明提供的基于多注意力的视频超分辨率重建方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所构建的超分辨率重建网络中,传播模块在对其模块估计得到的光流信息的基础上,使光流信息在前向和后向两个方向上传播,得到各视频帧对应的前向对齐特征和后向对齐特征,一方面,实现了光流信息的双向传播,增加了不同帧的信息利用率,另一方面,实现了特征层面的对齐操作,可避免直接进行图像对齐操作会受到模糊和光流计算不精准的影响,从而导致细节丢失和对齐质量下降的情况;聚合模块基于空间注意力机制和时间注意力机制对对齐后的特征进行聚合,能够充分利用相邻帧之间的信息,更为关注海面目标,抑制浪花纹理和海面粼光等对海面目标重建结果的不利影响,从而有效提高面向海面目标的视频超分辨率重建质量。
(2)在本发明优选的方案中,聚合模块包括三个分支,其中的空间注意力分支,基于空间注意力机制能够增强特征图之间的关键目标信息,时间注意分支则基于空间注意力分支输出的特征求解待传播特征图与关键视频帧对应的待传播特征图之间的目标相似性,得到各视频对应的待传播特征图的时间权重图,最后每个权重与待传播特征图像素点对应相乘得到各视频帧对应的聚合特征,通过这种方式进行特征聚合,能够更加关注视频中邻近特征图之间的时序信息,将由空间注意力获得的相似海面目标信息聚合,从而强化聚合邻近帧间的关键特征,避免视频中的浪花纹理和海面临光抢夺模型的注意力,而给予海面目标更多的关注,有效提高面向海面目标的视频超分辨率重建质量。
(3)在本发明优选的方案中,聚合模块中的空间注意力分支具体包括依次连接的高效通道注意力机制模块和空间注意力模块,由此能够提取到更加需要关注的关键信息。
(4)在本发明优选的方案中,上采样重建模块中包括一个或多个通道注意力模块,能够在上采样过程中基于通道注意力机制学习到各通道的权重,并将学习到的不同权重赋予对应通道,从而对更重要的通道基于更多的关注,进一步提高重建质量。
(5)在本发明的优选方案中,在损失函数中引入了目标边缘感知损失,由此能够增加对目标区域的损失权重,指导网络在训练学习的过程中更加关注目标区域,从而提高对海面目标的重建能力。
附图说明
图1为本发明实施例提供的视频超分辨率重建网络结构示意图;
图2为本发明实施例提供的光流信息传播示意图;
图3为本发明实施例提供的聚合模块示意图;
图4为本发明实施例提供的聚合模块中高效通道注意力模块示意图;
图5为本发明实施例提供的空间注意力模块示意图;
图6为本发明实施例提供的通道注意力模块示意图;
图7为本发明实施例提供的上采样重建模块示意图;
图8为本发明不同方法的重建结果示意图;其中,(a)为原始的低分辨率图像,(b)为(a)所对应的高分辨率图像,(c)为EDVR的重建结果,(d)为BasicVSR的重建结果,(e)为本发明实施例所提供方法的重建结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了解决现有的视频超分辨率重建方法在面向海面目标时重建质量不高的技术问题,本发明提供了基于多注意力的视频超分辨率重建网络构建方法及其应用,其整体思路在于:对网络结构进行改进,使其能够更加充分利用相邻帧之间的信息,更为关注海面目标,从而抑制浪花纹理和海面粼光等对海面目标重建结果的不利影响,提高面向海面目标的视频超分辨率重建质量。
本发明中,涉及到的部分英文术语如下:
SR:Super Resolution,超分辨率;
HR:High Resolution,高分辨率;
LR:Low Resolution,低分辨率;
CNN:Convolutional Neural Network,卷积神经网络;
ResNet:Residual Network,残差网络;
PSNR:Peak Signal-to-Noise Ratio,峰值信噪比;
MSE:Mean-Square Error,均方误差;
SSIM:Structural Similarity,结构相似性;
ECA:Efficient Channel Attention,高效通道注意力机制;
SA:spatial attention,空间注意力机制;
CA:Channel Attention,通道注意力机制。
以下为实施例。
实施例1:
一种基于多注意力的视频超分辨率重建网络构建方法,包括:建立待训练的超分辨率重建网络,利用低分辨率的视频帧序列及其对应的高分辨率视频帧序列构建超分辨率数据集,并划分为训练集、验证集和测试集;分别利用训练集、验证集和测试集对待训练的超分辨率重建网络进行训练、验证和测试,得到训练好的超分辨率重建网络。
本实施例中,超分辨率重建网络的结构如图1所示,其包括:
对齐模块,用于对输入的视频帧序列进行光流估计,得到相邻视频帧间的光流图;
传播模块,用于使光流图中的光流信息在前向和后向两个方向上传播,得到各视频帧对应的前向对齐特征和后向对齐特征,并将各视频帧以及对应的前向对齐特征和后向对齐特征拼接后进行特征提取,得到各视频帧对应的待传播特征;
聚合模块,用于计算各视频帧对应的待传播特征的空间注意力,并融合到对应的待传播特征,得到第一注意力特征图;基于第一注意力特征图计算各待传播特征图与选定的关键视频帧对应的待传播特征之间的相似性,得到各待传播特征图的时间权重图,与对应的待传播特征相乘,得到各视频帧对应的聚合特征图;
上采样重建模块,用于将各视频帧对应的聚合特征图上采样,得到各视频帧对应的超分辨率残差图;
以及超分辨图像生成模块,用于将各视频帧与其对应的超分辨率残差图融合,得到各视频帧对应的超分辨率图像。
在实际应用中,输入超分辨率重建网络的视频帧序列为低分辨率的视频帧序列。
本实施例所建立的超分辨率重建网络中,对齐模块通过提取视频帧序列中相邻帧间的光流图,能够充分考虑目标的运动信息。
传播是指待重建的特征在时间维度上流动的方式,本实施例所建立的超分辨重建网络中,传播模块指定了如何利用序列图像中的信息并利用对齐模块中获得的光流图结果实质化地进行对齐操作。本实施例中,传播模块在信息的传播期间进行了对齐操作,在对齐过程中利用了相邻帧图像或者特征中的信息,有利于后续的聚合和重建操作。考虑到直接进行图像对齐操作不可避免地会受到模糊和光流计算不精准的影响,从而导致细节丢失和对齐质量下降,重建质量随之下降。为避免该问题,本实施例中,传播模块具体在特征层面进行对齐操作,由此可以在一定程度上避免上述情况的发生。此外,本实施例中,传播模块使光流信息同时在前向和后向两个方向上传播,实现了双向传播,由此能够增加不同帧的信息利用率。
传播模块进行前向传播和后向传播的结构相似,以前向传播为例进行说明。如图2所示,首先,将前一帧图像的传播特征与对齐模块中根据前后帧图像计算得到的光流图输入空间扭曲模块中,通过扭曲操作得到对齐后的特征,然后,将对齐后的特征与当前帧图像拼接起来传递给多个堆叠的残差块进行信息细化,输出最终的待传播特征。待传播特征将用于下一帧的传播过程和后续的聚合模块。
前向传播和后向传播完成后,经过前向传播和后向传播后得到的对齐特征会与对应的低分辨率视频帧图像按通道维度拼接后送入聚合模块,由此能够在对齐特征的基础上引入原始图像信息作为补充。
聚合模块定义了组合对齐特征的步骤和方式,为了有效抑制浪花纹理和海面粼光等对海面目标重建结果的不利影响,本实施例中,聚合模块的结构具体如图3所示,包括:
空间注意力分支,用于计算各视频帧对应的待传播特征的空间注意力,并融合到对应的待传播特征,得到第一注意力特征图;
时间注意力分支,用于将选定的关键视频帧对应的待传播特征进行卷积后,与各视频帧对应的第一注意力特征图进行点乘,然后按照通道维度将特征逐一相加,获得特征矩阵,并利用sigmoid激活函数进行加权,得到各视频帧对应的时间注权重图;
以及聚合分支,用于将各视频帧对应的待传播特征与对应的时间权重图相乘,得到融合了时空注意力的特征图,作为各视频帧对应的聚合特征。
本实施例中聚合模块对特征进行聚合的方式,能够更加关注视频中邻近特征图之间的时序信息,将由空间注意力获得的相似海面目标信息聚合,从而强化聚合邻近帧间的关键特征,避免视频中的浪花纹理和海面临光抢夺模型的注意力,而给予海面目标更多的关注,有效提高面向海面目标的视频超分辨率重建质量。
如图3所示,本实施例中,空间注意力分支包括依次连接的高效通道注意力模块和空间注意力模块,由此能够提取到更加需要关注的关键信息。
可选地,本实施例中,高效通道注意力模块的结构如图4所示,在高效通道注意力模块中,首先,将输入特征图进行自适应全局平均池化操作以获得全局特征,然后,通过一个共享权重的一维自适应卷积学习全局特征,这样便可以在没有降低维度的情况实现了跨越通道的信息交互,得到了通道注意力权重模块,最后,将每个通道和各自的权重相乘得到最终输出特征。
可选地,本实施例中,空间注意力模块的结构如图5所示,在空间注意力模块中,针对每一帧输入特征图,首先,将该特征图从通道的角度分别求平均值和求最大值,随后拼接成一个通道数为2的新注意力特征图,然后,使之通过一个卷积和sigmoid函数得到一个通道数为1的空间注意力权重图,最后,将每帧特征图与每帧空间注意力权重图相乘得到最后输出特征图。
高效通道注意力模块能够高效利用特征图的不同通道的信息,空间注意力模块能够高效利用特征图中不同位置的信息;通过高效通道注意力机制和空间注意力机制,网络可以提取到更加需要关注的关键信息。
可选地,本实施例中,上采样重建模块包括一个或多个通道注意力模块,由此使用通道注意力选取对重建更有效果的通道;可选地,上采样重建模块中的通道注意力模块的结构如图6所示,通道注意力学习到的不同权重被赋予对应通道。基于图6所示的通道注意力模块,本实施例的上采样重建模块的结构具体如图7所示,以放大4倍为例,上采样重建模块的具体实施方法是,首先将输入先通过一个通道注意力,再经过一次亚像素卷积,尺寸变为原始尺寸的2倍,然后,在重复一次上述操作后,再进行卷积操作将通道维度数转为3,获得的残差与对应LR图像4倍上采样的图像相加,最后得到模型最终输出超分辨率图像(SR图像)。
对常见的损失函数而言,损失权重对所有区域的关注力度是一致的,然而,海面目标的重建与海浪纹理的重建在某种程度上形成了竞争关系,因此,仅仅关注于整体的损失函数在针对海面目标进行重建时没有额外的益处。为了指导网络的训练,提升海面目标的重建效果,本实施例在已有损失函数中增加了一个目标边缘感知损失,增加对目标区域的损失权重,指导网络在训练学习的过程中更加关注目标区域,从而提高对海面目标的重建能力。相应地,本实施例中,对待训练的超分辨率重建网络进行训练、验证和测试的过程中,损失函数为:
L=Lpixel+Lobj
其中,L为总体损失;Lpixel为像素损失,用于表示重建得到的超分辨图像相对于高分辨率视频帧标签的损失;Lobj为目标边缘感知损失,用于表示重建得到的超分辨图像相对于高分辨率视频帧标签在边缘处的损失;
对于任意的超分辨率图像I和对应的高分辨率视频帧标签其像素损失的表达式如下:
其中,H、W和C分别表示超分辨图像的高度、宽度和维数;ε为预设值;
目标边缘感知损失的表达式如下:
其中,E(i,j)∈{0,1},E(i,j)=1表示(i,j)处的像素是图像边缘点,E(i,j)=0表示(i,j)处的像素不是图像边缘点;可选地,本实施例中,目标边缘感知损失选择了自适应Canny算法作为边缘检测器。
总体而言,针对浪花纹理和海面粼光会抢夺超分辨率重建模型对海面目标注意力的问题,本实施例设计了一种时空域注意力聚合模块,先通过空间注意力强化对海面目标的关注度,然后利用时间注意力聚合海面目标信息;改进了上采样重建模块,引入通道注意力机制,增强特征表达能力;设计了一种基于目标边缘信息的损失函数,在损失函数层面提高了对海面目标的注意力。因此,本实施例所构建的视频超分辨率重建网络,能够抑制浪花纹理和海面粼光等对海面目标重建结果的不利影响,提高面向海面目标的视频超分辨率重建质量。
实施例2:
一种基于多注意力的视频超分辨率重建方法,包括:
将视频帧序列输入至训练好的超分辨率重建网络,从训练好的超分辨率重建网络的输出中提取各视频帧对应的超分辨率图像,得到超分辨率视频帧;
其中,训练好的超分辨率重建网络由上述实施例1提供的基于多注意力的视频超分辨率重建网络构建方法构建所得。
实施例3:
一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例1提供的基于多注意力的视频超分辨率重建网络构建方法,和/或,上述实施例2提供的基于多注意力的视频超分辨率重建方法。
以下以现有超分辨率重建方法,即EDVR和BasicVSR作为对比,对本发明所能取得的有益效果做进一步地验证说明。EDVR的具体实现方法,可参考Edvr:Video restorationwith enhanced deformable convolutional networks.Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition Workshops,2019:1954-1963.BasicVSR的具体实现方法,可参考BasicVSR:The search for essentialcomponents in video super-resolution and beyond.Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2021:4947-4956.对于多个算法在多个超分辨率放大倍数下的目标区域PSNR和SSIM指标如表1所示:
表1不同方法在不同超分辨率放大倍数下的指标
表1所示结果表明,本发明所提供的方法,其目标区域PSNR和SSIM指标更优。
不同方法在浪花纹理和海面临光粼光干扰下的海面视频超分辨率重建的视觉效果对比如图8所示,其中,(a)为低分辨率图像,(b)为(a)所对应的高分辨率图像,(c)为EDVR的重建结果,(d)为BasicVSR的重建结果,(e)为本发明所提供方法的重建结果。每一幅图中,左侧图像表示图像整体的超分辨率重建结果,右侧图像表示目标区域超分辨率重建结果。根据图8所示的结果可知,本发明所提供的超分辨率重建方法,在视觉图像质量方面,目标的边缘更加清晰,细节较为丰富。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多注意力的视频超分辨率重建网络构建方法,其特征在于,包括:
建立待训练的超分辨率重建网络,其包括:
对齐模块,用于对输入的视频帧序列进行光流估计,得到相邻视频帧间的光流图;
传播模块,用于使光流图中的光流信息在前向和后向两个方向上传播,得到各视频帧对应的前向对齐特征和后向对齐特征,并将各视频帧以及对应的前向对齐特征和后向对齐特征拼接后进行特征提取,得到各视频帧对应的待传播特征;
聚合模块,用于计算各视频帧对应的待传播特征的空间注意力和时间注意力,并融合到对应的待传播特征,得到各视频帧对应的聚合特征图;
上采样重建模块,用于将各视频帧对应的聚合特征图上采样,得到各视频帧对应的超分辨率残差图;
以及超分辨图像生成模块,用于将各视频帧与其对应的超分辨率残差图融合,得到各视频帧对应的超分辨率图像;
利用低分辨率的视频帧序列及其对应的高分辨率视频帧序列构建超分辨率数据集,并划分为训练集、验证集和测试集;
分别利用所述训练集、验证集和测试集对所述待训练的超分辨率重建网络进行训练、验证和测试,得到训练好的超分辨率重建网络。
2.如权利要求1所述的基于多注意力的视频超分辨率重建网络构建方法,其特征在于,所述聚合模块包括:
空间注意力分支,用于计算各视频帧对应的待传播特征的空间注意力,并融合到对应的待传播特征,得到第一注意力特征图;
时间注意力分支,用于将选定的关键视频帧对应的待传播特征进行卷积后,与各视频帧对应的第一注意力特征图进行点乘,然后按照通道维度将特征逐一相加,获得特征矩阵,并利用sigmoid激活函数进行加权,得到各视频帧对应的时间注权重图;
以及聚合分支,用于将各视频帧对应的待传播特征与对应的时间权重图相乘,得到融合了时空注意力的特征图,作为各视频帧对应的聚合特征。
3.如权利要求2所述的基于多注意力的视频超分辨率重建网络构建方法,其特征在于,所述空间注意力分支包括依次连接的高效通道注意力模块和空间注意力模块。
4.如权利要求1~3任一项所述的基于多注意力的视频超分辨率重建网络构建方法,其特征在于,所述上采样重建模块包括一个或多个通道注意力模块。
5.如权利要求1~3任一项所述的基于多注意力的视频超分辨率重建网络构建方法,其特征在于,对所述待训练的超分辨率重建网络进行训练、验证和测试的过程中,损失函数为:
L=Lpixel+Lobj
其中,L为总体损失;Lpixel为像素损失,用于表示重建得到的超分辨图像相对于高分辨率视频帧标签的损失;Lobj为目标边缘感知损失,用于表示重建得到的超分辨图像相对于高分辨率视频帧标签在边缘处的损失。
6.如权利要求5所述的基于多注意力的视频超分辨率重建网络构建方法,其特征在于,
其中,I和分别表示重建得到的超分辨图像和高分辨视频帧标签,H、W和C分别表示超分辨图像的高度、宽度和维数;ε为预设值。
7.如权利要求6所述的基于多注意力的视频超分辨率重建网络构建方法,其特征在于,
其中,E(i,j)∈{0,1},E(i,j)=1表示(i,j)处的像素是图像边缘点,E(i,j)=0表示(i,j)处的像素不是图像边缘点。
8.一种基于多注意力的视频超分辨率重建方法,其特征在于,包括:
将视频帧序列输入至训练好的超分辨率重建网络,从所述训练好的超分辨率重建网络的输出中提取各视频帧对应的超分辨率图像,得到超分辨率视频帧;
其中,所述训练好的超分辨率重建网络由权利要求1~7任一项所述的基于多注意力的视频超分辨率重建网络构建方法构建所得。
9.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~7任一项所述的基于多注意力的视频超分辨率重建网络构建方法,和/或,权利要求8所述的基于多注意力的视频超分辨率重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866905.6A CN116993585A (zh) | 2023-07-14 | 2023-07-14 | 基于多注意力的视频超分辨率重建网络构建方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866905.6A CN116993585A (zh) | 2023-07-14 | 2023-07-14 | 基于多注意力的视频超分辨率重建网络构建方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116993585A true CN116993585A (zh) | 2023-11-03 |
Family
ID=88527658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310866905.6A Pending CN116993585A (zh) | 2023-07-14 | 2023-07-14 | 基于多注意力的视频超分辨率重建网络构建方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116993585A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541473A (zh) * | 2023-11-13 | 2024-02-09 | 烟台大学 | 一种磁共振成像图像的超分辨重建方法 |
CN117765041A (zh) * | 2023-12-25 | 2024-03-26 | 浙江大学 | 一种基于配准增强和最优传输gan的dsa图像生成方法 |
-
2023
- 2023-07-14 CN CN202310866905.6A patent/CN116993585A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541473A (zh) * | 2023-11-13 | 2024-02-09 | 烟台大学 | 一种磁共振成像图像的超分辨重建方法 |
CN117541473B (zh) * | 2023-11-13 | 2024-04-30 | 烟台大学 | 一种磁共振成像图像的超分辨重建方法 |
CN117765041A (zh) * | 2023-12-25 | 2024-03-26 | 浙江大学 | 一种基于配准增强和最优传输gan的dsa图像生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Self-attention negative feedback network for real-time image super-resolution | |
Liu et al. | Robust video super-resolution with learned temporal dynamics | |
CN116993585A (zh) | 基于多注意力的视频超分辨率重建网络构建方法及其应用 | |
CN110060204B (zh) | 一种基于可逆网络的单一图像超分辨率方法 | |
Liu et al. | Switchable temporal propagation network | |
Zhong et al. | High-resolution depth maps imaging via attention-based hierarchical multi-modal fusion | |
Kancharagunta et al. | Csgan: Cyclic-synthesized generative adversarial networks for image-to-image transformation | |
Fuoli et al. | AIM 2020 challenge on video extreme super-resolution: Methods and results | |
Li et al. | MANet: Multi-scale aggregated network for light field depth estimation | |
Ke et al. | Mdanet: Multi-modal deep aggregation network for depth completion | |
Wang et al. | Underwater image super-resolution using multi-stage information distillation networks | |
Tran et al. | Video frame interpolation via down–up scale generative adversarial networks | |
Chen et al. | Underwater-image super-resolution via range-dependency learning of multiscale features | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
Zhang et al. | Recurrent interaction network for stereoscopic image super-resolution | |
Li et al. | An improved method for underwater image super-resolution and enhancement | |
CN109087247B (zh) | 一种对立体图像进行超分的方法 | |
Zhang et al. | Image motion deblurring via attention generative adversarial network | |
Nie et al. | Binocular image dehazing via a plain network without disparity estimation | |
Wu et al. | Stack-based scale-recurrent network for face image deblurring | |
Zhu et al. | DVSRNet: Deep Video Super-Resolution Based on Progressive Deformable Alignment and Temporal-Sparse Enhancement | |
Zou et al. | Edge-preserving light-field image super-resolution via feature affine transformation network | |
Wang et al. | A contrastive learning-based iterative network for remote sensing image super-resolution | |
Kong et al. | Dynamic Frame Interpolation in Wavelet Domain | |
Zhang et al. | Continuous Space-Time Video Super-Resolution Utilizing Long-Range Temporal Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |