CN116563101A - 一种基于频域残差的无人机图像盲超分辨率重建方法 - Google Patents
一种基于频域残差的无人机图像盲超分辨率重建方法 Download PDFInfo
- Publication number
- CN116563101A CN116563101A CN202310355128.9A CN202310355128A CN116563101A CN 116563101 A CN116563101 A CN 116563101A CN 202310355128 A CN202310355128 A CN 202310355128A CN 116563101 A CN116563101 A CN 116563101A
- Authority
- CN
- China
- Prior art keywords
- image
- frequency domain
- network
- noise
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000015556 catabolic process Effects 0.000 claims abstract description 26
- 238000006731 degradation reaction Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 32
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 15
- 239000000654 additive Substances 0.000 claims description 12
- 230000000996 additive effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 231100000817 safety factor Toxicity 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像超分辨率重建领域,具体基于一种基于频域残差的航拍图像盲超分辨率方法,包括以下步骤:首先获取高清航拍图像数据集,构建低质图像退化模型,并将所构建的图像退化模型应用于高清航拍图像,生成高清‑低质图像对仿真数据集。然后,构建基于频域残差的深度学习超分辨率网络模型,利用仿真数据集对深度学习网络模型进行训练。最后,将低分辨率航拍图像输入到训练好的频域残差网络中,重建出高清图像。本发明提供一种基于频域残差的航拍图像盲超分辨率方法,基于频域残差的网络模型更容易提取空间域中不易提取的噪声、模糊等全局特征,能够提高在复杂干扰下航拍场景图像的超分重建能力,提高了超分模型的普适性。
Description
技术领域
本发明涉及图像超分辨率重建领域,特指一种基于频域残差的无人机图像盲超分辨率方法。
背景技术
近年来,无人机航拍图像的使用越来越广泛。随着无人机图像在人类生产、生活中的重要程度逐渐加深,人们对无人机图像的可视性和清晰度要求也在不断提高。然而,受限于无人机拍摄时设备的硬件条件、环境条件、及拍摄者技术等原因,所拍摄的图像通常会存在分辨率过低、模糊、噪声、曝光不足等缺陷,造成图像细节无法呈现、成像视觉效果较差。比如,由于安全因素及飞手技术等原因,需要保持一定的飞行高度,难以近距离拍摄,这会导致采集到的无人机图像中场景尺寸很大,而目标区域分辨率较低;且无人机受到恶劣天气、发动机振动、自身倾斜晃动、高速运动等影响,导致所采集到的图像容易呈现模糊不清、噪声复杂等情况。无人机图像的清晰度则直接影响着后续目标检测、地面侦察等任务的处理效果。
因此,现有技术需要一种在真实无人机航拍场景下提升图像质量的方法,并且考虑到无人机图像易受环境干扰等问题,需要一种顾及模糊、噪声的超分辨率方法,来提高复杂干扰航拍场景下超分重建的性能。
现有的基于深度学习的超分方法基本都是基于空间域,由于卷积神经网络感受野的局限性,空间域中的噪声、模糊等全局特征不易进行特征提取,虽然基于自注意力的网络结构(如SwinIR)可以从浅层向深层利用全局信息,但不能有效地感知早期层的全局信息。而全局信息是图像超分辨率的关键,它可以激活更多的像素点,有助于提高图像重建能力和不同干扰场景下的鲁棒性能。
此外,尽管一些超分辨率方法考虑了部分退化模型(如双三次下采样、高斯模糊),但它们仍然不足以有效地覆盖真实图像的各种退化,对于从实际场景下采集到的低分辨率图像中重建出清晰的高分辨率图像,仍然存在很大的局限性。
发明内容
本发明为克服实际场景下无人机图像超分辨率重建易受模糊、噪声等干扰的技术缺陷,提供一种基于频域残差的无人机图像盲超分辨率重建方法。
为解决上面技术问题,本发明的技术方案如下:
一种基于频域残差的无人机图像盲超分辨率重建方法,包括以下几个步骤:
S1,获取高清无人机图像;
S2,构建低质图像退化模型,所述退化模型包含低分辨率、模糊、噪声退化机制;
S3,将S2中所构建的图像退化模型应用于S1中获取的高清无人机图像,生成高清-低质图像对数据集;
S4,结合傅里叶变换和密集残差机制,构建基于频域残差的深度学习超分辨率网络模型;
S5,利用S3中生成的数据集结合损失函数对S4中所构建的频域残差网络模型进行训练,得到训练好的频域残差网络;
S6,将低分辨率无人机图像输入到训练好的频域残差网络中,重建出高清图像。
进一步的,步骤S1中无人机图像为不同场景、光线、角度的无人机航拍图像,场景包括工业园区、居民区、高架桥、高速道路、运动场、汽车停车场,图像分辨率均为2K及以上。
进一步的,所述低质图像退化模型采用模糊、下采样、噪声的方式,如公式所示:
其中,x为退化后的图像,y为输入图像退化模型的高清图像,k表示模糊核,↓r表示下采样操作,n表示噪声。
进一步的,下采样操作使用三种方式,包括像素区域关系重采样法、双线性插值法和双三次插值法。
进一步的,模糊核包括:各向同性高斯模糊核、各向异性高斯模糊核、各向同性广义高斯模糊核、各向异性广义高斯模糊核、各向同性高原状分布模糊核、各向异性高原状分布模糊核,生成概率依次为[0.45、0.25、0.12、0.03、0.12、0.03],对于核大小为2t+1的模糊核k,t为常数,(i,j)是模糊核的空间坐标,从高斯分布中采样,(i,j)∈[-t,t],广义高斯模糊核k1与高原状分布模糊核k2建模公式如下:
其中,Σ表示协方差矩阵,C表示图像空间坐标,N为归一化常数,β为形状参数;
更具体地,协方差矩阵Σ为:
其中,R为旋转矩阵,σ1和σ2表示沿两个主轴的标准差,即协方差矩阵的特征值,θ为旋转角度;当σ1=σ2时,为各向同性高斯模糊核,否则为各向异性高斯模糊核,k1与k2的形状参数β分别在[0.5,4]与[1,2]范围中选取,模糊核像素尺寸参数在[7,9,11,13,15,17,19,21]中等概率生成。
进一步的,噪声包括:彩色加性高斯噪声、灰色加性高斯噪声、彩色泊松噪声、灰色泊松噪声,生成加性高斯噪声与泊松噪声的概率相等,生成彩色噪声与灰色噪声的概率分别为[0.6、0.4];加性高斯噪声的概率密度与高斯分布的概率密度函数相等,噪声强度由标准差σ控制,σ在[1,30]范围内均匀分布,最小间隔为10-4;泊松噪声服从泊松分布由参数λ值控制噪声强度,λ在[0.05,3]范围内均匀分布,最小间隔为10-4,当RGB图像的每个通道都有独立的采样噪声时,合成噪声为彩色噪声,当RGB图像的每个通道使用相同的采样噪声时,合成噪声为灰色噪声。
进一步的,步骤S4中构建的基于频域残差的深度学习超分辨率网络模型为生成对抗网络,包含生成网络G和鉴别网络D两个部分,所示生成网络G结构具体为:
首先,将低分辨率图像XLR输入生成网络G,经过一个卷积层进行预处理,初步提取图像特征,生成特征图X1;然后,将特征图输入到密集残差网络中,密集残差网络包含多个频域残差块,进行空间域与频域的特征提取,得到含重要特征信息的特征图X2;最后,将X2输入上采样模块进行特征尺寸放大,将放大后的结果进行两次卷积处理,输出高分辨率图像XSR;所述生成网络G网络模型的数学表示如下:
X1=FCB(XLR)
X2=FCB(FFFT-Block×N(X1))+X1,N=1,2,…,n
XSR=FCB(FCB(FUp(X2)))
其中,FCB表示卷积模块处理,FFFT-BlockXN表示N个堆叠的频域残差块处理,Fup表示图像上采样处理,X1和X2为特征图;
鉴别网络D为具有跳跃连接的U-Net结构;
进一步的,所示频域残差块包括三个部分,分别是频域特征提取分支、空间域密集残差块分支和原始特征分支,具体地,频域残差块操作的数学表示如下:
Xout=FFFT-Block(Xin)
=β×FS(Xin)+FF(Xin)+Xin
其中,FFFT-Block表示频域残差块处理,FS表示空间域密集残差块处理,FF表示频域特征提取处理,β为残差缩放系数,Xin为输入特征图,Xout为输出特征图;
其中,频域特征提取处理分支,首先利用二维快速傅里叶变换将原始的空间特征转换到频域,提取频域全局信息,然后进行二维快速傅里叶逆运算,得到空间域特征;空间域密集残差块处理分支采用密集残差的方式提取图像空间域的特征,去除BN层以获得稳定的训练,具体为:首先对输入的特征图C1进行一次卷积处理,再经过Leaky Relu激活函数对特征进行加强,得到加强后的特征图C2:
C2=FR(FCB(C1))
其中,FLR表示Leaky Relu激活函数,C1表示输入的特征图X1,C2表示输出的特征图;接着,将加强后的特征图C2进行第二次卷积操作,再使用Leaky Relu激活函数对其进行加强得到特征图Ci,i表示经过卷积处理的次数,处理函数如下:
其中,FLR表示使用Leaky Relu激活函数处理,Ci表示第i次卷积处理后通过LeakyRelu激活函数输出的特征图;
最后,对输出特征图Clast进行一次卷积,得到空间域密集残差块的最终输出特征图Cout:
Cout=FCB(Clast);
最终的输出是由空间域密集残差流、频域残差流和原始图像特征共同组成的,其中空间域密集残差在输出时乘以一个0到1之间的残差缩放系数β以防止训练不稳定。
进一步的,步骤S5中,在训练过程中结合XSR和真实的高分辨率图像XHR计算损失函数,根据损失函数更新生成网络G和鉴别网络D的参数;
首先,将XSR和真实的高分辨率图像XHR输入到鉴别网络D计算对抗损失LG;
其次,使用XSR和真实的高分辨率图像XHR计算内容损失L1、感知损失Lp;
再次,使用频域重建损失函数评估图像在频域上的差异,得到频域重建损失LFFT。
最后,结合LG、L1、LFFT、Lp计算总损失Ltotal,利用Ltotal更新生成网络G和鉴别网络D的参数,并重复以上步骤,直到满足训练迭代次数。
进一步的,对抗损失函数公式如下:
LG(G,D)=logD(y)+log(1-D(G(x)))
其中,G(x)表示通过生成网络重建的图像,y表示高分辨率标签图像。
L1损失函数公式如下:
其中,表示网络模型对第k个像素的预测值,yk表示标签图像在目标像素的真实值,K为像素总数;
感知损失,是指使用预训练的卷积神经网络提取高层特征,将预测图像和目标图像之间的特征差异作为损失函数的一种方法,使用预训练的VGG19网络中激活前的特征映射作为感知损失,其公式表示如下:
其中,其中φ(·)表示使用VGG19作为网络的特征提取函数,n表示使用VGG19网络的第n层提取特征,N这里表示经过特征提取总层数,K为像素总数;
频域重建损失函数公式如下:
其中,FT表示使用快速傅里叶变换将图像变换至频率域,||…||1表示使用L1范数计算损失,ISR为频域残差网络重建的图像,IHR为标签图像,K为像素总数;
总损失Ltotal的计算公式如下:
Ltotal=L1+LP+γLG+λLFFT
其中,γ与λ为权重参数。
与现有技术相比,有益效果是:
本发明利用无人机仿真数据集尽可能地模拟无人机实际拍摄的低质图像,充分利用生成对抗网络的强大学习,通过频域残差的方式,让生成对抗网络在训练过程中不断学习低质图像与对应高清图像之间空间域和频域的全局信息,提高了图像在不同干扰场景下的鲁棒性能,使其更适用于复杂干扰下的无人机场景。本发明针对无人机容易出现的运动模糊、离焦模糊以及图像噪声等问题所设计的退化模型,提高了频域残差网络重建低质无人机图像的视觉效果,使模型具有很好的普适性。
附图说明
图1本发明基于频域残差的无人机图像超分辨率重建方法的流程图;
图2本发明基于频域残差的无人机图像超分辨率重建方法的生成网络G结构图;
图3本发明基于频域残差的无人机图像超分辨率重建方法的频域残差块结构图;
图4本发明基于频域残差的无人机图像超分辨率重建方法的空间域密集残差块图;
图5本发明生成的超分辨率图像房屋细节比较图;
图6本发明生成的超分辨率图像车辆细节比较图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图一所示,本实施例提供一种基于频域残差的无人机图像超分辨率重建方法,具体实施方式如下:
步骤(1):获取高清无人机图像,所述无人机图像为不同场景、光线、角度的无人机图像;
步骤(2):构建低质图像退化模型,所述退化模型包含低分辨率、模糊、噪声等退化机制;
步骤(3):将S2中所构建的图像退化模型应用于S1中获取的高清无人机图像,生成高清-低质图像对数据集;
步骤(4):结合傅里叶变换和密集残差机制,构建基于频域残差的深度学习超分辨率网络模型:
步骤(5):利用S3中生成的数据集结合损失函数对S4中所构建的频域残差网络模型进行训练,得到训练好的频域残差网络;
步骤(6):将低分辨率无人机图像Xin输入到训练好的频域残差网络中,重建出高清图像Xout。
步骤S1中所述高清无人机图像由大疆御2和大疆mini无人机设备采集,分辨率均为2K及以上,共采集图像651张,其中558张为训练集数据,93张为验证集数据。
步骤S1中所述无人机图像的场景包括工业园区、居民区、高架桥、高速道路、运动场、汽车停车场。
步骤S2中所述低质图像退化模型采用模糊、下采样、噪声的方式,如公式所示:
其中,x为退化后的图像,y为输入图像退化模型的高清图像,k表示模糊核,↓r表示下采样操作,n表示噪声。
具体地,为尽可能包含不同的图像退化方式,提高超分重建的泛化性,下采样操作使用三种方式,包括像素区域关系重采样法、双线性插值法和双三次插值法。
具体地,模糊退化建模随机生成以下模糊核:各向同性高斯模糊核、各向异性高斯模糊核、各向同性广义高斯模糊核、各向异性广义高斯模糊核、各向同性高原状分布模糊核、各向异性高原状分布模糊核,生成概率依次为[0.45、0.25、0.12、0.03、0.12、0.03],对于核大小为2t+1的模糊核k,t为常数,(i,j)是模糊核的空间坐标,从高斯分布中采样,(i,j)∈[-t,t],广义高斯模糊核k1与高原状模糊核k2建模公式如下:
其中,Σ表示协方差矩阵,C表示图像空间坐标,N为归一化常数,β为形状参数;
更具体地,协方差矩阵Σ为:
其中,R为旋转矩阵,σ1和σ2表示沿两个主轴的标准差(即协方差矩阵的特征值),θ为旋转角度。当σ1=σ2时,k为各向同性高斯模糊核,否则k为各向异性高斯模糊核。k1与k2的形状参数β分别在[0.5,4]与[1,2]范围中选取。模糊核像素尺寸参数在[7,9,11,13,15,17,19,21]中等概率生成。
噪声退化模型随机生成以下噪声:彩色加性高斯噪声、灰色加性高斯噪声、彩色泊松噪声、灰色泊松噪声。生成加性高斯噪声与泊松噪声的概率相等,生成彩色噪声与灰色噪声的概率分别为[0.6、0.4]。加性高斯噪声的概率密度与高斯分布的概率密度函数相等,噪声强度由标准差σ控制,σ在[1,30]范围内均匀分布,最小间隔为10-4;泊松噪声服从泊松分布由参数λ值控制噪声强度,λ在[0.05,3]范围内均匀分布,最小间隔为10-4。当RGB图像的每个通道都有独立的采样噪声时,合成噪声为彩色噪声。当RGB图像的每个通道使用相同的采样噪声时,合成噪声为灰色噪声。
步骤S3中所述在生成低质图像时,每个类别(下采样、模糊、噪声)随机采用其中一种退化方式。
传统的基于CNN神经网络的超分辨率方法基本都是通过空间域提取图像特征,但由于卷积神经网络感受野的局限性,空间域中的噪声、模糊等全局特征不易进行提取,虽然基于自注意力的网络结构(如SwinIR)可以从浅层向深层利用全局信息,但不能有效地感知早期层的全局信息。而全局信息是图像超分辨率的关键,它可以激活更多的像素点,有助于提高图像重建能力和不同干扰场景下的鲁棒性能。
具体地,所述构建基于频域残差的深度学习超分辨率网络模型为生成对抗网络,包含生成网络G和鉴别网络D两个部分,生成网络G采由23个密集残差块组成,鉴别网络D为具有跳跃连接的U-Net结构。
如图2所示,所示生成网络G结构具体为:
首先,将低分辨率图像XLR输入生成网络G,经过一个卷积层进行预处理,初步提取图像特征,生成特征图X1。然后,将特征图输入到密集残差网络中,密集残差网络包含23个频域残差块,进行空间域与频域的特征提取,得到含重要特征信息的特征图X2。最后,将X2输入上采样模块进行特征尺寸放大,将放大后的结果进行两次卷积处理,输出高分辨率图像XSR;
所述生成网络G网络模型的数学表示如下:
X1=FCB(XLR)
X2=FCB(FFFT-Block×N(X1))+X1,N=(1,2,…,n)
XSR=FCB(FCB(FUp(X2)))
其中,FCB表示卷积模块处理,FFFT-BlockXN表示N个堆叠的频域残差块处理,Fup表示图像上采样处理,X1,2为特征图。
如图3所示,所示频域残差块包括三个部分,分别是频域特征提取分支、空间域密集残差块分支和原始特征分支。其中,频域特征提取处理分支,首先利用二维快速傅里叶变换将原始的空间特征转换到频域,提取频域全局信息,然后进行二维快速傅里叶逆运算,得到空间域特征;空间域密集残差块处理分支采用密集残差的方式提取图像空间域的特征,去除BN层以获得稳定的训练,并提高泛化能力,减少计算复杂度和内存占用;最终的输出是由空间域密集残差流、频域残差流和原始图像特征共同组成的,其中空间域密集残差在输出时乘以一个0到1之间的残差缩放系数β以防止训练不稳定。
具体地,频域残差块操作的数学表示如下:
Xout=FFFT-Block(Xin)
=β×FS(Xin)+FF(Xin)+Xin
其中,FS表示空间域密集残差块处理,FF表示频域特征提取处理,β为残差缩放系数,Xin为输入特征图,Xout为输出特征图。
如图4所示,所提出的空间域密集残差块具有残差中的残差结构,在不同的尺度上使用残差学习方式。首先对输入的特征图C1进行一次卷积处理,再经过Leaky Relu激活函数对特征进行加强,得到加强后的特征图C2:
C2=FR(FCB(C1))
其中,FLR表示Leaky Relu激活函数,C1表示输入的特征图X1,C2表示输出的特征图。接着,将加强后的特征图C2进行第二次卷积操作,再使用Leaky Relu激活函数对其进行加强得到特征图Ci,i表示经过卷积处理的次数,处理函数如下:
其中,FLR表示使用Leaky Relu激活函数处理,Ci表示第i次卷积处理后通过激活函数输出的特征图;
最后,对输出特征图Clast进行一次卷积,得到该空间域密集残差块的最终输出特征图Cout:
Cout=FCB(Clast)
步骤S5中在训练过程中结合XSR和真实的高分辨率图像XHR计算损失函数,根据损失函数更新生成网络G和鉴别网络D的参数;
首先,将XSR和真实的高分辨率图像XHR输入到鉴别网络D计算对抗损失LG;
其次,使用XSR和真实的高分辨率图像XHR计算内容损失L1、感知损失Lp;
再次,使用频域重建损失函数评估图像在频域上的差异,得到频域重建损失LFFT。
最后,结合LG、L1、LFFT、Lp计算总损失Ltotal,利用Ltotal更新生成网络G和鉴别网络D的参数,并重复以上步骤,直到满足训练迭代次数。
具体地,结合XSR和真实的高分辨率图像XHR计算损失函数,根据损失函数更新生成网络G和鉴别网络D的参数;首先,将XSR和真实的高分辨率图像XHR输入到鉴别网络D计算对抗损失LG;其次,使用XSR和真实的高分辨率图像XHR计算内容损失L1、感知损失Lp;再次,使用频域重建损失函数评估图像在频域上的差异,得到频域重建损失LFFT;最后,结合LG、L1、Lp、LFFT计算总损失Ltotal,利用Ltotal更新生成网络G和鉴别网络D的参数,并重复以上步骤,直到满足训练迭代次数。
更具体地,对抗损失函数公式如下:
LG(G,D)=logD(y)+log(1-D(g(x)))
其中,G(x)表示通过生成网络重建的图像,y表示高分辨率标签图像。
L1损失函数公式如下:
其中,表示本文网络模型对第k个像素的预测值,yk表示标签图像在目标像素的真实值,K为像素总数。
感知损失,是指使用预训练的卷积神经网络提取高层特征,将预测图像和目标图像之间的特征差异作为损失函数的一种方法,本文使用预训练的VGG19网络中激活前的特征映射{conv1,…,conv5}(权重分别为{0.1,0.1,1,1,1})作为感知损失,其公式表示如下:
其中,其中φ(·)表示使用VGG19作为网络的特征提取函数,n表示使用VGG19网络的第n层提取特征,N这里表示经过5个特征提取层,K为像素总数。
频域重建损失函数公式如下:
其中,FT表示使用快速傅里叶变换将图像变换至频率域,||…||1表示使用L1范数计算损失,ISR为本文频域残差网络重建的图像,IHR为标签图像,K为像素总数。
总损失Ltotal的计算公式如下:
Ltotal=L1+LP+γLG+λLFFT
其中,γ与λ为权重参数,均设置为0.1。
步骤S5中所述操作过程如下。首先获取无人机拍摄的低分辨率图像,然后将图像输入步骤5中训练好的频域残差网络中,直接得到超分辨率重建后的高清图像。如图5和图6所示,所拍摄的低分辨率无人机图像经放大后窗户、车辆等细节模糊不清,并在低光照区域伴随一定的图像噪声。而超分重建后的图像的视觉清晰度有显著提升、目标物轮廓分明、画面整体自然,有效去除了图像中的随机噪声。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于,包括如下步骤:
S1,获取高清无人机图像;
S2,构建低质图像退化模型,所述退化模型包含低分辨率、模糊、噪声退化机制;
S3,将S2中所构建的图像退化模型应用于S1中获取的高清无人机图像,生成高清-低质图像对数据集;
S4,结合傅里叶变换和密集残差机制,构建基于频域残差的深度学习超分辨率网络模型;
S5,利用S3中生成的数据集结合损失函数对S4中所构建的频域残差网络模型进行训练,得到训练好的频域残差网络;
S6,将低分辨率无人机图像输入到训练好的频域残差网络中,重建出高清图像。
2.如权利要求1所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:步骤S1中无人机图像为不同场景、光线、角度的无人机航拍图像,场景包括工业园区、居民区、高架桥、高速道路、运动场、汽车停车场,图像分辨率均为2K及以上。
3.如权利要求1所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:所述低质图像退化模型采用模糊、下采样、噪声的方式,如公式所示:
其中,x为退化后的图像,y为输入图像退化模型的高清图像,k表示模糊核,↓r表示下采样操作,n表示噪声。
4.如权利要求3所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:下采样操作使用三种方式,包括像素区域关系重采样法、双线性插值法和双三次插值法。
5.如权利要求3所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:模糊核包括:各向同性高斯模糊核、各向异性高斯模糊核、各向同性广义高斯模糊核、各向异性广义高斯模糊核、各向同性高原状分布模糊核、各向异性高原状分布模糊核,生成概率依次为[0.45、0.25、0.12、0.03、0.12、0.03],对于核大小为2t+1的模糊核k,t为常数,(i,j)是模糊核的空间坐标,从高斯分布中采样,(i,j)∈[-t,t],广义高斯模糊核k1与高原状分布模糊核k2建模公式如下:
其中,Σ表示协方差矩阵,C表示图像空间坐标,N为归一化常数,β为形状参数;
更具体地,协方差矩阵∑为:
其中,R为旋转矩阵,σ1和σ2表示沿两个主轴的标准差,即协方差矩阵的特征值,θ为旋转角度;当σ1=σ2时,为各向同性高斯模糊核,否则为各向异性高斯模糊核,k1与k2的形状参数β分别在[0.5,4]与[1,2]范围中选取,模糊核像素尺寸参数在[7,9,11,13,15,17,19,21]中等概率生成。
6.如权利要求3所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:噪声包括:彩色加性高斯噪声、灰色加性高斯噪声、彩色泊松噪声、灰色泊松噪声,生成加性高斯噪声与泊松噪声的概率相等,生成彩色噪声与灰色噪声的概率分别为[0.6、0.4];加性高斯噪声的概率密度与高斯分布的概率密度函数相等,噪声强度由标准差σ控制,σ在[1,30]范围内均匀分布,最小间隔为10-4;泊松噪声服从泊松分布由参数λ值控制噪声强度,λ在[0.05,3]范围内均匀分布,最小间隔为10-4,当RGB图像的每个通道都有独立的采样噪声时,合成噪声为彩色噪声,当RGB图像的每个通道使用相同的采样噪声时,合成噪声为灰色噪声。
7.如权利要求1所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:步骤S4中构建的基于频域残差的深度学习超分辨率网络模型为生成对抗网络,包含生成网络G和鉴别网络D两个部分,所示生成网络G结构具体为:
首先,将低分辨率图像XLR输入生成网络G,经过一个卷积层进行预处理,初步提取图像特征,生成特征图X1;然后,将特征图输入到密集残差网络中,密集残差网络包含多个频域残差块,进行空间域与频域的特征提取,得到含重要特征信息的特征图X2;最后,将X2输入上采样模块进行特征尺寸放大,将放大后的结果进行两次卷积处理,输出高分辨率图像XSR;所述生成网络G网络模型的数学表示如下:
X1=FCB(XLR)
X2=FCB(FFFT-Block×N(X1))+X1,N=1,2,…,n
XSR=FCB(FCB(FUp(X2)))
其中,FCB表示卷积模块处理,FFFT-BlockXN表示N个堆叠的频域残差块处理,Fup表示图像上采样处理,X1和X2为特征图;
鉴别网络D为具有跳跃连接的U-Net结构。
8.如权利要求7所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:所示频域残差块包括三个部分,分别是频域特征提取分支、空间域密集残差块分支和原始特征分支,具体地,频域残差块操作的数学表示如下:
Xout=FFFT-Block(Xin)
=β×FS(Xin)+FF(Xin)+Xin
其中,FFFT-Block表示频域残差块处理,FS表示空间域密集残差块处理,FF表示频域特征提取处理,β为残差缩放系数,Xin为输入特征图,Xout为输出特征图;
其中,频域特征提取处理分支,首先利用二维快速傅里叶变换将原始的空间特征转换到频域,提取频域全局信息,然后进行二维快速傅里叶逆运算,得到空间域特征;空间域密集残差块处理分支采用密集残差的方式提取图像空间域的特征,去除BN层以获得稳定的训练,具体为:首先对输入的特征图C1进行一次卷积处理,再经过Leaky Relu激活函数对特征进行加强,得到加强后的特征图C2:
C2=FR(FCB(C1))
其中,FLR表示Leaky Relu激活函数,C1表示输入的特征图X1,C2表示输出的特征图;接着,将加强后的特征图C2进行第二次卷积操作,再使用Leaky Relu激活函数对其进行加强得到特征图Ci,i表示经过卷积处理的次数,处理函数如下:
其中,FLR表示使用Leaky Relu激活函数处理,Ci表示第i次卷积处理后通过Leaky Relu激活函数输出的特征图;
最后,对输出特征图Clast进行一次卷积,得到空间域密集残差块的最终输出特征图Cout:
Cout=FCB(Clast);
最终的输出是由空间域密集残差流、频域残差流和原始图像特征共同组成的,其中空间域密集残差在输出时乘以一个0到1之间的残差缩放系数β以防止训练不稳定。
9.如权利要求7所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:步骤S5中,在训练过程中结合XSR和真实的高分辨率图像XHR计算损失函数,根据损失函数更新生成网络G和鉴别网络D的参数;
首先,将XSR和真实的高分辨率图像XHR输入到鉴别网络D计算对抗损失LG;
其次,使用XSR和真实的高分辨率图像XHR计算内容损失L1、感知损失Lp;
再次,使用频域重建损失函数评估图像在频域上的差异,得到频域重建损失LFFT。
最后,结合LG、L1、LFFT、Lp计算总损失Ltotal,利用Ltotal更新生成网络G和鉴别网络D的参数,并重复以上步骤,直到满足训练迭代次数。
10.如权利要求9所述的一种基于频域残差的无人机图像盲超分辨率重建方法,其特征在于:对抗损失函数公式如下:
LG(G,D)=logD(y)+log(1-D(G(x)))
其中,G(x)表示通过生成网络重建的图像,y表示高分辨率标签图像。
L1损失函数公式如下:
其中,表示网络模型对第k个像素的预测值,yk表示标签图像在目标像素的真实值,K为像素总数;
感知损失,是指使用预训练的卷积神经网络提取高层特征,将预测图像和目标图像之间的特征差异作为损失函数的一种方法,使用预训练的VGG19网络中激活前的特征映射作为感知损失,其公式表示如下:
其中,其中φ(·)表示使用VGG19作为网络的特征提取函数,n表示使用VGG19网络的第n层提取特征,N这里表示经过特征提取总层数,K为像素总数;
频域重建损失函数公式如下:
其中,FT表示使用快速傅里叶变换将图像变换至频率域,||...||1表示使用L1范数计算损失,ISR为频域残差网络重建的图像,IHR为标签图像,K为像素总数;
总损失Ltotal的计算公式如下:
Ltotal=L1+LP+γLG+λLFFT
其中,γ与λ为权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355128.9A CN116563101A (zh) | 2023-04-04 | 2023-04-04 | 一种基于频域残差的无人机图像盲超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355128.9A CN116563101A (zh) | 2023-04-04 | 2023-04-04 | 一种基于频域残差的无人机图像盲超分辨率重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563101A true CN116563101A (zh) | 2023-08-08 |
Family
ID=87500931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310355128.9A Pending CN116563101A (zh) | 2023-04-04 | 2023-04-04 | 一种基于频域残差的无人机图像盲超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563101A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151984A (zh) * | 2023-09-26 | 2023-12-01 | 天津大学 | 基于频域约束和参考图引导的二维条码超分辨率方法 |
CN117576467A (zh) * | 2023-11-22 | 2024-02-20 | 安徽大学 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
-
2023
- 2023-04-04 CN CN202310355128.9A patent/CN116563101A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151984A (zh) * | 2023-09-26 | 2023-12-01 | 天津大学 | 基于频域约束和参考图引导的二维条码超分辨率方法 |
CN117151984B (zh) * | 2023-09-26 | 2024-06-04 | 天津大学 | 基于频域约束和参考图引导的二维条码超分辨率方法 |
CN117576467A (zh) * | 2023-11-22 | 2024-02-20 | 安徽大学 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
CN117576467B (zh) * | 2023-11-22 | 2024-04-26 | 安徽大学 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN110533620B (zh) | 基于aae提取空间特征的高光谱和全色图像融合方法 | |
CN108830796B (zh) | 基于谱空结合和梯度域损失的高光谱图像超分辨重构方法 | |
CN116563101A (zh) | 一种基于频域残差的无人机图像盲超分辨率重建方法 | |
Zhang et al. | LR-Net: Low-rank spatial-spectral network for hyperspectral image denoising | |
CN110517306B (zh) | 一种基于深度学习的双目深度视觉估计的方法和系统 | |
CN113673590A (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN113592715B (zh) | 一种面向小样本图像集的超分辨率图像重构方法 | |
CN114581347B (zh) | 无参考影像的光学遥感空谱融合方法、装置、设备及介质 | |
CN112991537B (zh) | 城市场景重建方法、装置、计算机设备和存储介质 | |
CN112967327A (zh) | 基于联合自注意力机制的单目深度方法 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN115393191A (zh) | 一种轻量级遥感图像超分辨率重建方法、装置及设备 | |
CN112446835B (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN116309062A (zh) | 一种遥感图像超分辨率重建方法 | |
CN116309122A (zh) | 一种基于深度学习的相位条纹图像散斑噪声抑制方法 | |
CN113724134A (zh) | 一种基于残差蒸馏网络的航拍图像盲超分辨率重建方法 | |
Zhu et al. | Super-resolving commercial satellite imagery using realistic training data | |
CN116883588A (zh) | 一种大场景下的三维点云快速稠密重建方法及系统 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
Cui et al. | Exploring resolution and degradation clues as self-supervised signal for low quality object detection | |
Babu et al. | An efficient image dahazing using Googlenet based convolution neural networks | |
CN117495718A (zh) | 一种多尺度自适应的遥感图像去雾方法 | |
Bull et al. | Perceptual improvements for super-resolution of satellite imagery | |
CN117422619A (zh) | 图像重建模型的训练方法、图像重建方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |