CN116843553B - 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 - Google Patents
一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 Download PDFInfo
- Publication number
- CN116843553B CN116843553B CN202310846204.6A CN202310846204A CN116843553B CN 116843553 B CN116843553 B CN 116843553B CN 202310846204 A CN202310846204 A CN 202310846204A CN 116843553 B CN116843553 B CN 116843553B
- Authority
- CN
- China
- Prior art keywords
- kernel
- degradation
- resolution
- image
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015556 catabolic process Effects 0.000 title claims abstract description 80
- 238000006731 degradation reaction Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000001575 pathological effect Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009774 resonance method Methods 0.000 description 2
- 101100365548 Caenorhabditis elegans set-14 gene Proteins 0.000 description 1
- 101100234002 Drosophila melanogaster Shal gene Proteins 0.000 description 1
- 235000015076 Shorea robusta Nutrition 0.000 description 1
- 244000166071 Shorea robusta Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉领域,具体涉及一种基于核不确定学习和退化嵌入的盲超分辨率重建方法,首先使用核估计网络中的编码器和解码器结构提取低质图像深度特征,并将深度特征送入核重建模块,学习模糊核的特征和不确定性,并最终获得估计的模糊核。然后对模糊核进行拉伸和降维后,将其与当前特征信息送入退化查询模块执行自注意力操作获得适合当前特征信息的退化嵌入块,最终获得图像超分辨率重建。本发明针对当前盲超分辨率的弊端,将不确定性学习引入到核估计网络中,学习模糊核隐含空间中的特征和不确定性,使用模糊核重建损失和KL散度损失共同训练核估计网络,提高了核估计的性能和稳健性。本发明用于提高图像质量。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于核不确定学习和退化嵌入的盲超分辨率重建方法。
背景技术
图像超分辨率(SISR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中的一类重要的图像处理技术。它在现实世界中有着广泛的应用,例如医学成像、监视和安全等。除了提高图像的感知质量外,它还有助于改进其他计算机视觉任务。在过去的五年中,深度神经网络(DNN)在SISR上取得了显著的成果。但是这些方法中的大多数都假定模糊核被预先定义为双三次插值核。在这种情况下,SR任务退化为寻找双三次下采样的逆解。然而,但实际应用中涉及的模糊核通常是复杂的和不可用的。这是由于模糊核很容易受到摄像机内部参数、摄像机姿态等的影响导致它们通常是未知的,并且随着图像的不同而不同。因此,在双三次合成的训练样本和真实图像之间存在域间隙。当这些网络应用于实际应用时,这种域差距将导致严重的性能下降。因此,对于未知模糊核k背景下的超分辨率,即盲超分辨率,应给予更多的关注。
现有的盲超分辨率方法通常由两步实现:首先在低分辨率图片LR中进行退化估计,之后在将估计出的退化信息与LR进行自适应融合完成超分。根据退化提取的策略,现有的盲超分辨率方法可以分为两类:监督核预测(SKP)和无监督退化预测(UDP):
(1)无监督退化预测(UDP):UDP方法的核心思想是对退化信息进行分类而不是像SKP那样精确的估计出像素级的退化信息即模糊核,虽然减少了计算复杂度,但UDP得到的退化信息是粗糙的,将其作为退化先验送入到超分网络中很难获得有希望的结果,因此UDP在大多情况下和最新的SKP之间仍有差距。
(2)监督核预测(SKP):不同于UDP方法,SKP方法是从低分辨率图片中学习潜在模糊核的数据分布。由于模糊核中包含LR图像的退化信息,它可以作为退化先验与LR图像进行自适应融合并实现超分。后续学者的工作提出了各种各样的显式核估计方法和融合策略。它们在盲超分辨率上都取得了良好的结果。然而由于盲超分逆问题的病态性质,准确的核估计是不可能的,现有的监督核预测方法通过从大量合成的LR图像中估计模糊核,这些方法提取出的模糊核普遍缺乏健壮性。此外,在得到估计的模糊核后,大多数方法仍然使用PCA技术对模糊核进行降维并与特征图进行拼接,这样不仅没有考虑退化图和特征图之间的域差距而且重要的是这些方法没有考虑过当前特征需要什么样的退化嵌入,而超分网络又对退化信息十分敏感,这样不可避免地导致重建效果较差。因此针对现有盲超分辨率方法的弊端,构建一种基于核不确定学习和退化嵌入的盲超分辨率重建方法对于提升图像质量有着重要意义。
发明内容
针对上述的技术问题,本发明提供了一种基于核不确定学习和退化嵌入的盲超分辨率重建方法,将不确定性学习引入到核估计网络中。同时学习模糊核隐含空间中的特征和不确定性,使用模糊核重建损失和KL散度损失共同训练核估计网络,提高核估计的性能和稳健性。此外提出了一种用于模糊核与图片融合的策略。该策略基于退化嵌入查询模块用来分析当前图像特征和退化信息之间的关系,通过自注意力查询操作得到适合当前特征图的退化信息,并将退化信息用来生成卷积和通道系数来解决退化信息和图像特征之间的域差距。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于核不确定学习和退化嵌入的盲超分辨率重建方法,包括下列步骤:
S1、针对盲超分辨率的病态性质,设计用于求解盲超分辨率的优化公式;
S2、构建基于核不确定学习和退化嵌入的盲超分辨率模型ULDP求解所述S1中的优化公式,ULDP模型包含两个子网络:核估计子网络KNET和超分子网络SNET;
S3、使用S2中KNET网络对低质图像LR提取深度特征p,并将p重塑为模糊核k;
S4、对S3中的退化信息k进行拉伸以及降维并和当前层特征信息f送入到DQ模块进行自注意力查询操作得到适合当前层特征信息f的退化嵌入块E;
S5、使用S2中SNET网络对S4中的退化嵌入信息E和当前层特征信息f完成融合并实现超分辨率重建。
所述S1中使用经典退化模型来合成盲超分辨率的训练数据对,其公式如下:
所述y表示LR图像;所述x是原始HR图像;所述k是模糊核;所述表示二维2D卷积运算;所述↓s表示双三次下采样s倍;所述n表示具有噪声级别σ的高斯白噪声;盲超分辨率任务分解为两步并依次求解,等式如下:
所述ρ()表示从LR图像y中估计模糊核k的函数,所述k表示模糊核,所述g()是一个非盲超分辨率方法,所述g()的输入是LR图像y和模糊核k;所述θρ和θg分别是模型ρ和g的参数;为了更直观体现出盲超分辨率的目标,对上述公式进行调整获得优化公式:
所述l为可以根据任务的要求选择与保真度相关的损失。
所述S2中构建的ULDP是由两个子网络即基于不确定学习的核估计子网络KNET和基于退化嵌入的超分子网络SNET构成;KNET网络负责从低分辨率图片中预测潜在的退化信息即模糊核k,在得到估计的模糊核k后,SNET网络实现LR图像和模糊核k融合并完成图像重建;所述KNET网络包含特征提取模块和核重建模块;特征提取模块由编码器、解码器、中间层构成;所述编码器结构是由两个残差块ResBlock和DE模块组成;ResBlock块由两个卷积和relu激活函数交替构成;DE模块是指下采样down sampling和通道扩张channelexpansion;解码器是由UR模块,拼接块,残差块构成;UR模块是指上采样upsampling和通道缩减channelreduction;中间层是由3个conv3×3和relu函数组成;核重建结构则是由3个conv3×3和若干激活函数构成;将由特征提取模块输出的信息送入前两个卷积层,分别用于学习潜在模糊核的均值μ和方差σ,最后在将均值μ和方差σ送入到最后一个卷积层获到估计模糊核k。
所述S2中SNET网络以DEA块为基本块,整个结构由6个残差组构成;每个残差组由6个DEA模块组成;所述DEA块内,共有两个DEA卷积、两个conv3×3;此外,在每个DEA卷积中都有退化嵌入查询模块DQ;DEA卷积含有两个分支,DEA卷积的两个分支基于退化嵌入查询模块DQ输出的嵌入信息E生成卷积核w和通道系数v来适配特征。
所述S3中KNET网络内,分别有两个编码器Enc和解码器Dec即特征提取模块;在经过特征提取模块,图像深度特征p被从低质图像LR中提取出;所述图像深度特征p是一个高维tensor向量,所述图像深度特征p的形状大小是(64,64,64);在经过重建模块后p被重塑为模糊核k。
所述S4中二维信息模糊核k被拉伸为一维向量,并将其通过全连接层方式降维到1*128尺寸,得到退化信息F;所述DQ块是退化嵌入查询模块,在DQ块内,通过对退化信息F和当前特征信息f执行自注意力查询操作可以获得适合当前特征信息f的退化嵌入块E。
所述S5中退化嵌入信息E和特征信息f融合方法为:首先将E输入到两个全连接层FC后并重塑为卷积核ω∈RC×1×3×3,然后将f与生成的卷积核ω进行深度卷积和1×1卷积产生F1;其次将E送入到另外两个全连接层生成通道系数v对f执行特征自适应调整不同通道权重占比,从而得到F2,最后将F1与F2相加得到输出Fout,将其输送到下一层作为输入,最后获得重建图片。
本发明与现有技术相比,具有的有益效果是:
1、本发明将不确定性学习引入到核估计网络中,学习模糊核隐含空间中的特征(均值)和不确定性(方差),使用模糊核重建损失和KL散度损失共同训练核估计网络,提高了核估计的性能和稳健性。
2、本发明提出了一种用于监督盲超分辨率中模糊核与图片融合的策略。该策略基于退化嵌入查询模块DQ用来分析当前图像特征和退化信息之间的关系,通过自注意力查询操作得到适合当前特征图的退化信息,并将退化信息用来生成卷积和通道系数来解决退化信息和图像特征之间的域差距,在使用真实模糊核退化训练中优于现有监督盲超分辨率的融合策略,提高了盲超分辨率的性能。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明所用模型ULDP的核估计子网络KNET模型结构图;
图2为本发明所用模型ULDP的超分子网络SNET模型结构图;
图3为本发明所用ULDP模型与其他SOTA方法在Urban100数据集上的结果对比图;
图4为本发明所用ULDP模型与其他SOTA方法在基准数据集DIV2KRK上的结果对比图。
图5为本发明所用ULDP模型与其他SOTA方法在真实退化上的结果对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制;基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例,对本发明的具体实施方式做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例在pytorch深度学习框架下实现,本实施例提供了一种基于核不确定学习和退化嵌入的盲超分辨率重建方法,具体包括以下步骤:
步骤一、数据集准备
1.1数据收集
本实施例的数据样本包含两种数据集:DIV2k和Flickr2K,共3450张2K高清图片。数据集I:全称DIVerse 2K resolution high quality images。DIV2k数据集作为CVPR附属赛道的NTIRE指定数据集,一共包含1000张2K分辨率的RGB图像,其中800张为训练集,100张为验证集,100张为测试集。数据集内部与2k分辨率的ground truth相对应的还有各种降质倍数的Low Resolution数据集;数据集II:图片来自flickr.com.,大部分图片是由朋友拍摄以及由他人拍摄。共有2650张2K分辨率的RGB图像。
1.2数据预处理
在得到数据集后,根据经典退化模型合成训练所需要的HR-LR图像对。首先使用切片工具对上述3450张高清图片进行随机裁剪,由于训练的LR图像大小固定为64。因此对于scale分别为4,3,2的超分任务,HR裁剪的大小分别为256,192,128。另外为了避免过拟合,通过对HR图像进行随机水平翻转、旋转来进行数据增强。模糊核选择各向同性高斯模糊核和各向异性高斯模糊核两种退化类型。对于退化类型为各向同性高斯模糊核的超分任务,有放大因子为2、3、4倍共3种超分任务。对于这三种比例因子的训练,分别从范围[0.2,2.0],[0.2,3.0],[0.2,4.0]对核宽度进行均匀采样,模糊核的尺寸固定为21*21。使用均匀采样的模糊核将上述裁剪得到的HR图像模糊后通过双三次插值方式下采样2、3、4倍获得对应任务的低质图像LR。与退化类型为各向同性高斯模糊核的超分任务不同,它只有放大因子为2、4倍两种任务,模糊核尺寸分别为11*11、31*31。在训练过程中,通过从范围[0.6,5]中随机选择核宽度并从范围[-π,π]旋转来生成用于退化的各向异性高斯核。为了偏离常规的高斯,还会进一步应用均匀乘性噪声(最高可达内核每个像素值的25%)。
2、模型构建
由于盲超分辨率的病态性质,为了更方便解决盲超分辨率问题,本实施例将复杂的整体优化分解为两个独立的步骤,两个独立的步骤由核估计子网络KNET和基于退化感知嵌入的超分子网络SNET实现。两个子网络构成盲超分辨率模型ULDP,网络结构图如图1、图2所示。KNET网络负责从低分辨率图片中预测潜在的退化信息即模糊核k。在得到估计的模糊核k后,SNET网络完成LR图像和模糊核k融合并实现图像超分工作。具体来说,首先将低分辨率图像送入到KNET网络中的第一个3*3卷积层中,提取图片浅层特征fshallow。
其中,为一个卷积核大小为3×3的卷积层,输入和输出通道数分别为3,64。然后fshall将作为编码器的输入,进一步提取深层特征。等式如下:
foutput,fskip=Enc(fshal)
其中,Enc()表示编码器结构,将fshall送入编码器后将输出两个在通道数和特征图尺寸均不同的变量:输出变量fout和跳跃变量fskip。生成变量的等式如下:
foutput=(res*res*relu*de)(fshall)
fskip=(res*res*relu)(fshallow)
其中res指的是残差块结构,该结构由两个3*3卷积层和relu激活函数组成。卷积和relu激活函数被用于提取图像特征和提升非线性学习能力。最后的ds操作是对特征信息进行下采样和通道扩张一倍,此操作由torch.Conv函数实现。
解码器是由UR模块,拼接块,残差块构成。拼接块用来融合跳跃信息和当前层次的信息。这种跳跃设计可以使用不同层次的信息以提高模型的表示能力。与编码器不同的是,解码器的输入是两个不同层次和不同通道数的特征信息foutput,fskip此外解码器仅产生一个输出foutput。解码器模块流程如下式所示,
foutput=Dec(foutput,fskip)
=res*res*relu(concat(up(foutput),fskip))
其中,res是残差块,同样是由两个3*3卷积层和relu函数构成。up和concat分别指的是上采样和拼接操作。由于fskip与foutput特征图大小和通道数均不同,需要对其上采样和通道缩小后才可拼接。up操作由torch.ConvTranspose函数实现。
在将浅层特征送入编码器和解码器结构后得到图像深度特征p后,将其送入两个3*3的卷积层,分别用于学习潜在模糊核的均值μ和方差σ,从另一个角度来看,μ可以被解释为模糊内核的身份映射,而σ是预测μ的不确定性。流程公式如下所示,
z=μ+∈σ,∈~N(0,I),
其中∈表示从正态分布采样的随机噪声(在具体实现中使用可训练参数替代)。由于在训练期间,μ受到σ的破坏,z不再是确定性的点嵌入。然而,在训练中注意到,如果没有对嵌入的约束,该模型倾向于对所有样本预测较小的σ以抑制不稳定分量。因此采用Kullback-Leibler(KL)散度正则化项来强迫N(μ,σ2)接近标准分布N(0,I),
最后在将z送入到最后一个卷积层获到模糊核估计。在获得潜在的模糊核后,由SNET网络实现模糊核和图片的融合。SNET网络以DEA块为基本块,整个结构由6个残差组构成。每个残差组由6个DEA模块组成。所述DEA块内,共有两个DEA卷积、两个conv3×3。此外,在每个DEA卷积中都包含退化嵌入查询模块DQ用于分析当前的图像特征Fin和退化信息之间的关系并得到当前特征的最优退化嵌入信息E。DEA卷积含有两个分支,它们基于退化嵌入查询模块DQ输出的嵌入信息E生成卷积核w和通道系数v来适配特征。具体来说,首先将k拉伸为一维向量,并将其通过全连接层方式降维到1*128尺寸得到退化信息F。然后将当前的图像特征Fin和退化信息F送入到退化嵌入查询模块DQ中进行自注意力查询得到当前特征的最优退化嵌入信息E。公式如下:
其中Q(q1,q2)是对Fin进行全局最大池化和全局平均池化计算得到,K,V是将F送入全连接层(FC)中获到。dk表示键的维度。接下来将得到的退化信息E输入到两个全连接层(FC)后并进行重构用来生成卷积核的权重ω∈RC×1×3×3,然后将F1n与生成的卷积核ω进行深度卷积和1*1卷积层后得到第一个分支的输出F1。此外将E送入到另外两个全连接层生成通道系数v,并将Fin和v相乘用于特征自适应调整不同通道权重占比,从而得到第二分支输出F2,最后将F1与F2相加得到Fout并输送到下一层作为输入,最后获得重建图片。
3、模型训练
构建的ULDP网络模型包含两个子网络KNET和SNET,为了能够充分训练两个子网络,本实施例采用3阶段训练策略。stage1:对于退化估计网络KNET,使用和/>联合损失对其进行训练300000iter。/>这里的/>即估计核/>和真实核K的平均绝对误差,/>是KL损失,λ设置为0.001。采用adam优化器,β1=0.9,β2=0.999。使用多步长衰减策略,初始学习率设置为2×10-4,在50000iter后学习率衰减一半。stage2:与stage1相同,从DIV2K和Flickr2K随机裁剪HR256并通过随机翻转和旋转来进行数据增强,在使用随机模糊核函数对HR图像模糊并下采样得到LR。采用SR和HR的平均绝对误差作为损失函数/>这里的m是训练样本的总数,和/>指的是第n个HR图片和LR图像对。同样使用adam优化器,β1=0.9,β2=0.99。训练采用余弦退火策略,初始学习率为2×10-4,学习率最小值为1×10-7,共训练450000iter,在150000iter后初始化学习率。stage3:由于在阶段2,是使用真实核对非盲网络进行的训练。考虑到非盲网络对核的敏感性,在3阶段将退化估计网络参数冻结,使用估计的核对超分网络进行微调。初始学习率为5×10-5,共150000iter。对超分网络微调后,网络对估计的核会更加契合。
4、模型测试
4.1测试设置
为了充分研究本实施例的性能,在两种不同的退化设置下进行了大量的实验。设置1仅关注各向同性高斯模糊核的情况。在这种情况下,可以对不同的模糊核进行定量比较,这有助于研究模糊核的影响。设置2侧重于更一般和不规则的模糊内核的情况。直观地说,设置2相对更困难,并且可以帮助研究所提出的方法的性能。所有测试均是在图片YCbCr空间的Y通道上根据PSNR和SSIM指标度量性能。
设置一:本实施例遵循IKC中各向同性高斯模糊核的设置进行实验。具体来说,对于测试,本实施例使用高斯8核设置从set5,set14,BSD100,urban100生成数据。对于尺度因子2、3和4,Gaussian8分别从范围[0.8,1.6]、[1.35,2.40]和[1.8,3.2]中均匀地选择8个核。LR图像是通过对HR图像进行模糊和下采样来获得的。
设置二:本实施例按照KernelGAN中的设置,对各向异性高斯模糊核进行了实验。对于比例因子2和4,核大小设置为11*11和31*31。为了进行测试,本实施例使用基准数据集DIV2KRK。
4.2测试结果
4.2.1同向高斯模糊核评估
遵循IKC中的设置(设置1),本实施例在由Gaussian8核合成的数据集上对本实施例进行了评估。将模型ULDP与SOTA盲超分方法进行了比较:SRMD(使用真实核)、IKC、DANv1、DANv2、AdaTarget和DASR。对于大多数方法的指标,使用官方提供的预训练模型和引用对应论文中的指标。
定量结果如表1所示。显然本实施例ULDP在所有数据集上几乎都获得了最好的性能。与本实施例的判断一致,SR模型ZSSR(使用双三次下采样)在Gaussian8上表现出严重的性能下降。非盲超分辨率SRMD(使用真实核)虽然可以改善图像质量,但受限于它的模糊核和LR图像的融合方法(直接拼接),性能还是不如主流的盲超分方法。AdaTarget(2021cvpr)可以解决超分辨率和盲超分辨率两种任务,由于其设计的独特性,它可以和众多盲超分辨率方法的性能进行媲美。DASR(2021cvpr)是表中唯一的一个无监督盲超分辨率方法,可以观察到它的性能比双三次模型更强,但受限于无监督超分辨率的短板,它与监督盲超分辨率方法之间的差距比较明显。IKC、DANv1、DANv2都是两步监督盲超分辨率方法,可以很大程度上改善结果。可以看到在x2超分任务上,只有DANv2的性能与ULDP相差无几。但在x3,x4任务上ULDP模型则是全面领先所有SOTA方法,甚至在x3任务中的BSD100和Urban100数据集上领先了DANv2模型0.57db和0.65db,这表明ULDP模型能够适应各种退化情况。上述几种方法没有针对监督盲超分辨率的弊端,提高模糊核的健壮性和为特征分配它所需要的退化信息,因此性能不如本实施例。图3所示的量化结果表明,本实施例ULDP可以产生清晰且令人愉快的SR图像。
表1 Gaussian8核生成数据集中的对比结果表
4.2.2各向异性高斯核评估
各向异性高斯核的退化更具有普遍性和挑战性。类似于各向同性高斯核,本实施例首先将该方法与IKC、DANv1、DANv2、AdaTarget等SOTA盲SR方法进行了比较。本实施例还将ULDP与一些SOTA双参数设计方法,如EDSR、RCAN和DBPN进行了比较。此外,本实施例将核估计方法(如KernelGAN)与其他非盲随机共振方法(如ZSSR和SRMD)相结合,作为两步法来求解盲超分辨率。
表2显示了DIV2KRK的量化结果。可以看出,与其他盲超分辨率方法相比,所提出的ULDP提高了盲超分的性能。可以注意到,ZSSR在与KernelGAN结合使用时执行得更好,这表明良好的内核评估会有很大帮助。最近的SOTA盲随机共振方法,如IKC、DAN和KOALANet等,在PSNR和SSIM方面都取得了显著的效果。通过应用自适应目标来微调网络,AdaTarget的性能与SOTA盲法相当。然而,所有这些方法仍然不如ULDP。此外提供了ULDP在DIV2KRK数据集上超分4倍的视觉效果。如图4所示,能观察到ULDP生成的结果更清晰、明确。
表2在DIV2KRK数据集中的对比结果表
4.2.3真实退化评估
为了进一步证实本实施例的性能,将ULDP应用在现实世界退化中,在这次试验中没有对应的高清图片和模糊核。对旧历史图像的超分结果如图5所示,对比的模型有双三次模型ZSSR,盲超分模型IKC,DANv1,DANv2。本实施例ULDP能生成边缘清晰和视觉舒适的超分结果。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于核不确定学习和退化嵌入的盲超分辨率重建方法,其特征在于:包括下列步骤:
S1、针对盲超分辨率的病态性质,设计用于求解盲超分辨率的优化公式;所述S1中使用经典退化模型来合成盲超分辨率的训练数据对,其公式如下:
所述y表示LR图像;所述x是原始HR图像;所述k是模糊核;所述表示二维2D卷积运算;所述↓s表示双三次下采样s倍;所述n表示具有噪声级别σ的高斯白噪声;盲超分辨率任务分解为两步并依次求解,等式如下:
所述ρ()表示从LR图像y中估计模糊核k的函数,所述k表示模糊核,所述g()是一个非盲超分辨率方法,所述g()的输入是LR图像y和模糊核k;所述θρ和θg分别是模型ρ和g的参数;为了更直观体现出盲超分辨率的目标,对上述公式进行调整获得优化公式:
所述l为可以根据任务的要求选择与保真度相关的损失
S2、构建基于核不确定学习和退化嵌入的盲超分辨率模型ULDP求解所述S1中的优化公式,ULDP模型包含两个子网络:核估计子网络KNET和超分子网络SNET;所述S2中构建的ULDP是由两个子网络即基于不确定学习的核估计子网络KNET和基于退化嵌入的超分子网络SNET构成;KNET网络负责从低分辨率图片中预测潜在的退化信息即模糊核k,在得到估计的模糊核k后,SNET网络实现LR图像和模糊核k融合并完成图像重建;所述KNET网络包含特征提取模块和核重建模块;特征提取模块由编码器、解码器、中间层构成;所述编码器结构是由两个残差块ResBlock和DE模块组成;ResBlock块由两个卷积和relu激活函数交替构成;DE模块是指下采样down sampling和通道扩张channel expansion;解码器是由UR模块,拼接块,残差块构成;UR模块是指上采样up sampling和通道缩减channel reduction;中间层是由3个conv3×3和relu函数组成;核重建结构则是由3个conv3×3和若干激活函数构成;将由特征提取模块输出的信息送入前两个卷积层,分别用于学习潜在模糊核的均值μ和方差σ,最后在将均值μ和方差σ送入到最后一个卷积层获到估计模糊核k;所述S2中SNET网络以DEA块为基本块,整个结构由6个残差组构成;每个残差组由6个DEA模块组成;所述DEA块内,共有两个DEA卷积、两个conv3×3;此外,在每个DEA卷积中都有退化嵌入查询模块DQ;DEA卷积含有两个分支,DEA卷积的两个分支基于退化嵌入查询模块DQ输出的嵌入信息E生成卷积核w和通道系数v来适配特征;
S3、使用S2中KNET网络对低质图像LR提取深度特征p,并将p重塑为模糊核k;所述S3中KNET网络内,分别有两个编码器Enc和解码器Dec即特征提取模块;在经过特征提取模块,图像深度特征p被从低质图像LR中提取出;所述图像深度特征p是一个高维tensor向量,所述图像深度特征p的形状大小是(64,64,64);在经过重建模块后p被重塑为模糊核k;
S4、对S3中的模糊核k进行拉伸以及降维并和当前层特征信息f送入到DQ模块进行自注意力查询操作得到与当前层特征信息f契合的退化嵌入信息E;所述S4中二维信息模糊核k被拉伸为一维向量,并将其通过全连接层方式降维到1*128尺寸,得到退化信息F;所述DQ模块是退化嵌入查询模块,在DQ模块内,通过对退化信息F和当前特征信息f执行自注意力查询操作可以获得适合当前特征信息f的退化嵌入信息E;
S5、使用S2中SNET网络对S4中的退化嵌入信息E和当前层特征信息f完成融合并实现超分辨率重建;所述S5中退化嵌入信息E和特征信息f融合方法为:
首先将E输入到两个全连接层FC后并重塑为卷积核ω∈RC×1×3×3,然后将f与生成的卷积核ω进行深度卷积和1×1卷积产生F1;其次将E送入到另外两个全连接层生成通道系数v对f执行特征自适应调整不同通道权重占比,从而得到F2,最后将F1与F2相加得到输出Fout,将其输送到下一层作为输入,最后获得重建图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310846204.6A CN116843553B (zh) | 2023-07-11 | 2023-07-11 | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310846204.6A CN116843553B (zh) | 2023-07-11 | 2023-07-11 | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116843553A CN116843553A (zh) | 2023-10-03 |
CN116843553B true CN116843553B (zh) | 2024-01-02 |
Family
ID=88164921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310846204.6A Active CN116843553B (zh) | 2023-07-11 | 2023-07-11 | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116843553B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274067A (zh) * | 2023-11-22 | 2023-12-22 | 浙江优众新材料科技有限公司 | 一种基于强化学习的光场图像盲超分辨处理方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251297A (zh) * | 2016-07-19 | 2016-12-21 | 四川大学 | 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法 |
CN115131203A (zh) * | 2022-06-07 | 2022-09-30 | 西安电子科技大学 | Lr图像生成方法及基于不确定性的真实图像超分辨率方法 |
CN115829876A (zh) * | 2022-12-15 | 2023-03-21 | 南京邮电大学 | 一种基于交叉注意力机制的真实退化图像盲修复方法 |
CN115965559A (zh) * | 2023-01-30 | 2023-04-14 | 闽江学院 | 面向森林场景的一体化航拍图像增强方法 |
CN116152061A (zh) * | 2022-12-20 | 2023-05-23 | 无锡学院 | 一种基于模糊核估计的超分辨率重建方法 |
CN116188265A (zh) * | 2023-02-20 | 2023-05-30 | 桂林理工大学 | 一种基于真实退化的空间可变核感知盲超分重建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446476A (zh) * | 2019-09-04 | 2021-03-05 | 华为技术有限公司 | 神经网络模型压缩的方法、装置、存储介质和芯片 |
-
2023
- 2023-07-11 CN CN202310846204.6A patent/CN116843553B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251297A (zh) * | 2016-07-19 | 2016-12-21 | 四川大学 | 一种改进的基于多幅图像模糊核估计的盲超分辨率重建算法 |
CN115131203A (zh) * | 2022-06-07 | 2022-09-30 | 西安电子科技大学 | Lr图像生成方法及基于不确定性的真实图像超分辨率方法 |
CN115829876A (zh) * | 2022-12-15 | 2023-03-21 | 南京邮电大学 | 一种基于交叉注意力机制的真实退化图像盲修复方法 |
CN116152061A (zh) * | 2022-12-20 | 2023-05-23 | 无锡学院 | 一种基于模糊核估计的超分辨率重建方法 |
CN115965559A (zh) * | 2023-01-30 | 2023-04-14 | 闽江学院 | 面向森林场景的一体化航拍图像增强方法 |
CN116188265A (zh) * | 2023-02-20 | 2023-05-30 | 桂林理工大学 | 一种基于真实退化的空间可变核感知盲超分重建方法 |
Non-Patent Citations (2)
Title |
---|
Real-world remote sensing image super-resolution via a practicaldegradation model and a kernel-aware network;Runmin Dong el.;《ISPRS Journal of Photogrammetry and Remote Sensing》;全文 * |
基于L0范数稀疏表达的图像盲超分辨率重建;郑伟勇;李艳玮;周兵;;电光与控制(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116843553A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102703081B1 (ko) | 이미지 처리 시스템 | |
Varghese et al. | Video denoising based on a spatiotemporal Gaussian scale mixture model | |
CN110276726B (zh) | 一种基于多通道网络先验信息引导的图像去模糊方法 | |
CN111091503B (zh) | 基于深度学习的图像去失焦模糊方法 | |
CN109272452B (zh) | 小波域中基于集团结构子带共同学习超分辨率网络的方法 | |
CN112070670B (zh) | 全局-局部分离注意力机制的人脸超分辨率方法及系统 | |
CN107341776B (zh) | 基于稀疏编码与组合映射的单帧超分辨率重建方法 | |
WO2020206630A1 (zh) | 用于图像复原的神经网络及其训练与使用方法 | |
CN116843553B (zh) | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 | |
CN113808042B (zh) | 一种基于小波变换和生成对抗网络的sar图像去噪方法 | |
CN115345791A (zh) | 一种基于注意力机制残差网络模型的红外图像去模糊算法 | |
Charmouti et al. | A new denoising method for removing salt & pepper noise from image | |
CN116823642A (zh) | 一种图像运动模糊去除方法、装置、电子设备及介质 | |
CN113160056A (zh) | 一种基于深度学习的带噪图像超分辨率重建方法 | |
CN113362241B (zh) | 一种结合高低频分解和两级融合策略的深度图去噪方法 | |
CN112767264B (zh) | 基于图卷积神经网络的图像去模糊方法与系统 | |
CN109544477A (zh) | 基于自适应字典学习稀疏表示的图像去噪算法 | |
CN114764750A (zh) | 基于自适应一致性先验深度网络的图像去噪方法 | |
Jeevan et al. | An algorithm for wavelet thresholding based image denoising by representing images in hexagonal lattice | |
Wu et al. | Two-stage Progressive Residual Dense Attention Network for Image Denoising | |
US20240029203A1 (en) | Method for generating a high resolution image from a low resolution image by an arbitrary-scale blind super resolution model | |
Nguyen et al. | Acceleration and higher precision by discrete wavelet transform for single image super-resolution using convolutional neural networks | |
Tang et al. | Lightweight frequency-based attention network for image super-resolution | |
CN113487476B (zh) | 在线更新的图像盲超分辨率重建方法和装置 | |
Hu et al. | Learning to predict decomposed dynamic filters for single image motion deblurring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |