CN115965559A - 面向森林场景的一体化航拍图像增强方法 - Google Patents
面向森林场景的一体化航拍图像增强方法 Download PDFInfo
- Publication number
- CN115965559A CN115965559A CN202310081891.7A CN202310081891A CN115965559A CN 115965559 A CN115965559 A CN 115965559A CN 202310081891 A CN202310081891 A CN 202310081891A CN 115965559 A CN115965559 A CN 115965559A
- Authority
- CN
- China
- Prior art keywords
- image
- integrated
- feature
- enhancement
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000015556 catabolic process Effects 0.000 claims abstract description 19
- 238000006731 degradation reaction Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008447 perception Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种面向森林场景的一体化航拍图像增强方法,包括:获取森林场景航拍图像,并构造雾霾图像、运动模糊图像和压缩模糊图像,形成数据集,并划分为训练数据集和测试数据集;构建一体化图像增强网络模型,该模型首先进行下采样操作,然后通过多感受野增强块的多个感受野来适应图像中不同目标物体的大小,获得更有效的全局退化表示,最后利用全局跳跃连接,填补反卷积过程的空白内容,获取更纯粹的高分辨率信息;通过训练数据集和测试数据集对一体化图像增强网络模型进行训练和测试,得到训练好的模型;将待增强的退化图像输入训练好的一体化图像增强网络模型,输出增强后图像。该方法可以恢复因任何外界条件而退化的森林场景航拍图像。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种面向森林场景的一体化航拍图像增强方法。
背景技术
无人机航拍图像技术在森林防火监测中起着至关重要的作用。然而,航空拍摄的不确定性和不稳定性严重破坏了捕获图像的信息。例如,无人机采集前大气传输媒介的干扰,或采集时遥感平台的振动(Jia-wen,2011;Jiang et al.,2011),图像都将不可避免地变得模糊。此外,在网络传输图像的过程中,无人机采集到的图像又进一步遭受到了压缩模糊的视觉影响。因此,在现有硬件条件受限的情况下,如何对降质的航拍图像进行图像恢复显得尤为重要。近年来,特定任务的图像增强方法取得了巨大的成功,比如,图像去雾(Renet al.,2018;Qu et al.,2019;Song et al.,2022)、图像去噪(Zhang et al.,2017b;Ctet al.,2020)、图像去模糊(Nah et al.,2017;Gao et al.,2019)。尽管这些方法在特定的图像增强任务上都具有出色的性能,但它们并不是解决实际应用场景降质问题的通用方案,因为现实世界中捕获的图像通常具有多种退化类型。例如,无人机采集的森林场景图像不仅会受到雾霾天气的影响,而且也会因遥感器的方向或位置偏移而造成图像模糊。因此,将多种图像增强任务集成在一个框架中处理显然是更优的选择。
最近,(Li et al.,2017)开创性地提出了all-in-one的天气图像恢复方法,该方法利用多编码器-单解码器的体系结构处理多种恶劣天气下的图像增强任务,同时利用神经架构搜索优化编码器提取的特征,对比之前的单任务图像增强算法具有更好的性能。由于存在多个编码器,该网络在计算成本上仍然存在一定的损耗。Transformer最近在低级视觉恢复问题上具有强大的表现力,基于此,(Valanarasu et al.,2022)提出了一种端到端的多天气图像恢复模型Transweather,作为相同场景下多编码器的替代解决方案。此后,(Li et al.,2022)也提出了一种能够从未知的退化类型中恢复图像的统一框架,并且证明了其在受自然天气影响的图像增强领域的有效性。尽管上述网络在多个数据集上都验证了其通用性,然而其大量的参数和计算延迟却降低了模型本身的实用性。此外,航拍图像增强领域的所有代表性模型(Wang and Liu,2022)都是在单一任务中训练和使用。因此,多任务框架的研究仍然是该领域需要开辟的方向之一。
航拍图像增强研究的未来方向在于多任务模型,这也是迈向通用技术研究的关键一步。因此,有必要对面向森林场景的一体化航拍图像增强方法作进一步研究,一方面保持多尺度目标的高维细节特征,另一方面实现在不同任务和领域之间无缝转换的通用方法。
发明内容
本发明的目的在于提供一种面向森林场景的一体化航拍图像增强方法,该方法可以恢复因任何外界条件而退化的森林场景航拍图像。
为实现上述目的,本发明采用的技术方案是:一种面向森林场景的一体化航拍图像增强方法,包括:
获取清晰的森林场景航拍图像,并构造对应雾霾、运动模糊、压缩模糊三种图像退化问题的雾霾图像、运动模糊图像和压缩模糊图像,形成数据集,并划分为训练数据集和测试数据集;
构建一体化图像增强网络模型,所述一体化图像增强网络模型首先进行唯一的下采样操作,然后通过多感受野增强块的多个感受野来适应图像中不同目标物体的大小,获得一个更有效的全局退化表示,最后利用全局跳跃连接,填补反卷积过程的空白内容,获取更纯粹的高分辨率信息;通过训练数据集和测试数据集对构建的一体化图像增强网络模型进行训练和测试,得到训练好的一体化图像增强网络模型;
将待增强的退化图像输入训练好的一体化图像增强网络模型,输出增强后图像。
进一步地,所述一体化图像增强网络模型包括多感受野增强块,用于将不同比例的特征细节嵌入到最终结果中,所述多感受野增强块包含两个分支,较浅的分支用于保持输入特征的高分辨率细节,较深的分支使用不同大小的卷积核来提取多尺度特征,较深的分支包括两个部分:1)多尺度感知模块,用于提取不同尺度的特征,获取对应的中间特征图;2)特征聚合操作,用于合并中间特征图;所述多尺度感知模块将特征图分别输入到不同的分支中,每个分支采用不同大小的卷积核来提取出不同尺度的特征,最后将各个分支的结果连接起来,以在浅层网络中提高全局特征提取能力。
进一步地,所述多尺度感知模块用尽可能不同的感受野来提高不同区域的理解能力,以获取尽可能多的全局退化表示;所述多尺度感知模块并行使用若干个具有不同卷积核的卷积层,并使用跳跃连接来拼接模块的浅层特征和多尺度感知的中间特征图;为了更好地保留原始图像的高分辨率信息,所述多感受野增强块中所有中间特征图的分辨率与输入特征图保持一致;令Fin∈RH×W×Cin表示上一层输入的特征图;所述多感受野增强块首先将Fin送入一个双分支结构进行特征提取,较浅的分支通过通道级的升维操作学习到原图像更丰富的特征;即
Fs=Relu(ConvC1(Fin)) (1)
其中,Fs∈RH×W×C1,Convc1(·)为使用c1个卷积核的卷积层;但是,Fs的每个像素点只是对原图像局部信息的加权,因此,较深的分支采用四个具有不同卷积核的卷积层并行提取降维后的特征,以使网络在较低维度的特征空间上进行复杂的特征提取操作,进一步减少模型参数量;即
Fd=Relu(ConvC2(Fin)) (2)
fi=ωi(Fd)W×H×C2,i∈{1,2,3,4} (3)
其中,Fd∈RH×W×C2,ωi(·)表示生成第i种尺度感受野的多分支卷积运算;所述双分支结构保持相对独立的计算。
进一步地,所述特征聚合操作采用拼接的方式来聚合不同感受野的特征信息;此时特征通道内具有多种适应目标区域大小的局部上下文信息,通过卷积层进一步抽象聚合的信息,不同尺度的感受野之间进行软切换,充分构建全局上下文信息;为了把多感受野增模块的输入特征中更多的语义细节传递到网络训练中,采用残差连接来保证模块的有效性,输出一个带有高维细节和多尺度感知的特征图;将Fi定义为多感受野增强块输出的特征图,则输出的特征图定义为:
Fm=Cat(Cinvc1(Cat(fi)),Fs),i∈{1,2,3,4} (4)
式中,Cat(·)表示特征图在通道维度上的拼接操作;从而可以合并任意数量的特征图,使得多感受野增强块尽可能捕捉到更多不同尺度目标区域的细节。
进一步地,在多感受野增强块中,为了充分利用输入图像的高维特征,采用局部跳跃连接融合各个分支,以确保在空间维度上多尺度特征被完全集成到一个单元中;所述一体化图像增强网络模型包括多个多感受野增强块和全局跳跃连接,每个多感受野增强进一步包含融合高维细节特征和多感受野特征的局部跳跃连接,这样的残差结构能够允许网络在不损失浅层信息特征的同时训练深层次的模型;所述一体化图像增强网络模型采用全局-局部跳跃连接结构,以兼顾全局和局部的上下文信息交互,通过逐级的跨层跳跃连接,把对应尺度上的特征信息引入反卷积或上采样过程,以更大程度地保留输入图像中蕴含的高分辨率细节信息,进一步提高网络恢复图像细节的能力。
进一步地,所述一体化图像增强网络模型构建为一个简单的自动编码器,在编码器和解码器之间插入三个残差块,以增强网络对于不同目标区域的理解能力;首先使用两个卷积层将输入的模糊图像编码为特征图,并将该特征图作为编码器部分,其中仅最后一个卷积层对特征图进行1/2倍下采样;对称地,在解码器部分中使用一个步幅为1/2的反卷积层将特征图上采样到原始分辨率,然后使用三个卷积层将特征图转换回图像空间,以获得最终的模糊残差;所述多感受野增强块采用四个不同大小的卷积核自适应提取不同目标区域的细节特征,四个卷积核的尺寸分别设置为3x3、5x5、9x9、13x13;所述多感受野增强块中所有中间卷积层的通道数设置为32或128,并且在每个卷积层之后放置实例归一化层和Relu层;除了输入图像之外,将预先计算的边缘与输入模糊图像沿通道维度连接在一起,作为网络的最终输入。
进一步地,所述一体化图像增强网络模型将学习目标设置为清晰图像和输入模糊图像之间的残差:
L=|r^-r||2 (5)
其中,r^为模型预测的残差,r为模糊图像和清晰图像的残差。
与现有技术相比,本发明具有以下有益效果:提供了一种面向森林场景的一体化航拍图像增强方法,该方法构建了一个轻量级的一体化图像增强网络模型AIENet,可以在一个统一框架中快速解决无人机在采集图像时遭受到的不同阶段降质问题;为了在上采样时恢复原始图像中更丰富的细节信息,该方法同时利用全局和局部的跳跃连接,向输出图像中引入更多高分辨率的浅层特征;并且该模型巧妙地使用了多感受野融合技巧,通过多尺度感知同一特征图,从而弥补了图像全局特征捕获能力的不足,从而可以实现对于因任何外界条件而退化的航拍图像的有效恢复,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例中一体化图像增强网络模型的整体架构图。
图2是本发明实施例中多感受野增强块的结构图。
图3是本发明实施例中一体化图像增强网络模型在合成的雾霾数据集上与FFANet(Qin et al.,2020)和GCANet(Ren et al.,2018)的定性比较图。
图4是本发明实施例中一体化图像增强网络模型在合成的运动模糊数据集上与MIMO-UNet(Cho et al.,2021)和DMPHN(Zhang et al.,2019)的定性比较图。
图5是本发明实施例中一体化图像增强网络模型在合成的压缩模糊数据集上与SADNet(Chang et al.,2020)和MPRNet(Jiang et al.,2021)的定性比较图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供了一种面向森林场景的一体化航拍图像增强方法,包括:
1)获取清晰的森林场景航拍图像,并构造对应雾霾、运动模糊、压缩模糊三种图像退化问题的雾霾图像、运动模糊图像和压缩模糊图像,形成数据集,并划分为训练数据集和测试数据集。
在本实施例中,对森林场景航拍图像,通过调整散射系数合成雾霾图像,使用不同的模糊核和角度合成运动模糊图像,通过调整压缩率合成压缩模糊图像。
2)构建基于多感受野增强块(MRF Enhancement Block)的一体化图像增强网络模型(AIE-Net),其架构如图1所示。所述一体化图像增强网络模型可以在速度和精度之间取得平衡。对于给定的一张退化图像,所述一体化图像增强网络模型首先进行唯一的下采样操作,然后通过多感受野增强块的多个感受野来适应图像中不同目标物体的大小,获得一个更有效的全局退化表示,最后利用全局跳跃连接,填补反卷积过程的空白内容,获取更纯粹的高分辨率信息;通过训练数据集和测试数据集对构建的一体化图像增强网络模型进行训练和测试,得到训练好的一体化图像增强网络模型。
3)将待增强的退化图像输入训练好的一体化图像增强网络模型,输出增强后图像。
在下文中,我们将进一步详细介绍多感受野增强块,它构成了AIENet的主体,然后介绍利用跳跃结构设计的整体模型架构,最后介绍模型的目标函数。
1、多感受野增强块
多感受野增强块是具有多尺度区域感知的即插即用模块,可以安装在现有网络的任何部分中。多感受野增强块能够确保将不同比例的特征细节嵌入到最终结果中。如图2所示,多感受野增强块包含两个分支,较浅的分支用于保持输入特征的高分辨率细节,较深的分支使用不同大小的卷积核来提取多尺度特征。较深的分支可以分解为两个部分:1)多尺度感知模块,用于提取不同尺度的特征,获取对应的中间特征图;2)特征聚合操作,用于合并中间特征图。在模块内部,多尺度感知模块将特征图分别输入到不同的分支中,每个分支采用不同大小的卷积核来提取出不同尺度的特征,最后将各个分支的结果连接起来,以在浅层网络中提高全局特征提取能力。我们在下面将详细阐述这些过程。多感受野增强块的实现流程图如图2所示。
1.1多尺度感知模块
卷积神经网络中的感受野代表了网络对输入图像的可视范围。由于只有感受野内的输入像素参与计算,感受野的大小可以用于衡量模型利用空间信息的能力。但是感受野的尺寸并非越大越好,对于大的目标,较大的感受野可以更好的综合图像中关于目标的上下文信息,恢复其高分辨率细节。而对于小目标而言,大的感受野容易引入过多的伪影,从而干扰图像恢复的过程。特别是具有多角度观测范围的航拍图像,目标区域的比例总是随着无人机拍摄的位置变化而扩大或缩小。单一的感受野往往不能应对航拍图像中复杂的尺度结构。为此,(Ren et al.,2016;Liu et al.,2019)提出了多尺度特征提取的解决方案。多尺度堆叠虽然可以让网络在感受野上具有更大的表达空间,但是在模型参数不进行更新的推理阶段,网络的感受野是固定的。这是模型根据训练集的数据分布计算出的统计意义上的感受野。对于每一个具体的图像而言,则很有可能是次优的。此外,通过这种串联的方式提取中间特征,可能会发生梯度消失,并且在较早的迭代中生成的信号会被破坏。
为了有效解决上述问题,本方法通过不同的分支来生成中间特征图。多尺度感知模块的目标是用尽可能不同的感受野来提高不同区域的理解能力,以获取尽可能多的全局退化表示。当然也可以将多尺度感知模块设计得非常复杂,最大程度提高模型推理能力。但是,当我们简单地并行使用几个具有不同卷积核的卷积层,并使用跳跃连接来拼接模块的浅层特征和这些多尺度感知的特征图时,已经能直观地看到多尺度感知下特征提取的效率。具体而言,为了更好地保留原始图像的高分辨率信息,多感受野增强块中所有中间特征图的分辨率与输入特征图保持一致。令Fin∈RH×W×Cin表示上一层输入的特征图。多感受野增强块首先将Fin送入一个双分支结构进行特征提取,较浅的分支通过通道级的升维操作学习到原图像更丰富的特征;即
Fs=Relu(ConvC1(Fin)) (1)
其中,Fs∈RH×W×C1,Convc1(·)为使用c1个卷积核的卷积层;但是,Fs的每个像素点只是对原图像局部信息的加权,因此,较深的分支采用四个具有不同卷积核的卷积层并行提取降维后的特征,以使网络在较低维度的特征空间上进行复杂的特征提取操作,进一步减少模型参数量;即
Fd=Relu(ConvC2(Fin)) (2)
fi=ωi(Fd)W×H×C2,i∈{1,2,3,4} (3)
其中,Fd∈RH×W×C2,ωi(·)表示生成第i种尺度感受野的多分支卷积运算;所述双分支结构保持相对独立的计算。“深网络+多尺度特征提取”和“浅网络+高维特征提取”的组合兼顾了浅层特征丰富的细节和多尺度特征的抽象语义。同时能够较好地控制计算开销,以保证算法的实时性。
1.2特征聚合操作
当输入特征图经过多个感受野的特征感知后,这些不同尺度的感受野间已经构建了尽可能多的上下文信息。我们观察到对于图像增强这样的空间任务,需要并行多尺度能力来处理感官上的大小目标。在传统的处理方法中,主要有两种方法合并不同的特征图:拼接和元素级相加。元素级相加要求特征图的通道相同,这意味着必须将特征图转换为相同的通道。由于这一要求限制了融合特征图的灵活性,并且直接对所有特征图进行求和容易去除生成的图像细节,因此本方法的特征聚合操作采用拼接的方式来聚合不同感受野的特征信息。此时特征通道内具有多种适应目标区域大小的局部上下文信息,通过卷积层可以进一步抽象聚合的信息,不同尺度的感受野之间将进行软切换,充分构建全局上下文信息。
为了把多感受野增模块的输入特征中更多的语义细节传递到网络训练中,采用残差连接来保证模块的有效性,输出一个带有高维细节和多尺度感知的特征图。将Fi定义为ith多感受野增强块输出的特征图,则输出的特征图定义为:
Fm=Cat(Convc1(Cat(fi)),Fs),i∈{1,2,3,4} (4)
式中,Cat(·)表示特征图在通道维度上的拼接操作;从而可以合并任意数量的特征图,使得多感受野增强块尽可能捕捉到更多不同尺度目标区域的细节。
2、全局-局部跳跃连接
在多感受野增强块中,为了充分利用输入图像的高维特征,采用局部跳跃连接融合各个分支,以确保在空间维度上多尺度特征被完全集成到一个单元中。但是,对残差块的多次叠加不仅会增加网络深度,使得相应特征图的感受野越来越大,保留的细节信息越来越少,而且也会降低模型的训练速度,不利于遥感平台的实际应用部署。最近,残差网络结构(Kim et al.,2016;Dong et al.,2020)在低级任务到高级任务的计算机视觉问题中表现出了出色的性能,其最初是由(He et al.,2016)在图像识别中提出。其中的跳跃连接旨在将语义信息更丰富的高层卷积特征和低层卷积特征进行融合。对于图像增强这样的空间特征重建任务,高层卷积所保留的丰富的细节信息是非常有利用价值的。
尽管(Liu andYang,2018;Gao et al.,2019)成功地将跳跃连接应用于图像增强问题,但反卷积或上采样过程需要填补很多的空白内容,从无到有的生成过程缺乏足够多的辅助信息。本方法设计的全局-局部跳跃连接结构能够兼顾全局和局部的上下文信息交互,凭借着逐级的跨层跳跃连接,把对应尺度上的特征信息引入反卷积或上采样过程,可以更大程度地保留输入图像中蕴含的高分辨率细节信息,进一步提高网络恢复图像细节的能力。如图1所示。一体化图像增强网络模型包含了M个多感受野增强块和全局跳跃连接。每个增强块进一步包含融合高维细节特征和多感受野特征的局部跳跃连接。这样的残差结构能够允许网络在不损失浅层信息特征的同时训练深层次的模型。
3、网络结构和损失函数
在本方法中,一体化图像增强网络模型的整体网络结构设计为一个简单的自动编码器,在编码器和解码器之间插入三个残差块,以增强网络对于不同目标区域的理解能力。具体地,首先使用两个卷积层将输入的模糊图像编码为特征图,并将该特征图作为编码器部分,其中仅最后一个卷积层对特征图进行1/2倍下采样。对称地,在解码器部分中使用一个步幅为1/2的反卷积层将特征图上采样到原始分辨率,随后使用三个卷积层将特征图转换回图像空间,以获得最终的模糊残差。对于中间残差块,我们将其称为“多感受野增强块”,因为其采用了四个不同大小的卷积核自适应提取不同目标区域的细节特征。四个卷积核的尺寸分别设置为3x3、5x5、9x9、13x13。为了在性能和运行时间之间获得良好的权衡,除了高维细节特征提取之外,我们将增强块中所有中间卷积层的通道数设置为32或128,并且在每个卷积层之后放置实例归一化层(Ulyanov et al.,2016)和Relu层。(Fan et al.,2017,2018)已经证明,除了输入图像之外,预先计算输入图像的边缘并将其作为辅助信息输入网络对网络学习非常有帮助。因此,默认情况下,我们也采用了这一想法,并将预先计算的边缘与输入模糊图像沿通道维度连接在一起,作为网络的最终输入。
大多数基于深度学习的图像增强方法(Li et al.,2022;Ren et al.,2016;Caiet al.,2016)基本采用简单的均方误差损失。遵循相同的策略,我们也使用这种简单的损失。具体地,本方法将一体化图像增强网络模型的学习目标设置为清晰图像和输入模糊图像之间的残差:
L=|r^-r||2 (5)
其中,r^为模型预测的残差,r为模糊图像和清晰图像的残差。
r(x,y)=h(x,y)-g(x,y) (6)
即使仅具有上述唯一的简单损失,本方法仍然可以实现先进的性能。
4、实验
本实施例对三种具有挑战性的航拍图像增强任务(即去雾,去运动模糊和去压缩模糊),与最先进的方法进行了定性和定量的比较。我们首先介绍数据集的来源并给出实验设置,然后展示了与15个先进方法的比较结果,最后通过消融实验证明了所提出的模块的有效性。
4.1数据集
为了评估本方法是否能获得最接近其相应的原始图像的结果,在本实施例中构造了一个航拍图像模糊数据集。原始图像是一个由瞭望塔和无人机中的视频监控摄像头拍摄的视频帧组成的公共数据集。为了适应真实情况下无人机监测森林的应用场景,我们通过(Jung et al.,2020)合成模糊图像。具体的,对于2007张原始图像,我们针对不同的退化类型分别调整参数,即通过调整散射系数合成雾霾图像,使用不同的模糊核和角度合成运动模糊图像以及调整压缩率合成压缩模糊图像。最终为这三个任务分别合成了4014张模糊图像,其中,2809张模糊图像用于全监督训练,1205张模糊图像用于测试。由于我们在一体化图像增强任务中使用了三种退化的混合物,因此本发明的一体化图像增强框架可以有效地为三种退化类型中的任何一种生成接近地面真实的图像。
表1与最先进的图像去雾、图像去运动模糊和图像去压缩模糊方法的定量比较
表1展示了我们针对每个任务单独评估的特定于模糊的模型的比较。表1的最后一行列出了我们采用一体化训练策略的图像增强模型AIENet在三个任务的测试集上的评价指标。最优值和次优值分别用粗体和下划线表示。
4.2实验设置
我们使用Pytorch框架来实现所提出的方法,并使用NVIDIA RTX 3080Ti GPU来优化训练速度。对于每个任务,我们将本方法分别与最先进的方法进行比较。然后通过进一步综合训练来证明AIENet的通用性。我们对这四项任务使用几乎相同的训练策略。默认情况下,使用Adam优化器(Kingma and Ba,2014)对整个网络进行60个周期的训练。默认初始学习率设置为0.001,每40个周期衰减0.1。
4.3与最先进的方法比较
为了进行综合比较,我们在特定任务上分别与5种最先进的方法进行比较。具体来说,我们在去雾任务上与(Ren et al.,2018;Qin et al.,2020;Li et al.,2017;Dong etal.,2020;Li et al.,2021)进行比较。去运动模糊的方法包含(Tao et al.,2018;Kupynet al.,2019;Nah et al.,2017;Zhang et al.,2019;Cho et al.,2021)。去压缩模糊的基线为(Dong et al.,2015;Zamir et al.,2021;Chang et al.,2020;Jiang et al.,2021;Chen et al.,2021)。此外,为了证明我们的一体化框架的有效性,我们也分别在三种任务比较了以一体化方式训练的AIENet。换句话说,一体化方式下的AIENet是在所有数据集的集合上训练的模型,该数据集由具有三种不同退化类型的降质图像(即雾霾,运动模糊和压缩模糊)组成,并在单个任务的测试集上进行测试。
本实施例通过常规的峰值信噪比(PSNR)(Huynh-Thu and Ghanbari,2008)和结构相似性(SSIM)(Wang et al.,2004)指标,对地面真相和恢复图像进行定量评估。并且我们根据先前的惯例(Valanarasu et al.,2022;Zamiret al.,2021),基于YCbCr色彩空间的亮度通道Y评估PSNR和SSIM。
4.3.1特定任务的图像增强结果
表1显示了我们的定量评估,表格的上半部分包含特定任务的图像增强的结果。我们的模型在所有任务上的PSNR均优于比较的现有方法。对于图像去雾任务,本文提出的方法具有35.69的最佳PSNR。请注意,在我们的实验中,我们发现GCANet是性能最佳的去雾网络,并且在公平的比较中本文的方法也实现了5.37%的精度提升。此外,除了基于可视误差的快速对比结果,我们在接近人类视觉系统(HVS)的客观评价SSIM上也获得了微小的胜利。在去运动模糊的实验中,我们的模型在PSNR上优于相比的所有去模糊网络。值得注意的是,在结构特征恢复的对比中,我们的模型仅位于第二优。但相比在本实验中的去运动模糊的最佳网络MIMO-UNet,我们的模型参数仅有10.62MB,而MIMO-UNet网络具有25.97MB的参数量。
图3展示了森林的航拍图像去雾的可视化结果,并将我们的方法与FFANet和GCANet进行了比较。可以看出,FFANet无法完全去除雾霾的影响,且其恢复的图像带有伪影。虽然GCANet在图像恢复上似乎与我们的模型具有相差不大的视觉质量,但我们的AIENet在细节的增强上显示出了更好的恢复质量(在红色和蓝色框中放大)。
图4可视化了去运动模糊的样本,证明了AIENet在视觉质量上优于MIMO-UNet和DMPHN。特别地,先进的方法在恢复图像时仍然残留明显的条纹伪影,而我们的模型可以有效地恢复图像的细节(例如,图4的第二个实例)。图5展示了去除图像压缩模糊的例子。尽管在定量对比实验中,本文提出的模型没有表现出最优的性能。但是在可视化分析中,本文提出的模型AIENet在去除压缩模糊的任务上仍然具有与先进方法等同的令人愉悦的视觉效果。
4.3.2一体化图像增强结果
表1的下半部分提供了一体化图像增强的定量评估。本方法在所有三个测试集上均产生了出色的图像质量和地面真实相似性。值得注意的是,对于图像去雾任务,本方法训练的一体化图像增强模型仅次于在特定任务上训练的最先进模型GCANet,PSNR/SSIM指标达到了32.50dB/0.9501。通常,当PSNR值达到28dB以上时,图像质量的差异不太显著。因此,对计算成本和运行时间敏感的环境中,我们的模型就显示出了其出色表现和应用价值。
4.4消融实验
在本节中,我们对网络进行了有无重要组件的消融分析,以验证模型中每个成分的贡献。具体来说,我们专注于两个主要组件:全局-局部跳跃连接以及多感受野增强块。相应地,分别在图像去雾任务和一体化图像增强任务上评估了四种不同的网络配置,如表2所示。在这些实验中,最终集合所有组件的网络AIENet具有最好的性能。
全局-局部跳跃连接的影响。跳跃连接能够为反卷积或上采样过程提供更多原始图像的高分辨率细节。因此,为了证明我们所提出的全局-局部跳跃连接在结构中的影响,我们从原始模型中去除了全局跳跃连接和局部跳跃连接。具体来说,我们将多感受野增强块中的浅层分支移除,仅输出深层分支提取的多尺度特征。同时,由于双分支采用通道级的拼接方式来聚合特征,因此对最后一个增强块的输出逐级上采样时,也比完整模型少一层卷积层。如表2所示。当全局跳跃连接和局部跳跃连接都被移除时,模型的性能在特定任务图像增强和一体化图像增强上都有所影响。添加这一组件可以将模型在特定的雾霾图像增强上的性能从32.36dB/0.9290提升到35.89dB/0.9642。这表明跳跃连接对图像增强任务至关重要。
表2
表2对具有不同训练配置的模型进行详细的消融分析,粗体表明本发明的模型具有最佳的PSNR/SSIM。
多感受野增强块的有效性。为了进一步验证所提出的增强块对模型的贡献,我们对比了具有不同数量增强块的模型效果。如表2所示。值得注意的是,当增强块数量n=3时,模型并没有提升过多的性能。相比n=2时在PSNR和SSIM上分别提升了1.44dB和0.01。越多的增强块堆叠所带来的增益与模型的参数量增长呈现不对等关系。这项消融实验研究同时也表明,模型的性能不是来自更深层次的网络,而是来自更高效的体系结构。
本发明提出了一种面向森林场景的一体化航拍图像增强方法,以改善森林场景下航拍图像的视觉效果。本方法专注于构建一个统一的框架,它可以消除航拍图像中出现的任何降质问题。在此基础上,本发明还提出了一种新的多感受野增强块,它能够适应航拍图像中目标区域的分布差异,从而帮助网络更有效地恢复图像的高分辨率细节。在基准数据集上,本发明方法在特定的图像恢复任务和一体化图像恢复任务上都展现了最先进的性能。值得注意的是,本方法还引入了轻量级的图像增强功能,因为该体系结构基于简单的骨干网络,以较少的运行时间进行图像恢复,扩展了网络的实用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (7)
1.一种面向森林场景的一体化航拍图像增强方法,其特征在于,包括:
获取清晰的森林场景航拍图像,并构造对应雾霾、运动模糊、压缩模糊三种图像退化问题的雾霾图像、运动模糊图像和压缩模糊图像,形成数据集,并划分为训练数据集和测试数据集;
构建一体化图像增强网络模型,所述一体化图像增强网络模型首先进行唯一的下采样操作,然后通过多感受野增强块的多个感受野来适应图像中不同目标物体的大小,获得一个更有效的全局退化表示,最后利用全局跳跃连接,填补反卷积过程的空白内容,获取更纯粹的高分辨率信息;通过训练数据集和测试数据集对构建的一体化图像增强网络模型进行训练和测试,得到训练好的一体化图像增强网络模型;
将待增强的退化图像输入训练好的一体化图像增强网络模型,输出增强后图像。
2.根据权利要求1所述的面向森林场景的一体化航拍图像增强方法,其特征在于,所述一体化图像增强网络模型包括多感受野增强块,用于将不同比例的特征细节嵌入到最终结果中,所述多感受野增强块包含两个分支,较浅的分支用于保持输入特征的高分辨率细节,较深的分支使用不同大小的卷积核来提取多尺度特征,较深的分支包括两个部分:1)多尺度感知模块,用于提取不同尺度的特征,获取对应的中间特征图;2)特征聚合操作,用于合并中间特征图;所述多尺度感知模块将特征图分别输入到不同的分支中,每个分支采用不同大小的卷积核来提取出不同尺度的特征,最后将各个分支的结果连接起来,以在浅层网络中提高全局特征提取能力。
3.根据权利要求2所述的面向森林场景的一体化航拍图像增强方法,其特征在于,所述多尺度感知模块用尽可能不同的感受野来提高不同区域的理解能力,以获取尽可能多的全局退化表示;所述多尺度感知模块并行使用若干个具有不同卷积核的卷积层,并使用跳跃连接来拼接模块的浅层特征和多尺度感知的中间特征图;为了更好地保留原始图像的高分辨率信息,所述多感受野增强块中所有中间特征图的分辨率与输入特征图保持一致;令Fin∈RH×W×Cin表示上一层输入的特征图;所述多感受野增强块首先将Fin送入一个双分支结构进行特征提取,较浅的分支通过通道级的升维操作学习到原图像更丰富的特征;即
Fs=Relu(ConvC1(Fin)) (1)
其中,Fs∈RH×W×C1,Convc1(·)为使用c1个卷积核的卷积层;但是,Fs的每个像素点只是对原图像局部信息的加权,因此,较深的分支采用四个具有不同卷积核的卷积层并行提取降维后的特征,以使网络在较低维度的特征空间上进行复杂的特征提取操作,进一步减少模型参数量;即
Fd=Relu(ConvC2(Fin)) (2)
fi=ωi(Fd)W×H×C2,i∈{1,2,3,4} (3)
其中,Fd∈RH×W×C2,ωi(·)表示生成第i种尺度感受野的多分支卷积运算;所述双分支结构保持相对独立的计算。
4.根据权利要求3所述的面向森林场景的一体化航拍图像增强方法,其特征在于,所述特征聚合操作采用拼接的方式来聚合不同感受野的特征信息;此时特征通道内具有多种适应目标区域大小的局部上下文信息,通过卷积层进一步抽象聚合的信息,不同尺度的感受野之间进行软切换,充分构建全局上下文信息;为了把多感受野增模块的输入特征中更多的语义细节传递到网络训练中,采用残差连接来保证模块的有效性,输出一个带有高维细节和多尺度感知的特征图;将Fi定义为多感受野增强块输出的特征图,则输出的特征图定义为:
Fm=Cat(Convc1(Cat(fi)),Fs),i∈{1,2,3,4} (4)
式中,Cat(·)表示特征图在通道维度上的拼接操作;从而可以合并任意数量的特征图,使得多感受野增强块尽可能捕捉到更多不同尺度目标区域的细节。
5.根据权利要求4所述的面向森林场景的一体化航拍图像增强方法,其特征在于,在多感受野增强块中,为了充分利用输入图像的高维特征,采用局部跳跃连接融合各个分支,以确保在空间维度上多尺度特征被完全集成到一个单元中;所述一体化图像增强网络模型包括多个多感受野增强块和全局跳跃连接,每个多感受野增强进一步包含融合高维细节特征和多感受野特征的局部跳跃连接,这样的残差结构能够允许网络在不损失浅层信息特征的同时训练深层次的模型;所述一体化图像增强网络模型采用全局-局部跳跃连接结构,以兼顾全局和局部的上下文信息交互,通过逐级的跨层跳跃连接,把对应尺度上的特征信息引入反卷积或上采样过程,以更大程度地保留输入图像中蕴含的高分辨率细节信息,进一步提高网络恢复图像细节的能力。
6.根据权利要求5所述的面向森林场景的一体化航拍图像增强方法,其特征在于,所述一体化图像增强网络模型构建为一个简单的自动编码器,在编码器和解码器之间插入三个残差块,以增强网络对于不同目标区域的理解能力;首先使用两个卷积层将输入的模糊图像编码为特征图,并将该特征图作为编码器部分,其中仅最后一个卷积层对特征图进行1/2倍下采样;对称地,在解码器部分中使用一个步幅为1/2的反卷积层将特征图上采样到原始分辨率,然后使用三个卷积层将特征图转换回图像空间,以获得最终的模糊残差;所述多感受野增强块采用四个不同大小的卷积核自适应提取不同目标区域的细节特征,四个卷积核的尺寸分别设置为3x3、5x5、9x9、13x13;所述多感受野增强块中所有中间卷积层的通道数设置为32或128,并且在每个卷积层之后放置实例归一化层和Relu层;除了输入图像之外,将预先计算的边缘与输入模糊图像沿通道维度连接在一起,作为网络的最终输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081891.7A CN115965559A (zh) | 2023-01-30 | 2023-01-30 | 面向森林场景的一体化航拍图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081891.7A CN115965559A (zh) | 2023-01-30 | 2023-01-30 | 面向森林场景的一体化航拍图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115965559A true CN115965559A (zh) | 2023-04-14 |
Family
ID=87352839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310081891.7A Pending CN115965559A (zh) | 2023-01-30 | 2023-01-30 | 面向森林场景的一体化航拍图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965559A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843553A (zh) * | 2023-07-11 | 2023-10-03 | 太原理工大学 | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 |
CN117911908A (zh) * | 2024-03-20 | 2024-04-19 | 湖北经济学院 | 一种无人机航拍图像的增强处理方法及系统 |
-
2023
- 2023-01-30 CN CN202310081891.7A patent/CN115965559A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843553A (zh) * | 2023-07-11 | 2023-10-03 | 太原理工大学 | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 |
CN116843553B (zh) * | 2023-07-11 | 2024-01-02 | 太原理工大学 | 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法 |
CN117911908A (zh) * | 2024-03-20 | 2024-04-19 | 湖北经济学院 | 一种无人机航拍图像的增强处理方法及系统 |
CN117911908B (zh) * | 2024-03-20 | 2024-05-28 | 湖北经济学院 | 一种无人机航拍图像的增强处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539879B (zh) | 基于深度学习的视频盲去噪方法及装置 | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
US11928792B2 (en) | Fusion network-based method for image super-resolution and non-uniform motion deblurring | |
CN113284054B (zh) | 图像增强方法以及图像增强装置 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN115965559A (zh) | 面向森林场景的一体化航拍图像增强方法 | |
CN112070690B (zh) | 基于卷积神经网络双分支注意力生成的单幅图像去雨方法 | |
CN112164011B (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN112581379A (zh) | 图像增强方法以及装置 | |
CN111091503A (zh) | 基于深度学习的图像去失焦模糊方法 | |
CN113673590A (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN111951195A (zh) | 图像增强方法及装置 | |
JP7543080B2 (ja) | 学習済みモデル及びデータ処理装置 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN114723630A (zh) | 基于空洞双残差多尺度深度网络的图像去模糊方法及系统 | |
CN115131256A (zh) | 图像处理模型、图像处理模型的训练方法及装置 | |
CN114549361B (zh) | 一种基于改进U-Net模型的去图像运动模糊方法 | |
CN113724134A (zh) | 一种基于残差蒸馏网络的航拍图像盲超分辨率重建方法 | |
CN115601657A (zh) | 一种应用于恶劣天气下舰船目标检测与识别的方法 | |
CN117333398A (zh) | 一种基于自监督的多尺度图像去噪方法及装置 | |
CN115880177A (zh) | 聚合上下文和增强细节的全分辨率低照度图像增强方法 | |
CN117994167A (zh) | 融合并行多卷积注意力的扩散模型去雾方法 | |
CN113487530A (zh) | 一种基于深度学习的红外与可见光融合成像方法 | |
CN117058019A (zh) | 一种基于金字塔增强网络的低光照下目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |