CN114022371B - 基于空间和通道注意力残差网络的去雾装置及其去雾方法 - Google Patents

基于空间和通道注意力残差网络的去雾装置及其去雾方法 Download PDF

Info

Publication number
CN114022371B
CN114022371B CN202111234354.9A CN202111234354A CN114022371B CN 114022371 B CN114022371 B CN 114022371B CN 202111234354 A CN202111234354 A CN 202111234354A CN 114022371 B CN114022371 B CN 114022371B
Authority
CN
China
Prior art keywords
feature map
feature
sequence
calculation module
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111234354.9A
Other languages
English (en)
Other versions
CN114022371A (zh
Inventor
姜鑫
朱明�
郝志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Original Assignee
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Institute of Optics Fine Mechanics and Physics of CAS filed Critical Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority to CN202111234354.9A priority Critical patent/CN114022371B/zh
Publication of CN114022371A publication Critical patent/CN114022371A/zh
Application granted granted Critical
Publication of CN114022371B publication Critical patent/CN114022371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于空间和通道注意力残差网络的去雾装置及其去雾方法;其中去雾装置包括:主计算模块、循环模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块;去雾装置对输入图像进行去雾,并输出去雾图像;输入图像和去雾图像都是由RGB三维通道组成的彩色图像;本发明不需要估计任何大气散射模型参数,通过分析不同空间像素、不同特征通道间的相互关系,自适应地为不同空间像素、不同特征通道分配权重值,使得神经网络更着重于分析和处理价值和信息量更大的空间像素和特征通道,进而有效地提升深度神经网络的去雾能力;本发明复原出的图像细节清晰,色彩丰富。

Description

基于空间和通道注意力残差网络的去雾装置及其去雾方法
技术领域
本发明涉及图像去雾领域,特别涉及一种基于空间和通道注意力残差网络的去雾装置及其去雾方法。
背景技术
近年来,雾霾天气出现的越来越频繁,严重地影响了我们日常的生产与生活。雾霾的出现是一种自然现象,主要由大气中的粒子吸收散射光引起。在这种天气条件下,光学设备无法获取有效的场景信息,成像质量较差,严重限制了后续在视频监控、自动驾驶、卫星遥感等领域中的应用。因此,如何在不丢失细节或引入额外干扰信息的前提下,有效地去除图像中的雾霾,尽可能地恢复出图像的色彩和对比度,具有重要的研究意义。
图像去雾是一个极具挑战性的研究课题,引起了学术界和工业界的广泛关注。图像去雾是指将雾霾天气下拍摄的有雾图像恢复出清晰自然、细节可辨、色彩丰富的无雾图像的方法。大多数图像去雾方法都严重依赖于大气散射模型,通过估算有雾图像的透射图和大气环境光来线性拟合出无雾图像。这类方法往往在某些特定的场景下有效,而在更为复杂的场景下无法有效地去除雾霾,因为它们面临着如下技术难点:
1、现实环境中,雾的成因错综复杂,通过一个简单的线性数学公式来对其进行描述是不合理的;
2、很多方法从有雾图像中提取的特征过于单一,无法覆盖复杂场景;
3、不同的大气散射模型中间参数在参数优化时相互影响,难以实现所有参数的全局最优,参数的不准确估计进一步降低了去雾的性能。
此外,很多基于深度神经网络的去雾方法在推理计算过程中,对不同空间像素、不同特征通道施以同样的权重值。但雾气在一幅图像中的空间分布是不均匀的,同时不同特征通道提取的图像特征也是不同的,因此不同雾气浓度的空间区域以及不同特征通道需要给予不同的注意力或权重值。
发明内容
本发明的目的是为了克服现有技术的缺陷,提出了一种基于空间和通道注意力残差网络的去雾装置及其去雾方法。
为实现上述目的,本发明采用以下具体技术方案:
本发明提出的一种基于空间和通道注意力残差网络的去雾装置,用于对输入图像进行去雾,并输出去雾图像,输入图像和去雾图像均为由RGB三维通道组成的彩色图像;包括:主计算模块、循环模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块;
主计算模块用于根据输入图像分别计算出特征图,特征图的信息包含输入图像的空间注意力残差以及通道注意力残差;
第一计算模块用于对输入图像进行Conv-BN-ReLU序列操作,并将输入图像的RGB三维通道扩展到N维特征通道;
第二计算模块用于对输入图像进行Conv-BN-ReLU序列操作;
第三计算模块用于对输入图像进行Conv-BN-ReLU序列操作,并将输入图像的特征通道降为RGB三维通道;
第四计算模块用于对输入图像进行Conv-Tanh序列操作;
循环模块用于合并图像并将合并后的图像输入到主计算模块和第二计算模块中;
主计算模块、第二计算模块和第四计算模块均不改变图像的特征通道数目;
输入图像输入到第一计算模块中,第一计算模块将输入图像的RGB三维通道扩展到N维特征通道,得到第一特征图,然后将第一特征图输入至主计算模块中,主计算模块根据第一特征图计算得到包含N维特征通道的第二特征图,然后循环模块和第二计算模块根据第一特征图,对第二特征图进行X次循环计算,得到包含2XN维特征通道的多维特征图,第三计算模块将多维特征图降为只有RGB三维通道的三维特征图,并输入到第四计算模块,第四计算模块将根据三维特征图计算得到只有RGB三维通道的去雾图。
优选地,循环计算的流程如下:
循环模块进行第一次工作,即将第一特征图和第二特征图进行维度联合,得到包含2N维特征通道的第三特征图,并将第三特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第三特征图进行计算,计算完成后,循环模块进行第二次工作,即将第一特征图、第二特征图和第三特征图进行维度联合,得到包含4N维特征通道的第四特征图,并将第四特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第四特征图进行计算;
循环模块每进行第一次工作,均将前面计算得到的所有的特征图进行维度联合,并将得到的特征图依次输入到第二计算模块和主计算模块中进行计算。
优选地,循环计算的次数X≥3。
优选地,主计算模块包括:第一残差组、第二残差组、长跳跃连接、第一序列以及第二序列;
第一序列用于对输入图像进行Conv-BN-ReLU序列操作;
第二序列包括Conv运算序列和像素合并序列;Conv运算序列和像素合并序列串联连接;
第一残差组、第一序列、第二残差组以及第二序列依次串联连接;长跳跃连接的一端连接在主计算模块的输入端,另一端与像素合并序列连接;
第一残差组和第二残差组内部结构相同;每个残差组分别包含空间注意力单元、通道注意力单元、短跳跃连接、第一Conv序列、第二Conv序列、特征维度联合单元以及像素合并单元;
第一Conv序列和第二Conv序列均用于对输入图像进行Conv-BN-ReLU序列操作;
第一Conv序列分别与空间注意力单元和通道注意力单元连接,空间注意力单元和通道注意力单元共同与特征维度联合单元连接,特征维度联合单元、第二Conv序列连接以及像素合并单元依次串联连接;短跳跃连接一端连接在残差组的输入端,另一端与像素合并单元连接;
当一张包含N维特征通道的特征图a输入到主计算模块中时:
首先特征图a输入到第一残差组中,第一Conv序列对特征图a进行Conv-BN-ReLU序列操作,且不改变特征通道的数目,生成特征图b,并将特征图b分别输入到空间注意力单元和通道注意力单元中,空间注意力单元和通道注意力单元均不改变特征图b的特征通道的数目,计算后分别输出特征图c和特征图d,并分别将特征图c和特征图d输入到特征维度联合单元中,特征维度联合单元将特征图c和特征图d进行维度联合,合成一个2N维度的特征图,并通过第二Conv序列进行降维,输出一个N维度的特征图e,像素合并单元将特征图e与特征图a逐像素相加,计算并输出N维度的特征图f;
然后将特征图f输入到第一序列中,第一序列对特征图f进行Conv-BN-ReLU序列操作,且不改变特征通道的数目,得到特征图g,并将特征图g输出至第二残差组中,第二残差组中的操作流程与第一残差组一致,输出N维度的特征图h;
最后,第二序列中的Conv运算序列对特征图h进行Conv-BN-ReLU序列操作,得到N维度的特征图i,通过长跳跃连接,特征图a从主计算模块的输入端输入到像素合并序列中,像素合并序列将特征图i与特征图a逐像素相加,最终输出一个N维度的特征图,主计算模块至此完成计算。
优选地,空间注意力单元对图像的特征层分别进行卷积核大小为1*1、3*3、5*5和7*7的多尺度卷积操作,并进行特征提取和特征层降维,分别得到四个特征层,然后空间注意力单元将四个特征层进行维度联合,再通过卷积操作来进行降维,得到空间注意力图,空间注意力单元将根据空间注意力图学习到自适应权重值,并将自适应权重值分别与原始特征层上相应位置的像素进行相乘,完成不同空间像素值的自适应重新校准。
优选地,通道注意力单元通过全局池化的操作将图像的原始特征层压缩,再通过序列Linear-ReLu-Linear-Sigmoid的非线性操作,学习不同特征通道间的相互依赖关系,并输出被压缩的特征层,最后将被压缩的特征层与原始特征层逐像素相乘,对应不同的特征通道得到不同的权重值,完成每个特征通道的响应值的重新校准。
本发明提出一种基于空间和通道注意力残差网络的去雾方法,包括如下步骤:
S1、将输入图像输入到第一计算模块中,第一计算模块将输入图像的RGB三维通道扩展到N维特征通道,得到第一特征图,然后将第一特征图输入至主计算模块中;
S2、主计算模块根据第一特征图计算得到包含N维特征通道的第二特征图,然后循环模块和第二计算模块根据第一特征图,对第二特征图进行X次循环计算,得到包含2XN维特征通道的多维特征图;
S3、第三计算模块将多维特征图降为只有RGB三维通道的三维特征图,并输入到第四计算模块;
S4、第四计算模块将根据三维特征图计算得到只有RGB三维通道的去雾图像,完成输入图像的去雾。
优选地,在步骤S2中,循环计算的步骤如下:
S201、循环模块进行第一次工作,即将第一特征图和第二特征图进行维度联合,得到包含2N维特征通道的第三特征图,并将第三特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第三特征图进行计算;
S202、循环模块进行第二次工作,即将第一特征图、第二特征图和第三特征图进行维度联合,得到包含4N维特征通道的第四特征图,并将第四特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第四特征图进行计算;
循环模块每进行第一次工作,均将前面计算得到的所有的特征图进行维度联合,并将得到的特征图依次输入到第二计算模块和主计算模块中进行计算;
循环计算的次数X≥3。
本发明能够取得以下技术效果:
1、本发明不需要估计任何大气散射模型参数,可以直接地根据输入的有雾图像恢复出清晰的无雾图像;
2、本发明通过分析不同空间像素、不同特征通道间的相互关系,自适应地为不同空间像素、不同特征通道分配权重值,使得神经网络更着重于分析和处理价值和信息量更大的空间像素和特征通道,进而有效地提升深度神经网络的去雾能力;
3、本发明在公开的合成数据集和真实有雾图像中均取得了良好的去雾效果,与传统的复原图片相比,本发明复原出的图像细节更加清晰,色彩也更加丰富。
附图说明
图1是根据本发明实施例的基于空间和通道注意力残差网络的去雾装置的工作原理示意图;
图2是根据本发明实施例的主计算模块的运算结构示意图;
图3是根据本发明实施例的通道注意力单元的运算结构示意图;
图4是根据本发明实施例的空间注意力单元的运算结构示意图;
图5是根据本发明实施例的针对合成数据集上的图片进行去雾的效果对比图;
图6是根据本发明实施例的针对真实有雾图像进行去雾的效果对比图;
图7是根据本发明实施例的基于空间和通道注意力残差网络的去雾方法的流程图。
具体实施方式
在下文中,将参考附图描述本发明的实施例。在下面的描述中,相同的模块使用相同的附图标记表示。在相同的附图标记的情况下,它们的名称和功能也相同。因此,将不重复其详细描述。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。
下面结合图1到图7对本发明的具体工作方式进行详细说明:
如图1所示,本发明中提到的Conv、BN、ReLU和Tanh操作分别表示卷积、批量规范化、线性整流激活和双曲正切激活操作,这些操作均属于本领域中的基础操作函数(现有技术);卷积核尺寸一般设定为3*3,但5*5,7*7,9*9等尺度也同样适用于本发明。
本发明提出一种基于空间和通道注意力残差网络的去雾装置,包括:主计算模块、循环模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块;
去雾装置用于对输入图像进行去雾,并输出去雾图像。
输入图像和去雾图像均为由R、G、B三维通道组成的彩色图像。
主计算模块根据输入图像分别计算出输入图像的空间注意力残差以及通道注意力残差,并为输入图像中不同的空间像素以及不同的特征通道分配权重值,配合其他模块对输入图像进行去雾。
图2示出了主计算模块的具体运算结构;其中,“Conv”表示Conv-BN-ReLU序列操作;“Concat”表示特征层维度联合;“SA Block”表示了空间注意力单元;“CA Block”表示了通道注意力单元;“⊕”表示以像素方式相加;“Residual Group1”表示第一残差组;“Residual Group 2”表示第二残差组;值得说明的是,以上各个表示方式均为本领域通用表示方式,代表的各种操作也为本领域的现有技术。
如图2所示,主计算模块通过分析不同空间像素、不同特征通道间的相互关系,自适应地为不同空间像素、不同特征通道分配权重值,使得神经网络更着重于分析和处理价值和信息量更大的空间像素和特征通道,进而有效地提升了深度神经网络的去雾能力。
循环模块用于合并图像并将合并后的图像输入到其他模块中。
第一计算模块用于对输入图像进行Conv-BN-ReLU序列操作,并将输入图像的RGB三维通道扩展到多维特征通道。
第二计算模块用于对输入图像进行Conv-BN-ReLU序列操作。
第三计算模块用于对输入图像进行Conv-BN-ReLU序列操作,并将输入图像的特征通道降为RGB三维通道。
第四计算模块用于对输入图像进行Conv-Tanh序列操作。
需要说明的的是:本发明装置中的主计算模块、第二计算模块和第四计算模块均不改变图像的特征通道数目。
图1示出了基于空间和通道注意力残差网络的去雾装置的工作原理;其中,“H”表示输入图像的高度,“W”表示输入图像的宽度;
“3”、“64”、“128”、“256”等数字表示特征通道的数目,其中输入图像和输出的去雾图像的通道数目均为3,即表示输入和输出的去雾图像都是彩色图像,由R、G、B三通道组成;
“Conv”表示了Conv-BN-ReLU序列操作;“Tanh”表示了Conv-Tanh序列操作,其中Conv、BN、ReLU和Tanh分别表示卷积、批量规范化、线性整流激活和双曲正切激活操作,这些操作均属于神经网络中的基础操作函数;“RA Block”代表主计算模块。
如图1所示,本发明提出的基于空间和通道注意力残差网络的去雾装置的工作原理如下:
输入图像输入到第一计算模块中,第一计算模块将输入图像的RGB三维通道扩展到N维特征通道,得到第一特征图,然后将第一特征图输入至主计算模块中,主计算模块根据第一特征图计算得到包含N维特征通道的第二特征图,然后循环模块和第二计算模块根据第一特征图,对第二特征图进行X次循环计算,得到包含2XN维特征通道的多维特征图,第三计算模块将多维特征图降为只有RGB三维通道的三维特征图,并输入到第四计算模块,第四计算模块将根据三维特征图计算得到只有RGB三维通道的去雾图像,完成输入图像的去雾。
循环计算的流程如下:
循环模块进行第一次工作,即将第一特征图和第二特征图进行维度联合,得到包含2N维特征通道的第三特征图,并将第三特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第三特征图进行计算,计算完成后,循环模块进行第二次工作,即将第一特征图、第二特征图和第三特征图进行维度联合,得到包含4N维特征通道的第四特征图,并将第四特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第四特征图进行计算;
循环模块每进行第一次工作,均将前面计算得到的所有的特征图进行维度联合,并将得到的特征图依次输入到第二计算模块和主计算模块中进行计算;循环计算的次数X≥3。
在本发明的一个具体实施例中,取N为64,循环计算的次数X为3;
需要说明是:在本发明中,循环计算的次数X不是越多越好,计算得到包含2XN维特征通道的多维特征图也不仅局限于512维特征通道,后续可以增加到1024,2048,4096等;虽然更多的特征通道数目在理论上可以增加整个神经网络的深度,提升特征表示能力,但也有下面两个主要缺点:
1、网络层数越多,参数量越大,对于单幅图像,网络的处理时间越长,不利于实时性等对处理时间有要求项目中的应用;
2、参数量大,在训练的过程中,网络难以达到收敛,即难以实现所有参数的全局最优;
因此,往往不是网络层数越多,最终的效果越理想;实际应用时,要根据实际的使用要求和实际条件合理设定循环计算的次数X以及多维特征图的特征通道数量。
如图2所示,主计算模块包括:第一残差组、第二残差组、长跳跃连接、第一序列以及第二序列;
第一序列用于对输入图像进行Conv-BN-ReLU序列操作。
第二序列包括Conv运算序列和像素合并序列;Conv运算序列和像素合并序列串联连接。
第一残差组、第一序列、第二残差组以及第二序列依次串联连接;长跳跃连接的一端连接在主计算模块的输入端,另一端与像素合并序列连接。
第一残差组和第二残差组内部结构相同;每个残差组包含空间注意力单元、通道注意力单元、短跳跃连接、第一Conv序列、第二Conv序列、特征维度联合单元以及像素合并单元。
第一Conv序列和第二Conv序列均用于对输入图像进行Conv-BN-ReLU序列操作。
第一Conv序列分别与空间注意力单元和通道注意力单元连接,空间注意力单元和通道注意力单元共同与特征维度联合单元连接,特征维度联合单元、第二Conv序列连接以及像素合并单元依次串联连接;短跳跃连接一端连接在残差组的输入端,另一端与像素合并单元连接。
需要说明的是:第一残差组与第二残差组的设立可以增加神经网络的深度和特征表示能力;短跳跃连接的引入是为了使主网络更加关注于价值和信息量更大的特征,允许不太重要的信息通过旁路向后传递。
针对一张包含N维特征通道的特征图a,主计算模块中的计算过程如下:
首先将特征图a输入到第一残差组中,第一Conv序列对特征图a进行Conv-BN-ReLU序列操作,且不改变特征通道的数目,生成特征图b,并将特征图b分别输入到空间注意力单元和通道注意力单元中,空间注意力单元和通道注意力单元均不改变特征图b的特征通道的数目,计算后分别输出特征图c和特征图d,并分别将特征图c和特征图d输入到特征维度联合单元中,特征维度联合单元将特征图c和特征图d进行维度联合,合成一个2N维度的特征图,并通过第二Conv序列进行降维,输出一个N维度的特征图e,像素合并单元将特征图e与特征图a逐像素相加,计算并输出N维度的特征图f;
然后将特征图f输入到第一序列中,第一序列对特征图f进行Conv-BN-ReLU序列操作,且不改变特征通道的数目,得到特征图g,并将特征图g输出至第二残差组中,第二残差组中的操作流程与第一残差组一致,输出N维度的特征图h;
最后,第二序列中的Conv运算序列对特征图h进行Conv-BN-ReLU序列操作,得到N维度的特征图i,通过长跳跃连接,像素合并序列将特征图i与特征图a逐像素相加,最终输出一个N维度的特征图,主计算模块至此完成计算。
图4示出了空间注意力单元的具体运算结构;其中,其中“C”表示特征通道的数目;“Linear”表示线性回归操作;“Sigmoid”表示S型生长曲线激活操作;表示以像素方式相乘;值得说明的是,以上各个表示方式均为本领域通用表示方式,代表的各种操作也为本领域的现有技术。
考虑到雾气在图像空间上往往是非均匀分布的,因此设计了空间注意力单元,进而明确了不同像素间的相互依赖性,提高了去雾的鲁棒性。
如图4所示,空间注意力单元的工作原理如下:
空间注意力单元对图像的特征层分别进行卷积核大小为1*1、3*3、5*5和7*7的多尺度卷积操作,并进行特征提取和特征层降维,分别得到四个特征层,然后空间注意力单元将四个特征层进行维度联合,再通过卷积操作来进行降维,得到空间注意力图,空间注意力单元将根据空间注意力图学习到自适应权重值,并将自适应权重值分别与原始特征层上相应位置的像素进行相乘,完成不同空间像素值的自适应重新校准,至此,神经网络可以更加关注于价值和信息量较大的像素(如雾气浓度较大的像素区域,或边缘像素区域等),进而提升去雾效果。
针对空间注意力单元的一些说明如下:假设分别用[F1,F2,F3,…,FC]表示原始输入的C个特征层,其中每个F均表示一个H*W的矩阵;通过训练后得到的最优H*W*1的空间注意力图用K表示,其中K同样表示一个H*W的矩阵。若未采用空间注意力单元,通常K矩阵中的每个位置的值都等效为1,即神经网络对图像中每个像素点的位置均给予平等对待,从而严重限制了神经网络的特征表示能力;而采用了空间注意力单元后,将原始输入的C个特征层与空间注意力图K逐像素相乘,得到[F1 K,F2 K,F3 K,…,FC K],K矩阵每个位置即图像中的每个像素点均拥有属于自己的权重值,神经网络通过学习可以赋予图像中雾气浓度较大的像素点或图像中景物边缘细节的像素点以较大的权重值,针对图像中没有雾气的像素点或较平滑的背景像素点以较小的权重值,从而使得神经网络更加关注于价值更大的像素点,更有利于实现更好的去雾效果。
图3示出了通道注意力单元的具体运算结构;其中,“1*1Conv”、“3*3Conv”、“5*5Conv”、“7*7Conv”分别表示卷积核大小为1*1、3*3、5*5、7*7的卷积操作,图3中所有的“Conv”表示Conv-BN-ReLU序列操作;值得说明的是,以上各个表示方式均为本领域通用表示方式,代表的各种操作也为本领域的现有技术。
在本领域中,不同的特征层聚焦于图像中的不同特征,例如一些特征层主要从图像中提取纹理信息,而另一些特征层主要从图像中提取边缘轮廓信息因此,为了充分发挥神经网络的特征表示能力,有必要对不同特征层分配不同的权重值,以提升网络的去雾效果,基于此,设计了通道注意力单元。
如图3所示,通道注意力单元的工作原理如下:
通道注意力单元通过全局池化的操作将图像的原始特征层压缩,再通过序列Linear-ReLu-Linear-Sigmoid的非线性操作,学习不同特征通道间的相互依赖关系,并输出被压缩的特征层,最后将被压缩的特征层与原始特征层逐像素相乘,对应不同的特征通道得到不同的权重值,完成每个特征通道的响应值的重新校准。
针对通道注意力单元的一些说明如下:假设分别用[F1,F2,F3,…,FC]表示原始输入的C个特征层,其中每个F均表示一个H*W的矩阵;通过训练后得到的图像中第二个1*1*C的特征层用[a1,a2,a3,…,ac]来表示,其中每个a表示一个实数权重值。如果没有采用通道注意力单元,可视为a1=a2=a3=…=ac=1,即每个特征层采用同样的权重,没有对信息量大的特征层给予更大的关注,从而严重限制了神经网络的特征表示能力;而采用通道注意力单元后,神经网络可以优化得到一组最优权重系数[a1,a2,a3,…,ac],并分别将该权重系数与C个特征层[F1,F2,F3,…,FC]进行乘积运算,得到[a1*F1,a2*F2,a3*F3,…,ac*FC],即对不同重要程度的特征层给予了不同的权重值,使得神经网络将更多的运算资源分配给信息量大的特征层,更有利于保留图像细节信息和实现更好的去雾效果。
图7示出了基于空间和通道注意力残差网络的去雾方法的具体流程。
如图7所示,本发明提出的基于空间和通道注意力残差网络的去雾方法,包括如下步骤:
S1、将输入图像输入到第一计算模块中,第一计算模块将输入图像的RGB三维通道扩展到N维特征通道,得到第一特征图,然后将第一特征图输入至主计算模块中。
RGB三维通道扩展到N维特征通道就是指将H*W*3扩展到H*W*N,属于本领域深度学习中的基础操作(“H”表示输入图像的高度,“W”表示输入图像的宽度;“3”和“N”表示特征通道的数目)。
S2、主计算模块根据第一特征图计算得到包含N维特征通道的第二特征图,然后循环模块和第二计算模块根据第一特征图,对第二特征图进行X次循环计算,得到包含2XN维特征通道的多维特征图;
循环计算的步骤如下:
S201、循环模块进行第一次工作,即将第一特征图和第二特征图进行维度联合,得到包含2N维特征通道的第三特征图,并将第三特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第三特征图进行计算;
S202、循环模块进行第二次工作,即将第一特征图、第二特征图和第三特征图进行维度联合,得到包含4N维特征通道的第四特征图,并将第四特征图依次输入到第二计算模块和主计算模块中,第二计算模块和主计算模块依次对第四特征图进行计算;
循环模块每进行第一次工作,均将前面计算得到的所有的特征图进行维度联合,并将得到的特征图依次输入到第二计算模块和主计算模块中进行计算;循环计算的次数X≥3。
S3、第三计算模块将多维特征图降为只有RGB三维通道的三维特征图,并输入到第四计算模块。
S4、第四计算模块将根据三维特征图计算得到只有RGB三维通道的去雾图像,完成输入图像的去雾。
图5示出了针对合成数据集上的图片进行去雾的对比效果;
图6示出了针对真实有雾图像进行去雾的对比效果;
需要说明的是:在图5和图6中,上面一行图像分别为原始图像,下面一行图像为对应上面一行的去雾图像。
如图5和图6所示,本发明在公开的合成数据集和真实有雾图像中均取得了良好的去雾效果,去雾效果明显,去雾图像色彩丰富,细节和纹理清晰,图像自然,图像还原度高。
综上所述,本发明提出了一种基于空间和通道注意力残差网络的去雾装置及其去雾方法,本发明不需要估计任何大气散射模型参数,通过分析不同空间像素、不同特征通道间的相互关系,自适应地为不同空间像素、不同特征通道分配权重值,使得神经网络更着重于分析和处理价值和信息量更大的空间像素和特征通道,进而有效地提升深度神经网络的去雾能力;本发明复原出的图像细节清晰,色彩丰富。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制。本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
以上本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (8)

1.一种基于空间和通道注意力残差网络的去雾装置,用于对输入图像进行去雾,并输出去雾图像,所述输入图像和所述去雾图像均为由RGB三维通道组成的彩色图像;其特征在于,包括:主计算模块、循环模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块;
所述主计算模块用于根据所述输入图像分别计算出特征图,所述特征图的信息包含所述输入图像的空间注意力残差以及通道注意力残差;
所述第一计算模块用于对所述输入图像进行Conv-BN-ReLU序列操作,并将所述输入图像的RGB三维通道扩展到N维特征通道;
所述第二计算模块用于对所述输入图像进行Conv-BN-ReLU序列操作;
所述第三计算模块用于对所述输入图像进行Conv-BN-ReLU序列操作,并将所述输入图像的特征通道降为RGB三维通道;
所述第四计算模块用于对所述输入图像进行Conv-Tanh序列操作;
所述循环模块用于合并图像并将合并后的图像输入到所述主计算模块和所述第二计算模块中;
所述主计算模块、所述第二计算模块和所述第四计算模块均不改变图像的特征通道数目;
所述输入图像输入到所述第一计算模块中,所述第一计算模块将所述输入图像的RGB三维通道扩展到N维特征通道,得到第一特征图,然后将所述第一特征图输入至所述主计算模块中,所述主计算模块根据所述第一特征图计算得到包含N维特征通道的第二特征图,然后所述循环模块和所述第二计算模块根据所述第一特征图,对所述第二特征图进行X次循环计算,得到包含2XN维特征通道的多维特征图,所述第三计算模块将所述多维特征图降为只有RGB三维通道的三维特征图,并输入到所述第四计算模块,所述第四计算模块将根据所述三维特征图计算得到只有RGB三维通道的所述去雾图。
2.如权利要求1所述的基于空间和通道注意力残差网络的去雾装置,其特征在于,所述循环计算的流程如下:
所述循环模块进行第一次工作,即将所述第一特征图和所述第二特征图进行维度联合,得到包含2N维特征通道的第三特征图,并将所述第三特征图依次输入到所述第二计算模块和所述主计算模块中,所述第二计算模块和所述主计算模块依次对所述第三特征图进行计算,计算完成后,所述循环模块进行第二次工作,即将所述第一特征图、所述第二特征图和所述第三特征图进行维度联合,得到包含4N维特征通道的第四特征图,并将所述第四特征图依次输入到所述第二计算模块和所述主计算模块中,所述第二计算模块和所述主计算模块依次对所述第四特征图进行计算;
所述循环模块每进行第一次工作,均将前面计算得到的所有的特征图进行维度联合,并将得到的特征图依次输入到所述第二计算模块和所述主计算模块中进行计算。
3.如权利要求1所述的基于空间和通道注意力残差网络的去雾装置,其特征在于,所述循环计算的次数X≥3。
4.如权利要求1所述的基于空间和通道注意力残差网络的去雾装置,其特征在于,所述主计算模块包括:第一残差组、第二残差组、长跳跃连接、第一序列以及第二序列;
所述第一序列用于对所述输入图像进行Conv-BN-ReLU序列操作;
所述第二序列包括Conv运算序列和像素合并序列;所述Conv运算序列和所述像素合并序列串联连接;
所述第一残差组、所述第一序列、所述第二残差组以及所述第二序列依次串联连接;所述长跳跃连接的一端连接在所述主计算模块的输入端,另一端与所述像素合并序列连接;
所述第一残差组和所述第二残差组内部结构相同;每个残差组分别包含空间注意力单元、通道注意力单元、短跳跃连接、第一Conv序列、第二Conv序列、特征维度联合单元以及像素合并单元;
所述第一Conv序列和所述第二Conv序列均用于对所述输入图像进行Conv-BN-ReLU序列操作;
所述第一Conv序列分别与所述空间注意力单元和所述通道注意力单元连接,所述空间注意力单元和所述通道注意力单元共同与所述特征维度联合单元连接,所述特征维度联合单元、所述第二Conv序列连接以及所述像素合并单元依次串联连接;所述短跳跃连接一端连接在残差组的输入端,另一端与所述像素合并单元连接;
当一张包含N维特征通道的特征图a输入到所述主计算模块中时:
首先所述特征图a输入到所述第一残差组中,所述第一Conv序列对所述特征图a进行Conv-BN-ReLU序列操作,且不改变特征通道的数目,生成特征图b,并将所述特征图b分别输入到所述空间注意力单元和所述通道注意力单元中,所述空间注意力单元和所述通道注意力单元均不改变所述特征图b的特征通道的数目,计算后分别输出特征图c和特征图d,并分别将所述特征图c和所述特征图d输入到所述特征维度联合单元中,所述特征维度联合单元将所述特征图c和所述特征图d进行维度联合,合成一个2N维度的特征图,并通过所述第二Conv序列进行降维,输出一个N维度的特征图e,所述像素合并单元将所述特征图e与所述特征图a逐像素相加,计算并输出N维度的特征图f;
然后将所述特征图f输入到所述第一序列中,所述第一序列对所述特征图f进行Conv-BN-ReLU序列操作,且不改变特征通道的数目,得到特征图g,并将所述特征图g输出至所述第二残差组中,所述第二残差组中的操作流程与所述第一残差组一致,输出N维度的特征图h;
最后,所述第二序列中的Conv运算序列对所述特征图h进行Conv-BN-ReLU序列操作,得到N维度的特征图i,通过所述长跳跃连接,所述特征图a从所述主计算模块的输入端输入到所述像素合并序列中,所述像素合并序列将所述特征图i与所述特征图a逐像素相加,最终输出一个N维度的特征图,所述主计算模块至此完成计算。
5.如权利要求4所述的基于空间和通道注意力残差网络的去雾装置,其特征在于,所述空间注意力单元对图像的特征层分别进行卷积核大小为1*1、3*3、5*5和7*7的多尺度卷积操作,并进行特征提取和特征层降维,分别得到四个特征层,然后所述空间注意力单元将所述四个特征层进行维度联合,再通过卷积操作来进行降维,得到空间注意力图,所述空间注意力单元将根据所述空间注意力图学习到自适应权重值,并将所述自适应权重值分别与原始特征层上相应位置的像素进行相乘,完成不同空间像素值的自适应重新校准。
6.如权利要求4所述的基于空间和通道注意力残差网络的去雾装置,其特征在于,所述通道注意力单元通过全局池化的操作将图像的原始特征层压缩,再通过序列Linear-ReLu-Linear-Sigmoid的非线性操作,学习不同特征通道间的相互依赖关系,并输出被压缩的特征层,最后将所述被压缩的特征层与所述原始特征层逐像素相乘,对应不同的特征通道得到不同的权重值,完成每个特征通道的响应值的重新校准。
7.一种基于空间和通道注意力残差网络的去雾方法,其应用如权利要求1-6中任一项所述的基于空间和通道注意力残差网络的去雾装置,其特征在于,包括如下步骤:
S1、将所述输入图像输入到所述第一计算模块中,所述第一计算模块将所述输入图像的RGB三维通道扩展到N维特征通道,得到第一特征图,然后将所述第一特征图输入至所述主计算模块中;
S2、所述主计算模块根据所述第一特征图计算得到包含N维特征通道的第二特征图,然后所述循环模块和所述第二计算模块根据所述第一特征图,对所述第二特征图进行X次循环计算,得到包含2XN维特征通道的多维特征图;
S3、所述第三计算模块将所述多维特征图降为只有RGB三维通道的三维特征图,并输入到所述第四计算模块;
S4、所述第四计算模块将根据所述三维特征图计算得到只有RGB三维通道的所述去雾图像,完成所述输入图像的去雾。
8.如权利要求7所述的基于空间和通道注意力残差网络的去雾方法,其特征在于,在步骤S2中,所述循环计算的步骤如下:
S201、所述循环模块进行第一次工作,即将所述第一特征图和所述第二特征图进行维度联合,得到包含2N维特征通道的第三特征图,并将所述第三特征图依次输入到所述第二计算模块和所述主计算模块中,所述第二计算模块和所述主计算模块依次对所述第三特征图进行计算;
S202、所述循环模块进行第二次工作,即将所述第一特征图、所述第二特征图和所述第三特征图进行维度联合,得到包含4N维特征通道的第四特征图,并将所述第四特征图依次输入到所述第二计算模块和所述主计算模块中,所述第二计算模块和所述主计算模块依次对所述第四特征图进行计算;
所述循环模块每进行第一次工作,均将前面计算得到的所有的特征图进行维度联合,并将得到的特征图依次输入到所述第二计算模块和所述主计算模块中进行计算;
所述循环计算的次数X≥3。
CN202111234354.9A 2021-10-22 2021-10-22 基于空间和通道注意力残差网络的去雾装置及其去雾方法 Active CN114022371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111234354.9A CN114022371B (zh) 2021-10-22 2021-10-22 基于空间和通道注意力残差网络的去雾装置及其去雾方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111234354.9A CN114022371B (zh) 2021-10-22 2021-10-22 基于空间和通道注意力残差网络的去雾装置及其去雾方法

Publications (2)

Publication Number Publication Date
CN114022371A CN114022371A (zh) 2022-02-08
CN114022371B true CN114022371B (zh) 2024-04-05

Family

ID=80057086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111234354.9A Active CN114022371B (zh) 2021-10-22 2021-10-22 基于空间和通道注意力残差网络的去雾装置及其去雾方法

Country Status (1)

Country Link
CN (1) CN114022371B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648467B (zh) * 2022-05-18 2022-08-16 中山大学深圳研究院 图像的去雾方法、装置、终端设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968772A (zh) * 2012-12-04 2013-03-13 电子科技大学 一种基于暗通道信息的图像去雾方法
CN111539888A (zh) * 2020-04-21 2020-08-14 温州大学 一种基于金字塔通道特征注意力的神经网络图像去雾方法
CN111915531A (zh) * 2020-08-06 2020-11-10 温州大学 一种多层次特征融合和注意力引导的神经网络图像去雾方法
CN112884680A (zh) * 2021-03-26 2021-06-01 南通大学 一种利用端到端神经网络的单幅图像去雾方法
CN113139922A (zh) * 2021-05-31 2021-07-20 中国科学院长春光学精密机械与物理研究所 图像去雾方法及去雾装置
CN113344806A (zh) * 2021-07-23 2021-09-03 中山大学 一种基于全局特征融合注意力网络的图像去雾方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968772A (zh) * 2012-12-04 2013-03-13 电子科技大学 一种基于暗通道信息的图像去雾方法
CN111539888A (zh) * 2020-04-21 2020-08-14 温州大学 一种基于金字塔通道特征注意力的神经网络图像去雾方法
CN111915531A (zh) * 2020-08-06 2020-11-10 温州大学 一种多层次特征融合和注意力引导的神经网络图像去雾方法
CN112884680A (zh) * 2021-03-26 2021-06-01 南通大学 一种利用端到端神经网络的单幅图像去雾方法
CN113139922A (zh) * 2021-05-31 2021-07-20 中国科学院长春光学精密机械与物理研究所 图像去雾方法及去雾装置
CN113344806A (zh) * 2021-07-23 2021-09-03 中山大学 一种基于全局特征融合注意力网络的图像去雾方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
注意力残差网络的单图像去雨方法研究;徐爱生;唐丽娟;陈冠楠;;小型微型计算机系统;20200529(第06期);全文 *

Also Published As

Publication number Publication date
CN114022371A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN114972107B (zh) 基于多尺度堆叠式注意力网络的低照度图像增强方法
CN107507138A (zh) 一种基于Retinex模型的水下图像增强方法
CN113052814B (zh) 基于Retinex和注意力机制的暗光图像增强方法
CN113658057B (zh) 一种Swin Transformer微光图像增强方法
CN113222834B (zh) 一种基于平滑约束和矩阵分解的视觉数据张量补全方法
CN116797488A (zh) 一种基于特征融合与注意力嵌入的低照度图像增强方法
Liu et al. Image de-hazing from the perspective of noise filtering
CN112561846A (zh) 训练图像融合模型的方法、装置和电子设备
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN114022371B (zh) 基于空间和通道注意力残差网络的去雾装置及其去雾方法
CN106296749B (zh) 基于l1范数约束的rgb-d图像本征分解方法
CN112767277B (zh) 一种基于参考图像的深度特征排序去模糊方法
Zhang et al. New image processing: VGG image style transfer with gram matrix style features
CN116912114A (zh) 基于高阶曲线迭代的无参考低光照图像增强方法
CN112734673B (zh) 一种基于多表达式融合的低照度图像增强方法及系统
CN115937011A (zh) 一种基于时滞特征回归的关键帧位姿优化视觉slam方法、存储介质及设备
CN112767261A (zh) 一种基于广义非凸张量鲁棒主成分分析模型的针对彩色图像和视频的非局部去噪框架
CN116152117B (zh) 一种基于Transformer的井下低光照图像增强方法
Wu et al. Semantic image inpainting based on generative adversarial networks
CN116797485B (zh) 一种基于数据合成的低照度图像增强方法及装置
CN117952882A (zh) 基于边界约束和低秩模型的低照度图像增强方法及系统
Wang et al. Recent progress in low-light image enhancement algorithms based on deep learning
Jing et al. A Novel Dehazing Network Based on Point-by-Point Attention Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant