CN115330631A - 一种基于堆叠沙漏网络的多尺度融合去雾方法 - Google Patents
一种基于堆叠沙漏网络的多尺度融合去雾方法 Download PDFInfo
- Publication number
- CN115330631A CN115330631A CN202211007029.3A CN202211007029A CN115330631A CN 115330631 A CN115330631 A CN 115330631A CN 202211007029 A CN202211007029 A CN 202211007029A CN 115330631 A CN115330631 A CN 115330631A
- Authority
- CN
- China
- Prior art keywords
- layer
- module
- row
- hourglass
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 238000004821 distillation Methods 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 8
- 230000000007 visual effect Effects 0.000 abstract description 3
- 241000282414 Homo sapiens Species 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种基于堆叠沙漏网络的多尺度融合去雾方法,将有雾图像输入预先设置好的图像去雾网络;有雾图像经图像去雾网络处理后,输出去雾后的清晰图像;所述图像去雾网络为依次连接的一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。本发明可应用于各种计算机视觉系统,例如图像识别、视频监控、工业视觉检测等,可以降低大量的人工成本,大幅提升图像质量和服务效率,目的是保证更好地服务客户,使最终的去雾结果能满足高级别图像处理的要求并符合人类的视觉要求。
Description
技术领域
本发明涉及一种基于堆叠沙漏网络的多尺度融合去雾方法,属于图像处理技术领域。
背景技术
视觉是人类获取信息最直观的方式,随着人工智能的发展,计算机视觉被广泛应用到我们生活的各个领域。但由于大气污染问题,采集的照片清晰度会受到影响,呈现对比度降低,图像模糊,可提取的特征严重不足的特点。而图像视频作为人们获取信息的主要来源,它的质量严重影响着信息的读取与判断,且高级别的图像处理对于输入图像的质量也有着较高的要求。因此,研究高质、快速、普适的去雾原理与方法具有很高的理论意义和应用价值。
图像去雾的目的是消除雾霾环境对图像质量的影响,增加图像的可视度,其方法主要可以分为三种,一种是基于图像增强算法,即对被降质的图像进行增强,改善图像的质量,突出图像中景物的特征和有价值的信息。但这种方法不考虑导致图像退化的原因,处理后可能会导致图像部分信息的损失,出现失真现象。第二种是基于大气退化模型的方法,即利用无雾图像的先验知识对模型中的参数进行估计,然后将参数代入模型进而恢复无雾图像,该方法处理得到的无雾图像更加清晰、自然,细节损失较少,但不同的先验知识存在着各自应用场景的局限性。第三种是基于深度学习的方法,即通过训练数据集估计透射率,或者利用输入的有雾图像,直接输出得到去雾后的图像。目前最新的去雾方法更倾向于后者,但这种方法存在需要估计参数以及估计参数多、特征不够丰富导致的去雾效率低、质量差等局限性。
发明内容
目的:为了克服现有技术中存在的不足,本发明提供一种基于堆叠沙漏网络的多尺度融合去雾方法,通过构建并结合多个网络来完成学习任务。先利用堆叠沙漏网络实现特征提取,再经过多尺度模块进行特征融合,获得比单一网络显著优越的泛化性能。在网络优化过程中,使用双层注意力模块提升移动网络的卷积特征表达能力。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
一种基于堆叠沙漏网络的多尺度融合去雾方法,包括如下步骤:
将有雾图像输入预先设置好的图像去雾网络。
有雾图像经图像去雾网络处理后,输出去雾后的清晰图像。
所述图像去雾网络为依次连接的一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。
作为优选方案,所述堆叠沙漏模块由N个四阶沙漏模块串联组成,所述四阶沙漏模块包含五个并行卷积流:最内层卷积流处理原始尺度,倒数第二层至最外层卷积流分别向下采样至1/2、1/4、1/8和1/16,五个卷积流在不同分辨率组中进行特征提取,再通过残差模块传递各个分辨率的特征,最后再通过上采样操作层恢复到原始尺度并进行融合。
作为优选方案,所述四阶沙漏模块将三阶沙漏模块第四行中间残差模块替换成一阶沙漏模块,所述三阶沙漏模块是将二阶沙漏模块第三行中间残差模块替换成一阶沙漏模块,所述二阶沙漏模块是将一阶沙漏模块第二行中间的残差模块替换成一阶沙漏模块,所述一阶沙漏模块由两行组成,第一行包含一个残差模块,第二行依次由一个最大池化层、三个残差模块和一个上采样操作层组成。第一行与第二行进行特征融合后输出。
作为优选方案,所述残差模块由两行组成,第一行是跳级层,包括一个1×1卷积层。第二行是卷积层,依次为BN层、Relu层、1×1的卷积层、BN层、Relu层、3×3的卷积层、BN层、Relu层和1×1的卷积层。跳级层和卷积层输出端进行特征融合后输出。
作为优选方案,所述N设置为8。
作为优选方案,所述多尺度跳跃连接模块包括:第一行由三个3×3的卷积层和Relu层相串联而成,第二行由三个5×5的卷积层和Relu层相串联而成,第三行由三个7×7的卷积层和Relu层相串联而成。每一行的第一个3×3的卷积层和Relu层的输出,分别作为每一行的第二个3×3的卷积层和Relu层的输入,每一行的第二个3×3的卷积层和Relu层的输出,分别作为每一行的第三个3×3的卷积层和Relu层的输入,将每一行第三个3×3的卷积层和Relu层的输出通过Contact融合后输出。
作为优选方案,所述分层注意力蒸馏模块包括通道注意力模块,空间注意力模块,通道注意力模块,空间注意力模块的输出通过融合后输出。
作为优选方案,所述通道注意力模块将输入的特征图F(H×W×C,H表示高,W表示宽,C表示通道数)分别经过H维度的全局最大池化层和W维度的全局平均池化层,得到两个1×1×C的特征图;将两个特征图送入一个共享权值的双层神经网络进行通道间依赖关系的学习,将MLP输出的特征进行相加融合,再经过sigmoid激活操作,生成最终的通道加权M。
作为优选方案,所述空间注意力模块将输入的特征图F(H×W×C,H:高,W:宽,C:通道数)分别经过基于C维度的最大池化层和平均池化层,得到两个H×W×1的特征图;将两个H×W×1的特征图基于通道维度进行拼接,拼接后的特征图再使用7×7卷积层进行通道降维。最后经过sigmoid激活操作,生成空间维度的权重M。
有益效果:本发明提供的一种基于堆叠沙漏网络的多尺度融合去雾方法,以解决现有采用基于深度学习的图像去雾方法所面临的需要估计参数以及估计参数多、特征不够丰富导致的去雾效率低、质量差等问题。
本发明属于端对端去雾,将有雾图像输入到上述网络中,可以直接输出无雾图像。由于使用堆叠沙漏模块和多尺度跳跃连接模块,可以解决现有神经网络不能同时有效地捕捉到局部和全局特征的问题;引入分层注意力蒸馏模块,对网络结构进行优化,保留空间和上下文信息并提取出更有用的层次特征。能够在充分利用多尺度雾特征和恢复结构细节方面有明显进展,提高生成图片的质量。
本发明先采用堆叠沙漏网络重复地自下而上、自上而下地在各种尺度上捕获特征,再利用多尺度跳跃连接的方法对信息进行重复融合,最后结合双层注意力机制,避免特征消失,且去除不必要的特征,以实现全面的特征聚合,提高去雾性能。本发明可应用于各种计算机视觉系统,例如图像识别、视频监控、工业视觉检测等,可以降低大量的人工成本,大幅提升图像质量和服务效率,目的是保证更好地服务客户,使最终的去雾结果能满足高级别图像处理的要求并符合人类的视觉要求。
附图说明
图1为本发明方法实施的整体流程图。
图2为四阶沙漏模块采样规律的网络架构示意图。
图3为残差模块的网络架构示意图。
图4为一阶沙漏模块的网络架构示意图。
图5为四阶沙漏模块的网络架构示意图。
图6为多尺度跳跃连接模块的网络架构示意图。
图7为分层注意力蒸馏模块的网络架构示意图。
图8为通道注意力模块的实施流程图。
图9为空间注意力模块的实施流程图。
具体实施方式
下面结合具体实施例对本发明作更进一步的说明。
如图1所示,本发明公开了一种基于堆叠沙漏网络的多尺度融合去雾方法,当有雾图像输入后,进入图像去雾网络,直接输出去雾后的清晰图像。
图像去雾网络依次为一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。
其中,7×7的卷积层用于将原始的有雾图像进行第一步处理,形成初始特征图像。特征融合设置为相加运算,用于特征相加。多尺度跳跃连接模块后的1×1的卷积层用于调整通道数,调整经过contact之后变化的通道数,并获取低频特征信息。多尺度跳跃连接模块后的3×3的卷积层用于获取高频特征信息。分层注意力蒸馏模块后的3×3的卷积层和1×1的卷积层用于实现特征的修饰或者辅助作用。
堆叠沙漏模块由N个四阶沙漏模块串联组成,本发明优选N=4、6、8、10时, PSNR(峰值信噪比)=27.28、27.96、28.35、28.37,SSIM(机构相似度)=0.9122、0.9180、0.9217、0.9214。这两个指标都是越大越好,但是N从4到8时,变化明显,N从8到10时,PSNR上升不明显且SSIM降低,因此,本发明N选用最优值8。
如图2所示,所述四阶沙漏模块通过并行结构整合紧密连接的残块模块、最大池化层、上采样操作层和残差融合,形成对称拓扑结构,每个尺度都是先自上而下,再有一个相应的自底而上的层,使之达到一种重复自上而下,自下而上提取特征的目的。方块大小表示特征图大小,方块变小表示下采样,方块变大表示上采样,加号表示按元素相加。
具体流程如下:四阶沙漏模块包含五个并行卷积流:最内层卷积流处理原始尺度,倒数第二层至最外层卷积流分别向下采样至1/2、1/4、1/8和1/16,五个卷积流在不同分辨率组中进行特征提取,再通过残差模块传递各个分辨率的特征,最后再通过上采样操作层恢复到原始尺度并进行融合,即将不同分辨率的特征按元素位置进行相加,因此能够在多个尺度上提取并保留特征信息,达到同时保留局部特征和全局特征的效果。
所述残差模块是一阶沙漏模块的基本组成单元,具体网络架构见图3。残差模块由两行组成,第一行是跳级层,包括一个1×1卷积层(Conv),用于保留原有层次的信息。第二行是卷积层,用于提取特征,依次为BN层、Relu层、1×1的卷积层、BN层、Relu层、3×3的卷积层、BN层、Relu层和1×1的卷积层。跳级层和卷积层输出端进行特征融合后输出。
第二行的卷积层,由BN层先对信号进行归一化处理,经过Relu层使主路径增加非线性,再经过1×1的卷积层起到降维的作用,且降维之后可以更有效、更直观地进行数据训练和特征提取,接着再次经过BN层和Relu层,再经过3×3的卷积层进行相对较低维度的计算,提高网络深度且提高效率,接着第三次经过BN层和Relu层,再次经过1×1的卷积层起到升维的作用,最后与跳级层进行特征融合,不改变数据尺寸只提高数据深度。
一阶沙漏模块由两行组成,具体网络架构见图4。第一行只包含一个残差模块,第二行依次由一个最大池化层(Max Pool)用于对特征图进行下采样,以获得分辨率较低的特征图,降低计算复杂度、三个残差模块和一个上采样操作层(Up Sample)用于采用最近邻插值的方法对特征图进行下采样,使图像特征的分辨率提高,目的是保持与输入图像大小一致。第一行与第二行进行特征融合后输出,使得输出的结果既包含了原始分辨率的特征,也包含了下采样后分辨率下降至1/2的特征。
二阶沙漏模块是将一阶沙漏模块第二行中间的残差模块替换成一阶沙漏模块,三阶沙漏模块是将二阶沙漏模块第三行中间残差模块替换成一阶沙漏模块,四阶沙漏模块是将三阶沙漏模块第四行中间残差模块替换成一阶沙漏模块,以此类推,形成递归结构,如图5所示。
如图6所示,所述多尺度跳跃连接模块包括:三种不同大小卷积核的卷积运算加入激活函数组成,第一行由三个3×3的卷积层和Relu层相串联而成,第二行由三个5×5的卷积层和Relu层相串联而成,第三行由三个7×7的卷积层和Relu层相串联而成。每一行的第一个3×3的卷积层和Relu层的输出,分别作为每一行的第二个3×3的卷积层和Relu层的输入,每一行的第二个3×3的卷积层和Relu层的输出,分别作为每一行的第三个3×3的卷积层和Relu层的输入,将每一行第三个3×3的卷积层和Relu层的输出通过Contact融合。
使用不同大小的卷积核能够在不同的特征尺度进行提取,获得深层的细节信息,此外,为了保证卷积后的特征图与原始雾图大小不发生变化,其中的卷积运算采用零填充方式。在卷积运算之后引入激活函数,将卷积层的输出结果做非线性运算,使卷积神经网络获得解决复杂问题的能力,同时提高卷积神经网络对非线性因素的鲁棒性。在选择激活函数时,采用带泄露线性整流单元Leaky ReLU,其函数图像在分段区间是线性函数,整体是非线性函数,值域是全部实数集,能够提高网络收敛速度。
但在连接方式上本发明有所创新,不是简单的将三组不同大小的卷积核做并行卷积运算,而是采用跳跃连接的方式,将本行上一个3×3的卷积层和Relu层输出的结果除了输出给串联的下一个3×3的卷积层和Relu层外,还输出给另外两行下一个3×3的卷积层和Relu层,因此每行中下一个3×3的卷积层和Relu层的输入都是将上一个3×3的卷积层和Relu层不同大小卷积核的输出分别相加,以实现多尺度的信息融合。
每一行卷积核运算后得到3个特征图,将第三个3×3的卷积层和Relu层输出的三个特征图通过Contact融合,即将三个特征图的通道数相加,而每一个通道下的信息不相加,以增加通道数的方式结合前面所得到的特征,保留不同尺度卷积核提取到的特征,以实现较好的性能。
多尺度跳跃连接模块每一个卷积后的输出为:
Fa n×n为卷积大小为n×n的第一个卷积层输出,可以表示为:
Fa 3×3= Conv3×3(Fin; θa 3×3);
Fa 5×5= Conv5×5(Fin; θa 5×5);
Fa 7×7= Conv7×7(Fin; θa 7×7);
其中:Fin为输入多尺度跳跃连接模块的原始图像,Convn×n(·)为卷积运算,θa n×n表示卷积核大小为n×n的第一个多尺度卷积形成的超参数。
Fb n×n为卷积大小为n×n的第二个卷积层输出,可以表示为:
Fb 3×3= Conv3×3((Fa 3×3+Fa 5×5+Fa 7×7); θb 3×3);
Fb 5×5= Conv5×5((Fa 3×3+Fa 5×5+Fa 7×7); θb 5×5);
Fb 7×7= Conv7×7((Fa 3×3+Fa 5×5+Fa 7×7) ; θb 7×7);
Fc n×n为卷积大小为n×n的第三个卷积层输出,可以表示为:
Fc 3×3= Conv3×3((Fb 3×3+Fb 5×5+Fb 7×7); θc 3×3);
Fc 5×5= Conv5×5((Fb 3×3+Fb 5×5+Fb 7×7); θc 5×5);
Fc 7×7= Conv7×7((Fb 3×3+Fb 5×5+Fb 7×7) ; θc 7×7);
对于去雾问题,关键是要充分利用雾的特征,并将其转移到最后进行去雾。随着网络深度的增加,在传输过程中空间表达能力逐渐降低,并无目的地产生大量冗余特征,直接影响了去雾质量。分层注意力蒸馏模块由空间注意力模块和通道注意力模块并联组成,其结构见图7,利用双注意单元分别学习空间的重要性和通道的重要性,将输出结果相加,既保留了空间又保留上下文信息,又通过使用分层注意力融合减少了不必要的特征,只允许信息特征进一步传递,消除冗余特征,实现特征蒸馏,并且容易嵌入到框架中。
通道注意力模块的结构,如图8所示,具体操作如下:首先,将输入的特征图F(H×W×C,H表示高,W表示宽,C表示通道数)分别经过基于H和W两个维度的全局最大池化层(MaxPool)和全局平均池化层(AvgPool),得到两个1×1×C的特征图;然后将两个特征图送入一个共享权值的双层神经网络(MLP)进行通道间依赖关系的学习,两层神经层之间通过压缩比r实现降维。最后,将MLP输出的特征进行相加融合,再经过sigmoid激活操作,生成最终的通道加权M,挖掘特征上下文信息和层次特征之间的关系。
通道注意力模块计算公式为:
M(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))),其中σ表示sigmoid。
空间注意力模块的结构,如图9所示,具体操作如下:首先,将输入的特征图F(H×W×C,H:高,W:宽,C:通道数)分别经过基于C维度的最大池化层(MaxPool)和平均池化层(AvgPool),得到两个H×W×1的特征图;然后将两个H×W×1的特征图基于通道维度进行拼接,拼接后的特征图再使用7×7卷积层进行通道降维。最后经过sigmoid激活操作,生成空间维度的权重M,学习不同空间元素之间的依赖关系。
空间注意力模块计算公式为:
M(F)=σ(f7×7([AvgPool(F);MaxPool(F)])),其中σ表示sigmoid,f7×7表示7×7卷积层。
本发明公开了图像处理领域的一种基于堆叠沙漏网络的多尺度融合去雾方法。该方法通过使用堆叠的沙漏网络来从不同尺度进行特征提取,从而生成热图;再利用跳跃连接的方法构建一种新的多尺度融合去雾模块;最后增加带有注意力机制的分层蒸馏结构去除冗余信息,得到去雾后的图像。
本发明旨在解决现有神经网络不能同时有效地捕捉到局部和全局特征的问题,虽然已有模型在去雾效果上有很大进展,但在充分利用多尺度雾特征和恢复结构细节方面存在不足,且很少有人尝试保存空间特征和消除冗余信息。而本发明中的沙漏网络有多个平行的预测分支,堆叠后与多尺度融合模块相结合,最后经过分层蒸馏结构减少无用特征,因此可以更好的混合全局和局部信息,具有高度的灵活性,另外其引起的空间连续性对浓雾图像和真实场景有更好的分析能力,在描述复杂结构方面同样可以表现出色,尽可能完整地保留纹理细节,很大程度上提高了图像去雾的质量,使去雾的视觉效果更加真实自然,有效提升了网络性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:包括如下步骤:
将有雾图像输入预先设置好的图像去雾网络;
有雾图像经图像去雾网络处理后,输出去雾后的清晰图像;
所述图像去雾网络为依次连接的一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。
2.根据权利要求1所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述堆叠沙漏模块由N个四阶沙漏模块串联组成,所述四阶沙漏模块包含五个并行卷积流:最内层卷积流处理原始尺度,倒数第二层至最外层卷积流分别向下采样至1/2、1/4、1/8和1/16,五个卷积流在不同分辨率组中进行特征提取,再通过残差模块传递各个分辨率的特征,最后再通过上采样操作层恢复到原始尺度并进行融合。
3.根据权利要求2所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述四阶沙漏模块将三阶沙漏模块第四行中间残差模块替换成一阶沙漏模块,所述三阶沙漏模块是将二阶沙漏模块第三行中间残差模块替换成一阶沙漏模块,所述二阶沙漏模块是将一阶沙漏模块第二行中间的残差模块替换成一阶沙漏模块,所述一阶沙漏模块由两行组成,第一行包含一个残差模块,第二行依次由一个最大池化层、三个残差模块和一个上采样操作层组成;第一行与第二行进行特征融合后输出。
4.根据权利要求3所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述残差模块由两行组成,第一行是跳级层,包括一个1×1卷积层;第二行是卷积层,依次为BN层、Relu层、1×1的卷积层、BN层、Relu层、3×3的卷积层、BN层、Relu层和1×1的卷积层;跳级层和卷积层输出端进行特征融合后输出。
5.根据权利要求2所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述N设置为8。
6.根据权利要求1所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述多尺度跳跃连接模块包括:第一行由三个3×3的卷积层和Relu层相串联而成,第二行由三个5×5的卷积层和Relu层相串联而成,第三行由三个7×7的卷积层和Relu层相串联而成;每一行的第一个3×3的卷积层和Relu层的输出,分别作为每一行的第二个3×3的卷积层和Relu层的输入,每一行的第二个3×3的卷积层和Relu层的输出,分别作为每一行的第三个3×3的卷积层和Relu层的输入,将每一行第三个3×3的卷积层和Relu层的输出通过Contact融合后输出。
7.根据权利要求1所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述分层注意力蒸馏模块包括通道注意力模块,空间注意力模块,通道注意力模块,空间注意力模块的输出通过融合后输出。
8.根据权利要求7所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述通道注意力模块将输入的特征图F(H×W×C,H表示高,W表示宽,C表示通道数)分别经过H维度的全局最大池化层和W维度的全局平均池化层,得到两个1×1×C的特征图;将两个特征图送入一个共享权值的双层神经网络进行通道间依赖关系的学习,将MLP输出的特征进行相加融合,再经过sigmoid激活操作,生成最终的通道加权M。
9.根据权利要求7所述的一种基于堆叠沙漏网络的多尺度融合去雾方法,其特征在于:
所述空间注意力模块将输入的特征图F(H×W×C,H:高,W:宽,C:通道数)分别经过基于C维度的最大池化层和平均池化层,得到两个H×W×1的特征图;将两个H×W×1的特征图基于通道维度进行拼接,拼接后的特征图再使用7×7卷积层进行通道降维;
最后经过sigmoid激活操作,生成空间维度的权重M。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211007029.3A CN115330631A (zh) | 2022-08-22 | 2022-08-22 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
PCT/CN2023/086215 WO2024040973A1 (zh) | 2022-08-22 | 2023-04-04 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
US18/312,168 US20240062347A1 (en) | 2022-08-22 | 2023-05-04 | Multi-scale fusion defogging method based on stacked hourglass network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211007029.3A CN115330631A (zh) | 2022-08-22 | 2022-08-22 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115330631A true CN115330631A (zh) | 2022-11-11 |
Family
ID=83925717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211007029.3A Pending CN115330631A (zh) | 2022-08-22 | 2022-08-22 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115330631A (zh) |
WO (1) | WO2024040973A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024040973A1 (zh) * | 2022-08-22 | 2024-02-29 | 南京邮电大学 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839543B2 (en) * | 2019-02-26 | 2020-11-17 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
CN110738622A (zh) * | 2019-10-17 | 2020-01-31 | 温州大学 | 基于多尺度卷积的轻量级神经网络单图像去雾方法 |
CN113450273B (zh) * | 2021-06-18 | 2022-10-14 | 暨南大学 | 一种基于多尺度多阶段神经网络的图像去雾方法及系统 |
CN113673590B (zh) * | 2021-08-13 | 2022-12-23 | 广东工业大学 | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 |
CN113947537A (zh) * | 2021-09-17 | 2022-01-18 | 南京邮电大学 | 图像去雾方法、装置及设备 |
CN114492522B (zh) * | 2022-01-24 | 2023-04-28 | 四川大学 | 基于改进堆叠沙漏神经网络的自动调制分类方法 |
CN115330631A (zh) * | 2022-08-22 | 2022-11-11 | 南京邮电大学 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
-
2022
- 2022-08-22 CN CN202211007029.3A patent/CN115330631A/zh active Pending
-
2023
- 2023-04-04 WO PCT/CN2023/086215 patent/WO2024040973A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024040973A1 (zh) * | 2022-08-22 | 2024-02-29 | 南京邮电大学 | 一种基于堆叠沙漏网络的多尺度融合去雾方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024040973A1 (zh) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111311490B (zh) | 基于多帧融合光流的视频超分辨率重建方法 | |
Dong et al. | Multi-scale boosted dehazing network with dense feature fusion | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN112435191B (zh) | 一种基于多个神经网络结构融合的低照度图像增强方法 | |
CN111179167A (zh) | 一种基于多阶段注意力增强网络的图像超分辨方法 | |
CN113362225B (zh) | 基于残差递归补偿和特征融合的多描述压缩图像增强方法 | |
Chen et al. | Single-image super-resolution using multihypothesis prediction | |
CN112102163A (zh) | 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法 | |
CN117058160B (zh) | 基于自适应特征融合网络的三维医学图像分割方法及系统 | |
CN111833261A (zh) | 一种基于注意力的生成对抗网络的图像超分辨率复原方法 | |
CN113902620A (zh) | 一种基于可变形卷积网络的视频超分辨率系统及方法 | |
CN110782458A (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 | |
CN115330631A (zh) | 一种基于堆叠沙漏网络的多尺度融合去雾方法 | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN116468605A (zh) | 基于时空分层掩膜注意力融合的视频超分辨率重建方法 | |
CN113362239A (zh) | 一种基于特征交互的深度学习图像修复方法 | |
CN117408924A (zh) | 一种基于多重语义特征融合网络的低光照图像增强方法 | |
CN112862675A (zh) | 时空超分辨率的视频增强方法和系统 | |
CN117391920A (zh) | 基于rgb通道差分平面的大容量隐写方法及系统 | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
WO2023185284A1 (zh) | 视频处理方法和装置 | |
CN116468625A (zh) | 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统 | |
CN115564664A (zh) | 基于融合双边重组注意力的二阶段Transformer编解码器的去运动模糊方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |