CN115330631A

CN115330631A - 一种基于堆叠沙漏网络的多尺度融合去雾方法

Info

Publication number: CN115330631A
Application number: CN202211007029.3A
Authority: CN
Inventors: 张登银; 赵乾; 王敬余
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-11
Also published as: WO2024040973A1

Abstract

本发明公开了一种基于堆叠沙漏网络的多尺度融合去雾方法，将有雾图像输入预先设置好的图像去雾网络；有雾图像经图像去雾网络处理后，输出去雾后的清晰图像；所述图像去雾网络为依次连接的一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。本发明可应用于各种计算机视觉系统，例如图像识别、视频监控、工业视觉检测等，可以降低大量的人工成本，大幅提升图像质量和服务效率，目的是保证更好地服务客户，使最终的去雾结果能满足高级别图像处理的要求并符合人类的视觉要求。

Description

一种基于堆叠沙漏网络的多尺度融合去雾方法

技术领域

本发明涉及一种基于堆叠沙漏网络的多尺度融合去雾方法，属于图像处理技术领域。

背景技术

视觉是人类获取信息最直观的方式，随着人工智能的发展，计算机视觉被广泛应用到我们生活的各个领域。但由于大气污染问题，采集的照片清晰度会受到影响，呈现对比度降低，图像模糊，可提取的特征严重不足的特点。而图像视频作为人们获取信息的主要来源，它的质量严重影响着信息的读取与判断，且高级别的图像处理对于输入图像的质量也有着较高的要求。因此，研究高质、快速、普适的去雾原理与方法具有很高的理论意义和应用价值。

图像去雾的目的是消除雾霾环境对图像质量的影响，增加图像的可视度，其方法主要可以分为三种，一种是基于图像增强算法，即对被降质的图像进行增强，改善图像的质量，突出图像中景物的特征和有价值的信息。但这种方法不考虑导致图像退化的原因，处理后可能会导致图像部分信息的损失，出现失真现象。第二种是基于大气退化模型的方法，即利用无雾图像的先验知识对模型中的参数进行估计，然后将参数代入模型进而恢复无雾图像，该方法处理得到的无雾图像更加清晰、自然，细节损失较少，但不同的先验知识存在着各自应用场景的局限性。第三种是基于深度学习的方法，即通过训练数据集估计透射率，或者利用输入的有雾图像，直接输出得到去雾后的图像。目前最新的去雾方法更倾向于后者，但这种方法存在需要估计参数以及估计参数多、特征不够丰富导致的去雾效率低、质量差等局限性。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于堆叠沙漏网络的多尺度融合去雾方法，通过构建并结合多个网络来完成学习任务。先利用堆叠沙漏网络实现特征提取，再经过多尺度模块进行特征融合，获得比单一网络显著优越的泛化性能。在网络优化过程中，使用双层注意力模块提升移动网络的卷积特征表达能力。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种基于堆叠沙漏网络的多尺度融合去雾方法，包括如下步骤：

将有雾图像输入预先设置好的图像去雾网络。

有雾图像经图像去雾网络处理后，输出去雾后的清晰图像。

所述图像去雾网络为依次连接的一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。

作为优选方案，所述堆叠沙漏模块由N个四阶沙漏模块串联组成，所述四阶沙漏模块包含五个并行卷积流：最内层卷积流处理原始尺度，倒数第二层至最外层卷积流分别向下采样至1/2、1/4、1/8和1/16，五个卷积流在不同分辨率组中进行特征提取，再通过残差模块传递各个分辨率的特征，最后再通过上采样操作层恢复到原始尺度并进行融合。

作为优选方案，所述四阶沙漏模块将三阶沙漏模块第四行中间残差模块替换成一阶沙漏模块，所述三阶沙漏模块是将二阶沙漏模块第三行中间残差模块替换成一阶沙漏模块，所述二阶沙漏模块是将一阶沙漏模块第二行中间的残差模块替换成一阶沙漏模块，所述一阶沙漏模块由两行组成，第一行包含一个残差模块，第二行依次由一个最大池化层、三个残差模块和一个上采样操作层组成。第一行与第二行进行特征融合后输出。

作为优选方案，所述残差模块由两行组成，第一行是跳级层，包括一个1×1卷积层。第二行是卷积层，依次为BN层、Relu层、1×1的卷积层、BN层、Relu层、3×3的卷积层、BN层、Relu层和1×1的卷积层。跳级层和卷积层输出端进行特征融合后输出。

作为优选方案，所述N设置为8。

作为优选方案，所述多尺度跳跃连接模块包括：第一行由三个3×3的卷积层和Relu层相串联而成，第二行由三个5×5的卷积层和Relu层相串联而成，第三行由三个7×7的卷积层和Relu层相串联而成。每一行的第一个3×3的卷积层和Relu层的输出，分别作为每一行的第二个3×3的卷积层和Relu层的输入，每一行的第二个3×3的卷积层和Relu层的输出，分别作为每一行的第三个3×3的卷积层和Relu层的输入，将每一行第三个3×3的卷积层和Relu层的输出通过Contact融合后输出。

作为优选方案，所述分层注意力蒸馏模块包括通道注意力模块，空间注意力模块，通道注意力模块，空间注意力模块的输出通过融合后输出。

作为优选方案，所述通道注意力模块将输入的特征图F(H×W×C，H表示高，W表示宽，C表示通道数)分别经过H维度的全局最大池化层和W维度的全局平均池化层，得到两个1×1×C的特征图；将两个特征图送入一个共享权值的双层神经网络进行通道间依赖关系的学习，将MLP输出的特征进行相加融合，再经过sigmoid激活操作，生成最终的通道加权M。

作为优选方案，所述空间注意力模块将输入的特征图F(H×W×C，H：高，W：宽，C：通道数)分别经过基于C维度的最大池化层和平均池化层，得到两个H×W×1的特征图；将两个H×W×1的特征图基于通道维度进行拼接，拼接后的特征图再使用7×7卷积层进行通道降维。最后经过sigmoid激活操作，生成空间维度的权重M。

有益效果：本发明提供的一种基于堆叠沙漏网络的多尺度融合去雾方法，以解决现有采用基于深度学习的图像去雾方法所面临的需要估计参数以及估计参数多、特征不够丰富导致的去雾效率低、质量差等问题。

本发明属于端对端去雾，将有雾图像输入到上述网络中，可以直接输出无雾图像。由于使用堆叠沙漏模块和多尺度跳跃连接模块，可以解决现有神经网络不能同时有效地捕捉到局部和全局特征的问题；引入分层注意力蒸馏模块，对网络结构进行优化，保留空间和上下文信息并提取出更有用的层次特征。能够在充分利用多尺度雾特征和恢复结构细节方面有明显进展，提高生成图片的质量。

本发明先采用堆叠沙漏网络重复地自下而上、自上而下地在各种尺度上捕获特征，再利用多尺度跳跃连接的方法对信息进行重复融合，最后结合双层注意力机制，避免特征消失，且去除不必要的特征，以实现全面的特征聚合，提高去雾性能。本发明可应用于各种计算机视觉系统，例如图像识别、视频监控、工业视觉检测等，可以降低大量的人工成本，大幅提升图像质量和服务效率，目的是保证更好地服务客户，使最终的去雾结果能满足高级别图像处理的要求并符合人类的视觉要求。

附图说明

图1为本发明方法实施的整体流程图。

图2为四阶沙漏模块采样规律的网络架构示意图。

图3为残差模块的网络架构示意图。

图4为一阶沙漏模块的网络架构示意图。

图5为四阶沙漏模块的网络架构示意图。

图6为多尺度跳跃连接模块的网络架构示意图。

图7为分层注意力蒸馏模块的网络架构示意图。

图8为通道注意力模块的实施流程图。

图9为空间注意力模块的实施流程图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

如图1所示，本发明公开了一种基于堆叠沙漏网络的多尺度融合去雾方法，当有雾图像输入后，进入图像去雾网络，直接输出去雾后的清晰图像。

图像去雾网络依次为一个7×7的卷积层、堆叠沙漏模块、特征融合、多尺度跳跃连接模块、一个1×1的卷积层、一个3×3的卷积层、分层注意力蒸馏模块、一个3×3的卷积层和1×1的卷积层。

其中，7×7的卷积层用于将原始的有雾图像进行第一步处理，形成初始特征图像。特征融合设置为相加运算，用于特征相加。多尺度跳跃连接模块后的1×1的卷积层用于调整通道数，调整经过contact之后变化的通道数，并获取低频特征信息。多尺度跳跃连接模块后的3×3的卷积层用于获取高频特征信息。分层注意力蒸馏模块后的3×3的卷积层和1×1的卷积层用于实现特征的修饰或者辅助作用。

堆叠沙漏模块由N个四阶沙漏模块串联组成，本发明优选N=4、6、8、10时， PSNR(峰值信噪比)=27.28、27.96、28.35、28.37，SSIM(机构相似度)=0.9122、0.9180、0.9217、0.9214。这两个指标都是越大越好，但是N从4到8时，变化明显，N从8到10时，PSNR上升不明显且SSIM降低，因此，本发明N选用最优值8。

如图2所示，所述四阶沙漏模块通过并行结构整合紧密连接的残块模块、最大池化层、上采样操作层和残差融合，形成对称拓扑结构，每个尺度都是先自上而下，再有一个相应的自底而上的层，使之达到一种重复自上而下，自下而上提取特征的目的。方块大小表示特征图大小，方块变小表示下采样，方块变大表示上采样，加号表示按元素相加。

具体流程如下：四阶沙漏模块包含五个并行卷积流：最内层卷积流处理原始尺度，倒数第二层至最外层卷积流分别向下采样至1/2、1/4、1/8和1/16，五个卷积流在不同分辨率组中进行特征提取，再通过残差模块传递各个分辨率的特征，最后再通过上采样操作层恢复到原始尺度并进行融合，即将不同分辨率的特征按元素位置进行相加，因此能够在多个尺度上提取并保留特征信息，达到同时保留局部特征和全局特征的效果。

所述残差模块是一阶沙漏模块的基本组成单元，具体网络架构见图3。残差模块由两行组成，第一行是跳级层，包括一个1×1卷积层（Conv），用于保留原有层次的信息。第二行是卷积层，用于提取特征，依次为BN层、Relu层、1×1的卷积层、BN层、Relu层、3×3的卷积层、BN层、Relu层和1×1的卷积层。跳级层和卷积层输出端进行特征融合后输出。

第二行的卷积层，由BN层先对信号进行归一化处理，经过Relu层使主路径增加非线性，再经过1×1的卷积层起到降维的作用，且降维之后可以更有效、更直观地进行数据训练和特征提取，接着再次经过BN层和Relu层，再经过3×3的卷积层进行相对较低维度的计算，提高网络深度且提高效率，接着第三次经过BN层和Relu层，再次经过1×1的卷积层起到升维的作用，最后与跳级层进行特征融合，不改变数据尺寸只提高数据深度。

一阶沙漏模块由两行组成，具体网络架构见图4。第一行只包含一个残差模块，第二行依次由一个最大池化层（Max Pool）用于对特征图进行下采样，以获得分辨率较低的特征图，降低计算复杂度、三个残差模块和一个上采样操作层（Up Sample）用于采用最近邻插值的方法对特征图进行下采样，使图像特征的分辨率提高，目的是保持与输入图像大小一致。第一行与第二行进行特征融合后输出，使得输出的结果既包含了原始分辨率的特征，也包含了下采样后分辨率下降至1/2的特征。

二阶沙漏模块是将一阶沙漏模块第二行中间的残差模块替换成一阶沙漏模块，三阶沙漏模块是将二阶沙漏模块第三行中间残差模块替换成一阶沙漏模块，四阶沙漏模块是将三阶沙漏模块第四行中间残差模块替换成一阶沙漏模块，以此类推，形成递归结构，如图5所示。

如图6所示，所述多尺度跳跃连接模块包括：三种不同大小卷积核的卷积运算加入激活函数组成，第一行由三个3×3的卷积层和Relu层相串联而成，第二行由三个5×5的卷积层和Relu层相串联而成，第三行由三个7×7的卷积层和Relu层相串联而成。每一行的第一个3×3的卷积层和Relu层的输出，分别作为每一行的第二个3×3的卷积层和Relu层的输入，每一行的第二个3×3的卷积层和Relu层的输出，分别作为每一行的第三个3×3的卷积层和Relu层的输入，将每一行第三个3×3的卷积层和Relu层的输出通过Contact融合。

使用不同大小的卷积核能够在不同的特征尺度进行提取，获得深层的细节信息，此外，为了保证卷积后的特征图与原始雾图大小不发生变化，其中的卷积运算采用零填充方式。在卷积运算之后引入激活函数，将卷积层的输出结果做非线性运算，使卷积神经网络获得解决复杂问题的能力，同时提高卷积神经网络对非线性因素的鲁棒性。在选择激活函数时，采用带泄露线性整流单元Leaky ReLU，其函数图像在分段区间是线性函数，整体是非线性函数，值域是全部实数集，能够提高网络收敛速度。

但在连接方式上本发明有所创新，不是简单的将三组不同大小的卷积核做并行卷积运算，而是采用跳跃连接的方式，将本行上一个3×3的卷积层和Relu层输出的结果除了输出给串联的下一个3×3的卷积层和Relu层外，还输出给另外两行下一个3×3的卷积层和Relu层，因此每行中下一个3×3的卷积层和Relu层的输入都是将上一个3×3的卷积层和Relu层不同大小卷积核的输出分别相加，以实现多尺度的信息融合。

每一行卷积核运算后得到3个特征图，将第三个3×3的卷积层和Relu层输出的三个特征图通过Contact融合，即将三个特征图的通道数相加，而每一个通道下的信息不相加，以增加通道数的方式结合前面所得到的特征，保留不同尺度卷积核提取到的特征，以实现较好的性能。

多尺度跳跃连接模块每一个卷积后的输出为：

F_a ^n×n为卷积大小为n×n的第一个卷积层输出，可以表示为：

F_a ^3×3= Conv_3×3(F_in; θ_a ^3×3)；

F_a ^5×5= Conv_5×5(F_in; θ_a ^5×5)；

F_a ^7×7= Conv_7×7(F_in; θ_a ^7×7)；

其中：F_in为输入多尺度跳跃连接模块的原始图像，Conv_n×n(·)为卷积运算，θ_a ^n×n表示卷积核大小为n×n的第一个多尺度卷积形成的超参数。

F_b ^n×n为卷积大小为n×n的第二个卷积层输出，可以表示为：

F_b ^3×3= Conv_3×3((F_a ^3×3+F_a ^5×5+F_a ^7×7); θ_b ^3×3)；

F_b ^5×5= Conv_5×5((F_a ^3×3+F_a ^5×5+F_a ^7×7); θ_b ^5×5)；

F_b ^7×7= Conv_7×7((F_a ^3×3+F_a ^5×5+F_a ^7×7) ; θ_b ^7×7)；

F_c ^n×n为卷积大小为n×n的第三个卷积层输出，可以表示为：

F_c ^3×3= Conv_3×3((F_b ^3×3+F_b ^5×5+F_b ^7×7); θ_c ^3×3)；

F_c ^5×5= Conv_5×5((F_b ^3×3+F_b ^5×5+F_b ^7×7); θ_c ^5×5)；

F_c ^7×7= Conv_7×7((F_b ^3×3+F_b ^5×5+F_b ^7×7) ; θ_c ^7×7)；

对于去雾问题，关键是要充分利用雾的特征，并将其转移到最后进行去雾。随着网络深度的增加，在传输过程中空间表达能力逐渐降低，并无目的地产生大量冗余特征，直接影响了去雾质量。分层注意力蒸馏模块由空间注意力模块和通道注意力模块并联组成，其结构见图7，利用双注意单元分别学习空间的重要性和通道的重要性，将输出结果相加，既保留了空间又保留上下文信息，又通过使用分层注意力融合减少了不必要的特征，只允许信息特征进一步传递，消除冗余特征，实现特征蒸馏，并且容易嵌入到框架中。

通道注意力模块的结构，如图8所示，具体操作如下：首先，将输入的特征图F(H×W×C，H表示高，W表示宽，C表示通道数)分别经过基于H和W两个维度的全局最大池化层(MaxPool)和全局平均池化层(AvgPool)，得到两个1×1×C的特征图；然后将两个特征图送入一个共享权值的双层神经网络(MLP)进行通道间依赖关系的学习，两层神经层之间通过压缩比r实现降维。最后，将MLP输出的特征进行相加融合，再经过sigmoid激活操作，生成最终的通道加权M，挖掘特征上下文信息和层次特征之间的关系。

通道注意力模块计算公式为：

M(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))，其中σ表示sigmoid。

空间注意力模块的结构，如图9所示，具体操作如下：首先，将输入的特征图F(H×W×C，H：高，W：宽，C：通道数)分别经过基于C维度的最大池化层(MaxPool)和平均池化层(AvgPool)，得到两个H×W×1的特征图；然后将两个H×W×1的特征图基于通道维度进行拼接，拼接后的特征图再使用7×7卷积层进行通道降维。最后经过sigmoid激活操作，生成空间维度的权重M，学习不同空间元素之间的依赖关系。

空间注意力模块计算公式为：

M(F)=σ(f^7×7([AvgPool(F)；MaxPool(F)]))，其中σ表示sigmoid，f^7×7表示7×7卷积层。

本发明公开了图像处理领域的一种基于堆叠沙漏网络的多尺度融合去雾方法。该方法通过使用堆叠的沙漏网络来从不同尺度进行特征提取，从而生成热图；再利用跳跃连接的方法构建一种新的多尺度融合去雾模块；最后增加带有注意力机制的分层蒸馏结构去除冗余信息，得到去雾后的图像。

本发明旨在解决现有神经网络不能同时有效地捕捉到局部和全局特征的问题，虽然已有模型在去雾效果上有很大进展，但在充分利用多尺度雾特征和恢复结构细节方面存在不足，且很少有人尝试保存空间特征和消除冗余信息。而本发明中的沙漏网络有多个平行的预测分支，堆叠后与多尺度融合模块相结合，最后经过分层蒸馏结构减少无用特征，因此可以更好的混合全局和局部信息，具有高度的灵活性，另外其引起的空间连续性对浓雾图像和真实场景有更好的分析能力，在描述复杂结构方面同样可以表现出色，尽可能完整地保留纹理细节，很大程度上提高了图像去雾的质量，使去雾的视觉效果更加真实自然，有效提升了网络性能。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：包括如下步骤：

将有雾图像输入预先设置好的图像去雾网络；

有雾图像经图像去雾网络处理后，输出去雾后的清晰图像；

2.根据权利要求1所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述堆叠沙漏模块由N个四阶沙漏模块串联组成，所述四阶沙漏模块包含五个并行卷积流：最内层卷积流处理原始尺度，倒数第二层至最外层卷积流分别向下采样至1/2、1/4、1/8和1/16，五个卷积流在不同分辨率组中进行特征提取，再通过残差模块传递各个分辨率的特征，最后再通过上采样操作层恢复到原始尺度并进行融合。

3.根据权利要求2所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述四阶沙漏模块将三阶沙漏模块第四行中间残差模块替换成一阶沙漏模块，所述三阶沙漏模块是将二阶沙漏模块第三行中间残差模块替换成一阶沙漏模块，所述二阶沙漏模块是将一阶沙漏模块第二行中间的残差模块替换成一阶沙漏模块，所述一阶沙漏模块由两行组成，第一行包含一个残差模块，第二行依次由一个最大池化层、三个残差模块和一个上采样操作层组成；第一行与第二行进行特征融合后输出。

4.根据权利要求3所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述残差模块由两行组成，第一行是跳级层，包括一个1×1卷积层；第二行是卷积层，依次为BN层、Relu层、1×1的卷积层、BN层、Relu层、3×3的卷积层、BN层、Relu层和1×1的卷积层；跳级层和卷积层输出端进行特征融合后输出。

5.根据权利要求2所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述N设置为8。

6.根据权利要求1所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述多尺度跳跃连接模块包括：第一行由三个3×3的卷积层和Relu层相串联而成，第二行由三个5×5的卷积层和Relu层相串联而成，第三行由三个7×7的卷积层和Relu层相串联而成；每一行的第一个3×3的卷积层和Relu层的输出，分别作为每一行的第二个3×3的卷积层和Relu层的输入，每一行的第二个3×3的卷积层和Relu层的输出，分别作为每一行的第三个3×3的卷积层和Relu层的输入，将每一行第三个3×3的卷积层和Relu层的输出通过Contact融合后输出。

7.根据权利要求1所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述分层注意力蒸馏模块包括通道注意力模块，空间注意力模块，通道注意力模块，空间注意力模块的输出通过融合后输出。

8.根据权利要求7所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述通道注意力模块将输入的特征图F(H×W×C，H表示高，W表示宽，C表示通道数)分别经过H维度的全局最大池化层和W维度的全局平均池化层，得到两个1×1×C的特征图；将两个特征图送入一个共享权值的双层神经网络进行通道间依赖关系的学习，将MLP输出的特征进行相加融合，再经过sigmoid激活操作，生成最终的通道加权M。

9.根据权利要求7所述的一种基于堆叠沙漏网络的多尺度融合去雾方法，其特征在于：

所述空间注意力模块将输入的特征图F(H×W×C，H：高，W：宽，C：通道数)分别经过基于C维度的最大池化层和平均池化层，得到两个H×W×1的特征图；将两个H×W×1的特征图基于通道维度进行拼接，拼接后的特征图再使用7×7卷积层进行通道降维；

最后经过sigmoid激活操作，生成空间维度的权重M。