CN116912130A - 基于多感受野特征融合和混合注意力的图像去雾方法 - Google Patents

基于多感受野特征融合和混合注意力的图像去雾方法 Download PDF

Info

Publication number
CN116912130A
CN116912130A CN202311076587.XA CN202311076587A CN116912130A CN 116912130 A CN116912130 A CN 116912130A CN 202311076587 A CN202311076587 A CN 202311076587A CN 116912130 A CN116912130 A CN 116912130A
Authority
CN
China
Prior art keywords
module
feature
receptive field
error feedback
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311076587.XA
Other languages
English (en)
Inventor
邸拴虎
徐昕
张兴龙
方强
廖苗
郭娟秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202311076587.XA priority Critical patent/CN116912130A/zh
Publication of CN116912130A publication Critical patent/CN116912130A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种基于多感受野特征融合和混合注意力的图像去雾方法。方法包括:构建图像去雾网络;图像去雾网络包括编码器、特征提取模块、跳跃连接模块和解码器;编码器包括卷积层、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块;特征提取模块包括多个多感受野特征增强模块;解码器包括多感受野特征增强模块、第三误差反馈模块、第四误差反馈模块和卷积层;跳跃连接模块包括混合注意力模块和卷积模块;根据训练数据集对图像去雾网络进行训练,直至预先设置的混合损失函数收敛,得到训练好的图像去雾网络;利用训练好的图像去雾网络对待处理的有雾图像进行去雾,得到去雾后的图像。采用本方法能够提高去雾后的图像准确率。

Description

基于多感受野特征融合和混合注意力的图像去雾方法
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于多感受野特征融合和混合注意力的图像去雾方法。
背景技术
近年来,绿化减少、空气污染加剧等因素导致大雾天气频发。大雾环境下,大气中的悬浮颗粒会对可见光产生散射和吸收作用。该气候条件下采集拍摄的图像往往遭受严重的色彩失真和细节退化,且无法直接用于进一步的高级视觉任务,如目标检测、图像分类、语义分割等。为了去除雾,提高图像质量,获得对比度高、细节清晰的图像,国内外学者们提出了多种去雾算法。根据去雾原理的不同,现有去雾方法主要可分为以下三类:基于图像增强、物理模型和深度学习的方法。基于图像增强的去雾方法主要通过直接修改图像对比度或饱和度增强图像中的有用信息,达到提升图像质量、去除雾的目的。该类方法未考虑图像降质的原因,仅依靠增强图像来改善雾图视觉效果,往往会造成去雾后图像失真、去雾效果欠佳等问题。基于物理模型的方法通常以大气散射模型为基础,通过估计雾图成像过程中的传输率和大气光,实现图像去雾。由于依赖先验知识,且需要人工提取雾图中的特征信息,该类方法的鲁棒性通常较差,一旦对雾图成像过程中传输率和大气光的估计出现偏差,将导致去雾不彻底、细节丢失或图像偏色等问题。
近年来,随着GPU算力的提高及大型去雾数据集的建立,基于深度学习的图像去雾已成为了研究的热点。基于深度学习的去雾方法不涉及雾图先验理论模型构建,可通过自动学习图像特征达到去雾目的。近年来,基于深度学习的去雾方法通常依赖于复杂的训练策略和大量的超参数优化,提升模型的表达能力。此外,目前大部分深度学习方法对不同网络层特征信息缺乏充分的提取与利用,这将导致去雾后图像存在结构信息缺失和颜色失真等现象。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高去雾后的图像准确率的基于多感受野特征融合和混合注意力的图像去雾方法。
一种基于多感受野特征融合和混合注意力的图像去雾方法,所述方法包括:
获取训练数据集;训练数据集包括多个有雾图像和有雾图像对应的无雾图像;
构建图像去雾网络;图像去雾网络包括编码器、特征提取模块、跳跃连接模块和解码器;编码器包括卷积层、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块;特征提取模块包括多个多感受野特征增强模块;解码器包括多感受野特征增强模块、第三误差反馈模块、第四误差反馈模块和卷积层;跳跃连接模块包括两层带有混合注意力模块的跳跃连接;
根据训练数据集对图像去雾网络进行训练,直至预先设置的混合损失函数收敛,得到训练好的图像去雾网络;
利用训练好的图像去雾网络对待处理的有雾图像进行去雾,得到去雾后的图像。
在其中一个实施例中,编码器用于根据卷积层将输入图像映射至高维特征空间,得到第一特征图,运用多感受野增强模块对第一特征图进行处理,将得到的特征图先后进行两次下采样,并在每次下采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,第一特征图不仅作为其后连接的多感受野特征增强模块的输入、还作为第一误差反馈模块和第二误差反馈模块的输入,第一误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第二误差反馈模块的输入,处于编码器末端的多感受野特征增强模块的输出为编码后的特征图。
在其中一个实施例中,特征提取模块由多个多感受野特征增强模块级联组成;特征提取模块用于对编码后的特征图进行图像高级语义特征提取,得到特征提取后的特征图;特征提取后的特征图包括自适应融合后的特征;多感受野特征增强模块包括三层类金字塔卷积结构,第一层包含一个大小为3×3、步长为1的卷积层,第二层包含两个级联的大小为3×3、步长为1的卷积层,第三层包含三个级联的大小为3×3、步长为1的卷积层;多感受野特征增强模块用于根据三层类金字塔卷积结构进行特征提取并对提取到的特征进行加权融合,得到加权融合后的特征,对加权融合后的特征进行大小为3×3、步长为1的卷积操作,得到精炼后的特征。
在其中一个实施例中,利用通道注意力机制将多感受野特征增强模块的输入特征与精炼后的特征进行自适应融合,得到自适应融合后的特征为
其中,表示特征Fout的第j个通道,Fin和Fr分别表示输入特征与精炼后的特征,具有相同的通道数,通道数由NC表示,/>和/>分别表示Fr和Fin的第j个通道,/>和/>分别表示/>和/>的注意力权重,在网络训练过程中自动获取。
在其中一个实施例中,解码器用于根据多感受野特征增强模块对特征提取模块输出的特征图进行特征提取,得到第二特征图,对第二特征图先后进行两次上采样并在每次上采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,其中第一次上采样和第二次上采样之后连接的误差反馈模块,分别为第三误差反馈模块和第四误差反馈模块,在每次上采样前部署一个相加操作,将上采样操作之前的多感受野特征增强模块的输出与跳跃连接模块的输出进行相加融合,得到上采样后的特征图;根据误差反馈模块和多感受野特征增强模块分别对两次上采样后的特征图进行误差反馈和多感受野特征增强,得到最终的特征图;根据卷积层对最终的特征图进行重建,得到去雾图像;其中,特征提取模块输出的特征图不仅作为解码器中与其连接的多感受野特征增强模块的输入、还作为第三误差反馈模块和第四误差反馈模块的输入,第三误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第四误差反馈模块的输入。
在其中一个实施例中,跳跃连接模块的输出包括第一跳跃连接特征和第二跳跃连接特征;跳跃连接模块包含两层带有混合注意力模块的跳跃连接,第一层跳跃连接将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第一跳跃连接特征;第二层跳跃连接将编码器末端的多感受野特征增强模块的输出和解码器第一个多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第二跳跃连接特征。
在其中一个实施例中,将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第一跳跃连接特征,包括:
将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出进行相加,得到特征F%,并将F%输入混合注意力模块,分别从通道和像素维度获取通道注意力权重Qc和像素注意力权重Qp,根据广播机制将Qc和QP进行相加融合,获取注意力权重μ,并利用权重μ对编码器和解码器端的特征进行加权求和,得到特征FHA,采用残差连接将编码端和解码端的输入特征Fen和Fde与FHA进行相加融合,得到融合后的特征FHAC,使用大小为1×1、步长为1的卷积层对融合后的特征FHAC进行投影,得到第一跳跃连接特征。
在其中一个实施例中,根据权利要求1的方法,其特征在于,预先设置的混合损失函数为
L=LS+λLP
其中,LS和LP分别表示平滑损失和感知损失,λ为权重系数,λ优选0.3~0.7之间的常数,Gc(g)和Jc(g)分别表示网络预测的无雾图像和真实的清晰无雾图中第g个像素在通道c上的值,N表示图像的像素数目,x表示Gc(g)和Jc(g)的差值,表示网络预测的去雾图像,J表示真实的清晰无雾图像,/>和φk(J)分别表示将/>和J输入VGG-16网络得到的第k层的特征图,/>表示求给定矩阵的二范数,Ck、Hk和Wk分别表示第k层特征图的通道数、高度和宽度。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取训练数据集;训练数据集包括多个有雾图像和有雾图像对应的无雾图像;
构建图像去雾网络;图像去雾网络包括编码器、特征提取模块、跳跃连接模块和解码器;编码器包括卷积层、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块;特征提取模块包括多个多感受野特征增强模块;解码器包括多感受野特征增强模块、第三误差反馈模块、第四误差反馈模块和卷积层;跳跃连接模块包括两层带有混合注意力模块的跳跃连接;
根据训练数据集对图像去雾网络进行训练,直至预先设置的混合损失函数收敛,得到训练好的图像去雾网络;
利用训练好的图像去雾网络对待处理的有雾图像进行去雾,得到去雾后的图像。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取训练数据集;训练数据集包括多个有雾图像和有雾图像对应的无雾图像;
构建图像去雾网络;图像去雾网络包括编码器、特征提取模块、跳跃连接模块和解码器;编码器包括卷积层、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块;特征提取模块包括多个多感受野特征增强模块;解码器包括多感受野特征增强模块、第三误差反馈模块、第四误差反馈模块和卷积层;跳跃连接模块包括两层带有混合注意力模块的跳跃连接;
根据训练数据集对图像去雾网络进行训练,直至预先设置的混合损失函数收敛,得到训练好的图像去雾网络;
利用训练好的图像去雾网络对待处理的有雾图像进行去雾,得到去雾后的图像。
上述基于多感受野特征融合和混合注意力的图像去雾方法,本申请将多感受特征提取、误差反馈与混合注意力机制融入U形深度卷积神经网络构建图像去雾网络,在图像去雾网络中设置编码器、特征提取模块、跳跃连接模块和解码器来提高特征提取的准确率并综合考虑图像像素级和语义级损失,构建基于平滑损失和感知损失的混合损失函数;利用训练数据集进行网络训练,直至混合损失函数收敛根据训练好的网络对待处理的有雾图像进行处理,得到去雾后的清晰无雾图。本发明可在不引入庞大参数量的情况下,恢复出色彩保真度更高、纹理更丰富的清晰自然无雾图,同时避免去雾图像出现偏色、伪影等问题,去雾准确率高。
附图说明
图1为一个实施例中一种基于多感受野特征融合和混合注意力的图像去雾方法的流程示意图;
图2为一个实施例中图像去雾网络的框架图;
图3为一个实施例中多感受野特征增强模块的结构示意图;
图4为一个实施例中误差反馈模块的结构示意图;(a)~(d)分别为第一误差反馈模块、第二误差反馈模块、第三误差反馈模块、第四误差反馈模块的结构示意图;
图5为一个实施例中带混合注意力的跳跃连接结构的示意图;
图6为一个实施例中实验结果示例图;(a)和(b)分别为待处理图像和去雾图像;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于多感受野特征融合和混合注意力的图像去雾方法,包括以下步骤:
步骤102,获取训练数据集;训练数据集包括多个有雾图像和有雾图像对应的无雾图像。
从公共数据集中获取包含有雾图像和其对应的清晰无雾图像的训练数据集。
步骤104,构建图像去雾网络;图像去雾网络包括编码器、特征提取模块、跳跃连接模块和解码器;编码器包括卷积层、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块;特征提取模块包括多个多感受野特征增强模块;解码器包括多感受野特征增强模块、第三误差反馈模块、第四误差反馈模块和卷积层;跳跃连接模块包括两层带有混合注意力模块的跳跃连接。
如图2所示的图像去雾网络,根据编码器将输入图像映射至高维特征空间,得到特征图,然后结合下采样操作、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块对特征图进行处理扩大了网络的感受野、提取图像深层高级语义信息,提高了特征提取的准确率。随后利用多感受野特征增强模块级联组成的特征提取模块,可在网络深层提取图像高级语义特征,将特征提取模块的输出作为解码器的输入,为了逐步将特征图恢复到原始分辨率,先运用多感受野特征增强模块对解码器的输入进行处理,得到特征图F2,再先后对F2进行两次上采样,并在每次上采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,其中第一和第二次上采样之后连接的误差反馈模块,分别称为第三个和第四个误差反馈模块,分别记作EFM3和EFM4;在每次上采样前部署一个相加操作加强编码器和解码器之间的特征融合,将上采样操作之前的多感受野特征增强模块的输出与跳跃连接的输出进行相加融合,提高了特征提取的准确率;最后在解码器末端使用一个核大小为3×3、步长为1的卷积层重建清晰无雾图像。
步骤106,根据训练数据集对图像去雾网络进行训练,直至预先设置的混合损失函数收敛,得到训练好的图像去雾网络。
预先设置的混合损失函数包括示平滑损失和感知损失,利用平滑损失衡量网络预测的无雾图像与真实清晰图像之间的像素级差异,感知损失用于衡量图像高级语义特征之间的差异,通过设置混合损失函数对图像去雾网络进行训练,使得网络预测的无雾图像与真实清晰图像之间的差异越来越小,提高图像去雾网络的去雾能力,得到更加准确的去雾图像。
步骤108,利用训练好的图像去雾网络对待处理的有雾图像进行去雾,得到去雾后的图像。
上述基于多感受野特征融合和混合注意力的图像去雾方法中,本申请将多感受特征提取、误差反馈与混合注意力机制融入U形深度卷积神经网络构建图像去雾网络,在图像去雾网络中设置编码器、特征提取模块、跳跃连接模块和解码器来提高特征提取的准确率并综合考虑图像像素级和语义级损失,构建基于平滑损失和感知损失的混合损失函数;利用训练数据集进行网络训练,直至混合损失函数收敛根据训练好的网络对待处理的有雾图像进行处理,得到去雾后的清晰无雾图。本发明可在不引入庞大参数量的情况下,恢复出色彩保真度更高、纹理更丰富的清晰自然无雾图,同时避免去雾图像出现偏色、伪影等问题,去雾准确率高。
在其中一个实施例中,编码器用于根据卷积层将输入图像映射至高维特征空间,得到第一特征图,运用多感受野增强模块对第一特征图进行处理,将得到的特征图先后进行两次下采样,并在每次下采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,第一特征图不仅作为其后连接的多感受野特征增强模块的输入、还作为第一误差反馈模块和第二误差反馈模块的输入,第一误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第二误差反馈模块的输入,处于编码器末端的多感受野特征增强模块的输出为编码后的特征图。
在具体实施例中,首先采用核大小为3×3、步长为1的卷积层将输入图像映射至高维特征空间,得到特征图x2,随后运用多感受野特征增强模块对x2进行处理,得到特征图F1,将多感受野特征增强模块记作MFEM;为了扩大网络的感受野、提取图像深层高级语义信息,对特征图F1先后进行两次下采样,并在每次下采样后依次部署一个误差反馈模块和一个多感受野特征增强模块;其中,第一和第二次下采样之后连接的误差反馈模块,分别称为第一个和第二个误差反馈模块,分别记作EFM1和EFM2;特征图x2不仅作为其后连接的多感受野特征增强模块的输入、还作为第一和第二个误差反馈模块的输入,第一个误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第二个误差反馈模块的输入,处于编码器末端的多感受野特征增强模块的输出作为整个编码器的输出。
第一误差反馈模块EFM1涉及两个输入x1、x2和一个输出结构如图4(a)所示,具体操作如下:
其中,x1表示编码器中第一次下采样后的特征图,x2表示编码器中第一个3×3卷积层的输出,Up和Down分别表示上、下采样,分别采用大小为3×3、步长为2的反卷积和卷积完成;由于误差反馈模块引入了密集连接,第二误差反馈模块EFM2涉及三个输入x2、x3和一个输出/>结构如图4(b)所示,具体操作如下:
其中,x3表示编码器中第二次下采样后的特征图;
在误差反馈模块采用密集连接,可增加网络中层与层之间的联系,同时减少特征传递导致的信息损失。
在其中一个实施例中,特征提取模块由多个多感受野特征增强模块级联组成;特征提取模块用于对编码后的特征图进行图像高级语义特征提取,得到特征提取后的特征图;特征提取后的特征图包括自适应融合后的特征;多感受野特征增强模块包括三层类金字塔卷积结构,第一层包含一个大小为3×3、步长为1的卷积层,第二层包含两个级联的大小为3×3、步长为1的卷积层,第三层包含三个级联的大小为3×3、步长为1的卷积层;多感受野特征增强模块用于根据三层类金字塔卷积结构进行特征提取并对提取到的特征进行加权融合,得到加权融合后的特征,对加权融合后的特征进行大小为3×3、步长为1的卷积操作,得到精炼后的特征。
在具体实施例中,特征提取模块由n个多感受野特征增强模块级联组成,,其中,编码器的输出作为特征提取模块的输入,采用n个多感受野特征增强模块级联组成的特征提取模块,可在网络深层提取图像高级语义特征,提高特征提取的准确率;其中参数n优选6~13之间的自然数;
多感受野特征增强模块如图3所示,构建三层类金字塔卷积结构用于多感受野特征并行提取,第一层包含一个大小为3×3、步长为1的卷积层,第二层包含两个级联的大小为3×3、步长为1的卷积层,第三层包含三个级联的大小为3×3、步长为1的卷积层;两个级联的3×3卷积层的感受野相当于一个5×5卷积层的感受野,类似地,三个级联的3×3卷积层的感受野与一个7×7卷积层相同;相比于直接使用大尺度卷积层,串联多个小尺寸卷积层也可具有相同的感受野,且具有更强的非线性表达能力,同时还能减少参数量,提高计算效率;对于多感受野特征增强模块的输入特征Fin,采用三层类金字塔卷积结构进行特征提取,即可获得具有不同感受野的特征{Fi|i=1,2,3},Fi为三层类金字塔卷积结构中的第i层提取到的特征,Fi与输入特征Fin具有相同的通道数。
根据三层类金字塔卷积结构进行特征提取并对提取到的特征进行加权融合,得到加权融合后的特征为
其中,Fi为三层类金字塔卷积结构中的第i层提取到的特征,αi为权重系数,该权重在网络训练过程中自动获取,融合后的特征Fg与输入特征Fin具有相同的通道数。
在其中一个实施例中,利用通道注意力机制将多感受野特征增强模块的输入特征与精炼后的特征进行自适应融合,得到自适应融合后的特征为
其中,表示特征Fout的第j个通道,Fin和Fr分别表示输入特征与精炼后的特征,具有相同的通道数,通道数由NC表示,/>和/>分别表示Fr和Fin的第j个通道,/>和/>分别表示/>和/>的注意力权重,在网络训练过程中自动获取。
在其中一个实施例中,解码器用于根据多感受野特征增强模块对特征提取模块输出的特征图进行特征提取,得到第二特征图,对第二特征图先后进行两次上采样并在每次上采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,其中第一次上采样和第二次上采样之后连接的误差反馈模块,分别为第三误差反馈模块和第四误差反馈模块,在每次上采样前部署一个相加操作,将上采样操作之前的多感受野特征增强模块的输出与跳跃连接模块的输出进行相加融合,得到上采样后的特征图;根据误差反馈模块和多感受野特征增强模块分别对两次上采样后的特征图进行误差反馈和多感受野特征增强,得到最终的特征图;根据卷积层对最终的特征图进行重建,得到去雾图像;其中,特征提取模块输出的特征图不仅作为解码器中与其连接的多感受野特征增强模块的输入、还作为第三误差反馈模块和第四误差反馈模块的输入,第三误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第四误差反馈模块的输入。
在具体实施例中,解码器具体结构包括:将特征提取模块的输出作为解码器的输入;解码器首先使用一个多感受野特征增强模块对输入特征进行特征提取,获取特征图F2;为了逐步将特征图恢复到原始分辨率,先后对F2进行两次上采样,并在每次上采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,其中第一和第二次上采样之后连接的误差反馈模块,分别称为第三和第四误差反馈模块,分别记作EFM3和EFM4;为了加强编码器和解码器之间的特征融合,在每次上采样前部署一个相加操作,将上采样操作之前的多感受野特征增强模块的输出与跳跃连接的输出进行相加融合;最后在解码器末端使用一个核大小为3×3、步长为1的卷积层,用于重建清晰无雾图像;其中特征提取模块的输出不仅作为解码器中与其连接的多感受野特征增强模块的输入、还作为第三、四个误差反馈模块的输入,第三个误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第四个误差反馈模块的输入。
第三误差反馈模块EFM3涉及两个输入y1、y2和一个输出结构如图4(c)所示,具体操作如下:
其中,y1表示解码器中第一次上采样后的特征图,y2表示特征提取模块的输出,Up和Down分别表示上、下采样,分别采用大小为3×3、步长为2的反卷积和卷积完成;
第四误差反馈模块EFM4涉及三个输入y2、y3和一个输出/>结构如图4(d)所示,具体操作如下:
其中,y3表示解码器中第二次上采样后的特征图。
在其中一个实施例中,跳跃连接模块的输出包括第一跳跃连接特征和第二跳跃连接特征;跳跃连接模块包含两层带有混合注意力模块的跳跃连接,第一层跳跃连接将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第一跳跃连接特征;第二层跳跃连接将编码器末端的多感受野特征增强模块的输出和解码器第一个多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第二跳跃连接特征。
在具体实施例中,带有混合注意力模块的跳跃连接,结构如图5所示,具体结构包括:将编码器和解码器端的输入特征Fen和Fde相加得到特征并将/>输入混合注意力模块,分别从通道和像素维度获取通道注意力权重Qc和像素注意力权重Qp
其中,Conv表示大小为3×3、步长为1的卷积操作,δ为ReLu激活函数,σ为Sigmoid激活函数,用于将权重值归一化至0~1之间,DGAP表示全局平均池化操作;
根据广播机制将Qc和QP进行相加融合,获取注意力权重μ,并利用权重μ对编码器和解码器端的特征进行加权求和,得到特征FHA
FHA=μ·Fen+(1-μ)·Fde
为了防止网络层数加深导致网络退化,采用残差连接将编码端和解码端的输入特征Fen和Fde与FHA进行相加融合:
FHAC=FHA+Fen+Fde
为了增强特征表示,使用大小为1×1、步长为1的卷积层对融合后的特征FHAC进行投影,得到最终融合后的输出特征Fup,即第一跳跃连接特征,其中第二跳跃连接特征的计算过程与第一跳跃连接特征相似,在此不做过多的赘述。
在其中一个实施例中,将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第一跳跃连接特征,包括:
将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出进行相加,得到特征F%,并将F%输入混合注意力模块,分别从通道和像素维度获取通道注意力权重Qc和像素注意力权重Qp,根据广播机制将Qc和QP进行相加融合,获取注意力权重μ,并利用权重μ对编码器和解码器端的特征进行加权求和,得到特征FHA,采用残差连接将编码端和解码端的输入特征Fen和Fde与FHA进行相加融合,得到融合后的特征FHAC,使用大小为1×1、步长为1的卷积层对融合后的特征FHAC进行投影,得到第一跳跃连接特征。
在其中一个实施例中,根据权利要求1的方法,其特征在于,预先设置的混合损失函数为
L=LS+λLP
其中,LS和LP分别表示平滑损失和感知损失,λ为权重系数,λ优选0.3~0.7之间的常数,Gc(g)和Jc(g)分别表示网络预测的无雾图像和真实的清晰无雾图中第g个像素在通道c上的值,N表示图像的像素数目,x表示Gc(g)和Jc(g)的差值,表示网络预测的去雾图像,J表示真实的清晰无雾图像,/>和φk(J)分别表示将/>和J输入VGG-16网络得到的第k层的特征图,/>表示求给定矩阵的二范数,Ck、Hk和Wk分别表示第k层特征图的通道数、高度和宽度。
在具体实施例中,构建基于平滑损失和感知损失的混合损失函数L:
L=LS+λLP
其中,LS和LP分别表示平滑损失和感知损失,λ为权重系数,λ优选0.3~0.7之间的常数,本实施例优选λ=0.6;平滑损失用于衡量网络预测的无雾图像与真实清晰图像之间的像素级差异,计算公式如下:
其中,
Gc(g)和Jc(g)分别表示网络预测的无雾图像和真实的清晰无雾图中第g个像素在通道c上的值,N表示图像的像素数目。
感知损失用于衡量图像高级语义特征之间的差异,具体计算步骤包括:将网络预测的无雾图像和其对应的真实清晰图像分别输入至在数据集ImageNet上预训练好的VGG-16网络中,提取预测的无雾图像和真实清晰图像位于VGG-16网络中第3、8、15层的特征图,并通过计算其对应卷积层特征图的差值,获取去雾图像的感知损失,具体计算公式如下:
其中,表示网络预测的无雾图像,J表示真实的清晰无雾图像,/>和φk(J)分别表示将/>和J输入VGG-16得到的第k层的特征图,/>表示求给定矩阵的二范数,Ck、Hk和Wk分别表示第k层特征图的通道数、高度和宽度。
在一个实施例中,采用本申请对RESIDE公开数据集进行实验,采用RESIDE公开数据集中的OTS子集作为训练集数据集,SOTS子集作为测试数据集。采用峰值信噪比(PSNR)和结构相似度(SSIM)对去雾结果进行质量评价。PSNR是目前广泛使用的一种全参考图像质量评估指标,通过逐像素计算去雾图像与真实无雾图像之间的误差来量化图像失真程度。该数值越小,说明图像失真越严重,去雾后图像质量越差。SSIM是一种基于人眼视觉特征的图像质量评价指标,从亮度、对比度、结构三个方面综合考虑图像间的相似性。SSIM取值在[0,1]之间,该值越接近1,说明去雾后图像特征信息保留越好。本申请在SOTS子集上获得的PSNR和SSIM分别高达33和0.98。测试集上部分实验结果如图6所示,其中,图6(a)为从SOTS子集中随机挑选的有雾图像,图6(b)为采用本申请的方法对图6(a)进行测试的结果,可以看到,本申请可有效去除图像中的雾霾干扰,提高图像视觉质量,获得对比度高、细节清晰的无雾图像,且不存在色差或伪影。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多感受野特征融合和混合注意力的图像去雾方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于多感受野特征融合和混合注意力的图像去雾方法,其特征在于,所述方法包括:
获取训练数据集;所述训练数据集包括多个有雾图像和有雾图像对应的无雾图像;
构建图像去雾网络;所述图像去雾网络包括编码器、特征提取模块、跳跃连接模块和解码器;所述编码器包括卷积层、多感受野特征增强模块、第一误差反馈模块和第二误差反馈模块;所述特征提取模块包括多个多感受野特征增强模块;所述解码器包括多感受野特征增强模块、第三误差反馈模块、第四误差反馈模块和卷积层;所述跳跃连接模块包括两层带有混合注意力模块的跳跃连接;
根据所述训练数据集对所述图像去雾网络进行训练,直至预先设置的混合损失函数收敛,得到训练好的图像去雾网络;
利用所述训练好的图像去雾网络对待处理的有雾图像进行去雾,得到去雾后的图像。
2.根据权利要求1所述的方法,其特征在于,所述编码器用于根据卷积层将输入图像映射至高维特征空间,得到第一特征图,运用多感受野增强模块对第一特征图进行处理,将得到的特征图先后进行两次下采样,并在每次下采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,第一特征图不仅作为其后连接的多感受野特征增强模块的输入、还作为第一误差反馈模块和第二误差反馈模块的输入,第一误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第二误差反馈模块的输入,处于编码器末端的多感受野特征增强模块的输出为编码后的特征图。
3.根据权利要求1所述的方法,其特征在于,所述特征提取模块由多个多感受野特征增强模块级联组成;所述特征提取模块用于对编码后的特征图进行图像高级语义特征提取,得到特征提取后的特征图;所述特征提取后的特征图包括自适应融合后的特征;所述多感受野特征增强模块包括三层类金字塔卷积结构,第一层包含一个大小为3×3、步长为1的卷积层,第二层包含两个级联的大小为3×3、步长为1的卷积层,第三层包含三个级联的大小为3×3、步长为1的卷积层;所述多感受野特征增强模块用于根据三层类金字塔卷积结构进行特征提取并对提取到的特征进行加权融合,得到加权融合后的特征,对加权融合后的特征进行大小为3×3、步长为1的卷积操作,得到精炼后的特征。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
利用通道注意力机制将多感受野特征增强模块的输入特征与精炼后的特征进行自适应融合,得到自适应融合后的特征为
其中,表示特征Fout的第j个通道,Fin和Fr分别表示输入特征与精炼后的特征,具有相同的通道数,通道数由NC表示,/>和/>分别表示Fr和Fin的第j个通道,/>和/>分别表示和/>的注意力权重,在网络训练过程中自动获取。
5.根据权利要求3所述的方法,其特征在于,所述解码器用于根据多感受野特征增强模块对特征提取模块输出的特征图进行特征提取,得到第二特征图,对所述第二特征图先后进行两次上采样并在每次上采样后依次部署一个误差反馈模块和一个多感受野特征增强模块,其中第一次上采样和第二次上采样之后连接的误差反馈模块,分别为第三误差反馈模块和第四误差反馈模块,在每次上采样前部署一个相加操作,将上采样操作之前的多感受野特征增强模块的输出与跳跃连接模块的输出进行相加融合,得到上采样后的特征图;根据误差反馈模块和多感受野特征增强模块分别对两次上采样后的特征图进行误差反馈和多感受野特征增强,得到最终的特征图;根据卷积层对所述最终的特征图进行重建,得到去雾图像;其中,特征提取模块输出的特征图不仅作为解码器中与其连接的多感受野特征增强模块的输入、还作为第三误差反馈模块和第四误差反馈模块的输入,第三误差反馈模块的输出不仅作为其后连接的多感受野特征增强模块的输入,还作为第四误差反馈模块的输入。
6.根据权利要求5所述的方法,其特征在于,所述跳跃连接模块的输出包括第一跳跃连接特征和第二跳跃连接特征;所述跳跃连接模块包含两层带有混合注意力模块的跳跃连接,第一层跳跃连接将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第一跳跃连接特征;第二层跳跃连接将编码器末端的多感受野特征增强模块的输出和解码器第一个多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第二跳跃连接特征。
7.根据权利要求6所述的方法,其特征在于,将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出作为输入,共同输入至带有混合注意力模块的跳跃连接,得到第一跳跃连接特征,包括:
将编码器中第一误差反馈模块之后连接的多感受野特征增强模块的输出和解码器中第三误差反馈模块之后连接的多感受野特征增强模块的输出进行相加,得到特征F%,并将F%输入混合注意力模块,分别从通道和像素维度获取通道注意力权重Qc和像素注意力权重Qp,根据广播机制将Qc和QP进行相加融合,获取注意力权重μ,并利用权重μ对编码器和解码器端的特征进行加权求和,得到特征FHA,采用残差连接将编码端和解码端的输入特征Fen和Fde与FHA进行相加融合,得到融合后的特征FHAC,使用大小为1×1、步长为1的卷积层对融合后的特征FHAC进行投影,得到第一跳跃连接特征。
8.根据权利要求1所述的方法,其特征在于,所述预先设置的混合损失函数为
L=LS+λLP
其中,LS和LP分别表示平滑损失和感知损失,λ为权重系数,λ优选0.3~0.7之间的常数,Gc(g)和Jc(g)分别表示网络预测的无雾图像和真实的清晰无雾图中第g个像素在通道c上的值,N表示图像的像素数目,x表示Gc(g)和Jc(g)的差值,表示网络预测的去雾图像,J表示真实的清晰无雾图像,/>和φk(J)分别表示将/>和J输入VGG-16网络得到的第k层的特征图,||g||2表示求给定矩阵的二范数,Ck、Hk和Wk分别表示第k层特征图的通道数、高度和宽度。
CN202311076587.XA 2023-08-24 2023-08-24 基于多感受野特征融合和混合注意力的图像去雾方法 Pending CN116912130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311076587.XA CN116912130A (zh) 2023-08-24 2023-08-24 基于多感受野特征融合和混合注意力的图像去雾方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311076587.XA CN116912130A (zh) 2023-08-24 2023-08-24 基于多感受野特征融合和混合注意力的图像去雾方法

Publications (1)

Publication Number Publication Date
CN116912130A true CN116912130A (zh) 2023-10-20

Family

ID=88365162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311076587.XA Pending CN116912130A (zh) 2023-08-24 2023-08-24 基于多感受野特征融合和混合注意力的图像去雾方法

Country Status (1)

Country Link
CN (1) CN116912130A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117764988A (zh) * 2024-02-22 2024-03-26 山东省计算中心(国家超级计算济南中心) 基于异核卷积多感受野网络的道路裂缝检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117764988A (zh) * 2024-02-22 2024-03-26 山东省计算中心(国家超级计算济南中心) 基于异核卷积多感受野网络的道路裂缝检测方法及系统
CN117764988B (zh) * 2024-02-22 2024-04-30 山东省计算中心(国家超级计算济南中心) 基于异核卷积多感受野网络的道路裂缝检测方法及系统

Similar Documents

Publication Publication Date Title
Liu et al. Cross-SRN: Structure-preserving super-resolution network with cross convolution
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
AU2022202669B2 (en) Method for extracting oil storage tank based on high-spatial resolution remote sensing image
CN110827201A (zh) 用于高动态范围图像超分辨率重建的生成式对抗网络训练方法及装置
CN111951164B (zh) 一种图像超分辨率重建网络结构及图像重建效果分析方法
CN111612708A (zh) 一种基于对抗生成网络的图像修复方法
CN112862689A (zh) 一种图像超分辨率重建方法及系统
CN116912130A (zh) 基于多感受野特征融合和混合注意力的图像去雾方法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
CN114782355B (zh) 基于改进vgg16网络的胃癌数字病理切片检测方法
CN113762396A (zh) 一种二维图像语义分割方法
CN115345866A (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
CN117252936A (zh) 一种适配多种训练策略的红外图像彩色化方法及系统
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN118397367A (zh) 一种基于卷积视觉Mamba的篡改检测方法
CN114565528A (zh) 一种基于多尺度和注意力机制的遥感影像降噪方法及系统
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
Chen et al. Image quality assessment guided deep neural networks training
CN118115394A (zh) 退化图像修复方法、装置、设备及存储介质
CN116468638A (zh) 一种基于生成和鉴别平衡对抗的人脸图像修复方法及系统
CN113191947B (zh) 一种图像超分辨率的方法及系统
CN115423697A (zh) 图像修复方法、终端及计算机存储介质
Yeganli et al. Selective super-resolution via sparse representations of sharp image patches using multiple dictionaries and bicubic interpolation
CN112651926A (zh) 一种基于递归注意力机制的裂纹检测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination