CN114187275A - 一种基于多阶段和多尺度注意力融合网络及图像去雨方法 - Google Patents

一种基于多阶段和多尺度注意力融合网络及图像去雨方法 Download PDF

Info

Publication number
CN114187275A
CN114187275A CN202111522656.6A CN202111522656A CN114187275A CN 114187275 A CN114187275 A CN 114187275A CN 202111522656 A CN202111522656 A CN 202111522656A CN 114187275 A CN114187275 A CN 114187275A
Authority
CN
China
Prior art keywords
stage
network
attention
features
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111522656.6A
Other languages
English (en)
Inventor
张永军
李智
杨亦童
徐毓杰
王西禾
赵浩良
欧阳婷
杨和亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202111522656.6A priority Critical patent/CN114187275A/zh
Publication of CN114187275A publication Critical patent/CN114187275A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于多阶段和多尺度注意力融合网络及图像去雨方法,它由两个编码器解码器网络组成,包含有联合通道坐标注意力模块、注意力分支模块和多级特征融合模块,联合通道坐标注意力模块用来提取每个尺度上的有用信息;注意力分支模块用来提取高级特征,多级特征融合模块位于两个编解码器网络之间,用于将第一阶段网络提取的粗糙特征融合到第二阶段,对特征细化。本发明两个网络均采用编码器‑解码器网络来提取特征,第一阶段网络粗化特征,第二阶段网络融合了第一阶段网络的特征进一步细化特征,考虑到雨纹信息的水平性和垂直性,引入了联合通道坐标注意力模块来关注不同方向上的有用信息,实验结果表明,该方法优于目前最先进的去雨方法。

Description

一种基于多阶段和多尺度注意力融合网络及图像去雨方法
技术领域
本发明属于计算机视觉研究技术领域,更具体地说,特别涉及一种基于多阶段和多尺度注意力融合网络及图像去雨方法。
背景技术
雨条纹会显著影响图片的可见性,导致图片中的物体十分模糊。下雨作为一种常见的天气现象,不仅提升了室外采集图像的难度,并且雨条纹会降低了图片的视觉质量。许多计算机视觉算法的性能是建立在高质量图片数据集上的,各种方向和尺度的雨条纹会影响了图片的质量,因此降低了这些算法的性能,如目标检测,视频监控,语义分割。为了消除雨条纹,提高这些算法的性能,开发一个从低级图像中恢复干净图像的算法是十分必要的。
各种尺度和方向上雨条纹的叠加使得单图像去雨成为一个十分困难的问题。单图像去雨的核心观点是将雨图像分为两层:雨条纹层和背景层。Kang等人利用双边滤波器将雨天图像分解成低频部分(LFP)和高频部分(HFP),然后通过执行字典学习和稀疏编码,将高频部分分解为“雨分量”和“非雨分量从而恢复无雨图像。Hao等人将雨天图像分解为具有特定方向和频率特征的子图像,在含有细节信息少的子图像上进行去雨。还有一些方法是通过高斯混合模型(GMM)去模拟雨条纹层和背景层的先验知识。这些先验知识可以适应各种方向和尺度上的雨条纹,能够很好的去除雨条纹。这些方法已被证明在某些情况下是有效的,但是结果不是最优的,这些方法往往会模糊背景并且很难去灵活适应具有复杂雨形状和背景的雨图像。随着深度学习日趋成熟,其中的一些技术也应用于去雨的任务。在去雨任务中,基于深度学习的方法已经取得了十分显著的结果。一些优秀的卷积网络架构也被引入去雨任务,如ResNet,UNet,DenseNet,LSTM,Inception等。还有采用FPN网络在多尺度特征上去除雨水。为了更多关注图像的相关区域来提升卷积网络去除雨纹的效果,又引入了注意力机制。尽管这些方法,取得了最先进的结果,但是分离雨和背景仍然具有挑战性。单一的滤波器很难提取不同形状的雨条纹信息,并且很多雨条纹和背景特别相似导致了在去除雨条纹的时候很大概率会损失重要的背景信息。
发明内容
为了解决上述技术问题,本发明提供一种基于多阶段和多尺度注意力融合网络及图像去雨方法,提出了一种有效的算法,即MMAFN,用于去除含有雨条纹的图像。本发明主要提出的是一种两阶段网络结构,这两个网络均采用编码器-解码器网络来提取特征,第一阶段网络粗化特征,第二阶段网络融合了第一阶段网络的特征进一步细化特征。同时考虑到雨纹信息的水平性和垂直性,本发明引入了联合通道坐标注意力模块来关注不同方向上的有用信息。此外,为了融合不同尺度的特征和促进两个网络之间的信息流通,本发明使用了Inception注意力分支模块和多级特征融合模块。在四个个公共合成数据集上,本发明将提出方法与最先进的方法进行了比较。实验结果表明,该方法优于目前最先进的去雨方法。有效的解决了上述存在的技术问题。
本发明一种基于多阶段和多尺度注意力融合网络及图像去雨方法的目的与功效,由以下具体技术手段所达成:
一种基于多阶段和多尺度注意力融合网络,它由两个编码器解码器网络组成,所述网络包含有联合通道坐标注意力模块(JCCAB)、Inception注意力分支模块(InceptionABB)和多级特征融合模块(Multi-Level Feature Fusion),所述联合通道坐标注意力模块(JCCAB)用来提取每个尺度上的有用信息,用来对通道关系和位置信息进行编码;所述Inception注意力分支模块(InceptionABB)位于联合通道坐标注意力模块(JCCAB)之后,用来提取高级特征,所述多级特征融合模块(Multi-Level Feature Fusion)位于两个编解码器网络之间,用于将第一阶段网络提取的粗糙特征融合到第二阶段,对特征进一步细化。这样不仅丰富了特征信息,还弥补了多次下采样造成的信息损失。
所述Inception注意力分支模块(InceptionABB)中,设有不同尺寸卷积核分支组合而成的多分支模块(DBB)。
所述联合通道坐标注意力模块(JCCAB)由两个3x3的卷积层、PRelu函数和联合通道坐标注意力(JCAA)组合而成。
所述多级特征融合模块(Multi-Level Feature Fusion)在两个编码器-解码器之间,用于将第一阶段编解码器网络的不同尺度特征转移融合到第二阶段编解码器网络中。
一种基于多阶段和多尺度注意力融合网络的图像去雨方法,所述方法步骤为:一、使用一个3×3的卷积核来提取初始特征,然后将这些特征输入到具有联合通道坐标注意力模块(JCCAB)编码器-解码器网络结构中;本发明设计的联合通道坐标注意力块用来提取每个尺度上的有用信息;二、为了提取高级特征,在联合通道坐标注意力模块之后紧接着采用了Inception注意力分支模块(InceptionABB),在第一阶段的编解码器网络中,跳跃连接也使用了联合通道坐标注意力块来处理特征映射,在第二阶段的编解码器网络中,没有使用跳跃连接,而是在两个编解码器网络之间引入了多级特征融合模块(Multi-Level FeatureFusion),将第一阶段网络提取的粗糙特征融合到第二阶段,对特征进一步细化;这样不仅丰富了特征信息,还弥补了多次下采样造成的信息损失;三、通过一个3×3卷积得到输入图像的残差输出,再和退化图像进行融合就得到了重建后的图像。
所述步骤一中,联合通道坐标注意力对通道关系和位置信息进行编码,总共分为两步:多通道信息注意融合和位置信息嵌入。
所述步骤一中,多通道信息注意融合的步骤为:(1)为了获得更大的感受野,选择尺寸为3和尺寸为5的卷积核,对任意给定的特征图
Figure BDA0003408330350000031
通过大小为3的卷积核生成的中间特征为
Figure BDA0003408330350000032
通过大小为5的卷积核生成的中间特征为
Figure BDA0003408330350000033
H×W表示输入的空间维度,C为输入特征图的通道数,H′×W′表示输出的空间维度,c′/r为通过卷积核输出后的通道数,通过使用通道缩减因子r,来降低模型的复杂度以及提升模型的泛化能力;(2)构建通道之间依赖关系可以提高网络模型对通道信息的敏感性,这些通道信息可以显著提高网络模型的性能,对通道信息建模,选择在
Figure BDA0003408330350000034
上使用全局平均池化来捕获全局信息去生成通道统计信息
Figure BDA0003408330350000035
具体来说,通过收缩
Figure BDA0003408330350000036
的空间维度H×W来计算b的第c个元素,
Figure BDA0003408330350000037
Fgp(·)为全局平均池化操作,
Figure BDA0003408330350000041
为通道维度上的特征图,H′×W′为
Figure BDA0003408330350000042
的空间维度;
通过全连接层和sigmoid函数生成一个紧凑的特征
Figure BDA0003408330350000043
能够对所有通道实现精确的自适应选择,z=Ffc(b)=δ(Wb),δ是sigmoid的函数,
Figure BDA0003408330350000044
使用d来控制全连接层的维度大小,
Figure BDA0003408330350000045
最后通过逐元素(element-wise)相乘融合多分支结果:
Figure BDA0003408330350000046
F为融合后的结果。
所述步骤一中,位置信息嵌入的方法为:给定输入
Figure BDA0003408330350000047
分别用池化核(H,1)和(1,W)的两个空间范围沿着水平方向和垂直方向去编码每一个通道,因此,在水平方向h的第c个通道的输出公式如下
Figure BDA0003408330350000048
同样,在垂直方向w的第c个通道的输出公式如下
Figure BDA0003408330350000049
Fc为通道维度上的特征图;
通过上述两种变换可以沿两个空间方向提取特征,生成水平方向和垂直方向的特征图,而SENet中的通道注意力模块只能产生通道特征向量。这两种转换可以沿着两个不同的方向捕获长距离依赖关系,同时还能保留精确的位置信息,这有助于网络更准确地定位不同大小的雨条纹。
对于给定的两个方向的特征向量
Figure BDA00034083303500000410
Figure BDA00034083303500000411
通过尺寸1x1的卷积核进行转换得到
Figure BDA00034083303500000412
Figure BDA00034083303500000413
1x1的卷积核用来恢复特征图原本的通道大小,最后实现特征图的聚合,最终公式为:
Figure BDA00034083303500000414
δ是sigmoid的函数,B是BatchNormalization,X为最开始输入的特征图,Fout为最终输出的特征图。
与只关注通道重要性的通道注意方法不同,本发明的联合通道坐标注意力模块还考虑扩大感受野和编码位置信息。本发明首先通过两个不同的卷积核扩大了感受野,然后对其中一个卷积核的输出执行通道注意力,保留了通道信息,最后融合两个不同的特征图,考虑到雨纹信息的水平性和垂直性,本发明对融合后的特征图使用了沿水平和垂直方向的注意力。这两个方向映射后的每个元素都反映了相应方向上是否存在有用信息。这种位置信息嵌入允许本发明更准确地聚焦有用信息的位置,从而帮助整个模型更好地去除雨条纹。
所述步骤二中,第一阶段网络只能提取粗糙的特征,因此提出了一个多级特征融合模块(MLFF)融合两个阶段网络的特征,进一步细化特征;为了对特征图进行精确校准,多联合通道坐标注意力模块采用了多个JCCAB模块和一个卷积层;MLFF模块在两个编码器-解码器之间,能够将第一阶段编解码器网络的不同尺度特征转移到第二阶段编解码器网络中;在将两个阶段对应等级的特征融合之前,首先使用多联合通道坐标注意力模块(MJCCAB)对第二阶段三个等级的特征图重新校准,然后将第一阶段编码器三个等级的特征,解码器三个等级的特征和第二阶段编码器三个等级的特征融合在一起,每个等级的特征都要通过多分支模块(DBB)来丰富特征信息,最后等级2和等级3的特征进行上采样与上一等级的特征进行融合,输出到第二阶段的解码器中。对于上采样,本发明不使用转置卷积来提高特征的分辨率,而是以2的比例因子执行双线性上采样。这有助于减少输出图像中经常由于转置卷积而产生的棋盘效应。考虑到计算量的问题,本发明只在等级3后引入NoLocal机制来增强长距离信息的表达。
MLFF模块有很多优点:第一,注意力机制能够捕获显著的有用信息,堆叠注意力机制然后和不同阶段的对应等级的特征融合,不仅丰富了特征图信息,而且使得注意力机制更加聚焦有用信息,提升了网络的性能。第二,编码器解码器多次下采样损失了很多有用信息,两个阶段网络模型特征的融合显著减小了这种损失。
所述步骤三中,为了提高网络的建模能力,将两个3x3的卷积层,PRelu函数和联合通道坐标注意力(JCAA)进行组合,形成了联合通道坐标注意力模块,在MMAFN的编码层和解码层,添加了多个JCCAB来提取每个尺度上的特征;在编解码器网络中,引入了InceptionABB来提取高级特征,Inception结构提取了不同尺度的特征并将特征进行叠加输出,丰富了特征图的信息,极大的提高了网络的性能。
本发明借鉴了Inception的多分支思想,不同的是,本发明没有将相同尺寸卷积核分支组合起来,而是将不同尺寸卷积核分支组合,形成了多分支模块(DBB)。经过大量实验,本发明发现不同尺寸卷积核分支的效果比相同尺寸卷积核分支的效果更好,因此多分支模块(DBB)在分支一上采用一个1x1的卷积核,在分支二上采用1x1的卷积核和3x3的卷积核,在分支三上采用1x1的卷积核和全局平均池化,在分支四上采用3x3的卷积核,之后将四个分支的结果逐元素相加输出。首先,本发明使用DBB模块从不同尺度细化相关信息并且融合,然后使用联合通道坐标注意力模块关注信息量最大的有用尺度信息来增强网络的辨别性学习能力,从而使特征表达更加有效。最后,接着相同的DBB模块来帮助更加精细的表达多尺度雨纹信息。此外,在跳跃连接中使用了尺寸为1的卷积核,来实现多尺度信息的渐进融合,而且还有效防止了梯度的消失。
为了保留高频纹理,消除过度平滑,本发明采用Charbonnierpenalty function在训练过程中能够保持更好的收敛性,对真实的图像Y进行近似。这个函数表示为:
Figure BDA0003408330350000061
XR代表重建后的图像,根据经验惩罚系数ε设置为0.001。
本发明提出的模型总共分为两个阶段,因此对于这两个阶段,模型通过将退化的输入图像XD添加到输出的残差图像XRes来直接得到重建后的图像XR。XR=XD+XRes
为了保证重建后图像XR的真实性,本发明使用边缘损失来约束真实图像和预测的重建后图像之间的高频分量。边缘损失定义如下:
Figure BDA0003408330350000062
Lap(·)定义为Laplacian operator。最后本发明使用以下损失函数来优化本发明提出的模型:
Figure BDA0003408330350000063
等式中λ控制着
Figure BDA0003408330350000064
损失和
Figure BDA0003408330350000065
损失的相对重要性,该项设置为0.05。
本发明至少包括以下有益效果:
提出了一种多阶段和多尺度注意力融合网络结构,称为MMAFN。它包含几个关键组件,(1)两个编码器-解码器网络,第一阶段网络用来粗化特征,第二阶段网络用来进一步细化特征。(2)联合通道坐标注意力模块(JCCA)放置在两个编解码器网络之中,更准确地聚焦有用的信息,实现渐进式学习,从而帮助整个模型更好地去除雨条纹。(3)添加了多级特征融合模块(MLFF),丰富了特征图信息,而且使得注意力机制更加聚焦有用信息,提升了网络的性能。此外,该方法弥补了多次上下采样造成的信息损失。(4)Inception注意力分支模块,细化了不同尺度的相关信息并且融合,增强网络的辨别性学习能力,从而使特征表达更加有效。
附图说明:
图1为本发明的网络模型图;
图2为本发明的联合通道坐标注意力(JCCA)模型图;
图3为本发明的联合通道坐标注意力模块(JCCAB)模型图;
图4为本发明的多分支模块(DBB)模型图;
图5为本发明的注意力分支模块(InceptionABB)模型图;
图6为本发明的多级特征融合模块模型图;
图7为本发明的多联合通道坐标注意力模块(MJCCAB)模型图;
图8为本发明的去雨效果对比图。
具体实施方式
下面通过实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
实施例:
本发明提供一种基于多阶段和多尺度注意力融合网络,如附图1-7所示,它由两个编码器解码器网络组成,所述网络包含有联合通道坐标注意力模块(JCCAB)、Inception注意力分支模块(InceptionABB)和多级特征融合模块(Multi-Level Feature Fusion),所述联合通道坐标注意力模块(JCCAB)用来提取每个尺度上的有用信息,用来对通道关系和位置信息进行编码;所述Inception注意力分支模块(InceptionABB)位于联合通道坐标注意力模块(JCCAB)之后,用来提取高级特征,所述多级特征融合模块(Multi-Level FeatureFusion)位于两个编解码器网络之间,用于将第一阶段网络提取的粗糙特征融合到第二阶段,对特征进一步细化。这样不仅丰富了特征信息,还弥补了多次下采样造成的信息损失。
进一步的,Inception注意力分支模块(InceptionABB)中,设有不同尺寸卷积核分支组合而成的多分支模块(DBB)。
进一步的,联合通道坐标注意力模块(JCCAB)由两个3x3的卷积层、PRelu函数和联合通道坐标注意力(JCCA)组合而成。
进一步的,多级特征融合模块(Multi-Level Feature Fusion)在两个编码器-解码器之间,用于将第一阶段编解码器网络的不同尺度特征转移融合到第二阶段编解码器网络中。
一种基于多阶段和多尺度注意力融合网络的图像去雨方法,所述方法步骤为:一、使用一个3×3的卷积核来提取初始特征,然后将这些特征输入到具有联合通道坐标注意力模块(JCCAB)编码器-解码器网络结构中;本发明设计的联合通道坐标注意力块用来提取每个尺度上的有用信息;二、为了提取高级特征,在联合通道坐标注意力模块之后紧接着采用了Inception注意力分支模块(InceptionABB),在第一阶段的编解码器网络中,跳跃连接也使用了联合通道坐标注意力块来处理特征映射,在第二阶段的编解码器网络中,没有使用跳跃连接,而是在两个编解码器网络之间引入了多级特征融合模块(Multi-Level FeatureFusion),将第一阶段网络提取的粗糙特征融合到第二阶段,对特征进一步细化;这样不仅丰富了特征信息,还弥补了多次下采样造成的信息损失;三、通过一个3×3卷积得到输入图像的残差输出,再和退化图像进行融合就得到了重建后的图像。
进一步的,步骤一中,联合通道坐标注意力对通道关系和位置信息进行编码,总共分为两步:多通道信息注意融合和位置信息嵌入。提出的联合通道坐标注意力的示意图如附图2和3所示。具体来说,通过两个操作实现多通道信息注意融合。
进一步的,步骤一中,如附图2part1所示,多通道信息注意融合的步骤为:(1)为了获得更大的感受野,选择尺寸为3和尺寸为5的卷积核,对任意给定的特征图
Figure BDA0003408330350000081
通过大小为3的卷积核生成的中间特征为
Figure BDA0003408330350000082
通过大小为5的卷积核生成的中间特征为
Figure BDA0003408330350000091
H×W表示输入的空间维度,c为输入特征图的通道数,H′×W′表示输出的空间维度,c′/r为通过卷积核输出后的通道数,通过使用通道缩减因子r,来降低模型的复杂度以及提升模型的泛化能力;(2)构建通道之间依赖关系可以提高网络模型对通道信息的敏感性,这些通道信息可以显著提高网络模型的性能,对通道信息建模,选择在
Figure BDA0003408330350000092
上使用全局平均池化来捕获全局信息去生成通道统计信息
Figure BDA0003408330350000093
具体来说,通过收缩
Figure BDA0003408330350000094
的空间维度H×W来计算b的第c个元素,
Figure BDA0003408330350000095
Fgp(·)为全局平均池化操作,
Figure BDA0003408330350000096
为通道维度上的特征图,H′×W′为
Figure BDA0003408330350000097
的空间维度;
通过全连接层和sigmoid函数生成一个紧凑的特征
Figure BDA0003408330350000098
能够对所有通道实现精确的自适应选择,z=Ffc(b)=δ(Wb),δ是sigmoid的函数,
Figure BDA0003408330350000099
使用d来控制全连接层的维度大小,
Figure BDA00034083303500000910
最后通过逐元素(element-wise)相乘融合多分支结果:
Figure BDA00034083303500000911
F为融合后的结果。
进一步的,步骤一中,如附图2part2所示,位置信息嵌入的方法为:给定输入
Figure BDA00034083303500000912
分别用池化核(H,1)和(1,W)的两个空间范围沿着水平方向和垂直方向去编码每一个通道,因此,在水平方向h的第c个通道的输出公式如下
Figure BDA00034083303500000913
同样,在垂直方向w的第c个通道的输出公式如下
Figure BDA00034083303500000914
Fc为通道维度上的特征图;
通过上述两种变换可以沿两个空间方向提取特征,生成水平方向和垂直方向的特征图,而SENet中的通道注意力模块只能产生通道特征向量。这两种转换可以沿着两个不同的方向捕获长距离依赖关系,同时还能保留精确的位置信息,这有助于网络更准确地定位不同大小的雨条纹。
对于给定的两个方向的特征向量
Figure BDA00034083303500000915
Figure BDA00034083303500000916
通过尺寸1x1的卷积核进行转换得到
Figure BDA00034083303500000917
Figure BDA00034083303500000918
1x1的卷积核用来恢复特征图原本的通道大小,最后实现特征图的聚合,最终公式为:
Figure BDA00034083303500000919
δ是sigmoid的函数,B是BatchNormalization,X为最开始输入的特征图,Fout为最终输出的特征图。
与只关注通道重要性的通道注意方法不同,本发明的联合通道坐标注意力模块还考虑扩大感受野和编码位置信息。如附图2所示,本发明首先通过两个不同的卷积核扩大了感受野,然后对其中一个卷积核的输出执行通道注意力,保留了通道信息,最后融合两个不同的特征图,考虑到雨纹信息的水平性和垂直性,本发明对融合后的特征图使用了沿水平和垂直方向的注意力。这两个方向映射后的每个元素都反映了相应方向上是否存在有用信息。这种位置信息嵌入允许本发明更准确地聚焦有用信息的位置,从而帮助整个模型更好地去除雨条纹。
进一步的,步骤二中,第一阶段网络只能提取粗糙的特征,因此提出了一个多级特征融合模块(MLFF)融合两个阶段网络的特征,进一步细化特征;附图7展示了多联合通道坐标注意力模块。为了对特征图进行精确校准,多联合通道坐标注意力模块采用了多个JCCAB模块和一个卷积层;附图6展示了MLFF模块的网络架构。MLFF模块在两个编码器-解码器之间,能够将第一阶段编解码器网络的不同尺度特征转移到第二阶段编解码器网络中;在将两个阶段对应等级的特征融合之前,首先使用多联合通道坐标注意力模块(MJCCAB)对第二阶段三个等级的特征图重新校准,然后将第一阶段编码器三个等级的特征,解码器三个等级的特征和第二阶段编码器三个等级的特征融合在一起,每个等级的特征都要通过多分支模块(DBB)来丰富特征信息,最后等级2和等级3的特征进行上采样与上一等级的特征进行融合,输出到第二阶段的解码器中。对于上采样,本发明不使用转置卷积来提高特征的分辨率,而是以2的比例因子执行双线性上采样。这有助于减少输出图像中经常由于转置卷积而产生的棋盘效应。考虑到计算量的问题,本发明只在等级3后引入NoLocal机制来增强长距离信息的表达。
MLFF模块有很多优点:第一,注意力机制能够捕获显著的有用信息,堆叠注意力机制然后和不同阶段的对应等级的特征融合,不仅丰富了特征图信息,而且使得注意力机制更加聚焦有用信息,提升了网络的性能。第二,编码器解码器多次下采样损失了很多有用信息,两个阶段网络模型特征的融合显著减小了这种损失。
进一步的,步骤三中,为了提高网络的建模能力,将两个3x3的卷积层,PRelu函数和联合通道坐标注意力(JCAA)进行组合,形成了联合通道坐标注意力模块,如附图3所示。在MMAFN的编码层和解码层,添加了多个JCCAB来提取每个尺度上的特征;在编解码器网络中,引入了InceptionABB来提取高级特征,Inception结构提取了不同尺度的特征并将特征进行叠加输出,丰富了特征图的信息,极大的提高了网络的性能。
因为雨纹信息大多在图像的高频部分,所以在编解码器网络中,本发明引入了InceptionABB来提取高级特征。Inception结构提取了不同尺度的特征并将特征进行叠加输出,丰富了特征图的信息,极大的提高了网络的性能。本发明借鉴了Inception的多分支思想,不同的是,本发明没有将相同尺寸卷积核分支组合起来,而是将不同尺寸卷积核分支组合,形成了多分支模块(DBB),如附图4所示。经过大量实验,本发明发现不同尺寸卷积核分支的效果比相同尺寸卷积核分支的效果更好,因此多分支模块(DBB)在分支一上采用一个1x1的卷积核,在分支二上采用1x1的卷积核和3x3的卷积核,在分支三上采用1x1的卷积核和全局平均池化,在分支四上采用3x3的卷积核,之后将四个分支的结果逐元素相加输出。附图5给出了Inception注意力分支模块的架构。首先,本发明使用DBB模块从不同尺度细化相关信息并且融合,然后使用联合通道坐标注意力模块关注信息量最大的有用尺度信息来增强网络的辨别性学习能力,从而使特征表达更加有效。最后,接着相同的DBB模块来帮助更加精细的表达多尺度雨纹信息。此外,在跳跃连接中使用了尺寸为1的卷积核,来实现多尺度信息的渐进融合,而且还有效防止了梯度的消失。
为了保留高频纹理,消除过度平滑,本发明采用Charbonnierpenalty function在训练过程中能够保持更好的收敛性,对真实的图像Y进行近似。这个函数表示为:
Figure BDA0003408330350000111
XR代表重建后的图像,根据经验惩罚系数ε设置为0.001。
本发明提出的模型总共分为两个阶段,因此对于这两个阶段,模型通过将退化的输入图像XD添加到输出的残差图像XRes来直接得到重建后的图像XR。XR=XD+XRes
为了保证重建后图像XR的真实性,本发明使用边缘损失来约束真实图像和预测的重建后图像之间的高频分量。边缘损失定义如下:
Figure BDA0003408330350000112
Lap(·)定义为Laplacian operator。最后本发明使用以下损失函数来优化本发明提出的模型:
Figure BDA0003408330350000113
等式中λ控制着
Figure BDA0003408330350000114
损失和
Figure BDA0003408330350000115
损失的相对重要性,该项设置为0.05。
本发明提出了一种多阶段和多尺度注意力融合网络结构,称为MMAFN。它包含几个关键组件,(1)两个编码器-解码器网络,第一阶段网络用来粗化特征,第二阶段网络用来进一步细化特征。(2)联合通道坐标注意力模块(JCCA)放置在两个编解码器网络之中,更准确地聚焦有用的信息,实现渐进式学习,从而帮助整个模型更好地去除雨条纹。(3)添加了多级特征融合模块(MLFF),丰富了特征图信息,而且使得注意力机制更加聚焦有用信息,提升了网络的性能。此外,该方法弥补了多次上下采样造成的信息损失。(4)Inception注意力分支模块,细化了不同尺度的相关信息并且融合,增强网络的辨别性学习能力,从而使特征表达更加有效,去雨效果对比如附图8所示。
这项工作的主要贡献是:
·本发明关注不同方向上的有效特征信息,并提出了联合通道坐标注意力模块。
·第二阶段网络通过MLFF模块融合第一阶段网络输出的粗糙特征信息,能够很大提高网络的学习能力。
·使用Inception注意力分支模块丰富了特征信息,增强了网络的鲁棒性。
·本发明在四个的合成数据集上达到了SOTA最优效果,从而证明了本发明的MMAFN的有效性。去雨效果对比如附图8所示。此外,本发明还提供了详细的消融实验和分析结果。
本发明未详述之处,均为本领域技术人员的公知技术。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种基于多阶段和多尺度注意力融合网络,其特征在于:它由两个编码器解码器网络组成,所述网络包含有联合通道坐标注意力模块、Inception注意力分支模块和多级特征融合模块,所述联合通道坐标注意力模块用来提取每个尺度上的有用信息,用来对通道关系和位置信息进行编码;所述Inception注意力分支模块位于联合通道坐标注意力模块之后,用来提取高级特征,所述多级特征融合模块位于两个编解码器网络之间,用于将第一阶段网络提取的粗糙特征融合到第二阶段,对特征进一步细化。
2.根据权利要求1所述的基于多阶段和多尺度注意力融合网络,其特征在于:所述Inception注意力分支模块中,设有不同尺寸卷积核分支组合而成的多分支模块。
3.根据权利要求1所述的基于多阶段和多尺度注意力融合网络,其特征在于:所述联合通道坐标注意力模块由两个3x3的卷积层、PRelu函数和联合通道坐标注意力组合而成。
4.根据权利要求1所述的基于多阶段和多尺度注意力融合网络,其特征在于:所述多级特征融合模块在两个编码器-解码器之间,用于将第一阶段编解码器网络的不同尺度特征转移融合到第二阶段编解码器网络中。
5.根据权利要求1-4任一项所述的基于多阶段和多尺度注意力融合网络的图像去雨方法,其特征在于:所述方法步骤为:一、使用一个3×3的卷积核来提取初始特征,然后将这些特征输入到具有联合通道坐标注意力模块编码器-解码器网络结构中;二、将第一阶段网络提取的粗糙特征融合到第二阶段,对特征进一步细化;三、通过一个3×3卷积得到输入图像的残差输出,再和退化图像进行融合就得到了重建后的图像。
6.根据权利要求5所述的基于多阶段和多尺度注意力融合网络的图像去雨方法,其特征在于:所述步骤一中,联合通道坐标注意力模块对通道关系和位置信息进行编码,总共分为两步:多通道信息注意融合和位置信息嵌入。
7.根据权利要求6所述的基于多阶段和多尺度注意力融合网络的图像去雨方法,其特征在于:所述步骤一中,多通道信息注意融合的步骤为:(1)为了获得更大的感受野,选择尺寸为3和尺寸为5的卷积核,对任意给定的特征图
Figure FDA0003408330340000011
通过大小为3的卷积核生成的中间特征为
Figure FDA0003408330340000021
通过大小为5的卷积核生成的中间特征为
Figure FDA0003408330340000022
H×W表示输入的空间维度,C为输入特征图的通道数,H′×W′表示输出的空间维度,C′/r为通过卷积核输出后的通道数,通过使用通道缩减因子r,来降低模型的复杂度以及提升模型的泛化能力;(2)构建通道之间依赖关系可以提高网络模型对通道信息的敏感性,这些通道信息可以显著提高网络模型的性能,对通道信息建模,选择在
Figure FDA0003408330340000023
上使用全局平均池化来捕获全局信息去生成通道统计信息
Figure FDA0003408330340000024
具体来说,通过收缩
Figure FDA0003408330340000025
的空间维度H×W来计算b的第c个元素,
Figure FDA0003408330340000026
Fgp(·)为全局平均池化操作,
Figure FDA0003408330340000027
为通道维度上的特征图,H′×W′为
Figure FDA0003408330340000028
的空间维度;
通过全连接层和sigmoid函数生成一个紧凑的特征
Figure FDA0003408330340000029
能够对所有通道实现精确的自适应选择,z=Ffc(b)=δ(Wb),δ是sigmoid的函数,
Figure FDA00034083303400000210
使用d来控制全连接层的维度大小,
Figure FDA00034083303400000211
最后通过逐元素(element-wise)相乘融合多分支结果:
Figure FDA00034083303400000212
为融合后的结果。
8.根据权利要求6所述的基于多阶段和多尺度注意力融合网络的图像去雨方法,其特征在于:所述步骤一中,位置信息嵌入的方法为:给定输入
Figure FDA00034083303400000213
分别用池化核(H,1)和(1,W)的两个空间范围沿着水平方向和垂直方向去编码每一个通道,因此,在水平方向h的第c个通道的输出公式如下
Figure FDA00034083303400000214
同样,在垂直方向w的第c个通道的输出公式如下
Figure FDA00034083303400000215
Fc为通道维度上的特征图,对于给定的两个方向的特征向量
Figure FDA00034083303400000216
Figure FDA00034083303400000217
通过尺寸1x1的卷积核进行转换得到
Figure FDA00034083303400000218
Figure FDA00034083303400000219
1x1的卷积核用来恢复特征图原本的通道大小,最后实现特征图的聚合,最终公式为:
Figure FDA00034083303400000220
δ是sigmoid的函数,B是BatchNormalization,X为最开始输入的特征图,Fout为最终输出的特征图。
9.根据权利要求5所述的基于多阶段和多尺度注意力融合网络的图像去雨方法,其特征在于:所述步骤二中,第一阶段网络只能提取粗糙的特征,因此提出了一个多级特征融合模块融合两个阶段网络的特征,进一步细化特征;为了对特征图进行精确校准,多联合通道坐标注意力模块采用了多个联合通道坐标注意力模块和一个卷积层;多级特征融合模块在两个编码器-解码器之间,能够将第一阶段编解码器网络的不同尺度特征转移到第二阶段编解码器网络中;在将两个阶段对应等级的特征融合之前,首先使用多联合通道坐标注意力模块对第二阶段三个等级的特征图重新校准,然后将第一阶段编码器三个等级的特征,解码器三个等级的特征和第二阶段编码器三个等级的特征融合在一起,每个等级的特征都要通过多分支模块来丰富特征信息,最后等级2和等级3的特征进行上采样与上一等级的特征进行融合,输出到第二阶段的解码器中。
10.根据权利要求5所述的基于多阶段和多尺度注意力融合网络的图像去雨方法,其特征在于:所述步骤三中,为了提高网络的建模能力,将两个3x3的卷积层,PRelu函数和联合通道坐标注意力进行组合,形成了联合通道坐标注意力模块,在网络的编码层和解码层,添加了多个联合通道坐标注意力模块来提取每个尺度上的特征;在编解码器网络中,引入了Inception注意力分支模块来提取高级特征,Inception结构提取了不同尺度的特征并将特征进行叠加输出,丰富了特征图的信息,极大的提高了网络的性能。
CN202111522656.6A 2021-12-13 2021-12-13 一种基于多阶段和多尺度注意力融合网络及图像去雨方法 Pending CN114187275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111522656.6A CN114187275A (zh) 2021-12-13 2021-12-13 一种基于多阶段和多尺度注意力融合网络及图像去雨方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111522656.6A CN114187275A (zh) 2021-12-13 2021-12-13 一种基于多阶段和多尺度注意力融合网络及图像去雨方法

Publications (1)

Publication Number Publication Date
CN114187275A true CN114187275A (zh) 2022-03-15

Family

ID=80604885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111522656.6A Pending CN114187275A (zh) 2021-12-13 2021-12-13 一种基于多阶段和多尺度注意力融合网络及图像去雨方法

Country Status (1)

Country Link
CN (1) CN114187275A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677306A (zh) * 2022-03-29 2022-06-28 中国矿业大学 一种基于边缘信息引导的上下文聚合图像去雨方法
CN114708170A (zh) * 2022-06-06 2022-07-05 松立控股集团股份有限公司 一种基于增强多尺度特征的车牌图像去模糊方法
CN114821519A (zh) * 2022-03-21 2022-07-29 上海应用技术大学 一种基于坐标注意力的交通标志识别方法及系统
CN114972280A (zh) * 2022-06-07 2022-08-30 重庆大学 精细坐标注意力模块及其在表面缺陷检测中的应用
CN116307267A (zh) * 2023-05-15 2023-06-23 成都信息工程大学 一种基于卷积的降雨预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821519A (zh) * 2022-03-21 2022-07-29 上海应用技术大学 一种基于坐标注意力的交通标志识别方法及系统
CN114821519B (zh) * 2022-03-21 2024-05-21 上海应用技术大学 一种基于坐标注意力的交通标志识别方法及系统
CN114677306A (zh) * 2022-03-29 2022-06-28 中国矿业大学 一种基于边缘信息引导的上下文聚合图像去雨方法
CN114708170A (zh) * 2022-06-06 2022-07-05 松立控股集团股份有限公司 一种基于增强多尺度特征的车牌图像去模糊方法
CN114972280A (zh) * 2022-06-07 2022-08-30 重庆大学 精细坐标注意力模块及其在表面缺陷检测中的应用
CN114972280B (zh) * 2022-06-07 2023-11-17 重庆大学 精细坐标注意力模块及其在表面缺陷检测中的应用
CN116307267A (zh) * 2023-05-15 2023-06-23 成都信息工程大学 一种基于卷积的降雨预测方法
CN116307267B (zh) * 2023-05-15 2023-07-25 成都信息工程大学 一种基于卷积的降雨预测方法

Similar Documents

Publication Publication Date Title
CN114187275A (zh) 一种基于多阶段和多尺度注意力融合网络及图像去雨方法
Yang et al. Frame-consistent recurrent video deraining with dual-level flow
Guo et al. Dense scene information estimation network for dehazing
Li et al. Learning a deep dual attention network for video super-resolution
CN109272452B (zh) 小波域中基于集团结构子带共同学习超分辨率网络的方法
US11301965B2 (en) Method and image processing device for image super resolution, image enhancement, and convolutional neural network model training
CN111028177A (zh) 一种基于边缘的深度学习图像去运动模糊方法
CN116152120B (zh) 一种融合高低频特征信息的低光图像增强方法及装置
Huang et al. Pyramid-structured depth map super-resolution based on deep dense-residual network
CN111951164B (zh) 一种图像超分辨率重建网络结构及图像重建效果分析方法
CN112949636B (zh) 一种车牌超分辨率识别方法、系统及计算机可读介质
CN112241939B (zh) 一种基于多尺度和非局部的轻量去雨方法
Yin et al. Visual attention dehazing network with multi-level features refinement and fusion
CN112767283A (zh) 一种基于多图像块划分的非均匀图像去雾方法
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN112150400A (zh) 图像增强方法、装置和电子设备
CN114359044A (zh) 一种基于参考图像的图像超分辨率系统
Zang et al. Cascaded dense-UNet for image super-resolution
CN115345801B (zh) 一种基于图像去噪思想的图像压缩及滤镜去除方法及系统
CN117058043A (zh) 一种基于lstm的事件-图像去模糊方法
CN116977208A (zh) 双分支融合的低照度图像增强方法
CN117078553A (zh) 一种基于多尺度深度学习的图像去雾方法
CN115147317A (zh) 一种基于卷积神经网络的点云颜色质量增强方法及系统
CN114219738A (zh) 单幅图像多尺度超分辨重建网络结构及方法
CN114022356A (zh) 基于小波域的河道流量水位遥感图像超分辨率方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination