CN111275637A - 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 - Google Patents
一种基于注意力模型的非均匀运动模糊图像自适应复原方法 Download PDFInfo
- Publication number
- CN111275637A CN111275637A CN202010040751.1A CN202010040751A CN111275637A CN 111275637 A CN111275637 A CN 111275637A CN 202010040751 A CN202010040751 A CN 202010040751A CN 111275637 A CN111275637 A CN 111275637A
- Authority
- CN
- China
- Prior art keywords
- network
- convolution
- image
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 40
- 230000004913 activation Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 40
- 238000012360 testing method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000011084 recovery Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于注意力模型的非均匀运动模糊图像自适应复原方法属于数字图像/视频信号处理领域。本发明设计了一个结合注意力机制的条件生成对抗网络。生成网络为一个编解码结构,编码阶段采用密集连接网络提取特征,提高特征利用率,加强特征的传播,并加入视觉注意力机制,使网络对于不同的输入图像能够自适应地调解网络参数,动态去除图像模糊。本发明可以从非均匀运动模糊图像中有效复原出清晰图像。该技术在目标跟踪、交通检测、军事侦察等领域具有广泛的应用前景。
Description
技术领域
本发明属于数字图像/视频信号处理领域,特别涉及一种基于注意力模型的非均匀运动模糊图像自适应复原方法。
背景技术
图像已成为人们获取信息的一种重要方式,图像中的文本、标识和标牌等信息对场景的理解具有重要的作用。然而,在图像采集的过程中,由于受到相机抖动、图像场景深度变化以及物体运动等因素的影响,往往会造成图像模糊,且由于拍摄场景不可再现,从而导致图像信息永久性丢失,给人们的工作生活带来诸多损失。虽然可以通过提高设备质量减少图像模糊,但是购置设备成本昂贵,且仍然存在很多模糊问题难以解决。因此,一个行之有效的模糊图像复原算法对于充分发挥图像质量有着重要意义,具有重要的学术价值和应用价值。
模糊图像复原方法包含两大类:基于传统方法的图像复原和基于深度学习方法的图像复原。传统的模糊复原方法需要估计每个像素点对应的模糊核,因此传统方法往往需要对模糊源作出假设,且大部分传统方法的研究主要集中于解决相机平移、旋转产生的均匀模糊,而真实模糊图像的模糊核往往是非均匀的。传统方法难以解决实际情况中复杂因素引起的图像模糊。
真实模糊图像的模糊核往往是未知的,再加上盲复原问题的欠定性,使得非均匀模糊图像盲复原成为一个极具挑战性的计算机视觉问题。近年来,基于深度学习的卷积神经网络在图像复原问题中得到了广泛的应用,这类图像复原方法避免了传统方法手工设计特征的过程,仅通过卷积神经网络端到端地学习图像的层级特征,得到低质图像与高质图像的映射关系。但是,现有的基于学习的方法过分依赖于数据驱动,缺乏对图像模糊信息的关注,并未考虑到运动模糊图像场景的深度特征,容易造成复原图像平均化,这类方法对于没有训练过的图像数据处理效果往往并不理想。
近几年,越来越多的研究开始结合视觉注意力机制开展工作。视觉注意力机制能够定位图像中的目标区域并捕捉感兴趣的区域特征,目前已经成功应用于识别和分类问题。模糊图像复原的目标是将图像中的模糊部分还原成清晰图像,因此图像中的模糊区域是我们复原和关注的主要目标,所以搭建一个可以捕捉模糊区域及其周围结构信息的注意力模型对解决非均匀模糊问题具有显著优势。
本发明提出了一种基于注意力模型的非均匀运动模糊图像自适应复原方法。设计了一个结合注意力机制的条件生成对抗网络。生成网络为一个编解码结构,编码阶段采用密集连接网络提取特征,提高特征利用率,加强特征的传播,并加入视觉注意力机制,使网络对于不同的输入图像能够自适应地调解网络参数,动态去除图像模糊。本发明可以从非均匀运动模糊图像中有效复原出清晰图像。该技术在目标跟踪、交通检测、军事侦察等领域具有广泛的应用前景。
发明内容
本发明的目的在于克服现有模糊复原方法依赖于数据驱动而忽略了运动模糊图像场景深度特征信息的不足,针对非均匀模糊图像的动态盲复原的问题,提供了一个基于注意力模型的运动模糊图像自适应复原网络,该网络可以根据模糊位置及模糊程度差异,自适应地提取特征权重,捕捉模糊区域及其周围结构特征,实现非均匀模糊图像的动态去模糊。
本发明是采用以下技术手段实现的:
一种基于注意力模型的非均匀运动模糊图像自适应复原方法。该方法采用生成对抗网络框架,首先,模糊图像通过融入视觉注意力机制的生成网络得到复原图像,然后,将复原图像与清晰图像送入判别网络进行判断,在两种网络的相互博弈中,训练得到复原能力更强的生成网络。该方法的整体网络如附图1所示,分为两部分:生成网络和判别网络,如附图2、3所示。
现有的针对模糊图像复原问题的网络结构缺乏对模糊信息的关注,大部分方法忽略了模糊位置及模糊程度的差异,对所有模糊图像均采用相同权重的网络结构进行处理,容易造成复原图像平均化,使得重建效果不佳。本发明在设计的生成网络中添加视觉注意力机制,并使用密集连接提取图像细节信息。
生成网络由4部分组成,特征降维网络、密集连接网络、注意力网络和特征重建网络。判别网络采用马尔可夫判别器,由全卷积网络组成。以下是分别对生成网络和判别网络的介绍。
该方法具体包括以下步骤:
1)生成网络:
第一步,特征降维网络降低特征维度。由于输入网络的图像较大,所以需要对输入图像进行降维处理。特征降维网络由3个卷积操作组成,输入图像分别送入一个7×7卷积层和两个3×3卷积层,每个卷积层后都跟有InstanceNormalization归一化操作和RELU激活层。
第二步,密集连接网络提取特征。由于模糊图像和清晰图像在数值上本身比较接近,差异性较小,所以大部分的图像复原方法在网络设计过程中都会引入残差模块学习两者之间的差异信息,但是传统的残差模块仍然存在信息丢失和网络收敛速度慢的问题。所以本发明在生成网络中设计了针对模糊图像复原任务的密集连接网络,密集连接比传统卷积网络需要更少参数,不需要去学习冗余特征图,通过特征重用减少信息丢失和梯度消失现象,改善整个网络信息流和梯度流的传递,从而易于网络训练,帮助网络提取丰富的图像特征。
密集连接网络包含3个密集连接子模块,每个子模块由6个卷积层组成,记xl为密集连接子模块第l层的输出,第0到第l-1层的输出特征图分别用x0...xl-1表示,其中每层的输入是前面所有输出层在通道维度的叠加,可以用公式(1)表示:
xl=Fl([x0,x1,...,xl-1]), (1)
其中,Fl(·)表示非线性转换函数,它是一个组合操作,包括InstanceNormalization归一化操作、RELU激活层和3×3卷积操作,卷积层的输出通道数,也即增长率growthrate为72。为了降低密集连接子模块的规模和复杂度,设计了bottleneck结构减少计算量,在每个密集连接子模块内部的6个卷积层的相邻卷积层之间加入一个1×1的卷积层,其后跟一个Instancenormalization归一化操作和一个RELU激活函数,进行特征降维操作。
为了防止出现过拟合现象进一步优化模型的简洁性,在三个密集连接子模块中相邻子模块之间加入过渡层,过渡层是一个组合操作,包括InstanceNormalization归一化操作和1×1的卷积操作,卷积操作的输出通道维度为θ×N,其中θ为压缩率,N为输入过渡层的通道数,在实验中θ=0.5。
第三步,注意力机制提取模糊图像的位置信息。针对缺乏对模糊图像的空间模糊信息的提取,本发明设计了混合注意力机制帮助网络自适应地选择并提取模糊图像的区域特征。混合注意力机制由通道和空间注意力机制两个模块串联组成,通道注意力模块是基于两种池化操作在通道平面提取的融合,具体操作为,首先分别计算输入特征图基于每个通道平面的Average pooling和Max pooling,得到两个维度为C(输入特征图的通道数)×1的特征向量,然后将两个特征向量分别经过权值共享的单隐层多层感知机(Multi-LayerPerceptron,MLP),其中输入层到隐藏层的权重隐藏层到输出层的权重得到两个C×1维的特征向量,最后将两个特征向量线性相加后经过sigmoid激活层得到维度为C×1的通道注意力特征图;空间注意力模块是基于两种池化操作对每个特征点空间位置特征的融合,首先,使用Average pooling和Max pooling对输入特征图在通道维度上进行压缩操作,分别计算每个特征点在所有通道维度上的平均值和最大值,将其按通道维度拼接在一起得到维度为W×H×2的特征图,然后,将得到的特征图采用一个7×7的卷积核进行卷积操作,得到和输入特征图空间维度相同的空间注意力特征图。将密集连接网络提取到的特征分别与通道注意力和空间注意力得到的特征图进行点乘操作,得到输出特征图。Max pooling可以保留图像的边缘特征,Average pooling可以保留图像的纹理特征,两者的拼接能够更好地提取和保留模糊图像在空间位置上的信息。
第四步,特征重建网络输出复原图像。密集连接网络最后一层提取到的输出数据为64×64×256分辨率的张量特征数据,首先采用卷积核为3×3的转置卷积对其进行上采样,将该张量分辨率还原为128×128×128,然后在经过一个卷积核为3×3的转置卷积得到分辨率为256×256×64的特征张量,再经过一个卷积核为7×7,步长为2,padding为1的卷积操作和tanh激活层,使输出张量的维度与输入图像一致,最后将特征分辨率为256×256×3的该张量与网络的输入图像通过长连接进行拼接,得到复原图像。因为输入和输出图像存在纹理特征的相似性,所以需要共享低层信息,采用长连接的方式能够帮助网络恢复低层语义信息。
2)判别网络
传统的判别网络用于感知生成网络生成的图像和ground-truth之间的差异,目的是区分出图像的真假,判别器的输出为一个标量值,但由于传统判别器的输出是基于整张图像得到的一个加权值,无法体现图像的局部特征,因此传统判别网络不适用于解决对图像细节要求较高的图像复原任务。因此针对传统判别器缺乏对图像局部特征的提取和表征,本发明设计使用马尔可夫判别网络提取图像局部特征。其网络结构由包含5个卷积操作的全卷积网络组成。首先输入图像经过第一个4×4的卷积,其后是一个LeakyRelu激活函数,然后经过第二个4×4的卷积,其后跟一个Instance normalization归一化操作和一个LeakyRelu激活函数,再经过第三个4×4的卷积,同样在其后跟一个Instancenormalization归一化操作和一个LeakyRelu激活函数,然后经过第4个4×4的卷积,后面分别经过Instance normalization归一化操作和一个LeakyRelu激活函数,最后经过第5个4×4的卷积操作和一个sigmoid激活函数。此马尔可夫判别网络输出特征图的每个特征对应感受野大小为70×70。马尔可夫判别网络能够关注于图像的局部区域,保持复原图像与原始模糊图像在内容部分的相似性,保留图像的高频信息。
针对图像复原任务,论文中所有的归一化操作均选择Instance normalization,理由如下。Instance normalization主要在图像风格迁移任务中使用,模糊图像复原可以看作模糊图像与清晰图像两种风格间的映射,且每张模糊图像均有各自不同的模糊位置与空间特点,不需要建立与其他样本的联系,而Instance normalization仅对单张图像进行归一化操作,所以选择Instance Normalization作为整个网络的归一化操作,这样不仅能够加快网络的收敛速度,还可以保持各个图像实例之间的独立。
在网络的训练过程中损失函数由内容损失函数和对抗损失函数构成网络的联合损失函数,如公式(2)所示:
其中λ在所有实验中取100,可以使网络更快收敛。对抗损失选择WGAN-GP作为判别函数,原始的生成对抗网络的损失函数存在梯度不稳定现象,使网络不易收敛训练困难,WGAN-GP损失很好地解决了生成对抗网络训练不稳定的问题,使网络在训练过程中不需要再去仔细权衡生成网络和判别网络的训练程度,基本解决了模型崩溃的问题。对抗损失函数如公式(3)所示:
其中,IS和IB分别表示清晰图像和模糊图像,n表示输入网络的图像个数。实验发现不含对抗损失函数时,网络虽然可以收敛,但是生成的图像模糊,缺少图像纹理细节信息。
选择感知损失函数作为网络的内容损失函数,感知损失函数是一种简单的L2损失,它是基于生成图像与目标图像经过卷积神经网络得到的特征图差值计算而来,其定义如公式(4)所示:
其中IS和IB分别表示清晰图像和模糊图像,φi是加载ImageNet预训练参数的VGG19网络第i个卷积得到的特征图,Ci、Wi和Hi表示特征图的维度。选择的卷积层越深,提取的特征则越抽象,在实验中选择i为7。实验中发现,未使用感知损失或使用简单的均方误差损失函数,网络收敛困难。
感知损失注重还原图像的整体内容,对抗损失注重还原图像纹理细节,两种损失函数组成的联合损失函数共同指导网络训练,能够有效解决训练不稳定的问题,加快网络的收敛速度。
为了验证本发明的有效性,我们采用了两种常用的图像质量评价指标分别是峰值信噪比(PSNR)和结构相似性(SSIM)。
本发明与现有技术相比,具有明显的优势和显著的效果:
本发明将视觉注意力嵌入到生成对抗网络,提出了一种基于端到端的运动模糊盲复原方法。我们的主要思想是将视觉注意力融入生成网络中,该方法可以根据模糊位置及模糊程度的差异,自适应地选择提取特征的权重。生成网络中还加入了密集连接网络提取图像特征,加强了特征利用率并减少信息丢失。在训练过程中,注意力模型可以帮助网络更好地学习图像的模糊区域及其周围场景的结构特征。同时,马尔可夫判别网络通过局部区域一致性的评估,保持复原图像与原始模糊图像在内容部分的相似性,保留图像的高频信息,提高判别网络的鉴别能力。在两种网络的相互博弈中,训练得到复原能力更强的生成网络。本发明的主要贡献即是视觉注意力与生成网络的融合,该方法可以有效提升运动模糊图像的复原效果。
本发明特点:
1.所述算法设计了一种新的注意力生成对抗网络用于非均匀运动模糊图像复原任务,通过将视觉注意力融入生成网络,能够帮助网络自适应地学习图像的模糊区域及其周围场景的结构特征,提升模型的鲁棒性;
2.所述算法提出一种密集连接注意力模块的生成网络,通过特征重用减少梯度消失和信息丢失,注意力机制实现了图像模糊复原算法的根据运动模糊情况动态调整处理方法的能力,提高了非均匀运动模糊图像的复原效果;
3.所述算法引入马尔可夫判别网络通过局部区域一致性的评估,保持复原图像与原始模糊图像在内容部分的相似性,保留图像的高频信息,提高判别网络的鉴别能力;
附图说明
图1、网络整体架构图;
图2、生成网络架构;
图3、判别网络架构;
图4、注意力机制获取的模糊情况特征图;(上图为模糊图像,下图为注意力机制获取的模糊图像特征图)
图5、不同方法的主观结果比较;(主观测试结果,图像从左到右依次为模糊图像、DeblurGAN测试结果、本发明的测试结果和清晰图像)
具体实施方式
以下结合说明书附图,对本发明的实施实例加以说明:
本发明采用GOPRO数据集进行训练和测试。GOPRO数据集一共包含多个街道和自然场景的运动模糊图像,已经成为目前基于深度学习的运动模糊图像复原算法最常用的数据集之一。数据集包含3214对模糊-清晰图像,每张图像的分辨率为1280×720,使用GOPRO数据集中2013对图像作为训练集,其余1111对图像作为测试集。
本发明提出方法整体架构图如附图1所示。算法主要分为两个阶段:生成网络的复原阶段和判别网络的鉴别阶段。
(1)复原阶段
复原阶段的具体实现步骤如下:
a)特征降维网络降低特征维度
降低输入图像的特征维度。首先将分辨率为1280×720的模糊图像随机裁剪到256×256像素进行图像预处理。将裁减后的图像采用一个7×7的卷积核提取特征,两个维度的步长均为1,卷积padding为3,采用0进行填充,得到64个特征,将特征进行正则化和激活操作。再将这些特征经过3×3的卷积进行特征降维,两个维度步长均为2,卷积padding为1,采用0进行填充,得到128个特征,将特征进行正则化和激活操作。然后将特征经过卷积再次进行特征降维,采用的卷积核大小、步长和填充参数的选择均与上一个卷积操作相同,得到256个特征,特征大小为64×64,将特征进行正则化和激活操作。上述3个卷积操作均使用Instance normalization正则化操作和RELU激活函数。
b)密集连接网络提取特征
密集连接网络提取特征。首先对于前面输出的特征先采用一个3×3的卷积核提取特征,两个维度的步长为1,卷积padding为1,采用0进行填充,得到144个特征。然后将这些特征顺序输入到三个密集连接子模块,每个密集连接子模块由6个卷积层组成,其中每个卷积层采用3×3的卷积核,两个维度的步长为1,卷积padding为1,采用0进行填充,输出通道数为72。为了降低复杂度,采用bottleneck结构,在每个密集连接子模块内部的6个卷积层的相邻卷积层之间加入一个1×1的卷积层,两个维度的步长为1,卷积padding为1,采用0进行填充,卷积层的输出通道数为4×growthrate。为了进一步优化网络简洁性,在三个密集连接子模块中相邻子模块之间加入1×1的卷积操作,两个维度的步长为1,卷积padding为1,采用0进行填充,卷积操作的输出通道维度为θ×N,其中θ=0.5,N为输入过渡层的通道数。密集连接网络中的每个卷积操作均使用Instance normalization正则化操作和RELU激活函数。
c)注意力网络提取模糊位置信息
注意力网络提取模糊图像的模糊位置信息。首先对前面输出的特征采用一个3×3的卷积核提取特征,两个维度的步长为1,卷积padding为1,采用0进行填充,得到360个特征,然后经过和前面卷积操作相同但输出为256个特征的卷积。将得到的输出的特征作为注意力网络的输入。注意力网络由空间注意力和通道注意力机制两个模块串联组成。首先计算每个通道特征的Average pooling和Max pooling,得到两个维度为256×1的特征向量,然后将两个特征向量经过权值共享的单隐层MLP,其中输入层到隐藏层的权重隐藏层到输出层的权重得到两个维度为C×1的特征向量,最后将两个特征向量线性相加后经过sigmoid激活层得到维度为256×1通道注意力特征图;空间注意力模块首先计算每个特征位置在所有通道维度的Average pooling和Max pooling,对特征在通道维度上进行压缩,将两种特征按通道维度拼接得到维度为64×64×2的特征图,然后,将特征图采用一个7×7的卷积核进行卷积操作,两个维度的步长均为1,卷积padding为3,采用0进行填充,得到和输入特征空间维度相同的注意力特征图。将密集连接网络提取到的特征分别与通道注意力和空间注意力得到的特征图进行点乘操作,得到输出特征图。注意力机制获取的非均匀模糊特征图如附图说明图4所示。
d)特征重建网络复原模糊图像
特征重建网络复原模糊图像。将之前网络提取到的大小为64×64×256分辨率的张量特征数据,首先采用卷积核为3×3的转置卷积对其进行上采样,将该张量分辨率还原为128×128×128,然后在经过一个卷积核为3×3的转置卷积得到分辨率为256×256×64的特征张量,再经过一个卷积核为7×7,步长为2,padding为1的卷积操作和tanh激活层,使输出张量的维度与输入图像一致,最后将特征分辨率为256×256×3的该张量与网络的输入图像通过长连接进行拼接,得到复原图像。
(2)鉴别阶段
判别网络鉴别复原与清晰图像。判别网络使用马尔可夫判别网络提取图像局部特征,其网络由5个卷积核为4×4的卷积操作组成,所有卷积的padding均为1,采用0进行填充,前3个卷积两个维度的步长相同,设置为2,后两个卷积的步长相同,设置为1。第一个卷积后跟LeakyRelu操作,负斜率的角度设置为0.2,第3-5个卷积后跟instancenormalization归一化操作和LeakyRelu激活函数,负斜率倾斜角度设为0.2,第5个卷积后跟sigmoid激活函数。五个卷积分别得到64、128、256、512和1个特征。
下面介绍网络训练和测试的过程:
以生成对抗网络的训练策略,在两种网络的相互博弈中,训练得到复原能力更强的生成网络。网络接收的输入数据的尺寸为256×256×3的彩色图像,数据集中包含成对的清晰-模糊图像数据集。生成网络的输入与输出的尺寸相同,输入模糊图像,输出复原图像;判别网络输入为256×256×3大小的图像,输出为35×35×1的特征张量。
a)模型训练
所有模型训练取batch size设为1,生成网络和判别网络的初始学习率均设为10-4,设置epoch=300,在后150次迭代中让学习率线性衰减到零。网络训练时每更新5次判别网络,更新1次生成网络。
b)模型测试
仅保留生成网络对模型进行测试,使用GOPRO测试数据集对生成网络测试。分别将测试集中的1111幅模糊图像送入生成网络,得到相应的复原图像,计算复原图像与对应清晰图像的PSNR值和SSIM值作为评价指标,验证模型的有效性。
所述算法与不同算法在模糊图像复原任务上的PSNR与SSIM的客观结果如表1所示。典型的主观结果图如附图说明图5所示。
表1不同方法GOPRO测试集的客观结果
方法 | PSNR | SSIM |
Sun et al. | 24.6 | 0.84 |
Nah et al. | 28.3 | 0.92 |
Xu et al. | 25.1 | 0.89 |
DeblurGAN | 27.2 | 0.95 |
Attention-dense-DeblurGAN | 29.4118 | 0.8858 |
Claims (2)
1.一种基于注意力模型的非均匀运动模糊图像自适应复原方法,其特征在于:
该方法采用生成对抗网络框架,首先,模糊图像通过融入视觉注意力机制的生成网络得到复原图像,然后,将复原图像与清晰图像送入判别网络进行判断,在两种网络的相互博弈中,训练得到复原能力更强的生成网络;
该方法的整体网络分为两部分:生成网络和判别网络
生成网络由4部分组成,特征降维网络、密集连接网络、注意力网络和特征重建网络;判别网络采用马尔可夫判别器,由全卷积网络组成;
以下是分别对生成网络和判别网络的介绍;
1)生成网络:
第一步,特征降维网络降低特征维度;
特征降维网络由3个卷积操作组成,输入图像分别送入一个7×7卷积层和两个3×3卷积层,每个卷积层后都跟有Instance Normalization归一化操作和RELU激活层;
第二步,密集连接网络提取特征;
在生成网络中设计了针对模糊图像复原任务的密集连接网络,密集连接网络包含3个密集连接子模块,每个子模块由6个卷积层组成,记xl为密集连接子模块第l层的输出,第0到第l-1层的输出特征图分别用x0...xl-1表示,其中每层的输入是前面所有输出层在通道维度的叠加,用公式(1)表示:
xl=Fl([x0,x1,...,xl-1]), (1)
其中,Fl(·)表示非线性转换函数,它是一个组合操作,包括Instance Normalization归一化操作、RELU激活层和3×3卷积操作,卷积层的输出通道数,也即增长率growth rate为72;
为了降低密集连接子模块的规模和复杂度,设计了bottleneck结构减少计算量,在每个密集连接子模块内部的6个卷积层的相邻卷积层之间加入一个1×1的卷积层,其后跟一个Instance normalization归一化操作和一个RELU激活函数,进行特征降维操作;
在三个密集连接子模块中相邻子模块之间加入过渡层,过渡层是一个组合操作,包括Instance Normalization归一化操作和1×1的卷积操作,卷积操作的输出通道维度为θ×N,其中θ为压缩率,N为输入过渡层的通道数,θ=0.5;
第三步,设计了混合注意力机制帮助网络自适应地选择并提取模糊图像的区域特征;
混合注意力机制由通道和空间注意力机制两个模块串联组成,具体操作为,首先分别计算输入特征图基于每个通道平面的Average pooling和Max pooling,得到两个维度为C即输入特征图的通道数×1的特征向量,然后将两个特征向量分别经过权值共享的单隐层多层感知机,其中输入层到隐藏层的权重隐藏层到输出层的权重得到两个C×1维的特征向量,最后将两个特征向量线性相加后经过sigmoid激活层得到维度为C×1的通道注意力特征图;
空间注意力模块是基于两种池化操作对每个特征点空间位置特征的融合,首先,使用Average pooling和Max pooling对输入特征图在通道维度上进行压缩操作,分别计算每个特征点在所有通道维度上的平均值和最大值,将其按通道维度拼接在一起得到维度为W×H×2的特征图,然后,将得到的特征图采用一个7×7的卷积核进行卷积操作,得到和输入特征图空间维度相同的空间注意力特征图;将密集连接网络提取到的特征分别与通道注意力和空间注意力得到的特征图进行点乘操作,得到输出特征图;
第四步,特征重建网络输出复原图像;密集连接网络最后一层提取到的输出数据为64×64×256分辨率的张量特征数据,首先采用卷积核为3×3的转置卷积对其进行上采样,将该张量分辨率还原为128×128×128,然后在经过一个卷积核为3×3的转置卷积得到分辨率为256×256×64的特征张量,再经过一个卷积核为7×7,步长为2,padding为1的卷积操作和tanh激活层,使输出张量的维度与输入图像一致,最后将特征分辨率为256×256×3的该张量与网络的输入图像通过长连接进行拼接,得到复原图像;
2)判别网络
使用马尔可夫判别网络提取图像局部特征;
其网络结构由包含5个卷积操作的全卷积网络组成;首先输入图像经过第一个4×4的卷积,其后是一个LeakyRelu激活函数,然后经过第二个4×4的卷积,其后跟一个Instancenormalization归一化操作和一个LeakyRelu激活函数,再经过第三个4×4的卷积,同样在其后跟一个Instance normalization归一化操作和一个LeakyRelu激活函数,然后经过第4个4×4的卷积,后面分别经过Instance normalization归一化操作和一个LeakyRelu激活函数,最后经过第5个4×4的卷积操作和一个sigmoid激活函数;此马尔可夫判别网络输出特征图的每个特征对应感受野大小为70×70。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040751.1A CN111275637B (zh) | 2020-01-15 | 2020-01-15 | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040751.1A CN111275637B (zh) | 2020-01-15 | 2020-01-15 | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275637A true CN111275637A (zh) | 2020-06-12 |
CN111275637B CN111275637B (zh) | 2024-01-30 |
Family
ID=71000321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040751.1A Active CN111275637B (zh) | 2020-01-15 | 2020-01-15 | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275637B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738948A (zh) * | 2020-06-19 | 2020-10-02 | 大连理工大学 | 一种基于双U-net的水下图像增强方法 |
CN111787187A (zh) * | 2020-07-29 | 2020-10-16 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
CN111814726A (zh) * | 2020-07-20 | 2020-10-23 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN111968047A (zh) * | 2020-07-22 | 2020-11-20 | 中国西安卫星测控中心 | 一种基于生成式对抗网络的自适应光学图像盲复原方法 |
CN112465776A (zh) * | 2020-11-26 | 2021-03-09 | 常州信息职业技术学院 | 一种基于风力机表面模糊图像的裂纹智能检测方法 |
CN112597610A (zh) * | 2020-12-28 | 2021-04-02 | 深圳市优必选科技股份有限公司 | 机械臂结构轻量化设计的优化方法、装置及设备 |
CN112614072A (zh) * | 2020-12-29 | 2021-04-06 | 北京航空航天大学合肥创新研究院 | 一种图像复原方法、装置、图像复原设备及存储介质 |
CN112686119A (zh) * | 2020-12-25 | 2021-04-20 | 陕西师范大学 | 基于自注意力生成对抗网络的车牌运动模糊图像处理方法 |
CN112686822A (zh) * | 2020-12-30 | 2021-04-20 | 成都信息工程大学 | 一种基于堆叠生成对抗网络的图像补全方法 |
CN112767446A (zh) * | 2021-01-22 | 2021-05-07 | 西安电子科技大学 | 一种提高红外图像跟踪的目标跟踪准确率的图像跟踪系统 |
CN113012072A (zh) * | 2021-03-30 | 2021-06-22 | 华南理工大学 | 一种基于注意力网络的图像运动去模糊方法 |
CN113205468A (zh) * | 2021-06-01 | 2021-08-03 | 桂林电子科技大学 | 一种基于自注意力机制和gan的水下图像实时复原模型 |
CN113240573A (zh) * | 2020-10-26 | 2021-08-10 | 杭州火烧云科技有限公司 | 一种针对千万级像素数字图像的基于局部和全局并行学习的风格变换方法及系统 |
CN113592736A (zh) * | 2021-07-27 | 2021-11-02 | 温州大学 | 一种基于融合注意力机制的半监督图像去模糊方法 |
CN113807218A (zh) * | 2021-09-03 | 2021-12-17 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN114266709A (zh) * | 2021-12-14 | 2022-04-01 | 北京工业大学 | 一种基于跨分支连接网络的复合降质图像解耦分析与复原方法 |
CN114331913A (zh) * | 2022-01-06 | 2022-04-12 | 福州大学 | 基于残差注意力块的运动模糊图像复原方法 |
CN115937018A (zh) * | 2022-11-03 | 2023-04-07 | 江苏济远医疗科技有限公司 | 一种利用多通道反馈网络进行图像复原的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376387A (zh) * | 2018-01-04 | 2018-08-07 | 复旦大学 | 基于聚合膨胀卷积网络的图像去模糊方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN109035149A (zh) * | 2018-03-13 | 2018-12-18 | 杭州电子科技大学 | 一种基于深度学习的车牌图像去运动模糊方法 |
CN109118438A (zh) * | 2018-06-29 | 2019-01-01 | 上海航天控制技术研究所 | 一种基于生成对抗网络的高斯模糊图像复原方法 |
CN109448006A (zh) * | 2018-11-01 | 2019-03-08 | 江西理工大学 | 一种注意力机制u型密集连接视网膜血管分割方法 |
CN109801230A (zh) * | 2018-12-21 | 2019-05-24 | 河海大学 | 一种基于新编码器结构的图像修复方法 |
CN110189278A (zh) * | 2019-06-06 | 2019-08-30 | 上海大学 | 一种基于生成对抗网络的双目场景图像修复方法 |
WO2019178893A1 (zh) * | 2018-03-22 | 2019-09-26 | 深圳大学 | 运动模糊图像的模糊处理方法、装置、设备及存储介质 |
CN110415170A (zh) * | 2019-06-24 | 2019-11-05 | 武汉大学 | 一种基于多尺度注意力卷积神经网络的图像超分辨率方法 |
US20190362199A1 (en) * | 2018-05-25 | 2019-11-28 | Adobe Inc. | Joint blur map estimation and blur desirability classification from an image |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
-
2020
- 2020-01-15 CN CN202010040751.1A patent/CN111275637B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376387A (zh) * | 2018-01-04 | 2018-08-07 | 复旦大学 | 基于聚合膨胀卷积网络的图像去模糊方法 |
CN109035149A (zh) * | 2018-03-13 | 2018-12-18 | 杭州电子科技大学 | 一种基于深度学习的车牌图像去运动模糊方法 |
WO2019178893A1 (zh) * | 2018-03-22 | 2019-09-26 | 深圳大学 | 运动模糊图像的模糊处理方法、装置、设备及存储介质 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
US20190362199A1 (en) * | 2018-05-25 | 2019-11-28 | Adobe Inc. | Joint blur map estimation and blur desirability classification from an image |
CN109118438A (zh) * | 2018-06-29 | 2019-01-01 | 上海航天控制技术研究所 | 一种基于生成对抗网络的高斯模糊图像复原方法 |
CN109448006A (zh) * | 2018-11-01 | 2019-03-08 | 江西理工大学 | 一种注意力机制u型密集连接视网膜血管分割方法 |
CN109801230A (zh) * | 2018-12-21 | 2019-05-24 | 河海大学 | 一种基于新编码器结构的图像修复方法 |
CN110189278A (zh) * | 2019-06-06 | 2019-08-30 | 上海大学 | 一种基于生成对抗网络的双目场景图像修复方法 |
CN110415170A (zh) * | 2019-06-24 | 2019-11-05 | 武汉大学 | 一种基于多尺度注意力卷积神经网络的图像超分辨率方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
Non-Patent Citations (2)
Title |
---|
ANITA THAKUR 等: "Restoration of space variant motion blurred images using adaptive particle filter techniques", 2015 4TH INTERNATIONAL CONFERENCE ON RELIABILITY, INFOCOM TECHNOLOGIES AND OPTIMIZATION (ICRITO) (TRENDS AND FUTURE DIRECTIONS) * |
王新春 等: "基于自适应梯度先验的旋转模糊图像复原算法", 兵工学报 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738948A (zh) * | 2020-06-19 | 2020-10-02 | 大连理工大学 | 一种基于双U-net的水下图像增强方法 |
CN111814726A (zh) * | 2020-07-20 | 2020-10-23 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN111814726B (zh) * | 2020-07-20 | 2023-09-22 | 南京工程学院 | 一种探测机器人视觉目标检测方法 |
CN111968047A (zh) * | 2020-07-22 | 2020-11-20 | 中国西安卫星测控中心 | 一种基于生成式对抗网络的自适应光学图像盲复原方法 |
CN111787187B (zh) * | 2020-07-29 | 2021-07-02 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
CN111787187A (zh) * | 2020-07-29 | 2020-10-16 | 上海大学 | 利用深度卷积神经网络进行视频修复的方法、系统、终端 |
CN113240573A (zh) * | 2020-10-26 | 2021-08-10 | 杭州火烧云科技有限公司 | 一种针对千万级像素数字图像的基于局部和全局并行学习的风格变换方法及系统 |
CN112465776A (zh) * | 2020-11-26 | 2021-03-09 | 常州信息职业技术学院 | 一种基于风力机表面模糊图像的裂纹智能检测方法 |
CN112465776B (zh) * | 2020-11-26 | 2023-10-31 | 常州信息职业技术学院 | 一种基于风力机表面模糊图像的裂纹智能检测方法 |
CN112686119A (zh) * | 2020-12-25 | 2021-04-20 | 陕西师范大学 | 基于自注意力生成对抗网络的车牌运动模糊图像处理方法 |
CN112686119B (zh) * | 2020-12-25 | 2022-12-09 | 陕西师范大学 | 基于自注意力生成对抗网络的车牌运动模糊图像处理方法 |
CN112597610B (zh) * | 2020-12-28 | 2024-02-13 | 优必康(青岛)科技有限公司 | 机械臂结构轻量化设计的优化方法、装置及设备 |
CN112597610A (zh) * | 2020-12-28 | 2021-04-02 | 深圳市优必选科技股份有限公司 | 机械臂结构轻量化设计的优化方法、装置及设备 |
CN112614072B (zh) * | 2020-12-29 | 2022-05-17 | 北京航空航天大学合肥创新研究院 | 一种图像复原方法、装置、图像复原设备及存储介质 |
CN112614072A (zh) * | 2020-12-29 | 2021-04-06 | 北京航空航天大学合肥创新研究院 | 一种图像复原方法、装置、图像复原设备及存储介质 |
CN112686822A (zh) * | 2020-12-30 | 2021-04-20 | 成都信息工程大学 | 一种基于堆叠生成对抗网络的图像补全方法 |
CN112767446A (zh) * | 2021-01-22 | 2021-05-07 | 西安电子科技大学 | 一种提高红外图像跟踪的目标跟踪准确率的图像跟踪系统 |
CN113012072A (zh) * | 2021-03-30 | 2021-06-22 | 华南理工大学 | 一种基于注意力网络的图像运动去模糊方法 |
CN113205468A (zh) * | 2021-06-01 | 2021-08-03 | 桂林电子科技大学 | 一种基于自注意力机制和gan的水下图像实时复原模型 |
CN113592736A (zh) * | 2021-07-27 | 2021-11-02 | 温州大学 | 一种基于融合注意力机制的半监督图像去模糊方法 |
CN113592736B (zh) * | 2021-07-27 | 2024-01-12 | 温州大学 | 一种基于融合注意力机制的半监督图像去模糊方法 |
CN113807218B (zh) * | 2021-09-03 | 2024-02-20 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN113807218A (zh) * | 2021-09-03 | 2021-12-17 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN114266709A (zh) * | 2021-12-14 | 2022-04-01 | 北京工业大学 | 一种基于跨分支连接网络的复合降质图像解耦分析与复原方法 |
CN114266709B (zh) * | 2021-12-14 | 2024-04-02 | 北京工业大学 | 一种基于跨分支连接网络的复合降质图像解耦分析与复原方法 |
CN114331913A (zh) * | 2022-01-06 | 2022-04-12 | 福州大学 | 基于残差注意力块的运动模糊图像复原方法 |
CN115937018A (zh) * | 2022-11-03 | 2023-04-07 | 江苏济远医疗科技有限公司 | 一种利用多通道反馈网络进行图像复原的方法 |
CN115937018B (zh) * | 2022-11-03 | 2023-11-03 | 江苏济远医疗科技有限公司 | 一种利用多通道反馈网络进行图像复原的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111275637B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275637B (zh) | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
Tian et al. | Deep learning on image denoising: An overview | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN111754438B (zh) | 基于多分支门控融合的水下图像复原模型及其复原方法 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN110599409A (zh) | 基于多尺度卷积组与并行的卷积神经网络图像去噪方法 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
Shen et al. | Convolutional neural pyramid for image processing | |
CN112651917A (zh) | 一种基于生成对抗网络的空间卫星低照度图像增强方法 | |
CN116797488A (zh) | 一种基于特征融合与注意力嵌入的低照度图像增强方法 | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
CN115546060A (zh) | 一种可逆的水下图像增强方法 | |
Chen et al. | Image denoising via deep network based on edge enhancement | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN115861094A (zh) | 一种融合注意力机制的轻量级gan水下图像增强模型 | |
CN115272072A (zh) | 一种基于多特征图像融合的水下图像超分辨率方法 | |
Tang et al. | AutoEnhancer: Transformer on U-Net architecture search for underwater image enhancement | |
CN114283058A (zh) | 基于对抗网络和最大互信息优化的图像超分辨率重建方法 | |
Lu et al. | Underwater image enhancement method based on denoising diffusion probabilistic model | |
CN117408924A (zh) | 一种基于多重语义特征融合网络的低光照图像增强方法 | |
CN117495718A (zh) | 一种多尺度自适应的遥感图像去雾方法 | |
CN117391920A (zh) | 基于rgb通道差分平面的大容量隐写方法及系统 | |
Zhang et al. | Mffe: Multi-scale feature fusion enhanced net for image dehazing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |