CN113592736A - 一种基于融合注意力机制的半监督图像去模糊方法 - Google Patents
一种基于融合注意力机制的半监督图像去模糊方法 Download PDFInfo
- Publication number
- CN113592736A CN113592736A CN202110851387.1A CN202110851387A CN113592736A CN 113592736 A CN113592736 A CN 113592736A CN 202110851387 A CN202110851387 A CN 202110851387A CN 113592736 A CN113592736 A CN 113592736A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- encoder
- layer
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 33
- 230000004913 activation Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000017105 transposition Effects 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 206010043417 Therapeutic response unexpected Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于融合注意力机制的半监督图像去模糊方法,包括:步骤Step1:获取图像训练数据集,并将所述图像训练数据集划分为两个训练子集;步骤Step2:构建基于全监督和无监督的图像模糊还原模型,所述图像模糊还原模型包括全监督网络和无监督网络;步骤Step3:将所述一个子集输入待训练的全监督网络进行学习,将所述另一子集输入待训练的无监督网络;步骤Step4:利用上述网络中的注意力机制筛选图像特征,对网络提取的特征信息分配相应的权重,获取重要的图像信息,并对所述重要的图像信息进行特征融合,得到最终的清晰图像,本发明通过将注意力机制和神经网络相结合,搭建针对运动模糊图像复原的网络模型,实现了对模糊图像有效、精准的复原。
Description
技术领域
本发明涉及计算机视觉图像复原技术领域,具体涉及到一种基于融合注意力机制的半监督图像去模糊方法。
背景技术
图像是人类视觉的基础,包含大量信息元素,是人们获取交流信息的重要途径。近几年来,在图像的获取过程中,由于物体运动、相机抖动等原因,可能会存在细节丢失,导致图像不能正确传递信息,影响图像的质量,进而影响图像后续的分析识别工作,例如目标识别、目标跟踪等。在日常生活中,随着智能手机、相机等摄影设备的普及,图像成为人们记录生活、传递信息的重要方式。而人们在拍摄时难以保持设备的稳定,容易导致图像产生运动模糊,影响图像质量。而在公共安全领域,图像模糊还原也占据十分重要的地位,例如电子眼抓拍违规车辆、公共区域的监控等等。图像模糊还原对于实时性要求高的行业也十分重要,例如在生产检测过程中,采用实时性较高的去模糊算法可以在物体运动时采集图像进行处理,大大提高物体生产线效率。因此,在图像模糊还原中,算法的效率和场景的应用十分重要,它已然成为近几年来计算机视觉和图像处理等领域的一个研究重点,不仅具有重要的理论意义,而且在实际应用中也有迫切需求。
随着深度学习和卷积神经网络的发展,为图像去模糊的研究和发展提供了新的思路和方向。越来越多的去模糊算法被提出,但是效果好的算法普遍存在时间复杂度高的问题,提高算法的运行效率是未来工作的一大重点。另外,训练神经网络所采用的模糊数据集对还原的结果有着直接的影响,但是目前开源的模糊数据集种类、数量都较少,算法很难推广到真实场景的图像去模糊。因此这也是迫切需要解决的问题。
综上所述,提供一种能够处理由运动产生的图像模糊,且还原效果好,计算成本低,且能有效地提高还原效率的基于融合注意力机制的半监督图像去模糊方法,是本领域技术人员急需解决的问题。
发明内容
本方案针对上文提到的问题和需求,提出一种基于融合注意力机制的半监督图像去模糊方法,其由于采取了如下技术方案而能够解决上述技术问题。
为实现上述目的,本发明提供如下技术方案:一种基于融合注意力机制的半监督图像去模糊方法,包括以下步骤:步骤Step1: 获取图像训练数据集,并将所述图像训练数据集划分为两个训练子集,所述两个训练子集中一个子集包括多个图像对,每个图像对由模糊图像及其对应的清晰图像组成,另一子集包括多个模糊图像;
步骤Step2:构建基于全监督和无监督的图像模糊还原模型,所述图像模糊还原模型包括全监督网络和无监督网络;
步骤Step3:将所述一个子集输入待训练的全监督网络进行学习,根据全监督网络生成器的输出结果及对应的Ground-truth清晰图像,由判别器鉴定图像为真或假的概率,将所述另一子集输入待训练的无监督网络,根据无监督网络的输出结果生成去模糊后图像。
步骤Step4:利用上述网络中的注意力机制筛选图像特征,对网络提取的特征信息分配相应的权重,获取重要的图像信息,并对所述重要的图像信息进行特征融合,得到最终的清晰图像。
进一步地,所述全监督网络包括第一生成器和判别器,所述第一生成器包括第一编码器-解码器网络,所述判别器包括二分类器,将所述一个子集中的模糊图像输入所述第一生成器生成去模糊图像,并将所述去模糊图像与对应清晰图像输入所述判别器,判断图像为真或图像为假的概率。
更进一步地,所述无监督网络包括第二生成器,所述第二生成器包括第二编码器-解码器网络,所述第二编码器-解码器网络与所述第一编码器-解码器网络结构相同,将所述另一子集中的模糊图像输入所述第二生成器生成去模糊后的图像,根据损失函数计算损失,并利用反向传播更新网络参数,优化网络。
更进一步地,图像去模糊过程包括:a.将模糊输入图像Xin分割成四个不重叠的图像块,将所述四个不重叠的图像块通过编码器层得到的四个特征映射进行两两特征连接,记为Xencoder_1,将Xencoder_1输入解码器层得到两个特征映射Xdecoder_1,将Xdecoder_1进行特征连接生成图像Xout_1;b.然后将模糊输入图像Xin分割成两个不重叠的图像块,并将所述两个不重叠的图像块和所述图像Xout_1进行相加后输入编码器层,得到两个特征映射,将所述两个特征映射和所述特征 Xencoder_1进行特征相加和特征连接,获得特征映射Xencoder_2;将Xencoder_2输入解码器层生成去模糊图Xout_2;c.将模糊输入图像Xin和所述去模糊图像Xout_2进行相加后输入编码器层后,将编码器层的输出结果和所述特征映射Xencoder_2相加后输入解码器层,最终生成清晰图像 Xout_3。
更进一步地,所述第一编码器-解码器网络包括编码器层和对应的解码器层;
所述编码器层包括卷积层和残差块,输入图像的大小经过裁剪之后,长和宽分别是8的倍数,编码器层首先由步长为1,填充为 3的7×7卷积处理,获取更多的图像全局特征,并且利用残差块提取更精细的模糊图像细节;然后设置一个5×5的卷积处理,进行下采样后通过残差块处理特征;最后进行一个3×3卷积操作和残差块,得到图像的不同图像块之间的特征,进行连接处理后,进入解码器层;
所述解码器层有三个尺度与编码器一一对应,前两个尺度是由残差块和转置卷积层组成,最后一个是由残差块和卷积层组成,前两个转置卷积层后添加一个非线性ReLU层作为激活函数,最后一个卷积层跟着Tanh函数作为激活函数,其中,利用残差块提取图像特征进行恢复,两次步长为2、卷积核4×4为的转置卷积进行上采样操作,恢复图像尺寸。
更进一步地,所述编码器层和所述解码器层之间设置有跳跃连接结构,跳跃连接结构使所述编码器层中的每个尺度残差块与所述解码器层中的残差块一一对应。
更进一步地,所述残差块的注意力机制包括通道注意力机制和空间注意力机制,输入特征图xin,通过通道注意力机制,获取不同通道重要的特征,对图像重要的特征进行提取;输入特征图xin,通过空间注意力机制,对图像不同位置的特征进行提取,加强对图像细节信息的提取;然后将通道注意力和空间注意力得到的特征进行融合,生成特征图xout。
更进一步地,所述通过通道注意力机制,获取不同通道重要的特征包括:输入特征图xin,分别采用全局最大池化和全局平均池化,输出图像两个不同的特征;将两个的特征分别通过1×1卷积和ReLU 激活函数,最后所生成的特征按通道进行相加,生成特征图xadd_c;将特征图xadd_c通过1×1卷积和sigmoid激活函数将特征映射到(0,1) 区间,得到每个通道的权重值wc;将输入的特征图xin和通道权重wc进行像素级相乘,生成输出xout_c。
更进一步地,通过空间注意力机制,对图像不同位置的特征进行提取包括:输入特征图xin,通过1×1卷积之后沿着通道维度分别采用最大池化和平均池化,得到两个特征并将其进行通道合并生成 xcat_s;将xcat_s通过1×1卷积操作压缩通道,并使用sigmoid激活函数,生成空间注意力图,即像素权重ws;将输入的特征图xin和像素权重ws进行像素级相乘,即为输出xout_s,将xout_c和xout_s进行特征融合得到 xout。
从上述的技术方案可以看出,本发明的有益效果是:与现有技术相比,本发明通过基于无监督网络和有监督网络的两个分支学习仿真生成数据和真实数据之间的关系,进而推广到真实场景的图像去模糊;该方法应用多图像块层次结构做为基础模型,避免了网络深度级联带来的计算负担,提高了学习效率和处理速度;网络的生成器利用残差块和注意力模块的结合,能够很好地解决深度神经网络的退化问题,使得信息前后的传播更加顺畅,加快模型的收敛速度;同时利用注意力机制,对图像有效的特征进行筛选,加强对重点特征的关注,增强网络的表达能力。
除了上面所描述的目的、特征和优点之外,下文中将结合附图对实施本发明的最优实施例进行更详尽的描述,以便能容易地理解本发明的特征和优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,其中,附图仅仅用于展示本发明的一些实施例,而非将本发明的全部实施例限制于此。
图1为本发明一种基于融合注意力机制的半监督图像去模糊方法的具体步骤示意图。
图2为本实施例中图像模糊还原模型的网络结构示意图.
图3为本发明中通道注意力机制的结构示意图。
图4为本发明中空间注意力机制的结构示意图。
图5为本发明中注意力机制的结构示意图。
图6为本发明中残差块的结构示意图。
具体实施方式
为了使得本发明的技术方案的目的、技术方案和优点更加清楚,下文中将结合本发明具体实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的主要目的是利用融合注意力机制的半监督图像去模糊算法推广到真实场景的图像运动模糊还原。具体包括利用通道注意力和空间注意力增强网络提取有效信息,削弱无用信息,提高网络的表达能力,实现对运动图像的高效、精准复原,本申请中的模型能够较好地处理由运动产生的图像模糊,得到高质量的清晰复原图,如图1至图6所示,该方法包括:步骤Step1:获取图像训练数据集,并将所述图像训练数据集划分为两个训练子集,所述两个训练子集中一个子集包括多个图像对,每个图像对由模糊图像及其对应的清晰图像组成,另一子集包括多个模糊图像;
步骤Step2:构建基于全监督和无监督的图像模糊还原模型,所述图像模糊还原模型包括全监督网络和无监督网络。
具体地,所述全监督网络包括第一生成器和判别器,所述第一生成器包括第一编码器-解码器网络,所述判别器包括二分类器,将所述一个子集中的模糊图像输入所述第一生成器生成去模糊图像,并将所述去模糊图像与对应清晰图像输入所述判别器,判断图像为真或图像为假的概率。
所述无监督网络包括第二生成器,所述第二生成器包括第二编码器-解码器网络,所述第二编码器-解码器网络与所述第一编码器-解码器网络结构相同,将所述另一子集中的模糊图像输入所述第二生成器生成去模糊后的图像,根据损失函数计算损失,并利用反向传播更新网络参数,优化网络。
在本实施例中,全监督网络利用生成式对抗网络,通过生成器和判别器,通过训练全监督网络的生成器能够生成更加真实的图像,让判别器识别不了这是“假”的图像;而判别器尽可能识别输入图像的真假,以此使得生成器能够不断优化。而所述的全监督分支和无监督分支的网络结构,除了全监督分支多了一个判别器之外,其他结构都是一样的,故利用权重共享同时优化无监督网络。
如图2所示,全监督网络和无监督网络这两个分支均采用多图像块层次结构(multi-patch hierarchy architecture)进行图像去模糊处理,一共包括三个级别:包括第一级别(stage_1)、第二级别(stage_2)和第三级别(stage_3),具体地为,第一级别:a.将模糊输入图像Xin分割成四个不重叠的图像块(patch),将所述四个不重叠的图像块通过编码器层得到的四个特征映射进行两两特征连接(concatenation),记为Xencoder_1,将Xencoder_1输入解码器层得到两个特征映射Xdecoder_1,将Xdecoder_1进行特征连接(concatenation)生成图像Xout_1;第二级别:b.然后将模糊输入图像Xin分割成两个不重叠的图像块,并将所述两个不重叠的图像块和所述图像Xout_1进行相加(addition)后输入编码器层,得到两个特征映射,将所述两个特征映射和所述特征Xencoder_1进行特征相加(addition)和特征连接(concatenation),获得特征映射Xencoder_2;将Xencoder_2输入解码器层生成去模糊图Xout_2;第三级别:c.将模糊输入图像Xin和所述去模糊图像Xout_2进行相加 (addition)后输入编码器层后,将编码器层的输出结果和所述特征映射Xencoder_2相加(addition)后输入解码器层,最终生成清晰图像Xout_3。无监督网络的去模糊过程与全监督网络的去模糊过程相同。对应分支的每个级别都是由编码器-解码器构成。
在本实施例中,所述第一编码器-解码器网络包括编码器层和对应的解码器层;所述编码器层包括卷积层和残差块,输入图像的大小经过裁剪之后,长和宽分别是8的倍数,编码器层首先由步长为1,填充为3的7×7卷积处理,获取更多的图像全局特征,并且利用残差块提取更精细的模糊图像细节;然后设置一个5×5的卷积处理,进行下采样后通过残差块处理特征;最后进行一个3×3卷积操作和残差块,得到图像的不同图像块之间的特征,进行连接处理后,进入解码器层;所述解码器层有三个尺度与编码器一一对应,前两个尺度是由残差块和转置卷积层组成,最后一个是由残差块和卷积层组成,前两个转置卷积层后添加一个非线性ReLU层作为激活函数,最后一个卷积层跟着Tanh函数作为激活函数,其中,利用残差块提取图像特征进行恢复,两次步长为2、卷积核4×4为的转置卷积进行上采样操作,恢复图像尺寸。
在本实施例中,为利用编码器所提取的特征,将信息流传递给解码器,所述的编码器-解码器体系具有跳跃连接结构,所述编码器层和所述解码器层之间设置有跳跃连接结构,跳跃连接结构使所述编码器层中的每个尺度残差块与所述解码器层中的残差块一一对应,该结构同时有助于梯度的反向传播,加快训练过程。
步骤Step3:将所述一个子集输入待训练的全监督网络进行学习,根据全监督网络生成器的输出结果及对应的Ground-truth清晰图像,由判别器鉴定图像为真或假的概率,将所述另一子集输入待训练的无监督网络,根据无监督网络的输出结果生成去模糊后图像。
步骤Step4:利用上述网络中的注意力机制筛选图像特征,对网络提取的特征信息分配相应的权重,获取重要的图像信息,并对所述重要的图像信息进行特征融合,得到最终的清晰图像。注意力机制能够获取图像任务中需要重点关注的目标领域,得到注意力焦点,而后对这一区域投入更多的注意力,以获取更多所需要关注的目标细节信息,抑制其他无用信息。
具体地,如图5所示,所述注意力机制包括通道注意力机制和空间注意力机制,输入特征图xin,通过通道注意力机制,获取不同通道重要的特征,对图像重要的特征进行提取;输入特征图xin,通过空间注意力机制,对图像不同位置的特征进行提取,加强对图像细节信息的提取;然后将通道注意力和空间注意力得到的特征进行融合,生成特征图xout。其中,输入特征图xin是残差块中输入input 经过第一个卷积层+ReLU层之后得到的特征图。
所述通过通道注意力机制,获取不同通道重要的特征包括:输入特征图xin,分别采用全局最大池化和全局平均池化,输出图像两个不同的特征;将两个的特征分别通过1×1卷积和ReLU激活函数,最后所生成的特征按通道进行相加,生成特征图xadd_c;将特征图xadd_c通过1×1卷积和sigmoid激活函数将特征映射到(0,1)区间,得到每个通道的权重值wc;将输入的特征图xin和通道权重wc进行像素级相乘,生成输出xout_c。
如图3所示,在本实施例中,将输入的特征图xin∈RC×H×W(其中 C、H、W分别表示通道数、高度和宽度)分别采用全局最大池化 (Global Max Pooling,GMP)和全局平均池化(Global Average Pooling,GAP),得到图像两个不同的特征,分别表示为xmax_c∈RC×1×1和xaverage_c∈RC×1×1;将两个特征xmax_c∈RC×1×1和xaverage_c∈RC×1×1分别经过一层1×1 卷积层和ReLU激活函数,得到两个新的特征,将其进行像素级相加(addition),生成特征图xadd_c∈RC ×1×1;将特征图xadd_c∈RC×1×1通过1×1 卷积和sigmoid激活函数将特征映射到(0,1)区间,得到每个通道的权重值wc;将输入的特征图xin∈RC×H×W和通道权重系数wc相乘,生成特征图xout_c∈RC×H×W
通过空间注意力机制,对图像不同位置的特征进行提取包括:输入特征图xin,通过1×1卷积之后沿着通道维度分别采用最大池化和平均池化,得到两个特征并将其进行通道合并生成xcat_s;将xcat_s通过1×1卷积操作压缩通道,并使用sigmoid激活函数,生成空间注意力图,即像素权重ws;将输入的特征图xin和像素权重ws进行像素级相乘,即为输出xout_s,将xout_c和xout_s进行特征融合得到xout。
如图4所示,在本实施例中,将输入的特征图xin∈RC×H×W通过 1×1卷积处理之后沿着通道维度分别采用最大池化(Max Pooling)和平均池化(Average Pooling),得到两个特征图xmax_s∈R1×H×W和 xmean_s∈R1×H×W;将两个特征图xmax_s∈R1×H×W和xmean_s∈R1×H×W在通道维度上拼接,生成特征xcat_s∈R2×H×W。利用1×1卷积对xcat_s∈R2×H×W进行通道压缩,压缩后的特征图为xcat_s∈R1×H×W;将xcat_s∈R1×H×W通过sigmoid激活函数,生成空间注意力图,即像素权重ws;将输入特征图xin∈RC×H×W和权重系数ws相乘,生成特征图xout_s∈RC×H×W。最后将通道注意和空间注意生成的特征图xout_c∈RC×H×W、xout_s∈RC×H×W进行融合操作,生成特征xout∈RC ×H×W。如图6所示,在本模型中,残差块是由一个卷积层 (包含一层ReLU激活函数)、注意力模块和一个卷积构成。首先输入特征图为Yin∈RC×H×W,经过一层卷积和ReLU激活函数后输出特征;随后特征进入注意力模块和卷积层,生成的特征图Yout_att∈RC×H×W;最后将Yin∈RC×H×W和Yout_att∈RC×H×W通过恒等映射即为残差块的输出特征 Yout∈RC×H×W。
在本实施例中,实验数据集采用GoPro数据集,一共由2103 对模糊和清晰图像训练数据和1111对测试数据组成,拍摄于各种场景,包含主要的前景物体运动和相机运动。
在本方法中,全监督分支损失函数功能如下:
均方误差(Mean Squared Error,MSE)损失:计算网络输出的复原图像与Ground-truth清晰图像之间的差异,使得网络生成的图像在内容上尽量接近Ground-truth清晰图像;
MSE损失函数表达式如下:
感知损失(Perceptual Loss):比较网络的输出图像和 Ground-truth图像之间的语义差异,使得网络生成的图像更加符合人类视觉上真实的复原图像;
感知损失函数表达式如下:
对抗损失(Adversarial Loss):使得生成器和判别器达到平衡,网络能够生成视觉上更加清晰且逼真的图像。
对抗损失函数表达式如下:
无监督分支
仅使用真实模糊图像训练,利用传统先验约束转化为无标签损失函数,以训练网络的无监督分支,更新参数;
总变分损失(Total Variation loss):用来去除生成图像中的伪影,保留结构信息和边界;
总变分损失函数表达式如下:
其中xi,j表示图像素第(i,j)位置。
应当说明的是,本发明所述的实施方式仅仅是实现本发明的优选方式,对属于本发明整体构思,而仅仅是显而易见的改动,均应属于本发明的保护范围之内。
Claims (9)
1.一种基于融合注意力机制的半监督图像去模糊方法,其特征在于,包括以下步骤:
步骤Step1:获取图像训练数据集,并将所述图像训练数据集划分为两个训练子集,所述两个训练子集中一个子集包括多个图像对,每个图像对由模糊图像及其对应的清晰图像组成,另一子集包括多个模糊图像;
步骤Step2:构建基于全监督和无监督的图像模糊还原模型,所述图像模糊还原模型包括全监督网络和无监督网络;
步骤Step3:将所述一个子集输入待训练的全监督网络进行学习,根据全监督网络生成器的输出结果及对应的Ground-truth清晰图像,由判别器鉴定图像为真或假的概率,将所述另一子集输入待训练的无监督网络,根据无监督网络的输出结果生成去模糊后图像;
步骤Step4:利用上述网络中的注意力机制筛选图像特征,对网络提取的特征信息分配相应的权重,获取重要的图像信息,并对所述重要的图像信息进行特征融合,得到最终的清晰图像。
2.如权利要求1所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述全监督网络包括第一生成器和判别器,所述第一生成器包括第一编码器-解码器网络,所述判别器包括二分类器,将所述一个子集中的模糊图像输入所述第一生成器生成去模糊图像,并将所述去模糊图像与对应清晰图像输入所述判别器,判断图像为真或图像为假的概率。
3.如权利要求2所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述无监督网络包括第二生成器,所述第二生成器包括第二编码器-解码器网络,所述第二编码器-解码器网络与所述第一编码器-解码器网络结构相同,将所述另一子集中的模糊图像输入所述第二生成器生成去模糊后的图像,根据损失函数计算损失,并利用反向传播更新网络参数,优化网络。
4.如权利要求3所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,图像去模糊过程包括:a.将模糊输入图像Xin分割成四个不重叠的图像块,将所述四个不重叠的图像块通过编码器层得到的四个特征映射进行两两特征连接,记为Xencoder_1,将Xencoder_1输入解码器层得到两个特征映射Xdecoder_1,将Xdecoder_1进行特征连接生成图像Xout_1;b.然后将模糊输入图像Xin分割成两个不重叠的图像块,并将所述两个不重叠的图像块和所述图像Xout_1进行相加后输入编码器层,得到两个特征映射,将所述两个特征映射和所述特征Xencoder_1进行特征相加和特征连接,获得特征映射Xencoder_2,将Xencoder_2输入解码器层生成去模糊图Xout_2;c.将模糊输入图像Xin和所述去模糊图像Xout_2进行相加后输入编码器层后,将编码器层的输出结果和所述特征映射Xencoder_2相加后输入解码器层,最终生成清晰图像Xout_3。
5.如权利要求4所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述第一编码器-解码器网络包括编码器层和对应的解码器层;
所述编码器层包括卷积层和残差块,输入图像的大小经过裁剪之后,长和宽分别是8的倍数,编码器层首先由步长为1,填充为3的7×7卷积处理,获取更多的图像全局特征,并且利用残差块提取更精细的模糊图像细节;然后设置一个5×5的卷积处理,进行下采样后通过残差块处理特征;最后进行一个3×3卷积操作和残差块,得到图像的不同图像块之间的特征,进行连接处理后,进入解码器层;
所述解码器层有三个尺度与编码器一一对应,前两个尺度是由残差块和转置卷积层组成,最后一个是由残差块和卷积层组成,前两个转置卷积层后添加一个非线性ReLU层作为激活函数,最后一个卷积层跟着Tanh函数作为激活函数,其中,利用残差块提取图像特征进行恢复,两次步长为2、卷积核4×4为的转置卷积进行上采样操作,恢复图像尺寸。
6.如权利要求5所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述编码器层和所述解码器层之间设置有跳跃连接结构,跳跃连接结构使所述编码器层中的每个尺度残差块与所述解码器层中的残差块一一对应。
7.如权利要求6所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述残差块的注意力机制包括通道注意力机制和空间注意力机制,输入特征图xin,通过通道注意力机制,获取不同通道重要的特征,对图像重要的特征进行提取;输入特征图xin,通过空间注意力机制,对图像不同位置的特征进行提取,加强对图像细节信息的提取;然后将通道注意力和空间注意力得到的特征进行融合,生成特征图xout。
8.如权利要求7所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述通过通道注意力机制,获取不同通道重要的特征包括:输入特征图xin,分别采用全局最大池化和全局平均池化,输出图像两个不同的特征;将两个的特征分别通过1×1卷积和ReLU激活函数,最后所生成的特征按通道进行相加,生成特征图xadd_c;将特征图xadd_c通过1×1卷积和sigmoid激活函数将特征映射到(0,1)区间,得到每个通道的权重值wc;将输入的特征图xin和通道权重wc进行像素级相乘,生成输出xout_c。
9.如权利要求7所述的基于融合注意力机制的半监督图像去模糊方法,其特征在于,所述通过空间注意力机制,对图像不同位置的特征进行提取包括:输入特征图xin,通过1×1卷积之后沿着通道维度分别采用最大池化和平均池化,得到两个特征并将其进行通道合并生成xcat_s;将xcat_s通过1×1卷积操作压缩通道,并使用sigmoid激活函数,生成空间注意力图,即像素权重ws;将输入的特征图xin和像素权重ws进行像素级相乘,即为输出xout_s,将xout_c和xout_s进行特征融合得到xout。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110851387.1A CN113592736B (zh) | 2021-07-27 | 2021-07-27 | 一种基于融合注意力机制的半监督图像去模糊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110851387.1A CN113592736B (zh) | 2021-07-27 | 2021-07-27 | 一种基于融合注意力机制的半监督图像去模糊方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113592736A true CN113592736A (zh) | 2021-11-02 |
CN113592736B CN113592736B (zh) | 2024-01-12 |
Family
ID=78250487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110851387.1A Active CN113592736B (zh) | 2021-07-27 | 2021-07-27 | 一种基于融合注意力机制的半监督图像去模糊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113592736B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494048A (zh) * | 2022-01-11 | 2022-05-13 | 辽宁师范大学 | 一种基于有监督对比学习的多阶段渐进式混合失真图像复原方法 |
CN114821449A (zh) * | 2022-06-27 | 2022-07-29 | 松立控股集团股份有限公司 | 一种基于注意力机制的车牌图像处理方法 |
CN114998156A (zh) * | 2022-06-30 | 2022-09-02 | 同济大学 | 一种基于多补丁多尺度网络的图像运动去模糊方法 |
CN114998138A (zh) * | 2022-06-01 | 2022-09-02 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN115546199A (zh) * | 2022-11-09 | 2022-12-30 | 烟台大学 | 利用自注意力分析sar图像获取海上溢油区域的方法 |
CN115860271A (zh) * | 2023-02-21 | 2023-03-28 | 杭州唛扑网络科技有限公司 | 艺术设计用方案管理系统及其方法 |
CN116106457A (zh) * | 2023-04-13 | 2023-05-12 | 天津海河标测技术检测有限公司 | 空气采样检测一体化装置 |
CN116520401A (zh) * | 2023-05-18 | 2023-08-01 | 四川鹭羽科技有限公司 | 一种基于注意力机制的地震数据去噪方法 |
CN116542884A (zh) * | 2023-07-07 | 2023-08-04 | 合肥市正茂科技有限公司 | 模糊图像清晰化模型的训练方法、装置、设备及介质 |
CN114494048B (zh) * | 2022-01-11 | 2024-05-31 | 辽宁师范大学 | 一种基于有监督对比学习的多阶段渐进式混合失真图像复原方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ921800A0 (en) * | 2000-08-04 | 2000-08-31 | Canon Kabushiki Kaisha | A method for automatic segmentation of image data from multiple data sources |
CN106204472A (zh) * | 2016-06-30 | 2016-12-07 | 北京大学 | 基于稀疏特性的视频图像去模糊方法 |
CN110070517A (zh) * | 2019-03-14 | 2019-07-30 | 安徽艾睿思智能科技有限公司 | 基于退化成像机理和生成对抗机制的模糊图像合成方法 |
WO2020087607A1 (zh) * | 2018-11-02 | 2020-05-07 | 北京大学深圳研究生院 | 一种基于Bi-Skip-Net的图像去模糊方法 |
WO2020108358A1 (zh) * | 2018-11-29 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 图像修复方法、装置、计算机设备和存储介质 |
CN111275637A (zh) * | 2020-01-15 | 2020-06-12 | 北京工业大学 | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 |
CN111539884A (zh) * | 2020-04-21 | 2020-08-14 | 温州大学 | 一种基于多注意力机制融合的神经网络视频去模糊方法 |
US20200265567A1 (en) * | 2019-02-18 | 2020-08-20 | Samsung Electronics Co., Ltd. | Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames |
CN111709895A (zh) * | 2020-06-17 | 2020-09-25 | 中国科学院微小卫星创新研究院 | 基于注意力机制的图像盲去模糊方法及系统 |
US10861213B1 (en) * | 2019-12-23 | 2020-12-08 | Fyusion, Inc. | System and method for automatic generation of artificial motion blur |
CN112102177A (zh) * | 2020-07-27 | 2020-12-18 | 中山大学 | 基于压缩与激励机制神经网络的图像去模糊方法 |
CN113160081A (zh) * | 2021-04-16 | 2021-07-23 | 温州大学 | 一种基于感知去模糊的深度人脸图像修复方法 |
-
2021
- 2021-07-27 CN CN202110851387.1A patent/CN113592736B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ921800A0 (en) * | 2000-08-04 | 2000-08-31 | Canon Kabushiki Kaisha | A method for automatic segmentation of image data from multiple data sources |
CN106204472A (zh) * | 2016-06-30 | 2016-12-07 | 北京大学 | 基于稀疏特性的视频图像去模糊方法 |
WO2020087607A1 (zh) * | 2018-11-02 | 2020-05-07 | 北京大学深圳研究生院 | 一种基于Bi-Skip-Net的图像去模糊方法 |
WO2020108358A1 (zh) * | 2018-11-29 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 图像修复方法、装置、计算机设备和存储介质 |
US20200265567A1 (en) * | 2019-02-18 | 2020-08-20 | Samsung Electronics Co., Ltd. | Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames |
CN110070517A (zh) * | 2019-03-14 | 2019-07-30 | 安徽艾睿思智能科技有限公司 | 基于退化成像机理和生成对抗机制的模糊图像合成方法 |
US10861213B1 (en) * | 2019-12-23 | 2020-12-08 | Fyusion, Inc. | System and method for automatic generation of artificial motion blur |
CN111275637A (zh) * | 2020-01-15 | 2020-06-12 | 北京工业大学 | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 |
CN111539884A (zh) * | 2020-04-21 | 2020-08-14 | 温州大学 | 一种基于多注意力机制融合的神经网络视频去模糊方法 |
CN111709895A (zh) * | 2020-06-17 | 2020-09-25 | 中国科学院微小卫星创新研究院 | 基于注意力机制的图像盲去模糊方法及系统 |
CN112102177A (zh) * | 2020-07-27 | 2020-12-18 | 中山大学 | 基于压缩与激励机制神经网络的图像去模糊方法 |
CN113160081A (zh) * | 2021-04-16 | 2021-07-23 | 温州大学 | 一种基于感知去模糊的深度人脸图像修复方法 |
Non-Patent Citations (2)
Title |
---|
曹志义;牛少彰;张继威;: "基于半监督学习生成对抗网络的人脸还原算法研究", 电子与信息学报, no. 02 * |
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494048B (zh) * | 2022-01-11 | 2024-05-31 | 辽宁师范大学 | 一种基于有监督对比学习的多阶段渐进式混合失真图像复原方法 |
CN114494048A (zh) * | 2022-01-11 | 2022-05-13 | 辽宁师范大学 | 一种基于有监督对比学习的多阶段渐进式混合失真图像复原方法 |
CN114998138A (zh) * | 2022-06-01 | 2022-09-02 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN114998138B (zh) * | 2022-06-01 | 2024-05-28 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN114821449A (zh) * | 2022-06-27 | 2022-07-29 | 松立控股集团股份有限公司 | 一种基于注意力机制的车牌图像处理方法 |
CN114821449B (zh) * | 2022-06-27 | 2022-09-20 | 松立控股集团股份有限公司 | 一种基于注意力机制的车牌图像处理方法 |
CN114998156A (zh) * | 2022-06-30 | 2022-09-02 | 同济大学 | 一种基于多补丁多尺度网络的图像运动去模糊方法 |
CN115546199B (zh) * | 2022-11-09 | 2024-03-15 | 烟台大学 | 利用自注意力分析sar图像获取海上溢油区域的方法 |
CN115546199A (zh) * | 2022-11-09 | 2022-12-30 | 烟台大学 | 利用自注意力分析sar图像获取海上溢油区域的方法 |
CN115860271B (zh) * | 2023-02-21 | 2023-06-23 | 浙江理工大学 | 艺术设计用方案管理系统及其方法 |
CN115860271A (zh) * | 2023-02-21 | 2023-03-28 | 杭州唛扑网络科技有限公司 | 艺术设计用方案管理系统及其方法 |
CN116106457A (zh) * | 2023-04-13 | 2023-05-12 | 天津海河标测技术检测有限公司 | 空气采样检测一体化装置 |
CN116520401B (zh) * | 2023-05-18 | 2024-02-27 | 四川鹭羽科技有限公司 | 一种基于注意力机制的地震数据去噪方法 |
CN116520401A (zh) * | 2023-05-18 | 2023-08-01 | 四川鹭羽科技有限公司 | 一种基于注意力机制的地震数据去噪方法 |
CN116542884A (zh) * | 2023-07-07 | 2023-08-04 | 合肥市正茂科技有限公司 | 模糊图像清晰化模型的训练方法、装置、设备及介质 |
CN116542884B (zh) * | 2023-07-07 | 2023-10-13 | 合肥市正茂科技有限公司 | 模糊图像清晰化模型的训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113592736B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113592736B (zh) | 一种基于融合注意力机制的半监督图像去模糊方法 | |
Li et al. | Single image dehazing via conditional generative adversarial network | |
Do et al. | Forensics face detection from GANs using convolutional neural network | |
CN110969589B (zh) | 基于多流注意对抗网络的动态场景模糊图像盲复原方法 | |
Chen et al. | Haze removal using radial basis function networks for visibility restoration applications | |
CN111199522A (zh) | 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法 | |
CN110674688B (zh) | 用于视频监控场景的人脸识别模型获取方法、系统和介质 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN114936605A (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN111091503A (zh) | 基于深度学习的图像去失焦模糊方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
Yuan et al. | Single image dehazing via NIN-DehazeNet | |
Amirshahi et al. | Reviving traditional image quality metrics using CNNs | |
CN110570375B (zh) | 一种图像处理方法、装置、电子设置以及存储介质 | |
Arif et al. | Adaptive deep learning detection model for multi-foggy images | |
CN114187581A (zh) | 一种基于无监督学习的驾驶员分心细粒度检测方法 | |
Guo et al. | Haze visibility enhancement for promoting traffic situational awareness in vision-enabled intelligent transportation | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
Zhang et al. | Iterative multi‐scale residual network for deblurring | |
CN112232221A (zh) | 用于人物图像处理的方法、系统和程序载体 | |
CN114119428B (zh) | 一种图像去模糊方法和装置 | |
CN116664833A (zh) | 一种提高目标重识别模型能力的方法和目标重识别方法 | |
Wang et al. | Variant-depth neural networks for deblurring traffic images in intelligent transportation systems | |
KR101937585B1 (ko) | 깊이 영상 생성을 위한 비용 집합 장치 및 방법과 이에 대한 기록 매체 | |
CN113628349B (zh) | 基于场景内容自适应的ar导航方法、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |