CN116883265A - 一种基于增强特征融合机制的图像去模糊方法 - Google Patents
一种基于增强特征融合机制的图像去模糊方法 Download PDFInfo
- Publication number
- CN116883265A CN116883265A CN202310670874.7A CN202310670874A CN116883265A CN 116883265 A CN116883265 A CN 116883265A CN 202310670874 A CN202310670874 A CN 202310670874A CN 116883265 A CN116883265 A CN 116883265A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- module
- feature fusion
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 108091006146 Channels Proteins 0.000 description 58
- 238000010606 normalization Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于增强特征融合机制的图像去模糊方法,包括以下步骤:步骤1:建立数据集,包括训练集和测试集;步骤2:建立基于增强特征融合机制的图像去模糊模型,根据训练集进行训练,得到训练后的图像去模糊模型;步骤3:将模糊图像输入训练后的图像去模糊模型,即可而得到去模糊后的图像;本发明方法可以解决图像去模糊过程中的特征融合有效性问题、关键特征丢失问题和特征冗余问题,实现细节更贴近现实的图像去模糊效果。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于增强特征融合机制的图像去模糊方法。
背景技术
图像去模糊技术是计算机视觉领域的一项经典任务,其目的是从模糊的输入图像中恢复清晰的图像。其中模糊可以由各种因素引起,如失焦、相机抖动,或快速目标运动等等。传统的去模糊算法包括基于变分和差分的方法、基于稀疏图像先验证的方法、基于梯度先验的方法及基于已知模糊核的方法等,这些方法需要先验条件才能重建清晰图像,应用场景有限且恢复图像不够清晰,在实际应用中还有所欠缺。
近年来,随着深度学习取得巨大的进展,许多网络在训练时只需要将模糊的图像作为为输入,将现实中对应的清晰图像作为期望输出,通过图像对的方式构建训练集,模糊核就能在训练过程中被自动学习,从而解决模糊问题。Nah提出了一种端到端的多尺度网络,该网络以由粗到细的方式逐步恢复出清晰图像。Zhang在端到端的基础上引入残差结构并加深网络深度,同时通过空间金字塔匹配提高去模糊质量。受多阶段网络启发,Zamir通过多尺度补丁模型,利用不同尺度上的去模糊线索,将残差特征线索传递到下一阶段,同时利用跨阶段特征融合和监督注意力模块加强特征处理,实现了非常好的图像去模糊效果。MEGVII technology基于Instance Normalization构建HIN模块应用于图像复原领域,并基于HIN模块设计多阶段网络HINet,以更少的计算量以及推理时间达到SOTA(state-of-the-art)。当前基于深度学习的多阶段去模糊方法也存在一定的局限性,首先缺少有效的特征融合策略,在跨阶段特征融合过程中存在特征冗余,特征信息处理缺乏针对性;其次图像特征信息在传输到下一阶段过程中缺少有效的信息整合机制,在注意力模块中对上阶段的信息的处理缺乏全局性,导致许多关键特征丢失;此外多阶段去模糊方法的主干网络通道数较多,存在大量通道冗余,造成性能损失。
发明内容
本发明针对现有技术存在的问题提供一种基于增强特征融合机制的图像去模糊方法。
本发明采用的技术方案是:
一种基于增强特征融合机制的图像去模糊方法,包括以下步骤:
步骤1:建立数据集,包括训练集和测试集;
步骤2:建立基于增强特征融合机制的图像去模糊模型,根据训练集进行训练,得到训练后的图像去模糊模型;
步骤3:将模糊图像输入训练后的图像去模糊模型,即可而得到去模糊后的图像;
基于增强特征融合机制的图像去模糊模型以HINet网络结构为基础,包括编码器、增强特征融合模块、受监督的混合注意力模块和解码器;
编码器用于提取图像特征,得到特征图;
增强特征融合模块用于进行阶段1和阶段2的特征融合和网络之间的跳跃连接;
受监督的混合注意力模块用于将阶段1的特征进行学习整合,传递到阶段2中;
解码器用于将特征图与原模糊图像相加生成去模糊图像。
进一步的,所述编码器模块提取图像过程如下:
对输入特征图进行卷积,将特征图通道平分为两部分,一部分进行IN处理,另一部分保持不变;
将两部分拼接合并得到拼接特征图;
拼接特征图依次经过PReLU激活函数、卷积和PReLU激活函数;
然后经过通道注意力模块;
将特征图保留与经过卷积后的初始输入特征图相加得到编码器模块输出;
其中通道注意力模块对特征图依次进行全局平均池化、卷积降维、PReLU激活函数、卷积升维、sigmoid函数处理;
解码模块与编码模块处理过程相同,不包括将特征图通道平分处理过程。
进一步的,所述增强特征融合模块包括EFF模块用于特征融合和网络之间的跳跃连接;
特征融合计算过程如下:
式中:X为阶段1中编码器的输入特征,Y为阶段1中解码器的输入特征,E表示由全局平均池化、一维卷积和Sigmoid函数提取权重操作,为element-wise product操作,/>为初始特征融合,Z为最终的特征融合;
提取权重操作如下:经过全局平均池化后,使用动态的卷积核做一维卷积,然后经过Sigmoid激活函数得到各个通道的权重;动态卷积核的大小由下式决定:
式中:k为卷积核的大小,C为通道数,||odd表示k只能取奇数,γ和b为参数。
进一步的,所述受监督的混合注意力模块包括SHAM模块,处理过程如下:
将阶段1的输出结果作为输入,经过卷积进行降维,与原模糊图像相加,得到去模糊图像;
通过卷积对特征图进行升维,将特征图同时做以下处理:
第一种:对特征图进行通道维度上的最大池化和平均池化,压缩为两个单通道特征图,将两个单通道特征图进行拼接,卷积压缩为一张得到空间注意力权重图;
第二种:对特征图进行全局平均池化将每张特征图的值概况为一个平均值,依次通过卷积、激活函数、卷积、Sigmoid函数生成通道注意力权重图;
将卷积后的输入图像分别乘以空间注意力权重图和通道注意力权重图,拼接后卷积,再与输入特征图相加进入到阶段2。
进一步的,所述阶段2的处理过程如下:
以SHAM模块的输出结果作为输入,采用编码器进行处理,同时接受EFF模块输出的融合多尺度特征;然后经解码器处理。
进一步的,所述基于增强特征融合机制的图像去模糊模型训练过程中采用的损失函数Loss如下:
式中:PSNR为峰值信噪比,Ri为阶段i的输出,Xi为阶段i的输入,Y为每个阶段的真实背景图。
本发明的有益效果是:
(1)本发明中的增强特征融合模块负责网络中的跨阶段特征融合和跳跃连接部分的特征融合,该模块通过通道注意力来充分提取不同特征的重要性,使用一维卷积来提升对通道交互关系的学习效果并降低参数量增长,通过软选择加权平均的结构来赋予重要输入特征更多的权重,使用迭代的二次加权结构来打破特征融合的性能瓶颈,从而显著增强特征融合的有效性;
(2)本发明中的受监督的混合注意力模块用不同的注意力来对图像的高层特征进行全局整合,生成更有效的权重,从而更显著的抑制不重要的特征信息,进一步促进关键特征进入到下一阶段;
(3)本发明中通过增强的半实例归一化和增强的残差模块构建编码器和解码器,两种模块中均构建了SE注意力来降低通道冗余,同时使用了PReLU来实现激活函数参数的自动学习更新,更能适应当前的大规模网络。
附图说明
图1为本发明流程示意图。
图2为本发明构建的图像去模糊模型结构示意图。
图3为本发明中编码器和解码器结构示意图,a为编码器模块,b为解码器模块。
图4为本发明中增强特征融合模块结构示意图。
图5为本发明中受监督的混合注意力模块结构示意图。
图6为本发明实施例中去模糊效果示意图。
图7为本发明实施例中采用本发明方法和HINet的测试效果对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种基于增强特征融合机制的图像去模糊方法,其特征在于,包括以下步骤:
步骤1:建立数据集,包括训练集和测试集;准备好GoPro-large数据集,该数据集包括3214张大小为1,280×720的模糊图像,其中2103张是训练图像,1111张是测试图像。该数据集由一一对应的真实模糊图像与ground truth清晰图像组成,均由高速摄像机拍摄。将训练图像裁剪成512×512尺寸的图像,作为最终的训练集,然后开始训练。
步骤2:建立基于增强特征融合机制的图像去模糊模型,根据训练集进行训练,得到训练后的图像去模糊模型;
基于增强特征融合机制的图像去模糊模型以HINet网络结构为基础,包括编码器、增强特征融合模块、受监督的混合注意力模块和解码器;,模型结构如图2所示。
编码器用于提取图像特征,得到特征图;编码器是U-Net结构,编码器多次对特征图进行下采样,降低特征图分辨率的同时增加通道数,用于提取图像的特征。
编码器采用增强的半实例归一化模型如图3所示,EHIN Block。
对输入特征图进行3×3卷积,将特征图通道平分为两部分,一部分进行IN处理,另一部分保持不变;其中IN层用于矫正特征的均值与方差,相比BN层的好处是在训练与推理阶段可以保持相同的归一化处理。
将两部分拼接合并得到拼接特征图;
拼接特征图依次经过PReLU激活函数、3×3卷积和PReLU激活函数,用于进一步提取特征。其中PReLU是将LeakyReLU的参数当做一个可学习的参数进行迭代,能够用来训练更深更大的网络。
然后经过通道注意力模块;用于消除主干网络高通道数带来的通道冗余。
将特征图保留与经过1×1卷积后的初始输入特征图相加得到编码器模块输出;
其中通道注意力模块对特征图依次进行全局平均池化、卷积降维、PReLU激活函数、卷积升维、sigmoid函数处理;
解码器则多次对特征图进行上采样,提高特征图的分辨率同时缩减通道数,在单个阶段的末尾生成512×512×3的残差图像,该图像与原模糊图像相加即可生成去模糊图像。
解码模块结构如图3b所示,与编码模块处理过程相同,不包括将特征图通道平分处理过程。ERES模块用于构建解码器,负责生成更高级的细节特征。
增强特征融合模块包括EFF模块用于特征融合和网络之间的跳跃连接;网络结构如图4所示;位置如图2所示,共计六处增加了该模块。将输入1和输入2的特征图通过卷积进行特征提取,然后相加进行特征融合,再将得到的混合特征进行全局平均池化,得到1×1×C的特征图。接下来,针对输入特征图高通道数的特性,EFF通过通道注意力来获取权重。该模块将特征图经过一维卷积和sigmoid函数来得到各个通道的权重,输出值为0-1之间。其中EFF使用了可以权重共享的一维卷积来获取通道注意力,因为这样可以避免降维操作,从而更好地提取通道间的依赖关系。接下来,为了对输入1和输入2的特征进行加权平均,就用前面注意力的输出值(α)作为输入1的权重,用数值1减去输出值(1-α)作为输入2的权重,从而实现突出输入1、弱化输入2的效果,做到一个软选择的加权平均,两个权重乘以对应的输入特征后再相加得到融合结果,就完成了初始特征融合。为了进一步打破性能瓶颈,EFF将初始特征融合的结果再次进行一维卷积和归一化,然后对输入1和输入2的特征图进行加权平均,得到了最终的输出,就完成了增强特征融合的工作。这样一种迭代的特征融合的方式能够对输入的特征图有更完整的感知,对融合的权重配比进行二次总结,从而对最终融合结果产生积极的影响。
特征融合计算过程如下:
式中:X为阶段1中编码器的输入特征,Y为阶段1中解码器的输入特征,E表示由全局平均池化、一维卷积和Sigmoid函数提取权重操作,为element-wise product操作,/>为初始特征融合,Z为最终的特征融合。
提取权重操作如下:经过全局平均池化后,使用动态的卷积核做一维卷积,然后经过Sigmoid激活函数得到各个通道的权重;动态卷积核的大小由下式决定:
式中:k为卷积核的大小,C为通道数,||odd表示k只能取奇数,γ和b为参数,用于改变通道数C和卷积核大小之间的比例,分别设置为2和1。
Sigmoid函数公式为:
式中,x表示矩阵的值。
EFF模块的主要作用是消除特征冗余、提高输入1的权重、以更好的性能完成特征融合。在跨阶段的特征融合中,也就是阶段1与阶段2在编码器部分连接的EFF模块位置,因为对于阶段2的编码器来说,阶段1编码器传递的特征比解码器更加重要,因此EFF模块将编码器的输入作为输入1,将解码器的输入作为输入2。此部分的两个EFF模块的作用是保留网络信息,使网络的优化更稳定,用上阶段的多尺度特征帮助丰富下个阶段的特征。
在主干网络的跳跃连接部分,本发明也插入了EFF模块。跳跃连接负责将浅层网络的特征传递到深层网络,用于保存low-level的位置信息,但对于解码器部分来说,在浅层网络中提取到特征的有效性不如深层网络,传递过多的low-level位置信息反而会影响深层网络中的细节信息,同时跳跃连接传递过来的特征存在大量的特征冗余。因此本发明使用EFF模块,将解码器部分的特征图作为输入1,将编码器通过跳跃连接传递过来的特征作为输入2,对这两部分的特征进行特征融合并拼接到主干网络的特征图中,目的是减少浅层特征的权重、增加深层特征的权重,并在特征融合的过程中消除特征冗余,从而提高网络性能。
受监督的混合注意力模块用于将阶段1的特征进行学习整合,传递到阶段2中;结构图图5所示,SHAM。在网络中设置位置如图2所示。
受监督的混合注意力模块包括SHAM模块,处理过程如下:
将阶段1的输出结果作为输入,经过卷积进行降维,与原模糊图像相加,得到去模糊图像;同时在此处计算Loss函数。
使用的损失函数是基于PSNR定义的损失函数。计算PSNR之前要知道MSE的计算。给定一个大小为m×n的干净图像I和噪声图像K,均方误差MSE定义如下:
式中:(i,j)代表图像的像素坐标。
PSNR的定义如下:
其中为图片可能的最大像素值。如果每个像素都由8位二进制来表示,那么就为255。
损失函数如下:
式中:PSNR为峰值信噪比,Ri为阶段i的输出,Xi为阶段i的输入,Y为每个阶段的真实背景图。
针对Sigmoid函数只能对像素信息进行学习产生加权、特征提取能力缺乏全局性的问题,SHAM在得到去模糊图像后,先通过卷积对特征图进行升维,增加通道数,然后再将高通道数的特征图同时做两种不同的处理。
第一种:对特征图进行通道维度上的最大池化和平均池化,压缩为两个单通道特征图,将两个单通道特征图进行拼接,卷积压缩为一张得到空间注意力权重图;其中使用平均池化是为了学习目标的程度信息,使用最大池化是为了获得物体的判别性特征,在通道维度上进行压缩是为了总结全局的空间特征。
第二种:对特征图进行全局平均池化将每张特征图的值概况为一个平均值,依次通过卷积、激活函数、卷积、Sigmoid函数生成通道注意力权重图;目的是捕获任何两个通道映射之间的通道依赖性,并对每个通道进行加权和更新。
将卷积后的输入图像分别乘以空间注意力权重图和通道注意力权重图,拼接以进一步增强特征表示。卷积将通道数减半,与输入特征图相加进入到阶段2,即完成模块工作。该种设计可以全局学习到所有特征图的空间全局特征和通道重要性,能够有效的对特征信息进行增强。
阶段2以SHAM模块的输出结果作为输入,然后开始使用编码器对图像进行处理,处理过程中会接收到EFF模块输出的融合多尺度特征。最后经过解码器部分得到最终结果。构建好模型后,即可开始训练。
以下实施例中,实验设备采用单张NVIDIA V100 32G,深度学习框架为PyTorch。在训练过程中通过Adam优化器进行训练,初始学习率设置为2×10-4,然后通过余弦退火算法逐步降低至1×10-7。
训练中采用的损失函数如上所示,训练中采用R1和R2进行共同训练,推理时使用阶段2的R2+X2作为最终输出。
步骤3:将模糊图像输入训练后的图像去模糊模型,即可而得到去模糊后的图像;
本发明是在现有的HINet网络基础上进行的改进,2021年Chen提出的论文:HalfInstance Normalization Network(简称:HINet)。HINet使用Instance Normalization作为一种特征增强方法,构建了HIN模块应用于图像复原领域,第一次通过InstanceNormalization达到行业前列的性能水准,并基于HIN模块设计多阶段网络HINet,在显著降低计算量和推理时间的同时达到了SOTA。HINet建立在多阶段编解码结构网络的基础上,共两个阶段,每个阶段网络由编码器和解码器组成。编码器为四个HIN Block(每个阶段由两个HIN Block组成),负责提取特征。解码器为四个Res Block(每个阶段由两个Res Block组成),主要用于生成特征。
在编码器部分,HINet通过IN层构建了HIN Block。该思路的出发点是IN可以在训练与推理阶段保持相同的规范化处理,同时可以对特征的均值与方差进行重矫正,可以保持更多的尺度信息。相比Res Block,HIN Block主要将3×3卷积后的特征图通道分成两部分,一半通道进行IN处理,另一半则保持上下文信息,这两部分通过拼接合并在一起。其余操作与Res Block一致。
在HINet的两个阶段中,第一个阶段生成初步去模糊的图像,然后第二阶段进一步生成更清晰的图像。不同阶段的编解码器之间由跨阶段特征融合模块(CSFF)连接,该模块通过将上个阶段的多尺度特征进行特征融合来丰富下个阶段的特征。两个阶段通过监督注意力模块(SAM)来进行过渡衔接,该模块位于第一阶段的末尾以及第二阶段的开端,主要用于生成注意力图以抑制当前阶段信息较少的特征,促进有用的特征传播到下一阶段。
HINet包含两个子网络,均为UNet结构。在每个阶段的UNet结构中,都首先采用一个3×3的卷积提取初始特征,然后将特征送入到后续的编解码结构中,其中编码器由4×4卷积进行下采样,通过HIN Block提取每个尺度的特征,而解码器使用2×2卷积进行上采样,采用Res Block提取高级特征,并与编码部分特征融合以补偿重复采样导致的信息损失。下采样和上采样都分别进行四次。最后,网络采用3×3的卷积得到最终的残差输出。此外,在两个阶段之间存在CSFF模块和SAM模块,在不同的位置对两个阶段进行连接,用于实现监督和引导功能。
在不同的编码器和解码器位置上,会有跨阶段特征融合(CSFF)模块。CSFF模块将第一阶段的编码器和解码器的特征图经过一个3×3的卷积后,通过element-wise product操作进行融合,相当于矩阵相加,传输到第二阶段对应的编码器的位置中。其作用主要有三点:(1)使得网络更稳定,更不容易因为重复使用上下采样而导致信息丢失。(2)单阶段的多尺度特征能够帮助丰富下一个阶段的特征。(3)CSFF的引入使得结构的优化更加稳定,因为其促进的信息的流动。
第一阶段的末尾和第二阶段的头部由监督注意力模块(SAM)来串联。该模块将第一阶段的结果作为输入,将第一阶段生成的残差图像经过卷积后和模糊图像相加,就生成了恢复图像;然后将恢复图像经过卷积和sigmoid函数处理后生成注意力图,再将卷积后的输入图像与该注意力图进行点乘,从而起到增强特征的效果;最后将输入特征图与增强后的特征图相加,送入到第二阶段的网络。总的来说,SAM的主要作用是提供了对每个阶段的渐进式图像恢复有用的真实实况监督信号,并在局部监督预测的帮助下,生成注意力图以抑制当前阶段信息较少的特征,促进有用的特征传播到下一阶段。
第一阶段的特征经过CSFF和SAM模块的处理后,分别传输至第二阶段网络的两个编码器位置和阶段的入口位置,然后按照和第一阶段一样的流程,通过编码器提取特征,通过解码器生成特征,最终得到增强后的残差图像,与原图像相结合即可生成去模糊后的清晰图像。
但是这种结构的模型存在以下问题
(1)存在跨阶段特征融合问题,具体由三点。第一点是通过矩阵对应元素相加这样简单线性的方式进行特征融合,效果比较一般,对复杂图像的处理不够好。第二点是特征相加前未经过增强处理,无法很好地融合语义特征。第三点是对于阶段2的编码器来说,阶段1编码器传递的特征比解码器更加重要,将编码器和解码器特征平等相加不利于重要特征的传递。本发明提出一种新的特征融合机制,对阶段1的特征进行合理的增强和加权,增加特征融合的有效性,从而提升去模糊效果。
(2)在阶段1到阶段2的衔接过程中,负责该过程的监督注意力模块存在注意力生成问题。产生该问题的原因是:该模块的注意力机制只能学习到每个单一特征图的像素信息,没有突出更深层次的特征信息,对于所有特征图整体的特征没有一个全局的学习。本发明能够在两阶段的衔接过程中,从通道维度和空间维度学习到全局的信息,充分整合高层特征,在去模糊时能够更好的保留关键特征。
(3)主干网络通道数较多,仅基于编码器-解码器网络传输的特征获得的通道信息是不够的,存在大量通道冗余。此外,当前去模糊方法中统一使用Leaky ReLU激活函数,其斜率为固定值,统一固定值无法很好的适配网络中的各个位置。本发明针对主干网络的通道数较多的特点,对网络的基础模块HIN Block和RES Block都进行了改进,加入了通道注意力机制,同时针对Leaky ReLU的缺点,在基础模块中加入PReLU,PReLU可以将LeakyReLU的参数当做一个可学习的参数进行迭代,能够用来训练更深更大的网络。
而本发明正是针对上述缺点进行的改进,针对性的解决了上述问题。
为了验证算法的有效性,实验使用GoPro-large数据集的测试集用于测试。将图6的左图作为模型的输入,经过模型推理后得到了图6的右图,由图中可见模型可以将模糊图片清晰化,将其物体细节和环境细节高度还原,同时对文字的去模糊效果也达到了比较好的感官效果。我们通过评价指标峰值信噪比(PSNR)和结构相似度(SSIM)等指标证明本方法的有效性。
将本发明方法与主流的多阶段去模糊方法DMPHN、SRN、MPRNet、HINet以及经典方法DeBlurGAN-v2进行实验比较,结果均为在同一实验条件下(单张Tesla V100 GPU训练)、在GoPro-large数据集中的测试结果。结果如表1所示。
表1.GoPro-large数据集实验结果的客观评价指标对比
方法 | PSNR | SSIM | Params(M) |
SRN | 29.63 | 0.932 | 6.8 |
DeBlurGAN-v2 | 28.89 | 0.911 | 60.9 |
DMPHN | 30.54 | 0.935 | 21.7 |
MPRNet | 31.63 | 0.949 | 20.1 |
HINet | 31.90 | 0.951 | 88.7 |
Ours | 32.49 | 0.957 | 89.1 |
从表中可以看出,在PSNR指标和SSIM指标上均超过现有主流方法。相比于HINet,本发明方法在参数量增长十分微小的情况下,明显提升了PSNR和SSIM,证明了方法的实用性和高效性。测试效果对比图如图7所示。
本发明方法通过增强特征融合模块(EFF)替代HINet中的跨阶段特征融合模块,以更好的性能完成跨阶段特征融合。同时将EFF用于主干网络的跳跃连接部分,增加跳跃连接特征融合的有效性。与原特征融合方法相比,EFF针对特征图的多通道特点,使用可以权重共享的一维卷积来提取通道注意力,避免降维操作,从而更好地提取通道间的依赖关系,并且能在抑制参数量增长的同时解决融合特征的特征冗余问题;使用了软选择加权策略来给予重点特征图更多的权重,促进重要特征的传递;通过迭代结构来二次调整权重,进一步增强特征融合效果。
本发明设置受监督的混合注意力模块SHAM,该模块在监督注意力模块的基础上,将恢复图像通过卷积扩展通道数,使用混合注意力来对空间维度和通道维度的重要信息进行全局学习,实现更有针对性的数据增强。能够更显著的抑制不重要的特征信息,进一步促进关键特征到下一阶段。
本发明设置增强的半实例归一化模块EHIN用于构建编码器,负责提取特征。增强的残差模块ERES用于构建解码器,负责生成特征。在模块中增加了通道注意力来降低主干网络高通道数带来的通道冗余。同时将LeakyReLU激活函数设置换成PReLU,PReLU可以将LeakyReLU的参数当做一个可学习的参数进行迭代,能够用来训练更深更大的网络。
Claims (6)
1.一种基于增强特征融合机制的图像去模糊方法,其特征在于,包括以下步骤:
步骤1:建立数据集,包括训练集和测试集;
步骤2:建立基于增强特征融合机制的图像去模糊模型,根据训练集进行训练,得到训练后的图像去模糊模型;
步骤3:将模糊图像输入训练后的图像去模糊模型,即可而得到去模糊后的图像;
基于增强特征融合机制的图像去模糊模型以HINet网络结构为基础,包括编码器、增强特征融合模块、受监督的混合注意力模块和解码器;
编码器用于提取图像特征,得到特征图;
增强特征融合模块用于进行阶段1和阶段2的特征融合和网络之间的跳跃连接;
受监督的混合注意力模块用于将阶段1的特征进行学习整合,传递到阶段2中;
解码器用于将特征图与原模糊图像相加生成去模糊图像。
2.根据权利要求1所述的一种基于增强特征融合机制的图像去模糊方法,其特征在于,所述编码器模块提取图像过程如下:
对输入特征图进行卷积,将特征图通道平分为两部分,一部分进行IN处理,另一部分保持不变;
将两部分拼接合并得到拼接特征图;
拼接特征图依次经过PReLU激活函数、卷积和PReLU激活函数;
然后经过通道注意力模块;
将特征图保留与经过卷积后的初始输入特征图相加得到编码器模块输出;
其中通道注意力模块对特征图依次进行全局平均池化、卷积降维、PReLU激活函数、卷积升维、sigmoid函数处理;
解码模块与编码模块处理过程相同,不包括将特征图通道平分处理过程。
3.根据权利要求2所述的一种基于增强特征融合机制的图像去模糊方法,其特征在于,所述增强特征融合模块包括EFF模块用于特征融合和网络之间的跳跃连接;
特征融合计算过程如下:
式中:X为阶段1中编码器的输入特征,Y为阶段1中解码器的输入特征,E表示由全局平均池化、一维卷积和Sigmoid函数提取权重操作,为element-wise product操作,/>为初始特征融合,Z为最终的特征融合;
提取权重操作如下:经过全局平均池化后,使用动态的卷积核做一维卷积,然后经过Sigmoid激活函数得到各个通道的权重;动态卷积核的大小由下式决定:
式中:k为卷积核的大小,C为通道数,||odd表示k只能取奇数,γ和b为参数。
4.根据权利要求3所述的一种基于增强特征融合机制的图像去模糊方法,其特征在于,所述受监督的混合注意力模块包括SHAM模块,处理过程如下:
将阶段1的输出结果作为输入,经过卷积进行降维,与原模糊图像相加,得到去模糊图像;
通过卷积对特征图进行升维,将特征图同时做以下处理:
第一种:对特征图进行通道维度上的最大池化和平均池化,压缩为两个单通道特征图,将两个单通道特征图进行拼接,卷积压缩为一张得到空间注意力权重图;
第二种:对特征图进行全局平均池化将每张特征图的值概况为一个平均值,依次通过卷积、激活函数、卷积、Sigmoid函数生成通道注意力权重图;
将卷积后的输入图像分别乘以空间注意力权重图和通道注意力权重图,拼接后卷积,再与输入特征图相加进入到阶段2。
5.根据权利要求4所述的一种基于增强特征融合机制的图像去模糊方法,其特征在于,所述阶段2的处理过程如下:
以SHAM模块的输出结果作为输入,采用编码器进行处理,同时接受EFF模块输出的融合多尺度特征;然后经解码器处理。
6.根据权利要求5所述的一种基于增强特征融合机制的图像去模糊方法,其特征在于,所述基于增强特征融合机制的图像去模糊模型训练过程中采用的损失函数Loss如下:
式中:PSNR为峰值信噪比,Ri为阶段i的输出,Xi为阶段i的输入,Y为每个阶段的真实背景图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310670874.7A CN116883265A (zh) | 2023-06-07 | 2023-06-07 | 一种基于增强特征融合机制的图像去模糊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310670874.7A CN116883265A (zh) | 2023-06-07 | 2023-06-07 | 一种基于增强特征融合机制的图像去模糊方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883265A true CN116883265A (zh) | 2023-10-13 |
Family
ID=88265140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310670874.7A Pending CN116883265A (zh) | 2023-06-07 | 2023-06-07 | 一种基于增强特征融合机制的图像去模糊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883265A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152162A (zh) * | 2023-11-01 | 2023-12-01 | 贵州健易测科技有限公司 | 一种用于食品分拣的图像处理方法、设备和存储介质 |
CN118691503A (zh) * | 2024-08-26 | 2024-09-24 | 泉州装备制造研究所 | 基于傅里叶频域注意力机制的运动去模糊方法及装置 |
-
2023
- 2023-06-07 CN CN202310670874.7A patent/CN116883265A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152162A (zh) * | 2023-11-01 | 2023-12-01 | 贵州健易测科技有限公司 | 一种用于食品分拣的图像处理方法、设备和存储介质 |
CN117152162B (zh) * | 2023-11-01 | 2023-12-26 | 贵州健易测科技有限公司 | 一种用于食品分拣的图像处理方法、设备和存储介质 |
CN118691503A (zh) * | 2024-08-26 | 2024-09-24 | 泉州装备制造研究所 | 基于傅里叶频域注意力机制的运动去模糊方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903228B (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
CN106991646B (zh) | 一种基于密集连接网络的图像超分辨率方法 | |
CN110210608B (zh) | 基于注意力机制和多层次特征融合的低照度图像增强方法 | |
CN108596841B (zh) | 一种并行实现图像超分辨率及去模糊的方法 | |
CN116883265A (zh) | 一种基于增强特征融合机制的图像去模糊方法 | |
CN114677304B (zh) | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 | |
CN111127331B (zh) | 基于像素级全局噪声估计编解码网络的图像去噪方法 | |
CN110189260B (zh) | 一种基于多尺度并行门控神经网络的图像降噪方法 | |
CN116681584A (zh) | 一种多级扩散图像超分辨算法 | |
CN112200732B (zh) | 一种清晰特征融合的视频去模糊方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Choi et al. | Wavelet attention embedding networks for video super-resolution | |
CN114926336A (zh) | 视频超分辨率重建方法、装置、计算机设备及存储介质 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN113850718A (zh) | 一种基于帧间特征对齐的视频同步时空超分方法 | |
CN117422653A (zh) | 一种基于权重共享和迭代数据优化的低光照图像增强方法 | |
CN117333398A (zh) | 一种基于自监督的多尺度图像去噪方法及装置 | |
CN115526779A (zh) | 一种基于动态注意力机制的红外图像超分辨率重建方法 | |
CN117036171A (zh) | 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法 | |
CN116433516A (zh) | 一种基于注意力机制的低照度图像去噪增强方法 | |
CN116668738A (zh) | 一种视频时空超分辨率重构方法、装置及存储介质 | |
CN115272131B (zh) | 基于自适应多光谱编码的图像去摩尔纹系统及方法 | |
CN117196940A (zh) | 一种基于卷积神经网络的适用于真实场景图像的超分辨率重构方法 | |
CN116596788A (zh) | 一种基于Transformer的多阶段水下图像增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |