CN116645287A - 一种基于扩散模型的图像去模糊方法 - Google Patents
一种基于扩散模型的图像去模糊方法 Download PDFInfo
- Publication number
- CN116645287A CN116645287A CN202310578005.1A CN202310578005A CN116645287A CN 116645287 A CN116645287 A CN 116645287A CN 202310578005 A CN202310578005 A CN 202310578005A CN 116645287 A CN116645287 A CN 116645287A
- Authority
- CN
- China
- Prior art keywords
- sca
- module
- image
- deblurring
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000009792 diffusion process Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000005070 sampling Methods 0.000 claims description 33
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 7
- 238000011524 similarity measure Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于扩散模型的图像去模糊方案,属于图像处理技术领域。所述方法包括:构建DMDIFF去模糊网络模型;其中,所述DMDIFF去模糊网络包括模糊图像特征编码器、深度梯度提取UNet骨干网络和交叉注意力子网络;对训练样本图像进行数据增强处理,得到目标训练样本;通过所述目标训练样本训练所述DMDIFF去模糊网络模型,得到目标扩散模型;将待处理图像输入所述目标扩散模型进行去模糊处理,生成目标图像。本方案基于扩散模型学习差值模板,重点学习图像中的高频信息,避免了GAN、VAE等生成模型训练困难、去模糊结果呈现平滑的问题。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于扩散模型的图像去模糊方法。
背景技术
随着摄影设备的更新迭代,越来越多的爱好者购入喜欢的设备记录日常旅游生活。但是由于曝光时间加上手抖动等客观原因导致图像产生运动模糊,严重影响图片的感官效果。研究人员将这种图像退化问题归类为去模糊问题,提出了多种解决方法,包括非盲去模糊、盲去模糊和深度学习去模糊。但是由于非盲去模糊和盲去模糊算法过程复杂,并且在模糊核估计过程中需要考虑大量因素,不仅显著提高计算成本,而且只能适应某些特定场景,无法解决实际场景中的去模糊问题。近些年来,深度学习在图像去模糊领域如火如荼。例如,DeblurGAN、SRNet等,这些基于深度学习的去模糊算法已经能够与传统方法相媲美甚至给出更好的去模糊效果。传统图像去模糊方法需要手动设计特征和算法,而深度学习方法通过使用大量数据集来训练神经网络主动学习特征,这使得其具有更强的适应性和泛化能力,能够处理更多图像模糊场景,为图像去模糊领域的进步带来了新的机遇和挑战。
基于CNN的网络架构重点学习从模糊图像到清晰图像的映射关系,不断加深网络并增大感受野范围,但是图像恢复细节不够,会引入伪影;基于GAN的网络架构重点在训练具备准确判别能力的鉴别器,通过鉴别器和生成器之间的博弈来生成高质量的去模糊图片,但是GAN网络在训练过程中很容易产生模型坍塌,并且图像多样性变差;基于多尺度的网络架构考虑了不同尺度之间的细节和语义信息,通过多尺度之间的融合来生成具有更多细节的去模糊图片,但是模型参数会变多,引入过多的冗余信息。上述这些框架都学习到了一个“黑盒”模型来忽略建模过程直接学习模糊图像到清晰图像的映射。除了上述问题外,这些“黑盒”模型还会出现去模糊结果平滑,高频特征不突出等问题。
发明内容
本发明针对现有部分生成模型(例如GAN、VAE等)训练困难、去模糊结果呈现平滑等问题,提供一种基于由简化注意力模块的骨干网络和交叉注意力子网络组成的扩散模型的图像去模糊方案。为了实现本目的,本发明采用了如下的技术方案:
本申请实施例提供了一种基于扩散模型的图像去模糊方法,包括以下的步骤:
构建DMDIFF去模糊网络模型;其中,所述DMDIFF去模糊网络包括模糊图像特征编码器、深度梯度提取UNet骨干网络和交叉注意力子网络;
对训练样本图像进行数据增强处理,得到目标训练样本;
通过所述目标训练样本训练所述DMDIFF去模糊网络模型,得到目标扩散模型;
其中,训练所述DMDIFF去模糊网络模型过程中使用Adam优化器更新网络模型参数;学习率更新采用StepLR策略;
将待处理图像输入所述目标扩散模型进行去模糊处理,生成目标图像。
可选地,所述模糊图像特征编码器包括4个NAFBlock,每个所述NAFBlock由1个卷积模块和6个残差块并联而成,所述残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个门控单元、一个简化注意力模块和1个1×1的卷积,且所述残差块的输出与经过所述卷积模块的输入相加作为下一个NAFBlock的输入。
可选地,所述UNet骨干网络包括编码器、中间过渡模块和解码器,所述UNet骨干网络输入为清晰图像和模糊图像的差值,UNet骨干网络的输出为差值模板。
可选地,所述编码器包括3个SCABlock和下采样层对,所述下采样层对分别为第一SCA下采样模块、第二SCA下采样模块以及第三SCA下采样模块;
所述中间过渡模块由1个SCABlock模块组成,为第一中间SCA模块;
所述解码器包括3个SCABlock和上采样层对,上采样层对分别为第一SCA上采样模块、第二SCA上采样模块、第三SCA上采样模块;
所述第一SCA下采样模块、所述第二SCA下采样模块、所述第三SCA下采样模块、所述第一中间SCA模块、所述第一SCA上采样模块、所述第二SCA上采样模块、所述第三SCA上采样模块串联。
可选地,所述模糊图像特征编码器的输出与所述第一SCA下采样模块中的SCABlock输出相连接后输入所述第二SCA下采样模块,所述第三SCA下采样模块中的SCABlock的输出与所述第一SCA上采样模块中的上采样层输出相连接后送入所述第一SCA上采样模块中的SCABlock,所述第二SCA下采样模块中的SCABlock的输出与所述第二SCA上采样模块中的上采样层输出相连接后送入所述第二SCA上采样模块中的SCABlock;
所述第一SCA下采样模块中的SCABlock的输出与第三SCA上采样模块中的上采样层输出相连接后送入所述第三SCA上采样模块中的SCABlock得到输出结果。
可选地,每个所述SCABlock由1个卷积模块和6个残差块并联而成;每个所述残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个Mish函数、一个简化注意力模块和1个1×1的卷积;所述残差块的输出与经过所述卷积模块的输入相加作为下一个模块的输入。
可选地,所述交叉注意力子网络CASN包括一个计算交叉注意力的神经网络,将所述差值模板、所述潜在图像特征和所述待处理的模糊图像输入所述交叉注意力子网络中得到去模糊后的目标图像的步骤,包括:
计算询矩阵Q和键值矩阵K;
将所述询矩阵Q和键值矩阵K按照矩阵乘法相乘得到两个矩阵之间的相似度量;
将所述相似度量放缩后送入指数归一化函数映射得到差值模板中不同行和不同列之间的对应关系矩阵;
将所述差值模板全局信息中的不同行和列对应的关系映射到所述待处理的模糊图像中;
所述待处理的模糊图像作为输入依次送入1×1的卷积和3×3的深度卷积后得到值矩阵V;
将所述值矩阵V与所述对应关系矩阵按照矩阵乘法相乘后送入1×1的卷积并与所述模糊图像特征编码器相加后依次送入1×1的卷积和3×3的深度卷积后得到去模糊后的目标图像。
可选地,对训练样本图像进行数据增强处理,得到目标训练样本,包括:
对训练样本图像进行随机水平旋转、预设角度的随机旋转例如预设角度为20°以增强数据,得到目标训练样本;其中,每批次训练样本图像个数为12,图像裁剪大小为256×256像素。
可选地,通过所述目标训练样本训练所述DMDIFF去模糊网络模型,得到目标扩散模型的步骤,包括:训练UNet网络模型获得模糊图像特征编码器的权重,其中,所述UNet网络模型采用的损失函数为边缘损失函数和Charbonnier损失函数;
针对所述目标训练样本中的一对训练样本,将所述对训练样本中的模糊图像输入所述模糊图像特征编码器中,得到中间特征;
将所述对训练样本中的清晰图像和模糊图像的差值输入所述UNet骨干网络中,得到差值模板;
将所述对训练样本中模糊图像、差值模板和所述模糊图像特征编码器输出的中间特征输入交叉注意力子网络中进行所述DMDIFF去模糊网络模型的训练;
其中,所述DMDIFF去模糊网络模型采用的损失函数为噪声预测损失函数和Charbonnier损失函数。
本发明实施例提供的技术方案现有技术相比具有以下有益效果:
本发明实施例提供的基于扩散模型的图像去模糊方法,构建包括模糊图像特征编码器BF-Encoder、UNet骨干网络和交叉注意力子网络CASN的DMDIFF去模糊网络模型;利用训练集和损失函数训练DMDIFF去模糊网络模型,具体地在第一阶段利用损失函数训练UNet网络模型,获得模糊图像特征编码器BF-Encoder的权重;第二阶段加载模糊图像特征编码器BF-Encoder的权重,利用损失函数训练UNet骨干网络和交叉注意力子网络CASN,训练完成后得到目标扩散模型。将待处理的模糊图像作为输入,利用训练好的目标扩散模型进行去模糊处理生成清晰图像。训练所生成的该种扩散模型能够避免其他生成模型去模糊结果平滑,高频特征不突出等问题,提升去模糊处理后的图像清晰度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于扩散模型的图像去模糊方法流程示意图;
图2为本发明实施例提供的一种目标扩散模型的结构示意图;
图3为本发明实施例提供的简化前后的通道注意力SCA的结构对比示意图;
图4为本发明实施例提供的NAFBlock和SCABlock的结构示意图;
图5为本发明实施例提供的模糊图像特征编码器BF-Encoder的结构示意图;
图6为本发明实施例提供的UNet骨干网络的结构示意图;
图7为本发明实施例提供的交叉注意力子网络CASN的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
需要说明的是,本发明中使用的“上”、“下”、“左”、“右”“前”“后”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的基于扩散模型的图像去模糊方案进行详细地说明。
如附图1所示,本申请实施例的基于扩散模型的图像去模糊的方法可以包括如下步骤:
步骤101:构建DMDIFF去模糊网络模型。
其中,DMDIFF去模糊网络包括模糊图像特征编码器、深度梯度提取UNet骨干网络和交叉注意力子网络;
构建DMDIFF去模糊网络模型的具体步骤可以包括如下子:步骤S1011:构建NAFBlock模块;步骤S1012:构建模糊图像特征编码器BF-Encoder;步骤S1013:构建SCABlock模块;步骤S1014:构建UNet骨干网络;步骤S1015:构建交叉注意力子网络CASN。下面分别对个子步骤以及子步骤执行过程中构建的各模块、各层的具体结构进行说明。
步骤S1011:构建NAFBlock模块。NAFBlock模块的结构示意图如图4(a)所示,该NAFBlock模块由1个卷积模块和6个残差块并联而成,残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个通道点乘模块、一个简化注意力模块和1个1×1的卷积。输入图像首先经过层归一化,将归一化后的特征送入3×3的深度卷积中,然后按通道数均分并做点乘运算来实现空间注意力,提取有效特征;将得到的特征送入简化的通道注意力自动学习每个通道的权重,完成对特征空间和通道上的权重学习;最后将特征送入1×1的卷积中并于输入图像相加得到最终的输出特征。
步骤S1012:构建模糊图像特征编码器BF-Encoder取自预训练UNet模型的编码器,模糊图像特征编码器BF-Encoder的结构示意图如图5所示,模糊图像特征编码器BF-Encoder由4个NAFBlock组成,分别为NAFBlock1、NAFBlock2、NAFBlock3和NAFBlock4,每个模块依次串联得到输出的特征。每个NAFBlock由1个卷积模块和6个残差块并联而成,残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个门控单元、一个简化注意力模块和1个1×1的卷积,且残差块的输出与经过卷积模块的输入相加作为下一个NAFBlock的输入。输入的待处理的模糊图像经过模糊图像特征编码器BF-Encoder后输出的特征大小为H×W×4C,其中H代表图像的高度,W代表图像的宽度,C代表图像的通道数。
步骤S1013:构建SCABlock模块。SCABlock模块的结构示意图如图4(b)所示,该SCABlock模块由1个卷积模块和6个残差块并联而成,残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个Mish函数、一个简化注意力SCA模块和1个1×1的卷积构成。输入图像首先经过层归一化,将归一化后的特征送入3×3的深度卷积中,然后经过Mish函数做非线性映射;将得到的特征送入简化的通道注意力自动学习每个通道的权重,完成对特征空间和通道上的权重学习;最后将特征送入1×1的卷积中并于输入图像相加得到最终的输出特征。假设第i层的输入的特征Fin大小为H×W×C,首先经过层归一化在通道方向做归一化,层归一化能够使得网络训练过程更加平稳,在保证模型训练稳定的情况下可以增加学习率,进一步加快网络收敛速度;然后经过1×1的卷积和3×3的深度卷积来提取深层特征;随后送入激活函数Mish中,它是一个光滑的非单调激活函数,对于负值并不像ReLU激活函数一样直接定义为0,在一定程度上避免了梯度消失;然后送入到SCA模块中自动学习每个通道的权重,;最后,输入的特征经过卷积层conv变换为和输出通道的特征相加作为第i+1层的输入。整个特征提取过程可以表示如下:
Fout=conv(Fin)+SCABlock(Fin)
其中SCABlock可以看作是通道注意力的简化,通道注意力可以看作两路,上面一路是将特征做池化操作得到一个大小为1×1×C通的道注意力因子,然后经过一定深度的网络结构使得自动确定所提特征的重要性,最后与下路的特征相乘得到融合后的特征表达。为了保持和CA一样的复杂度,SCABlock使用简单的卷积替换了CA通道注意力因子中的深度网络结构,该模块首先基于最大池化对输入的特征提取重要特征,减少计算成本。经过下采样后的特征图变为了1×1的向量,然后送入到大小为1×1的卷积层,进一步提取特征,得到的值就是各个通道的权重因子。最后权重因子与输入特征按照对应通道相乘实现网络对不同通道重要性的自动学习。简化前后的通道注意力SCA的结构对比示意图如图3所示,其中图3(a)为通道注意力CA的结构示意图,图3(b)简化前后的通道注意力SCA的结构示意图。
步骤S1014:构建UNet骨干网络。UNet骨干网络的结构示意图如图6所示,UNet骨干网络包括编码器、中间过渡模块和解码器这两部分,UNet骨干网络的输入为清晰图像和模糊图像的差值,UNet骨干网络的输出为差值模板。编码器由3个SCABlock和下采样层对构成,分别为SCA下采样模块1(即第一SCA下采样模块)、SCA下采样模块2(即第二SCA下采样模块)、SCA下采样模块3(即第三SCA下采样模块);中间过渡模块由1个SCABlock模块组成,为中间SCA模块1(即第一中间SCA模块);解码器包括3个SCABlock和上采样层对,上采样层对分别为SCA上采样模块1(即第一SCA上采样模块)、SCA上采样模块2(即第二SCA上采样模块)、SCA上采样模块3(即第三SCA上采样模块);SCA下采样模块1、SCA下采样模块2、SCA下采样模块3、中间SCA模块1、SCA上采样模块1、SCA上采样模块2、SCA上采样模块3串联。
模糊图像特征编码器BF-Encoder的输出与SCA下采样模块1中的SCABlock输出相连接后输入SCA下采样模块2,SCA下采样模块3中的SCABlock的输出与SCA上采样模块1中的上采样层输出相连接后送入SCA上采样模块1中的SCABlock,SCA下采样模块2中的SCABlock的输出与SCA上采样模块2中的上采样层输出相连接后送入SCA上采样模块2中的SCABlock,最后SCA下采样模块1中的SCABlock的输出与SCA上采样模块3中的上采样层输出相连接后送入SCA上采样模块3中的SCABlock得到输出结果。
每个SCABlock由1个卷积模块和6个残差块并联而成,残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个Mish函数、一个简化注意力模块和1个1×1的卷积。残差块的输出与经过卷积模块的输入相加作为下一个模块的输入;下采样层采用卷积直接下采样,即通过卷积核为3步长为2的单一卷积层实现下采样;上采样层采用反卷积,即通过卷积核为4步长为2的反卷积实现图像恢复。
步骤S1015:构建交叉注意力子网络CASN,具体如下:
交叉注意力子网络CASN的结构示意图如图7所示,交叉注意力子网络CASN包括一个计算交叉注意力的神经网络。计算交叉注意力的神经网络在对待处理图像进行去模糊处理时,计算询矩阵Q和键值矩阵K,该网络由2组1×1的卷积和3×3的深度卷积并联组成,其输入为差值模板,输出分别为查询矩阵Q和键值矩阵K,然后将这两个按照矩阵乘法相乘得到两个矩阵之间的相似度量,然后对相似度量放缩后送入指数归一化函数(softmax)映射到(0,1)范围内,得到差值模板中不同行和不同列之间的对应关系矩阵;同时计算值矩阵V,将差值模板全局信息中的不同行和列对应的关系映射到模糊图像中;值矩阵V的计算网络完全由卷积层构成,模糊图像作为输入依次送入1×1的卷积和3×3的深度卷积后得到的特征称为值矩阵V,将值矩阵与对应关系矩阵按照矩阵乘法相乘后送入1×1的卷积并和模糊图像特征编码器相加,最后依次送入1×1的卷积和3×3的深度卷积后得到去模糊后的目标图像。
步骤102:对训练样本图像进行数据增强处理,得到目标训练样本。
对训练样本图像进行数据增强处理可以包括但不限于:随机水平旋转图像、以特定旋转角度随机旋转图像等。特定旋转角度可以由本领域技术人员灵活设定,本申请实施例中对此不作具体限制,例如:将特定旋转角度设置为20°、25°或者300°等。
步骤103:通过目标训练样本训练DMDIFF去模糊网络模型,得到目标扩散模型。
一种优选地实现方式中,在训练DMDIFF去模糊网络模型过程中使用β1=0.9和β2=0.99的Adam优化器更新网络参数;学习率初始化为0.0002,学习率更新采用StepLR策略,每400轮将学习率变为之前的0.5倍;训练进行2000轮,扩散模型的采样次数T为1000次。
需要说明的是,上述提及的β值、学习率、学习率调整值、训练总轮次的具体数值可以由本领域技术人员根据实际需求灵活设置,本申请实施例中对此不作具体限制。
一种可选地通过目标训练样本训练DMDIFF去模糊网络模型,得到目标扩散模型方式可以包括如下子步骤:
步骤S1031,训练UNet网络模型获得模糊图像特征编码器的权重;
其中,UNet网络模型采用的损失函数为边缘损失函数和Charbonnier损失函数;
一种可行性的训练UNet网络模型,获得UNet网络模型编码器,即模糊图像特征编码器BF-Encoder的权重的方式可以如下:
UNet网络模型采用的损失函数为边缘损失函数和Charbonnier损失函数;使用现有训练集对网络进行训练,其中/>和/>分别代表清晰图像和模糊图像,训练的目的是为了最小化其损失函数:
其中表示Charbonnier损失函数,表示如下:
ε=0.003表示常量。是边缘损失函数,表示如下:
其中ε=0.003也表示常量,Δ表示拉普拉斯算子。
训练UNet网络模型后,需要训练DMDIFF网络模型最终得到目标扩散模型。所构建的目标扩散模型如图2所示。DMDIFF网络模型的具体训练过程详见步骤S1032至步骤S1034。
步骤S1032,针对目标训练样本中的一对训练样本,将该对训练样本中的模糊图像输入模糊图像特征编码器中,得到中间特征;
步骤S1033,将对训练样本中的清晰图像和模糊图像的差值输入UNet骨干网络中,得到差值模板;
步骤S1034,将对训练样本中模糊图像、差值模板和模糊图像特征编码器输出的中间特征输入交叉注意力子网络中进行DMDIFF去模糊网络模型的训练。
在实际实现过程中,一种可行性地训练DMDIFF网络模型的方式可以如下:模糊图像特征编码器BF-Encoder的输入为模糊图像;UNet骨干网络的输入为清晰图像和模糊图像的差值;交叉注意力子网络CASN的输入为模糊图像、差值模板和模糊图像特征编码器BF-Encoder输出的中间特征。整个训练过程基于马尔可夫链,采样步数为T={1,2,…,t,…,T},分为前向过程和后向过程;假设输入的差值为xΔ,前向过程经过T后变为与输入同分辨率大小的随机高斯噪声∈;后向过程又称为去噪过程,使用网络模型DMDIFF经过T步去除随机噪声,直到恢复差值xΔ,也称为差值模板。
整个DMDIFF网络模型采用的损失函数为噪声预测损失函数和Charbonnier损失函数;使用现有训练集对网络进行训练,其中/>和/>分别代表清晰图像和模糊图像,训练的目的是为了最小化其损失函数:
其中表示噪声预测损失函数,表示如下:
其中∈和t分别表示随机高斯噪声和采样步数,∈θ表示DMDIFF网络参数。为Charbonnier损失函数,表示如下:
其中ε=0.003表示常量。
步骤104:将待处理图像输入目标扩散模型进行去模糊处理,生成目标图像。
一种可选地实施例中,将待处理图像输入目标扩散模型进行去模糊处理,生成目标图像的方式可以如下:
首先,将待处理的模糊图像输入到模糊图像特征编码器得到潜在图像特征;
其次,将潜在图像特征与差值信息输入UNet骨干网络中得到差值模板;
最后,将差值模板、潜在图像特征和待处理的模糊图像输入交叉注意力子网络中得到去模糊后的目标图像。
一种可行性地将差值模板、潜在图像特征和待处理的模糊图像输入交叉注意力子网络中得到去模糊后的目标图像的方式可以如下:
计算询矩阵Q和键值矩阵K;将询矩阵Q和键值矩阵K按照矩阵乘法相乘得到两个矩阵之间的相似度量;将相似度量放缩后送入指数归一化函数映射得到差值模板中不同行和不同列之间的对应关系矩阵;将差值模板全局信息中的不同行和列对应的关系映射到所述待处理的模糊图像中;待处理的模糊图像作为输入依次送入1×1的卷积和3×3的深度卷积后得到值矩阵V;将值矩阵V与对应关系矩阵按照矩阵乘法相乘后送入1×1的卷积并与模糊图像特征编码器相加后依次送入1×1的卷积和3×3的深度卷积后得到去模糊后的目标图像。
本申请实施例提供的基于扩散模型的图像去模糊方法,构建包括模糊图像特征编码器BF-Encoder、UNet骨干网络和交叉注意力子网络CASN的DMDIFF去模糊网络模型;利用训练集和损失函数训练DMDIFF去模糊网络模型,具体地在第一阶段利用损失函数训练UNet网络模型,获得模糊图像特征编码器BF-Encoder的权重;第二阶段加载模糊图像特征编码器BF-Encoder的权重,利用损失函数训练UNet骨干网络和交叉注意力子网络CASN,训练完成后得到目标扩散模型。将待处理的模糊图像作为输入,利用训练好的目标扩散模型进行去模糊处理生成清晰图像。训练所生成的该种扩散模型能够避免其他生成模型去模糊结果平滑,高频特征不突出等问题,提升去模糊处理后的图像清晰度。
本申请实施例提供的基于扩散模型的图像去模糊方案,基于扩散模型学习差值模板,重点学习图像中的高频信息,避免了GAN、VAE等生成模型训练困难、去模糊结果呈现平滑的问题。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于扩散模型的图像去模糊方法,其特征在于,包括:
构建DMDIFF去模糊网络模型;其中,所述DMDIFF去模糊网络包括模糊图像特征编码器、深度梯度提取UNet骨干网络和交叉注意力子网络;
对训练样本图像进行数据增强处理,得到目标训练样本;
通过所述目标训练样本训练所述DMDIFF去模糊网络模型,得到目标扩散模型;其中,训练所述DMDIFF去模糊网络模型过程中使用Adam优化器更新网络模型参数;学习率更新采用StepLR策略;
将待处理图像输入所述目标扩散模型进行去模糊处理,生成目标图像。
2.根据权利要求1所述的一种基于扩散模型的图像去模糊方法,其特征在于:
所述模糊图像特征编码器包括4个NAFBlock,每个所述NAFBlock由1个卷积模块和6个残差块并联而成,所述残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个门控单元、一个简化注意力模块和1个1×1的卷积,且所述残差块的输出与经过所述卷积模块的输入相加作为下一个NAFBlock的输入。
3.根据权利要求1所述的一种基于扩散模型的图像去模糊方法,其特征在于:
所述UNet骨干网络包括编码器、中间过渡模块和解码器,所述UNet骨干网络输入为清晰图像和模糊图像的差值,UNet骨干网络的输出为差值模板。
4.根据权利要求3所述的一种基于扩散模型的图像去模糊方法,其特征在于:
所述编码器包括3个SCABlock和下采样层对,所述下采样层对分别为第一SCA下采样模块、第二SCA下采样模块以及第三SCA下采样模块;
所述中间过渡模块由1个SCABlock模块组成,为第一中间SCA模块;
所述解码器包括3个SCABlock和上采样层对,上采样层对分别为第一SCA上采样模块、第二SCA上采样模块、第三SCA上采样模块;
所述第一SCA下采样模块、所述第二SCA下采样模块、所述第三SCA下采样模块、所述第一中间SCA模块、所述第一SCA上采样模块、所述第二SCA上采样模块、所述第三SCA上采样模块串联。
5.根据权利要求4所述的一种基于扩散模型的图像去模糊方法,其特征在于:
所述模糊图像特征编码器的输出与所述第一SCA下采样模块中的SCABlock输出相连接后输入所述第二SCA下采样模块,所述第三SCA下采样模块中的SCABlock的输出与所述第一SCA上采样模块中的上采样层输出相连接后送入所述第一SCA上采样模块中的SCABlock,所述第二SCA下采样模块中的SCABlock的输出与所述第二SCA上采样模块中的上采样层输出相连接后送入所述第二SCA上采样模块中的SCABlock;
所述第一SCA下采样模块中的SCABlock的输出与第三SCA上采样模块中的上采样层输出相连接后送入所述第三SCA上采样模块中的SCABlock得到输出结果。
6.根据权利要求4所述的一种基于扩散模型的图像去模糊方法,其特征在于:每个所述SCABlock由1个卷积模块和6个残差块并联而成;
每个所述残差块依次包括1个层归一化、1个1×1的卷积、1个3×3的深度卷积、一个Mish函数、一个简化注意力模块和1个1×1的卷积;
所述残差块的输出与经过所述卷积模块的输入相加作为下一个模块的输入。
7.根据权利要求1所述的一种基于扩散模型的图像去模糊方法,其特征在于,所述交叉注意力子网络CASN包括一个计算交叉注意力的神经网络,将所述差值模板、所述潜在图像特征和所述待处理的模糊图像输入所述交叉注意力子网络中得到去模糊后的目标图像的步骤,包括:
计算询矩阵Q和键值矩阵K;
将所述询矩阵Q和键值矩阵K按照矩阵乘法相乘得到两个矩阵之间的相似度量;
将所述相似度量放缩后送入指数归一化函数映射得到差值模板中不同行和不同列之间的对应关系矩阵;
将所述差值模板全局信息中的不同行和列对应的关系映射到所述待处理的模糊图像中;
所述待处理的模糊图像作为输入依次送入1×1的卷积和3×3的深度卷积后得到值矩阵V;
将所述值矩阵V与所述对应关系矩阵按照矩阵乘法相乘后送入1×1的卷积并与所述模糊图像特征编码器相加后依次送入1×1的卷积和3×3的深度卷积后得到去模糊后的目标图像。
8.根据权利要求1所述的一种基于扩散模型的图像去模糊方法,其特征在于,对训练样本图像进行数据增强处理,得到目标训练样本,包括:
对训练样本图像进行随机水平旋转、预设角度的随机旋转以增强数据,得到目标训练样本;其中,每批次训练样本图像个数为12,图像裁剪大小为256×256像素。
9.根据权利要求1所述的一种基于扩散模型的图像去模糊方法,其特征在于,通过所述目标训练样本训练所述DMDIFF去模糊网络模型,得到目标扩散模型的步骤,包括:
训练UNet网络模型获得模糊图像特征编码器的权重,其中,所述UNet网络模型采用的损失函数为边缘损失函数和Charbonnier损失函数;
针对所述目标训练样本中的一对训练样本,将所述对训练样本中的模糊图像输入所述模糊图像特征编码器中,得到中间特征;
将所述对训练样本中的清晰图像和模糊图像的差值输入所述UNet骨干网络中,得到差值模板;
将所述对训练样本中模糊图像、差值模板和所述模糊图像特征编码器输出的中间特征输入交叉注意力子网络中进行所述DMDIFF去模糊网络模型的训练,其中,所述DMDIFF去模糊网络模型采用的损失函数为噪声预测损失函数和Charbonnier损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578005.1A CN116645287B (zh) | 2023-05-22 | 2023-05-22 | 一种基于扩散模型的图像去模糊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578005.1A CN116645287B (zh) | 2023-05-22 | 2023-05-22 | 一种基于扩散模型的图像去模糊方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645287A true CN116645287A (zh) | 2023-08-25 |
CN116645287B CN116645287B (zh) | 2024-03-29 |
Family
ID=87618137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310578005.1A Active CN116645287B (zh) | 2023-05-22 | 2023-05-22 | 一种基于扩散模型的图像去模糊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645287B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994167A (zh) * | 2024-01-11 | 2024-05-07 | 太原理工大学 | 融合并行多卷积注意力的扩散模型去雾方法 |
CN118096762A (zh) * | 2024-04-28 | 2024-05-28 | 齐鲁工业大学(山东省科学院) | 一种基于动态扩散深度神经网络的图像恢复方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164011A (zh) * | 2020-10-12 | 2021-01-01 | 桂林电子科技大学 | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 |
CN113191983A (zh) * | 2021-05-18 | 2021-07-30 | 陕西师范大学 | 一种基于深度学习注意力机制的图像去噪方法及装置 |
CN113763261A (zh) * | 2021-06-29 | 2021-12-07 | 中国科学院沈阳自动化研究所 | 一种海雾气象条件下的远小目标实时检测方法 |
US20220036517A1 (en) * | 2020-08-03 | 2022-02-03 | The Board Of Trustees Of The Leland Stanford Junior University | Deep learning based denoising and artifact reduction in cardiac CT cine imaging |
CN114283158A (zh) * | 2021-12-08 | 2022-04-05 | 重庆邮电大学 | 一种视网膜血管图像分割方法、装置及计算机设备 |
CN114820389A (zh) * | 2022-06-23 | 2022-07-29 | 北京科技大学 | 一种基于无监督解耦表征的人脸图像去模糊方法 |
CN114841897A (zh) * | 2022-06-08 | 2022-08-02 | 西北工业大学 | 基于自适应模糊核估计的深度去模糊方法 |
CN115409733A (zh) * | 2022-09-02 | 2022-11-29 | 山东财经大学 | 一种基于图像增强和扩散模型的低剂量ct图像降噪方法 |
CN115439376A (zh) * | 2022-11-03 | 2022-12-06 | 武汉大学 | 复眼相机多焦距图像融合模型、方法及装置 |
US20230103638A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Image-to-Image Mapping by Iterative De-Noising |
-
2023
- 2023-05-22 CN CN202310578005.1A patent/CN116645287B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220036517A1 (en) * | 2020-08-03 | 2022-02-03 | The Board Of Trustees Of The Leland Stanford Junior University | Deep learning based denoising and artifact reduction in cardiac CT cine imaging |
CN112164011A (zh) * | 2020-10-12 | 2021-01-01 | 桂林电子科技大学 | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 |
CN113191983A (zh) * | 2021-05-18 | 2021-07-30 | 陕西师范大学 | 一种基于深度学习注意力机制的图像去噪方法及装置 |
CN113763261A (zh) * | 2021-06-29 | 2021-12-07 | 中国科学院沈阳自动化研究所 | 一种海雾气象条件下的远小目标实时检测方法 |
US20230103638A1 (en) * | 2021-10-06 | 2023-04-06 | Google Llc | Image-to-Image Mapping by Iterative De-Noising |
CN114283158A (zh) * | 2021-12-08 | 2022-04-05 | 重庆邮电大学 | 一种视网膜血管图像分割方法、装置及计算机设备 |
CN114841897A (zh) * | 2022-06-08 | 2022-08-02 | 西北工业大学 | 基于自适应模糊核估计的深度去模糊方法 |
CN114820389A (zh) * | 2022-06-23 | 2022-07-29 | 北京科技大学 | 一种基于无监督解耦表征的人脸图像去模糊方法 |
CN115409733A (zh) * | 2022-09-02 | 2022-11-29 | 山东财经大学 | 一种基于图像增强和扩散模型的低剂量ct图像降噪方法 |
CN115439376A (zh) * | 2022-11-03 | 2022-12-06 | 武汉大学 | 复眼相机多焦距图像融合模型、方法及装置 |
Non-Patent Citations (4)
Title |
---|
LIANGYU CHEN等: "Simple Baselines for Image Restoration", ARXIV:2204.04676V4 * |
SYED WAQAS ZAMIR等: "Restormer: Efficient Transformer for High-Resolution Image Restoration", ARXIV:2111.09881V2 * |
YUZHU JI等: "CASNet: A Cross-Attention Siamese Network for Video Salient Object Detection", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, vol. 32, no. 6, XP011857384, DOI: 10.1109/TNNLS.2020.3007534 * |
侯向丹;赵一浩;刘洪普;郭鸿?;于习欣;丁梦园;: "融合残差注意力机制的UNet视盘分割", 中国图象图形学报, no. 09 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994167A (zh) * | 2024-01-11 | 2024-05-07 | 太原理工大学 | 融合并行多卷积注意力的扩散模型去雾方法 |
CN118096762A (zh) * | 2024-04-28 | 2024-05-28 | 齐鲁工业大学(山东省科学院) | 一种基于动态扩散深度神经网络的图像恢复方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116645287B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859147B (zh) | 一种基于生成对抗网络噪声建模的真实图像去噪方法 | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
CN116645287B (zh) | 一种基于扩散模型的图像去模糊方法 | |
CN112184577B (zh) | 基于多尺度自注意生成对抗网络的单幅图像去雾方法 | |
CN111028177B (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
CN113658051A (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN111354017A (zh) | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 | |
CN112561838A (zh) | 基于残差自注意力和生成对抗网络的图像增强方法 | |
CN112541864A (zh) | 一种基于多尺度生成式对抗网络模型的图像修复方法 | |
CN112507617B (zh) | 一种SRFlow超分辨率模型的训练方法及人脸识别方法 | |
CN112801104B (zh) | 基于语义分割的图像像素级伪标签确定方法及系统 | |
CN111681188B (zh) | 基于结合图像像素先验和图像梯度先验的图像去模糊方法 | |
CN112164011A (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN111489304B (zh) | 一种基于注意机制的图像去模糊方法 | |
CN113256508A (zh) | 一种改进的小波变换与卷积神经网络图像去噪声的方法 | |
CN115457568B (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN114723630A (zh) | 基于空洞双残差多尺度深度网络的图像去模糊方法及系统 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
CN117237188A (zh) | 基于遥感图像的多尺度注意网络的显著性目标检测方法 | |
CN116258632A (zh) | 一种基于文本辅助的文本图像超分辨率重建方法 | |
CN116597142A (zh) | 基于全卷积神经网络与变换器的卫星图像语义分割方法及系统 | |
CN115601257A (zh) | 一种基于局部特征和非局部特征的图像去模糊方法 | |
CN115760589A (zh) | 一种用于运动模糊图像的图像优化方法及装置 | |
Wu et al. | RDS-denoiser: a detail-preserving convolutional neural network for image denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |