CN113902647A - 一种基于双闭环网络的图像去模糊方法 - Google Patents
一种基于双闭环网络的图像去模糊方法 Download PDFInfo
- Publication number
- CN113902647A CN113902647A CN202111381850.7A CN202111381850A CN113902647A CN 113902647 A CN113902647 A CN 113902647A CN 202111381850 A CN202111381850 A CN 202111381850A CN 113902647 A CN113902647 A CN 113902647A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- model
- images
- blurred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000013507 mapping Methods 0.000 claims abstract description 34
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 19
- 101100247599 Hordeum vulgare RCAB gene Proteins 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 8
- 230000000737 periodic effect Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 10
- 241000276498 Pollachius virens Species 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100467475 Entamoeba histolytica RACB gene Proteins 0.000 description 1
- 101100523505 Oryza sativa subsp. japonica RAC6 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于双闭环网络的图像去模糊方法,属于数字图像和视频处理领域。包括向模型中读入一幅模糊图像,该模型包括主干网络、转置网络和两个辅助网络,通过扩展的损失函数优化模型,通过优化的模型,得到清晰的图像,实现图像去模糊任务。有益效果是:(1)本发明是针对图像的精确去模糊方法;(2)本发明设计了一个双闭环网络来限制从模糊图像到清晰图像的映射解空间,并对网络中间层获得的特征提供约束。(3)在不改变网络结构的情况下,本发明方法的损失函数可以很容易地扩展到处理不成对的数据集。(4)本发明可以广泛应用于各种场景的图像去模糊任务,有助于后续的识别和分析等任务。
Description
技术领域
本发明属于数字图像和视频处理领域,尤其是指一种基于双闭环网络的图像去模糊方法。
背景技术
模糊会降低图像质量,并降低许多实际应用的性能,如目标检测和人脸识别。因此,图像去模糊是数字图像处理领域的研究热点,其目的是从模糊源中恢复清晰的图像。然而,图像的模糊可能由各种因素引起,例如物体的移动、相机的抖动和失焦,导致将模糊图像映射到清晰空间的可能函数的解空间非常大。因此,图像去模糊是一个典型的不适定问题。为了解决这个不适定问题,现有的去模糊方法大致可以分为两大类,一类是传统的浅层方法,另一类是基于深度学习的方法。
传统的浅层图像去模糊方法使用各种约束和先验推断模糊核和清晰图像,这在很大程度上依赖于对模糊模型的假设。而且,由于浅层去模糊方法在有限的样本上提取图像先验信息,只能在某些模糊图像上获得良好的去模糊效果,而对真实场景的鲁棒性较差。此外,大多数浅层方法中的参数调整也很复杂。
随着深度学习技术的飞速发展,一些基于深度卷积神经网络(CNN)的方法相继被提出来处理图像去模糊问题。与浅层方法相比,基于深度卷积神经网络的图像去模糊方法采用非线性参数模型来模拟图像的模糊过程。因此,它们可以更好地估计模糊核。这类方法的优势在于,它们可以通过端到端的方式训练CNN模型,直接对图像进行去模糊,从而处理不同的模糊源。早期的工作主要集中在模糊核的估计上。Sun等人利用CNN估计运动矢量的大小和方向,从而获得模糊核。Gong等人利用全卷积神经网络进行运动流估计。然而,由于在现实场景中模糊核是极其复杂的,很难通过简单的CNN得到一个能够处理不同类型模糊的广义模糊核。因此,以无核方式直接去模糊图像的回归网络变得流行。Nah等人提出了一种基于多尺度结构的深度CNN,用于动态场景去模糊。该方法可以在不进行核估计的情况下恢复潜在的清晰图像,从而避免了由于模糊核不足而导致的误差。Zhang等人提出了一种称为深度分层多块网络的去模糊模型,该模型通过分层多块技术利用不同尺度下图像的模糊线索实现良好的去模糊效果。Tao等人将长短时记忆(LSTM)引入到图像去模糊模型中,并采用编码器-解码器结构提出了一种尺度递归网络(SRN)。Zhang等人将CNN与RNN相结合,提出了一种参数共享的图像去模糊方法。Gao等人在CNN中引入了跨越连接机制,以避免去模糊过程中的梯度消失问题。Ramakrishnan等人首先引用图像翻译的思想,采用GAN来解决图像去模糊问题。然后,Kupyn等人相继提出了DeblurGAN和DeblurGAN-v2来去除图像中的模糊。具体来说,DeblurGAN是基于GAN和内容损失来消除由物体运动引起的模糊。DeblurGAN-v2基于鉴别器提出了一种新的损失函数,它不仅提高了去模糊图像的质量,而且降低了计算成本。然而,DeblurGAN和DeblurGAN-v2都不能处理训练数据中的未配对数据。因此,文献Zhang等人提出了一种具有两个互补GAN的去模糊方法来解决这一限制,并实现了最先进的网络性能。
双重学习是由一个原始模型和一个双重模型组成,用于同时学习两个相反的映射,由Xia等人首次提出,以减少在语言翻译训练中对标记数据的要求。最近,这种方法也被用于计算机视觉问题。Liu和Tuzel提出了一种耦合生成对抗网络,该网络将两个GAN同时训练,以解决没有成对训练数据的图像翻译问题。Yi等人提出了一种对偶结构,它可以被视为两个域中图像之间的图像转换器。类似地,Zhu等人提出了一种CycleGAN,它可以直接学习不同图像空间之间的双向变换函数。DualGAN和CycleGAN中的循环结构或闭环结构允许来自任一域的图像被转换和重构。为了解决图像超分辨率的问题,Guo等人提出了一种双重回归方案,通过在低分辨率数据上引入额外的约束来减少可能解的空间。
循环一致性是双重学习中常用的标准。循环一致性认为,对偶学习中两个模型得到的映射应该是彼此相反的,并且两个映射都应该是相互映射。最近,循环一致性被广泛应用于协同分割、运动结构分析和图像匹配等任务中。Zhou等人和Godard等人将周期一致性损失作为监督CNN训练的标准。这些方法通过增强图像之间的周期一致性和空间约束,学习固定特征表示上的鲁棒稠密对应。相似性,Aytar等人将时间序列之间的周期一致性用作验证工具,以优化表征学习中的超参数。Deniz等人将循环一致性和感知损失相结合,以提高图像恢复详细信息的质量。
尽管上述方法取得了令人满意的图像去模糊性能,但仍存在一些局限性。首先,现有的基于深度学习的图像去模糊方法存在解空间过大的问题。也就是说,他们没有有效的减少从模糊图像到清晰图像过程中存在的映射函数的解空间。因此,如何缩小去模糊模型的解空间成为一个重要的问题。其次,现有的大多数去模糊方法都依赖成对的模糊和清晰图像去进行训练。然而,在实际应用中,成对的训练数据可能并不总是充足的,并且成对的数据是不容易获得的。因此,有效地利用成对和非成对数据来提高去模糊性能是有必要的。最后,现有的图像去模糊方法忽略了对网络中间特征的约束。由于基于CNN的去模糊方法需要堆叠多个卷积层来逐步提取细腻的特征以生成清晰图像,因此对中间特征施加一些信息约束有利于增强其去模糊能力。
发明内容
本发明提供一种基于双闭环网络的图像去模糊方法,目的是得到更清晰的高质量图像,提出的方法适用于目标跟踪、目标识别、图像分析与理解等。
本发明采取的技术方案是,包括下列步骤:
(1)向模型中读入一幅模糊图像x;
(2)步骤(1)中的模型包括:一个主干网络I、一个转置网络II和两个辅助网络III,其中:
1)主干网络I是模型的第一个部分,该主干网络的体系结构包括两个主要阶段,第一阶段是一个称为编码器的图像压缩过程,它通过两个下采样模块捕获模糊图像x的上下文信息,第二阶段是一个称为解码器的对称扩展过程,它通过对编码器的特征进行上采样来获得清晰图像的特征图从而构建清晰的图像y,在解码器的上采样过程中,利用细粒度细节来重建清晰的图像y,为保留上下文信息,模型还加入了拼接机制,以连接编码器和解码器中的特征;
2)转置网络是模型的第二部分,将清晰的图像y映射到模糊的对应图像该网络是一个与主干网络相对的模型,形成了一个双重学习的第一个闭环结构,从而减少模型的解空间,转置网络包括两个卷积层和M个残差通道注意力模块RCAB模块,用于估计浅层模糊核,并模拟模糊图像x生成的过程;
3)辅助网络是模型的第三部分,每个辅助网络包含两个卷积层、一个LeakyRelu函数和M个RCAB模块,能够实现在不同尺度下逐步提取恢复的清晰图像y的特征,然后,在主干网络的解码器获得的特征图和辅助网络获得的特征图添加额外的卷积层,以产生相应比例的图像,即和通过设计一个损失函数使具有相同比例的图像相互监督,形成了第二个闭环,用于实现清晰图像的恢复,辅助网络仅用于约束主干网络中解码器部分的特征,这是因为主干网络中的编码器主要用于提取模糊图像的上下文信息,而清晰图像的细节信息主要由解码器生成;
(3)通过扩展的损失函数优化模型
1)主干网络的映射函数为G={X→Y}
X是模糊图像集,Y为清晰图像集,{xi,yi}(i=1,…,N)表示为成对训练样本集,其中xi和yi是第i对模糊和清晰图像;
成对训练样本集损失函数LG(X,Y)表示如下:
其中L1表示L1正则损失,即L1-Norm,公式(1)由两项组成:第一个是用来使映射函数G生成与其对应的ground-truth相似的清晰图像,第二个是使循环一致性损失,I为转置网络的映射函数通过模型的闭环结构使得xi和双映射后的xi、即I(G(xi))保持一致;
2)转置网络的映射函数为I={Y→X},则转置网络损失函数LI(X,Y)为:
公式(2)中的第一项用于优化转置网络的映射函数I,第二项也是用于约束解空间的循环一致性损失。
3)辅助网络的映射函数为Auj={y→yj,j=1,2},
yj为辅助网络获得的1/2j尺度的图像集合,j=1,2;
则辅助网络损失函数LAu(X,Y)为:
其中,Au j(G(xi))和分别表示由辅助网络和主干网络解码器的特征生成的1/2尺度的图像;公式(3)可被视为一个自监督学习过程,该过程利用生成清晰图像的特征和从生成的清晰图像中提取的特征来实现相互监督,这不仅有助于利用清晰图像的细粒度信息,还有助于进一步缩小清晰图像生成的可能解空间;
4)定义扩展的损失函数
成对训练样本集总损失函数Lpaired(X,Y)为:
Lpaired(X,Y)=LG(X,Y)+λ1LI(X,Y)+λ2LAu(X,Y) (4)
其中λi是可从数据中自动学习的tradeoff参数,i=1,2,LG,LI和LAu分别表示模型中三个映射对应的损失函数;
对于未成对的数据集合,在公式(4)中扩展了提出模型的损失函数,以处理包含成对和未成对图像的数据集,扩展的损失函数Lext(X,Y)定义为:
Lext(X,Y)=k1Lpaired+k2(L'G+LAu)+k3(L'I+L'Au) (5)
其中,L'G和L'I是LG和LI的修正损失函数,L'Au定义如下:
公式(5)中的参数k1,k2和k3使建立的模型适应不同的情况;
(4)对于需要处理的模糊图像x,通过步骤(3)优化的模型,得到清晰的图像y,实现图像去模糊任务。
本发明所述步骤(2)中主干网络I的下采样模块是通过步长为3的卷积层实现,并采用Relu为激活函数。
本发明所述步骤(2)中主干网络I使用K个残差通道注意力模块RCAB来提高模型容量,然后使用pixel-shuffle实现特征的上采样。
本发明所述步骤(2)中转置网络的卷积层步长为3。
本发明所述步骤(2)中辅助网络的卷积层步长为3。
本发明所述步骤(3)中公式(5)中的参数k1,k2和k3使建立的模型适应不同的情况,具体如下:
若模型的输入是成对的模糊和清晰图像,可以通过设置k1=1,k2=k3=0将公式(5)退化为公式(4),即:
Lext(X,Y)=Lpaired (7)
相反,若将模糊图像x输入到建立的模型中,而没有相应的清晰样本,可以设置k1=0、k2=1和k3=0,从公式(5)中删除第一项和第三项,使得网络训练是通过第二项包含的周期一致性和只与x相关的辅助损失函数,即:
Lext(X,Y)=L'G+LAu (8)
类似地,当仅输入没有模糊图像对应的清晰图像y时,参数设置为k1=0、k2=0和k3=1,删除公式(5)中前两项,仅保留与y关联的第三项,即:
Lext(X,Y)=L'I+L'Au (9)。
本发明构建了一个具有双闭环结构的网络,它不仅能尽可能减小清晰和模糊图像域之间可能的映射空间,而且在去模糊过程中可以更好地利用图像的细粒度信息。大量的实验结果表明该方法具有良好的去模糊性能并且优于现有的具有代表性的目去模糊方法,适用于目标跟踪、目标识别、图像分析与理解等。
本发明针对三个公共数据集GoPro、Kohler和HIDE进行了实验对比与分析,并且从定性和定量两个角度评价了提出方法的有效性和优越性。此外,我们还提供了一个名为DCLData的真实数据集来比较各种方法的性能。大量的对比实验结果表明,本发明提出的方法能够清晰的恢复模糊图像,达到更好的去模糊效果。特别地,本发明于图像和视频同样适用。
本发明的有益效果:(1)本发明是针对图像(视频)的精确去模糊方法;(2)本发明设计了一个双闭环网络来限制从模糊图像到清晰图像的映射解空间,并对网络中间层获得的特征提供约束。(3)在不改变网络结构的情况下,本发明方法的损失函数可以很容易地扩展到处理不成对的数据集。(4)本发明可以广泛应用于各种场景的图像去模糊任务,有助于后续的识别和分析等任务。
附图说明
图1是Kohler数据集上的一幅模糊图像;
图2是本发明模型的整体框架图;
图3是在GoPro数据集上与某些方法获得的去模糊结果的视觉比较;
图4是在Kohler数据集上与先进方法获得的去模糊结果的视觉比较;
图5是在HIDE数据集上与某些方法获得的去模糊结果的视觉比较;
图6是在GoPro数据集上,解码器中具有不同数量RCAB模块性能比较;
图7是在DCLData数据集上与其他方法获得的去模糊结果的视觉比较;
图8是在DCLData数据集上比较不同的训练数据选择方案的视觉效果。
具体实施方式
包括下列步骤:
(1)向模型中读入一幅模糊图像x,参见图1;
(2)步骤(1)中的模型包括:一个主干网络I、一个转置网络II和两个辅助网络III,参见图2,其中:
1)主干网络I是模型的第一个部分,该主干网络的体系结构包括两个主要阶段,第一阶段是一个称为编码器的图像压缩过程,它通过两个下采样模块捕获模糊图像x的上下文信息,下采样模块是通过步长为3的卷积层实现,并采用Relu为激活函数;第二阶段是一个称为解码器的对称扩展过程,它通过对编码器的特征进行上采样来获得清晰图像的特征图从而构建清晰的图像y,在解码器的上采样过程中,利用细粒度细节来重建清晰的图像y,即使用了K个残差通道注意力模块RCAB来提高模型容量,然后使用pixel-shuffle实现特征的上采样,为保留上下文信息,模型还加入了拼接机制,以连接编码器和解码器中的特征;
2)转置网络是模型的第二部分,将清晰的图像y映射到模糊的对应图像该网络是一个与主干网络相对的模型,形成了一个双重学习的第一个闭环结构,从而减少模型的解空间,转置网络包括两个步长为3的卷积层和M个残差通道注意力模块RCAB模块,用于估计浅层模糊核,并模拟模糊图像x生成的过程;
3)辅助网络是模型的第三部分,每个辅助网络包含两个步长为3的卷积层、一个LeakyRelu函数和M个RCAB模块,能够实现在不同尺度下逐步提取恢复的清晰图像y的特征,然后,在主干网络的解码器获得的特征图和辅助网络获得的特征图添加额外的卷积层,以产生相应比例的图像,即和通过设计一个损失函数使具有相同比例的图像相互监督,形成了第二个闭环,用于实现清晰图像的恢复,辅助网络仅用于约束主干网络中解码器部分的特征,这是因为主干网络中的编码器主要用于提取模糊图像的上下文信息,而清晰图像的细节信息主要由解码器生成;
(3)通过扩展的损失函数优化模型
1)主干网络的映射函数为G={X→Y}
X是模糊图像集,Y为清晰图像集,{xi,yi}(i=1,…,N)表示为成对训练样本集,其中xi和yi是第i对模糊和清晰图像;
成对训练样本集损失函数LG(X,Y)表示如下:
其中L1表示L1正则损失,即L1-Norm,公式(1)由两项组成:第一个是用来使映射函数G生成与其对应的ground-truth相似的清晰图像,第二个是使循环一致性损失,I为转置网络的映射函数通过模型的闭环结构使得xi和双映射后的xi、即I(G(xi))保持一致;
2)转置网络的映射函数为I={Y→X},则转置网络损失函数LI(X,Y)为:
公式(2)中的第一项用于优化转置网络的映射函数I,第二项也是用于约束解空间的循环一致性损失。
3)辅助网络的映射函数为Auj={y→yj,j=1,2},
yj为辅助网络获得的1/2j尺度的图像集合,j=1,2;
则辅助网络损失函数LAu(X,Y)为:
其中,Au j(G(xi))和分别表示由辅助网络和主干网络解码器的特征生成的1/2尺度的图像;公式(3)可被视为一个自监督学习过程,该过程利用生成清晰图像的特征和从生成的清晰图像中提取的特征来实现相互监督,这不仅有助于利用清晰图像的细粒度信息,还有助于进一步缩小清晰图像生成的可能解空间;
4)定义扩展的损失函数
成对训练样本集总损失函数Lpaired(X,Y)为:
Lpaired(X,Y)=LG(X,Y)+λ1LI(X,Y)+λ2LAu(X,Y) (4)
其中,λi是可从数据中自动学习的tradeoff参数,i=1,2,LG,LI和LAu分别表示模型中三个映射对应的损失函数;
对于未成对的数据集合,在公式(4)中扩展了提出模型的损失函数,以处理包含成对和未成对图像的数据集,扩展的损失函数Lext(X,Y)定义为:
Lext(X,Y)=k1Lpaired+k2(L'G+LAu)+k3(L'I+L'Au) (5)
其中,L'G和L'I是LG和LI的修正损失函数,L'Au定义如下:
公式(5)中的参数k1,k2和k3使建立的模型适应不同的情况,具体来说,若模型的输入是成对的模糊和清晰图像,可以通过设置k1=1,k2=k3=0将公式(5)退化为公式(4),即:
Lext(X,Y)=Lpaired (7)
相反,若将模糊图像x输入到建立的模型中,而没有相应的清晰样本,可以设置k1=0、k2=1和k3=0,从公式(5)中删除第一项和第三项,使得网络训练是通过第二项包含的周期一致性和只与x相关的辅助损失函数,即:
Lext(X,Y)=L'G+LAu (8)
类似地,当仅输入没有模糊图像对应的清晰图像y时,参数设置为k1=0、k2=0和k3=1,删除公式(5)中前两项,仅保留与y关联的第三项,即:
Lext(X,Y)=L'I+L'Au (9)
(4)对于需要处理的模糊图像x,通过步骤(3)优化的模型,得到清晰的图像y,实现图像去模糊任务。
下边通过理论分析来证明本发明闭环结构可以减少清晰图像和模糊图像之间可能存在的映射空间,具体如下:
考虑到本发明建立的网络模型中的三个映射,定义三个假设:
这里,Θxy,Θyx和Θyy是参数空间,通过这些假设,函数空间HDCL可以被定义为为了测量模型的真实误差,通常使用期望风险来评估,因此,根据公式(2)中的潜在分布和损失函数,本发明提出的网络(以下简称DCLNet)的期望风险可定义为:
因无法获得所有样本的真实分布,所以采用了经验风险,经验风险是训练集上的平均损失,可定义为:
泛化误差界可以定义为:
由于函数空间的复杂度可以用Rademacher复杂度来衡量,因此,本发明DCLNet的Rademacher复杂性定义如下:
给定从底层分布PN中提取的样本集Z={(x1,y1),(x2,y2)…(xN,yN)},DCLNet的Rademacher复杂度为::
其中,σ={σ1,σ2…σN}是P{σi=1}=P{σi=-1}=0.5中的随机变量;
基于RZ(HDCL),有下面的定理:
假设本发明提出网络的损失函数是从X×Y到[0,1]的映射,然后,对于任何δ>0且概率至少为1-δ,以下不等式适用于所有(G,I,Au)∈HDCL的情况;
通过定理,可以得到:
在不等式(16)中,2RZ(HDCL)和N是衡量指数B(G,I,Au)的关键因素,也就是说,具有更多样本和更小Rademacher复杂度的模型具有更小的泛化界。根据Rademacher复杂性的定义,如果一个网络只有一个生成器任务(例如,),它要从模糊的输入重建出清晰的图像,那么它的Rademacher复杂性将比本发明的DCLNet更大。换言之,本发明的函数空间的容量大于因此,在样本数相同的情况下,与没有闭环结构的其他方法相比,本发明的DCLNet具有更小的泛化范围,这有助于模型对测试数据给出更准确的预测。
下面通过具体实验结果的分析与对比来进一步说明本发明的有益效果。
实验例
为了有效地和系统地评价提出的方法,在三个公共数据集GoPro、Kohler和HIDE进行了实验对比与分析,其中943GoPro数据集由3214对模糊和清晰的图像组成,这些图像是从33个视频序列中提取出来的720×1280分辨率的图像,训练集和测试集分别包括2103对和1111对图像。Kohler数据集由4幅模糊图像组成,每幅图像有12个不同的核,是评估盲去模糊算法的标准基准数据集。HIDE数据集有8422个清晰和模糊的图像对,这些图像是从31个高fps视频中精心挑选的,视频包含了真实的包含人类的户外场景,使用6397对图像进行训练,2025对图像进行测试。图1给出了Kohler数据集中的一幅模糊图像。此外,从定量的角度将本发明提出方法(DCLNet)与一些有代表性的方法进行性能对比。
在具体的去模糊实施过程中,使用Adam来优化网络,学习率、momentum、momentum2和权重衰减分别为5e-5、0.9、0.999和1e-8。经过训练后,转置网络和辅助网络将从建立的模型中移除,因此在推理阶段仅需要主干网络对图像进行去模糊。
为了评价方法的性能,采用峰值信噪比(PSNR)和SSIM对该方法进行定量评价。表1给出了不同算法在GoPro数据集上的性能比较;
表1.不同算法在GoPro数据集上的性能比较
可以看出,本发明提出的方法优于其他方法。原因如下:首先,模型中形成闭环结构的主干网络、转置网络和辅助网络可以保证网络具有更好的泛化能力,使得提出DCLNet的性能优于仅采用单一网络进行图像去模糊的方法。第二,辅助网络对中间层的特征施加约束,使得DCLNet可以利用清晰图像的更多细节。图3给出了视觉比较,可以观察到,与其他方法相比,本发明的模型始终可以产生更清晰的轮廓和清晰的细节(参见第一幅图像中的字符、第二幅图像中的边缘以及第三幅图像中人脸的轮廓信息),这也验证了本发明提出网络的有效性。
表2给出了不同算法在Kohler数据集上的性能比较。
表2.不同算法在Kohler数据集上的性能比较
可以看出,DCLNet获得的PSNR和SSIM在很大程度上优于其他方法。此外,图4中的视觉比较与表2中的结果一致。也就是说,本发明方法能从模糊图像中恢复更详细的信息,伪影更少。
表3给出了不同算法在HIDE数据集上的性能比较。
表3.不同算法在HIDE数据集上的性能比较
由于双闭环结构,DCLNet方法优于其他方法。此外,从图5中的视觉比较结果可以看出本发明方法的优势。
为验证本发明提出的模型中各个组件的有效性。通过从DCLNet中删除一些组件,可以得到六个不同版本的模型,分别为表4中的Net1-Net6。
表4.在GoPro数据集上比较所提网络的不同版本的性能(辅助网络_j表示仅使用辅助网络来约束解码器中的1/2j尺度特征)
从该表中可以看出,转置网络和辅助网络对于提出的模型都是必不可少的。具体来说,若没有转置网络(Net6),DCLNet的峰值信噪比将下降约0.4。此外,去除辅助网络的约束也会降低DCLNet的性能。
此外,还评估了提出模型对RCAB模块数量的敏感性。如图6所示,为了提高特征提取能力,在主干网络、转置网络和辅助网的解码器中采用了RCAB模块。一般来说,虽然连续叠加RCAB模块可以提高网络的精度,但也会导致网络参数量大。在本发明中,将主干网络的解码器(图6)中的RCAB数量K设置为5到25,步长为5,并将转置网络和辅助网络(表5)中的RCAB数量M设置为2到10,步长为2。
表5.所提方法在转置网络和辅助网络中使用不同数量的RCAB模块的性能比较
从图6的结果可以看出,主干网络的解码器中只有少量的RCAB模块无法准确恢复清晰图像。对于更多的RCAB模块(如20和25),尽管它们可以实现更高的RSNR结果,但是性能的改进是以更多的训练周期为代价实现的。因此,对于本发明提出的模型来说,K=15是一个很好的选择,因为它可以用较少的时间获得更好的性能。类似地,从表5中发现,转置网络和辅助网络中的更多RACB模块不能明显改善模型的性能。因此,在实验中设置M=5,以平衡模型的有效成本和计算成本。
为了进一步测试DCLNet的有效性,本发明创建了一个名为DCLData的真实数据集。它包含600对模糊和清晰图像以及1200对未配对图像(600幅模糊图像和600幅清晰图像),大小为720×1280,由摄影机生成的。为了方便起见,从GoPro数据集中随机选择配对的图像,并使用不同的设备(如相机和智能手机)捕捉未配对的样本,以减少对特定设备的需求。图7给出了使用所有成对序列集的一些方法的视觉比较。可以看出,由于引入了转置网络和辅助网络,本发明提出的DCLNet产生了更清晰的图像,并优于其他方法。
为了验证提出网络对于处理未配对数据的有效性,设计了四种不同的方案从创建的DCLData中选择训练样本。如表6所示:
表6.从DCLData集中选择不同的训练集方案
第一个方案(T1)从数据集中随机选择90%的配对样本进行训练,其余10%的样本用于测试,这与配对GoPro、Kohler和HIDE数据集上的实验相同。然后,将未配对样本逐渐添加到训练集中(T2-T4)。从表7中的定量结果和图8中的视觉比较可以看出,使用未配对数据训练所提出的模型确实可以提高去模糊性能。
表7.在DCLData数据集上对不同的训练数据选择方案进行比较
鉴于此,本发明提出了一种双闭环网络用于去模糊任务。与只关注于构造一个网络来从模糊图像中直接恢复清晰图像不同,本发明在模型中引入了两个闭环结构,可以有效地提高去模糊性能。此外,本发明还扩展了模型的损失函数来处理数据集中的不成对样本。通过对三个基准数据集和一个真实数据集的理论分析和大量实验,验证了本发明提出的网络相对于其他最先进方法更有优势。
以上所述仅为本发明的优选实施方式,本发明的保护范围并不仅限于上述实施方式,凡是属于本发明的原理的技术方案均属于本方面的保护范围,对于本领域的技术人员而言,在不脱离本发明的前提下进行的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于双闭环网络的图像去模糊方法,其特征在于,包括下列步骤:
(1)向模型中读入一幅模糊图像x;
(2)步骤(1)中的模型包括:一个主干网络I、一个转置网络II和两个辅助网络III,其中:
1)主干网络I是模型的第一个部分,该主干网络的体系结构包括两个主要阶段,第一阶段是一个称为编码器的图像压缩过程,它通过两个下采样模块捕获模糊图像x的上下文信息,第二阶段是一个称为解码器的对称扩展过程,它通过对编码器的特征进行上采样来获得清晰图像的特征图从而构建清晰的图像y,在解码器的上采样过程中,利用细粒度细节来重建清晰的图像y,为保留上下文信息,模型还加入了拼接机制,以连接编码器和解码器中的特征;
2)转置网络是模型的第二部分,将清晰的图像y映射到模糊的对应图像该网络是一个与主干网络相对的模型,形成了一个双重学习的第一个闭环结构,从而减少模型的解空间,转置网络包括两个卷积层和M个残差通道注意力模块RCAB模块,用于估计浅层模糊核,并模拟模糊图像x生成的过程;
3)辅助网络是模型的第三部分,每个辅助网络包含两个卷积层、一个LeakyRelu函数和M个RCAB模块,能够实现在不同尺度下逐步提取恢复的清晰图像y的特征,然后,在主干网络的解码器获得的特征图和辅助网络获得的特征图添加额外的卷积层,以产生相应比例的图像,即和通过设计一个损失函数使具有相同比例的图像相互监督,形成了第二个闭环,用于实现清晰图像的恢复,辅助网络仅用于约束主干网络中解码器部分的特征,这是因为主干网络中的编码器主要用于提取模糊图像的上下文信息,而清晰图像的细节信息主要由解码器生成;
(3)通过扩展的损失函数优化模型
1)主干网络的映射函数为G={X→Y}
X是模糊图像集,Y为清晰图像集,{xi,yi}(i=1,…,N)表示为成对训练样本集,其中xi和yi是第i对模糊和清晰图像;
成对训练样本集损失函数LG(X,Y)表示如下:
其中L1表示L1正则损失,即L1-Norm,公式(1)由两项组成:第一个是用来使映射函数G生成与其对应的ground-truth相似的清晰图像,第二个是使循环一致性损失,I为转置网络的映射函数通过模型的闭环结构使得xi和双映射后的xi、即I(G(xi))保持一致;
2)转置网络的映射函数为I={Y→X},则转置网络损失函数LI(X,Y)为:
公式(2)中的第一项用于优化转置网络的映射函数I,第二项也是用于约束解空间的循环一致性损失。
3)辅助网络的映射函数为Auj={y→yj,j=1,2},
yj为辅助网络获得的1/2j尺度的图像集合,j=1,2;
则辅助网络损失函数LAu(X,Y)为:
其中,Auj(G(xi))和分别表示由辅助网络和主干网络解码器的特征生成的1/2尺度的图像;公式(3)可被视为一个自监督学习过程,该过程利用生成清晰图像的特征和从生成的清晰图像中提取的特征来实现相互监督,这不仅有助于利用清晰图像的细粒度信息,还有助于进一步缩小清晰图像生成的可能解空间;
4)定义扩展的损失函数
成对训练样本集总损失函数Lpaired(X,Y)为:
Lpaired(X,Y)=LG(X,Y)+λ1LI(X,Y)+λ2LAu(X,Y) (4)
其中λi是可从数据中自动学习的tradeoff参数,i=1,2,LG,LI和LAu分别表示模型中三个映射对应的损失函数;
对于未成对的数据集合,在公式(4)中扩展了提出模型的损失函数,以处理包含成对和未成对图像的数据集,扩展的损失函数Lext(X,Y)定义为:
Lext(X,Y)=k1Lpaired+k2(L'G+LAu)+k3(L'I+L'Au) (5)
其中,L'G和L'I是LG和LI的修正损失函数,L'Au定义如下:
公式(5)中的参数k1,k2和k3使建立的模型适应不同的情况;
(4)对于需要处理的模糊图像x,通过步骤(3)优化的模型,得到清晰的图像y,实现图像去模糊任务。
2.根据权利要求1所述的一种基于双闭环网络的图像去模糊方法,其特征在于:所述步骤(2)中主干网络I的下采样模块是通过步长为3的卷积层实现,并采用Relu为激活函数。
3.根据权利要求1所述的一种基于双闭环网络的图像去模糊方法,其特征在于:所述步骤(2)中主干网络I使用K个残差通道注意力模块RCAB来提高模型容量,然后使用pixel-shuffle实现特征的上采样。
4.根据权利要求1所述的一种基于双闭环网络的图像去模糊方法,其特征在于:所述步骤(2)中转置网络的卷积层步长为3。
5.根据权利要求1所述的一种基于双闭环网络的图像去模糊方法,其特征在于:所述步骤(2)中辅助网络的卷积层步长为3。
6.根据权利要求1所述的一种基于双闭环网络的图像去模糊方法,其特征在于:所述步骤(3)中公式(5)中的参数k1,k2和k3使建立的模型适应不同的情况,具体如下:
若模型的输入是成对的模糊和清晰图像,可以通过设置k1=1,k2=k3=0将公式(5)退化为公式(4),即:
Lext(X,Y)=Lpaired (7)
相反,若将模糊图像x输入到建立的模型中,而没有相应的清晰样本,可以设置k1=0、k2=1和k3=0,从公式(5)中删除第一项和第三项,使得网络训练是通过第二项包含的周期一致性和只与x相关的辅助损失函数,即:
Lext(X,Y)=L'G+LAu (8)
类似地,当仅输入没有模糊图像对应的清晰图像y时,参数设置为k1=0、k2=0和k3=1,删除公式(5)中前两项,仅保留与y关联的第三项,即:
Lext(X,Y)=L'I+L'Au (9)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111381850.7A CN113902647A (zh) | 2021-11-19 | 2021-11-19 | 一种基于双闭环网络的图像去模糊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111381850.7A CN113902647A (zh) | 2021-11-19 | 2021-11-19 | 一种基于双闭环网络的图像去模糊方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902647A true CN113902647A (zh) | 2022-01-07 |
Family
ID=79194861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111381850.7A Pending CN113902647A (zh) | 2021-11-19 | 2021-11-19 | 一种基于双闭环网络的图像去模糊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902647A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220156891A1 (en) * | 2020-11-16 | 2022-05-19 | Zhixiang Chi | Methods and systems for deblurring blurry images |
-
2021
- 2021-11-19 CN CN202111381850.7A patent/CN113902647A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220156891A1 (en) * | 2020-11-16 | 2022-05-19 | Zhixiang Chi | Methods and systems for deblurring blurry images |
US11741579B2 (en) * | 2020-11-16 | 2023-08-29 | Huawei Technologies Co., Ltd. | Methods and systems for deblurring blurry images |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10593021B1 (en) | Motion deblurring using neural network architectures | |
CN110969577B (zh) | 一种基于深度双重注意力网络的视频超分辨率重建方法 | |
CN111028177B (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN109819321B (zh) | 一种视频超分辨率增强方法 | |
US20220261965A1 (en) | Training method of image processing model, image processing method, apparatus, and device | |
CN112164011B (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
Zuo et al. | Convolutional neural networks for image denoising and restoration | |
CN112529776B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
Wang et al. | Multi-direction dictionary learning based depth map super-resolution with autoregressive modeling | |
CN116681584A (zh) | 一种多级扩散图像超分辨算法 | |
Yang et al. | Ensemble learning priors driven deep unfolding for scalable video snapshot compressive imaging | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
Li et al. | Diffusion Models for Image Restoration and Enhancement--A Comprehensive Survey | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
CN113902647A (zh) | 一种基于双闭环网络的图像去模糊方法 | |
CN113421186A (zh) | 使用生成对抗网络的非监督视频超分辨率的设备和方法 | |
Zhang et al. | Iterative multi‐scale residual network for deblurring | |
Zin et al. | Local image denoising using RAISR | |
Han et al. | MPDNet: An underwater image deblurring framework with stepwise feature refinement module | |
Ren et al. | Enhanced latent space blind model for real image denoising via alternative optimization | |
CN115272113A (zh) | 一种基于多尺度频率分离网络的图像去模糊方法 | |
CN114565528A (zh) | 一种基于多尺度和注意力机制的遥感影像降噪方法及系统 | |
Pang et al. | Video super-resolution using a hierarchical recurrent multireceptive-field integration network | |
Alshammri et al. | Three-dimensional video super-resolution reconstruction scheme based on histogram matching and recursive Bayesian algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |