CN112053306A

CN112053306A - 基于深度多块网络的图像去模糊方法

Info

Publication number: CN112053306A
Application number: CN202011077611.8A
Authority: CN
Inventors: 马琳; 贾爽; 谭学治; 王孝
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2020-12-08

Abstract

基于深度多块网络的图像去模糊方法，它属于图像去模糊处理技术领域。本发明解决了现有图像去模糊方法的去模糊性能差的问题。本发明在解决了光照、相机抖动、成像设备运动等引起的运动模糊问题的同时，还提出了一种权重选择共享机制以减少网络的参数量。本发明提出的基于深度多块网络的图像去模糊方法可以有效地复原图像细节，提升去模糊性能，同时消除模糊图像对定位精度的影响。本发明提出的基于深度多块网络的图像去模糊方法仅需要10ms来处理一幅1280×720分辨率的图像，能够满足视觉室内定位的实时性需求。本发明可以应用于对图像的去模糊处理。

Description

基于深度多块网络的图像去模糊方法

技术领域

本发明属于图像去模糊技术领域，具体涉及一种基于深度多块网络的图像去模糊方法。

背景技术

近年来，随着数字图像处理技术的迅猛发展，图像去模糊问题成为图像处理和计算机视觉领域的热点和难点问题。成像系统的局限性、环境的复杂性和非配合性等诸多因素都会导致获取的图像为有强噪声、低品质和失真等特性的退化图像。图像模糊是一种典型的图像退化形式，光照、相机抖动、成像设备运动等因素都会造成图像产生模糊。研究图像的去模糊问题，从人眼视觉的角度来说将有助于提升图像的视觉质量；从实际应用的角度来说将有助于改善视觉应用的鲁棒性，因此具有重要的实际应用价值。

传统估计模糊核的图像去模糊方法，需估计出每个像素值的模糊核。然而，对于每个像素值找出相对应的模糊核是一个严重的不适定问题。同时，基于估计的模糊核，并通过传统的反卷积获得去模糊图像的这种方法通常出现对模糊核的错误估计。模糊核的错误估计会直接影响去模糊图像的质量，产生振铃、颜色畸变效应。同时，现有的算法都难以准确地对模糊核进行估计。因此，现有方法的去模糊性能较差，对于图像的去模糊研究，还有很长的路要走，存在很多急需解决的问题。

发明内容

本发明的目的是为解决现有图像去模糊方法的去模糊性能差的问题，而提出了一种基于深度多块网络的图像去模糊方法。

本发明为解决上述技术问题采取的技术方案是：一种基于深度多块网络的图像去模糊方法，该方法包括以下步骤：

构建深度多块网络，所述深度多块网络包括第1级子网络、第2级子网络和第3级子网络；

且每级子网络均包括输入层、编码器、解码器和输出层；

采集模糊图像，利用采集的模糊图像对深度多块网络进行训练，即将采集的模糊图像依次输入深度多块网络的第3级子网络，再通过第1级子网络输出对应的去模糊图像；

直至深度多块网络的损失函数不再减小时停止训练，获得训练好的深度多块网络；将待处理的模糊图像输入训练好的深度多块网络后，输出去模糊图像。

本发明的有益效果是：本发明提出了一种基于深度多块网络的图像去模糊方法，本发明解决了光照、相机抖动、成像设备运动等引起的运动模糊问题。同时，本发明还提出了一种权重选择共享机制以减少网络的参数量。本发明提出的基于深度多块网络的图像去模糊方法可以有效地复原图像细节，提升去模糊性能，同时消除模糊图像对定位精度的影响。此外，本发明提出的基于深度多块网络的图像去模糊方法仅需要10ms来处理一幅1280×720分辨率的图像，能够满足视觉室内定位的实时性需求。

附图说明

图1为本发明的深度多块网络的整体架构图；

图2为本发明的权重选择共享机制的示意图；

图3为原始模糊图像；

图4a)为从原始模糊图像中截取出的子图1；

图4b)为从原始模糊图像中截取出的子图2；

图5a)为采用对比算法1获得的子图1对应的去模糊图像；

图5b)为采用对比算法1获得的子图2对应的去模糊图像；

图6a)为采用对比算法2获得的子图1对应的去模糊图像；

图6b)为采用对比算法2获得的子图2对应的去模糊图像；

图7a)为采用本发明方法获得的子图1对应的去模糊图像；

图7b)为采用本发明方法获得的子图2对应的去模糊图像。

图8为采用本发明方法获得的去模糊图像与直接采用模糊图像应用于视觉室内定位时的定位精度对比图。

具体实施方式

具体实施方式一：本实施方式所述的基于深度多块网络的图像去模糊方法，该方法具体通过以下步骤实现：

且每级子网络均包括输入层、编码器、解码器和输出层；

具体实施方式二：结合图1说明本实施方式。本实施方式与具体实施方式一不同的是：所述将采集的模糊图像依次输入深度多块网络的第3级子网络，再通过第1级子网络输出对应的去模糊图像，其具体过程为：

对于采集到的一幅模糊图像B，将模糊图像B均匀分割成4个不重叠的模糊图像块B_3,j，j＝1,...,4，将模糊图像块B_3,j，j＝1,...,4作为第3级子网络的输入图像B₃，模糊图像块B_3,j输入深度多块网络的第3级子网络后，第3级子网络的编码器E₃产生卷积特征；

C_3,j＝E₃(B_3,j),j∈{1,...,4} (1)

其中，C_3,j表示第3级子网络中的模糊图像块经过第3级子网络的编码器产生的卷积特征；

对卷积特征C_3,j进行级联，获得新的卷积特征

j′＝1,2；

其中，C_3,2j′-1和C_3,2j′表示第3级子网络中的任意两个相邻卷积特征，

表示第3级子网络中的相邻卷积特征级联起来获得的新卷积特征，

表示级联运算符；

将新的卷积特征

作为第3级子网络的解码器D₃的输入，解码器D₃产生的去模糊图像为S_3,j′；

将模糊图像B均匀分割成2个不重叠的模糊图像块B_2,j′，将模糊图像块B_2,j′，j′＝1,2作为输入图像B₂，将B_2,j′与S_3,j′相加作为第2级子网络的输入，将第2级子网络的编码器E₂的输出与

相加产生卷积特征C_2,j′；

其中，E₂(B_2,j′+S_3,j′)代表第2级子网络的编码器E₂的输出；

对相邻的卷积特征C_2,1和C_2,2进行级联获得新的卷积特征

将新的卷积特征

作为第2级子网络的解码器D₂的输入，解码器D₂产生的去模糊图像为S₂；

将模糊图像B作为输入图像B₁，B₁和去模糊图像S₂相加作为第1级子网络的输入，将第1级子网络的编码器E₁的输出与

相加产生卷积特征C₁；

其中，E₁(B₁+S₂)代表第1级子网络的编码器E₁的输出；

将卷积特征C₁作为第1级子网络的解码器D₁的输入，解码器D₁产生的去模糊图像为S₁；

S₁＝D₁(C₁) (8)

本发明所提出的深度多块网络的整体架构如图1所示。该网络共分为3个等级，并通过将开始输入的模糊图像B划分为多个不重叠的块来生成每个级别的输入。较低级别的编码器和解码器的输出将被添加到较高级别(高于一个级别)，以便高层级别包含低层级别推断出的所有信息。每个级别的输入和输出块的数量是不同的，因为本网络的主要思想是使较低级别的注意力集中在局部信息上，从而为较高级别生成残差信息(通过级联卷积特征获得)。

本发明提出的编码模块EBlock包含一个卷积层和几个残差块ResBlock。卷积层的步长为2，其将上一层的核数加倍，并将特征图下采样为原来的一半。以下每个ResBlock包含2个卷积层。此外，所有卷积层都具有相同数量的核。解码模块DBlock与EBlock对称，DBlock包含几个ResBlock和一个反卷积层。反卷积层的作用是将特征图的空间大小加倍，并将通道减半。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述深度多块网络的损失函数L为：

其中，G表示去模糊图像S₁所对应的真实清晰图像，(S₁)_w,h,c表示深度多块网络输出的去模糊图像的宽度为w、高度为h、通道数为c，G_w,h,c表示真实清晰图像的宽度为w、高度为h、通道数为c。

本实施方式中，将图像S₁的宽度与图像G的宽度做差，求宽度差值的平方，将图像S₁的高度与图像G的高度做差，求高度差值的平方，将图像S₁的通道数与图像G的通道数做差，求通道数差值的平方，将宽度差值的平方、高度差值的平方与通道数差值的平方做和，将求和结果除以whc，作为损失函数。训练时，分别计算每幅模糊图像对应的损失函数值，直至输入模糊图像对应的损失函数值不再减小时停止训练，获得训练好的网络。

具体实施方式四：本实施方式与具体实施方式二不同的是：所述编码器E₃、编码器E₂和编码器E₁均包括两个编码模块EBlock，其中，每个编码模块EBlock包含一个卷积层和两个残差块ResBlock。

具体实施方式五：本实施方式与具体实施方式二不同的是：所述解码器D₃、解码器D₂和解码器D₁均包括两个解码模块DBlock，其中，每个解码模块DBlock包含两个残差块ResBlock和一个反卷积层。

所述编码器E₃、编码器E₂和编码器E₁均包括两个编码模块EBlock，以及所述解码器D₃、解码器D₂和解码器D₁均包括两个解码模块DBlock，这样做的目的是为了获得更多的图像特征同时更好地复原模糊图像细节。

具体实施方式六：本实施方式与具体实施方式四或五不同的是：所述残差块包含两个卷积层。

本发明的编码模块和解码模块只包含两个残差块ResBlock，且每个残差块只包含两个卷积层，这样做的目的是为了加快网络的收敛。

具体实施方式七：本实施方式与具体实施方式六不同的是：所述深度多块网络中所有层的激活函数均为整流线性单元。

具体实施方式八：本实施方式与具体实施方式七不同的是：所述第3级子网络的编码器与解码器对、第2级子网络的编码器与解码器对和第1级子网络的编码器与解码器对，三者之间采用权重选择共享机制。

实施例

本发明的基于深度多块网络的图像去模糊方法(DMPID)的具体处理过程如下：

DMPID的去模糊处理从最低级(第3级)开始。对于采集到的一幅模糊图像B，将模糊图像B均匀分割成4个不重叠的模糊图像块B_3,j，j＝1,...,4，将模糊图像块B_3,j，j＝1,...,4作为第3级子网络的输入图像B₃，这4个不重叠的图像块B_3,j，j＝1,...,4被输入到第3级编码器E₃以产生卷积特征C_3,j，其被表示为：

C_3,j＝E₃(B_3,j),j∈{1,...,4} (1)

其中，C_3,j表示第3级中的模糊图像块经过第3级编码器产生的卷积特征。然后，本发明将相邻特征级联起来以获得新卷积特征

其被表示为：

其中，C_3,2j′-1和C_3,2j′表示第3级中的任意两个相邻卷积特征，

表示第3级中的相邻卷积特征级联起来获得的新卷积特征，⊕表示级联运算符。第3级获得的新卷积特征

通过第3级解码器D₃产生第3级的去模糊图像S_3,j′：

接下来，本发明移到第2级。将模糊图像B均匀分割成2个不重叠的模糊图像块B_2,j′，将模糊图像块B_2,j′，j′＝1,2作为输入图像B₂，通过将第3级的去模糊图像S_3,j′与第2级的模糊图像B_2,j′相加来形成第2级编码器E₂的输入。一旦第2级编码器E₂的输出被生成后，本发明将其添加到第3级获得的新卷积特征

其中，C_2,j′表示第2级编码器E₂的输出与第3级获得的新卷积特征

相加产生的卷积特征。

在第2级，本发明将第2级的相邻卷积特征级联起来以获得新卷积特征

并将其通过第2级解码器D₂以获得第2级的去模糊图像S₂：

其中，C_2,1和C_2,2表示第2级中的两个相邻卷积特征，

表示第2级的相邻卷积特征级联起来获得的新卷积特征。

在第1级，将模糊图像B作为输入图像B₁，通过将第2级获得的去模糊图像S₂与第1级的模糊图像B₁相加来形成第1级编码器E₁的输入。然后，本发明将第1级编码器E₁的输出添加到第2级获得的新卷积特征

其中，C₁表示第1级编码器E₁的输出与第2级获得的新卷积特征

相加产生的卷积特征。最后，第1级的去模糊图像S₁被获得：

S₁＝D₁(C₁) (8)

此外，本发明提出了网络中所有级别的编码器/解码器对之间的权重选择共享机制，以保证图像去模糊性能的同时减少网络的参数量。本发明提出的权重选择共享机制如图2所示。在本发明提出的权重选择共享机制中，由于较低级别(第3级)主要用于获取局部信息，而在视觉室内定位系统中局部信息对于特征点的提取至关重要，因此该级别占有较大权重(0.5)，其余两个级别共享剩余权重(各0.25)。

最后，本发明具体描述了网络模型参数的详细信息。本发明中的编码器/解码器网络包含1个InBlock、2个EBlock、2个DBlock和1个OutBlock，如图1所示。InBlock产生一个32-通道的特征图。OutBlock将先前的特征图作为输入并生成输出图像。每个EBlock/DBlock内所有卷积层的核数均相同。对于EBlock 1和EBlock 2，其内的核数分别为64和128。对于DBlock 1和DBlock 2，其内的核数分别为128和64。EBlock中的卷积层和DBlock中的反卷积层的步长为2，而其他所有都为1。整流线性单元(ReLU)被用作所有层的激活函数，并且所有核大小设置为5。

从根本上来说，本发明想要模型的输出恰好就是对应的去模糊图像，因此，DMPID模型的损失函数表示为：

其中，S₁、G分别表示DMPID模型输出的去模糊图像和S₁所对应的真实清晰图像，w、h、c分别表示DMPID模型输入图像的宽度、高度和通道数。(S₁)_w,h,c表示DMPID模型输出的具有宽度为w、高度为h和通道数为c的去模糊图像，G_w,h,c表示与DMPID模型输出的去模糊图像(S₁)_w,h,c相对应的具有宽度为w、高度为h和通道数为c的真实清晰图像。

仿真结果与性能分析

所有实验均在配备Quadro P4000 GPU和Intel Xeon Gold 5118 CPU的PC上执行和评估。同时，本发明的框架在TensorFlow平台上执行。为了训练本发明提出的深度多块网络，将图像随机裁剪为256×256像素大小。然后，本发明从裁剪的图像中提取块并将其转发到每个级别的输入。图像尺寸为1280×720。训练期间，批大小设置为6。Adam solver被用于训练本发明提出的模型，其默认设置为β₁＝0.9、β₂＝0.999和∈＝10^-8。初始学习率设置为0.0001，衰减率设置为0.1。所有可训练变量都使用Xavier方法初始化。同时，还采用GoPro数据库(S.Nah,T.Kim and K.Lee,“Deep multi-scale convolutional neural networkfor dynamic scene deblurring”,IEEE Conference on Computer Vision and PatternRecognition,Honolulu,HI,USA,November 2017,pp.3883-3891.)来评估DMPID的性能。GoPro数据库的描述如下：

GoPro数据库：GoPro数据库通过在GoPro拍摄的高速视频中累积视频帧来模仿生成模糊图像的过程。整个数据库包含3214对模糊和清晰的图像，其中训练集包含2103对，其余部分用作测试集。采用训练集训练DMPID模型并选择其余测试集比较不同去模糊方法的性能。

为了评估本发明提出的图像去模糊方法的性能，针对于峰值信噪比(Peak Signalto Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)，将DMPID与其他图像去模糊方法进行比较。表1是不同方法的图像质量评价结果。

表1图像去模糊质量评价结果

从定量指标可以看出，DMPID在PSNR或SSIM方面优于其他方法。可以得出结论，本发明提出的DMPID在图像质量评估中取得了良好的效果。

此外，还将本发明提出的DMPID的性能与对比算法1(C.Min,G.Q.Wen,B.R.Li andF.F.Fan,“Blind deblurring via a novel recursive deep CNN improved by wavelettransform”,IEEE ACCESS,vol.6,pp.69242-69252,Nov.2018.)和对比算法2(S.Nah,S.Sonand K.M.Lee,“Recurrent neural networks with intra-frame iterations for videodeblurring”,IEEE Conference on Computer Vision and Pattern Recognition,LongBeach,CA,USA,June 2019,pp.8102-8111.)中的方法在主观视觉效果方面进行了比较，如图3所示为原始模糊图像，图4a)所示为从原始模糊图像中截取出的子图1，图4b)所示为从原始模糊图像中截取出的子图2。图5a)所示为采用对比算法1获得的子图1对应的去模糊图像，图5b)所示为采用对比算法1获得的子图2对应的去模糊图像。图6a)所示为采用对比算法2获得的子图1对应的去模糊图像，图6b)所示为采用对比算法2获得的子图2对应的去模糊图像，图7a)所示为采用本发明方法获得的子图1对应的去模糊图像，图7b)所示为采用本发明方法获得的子图2对应的去模糊图像。

可以注意到，对比算法1和对比算法2中的方法在尖锐边缘或模糊是非线性的区域去模糊效果不是很成功。可以得出结论，所提出的DMPID在主观视觉效果上具有较好的性能。

图8分析了去模糊算法对视觉室内定位精度的影响。除了不同类型的图像(去模糊和模糊)以外，其他所需的实验环境和实验条件都是相同的。从图8可以看出，通过使用去模糊算法可以显着提高定位精度。同时，DMPID仅需要10ms来处理1280×720分辨率的图像，可以满足视觉室内定位的实时性需求。

本发明中所涉及到的主要参数的含义如表2所示：

表2

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。