CN116188313A

CN116188313A - 一种基于非对称U-Net网络的动态场景盲去模糊方法

Info

Publication number: CN116188313A
Application number: CN202310199043.6A
Authority: CN
Inventors: 唐述; 吴杨
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-30

Abstract

本发明属于图像处理技术领域，具体涉及一种基于非对称U‑Net网络的动态场景盲去模糊方法；该方法包括：获取模糊图像并将其输入到编码器模块中，得到第一特征图；采用模糊核逆核估计模块对第一特征图进行处理，得到第二特征图；将第二特征图输入到解码器模块中，得到三张推理清晰图像；从三张推理清晰图像中选择图像质量评价指标最高的图像作为最终的清晰图像；根据三张推理清晰图像、真实清晰图像和真实模糊图像计算总损失；根据总损失调整模型参数，得到训练好的基于非对称U‑Net网络的动态场景盲去模糊模型；本发明实现了动态场景中空间变化模糊图像的高质量盲复原，同时模型参数数量较小。

Description

一种基于非对称U-Net网络的动态场景盲去模糊方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于非对称U-Net网络的动态场景盲去模糊方法。

背景技术

在动态场景的成像过程中多物体运动或相机抖动导致的图像模糊是一个高度不适定逆问题，是一种空间变化的模糊。为从动态场景中获取清晰的图像，需采用动态场景盲去模糊方法去除模糊。

现有的动态场景盲去模糊方法主要分为两类：基于优化的方法与基于学习的方法。现有技术中，有很多基于优化的方法，例如，一种方法把对噪声高斯分布的约束表示为不同阶的导数，以定义似然函数，另外为了抑制振铃伪影而引入了平滑约束项，并采用交替式的优化策略估计模糊核与清晰图像；一种方法首先利用变分贝叶斯估计得到模糊核，并采用由粗到细的策略以避免陷入局部最优解，接着再利用Lucy-Richardson方法重建清晰图像；一种方法根据自然图像具有边缘稀疏性的特点，结合超拉普拉斯先验试图解决由相机抖动造成的模糊和饱和或过度曝光像素导致的图像去模糊的问题。现有技术中也有很多基于学习的方法，例如，一种基于卷积神经网络(Convolutional Neural Networks：CNN)的方法首先对模糊核进行估计，再使用估计出的模糊核重建清晰图像；受到基于优化的方法中由粗到细策略的启发而提出的一种多尺度的卷积神经网络，它以端到端的方式移除动态场景中的各种模糊，并提出GOPRO去模糊数据集；一种尺度循环神经网络(SRN)，它包括一个基于残差块(Residual Block：ResBlock)构建的编解码器网络，并可以在金字塔中逐渐恢复不同分辨率的清晰图像。

由于动态场景中模糊核的空间多样性(即空间变化特性)，现有的基于优化的方法无法准确的估计出动态场景中空间变化的模糊核，进而影响清晰图像的恢复。而现有的基于学习的方法几乎都使用一种端到端的方式来直接从模糊图像中复原出对应的清晰图像，而忽略了对空间变化模糊核的估计，这就导致网络需要巨大的参数数量以获取足够的感受野。

综上所述，亟需一种能解决动态场景中空间变化模糊核的准确估计问题与模型参数数量过大问题的方法。

发明内容

针对现有技术存在的不足，本发明提出了一种基于非对称U-Net网络的动态场景盲去模糊方法，该方法包括：获取待去模糊的模糊图像，将模糊图像输入到训练好的基于非对称U-Net网络的动态场景盲去模糊模型中，得到清晰的图像；

基于非对称U-Net网络的动态场景盲去模糊模型的训练过程包括：

S1：获取模糊图像并将其输入到编码器模块中，得到第一特征图；

S2：采用模糊核逆核估计模块对第一特征图进行处理，得到第二特征图；

S3：将第二特征图输入到解码器模块中，得到三张推理清晰图像；从三张推理清晰图像中选择图像质量评价指标最高的图像作为最终的清晰图像；

S4：根据三张推理清晰图像、真实清晰图像和真实模糊图像计算总损失；根据总损失调整模型参数，得到训练好的基于非对称U-Net网络的动态场景盲去模糊模型。

优选的，编码器模块包括第一编码器、第二编码器和第三编码器；其中，第一编码器包括一层输入通道为3，输出通道为32的3×3卷积和3个NAFBlock；第二编码器包括一层输入通道为32，输出通道为64，步幅为2的3×3卷积和3个NAFBlock；第三编码器包括一层输入通道为64，输出通道为128，步幅为2的3×3卷积和30个NAFBlock。

优选的，采用模糊核逆核估计模块对第一特征图进行处理的过程包括：

第一特征图依次经过一层输入通道与输出通道均为128的3×3卷积、2个NAFBlock和一层输入通道为128输出通道为25的3×3卷积处理后，得到模糊核；

模糊核依次经过一层输入通道与输出通道均为25的3×3卷积、2个NAFBlock和一层输入通道为25输出通道为49的3×3卷积处理后，得到逆核；

采用自适应滤波器卷积层对第一特征图和逆核进行处理，得到第二特征图。

优选的，解码器模块包括第一解码器、第二解码器和第三解码器；其中，第一解码器包括一层输入通道为128输出通道为256的1×1卷积、3个NAFBlock和1个pixelShuffle层；第二解码器包括一层输入通道为64输出通道为128的1×1卷积、3个NAFBlock和1个pixelShuffle层；第三解码器包括一层输入通道为32输出通道为9的3×3卷积和3个NAFBlock。

优选的，计算总损失的过程包括：

采用自适应滤波器卷积层对真实清晰图像以及模糊核逆核估计模块处理过程中得到的模糊核进行处理，得到推理模糊图像；

根据推理模糊图像和真实模糊图像计算再模糊损失；

根据真实清晰图像和三张推理清晰图像计算多输出融合损失；

根据再模糊损失和多输出融合损失计算总损失。

进一步的，计算再模糊损失的公式为：

L_ReBlur＝PSNR(B_ReBlur，↓₄B_GT)

其中，L_ReBlur表示再模糊损失，B_ReBlur表示推理模糊图像，B_GT表示真实模糊图像，↓₄表示对图像进行四倍双线性插值下采样。

进一步的，计算多输出融合损失的公式为：

L_MORL＝min(PSNR(S_i，S_GT))

其中，L_MORL表示多输出融合损失，S_i表示第i张推理清晰图像，S_GT表示真实清晰图像，PSNR()表示PSNR损失函数。

进一步的，计算总损失的公式为：

L＝L_ReBlur+0.01L_MORL

其中，L表示总损失，L_ReBlur表示再模糊损失，L_MORL表示多输出融合损失。

本发明的有益效果为：本发明提出了一种基于非对称U-Net网络的动态场景盲去模糊方法，其采用一种非对称的U型网络，能够以较少的参数来实现较强的特征提取能力，解决了动态场景中空间变化模糊核的准确估计与模型参数数量过大的问题。此外，本发明采用一种模糊核逆核估计模块和一种新颖的模糊核自监督的再模糊损失函数，以为动态场景模糊图像中的每一个像素点进行准确的模糊核估计，实现了动态场景中空间变化模糊核的准确估计。通过使用一种多输出融合损失，能够在不增加网络参数的前提下进一步提升网络的去模糊性能，实现动态场景中空间变化模糊图像的高质量盲复原。

附图说明

图1为本发明中基于非对称U-Net网络的动态场景盲去模糊模型结构示意图；

图2为本发明与对比方法的模糊图像去模糊结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于非对称U-Net网络的动态场景盲去模糊方法，如图1所示，所述方法包括以下内容：

获取待去模糊的模糊图像，将模糊图像输入到训练好的基于非对称U-Net网络的动态场景盲去模糊模型中，得到清晰的图像；基于非对称U-Net网络的动态场景盲去模糊模型包括编码器模块、模糊核逆核估计模块(Blur-kemel Inverse-kernel EstimationModule：BIEM)和解码器模块；使用B表示输入的模糊图像，EB_i表示第i个编码器，

表示第i个编码器的输入，/>

表示第i个编码器的输出。/>

表示BIEM的输入，/>

表示BIEM的输出。DB_i表示第i个解码器，/>

表示第i个解码器的输入，/>

表示第i个解码器的输出，S_i表示输出的第i张推理清晰图像，其中i∈{1，2，3}。

S1：获取模糊图像并将其输入到编码器模块中，得到第一特征图。

获取用于训练模型的模糊图像，该模糊图像即为真实模糊图像，同时获取真实模糊图像对应的真实清晰图像。

编码器模块包括第一编码器EB₁、第二编码器EB₂和第三编码器EB₃；其中，第一编码器包括一层输入通道为3，输出通道为32的3×3卷积和3个非线性激活函数自由块(Nonlinear Activation Free Block，NAFBlock)；第二编码器包括一层输入通道为32，输出通道为64，步幅为2的3×3卷积和3个NAFBlock；第三编码器包括一层输入通道为64，输出通道为128，步幅为2的3×3卷积和30个NAFBlock。其中，所有未说明步幅的卷积，其步幅为1。

将模糊图像输入到编码器模块中进行处理，模糊图像依次在第一编码器EB₁、第二编码器EB₂和第三编码器EB₃进行处理，分别输出

和/>

后一个编码器的输入为前一个编码器的输出，最终编码器模块的输出为/>

即第一特征图。

S2：采用模糊核逆核估计模块对第一特征图进行处理，得到第二特征图。

模糊核逆核估计模块BIEM的输入

在模糊核逆核估计模块中，第一特征图依次经过一层输入通道与输出通道均为128的3×3卷积、2个NAFBlock和一层输入通道为128输出通道为25的3×3卷积处理后，得到模糊核(Blur Kerel：BK)，其估计出的大小为5×5。

模糊核依次经过一层输入通道与输出通道均为25的3×3卷积、2个NAFBlock和一层输入通道为25输出通道为49的3×3卷积处理后，得到逆核(Inverse Kernel：IK)，其估计出的大小为7×7。

采用自适应滤波器卷积层(Filter Adaptive Convolutional Layer，FAC Layer)对第一特征图和逆核进行处理，得到BIEM模块的输出BIEM^out即第二特征图，表示为：

其中，repeat₁₂₈(IK)代表在IK的通道维度复制128倍，FAC()代表自适应滤波器卷积层。

S3：将第二特征图输入到解码器模块中，得到三张推理清晰图像；从三张中选择图像质量评价指标最高的图像作为最终的清晰图像。

解码器模块包括第一解码器DB₁、第二解码器DB₂和第三解码器DB₃；其中，第一解码器包括一层输入通道为128输出通道为256的1×1卷积、3个NAFBlock和1个用于提升分辨率的pixelShuffle层(像素重组层)；第二解码器包括一层输入通道为64输出通道为128的1×1卷积、3个NAFBlock和1个pixelShuffle层；第三解码器包括一层输入通道为32输出通道为9的3×3卷积和3个NAFBlock。

DB₁的输入

第二特征图经过第一解码器处理后，输出/>

DB₂的输入/>

经过第二解码器处理后输出/>

DB₃的输入

经过第三解码器处理后输出/>

DB₃输出9个通道以得到3张推理的清晰图像而不是像其他方法一样输出3通道得到1张推理的清晰图像；对模糊图像和DB₃输出进行处理，最终输出三张推理清晰图像，表示为/>

从三张推理清晰图像中选择图像质量评价指标最高的图像作为最终的清晰图像，优选的，图像质量评价指标可选PSNR指标。

在本发明提出的非对称U型网络中，使用NAFBlock替换常用的ResBlock以降低网络总体的参数数量，并通过控制编码器解码器中NAFBlock的数量，使网络的参数集中在EB₃。解码器中使用1×1卷积与pixelShuffie层而非转置卷积，以提升解码器复原清晰图像的性能。为便于多输出多融合损失(Multiple Output Reuse Loss：MORL)的计算，DB₃输出3张清晰图像而非1张。

本发明为特征图上每一个点的所有通道共享模糊核或逆核，以降低模糊核与逆核的估计难度。本发明借助自适应滤波器卷积层将估计的模糊核或逆核与特征图进行卷积运算。为对估计出的BK进行自监督，本发明提出一种再模糊损失(ReBlur Loss)，计算再模糊损失的过程包括：

采用自适应滤波器卷积层对真实清晰图像以及模糊核逆核估计模块处理过程中得到的模糊核进行处理，得到推理模糊图像，表示为：

B_ReBlur＝FAC(repeat₃(BK)，↓₄S_GT)

其中，repeat₃(BK)表示在BK的通道维度复制3倍，S_GT表示真实清晰图像，B_ReBlur表示推理模糊图像，B_GT表示真实模糊图像，PSNR()表示PSNR损失函数，↓₄表示对图像进行四倍双线性插值下采样。

根据推理模糊图像和真实模糊图像计算再模糊损失L_ReBlur，表示为：

L_ReBlur＝PSNR(B_ReBlur，↓₄B_GT)

为充分挖掘模型的性能，受到重参数化中特征复用的启发，本发明提出一种多输出融合损失，计算多输出融合损失L_MoRL的公式为：

L_MoRL＝min(PSNR(S_i，S_GT))

其中，S_i，i∈{1，2，3}表示第i张推理清晰图像，min()表示取3个损失值中的最小值。

本发明最终的总损失L为：

L＝L_ReBlur+0.01L_MoRL

根据总损失调整模型参数，可得到训练好的基于非对称U-Net网络的动态场景盲去模糊模型；通过求再模糊损失与多输出融合损失加权和计算总损失，其权重取0.01时模型可获得最好的去模糊效果。采用训练好的基于非对称U-Net网络的动态场景盲去模糊模型对待去模糊的模糊图像进行去模糊，可得到需要的清晰图像。

对本发明进行评价：

对本发明进行消融实验；具体的：使用一台带有8张NVIDIA Geforce RTX3090GPUs的PC进行训练，PyTorch的版本是1.11.0。本发明使用峰值信噪比与结构相似度作为定量指标，通过GOPRO数据集证明提出的BIEM与MORL的有效性，参数数量的单位是百万。

表1本发明提出的各部分的消融实验

BIEM-NoReBlur	BIEM	MORL	PSNR(dB)	Params.(M)
								32.68	4.2
√			32.73	4.6
						√		32.83	4.6
		√	32.82	4.2
					√	√	√	32.92	4.6

BIEM-NoReBlur代表BIEM估计出的模糊核没有被ReBlur损失函数约束，PSNR表示峰值信噪比，Params表示参数数量。如表1所示，可以看出：

1)本发明提出的非对称U型网络的PSNR取得32.68而参数数量仅为4.2，这一表现在现有SOTA方法中已经极具竞争力。当添加BIEM与MORL到非对称U型网络时，本发明的PSNR更是达到了32.92而参数数量仅为4.6这一性能超过了现有的SOTA方法。

2)当分别在非对称U型网络上添加BIEM与MORL时PSNR分别提高了0.15与0.14，值得注意的是，添加BIEM仅仅使参数数量增加了0.1，而增加MORL并不会增加参数数量。这两个消融实验分别有力证明了BIEM估计出的模糊核与逆核有效帮助了清晰图像的复原，MORL通过对模型推理结果的复用进行约束，充分挖掘了模型潜力。

3)相对于在非对称U型网络上添加BIEM，BIEM-NoReBlur并不对BIEM估计出的模糊核做ReBlur约束，这使得BIEM-NoReBlur比BIEM的PSNR下降0.1而参数数量并没有减少。这说明本发明提出的ReBlur损失函数对于约束BIEM估计出的模糊核具有显著意义，它可以在不额外增加网络参数的情况下使BIEM估计出的模糊核更加准确进而提升模型的复原效果。

为了证明本发明提出的方法在定量指标上的优越性，本发明在GoPro与HIDE数据集上与六种现有方法做了比较。具体来说，所有的方法都在GoPro训练集上进行训练，然后分别在GoPro测试集与HIDE测试集进行测试。

表2本发明与其他现有方法的比较

表2展示了所有方法在GoPro测试集与HIDE测试集上的平均PSNR与平均SSIM(结构相似度)以及这些方法的参数数量。如表2所示，本发明提出的方法不仅在GoPro数据集上超越了现有的方法，而且参数数量也是所有方法中最少的。

为了证明本发明提出的方法在主观视觉效果上的优越性，将本发明与七种现有方法进行了去模糊效果的比较。如图2所示，图2中，从左至右、从上至下分别为模糊图像、现有方法DeepDeblur，SRN，DMPHN，PSSNSC，DBCPENet，MIMO-UNet+和MPRNet去模糊后的图像、本发明所提方法去模糊后的图像以及真实清晰图像；采用现有方法去模糊后的图片存在不同程度的失真、模糊与伪影，而本发明不仅可以获得更丰富的细节与锐利的边缘，而且可以取得最高的PSNR，说明本发明去模糊之后的图像更清晰，去模糊效果更佳。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，包括：获取待去模糊的模糊图像，将模糊图像输入到训练好的基于非对称U-Net网络的动态场景盲去模糊模型中，得到清晰的图像；

2.根据权利要求1所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，所述编码器模块包括第一编码器、第二编码器和第三编码器；其中，第一编码器包括一层输入通道为3，输出通道为32的3×3卷积和3个NAFBlock；第二编码器包括一层输入通道为32，输出通道为64，步幅为2的3×3卷积和3个NAFBlock；第三编码器包括一层输入通道为64，输出通道为128，步幅为2的3×3卷积和30个NAFBlock。

3.根据权利要求1所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，采用模糊核逆核估计模块对第一特征图进行处理的过程包括：

4.根据权利要求1所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，所述解码器模块包括第一解码器、第二解码器和第三解码器；其中，第一解码器包括一层输入通道为128输出通道为256的1×1卷积、3个NAFBlock和1个pixelShuffie层；第二解码器包括一层输入通道为64输出通道为128的1×1卷积、3个NAFBlock和1个pixelShuffle层；第三解码器包括一层输入通道为32输出通道为9的3×3卷积和3个NAFBlock。

5.根据权利要求1所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，计算总损失的过程包括：

根据推理模糊图像和真实模糊图像计算再模糊损失；

根据再模糊损失和多输出融合损失计算总损失。

6.根据权利要求5所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，计算再模糊损失的公式为：

L_ReBlur＝PSNR(B_ReBlur，↓₄B_GT)

7.根据权利要求5所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，计算多输出融合损失的公式为：

L_MORL＝min(PSNR(S_i，S_GT))

8.根据权利要求5所述的一种基于非对称U-Net网络的动态场景盲去模糊方法，其特征在于，计算总损失的公式为：

L＝L_ReBlur+0.01L_MORL