CN113570516B

CN113570516B - 基于CNN-Transformer混合自编码器的图像盲运动去模糊方法

Info

Publication number: CN113570516B
Application number: CN202110778551.0A
Authority: CN
Inventors: 陈华; 赵露露; 孙纪康; 张小刚; 王炼红; 潘政; 李磊; 谢冰心
Original assignee: Puxiang Bioenergy Co ltd; Hunan University
Current assignee: Puxiang Bioenergy Co ltd; Hunan University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2022-07-22
Anticipated expiration: 2041-07-09
Also published as: CN113570516A

Abstract

基于CNN‑Transformer混合自编码器的图像盲运动去模糊方法，所述方法包括两个阶段，分别为模型训练阶段和预测阶段，模型训练阶段包括以下步骤：步骤一：准备图像去模糊标准数据集；步骤二：实验数据预处理；步骤三：将图像去模糊标准数据集的训练集中的模糊图片输入混合自编码器部分进行恢复；步骤四：将混合自编码器生成的潜在清晰图像与其标准数据集中相对应的目标清晰图片一起输入判别器，判别器计算损失后返回梯度；步骤五：混合自编码器接收来自判别器的梯度进行参数更新；模型预测阶段包括一个步骤：将模糊图片输入训练好的混合自编码器，输出即是去模糊后的清晰图片。利用本发明，能得到更好的图像去模糊效果，对图像细节产生更清晰的恢复。

Description

基于CNN-Transformer混合自编码器的图像盲运动去模糊方法

技术领域

本发明属于计算机视觉和图像处理技术领域，涉及一种基于CNN-Transformer混合自编码器的图像盲运动去模糊方法。

背景技术

图像作为传递信息的重要媒介，在人们的生活和工作中起到不可或缺的作用。但是图像模糊问题在生活中普遍存在：由于相机抖动、物体快速运动或失焦等问题，都会降低图像质量，使图像变得模糊。此外，各种原因：如深度变化，运动边界的闭塞使模糊更复杂。许多拍摄场景随时间不断改变，具有不可重复性，如果出现相机抖动或物体快速运动导致的模糊问题，极有可能导致图像不可用。如何有效的利用这些模糊图片，图像去模糊方法的研究就具有非常重要的意义。

图像去模糊一直是计算机视觉和图像处理中的一项重要工作。运动模糊是成像过程中普遍存在的现象。运动图像去模糊在各个领域的应用也越来越多。如普通照明时手的抖动、航空侦察时飞机相对地面的应用效率，就要从模糊图像中恢复成较为清晰的图片。去模糊的目标是恢复具有必要边缘结构和细节的清晰的潜在图像。早期的研究集中于消除由简单的平移或旋转摄像机运动引起的模糊，后来的工作试图处理动态环境中由深度变化、相机抖动和物体运动引起的不均匀模糊。这些方法大多基于模糊模型:模糊图像可以看作模糊核与清晰图像卷积附加上额外的噪声形成。于是早期的工作主要是关于非盲去模糊，假设模糊核已知。算法大多数依赖于启发式、图像统计和模糊来源的假设。这些方法通过考虑模糊在整个图像中是均匀的来掩饰由相机引起大的模糊。首先根据产生的模糊核估计摄像机的运动，然后通过反卷积获得清晰图像。因此，研究人员试图参数化模型并简单的假设模糊的来源。其中一些方法是基于迭代方法，利用参数先验模型改进了每次迭代对模糊核和清晰图像的估计。然而对于这类算法来说，运行时间和停止准则则是一个重要的问题。另一些则使用模糊函数的局部线性假设和简单的启发式来快速估计未知模糊核。这些方法速度很快，但只在一小部分图像上效果很好。近年来随着卷积神经网络在计算机视觉问题上的广泛应用，研究人员开发了一些利用卷积神经网络来估计模糊核的方法。

通常情况下，模糊函数是未知的，为每个像素找到一个模糊函数是一个不适定的问题，于是近年来研究人员开始进行盲去模糊算法的研究，这些方法无需估计模糊核，且能够处理不同来源的模糊。最近，一些研究人员开始利用多尺度卷积神经网络以及密集连接的卷积神经网络进行无内核盲运动图像去模糊。但是，大多数方法在空间纹理细节和高级上下文信息之间的平衡表现的不够好，视觉效果上欠佳。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足，提供一种去模糊效果好、对图像细节恢复更清晰的基于CNN-Transformer混合自编码器的图像盲运动去模糊方法。

本发明解决其技术问题采用的技术方案是，基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，所述方法包括两个阶段，分别为模型训练阶段和预测阶段，所述模型训练阶段包括以下步骤：

步骤一：准备图像去模糊标准数据集；

步骤二：实验数据预处理，在进入模型训练之前将实验数据随机切割为256x256大小；

步骤三：将图像去模糊标准数据集的训练集中的模糊图片输入混合自编码器部分进行恢复；

步骤四：将混合自编码器生成的潜在清晰图像与其标准数据集中相对应的目标清晰图片一起输入判别器，判别器计算损失后返回梯度；

步骤五：混合自编码器接收来自判别器的梯度进行参数更新，如此反复，直至训练次数到达预先设定的数量；

所述预测阶段为：将需要去模糊的图像输入至训练好的混合自编码器内，即可输出去模糊后的清晰图像。

进一步，所述步骤一中选择的运动模糊数据集为：GoPro数据集、DVD数据集和NFS数据集。

进一步，所述混合自编码器包括CNN-Transformer混合编码器和解码器，实验数据首先进入CNN-Transformer混合编码器进行编码表示，然后再输入解码器进行上采样，逐步恢复为原始大小的图片。

进一步，所述混合编码器是由CNN与Transformer组成的混合结构，所述的Transformer由自注意力层与前馈神经网络组成，其将编码后的特征输入解码器模块，为了弥补Transformer对位置信息不敏感的问题，编解码器之间存在三个横向链接，将包含丰富位置信息的高分辨率CNN特征与编码后的特征表示在解码过程中进行拼接。

进一步，所述判别器采用全局尺度与局部尺度的双判别器设计，全局判别器以混合自编码器恢复后的潜在清晰图像与目标清晰图像作为输入；局部判别器采用混合自编码器恢复后的潜在清晰图片与目标清晰图像的随机分割块作为输入。

进一步，所述判别器采用相对论最小二乘判别器，相应的对抗损失函数L_D为：

其中x～p_data(x)代表输入x是来自实验数据分布的一个采样，z～p_z(z)代表z是来自一个简单噪声分布的一个采样，G代表混合自编码器，D代表判别器；

模型整体损失除了对抗损失以外，还包括恢复重建损失以及感知损失，其中恢复重建损失L_C采用的是Charbonnier Loss，具体的表达式如下所示：

其中I^B代表模糊图片，

(I^B)代表混合自编码器生成的潜在清晰图片，I^S代表目标清晰图像；

感知损失L_X计算潜在清晰图片与目标清晰图片分别经过在ImageNet上预训练的VGG19网络的第3个最大池化层前第三次卷积(激活后)得到的特征图之间的差异，具体的表达式如下所示：

其中

代表在ImageNET上预训练的VGG19网络的第i个最大池化层前第j次卷积(激活后)得到的特征图，W_i,j和H_i,j代表特征图的维度。

模型的整体损失函数如下所示：

L_G=ω₁*L_D+ω₂*L_X+ω₃*L_C

其中ω₁、ω₂、ω₃为各个部分占的权重。

本发明中的编码器部分采用CNN和Vision Transformer的混合结构，解码器采用级联上采样的结构，此外由于Vision Transformer对位置信息不敏感的问题，而高分辨率的 CNN特征图具有丰富的位置信息，于是在解码器与提取的CNN特征图之间存在横向连接；本发明充分考虑空间细节与上下文信息之间的平衡，有利于图像恢复；本发明采用双尺度判别器设计，分别从全局和局部尺度进行判别，能对细节产生更清晰的恢复。

附图说明

图1是本发明实施例的基本流程图；

图2是本发明实施例中模型的基本框架图；

图3是图1所示实施例中CNN-Transformer混合自编码器结构图；

图4是图1所示实施例中判别器的架构图；

图5是本发明实施例的初步实验效果图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

参照图1，本实施例的方法包括两个阶段，分别为模型训练阶段和预测阶段，所述模型训练阶段包括以下步骤：

步骤1：准备图像去模糊标准数据集；本实施例选择的三个运动模糊数据集为：GoPro 数据集、DVD数据集和NFS数据集。

步骤2：实验数据预处理；在进入模型训练之前将实验数据随机切割为256x256大小。

步骤3：将图像去模糊标准数据集的训练集中的模糊图片输入混合自编码器部分进行恢复；混合自编码器部分主要包含两个部分：CNN-Transformer混合编码器和解码器。实验数据首先进入CNN-Transformer混合编码器进行编码表示，然后再输入解码器进行上采样，逐步恢复为原始大小的图片。

步骤4：将混合自编码器生成的潜在清晰图像与其标准数据集中相对应的目标清晰图片一起输入判别器，判别器计算损失后返回梯度。

步骤5：混合自编码器接收来自判别器的梯度进行参数更新，如此反复，直至训练次数到达预先设定的数量。本发明在实验中设置的训练次数为200轮，选用Adam优化算法进行参数更新。

所述预测阶段为：将一张需要去模糊的图像输入训练好的混合自编码器，输出即是一张去模糊后的清晰图像。

参照图2，本实施所述的图像盲运动去模糊模型的基本架构主要包括两个模块：混合自编码器和判别器。

所述混合自编码器模块不是直接预测一个恢复后的清晰图像I^B，而是预测残差图像 I^R，最后将输入的模糊图像I^B与残差图像I^R相加获得最终的输出：I^S＝I^B+I^R。

参照图3，图中的左半部分为本实施例所述CNN-Transformer混合编码器的示意，是一个CNN与Transformer组成的混合结构，用于对图像进行编码表示。

Transformer由自注意力层与前馈神经网络组成，模型中采用了12个这样的结构进行堆叠，其将编码后的特征输入图3中右半部分的解码器模块，为了弥补Transformer对位置信息不敏感的问题，编解码器之间存在三个横向链接，将包含丰富位置信息的高分辨率CNN特征与编码后的特征表示在解码过程中进行拼接。解码器采用4个级联结构的上采样模块逐步恢复重建出潜在的清晰图像。

本实施中的判别器部分的工作步骤如下：在获得混合自编码器生成的初步去模糊图片之后，与目标清晰图片一起输入判别器，判别器判别两者是目标清晰图片还是生成器生成的潜在清晰像，并计算模型整体损失后将梯度传回至混合自编码器使其参数更新。

判别器的基本结构如图4所示：模块采用全局尺度与局部尺度的双判别器设计，全局判别器以混合自编码器恢复后的潜在清晰图像与目标清晰图像作为输入；局部判别器采用混合自编码器恢复后的潜在清晰图片与目标清晰图像的随机分割块作为输入。判别器采用相对论最小二乘判别器。相应的对抗损失函数L_D为：

其中x～p_data(x)代表输入x是来自实验数据分布的一个采样。z～p_z(z)代表z是来自一个简单噪声分布的一个采样。G代表混合自编码器，D代表判别器。

模型整体损失除了对抗损失以外，还包括恢复重建损失以及感知损失。其中恢复重建损失L_C采用的是Charbonnier Loss，具体的表达式如下所示：

其中I^B代表模糊图片，

(I^B)代表混合自编码器生成的潜在清晰图片，I^S代表目标清晰图像。

感知损失L_X计算潜在清晰图片与目标清晰图片分别经过在ImageNet上预训练的VGG19网络的第3个最大池化层前第三次卷积(激活后)得到的特征图之间的差异。具体的表达式如下所示：

其中

代表在ImageNET上预训练的VGG19网络的第i个最大池化层前第j次卷积(激活后)得到的特征图，W_i，j和H_i，j代表特征图的维度。

模型的整体损失函数如下所示：

L_G＝ω₁*L_D+ω₂*L_x+ω₃*L_C

其中ω₁、ω₂、ω₃为各个部分占的权重。

本实施例的主要特点之一在于混合自编码器的设计：采用CNN和VisionTransformer 混合的编码器结构，图像去模糊问题在图像处理过程中需要比较大的感受野，需要建立空间细节与上下文之间的联系，与基于CNN模型相比，Vision Transformer在处理长期依赖关系，完整的建模上下文关系方面具有非常大的优势，更加关注图像的全局信息，比较适合用来处理图像去模糊问题；另外，Vision Transformer具有较强的表示能力，不会产生CNN模型的归纳偏差问题。

本实施例的的主要特点之二在于：采用Charbonnier Loss作为恢复重建损失为整体损失的一个组成部分，它可以加快模型的收敛速度，提高模型的整体性能。

本领域的技术人员可以对本发明进行各种修改和变型，倘若这些修改和变型在本发明权利要求及其等同技术的范围之内，则这些修改和变型也仍在本发明专利的保护范围之内。

说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims

1.基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，其特征在于：所述方法包括两个阶段，分别为模型训练阶段和预测阶段，所述模型训练阶段包括以下步骤：

步骤一：准备图像去模糊标准数据集；

步骤二：实验数据预处理；在进入模型训练之前将实验数据随机切割为256x256大小；

所述预测阶段为：将需要去模糊的图像输入至训练好的混合自编码器内，即可输出去模糊后的清晰图像，所述混合自编码器预测一个预测残差图像I^R，最后将输入的模糊图像I^B与残差图像I^R相加获得最终的输出：I^S＝I^B+I^R。

2.根据权利要求1所述的基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，其特征在于：所述步骤一中选择的运动模糊数据集为：GoPro数据集、DVD数据集和NFS数据集。

3.根据权利要求1所述的基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，其特征在于：所述混合自编码器包括CNN-Transformer混合编码器和解码器，实验数据首先进入CNN-Transformer混合编码器进行编码表示，然后再输入解码器进行上采样，逐步恢复为原始大小的图片。

4.根据权利要求1所述的基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，其特征在于：所述混合自编码器是由CNN与Transformer组成的混合结构，所述的Transformer由自注意力层与前馈神经网络组成，其将编码后的特征输入解码器模块，为了弥补Transformer对位置信息不敏感的问题，编解码器之间存在三个横向链接，将包含丰富位置信息的高分辨率CNN特征与编码后的特征表示在解码过程中进行拼接。

5.根据权利要求1所述的基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，其特征在于：所述判别器采用全局尺度与局部尺度的双判别器设计，全局判别器以混合自编码器恢复后的潜在清晰图像与目标清晰图像作为输入；局部判别器采用混合自编码器恢复后的潜在清晰图片与目标清晰图像的随机分割块作为输入。

6.根据权利要求1所述的基于CNN-Transformer混合自编码器的图像盲运动去模糊方法，其特征在于：所述判别器采用相对论最小二乘判别器，相应的对抗损失函数L_D为：

其中I^B代表模糊图片，

代表混合自编码器生成的潜在清晰图片，I^S代表目标清晰图像；

感知损失L_X计算潜在清晰图片与目标清晰图片分别经过在ImageNet上预训练的VGG19网络的第3个最大池化层前第三次卷积激活后得到的特征图之间的差异，具体的表达式如下所示：

其中

代表在ImageNET上预训练的VGG19网络的第i个最大池化层前第j次卷积激活后得到的特征图，W_i，j和H_i，j代表特征图的维度；

模型的整体损失函数如下所示：

L_G＝ω₁*L_D+ω₂*L_X+ω₃*L_C

其中ω₁、ω₂、ω₃为各个部分占的权重。