CN108416752B

CN108416752B - 一种基于生成式对抗网络进行图像去运动模糊的方法

Info

Publication number: CN108416752B
Application number: CN201810201863.3A
Authority: CN
Inventors: 陈跃东; 谢晓华; 郑伟诗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2021-09-07
Anticipated expiration: 2038-03-12
Also published as: CN108416752A

Abstract

本发明公开一种基于生成式对抗网络进行图像去运动模糊的方法及用于该方法的去运动模糊的生成式对抗网络模型，该方法包括设计生成式对抗网络模型；模型训练；应用阶段，该生成式对抗网络模型包括生成器和判别器，生成器用于不断优化参数以使其生成的图像趋近清晰图像的分布，判别器用于不断优化参数以使其能更好地判别图像来自于去模糊图像分布或清晰图像分布，其中生成器包括降采样器和上采样器，降采样器用于对图像进行卷积操作，提取图像的语义信息，上采样器用于根据获取到的语义信息，结合图像的结构信息，对图像进行解卷积操作。本发明有效地去除图像的运动模糊，获得符合人类感知的清晰图像。

Description

一种基于生成式对抗网络进行图像去运动模糊的方法

技术领域

本发明涉及生成式对抗网络技术领域，特别涉及一种基于生成式对抗网络进行图像去运动模糊的方法及一种去运动模糊的生成式对抗网络模型。

背景技术

图像去运动模糊技术，即对输入的一张带有运动模糊噪声的图像进行去模糊处理，生成去除模糊噪声后的清晰的图像的技术。图像去运动模糊技术在无人驾驶，公安侦查，媒体处理等领域具有广泛的应用。譬如，在无人驾驶系统中，对捕捉到的，由于相对运动速度较快而带有运动模糊噪声的车辆的图像，通过应用图像去运动模糊技术，使得该车辆的图像变得更加清晰，从而提高车辆等障碍物的识别率，进而有效地提高无人驾驶系统的安全性能。

现有的图像去运动模糊的技术，主要有以下几类：

1)基于能量方程的图像去运动模糊方法[1]。通过构造数据项和正则化项来构建用于求解运动模糊核以及清晰图像的能量方法，然后使用交替优化的迭代算法来最小化该能量方程，并最终得到该图像的运动模糊核以及对应的清晰图像。

2)基于神经网络求解模糊核的图像去运动模糊方法[2][3]。首先训练神经网络，使其可以对输入的一张带有运动模糊噪声的图像，输出其对应的运动模糊核。然后，基于该带有模糊噪声的图像以及神经网络求解得到的模糊核，应用传统的非盲去模糊算法，以此计算生成相应的清晰图像。

3)基于端到端的神经网络的图像去运动模糊方法[4]。利用包含有清晰和模糊图像对的数据集来训练卷积神经网络，使得训练完成的神经网络模型可以根据一张带有运动模糊的图像，生成其对应的清晰图像。已有的图像去运动模糊方法在效率和效果上都存在着较多的不足。

传统的基于能量方程的优化方法，由于求解过程中，需要进行迭代优化，这会带来极大的运算量，影响求解速度。另外，通常情况下，对于一张图像，传统算法只能求解出一个运动模糊核，即假定模糊核是统一的。由于自然条件下直接获取到的带有运动模糊噪声的图像，其模糊核通常都是非统一的。这使得基于能量方程的算法，在面对真实的模糊图像时，处理得到的效果通常差强人意。

基于神经网络求解模糊核的方法，由于其求解得到模糊核之后，仍需要应用传统的能量方程优化算法来求解得到最终的清晰图像，这使得该方法在性能上会受传统非盲去模糊算法的限制。另外，当模糊核求解不正确时，将极大地影响去模糊后图像的质量，神经网络求解的模糊核的准确性，也极大地制约着算法的最终输出效果。

基于端到端的神经网络的方法，由于网络训练过程中，大部分情况下，缺乏结构信息的约束，从而导致生成的清晰图像不够真实，视觉效果较差。

参考文献：

[1]Xu,Li,and Jiaya Jia."Two-phase kernel estimation for robust motiondeblurring."European conference on computer vision.Springer,Berlin,Heidelberg,2010.

[2]Sun,Jian,et al."Learning a convolutional neural network for non-uniform motion blur removal."CVPR.2015.

[3]Dong,Gong,et al."From Motion Blur to Motion Flow:A Deep LearningSolution for Removing Heterogeneous Motion Blur."CVPR.2017.

[4]Nah,Seungjun,Tae Hyun Kim,and Kyoung Mu Lee."Deep multi-scaleconvolutional neural network for dynamic scene deblurring."arXiv preprintarXiv:1612.02177 3(2016).

发明内容

本发明的主要目的是提出一种基于生成式对抗网络进行图像去运动模糊的方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于生成式对抗网络进行图像去运动模糊的方法，包括如下步骤：

S10设计运动去模糊的生成对抗式网络模型结构，其中该网络模型由生成器和判别器组成，其中生成器包括降采样器和上采样器，降采样器用于对图像进行卷积操作，提取图像的语义信息，上采样器用于根据获取到的语义信息，结合图像的结构信息，对图像进行解卷积操作；

S20将一个包含模糊图像和清晰图像的图像对数据集中模糊图像作为队列元素存储至模糊图像队列，清晰图像作为队列元素存储至清晰图像队列，且以清晰图像队列中的元素顺序调整模糊图像队列的元素顺序，以使清晰图像与模糊图像一一对应；

S30输入一组包含有m个从S20步骤中的两个队列获取的清晰-模糊图像对至网络模型，分别将该图像对中的清晰图像和模糊图像缩放成S_h×S_w的尺寸，再剪成出尺寸为C_h×C_w的图像块；

S40将由S30得到的图像块输入该网络模型，通过迭代应用后向传播算法，逐步更新该网络模型的训练参数，每代队列中的所有元素训练结束之后，重新打乱队列元素的排序，开始新一代的训练，循环多代训练，直至该网络模型收敛，保存并导入该网络模型收敛时的训练参数，以使得该网络模型拟合成一个从模糊图像分布到清晰图像分布的映射；

S50输入模糊图像，通过一次前向传播计算，生成去模糊图像。

优选地，所述S40包括：

S401将由S30得到的图像块输入该网络模型，模糊图像的图像块在生成式对抗网络的生成器中，经过一次前向传播计算，生成一张去模糊图像，其中模糊图像先经过降采样器，得到一个尺寸为(C_h/128)×(C_w/128)×512带有图像高层语义信息的矩阵，然后，再经过一个上采样器，最终生成一个尺寸为C_h×C_w×3的去模糊图像；

S402所生成的去模糊图像和与其对应的模糊图像构成一个“模糊—去模糊”图像对，输入到判别器中，经过一次前向传播计算，得到一个该映射为真实映射的概率D(x,G(x))，及将其对应的“模糊—清晰”图像输入到判别器中，经过一次前向传播计算，得到一个该映射为真实映射的概率D(x,y)；

S403生成式对抗网络的损失函数通过生成器的生成损失和判别器的判别损失优化参数，其中，

生成器的优化方程：

判别器的优化方程：

其中，G为生成器，G(x)为生成器输出的去模糊图像；D为判别器，D(·)为判别器的输出结果，与S402中同义，

为目标函数的数学期望，x～p_data(x)指的是图像x取自一个特定的分布p_data(x)，在本方法中，这个特定的分布指的就是一个图像队列。同理，y～p_data(y)指的是图像y取自一个特定的分布p_data(y)，

指的是在更新模型参数时，只更新生成器网络G的参数，并使得损失函数L(G,D)的值最小化，同理，

指的是在更新模型参数时，只更新判别器网络D的参数，并使得损失函数L(G,D)的值最小化，公式(7)表示生成器的目标函数，是最大化判别器判定“模糊—去模糊”图像对为真实映射的概率D(x,G(x))，使其趋向于1，公式(8)表示判别器的目标函数，是最大化判别器判定“模糊—清晰”图像对为真实映射的概率D(x,G(x))，使其趋向于1，同时最小化概率D(x,G(x))，使其趋向于0；

S404生成器通过S402中的生成损失、L1范数损失、感知损失及总变分损失的约束优化模型参数，最终得到生成器的损失函数，其中：

图像x和图像y之间的L1范数函数：

其中x指的是输入的清晰图像，y指的是模型生成的去模糊图像；W指的是图像的宽度，H指的是图像的高度，图像x和图像y的尺寸完全相同，都是(W，H)，i指的是宽度维度上的坐标，j指的是高度维度上的坐标，y_i,j指的是图像y在坐标[i,j]上的像素的灰度值，同理，x_i,j指的是图像x在坐标[i,j]上的像素的灰度值；

图像x和图像y之间的感知距离函数：

其中x指的是输入的清晰图像，y指的是模型生成的去模糊图像，[α,β]为一个整体，是一个坐标信息，指的是VGG网络中，第α个卷积层后，第β个池化(pooling)层前的那一层语义特征的坐标，而W_α,β,H_α,β则是该语义特征层的宽度和高度，i指的是宽度维度上的坐标，j指的是高度维度上的坐标，φ_α,β(·)指的是在网络第α个最大池化层之前，第β个卷积层(激活层之前)之后的特征矩阵，φ_α,β(y)指的是图像y的第[α,β]语义特征层，而φ_α,β(y)_i,j指的是图像y的第[α,β]语义特征层上的坐标[i,j]上的元素的数值，同理，φ_α,β(x)_i,j指的是图像x的第[α,β]语义特征层上的坐标[i,j]上的元素的数值；

图像x的总变分损失函数：

其中x指的是模型生成的去模糊图像，W指的是图像的宽度，H指的是图像的高度，i指的是宽度维度上的坐标，j指的是高度维度上的坐标，x_i,j指的是图像x在坐标[i,j]上的像素的灰度值；

由公式(4)、(5)、(6)得到生成器的损失函数：

其中l_L1与公式(4)同指，l_perceptual与公式(5)同指，l_tv与公式(6)同指，α₁，α₂和α₃分别为L1范数损失、感知损失以及总变分损失对应的权重；

S405模型在后向传播阶段，分别根据公式(8)和公式(9)计算出生成器和判别器的损失，并依次单独更新生成器和判别器中的模型参数，应用后向传播算法更新优化模型；

S406重复S401-405，直至模型收敛，则停止训练，当输入队列被取空之后，如果模型还没有收敛，则按照S402中提及的方法，重新对清晰图像队列和清晰图像队列进行随机乱序排序。

优选地，所述S50包括：

S501将输入的模糊图像缩放为C_h×C_w的尺寸的图像；

S502将S501的图像输入到生成式对抗网络的生成器中，通过一次前向传播计算，输出去模糊图像。

优选地，所述S401中所述降采样器与上采样器为完全对称的结构，且在上采样器的每一层中，除了最后一层外，其他的层都会将输出结果和与之对应的降采样器中的层的输出进行叠加，做为最终的输出，输入到下一层中。

优选地，所述S402中所述的图像对通过在颜色通道维度上进行多个图像块的叠加后输入至判别器。

优选地，所述S404中感知损失是对于输入的两张图像，分别在预训练好的网络提取语义特征，然后求解两者特征矩阵的L2范数。

优选地，所述预训练好的网络为使用了在ImageNet上预训练好的VGG19或者VGG16网络。

本发明还公开了一种如上述所述的一种去运动模糊的生成式对抗网络模型，包括生成器和判别器，生成器用于不断优化参数以使其生成的图像趋近真实图像的分布，判别器用于不断优化参数以使其能更好地判别图像来自于随机噪声分布或真实图像分布，当该网络模型训练收敛时，整个网络模型达到一个动态平衡状态，即生成器生成的图像趋近真实图像的分布，判别器无法判别图像来自于哪个分布，其中生成器包括降采样器和上采样器，降采样器用于对图像进行卷积操作，提取图像的语义信息，上采样器用于根据获取到的语义信息，结合图像的结构信息，对图像进行解卷积操作。

优选地，所述生成器还包括残差网络，所述残差网络用于加深网络模型的结构。

优选地，所述降采样器和上采样器组成U形网络结构。

相比以前的图像去运动模糊技术，本发明具有以下的优点：

1、通过一次运算，便可以得到清晰图像，效率高。

2、能够更好的处理自然条件下拍摄的，非统一的，非线性的运动模糊类型。

3、无需计算图像的运动模糊核。

4、网络模型充分考虑了模糊图像的结构和语义信息，使得生成的清晰图像更符合人类的感知。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明模型训练阶段的方法流程框图；

图2为本发明应用阶段的方法流程框图；

图3为本发明网络模型中生成器的结构图；

图4为本发明网络模型中判别器的结构图；

图5为本发明模型的结果样例，第一列是带有运动模糊噪声的图像；第二列是模型生成的去模糊图像；第三列是清晰图像，

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出的一种基于生成式对抗网络进行图像去运动模糊的方法，包括如下步骤：

优选地，所述S40包括：

S401将由S30得到的图像块输入该网络模型，模糊图像的图像块在生成式对抗网络的生成器中，经过一次前向传播计算，生成一张去模糊图像，其中模糊图像先经过降采样器，得到一个尺寸为(C_h/128)×(C_w/128)×512的带有图像高层语义信息的矩阵，然后，再经过一个上采样器，最终生成一个尺寸为C_h×C_w×3的去模糊图像；

生成器的优化方程：

判别器的优化方程：

图像x和图像y之间的L1范数函数：

图像x和图像y之间的感知距离函数：

图像x的总变分损失函数：

由公式(4)、(5)、(6)得到生成器的损失函数：

其中l_L1与公式(4)同指，l_perceptual与公式(5)同指，l_tv与公式(6)

同指，α₁，α₂和α₃分别为L1范数损失、感知损失以及总变分损失对应的权重；

优选地，所述S50包括：

S501将输入的模糊图像缩放为C_h×C_w的尺寸的图像；

优选地，所述降采样器和上采样器组成U形网络结构。

在本发明具体实施例中，如图1-5所示，该基于生成式对抗网络进行图像去运动模糊的方法包括：

1)设计模型结构

生成对抗式网络的训练过程是一个生成器和判别器的博弈过程，生成器不断优化参数以使其生成的图像更靠近真实图像的分布，而判别器则不断优化参数以使其能更好地判别图像来自于随机噪声分布或者真实图像分布。当模型训练收敛时，整个网络模型会达到一个动态平衡的状态，即生成器生成的图像可以以假乱真，判别器无法判别图像来自于哪个分布。

本发明中，针对图像去运动模糊任务的特点，对传统的生成式对抗网络的生成器做了改进。生成器的输入不是随机噪声，而是自然条件下拍摄的带有运动模糊噪声的图像。生成器由降采样器和上采样器组成，通过对输入图像进行降采样，逐步扩大神经网路的感受，不断获取更加高层的语义信息。然后，基于获取到的语义信息，对图像进行上采样，在上采样的过程中，逐步加入图像底层的结构信息，将高层语义和底层结构信息进行有机结合，最终合成出一张与输入模糊图像对应的清晰图像。

在模型中使用到的激活函数分别是线性整流函数(relu)，带泄露线性整流函数(Leaky Relu，lrelu)和双切正切函数(tanh)。他们的数学表示形式见公式(1)-(3):

relu(x)＝max(0,x) 公式(1)

此外，我们还给在训练阶段，在生成器加入了更多的结构，语义和纹理的约束，他们分别是：a.L1范数约束，用于更进一步地约束生成图像的结构信息；b.感知约束，用于更进一步地约束生成图像的语义信息；c.总变分约束，用于抑制生成图像的“震铃”等人工噪声。这三个约束的数学表示形式见公式(4)-(6)。这三个约束和生成式对抗网络通过超参进行有机融合。

其中x指的是输入的清晰图像，y指的是模型生成的去模糊图像；W指的是图像的宽度，H指的是图像的高度，图像x和图像y的尺寸完全相同，都是(W，H)，i指的是宽度维度上的坐标，j指的是高度维度上的坐标。y_i,j指的是图像y在坐标[i,j]上的像素的灰度值，同理，x_i,j指的是图像x在坐标[i,j]上的像素的灰度值。

该公式描述的是图像x和图像y之间的L1范数(也称为L1距离，曼哈顿距离)，在本方法中，L1范数作用在模型生成的去模糊图像和输入的清晰图像上，用以约束生成的去模糊图像的结构信息，使其在结构上与输入的清晰图像相似。

其中x指的是输入的清晰图像，y指的是模型生成的去模糊图像，[α,β]为一个整体，是一个坐标信息，指的是VGG网络中，第α个卷积层后，第β个池化(pooling)层前的那一层语义特征的坐标。而W_α,β,H_α,β则是该语义特征层的宽度和高度，i指的是宽度维度上的坐标，j指的是高度维度上的坐标，φ_α,β(y)指的是图像y的第[α,β]语义特征层，而φ_α,β(y)_i,j指的是图像y的第[α,β]语义特征层上的坐标[i,j]上的元素的数值，同理，φ_α,β(x)_i,j指的是图像x的第[α,β]语义特征层上的坐标[i,j]上的元素的数值。

该公式描述的是图像x和图像y之间的感知距离。在求解图像间的感知距离时，需要先对待求取的两张图像，分别在预训练好的VGG网络上提取它们的语义特征，然后再通过求解两张图像的语义特征图的L2范数(也称为L2距离，欧几里得距离)，得到的结果则为感知距离。在本方法中，感知距离作用在模型生成的去模糊图像和输入的清晰图像上，用以约束生成的去模糊图像的语义信息，使其在语义上与输入的清晰图像相似。

其中x指的是模型生成的去模糊图像，W指的是图像的宽度，H指的是图像的高度，i指的是宽度维度上的坐标，j指的是高度维度上的坐标。x_i,j指的是图像x在坐标[i,j]上的像素的灰度值。

该公式描述的是图像x的总变分(total var iance)，在本方法中，总变分作用在模型生成的去模糊图像上，用以约束图像的边缘信息，使其边缘变得平滑一些，防止其出现“震铃”等人工噪声。

其中，感知损失指的是对于输入的两张图像，分别在预训练好的网络提取语义特征，然后求解两者特征矩阵的L2范数。本发明中，使用了在ImageNet上预训练好的VGG19或者VGG16网络用以提取特征，公式(5)中的φ_α,β(·)指的是在网络第α个最大池化层之前，第β个卷积层(激活层之前)之后的特征矩阵。

图3和图4分别给出了生成器和判别器的结构图，表1和表2分别给出了生成器和判别器的网络参数设置。

2)训练阶段

构建数据集。本模型在训练过程中，需要提供一个包含“模糊图像—清晰图像”的图像对的数据集作为训练数据。其中模糊图像应该主要凸显运动模糊噪声，清晰图像应该为期待从模糊图像去除模糊噪声后所得的清晰图像。在没有额外声明的情况下，下文所提及的模糊图像，都特指噪声主要为运动模糊噪声的图像。

构建输入队列。将步骤a中的图像对数据集中的模糊图像作为队列元素存储至模糊图像队列，清晰图像作为队列元素存储至清晰图像队列。随机打乱清晰图像队列中的元素的排列顺序(由于模型训练过程是一个多轮的过程，当队列中的所有图像都输入进图像之后，就要开始第二轮训练了。而在第二轮以及往后更多轮的训练中，为了提高模型的鲁棒性，我们在每轮循环开始前，会选择重新随机打乱队列，防止模型出现“过拟合”等情况)，然后，根据乱序后的清晰图像队列中的元素顺序，对模糊图像队列的元素进行重排序，以保持清晰和模糊图像的一一对应关系。

预处理待输入的图像。网络模型接受一组包含有m个从步骤b中的两个队列获取的“清晰—模糊”图像对(batch)做为输入。对于每一个图像对，先将清晰图像缩放成成S_h×S_w的尺寸，再从该图像随机裁剪出一个尺寸为C_h×C_w的图像块，然后，对模糊图像也做相同的处理。注意，要确保清晰和模糊图像的裁剪位置完全相同为了防止模型过拟合，模型在训练过程中，需要做一些“数据增强”之类的操作。随机裁剪图像块做为输入，就属于数据增强的一种。也就是说，在实际的训练过程中，模型的输入不是一张完整的图像，而是随机从图像上裁剪下来的一块区域，即这里提及的图像块。。

模型的参数更新过程。模型的训练过程通过迭代应用后向传播算法，逐步更新网络的可训练参数，最终使得模型拟合一个从模糊图像分布到清晰图像分布的映射。网络的每一步(step)训练包含两个阶段，分别为前向传播和后向传播。其中，前向传播阶段中，模型读入步骤c中的预处理数据，经过整个模型的计算，得到一个输出。而后向传播阶段中，将计算前向传播得到的输出与真实的清晰图像分布之间由于偏差而造成的损失(loss)。再利用更新算法，根据损失，计算出更新梯度。最后将更新梯度逆着模型顺序往回传，逐层更新模型中的可训练参数。下面将结合本发明提出的模型，详细地解说模型的训练更新过程：

生成器生成图像。首先，模糊图像的图像块在生成式对抗网络的生成器中，经过一次前向传播计算，生成一张去模糊图像。在这个过程中，模糊图像先经过降采样器，得到一个尺寸为(C_h/128)×(C_w/128)×512的带有图像高层语义信息的矩阵，然后，再经过一个上采样器，最终生成一个尺寸为C_h×C_w×3的去模糊图像。注意，降采样器与上采样器为完全对称的结构，且在上采样器的每一层中，除了最后一层外，其他的层都会将输出结果和与之对应的降采样器中的层的输出进行拼接，做为最终的输出，输入到下一层中。

判别器判别图像对。得到步骤a)中生成的去模糊图像之后，和与其对应的模糊图像构成一个“模糊—去模糊”图像对，输入到判别器中，经过一次前向传播计算，得到一个该映射为真实映射的概率D(x,G(x))。另外，也将对应的“模糊—清晰”图像对执行同样的操作，得到一个该映射为真实映射的概率D(x,y)。注意，此处的图像对，通过在颜色通道维度上进行多个图像块的叠加，如将模糊图像叠在去模糊图像的上面，以及将模糊图像叠在清晰图像的上面，才输入到判别器中。

生成式对抗网络通过判别损失优化参数。经过步骤a)和b)之后，我们构造了生成式对抗网络的损失函数，用来优化模型。其中，生成器和判别器对应的优化方程分别如公式(7)和(8)所示

其中，G为生成器，G(x)为生成器输出的去模糊图像；D为判别器，D(·)为判别器输出的判别概率，

指的是在更新模型参数时，只更新生成器网络G的参数，并使得损失函数L(G,D)的值最小化。同理，

指的是在更新模型参数时，只更新判别器网络D的参数，并使得损失函数L(G,D)的值最小化，

公式(7)表示生成器的目标函数，是最大化判别器判定“模糊—去模糊”图像对为真实映射的概率D(x,G(x))，使其趋向于1，

公式(8)表示判别器的目标函数，是最大化判别器判定“模糊—清晰”图像对为真实映射的概率D(x,G(x))，使其趋向于1。同时最小化概率D(x,G(x))，使其趋向于0。

a)生成器连接L1范数损失、感知损失、总变分损失约束优化模型参数，对于生成器而言，除了生成损失以外，我们还加入了L1范数损失、感知损失以及总变分损失对生成的图像进行约束，三者的数学表示形式分别如公式(4)-(6)所示，最终，生成器的损失函数如公式(9)所示

其中l_L1与公式(4)同指，l_perceptual与公式(5)同指，l_tv与公式(6)同指，α₁，α₂和α₃分别为L1范数损失、感知损失以及总变分损失对应的权重。特别的，本发明提供的效果图中，三者分别被设置为100，10，0.1。

b)模型在后向传播阶段，分别根据步骤c)中的公式(8)和步骤d)中的公式(9)计算出生成器和判别器的损失，并依次单独更新生成器和判别器中的模型参数。应用后向传播算法更新优化模型，实际上就是在优化公式(8)和公式(9)，使其最小化，公式(8)是判别器的，会涉及到“模糊--去模糊”以及“模糊--清晰”图像对，而公式(9)中的L1范数和感知约束，则会涉及到“去模糊--清晰”图像对。

c)重复步骤a)到步骤e),直至模型收敛(模型收敛，在数值上体现为，当方法中提及的判别器损失函数(公式(8))以及生成器的损失函数(公式(9))，在某次训练之后，输出的数值和上一次训练输出的数值，相差小于某一个很小的数值(比如，1e-10)时，则说明模型收敛。对于模型的收敛，较为形象直观的理解，即最终模型拟合了一个从模糊图像分布到清晰图像分布的映射。)，则停止训练。当输入队列被取空之后，如果模型还没有收敛，则按照步骤b中提及的方法，重新对清晰图像队列和清晰图像队列进行随机乱序排序。

3)应用阶段

当模型训练至收敛之后，我们将整个模型对应的参数保存下来。在应用阶段，直接导入这些参数，然后，对于输入的模糊图像，仅通过一次前向传播计算，就可以直接生成去模糊图像了。具体的步骤如下：

a.将模糊图像缩放到尺寸C_h×C_w。

b.将步骤a中得到的经过变换的图像矩阵，输入到生成式对抗网络的生成器中，通过一次前向传播计算，其输出结果就是我们想要的去模糊图像。

图1是本发明模型一款擦阶段的方法流程框图，主要包括输入一张带有运动模糊噪声的图像；生成器学习生成一张去模糊图像，判别器判断“模糊——去模糊”图像对是否为真实映射，更新生成器参数；判别器判断“模糊——清晰”图像对是否为真实映射，更新判别器参数；“去模糊——清晰”图像对受L1范数损失和感知损失的约束，更新生成器参数；去模糊图像受总方差(总变分)损失的约束，更新生成器参数。

图2是本发明模型应用阶段的方法流程框图，主要包括输入一张带有运动模糊噪声的图像；生成器通过一次前向传播计算，生成去模糊图像。

图1本发明模型中生成器结构图，主要包括输入一张带有运动模糊噪声的图像；降采样器对图像进行卷积操作，提取图像的语义信息；上采样器根据获取到的语义信息，同时结合图像的结构信息，对图像进行解卷积操作，最终得到输出图像，即去模糊图像；残差网络用于加深网络结构，同时又可以提高模型的稳定性，防止模型训练过程出现“梯度爆炸”或者“梯度消失”的问题。

图2本发明模型中判别器结构图，主要包括输入一组“模糊——去模糊”图像对；输入一组“模糊——清晰”图像对；判别器对于两组输入，分别输出对输入图像对是否为真实变换映射的判断结果。

图5本发明模型的结果样例，第一列是带有运动模糊噪声的图像；第二列是模型生成的去模糊图像；第三列是清晰图像，特别的，在应用阶段中，清晰图像只是用于和模型生成结果做对比，并不输入模型中。我们在自然条件下采集的数据集上做了实验。实验结果表明，本发明能够根据输入的带有运动模糊噪声的图像，生成逼真的去模糊后的清晰图像(模拟结果见图5)。

表1

表1本发明模型中生成器的模型参数。其中包括模型中每层卷积层的卷积核大小，卷积操作步长，输出特征维度，激活函数类型以及是否进行归一化操作。

表2

表2本发明模型中判别器的模型参数。其中包括模型中每层卷积层的卷积核大小，卷积操作步长，输出特征维度，激活函数类型以及是否进行归一化操作。

相比以前的图像去运动模糊技术，本发明具有以下的优点：

1.通过一次运算，便可以得到清晰图像，效率高。

2.能够更好的处理自然条件下拍摄的，非统一的，非线性的运动模糊类型。

3.无需计算图像的运动模糊核。

4.网络模型充分考虑了模糊图像的结构和语义信息，使得生成的清晰图像更符合人类的感知。

本发明的基础在于能够根据一张带有运动模糊噪声的图像，生成去模糊的清晰图像。L1范数约束反映了模糊图像与清晰图像间的结构差异，感知约束反映了模糊图像与清晰图像间的语义差异，总变分约束反映了模糊图像的纹理信息，而基于结构和语义信息进行改进的生成式对抗网络，则记录了图像的细节特征。因此，任何基于L1范数约束、感知约束和总变分约束的生成式对抗网络的图像去模糊技术都包含在本发明之内。特别的，对于任何仅仅替换生成式对抗网络的生成器/判别器者，同样属于本发明之内。

Claims

1.一种基于生成式对抗网络进行图像去运动模糊的方法，其特征在于，包括如下步骤：

S10设计去运动模糊的生成式对抗网络模型结构，其中该网络模型由生成器和判别器组成，其中生成器包括降采样器和上采样器，降采样器用于对图像进行卷积操作，提取图像的语义信息，上采样器用于根据获取到的语义信息，结合图像的结构信息，对图像进行解卷积操作；

S30输入一组包含有m个从S20步骤中的两个队列获取的清晰-模糊图像对至网络模型，分别将该图像对中的清晰图像和模糊图像缩放成Sh×Sw的尺寸，再剪成出尺寸为Ch×Cw的图像块；

S40将由S30得到的图像块输入该网络模型，通过迭代应用后向传播算法，逐步更新该网络模型的训练参数，每代队列中的所有元素训练结束之后，重新打乱队列元素的排序，开始新一代的训练，循环多代训练，直至该网络模型收敛，保存并导入该网络模型收敛时的训练参数，以使得该网络模型拟合成一个从模糊图像分布到清晰图像分布的映射，包括：

S401将由S30得到的图像块输入该网络模型，模糊图像的图像块在生成式对抗网络的生成器中，经过一次前向传播计算，生成一张去模糊图像，其中模糊图像先经过降采样器，得到一个尺寸为(Ch/128)×(Cw/128)×512的带有图像高层语义信息的矩阵，然后，再经过一个上采样器，最终生成一个尺寸为Ch×Cw×3的去模糊图像；

生成器的优化方程：

判别器的优化方程：

为目标函数的数学期望，x～pdata(x)指的是图像x取自一个特定的分布pdata(x)，在本方法中，这个特定的分布指的就是一个图像队列；同理，y～pdata(y)指的是图像y取自一个特定的分布pdata(y)，

图像x和图像y之间的L1范数函数：

图像x和图像y之间的感知距离函数：

其中x指的是输入的清晰图像，y指的是模型生成的去模糊图像，[α,β]为一个整体，是一个坐标信息，指的是VGG网络中，第α个卷积层后，第β个池化层前的那一层语义特征的坐标，而W_α,β,H_α,β则是语义特征层的宽度和高度，i指的是宽度维度上的坐标，j指的是高度维度上的坐标，

指的是在网络第α个最大池化层之前，第β个卷积层之后的特征矩阵，

指的是图像y的第[α,β]语义特征层，而

指的是图像y的第[α,β]语义特征层上的坐标[i,j]上的元素的数值，同理，

指的是图像x的第[α,β]语义特征层上的坐标[i,j]上的元素的数值；

图像x的总变分损失函数：

由公式(4)、(5)、(6)得到生成器的损失函数：

其中lL1与公式(4)同指，lperceptual与公式(5)同指，ltv与公式(6)同指，α₁，α₂和α₃分别为L1范数损失、感知损失以及总变分损失对应的权重；

S406重复S401-405，直至模型收敛，则停止训练，当输入队列被取空之后，如果模型还没有收敛，则按照S402中提及的方法，重新对清晰图像队列和清晰图像队列进行随机乱序排序；

2.如权利要求1所述的基于生成式对抗网络进行图像去运动模糊的方法，其特征在于，所述S50包括：

S501将输入的模糊图像缩放为Ch×Cw的尺寸的图像；

3.如权利要求1所述的基于生成式对抗网络进行图像去运动模糊的方法，其特征在于，所述S401中所述降采样器与上采样器为完全对称的结构，且在上采样器的每一层中，除了最后一层外，其他的层都会将输出结果和与之对应的降采样器中的层的输出进行叠加，做为最终的输出，输入到下一层中。

4.如权利要求1所述的基于生成式对抗网络进行图像去运动模糊的方法，其特征在于，所述S402中所述的图像对通过在颜色通道维度上进行多个图像块的叠加后输入至判别器。

5.如权利要求1所述的基于生成式对抗网络进行图像去运动模糊的方法，其特征在于，所述S404中感知损失是对于输入的两张图像，分别在预训练好的网络提取语义特征，然后求解两者特征矩阵的L2范数。

6.如权利要求5所述的基于生成式对抗网络进行图像去运动模糊的方法，其特征在于，所述预训练好的网络为使用了在ImageNet上预训练好的VGG19或者VGG16网络。

7.一种如权利要求1-6任一项所述的一种去运动模糊的生成式对抗网络模型，其特征在于，包括生成器和判别器，生成器用于不断优化参数以使其生成的图像趋近真实图像的分布，判别器用于不断优化参数以使其能更好地判别图像来自于随机噪声分布或真实图像分布，当该网络模型训练收敛时，整个网络模型达到一个动态平衡状态，即生成器生成的图像趋近真实图像的分布，判别器无法判别图像来自于哪个分布，其中生成器包括降采样器和上采样器，降采样器用于对图像进行卷积操作，提取图像的语义信息，上采样器用于根据获取到的语义信息，结合图像的结构信息，对图像进行解卷积操作。

8.如权利要求7所述的图像去运动模糊的生成式对抗网络模型，其特征在于，所述生成器还包括残差网络，所述残差网络用于加深网络模型的结构。

9.如权利要求7所述的图像去运动模糊的生成式对抗网络模型，其特征在于，所述降采样器和上采样器组成U形网络结构。