CN113538266A

CN113538266A - 一种基于wgan的模糊航拍图像处理方法

Info

Publication number: CN113538266A
Application number: CN202110769416.XA
Authority: CN
Inventors: 李业东; 纪陵; 董怀普
Original assignee: Nanjing SAC Automation Co Ltd
Current assignee: Nanjing SAC Automation Co Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-10-22

Abstract

本发明公开一种基于WGAN的模糊航拍图像处理方法和模糊图像处理模型的训练方法，属于图像处理技术领域。模糊图像处理模型以WGAN网络为基础网络，包括生成器网络和判别器网络，生成器网络包括依次设置的下采样网络块、残差网络块和上采样网络块，判别器网络包括多个卷积层，多个卷积层间还设有至少一个LR层和至少一个BN层；模糊图像处理模型的训练样本包括原始清晰图像及对其模糊处理后的模糊图像。训练过程分别在判别器的末尾和整个模型网络的末尾计算损失函数，根据损失函数调整生成器和判别器网络参数，训练得到的模型能够对模糊图像进行处理得到清晰图像，减少图片信息损失，提升图片质量。

Description

一种基于WGAN的模糊航拍图像处理方法

技术领域

本发明涉及计算机视觉图像处理技术领域，特别是一种基于WGAN的模糊航拍图像处理方法。

背景技术

人类获得信息的方式有很多种，其中包括听觉、视觉和嗅觉等，其中通过视觉获得的信息超过70％，在通过视觉获得信息的过程中，图像扮演着不可缺少的角色，图像质量直接会影响到信息传递的是否完整，是否正确。图像的清晰度直接影响着其所蕴含的信息是否完整，图像的清晰度和分辨率越高则意味着图像细节更加丰富，所包含或者所能传递的信息也就越多，反之，如果图片出现模糊或者分辨率较低时，所包含或者所能传递的信息也就越少。因此提高图像的清晰度和分辨率是非常必要的。

图像模糊会导致图像损失重要的信息，在成像过程中有很多种因素，如成像系统的局限性、环境的复杂性、目标物体的动态性和非配合性等都会导致获取的图像存在着有强噪声、低品质和失真等特性。其中，图像模糊便是退化图像的一种典型代表，在图像出现了退化现象之后，很多种情况并不能通过重新拍摄解决，例如在各类体育赛事中拍摄的图像出现了模糊，由于不可能重现当时的真实场景，复原出清晰的图像便极为珍贵；发生交通意外肇事车辆逃逸时，电子眼只拍到模糊的车牌号，对该模糊图片进行去模糊处理并读取到清晰的车牌号，对警方抓捕到肇事车辆起到事半功倍的作用；在医学成像的过程中，常会因为患者微笑的身体动作或者成像设备微弱的震动而导致得到的图像模糊，这种图像必须在去模糊之后才能够作为医生诊断的参考。

在航拍过程中，会因为以下3种情况导致图片出现模糊。

(1)在强风和降雨的情况下，无人机巡航过程中存在着飞行姿态不够稳定的情况，从而导致拍摄的图片模糊。

(2)在拍摄过程中，可能会地处较为偏僻的地方，从而会出现GPS信号差的情况下，此时无人机定位信息浮动较大，在短时间内不断的修正定位也导致拍摄的图片模糊；

(3)人机拍摄时镜头的焦距等参数设定不正确造成采集的图片模糊。

在电力检修过程中，通过无人机或者摄像头进行的检修已经占据了绝大部分的工作，但是在无人机或者摄像头工作的过程中，时常会因为各种原因导致拍摄的图片出现较大的模糊，因为模糊导致图像失去大量图片细节，后续的目标检测和故障识别也无法正常进行。

发明内容

本发明的目的是提供一种基于WGAN的模糊航拍图像处理方法，能够对模糊图像进行处理得到清晰图像，减少图片信息损失，提升图片质量。本发明采用的技术方案如下。

一方面，本发明提供一种模糊图像处理模型的训练方法，其中：

所述模糊图像处理模型以WGAN网络为基础网络，包括生成器网络和判别器网络，生成器网络包括依次设置的下采样网络块和上采样网络块，判别器网络包括多个卷积层，多个卷积层间还设有至少一个LR层和至少一个BN层；训练过程中，在生成器网络的下采样网络块和上采样网络块之间设置残差网络块；

获取图像样本数据集，图像样本数据集中包括相对应的原始清晰图像和模糊图像，各图像分别预先确定有判别器标签；

将图像样本数据集中的图像样本及判别器标签输入已搭建的模糊图像处理模型网络，对生成器网络和判别器网络进行交替训练以调整网络参数，直至模型损失函数值符合设定要求时停止训练；

其中，所述对生成器网络和判别器网络进行交替训练以调整网络参数，包括：

将模糊图像输入生成器网络，计算生成器生成的清晰图片和原始清晰图片之间的Wesserstein距离，根据计算结果调整生成器网络的权重；

将原始清晰图像和生成器生成的图像输入到判别器网络中，计算判别结果与标准值之间的差值，根据该差值调整生成器网络的权重；

将原始清晰图像及模糊图像输入判别器网络，计算判别结果与标准值之间的差值，根据该差值调整判别器网络的权重；

将生成器生成的图像和原始清晰图像输入判别器网络，计算判别结果标准值之间的差值，根据该差值调整判别器网络的权重。

以上方案，通过基于特定应用领域的图像进行训练，能够使得训练生成的模型对相应领域的图像具有较好的去模糊化能力，且模型效率较高。

可选的，所述模型损失函数值的计算包括：

在判别器网络末尾计算生成器网络生成的图像与原始清晰图像的Wasserstein距离；

在模型整个网络的末尾，基于所述Wasserstein距离以及感知损失计算模型的损失函数值，损失函数值l的计算公式如下：

l＝l_w+λ·l_x

式中，l_w表示Wasserstein距离，l_x表示感知损失，λ为设定的超参数，可选为100；

l_x通过以下公式计算：

式中，φ_i，j表示在Imagenet上预训练的VGG19网络内的第i个最大化层之前通过第j个卷积(激活之后)获得的特征图，W_i，j和H_i，j分别表示该特征图尺寸中的宽度和高度，I^S表示生成的清晰图像，G_θ表示生成器，I^B表示模糊图像。

本发明的网络损失函数计算方式，通过计算生成图片与原始图片的Wasserstein距离，与GAN默认的损失函数进行对比，能够在保证不会发生梯度消失的情况下，使模型收敛的更快，提高整体模型的效率。

进一步的，判别器网络将所计算的感知损失放大100倍后反馈至生成器网络。

本发明通过将Wasserstein距离与感知损失进行结合，使得生成器能够根据损失提升生成性能，优化训练参数，进而生成更加清晰的图片。

可选的，图像样本数据集中的模糊图像获取方法包括：

获取航拍采集的清晰的自然图像；

将获取到的各清晰自然图像与73种可能的线性运动内核中随机的一种进行卷积，得到相应数量的模糊图像。经验证，本发明图像样本数据集的构建方法所生成的数据集，使得训练得到的模型能够更加适用于航拍模糊图像的清晰化处理，且数据集与GROPO公共数据集中清晰图片和模糊图片的峰值信噪比PSNR、结构相似性SSIM基本保持一个在同一个波动范围内，平均值的差值在1％之内，是能够符合客观评价指标和实验要求的。

可选的，所述模糊图像处理模型中，下采样网络块的输入层数据与上采样网络块的输出层数据之间通过激活函数映射连接，以进行数据批量归一化。可以防止在采样的过程中出现较大的误差。

可选的，所述模糊图像处理模型中，下采样网络块包括对输入层所输入数据进行反射填充处理的反射填充处理层。这样得到的数据不仅在维度上度变得可填充，可扩展，而且在后续的变换过程中不会丢失原始图片的特征信息。

可选的，所述模糊图像处理模型中，下采样网络块包括连续三个卷积层，用于对反射填充处理后的图像数据进行卷积操作，卷积操作处理后的图像经激活函数进行非线性激活后传输至残差网络块。

可选的，所述模糊图像处理模型中，残差网络块包括多个依次设置的卷积层，各卷积层之后设置概率为0.5的丢失正则化函数进行正则化处理；残差网络块的输入层与输出层之间通过短连接shortcut Connection方式进行同等映射。可防止训练过程中的过拟合和梯度消失。

可选的，训练过程中，使用SGD优化函数进行梯度下降，模糊图像处理模型的初始学习率设定为1E-4，在训练300次之后开始逐渐下降，batchsize设定为16，生成器与判别器的训练比值为4：1。

第二方面，本发明提供一种模糊航拍图像处理方法，包括：

获取待处理的航拍图像；

将获取到的航拍图像输入经第一方面所述模糊图像处理模型的训练方法训练得到的模糊图像处理模型，得到清晰图像。

有益效果

本发明的模糊图像处理模型的训练方法中，模糊图像处理模型在WGAN网络的基础上进行改进，模型收敛的更快，训练效率更高，能够适应航拍模糊图片的复杂性和多样性。

训练所得的模型在不损失图片信息的情况下尽可能的提升图片质量，所生成的图像边缘也比较清晰，更有利于后续的图像高阶应用。在线智能巡视系统内引入本发明，通过对拍摄过程中拍摄的模糊图片进行清晰化，提高模糊图片的清晰度，极大的优化了后续的目标检测和故障识别。

附图说明

图1所示为模糊图像处理模型的训练方法的一种实施方式示意图；

图2所示为一种实施例中模糊图像处理模型中生成器网络结构示意图；

图3所示为一种实施例中残差网络结构示意图；

图4所示为生成器网络训练原理示意图；

图5所示为一种实施例中判别器网络结构示意图；

图6所示为判别器网络训练原理示意图；

图7所示为模型训练过程中的损失函数值变化示意图。

具体实施方式

以下结合附图和具体实施例进一步描述。

本发明的技术构思为：航拍模糊图片相对于普通模糊图片要更加的多样和复杂，因此为了提高生成图片的清晰度，采用WGAN网络作为基础网络，将残差模块引入到WGAN网络的生成器中。

在图片清晰化的过程中，与传统的卷积模块相比，残差模块在反向传播中对输出的变化更敏感，这使得在调参的过程中可以更容易找到合适的训练参数，从而使得生成的图片也会更加的高清，对后续图像的高阶应用能起到更重要的帮助。

实施例1

本实施例介绍一种模糊图像处理模型的训练方法，参考图1，主要涉及以下几个方面的内容：

数据集构造阶段：构造航拍模糊图像数据集；

网络构造阶段：针对上述构造的航拍模糊图像数据集，基于残差网络和Wasserstein距离构造航拍模糊图像清晰化WGAN(CMOABI-WGAN)网络；

网络训练阶段：利用航拍模糊图像数据集对过程2中建立好的CMOABI-WGAN进行训练，训练结束之后，利用该网络生成清晰航拍图片；

结果测试阶段：将本发明与传统去模糊算法进行比较，计算他们的PSNR和SSIM的值，得出本发明的方法对航拍模糊图片的清晰化效果最好。

一、模糊图像处理模型的网络搭建

本实施例的模糊图像处理模型以WGAN网络为基础网络，包括生成器网络和判别器网络，生成器网络包括依次设置的下采样网络块和上采样网络块，判别器网络包括多个卷积层，多个卷积层间还设有至少一个LR层和至少一个BN层；训练过程中，在生成器网络的下采样网络块和上采样网络块之间设置残差网络块；

关于下采样网络块

参考图2所示，在生成器下采样的过程中，首先利用反射填充(ReflectionPadding2D)对输入256×256×3的模糊图像进行处理，这样得到的数据不仅在维度上度变得可填充，可扩展，而且在后续的变换过程中不会丢失原始图片的特征信息。完成填充之后再对数据进行卷积操作，这里采用了连续三层的卷积操作，将256×256×3的数据经过变换变成了64×64×256的特征映射，之后再通过激活函数对数据进行非线性激活，最后将数据输入到残差网络块中去。

关于残差网络块

在深度神经网络训练中，随着训练和网络层数的增加，会导致模型出现退化等问题。在开始训练模型的时候，假设其神经网络的输入为x，输出为H(x)，则在训练过程中，整个过程可以恒等映射为：

x＝H(x) (1)

在整个反向传播过程时，其中映射的变化率为

p＝(H(x)-x)/x (2)

随着训练加深，返回值相对于输入值的变化越来越小，反映到函数中即p的值会随着训练逐渐变小，这样会导致在反馈过程中映射对输出变化变得不敏感，此时训练继续加深便会出现梯度消失的问题，后续生成的数据相对于原始数据也不会再有提升，甚至会出现退化的现象。

为了解决上述提到在训练中可能出现的问题，本实施例在模型的训练过程中引入残差网络，设F(x)＝H(x)-x；使得整个映射变为

H(x)＝F(x)+x (3)

在p值过小的情况下，计算每次f(x)的变化率，即：

q＝(F(x₁)-F(x))/F(x) (4)

用q作为替代p反馈到神经网络中，提高模型对输出变化的敏感性，解决模型训练过程中梯度消失的问题，也即，参考图2和图3所示，在生成器中引入残差网络，采用短连接(shortcut Connection)方式，该连接方式只执行了同等映射，在不影响训练速度的情况下也不会产生额外的参数。

在残差网络块中，在对数据进行每一次卷积之后添加概率为0.5的丢失正则化函数，以防止在训练过程中出现过拟合的情况。

关于上采样网络块

参考图2，在上采样网络块(UPSampling2D)中，先对来自下采样网络块中的特征映射进行解卷积操作，再一次获得256×256×3维度的数据。为了防止在采样的过程中出现较大的误差，在整体采样结束后，再将生成器网络的输入和输出通过激活函数进行二次连接，通过该方式将数据批量归一化(Batch-Normalization，BN)，使得输入和输出均为128×128×3的图像数据。

关于判别器网络

为了判别输入的模糊图像的真实来源，本实施例所设计的判别器网络块结构参考图5所示。

判别器在训练过程中接收到的输入可能为真实数据x，也可能是生成器生成的数据G(z)，在判别器接收到真实数据x时，判别器的输出为1，接收到G(z)时，判别器的输出为0。

本实施例判别器网络块中一共包括5层卷积层，为了减少梯度消失的情况和提高各个卷积层的非线性关系，在第4层和第5层卷积层中使用Leaky-ReLU(LR)非线性激活函数，并使用BN做批量归一化处理。

二、模型的训练，参考图1，主要涉及以下内容。

2.1训练样本的获取

本实施例以航拍图像为例，采用高斯动态模糊的方法生成模糊的航拍图片，总体思想是将清晰的原始自然图像与73种可能的线性运动内核中随机的一种进行卷积，然后得到合成的模糊图像，利用该方法基于原始的清晰的5000张的航拍图片生成了5000张模糊航拍图片。

为了验证本实施例生成图片的合理性，从公共数据集GROPO中随机抽选了50对清晰和模糊的图片，再从清晰的图片和生成的模糊图片抽取了50对，分别两组图片计算了峰值信噪比(PSNR)和结构相似性(SSIM)。

其中PSNR定义如下式所示：

其中，

是表示图像点颜色的最大数值，MSE代表的是两张图像的均方差，I、K为两幅图像，m、n为图像的宽和高。PSNR值越高说明两张图片特征越接近。

SSIM定义如下式：

其中μ_I,μ_K表示图像I、K的平均值，

表示图像I，K的方差，σ_IK是图像I和K的协方差。c₁＝(k₁L)²，c₂＝(k₂L)²是用来维持稳定的常数L是像素值的动态范围，k₁＝0.01,k₂＝0.03。

本实施例生成的数据集和GROPO数据集中清晰图片和模糊图片的PSNR、SSIM基本保持一个在同一个波动范围内，平均值的差值在1％之内。根据对比可知，利用本实施例方法构造的数据集是符合客观评价指标和实验要求的。

二、对生成器和判别器进行迭代训练

总体训练过程为：将模糊图片作为生成器的输入，反复训练生成器和判别器，直到生成器生成以假乱真的清晰图片。

模型的生成器在训练过程中主要通过两个反馈调整权重：

(1)计算生成器生成的清晰图片G(z)和原始清晰图片x之间的Wesserstein距离，通过该值调整权重。

(2)将原始图像和生成器生成的图像输入到判别器中，计算判别器结果D(G(z)，x)与1之间的差值，根据结果调整生成器的权重，训练过程见图4。

判别器在训练过程中同样是通过两个途径调整权重：

(1)输入模糊图片和清晰图片，通过比较判别器输出的值D(z，x)与标准值1的差值，进而调整训练器权重；

(2)将生成器生成的图像G(z)和原始清晰图像x输出到判别器中，根据判别器的结果D(G(z)，x)与0之间的差值对判别器的权重做进一步的调整，训练过程见图6。

为了处理航拍模糊图片的复杂性和多样性，增加模型网络在训练过程中的稳定性和高效性，本实施例在整个网络中的2个断面分别提取损失，第一个损失函数取自于判别器的末尾，第二个损失函数取自整个CMOABI-WGAN网络的末尾。

在判别器末尾，计算生成图片与原始图片的Wasserstein距离，与GAN默认的损失函数进行对比，Wasserstein距离在保证不会发生梯度消失的情况下，能够使模型收敛的更快，提高了整体模型的效率。

在整个模型网络的末尾，采用感知损失(Perceptual Losses)和前述Wasserstein损失函数的结合作为整个模型网络的损失函数，表示为下式：

l＝l_w+λ·l_x (7)

其中l_w代表的Wasserstein损失，l_x代表的是感知损失，λ是为了平衡两个目标函数所引入的超参数，实验中通常取100。

感知损失的定义如下式：

本发明模型网络在训练过程中使用SGD优化函数进行梯度下降，模型的初始学习率设定为1E-4，在训练300次之后开始逐渐下降，batchsize设定为16，生成器与判别器的训练比值为4：1。

整个模型网络损失函数变化如图7所示，图7中包括了2种线的变化比率，其中实线代表的是判别器损失，虚线代表的是整个模型损失。判别器损失在训练过程中前半部分呈现逐渐上升的趋势，在数值到达0.5之后开始稳定下来。在整个网络模型的末尾采用的损失函数是比重为100:1的感知损失和Wasserstein损失函数的结合。也即，判别器在进行判别的过程中会将判别器计算的损失放大100倍之后再反馈到生成器中，生成器根据反馈值提升生成性能，优化训练参数，使得生成更加清晰的图片，判别器在面对生成器生成的更高质量的清晰图片时，计算出的损失函数仍保持在0.5左右，这说明判别器网络已经随着生成器网络性能的提升而提升。整体模型的损失是在不断下降的，经过300个训练周期之后，最终稳定在50左右，代表CMOABI-WGAN网络训练结束。

实施例2

本实施例介绍一种基于WGAN的模糊航拍图像处理方法，包括：

获取待处理的航拍图像；

将获取到的航拍图像输入经实施例介绍的模糊图像处理模型的训练方法训练得到的模糊图像处理模型，得到清晰图像。

在实际应用时，可首先对航拍模糊图像进行特征分析，根据特征性的不同，选择合适的模型和参数进行预训练，然后对选取的模型和参数进行调整，根据模糊图像的最终用处对选择的残差网络进行试验，调整不同的参数使得生成的清晰图像的表征更加突出。通过计算选择的不同模型和参数所生成的清晰图片与原始模糊航拍图像的PSNR(峰值信噪比)和SSIM(结构相似性)，比对结果，可确定最优模型、残差网络参数和模型训练参数，得出最优的模糊航拍图像处理模型网络。

本发明提出的模糊航拍图像处理方法的图像生成效果较好，能够在不损失图片信息的情况下尽可能的提升图片质量，边缘也比较清晰，更有利于后续的图像高阶应用。所生成的清晰图片的相对于模糊图片PSNR提升了2左右，SSIM提升了0.15左右。

整套系统训练完成之后，可利用python项目集成化手段，将整个功能封装成接口，函数的接口为航拍的模糊图像，输出为清晰图像，具有较高的推广价值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种模糊图像处理模型的训练方法，其特征是，

模糊图像处理模型的训练方法包括：

2.根据权利要求1所述的方法，其特征是，所述模型损失函数值的计算包括：

l＝l_w+λ·l_x

式中，l_w表示Wasserstein距离，l_x表示感知损失，λ为设定的超参数；

l_x通过以下公式计算：

3.根据权利要求2所述的方法，其特征是，判别器网络将所计算的感知损失放大100倍后反馈至生成器网络。

4.根据权利要求1所述的方法，其特征是，图像样本数据集中的模糊图像获取方法包括：

获取航拍采集的清晰的自然图像；

将获取到的各清晰自然图像与73种可能的线性运动内核中随机的一种进行卷积，得到相应数量的模糊图像。

5.根据权利要求1所述的方法，其特征是，所述模糊图像处理模型中，下采样网络块的输入层数据与上采样网络块的输出层数据之间通过激活函数映射连接，以进行数据批量归一化。

6.根据权利要求1所述的方法，其特征是，所述模糊图像处理模型中，下采样网络块包括对输入层所输入数据进行反射填充处理的反射填充处理层。

7.根据权利要求6所述的方法，其特征是，所述模糊图像处理模型中，下采样网络块包括连续三个卷积层，用于对反射填充处理后的图像数据进行卷积操作，卷积操作处理后的图像经激活函数进行非线性激活后传输至残差网络块。

8.根据权利要求1所述的方法，其特征是，所述模糊图像处理模型中，残差网络块包括多个依次设置的卷积层，各卷积层之后设置概率为0.5的丢失正则化函数进行正则化处理；残差网络块的输入层与输出层之间通过短连接shortcut Connection方式进行同等映射。

9.根据权利要求1所述的方法，其特征是，训练过程中，使用SGD优化函数进行梯度下降，模糊图像处理模型的初始学习率设定为1E-4，在训练300次之后开始逐渐下降，batchsize设定为16，生成器与判别器的训练比值为4：1。

10.一种模糊航拍图像处理方法，其特征是，包括：

获取待处理的航拍图像；

将获取到的航拍图像输入经权利要求1-9任一项所述模糊图像处理模型的训练方法训练得到的模糊图像处理模型，得到清晰图像。