CN111292265A

CN111292265A - 一种基于生成式对抗神经网络的图像修复方法

Info

Publication number: CN111292265A
Application number: CN202010073860.3A
Authority: CN
Inventors: 杨帅; 张治强; 黄荣; 韩芳; 王直杰
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-16

Abstract

本发明公开了一种基于生成式对抗神经网络的图像修复方法，该方法使用了四个部分，分别是生成网络、全局判别网络、局部判别网络和LSTM神经网络。两个判别器主要用于保证缺失区域修复后能够和周围保持一致性。LSTM神经网络主要用于分阶段修复破损图像。算法包括数据预处理模块、模型训练模块和图像修复模块，主要用于对大面积缺失的图像进行语义修复任务,以重建出符合人眼感官的完整逼真图像。

Description

一种基于生成式对抗神经网络的图像修复方法

技术领域

本发明涉及一种基于生成式对抗神经网络的图像修复方法，属于图像语义修复领域。

背景技术

图像作为客观世界重要的信息载体，是人类获取和辨识外界信息的主要来源和手段。高质量的图像可以给人们带来更加丰富的信息和内容，甚至能给人以美的观赏感。然而，在实际生活中，并不能保证所有获取到的图像都具有较高的质量，在图像的采集、传输、存储等过程中，在经过某些图像处理操作后，常常会导致图像信息丢失，质量下降。比如在图像传输过程中，由于信道带宽限制或者信道收到损坏，就可能导致传输的图像丢失信息。为了提高图像质量，保证信息传递的有效性，对图像受损区域进行修复是非常有必要的。

图像修复是指利用图像缺失部分邻域的信息和图像整体的结构信息等，按照一定的修复规则对图像的缺失区域进行填充，使观察者无法察觉出图像曾经受损。图像修复并非是一个最近兴起的研究课题，早在中国古代，就已经有对破损文物如壁画等进行修复。由于时间久远和技术落后的原因，很多珍贵的照片、纸质文档和画作等文物都出现了不同程度的破损，比如，老旧照片出现折痕、污点，纸质文档出现破损等。进入现代社会后，随着科技的进步和互联网的发展，图像的存储方式发生了巨大的变化，不再是以前的纸张，而是使用胶卷、手机和相机等设备来采集和存储图像。然而胶卷在长时间放置或者受到意外曝光后，存储在其上的图像信息可能会受到损失，手机拍摄的照片中也可能会出现我们不想要的物体等，这些都会影响图像的质量和使用价值。早期一般采取手工填补的方式对文物等艺术品修复，一旦修复者因为各种原因出现失误都会导致不可挽回的损失，手工修复的效果严重依赖于修复者的能力水平和修复经验，修复质量的好坏和耗费的时间都无法得到保证，并且这种修复方式缺乏科学理论依据。随着计算机的出现和发展，无需手动操作便可完成图像修复成为可能。使用计算机进行图像修复，不仅能够极大地提高修复效率，而且不会对文物等珍贵物品产生本质上的损坏，避免因为意外带来的损失。数字图像以矩阵的方式存储在计算机中，其本质是一个二维的离散函数，函数值是图像对应位置的灰度值。图像这种数学化的表示方法，使得我们可以从数学上对图像进行建模和操作，达到修复图像的目的。然而，一方面，在修复图像时，由于缺失区域和背景具有复杂的纹理结构和不确定的噪声，通常难以找到通用的修复规律，因此，直接搭建数学模型进行修复十分困难。另一方面，由于图像修复是一个病态逆问题，其根据获取到的部分图像信息，通过对图像感知过程的学习、理解和推断，重建出缺失区域的信息，然而重建的结果并不唯一，如何找到最优的修复结果也是一个富有挑战的问题。随着人工智能的发展，基于深度学习的图像修复也成为了图像处理领域中的一个研究热点，具有重大的学术和应用价值。

发明内容

本发明要解决的技术问题是如何修复缺失大面积语义区域的数字图像。

为了解决上述技术问题，本发明的技术方案是提供了一种基于生成式对抗神经网络的图像修复方法，其特征在于，包括以下步骤，

步骤一、对数据进行预处理，以满足神经网络对输入数据的要求，首先将图像的像素值放缩到(0,1)之间，然后将数据图像分辨率调整为128×128，对裁剪后的128×128的图像，分别制作四个掩膜矩阵来对图像进行人为损失，制作缺损图像，四个掩膜矩阵分别对应于修复图像的四个阶段；

步骤二、在获得步骤一处理的缺损图像后，使用生成网络的编码器中的生成卷积神经网络的卷积和池化操作对经过步骤一处理后的缺损程度最大图像进行特征提取得到深度特征图，再将特征图输入生成网络的解码器中进行上采样，进而得到伪造图像；

步骤三、为了保证缺失区域修复后能够和周围保持一致性，采用两个判别网络，全局判别网络和局部判别网络，全局判别网络的输入是整张真实图像或者经过步骤二生成的伪造图像，判断输入图像为真实数据的可能性，局部判别网络的输入是局部真实图像或者步骤二生成伪造图像的局部，判断图像的局部为真实数据的概率，通过联合这两个判别网络来监督生成网络的训练，促使生成网络生成的伪造图像在整体和局部均与真实图像相似；

步骤四、将整个图像修复过程分为四个子阶段，在每个阶段只修复缺失区域的一部分，并通过LSTM将这几个子阶段连接起来，将经过步骤三判别后的伪造图像作为下一阶段生成网络的输入，重复步骤二至步骤四，同时通过LSTM将隐层特征的特征输入到下一阶段的隐层中，参与下一阶段的图像修复。

优选地，所述的步骤一中，为了避免直接调整图像大小造成的图像失真和信息丢失，若图像的分辨率不是128×128，采取随机裁剪的方式从原图中取一块尺寸为128×128的局部区域图像作为训练图像。

优选地，所述的步骤二中，编码器-解码器结构的卷积神经网络之间添加短接，将编码阶段的低层特征和解码阶段的特征进行融合。

本发明的核心部件为编码器-解码器生成网络、全局和局部判别网络、LSTM网络。因此，本发明具有如下优点。

(1)采用编码器-解码器(Encoder-Decoder)结构的卷积神经网络作为生成网络，在编码器和解码器的部分层之间添加短接，减少在下采样过程中丢失的信息，增强网络对结构信息的预测能力并减小由于网络层数太深而导致的梯度消失问题；

(2)为了保证缺失区域修复后能够和周围保持一致性，我们采用了两个判别网络：全局判别网络和局部判别网络，本算法中的两个判别网络分开输出并用于更新网络参数；

(3)为了使网络训练过程更加稳定且图像修复的更加细腻，应用课程学习的思想，将整个缺失区域的填充分成多个子阶段，每个阶段只填充缺失区域的一部分，并通过LSTM将这些子阶段连接起来完成缺失图像的修复。

附图说明

图1为数据图像预处理流程；

图2为本发明模型训练整体流程示意图；

图3为本发明中生成网络示意图；

图4为本发明中判别网络示意图；

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提出了一种基于生成式对抗神经网络的渐进式图像修复方法，采用带短接的“编码器-解码器”结构的生成网络生成伪造图像，通过全局判别器和局部判别网络来判断输入图像是否为真实数据。在本发明中，将整个修复过程分为4个子阶段，通过长短期记忆神经网络(LSTM)神经网络连接起来。

本发明中采用的生成式对抗神经网络共用到四个部分，分别是生成网络、全局判别网络、局部判别网络和LSTM神经网络，其中全局判别网络、局部判别网络均属于鉴别网络。上述网络的使用流程为：首先用四个预定义的掩码(从最大到最小)破坏一副真实图像，然后将第一个损坏的图像(具有最大孔的图像)反馈生成网络中，目标是生成一个与第二个被破坏的图像相似的图像(目的是愚弄鉴别网络)。鉴别网络中的全局判别网络和局部判别网络分别用于判断输入图像为真实数据的可能性和判断输入的局部图像是真实数据的概率。通过交替优化生成网络和鉴别网络最终尽可能自然地生成图像。生成的图像然后被传递到第二阶段的输入端。另外，生成网络的工作过程分为两个阶段：编码阶段和解码阶段。生成网络中的输入层和输出层的维度相同，所有隐藏层的维度都要比输入层小，一般称隐藏层中维度最低的那一层为瓶颈层，瓶颈层代表的就是编码器对输入图片主要特征的提取。在编码阶段，编码器将输入的高维数据映射到瓶颈层，完成数据降维和特征提取。因此，得到的瓶颈层(紧凑的特征表示),即输入图片的主要特征表示也通过LSTM单元传递到第二阶段，再进行相似的操作。通过使用这种算法来制定语义图像修复任务，本发明能够逐步缩小大的损坏区域并生成高质量的图像。

本发明整个流程简要概括为数据预处理模块、模型训练模块和图像修复模块。

在数据预处理模块，对数据集中进行处理以满足网络要求。首先对数据集里的图像进行随机裁剪并制作训练数据，然后通过不同尺寸的掩膜，为不同阶段制作真实数据、受损数据、掩膜三种形式的训练集，用于训练后续的神经网络。

在模型训练模块，首先设计并搭建对应的神经网络模型，然后使用制备好的训练集进行训练，模型由生成网络、全局判别网络、局部判别网络和LSTM网络组成，生成网络用于根据输入的受损图像生成伪造图像；判别网络用于判断输入图像是真实图像还是由生成器生成的伪造图像，其中全局判别网络的输入是整幅真实图像和整幅伪造图像，局部判别网络的输入是真实图像的局部区域和伪造图像的局部区域；LSTM用于将不同阶段生成网络的瓶颈层连接起来，将前一阶段修复的信息传递到下一阶段。

图像修复模块是利用训练好的生成网络，对输入的受损图片进行修复，完成修复任务。

下面介绍流程具体内容。

在数据预处理阶段，使用掩膜对图像进行人为损坏操作。为满足神经网络对输入数据的要求，需要对数据进行预处理。在预处理阶段，对数据进行数值的归一化、图像尺寸调整和使用掩膜对图像进行人为损坏的操作。首先将图像的像素值放缩到(0，1)之间，然后对数据尺寸进行调整。模型训练模块要求输入图像的分辨率是128×128，为了避免直接调整图像大小造成的图像失真和信息丢失，若图像的分辨率不是128×128，采取随机裁剪的方式从原图中取一块尺寸为128×128的局部区域图像作为训练图像。对裁剪后的128×128的图像，分别制作了四个掩膜矩阵来对图像进行人为损失，四个掩膜矩阵分别对应于修复图像的四个阶段，掩膜矩阵为1的位置表示图像对应位置的像素点受损，值为0表示对应位置的像素已知。设最大缺失区域为64×64则在算法的每个阶段只专注于修复最外围8个像素宽度的缺失区域。设图像x是CelebA数据集中经过随机裁剪后的一张图像，掩膜矩阵为M_i，则受损图像x_i的计算公式如下：

x_i＝x⊙(1-M_i)

其中⊙是按位点乘运算，M_i是第i阶段的掩膜矩阵，x_i表示第i阶段对应的损失图像，假设将整个修复过程分为4个子阶段，则数据预处理流程如图1所示。

生成网络的目的就是根据输入的损坏图像生成与原始图像相似的伪造图像，然后将伪造图像对应于缺失区域的部分贴回原图，完成图像修复任务。

经典的生成网络是编码器-解码器结构的卷积神经网络，本发明在U-net网络的启发下，在编码器和解码器的部分层之间添加短接，简单的来说即在解码阶段，将编码部分对应的层与解码阶段的特征层进行拼接融合，这样在解码阶段可以获得前面编码阶段对应层的信息，流程如图2所示，实现方法如下文表1-1所示，目的是可以在一定程度上改善信息丢失问题，获得更加精细的修复结果。此外，通过短接还可以减小网络梯度弥散的风险和网络的训练难度。

判别网络的作用是判断输入图像是数据集中的真实数据还是由生成网络生成的伪造数据，通过判别网络提供的对抗损失来优化生成网络，使得生成网络生成的图像在视觉上尽可能的真实并具有更多的细节。

为了保证缺失区域修复后能够和周围保持一致性，本发明同时采用了两个判别网络：全局判别网络和局部判别网络。全局判别网络的输入是整张真实图像或者伪造图像，判断输入图像为真实数据的可能性。局部判别网络的输入是局部真实图像或者局部伪造图像，判断输入的局部图像是真实数据的概率。通过联合这两个判别网络来监督生成网络的训练，可以促使生成网络生成的伪造图像在整体和局部均与真实图像相似。

传统的基于生成式对抗神经网络的修复算法一般通过生成网络直接生成整个缺失区域，然而，在缺失区域较大且包含较多语义时，直接一步到位地修复好整个缺失区域是非常困难的。课程学习思想来自人类学习过程，先学习一些简单的任务，然后再逐步增加任务的难度，通过这种由易到难的学习策略，可以逐渐学习出性能更好的模型，成功应用于目标检测、人脸识别和机器翻译等任务。本发明借鉴课程学习的思想，将整个图像修复过程分为4个子阶段，在每个阶段只修复缺失区域的一部分，并通过LSTM将这几个子阶段连接起来。前一阶段生成的伪造图像作为下一阶段生成网络的输入，并通过LSTM将隐层特征的特征输入到下一阶段的隐层中，参与下一阶段的图像修复。

本发明采用单层LSTM神经网络控制不同阶段信息的流动，设c_t是LSTM第t阶段的细胞状态,h_t是第t阶段的隐态输入,f_t,i_t和o_t分别是第t阶段的遗忘门、输入门和输出门,g_t是当前输入的候选状态，LSTM的输出直接作为下一阶段的隐态输入，记f-encoder_t是第t阶段缺失图像经过编码器提取到的隐层特征，f-encoder_t是第t阶段解码器的输入，则LSTM网络的计算如下：

f_t＝σ(w_ft·[h_t-1,f-encoder_t]+b_ft)

i_t＝σ(w_it·[h_t-1,f-encoder_t]+b_it)

o_t＝σ(w_ot·[h_t-1,f-encoder_t]+b_ot)

g_t＝tanh(w_gt·[h_t-1,f-encoder_t]+b_gt)

c_t＝f_t·c_t-1+i_t·g_t

h_t＝o_t·tanh(c_t)

f-encoder_t＝Concate(h_t,f-encoder_t)

其中c₀和h₀初始化为全0矩阵，b_ft、b_it、b_ot、b_gt为偏置项。

网络参数说明：本文算法模型共包括四个部分，分别是生成网络、全局判别网络、局部判别网络和LSTM神经网络。生成网络在不同阶段共享网络结构，如表格1-1所示，是生成网络的卷积部分的参数。从表中可以看出，整个网络包含15个卷积层，其中编码器由8层卷积网络组成(Conv0-Conv7)，解码器由7层卷积网络组成(Conv8-Conv14)，通过将编码器的输出(Conv7的输出)和前一时刻的隐层特征向量进行拼接后作为编码器输入(Conv8的输入)。在解码阶段，将编码部分对应的层通过短接的方式与解码层进行融合，如表中Conv8-Conv14中的括号所示。

表1-1生成网络的卷积参数详细表

模型包含两个判别网络，分别是全局对抗网络和局部对抗网络，两个网络的参数完全一致，如表1-2、1-3所示。

表1-2全局判别网络的卷积参数详细表

表1-3局部判别网络的卷积参数详细表

此外，我们使用单层LSTM网络将多个阶段串联起来，LSTM的细胞状态向量c和隐层特征向量h的维度都为1024维，LSTM的输入是编码器的输出。

本发明将整个缺失区域的修复过程分成多个子阶段，每个阶段只修复缺失图像的一部分，因此在每个阶段都会使用相应的损失函数来指导该阶段图像的修复。由于四个阶段采取相同的生成网络结构，只是修复的区域范围不同，因此各个阶段的损失函数是相似的。每个阶段的损失函数都包含三个部分：重建损失、对抗损失和总变分损失。

(1)重建损失：重建损失是对修复后的图像与原始图像在像素空间上的差异进行惩罚，用于确保修复后的图像和原始图像在像素上相似。算法采用L1损失作为重建损失，避免L2损失下对噪声过于敏感。假设x_i是第i阶段的输入图像，则：

x_i+1＝G_i(x_i)

其中，G_i是第i阶段的生成网络，此外，第一阶段的输入图像x_i是原始被损坏的图像。设M_i是第i阶段对应的掩膜矩阵，掩膜矩阵中为1的位置表示图像对应的像素点受损，值为0表示对应的像素已知，则第i阶段的重建损失Lⁱ _rec定义如下：

其中，x表示原始未破损的图片，⊙代表矩阵按位点乘。

重建损失通过在像素上约束生成网络生成的图像，会导致生成网络偏向于生成模糊的图像以减小平均像素误差，从而使得生成的图像缺少纹理细节。对抗损失可以改善这个问题。

(2)对抗损失：由于重建损失的优化目标是最小化像素之间的平均距离，无法保证生成的伪造图像的数据分布和自然图像相近，会造成生成的图像缺乏细节且纹理模糊。为了更好地学习到真实数据分布，生成式对抗神经网络采用判别网络带来的对抗损失来指导生成网络，可以生成更加逼真的伪造图像。算法使用了两个判别网络：全局判别网络和局部判别网络，因此每个阶段的对抗损失包含两个子对抗损失。设

和

分别是第i阶段的全局对抗损失和局部对抗损失，则第i阶段的总对抗损失

如下：

其中，x、

和x_i分别是真实图像、真实图像的局部区域和第i阶段的输入图像，M_i和

分别是第i阶段的全局掩膜和局部掩膜，

和

分别表示第i阶段的全局判别网络和局部判别网络。判别网络采用PatchGAN的判别架构，其输出是一个低分辨率的特征图，因此采用二元交叉熵损失(Binary Crossentropy Loss,BCELoss)来计算数据分布之间的差异，BECLoss的计算公式如下：

其中p是预测矩阵，即判别网络的输出，p中元素的值经过sigmoid函数处理后，范围在(0,1)之间，y是和p同尺寸的标签矩阵，当输入判别网络的是真实图像时y是全1矩阵，输入判别网络的是伪造图像时y是全0矩阵。

(3)总变分损失(Total Variation loss)：总变分损失用来约束修复图像的整体平滑度，获得更好的视觉效果，第i阶段的总变分损失

如下：

其中

是最终修复的图像，

是图像

中位置为(m,n)的像素值。网络的联合损失是四个阶段三部分损失函数的加权和的综合，总的损失函数如下：

其中α,β和γ分别是每个阶段三部分损失的权重，分别设置α＝1，β＝0.001，γ＝1。

模型训练模块步骤：

生成式对抗神经网络是通过生成网络和判别网络之间的“博弈”进行训练的，生成网络的目标是生成判别网络无法判别真假的伪造图像，判别网络的目标是能够正确区分输入网络的图像是真实图像还是伪造图像。图像修复任务的主要目的是生成和原始图像相似的伪造图像，因此给予生成网络更多的关注。训练流程可以分为三个阶段：首先使用重建损失L_rec和总变分损失训练生成网络，共训练T_g轮，然后使用对抗损失训练判别网络，训练T_d轮，最后交替训练生成网络和判别网络，这个阶段使用联合总损失训练生成网络，使用对抗损失训练判别网络，直到训练结束。训练采用Adam优化器，训练步骤描述如下：

Claims

1.一种基于生成式对抗神经网络的图像修复方法，其特征在于，包括以下步骤，

步骤二、在获得步骤一处理的缺损图像后，使用生成网络的“编码器”中的生成卷积神经网络的卷积和池化操作对经过步骤一处理后的缺损程度最大图像进行特征提取得到深度特征图，再将特征图输入“解码器”中进行上采样，进而得到伪造图像；

2.如权利要求1所述的基于生成式对抗神经网络的图像修复方法，其特征在于，所述的步骤一中，为了避免直接调整图像大小造成的图像失真和信息丢失，若图像的分辨率不是128×128，采取随机裁剪的方式从原图中取一块尺寸为128×128的局部区域图像作为训练图像。

3.如权利要求1所述的基于生成式对抗神经网络的图像修复方法，其特征在于，所述的步骤二中，编码器-解码器结构的卷积神经网络之间添加短接，将编码阶段的低层特征和解码阶段的特征进行融合。