CN112465718A

CN112465718A - 一种基于生成对抗网络的两阶段图像修复方法

Info

Publication number: CN112465718A
Application number: CN202011354369.4A
Authority: CN
Inventors: 项林英; 马乐鹏; 陈飞
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09
Anticipated expiration: 2040-11-27
Also published as: CN112465718B

Abstract

本发明提供一种基于生成对抗网络的两阶段图像修复方法，涉及计算机视觉技术领域。本发明通过构建了两阶段的生成对抗网络模型，通过先边缘再整体的修复方法，实现对大面积破损图像的准确修复，利用生成对抗网络，将问题简化为端到端的模型训练，通过加入Ghost模块代替传统卷积层，同时间歇性插入SE模块，使得网络在性能得到提升的同时，网络参数和计算量有了明显下降，同时在训练中使用混合精度训练，提高了网络的收敛速度，提升了网络性能。

Description

一种基于生成对抗网络的两阶段图像修复方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于生成对抗网络的两阶段图像修复方法。

背景技术

图像是最直观、最生动、最具体的人们接触最广泛的视觉载体信息。人类接收的感官信息四分之三来自视觉，数字化图像技术已经嵌入到现代生活的方方面面，在消费电子设备、数据采集设备、可视化医疗设备、工业检测设备和遥感等领域都得到了广泛应用。各种数字图像采集设备的普及也促使数字图像数量呈几何级数增长。因为各种原因造成的信息缺失而需要修补的数字图像也在不断增加，比如各种因素造成的信息缺损的图像，对原本就有的划痕或有破损的画作或艺术品数字化后的图像，为了便于观看而需要遮盖的图像和视频中的一部分，在图像和视频的获取处理压缩传输和解压缩过程中因信息丢失造成的信息缺损。为了保证图像和视频信息的完整性，人们迫切希望有一种技术能对数字图像的损坏区域进行自动补全，并使处理后的结果保持很好的视觉观赏性和自然性，使观察者在没有看过原图的情况下无法察觉图像曾经缺损或者被改动过。为了满足以上需求和保证图像信息的完整性，数字图像修复技术孕育而生。

数字图像修复技术是图像复原研究中的一个重要内容，也是目前数字图像处理研究的热点之一。图像修复起源于文艺复兴时期人们对艺术品的修复，重建优美的艺术品，传承国家文化供人们欣赏学习，并称这一过程为“图像修复”，即利用图像缺失区域的邻域信息，按照一定的修复规则实现缺失区域的修复，使得观察者在视觉上无法感知图像曾经破损或己被修复。传统的图像修复是一项工作人员利用自身经验进行主观修复的过程，依赖于人眼对于图像的感知理解，不同的人修复的效果必定存在差异，并且因为这是一个主观过程，修复效果往往与原本效果有较大差异。

20世纪80年代以来，随着计算机人工智能和数字媒体技术的飞速发展，艺术作品的修复己经由传统的纯手工修复，转变为计算机自动检测破损区域并完成修复。这为图像修复再度创作带来了一个极其自由的环境。在2000年，M.Bertalmio等人首次提出这种图像手工的画作修复技能完全可以通过数学理论进行抽象，并通过计算机技术和数字图像处理技术自动加以复现。自2000年被提出以来，图像修复技术是计算机图形学和计算机视觉中的一个热点研究方向。无数相关研究者不断推动着数字修复技术向前发展进步。如今，图像修复技术手段逐渐增多，方法日趋成熟，已经不断深入到各个应用领域。目前数字图像修复技术在文物保护、影视特效制作、虚拟现实、多余物体的剔除(如视频图像中删除部分物体、文字、台标)等方面有着广泛的应用前景和重要的研究价值。

鉴于上述背景，我们提出了一种基于生成对抗网络的两阶段图像修复技术，该技术通过分两步的方法，完成了数字图像的修复任务。其基本思想是：通过构建两个生成对抗网络，将破损图片的灰度图像、掩膜图像和破损图片的边缘检测图联合构成三通道图像作为输入，训练第一个生成网络生成破损图像的边缘修复图，将三通道RGB破损图像和第一个生成网络得到的边缘修复图组成四通道的图像输入，训练第二个生成网络生成完整的RGB三通道图像。

数字图像修复技术的难点在于：

第一：由于缺乏有效构造信息，对于大面积破损图像的修复效果不理想。

第二：不同于传统的回归或者分类问题，采用深度学习方法进行网络修复时用到的端到端模型，存在模型设计复杂、训练困难等问题。

第三：训练成功的模型参数多、计算量大。随着深度学习与工业应用的结合越来越紧密，需要低功耗、少内存、高速度的网络部署在移动设备上。目前的模型在实际进行应用时对于硬件设备的需求较高，这对图像修复技术的大范围应用产生了一定的限制。

发明内容

针对现有技术的不足，本发明提供一种基于生成对抗网络的两阶段图像修复方法，用来解决数字图像修复的问题。

为解决上述技术问题，本发明所采取的技术方案是：

一种基于生成对抗网络的两阶段图像修复方法，包括以下步骤：

步骤1：建立图像修复数据集，所述图像修复数据集包括图片数据集和蒙版数据集；

从网上下载图片数据集和蒙版数据集，I_gt为图片数据集中的真实图像，M为蒙版数据集中的蒙版，C_gt和I_gray为I_gt经过数据处理得到的边缘轮廓图和灰度图，制作经过蒙版遮挡的破损的灰度图像

和破损的边缘轮廓图

以及蒙版M作为一阶段生成对抗网络当中生成器G₁的输入；制作破损的彩色图

作为二阶段生成对抗网络的生成器G₂输入，⊙表示哈达玛乘积；

步骤2：创建一阶段生成对抗网络，将破损的灰度图像、蒙版图像和破损的边缘轮廓图联合构成三通道图像作为输入进行网络模型训练一阶段生成对抗网络生成完整的边缘轮廓预测图

步骤2.1：将I_gray，

M作为输入，输入进一阶段的生成网络中，先经过两个轻量Ghost模块，对于输入至Ghost模块数据

卷积操作公式为Y＝X*f，

为输出的n通道特征图，

为该层的卷积核，该Ghost模块的计算量为n·h′·w′·c·k·k，其中h'和w'是输出的特征图的分辨率，k是卷积核尺寸，c为输入特征图的通道个数，h为输入特征图的高，w为输入特征图的宽，n为输出特征图的通道个数；Ghost模块是先通过卷积产生n/s通道的特征图，即内在特征图，运算量为c·h'·w'·n/s·k·k，然后再用线性变换方法去使每张内在特征图产生s-1张相似的特征图，公式为

其中y'_i表示卷积生成的内在特征图，Φ_i,j为y'_i生成的第j个Ghost特征图的线性变换函数；

所述一阶段生成对抗网络的判别器D₁的结构为带有5层卷积层的神经网络；

构建用来训练边缘轮廓修复对抗网络的损失函数如下：

其中，λ_adv,1＝1，λ_FM＝10，它们都是正则化参数。

对抗损失定义为：

其中,E表示期望。

特征损失定义为：

其中，E表示期望，使用预先训练好的VGG网络对输入图像进行判别，N_i是判别器第i层的激活结果，L表示判别器最后一层的卷积层。

步骤2.2：Ghost模块的输出进入八个残差块，所述残差块结构先经过一个卷积核大小为3×3、膨胀率为2的空洞卷积层，之后加上一个SE(Squeeze-and-Excitation)模块以及卷积核大小为3×3、膨胀率为2的空洞卷积层，然后将所得结果与输入残差块的初始输入相加，作为下一个残差块的输入使用；

所述SE模块为特征图加上通道维度的注意力机制，包括Sequeeze以及Excitation；所述Sequeeze为对经过空洞卷积得到的C×H×W进行全局平均池化，得到1×1×C大小的特征图，所述Excitation为用一个全连接神经网络，对Sequeeze之后的结果做一个非线性变换，通过之前得到的参数来为每个特征通道生成一个权重值；通过一个全连接层将特征维度降低到原来的1/r，然后经过ReLU函数激活后通过一个全连接层把特征维度提高到C，再通过sigmoid函数转化为一个0～1的归一化权重。最后进行特征重标定：使用Excitation得到的结果作为权重，乘到输入特征图的每一个通道上，最后通过两个转置卷积层得到边缘轮廓预测图

步骤3：创建图像完成生成对抗网络，将一阶段得到的边缘轮廓预测图和破损的边缘轮廓图结合，得到边缘合成轮廓图C_comp＝C_gt⊙(1-M)+C_pred⊙M。将C_comp和破损的图像

作为输入，输入二阶段的生成对抗网络中生成完整的图片，降低学习率训练网络直至网络模型训练达到收敛。

将边缘轮廓预测图C_pred和破损的边缘轮廓图结合，得到合成轮廓图C_comp＝C_gt⊙(1-M)+C_pred⊙M。将C_comp和破损的图像

作为输入，输入二阶段的图像修复网络中；二阶段的图像修复网络结构在一阶段网络的第一个Ghost模块后增加了一个SE模块，其它部分相同，图像完成网络的判别器D₂和D₁结构相同，通过二阶段的图像完成网络得到完整的预测图像

构建用来训练二阶段网络的损失函数如下：

其中λ_l1＝1，λ_adv,2＝2，λ_p＝0.1，λ_s＝250，均为正则化参数；

二阶段的L₁损失为：

对抗损失为：

其中，E表示期望。

感知损失为：

其中，E表示期望。公式中的φ_i是预处理网络第i层的激活层；

风格损失为：

其中，E表示期望；

步骤4：将第一个生成对抗网络中的判别器D₁去除，把一阶段和二阶段的生成对抗网络的生成器连接到一起，进行端到端的网络模型训练，继续降低学习率，直至训练网络达到收敛，在测试数据集上测试网络修复效果，完成图象修复模型的构建。

步骤2、3、4中所述网络模型训练的环节，均采用混合精度训练的方法进行训练。

采用上述技术方案所产生的有益效果在于：

本发明提出了一种基于生成对抗网络的两阶段图像修复方法，通过先边缘再整体的修复方法，实现对大面积缺失原有信息图像的精准修复。利用生成对抗网络，将问题简化为端到端的模型训练。加入Ghost模块代替传统卷积层，同时间歇性插入SE模块，使得网络在性能得到提升的同时，网络参数和计算量有了明显下降，同时在训练中使用混合精度训练，提高了网络的收敛速度，提升了网络性能。

附图说明

图1是本发明两阶段图像修复方法的流程图；

图2是本发明实施例一阶段生成对抗网络结构图；

图3是本发明实施例Ghost模块原理图；

图4是本发明实施例经过改造的残差块结构图；

图5是本发明实施例SE模块原理图；

图6是本发明实施例网络实际效果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于生成对抗网络的两阶段图像修复方法，如图1所示，包括以下步骤：

步骤1：建立图像修复数据集，所述图像修复数据集包括图片数据集和蒙版数据集；用28000张人脸图片和8000张蒙版图片作为训练用数据集，2000张人脸图片和2000张蒙版图片作为测试用数据集；

I_gt为图片数据集中的真实图像，M为蒙版数据集中的蒙版，C_gt和I_gray为I_gt经过数据处理得到的边缘轮廓图和灰度图，制作经过蒙版遮挡的破损的灰度图像

和破损的边缘轮廓图

作为二阶段生成对抗网络的生成器G₂输入，⊙表示哈达玛乘积，(矩阵对应位置相乘)；

本实施例中具体包括以下步骤：

步骤1.1：从github上下载CelebA-HQ人脸数据集，以及Karim Iskakov制作的掩膜数据集。

步骤1.2：制作数据集。两个数据集格式均为JPG，因而无需更改。利用skimage.feature模块中的canny边缘检测方法，高斯模糊参数σ＝2，来获得完整边缘轮廓图C_gt；利用skimage.color模块中的rgb2gray方法得到完整的灰度图I_gray，通过Hadamard积制作不完整的彩色图

不完整的边缘图

以及不完整的灰度图

步骤1.3：将图片按照7:2:1分成3部分，分别作为训练集、验证集和测试集，在训练集上训练模型，在验证集上调节超参数，避免过拟合，然后检验效果并决定何时完成训练，在测试集上测试模型的效果。

步骤1.4：对数据进行数据预处理。首先将图片尺寸通过OpenCV中的resize方法统一为256×256，之后对所有数据集中的图片进行归一化，将图片每个通道的像素值[0-255]同时除以255，压缩到至[0,1]之间。

步骤1.5：选择python作为模型编程语言，版本为3.6。基于pytorch框架搭建神经网络，其中，pytorch版本为1.0.1。torchvision版本为0.2.0。由于训练时采用混合精度训练，系统采用ubuntu18.04。因为采用了GPU加速，因此硬件上需要有英伟达支持的显卡模块，cuda版本为10.1。

步骤2.1：输入层为

和M组成的三通道，尺寸为256×256的图片，输入进一阶段的生成网络中，网络结构如图2所示，先经过两个轻量Ghost模块，如图3所示，尺寸变为128×128以及64×64，接两个转置卷积层，得到256×256大小的单通道的边缘修复轮廓图C_pred。网络判别器采用五层卷积网络，输入层为大小为256×256的单通道图片，卷积层1的卷积核个数为64，大小设为4，步长设为2，padding设为1；采用LeakyReLU作为激活函数，参数设为0.2，inplace设为True。卷积层2的卷积核个数为128，其余参数设置相同。卷积层3的卷积核个数为256，其余参数设置相同。卷积层4的卷积核个数为512，其余参数设置相同。卷积层5的卷积核只有一个，其余参数相同。输出一个8×8的矩阵，这与传统GAN的判别器输出一个标量是不同的。一阶段是计算特征损失时使用，对矩阵上的每个元素进行概率计算，最后取平均作为输出结果，判定输入的图片是否是真实的边缘轮廓图。采用混合精度训练方法，批次大小为8，使用Adam优化器，参数为β₁＝0，β₂＝0.9，生成器学习率为10^-4，判别器学习率为生成器的十分之一，在此条件下进行训练，直到loss平缓。

步骤2.2：Ghost模块的输出进入八个残差块，如图4所示，所述残差块结构先经过一个卷积核大小为3×3、膨胀率为2的空洞卷积层，之后加上一个SE(Squeeze-and-Excitation)模块以及卷积核大小为3×3、膨胀率为2的空洞卷积层，然后将所得结果与输入残差块的初始输入相加，作为下一个残差块的输入使用；

所述SE模块如图5所示，为特征图加上通道维度的注意力机制，包括Sequeeze以及Excitation；所述Sequeeze为对经过空洞卷积得到的C×H×W进行全局平均池化，得到1×1×C大小的特征图，所述Excitation为用一个全连接神经网络，对Sequeeze之后的结果做一个非线性变换，通过之前得到的参数来为每个特征通道生成一个权重值；通过一个全连接层将特征维度降低到原来的1/r，然后经过ReLU函数激活后通过一个全连接层把特征维度提高到C，再通过sigmoid函数转化为一个0～1的归一化权重。最后进行特征重标定：使用Excitation得到的结果作为权重，乘到输入特征图的每一个通道上，最后通过两个转置卷积层得到边缘轮廓预测图

步骤3：其生成器G₂的结构与边缘轮廓修复网络的生成器G₁基本相同，区别在于我们在第一个Ghost模块后增加一个SE模块，这是因为我们最终要得到完整的修复图像，要保证二阶段的生成器具有更加优秀的性能，判别器D₂和一阶段的判别器D₁的结构完全相同。将一阶段得到的修复后的边缘轮廓图像和破损的边缘轮廓图进行融合，得到合成轮廓图C_comp＝C_gt⊙(1-M)+C_pred⊙M，将C_comp与三通道RGB破损图像

组成四通道的图像作为输入，输入到G₂中，将得到的修复图像和真实图像输入，采用混合精度训练方法，批次大小为8，使用Adam优化器，参数为β₁＝0，β₂＝0.9，生成器学习率为10^-5，判别器学习率为生成器的十分之一，在此条件下同时对两个网络进行训练，直到收敛。

步骤4：将第一个生成对抗网络中的判别器D₁去除，把一阶段和二阶段的生成对抗网络的生成器连接到一起，把G₁和G₂学习率设为10^-6，D₂学习率设为10^-6，其余参数不变，进行端到端的网络模型训练，继续降低学习率，直至训练网络达到收敛，在测试数据集上测试网络修复效果，完成图象修复模型的构建。

整个网络都使用了实例正则化，生成器与判别器都采用了谱归一化(SpectralNormalization,SN)稳定训练，通过对权重的奇异值求解，可以得到这一层网络的谱范数(spectral norm)，接着让每一层网络的权重除以这一层网络的谱范数就可以满足1-Lipschitz限制。我们采用幂函数迭代法(power iteration)近似地求解谱范数，在验证数据集上测得模型的平均psnr为28.58，平均ssim为0.857，均优于同类模型。图6为模型实际测试效果图，从左到右依次是破损图片、边缘轮廓修复图片和完整修复图片。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于生成对抗网络的两阶段图像修复方法，其特征在于：包括以下步骤：

和破损的边缘轮廓图C_gt＝C_gt⊙(1-M)以及蒙版M作为一阶段生成对抗网络当中生成器G₁的输入；制作破损的彩色图

步骤2.1：将I_gray，C_gt，M作为输入，输入进一阶段的生成网络中，先经过两个轻量Ghost模块，对于输入至Ghost模块数据

卷积操作公式为Y＝X*f，

为输出的n通道特征图，

步骤3：创建图像完成生成对抗网络，将一阶段得到的边缘轮廓预测图和破损的边缘轮廓图结合，得到边缘合成轮廓图C_comp＝C_gt⊙(1-M)+C_pred⊙M，将C_comp和破损的图像

作为输入，输入二阶段的生成对抗网络中生成完整的图片，降低学习率训练网络直至网络模型训练达到收敛；

2.根据权利要求1所述的一种基于生成对抗网络的两阶段图像修复方法，其特征在于，步骤1中所述一阶段生成对抗网络的判别器D₁的结构为带有5层卷积层的神经网络；

构建用来训练边缘轮廓修复对抗网络的损失函数如下：

其中，λ_adv,1＝1，特征损失λ_FM＝10，它们都是正则化参数；

对抗损失定义为：

其中,E表示期望；

特征损失定义为：

3.根据权利要求1所述的一种基于生成对抗网络的两阶段图像修复方法，其特征在于，步骤2.2中所述SE模块为特征图加上通道维度的注意力机制，包括Sequeeze以及Excitation；所述Sequeeze为对经过空洞卷积得到的C×H×W进行全局平均池化，得到1×1×C大小的特征图，所述Excitation为用一个全连接神经网络，对Sequeeze之后的结果做一个非线性变换，通过之前得到的参数来为每个特征通道生成一个权重值；通过一个全连接层将特征维度降低到原来的1/r，然后经过ReLU函数激活后通过一个全连接层把特征维度提高到C，再通过sigmoid函数转化为一个0～1的归一化权重；最后进行特征重标定：使用Excitation得到的结果作为权重，乘到输入特征图的每一个通道上，最后通过两个转置卷积层得到边缘轮廓预测图

4.根据权利要求1所述的一种基于生成对抗网络的两阶段图像修复方法，其特征在于，步骤3中将边缘轮廓预测图C_pred和破损的边缘轮廓图结合，得到合成轮廓图C_comp＝C_gt⊙(1-M)+C_pred⊙M；将C_comp和破损的图像