CN111784602B

CN111784602B - 一种生成对抗网络用于图像修复的方法

Info

Publication number: CN111784602B
Application number: CN202010598518.5A
Authority: CN
Inventors: 罗会兰; 敖阳
Original assignee: Jiangxi University of Science and Technology
Current assignee: Wuhan Wukongyu Artificial Intelligence Application Software Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2022-09-23
Anticipated expiration: 2040-06-28
Also published as: CN111784602A

Abstract

本发明公开了一种图像修复模型PRGAN，由两个相互独立的生成对抗网络模块组成。其中图像修复网络模块PConv‑GAN由部分卷积与对抗网络组合而成，用于对不规则掩模进行修复，同时根据判别器的反馈使得图像的整体纹理结构以及色彩更加逼近于原图。为解决因修复网络模块的不足而造成图像产生局部色差和轻度边界伪影的问题，本发明设计了图像优化网络模块。图像优化网络模块Res‑GAN将深度残差网络与对抗网络相结合，并且通过结合对抗损失、感知损失及内容损失对图像优化网络模块进行训练，使得图像中非缺失区域的信息得到保留，从而保持了图像在非缺失区域内纹理结构的一致性，达到消除局部色差现象和解决伪边界的目的。

Description

一种生成对抗网络用于图像修复的方法

技术领域

本发明涉及计算机视觉领域，具体为一种二阶段的图像修复系统，它由两个独立网络所构成。其中，对部分卷积改进形成了图像修复网络，另外，针对第一步操作后所得图像中存在局部色差的问题，提出了图像优化网络。两个网络协同作用使得实验结果中定性与定量指标均得到提高，且所得图像的视觉效果取得明显提升。

背景技术

图像修复，即填充图像损失的像素区域，在计算机视觉领域中扮演着重要角色。它在许多研究领域中得到应用，如图像编辑，图像渲染。图像修复的核心在于如何为缺失区域进行填充，以达到语义合理和视觉效果逼真的结果。

早期的图像修复原理类似于纹理的合成，通过匹配和复制背景的斑块来填补缺失的图像。Barnes等人使用的方法是迭代搜索出最合适的补丁来填充缺失区域，在背景修复任务上有着比较好的结果，但是修复的区域趋于平滑和模糊，且不能捕捉到深层次的语义信息，因此无法修复一些比较复杂的、在图像中没有重复出现过的图像结构，如人脸。

近期出现的图像修复方法主要是基于深度卷积网络和对抗网络，通过U-NET网络和对抗网络相结合生成最合适的补丁来填充缺失区域。Iizuka等人提出的方法主要关注于图像中心周围的矩形区域，与对抗网络共同训练，以鼓励生成像素与现有像素之间的一致性，并产生语义上有意义的预测，从而与图像其余部分平滑地结合。但这些基于深度卷积网络的方法在修复不规则破损时通常存在边界伪影、图像扭曲、或产生与周围区域不一致的模糊纹理等问题，这可能是由于学习到的上下文信息与缺失区域之间的无效相关性造成的。

Liu等人提出的部分卷积网络能够使卷积的结果仅取决于非破损区域，通过自动掩码更新，特征图中只留下了有效的上下文相关性信息，这使得缺失区域生成的图像纹理与周围图像纹理保持高度一致性，很好解决了图像模糊和纹理结构不一致的问题，但生成的图像仍然存在轻度边界伪影和局部色彩不一致的问题。

发明内容

针对现有技术的不足，本发明提供了生成对抗网络的图像修复方法，解决了上述背景技术提出的问题。

本发明提供如下技术方案：一种生成式对抗网络的图像修复模型，其特征在于，该图像修复模型包括以下步骤：

步骤一：将部分卷积操作运用于生成式对抗网络中的每一个卷积块，构建一个具有16层部分卷积编解码结构的生成器，再通过卷积层、批量归一化层和LeakyRelu层构建一个具有10层深度卷积结构的判别器；

步骤二：将RGB图像和相应的掩模图像送入步骤一中得到的生成器和判别器进行对抗训练，获得图像修复网络模块PConv-GAN；

步骤三：将多尺度特征融合和图像重构操作运用于深度残差网络中的每一个残差块，构建一个具有16层深度残差网络结构的生成器，通过在步骤一所得判别器的基础上增加2个卷积层，构建一个具有12层深度卷积网络结构的判别器；

步骤四：将步骤二中图像修复网络模块PConv-GAN训练后输出的RGB初步修复图像送入步骤三中所得的生成器和判别器进行对抗训练，获得图像优化网络模块Res-GAN；

步骤五：网络训练时，图像修复网络模块PConv-GAN的损失函数由非遮掩区域的修复损失、遮掩区域的修复损失、感知损失、风格损失、对抗损失和总变差损失组成。图像优化网络模块Res-GAN的损失由内容损失、感知损失和对抗损失构成。两个模块中的感知损失，本发明通过计算修复图像和真实图像在不同预训练网络的不同层输出的差值来获得。

本发明具备以下有益效果：在部分卷积网络的基础上进行改进，提出了图像修复网络模块，它由部分卷积网络与对抗网络组成；针对图像修复网络模块的输出图像中存在局部色差问题，提出了图像优化网络模块，它由深度残差网络与对抗网络组合而成。两个网络模块的协同作用提高了修复精度，提升了视觉效果。在CelebA Faces和Places2数据集上的实验结果表明本发明算法具有较好的修复效果

附图说明

图1为本发明整体框架结构图。

图2为本发明图像修复网络模块的生成器和判别器架构图。

图3为本发明图像优化网络模块生成器和判别器架构图。

图4为本发明图像优化网络模块损失函数示意图。

图5在CelebA Faces数据集上不规则掩模情况下的修复结果比较

图6在Places2数据集上不规则掩模情况下的修复结果比较

图7各方法迭代收敛曲线图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明所述的图像修复系统PRGAN的图像修复方法具体实施步骤为：

(S1)：图像修复网络

本发明提出的图像修复网络模型如图2所示，包含生成器网络和判别器网络。其中生成器网络架构使用了Liu等人和Harley等人提出的部分卷积结构和Olaf等人提出的U-NET结构，如图2(a)所示。

部分卷积层包括部分卷积运算和掩码更新算法。设W是卷积滤波器的权重，b是相应的偏差，X是当前卷积通道的特征值，M是二进制掩模(其中0表示破损区域，1表示完好区域)，部分卷积的运算公式如式(1)所示：

其中⊙表示逐元素乘法。缩放因子

调节有效输入值的变化量，x′是每次迭代中部分卷积在缺失区域的填充值。

部分卷积操作之后进行更新掩码操作，操作原理是部分卷积层对破损图像的缺失区域进行填充之后，变化该填充区域相对应的掩模，将其设置为1。

生成器网络的编码块中的卷积层由三个结构组成：部分卷积层，批量归一化层和Relu层。使用部分卷积层是为了更适合对图像进行修复学习，同时加入批量归一化层提高网络训练的拟合速度以及增加网络的泛化能力。如图2(a)所示，编码阶段共包括八个卷积层，其中部分卷积层内核大小分别为7,5,5,3,3,3,3,3，通道数分别为64,128,256,512,512,512,512,512，步长为1。在解码阶段，图像采用上采样进行扩张，因为经本发明实验证明，相对于反卷积而言，上采样可以取得更好的图像修复效果。解码层由四个部分组成：上采样层，连接层，部分卷积层和批量归一化层。解码阶段共包括八个解码层，其中上采样层的扩张系数为2，部分卷积层内核大小分别为3,3,3,3,3,3,3,3，输出通道数分别为512,512,512,512,256,128,64,3，步长为1，LeakyReLU层α＝0.2。除了第一和最后部分卷积层之外，在每个部分卷积层和ReLU/LeakyReLU层之间使用了批量归一化层，如图2(a)所示。图中用不同的着色代表不同类型的层，层上方从左到右依次标有该层卷积核大小、通道数及步长。为了使网络有效融合高层语义信息和低层空间局部信息进行图像修复，生成器网络将编码块中各卷积层输出的特征图与解码块中对应同样大小的特征图进行了串接融合。生成器网络最后使用了一个内核大小为1，输出通道为3，stride＝1的卷积层，以减少通道数并使用sigmoid激活函数生成图像。

判别器网络结构参照Ledig等人和Goodfellow等人提出的判别器网络架构，如图2(b)所示。判别器卷积块由卷积层，批量归一化层和LeakyRelu层组成。其中卷积块分为两类，一是由步长为1的卷积层组成的S1卷积块，二是由步长为2的卷积层组成的S2卷积块，S1卷积块和S2卷积块交替组合成判别器卷积网络，最后通过全连接层输出特征向量。判别器网络共包括八个卷积块，其中卷积层内核大小分别为3,3,3,3,3,3,3,3，输出通道数分别为64,64,128,128,256,256,512,512，步长分别为1,2,1,2,1,2,1,2。LeakyReLU层α＝0.2。除第一个卷积层之外，在每个卷积层和LeakyReLU层之间使用批量归一化层。最后是两个全连接层，通道数分别为1024和1，最后输出判别结果。

(S2)：图像修复网路损失函数

图像修复网络模块的目的是：确保每个重建像素的颜色和空间位置均能在最大程度上还原图像原有的色彩和纹理。图像修复网络模块的总损失函数L_total定义如式(2)所示，由非遮掩区域的修复损失、遮掩区域的修复损失、感知损失、风格损失、对抗损失和总变差损失组成。

L_{total-inpainting}＝2L_valid+12L_hole+0.04L_perceptual+100(L_{style-inpainting}+L_{style-complete})+100L_adversarial+0.3L_variation (2)

各损失项的权重是对50次的独立实验结果分析后确定的。

其中在非遮掩区域的修复损失定义如式(3)所示，使用了修复图像与真实图像的非遮掩区域的曼哈顿距离作为修复损失，式中Ι_damaged表示破损图像、M表示不规则二进制掩模(掩模中对应需要修复区域为0，其他为1)、Ι_inpainting表示修复结果图像、Ι_real表示真实无破损图像。

L_valid＝||M×(Ι_inpainting-Ι_damaged)||₁ (3)

遮掩区域的修复损失函数如式(4)所示：

L_hole＝||(1-M)×(Ι_inpainting-Ι_damaged)||₁ (4)

感知损失的定义如式(5)所示，本发明使用了多个预训练网络的不同卷积特征层来求取修复结果图像与真实图像之间的特征感知损失，并增强了需修复区域的感知损失。式(5)中Ι_complete表示非缺失区域的真实图像加上缺失区域的预测图像(如式(6)所示)，m表示使用的预训练网络的个数，n表示使用的卷积特征层的个数，

则表示第i个预训练网络的第j层卷积特征，ω_i是第i个预训练网络感知损失的权重。经过50次的独立实验比较，最终在本发明的实验中使用的是VGG16的pool1层、pool2层和pool3层和DenseNet的conv1层、pool2层和pool3层输出的特征图作为生成网络的感知层，用于计算感知损失。预训练网络的参数不参与训练，只是用来求损失值。将两个预训练网络得到的感知损失进行加权和作为最终的感知损失，在本发明的实验中采用的权重设置如式(7)所示。

Ι_complete＝M×Ι_real+(1-M)×Ι_inpainting (6)

为了使得修复的内容在风格上接近于真实图像，本发明定义了两个风格损失，

是作用在第i个预训练网络第j层的归一化因子。表达函数如式(8)和(9)所示：

对抗损失函数定义如式(10)所示：

N表示每批次训练样本的总数，Ι_inpainting(x_i)和Ι_real(x_i)表示该批次第i个修复图像和真实训练样本图像。

总变差损失是由Li等人^[25]提出的区域P平滑惩罚损失函数，P是破损图像的缺失区域，i和j表示破损图像缺失区域中像素的坐标位置，总变差损失函数如式(11)所示：

(S3)：图像优化网络。

为了改善修复网络生成图像存在的局部色差现象问题，本发明提出了图像优化网络，它也是一个生成对抗网络，网络模型如图3所示，包含生成器网络和判别器网络。

生成器网络的设计参照了Ledig[21]等人和He等人提出的深度残差网络以及Zeng等人提出的多尺度扩张卷积融合块，结构示意图如图3(a)所示。生成器网络中对图像特征的提取分为两个步骤，第一阶段是最前端卷积层的初步提取，其内核大小为9，通道数为32，步长为1。第二阶段是16个多尺度扩张卷积残差块，学习图像多尺度深度特征。每个残差块由两个部分组成，第一部分由4个扩张卷积块组成，每个扩张卷积(Dilated scalecovoluation,DSConv)的内核大小均为3，通道数均为32，步长均为1，扩张率分别为1、2、4、8，使之能从4种不同大小的感受野中提取特征，增加了网络的特征提取能力和多尺度语义的学习能力。第二部分是残差连接块，该部分将第一部分中4个扩张卷积块的输出串接起来，再输入到一个卷积层对提取到的特征进行整理，最后进行残差连接，缓解梯度消散问题，提升网络表达特征的能力。

判别器网络结构类似于图像修复网络的判别器，如图3(b)所示。不同之处是这里使用的网络更深，增加了两层卷积块。设计的动机是修复图像Ι_optimize与真实图像Ι_real差别很小，为了获得更好的判别效果，需要更深的网络去提取图像特征。如图3(b)所示，判别器网络包含十个卷积块，其中卷积层内核大小为3，通道数分别为64,64,128,128,256,256,512,512,512,512，步长分别为1,2,1,2,1,2,1,2,1,2。所有卷积层之间用具有α＝0.2的LeakyReLU层链接，除第一个卷积层之外，在每个卷积层和LeakyReLU层之间使用批量归一化层。最后加上两个全连接层，通道大小为1024和1，之间用LeakyReLU层链接。

(S4)：图像优化网络损失函数

图像优化网络模块损失函数构建的目的是最大化保留图像真实合理的部分，而对存在局部色差的区域进行改善。将经过图像修复网络模块得到的图像Ι_inpainting作为输入图像，经过图像优化网络模块的G_optimize输出Ι_optimize，图像优化网络模块的总损失函数的构成如图4所示，由内容损失、感知损失和对抗损失构成，经50次的独立实验比较，最终确定各损失项的权重如式(12)所示。

L_{total-optimize}＝40L_content+L_perceptual+0.75L_adversarial (12)

内容损失函数定义为带有权重的平均绝对误差，如式(13)所示。其中N表示每批次训练样本总数，Ι_optimize(x_i)和Ι_real(x_i)表示该批次第i个优化图像和真实训练样本图像，Μ(x_i)表示该批次第i个二进制掩模。

感知损失的定义与公式(5)类似，不同之处在于所采用的预训练网络是在ImageNet上预训练好的VGG-19网络和DenseNet网络，使用的感知层是VGG-19网络的block3_conv4层和DenseNet网络的pool2_conv层，权重设置如式(14)所示：

对抗损失函数如式(15)所示：

N表示每批次训练样本的总数，Ι_optimize(x_i)和Ι_real(x_i)表示每批次第i个优化图像样本和真实图像样本。

图像修复网络模块和图像优化网络模块的训练是依次进行，首先将Ι_damaged和Ι_real输入图像修复网络模块进行训练，然后将图像修复网络模块输出结果Ι_inpainting和Ι_real输入图像优化网络模块进行训练。

实施例

本发明分析比较了本发明提出的方法(以下简称为PRGAN)与3种近三年提出的深度学习修复方法，实验结果中用CE表示Pathak等人提出的方法^[16]，GL表示Iizuka等人提出的方法^[5]，PConv表示Liu等人提出的方法^[8]。CE和GL都是在规则掩模的图像修复领域中具有代表性的工作，而PConv能够代表不规则掩模图像修复中的前沿方法。PConv-GAN表示本发明提出方法中的图像修复网络模块，Res-GAN表示本发明方法中的图像优化网络模块。

图5和图6所示是本发明提出的方法PRGAN与三种先进方法：CE^[16]，GL^[5]和PConv^[8]的定性比较结果，其中第一列是破损图像，第二列到第五列分别是CE^[16]，GL^[5]和PConv^[8]和本发明提出的方法PRGAN的修复结果，最后一列是原图。图5所示是在CelebA Faces^[27]数据集的测试集上，掩模率设置为(0.25,0.40]的修复结果，而图6所示是在Places2^[26]数据集的测试集上的修复结果示例，掩模率同样设置为(0.25,0.40]。从结果上来看，CE修复的图像不能产生复杂纹理，虽然填充区域像素与周围像素在语义上有一定的相似性，但产生的图像较模糊，过于平滑，如图5的第二行第二列所示，图像眼睛虽然有大致的轮廓，但非常模糊，并且有明显的局部色差。虽然GL修复的图像在上下文语义上取得了更好的结果，进一步细化了纹理，但不能保证局部与整体的一致性，还是存在区域边界明显和纹理细节损失严重的问题，如图6的第二行第三列修复结果所示，修复的房屋纹理细节缺失严重。PConv修复的图像进一步细化了纹理结构，获得了合理的纹理细节以及大致正确的上下文语义，但是不能保证局部一致性，存在局部色差现象，如图5第四行第四列所示，图像人物面部虽然生成了细节纹理，但存在局部色差问题。从图5和图6的修复结果可以看出，本发明提出的方法PRGAN修复后的图像，修复区域基本没有伪边界，而且能产生合理的纹理结构以及正确的上下文语义，对局部色差问题有明显改善，大幅度增强了视觉效果和图像质量，体现出本发明提出方法PRGAN在不规则掩模情况下的图像修复优越性，如图5第三行第五列所示，在对人的侧脸图像修复时，本发明提出方法修复的结果，在人物面部和背景区域均生成了细致的纹理，局部色差问题也得到了明显改善，修复图像更加自然和逼真。

本发明采用了Zhou等人^[30]提出的结构相似性(Structural Similarity，SSIM)和Quail等人^[31]提出的峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)作为图像修复性能度量指标。其中SSIM计算修复结果图像和真实图像亮度、对比度和结构之间的差值，从三个方面度量图像相似性，取值范围[0,1]，值越大，表示图像越相似，如式(16)所示，x和y分别表示结果图像和真实图像。

SSIM(x,y)＝[l(x,y)^α·c(x,y)^β·s(x,y)^γ] (16)

亮度相似性l(x,y)，如式(17)所示，其中μ_x是x的均值，μ_y是y的均值，c₁＝(k₁L)²，L是图像像素取值范围最大值，如果图像像素由B位二进制表示，则L＝2^B-1，k₁是常数，默认值为0.01。

对比度相似性c(x,y)，如式(18)所示，其中σ_x是x的标准差，σ_y是y的标准差，c₂＝(k₂L)²，k₂是常数，默认值为0.03。

结构相似性s(x,y)，如式(19)所示，其中σ_xy是x和y的协方差，

第二个度量指标PSNR，如式(20)所示，公式基于修复结果图像x和真实图像y之间像素点值的差，其中m和n是图像的尺寸大小，i和j是图像像素点坐标位置。PSNR值越大，表示修复效果越好。

如表1和表2所示，本小节比较了在CelebA Faces数据集和Places2数据集上，本发明提出的方法PRGAN与CE^[16]，GL^[5]和PConv^[8]修复结果的SSIM和PSNR值。从表1和表2的结果可以看出，在两个数据集上，PRGAN的SSIM和PSNR值相对于CE和GL有明显优势。相较于PConv，对于度量指标PSNR，在CelebA Faces数据集上，本发明方法PRGAN在表1中所示的四种不同掩膜率所代表的不同破损程度下，都取得了更好的结果。在Places2数据集上，对于度量指标SSIM，在两个数据集上，当存在较大破损程度时，即掩膜率较大时，本发明提出的方法PRGAN相较于PConv取得了更高的SSIM值，只有当掩膜率在(0.01,0.25]时，得分与PConv相当，相差0.03左右。可能的原因是PConv方法使用了局部修复机制，在低掩模率情况下，缺失区域面积较小，PConv生成图像的局部色差问题并不明显，所以取得了较好的结果。而PRGAN图像修复机制是局部修复机制加全局修复机制，在较大缺失面积情况下，可以大幅度减轻局部色差现象，取得更好的视觉效果。所以综合两个数据集上的两个度量指标来看，本发明提出方法的性能相较于CE^[16]，GL^[5]和PConv^[8]，修复结果更好。

表1在CelebA Faces数据集上各方法的SSIM和PSNR值，加粗代表在单列上取得最优值

表2在Places2数据集上各方法的SSIM和PSNR值，加粗代表在单列上取得最优值

本发明分析比较了在Places2数据集上，掩模率为(0.25,0.40]的情况下，本发明提出的方法PRGAN与CE^[16]，GL^[5]和PConv^[8]的修复时间、模型参数量和迭代收敛速度。如表3所示，在修复时间和模型参数量方面，PRGAN相较于CE和GL有明显优势，但比PConv略有增加，这是因为PRGAN的修复网络模块PConv-GAN在PConv的基础上增加了判别器，同时增加了优化网络模块Res-GAN。图7中比较了本发明提出方法的两个模块：图像修复网络模块PConv-GAN和图像优化网络模块Res-GAN，与CE，GL和PConv的训练收敛速度，从图中可以看出，图像修复网络模块PConv-GAN和图像优化网络模块Res-GAN相较于CE，GL和PConv而言，在收敛速度和稳定性上均有较大程度提升。

表3各个方法训练时间和训练参数量对比表

	CE<sup>[16]</sup>	GL<sup>[5]</sup>	PConv<sup>[8]</sup>	PRGAN
					修复时间(单张图像)	0.18564s	0.12865s	0.03577s	0.04694s
参数量	86,844,424	625,627,193	32,865,248	45,501,413

需要说明的是，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种生成式对抗网络的图像修复模型，其特征在于，该图像修复模型包括以下步骤：

步骤一：将部分卷积操作运用于生成式对抗网络中，构建了一个编解码结构的生成器，其中编码模块的卷积层由三个部分组成：部分卷积层，批量归一化层和Relu层，共包含八个卷积层；解码模块的卷积层由四个部分组成：上采样层，连接层，部分卷积层和批量归一化层，共包含八个卷积层，这两部分一起构建一个具有16层部分卷积编解码结构的生成器，构建了一个深度卷积的判别器，判别器的由10层卷积块组成，共分为两类不同卷积块，S1卷积块是由步长为1的卷积层，批量归一化层和LeakyRelu层组成；S2卷积块是由步长为2的卷积层，批量归一化层和LeakyRelu层组成，判别器中前八层由中S1和S2交替组合，最后两层为全连接层；

步骤三：构建了一个深度残差网络生成器，其结构包括两个阶段的模块，第一阶段是初步特征提取，由一个内核大小为9，通道数为32，步长为1的卷积层组成；第二个阶段是深度特征提取，由16个多尺度扩张卷积残差块组成，每个残差块是由4个扩张卷积块和残差连接块组成，达到对不同尺度特征融合的目的；判别器由12层卷积块组成，共分为两类不同卷积块，S1卷积块是由步长为1的卷积层，批量归一化层和LeakyRelu层组成；S2卷积块是由步长为2的卷积层，批量归一化层和LeakyRelu层组成，判别器中前十层由中S1和S2交替组合，最后两层为全连接层；

步骤五：网络训练时，图像修复网络模块PConv-GAN的损失函数由非遮掩区域的修复损失、遮掩区域的修复损失、感知损失、风格损失、对抗损失和总变差损失组成；图像优化网络模块Res-GAN的损失由内容损失、感知损失、对抗损失构成，两个模块中的感知损失，是计算非缺失区域的真实图像加上缺失区域的预测图像的组合，利用从vgg-19和DenseNet两个预训练的网络中提取出的图像特征，与真实图像利用从预训练的网络中提取出的图像特征，这两个不同图像特征之间的绝对差值，两个模块中的感知损失，通过计算修复图像和真实图像在不同预训练网络的不同层输出的差值来获得。