CN110348330A

CN110348330A - 基于vae-acgan的人脸姿态虚拟视图生成方法

Info

Publication number: CN110348330A
Application number: CN201910549376.0A
Authority: CN
Inventors: 于力; 肖芳; 邹见效; 徐红兵; 杨瞻远
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-18
Anticipated expiration: 2039-06-24
Also published as: CN110348330B

Abstract

本发明公开了一种基于VAE‑ACGAN的人脸姿态虚拟视图生成方法，构建VAE‑ACGAN网络，包括编码器E、生成器G和判别器D，其中编码器E和生成器G构成变分自编码器VAE，生成器G和判别器D构成辅助分类‑生成对抗网络ACGAN，然后分别获取ACGAN训练样本集和VAE训练样本集，采用ACGAN训练样本集对生成器G和判别器D进行训练，然后固定生成器G和判别器D的参数，采用VAE训练样本集对编码器E进行训练，得到训练好的VAE‑ACGAN网络，将需要生成目标姿态角度虚拟视图的人脸图像输入训练好的VAE‑ACGAN网络，生成器G生成的人脸图像即为目标姿态角度虚拟视图。本发明所构建的VAE‑ACGAN网络，对输入图像的姿态变化具有较好的鲁棒性，可以有效提高生成的虚拟视图质量。

Description

基于VAE-ACGAN的人脸姿态虚拟视图生成方法

技术领域

本发明属于机器学习技术领域，更为具体地讲，涉及一种基于VAE-ACGAN的人脸姿态虚拟视图生成方法。

背景技术

生物特征识别技术通过提取人体的生物特征进行身份鉴别，常用的生物特征有包括指纹、人脸、虹膜、静脉等。与其他的生物特征相比，人脸以其稳定性、易推广、易被用户接受和唯一性等优点受到越来越多人的关注和研究。从而被广泛应用在各个领域中。虽然该技术在理想可控的环境下，有较好的研究成果，但是在不可控的真实自然环境中，识别的精度下降较为明显。姿态变化是人脸识别中最为常见且造成识别率下降的直接因素。针对姿态变化的研究也是目前人脸识别领域的重难点。因此，对多姿态人脸的识别算法研究具有巨大的现实意义和实用价值。

多姿态人脸识别算法中，人脸的姿态变化会导致识别率的下降，主要是因为当人脸发生偏转、或者俯仰时，会导致正面人脸的信息缺失，从而影响算法的识别性能。针对该问题，除了早期的传统方法如基于二维图像的多姿态人脸识别算法之外，也涌现了很多基于图像三维重建的算法以及基于深度学习的方法。目前主流的方法大多是基于姿态校正和虚拟多姿态视图实现的多姿态人脸识别。

在目前已有的多姿态虚拟视图生成算法中，大多是通过单张样本生成多张虚拟人脸样本，其主要难点在于生成的虚拟样本存在模糊、畸变且对输入图像的姿态变化没有鲁棒性。为了解决该问题，国内外的研究方向大概分为两个方向：一是基于函数映射的方法，该方法通过函数计算姿态变化前后的人脸图像像素的位置，从而生成多姿态的人脸，这种方法实现简单但生成的姿态与真实姿态存在一定的偏差。而是基于3D建模的方法，通过正面人脸图像建立三维模型，然后经过旋转、投影等处理实现虚拟视图的生成。虽然该方法在一定条件下能提升多姿态人脸识别的性能，但是重建模型耗时较长且实时性较差，当待识别对象的偏转角度过大时，脸部信息缺失导致虚拟样本的生成质量不高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于VAE-ACGAN的人脸姿态虚拟视图生成方法，将变分自编码器VAE和辅助分类-生成对抗网络ACGAN进行结合，构建VAE-ACGAN网络，提高生成的虚拟视图质量。

为了实现以上发明目的，本发明基于VAE-ACGAN的人脸姿态虚拟视图生成方法包括以下步骤：

S1：构建VAE-ACGAN网络，包括编码器E、生成器G和判别器D，其中编码器E和生成器G构成变分自编码器VAE，生成器G和判别器D构成辅助分类-生成对抗网络ACGAN，编码器E对输入人脸图像进行编码，得到编码噪声的M维特征向量和编码角度的N维特征向量，根据需要设置目标姿态角度的N维特征向量，将噪声的M维特征向量和目标姿态角度的N维特征向量组合得到M+N维特征向量输入至生成器G，生成器G生成目标姿态角度的人脸图像，判别器D对生成器G所生成的人脸图像和目标姿态角度的真实人脸图像进行判别，得到分类角度与判别分数；

S2：获取若干目标姿态角度的人脸图像，归一化至生成器G的输出图像大小尺寸，构成ACGAN训练样本集；获取若干目标姿态角度的人脸图像以及相同人脸的其他角度的人脸图像，归一化至生成器G的输出图像大小尺寸，将相同人脸的其他角度的人脸图像作为源图像，对应的目标姿态角度的人脸图像作为目标图像，构成VAE训练样本集；

S3：生成M维噪声输入向量和N维角度输入向量，组合得到M+N维输入向量作为生成器G的输入，将ACGAN训练样本集中的人脸图像样本作为判别器D的真实人脸图像，对生成器G和判别器D进行训练；

S4：固定生成器G和判别器D的参数不变，将VAE训练样本集中的源图像作为编码器E的输入，目标图像作为判别器D中目标姿态角度的真实人脸图像，对编码器E进行训练，得到训练好的VAE-ACGAN网络；

S5：将需要生成目标姿态角度虚拟视图的人脸图像归一化至生成器G的输出图像大小尺寸，然后输入至训练好的VAE-ACGAN网络，生成器G生成的人脸图像即为目标姿态角度虚拟视图。

本发明基于VAE-ACGAN的人脸姿态虚拟视图生成方法，构建VAE-ACGAN网络，包括编码器E、生成器G和判别器D，其中编码器E和生成器G构成变分自编码器VAE，生成器G和判别器D构成辅助分类-生成对抗网络ACGAN，然后分别获取ACGAN训练样本集和VAE训练样本集，采用ACGAN训练样本集对生成器G和判别器D进行训练，然后固定生成器G和判别器D的参数，采用VAE训练样本集对编码器E进行训练，得到训练好的VAE-ACGAN网络，将需要生成目标姿态角度虚拟视图的人脸图像输入训练好的VAE-ACGAN网络，生成器G生成的人脸图像即为目标姿态角度虚拟视图。本发明将变分自编码器VAE和辅助分类-生成对抗网络ACGAN进行结合，构建VAE-ACGAN网络，对输入图像的姿态变化具有较好的鲁棒性，可以有效提高生成的虚拟视图质量。在基于本发明生成的虚拟视图作为样本库训练人脸识别模型时，可以有效提高人脸识别的准确度。

附图说明

图1是本发明基于VAE-ACGAN的人脸姿态虚拟视图生成方法的具体实施方式流程图；

图2是本发明中VAE-ACGAN模型的结构图；

图3是本实施例中所采用的编码器结构图；

图4是本实施例中编码器的下采样残差网络残差块的结构图；

图5是本实施例中所采用的生成器结构图；

图6是本实施例中生成器的上采样残差网络残差块的结构图；

图7是本实施例中所采用的判别器的结构图；

图8是本实施例中目标姿态角度的人脸图像示例图；

图9是本实施例中3幅人脸图像样本的9种目标姿态角度的虚拟视图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于VAE-ACGAN的人脸姿态虚拟视图生成方法的具体实施方式流程图。如图1所示，本发明基于VAE-ACGAN的人脸姿态虚拟视图生成方法的具体步骤包括：

S101：构建VAE-ACGAN模型：

VAE((Variational Auto-Encoder，变分自编码器)模型的核心思想是在自编码器的隐含层中加入隐变量来自动生成数据。VAE模型中包含编码器和解码器，编码器包括两个编码模块，一个编码模块用来计算均值，另一个编码模块用来计算方差，在计算均值的编码模块的输出结果上加上“高斯噪声”，可以使得解码器对噪声具有鲁棒性。ACGAN(AuxiliaryClassifier Generative Adversarial Network，辅助分类-生成对抗网络)网络主要分为两部分，一部分是生成器，另一部分是判别器。生成器的作用是根据输入的原始域图像及指定域的标签信息，生成对应指定域指定的图像。而判别器网络的作用是对输入的图像进行分类，判断其是真实图像还是生成图像，并输出其所属域信息。

为了生成具有姿态变化的多姿态虚拟样本，本发明将VAE模型中的解码器和ACGAN模型中的生成器合二为一，构成VAE-ACGAN模型。图2是本发明中VAE-ACGAN模型的结构图。如图2所示，本发明中VAE-ACGAN模型包括编码器E、生成器G和判别器D，其中编码器E和生成器G构成变分自编码器VAE，生成器G和判别器D构成辅助分类-生成对抗网络ACGAN，编码器E对输入人脸图像进行编码，得到重构噪声的M维特征向量和编码角度的N维特征向量，根据需要设置目标姿态角度的N维特征向量，将噪声的M维特征向量和目标姿态角度的N维特征向量组合得到M+N维特征向量输入至生成器G，生成器G生成目标姿态角度的人脸图像，判别器D对生成器G所生成的人脸图像和目标姿态角度的真实人脸图像进行判别，得到分类角度和判别分数。

在实际应用中，编码器E、生成器G和判别器D的具体网络结构可以根据实际需要进行设置。图3是本实施例中所采用的编码器结构图。如图3所示，本实施例中的编码器E包括卷积层、下采样残差网络和全连接层，其中卷积层用于深度学习，而残差网络主要用来解决深层网络的退化(degradation)问题。编码器E的输入为一个大小为128*128的三通道彩色图像，输入卷积层进行处理，卷积层的卷积核大小为3*3，卷积核移动步长stride＝1，特征图边界填充为1，无偏置。经过卷积层处理后输出维度为64*128*128的特征图，然后输入到下采样残差网络中。本实施例中下采样残差网络由5个残差块构成。图4是本实施例中编码器的下采样残差网络残差块的结构图。如图4所示，本实施例中下采样残差网络残差学习块包含级联的一层卷积层结构和一层卷积池化结构，均采用ReLU函数作为激活函数，卷积层结构和卷积池化结构中卷积层参数相同：卷积核大小为3*3，卷积核移动步长stride＝1，特征图边界填充为1，无偏置；卷积池化结构中的池化采用2维平均池化。经过下采样残差网络处理后输出维度为512*4*4的特征图，然后经过全连接层最后输出9*64和119*64的特征向量，其中9*64的特征向量是编码角度的特征向量，119*64的特征向量是编码噪声的特征向量。

图5是本实施例中所采用的生成器结构图。如图5所示，本实施例中生成器G包括第一卷积层、上采样残差网络结构和第二卷积层。生成器G的输入为119维的噪声特征向量以及9维的角度特征向量，组成128维特征向量，通过第一卷积层的处理得到512*4*4的特征图，然后输入到上采样残差网络中。生成器G中的上采样残差网络同样由5个残差块构成。图6是本实施例中生成器的上采样残差网络残差块的结构图。如图6所示，本实施例中上采样残差网络残差块包括级联的第一卷积层和第二卷积层，两层卷积层参数相同，卷积核大小为3*3，卷积核移动步长stride＝1，特征图边界填充为1，无偏置，第一卷积层的输出特征图经实例规范化操作和ReLU激活函数处理后输入第二卷积层，第二卷积层的输出特征图经ReLU激活函数处理后作为残差块的输出。经过上采样残差网络处理后输出64*128*128的特征图，输入到第二卷积层，其中参数和第一卷积层相同，第二卷积层输出一张与输入角度对应的大小为128*128的彩色图像。

图7是本实施例中所采用的判别器的结构图。如图7所示，本实施例中所采用的判别器D的结构与编码器E的结构相同，只是在输出的9*64和119*64特征向量中，将9*64的特征向量作为分类角度，将119*64的特征向量作为判别分数。

S102：获取训练样本：

获取若干目标姿态角度的人脸图像，归一化至生成器G的输出图像大小尺寸，构成ACGAN训练样本集。获取若干目标姿态角度的人脸图像以及相同人脸的其他角度的人脸图像，同样归一化至生成器G的输出图像大小尺寸，将相同人脸的其他角度的人脸图像作为源图像，对应的目标姿态角度的人脸图像作为目标图像，构成VAE训练样本集。

本实施例中训练数据集从MultiPIE数据集以及300wLP数据集中获取。MultiPIE数据集是由美国卡内基梅隆大学在限制场景下拍摄的带标签的数据集。该数据集包含了337个人组成的754200张图片，其中每个人的图像都包括13种不同姿态、表情、光照的人脸图像。300wLP数据集由中国科学院自动化研究所所提出的，该数据集将AFLW、AFW、IBUG、Helen、LFPW、XM2VTS等数据集进行了统一的标注所得到的。本实施例中设置9种目标姿态角度，分别为-60°、-45°、-30°、-15°、0°、15°、30°、45°、60°。图8是本实施例中目标姿态角度的人脸图像示例图。本实施例对于每种目标姿态角度，从MultiPIE数据集和300wLP数据集中选取200个人在20种光照、2种表情的图像共计120000张人脸图像，进行裁剪、归一化操作，将尺寸统一调整为128*128，所得到的人脸图像即构成各个目标姿态角度的ACGAN训练样本集。在构建VAE训练样本集地，源图像从当前目标姿态角度以外的相同人脸其他目标姿态角度中任意选取一张即可。

S103：ACGAN网络训练：

生成M维噪声输入向量和N维角度输入向量，组合得到M+N维输入向量作为生成器G的输入，将ACGAN训练样本集中的人脸图像样本作为判别器D的真实人脸图像，对生成器G和判别器D进行训练。

本实施例在ACGAN网络训练过程中，生成器G的损失函数采用如下公式计算：

其中，z表示噪声输入向量，P_x表示数据分布，P_z表示噪声的分布，v表示角度输入向量，x表示目标姿态角度的真实人脸图像，G(v,z)表示生成器G根据噪声输入向量z和角度输入向量v生成的伪人脸图像，D_v(G(v,z)表示将生成器G生成的伪人脸图像判定为真的概率，D_s(G(v,z)表示伪人脸图像的真实质量，P(D_v(G(v,z))＝v)表示判别器D在角度v下输出的概率分布，E[]表示求取期望，λ₃表示预设的参数，本实施例中设置λ₃＝1。在训练过程中，生成器G试图最小化该损失而判别器D试图将其最大化。

就判别器D而言，为了获得稳定的训练过程，生成更高质量的图像，本实施例在判别器D的损失函数中引入梯度惩罚项。判别器D的损失函数的计算公式如下：

其中，P_x表示数据分布，D_v(x)和D_s(x)是成对输出的判别器。其中D_v(x)表示估计特定角度视图。D_s(x)用来描述图像的质量，即如何才是真正的图像。即为梯度惩罚项，表示在生成的伪人脸图像G(v,z)和真实人脸图像x中采样得到的人脸图像，表示生成图像的分布，表示生成图像的质量的期望值，|| ||₂表示求取二范数，表示将判别器D的梯度的范数限制在常数1附近，λ₁表示梯度惩罚项的权重，本实施例中λ₁＝10。表示利用ACGAN的交叉熵损失函数，D_v(x)表示估计特定角度视图，P(D_v(x)＝v)表示估计特定角度视图的概率。λ₂表示交叉熵损失函数的权重，本实施例中λ₂＝1。

S104：VAE训练：

固定生成器G和判别器D的参数不变，将VAE训练样本集中的源图像作为编码器E的输入，目标图像作为判别器D中目标姿态角度的真实人脸图像，对编码器E进行训练，得到训练好的VAE-ACGAN网络。

记VAE训练样本集中一个训练样本的姿态角度为v_i的源图像为x_i，目标图像为x_j，采用编码器E和生成器G来重构输入的源图像，即采用源图像x_i来重构相同人脸不同角度的目标图像将源图像x_i输入编码器E，输出重构噪声的M维特征向量和编码角度的N维特征向量假定目标姿态角度的N维特征向量为v_j，将重构噪声的M维特征向量和目标姿态角度的N维特征向量v_j组合作为生成器G的输入，由生成器G输出一幅生成人脸图像，该人脸图像即为重构得到的目标图像最后采用判别器D来区分真实的目标图像x_j以及重构得到的目标图像得到相应分类角度和判别分数。因此本实施例中编码器E的损失函数l_E采用如下公式计算：

其中，表示生成角度v_j的图像质量，表示估计生成角度j的视图，表示生成角度为v_j的图像的真实角度为v_j的概率值，表示生成图像和真实图像的L1损失，E_v(x_i)表示角度为v_i的真实图像的期望值，L_v(E_v(x_i),v_i)表示估计真实视图的交叉熵损失，λ₃、λ₄、λ₅表示权重，本实施例中λ₃＝λ₄＝1，λ₅＝0.01。

S105：生成人脸姿态虚拟视图：

将需要生成目标姿态角度虚拟视图的人脸图像归一化至生成器G的输出图像大小尺寸，然后输入至训练好的VAE-ACGAN网络，生成器G生成的人脸图像即为目标姿态角度虚拟视图。

为了更好地说明本发明的技术效果，采用本实施例中采用9种目标姿态角度的训练样本训练得到的VAE-ACGAN网络进行实验验证。本次实验验证中选择3幅人脸图像样本进行测试，输入9种目标姿态角度的VAE-ACGAN网络，得到9种目标姿态角度的虚拟视图。图9是本实施例中3幅人脸图像样本的9种目标姿态角度的虚拟视图。如图9所示，最左侧3幅图像即为输入VAE-ACGAN网络的人脸图像样本a、样本b和样本c，其中a是标准正面人脸，b是右侧偏转60°的人脸，c是完全侧脸90°的样本。右侧从上到下第一排、第三排和第五排分别是样本a、样本b、样本c的9种不同目标姿态角度下的原始图像，第二排、第四排和第六排是基于本发明所提出的VAE-ACGAN网络生成的对应目标姿态角度的虚拟视图。

通过对图9中的原始图像和虚拟视图对比可以得知，基于标准正面人脸得到的虚拟视图效果最好。而对于小角度的姿态(-60°～60°)的输入，其视觉效果、清晰度虽然不如标准正面人脸，但整体的清晰度和身份保留信息较好。但当姿态角度偏转过大时，如完全侧脸的情况(样本c)，由于大角度的人脸缺失人脸的表征信息，导致生成图像的清晰度降低并存在一定的噪点，边缘的轮廓比较模糊，并有一定的轮廓扭曲。通过该实验，可以看出本发明所提出的VAE-ACGAN网络对于输入图像的姿态变化具有较好的鲁棒性，虽然对于完全侧脸的输入图像生成的虚拟视图清晰度较低，但对于在-60°～60°角度范围内的输入图像能有较好的生成效果。

为了说明本发明对于人脸识别的意义，将基于本发明生成虚拟视图的人脸识别方法与基于二元二次函数生成虚拟视图的人脸识别方法、基于3D模型生成虚拟视图的人脸识别方法进行对比测试，得到人脸识别的准确率。

第一组实验采用基于二元二次函数生成虚拟视图的人脸识别方法(对比方法一)。首先将所有的50个注册样本利用该二元二次函数生成对应的±15°、±45°四种不同的姿态，共计50*4＝200张虚拟人脸图像，然后将50张注册样本和200张虚拟人脸图像一起构成新的训练样本，即50注册人脸+200虚拟人脸＝250张人脸图像。直接利用MTCNN(Multi-taskconvolutional neural network，多任务卷积神经网络)检测人脸后输入FaceNet网络进行人脸识别实验。

第二组实验采用基于3D模型生成虚拟视图的人脸识别方法(对比方法二)。首先将所有的50个注册样本利用3D模型生成对应的±15°、±45°四种不同的姿态，共计50*4＝200张虚拟人脸图像，然后将50张注册样本和200张虚拟人脸图像一起构成新的训练样本，即50注册人脸+200虚拟人脸＝250张人脸图像。为了公平比对实验效果，测试样本和第一组实验相同，且也利用MTCNN检测人脸后基于FaceNet网络进行人脸识别实验。

第三组实验采用基于本发明生成虚拟视图的人脸识别方法。和第二组实验不同的是，采用本发明提出的VAE-ACGAN网络生成四种不同姿态(±15°、±45°)的虚拟人脸图像，同样将生成的虚拟人脸图像和注册样本一起构建为训练样本，共计50注册人脸+200虚拟人脸＝250张人脸图像。测试样本以及人脸识别的方法和与前面两组实验相同。表1是本发明与两种对比方法的人脸识别率对比表。

	对比方法一	对比方法二	本发明
				0°识别率	90％	94％	98％
+15°识别率	76.4％	81.8％	92.4％
				-15°识别率	75.2％	82.6％	90.6％
+45°识别率	63.4％	73.8％	86.4％
				-45°识别率	64.8％	74.4％	84.8％
平均识别率	73.96％	81.32％	90.44％

表1

从表1可以看出，当测试样本均为正面人脸时，三种方法的识别率都较高，均高于90％，当测试样本的姿态角度逐渐增加，三种方法的识别率均不如正面人脸的识别率，当姿态在45°时，基于二元二次函数生成虚拟视图的人脸识别方法的识别率明显下降到60％左右，但基于本发明生成虚拟视图的人脸识别方法其识别率在82％左右。从平均识别率来看，基于二元二次函数生成虚拟视图的人脸识别方法的平均识别率为73.96％，基于3D模型生成虚拟视图的人脸识别方法的平均识别率为80.72％，比二元二次函数的方法高7.36％，基于本发明生成虚拟视图的人脸识别方法的平均识别率为90.44％，明显高于其他两种方法。

基于以上人脸识别方法的对比实验结果及分析，可以验证本发明基于VAE-ACGAN的人脸姿态虚拟视图生成方法所生成在不同目标姿态角度的虚拟视图的质量优于一般算法，在进行多姿态人脸识别时，可以大大提高准确率。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于VAE-ACGAN的人脸姿态虚拟视图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的人脸姿态虚拟视图生成方法，其特征在于，所述编码器E包括卷积层、下采样残差网络和全连接层，编码器E的输入为一个大小为128*128的三通道彩色图像，输入卷积层进行处理，卷积层的卷积核大小为3*3，卷积核移动步长stride＝1，特征图边界填充为1，无偏置；经过卷积层处理后输出维度为64*128*128的特征图，然后输入到下采样残差网络中；经过下采样残差网络处理后输出维度为512*4*4的特征图，经过全连接层最后输出9*64和119*64的特征向量，其中9*64的特征向量是编码角度的特征向量，119*64的特征向量是编码噪声的特征向量；

所述生成器G包括第一卷积层、上采样残差网络结构和第二卷积层，生成器G的输入为119维的噪声特征向量以及9维的角度特征向量，组成128维特征向量，通过第一卷积层的处理得到512*4*4的特征图，输入到上采样残差网络中；经过上采样残差网络处理后输出64*128*128的特征图，输入到第二卷积层，其中参数和第一卷积层相同，第二卷积层输出一张与输入角度对应的大小为128*128的彩色图像；

所述判别器D的结构与编码器D的结构相同，在输出的特征向量中，将9*64的特征向量作为分类角度，将119*64的特征向量作为判别分数。

3.根据权利要求2所述的人脸姿态虚拟视图生成方法，其特征在于，所述下采样残差网络由5个残差块构成，每个残差块包含级联的一层卷积层结构和一层卷积池化结构，均采用ReLU函数作为激活函数，卷积层结构和卷积池化结构中卷积层参数相同：卷积核大小为3*3，卷积核移动步长stride＝1，特征图边界填充为1，无偏置；卷积池化结构中的池化采用2维平均池化。

4.根据权利要求2所述的人脸姿态虚拟视图生成方法，其特征在于，所述上采样残差网络由5个残差块构成，每个残差块包括级联的第一卷积层和第二卷积层，两层卷积层参数相同，卷积核大小为3*3，卷积核移动步长stride＝1，特征图边界填充为1，无偏置，第一卷积层的输出特征图经实例规范化操作和ReLU激活函数处理后输入第二卷积层，第二卷积层的输出特征图经ReLU激活函数处理后作为残差块的输出。