CN111243066A

CN111243066A - 一种基于自监督学习与生成对抗机制的人脸表情迁移方法

Info

Publication number: CN111243066A
Application number: CN202010020215.5A
Authority: CN
Inventors: 刘勇; 潘雨粟; 曾仙芳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-06-05
Anticipated expiration: 2040-01-09
Also published as: CN111243066B

Abstract

本发明提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法，包括：人脸身份与姿态自监督解耦网络设计步骤、生成对抗网络条件生成网络设计步骤、模型训练步骤以及整体框架预测步骤；人脸身份与姿态自监督解耦训练步骤使用一个多帧的形变自编码器来融合来自同一个视频序列的不同帧的人脸信息，并估计出能够代表身份的人脸图像，该图像通常趋向于正面人脸，与姿态无关且保持身份信息；将自监督学习与生成对抗机制应用到人脸表情与姿态迁移任务中，通过自监督方法解耦视频帧序列中的人脸身份与姿态信息，而无需使用有标注的数据集；同时使用生成对抗网络融合来自不同个体的身份与姿态信息并合成高质量人脸，实现人脸表情与姿态在个体间的迁移。

Description

一种基于自监督学习与生成对抗机制的人脸表情迁移方法

技术领域

本发明涉及深度学习应用技术领域，具体涉及一种基于自监督学习与生成对抗机制的人脸表情迁移方法。

背景技术

随着深度学习与图像处理领域技术的快速发展，人脸表情合成与迁移应用于诸多领域，例如电影制作、游戏制作、虚拟现实、人脸识别等。目前，人脸表情迁移方法主要采用经典的基于模型的参数化建模方法，或者是端到端的数据驱动的生成方法。

现有技术中，前者局限于预先定义的模型及其参数，难以完全表示头部姿态与面部表情；后者一般需要大量而且精细的人脸关键点标注，时间与人工成本昂贵。对于人脸表情迁移领域，其最关键的问题是如何从二维的图像中提取并解耦出人脸的身份与姿态信息，同时将来自不同个体的信息进行融合并再生成高质量的人脸图像。针对这种问题，目前亟待针对这一问题，设计相应而且合理的深度学习网络框架与训练方式，并充分利用大规模的无标注数据集进行训练，进而使网络生成人眼难以辨别的表情迁移图像。

发明内容

本发明针对现有技术中需要大量标注且生成图像质量不佳的技术问题，提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法，旨在通过自监督方法解耦视频帧序列中的人脸身份与姿态，无需使用有标注的数据集，同时使用生成对抗机制实现高质量人脸的合成，实现人脸表情与姿态从一个个体到另一个个体的迁移。

本发明的目的通过采取如下技术方案达到：

本发明提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法，在只有演说者人脸视频数据的前提下，能够学习到使用目标视频内的表情与姿态来驱动源图像中的人脸；该生成方法包括：人脸身份与姿态自监督解耦网络设计步骤、生成对抗网络条件生成网络设计步骤、模型训练步骤以及整体框架预测步骤；人脸身份与姿态自监督解耦训练步骤使用一个多帧的形变自编码器来融合来自同一个视频序列的不同帧的人脸信息，并估计出能够代表身份的人脸图像，该图像通常趋向于正面人脸，与姿态无关且保持身份信息；同时使用一个多尺度的自编码器来捕捉同一视频序列中的每一帧的全局形变信息，通过重建图像来学习每一帧的姿态信息；生成对抗网络条件生成训练步骤使用一组生成对抗网络，支持条件输入的生成器G从源视频得到身份图像为输入，并以目标视频的姿态信息为条件，进行有条件的图像生成，多尺度的判别器D则根据生成图像与真实图像进行判别；模型训练步骤主要是利用已构建的数据集对所设计的网络进行训练，进而获得网络权重；整体框架预测步骤主要是由人脸身份自编码器提取身份图像，人脸姿态自编码器提取目标人脸姿态表示，生成对抗网络根据这两者生成带有迁移表情的人脸图像。

具体的，操作步骤如下：

S1、人脸身份与姿态自监督解耦网络设计步骤，主要是致力于通过网络学习到能代表这两者的相互独立的特征；该步骤中包含了一个多帧的人脸身份自编码器F来提取人脸身份，融合多张人脸图像生成对应人脸的身份图像

同时，使用了一个多尺度的人脸姿态自编码器P来提取每一帧人脸的姿态特征

并跟据

与姿态信息重建输入图像，通过重建任务激励两个自编码器解耦信息；

S2、生成对抗网络设计步骤，主要是致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像；该步骤包含了一个带有条件的生成器G以人脸身份自编码器F生成的身份图像

为输入，以人脸姿态自编码器提取到的姿态特征

为条件，生成人脸表情迁移图像

多尺度的判别器D则通过判别生成图像与真实图像，激励支持条件输入的生成器G生成逼真的人脸图像；

S3、模型训练步骤，利用S1与S2中得到的人脸身份与姿态自监督解耦网络与生成对抗网络，以大规模、多模态的图像为输入，通过训练策略优化人脸身份自编码器F、人脸姿态自编码器P、支持条件输入的生成器G与多尺度的判别器D共4个网络，对输入图像进行重建，并将重建结果与输入图像进行判别，对网络模型进行优化与约束；

S4、整体框架预测步骤，给定一张提供人脸身份信息的源图像或视频与一张提供人脸姿态信息的目标图像或视频，由人脸身份自编码器F提取身份图像

人脸姿态自编码器P提取目标人脸的姿态特征

支持条件输入的生成器G分别以这两者为输入与条件，生成带有目标表情的人脸表情迁移图像

进一步地，步骤S1中，对人脸信息进行自监督解耦，分为人脸身份信息与人脸姿态信息两类；

步骤S1过程如下：

S11、本发明设计了人脸身份自编码器F，其接受多帧图像序列

作为输入，生成对应每一帧的不完整的身份图像候选

而后通过将其融合，得到具有完整人脸的身份图像

其中，i表示输入视频序列序号，n_view表示一次输入网络进行融合的图像数量，W与H分别代表了输入图像的宽度与高度。

对人脸身份图像的融合步骤具体如下：

S11A)、人脸身份自编码器F接受多帧图像序列

作为输入，并对每一帧都预测了一个位移场T∈R^H×W×2与一个注意力响应图A∈R^H×W×1。

S11B)、得到位移场T后，将输入图像

中的所有像素I_u，v按照位移场T中的运动向量T_u，v的指示进行位移，得到形变图像f_i ^t。经过网络的学习与训练，无论输入何种姿态的图像，其对应的形变图像f_i ^t均趋向于正脸图像，只是根据原始输入图像的姿态有不同程度的细节缺失。

S11C)、自编码器预测得到的注意力响应图A则主要用于表示在后续融合过程中的相对重要性，与形变图像f_i ^t点乘后得到该帧对应的身份图像候选

保证之后融合过程的顺利进行。

S11D)、人脸身份自编码器F将输入每一帧对应的身份图像候选

融合，成为多帧融合的完整的身份图像

S12、本发明设计了人脸姿态自编码器P，其任务是以一帧图像

作为输入，学习如何将从人脸身份自编码器得到的身份图像

上的像素通过位移与形变的手段，重建输入图像。与此同时，其还需要学习到有意义的姿态特征

用于后续的生成对抗网络中。

对人脸图像的中姿态信息的提取与重建步骤具体如下：

S12A)、该自编码器P先将输入图像进行编码，得到姿态特征

而后进行解码；其最后三个网络层分别输出一个位移场T^-1与两个残差响应图R_L与R_H；位移场T^-1内含有姿态信息，用以将身份图像

还原为带有姿态的图像；此处生成的位移场空间尺寸为H/4×W/4，而不是输入图像与身份图像的完整尺寸H×W；两个残差响应图主要是通过残差的方式提升图像的分辨率，并增加细节信息。

S12B)、身份图像

缩放到H/4×W/4后，与位移场T^-1进行采样结合，得到低分辨率H/4×W/4的重建图像。

S12C)、低分辨率的重建图像经过差值扩大一倍后，与残差响应图R_L相加，得到H/2×W/2分辨率的图像。

S12D)、该图像再与残差响应图R_H进行上述操作，最终得到全尺寸H×W的重建图像

进一步地，所述的S2步骤中，所述的用以生成人脸表情迁移图像的生成对抗网络包含了支持条件输入的生成器G与多尺度的判别器D两个网络。

步骤S2过程如下：

S21、本发明设计了一个支持条件输入的生成器G，将来自人脸身份自编码器F的身份图像

与来自人脸姿态自编码器P的姿态特征

进行融合，得到人脸表情迁移图像

对表情迁移图像生成步骤具体如下：

S21A)、将来自人脸身份自编码器F的身份图像

输入网络，通过下采样部分G_down，得到编码表示；

S21B)、将编码表示送入中间部分G_mid与上采样部分G_up，并将与来自人脸姿态自编码器P的姿态特征

作为条件输入网络，生成得到人脸表情迁移图像

条件与输入的融合过程通过自适应实例归一化层实现，改层首先将来自上一层的输入经过实例归一化，使其在N与C空间维度上呈标准正态分布；而后将姿态表示

经过一层共享的全连接层，而后经过各自另一层全连接层，分别得到之后使用的标准差γ与均值β；最后将经过归一化的输入，使用由条件信息得到的标准差γ与均值β进行反归一化，得到融合后的输出。

S22、本发明设计了一个多尺度的判别器D，使用了3个判别器D₁、D₂与D₃，分别对应输入空间尺寸H×W、H/2×W/2与H/4×W/4；这些子判别器除了输入图像尺寸有所区别之外，其网络结构均相同；生成图像与真实图像首先在通道维度上进行连接，而后缩放到3个尺度上并送入对应的子判别器；子判别器则分别从不同尺度对输入图像进行判别，分辨真假；虽然3个子判别器的网络结构相同，但是D₃由于其拥有最大的感受野，所以更倾向于捕捉全局的特征，并激励支持条件输入的生成器G生成在全局上与真实图像相同的生成图像；D₁由于其拥有最小的感受野，所以更倾向于局部的细节，并激励支持条件输入的生成器G生成在细节上与真实图像相似的生成图像。

进一步地，所述的S3步骤中，模型训练通过优化网络损失函数，实现模型的收敛。其中，网络损失函数设计过程如下：

S31、使用图像重建与平滑损失约束人脸身份自编码器F与人脸姿态自编码器P，具体表示如下：

S31A)、图像重建损失使用L1距离度量真值图像

与姿态自编码器的重建图像

S31B)、图像平滑损失使用总变差正则化，限制位移场T与T^-1中在横向与纵向上的梯度变化，

整个人脸特征自监督解耦网络的损失函数如下：

S32、使用对抗损失、图像重建损失与特征匹配损失约束生成对抗网络中的支持条件输入的生成器G与多尺度的判别器D，具体表示如下：

S32A)、对抗损失使用Hinge形式，多尺度的判别器D的损失

支持条件输入的生成器G的损失

S32B)、图像重建损失使用L1距离度量作为真值的输入图像

与来自支持条件输入的生成器G的重建图像

S32C)、特征匹配损失使用L1距离度量真值图像

与来自支持条件输入的生成器G的重建图像

在多尺度的判别器D上的特征表示，

整个人脸特征自监督解耦网络的损失函数如下：

网络训练步骤具体如下：

S33、首先使用大量的视频序列初始化人脸特征自监督解耦的两个网络人脸身份自编码器F与人脸姿态自编码器P，使其具备解耦人脸身份与人脸姿态的能力。

S34、其次，固定人脸特征自监督解耦网络的参数，将来自人脸身份自编码器F的身份图像

与来自人脸姿态自编码器P的姿态特征

训练生成对抗网络内的支持条件输入的生成器G与多尺度的判别器D。

S35、最后，通过对4个网络F、P、G、D进行联合训练，优化所有损失函数，实现网络模型的收敛，获得生成人脸表情迁移图像的网络结构与权重。

本发明相对于现有技术，具有如下的优点及效果：

本发明将自监督学习与生成对抗机制应用到人脸表情与姿态迁移任务中，通过自监督方法解耦视频帧序列中的人脸身份与姿态信息，而无需使用有标注的数据集；同时使用生成对抗网络融合来自不同个体的身份与姿态信息并合成高质量人脸，实现人脸表情与姿态在个体间的迁移。

附图说明

图1是本发明实施例中整体网络框架示意图；

图2是本发明实施例中效果图，第一列为提供身份信息的源图像，第一行为提供姿态信息的驱动图像，中间为被驱动的人脸表情迁移图像；

图3是本发明实施例中人脸身份自编码器F结构示意图；

图4是本发明实施例中人脸姿态自编码器P结构示意图；

图5是本发明实施例中支持条件输入的生成器G结构示意图；

图6是本发明实施例中多尺度的判别器D结构示意图。

具体实施方式

本发明实施例提供的方案中，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例

本发明实施例公开了具体涉及一种基于自监督学习与生成对抗机制的人脸表情迁移方法，主要涉及以下几类技术：1)人脸身份与姿态自监督解耦网络：利用大规模无标注视频数据集与自监督学习方法，解耦人脸身份与姿态特征；2)含有条件的生成对抗网络：利用解耦后的身份信息与姿态信息，在同一个体内进行图像重建，或者在不同个体间进行表情迁移；3)模型训练；4)整体框架预测步骤。

本发明实施例公开的一种基于自监督学习与生成对抗机制的人脸表情迁移方法，方法流程图如图1所示，主要过程包括模型训练和模型推断两个阶段。

在模型训练阶段：利用具有高计算能力的服务器对网络模型进行训练，通过降低网络损失函数来优化网络参数，直至网络收敛，获得基于自监督学习与生成对抗机制的人脸表情与姿态迁移网络权重；

在模型推断阶段：利用两个自编码器获得源图像的身份信息与目标图像的姿态信息，并送入生成对抗网络之中进行生成，得到表情迁移图像，如图2所示。

以下结合说明书附图对本发明实施例所提供的一种人脸表情迁移方法做进一步详细的说明，该方法具体实现方式可以包括以下步骤：

步骤1、整个自监督人脸信息解耦网络主要包含了两个子网络，分别对应人脸身份与人脸姿态。图3是人脸身份自编码器F的具体网络结构，图4是人脸姿态自编码器P的具体网络结构。该人脸信息解耦网络的具体实现方式可以包括以下处理步骤：

步骤101、人脸身份自编码器F接受n_view张3通道RGB彩色图像

同时输入。具体地，此处n_view可以取8，图像大小可取256×256。当数据集中的一个视频序列长度大于n_view时，将会从该序列中随机选取8张图像作为输入图像，并在每一轮训练时重新采样；当数据集中的一个视频序列长度小于n_view且大于n_view/2时，将会对序列中的图像进行数据增强，例如随机水平翻转、随机微小角度中心旋转、随机色彩抖动；当数据集中的一个视频序列小于n_view/2时，不采用该视频序列。

人脸身份自编码器F自身是一个U形的自编码器网络，其先对输入进行逐层的下采样，得到中间表示，而后对中间表示进行相同层数的上采样操作，最终进行输出。具体地，下采样部分被称为编码器，上采样部分被称为解码器。这两个部分各有8个卷积模块，编码器中的卷积模块是“激活函数-卷积-归一化”的结构，解码器中的卷积模块是“激活函数-差值上采样-卷积-归一化”的结构。每个卷积模块中，激活函数使用ReLU函数，卷积核大小为4×4，步长为1，填充为1，归一化使用批归一化操作。同时，其网络有跳跃-连接结构，编码器中的各个卷积模块的输出，将会输入到解码器中对应层级的卷积模块的输入中。在最后一层，人脸身份自编码器F输出一个位移场T∈R^H×W×2与一个注意力响应图A∈R^H×W×1，通过位移场T将输入图像

进行形变，产生形变图像

通过注意力响应图A与形变图像

进行点乘，得到身份图像候选

人脸身份自编码器F从输入生成得到每一帧的身份图像候选

后，由于已经经过了注意力响应图A的作用，可以直接通过相加取平均值的方式将n_view张身份图像候选

融合为一张具有完整人脸的身份图像

步骤102、人脸姿态自编码器P接受1张3通道RGB彩色图像

作为输入。与人脸身份自编码器F的网络结构类似，该自编码器也是一个U形网络，并包含编码器与解码器两个部分。两者的不同之处在于，人脸姿态自编码器P没有使用跳跃-连接结构，并且其最后三层均作为输出层，分别输出H/4×W/4×2大小的位移图T^-1、H/2×W/2×3大小的低分辨率残差图像R_L以及H×W×3大小的高分辨率残差图像R_H。

人脸姿态自编码器P的姿态特征

的维度是128维，从编码器的最后一层输出处取得。

重建图像可表示为

其中U表示差值上采样函数，此处采用双线性插值方法。重建图像是与输入图像空间尺寸相同的3通道RGB彩色图像。

步骤2、整个含有条件的生成对抗网络主要包含了两个子网络，分别是支持条件输入的生成器G与多尺度的判别器D。图5是支持条件输入的生成器G的具体网络结构，图6是多尺度的判别器D的具体网络结构。

该含有条件的生成对抗网络的具体实现方式可以包括以下处理步骤：

步骤201、支持条件输入的生成器G由下采样部分G_down、中间部分G_mid与上采样部分G_up组成。下采样部分G_down由4个普通的残差网络模块组成，每个残差网络模块的主干路径是“卷积-归一化-激活函数-卷积-归一化”的结构，其中卷积的卷积核大小为3×3，步长为1，填充为1；激活函数为ReLU；归一化方法为批归一化。中间部分G_mid与上采样部分G_up使用预激活顺序的条件残差网络模块，该模块的主干路径为“条件归一化-激活函数-卷积-条件归一化-激活函数-卷积”的结构，其中条件归一化方法使用自适应实例归一化层实现，全连接层的隐藏维度为256。其中卷积的卷积核大小为3×3，步长为1，填充为1；激活函数为ReLU。中间部分G_mid使用了9个条件残差网络模块；上采样部分G_up使用了4个条件残差网络模块，并在此基础上增加了额外的差值上采样层。

支持条件输入的生成器G网络的输入为3通道RGB彩色的身份图像

输入条件为128维的姿态特征

最终生成同尺寸的3通道RGB彩色的人脸表情迁移图像

步骤202、多尺度的判别器D所使用的三个子判别器，除了输入图像大小不同之外，其余网络结构均相同。该结构使用了5个卷积模块，每个模块是“卷积-归一化-激活函数”的结构。其中卷积的卷积核大小为3×3，步长为1，填充为1；激活函数为ReLU；归一化方法为批归一化。

多尺度的判别器D网络的输入为3通道RGB彩色的生成与真实图像，终得到输入图像真假的判别结果。

步骤3、模型训练，是在高性能的GPUs集群上进行的；学习率初始为0.001，后线性下降；优化器选用Adam方法，参数为0.9/0.9999；训练轮数数量总计为50；批尺寸为48组图像。

训练过程中，自监督人脸信息解耦网络的总损失函数为

其中λ_S取1。

含有条件的生成对抗网络的总损失函数为L_GAN＝L_ADV+λ_RL_R+λ_FML_FM，其中L_ADV代指对抗损失函数，且L_R与L_FM均取1。生成对抗网络采用双时间尺度更新法则，多尺度的判别器D的学习率设置为支持条件输入的生成器G的4倍，为0.004；在同一次迭代中，先更新的学习率设置为支持条件输入的生成器G，后更新多尺度的判别器D，每一次迭代均更新两者的参数。

训练过程中，先使用L_EMB来初始化自监督人脸信息解耦网络，进行30轮；而后固定自监督人脸信息解耦网络的参数，使用L_GAN初始化含有条件的生成对抗网络，进行1轮；最后同时使用L_EMB与L_GAN，针对4个网络F、P、G、D进行联合训练，直至其收敛。

步骤4、模型推断，通过人脸身份自编码器F提取源图像的身份图像

通过人脸姿态自编码器P提取目标图像的姿态特征

作为支持条件输入的生成器G的输入与条件，最后得到保持源图像身份且包含目标图像表情与姿态的人脸表情迁移图像

特别地，本发明提出的一种基于自监督学习与生成对抗机制的人脸表情迁移方法，在仅给定少量源图像数据样本(如1张)的情况下，仍能通过支持条件输入的生成器G补全其缺失信息，生成高质量的人脸表情迁移图像

上述实施例是本发明较佳的实施方式，但是本发明的实施方式不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于自监督学习与生成对抗机制的人脸表情迁移方法，其特征在于，包括下列步骤：

并跟据

S2、生成对抗网络设计步骤，主要是致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像；该步骤包含了一个支持条件输入的生成器G以人脸身份自编码器F生成的身份图像

为输入，以人脸姿态自编码器提取到的姿态特征

为条件，生成人脸表情迁移图像

一个多尺度的判别器D则通过判别生成图像与真实图像，激励支持条件输入的生成器G生成逼真的人脸图像；

人脸姿态自编码器P提取目标人脸的姿态特征

2.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法，其特征在于，所述的人脸身份自编码器F，其接受多帧图像序列

作为输入，生成对应每一帧的不完整的身份图像候选

而后通过将其融合，得到具有完整人脸的身份图像

其中，i表示输入视频序列序号，n_view表示一次输入网络进行融合的图像数量，W与H分别代表了输入图像的宽度与高度；

人脸身份自编码器F接受多帧图像序列

作为输入，并对每一帧都预测了一个位移场T∈R^H×W×2与一个注意力响应图A∈R^H×W×1；

得到位移场T后，将输入图像

中的所有像素I_u，v按照位移场T中的运动向量T_u，v的指示进行位移，得到形变图像f_i ^t；经过网络的学习与训练，无论输入何种姿态的图像，其对应的形变图像f_i ^t均趋向于正脸图像，只是根据原始输入图像的姿态有不同程度的细节缺失；

自编码器预测得到的注意力响应图A则主要用于表示在后续融合过程中的相对重要性，与形变图像f_i ^t点乘后得到该帧对应的身份图像候选

保证之后融合过程的顺利进行；

人脸身份自编码器F将输入每一帧对应的身份图像候选

融合，成为多帧融合的完整的身份图像

3.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法，其特征在于，所述的人脸姿态自编码器P，其任务是以一帧图像

作为输入，学习如何将从人脸身份自编码器得到的身份图像

上的像素通过位移与形变的手段，重建输入图像；与此同时，其还需要学习到有意义的姿态特征

用于后续的生成对抗网络中；

该自编码器P先将输入图像进行编码，得到姿态特征

还原为带有姿态的图像；此处生成的位移场空间尺寸为H/4×W/4，而不是输入图像与身份图像的完整尺寸H×W；两个残差响应图主要是通过残差的方式提升图像的分辨率，并增加细节信息；

身份图像

缩放到H/4×W/4后，与位移场T^-1进行采样结合，得到低分辨率H/4×W/4的重建图像；低分辨率的重建图像经过差值扩大一倍后，与残差响应图R_L相加，得到H/2×W/2分辨率的图像；该图像再与残差响应图R_H进行上述操作，最终得到全尺寸H×W的重建图像

4.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法，其特征在于，所述的用以生成人脸表情迁移图像的生成对抗网络包含了支持条件输入的生成器G与多尺度的判别器D两个网络；

一个支持条件输入的生成器G，将来自人脸身份自编码器F的身份图像

与来自人脸姿态自编码器P的姿态特征

进行融合，得到人脸表情迁移图像

其将来自人脸身份自编码器F的身份图像

输入网络，通过下采样部分G_down，得到编码表示；

将编码表示送入中间部分G_mid与上采样部分G_up，并将与来自人脸姿态自编码器P的姿态特征

作为条件输入网络，生成得到人脸表情迁移图像

经过一层共享的全连接层，而后经过各自另一层全连接层，分别得到之后使用的标准差γ与均值β；最后将经过归一化的输入，使用由条件信息得到的标准差γ与均值β进行反归一化，得到融合后的输出；

一个多尺度的判别器D，使用了3个子判别器D₁、D₂与D₃，分别对应输入空间尺寸H×W、H/2×W/2与H/4×W/4；这些子判别器除了输入图像尺寸有所区别之外，其网络结构均相同；生成图像与真实图像首先在通道维度上进行连接，而后缩放到3个尺度上并送入对应的子判别器；子判别器则分别从不同尺度对输入图像进行判别，分辨真假；虽然3个子判别器的网络结构相同，但是D₃由于其拥有最大的感受野，所以更倾向于捕捉全局的特征，并激励支持条件输入的生成器G生成在全局上与真实图像相同的生成图像；D₁由于其拥有最小的感受野，所以更倾向于局部的细节，并激励支持条件输入的生成器G生成在细节上与真实图像相似的生成图像。

5.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法，其特征在于，模型训练步骤通过优化网络损失函数，实现模型的收敛；

使用图像重建与平滑损失约束人脸身份自编码器F与人脸姿态自编码器P；图像重建损失使用L1距离度量作为真值的输入图像