CN112800869B

CN112800869B - 图像人脸表情迁移方法、装置、电子设备及可读存储介质

Info

Publication number: CN112800869B
Application number: CN202110042819.4A
Authority: CN
Inventors: 姚光明; 袁燚; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2023-07-04
Anticipated expiration: 2041-01-13
Also published as: CN112800869A

Abstract

本申请实施例提供一种图像人脸表情迁移方法、装置、电子设备及可读存储介质，该方法包括：获取源图像以及驱动图像；采用预先训练得到的表情迁移模型，提取所述源图像的人脸特征并生成所述源图像的归一化信息，并根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，其中，所述归一化信息包括多个特征图的归一化参数，各特征图的归一化参数分别由所述表情迁移模型中的一个处理层处理得到。利用该方法，模型可以对各特征图进行全局规划，从而较好地保存源图像的外观信息，进而，模型基于该归一化信息，以及提取到的人脸特征、源图像以及驱动图像，可以人脸表情准确性更高的目标图像。

Description

图像人脸表情迁移方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种图像人脸表情迁移方法、装置、电子设备及可读存储介质方法及装置。

背景技术

二维(2D)人脸表情迁移是图像处理领域中的一种重要的人脸图像编辑技术。利用二维人脸表情迁移，可以使得用户将源人脸图像变换为另外的头部姿态和表情，以达到通过输入人脸图像来控制目标图像或视频中的人脸表情的目的。二维人脸表情迁移技术还可以应用在人脸识别中，为人脸识别模型提供一种数据增强方法。因此，成为研究的热点。

现有技术中，可以训练生成器实现图像的人脸表情迁移。将源图像、源图像的人脸关键点以及拥有变换后表情的目标人脸关键点作为输入参数输入至该生成器，生成器经过卷积等处理过程，可以得到重构后的图像，该重构后的图像包括源图像中的人脸，并且人脸的表情为变换后的表情。

但是，使用现有的方法所得到的重构后的图像存在人脸的表情不够准确的问题。

发明内容

有鉴于此，本申请实施例的目的在于提供一种图像人脸表情迁移方法、装置、电子设备及可读存储介质，用于解决现有技术中重构后的图像所存在的人脸表情不准确的问题。

第一方面，本申请实施例提供一种图像人脸表情迁移方法，包括：

获取源图像以及驱动图像，所述源图像中包括目标对象的人脸，所述目标对象的表情为迁移前的源表情，所述驱动图像包括迁移后的目标表情；

采用预先训练得到的表情迁移模型，提取所述源图像的人脸特征并生成所述源图像的归一化信息，并根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，所述目标图像包含所述目标对象的人脸，且所述目标对象的表情为所述目标表情，其中，所述归一化信息包括多个特征图的归一化参数，各特征图的归一化参数分别由所述表情迁移模型中的一个处理层处理得到。

作为一种可选的实现方式，所述表情迁移模型包括：参数提取子模型，所述参数提取子模型包括：依次连接的多个下采样层以及依次连接的多个上采样层；

所述提取所述源图像的人脸特征并生成所述源图像的归一化信息，包括：

以所述源图像作为首个下采样层的输入信息，由各下采样层依次进行下采样处理，基于最后一个下采样层输出的特征图，得到所述源图像的人脸特征；

以所述源图像的人脸特征作为首个上采样层的输入信息，由各上采样层依次进行上采样处理，并基于每个上采样层输出的特征图得到所述归一化信息的一个归一化参数。

作为一种可选的实现方式，所述归一化参数包括：所述上采样层输出的特征图的均值和标准差。

作为一种可选的实现方式，所述表情迁移模型还包括：局部迁移子模型；

所述根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，包括：

分别根据所述源图像和所述驱动图像，得到所述源图像的局部关键点以及所述驱动图像的局部关键点，所述源图像的局部关键点包括所述目标对象的各五官部位的关键点；

从所述源图像中提取多个源五官子图像，每个源五官子图像分别包括一个五官部位的图像；

将所述源图像的局部关键点、所述驱动图像的局部关键点以及所述多个源五官子图像输入所述局部迁移子模型，得到多个迁移后五官子图像；

根据所述源图像的人脸特征、所述归一化信息以及所述多个迁移后五官子图像，得到所述目标图像。

作为一种可选的实现方式，所述表情迁移模型还包括：光流估计子模型，所述光流估计子模型包括：关键点提取网络；

所述分别根据所述源图像和所述驱动图像，得到所述源图像的局部关键点以及所述驱动图像的局部关键点，包括：

将所述源图像和所述驱动图像输入所述关键点提取网络，得到所述源图像的人脸关键点以及所述驱动图像的人脸关键点；

分别从所述源图像的人脸关键点以及所述驱动图像的人脸关键点中截取所述源图像的局部关键点以及驱动图像的局部关键点。

作为一种可选的实现方式，所述分别从所述源图像的人脸关键点以及所述驱动图像的人脸关键点中截取所述源图像的局部关键点以及驱动图像的局部关键点之前，还包括：

根据所述源图像的人脸关键点，对所述驱动图像的人脸关键点进行变形处理，变形处理后的所述驱动图像的人脸关键点所表征的五官分布与所述源图像的人脸关键所表征的五官分布相同。

作为一种可选的实现方式，所述光流估计子模型还包括：光流估计网络，所述光流估计网络以所述源图像的人脸关键点以及所述驱动图像的人脸关键点为输入信息，并对所述源图像的人脸关键点以及所述驱动图像的人脸关键点进行光流估计，得到所述源图像到所述驱动图像的光流信息；

所述根据所述源图像的人脸特征、所述归一化信息以及所述多个迁移后五官子图像，得到所述目标图像，包括：

对所述源图像的人脸特征以及所述源图像到所述驱动图像的光流信息进行映射处理，得到所述源图像的目标人脸特征，所述目标人脸特征包含所述源图像到所述驱动图像的光流信息；

根据所述源图像的目标人脸特征、所述归一化信息以及所述多个迁移后五官子图像，得到所述目标图像。

作为一种可选的实现方式，所述表情迁移模型还包括：融合子模型，所述融合子模型包括依次连接的多层融合网络，每层融合网络包括：归一化层以及上采样层；

所述根据所述源图像的目标人脸特征、所述归一化信息以及所述多个迁移后五官子图像，得到所述目标图像，包括：

对所述目标人脸特征以及所述多个迁移后的五官子图像进行堆叠处理，得到堆叠后特征图；

将所述堆叠后特征图以及所述归一化信息中的首个归一化参数输入首层融合网络的归一化层，由所述首层融合网络的归一化层进行归一化处理，得到归一化处理后的特征图；

将所述归一化处理后的特征图输入所述首层融合网络的上采样层，得到所述首层融合网络输出的中间特征图；

根据所述首层融合网络输出的中间特征图、所述多个迁移后的五官子图像以及与各层融合网络对应的归一化信息的归一化参数，基于所述首层融合网络之后的融合网络，得到所述目标图像。

作为一种可选的实现方式，所述由所述首层融合网络的归一化层进行归一化处理，得到归一化处理后的特征图，包括：

由所述首层融合网络的归一化层计算所述堆叠后特征图的均值和标准差；

根据所述堆叠后特征图的均值和标准差进行归一化处理，得到归一化处理后的特征图。

作为一种可选的实现方式，所述将所述堆叠后特征图以及所述归一化信息中的首个归一化参数输入首层融合网络的归一化层之前，还包括：

基于关键点变换矩阵，对所述迁移后的五官子图像进行变换处理，得到变换后的迁移后的五官子图像。

第二方面，本申请实施例提供一种图像人脸表情迁移装置，包括：

获取模块，用于获取源图像以及驱动图像，所述源图像中包括目标对象的人脸，所述目标对象的表情为迁移前的源表情，所述驱动图像包括迁移后的目标表情；

处理模块，用于采用预先训练得到的表情迁移模型，提取所述源图像的人脸特征并生成所述源图像的归一化信息，并根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，所述目标图像包含所述目标对象的人脸，且所述目标对象的表情为所述目标表情，其中，所述归一化信息包括多个特征图的归一化参数，各特征图的归一化参数分别由所述表情迁移模型中的一个处理层处理得到。

处理模块具体用于：

作为一种可选的实现方式，处理模块具体用于：

处理模块具体用于：

作为一种可选的实现方式，处理模块具体用于：

第三方面，本一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如上述第一方面所述的图像人脸表情迁移方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面所述的图像人脸表情迁移方法的步骤。

本申请实施例的有益效果为：

在获取到具有源表情的源图像以及具有目标表情的目标图像之后，表情迁移模型可以从源图像中提取到源图像的人脸特征并且生成源图像的归一化信息，该归一化信息包括了多个特征图的归一化参数，每个归一化参数分别由模型中的一个处理层处理得到，因此，利用该归一化信息，模型可以对各特征图进行全局规划，从而较好地保存源图像的外观信息，进而，模型基于该归一化信息，以及提取到的人脸特征、源图像以及驱动图像，可以人脸表情准确性更高的目标图像。

另外，使用本申请，使得基于每个上采样层输出的特征图，均可以得到均值和标准差，并将均值和标准差作为一个归一化参数，各层上采样层对应的归一化参数共同组成上述的归一化信息用于后续的表情迁移，从而使得模型对于各层特征图的均值和标准差进行全局规划，以较好地保存源图像的外观信息，进而提升表情迁移结果的准确性。

另外，由局部迁移子模型得到源图像中各五官表情迁移后的五官子图像，利用这些图像，可以实现通过迁移后的局部五官显式地为人脸的整体迁移提供指导，从而进一步提升人脸表情迁移的准确性。

另外，对源图像的人脸特征和源图像到驱动图像的光流信息进行映射处理，可以指将该光流信息映射到源图像的人脸特征上，从而使得所得到的目标人脸特征包含了光流信息，因此，基于该目标人脸特征进行表情迁移时，可以解决模型重构后的图像存在扭曲、异常的纹理和模糊等问题，以提升迁移后图像的整体质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为现有技术中使用训练得到的生成器实现图像的人脸表情迁移的示意图；

图2为本申请实施例提供的图像人脸表情迁移方法的流程示意图；

图3为参数提取子模型的结构示意图；

图4为本申请实施例提供的图像人脸表情迁移方法的另一流程示意图；

图5为使用局部迁移子模型进行局部五官迁移的示意图；

图6为使用光流估计子模型的示意图；

图7为融合子模型的其中一层融合网络的示意图；

图8为基于上述目标人脸特征、上述归一化信息以及上述多个迁移后五官子图像得到目标图像的流程示意图；

图9为采用表情迁移模型实现表情迁移的完整示意图；

图10为训练得到表情迁移模型的流程示意图；

图11为本申请实施例提供的图像人脸表情迁移装置的模块结构图；

图12为本申请另一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为现有技术中使用训练得到的生成器实现图像的人脸表情迁移的示意图，如图1所示，将源图像I_s、源图像的人脸关键点L_s以及拥有变换后表情的目标人脸关键点L_t作为输入参数输入至该生成器，生成器经过卷积等处理过程，可以得到重构后的图像

该重构后的图像包括源图像中的人脸，并且人脸的表情为变换后的表情。其中，在训练过程中，真值图像和I_t用于指导生成器生成正确的结果。在训练过程中，源图像I_s和真值图像I_t具有同一身份，即源图像中的人脸和真值图像中的人脸是同一个人的人脸。

在现有技术的上述处理过程中，生成器的结构较为简单，生成器仅包括卷积层等处理层，因此，对于图像的表情迁移处理较为简单，因此，使用现有的生成器进行人脸表情迁移所得到的重构后的图像存在人脸的表情不够准确的问题。例如，目标人脸关键点对应的表情为睁大眼睛的表情，利用现有的生成器所生成的重构后的图像中，人脸的表情为闭上眼睛的表情。

另外，现有的生成器的表情迁移处理较为简单，因此，所生成的重构后的图像还存在扭曲、异常的纹理和模糊等问题。这些问题会导致重构后的图像的质量不佳。

本申请实施例基于上述问题，提出一种使用训练的表情迁移模型进行图像的人脸表情迁移的方法，该表情迁移模型中引入了外观适应的归一化机制，能够对图像的特征进行全局规划，从而能够较好地保存源图像的外观信息，进而使得模型输出的目标图像的人脸表情的准确性更高。

图2为本申请实施例提供的图像人脸表情迁移方法的流程示意图，该方法的执行主体可以为具有计算处理能力的电子设备。如图2所示，该方法包括：

S201、获取源图像以及驱动图像，该源图像中包括目标对象的人脸，该目标对象的表情为迁移前的源表情，驱动图像包括迁移后的目标表情。

可选的，上述目标对象可以指需要进行表情迁移的人。源图像中包括该目标对象的人脸，该人脸的表情为迁移前的源表情。利用下述的表情迁移模型，可以将源图像中目标对象的表情从源表情切换至驱动图像所具有的目标表情。应理解，经过表情迁移模型处理后的目标图像中的人脸仍然为目标对象的人脸，仅是目标对象的人脸表情由源表情切换为驱动图像所具有的目标表情。示例性的，源图像中目标对象的人脸表情为大哭的表情，驱动图像中的人脸表情为大笑的表情，则由表情迁移模型处理得到的目标图像为包含该目标对象的大笑表情的图像。

可选的，上述源图像所包括的人脸与上述驱动图像所包括的人脸可以具有同一身份，即源图像中的人脸和驱动图像中的人脸是同一个人的人脸。或者，也可以具有不同身份，即源图像中的人脸和驱动图像中的人脸不是同一个人的人脸。本申请的表情迁移模型对于上述两种情况均可以输出准确的目标图像。

可选的，在获取到源图像和驱动图像之后，可以根据实际的需要对源图像和/或驱动图像进行预处理，并将预处理后的图像输入表情迁移模型中进行处理。示例性的，源图像和/或驱动图像的尺寸较大，则可以对源图像和/或驱动图像进行裁剪，使其包含完整的人脸并且满足输入图像的尺寸要求。

S202、采用预先训练得到的表情迁移模型，提取上述源图像的人脸特征并生成上述源图像的归一化信息，并根据上述源图像、上述源图像的人脸特征、上述归一化信息以及上述驱动图像，得到目标图像。其中，上述目标图像包含上述目标对象的人脸，且上述目标对象的表情为上述目标表情，上述归一化信息包括多个特征图的归一化信息，各特征图的归一化信息分别由上述表情迁移模型中的一个处理层处理得到。

可选的，上述表情迁移模型可以预先使用训练样本训练得到，训练表情迁移模型的过程将在下述实施例中详细说明。

为便于描述，下述实施例中部分地将“表情迁移模型”简称为“模型”。

可选的，可以将上述的源图像和驱动图像输入表情迁移模型中，表情迁移模型可以提取到源图像的人脸特征并生成源图像的归一化信息。其中，源图像的人脸特征可以包括人脸特征图。源图像的归一化信息包括了多个特征图的归一化信息，每个特征图的归一化信息分别由表情迁移模型中的一个处理层得到。通过这种处理，使得模型可以基于各个处理层对应的归一化信息进行全局规划，以较好地保存源图像的外观信息，进而使得模型输出的目标图像的人脸表情的准确性更高。

在提取到源图像的人脸特征并且生成源图像的归一化信息之后，模型可以基于该人脸特征、归一化信息以及上述的源图像以及驱动图像，得到表情迁移后的目标图像。如前文所述的，该目标图像中的人脸仍然为源图像中目标对象的人脸，同时，在该目标图像中，目标对象的人脸表情由源表情切换为驱动图像所具有的目标表情。

本实施例中，在获取到具有源表情的源图像以及具有目标表情的目标图像之后，表情迁移模型可以从源图像中提取到源图像的人脸特征并且生成源图像的归一化信息，该归一化信息包括了多个特征图的归一化参数，每个归一化参数分别由模型中的一个处理层处理得到，因此，利用该归一化信息，模型可以对各特征图进行全局规划，从而较好地保存源图像的外观信息，进而，模型基于该归一化信息，以及提取到的人脸特征、源图像以及驱动图像，可以人脸表情准确性更高的目标图像。

作为一种可选的方式，表情迁移模型中可以包括参数提取子模型，在该参数提取子模型中提取源图像的人脸特征以及生成上述归一化信息。

图3为参数提取子模型的结构示意图，如图3所示，该参数提取子模型可以包括：依次连接的多个下采样层以及依次连接的多个上采样层。为便于描述，图3中以依次连接的5个下采样层以及依次连接的4个上采样层进行示例性，应理解，这仅是一种示例，具体实施过程中，下采样层和上采样层的数量还可以为其他的数量。另外，如图3所示例的，在最后一个下采样层和首个上采样层之间，还包括两个连续的全连接层(FC)。全连接层用于对最后一个下采样层输出的特征图进行投影处理。具体实施时，参数提取子模型中也可以不包括全连接层，或者，仅设置一个全连接层，或者，设置更多数量的全连接层。

作为一种示例，每个下采样层可以包括卷积层、批归一化层(BatchNormalization，BN)、激活函数层(Rectified Linear Units，ReLU)、池化层等。每个上采样层可以包括上采样子层、卷积层、BN层、ReLU层等。

基于上述参数提取子模型的结构，在提取源图像的人脸特征以及归一化信息时，可以按照下述过程执行。

首先，以上述源图像作为首个下采样层的输入信息，由各下采样层依次进行下采样处理，基于最后一个下采样层输出的特征图，得到上述源图像的人脸特征(F_a)。进而，以所述源图像的人脸特征作为首个上采样层的输入信息，由各上采样层依次进行上采样处理，并基于每个上采样层输出的特征图得到上述归一化信息(θ)的一个归一化参数。

应理解，以上述源图像作为首个下采样层的输入信息，可以指将源图像对应的特征向量输入首个下采样层，源图像对应的特征向量可以以矩阵的形式输入该首个下采样层。为便于描述，本申请统一称作将“源图像”作为输入信息。

可选的，将源图像作为首个下采样层的输入信息，由该首个下采样层进行下采样处理，并输出特征图，该特征图再作为第二个下采样层的输入信息，由第二个下采样层进行下采样处理后输出特征图，并将该特征图作为第三个下采样层的输入信息，依次类推，可以得到最后一个下采样层输出的特征图。进而，可以基于该特征图得到上述源图像的人脸特征。一种示例中，如果上述最后一个下采样层与第一个上采样层之间不包括其他的处理层，则可以直接将该特征图作为源图像的人脸特征。另一种示例中，如果上述最后一个下采样层与第一个上采样层之间包括其他的处理层，例如上述图3所示的全连接层，参数提取子模型对于最后一个下采样层输出的特征图执行进一步的处理，则可以将第一个上采样层之前的一个处理层输出的特征图作为源图像的人脸特征。

在得到上述源图像的人脸特征的同时，将该源图像的人脸特征输入首个上采样层中，由首个上采样层进行上采样处理并输出特征图，该特征图再作为第二上采样层的输入信息，由第二个上采样层进行上采样处理后输出特征图，并将该特征图作为第三个上采样层的输入信息，依次类推。在上述处理过程中，每个上采样层均会输出特征图，模型基于每个上采样层输出的特征图，可以得到上述归一化信息的一个归一化参数。

作为一种可选的实施方式，上述归一化参数可以包括：上采样层输出的特征图的均值和标准差。

以上述图3所示例的参数提取子模型为例，每个上采样层均输出特征图，针对每个上采样层输出的特征图，模型将该特征图拆分成均值和标准差，该均值和标准差分别为一个特征图。该均值和标准差即作为基于该上采样层所得到的一个归一化参数。应理解，本实施例中，一个上采样层即为前述实施例中所述的一个处理层，由该上采样层可以得到上述一个归一化参数。以下通过公式进行示意。

假设上述归一化信息为θ，则θ＝{θ₁,…θ_i,…,θ_n；θ_i＝{γ_i,β_i}}，其中，γ_i,β_i分别为基于第i个上采样层输出的特征图所拆分得到的均值和标准差。

经过上述的处理，使得基于每个上采样层输出的特征图，均可以得到均值和标准差，并将均值和标准差作为一个归一化参数，各层上采样层对应的归一化参数共同组成上述的归一化信息用于后续的表情迁移，从而使得模型对于各层特征图的均值和标准差进行全局规划，以较好地保存源图像的外观信息，进而提升表情迁移结果的准确性。

以上，对模型提取源图像的人脸特征以及生成归一化信息的过程进行了说明。以下，对模型基于人脸特征、归一化信息、源图像和驱动图像进行表情迁移的过程进行说明。

作为一种可选的实施方式，模型可以以上述归一化信息和人脸特征为参数，按照驱动图像对源图像进行整体性的表情迁移，从而得到上述的目标图像。

作为另一种可选的实施方式，本申请采用局部迁移与全局迁移相结合的方式，首先对源图像中人脸的五官进行迁移，再使用迁移后的五官以及上述得到的归一化信息指导整个源图像的人脸表情迁移。以下对这种方式进行说明。

针对这种方式，可选的，表情迁移模型中还包括：局部迁移子模型。基于该局部迁移子模型进行表情迁移的过程如下。

图4为本申请实施例提供的图像人脸表情迁移方法的另一流程示意图，如图4所示，基于上述局部迁移子模型，根据源图像、源图像的人脸特征、归一化信息以及驱动图像得到目标图像的一种可选方式包括：

S401、分别根据上述源图像和上述驱动图像，得到上述源图像的局部关键点以及上述驱动图像的局部关键点，该源图像的局部关键点包括上述目标对象的各五官部位的关键点。

另外，上述驱动图像的局部关键点包括驱动图像中的人脸的各五官部位的关键点。

可选的，可以对上述源图像和驱动图像分别进行关键点提取，并按照五官的分布，从源图像的完整关键点中分别截取各五官对应的局部关键点，以及从驱动图像的完整关键点中分别截取各五官对应的局部关键点。

S402、从上述源图像中提取多个源五官子图像，每个源五官子图像分别包括一个五官部位的图像。

可选的，可以按照源图像中五官的分布，对源图像进行截取，从而截取出各五官对应的源五官子图像。其中，源图像中五官的分布，可以在模型训练阶段学习得到。

示例性的，从源图像中提取的源五官子图像包括：左眼的图像、右眼的图像、鼻子的图像以及嘴巴的图像。

S403、将上述源图像的局部关键点、上述驱动图像的局部关键点以及上述多个源五官子图像输入上述局部迁移子模型，得到多个迁移后五官子图像。

经过上述步骤S401和S402，模型可以得到源图像的局部关键点以及源五官子图像，以及驱动图像的局部关键点。这些信息可以输入上述的局部迁移子模型中，该局部迁移子模型可以输出各五官对应的迁移后图像。

可选，可以将上述多个源五官子图像分别作为一次输入，由局部迁移子模型输出一个源五官的迁移后图像，分别执行多次后，可以得到所有源五官的迁移后图像。其中，每次输入时，分别以一个源五官子图像、该源五官的局部关键点以及该源五官对应的驱动图像的局部关键点作为输入。

图5为使用局部迁移子模型进行局部五官迁移的示意图，如图5所示，该局部迁移子模型可以包括多个依次连接的下采样层、全连接层以及上采样层。其中，每个下采样层的具体结构以及每个上采样层的具体结构可以与前述的参数提取子模型中的结构相同，此处不再赘述。应理解，图5仅是局部迁移子模型的一种结构示例，局部迁移子模型中下采样层的数量、上采样层的数量、全连接层的数量也可以为其他的数量，本申请并不以此为限。

另外，图5示出的为对源图像中嘴巴进行局部表情迁移的过程。参照图5，经由前述步骤所得到的嘴巴的局部关键点为

嘴巴的源五官子图像为/>

驱动图像中嘴巴的局部关键点为/>

将这三个信息输入局部迁移子模型后，经由各下采样层、全连接层以及上采样层的处理之后，可以得到源图像中嘴巴的迁移后图像/>

如图5所示例的，驱动图像中嘴巴为闭合状，因此，经子模型处理后，源图像中的嘴巴从张开状迁移为闭合状。

S404、根据上述源图像的人脸特征、上述归一化信息以及上述多个迁移后五官子图像，得到上述目标图像。

使用局部迁移子模型依次对源图像的各五官进行迁移之后，得到多个迁移后五官子图像，利用这些迁移后的五官子图像以及前述得到的归一化信息，可以更加准确有效地指导整个源图像的人脸表情迁移。

本实施例中，由局部迁移子模型得到源图像中各五官表情迁移后的五官子图像，利用这些图像，可以实现通过迁移后的局部五官显式地为人脸的整体迁移提供指导，从而进一步提升人脸表情迁移的准确性。

作为一种可选的实施方式，上述步骤S401中在提取源图像和驱动图像的局部关键点时，可以通过关键点提取网络来提取。基于这一构思，本申请的表情迁移模型中还可以包括：光流估计子模型，该光流估计子模型中包括：关键点提取网络。

相应的，上述步骤S401的一种可选方式包括：

将上述源图像和上述驱动图像输入上述关键点提取网络，得到上述源图像的人脸关键点(S_s)以及上述驱动图像的人脸关键点(S_d)。进而，分别从上述源图像的人脸关键点以及上述驱动图像的人脸关键点中截取上述源图像的局部关键点

以及驱动图像的局部关键点/>

可选的，上述关键点提取网络可以通过关键点检测得到源图像的人脸关键点和驱动图像的人脸关键点。

如前文所述，源图像和驱动图像可以具有不同的身份，即二者对应的人脸可以为不同的人脸，在这种情况下，驱动图像的人脸分布与源图像的人脸分布可能并不相同，因此，作为一种可选的实施方式，在从上述驱动图像的人脸关键点中截取局部关键点之前，可以首先根据源图像的人脸关键点，对驱动图像的人脸关键点进行变形处理，变形处理后的驱动图像的人脸关键点所表征的五官分布与源图像的人脸关键所表征的五官分布相同。

经过上述处理，使得驱动图像的人脸关键点的五官分布与源图像的人脸关键点的五官分布相同，进而使得所截取的驱动图像的局部关键点可以更加准确地用于后续的局部五官迁移。

作为一种可选的实施方式，在上述步骤S404中基于源图像的人脸特征、归一化信息以及多个迁移后五官子图像得到目标图像时，可以基于源图像到驱动图像的光流信息对源图像的人脸特征进行处理，使得模型在表情迁移时考虑到光流信息，从而解决现有技术中模型重构后的图像存在扭曲、异常的纹理和模糊等问题，以提升迁移后图像的整体质量。

基于上述的构思，可选的，上述的光流估计子模型还包括：光流估计网络，该光流估计网络以上述源图像的人脸关键点以及上述驱动图像的人脸关键点为输入信息，并对上述源图像的人脸关键点以及上述驱动图像的人脸关键点进行光流估计，得到上述源图像到上述驱动图像的光流信息。

图6为使用光流估计子模型的示意图，如图6所示，源图像(I_s)和驱动图像(I_d)被输入子模型的关键点提取网络，由关键点提取网络执行前述的处理并输出源图像的局部关键点

以及驱动图像的局部关键点/>

同时，由关键点提取网络所得到的源图像的人脸关键点(S_s)以及驱动图像的人脸关键点(S_d)被输入光流估计网络，由光流估计网络对源图像的人脸关键点和驱动图像的人脸关键点进行光流估计，从而得到源图像到驱动图像的光流信息。

在此基础上，上述步骤S404的一种可选方式包括：

首先，对上述源图像的人脸特征以及上述源图像到所述驱动图像的光流信息进行映射处理，得到所上述源图像的目标人脸特征，该目标人脸特征包含上述源图像到上述驱动图像的光流信息。进而，根据上述源图像的目标人脸特征、上述归一化信息以及上述多个迁移后五官子图像，得到上述目标图像。

可选的，对源图像的人脸特征和源图像到驱动图像的光流信息进行映射处理，可以指将该光流信息映射到源图像的人脸特征上，从而使得所得到的目标人脸特征包含了光流信息，因此，基于该目标人脸特征进行表情迁移时，可以解决模型重构后的图像存在扭曲、异常的纹理和模糊等问题，以提升迁移后图像的整体质量。

以下，对基于上述目标人脸特征、上述归一化信息以及上述多个迁移后五官子图像得到目标图像的过程进行说明。

作为一种可选的实施方式，本申请的表情迁移模型还包括：融合子模型，可以利用该融合子模型完成表情迁移过程。

可选的，上述融合子模型可以包括依次连接的多层融合网络，每层融合网络均包括：归一化层以及上采样层。

图7为融合子模型的其中一层融合网络的示意图，如图7所示，融合网络中包括归一化层和上采样层，其中，上采样层中包括多个卷积、BN、ReLU、像素重组(PixelShuffle)层。

相应的，图8为基于上述目标人脸特征、上述归一化信息以及上述多个迁移后五官子图像得到目标图像的流程示意图，如图8所示，该过程包括：

S801、对上述目标人脸特征以及上述多个迁移后的五官子图像

进行堆叠处理，得到堆叠后特征图。

S802、将上述堆叠后特征图以及上述归一化信息中的首个归一化参数输入首层融合网络的归一化层，由上述首层融合网络的归一化层进行归一化处理，得到归一化处理后的特征图。

如前文所述，上述归一化信息可以包括多个归一化参数，在本实施例中，融合网络的数量可以与上述归一化参数的数量相同，相应的，首个融合网络可以以第一个归一化参数作为输入，第二个融合网络可以以第二个归一化参数作为输入，依次类推。

S803、将上述归一化处理后的特征图输入上述首层融合网络的上采样层，得到上述首层融合网络输出的中间特征图。

S804、根据上述首层融合网络输出的中间特征图、上述多个迁移后的五官子图像以及与各层融合网络对应的归一化信息的归一化参数，基于所述首层融合网络之后的融合网络，得到所述目标图像。

可选的，上述首层融合网络输出的中间特征图、上述多个迁移后的五官子图像以及第二个归一化参数作为第二个融合网络的输入，并得到第二个融合网络的中间特征图，进而，再以第二个融合网络输出的中间特征图、上述多个迁移后的五官子图像以及第三个归一化参数作为第三个融合网络的输入，并得到第三个融合网络的中间特征图，依次类推，将最后一个融合网络输出的中间特征图作为最终的特征图，并基于该特征图得到上述目标图像。

应理解，上述图7所示例的为任意一层融合的处理过程，其中，F_i为输入该层的人脸特征，F_i+1为该层输出的中间特征图，γ_i,β_i为该层对应的归一化参数。

作为一种可选的实施方式，上述步骤S802的一种可选方式包括：

由上述首层融合网络的归一化层计算上述堆叠后特征图的均值和标准差，并根据上述堆叠后特征图的均值和标准差进行归一化处理，得到归一化处理后的特征图。

可选的，在归一化层中，首先逐像素、逐通道计算输入的堆叠后特征图的均值和标准差：

其中，

表示输入的特征图，i表示第i层,n表示第n个样本，c表示第c个通道，N表示样本数量，表示H,W特征图的高度和宽度。/>

表示i层c通道的均值，/>

表示i层c通道的标准差。

在得到堆叠后特征图的均值和标准差之后，可以通过下述公式对堆叠后特征图进行归一化操作，从而得到归一化后的特征图。

应理解，上述融合网络中的其他融合网络与采用上述的过程得到归一化处理后的特征图。

作为一种可选的实施方式，在上述步骤S802之前，还包括：

基于关键点变换矩阵，对上述迁移后的五官子图像进行变换处理，得到变换后的迁移后的五官子图像。

可选的，上述变换处理可以为相似变换，经过上述变换，使得五官子图像被变换至正确的位置上。

图9为采用表情迁移模型实现表情迁移的完整示意图，该图9中各子模型的处理过程已在前述实施例中进行了说明，可以参照前述的实施例，不再单独赘述。

以下对本申请的表情迁移模型的训练过程进行说明。

图10为训练得到表情迁移模型的流程示意图，如图10所示，训练过程包括：

S1001、将源图像I_s和驱动图像I_d输入训练模型中。

其中，源图像I_s和驱动图像I_d为同一人脸视频中截取的两帧图像。

S1002、由训练模型生成目标图像。

S1003、基于目标图像以及样本标记信息计算损失函数。

S1004、根据损失函数优化训练模型的参数。

S1005、若达到最大迭代次数，则将本次的训练模型作为前述的表情迁移模型。

其中，在上述步骤S1003中计算损失函数的过程中，可以使用下述三种损失函数。其中，下述的合成图

可以指训练模型输出的目标图像。

1、内容损失函数L_c。

为了直接对生成结果进行约束，可以通过预训练的VGG网络对驱动图I_d，合成图

分别计算得到一系列特征图，并计算二者间的L1误差。具体的，首先分别对驱动图I_d，合成图/>

进行下采样得到256×256，128×128，64×64分辨率的图像。接着，分别将每一张采样后的结果送入预训练的VGG网络中，得到一系列特征图。最后，计算对应分辨率的对应特征图的L1误差，并将所有项相加，计算过程如下：

其中，上述F_i(·)表示提取第i个特征图的函数，L是特征图数量，P表示图像金字塔采样数量。

2、局部损失函数L_local。

为了对生成的局部迁移图片进行约束，可以对双眼、鼻子和嘴巴的局部迁移结果分别计算内容损失函数，并将结果相加得到局部损失函数。局部损失函数如下：

3、对抗损失函数L_adv。

为了让生成的图片更加真实，还可以加入WGAN-GP对抗损失函数。该损失函数如下：

其中，D是判别器，

是I_d,/>

对线性均匀采样后的图片，/>

是判别器的梯度。

基于上述三种损失函数，本申请所使用的联合损失函数可表示为如下形式：

其中，λ为可调节权重。

图11为本申请实施例提供的图像人脸表情迁移装置的模块结构图，该图像人脸表情迁移装置实现的功能对应上述方法执行的步骤。如图11所示，该装置包括：

获取模块1101，用于获取源图像以及驱动图像，所述源图像包括目标对象的人脸，所述目标对象的表情为迁移前的源表情，所述驱动图像包括迁移后的目标表情。

处理模块1102，用于采用预先训练得到的表情迁移模型，提取所述源图像的人脸特征并生成所述源图像的归一化信息，并根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，所述目标图像包含所述目标对象的人脸，且所述目标对象的表情为所述目标表情，其中，所述归一化信息包括多个特征图的归一化参数，各特征图的归一化参数分别由所述表情迁移模型中的一个处理层处理得到。

作为一种可选的实施方式，所述表情迁移模型包括：参数提取子模型，所述参数提取子模型包括：依次连接的多个下采样层以及依次连接的多个上采样层；

处理模块1102具体用于：

作为一种可选的实施方式，所述归一化参数包括：所述上采样层输出的特征图的均值和标准差。

作为一种可选的实施方式，所述表情迁移模型还包括：局部迁移子模型；

处理模块1102具体用于：

作为一种可选的实施方式，所述表情迁移模型还包括：光流估计子模型，所述光流估计子模型包括：关键点提取网络；

处理模块1102具体用于：

作为一种可选的实施方式，处理模块1102具体用于：

作为一种可选的实施方式，所述光流估计子模型还包括：光流估计网络，所述光流估计网络以所述源图像的人脸关键点以及所述驱动图像的人脸关键点为输入信息，并对所述源图像的人脸关键点以及所述驱动图像的人脸关键点进行光流估计，得到所述源图像到所述驱动图像的光流信息；

处理模块1102具体用于：

作为一种可选的实施方式，所述表情迁移模型还包括：融合子模型，所述融合子模型包括依次连接的多层融合网络，每层融合网络包括：归一化层以及上采样层；

处理模块1102具体用于：

作为一种可选的实施方式，处理模块1102具体用于：

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

需要说明的是，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

图12为本申请另一实施例提供的电子设备的结构示意图，如图12所示，该电子设备包括：处理器1201和存储器1202，其中：

存储器1202用于存储程序，处理器1201调用存储器1202存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像人脸表情迁移方法，其特征在于，包括：

采用预先训练得到的表情迁移模型，提取所述源图像的人脸特征并生成所述源图像的归一化信息，并根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，所述目标图像包含所述目标对象的人脸，且所述目标对象的表情为所述目标表情，其中，所述归一化信息包括多个特征图的归一化参数，各特征图的归一化参数分别由所述表情迁移模型中的一个处理层处理得到；

所述表情迁移模型包括：参数提取子模型，所述参数提取子模型包括：依次连接的多个下采样层以及依次连接的多个上采样层；

2.根据权利要求1所述的方法，其特征在于，所述归一化参数包括：所述上采样层输出的特征图的均值和标准差。

3.根据权利要求1或2所述的方法，其特征在于，所述表情迁移模型还包括：局部迁移子模型；

4.根据权利要求3所述的方法，其特征在于，所述表情迁移模型还包括：光流估计子模型，所述光流估计子模型包括：关键点提取网络；

5.根据权利要求4所述的方法，其特征在于，所述分别从所述源图像的人脸关键点以及所述驱动图像的人脸关键点中截取所述源图像的局部关键点以及驱动图像的局部关键点之前，还包括：

6.根据权利要求4所述的方法，其特征在于，所述光流估计子模型还包括：光流估计网络，所述光流估计网络以所述源图像的人脸关键点以及所述驱动图像的人脸关键点为输入信息，并对所述源图像的人脸关键点以及所述驱动图像的人脸关键点进行光流估计，得到所述源图像到所述驱动图像的光流信息；

7.根据权利要求6所述的方法，其特征在于，所述表情迁移模型还包括：融合子模型，所述融合子模型包括依次连接的多层融合网络，每层融合网络包括：归一化层以及上采样层；

8.根据权利要求7所述的方法，其特征在于，所述由所述首层融合网络的归一化层进行归一化处理，得到归一化处理后的特征图，包括：

9.根据权利要求7所述的方法，其特征在于，所述将所述堆叠后特征图以及所述归一化信息中的首个归一化参数输入首层融合网络的归一化层之前，还包括：

10.一种图像人脸表情迁移装置，其特征在于，包括：

处理模块，用于采用预先训练得到的表情迁移模型，提取所述源图像的人脸特征并生成所述源图像的归一化信息，并根据所述源图像、所述源图像的人脸特征、所述归一化信息以及所述驱动图像，得到目标图像，所述目标图像包含所述目标对象的人脸，且所述目标对象的表情为所述目标表情，其中，所述归一化信息包括多个特征图的归一化参数，各特征图的归一化参数分别由所述表情迁移模型中的一个处理层处理得到；

所述处理模块具体用于：

11.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至9任一所述的图像人脸表情迁移方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的图像人脸表情迁移方法的步骤。