CN113344777A

CN113344777A - 基于三维人脸分解的换脸与重演方法及装置

Info

Publication number: CN113344777A
Application number: CN202110882708.4A
Authority: CN
Inventors: 董晶; 王伟; 彭勃; 王建文
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-09-03
Anticipated expiration: 2041-08-02
Also published as: CN113344777B

Abstract

本发明提供基于三维人脸分解的换脸与重演方法及装置，具有同一套流程可同时实现任意人换脸和表情重演的特点，方法包括：应用三维形变模型拟合将给定的2D图像分解，得到三维分解参数：ID形状，表情和姿态；训练图像转化模型，模型的统一输入为：目标图像背景I ^sur、操纵后的3D人脸投影I ^shp、3D重演人脸表观图I ^app，模型输出为生成的换脸或重演图像；模型的训练损失为：约束生成图像与训练数据中的目标图像相似的重构损失L _rec和约束生成图像在ID上与输入图像相似的身份损失L _id；两项损失加权构成最终损失；优化所述最终损失，得到训练后的模型；将测试数据经三维人脸分解和人脸属性重组变换后，输入所述训练后的模型生成换脸视频及表情重演视频。

Description

基于三维人脸分解的换脸与重演方法及装置

技术领域

本发明涉及图像处理领域，具体涉及基于三维人脸分解的换脸与重演方法及装置。

背景技术

高质量图像生成和转化模型的发展激发了许多有趣的人脸操纵应用，例如人脸交换、人脸重演和人脸属性编辑等。人脸处理技术因其在娱乐、视觉效果、在线会议、虚拟化身等方面的潜在应用而备受关注。对这些技术的积极研究不仅提高了合成人脸的真实感，而且有助于促进伪造检测技术发展。

人脸交换和表情重演，如图1所示。对于表情重演，相关工作有Face2face和NeuralTexture，其中都只操纵面部表情。而更一般化的面部重演（或全头部重演），将表情和头部姿势都进行重演。但是当头部在视频中旋转时，当前的全头部重演通常在背景和头发中有很强的伪影。为了产生高质量的结果，Face2face在整个工作流程中使用了传统的CG技术，其中采用了人脸三维形变模型（3DMM）拟合、3D人脸重演和照片级真实感渲染。NeuralTexture方法使用3D渲染和深层神经渲染的组合，以获得更逼真的效果。然而，这些方法为每个给定的视频训练特定的模型，缺乏对任意人物的通用性。

早期的换脸或人脸交换方法主要是在图形学社区中使用复杂的技术进行研究。2017年，deepfake以其简单有效的自动编码器模型标志着基于深度学习的人脸交换时代的开始。Deepfake方法随后随着许多开源项目和快速增长的社区而蓬勃发展。在研究界，使用了一种改进的Deepfake方法来构建Celeb-DF数据集，以推进Deepfake检测方法的发展。迪士尼改进了deepfake，采用高分辨率和多人交换的视觉效果。然而这些换脸方法需要训练特定的一对一模型或多对一模型，限制了它们的通用性。许多最近的工作集中在研发更一般化的任意人脸交换模型或主体不可知模型。一些方法如FSGAN设计了多阶段的工作流，首先进行主体无关的全头部重演，然后通过混合或协调后处理将重演的源人脸拼接到目标图像。另一类方法如FaceShifter提出通过一个精心设计的转化模型直接提取和融合源身份和目标属性信息，然后使用另一个模型来处理遮挡情况。

公开号为CN111950497A公开了一种基于多任务学习模型的AI换脸视频检测方法，属于计算机视觉与深度学习领域，包括以下步骤：预先训练基于多任务学习的模型来检测被修改的换脸视频，并为每个查询定位修改的区域，此模型为自动编码器包括一个Y型自动解码器。利用半监督学习方法来提高网络的生成性，利用多任务之前共享有价值的信息，减少激活损失函数、分割损失函数和重建损失函数的总和，并使用优化器进行优化，进而提高性能。对于视频输入检测，对所有帧的概率进行求平均，得出输入为真或假的概率。

公开号为CN111291863A提供了一种换脸鉴别模型的训练方法、换脸鉴别方法、装置和设备，属于计算机技术领域，涉及人工智能和计算机视觉技术。本申请在训练换脸鉴别模型时，将同一样本对象的未换脸脸部样本图像和换脸脸部样本图像包含在一个样本图像组中，对换脸鉴别模型进行训练，并基于模型针对样本图像组生成的损失值调整换脸鉴别模型的参数。

经发现换脸与重演这两个任务的共同点在于，它们实际上是源和目标面部因素的不同组合，例如表情和身份信息。然而，目前的方法是独立处理这两个任务，单独解决面部交换或重演。虽然FSGAN能够同时执行面部交换和重演，但它最初的目标是背景模糊的全头部重影。它也有一个变种，即使用折衷嘴部区域重演方法来近似视频中的表情重影，但这种方法在嘴和下巴运动时存在不一致性。除了缺乏对这两种任务的普遍适用性之外，当前的许多工作还难以为人脸交换保留源人物脸部形状。这主要是因为它们直接生成基于目标面部形状表示的合成图像，而目标面部形状表示在大多数工作中是使用面部关键点，缺乏因素分解能力。

发明内容

有鉴于此，本发明提供一种基于三维人脸分解的换脸与重演方法，所述方法包括：

三维人脸分解：应用三维形变模型拟合将给定的2D图像分解，得到三维分解参数，为三个分量：{α_id，α_exp，π}，其中α_id为ID形状，α_exp为表情，π为姿态；

人脸属性重组：对于换脸任务，输出的合成人脸在保持目标姿态和表情的同时，应具有源人物的ID形状，即

为换脸参数组，

为源人脸ID形状参数，为

目标人脸表情参数，

为目标人脸姿态参数；

对于表情重演任务，输出应保持目标的ID形状和姿势，同时有来自源人物的表情，即

为表情重演参数组，

为目标人脸ID形状参数，

源人脸表情参数；

设计目标图像背景I ^sur、操纵后的3D人脸投影I ^shp、3D重演人脸表观图I ^app作为模型统一的输入；

其中，对于换脸任务：操纵后的3D人脸投影I ^shp、3D重演人脸表观图I ^app由Θ_swap生成；对于表情重演任务，操纵后的3D人脸投影I ^shp、3D重演人脸表观图I ^app由Θ_reen生成；

图像转化：以构建约束转化模型生成的图像与训练数据中的目标图像相似的损失，重构损失L _rec和约束生成的图像在ID上与输入图像相似的损失，身份损失L _id；两项损失加权构成最终损失；优化所述最终损失，得到训练后的模型；将测试数据经三维人脸分解和人脸属性重组变换后，输入所述训练后的模型生成换脸视频及重演视频。

优选的，所述姿态π的具体表示形式为：π= { s,θ,t }，其中，即由缩放系数s、欧拉角姿态系数θ、位移系数t 所表示的投影参数。

优选的，所述对于人脸交换任务，操纵后的3D人脸投影图I ^shp的生成方式为使用Θ_swap并结合人脸3D形变模型的平均纹理进行二维投影和渲染；

所述对于表情重演任务，操纵后的3D人脸投影图I ^shp的生成方式为使用Θ_reen并结合人脸三维形变模型的平均纹理进行二维投影和渲染。

优选的，所述对于人脸交换任务，3D重演人脸表观图I ^app的生成方式为使用Θ_swap对目标人脸图像进行重投影；

所述对于表情重演任务，3D重演人脸表观图I ^app的生成方式为使用Θ_reen对源人脸图像进行重投影。

优选的，所述目标图像背景I ^sur为对目标图像的人脸部分进行填黑遮盖的结果，遮盖过程依据人脸分割图以及3D操纵人脸的投影覆盖图进行交集操作得到。

优选的，所述换脸与重演方法还包括：基于色调变换和方向光模拟进行数据增广；具体方法为：

为了模拟色差，将亮度和色调抖动添加到目标图像中，即在图像转化模型的训练数据中增加亮度变化，生成脸部与周围区域不同亮度的数据；

为了模拟光照方向的差异，在重投影的外观图像中加入随机的梯度强度变化，即通过在图像转化模型的训练数据中增加不同光照变化，生成脸部与周围区域不同光照方向的增广数据。

优选的，所述重构损失L _rec的具体形式为：

其中，

I ^syn：转化模型生成的图像

；

I ^t:彩色增强目标图像;

I _i ^t：彩色增强目标图像缩小到i尺度的图像，i={1,2,..I} 表示将原始

图像缩小2^i-1倍；

I _i ^syn：转化模型生成的图像缩小到i尺度的图像，i={1,2,..I}表示将原始I ^syn图像缩小2^i-1倍；

f(•)：转化模型；

f _l(•)：预训练的vgg网络的l层中间特征；

L：设置参数；

I：设置参数。

优选的，所述身份损失L _id的具体形式为：

其中，

ϕ：预训练的人脸识别网络的特征。

优选的，所述最终损失的具体形式为：

λ：权重系数。

优选的，所述装置包括：三维人脸分解模块、人脸属性重组模块和图像转化模块；

所述三维人脸分解模块：应用三维形变模型拟合将给定的2D图像分解，得到三维分解参数，为三个分量：{α_id，α_exp，π}，其中α_id为ID形状，α_exp为表情，π为姿态；

所述人脸属性重组模块：对于人脸交换任务，输出的合成人脸在保持目标姿态和表情的同时，应具有源人物的ID形状，即

其中，对于人脸交换任务：操纵后的3D人脸投影I ^shp、3D重演人脸表观图I ^app由Θ_swap生成；对于表情重演任务，操纵后的3D人脸投影I ^shp、3D重演人脸表观图I ^app由Θ_reen生成；

所述图像转化模块：构建约束转化模型生成的图像与训练数据中的目标图像相似的损失，重构损失L _rec和约束生成的图像在ID上与输入图像相似的损失，身份损失L _id；两项损失加权构成最终损失；优化所述最终损失，得到训练后的模型；将测试数据输入所述训练后的模型生成换脸视频及重演视频。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

该方法采用统一的流程框架可同时实现任意人物的换脸与表情重演两个任务；

该方法特别适合于保持人脸交换的源面部形状，并能实现表情重演的一致、准确的面部运动。

附图说明

图1为本发明实施例提供的基于三维人脸分解的换脸与重演方法的人脸交换与表情重演图；

图2为本发明实施例提供的基于三维人脸分解的换脸与重演方法的流程图；

图3为本发明实施例提供的人脸关键点检测、三维拟合与分割结果示意图；

图4为本发明实施例提供的训练阶段数据流示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

现有的人脸视频操纵方法中，换脸（ID交换）与表情重演（或称重演Reenacment）是最具真实感的两类方法。现有研究聚焦于改进两类方法中的某一种，而忽视了这两个任务的本质相似性，因此当前方法不具有对两个任务的通用性。为此，研究一种可同时实现换脸与表情重演任务的统一框架，具有更好的灵活性与高保真度，且训练完成后可对任意未知人脸进行表情重演与换脸，可极大降低人脸操纵的使用复杂度。实验结果表明，该方法可以得到高保真的人脸交换和表情重演结果，如图1所示。

对换脸与表情重演这两个任务的建模（定义）如下：

换脸 = 源人物的ID形状 + 目标姿态 + 目标表情 +目标图像背景

表情重演 = 源人物的表情 + 目标的ID形状 + 目标姿态 + 目标背景

进而从逻辑层面将两个任务的流程统一提取为：人脸分解 +属性重组 + 图像合成。基于此，我们设计了如下的换脸与重演统一生成框架：

其中人脸分解基于三维人脸形变模型（3DMM）拟合；属性重组中设计了统一的模型输入表示，包括目标图像背景、操纵3D人脸投影、3D重演人脸表观图；最终基于图像转化模型（image translation）将统一的输入表示转化为最终合成人脸图像。接下来详细描述三个主要部分的方法设计。

如图2所示本申请实施例提供的基于三维人脸分解的换脸与重演方法，包括：

三维人脸分解：应用三维形变模型拟合将给定的2D图像分解，得到三维分解参数，为三个分量：{α_id，α_exp，π}，其中α_id为ID形状，α_exp为表情，π为姿态，所述姿态π的具体表示形式为：π= { s,θ,t }，其中，即由缩放系数s、欧拉角姿态系数θ、位移系数t 所表示的投影参数；

人脸3DMM的表示如下：

其中S表示人脸三维网格模型的顶点坐标，

表示平均脸形状，α_id、α_exp分别表示人脸形状的 ID 系数与表情系数，A_id、A_exp分别表示人脸形状随ID变化及随表情变化的统计学分量；三维人脸模型到二维图像投影的过程建模为弱透视投影，所述姿态π的具体表示形式为：π= { s,θ,t }，其中，即由缩放系数s、欧拉角姿态系数θ、位移系数t 所表示的投影参数；

使用基于优化的拟合方法，因为首先，它具有足够的三维重建精度，其次，它为视频中所有帧的捆绑优化提供了额外的灵活性；这是通过限制每个帧中的ID形状αID对于特定的人的视频是相同的来实现的；根据经验，这种捆绑式优化策略可以获得更精确的表达式跟踪，并导致更好的合成视频；

如图3所示，给定单张图像后估计人脸3DMM参数的过程称为拟合过程或三维人脸分解过程；采用基于人脸关键点的拟合方法，并基于多帧联合优化得到更加准确的拟合结果；首先采用关键点检测器获得人脸68个语义关键点，基于2D与3D关键点的对应关系，最小化所有人脸帧的关键点投影误差，并基于人脸语义分割模型获得人脸区域分割图，如图3所示；

人脸属性重组：为了实现一个统一的人脸交换和表情重演框架，使用相同的输入表示集来综合这两个结果；在公式中，完成这两个任务的共同因素是目标周围环境、操纵的面部形状和扭曲的面部纹理；对于人脸交换任务，输出的合成人脸在保持目标姿态和表情的同时，应具有源人物的ID形状，即

为换脸参数组，

为源人脸ID形状参数，为

目标人脸表情参数，

为目标人脸姿态参数；

为表情重演参数组，

为目标人脸ID形状参数，

源人脸表情参数；

其中，所述对于人脸交换任务，操纵后的3D人脸投影图I ^shp的生成方式为使用Θ_swap并结合人脸3DMM的平均纹理进行二维投影和渲染；

所述对于表情重演任务，操纵后的3D人脸投影图I ^shp的生成方式为使用Θ_reen并结合人脸3DMM的平均纹理进行二维投影和渲染；

所述对于人脸交换任务，3D重演人脸表观图I ^app的生成方式为使用Θ_swap对目标人脸图像进行重投影；

所述对于表情重演任务，3D重演人脸表观图I ^app的生成方式为使用Θ_reen对源人脸图像进行重投影；

所述目标图像背景I ^sur为对目标图像的人脸部分进行填黑遮盖的结果，遮盖过程依据人脸分割图以及3D操纵人脸的投影覆盖图进行交集操作得到；

图像转化：如图4所示，构建约束转化模型生成的图像与训练数据中的目标图像相似的损失，重构损失L _rec和约束生成的图像在ID上与输入图像相似的损失，身份损失L _id；两项损失加权构成最终损失；

所述重构损失L _rec的具体形式为：

其中，

I ^syn：转化模型生成的图像

；

I ^t:彩色增强目标图像;

图像缩小2^i-1倍；

f(•)：转化模型；

f _l(•)：预训练的vgg网络的l层中间特征；

L：设置参数，选取5；

I：设置参数，选取4。

所述身份损失L _id的具体形式为：

其中，

ϕ：预训练的人脸识别网络的特征。

所述最终损失的具体形式为：

λ：权重系数，设置为500。

使用Adam优化器优化所述最终损失，仅10次之后损失收敛到一个好的点，得到训练后的模型；

训练数据采用 voxCeleb-v2 中的大规模人脸视频数据；为模拟换脸中的人脸区域与背景的光照方向和色调不一致问题，设计了一种新颖的数据增广方法，基于色调变换和方向光模拟进行数据增广；从同一视频中随机抽取两帧图像，可以生成自监督训练数据；基于色调变换和方向光模拟进行数据增广，具体方法为：

为了模拟色差，将亮度和色调抖动添加到目标图像中，即在训练数据中增加亮度变化，生成脸部和周围区域不同亮度的数据；

为了模拟光照方向的差异，在扭曲的外观图像中加入随机的梯度强度变化，即通过在训练数据中增加不同光照变化生成脸部和周围区域不同光照方向的增广数据；

将测试数据输入所述训练后的模型生成换脸视频及重演视频。

基于三维人脸分解的换脸与重演装置，所述装置包括：三维人脸分解模块、人脸属性重组模块和图像转化模块；

所述图像转化模块：构建约束转化模型生成的图像与训练数据中的目标图像相似的损失，重构损失L _rec和约束生成的图像在ID上与输入图像相似的损失，身份损失L _id；两项损失加权构成最终损失；优化所述最终损失，得到训练后的模型；将测试数据经三维人脸分解和人脸属性重组变换后，输入所述训练后的模型生成换脸视频及重演视频。

实施例

在具体实现中，拟采用 voxCeleb2 数据集中的视频数据。具体来说，可按照voxCeleb2提供的视频url从视频网站爬取大量人物的高质量原始视频，收集至少2000段视频素材，通过视频分帧获得至少10万张人脸图像，用以训练转化模型。

转化模型采用 U-Net 架构，输入通道数为 9，为3种输入2D图像表示按照通道进行拼合。该U-Net包含8个下采样卷积层和8个上采样卷积层，对应的上下卷积层之间通过跳连接进行信息传递。网络输入尺寸为 256x256。在训练中一般采用Adam优化器，训练至少10个 epoch。

换脸与表情重演前期主要在虚拟主播的离线视频制作上有所应用，通过训练的模型，统一输入不同的目标视频，采用上述网络结构最后生成换脸视频及重演视频。

为了进行定性和定量比较，在FaceForensics++（或FF++）基准数据集上运行所提出的方法，以根据配对协议生成人脸交换和表情重演结果。这个数据集已经包含了3个面部交换子集，即Deepfakes、FaceSwap、FaceShifter和2个表情重演子集，即Face2Face和neuraltexture。此外，还运行了一个最新的方法FSGAN，使用它的开放源代码生成面部交换和表情重演结果。

实验结果表明，该方法特别适合于保持人脸交换的源面部形状，并能实现表情重演的一致、准确的面部运动。

本申请还提供一种实施例，一种存储介质，用于执行或存储上述基于三维人脸分解的换脸与重演方法。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。