CN115689869A

CN115689869A - 一种视频美妆迁移方法及系统

Info

Publication number: CN115689869A
Application number: CN202211294718.7A
Authority: CN
Inventors: 高林; 何月; 陈姝宇
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-02-03

Abstract

本发明提出一种视频美妆迁移方法，包括：给定一段人脸视频帧序列，估计视频的相机内参以及每帧对应的姿态、表情等参数构建为数据集；将该数据集输入至动态神经辐射场网络，显式控制人脸姿态表情，隐式重建三维人脸，得到人脸空间的密度及颜色信息；固定人脸密度预测模块，重新训练颜色预测模块，并用混合人脸损失函数和密集关键点颜色损失函数进行监督；引入基于纹理图的图像块判别器进行判别，训练收敛得到妆容迁移后的美妆人脸神经辐射场。本发明还提出一种视频美妆迁移系统，以及一种用于实现基于美妆参考图像对人脸视频的视频美妆迁移的数据处理装置。

Description

一种视频美妆迁移方法及系统

技术领域

本发明涉及计算机图形学以及深度学习领域，特别涉及一种基于神经辐射场和纹理图块判别器的美妆迁移人脸视频的合成方法及系统。

背景技术

近年来，深度神经网络在人脸图像合成方面取得了显著进展。许多工作致力于通过模拟物理场景的变化，如照明条件或面部形状，来提高肖像的视觉质量。化妆是现实世界中最常用的美容方法之一。对面部的每个部位，有大量相应的化妆品和使用方法。初学者通常需要多年的练习才能画出精致的妆容。因此，出现了虚拟化妆技术，在线化妆品购物和AR游戏等应用中被广泛使用。随着深度学习的发展，当前的方法已经能够让用户在生成照片中看到自己画上不同化妆风格，即使用户输入照片和美妆参照照片的色调和姿势不同。在虚拟化妆的大多数实际用例中，用户会呈现大幅度变化的姿态和表情用以检查妆容在各个角度下的效果。因此，一种可靠的美妆迁移方法需要能够在不同的3D面部姿势和动作中保持视觉一致性，这将大大提高虚拟化妆技术的应用性。

尽管生成性对抗网络在2D图像上转换化妆风格方面取得了重大进展，但在生成任意姿势和表情的美妆人脸图像方面仍然存在两个挑战。首先，大多数基于2D的方法难以处理显著不同的姿势和表情，因为它们通常在数据处理阶段将训练数据集中的人脸面部特征进行对齐。虽然一些工作可以处理较大的姿势和表情差异，但它们在面部视频上的结果质量仍然受到妆容不对称的缺陷和帧间闪烁的影响。其次，基于卷积的方法不能保持化妆细节的一致性。其原因在于，在学习和解释特征时，卷积运算倾向于融合感受野中的像素，导致在传递风格特征时模糊精确的外观细节。

发明内容

针对上述问题，本发明提出一种视频美妆迁移方法，包括：步骤1，获取人脸视频的视频帧序列、拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和表情参数，构建为第一数据集；步骤2，构建包括密度预测模块和颜色预测模块的动态神经辐射场网络，以该第一数据集对该动态神经辐射场网络进行训练至收敛，获得隐式重建该人脸视频的神经辐射场网络；步骤3，固定步骤2中完成训练的密度预测模块，基于美妆参考图像生成该人脸视频图像的伪美妆迁移结果，构建为第二数据集；以该第二数据集对该颜色预测模块进行重新训练至收敛，使用混合人脸损失函数和密集关键点颜色损失函数进行监督，通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差；步骤4，以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神经辐射场。

本发明所述的视频美妆迁移方法，于步骤2中，在某一视频帧的图像上，将相机位置与图像上的像素点相连，构成光线射线，在光线上选取采样点，将该采样点对应的位置数据和角度数据分别输入动态神经辐射场网络进行训练；该动态神经辐射场网络包括粗网络

和精细网络

的可学习权重为θ_coarse，

的可学习权重为θ_fine；该动态神经辐射场网络的损失函数为

其中，L_i(θ)＝∑_j||C-I_i[j]||²，I_i[j]表示视频帧i对应图像I的像素点j的RGB颜色值，C为该像素点的网络预测RGB颜色值，N为视频帧图像的数量；

训练过程中，首先训练

以获得该神经辐射场的密度信息，然后将该密度信息提供给

并将在密度大于采集阈值的采样点附近再选取多个新采样点对

进行训练；通过训练收敛的

获得能重建视频帧所有图像的网络。

本发明所述的视频美妆迁移方法，于步骤3中，首先将美妆参考图像x基于参考图和目标图的人脸关键点对应进行人脸变形，并将变形结果贴合到视频帧图像y_i上，并利用泊松融合与原图像融合，生成具有目标美妆分布的伪美妆图像

其中i代表视频的第i帧图像；对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数L^hybrid和密集关键点颜色损失函数L^dense进行监督，对该颜色预测模块训练收敛后，得到该视频帧基于x的美妆迁移结果

其中，

K为从

和

中裁剪出的包含关键面部特征的关键图像块g_k的数量，p_k表示该关键图像块的伪真值，n_k表示该关键图像块未上妆前的原始图像，

表示关键图像块的损失函数在L^hybrid中的比重，

表示该关键图像块中脸部皮肤区域的伪真值，

表示该脸部皮肤区域的美妆迁移结果，

表示该脸部皮肤区域的损失函数在L^hybrid中的比重，M为脸部区域关键图像块的数量，p_eye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值，g_eye,lip表示该眼睛和嘴唇部分的美妆迁移结果，λ^optional表示该眼睛和嘴唇部分的损失函数在L^hybrid中所占的比重，

是从图像提取第d个密集人脸关键点颜色的操作，

表示整张人脸的美妆迁移结果，x是美妆参考图像，D是人脸关键点的数量。

本发明所述的视频美妆迁移方法，对该颜色预测模块进行重新训练的过程中，以

和x_uv作为该纹理图块鉴别器的输入，从

和x_uv的固定关键点位置中裁取块进行误差判别；其中，

为该人脸视频的美妆迁移结果y^X的UV纹理贴图，x_uv为美妆参考图像x的UV纹理贴图。

本发明还提出一种视频美妆迁移系统，包括：数据获取模块，用于获取人脸视频的视频帧序列、拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和表情参数，构建为第一数据集；人脸模型获取模块，用于构建包括密度预测模块和颜色预测模块的动态神经辐射场网络，以该第一数据集对该动态神经辐射场网络进行训练至收敛，获得隐式重建该人脸视频的神经辐射场网络；美妆结果获取模块，用于固定通过人脸模型获取模块得到的完成训练的密度预测模块，基于美妆参考图像生成该人脸视频图像的伪美妆迁移结果，构建为第二数据集；以该第二数据集对该颜色预测模块进行重新训练至收敛，使用混合人脸损失函数和密集关键点颜色损失函数进行监督，通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差；神经辐射场获取模块，用于以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神经辐射场。

本发明所述的视频美妆迁移系统，在该人脸模型获取模块中，在某一视频帧的图像上，将相机位置与图像上的像素点相连，构成光线射线，在光线上选取采样点，将该采样点对应的位置数据和角度数据分别输入动态神经辐射场网络进行训练；该动态神经辐射场网络包括粗网络

和精细网络

的可学习权重为θ_coarse，

的可学习权重为θ_fine；该动态神经辐射场网络的损失函数为

训练过程中，首先训练

以获得该神经辐射场的密度信息，然后将该密度信息提供给

进行训练；通过训练收敛的

获得能重建视频帧所有图像的网络。

本发明所述的视频美妆迁移系统，在该美妆结果获取模块中，首先将美妆参考图像x基于参考图和目标图的人脸关键点对应进行人脸变形，并将变形结果贴合到视频帧图像y_i上，并利用泊松融合与原图像融合，生成具有目标美妆分布的伪美妆图像

其中i代表视频的第i帧图像；对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数L^hybrid和密集关键点颜色损失函数L^dense进行监督，对该颜色预测模块训练收敛后，得到y_i基于x的美妆迁移结果

其中，

K为从

和

表示关键图像块的损失函数在L^hybrid中的比重，

表示该关键图像块中脸部皮肤区域的伪真值，

表示该脸部皮肤区域的美妆迁移结果，

是从图像提取第d个密集人脸关键点颜色的操作，

本发明所述的视频美妆迁移系统，其中美妆结果获取模块还包括：块鉴别模块，用于以

和x_uv作为该纹理图块鉴别器的输入，从

和x_uv的固定关键点位置中裁取块进行误差判别；其中，

本发明还提出一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如前所述的视频美妆迁移方法。

本发明还提出一种数据处理装置，包括如前所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，实现基于美妆参考图像对人脸视频的视频美妆迁移。

本发明利用动态神经辐射场的框架来保持一致性，并提出了一种两阶段的训练方案来分别预测目标人脸的几何信息和美妆后外观。同时，提出了一种混合美妆损失函数和密集关键点颜色损失函数，以明确监督网络根据第一阶段预测的人脸几何合理地迁移美妆风格。最后，为了提高帧间美妆细节的一致性，合理优化人脸关键部位的美妆细节，本发明同时引入了基于纹理图的块判别器进行判别。

附图说明

图1是本发明的基于神经辐射场的视频美妆迁移方法的流程图。

图2是本发明的基于神经辐射场和纹理图块判别器的视频美妆迁移方法的流程细节展示图。

图3是本发明方法在不同程度的妆容目标下的效果展示图。

图4、5是本发明的视频美妆迁移方法与其他方法在不同场景上的比较示意图。

图6、7是本发明方法的效果展示图。

图8、9是本发明方法消融实验的结果示意图。

图10是本发明的数据处理装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

鉴于已有方法存在着各种局限性，本发明的目标是仅需输入一段单目人脸视频和目标美妆参考图像，生成指定妆容的可控姿态表情的美妆人脸神经辐射场，这是现有的美妆迁移方法无法实现的。发明人发现，目前的方法需要从大量的美妆人脸数据中学习指定妆容特征分布，因此需要大量美妆人脸图片和未上妆人脸图片作为训练数据集。另一方面，由于基于卷积的人脸美妆迁移方法模糊了像素级的美妆信息，生成的上妆人脸往往缺乏精确的美妆细节。最后，由于视频人脸有大姿态的动作和表情变化，目前针对图片的美妆迁移方法无法保证良好的帧间一致性。因此，发明人提出了基于动态神经辐射场的美妆迁移方法，分两步分别训练原输入人脸的几何信息以及美妆迁移后的目标颜色信息。这种两阶段的训练方案，保证了人脸几何结构的准确保持，同时生成合理美妆迁移结果。同时引入混合美妆颜色损失函数以及密集关键点颜色损失函数和基于纹理图的块判别器对第二阶段的颜色预测进行监督。

针对上述问题，本发明提出一种视频美妆迁移方法，包括：获取人脸视频的视频帧序列、拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和表情参数，构建为第一数据集；构建包括密度预测模块和颜色预测模块的动态神经辐射场网络，以该第一数据集对该动态神经辐射场网络进行训练至收敛，获得隐式重建该人脸视频的神经辐射场网络；固定上一步骤中完成训练的密度预测模块，基于美妆参考图像生成该人脸视频图像的伪美妆迁移结果，构建为第二数据集；以该第二数据集对该颜色预测模块进行重新训练至收敛，使用混合人脸损失函数和密集关键点颜色损失函数进行监督，通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差；以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神经辐射场。

以该第一数据集对该动态神经辐射场网络进行训练的过程中，在某一视频帧的图像上，将相机位置与图像上的像素点相连，构成光线射线，在光线上选取采样点，将该采样点对应的位置数据和所在光线的方向数据输入动态神经辐射场网络进行训练；该动态神经辐射场网络包括粗网络

和精细网络

和

的可学习权重分别为θ_coarse和θ_fine；该动态神经辐射场网络的损失函数

其中N为视频帧图像的数量；训练过程中，首先训练

以获得该神经辐射场的密度信息，将该密度信息提供给

并将在密度大于采集阈值的采样点附近选取多个新采样点对

进行训练；通过训练收敛的

获得能重建视频帧所有图像的网络。

对该颜色预测模块进行重新训练的过程中，首先将美妆参考图像x基于参考图和目标图的人脸关键点对应进行人脸变形，并将变形结果贴合到视频帧图像y_i上，并利用泊松融合与原图像融合，生成具有目标美妆分布的伪美妆图像

其中，

K为从

和

表示关键图像块的损失函数在L^hybrid中的比重，

表示该关键图像块中脸部皮肤区域的伪真值，

表示该脸部皮肤区域的美妆迁移结果，

是从图像提取第d个密集人脸关键点颜色的操作，

此外，通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差时，以

和x_uv作为该纹理图块鉴别器的输入，从

和x_uv的固定关键点位置中裁取块进行误差判别；其中，

本发明的网络训练仅需输入一段未上妆的人脸视频帧序列及目标美妆参考图像，无需使用大量美妆人脸图片和未上妆人脸图片作为训练数据集。引入混合美妆损失函数以及密集关键点颜色损失函数，使得生成的上妆人脸往往拥有更加精确的美妆细节。仅需输入一段单目人脸视频和目标美妆参考图像，即可生成可控姿态表情的美妆人脸神经辐射场。生成结果拥有精确的美妆细节并且很好地保持了视频的帧间一致性。此外，还引入了基于纹理图的块判别器进行判别，进一步约束美妆细节的准确度，提高帧间一致性。

具体来说，本发明公开了一种基于神经辐射场和纹理图块判别器的美妆迁移人脸视频的方法：给定一段未上妆的人脸视频帧序列，估计视频的相机内参以及每帧对应的姿态、表情等参数；输入用于训练的人脸视频帧及其对应参数至网络，显式控制人脸姿态表情，隐式重建三维人脸，得到人脸空间的密度及颜色信息；固定人脸密度预测模块，重新训练颜色预测模块。用全新引入的混合人脸损失函数和密集关键点颜色损失函数进行监督；引入基于纹理图的块判别器进行判别，训练收敛。最终完成得到妆容迁移后的美妆人脸神经辐射场。本发明方法的流程图如图1所示，具体流程细节如图2所示。本发明具体的实施方式包括：

步骤S1：对输入的未上妆的人脸视频帧序列(原始人脸视频){y_i}进行预处理操作，预测拍摄原始人脸视频的相机参数，以及原始人脸视频单帧的姿态、表情参数δ_i，同时实现完整背景的分离。具体包括：

1、采用自动解析方法为每一帧标记不同的语义区域；

2、应用多帧光流估计方法在前额、耳朵和头发等近刚性区域获得视频帧之间的密集对应；

3、使用集束调整来估计姿势参数。

值得注意的是，估计的姿势仅对面部有效，而对颈部和肩部等其他身体部位无效，因此在选取数据时，会尽量选取人物上半身保持不动，人头在动的单目视频。步骤S1中，还根据原始人脸视频中所有连续的帧构造了一个没有人的干净背景图像，该步骤通过基于解析结果从每个帧中移除人物区域，然后计算所有背景图像的聚合结果。对于缺失区域，则使用泊松融合来修复包含邻域信息的像素。

步骤S2：本发明提出了两阶段的训练方式，分别训练模块用于预测人脸的原始几何结构信息和美妆迁移目标的颜色信息。需要注意的是，本发明中作为基准方法的动态神经辐射场由论文“Dynamic neural radiance fields for monocular4d facialavatarreconstruction”提出。

构建由两个多层感知器组成的动态神经辐射场网络，这两个多层感知器分别为预测输入采样点密度值σ的密度预测模块

及预测输入采样点颜色值c的人脸颜色预测模块

一般地，本发明的动态神经辐射场网络需要输入一系列的单目视频帧{y_i}，以及它们的相机参数、姿势参数P和每帧的面部表情参数δ_i。对构建的动态神经辐射场中的每根光线上选取采样点，将采样点对应的位置p和所在光线的方向d输入动态神经辐射场网络进行训练。最后，通过体渲染得到重建的单目动态人脸帧

具体地，对相机中心发射的每条光线r(t)从最近采样点到最远采样点积分，最终获得神经辐射场的RGB值C：

其中，z_near和z_far分别是最近深度值和最远深度值，θ是网络参数，P是姿势参数，δ是表情参数，γ是可学习的嵌入向量，T(t)是光线从z_near到t处的累积透射率，其被计算为

特别地，根据神经辐射场的训练方案，需要同时训练两个动态神经辐射场，包括一个粗网络

和一个精细网络

从

获得的密度信息将提供给

当训练

时，将在密度较高的采样点附近采集更多采样点进行训练。在该阶段的训练中，目标是根据原始人脸视频帧重建未上妆的三维神经辐射场表示。训练由多层感知器组成的两个动态神经辐射场

和

它们的可学习权重表示为θ_coarse和θ_fine。最终生成效果采用精细网络的渲染结果。

本步骤的训练目标是：

其中，

N为视频帧图像的数量，I_i[j]表示视频帧i对应图像I的像素点j的RGB颜色值。

步骤S3：固定步骤S2中训练好的密度预测模块，并训练一个美妆预测模块。其训练过程由混合美妆颜色损失函数和密集关键点颜色损失函数进行监督。为了计算美妆损失函数，首先为每个输入视频帧生成一个具有目标美妆分布的伪美妆图像

即将美妆参考图像基于参考图和目标图的人脸关键点对应进行人脸变形，并将变形结果贴合到视频帧图像上，并利用泊松融合与原图像融合，得到伪美妆图像。

在本步骤训练中，固定在步骤S2训练得到的密度预测模块

并训练一个全新的美妆预测模块

来生成美妆迁移效果。固定密度预测模块

加快了训练过程，降低了GPU的训练内存成本。美妆预测模块

预测一个低维数但高通道数的特征图，以进一步降低网络的训练成本。接着，将低维度的特征图与原视频帧的全局特征相融合进行上采样和反卷积。需要注意的是，为了防止生成结果的栅格化，保证生成更加清晰的图像效果，本发明采用了逐步减少通道数，增倍维度的方式进行上采样和反卷积。一般地，本发明预测32*32*64的特征图，经过三层上采样过程得到256*256*3的RGB图像。训练美妆预测模块收敛后，将获得最终生成结果

混合美妆损失函数由两部分组成。首先，从伪美妆图像和生成结果中裁剪出包含关键面部特征的K个关键块，为了计算关键块间的颜色分布误差，首先使用“Beautygan:Instance-level facial makeup transfer with deep generative adversarialnetwork”中提出的直方图匹配将每个伪美妆图像块映射到源视频帧的对应块，计算映射结果块和生成结果块之间的L2损失函数。在实际训练中，为一些极端的美妆效果添加了一个可选的损失函数，该损失函数直接计算从伪美妆图像和生成图像裁剪的眼睛和唇部关键块的L1损失函数。其次，使用脸部掩模获得伪美妆图像和生成图像的皮肤区域，并围绕关键面部部位裁取M块皮肤小块。计算每组皮肤小块对的L2损失函数，并添加不同的权重。嘴唇和眼睛周围的小块权重是其他皮肤贴片的两倍。混合美妆损失函数L^hybrid可表示如下：

其中K为从

和

表示关键图像块的损失函数在L^hybrid中的比重，

表示该关键图像块中脸部皮肤区域的伪真值，

表示该脸部皮肤区域的美妆迁移结果，

表示该脸部皮肤区域的损失函数在L^hybrid中的比重，M为脸部区域关键图像块的数量，p_eye,lip表示该关键图像块中眼睛和嘴唇部分的伪真值，g_eye,lip表示该眼睛和嘴唇部分的美妆迁移结果，λ^optional表示该眼睛和嘴唇部分的损失函数在L^hybrid中所占的比重。

“Joint 3d face reconstruction and dense alignment with position mapregressionnetwork”方法可以根据输入的人脸图像估计人脸的三维重建。可以得到三角形顶点对应的顶点颜色。本发明选择所有顶点以三个点的均匀间隔选择密集人脸关键点，以排除面部颜色点集合带有的几何信息，只关注颜色分布。最后，本发明逐点计算从伪美妆真实图像和生成图像采样的密集人脸关键点对间的L2损失，进一步完善预测模块。密集关键点颜色损失的目标方程式定义为：

其中，

是从图像提取第d个密集人脸关键点颜色的操作，

步骤S4：在训练用于生成图像的美妆预测模块，即步骤S3时，本发明引入了一种基于块的判别器，用来纠正生成效果的美妆分布相对于美妆参考图像的误差。接着，将得到的误差与步骤S3中的美妆损失函数一起，通过反向梯度传播优化网络参数。原始的基于块的判别器直接在生成图像上进行裁取判断采样块是否满足生成目标。然而，来自参考人脸图像和合成人脸图像的小块的基本几何信息由于人物姿态和表情的动态变化可能产生很大的不同，导致判别器在判别时难度加大、判别不准确。因此，本发明选择将面部图像首先转换为UV纹理图，以消除用于无关于化妆效果的其他因素的影响。本发明使用已有技术PRNet将每个人脸像素映射到UV平面上，固定人脸关键语义点，得到与姿势和表情的动态无关的外观信息。此外，本发明没有从UV纹理图中随机采样块进行判别，而是只关注与化妆主要相关的面部部位，如嘴唇、鼻子、眼睛和眉毛等。因此，本步骤首先从生成的图像y^X和参考化妆图像x获得的相应UV纹理贴图

和x_uv用作纹理图的块鉴别器的输入。然后，从UV纹理图的固定关键点位置中裁取块进行判别。

将上述步骤训练至收敛，得到可控姿态表情的美妆人脸神经辐射场。用户可以显式控制人脸的姿态与表情，生成拥有精确的美妆细节并且保持帧间一致性的全新人脸图像或者视频。

为了验证本发明的效果，发明人在多种场景下进行了各种对比实验。

图3展示了本发明方法在不同风格的美妆参考图下的各种面部姿态和表情的美妆迁移效果。给定原未上妆人脸视频帧和参考图像，本方法可以生成训练未见过的全新姿势和表情参数的单个化妆图像或具有连续参数序列的美妆迁移效果。如图3所示，其显示了具有完全不同的未训练过的姿势和表情的五帧的美妆转移结果，用以证明本发明方法的鲁棒性。尽管生成的图像与参考图像在几何结构上差异很大，但生成结果都具有精确的美妆分布，并在所有帧中保持外观一致。从上到下，展示的化妆风格由简单到复杂，验证了本方法各种情况都能保证鲁棒性。具体来说，在第一行展示了使用未化妆人脸作为最轻的化妆风格，以生成原序列淡妆人脸的卸妆效果。即使遇到极端的不对称的美妆风格，本发明方法的结果，仍能保证精确的美妆分布和帧间一致性。

图4和图5展示了本发明方法在不同任务场景下的效果展示。在二维人脸图像美妆迁移方面，展示了淡妆迁移和夸张妆容迁移的效果。本实验选择了四种最先进的方法与本发明方法进行比较，结果如图4所示。本方法的结果在保持源人脸几何结构的同时，在面部特征上具有更准确和合理的颜色分布。相比之下，PSGAN、SCGAN和SSAT无法传递准确的眼部化妆细节，如第一行所示。当未上妆人脸和参考人脸之间的肤色不同时，CPM的结果有明显的贴图伪影。

图5展示了夸张妆容迁移任务的效果。由于只有CPM和LADN在迁移夸张妆容时才能生成可接受的结果。因此，在本任务中，本实验仅与CPM和LADN进行比较。结果清楚地说明了本发明方法方法的优点：它从参考人脸中将一个完整的化妆图案迁移到原始人脸上，并与其融合恰当。LADN只转移了部分带有明显伪影的美妆分布。CPM的设计考虑了图案问题，以合成完整的化妆图案。然而，其结果有明显的几何瑕疵。

图6，图7是本发明方法在一些应用下的效果展示。图6展示了局部和多参考图像的美妆迁移结果。由于本方法使用的混合美妆损失函数和基于纹理的判别器均基于小块技术，因此本方法可用于实行部分人脸部位的风格迁移和多参考组合美妆迁移的融合效果。图7展示了插值实验的效果。由于本发明方法的基准方法将姿势和表达式作为动态神经辐射场的显式控制，因此本方法可以在不同姿势和表情之间进行插值。由于本发明的方法可以精确地迁移美妆风格，保持所有帧的化妆分布一致，即使在未见过的插值生成的人脸结果上也可以表现出合理的生成效果。

图8、9展示了本发明进行消融实验的结果。首先，图8展示了网络结构的消融实验。为了证明网络的每个模块的有效性，消融实验中考虑了本发明方法网络结构的几个变体。在图8中，w.PGT loss展示了仅使用伪美妆图像和生成图像之间的颜色误差来监督第二阶段美妆颜色预测模型的训练的结果。由于制作伪美妆图像的变形技术基于匹配的关键人脸关键点，因此在仅可检测到较少地标的区域(例如，鼻子，眉毛等区域)可能存在明显的变形。这些错误很难用神经辐射场网络进行完全的纠正。w.HM loss的结果表明，混合化妆损失函数可以为面部关键部位提供更好的颜色预测效果同时不改变人脸的几何结构。w.PatchGAN中仅使用基于纹理图的判别器进行判别，生成的记过模糊。w.HM loss&patchGAN的结果未使用密集关键点损失函数，与完整网络的结果相比，它无法预测清晰的细节和准确的颜色。

图9展示了块判别器与生成效果进行成对判别的目标图像选取。本实验测试了其他替代方法，结果表明，在姿势无关的UV纹理贴图上应用对抗损失函数可以更好地控制生成的美妆纹理。使用原始参考图像或者伪真实美妆图像无法有效地引导网络，因为它们的姿态可能存在显著差异。

通过上述对比实验、应用展示和消融实验的结果可以看出，本发明提出一种基于神经辐射场和纹理图块判别器的美妆迁移方法，仅需输入一段单目人脸视频和目标美妆参考图像，即可生成可控姿态表情的美妆人脸神经辐射场。生成结果拥有精确的美妆细节并且很好地保持了视频的帧间一致性，相比已有方法具有更高的实用价值。

图10是本发明的数据处理装置示意图。如图10所示，本发明实施例还提供一种计算机可读存储介质，以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令被数据处理装置的处理器执行时，实现基于美妆参考图像对人脸视频的视频美妆迁移。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

本发明基于神经辐射场，对用户输入的未上妆人脸视频进行指定妆容的美妆迁移，生成可控姿态表情的美妆人脸视频的方法，通过给定一段未上妆的人脸视频帧序列，估计视频的相机内参以及每帧对应的姿态、表情等参数；输入用于训练的人脸视频帧及其对应参数至网络，显式控制人脸姿态表情，隐式重建三维人脸，得到人脸空间的密度及颜色信息；固定人脸密度预测模块，重新训练颜色预测模块，引入全新的混合人脸损失函数和密集关键点颜色损失函数进行监督；引入基于纹理图的块判别器进行判别，增强美妆分布的细节表现，训练至收敛，最终得到美妆人脸神经辐射场。本发明的方法仅需输入一段单目人脸视频和目标美妆参考图像，即可生成指定妆容的可控姿态表情的美妆人脸神经辐射场。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种视频美妆迁移方法，其特征在于，包括：

步骤1，获取人脸视频的视频帧序列、拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和表情参数，构建为第一数据集；

步骤2，构建包括密度预测模块和颜色预测模块的动态神经辐射场网络，以该第一数据集对该动态神经辐射场网络进行训练至收敛，获得隐式重建该人脸视频的神经辐射场网络；

步骤3，固定步骤2中完成训练的密度预测模块，基于美妆参考图像生成该人脸视频图像的伪美妆迁移结果，构建为第二数据集；以该第二数据集对该颜色预测模块进行重新训练至收敛，使用混合人脸损失函数和密集关键点颜色损失函数进行监督，通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差；

步骤4，以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神经辐射场。

2.如权利要求1所述的视频美妆迁移方法，其特征在于，步骤2中，在某一视频帧的图像上，将相机位置与图像上的像素点相连，构成光线射线，在光线上选取采样点，将该采样点对应的位置数据和角度数据分别输入动态神经辐射场网络进行训练；

该动态神经辐射场网络包括粗网络

和精细网络

的可学习权重为θ_coarse，

的可学习权重为θ_fine；该动态神经辐射场网络的损失函数为

训练过程中，首先训练

以获得该神经辐射场的密度信息，然后将该密度信息提供给

进行训练；通过训练收敛的

获得能重建视频帧所有图像的网络。

3.如权利要求1所述的视频美妆迁移方法，其特征在于，步骤3中，首先将美妆参考图像x基于参考图和目标图的人脸关键点对应进行人脸变形，并将变形结果贴合到视频帧图像y_i上，并利用泊松融合与原图像融合，生成具有目标美妆分布的伪美妆图像

其中i代表视频的第i帧图像；

对该颜色预测模块进行重新训练的过程由混合美妆颜色损失函数L^hybrid和密集关键点颜色损失函数L^dense进行监督，对该颜色预测模块训练收敛后，得到y_i基于x的美妆迁移结果

其中，

K为从

和

表示关键图像块的损失函数在L^hybrid中的比重，

表示该关键图像块中脸部皮肤区域的伪真值，

表示该脸部皮肤区域的美妆迁移结果，

是从图像提取第d个密集人脸关键点颜色的操作，

4.如权利要求1所述的视频美妆迁移方法，其特征在于，对该颜色预测模块进行重新训练的过程中，以

和x_uv作为该纹理图块鉴别器的输入，从

和x_uv的固定关键点位置中裁取块进行误差判别；其中，

5.一种视频美妆迁移系统，其特征在于，包括：

数据获取模块，用于获取人脸视频的视频帧序列、拍摄该人脸视频的相机的内部参数以及每张视频帧中人脸的姿态参数和表情参数，构建为第一数据集；

人脸模型获取模块，用于构建包括密度预测模块和颜色预测模块的动态神经辐射场网络，以该第一数据集对该动态神经辐射场网络进行训练至收敛，获得隐式重建该人脸视频的神经辐射场网络；

美妆结果获取模块，用于固定通过人脸模型获取模块得到的完成训练的密度预测模块，基于美妆参考图像生成该人脸视频图像的伪美妆迁移结果，构建为第二数据集；以该第二数据集对该颜色预测模块进行重新训练至收敛，使用混合人脸损失函数和密集关键点颜色损失函数进行监督，通过纹理图块判别器纠正该美妆迁移效果的美妆分布相对于该美妆参考图像的误差；

神经辐射场获取模块，用于以完成训练的动态神经辐射场网络为该人脸视频基于该美妆参考图像的美妆人脸神经辐射场。

6.如权利要求5所述的视频美妆迁移系统，其特征在于，在某一视频帧的图像上，将相机位置与图像上的像素点相连，构成光线射线，在光线上选取采样点，将该采样点对应的位置数据和角度数据分别输入动态神经辐射场网络进行训练；

该动态神经辐射场网络包括粗网络