CN114845067B

CN114845067B - 基于隐空间解耦的人脸编辑的深度视频传播方法

Info

Publication number: CN114845067B
Application number: CN202210779300.9A
Authority: CN
Inventors: 高林; 姜悦人; 陈姝宇
Original assignee: Zhongke Computing Technology Innovation Research Institute
Current assignee: Zhongke Computing Technology Innovation Research Institute
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-11-04
Anticipated expiration: 2042-07-04
Also published as: CN114845067A

Abstract

本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。本发明的技术方案为：获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数。本发明适用于计算机视觉、计算机图形学领域。本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中，实现动作、外貌、几何的解耦，进而修改需要传播的几何、外貌属性而不影响原视频的动作内容，实现视频上的人脸编辑传播。

Description

基于隐空间解耦的人脸编辑的深度视频传播方法

技术领域

本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。适用于计算机视觉、计算机图形学领域。

背景技术

人脸视频的编辑传播指将人脸编辑效果从一个或多个视频关键帧一致地传播到其他视频帧上。经典的编辑传播工作（如Xu K等人在2009年ACM Transactions onGraphics提出的“Efficient affinity-based edit propagation using kd tree”）通过设计判别帧间像素关系的算法，实现了颜色编辑的视频传播。随着深度生成模型的发展，更多的传播效果如视频风格化（如Texler O等人在2020年ACM Transactions on Graphics提出的“Interactive video stylization using few-shot patch-based training”）和视频着色（如Lei C等人在2019年The IEEE Conference on Computer Vision and PatternRecognition上提出的“Fully automatic video colorization with self-regularization and diversity”）被探索出来。Jampani 等人在2017年The IEEEConference on Computer Vision and Pattern Recognition提出Video PropagationNetworks 使用双边滤波网络进行自适应的视频传播，将信息从前一帧传输到后一帧，然后通过空间网络进行细化。Kasten 等人在2021年ACM Transactions on Graphics上提出“Layered neural atlases for consistent video editing”，显式地重建了分层神经图谱（Layered Neural Atlases）, 该图谱表示多个连续帧上的内容，从而允许对单个关键帧以外的内容进行直观编辑。然而，他们的方法在编辑之前需要花费数小时对每个视频进行单独训练以构建图谱。Yao等人在2021年The IEEE/CVF International Conference onComputer Vision上提出了“A latent transformer for disentangled face editing inimages and videos”，一种基于Transformer 的隐空间编码器来解耦StyleGAN2，进而实现语义视频编辑。Tzaban等人在2022年提出了“Stitch it in time: Gan-based facialediting of real videos”，设计了背景缝合训练消除StyleGAN2 生成图像贴回视频中出现的边缘瑕疵。然而，这些方法仅能处理固定属性的视频编辑，无法传播给定关键帧的编辑效果。为了支持实时推理，Texler 等人在2020年ACM Transactions on Graphics提出了“Interactive video stylization using few-shot patch-based training”，基于局部图案的训练实现了视频风格化迁移，只使用几个风格化的样例来训练外观迁移网络，同时隐式地保持了时间一致性。当可以建立对应关系时，他们的方法效果很好，但当关键帧包含几何体编辑时，这种方法就难以处理。

视频是互联网另一大信息载体，视频传播的流行催生了基于视频的人脸编辑需求。尽管已经有很多基于图像的人脸编辑研究，然而大部分单张图像的人脸编辑，难以直接运用到视频编辑上。其原因在于将单帧人脸编辑效果传播到视频上存在诸多挑战：1. 满足人脸的3D 运动规律约束；2. 视频序列中人脸特征一致性；3. 编辑的视频时序变化的一致性。

目前的人脸视频编辑方法都局限于某一类特定的编辑效果，例如Chen等人在2020年发表于The 28th ACM International Conference on Multimedia提出的“Simswap: Anefficient framework for high fidelity face swapping.”方法利用深度网络交换视频帧人脸信息，可以进行视频换脸，但无法处理头发等脸外部分，无法用于颜色编辑的传播；Texler等人在2020年ACM Transactions on Graphics提出的“Interactive videostylization using fewshot patch-based training.”方法在图像块上对风格化输入进行深度网络训练，能在视频上传播艺术风格化编辑效果，但难以处理人脸几何发生变化的情况；而Siarohin等人在2019年Conference on Neural Information ProcessingSystems (NeurIPS)提出的“First order motion model for image animation.”方法利用无监督学习预测变形场，可以驱动各种方法编辑后的人脸，但难以精确还原源人物动作且分辨率低。商业上移动端的特效更多都是预设的滤镜或者预设的AR贴图特效。综上所述可见现有的人脸视频编辑技术针对特定效果开发，而没有对编辑传播过程进行归纳和更本质的研究。因此，开发一种新的泛用性广的高质量人脸视频编辑传播方法亟待解决。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种基于隐空间解耦的人脸编辑的深度视频传播方法。

本发明所采用的技术方案是：一种基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于：

获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；

从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；

基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数；

将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数，通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码；

通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码；

基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量；

基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像；

融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧的面部对齐图像，包括：

基于裁剪出的人脸图像使用FFHQ数据集的面部对齐算法获得人脸图像的面部对齐图像。

所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像，包括：采用StyleGAN2图像生成模型生成人脸编辑图像。

所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图，采用四层多层感知机编码输入的3DMM参数，然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。

所述融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧，包括：

其中，

为待编辑视频第i帧视频帧的视频结果帧；

为第i帧视频帧对应的组合掩模；

指从裁剪和对齐阶段获得的第i次转换；

和

分别代表图像模糊和膨胀处理；

和

为使用预训练人脸分割模型分别从视频帧的面部对齐图像

和该视频帧的人脸编辑图像

中获取局部掩模。

所述人脸几何编辑投影网络的训练采用三重损失函数监督，所述三重损失函数

包括：

其中，

为提供形状参数的3DMM参数；

为输入图像

的3DMM参数；

为编辑图像

的3DMM参数，

为基于

、

和

生成的编辑图像；

是替换函数，表示将

的3DMM参数列表替换为

；

是一组损失函数，用于测量参数

和

之间的不匹配。

所述损失函数

包括：

其中

指代可微渲染器；

指返回由给定3DMM参数重建的网格上关键点的函数；

为

损失；

为权重系数。

所述图像生成模型的训练采用如下损失：

其中，

为

损失；

为参数可调的图像生成模型；

为参数固定的人脸几何编辑投影网络；I为输入图像；P为输入图像的3DMM参数。

一种基于隐空间解耦的人脸编辑的深度视频传播装置，其特征在于：

获取模块，用于获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；

对齐模块，用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；

参数提取模块，用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数；

第一编码模块，用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数，通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码；

第二编码模块，用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码；

外观分量确定模块，用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量；

编辑生成模块，用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像；

视频融合模块，用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如所述方法的步骤。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述方法的步骤。

一种电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述方法的步骤。

本发明的有益效果是：本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中，实现动作、外貌、几何的解耦，进而修改需要传播的几何、外貌属性而不影响原视频的动作内容，实现视频上的人脸编辑传播。

本发明与人脸跟踪驱动、深度学习换脸以及传统图像变形的方法相比，受人脸关键点检测精度影响更小，能支持复杂的编辑内容，可更好地保留原视频动作细节，同时合成对应的编辑传播结果，并保证时序性。

本发明中人脸几何编辑投影网络整体采用金字塔结构来提取输入图像特征图，用四层多层感知机（MLP）编码输入的3DMM参数，然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2 的隐空间中，可以控制投影隐码的3D嵌入，实现传播几何编辑的技术效果。

本发明采用先投影到生成网络隐空间，解耦计算传播隐码，再生成视频的框架，无需计算光流也可实现保证时序性。

在训练的过程中，为了约束生成人脸的几何形状并尽可能精确地控制3DMM 参数，本发明设计了三重损失函数来监督人脸几何编辑投影网络的训练，实现了比单一监督更鲁棒的技术效果。

附图说明

图 1展示了实施例的传播结果。给定一个视频和一对原始和编辑的帧图像（示例中的左列），经过几分钟的对生成器的微调，本实施例的方法成功地将编辑效果传播到整个视频序列。本实施例的方法支持形状和纹理的编辑。此图中的编辑帧是通过 Photoshop编辑图像获得的。

图 2展示了实施例的结构框架。给定一系列视频帧和一个经过编辑的编辑帧，首先裁剪并对齐其中的人脸，使用预训练网络获取每个视频帧和编辑帧的3DMM参数，然后用编辑帧的形状参数替换每个视频帧的形状参数，最后通过人脸几何编辑投影网络将图像和形状信息映射到StyleGAN2隐空间。将编辑后的形状参数嵌入到隐码中后，找到其余编辑后的颜色和细节编辑隐码方向，并用于确定几何编辑之外的外观传播。最后，使用视频帧和编辑帧来微调生成器，并将生成的编辑人脸投影和合并到原始视频帧中。

图 3展示了StyleGAN2隐空间中流形上的编辑传播。

是原始输入视频中第i帧的反转潜码。本实施例先执行几何编辑传播以找到

，然后计算纹理编辑的分量

，并在形状传播后将

添加到每个帧以获得最终的隐码。

图 4展示了实施例中人脸几何编辑投影网络的详细架构，其中leaky-ReLU指带泄露线性整流函数。

图 5展示了实施例中映射块的详细架构，其中leaky-ReLU指带泄露线性整流函数。

图 6展示了实施例方法更多的传播结果。第2行的编辑帧是使用Photoshop实现的，第3行的编辑帧是通过现有的深度编辑方法StyleClip得到的，然后在Photoshop中进行手动优化。本实施例可以有效地传播各种编辑效果，而不受编辑方法的限制。

图 7展示了人脸图像上的几何编辑结果。给定每个人脸形状参考，实施例可以编辑输入图像的人脸形状，同时保持外观和表情，并最小化身份的变化。

图 8展示了语义传播的结果，适用于现有隐空间语义编辑的传播。

图 9展示了实施例传播磨皮的编辑效果。

具体实施方式

本实施例为一种基于隐空间解耦的人脸编辑的深度视频传播方法，具体包括以下步骤：

S1、获取待编辑视频和一编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到。

S2、从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像。

本实施例使用FFHQ数据集的面部对齐算法获得第i视频帧和编辑帧各自的面部对齐图像

和

。对齐的转换用T：

表示。

S3、使用预训练深度三维重建网络从第i视频帧和编辑帧各自的面部对齐图像

和

中获取第i视频帧和编辑帧各自的3DMM（人脸3D形变统计模型）参数。

为了确保几何编辑的正确传播，本实施例在 GAN 反转过程中向编码器引入了 3D监督。给定图像I，使用预训练的深度三维重建网络P得到一组3DMM参数：

，

3DMM参数分别对应形状、面部表情、反照率、光照、姿态和平移的系数。本实施例的目标是根据给定的3DMM参数控制反转的隐码，以便本实施例可以将形状属性从编辑帧转移到其他帧。

S4、将第i帧视频帧3DMM参数

中的形状参数替换为编辑帧3DMM参数

中的形状参数，然后通过人脸几何编辑投影网络E将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像

映射到StyleGAN2图像生成模型的隐空间中，编码成该第i视视频帧的形状修改隐码

。

其中，

是替换函数，它将

的3DMM参数列表替换为

。

S5、通过人脸几何编辑投影网络E将编辑帧的3DMM参数

和该编辑帧的面部对齐图像

映射到StyleGAN2图像生成模型的隐空间中，编码成该编辑帧的隐码

。

S6、基于编辑帧的隐码

和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量

。

其中，

为第k帧视频帧的形状修改隐码，第k帧视频帧为编辑帧对应的原始视频帧，编辑帧由第k帧视频帧经编辑形成。

S7、基于外观修改隐码分量

和视频帧的形状修改隐码

生成该视频帧的人脸编辑图像

。

其中，G为StyleGAN2图像生成模型。

S8、融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

本实施例根据以下公式投影并融合生成的人脸编辑图像

到原始视频帧：

其中，

为待编辑视频第i帧视频帧；

为待编辑视频第i帧视频帧的视频结果帧；

为第i帧视频帧对应的组合掩模；

指从裁剪和对齐阶段获得的第i次转换；

和

分别代表图像模糊和膨胀处理；

和

为使用预训练人脸分割模型分别从视频帧的面部对齐图像

和该视频帧的人脸编辑图像

中获取局部掩模。

本实施例中人脸几何编辑投影网络E采用金字塔结构构建的外观编码器网络来提取输入图像的特征图，采用四层多层感知机编码输入的3DMM参数，然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。由于StyleGAN2 中的浅层参数主要控制细粒度细节，本实施例将由 3D 参数编码的隐码注入前11 个映射块来控制映射。外观编码器采用 ResNet-IR 架构、作为其骨干架构来提取特征图。

本实施例中网络模型的训练策略与损失函数如下：

本实施例实现了自监督训练，损失函数由重建损失

和编辑损失

组成：

映射网络首先重构输入图像

，用Lpips损失

和身份损失

来约束生成的结果

：

其中，C代表预训练的ArcFace来提取身份特征；然后，通过输入和输出的身份特征之间的余弦相似性（表示为

）来测量身份不匹配度。

本实施例的框架需要输入编辑后的外观图像或形状参考图像，但很难获得编辑前后的成对的真值训练数据。为了模拟训练过程中可能出现的编辑效果，本发明随机选择了两幅图像：以几何编辑为例，一幅用作参考

以提供形状参数，另一幅用作输入参数

，以保留除形状外的三维人脸信息。网络根据该编辑参数生成编辑图像

，如下式所示：

其中，

为参数固定的图像生成模型；

为参数可调的人脸几何编辑投影网络。

为了约束生成的编辑图像

中的身份特征和形状特征，本实施例设计了编辑损失

，其中包括身份损失

和三重损失

，表示为：

对于生成的编辑图像

，没有相应的真值，因此引入了身份损失函数

来控制

和

之间的标识：

虽然人脸的几何编辑会影响身份，但本实施例希望除了形状之外，影响身份的外观细节和其他属性将尽可能保留。因此，本实施例使用

在训练期间限制几何编辑投影网络映射的隐码的范围，使编辑后的输出尽可能与输入人脸相似，同时匹配编辑后的几何形状。

此外，为了约束生成的图像形状并尽可能精确地控制3DMM参数，本实施例设计了一个三重损失

，定义如下：

其中，

是一组损失函数，用于测量两组参数

和

之间的不匹配：

其中，

指代可微渲染器，

指返回由给定 3D 参数重建的网格上的 68个关键点的函数。与 Tewari 等人在2020CVPR上发表的StyleRig仅使用两个循环一致损失来约束 3D 参数不同，本实施例直接使用所需参数

来约束3D从生成的图像

中检测到参数

，并计算

。经过大量试验测试，发明人发现

比两个循环损失更直接和更强。

视频生成的另一个重点是确保时间平滑度，本实施例方法与其他视频生成工作直接基于光流约束其生成网络不同，在大多数情况下，输入视频是时序一致的，为了保持输出视频的时序一致性，本实施例只需要在编辑传播过程中保持原始视频的一致性。

由于本实施例在训练期间限制了几何和身份，因此从图像到隐码的映射非常稳健。然后，当输入视频帧平滑对齐时，使隐码连续变化并保留时序性。最后通过StyleGAN2生成图像序列。本实施例发现StyleGAN2以这种方式生成的视频在大多数情况下没有时间上的不一致性问题。

为了使生成的效果符合给定的视频、关键帧和对应的编辑帧，本实施例固定了人脸几何编辑投影网络

的参数以及原始帧和编辑帧的外观隐码，然后迭代微调生成模型

的参数。本实施例使用以下损失来微调生成模型：

本实施例还提供一种基于隐空间解耦的人脸编辑的深度视频传播装置，包括获取模块、对齐模块、参数提取模块、第一编码模块、第二编码模块、外观分量确定模块、编辑生成模块和视频融合模块。

本例中获取模块用于获取待编辑视频和编辑帧，其中待编辑视频中至少一帧视频帧包含人脸图像，编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到；对齐模块用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧各自的面部对齐图像；参数提取模块用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数；第一编码模块用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数，通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码；第二编码模块用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码；外观分量确定模块用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量；编辑生成模块用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像；视频融合模块用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧。

本实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

本实施例还提供一种电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

Claims

1.一种基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于：

基于视频帧和编辑帧的面部对齐图像，获取视频帧和编辑帧各自的3DMM参数；

2.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于：所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部，得到视频帧和编辑帧的面部对齐图像，包括：

3.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于，所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像，包括：采用StyleGAN2图像生成模型生成人脸编辑图像。

4.根据权利要求3所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于，所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图，采用四层多层感知机编码输入的3DMM参数，然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。

5.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于，所述融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧，生成经人脸编辑的视频结果帧，包括：

其中，

为待编辑视频第i帧视频帧的视频结果帧；

为第i帧视频帧对应的组合掩模；T_i指从裁剪和对齐阶段获得的第i次转换；Blur和Dilate分别代表图像模糊和膨胀处理；M_in和M_out为使用预训练人脸分割模型分别从视频帧的面部对齐图像I_in和该视频帧的人脸编辑图像I_out中获取局部掩模。

6.根据权利要求1或4所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于，所述人脸几何编辑投影网络的训练采用三重损失函数监督，所述三重损失函数L_tri包括：

L_tri＝L_direct+L_cycle1+L_cycle2

L_direct＝L_p(p_out2,Repl(p_s,p_in))

L_cycle1＝L_p(p_in,Repl(p_in,p_out2))

L_cycle2＝L_p(p_s,Repl(p_out2,p_s))

其中，p_s为提供形状参数的3DMM参数；p_in为输入图像I_in的3DMM参数；p_out2为编辑图像I_out2的3DMM参数，I_out2为基于I_in、p_s和p_in生成的编辑图像；Repl(p_x,p_y)是替换函数，表示将p_y的3DMM参数列表替换为p_x；L_p是一组损失函数，L_p(p₁,p₂)用于测量参数p₁和p₂之间的不匹配。

7.根据权利要求6所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于，所述损失函数L_p包括：

L_p(p₁,p₂)＝L_lpips(R(p₁),R(p₂))+λ_ldmk||L(p₁)-L(p₂)||₂

其中R(·)指代可微渲染器；L(·)指返回由给定3DMM参数重建的网格上关键点的函数；L_lpips为Lpips损失；λ_ldmk为权重系数。

8.根据权利要求3所述的基于隐空间解耦的人脸编辑的深度视频传播方法，其特征在于，所述图像生成模型的训练采用如下损失：

L_t＝L_lpips(I,G_train(w)),w＝E_frozen(I,p)

其中，L_lpips为Lpips损失；G_train为参数可调的图像生成模型；E_frozen为参数固定的人脸几何编辑投影网络；I为输入图像；P为输入图像的3DMM参数。

9.一种基于隐空间解耦的人脸编辑的深度视频传播装置，其特征在于：

10.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～8任意一项所述方法的步骤。

11.一种电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～8任意一项所述方法的步骤。