CN114845067B - 基于隐空间解耦的人脸编辑的深度视频传播方法 - Google Patents
基于隐空间解耦的人脸编辑的深度视频传播方法 Download PDFInfo
- Publication number
- CN114845067B CN114845067B CN202210779300.9A CN202210779300A CN114845067B CN 114845067 B CN114845067 B CN 114845067B CN 202210779300 A CN202210779300 A CN 202210779300A CN 114845067 B CN114845067 B CN 114845067B
- Authority
- CN
- China
- Prior art keywords
- editing
- video
- frame
- face
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。本发明的技术方案为:获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数。本发明适用于计算机视觉、计算机图形学领域。本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中,实现动作、外貌、几何的解耦,进而修改需要传播的几何、外貌属性而不影响原视频的动作内容,实现视频上的人脸编辑传播。
Description
技术领域
本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。适用于计算机视觉、计算机图形学领域。
背景技术
人脸视频的编辑传播指将人脸编辑效果从一个或多个视频关键帧一致地传播到其他视频帧上。经典的编辑传播工作(如Xu K等人在2009年ACM Transactions onGraphics提出的“Efficient affinity-based edit propagation using kd tree”)通过设计判别帧间像素关系的算法,实现了颜色编辑的视频传播。随着深度生成模型的发展,更多的传播效果如视频风格化(如Texler O等人在2020年ACM Transactions on Graphics提出的“Interactive video stylization using few-shot patch-based training”)和视频着色(如Lei C等人在2019年The IEEE Conference on Computer Vision and PatternRecognition上提出的“Fully automatic video colorization with self-regularization and diversity”)被探索出来。Jampani 等人在2017年The IEEEConference on Computer Vision and Pattern Recognition提出Video PropagationNetworks 使用双边滤波网络进行自适应的视频传播,将信息从前一帧传输到后一帧,然后通过空间网络进行细化。Kasten 等人在2021年ACM Transactions on Graphics上提出“Layered neural atlases for consistent video editing”,显式地重建了分层神经图谱(Layered Neural Atlases), 该图谱表示多个连续帧上的内容,从而允许对单个关键帧以外的内容进行直观编辑。然而,他们的方法在编辑之前需要花费数小时对每个视频进行单独训练以构建图谱。Yao等人在2021年The IEEE/CVF International Conference onComputer Vision上提出了“A latent transformer for disentangled face editing inimages and videos”,一种基于Transformer 的隐空间编码器来解耦StyleGAN2,进而实现语义视频编辑。Tzaban等人在2022年提出了“Stitch it in time: Gan-based facialediting of real videos”,设计了背景缝合训练消除StyleGAN2 生成图像贴回视频中出现的边缘瑕疵。然而,这些方法仅能处理固定属性的视频编辑,无法传播给定关键帧的编辑效果。为了支持实时推理,Texler 等人在2020年ACM Transactions on Graphics提出了“Interactive video stylization using few-shot patch-based training”,基于局部图案的训练实现了视频风格化迁移,只使用几个风格化的样例来训练外观迁移网络,同时隐式地保持了时间一致性。当可以建立对应关系时,他们的方法效果很好,但当关键帧包含几何体编辑时,这种方法就难以处理。
视频是互联网另一大信息载体,视频传播的流行催生了基于视频的人脸编辑需求。尽管已经有很多基于图像的人脸编辑研究,然而大部分单张图像的人脸编辑,难以直接运用到视频编辑上。其原因在于将单帧人脸编辑效果传播到视频上存在诸多挑战:1. 满足人脸的3D 运动规律约束;2. 视频序列中人脸特征一致性;3. 编辑的视频时序变化的一致性。
目前的人脸视频编辑方法都局限于某一类特定的编辑效果,例如Chen等人在2020年发表于The 28th ACM International Conference on Multimedia提出的“Simswap: Anefficient framework for high fidelity face swapping.”方法利用深度网络交换视频帧人脸信息,可以进行视频换脸,但无法处理头发等脸外部分,无法用于颜色编辑的传播;Texler等人在2020年ACM Transactions on Graphics提出的“Interactive videostylization using fewshot patch-based training.”方法在图像块上对风格化输入进行深度网络训练,能在视频上传播艺术风格化编辑效果,但难以处理人脸几何发生变化的情况;而Siarohin等人在2019年Conference on Neural Information ProcessingSystems (NeurIPS)提出的“First order motion model for image animation.”方法利用无监督学习预测变形场,可以驱动各种方法编辑后的人脸,但难以精确还原源人物动作且分辨率低。商业上移动端的特效更多都是预设的滤镜或者预设的AR贴图特效。综上所述可见现有的人脸视频编辑技术针对特定效果开发,而没有对编辑传播过程进行归纳和更本质的研究。因此,开发一种新的泛用性广的高质量人脸视频编辑传播方法亟待解决。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种基于隐空间解耦的人脸编辑的深度视频传播方法。
本发明所采用的技术方案是:一种基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于:
获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;
将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧的面部对齐图像,包括:
基于裁剪出的人脸图像使用FFHQ数据集的面部对齐算法获得人脸图像的面部对齐图像。
所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像,包括:采用StyleGAN2图像生成模型生成人脸编辑图像。
所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图,采用四层多层感知机编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。
所述融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧,包括:
其中,为待编辑视频第i帧视频帧的视频结果帧;为第i帧视频帧对应的组合掩模;指从裁剪和对齐阶段获得的第i次转换;和分别代表图像模糊和膨胀处理;和为使用预训练人脸分割模型分别从视频帧的面部对齐图像和该视频帧的人脸编辑图像中获取局部掩模。
其中,为提供形状参数的3DMM参数;为输入图像的3DMM参数;为编辑图像的3DMM参数,为基于、 和生成的编辑图像; 是替换函数,表示将 的3DMM参数列表替换为 ;是一组损失函数,用于测量参数和之间的不匹配。
所述图像生成模型的训练采用如下损失:
一种基于隐空间解耦的人脸编辑的深度视频传播装置,其特征在于:
获取模块,用于获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
对齐模块,用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
参数提取模块,用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;
第一编码模块,用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
第二编码模块,用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
外观分量确定模块,用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
编辑生成模块,用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
视频融合模块,用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如所述方法的步骤。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述方法的步骤。
一种电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述方法的步骤。
本发明的有益效果是:本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中,实现动作、外貌、几何的解耦,进而修改需要传播的几何、外貌属性而不影响原视频的动作内容,实现视频上的人脸编辑传播。
本发明与人脸跟踪驱动、深度学习换脸以及传统图像变形的方法相比,受人脸关键点检测精度影响更小,能支持复杂的编辑内容,可更好地保留原视频动作细节,同时合成对应的编辑传播结果,并保证时序性。
本发明中人脸几何编辑投影网络整体采用金字塔结构来提取输入图像特征图,用四层多层感知机(MLP)编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2 的隐空间中,可以控制投影隐码的3D嵌入,实现传播几何编辑的技术效果。
本发明采用先投影到生成网络隐空间,解耦计算传播隐码,再生成视频的框架,无需计算光流也可实现保证时序性。
在训练的过程中,为了约束生成人脸的几何形状并尽可能精确地控制3DMM 参数,本发明设计了三重损失函数来监督人脸几何编辑投影网络的训练,实现了比单一监督更鲁棒的技术效果。
附图说明
图 1展示了实施例的传播结果。给定一个视频和一对原始和编辑的帧图像(示例中的左列),经过几分钟的对生成器的微调,本实施例的方法成功地将编辑效果传播到整个视频序列。本实施例的方法支持形状和纹理的编辑。 此图中的编辑帧是通过 Photoshop编辑图像获得的。
图 2展示了实施例的结构框架。给定一系列视频帧和一个经过编辑的编辑帧,首先裁剪并对齐其中的人脸,使用预训练网络获取每个视频帧和编辑帧的3DMM参数,然后用编辑帧的形状参数替换每个视频帧的形状参数,最后通过人脸几何编辑投影网络将图像和形状信息映射到StyleGAN2隐空间。将编辑后的形状参数嵌入到隐码中后,找到其余编辑后的颜色和细节编辑隐码方向,并用于确定几何编辑之外的外观传播。最后,使用视频帧和编辑帧来微调生成器,并将生成的编辑人脸投影和合并到原始视频帧中。
图 4展示了实施例中人脸几何编辑投影网络的详细架构,其中leaky-ReLU指带泄露线性整流函数。
图 5展示了实施例中映射块的详细架构,其中leaky-ReLU指带泄露线性整流函数。
图 6展示了实施例方法更多的传播结果。 第2行的编辑帧是使用Photoshop实现的,第3行的编辑帧是通过现有的深度编辑方法StyleClip得到的,然后在Photoshop中进行手动优化。本实施例可以有效地传播各种编辑效果,而不受编辑方法的限制。
图 7展示了人脸图像上的几何编辑结果。给定每个人脸形状参考,实施例可以编辑输入图像的人脸形状,同时保持外观和表情,并最小化身份的变化。
图 8展示了语义传播的结果,适用于现有隐空间语义编辑的传播。
图 9展示了实施例传播磨皮的编辑效果。
具体实施方式
本实施例为一种基于隐空间解耦的人脸编辑的深度视频传播方法,具体包括以下步骤:
S1、获取待编辑视频和一编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到。
S2、从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像。
为了确保几何编辑的正确传播,本实施例在 GAN 反转过程中向编码器引入了 3D监督。给定图像I,使用预训练的深度三维重建网络P得到一组3DMM参数:
3DMM参数分别对应形状、面部表情、反照率、光照、姿态和平移的系数。本实施例的目标是根据给定的3DMM参数控制反转的隐码,以便本实施例可以将形状属性从编辑帧转移到其他帧。
S4、将第i帧视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,然后通过人脸几何编辑投影网络E将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像映射到StyleGAN2图像生成模型的隐空间中,编码成该第i视视频帧的形状修改隐码 。
其中,G为StyleGAN2图像生成模型。
S8、融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
其中,为待编辑视频第i帧视频帧;为待编辑视频第i帧视频帧的视频结果帧;为第i帧视频帧对应的组合掩模;指从裁剪和对齐阶段获得的第i次转换;和分别代表图像模糊和膨胀处理;和为使用预训练人脸分割模型分别从视频帧的面部对齐图像和该视频帧的人脸编辑图像中获取局部掩模。
本实施例中人脸几何编辑投影网络E采用金字塔结构构建的外观编码器网络来提取输入图像的特征图,采用四层多层感知机编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。 由于StyleGAN2 中的浅层参数主要控制细粒度细节,本实施例将由 3D 参数编码的隐码注入前11 个映射块来控制映射。外观编码器采用 ResNet-IR 架构、作为其骨干架构来提取特征图。
本实施例中网络模型的训练策略与损失函数如下:
本实施例的框架需要输入编辑后的外观图像或形状参考图像,但很难获得编辑前后的成对的真值训练数据。为了模拟训练过程中可能出现的编辑效果,本发明随机选择了两幅图像:以几何编辑为例,一幅用作参考以提供形状参数,另一幅用作输入参数,以保留除形状外的三维人脸信息。网络根据该编辑参数生成编辑图像,如下式所示:
虽然人脸的几何编辑会影响身份,但本实施例希望除了形状之外,影响身份的外观细节和其他属性将尽可能保留。因此,本实施例使用在训练期间限制几何编辑投影网络映射的隐码的范围,使编辑后的输出尽可能与输入人脸相似,同时匹配编辑后的几何形状。
其中, 指代可微渲染器,指返回由给定 3D 参数重建的网格上的 68个关键点的函数。与 Tewari 等人在2020CVPR上发表的StyleRig仅使用两个循环一致损失来约束 3D 参数不同,本实施例直接使用所需参数 来约束3D从生成的图像 中检测到参数 ,并计算。经过大量试验测试,发明人发现 比两个循环损失更直接和更强。
视频生成的另一个重点是确保时间平滑度,本实施例方法与其他视频生成工作直接基于光流约束其生成网络不同,在大多数情况下,输入视频是时序一致的,为了保持输出视频的时序一致性,本实施例只需要在编辑传播过程中保持原始视频的一致性。
由于本实施例在训练期间限制了几何和身份,因此从图像到隐码的映射非常稳健。然后,当输入视频帧平滑对齐时,使隐码连续变化并保留时序性。最后通过StyleGAN2生成图像序列。本实施例发现StyleGAN2以这种方式生成的视频在大多数情况下没有时间上的不一致性问题。
本实施例还提供一种基于隐空间解耦的人脸编辑的深度视频传播装置,包括获取模块、对齐模块、参数提取模块、第一编码模块、第二编码模块、外观分量确定模块、编辑生成模块和视频融合模块。
本例中获取模块用于获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;对齐模块用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;参数提取模块用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;第一编码模块用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;第二编码模块用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;外观分量确定模块用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;编辑生成模块用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;视频融合模块用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
本实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。
本实施例还提供一种电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。
Claims (11)
1.一种基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于:
获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
基于视频帧和编辑帧的面部对齐图像,获取视频帧和编辑帧各自的3DMM参数;
将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
2.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于:所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧的面部对齐图像,包括:
基于裁剪出的人脸图像使用FFHQ数据集的面部对齐算法获得人脸图像的面部对齐图像。
3.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像,包括:采用StyleGAN2图像生成模型生成人脸编辑图像。
4.根据权利要求3所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图,采用四层多层感知机编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。
6.根据权利要求1或4所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述人脸几何编辑投影网络的训练采用三重损失函数监督,所述三重损失函数Ltri包括:
Ltri=Ldirect+Lcycle1+Lcycle2
Ldirect=Lp(pout2,Repl(ps,pin))
Lcycle1=Lp(pin,Repl(pin,pout2))
Lcycle2=Lp(ps,Repl(pout2,ps))
其中,ps为提供形状参数的3DMM参数;pin为输入图像Iin的3DMM参数;pout2为编辑图像Iout2的3DMM参数,Iout2为基于Iin、ps和pin生成的编辑图像;Repl(px,py)是替换函数,表示将py的3DMM参数列表替换为px;Lp是一组损失函数,Lp(p1,p2)用于测量参数p1和p2之间的不匹配。
7.根据权利要求6所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述损失函数Lp包括:
Lp(p1,p2)=Llpips(R(p1),R(p2))+λldmk||L(p1)-L(p2)||2
其中R(·)指代可微渲染器;L(·)指返回由给定3DMM参数重建的网格上关键点的函数;Llpips为Lpips损失;λldmk为权重系数。
8.根据权利要求3所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述图像生成模型的训练采用如下损失:
Lt=Llpips(I,Gtrain(w)),w=Efrozen(I,p)
其中,Llpips为Lpips损失;Gtrain为参数可调的图像生成模型;Efrozen为参数固定的人脸几何编辑投影网络;I为输入图像;P为输入图像的3DMM参数。
9.一种基于隐空间解耦的人脸编辑的深度视频传播装置,其特征在于:
获取模块,用于获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
对齐模块,用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
参数提取模块,用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;
第一编码模块,用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
第二编码模块,用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
外观分量确定模块,用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
编辑生成模块,用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
视频融合模块,用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
10.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~8任意一项所述方法的步骤。
11.一种电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~8任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779300.9A CN114845067B (zh) | 2022-07-04 | 2022-07-04 | 基于隐空间解耦的人脸编辑的深度视频传播方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779300.9A CN114845067B (zh) | 2022-07-04 | 2022-07-04 | 基于隐空间解耦的人脸编辑的深度视频传播方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114845067A CN114845067A (zh) | 2022-08-02 |
CN114845067B true CN114845067B (zh) | 2022-11-04 |
Family
ID=82575162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210779300.9A Active CN114845067B (zh) | 2022-07-04 | 2022-07-04 | 基于隐空间解耦的人脸编辑的深度视频传播方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114845067B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470182A (zh) * | 2021-09-03 | 2021-10-01 | 中科计算技术创新研究院 | 人脸几何特征编辑方法及深度人脸重塑编辑方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878612B2 (en) * | 2017-04-04 | 2020-12-29 | Intel Corporation | Facial image replacement using 3-dimensional modelling techniques |
CN113689538B (zh) * | 2020-05-18 | 2024-05-21 | 北京达佳互联信息技术有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN112287820A (zh) * | 2020-10-28 | 2021-01-29 | 广州虎牙科技有限公司 | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 |
CN113034355B (zh) * | 2021-04-20 | 2022-06-21 | 浙江大学 | 一种基于深度学习的肖像图像双下巴去除方法 |
CN112991484B (zh) * | 2021-04-28 | 2021-09-03 | 中科计算技术创新研究院 | 智能人脸编辑方法、装置、存储介质及设备 |
CN113850168A (zh) * | 2021-09-16 | 2021-12-28 | 百果园技术(新加坡)有限公司 | 人脸图片的融合方法、装置、设备及存储介质 |
CN114240736A (zh) * | 2021-12-06 | 2022-03-25 | 中国科学院沈阳自动化研究所 | 基于VAE和cGAN的同时生成和编辑任意人脸属性的方法 |
-
2022
- 2022-07-04 CN CN202210779300.9A patent/CN114845067B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470182A (zh) * | 2021-09-03 | 2021-10-01 | 中科计算技术创新研究院 | 人脸几何特征编辑方法及深度人脸重塑编辑方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114845067A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022267641A1 (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN112767554B (zh) | 一种点云补全方法、装置、设备及存储介质 | |
Zheng et al. | Avatarrex: Real-time expressive full-body avatars | |
CN113470182B (zh) | 人脸几何特征编辑方法及深度人脸重塑编辑方法 | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及系统 | |
CN113850900A (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
Wang et al. | Ucl-dehaze: Towards real-world image dehazing via unsupervised contrastive learning | |
CN117437420A (zh) | 一种跨模态医学影像分割方法及系统 | |
Zhou et al. | A superior image inpainting scheme using Transformer-based self-supervised attention GAN model | |
CN114845067B (zh) | 基于隐空间解耦的人脸编辑的深度视频传播方法 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
Yi et al. | Predicting personalized head movement from short video and speech signal | |
Dai et al. | PBR-Net: Imitating physically based rendering using deep neural network | |
CN116092164A (zh) | 人脸图像重演方法、装置、电子设备及存储介质 | |
Hu et al. | Self-perceptual generative adversarial network for synthetic aperture sonar image generation | |
Wang et al. | DFC-dehaze: an improved cycle-consistent generative adversarial network for unpaired image dehazing | |
CN114926591A (zh) | 多分支深度学习的3d人脸重建模型训练方法、系统及介质 | |
CN114283181A (zh) | 一种基于样例的动态纹理迁移方法及系统 | |
Gan et al. | Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications | |
Min et al. | Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance Fields | |
Li et al. | Guiding 3D Digital Content Generation with Pre-Trained Diffusion Models. | |
Chen et al. | 3D Facial Priors Guided Local-Global Motion Collaboration Transforms for One-shot Talking-Head Video Synthesis | |
Bridgeman | Parametric human modelling for shape and texture representation from video | |
Jing et al. | FRNeRF: Fusion and regularization fields for dynamic view synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |