CN114845067B - 基于隐空间解耦的人脸编辑的深度视频传播方法 - Google Patents

基于隐空间解耦的人脸编辑的深度视频传播方法 Download PDF

Info

Publication number
CN114845067B
CN114845067B CN202210779300.9A CN202210779300A CN114845067B CN 114845067 B CN114845067 B CN 114845067B CN 202210779300 A CN202210779300 A CN 202210779300A CN 114845067 B CN114845067 B CN 114845067B
Authority
CN
China
Prior art keywords
editing
video
frame
face
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210779300.9A
Other languages
English (en)
Other versions
CN114845067A (zh
Inventor
高林
姜悦人
陈姝宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Computing Technology Innovation Research Institute
Original Assignee
Zhongke Computing Technology Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Computing Technology Innovation Research Institute filed Critical Zhongke Computing Technology Innovation Research Institute
Priority to CN202210779300.9A priority Critical patent/CN114845067B/zh
Publication of CN114845067A publication Critical patent/CN114845067A/zh
Application granted granted Critical
Publication of CN114845067B publication Critical patent/CN114845067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。本发明的技术方案为:获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数。本发明适用于计算机视觉、计算机图形学领域。本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中,实现动作、外貌、几何的解耦,进而修改需要传播的几何、外貌属性而不影响原视频的动作内容,实现视频上的人脸编辑传播。

Description

基于隐空间解耦的人脸编辑的深度视频传播方法
技术领域
本发明涉及一种基于隐空间解耦的人脸编辑的深度视频传播方法。适用于计算机视觉、计算机图形学领域。
背景技术
人脸视频的编辑传播指将人脸编辑效果从一个或多个视频关键帧一致地传播到其他视频帧上。经典的编辑传播工作(如Xu K等人在2009年ACM Transactions onGraphics提出的“Efficient affinity-based edit propagation using kd tree”)通过设计判别帧间像素关系的算法,实现了颜色编辑的视频传播。随着深度生成模型的发展,更多的传播效果如视频风格化(如Texler O等人在2020年ACM Transactions on Graphics提出的“Interactive video stylization using few-shot patch-based training”)和视频着色(如Lei C等人在2019年The IEEE Conference on Computer Vision and PatternRecognition上提出的“Fully automatic video colorization with self-regularization and diversity”)被探索出来。Jampani 等人在2017年The IEEEConference on Computer Vision and Pattern Recognition提出Video PropagationNetworks 使用双边滤波网络进行自适应的视频传播,将信息从前一帧传输到后一帧,然后通过空间网络进行细化。Kasten 等人在2021年ACM Transactions on Graphics上提出“Layered neural atlases for consistent video editing”,显式地重建了分层神经图谱(Layered Neural Atlases), 该图谱表示多个连续帧上的内容,从而允许对单个关键帧以外的内容进行直观编辑。然而,他们的方法在编辑之前需要花费数小时对每个视频进行单独训练以构建图谱。Yao等人在2021年The IEEE/CVF International Conference onComputer Vision上提出了“A latent transformer for disentangled face editing inimages and videos”,一种基于Transformer 的隐空间编码器来解耦StyleGAN2,进而实现语义视频编辑。Tzaban等人在2022年提出了“Stitch it in time: Gan-based facialediting of real videos”,设计了背景缝合训练消除StyleGAN2 生成图像贴回视频中出现的边缘瑕疵。然而,这些方法仅能处理固定属性的视频编辑,无法传播给定关键帧的编辑效果。为了支持实时推理,Texler 等人在2020年ACM Transactions on Graphics提出了“Interactive video stylization using few-shot patch-based training”,基于局部图案的训练实现了视频风格化迁移,只使用几个风格化的样例来训练外观迁移网络,同时隐式地保持了时间一致性。当可以建立对应关系时,他们的方法效果很好,但当关键帧包含几何体编辑时,这种方法就难以处理。
视频是互联网另一大信息载体,视频传播的流行催生了基于视频的人脸编辑需求。尽管已经有很多基于图像的人脸编辑研究,然而大部分单张图像的人脸编辑,难以直接运用到视频编辑上。其原因在于将单帧人脸编辑效果传播到视频上存在诸多挑战:1. 满足人脸的3D 运动规律约束;2. 视频序列中人脸特征一致性;3. 编辑的视频时序变化的一致性。
目前的人脸视频编辑方法都局限于某一类特定的编辑效果,例如Chen等人在2020年发表于The 28th ACM International Conference on Multimedia提出的“Simswap: Anefficient framework for high fidelity face swapping.”方法利用深度网络交换视频帧人脸信息,可以进行视频换脸,但无法处理头发等脸外部分,无法用于颜色编辑的传播;Texler等人在2020年ACM Transactions on Graphics提出的“Interactive videostylization using fewshot patch-based training.”方法在图像块上对风格化输入进行深度网络训练,能在视频上传播艺术风格化编辑效果,但难以处理人脸几何发生变化的情况;而Siarohin等人在2019年Conference on Neural Information ProcessingSystems (NeurIPS)提出的“First order motion model for image animation.”方法利用无监督学习预测变形场,可以驱动各种方法编辑后的人脸,但难以精确还原源人物动作且分辨率低。商业上移动端的特效更多都是预设的滤镜或者预设的AR贴图特效。综上所述可见现有的人脸视频编辑技术针对特定效果开发,而没有对编辑传播过程进行归纳和更本质的研究。因此,开发一种新的泛用性广的高质量人脸视频编辑传播方法亟待解决。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种基于隐空间解耦的人脸编辑的深度视频传播方法。
本发明所采用的技术方案是:一种基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于:
获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;
将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧的面部对齐图像,包括:
基于裁剪出的人脸图像使用FFHQ数据集的面部对齐算法获得人脸图像的面部对齐图像。
所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像,包括:采用StyleGAN2图像生成模型生成人脸编辑图像。
所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图,采用四层多层感知机编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。
所述融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧,包括:
Figure 921981DEST_PATH_IMAGE001
Figure 10023DEST_PATH_IMAGE002
其中,
Figure 11477DEST_PATH_IMAGE003
为待编辑视频第i帧视频帧的视频结果帧;
Figure 944798DEST_PATH_IMAGE004
为第i帧视频帧对应的组合掩模;
Figure 410414DEST_PATH_IMAGE005
指从裁剪和对齐阶段获得的第i次转换;
Figure 669357DEST_PATH_IMAGE006
Figure 892528DEST_PATH_IMAGE007
分别代表图像模糊和膨胀处理;
Figure 895119DEST_PATH_IMAGE008
Figure 965975DEST_PATH_IMAGE009
为使用预训练人脸分割模型分别从视频帧的面部对齐图像
Figure 130240DEST_PATH_IMAGE010
和该视频帧的人脸编辑图像
Figure 106286DEST_PATH_IMAGE011
中获取局部掩模。
所述人脸几何编辑投影网络的训练采用三重损失函数监督,所述三重损失函数
Figure 646989DEST_PATH_IMAGE012
包括:
Figure 821618DEST_PATH_IMAGE013
Figure 422364DEST_PATH_IMAGE014
Figure 885706DEST_PATH_IMAGE015
Figure 964521DEST_PATH_IMAGE016
其中,
Figure 259236DEST_PATH_IMAGE017
为提供形状参数的3DMM参数;
Figure 765303DEST_PATH_IMAGE018
为输入图像
Figure 715942DEST_PATH_IMAGE019
的3DMM参数;
Figure 598447DEST_PATH_IMAGE020
为编辑图像
Figure 747669DEST_PATH_IMAGE021
的3DMM参数,
Figure 424638DEST_PATH_IMAGE022
为基于
Figure 862572DEST_PATH_IMAGE023
Figure 283190DEST_PATH_IMAGE024
Figure 490180DEST_PATH_IMAGE025
生成的编辑图像;
Figure 649635DEST_PATH_IMAGE026
是替换函数,表示将
Figure 574865DEST_PATH_IMAGE027
的3DMM参数列表替换为
Figure 533594DEST_PATH_IMAGE028
Figure 860670DEST_PATH_IMAGE029
是一组损失函数,用于测量参数
Figure 941759DEST_PATH_IMAGE030
Figure 88706DEST_PATH_IMAGE031
之间的不匹配。
所述损失函数
Figure 851126DEST_PATH_IMAGE032
包括:
Figure 32709DEST_PATH_IMAGE033
其中
Figure 284698DEST_PATH_IMAGE034
指代可微渲染器;
Figure 184521DEST_PATH_IMAGE035
指返回由给定3DMM参数重建的网格上关键点的函数;
Figure 485053DEST_PATH_IMAGE036
Figure 521142DEST_PATH_IMAGE037
损失;
Figure 944033DEST_PATH_IMAGE038
为权重系数。
所述图像生成模型的训练采用如下损失:
Figure 65573DEST_PATH_IMAGE039
其中,
Figure 169795DEST_PATH_IMAGE040
Figure 325970DEST_PATH_IMAGE041
损失;
Figure 123024DEST_PATH_IMAGE042
为参数可调的图像生成模型;
Figure 279330DEST_PATH_IMAGE043
为参数固定的人脸几何编辑投影网络;I为输入图像;P为输入图像的3DMM参数。
一种基于隐空间解耦的人脸编辑的深度视频传播装置,其特征在于:
获取模块,用于获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
对齐模块,用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
参数提取模块,用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;
第一编码模块,用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
第二编码模块,用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
外观分量确定模块,用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
编辑生成模块,用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
视频融合模块,用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如所述方法的步骤。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述方法的步骤。
一种电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述方法的步骤。
本发明的有益效果是:本发明通过将对齐的人脸图像深度解耦到生成模型的隐空间中,实现动作、外貌、几何的解耦,进而修改需要传播的几何、外貌属性而不影响原视频的动作内容,实现视频上的人脸编辑传播。
本发明与人脸跟踪驱动、深度学习换脸以及传统图像变形的方法相比,受人脸关键点检测精度影响更小,能支持复杂的编辑内容,可更好地保留原视频动作细节,同时合成对应的编辑传播结果,并保证时序性。
本发明中人脸几何编辑投影网络整体采用金字塔结构来提取输入图像特征图,用四层多层感知机(MLP)编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2 的隐空间中,可以控制投影隐码的3D嵌入,实现传播几何编辑的技术效果。
本发明采用先投影到生成网络隐空间,解耦计算传播隐码,再生成视频的框架,无需计算光流也可实现保证时序性。
在训练的过程中,为了约束生成人脸的几何形状并尽可能精确地控制3DMM 参数,本发明设计了三重损失函数来监督人脸几何编辑投影网络的训练,实现了比单一监督更鲁棒的技术效果。
附图说明
图 1展示了实施例的传播结果。给定一个视频和一对原始和编辑的帧图像(示例中的左列),经过几分钟的对生成器的微调,本实施例的方法成功地将编辑效果传播到整个视频序列。本实施例的方法支持形状和纹理的编辑。 此图中的编辑帧是通过 Photoshop编辑图像获得的。
图 2展示了实施例的结构框架。给定一系列视频帧和一个经过编辑的编辑帧,首先裁剪并对齐其中的人脸,使用预训练网络获取每个视频帧和编辑帧的3DMM参数,然后用编辑帧的形状参数替换每个视频帧的形状参数,最后通过人脸几何编辑投影网络将图像和形状信息映射到StyleGAN2隐空间。将编辑后的形状参数嵌入到隐码中后,找到其余编辑后的颜色和细节编辑隐码方向,并用于确定几何编辑之外的外观传播。最后,使用视频帧和编辑帧来微调生成器,并将生成的编辑人脸投影和合并到原始视频帧中。
图 3展示了StyleGAN2隐空间中流形上的编辑传播。
Figure 187243DEST_PATH_IMAGE044
是原始输入视频中第i帧的反转潜码。本实施例先执行几何编辑传播以找到
Figure 932346DEST_PATH_IMAGE045
,然后计算纹理编辑的分量
Figure 900302DEST_PATH_IMAGE046
,并在形状传播后将
Figure 793171DEST_PATH_IMAGE046
添加到每个帧以获得最终的隐码。
图 4展示了实施例中人脸几何编辑投影网络的详细架构,其中leaky-ReLU指带泄露线性整流函数。
图 5展示了实施例中映射块的详细架构,其中leaky-ReLU指带泄露线性整流函数。
图 6展示了实施例方法更多的传播结果。 第2行的编辑帧是使用Photoshop实现的,第3行的编辑帧是通过现有的深度编辑方法StyleClip得到的,然后在Photoshop中进行手动优化。本实施例可以有效地传播各种编辑效果,而不受编辑方法的限制。
图 7展示了人脸图像上的几何编辑结果。给定每个人脸形状参考,实施例可以编辑输入图像的人脸形状,同时保持外观和表情,并最小化身份的变化。
图 8展示了语义传播的结果,适用于现有隐空间语义编辑的传播。
图 9展示了实施例传播磨皮的编辑效果。
具体实施方式
本实施例为一种基于隐空间解耦的人脸编辑的深度视频传播方法,具体包括以下步骤:
S1、获取待编辑视频和一编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到。
S2、从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像。
本实施例使用FFHQ数据集的面部对齐算法获得第i视频帧和编辑帧各自的面部对齐图像
Figure 504775DEST_PATH_IMAGE047
Figure 369963DEST_PATH_IMAGE048
。对齐的转换用T
Figure 508820DEST_PATH_IMAGE049
表示。
S3、使用预训练深度三维重建网络从第i视频帧和编辑帧各自的面部对齐图像
Figure 623407DEST_PATH_IMAGE050
Figure 138702DEST_PATH_IMAGE048
中获取第i视频帧和编辑帧各自的3DMM(人脸3D形变统计模型)参数。
为了确保几何编辑的正确传播,本实施例在 GAN 反转过程中向编码器引入了 3D监督。给定图像I,使用预训练的深度三维重建网络P得到一组3DMM参数:
Figure 858396DEST_PATH_IMAGE051
3DMM参数分别对应形状、面部表情、反照率、光照、姿态和平移的系数。本实施例的目标是根据给定的3DMM参数控制反转的隐码,以便本实施例可以将形状属性从编辑帧转移到其他帧。
S4、将第i帧视频帧3DMM参数
Figure 168155DEST_PATH_IMAGE052
中的形状参数替换为编辑帧3DMM参数
Figure 770037DEST_PATH_IMAGE053
中的形状参数,然后通过人脸几何编辑投影网络E将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像
Figure 823444DEST_PATH_IMAGE054
映射到StyleGAN2图像生成模型的隐空间中,编码成该第i视视频帧的形状修改隐码
Figure 397645DEST_PATH_IMAGE045
Figure 878305DEST_PATH_IMAGE055
其中,
Figure 482330DEST_PATH_IMAGE056
是替换函数,它将
Figure 73849DEST_PATH_IMAGE057
的3DMM参数列表替换为
Figure 768135DEST_PATH_IMAGE058
S5、通过人脸几何编辑投影网络E将编辑帧的3DMM参数
Figure 419696DEST_PATH_IMAGE059
和该编辑帧的面部对齐图像
Figure 996171DEST_PATH_IMAGE060
映射到StyleGAN2图像生成模型的隐空间中,编码成该编辑帧的隐码
Figure 391381DEST_PATH_IMAGE061
S6、基于编辑帧的隐码
Figure 205753DEST_PATH_IMAGE062
和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量
Figure 762636DEST_PATH_IMAGE063
Figure 29669DEST_PATH_IMAGE064
其中,
Figure 25307DEST_PATH_IMAGE065
为第k帧视频帧的形状修改隐码,第k帧视频帧为编辑帧对应的原始视频帧,编辑帧由第k帧视频帧经编辑形成。
S7、基于外观修改隐码分量
Figure 694186DEST_PATH_IMAGE063
和视频帧的形状修改隐码
Figure 421970DEST_PATH_IMAGE045
生成该视频帧的人脸编辑图像
Figure 176300DEST_PATH_IMAGE066
Figure 975629DEST_PATH_IMAGE067
其中,G为StyleGAN2图像生成模型。
S8、融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
本实施例根据以下公式投影并融合生成的人脸编辑图像
Figure 499014DEST_PATH_IMAGE068
到原始视频帧:
Figure 397700DEST_PATH_IMAGE069
Figure 639325DEST_PATH_IMAGE070
其中,
Figure 727498DEST_PATH_IMAGE071
为待编辑视频第i帧视频帧;
Figure 105390DEST_PATH_IMAGE072
为待编辑视频第i帧视频帧的视频结果帧;
Figure 440556DEST_PATH_IMAGE073
为第i帧视频帧对应的组合掩模;
Figure 903899DEST_PATH_IMAGE074
指从裁剪和对齐阶段获得的第i次转换;
Figure 45030DEST_PATH_IMAGE075
Figure 277428DEST_PATH_IMAGE076
分别代表图像模糊和膨胀处理;
Figure 49075DEST_PATH_IMAGE077
Figure 734134DEST_PATH_IMAGE078
为使用预训练人脸分割模型分别从视频帧的面部对齐图像
Figure 616640DEST_PATH_IMAGE079
和该视频帧的人脸编辑图像
Figure 765861DEST_PATH_IMAGE080
中获取局部掩模。
本实施例中人脸几何编辑投影网络E采用金字塔结构构建的外观编码器网络来提取输入图像的特征图,采用四层多层感知机编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。 由于StyleGAN2 中的浅层参数主要控制细粒度细节,本实施例将由 3D 参数编码的隐码注入前11 个映射块来控制映射。外观编码器采用 ResNet-IR 架构、作为其骨干架构来提取特征图。
本实施例中网络模型的训练策略与损失函数如下:
本实施例实现了自监督训练,损失函数由重建损失
Figure 708409DEST_PATH_IMAGE081
和编辑损失
Figure 880765DEST_PATH_IMAGE082
组成:
Figure 566961DEST_PATH_IMAGE083
映射网络首先重构输入图像
Figure 570689DEST_PATH_IMAGE084
,用Lpips损失
Figure 684139DEST_PATH_IMAGE085
和身份损失
Figure 343790DEST_PATH_IMAGE086
来约束生成的结果
Figure 568098DEST_PATH_IMAGE087
Figure 941179DEST_PATH_IMAGE088
Figure 959951DEST_PATH_IMAGE089
Figure 106899DEST_PATH_IMAGE090
其中,C代表预训练的ArcFace来提取身份特征;然后,通过输入和输出的身份特征之间的余弦相似性(表示为
Figure 134897DEST_PATH_IMAGE091
)来测量身份不匹配度。
本实施例的框架需要输入编辑后的外观图像或形状参考图像,但很难获得编辑前后的成对的真值训练数据。为了模拟训练过程中可能出现的编辑效果,本发明随机选择了两幅图像:以几何编辑为例,一幅用作参考
Figure 113218DEST_PATH_IMAGE092
以提供形状参数,另一幅用作输入参数
Figure 568470DEST_PATH_IMAGE093
,以保留除形状外的三维人脸信息。网络根据该编辑参数生成编辑图像
Figure 937134DEST_PATH_IMAGE022
,如下式所示:
Figure 503245DEST_PATH_IMAGE094
其中,
Figure 804913DEST_PATH_IMAGE095
为参数固定的图像生成模型;
Figure 227804DEST_PATH_IMAGE096
为参数可调的人脸几何编辑投影网络。
为了约束生成的编辑图像
Figure 349344DEST_PATH_IMAGE022
中的身份特征和形状特征,本实施例设计了编辑损失
Figure 453566DEST_PATH_IMAGE097
,其中包括身份损失
Figure 609741DEST_PATH_IMAGE098
和三重损失
Figure 203534DEST_PATH_IMAGE099
,表示为:
Figure 812369DEST_PATH_IMAGE100
对于生成的编辑图像
Figure 454703DEST_PATH_IMAGE022
,没有相应的真值,因此引入了身份损失函数
Figure 465385DEST_PATH_IMAGE101
来控制
Figure 980811DEST_PATH_IMAGE022
Figure 76943DEST_PATH_IMAGE023
之间的标识:
Figure 522968DEST_PATH_IMAGE102
虽然人脸的几何编辑会影响身份,但本实施例希望除了形状之外,影响身份的外观细节和其他属性将尽可能保留。因此,本实施例使用
Figure 388155DEST_PATH_IMAGE098
在训练期间限制几何编辑投影网络映射的隐码的范围,使编辑后的输出尽可能与输入人脸相似,同时匹配编辑后的几何形状。
此外,为了约束生成的图像形状并尽可能精确地控制3DMM参数,本实施例设计了一个三重损失
Figure 323750DEST_PATH_IMAGE103
,定义如下:
Figure 907178DEST_PATH_IMAGE104
Figure 156894DEST_PATH_IMAGE014
Figure 876589DEST_PATH_IMAGE105
Figure 983085DEST_PATH_IMAGE106
其中,
Figure 53809DEST_PATH_IMAGE107
是一组损失函数,用于测量两组参数
Figure 107216DEST_PATH_IMAGE108
Figure 681416DEST_PATH_IMAGE109
之间的不匹配:
Figure 162076DEST_PATH_IMAGE110
其中,
Figure 516834DEST_PATH_IMAGE111
指代可微渲染器,
Figure 108353DEST_PATH_IMAGE112
指返回由给定 3D 参数重建的网格上的 68个关键点的函数。与 Tewari 等人在2020CVPR上发表的StyleRig仅使用两个循环一致损失来约束 3D 参数不同,本实施例直接使用所需参数
Figure 537060DEST_PATH_IMAGE113
来约束3D从生成的图像
Figure 454200DEST_PATH_IMAGE114
中检测到参数
Figure 279943DEST_PATH_IMAGE115
,并计算
Figure 675152DEST_PATH_IMAGE116
。经过大量试验测试,发明人发现
Figure 223945DEST_PATH_IMAGE116
比两个循环损失更直接和更强。
视频生成的另一个重点是确保时间平滑度,本实施例方法与其他视频生成工作直接基于光流约束其生成网络不同,在大多数情况下,输入视频是时序一致的,为了保持输出视频的时序一致性,本实施例只需要在编辑传播过程中保持原始视频的一致性。
由于本实施例在训练期间限制了几何和身份,因此从图像到隐码的映射非常稳健。然后,当输入视频帧平滑对齐时,使隐码连续变化并保留时序性。最后通过StyleGAN2生成图像序列。本实施例发现StyleGAN2以这种方式生成的视频在大多数情况下没有时间上的不一致性问题。
为了使生成的效果符合给定的视频、关键帧和对应的编辑帧,本实施例固定了人脸几何编辑投影网络
Figure 46408DEST_PATH_IMAGE117
的参数以及原始帧和编辑帧的外观隐码, 然后迭代微调生成模型
Figure 110179DEST_PATH_IMAGE118
的参数。本实施例使用以下损失来微调生成模型:
Figure 309079DEST_PATH_IMAGE119
本实施例还提供一种基于隐空间解耦的人脸编辑的深度视频传播装置,包括获取模块、对齐模块、参数提取模块、第一编码模块、第二编码模块、外观分量确定模块、编辑生成模块和视频融合模块。
本例中获取模块用于获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;对齐模块用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;参数提取模块用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;第一编码模块用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;第二编码模块用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;外观分量确定模块用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;编辑生成模块用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;视频融合模块用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
本实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。
本实施例还提供一种电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于隐空间解耦的人脸编辑的深度视频传播方法的步骤。

Claims (11)

1.一种基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于:
获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
基于视频帧和编辑帧的面部对齐图像,获取视频帧和编辑帧各自的3DMM参数;
将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
2.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于:所述从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧的面部对齐图像,包括:
基于裁剪出的人脸图像使用FFHQ数据集的面部对齐算法获得人脸图像的面部对齐图像。
3.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像,包括:采用StyleGAN2图像生成模型生成人脸编辑图像。
4.根据权利要求3所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述人脸几何编辑投影网络采用金字塔结构来提取输入图像的特征图,采用四层多层感知机编码输入的3DMM参数,然后用11个映射块将特征图的每一层和编码的3DMM参数映射到StyleGAN2图像生成模型的隐空间中。
5.根据权利要求1所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧,包括:
Figure FDA0003790549900000021
Figure FDA0003790549900000022
其中,
Figure FDA0003790549900000023
为待编辑视频第i帧视频帧的视频结果帧;
Figure FDA0003790549900000024
为第i帧视频帧对应的组合掩模;Ti指从裁剪和对齐阶段获得的第i次转换;Blur和Dilate分别代表图像模糊和膨胀处理;Min和Mout为使用预训练人脸分割模型分别从视频帧的面部对齐图像Iin和该视频帧的人脸编辑图像Iout中获取局部掩模。
6.根据权利要求1或4所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述人脸几何编辑投影网络的训练采用三重损失函数监督,所述三重损失函数Ltri包括:
Ltri=Ldirect+Lcycle1+Lcycle2
Ldirect=Lp(pout2,Repl(ps,pin))
Lcycle1=Lp(pin,Repl(pin,pout2))
Lcycle2=Lp(ps,Repl(pout2,ps))
其中,ps为提供形状参数的3DMM参数;pin为输入图像Iin的3DMM参数;pout2为编辑图像Iout2的3DMM参数,Iout2为基于Iin、ps和pin生成的编辑图像;Repl(px,py)是替换函数,表示将py的3DMM参数列表替换为px;Lp是一组损失函数,Lp(p1,p2)用于测量参数p1和p2之间的不匹配。
7.根据权利要求6所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述损失函数Lp包括:
Lp(p1,p2)=Llpips(R(p1),R(p2))+λldmk||L(p1)-L(p2)||2
其中R(·)指代可微渲染器;L(·)指返回由给定3DMM参数重建的网格上关键点的函数;Llpips为Lpips损失;λldmk为权重系数。
8.根据权利要求3所述的基于隐空间解耦的人脸编辑的深度视频传播方法,其特征在于,所述图像生成模型的训练采用如下损失:
Lt=Llpips(I,Gtrain(w)),w=Efrozen(I,p)
其中,Llpips为Lpips损失;Gtrain为参数可调的图像生成模型;Efrozen为参数固定的人脸几何编辑投影网络;I为输入图像;P为输入图像的3DMM参数。
9.一种基于隐空间解耦的人脸编辑的深度视频传播装置,其特征在于:
获取模块,用于获取待编辑视频和编辑帧,其中待编辑视频中至少一帧视频帧包含人脸图像,所述编辑帧为对待编辑视频中包含人脸图像的视频帧进行人脸编辑后得到;
对齐模块,用于从待编辑视频的视频帧和编辑帧中裁剪出人脸图像并对齐面部,得到视频帧和编辑帧各自的面部对齐图像;
参数提取模块,用于基于视频帧和编辑帧的面部对齐图像获取视频帧和编辑帧各自的3DMM参数;
第一编码模块,用于将视频帧3DMM参数中的形状参数替换为编辑帧3DMM参数中的形状参数,通过人脸几何编辑投影网络将经参数替换的视频帧3DMM参数和该视频帧的面部对齐图像编码成该视频帧的形状修改隐码;
第二编码模块,用于通过人脸几何编辑投影网络将编辑帧的3DMM参数和该编辑帧的面部对齐图像编码成该编辑帧的隐码;
外观分量确定模块,用于基于编辑帧的隐码和该编辑帧对应视频帧的形状修改隐码确定外观修改隐码分量;
编辑生成模块,用于基于外观修改隐码分量和视频帧的形状修改隐码生成该视频帧的人脸编辑图像;
视频融合模块,用于融合视频帧的人脸编辑图像到待编辑视频中的相应视频帧,生成经人脸编辑的视频结果帧。
10.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~8任意一项所述方法的步骤。
11.一种电子设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~8任意一项所述方法的步骤。
CN202210779300.9A 2022-07-04 2022-07-04 基于隐空间解耦的人脸编辑的深度视频传播方法 Active CN114845067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210779300.9A CN114845067B (zh) 2022-07-04 2022-07-04 基于隐空间解耦的人脸编辑的深度视频传播方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210779300.9A CN114845067B (zh) 2022-07-04 2022-07-04 基于隐空间解耦的人脸编辑的深度视频传播方法

Publications (2)

Publication Number Publication Date
CN114845067A CN114845067A (zh) 2022-08-02
CN114845067B true CN114845067B (zh) 2022-11-04

Family

ID=82575162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210779300.9A Active CN114845067B (zh) 2022-07-04 2022-07-04 基于隐空间解耦的人脸编辑的深度视频传播方法

Country Status (1)

Country Link
CN (1) CN114845067B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470182A (zh) * 2021-09-03 2021-10-01 中科计算技术创新研究院 人脸几何特征编辑方法及深度人脸重塑编辑方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878612B2 (en) * 2017-04-04 2020-12-29 Intel Corporation Facial image replacement using 3-dimensional modelling techniques
CN113689538B (zh) * 2020-05-18 2024-05-21 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
CN112287820A (zh) * 2020-10-28 2021-01-29 广州虎牙科技有限公司 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN113034355B (zh) * 2021-04-20 2022-06-21 浙江大学 一种基于深度学习的肖像图像双下巴去除方法
CN112991484B (zh) * 2021-04-28 2021-09-03 中科计算技术创新研究院 智能人脸编辑方法、装置、存储介质及设备
CN113850168A (zh) * 2021-09-16 2021-12-28 百果园技术(新加坡)有限公司 人脸图片的融合方法、装置、设备及存储介质
CN114240736A (zh) * 2021-12-06 2022-03-25 中国科学院沈阳自动化研究所 基于VAE和cGAN的同时生成和编辑任意人脸属性的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470182A (zh) * 2021-09-03 2021-10-01 中科计算技术创新研究院 人脸几何特征编辑方法及深度人脸重塑编辑方法

Also Published As

Publication number Publication date
CN114845067A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
WO2022267641A1 (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN112767554B (zh) 一种点云补全方法、装置、设备及存储介质
Zheng et al. Avatarrex: Real-time expressive full-body avatars
CN113470182B (zh) 人脸几何特征编辑方法及深度人脸重塑编辑方法
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
Wang et al. Ucl-dehaze: Towards real-world image dehazing via unsupervised contrastive learning
CN117437420A (zh) 一种跨模态医学影像分割方法及系统
Zhou et al. A superior image inpainting scheme using Transformer-based self-supervised attention GAN model
CN114845067B (zh) 基于隐空间解耦的人脸编辑的深度视频传播方法
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Yi et al. Predicting personalized head movement from short video and speech signal
Dai et al. PBR-Net: Imitating physically based rendering using deep neural network
CN116092164A (zh) 人脸图像重演方法、装置、电子设备及存储介质
Hu et al. Self-perceptual generative adversarial network for synthetic aperture sonar image generation
Wang et al. DFC-dehaze: an improved cycle-consistent generative adversarial network for unpaired image dehazing
CN114926591A (zh) 多分支深度学习的3d人脸重建模型训练方法、系统及介质
CN114283181A (zh) 一种基于样例的动态纹理迁移方法及系统
Gan et al. Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering
Gowda et al. From pixels to portraits: A comprehensive survey of talking head generation techniques and applications
Min et al. Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance Fields
Li et al. Guiding 3D Digital Content Generation with Pre-Trained Diffusion Models.
Chen et al. 3D Facial Priors Guided Local-Global Motion Collaboration Transforms for One-shot Talking-Head Video Synthesis
Bridgeman Parametric human modelling for shape and texture representation from video
Jing et al. FRNeRF: Fusion and regularization fields for dynamic view synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant