CN114708586A - 一种从图像和视频中提取三维人脸表征的方法 - Google Patents

一种从图像和视频中提取三维人脸表征的方法 Download PDF

Info

Publication number
CN114708586A
CN114708586A CN202210427450.3A CN202210427450A CN114708586A CN 114708586 A CN114708586 A CN 114708586A CN 202210427450 A CN202210427450 A CN 202210427450A CN 114708586 A CN114708586 A CN 114708586A
Authority
CN
China
Prior art keywords
shape
face
texture
code
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210427450.3A
Other languages
English (en)
Inventor
颜波
何瑞安
谭伟敏
邢稹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202210427450.3A priority Critical patent/CN114708586A/zh
Publication of CN114708586A publication Critical patent/CN114708586A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于图像与视频理解技术领域,具体为一种从图像和视频中提取三维人脸表征的方法。本发明通过构建一个三维无监督人脸表征学习网络模型来提取三维人脸表征;本发明从没有标签的自然人脸图像和视频中学习,使用表情变换模块从视频序列学习人脸表情的变化。本发明考虑到内部因素和外部环境,利用人脸的三维性质来解耦多达5个影响因素,包括人脸的材质、形状、表情、姿势和光照。本发明可以用于各种下游任务,如人脸表情识别、姿势估计、人脸验证和人脸正面化。

Description

一种从图像和视频中提取三维人脸表征的方法
技术领域
本发明属于图像与视频理解技术领域,具体涉及一种三维人脸表征提取方法。
背景技术
人脸在人类视觉感知中起着非常关键的作用,在传达身份、信息、表情和意图方面不可或缺。神经网络广泛用于计算机视觉任务中人脸的理解,包括人脸识别、人脸表情识别、姿势估计、人脸重建等,这些工作侧重于每个任务的表现,而忽略了对人脸的整体理解,而且需要大量的带标签数据。人脸表征学习是解决这一缺陷的方法,可作为人脸任务的预训练方法,它使用无监督的模式进行学习无标签样本。
自监督模型只受到来自样本本身的信息的监督,并学习从数据中提取其内部结构。自监督学习广泛应用于计算机视觉任务,包括分类、检测、生成和3D重建。已经有人为这些任务提出了各种类型的网络架构以获得更好的表示:生成模型以及对抗模型,生成模型,例如自动编码器(AE)和变分自动编码器(VAE);对抗模型,例如生成对抗网络(GAN)。而表征学习是自监督学习中最重要的课题之一,也是一个旨在改善数据特征和提升下游预测器的独立领域。表征学习算法已经应用于很多机器学习任务,例如语言模型、图神经网络和视觉任务。可迁移的解释因素是表征学习的标准,而解耦表征也是一个重要的课题,已经做了很多工作。
一个好的人脸表征可以解耦变化的潜在因素。目前的方法仅使用二维特征,在解决人脸因素方面存在局限性。这会导致人脸表现不佳,从而使下游任务表现不佳。实际上,人脸图像由许多三维结构的因素组成,包括内部因素,即人脸的表情、形状和材质,以及外部因素,即光照和姿势。
对带材质的3D人脸建模已经研究了很长时间。最广泛使用的方法之一是3DMorphable Model(3DMM)[1],随后进行了许多改进[2,3]。人脸模型是通过3D扫描做PCA得到的,需要大量的人力。并且表示空间受到模型的限制。很难将这些方法推广到自然的人脸图像。为了改进它,Unsup3d[4]和Lifting Autoencoders[5]提出了无监督人脸重建算法。然后,[6]使用标记的身份来实现更好的重构。但是上述方法并没有探索3D人脸模型在表征学习中的潜力。
人脸表征学习旨在为人脸任务获得更好的表征。许多监督学习方法被提出来解决这个问题,但它们需要大量的训练数据[7,8]。最近的一些人脸表征工作使用了3DMM[9,10]。他们需要较少的监督信息,但需要3D人脸先验。GAN是一种无监督的表示学习方法,一些论文沿用了这种方法[11]。然而,现有的工作仅限于某个数据集,并且很难为构建分类器提取通用的人脸表征。
发明内容
本发明的目的在于提供一种从图像和视频中提取三维人脸表征的方法,以便能高效、准确地进行人脸表情识别、姿势估计、人脸验证和人脸正面化等。
本发明中,所述三维人脸表征,包括内部因素和外部因素;其中,内部因素是指:形状、表情、材质;外部因素是指:姿势和光照。
本发明提供的从图像和视频中提取三维人脸表征的方法,构建一个三维无监督人脸表征学习网络模型,该网络模型是一种深度学习神经网络模型,本发明的具体步骤为:
(1)使用编码器从输入图像I分别提取人脸的形状、材质、表情、光照和姿势特征,具体包括:
使用形状编码器Es提取人脸形状编码Cshape,使用材质编码器Et提取人脸材质编码Ctexture,使用表情编码器Ee提取人脸表情编码Cexpr,使用光照编码器El提取光照编码Clight,使用姿势编码器Ep提取姿势编码Cpose
(2)使用表情变换模块W来变换估计的人脸材质与形状;通过表情变换模块W能够使得提取到的人脸表情编码Cexpr影响人脸形状编码Cshape和人脸材质编码Ctexture的构成,使得提取出来的材质编码和形状编码根据表情不同而有所差异;
(3)根据提取的编码重构出人脸图像;首先使用材质生成器Gt,从提取的材质编码Ctexture生成人脸材质图Mt;使用形状生成器Gs,从提取的人脸形状编码Cshape生成人脸深度图Ms;然后,使用渲染器R来使人脸材质图Mt、人脸深度图Ms、光照编码Clight、姿势编码Cpose合成新的人脸图像
Figure BDA0003608937690000021
渲染器R主要包括光照和投影两个过程;
(4)使用一种新的损失函数来评估重建图像
Figure BDA0003608937690000022
和输入图像I的差距;首先,使用一个置信度图生成器来预测图像中人脸区域的置信度,该置信度用来指导损失函数关注人脸区域;还使用VGG[12]网络来提取人脸图像的低级和高级语义特征来计算损失;
(5)使用单幅图像对模型进行预训练;
通过构建的神经网络学习框架,使用一定的约束条件进行优化,就能够从编码器提取形状Cshape、材质Ctexture、光照Clight和姿势Cpose四种因素;最后使用这个网络输入人脸图像,预测人脸图像的人脸表征,进而对人脸姿势和正面样貌进行判断;
(6)使用视频对模型继续进行训练;
使用一定的约束条件进行优化,从编码器提取表情Cexpr、形状Cshape、材质Ctexture、光照Clight和姿势Cpose五种因素;使用这个网络输入视频帧序列,预测视频帧中人脸表征,进而对人脸表情、姿势、形状等等因素进行判断。
进一步地:
步骤(1)中,所述材质编码器Et和形状编码器Es是一种特征编码器,其结构如图4所示。这两个编码器具有相同的架构,它们都是使用批归一化层的卷积神经网络,输入R、G、B三通道的图像I能够产生256维的编码向量Cshape和Ctexture,即:
Cshape=Es(I),
Ctexture=Et(I), (1)。
步骤(1)中,所述指光照编码器El和姿势编码器Ep是数字编码器,其结构由图5所示。它们也是卷积神经网络,它们分别生成相应的光照和姿势参数,来控制之后的渲染工作。这两个编码器具有相同的结构,除了输出的编码维度略有不同。姿势编码器Ep生成的编码Cpose有6个维度,分别是三维坐标的的平移向量和的旋转角;光照编码器El生成的编码Clight有4个维度:环境光参数,漫反射参数和两个光照方向x,y。编码器的输出端使用激活函数Tanh将最终的输出扩展到-1和1之间,然后将其映射到相应的空间,即:
Clight=El(I),Cpose=Ep(I) (2)。
步骤(1)中,所述表情编码器Ee不同于其他编码器,由于反向传播时梯度较小且不稳定,在训练表情提取时,上述编码器容易失效。因此,本发明采用一个有残差结构的ResNet18[12]来提取特征。和特征编码器一样,对一张R、G、B三通道输入图像I能够生成256维的编码向量Cexpr,即:
Cexpr=Ee(I) (3)。
步骤(2)中,所述的表情变换模块W,是建模视频中人脸表情的关键模块,具体流程为:
首先,将从一系列视频帧中采样人脸形状编码Cshape和人脸材质编码Ctexture,在特征空间中对它们进行平均得到
Figure BDA0003608937690000032
Figure BDA0003608937690000031
假设中性表情人脸可以通过采样序列的平均值来估计。
然后,用获得的人脸表情编码Cexpr作为形状Cshape和材质Ctexture参数的线性偏差,加入到获取的平均编码中,得到变换后的编码C′shape和C′texture。于是,表情变换模块W的过程可以表示为以下公式:
Figure BDA0003608937690000041
Figure BDA0003608937690000042
其中,符号
Figure BDA0003608937690000043
表示x在批量维度上进行平均。
W输入的是材质编码Ctexture或形状编码Cshape,与表情编码Cexpr;W输出的是变换后的形状代码C′shape和材质代码C′texture。这样,将这些特征解分成序列中的序列变异部分和序列不变部分,并分别计算梯度:
Figure BDA0003608937690000044
Figure BDA0003608937690000045
其中,第i个材质编码的梯度ΔCtexture,i来自一个序列中所有材质编码的梯度
Figure BDA0003608937690000046
的平均值,同样,第i个形状编码的梯度ΔCtexture,i来自一个序列中所有形状编码的梯度
Figure BDA0003608937690000047
的平均值;第i个表情编码的梯度ΔCexpr,i来自对应的形状编码的梯度
Figure BDA0003608937690000048
和对应的材质编码的梯度
Figure BDA0003608937690000049
的加和;λt是材质表达效应的比例因子,λs是形状表达效应的比例因子,通常,取λs=λt=1;||V||是输入视频序列V的长度;当生成器固定时,表情变换模块W从人脸形状编码Cshape和人脸材质编码Ctexture在同一视频中的变化中学习表情对材质编码的影响。
步骤(3)中,所述的材质生成器Gt和形状生成器Gs,其网络结构包括堆叠卷积层、转置卷积层和组归一化层,图6中显示了详细的结构。该网络使用256维向量作为输入,材质生成器Gt最终产生3通道的材质图Mt输出,形状生成器Gs产生1通道人脸深度图Ms输出。最终的材质图Mt和深度图Ms用Tanh函数缩放到-1到1的范围,即:
Mt=Gt(Ctexture),Ms=Gs(Cshape), (8)
步骤(3)中,所述渲染器R接受材质图Mt和深度图Ms,还有光照编码Clight、姿势编码Cpose作为参数,可以表示为以下公式。
Figure BDA0003608937690000051
Figure BDA0003608937690000052
是重建后的图像,R表示渲染的过程,主要包括光照和投影两个过程。在渲染过程中,首先,将深度图Ms转化为三维渲染管道中的三维网格;然后,将材质图Mt与网格进行融合,得到三维模型的真实表示。
进一步的,步骤(3)中所述的渲染器R的光照过程,使用简化的Phong光照模型,这是一个局部光照的经验模型。通过该光照模型可以从以下方程中得到每个点p的颜色Ip
Ip=ka,p+∑m∈lightskd,p(Lm·Np), (10)
其中,lights表示所有光源的集合,Lm表示从表面上的一个点m到每个光源的方向向量,Np表示从深度图Ms直接得到的到表面的法线。ka,p为点p环境光系数,kd,p为点p的漫反射系数。本发明的模型忽略了人脸的镜面反射,因为在大多数情况下,人脸的镜面反射系数小到与漫反射相比可以忽略。光源的方向和强度由光照编码Clight提供,点p的漫反射系数由材质图Mt提供。
进一步的,步骤(3)所述的渲染器的投影过程,使用一个弱透视相机模型,也即光应该与相机平面正交。在透视投影下,成像二维点p与实际三维点位置P之间的转换如下:
p=scK[Rc tc]P, (11)
其中,K为照相机的内部参数。Rc和tc是旋转和平移的外部参数,sc是相机的缩放因子。Rc和tc可以从姿势编码Cpose中获取。当材质图Mt和深度图Ms,还有光照编码Clight、姿势编码Cpose经过渲染器R的光照和投影就能够得到人脸的二维重建图像
Figure BDA0003608937690000053
步骤(4)中,所述的重建损失,包括从低像素水平到高特征水平的约束。损失函数由三部分组成:光度损失Lp,特征级损失Lf和身份损失Li
(1)光度损失Lp,特征级损失Lf可以表示如下:
Figure BDA0003608937690000054
Figure BDA0003608937690000061
其中,I表示输入图像,
Figure BDA0003608937690000062
表示重建图像。conv代表低级特征提取网络,是通过输入一个预训练过的VGG-19网络[12]提取其中的relu3_3特征来处理的。如图7所示,本发明使用编码器-生成器的结构来生成置信度图,表示为σ,σp是光度损失的置信度图,σf是特征级损失的置信度图。在这个模型中,光度损失和特征级损失受到估计置信度图σ的约束,基于置信度的评估函数Lconf可以使模型自行校准:
Figure BDA0003608937690000063
其中,Lconf有三个参数,重建图像
Figure BDA0003608937690000064
输入图像I,和置信度σ。Ω是有效区域,也就是重建图像
Figure BDA0003608937690000065
的非背景部分,|Ω|表示有效区域中点的数量。uv表示有效区域中的点坐标,σuv为该点的置信度,
Figure BDA0003608937690000066
表示该点在重建图像
Figure BDA0003608937690000067
和输入图像I上的像素RGB差值,∑uv∈Ω表示对所有有效区域的点求和。exp表示自然指数运算,ln表示自然对数运算。
(2)上述损失的Lp和Lf并没有强调人脸的完整性,这很容易导致重建图像的人脸身份特征与原始图像相差很远。因此,本发明也使用了一种身份损失Li来约束整个人脸的感知一致性。首先,利用函数g将重建图像I与原始图像
Figure BDA0003608937690000068
相结合,该函数利用原始图像的相应部分来填补重建图像没有的背景。然后,计算补充图像与原始图像之间的感知相似度(LPIPS)[14],LPIPS试图提取VGG网络[12]中多层特征来计算图像间距离。身份Li损失可以表示如下。
Figure BDA0003608937690000069
其中,f为感知相似度的VGG网络,g为填补函数,g有两个参数重建图像
Figure BDA00036089376900000610
输入图像I,因为重建图像的背景区域是缺失的,所以使用输入图像I的相应区域进行填补。<·>表示余弦距离,||·||表示模长。
(3)损失函数
Figure BDA00036089376900000611
可以表示为光度损失、较低的特征损失和身份损失的线性组合:
Figure BDA00036089376900000612
其中,λf和λi为特征级损失和身份损失的权重,通常取λf=λi=1。
(4)本发明还考虑计算左右脸水平翻转的重建图像得到的损失,并和以上损失线性加和得到最终损失函数:
Figure BDA0003608937690000071
其中,
Figure BDA0003608937690000072
是左右脸水平翻转的重建图像,Ltot是最终损失,flip是将材质图Ms和深度图Mt进行左右泛着变换,λflip是翻转重建图像的权重,通常取λflip=0.5。接着使用反向传播算法,从损失计算网络的梯度,并更新网络的参数。
步骤(5)中,所述使用图像集,对模型进行预训练,具体流程为:将大型人脸图像集中的图像通过步骤(1)中的编码器得到人脸形状编码Cshape,材质编码Ctexture,光照编码Clight,姿势编码Cpose。然后使用步骤(3)中的生成器从形状编码Cshape,材质编码Ctexture得到材质图Mt和深度图Ms,公式表示如下:
Ms=Gs(Cshape)=Gs(Es(I)), (18)
Mt=Gt(Ctexture)=Gt(Et(I)), (19)
其中,I为输入图像。Es、Et分别是形状、材质编码器,Gs、Gt分别是形状、纹理生成器。然后材质图Mt和深度图Ms与光照编码Clight,姿势编码Cpose通过渲染器R生成重建图像
Figure BDA0003608937690000073
然后,按照步骤(4)计算损失函数Ltot来进行反向传播,训练所有的编码器和生成器(表情编码器除外)。
测试时只需要使用编码器提取人脸形状编码Cshape,材质编码Ctexture,光照编码Clight,姿势编码Cpose就可以进行姿势估计、人脸验证和人脸正面化等等后续任务。比如姿势估计就只需要将输入图像I通过姿势编码器Ep,得到姿势编码Cpose,就可以从参数中的得到预测的姿势。
步骤(6)中,所述使用视频对添加表情变换模块之后模型继续进行训练,其中,输入帧从同一视频序列中收集,它们具有不同表情和姿势的动作。与步骤(5)中的步骤不同的是,这里的表情变换模块W,可以将提取到的表情编码Cexpr用来处理材质编码Ctexture和形状编码Cs ape,得到变换后的形状编码C′shape和材质编码C′texture。生成深度Ms和材质贴图Mt的过程可以用以下公式来表示:
Ms=Gs(C′shape)=Gs(W(Cshape,Cexpr))=Gs(W(Es(I),Ee(I))), (20)
Mt=Gt(C′texture)=Gt(W(Ctexture,Cexpr))=Gt(W(Et(I),Ee(I))), (21)
其中,I为输入图像。Es、Et分别是形状、材质编码器,Gs、Gt分别是形状、纹理生成器。
结合之前提取的姿势Cpose和光照Clight信息,深度和材质贴图可以通过渲染器R生成重建的图像
Figure BDA0003608937690000081
当完成图像集模型训练时,可以很容易地在图像集模型上面添加表情变换模块W和表情编码器Ee,继续在视频上训练,得到适用于视频的模型。本发明使用视频来建模表达的重要原因是,视频中的人脸自然具有相同的身份和化妆。不需要进行任何注释。同时,视频帧包含大量的表情变化,很容易被解耦。测试时只需要将图片通过相应的编码器,就能够从人脸视频中解耦姿势,光照,形状,表情和材质,并且辅助下游各种任务的预测。
本发明的优越性在于以下几点:
(1)本发明提出了一种新颖的基于3D的无监督人脸表征学习模型框架。该模型可以从未标记的图像集和自然视频中学习解耦的3D人脸表征。而现有的人脸表征学习方法仅限于2D特征;
(2)本发明提出了一种新的无监督策略,使用表情变换模块从未注释的视频序列中学习3D人脸表情。3D人脸表情通常需要3D人脸先验来获取,而本发明能在没有任何标签或人脸先验的情况下,将3D人脸表情从身份特征中分离出来;
(3)本发明的模型增加了新的几何信息并探索了潜在的环境因素。本发明模型框架可以发现和解耦多达5个人脸表征因素,包括表情,形状,材质,光照和姿势。
附图说明
图1为基于三维解耦技术的人脸表征学习示意图。
图2为神经网络结构图示。
图3为特征编码器的架构图。
图4为数字编码器的架构图。
图5为表情变换模块结构图。
图6为材质和深度图生成器的架构图。
图7为置信度图生成器的架构图。
图8为中间结果的可视化图。
具体实施方式
(1)本发明使用CelebA数据集[15]从图像集中学习,并使用VoxCeleb数据集[16]从视频中学习。本发明用FaceNet[17]裁剪了CelebA和VoxCeleb数据集,并将其大小调整到128×128。本发明提出的模型是基于PyTorch框架实现的,并使用Adam优化器进行训练。编码器和解码器都是完全卷积的网络。批处理大小设置为16,且这两个训练阶段的学习率均为0.0001。本发明分别对30个时代的图像集和视频序列进行模型训练。
(2)本发明的渲染流程中人脸形状是一个二维的单通道矩阵,它表示人脸的深度图。本发明定义了一个网格,网格的大小与图像相同,它是128×128。它们的x轴和y轴坐标被缩放到-1和1之间,然后z轴坐标来自于深度贴图。这样,本发明得到了一个人脸的三维模型和每个点的法线,以供以后计算。人脸材质在渲染器中被表示为一个三通道的二维矩阵。表示RGB射线各面网格点的漫反射率。光照包括环境光强度、漫反射强度和光方向x、y。本发明是在建模定向光,所以只需要两个变量来描述光的方向。总的来说,本发明首先构建一个人脸形状的三维骨架,然后将人脸材料映射到三维骨架上。然后本发明用光线信息来确定人脸的颜色。最后,本发明使用相机公式来得到本发明以特定角度拍摄的图像,这等效于变换人脸的姿势。
(3)本发明的模型框架由图1所示,旨在从未标记的人脸图像和视频中分离出人脸的材质、形状、表情、姿势和灯光。采用三维分解来分解内部因素(下部)和外部因素(上部)。虚线表示人脸表情是从视频序列的变化中学习到的。这个框架可以有利于许多下游任务,颜色表示表示和任务之间的联系。
(4)本发明的神经网络结构由图2所示,把输入图像I输入编码器Et、Es、Ep和El,它们分别提取材质、形状、姿势和光照编码。材质图Mt和深度图Ms由使用生成器Gt和Gs的材质编码Ctexture和形状编码Cshape生成。深度地图的阴影,以更好地可视化。最后,这两个映射连同姿势Cpose和光照Clight参数通过渲染器,得到最终的重建图像
Figure BDA0003608937690000091
当从视频中学习时,会有一个额外的表情编码器Ee。提取的表情编码Cexpr通过表情变换模块W影响材质和形状编码,生成真正的形状编码C′shape和材质编码C′texture。提取的编码将用于人脸表情识别和人脸验证等下游任务。本发明的模型不需要任何监督信息或3DMM人脸模型。
(5)本发明的编码器的架构由图3、4所示,卷积(a、b、c)表示卷积层的核大小为a,步幅为b,填充量为c。卷积层下面的数字表示卷积核的数量。而组标准化层下面的数字表示组的数量。黄色箭头表示LeakyRelu激活函数,斜率为0.2。蓝色的箭头是Relu。
(6)本发明的表情变换模块结构由图5所示。以材质特征为例,首先将材质编码Ctexture进行平均,然后添加到表情参数中,形成最终的输出编码。在反向传播过程中,序列变化的特征梯度流将流向表情编码器,而序列不变的特征部分将流向材质和形状编码器。
(7)本发明的生成器的架构由图6、7所示,卷积(a,b,c)和卷积T(a,b,c)分别表示卷积层和转置卷积层的核大小为a,步长为b,填充为c。模块下方的数字表示卷积核的数量。而组归一化层下方的数字表示组的数量。黄色箭头表示Leaky Relu激活函数,斜率为0.2。蓝色箭头是Relu。红色箭头是一个SoftPlus算子。置信度图生成器中的较短的路径用于特征级损失,较长的路径用于光度损失。
(8)本发明的生成结果由图8所示,从左到右:输入图像、中性深度图、深度图、中性人脸形状、人脸形状、中性材质图、材质图、重建图像。形状图像是通过对三维人脸模型(也即深度图)进行阴影处理得到的。
参考文献
[1]Volker Blanz and Thomas Vetter.1999.A morphable model for thesynthesis of3D faces.In SIGGRAPH’99.
[2]Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and XinTong.2019.Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From SingleImage to Image Set.In IEEE Computer Vision and Pattern RecognitionWorkshops.
[3]Yao Feng,Haiwen Feng,Michael J.Black,and TimoBolkart.2021.Learning ananimatable detailed 3D face model from in-the-wildimages.ACM Transactionson Graphics(TOG)40(2021),1–13.
[4]Shangzhe Wu,C.Rupprecht,and Andrea Vedaldi.2020.UnsupervisedLearningof Probably Symmetric Deformable 3D Objects From Images in theWild.2020IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)(2020),1–10.
[5]Mihir Sahasrabudhe,Zhixin Shu,Edward Bartrum,Riza Alp Güler,DimitrisSamaras,and Iasonas Kokkinos.2019.Lifting AutoEncoders:UnsupervisedLearning of a Fully-Disentangled3D Morphable Model Using DeepNon-RigidStructureFrom Motion.2019 IEEE/CVF International Conference onComputerVision Workshop(ICCVW)(2019),4054–4064.
[6]Yujun Shen,Jinjin Gu,Xiaoou Tang,and Bolei Zhou.2020.InterpretingtheLatent Space of GANs for Semantic Face Editing.2020IEEE/CVF ConferenceonComputer Vision and Pattern Recognition(CVPR)(2020),9240–9249.
[7]Luan Tran,Xi Yin,and Xiaoming Liu.2017.Disentangled RepresentationLearning GAN for Pose-Invariant Face Recognition.2017 IEEE Conference onComputerVision and Pattern Recognition(CVPR)(2017),1283–1292.
[8]Huiyuan Yang,UmurAybarsCiftci,and Lijun Yin.2018.FacialExpressionRecognition by De-expression Residue Learning.2018 IEEE/CVFConference onComputer Vision and Pattern Recognition(2018),2168–2177.
[9]Zhongpai Gao,Juyong Zhang,Yudong Guo,Chao Ma,GuangtaoZhai,andXiaokang Yang.2020.Semi-supervised 3D Face Representation LearningfromUnconstrained Photo Collections.2020IEEE/CVF Conference on ComputerVisionand Pattern Recognition Workshops(CVPRW)(2020),1426–1435
[10]Feng Liu,Qijun Zhao,Xiaoming Liu,and Dan Zeng.2020.Joint FaceAlignment and 3D Face Reconstruction with Application to FaceRecognition.IEEETransactions on Pattern Analysis and Machine Intelligence 42(2020),664–678.
[11]Thu Nguyen-Phuoc,Chuan Li,Lucas Theis,Christian Richardt,andYongliangYang.2019.HoloGAN:Unsupervised Learning of 3D Representations FromNatural Images.2019IEEE/CVF International Conference on Computer Vision(ICCV)(2019),7587–7596.
[12]Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.2016.DeepResidualLearning for Image Recognition.(2016),770–778.https://doi.org/ 10.1109/CVPR.2016.90
[13]Karen Simonyan and Andrew Zisserman.2015.Very Deep ConvolutionalNetworks for Large-Scale Image Recognition.(2015).http://arxiv.org/abs/1409.1556
[14]Richard Zhang,Phillip Isola,Alexei A.Efros,Eli Shechtman,andOliver Wang.2018.The Unreasonable Effectiveness of Deep Features as aPerceptual Metric.In2018 IEEE/CVF Conference on Computer Vision and PatternRecognition.586–595.https://doi.org/10.1109/CVPR.2018.00068
[15]Ziwei Liu,Ping Luo,Xiaogang Wang,and Xiaoou Tang.2015.DeepLearningFace Attributes in the Wild.In 2015 IEEE International Conference onComputerVision(ICCV).3730–37
[16]Arsha Nagrani,Joon Son Chung,and Andrew Zisserman.2017.VoxCeleb:ALarge-Scale Speaker Identification Dataset.In Proc.Interspeech 2017.2616–262
[17]Florian Schroff,Dmitry Kalenichenko,and JamesPhilbin.2015.FaceNet:Aunified embedding for face recognition and clustering。

Claims (8)

1.一种从图像和视频中提取三维人脸表征的方法,其中,所述三维人脸表征,包括内部因素和外部因素;内部因素是指:形状、表情、材质;外部因素是指:姿势和光照;其特征在于,通过构建一个三维无监督人脸表征学习网络模型来提取三维人脸表征,具体步骤为:
(1)使用所述网络模型中的编码器从输入图像I分别提取人脸的形状、材质、表情、光照和姿势特征,具体包括:
使用形状编码器Es提取人脸形状编码Cshape,使用材质编码器Et提取人脸材质编码Ctexture,使用表情编码器Ee提取人脸表情编码Cexpr,使用光照编码器El提取光照编码Clight,使用姿势编码器Ep提取姿势编码Cpose
(2)使用所述网络模型中的表情变换模块W来变换估计的人脸材质与形状;包括通过表情变换模块W使得提取到的人脸表情编码Cexpr影响人脸形状编码Cshape和人脸材质编码Ctexture的构成,使得提取出来的材质编码和形状编码根据表情不同而有所差异;
(3)根据提取的编码重构出人脸图像;首先使用所述网络模型中的材质生成器Gt,从提取的材质编码Ctexture生成人脸材质图Mt;使用形状生成器Gs,从提取的人脸形状编码Cshape生成人脸深度图Ms;然后,使用渲染器R来使人脸材质图Mt、人脸深度图Ms、光照编码Clight、姿势编码Cpose合成新的人脸图像
Figure FDA0003608937680000011
渲染器R过程包括光照和投影两个过程;
(4)使用一种损失函数来评估重建图像
Figure FDA0003608937680000012
和输入图像I的差距;首先,使用所述网络模型中的置信度图生成器来预测图像中人脸区域的置信度,该置信度用来指导损失函数关注人脸区域;还使用VGG网络来提取人脸图像的低级和高级语义特征来计算损失;
(5)使用单幅图像对所述网络模型进行预训练;
根据构建的网络模型,使用约束条件进行优化,以便从编码器提取形状Cshape、材质Ctexture、光照Clight和姿势Cpose四种因素;最后使用该网络模型输入人脸图像,预测人脸图像的人脸表征,进而对人脸姿势和正面样貌进行判断;
(6)使用视频对所述网络模型继续进行训练;
使用约束条件进行优化,从编码器提取表情Cexpr、形状Cshape、材质Ctexture、光照Clight和姿势Cpose五种因素;使用该网络模型输入视频帧序列,预测视频帧中人脸表征,进而对人脸表情、姿势、形状因素进行判断。
2.根据权利要求1所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(1)中:
所述材质编码器Et和形状编码器Es是特征编码器,这两个编码器具有相同的架构,都使用批归一化层的卷积神经网络,输入R、G、B三通道的图像I能够产生256维的编码向量Cshape和Ctexture,即:
Cshape=Es(I),
Ctexture=Et(I), (1)
所述指光照编码器El和姿势编码器Ep是数字编码器,都是卷积神经网络,它们分别生成相应的光照和姿势参数,来控制之后的渲染工作;这两个编码器具有相同的结构;姿势编码器Ep生成的编码Cpose有6个维度,分别是三维坐标的的平移向量和的旋转角;光照编码器El生成的编码Clight有4个维度:环境光参数,漫反射参数和两个光照方向x,y;两个编码器的输出端使用激活函数Tanh将最终的输出扩展到-1和1之间,然后将其映射到相应的空间,即:
Clight=El(I),Cpose=Ep(I) (2)
所述表情编码器Ee采用一个有残差结构的ResNet18来提取特征;和特征编码器一样,对一张R、G、B三通道输入图像I能够生成256维的编码向量Cexpr,即:
Cexpr=Ee(I) (3)。
3.根据权利要求2所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(2)中:所述的表情变换模块W,其操作流程为:
首先,从步骤(1)得到的一系列视频帧中采样人脸形状编码Cshape和人脸材质编码Ctexture,在特征空间中对它们进行平均得到
Figure FDA0003608937680000021
Figure FDA0003608937680000022
假设中性表情人脸通过采样序列的平均值来估计;
然后,用获得的人脸表情编码Cexpr作为形状Cshape和材质Ctexture参数的线性偏差,加入到获取的平均编码中,得到变换后的编码C′shape和C′texture;于是,表情变换模块W的过程表示为以下公式:
Figure FDA0003608937680000023
Figure FDA0003608937680000024
其中,符号
Figure FDA0003608937680000025
表示x在批量维度上进行平均;
W输入的是材质编码Ctexture或形状编码Cshape,与表情编码Cexpr;W输出的是变换后的形状代码C′shape和材质代码C′texture;这样,将这些特征解分成序列中的序列变异部分和序列不变部分,并分别计算梯度:
Figure FDA0003608937680000031
Figure FDA0003608937680000032
其中,第i个材质编码的梯度ΔCtexture,i来自一个序列中所有材质编码的梯度
Figure FDA0003608937680000033
的平均值,同样,第i个形状编码的梯度ΔCtexture,i来自一个序列中所有形状编码的梯度
Figure FDA0003608937680000034
的平均值;第i个表情编码的梯度ΔCexpr,i来自对应的形状编码的梯度
Figure FDA0003608937680000035
和对应的材质编码的梯度
Figure FDA0003608937680000036
的加和;λt是材质表达效应的比例因子,λs是形状表达效应的比例因子,通常,取λs=λt=1;||V||是输入视频序列V的长度;当生成器固定时,表情变换模块W从人脸形状编码Cshape和人脸材质编码Ctexture在同一视频中的变化中学习表情对材质编码的影响。
4.根据权利要求3所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(3)中:
所述的材质生成器Gt和形状生成器Gs,其网络结构包括堆叠卷积层、转置卷积层和组归一化层;该网络使用256维向量作为输入,材质生成器Gt最终产生3通道的材质图Mt输出,形状生成器Gs产生1通道人脸深度图Ms输出;最终的材质图Mt和深度图Ms用Tanh函数缩放到-1到1的范围,表示为:
Mt=Gt(Ctexture),Ms=Gs(Cshape), (8)
所述渲染器R接受材质图Mt和深度图Ms,还有光照编码Clight、姿势编码Cpose作为参数,表示为以下公式;
Figure FDA0003608937680000037
Figure FDA0003608937680000038
是重建后的图像,R为渲染的过程,主要包括光照和投影两个过程;在渲染过程中,首先,将深度图Ms转化为三维渲染管道中的三维网格;然后,将材质图Mt与网格进行融合,得到三维模型的真实表示。
5.根据权利要求4所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(3)中:
所述的渲染器R的光照过程,使用简化的Phong光照模型,通过该光照模型从以下方程中得到每个点p的颜色Ip
Ip=ka,p+∑m∈lightskd,p(Lm·Np), (10)
其中,lights表示所有光源的集合,Lm表示从表面上的一个点m到每个光源的方向向量,Np表示从深度图Ms直接得到的到表面的法线;ka,p为点p环境光系数,kd,p为点p的漫反射系数;光源的方向和强度由光照编码Clight提供,点p的漫反射系数由材质图Mt提供;
所述的渲染器的投影过程,使用一个弱透视相机模型,即光与相机平面正交,在透视投影下,成像二维点p与实际三维点位置P之间有如下转换关系:
p=scK[Rc tc]P, (11)
其中,K为照相机的内部参数;Rc和tc是外部参数,sc是相机的缩放因子;Rc和tc可以从姿势编码Cpose中获取;材质图Mt和深度图Ms,还有光照编码Clight、姿势编码Cpose经过渲染器R的光照和投影,得到人脸的二维重建图像
Figure FDA0003608937680000049
6.根据权利要求5所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(4)中,所述的重建损失,包括从低像素水平到高特征水平的约束;损失函数由三部分组成:光度损失Lp,特征级损失Lf和身份损失Li
(1)光度损失Lp,特征级损失Lf表示如下:
Figure FDA0003608937680000041
Figure FDA0003608937680000042
其中,I表示输入图像,
Figure FDA0003608937680000043
表示重建图像,conv代表低级特征提取网络;σ表示置信度图,使用编码器-生成器结构来生成,σp是光度损失的置信度图,σf是特征级损失的置信度图;在该网络模型中,光度损失和特征级损失受到估计置信度图σ的约束,基于置信度的评估函数Lconf使模型自行校准:
Figure FDA0003608937680000044
其中,Lconf有三个参数,重建图像
Figure FDA0003608937680000045
输入图像I,和置信度σ;Ω是有效区域,也就是重建图像
Figure FDA0003608937680000046
的非背景部分,|Ω|表示有效区域中点的数量;uv表示有效区域中的点坐标,σuv为该点的置信度,
Figure FDA0003608937680000047
表示该点在重建图像
Figure FDA0003608937680000048
和输入图像I上的像素RGB差值,∑uv∈Ω表示对所有有效区域的点求和;
(2)身份损失Li用来约束整个人脸的感知一致性;首先,利用函数g将重建图像I与原始图像
Figure FDA0003608937680000051
相结合,该函数利用原始图像的相应部分来填补重建图像没有的背景;然后,计算补充图像与原始图像之间的感知相似度(LPIPS),感知相似度试图提取VGG网络中多层特征来计算图像间距离;身份Li损失表示如下:
Figure FDA0003608937680000052
其中,f为感知相似度的VGG网络,g为填补函数,g有两个参数:重建图像
Figure FDA0003608937680000057
和输入图像I,因为重建图像的背景区域是缺失的,所以使用输入图像I的相应区域进行填补;<·>表示余弦距离,||·||表示模长;
(3)损失函数
Figure FDA0003608937680000058
表示为光度损失、较低的特征损失和身份损失的线性组合:
Figure FDA0003608937680000053
其中,λf和λi为特征级损失和身份损失的权重;
(4)最后,还考虑计算左右脸水平翻转的重建图像得到的损失,并和以上损失线性加和得到最终损失函数:
Figure FDA0003608937680000054
Figure FDA0003608937680000055
其中,
Figure FDA0003608937680000056
是左右脸水平翻转的重建图像,Ltot是最终损失,flip是将材质图Ms和深度图Mt进行左右泛着变换,λflip是翻转重建图像的权重;
接着使用反向传播算法,从损失计算网络的梯度,并更新网络的参数。
7.根据权利要求6所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(5)中,所述使用图像集,对模型进行预训练,具体流程为:将大型人脸图像集中的图像通过步骤(1)中的编码器得到人脸形状编码Cshape,材质编码Ctexture,光照编码Clight,姿势编码Cpose;然后使用步骤(3)中的生成器从形状编码Cshape,材质编码Ctexture得到材质图Mt和深度图Ms,公式表示如下:
Ms=Gs(Cshape)=Gs(Es(I)), (18)
Mt=Gt(Ctexture)=Gt(Et(I)), (19)
其中,I为输入图像,Es、Et分别是形状、材质编码器,Gs、Gt分别是形状、纹理生成器;材质图Mt和深度图Ms与光照编码Clight,姿势编码Cpose通过渲染器R生成重建图像
Figure FDA0003608937680000059
然后,按照步骤(4)计算损失函数Ltot来进行反向传播,训练所有的编码器和生成器,表情编码器除外;
测试时,只使用编码器提取人脸形状编码Cshape,材质编码Ctexture,光照编码Clight,姿势编码Cpose就可以进行姿势估计、人脸验证和人脸正面化后续任务。
8.根据权利要求7所述的从图像和视频中提取三维人脸表征的方法,其特征在于,步骤(6)中,所述使用视频对添加表情变换模块之后模型继续进行训练,其中,输入帧从同一视频序列中收集,它们具有不同表情和姿势的动作;与步骤(5)中的步骤不同的是,这里的表情变换模块W,将提取到的表情编码Cexpr用来处理材质编码Ctexture和形状编码Cshape,得到变换后的形状编码C′shape和材质编码C′texture;生成深度Ms和材质贴图Mt的过程用以下公式来表示:
Ms=Gs(C′shape)=Gs(W(Cshape,Cexpr))=Gs(W(Es(I),Ee(I))), (20)
Mt=Gt(C′texture)=Gt(W(Ctexture,Cexpr))=Gt(W(Et(I),Ee(I))), (21)
其中,I为输入图像;Es、Et分别是形状、材质编码器,Gs、Gt分别是形状、纹理生成器;
结合之前提取的姿势Cpose和光照Clight信息,深度和材质贴图可以通过渲染器R生成重建的图像
Figure FDA0003608937680000061
当完成图像集模型训练时,容易在图像集模型上面添加表情变换模块W和表情编码器Ee,继续在视频上训练,得到适用于视频的模型;测试时只需将图片通过相应的编码器,就能够从人脸视频中解耦姿势、光照、形状、表情和材质,并且辅助下游各种任务的预测。
CN202210427450.3A 2022-04-21 2022-04-21 一种从图像和视频中提取三维人脸表征的方法 Pending CN114708586A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210427450.3A CN114708586A (zh) 2022-04-21 2022-04-21 一种从图像和视频中提取三维人脸表征的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210427450.3A CN114708586A (zh) 2022-04-21 2022-04-21 一种从图像和视频中提取三维人脸表征的方法

Publications (1)

Publication Number Publication Date
CN114708586A true CN114708586A (zh) 2022-07-05

Family

ID=82175244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210427450.3A Pending CN114708586A (zh) 2022-04-21 2022-04-21 一种从图像和视频中提取三维人脸表征的方法

Country Status (1)

Country Link
CN (1) CN114708586A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439610A (zh) * 2022-09-14 2022-12-06 中国电信股份有限公司 模型的训练方法、训练装置、电子设备和可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439610A (zh) * 2022-09-14 2022-12-06 中国电信股份有限公司 模型的训练方法、训练装置、电子设备和可读存储介质
CN115439610B (zh) * 2022-09-14 2024-04-26 中国电信股份有限公司 模型的训练方法、训练装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
US10789686B2 (en) Denoising Monte Carlo renderings using machine learning with importance sampling
CN111428586B (zh) 基于特征融合与样本增强的三维人体姿态估计方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
Petersen et al. Pix2vex: Image-to-geometry reconstruction using a smooth differentiable renderer
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN111950477B (zh) 一种基于视频监督的单图像三维人脸重建方法
US20210232926A1 (en) Mapping images to the synthetic domain
CN113822993A (zh) 一种基于3d模型匹配的数字孪生方法和系统
WO2023091249A1 (en) Neural semantic fields for generalizable semantic segmentation of 3d scenes
CN117409192B (zh) 一种基于数据增强的红外小目标检测方法及装置
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN114708586A (zh) 一种从图像和视频中提取三维人脸表征的方法
KR20200140334A (ko) 종래의 cad 모델들을 사용한 이미지들로부터 객체 인식
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Saint et al. 3dbooster: 3d body shape and texture recovery
CN116863053A (zh) 一种基于知识蒸馏的点云渲染增强方法
CN116485892A (zh) 一种弱纹理物体的六自由度位姿估计方法
Kulikajevas et al. Adversarial 3D human pointcloud completion from limited angle depth data
CN114283181B (zh) 一种基于样例的动态纹理迁移方法及系统
Olszewski Hashcc: Lightweight method to improve the quality of the camera-less nerf scene generation
Zheng et al. A Dual Encoder-Decoder Network for Self-supervised Monocular Depth Estimation
US12026892B2 (en) Figure-ground neural radiance fields for three-dimensional object category modelling
US20230130281A1 (en) Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling
Sol A Sim-to-Real Deformation Classification Pipeline using Data Augmentation and Domain Adaptation
Singer View-Agnostic Point Cloud Generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination