CN114821750A - 一种基于三维人脸重建的面部动捕方法及系统 - Google Patents

一种基于三维人脸重建的面部动捕方法及系统 Download PDF

Info

Publication number
CN114821750A
CN114821750A CN202210608837.9A CN202210608837A CN114821750A CN 114821750 A CN114821750 A CN 114821750A CN 202210608837 A CN202210608837 A CN 202210608837A CN 114821750 A CN114821750 A CN 114821750A
Authority
CN
China
Prior art keywords
face
vector
model
expression
coefficient vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210608837.9A
Other languages
English (en)
Inventor
罗凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingshu Technology Co ltd
Original Assignee
Beijing Yingshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingshu Technology Co ltd filed Critical Beijing Yingshu Technology Co ltd
Priority to CN202210608837.9A priority Critical patent/CN114821750A/zh
Publication of CN114821750A publication Critical patent/CN114821750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于三维人脸重建的面部动捕方法及系统,使用训练集对模型进行训练,模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p。可利用预测得到的不同的表情基系数和旋转矩阵来驱动虚拟人面部动作生成,能够实时驱动,具有很强的通用性,可以在复杂场景中执行面部动捕任务。该方法属于单目无标记动捕的范畴,不依赖额外的传感器,因此在动作捕捉上更加灵活。仅仅需要一个摄像头,便可以捕捉使用者的面部表情并将其通过一个虚拟的人物形象呈现在屏幕上。

Description

一种基于三维人脸重建的面部动捕方法及系统
技术领域
本发明涉及面部动作捕捉技术领域,具体涉及一种基于三维人脸重建的面部动捕方法及系统。
背景技术
面部动作捕捉,也称为面部表情捕捉,是动作捕捉技术的一个分支,它使用机械装置、相机或其他硬件设备来记录人类的面部表情,并将其转换成一系列数据来驱动虚拟人的面部表情和头部朝向。与捕捉由关节点构成、驱动更为稳定的人体动作相比,面部表情更微妙、更复杂,因此对数据精度要求更高。目前,基于光学的面部运动捕捉技术在学术界和工业界占据主导地位,尤其是基于普通摄像头的面部运动捕捉技术,具有成本低、易于获取和使用的优点。
发明内容
为此,本发明提供一种基于三维人脸重建的面部动捕方法及系统,可以借助不同的表情基系数和旋转矩阵来驱动虚拟人面部动作生成,能够实时驱动,具有很强的通用性,可以在复杂场景中执行面部动捕任务。
为了实现上述目的,本发明提供如下技术方案:
根据本发明实施例的第一方面,提出了一种基于三维人脸重建的面部动捕方法,所述方法包括:
使用训练集对模型进行训练,所述模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p;
假设相机模型满足透视投影关系,根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,根据输入图像以及得到的渲染图像进行损失函数计算;
将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β,利用表情系数向量β驱动虚拟人生成不同表情。
进一步地,所述3DMM模型表达式为:
Figure BDA0003672415900000021
Figure BDA0003672415900000022
其中,
Figure BDA0003672415900000023
Figure BDA0003672415900000024
分别为人脸的形状向量和纹理向量;
Figure BDA0003672415900000025
代表向量空间;V表示三维人脸表面的面片顶点数量;
Figure BDA0003672415900000026
Figure BDA0003672415900000027
分别为平均人脸形状向量和平均面部纹理向量;Bid、Bexp和Btex分别代表脸型、面部表情细节及面部纹理经PCA降维得到的基向量;
Figure BDA0003672415900000028
为不同项所对应的系数向量,上角标代表维度。
进一步地,所述面部光照模型为:
假设人脸皮肤的反射属性满足朗伯模型,其在所有观察方向上都具有同样的亮度,并且完全不吸收地反射所有的入射光,基于此,用球面谐波函数近似场景光照;
一个具有表面法线ni和皮肤纹理ti的人脸面片顶点si,其辐射度即光照为
Figure BDA0003672415900000029
其中,Φb
Figure BDA00036724159000000210
为球形谐波基函数;γb为Φb对应的系数,即为所述面部光照系数向量,这里给定B个波段,并且单色光
Figure BDA00036724159000000211
进一步地,所述3D人脸位姿向量p包括旋转向量R和平移向量t。
进一步地,所述损失函数为:
Figure BDA0003672415900000031
其中,
Figure BDA0003672415900000032
为人脸身份损失,
Figure BDA0003672415900000033
为人脸关键点损失,
Figure BDA0003672415900000034
为人脸皮肤区域的光照损失,
Figure BDA0003672415900000035
为人脸形状和纹理系数的正则损失,Lexp为表情矛盾损失,λpho,λlmk,λid,λexp,λreg分别为对应损失的权重系数。
进一步地,所述表情矛盾损失为:
Figure BDA0003672415900000036
其中,1{·}为指示函数;不同表情基之间存在共生矛盾问题,βi和βj为不同矛盾表情基对分别对应的系数。
进一步地,根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,具体包括:
将预测得到位姿向量中包含的旋转向量转化为旋转矩阵,通过旋转矩阵改变人脸朝向;将得到的人脸形状系数向量α、表情系数向量β和纹理系数向量δ输入到3DMM模型公式中得到人脸形状向量和纹理向量,将得到的人脸形状向量与旋转矩阵通过矩阵相乘得到最终形状;将光照系数向量γ和得到的纹理向量输入至面部光照模型公式得到面部皮肤光照;经过使用PyTorch3D图形库对颜色和纹理进行渲染得到渲染后的人脸图像。
进一步地,利用训练的ResNet50网络预测得到的表情系数向量β驱动虚拟人生成不同表情,具体还包括:
通过改变旋转矩阵来驱动虚拟人不同的头部朝向。
根据本发明实施例的第二面,提出了一种基于三维人脸重建的面部动捕系统,所述系统包括:
ResNet50网络模型训练模块,用于使用训练集对模型进行训练,所述模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ和3D人脸位姿向量p;
根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,根据输入图像以及得到的渲染图像进行损失函数计算;
表情捕捉与生成模块,用于将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β,利用表情系数向量β驱动虚拟人生成不同表情。
本发明具有如下优点:
本发明提出一种基于三维人脸重建的面部动捕方法及系统,使用自定义训练集对模型进行训练,模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p。可利用预测得到的不同的表情基系数和旋转矩阵来驱动虚拟人面部动作生成,能够实时驱动,具有很强的通用性,可以在复杂场景中执行面部动捕任务。该方法属于单目无标记动捕的范畴,不依赖额外的传感器,因此在动作捕捉上更加灵活。仅仅需要一个摄像头,便可以捕捉使用者的面部表情并将其通过一个虚拟的人物形象呈现在屏幕上。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种基于三维人脸重建的面部动捕方法的流程示意图;
图2为本发明实施例1提供的一种基于三维人脸重建的面部动捕方法的模型框架示意图;
图3为本发明实施例1提供的一种基于三维人脸重建的面部动捕方法中矛盾表情基对。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提出了一种基于三维人脸重建的面部动捕方法,所述方法包括:
S100、使用训练集对模型进行训练,所述模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p。
本实施例中,人脸先验统计模型3DMM表达式为:
Figure BDA0003672415900000051
Figure BDA0003672415900000052
其中,
Figure BDA0003672415900000053
Figure BDA0003672415900000054
分别为人脸的形状向量和纹理向量;
Figure BDA0003672415900000055
代表向量空间;V表示三维人脸表面的面片顶点数量;
Figure BDA0003672415900000056
Figure BDA0003672415900000057
分别为平均人脸形状向量和平均面部纹理向量;Bid、Bexp和Btex分别代表脸型、面部表情细节及面部纹理经PCA降维得到的基向量;
Figure BDA0003672415900000058
为不同项所对应的系数向量,上角标代表维度。
所述面部光照模型为:
假设人脸皮肤的反射属性满足朗伯模型,其在所有观察方向上都具有同样的亮度,并且完全不吸收地反射所有的入射光,基于此,用球面谐波函数近似场景光照;
一个具有表面法线ni和皮肤纹理ti的人脸面片顶点si,其辐射度即光照为
Figure BDA0003672415900000061
其中,Φb
Figure BDA0003672415900000062
为球形谐波基函数;γb为Φb对应的系数,即为所述面部光照系数向量,这里给定B=3个波段,并且单色光
Figure BDA0003672415900000063
选择固定焦距的透视相机模型,将3D人脸投影到2D平面上。3D人脸位姿p可简单由旋转向量R和平移向量t表示。
上面涉及的五个系数,即:
Figure BDA0003672415900000064
需要通过模型预测的方式获得。
需要指出的是表情系数向量通过变形迁移,从FaceWarehouse迁移到BFM拓扑模型。
S200、假设相机模型满足透视投影关系,根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,根据输入图像以及得到的渲染图像进行损失函数计算。
S300、将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β,利用表情系数向量β驱动虚拟人生成不同表情。
具体实施过程:
图像预处理阶段,首先利用现有的人脸框检测器,例如:使用CenterFace提取人脸感兴趣区域;然后在保证图像不被拉伸的前提下,将区域修正为正方形;最后,图片大小被调整为224×224像素作为神经网络的输入。
本实施例中,如图2所示,以ResNet50为骨干网络,将输出端全连接层的神经元个数调整为239个,用于推断上面提及的5个系数
Figure BDA0003672415900000065
共包括239维的系数向量。为便于表情系数的预测,利用Sigmoid函数将其范围限制到0-1。
然后,通过罗斯里格斯公式将旋转向量转化为旋转矩阵,通过旋转矩阵改变人脸朝向;将得到的人脸形状系数向量α、表情系数向量β和纹理系数向量δ输入到3DMM模型公式中得到人脸形状向量和纹理向量。人的面部朝向可能在改变,3DMM模型计算的人脸形状向量只是求形状的变化,而旋转矩阵代表面部朝向的改变。因此形状由估计的形状和旋转矩阵共同决定,将得到的人脸形状向量与旋转矩阵通过矩阵相乘得到最终形状。将光照系数向量γ和得到的纹理向量输入至面部光照模型公式得到面部皮肤光照。
再根据3DMM提供的3D点位索引关系,找到面片顶点与68个人脸关键点索引之间的对应关系,并通过透视相机投影将其映射到二维图像平面上。
所谓的改变人脸形状信息,其实是通过三维面片顶点的偏移来实现的;然后,3DMM中一共有35709个顶点,我们采用的是弱监督的训练方式,只需要2D人脸关键点就能训练整个模型。现在的问题就是我们得到的35709个点通过透视投影后如何与二维人脸关键点真值相对应,进而利用这一对应关系计算关键点损失。本实施例利用了透视投影关系求3D->2D,但是35709个点显然不对应68点,这里有个点位对应关系,我们仅需要一部分的点就行,从35709个点中找到与68个关键点对应的点。
最后PyTorch3D库利用得到人脸形状、纹理、光照,渲染出2D人脸图像。
考虑到3D数据标签的获取难度,训练中采用弱监督的思想对模型进行端到端训练,进而模型能够通过数据学习的方式预测对应的系数。损失函数涉及渲染后的人脸身份、人脸关键点、人脸皮肤区域的光照、表情矛盾损失以及其余正则项的监督。
(1)人脸身份损失:选择ArcFace人脸识别网络,分别将原图像I和渲染图像
Figure BDA0003672415900000071
投入模型得到低纬嵌入向量(文献中一般称其为“embeddings”),通过计算两者之间的余弦距离来判断生成图像与原图像之间的“逼真度”。
Figure BDA0003672415900000072
(2)人脸关键点损失:2D关键点在偏航角θyaw∈(-20,20)时,选择PIPNet算法输出作为标签;其余情况下选择输出FAN算法作为标签。损失函数可表述为
Figure BDA0003672415900000081
其中,i为人脸关键点的索引;wi为不同关键点对应的权重系数,为增强眼睛及嘴唇区域关键点的训练效果,将其权重调整为10,其余系数默认为1;Li为代表每个人脸关键点的2D位置的标签值,
Figure BDA0003672415900000082
为预估值。
(3)人脸皮肤区域的光照损失:为排除非脸部区域对光照结果的影响,利用最先进的pyfacer算法提取人脸mask,随后进行光照损失计算。
Figure BDA0003672415900000083
其中,P为可微分渲染后的人脸区域;M为标签mask区域;||·||2为L2损失。
(4)正则化损失:为防止训练中人脸形状和纹理退化对结果造成的影响,这里依次给出两者的正则损失,以规避上述问题。
Figure BDA0003672415900000084
(5)与传统的三维人脸重建不同,需要考虑不同表情基之间存在共生矛盾问题,例如:“眉毛弯下”和“眉毛抬高”,图3给出了不同的矛盾表情基对,针对这个问题提出了表情限制损失。表情矛盾损失为:
Figure BDA0003672415900000085
其中,1{·}为指示函数;βi和βj为不同矛盾表情基对分别对应的系数。
具体的,整个模型的损失函数为:
Figure BDA0003672415900000086
其中,
Figure BDA0003672415900000087
为人脸身份损失,
Figure BDA0003672415900000088
为人脸关键点损失,
Figure BDA0003672415900000089
为人脸皮肤区域的光照损失,
Figure BDA00036724159000000810
为人脸形状和纹理系数的正则损失,Lexp为表情矛盾损失,λpho,λlmk,λid,λexp,λreq分别为对应损失的权重系数。其中,λpho,λlmk,λid,λreg实验性地设置为1.9,0.5,0.2,1e-4;正则化损失中的参数λα=1和λδ=1.7e-3
模型训练:实验中,首先对输入图片进行数据增强,包括:随机翻转、随机放大缩小、随机旋转θ∈(-30,30)等操作,避免模型过拟合;其次,以优化器Adam为基准(初始学习率为1e-3),批量大小为12迭代100,000次,模型在60,000和80,000次时学习率下降为原来的1/10。当模型训练到50,000次时,使能表情基矛盾损失。模型在ResNet50基础上进行微调,GPU型号为Nvidia2080Ti。
训练数据集选取:数据集选自表情丰富的FEAFA+,包含了230,163张根据FACS面部表情编码规则采集的图片。由于数据集既包含室内场景,也包含室外场景,因此非常适合面部动捕。不仅如此,针对夸张表情的面部动捕需求,我们额外采集了25,676张带夸张表情的真实人脸数据,同时利用UE4/UE5绑定metahuman人物得到了22,372张虚拟人面部图片用于模型训练。
具体应用:该算法可利用估计的的面部表情系数与数字人脸进行绑定。具体来讲,需要依据上面提到的面部拓扑结构制作相应的数字人,并且指定面部的blendshape在0-1之间。通过将预测的46个表情基系数分配给相应的数字人表情基,就可以实现数字人面部的实时驱动。另外,人脸的朝向信息可通过相机的旋转信息反向推出。
在Python语言和TensorRT加速库的支持下,整个推断过程平均20ms左右。
实施例2
与上述实施例1相对应的,本实施例提出了一种基于三维人脸重建的面部动捕系统,所述系统包括:
ResNet50网络模型训练模块,用于使用训练集对ResNet50网络模型进行训练,利用ResNet50网络模型预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p;
根据预测得到的人脸参数以及3DMM模型、面部光照模型计算面部的形状、纹理和光照,并根据三维人脸面片顶点与二维人脸关键点的点位对应关系获取与二维人脸关键点对应的面片顶点,根据得到的面部的形状、纹理和光照以及面片顶点进行渲染得到人脸图像;
根据网络模型的输入图像以及得到的渲染图像,利用定义的损失函数对模型进行训练得到优化后的ResNet50网络模型;
表情捕捉与生成模块,用于将用户人脸图像输入至训练的ResNet50网络模型预测得到表情系数向量β,利用表情系数向量β驱动虚拟人生成不同表情。
本发明实施例提供的一种基于三维人脸重建的面部动捕系统中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于三维人脸重建的面部动捕方法,其特征在于,所述方法包括:
使用训练集对模型进行训练,所述模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p;
根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,根据输入图像以及得到的渲染图像进行损失函数计算;
将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β,利用表情系数向量β驱动虚拟人生成不同表情。
2.根据权利要求1所述的一种基于三维人脸重建的面部动捕方法,其特征在于,所述3DMM模型表达式为:
Figure FDA0003672415890000011
Figure FDA0003672415890000012
其中,
Figure FDA0003672415890000013
Figure FDA0003672415890000014
分别为人脸的形状向量和纹理向量;
Figure FDA0003672415890000015
代表向量空间;V表示三维人脸表面的面片顶点数量;
Figure FDA0003672415890000016
Figure FDA0003672415890000017
分别为平均人脸形状向量和平均面部纹理向量;Bid、Bexp和Btex分别代表脸型、面部表情细节及面部纹理经PCA降维得到的基向量;
Figure FDA0003672415890000018
为不同项所对应的系数向量,上角标代表维度。
3.根据权利要求1所述的一种基于三维人脸重建的面部动捕方法,其特征在于,所述面部光照模型为:
假设人脸皮肤的反射属性满足朗伯模型,其在所有观察方向上都具有同样的亮度,并且完全不吸收地反射所有的入射光,基于此,用球面谐波函数近似场景光照;
一个具有表面法线ni和皮肤纹理ti的人脸面片顶点si,其辐射度即光照为
Figure FDA0003672415890000019
其中,
Figure FDA0003672415890000021
为球形谐波基函数;γb为Φb对应的系数,即为所述面部光照系数向量,这里给定B个波段,并且单色光
Figure FDA0003672415890000022
4.根据权利要求1所述的一种基于三维人脸重建的面部动捕方法,其特征在于,所述3D人脸位姿向量p包括旋转向量R和平移向量t。
5.根据权利要求1所述的一种基于三维人脸重建的面部动捕方法,其特征在于,所述损失函数为:
Figure FDA0003672415890000023
其中,
Figure FDA0003672415890000024
为人脸身份损失,
Figure FDA0003672415890000025
为人脸关键点损失,
Figure FDA0003672415890000026
为人脸皮肤区域的光照损失,
Figure FDA0003672415890000027
为人脸形状和纹理系数的正则损失,Lexp为表情矛盾损失,λpho,λlnk,λid,λexp,λreg分别为对应损失的权重系数。
6.根据权利要求1所述的一种基于三维人脸重建的面部动捕方法,其特征在于,所述表情矛盾损失为:
Figure FDA0003672415890000028
其中,1{·}为指示函数;不同表情基之间存在共生矛盾问题,βi和βj为不同矛盾表情基对分别对应的系数。
7.根据权利要求4所述的一种基于三维人脸重建的面部动捕方法,其特征在于,根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,具体包括:
将预测得到位姿向量中包含的旋转向量转化为旋转矩阵,通过旋转矩阵改变人脸朝向;将得到的人脸形状系数向量α、表情系数向量β和纹理系数向量δ输入到3DMM模型公式中得到人脸形状向量和纹理向量,将得到的人脸形状向量与旋转矩阵通过矩阵相乘得到最终形状;将光照系数向量γ和得到的纹理向量输入至面部光照模型公式得到面部皮肤光照;经过使用PyTorch3D图形库对颜色和纹理进行渲染得到渲染后的人脸图像。
8.根据权利要求4所述的一种基于三维人脸重建的面部动捕方法,其特征在于,利用训练的ResNet50网络预测得到的表情系数向量β驱动虚拟人生成不同表情,具体还包括:
通过改变旋转矩阵来驱动虚拟人不同的头部朝向。
9.一种基于三维人脸重建的面部动捕系统,其特征在于,所述系统包括:
模型训练模块,用于使用训练集对模型进行训练,所述模型包括ResNet50网络模块和可微分渲染模块,利用ResNet50网络模块预测得到人脸参数,所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ,以及面部皮肤光照系数向量γ、3D人脸位姿向量p;
根据预测得到的人脸参数,结合3DMM模型和面部光照模型,利用可微分渲染模块渲染得到人脸图像,根据输入图像以及得到的渲染图像进行损失函数计算;
表情捕捉与生成模块,用于将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β,利用表情系数向量β驱动虚拟人生成不同表情。
10.根据权利要求9所述的一种基于三维人脸重建的面部动捕系统,其特征在于,所述损失函数为:
Figure FDA0003672415890000031
其中,
Figure FDA0003672415890000032
为人脸身份损失,
Figure FDA0003672415890000033
为人脸关键点损失,
Figure FDA0003672415890000034
为人脸皮肤区域的光照损失,
Figure FDA0003672415890000035
为人脸形状和纹理系数的正则损失,Lexp为表情矛盾损失,λpho,λlnk,λid,λexp,λreg分别为对应损失的权重系数。
CN202210608837.9A 2022-05-31 2022-05-31 一种基于三维人脸重建的面部动捕方法及系统 Pending CN114821750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210608837.9A CN114821750A (zh) 2022-05-31 2022-05-31 一种基于三维人脸重建的面部动捕方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210608837.9A CN114821750A (zh) 2022-05-31 2022-05-31 一种基于三维人脸重建的面部动捕方法及系统

Publications (1)

Publication Number Publication Date
CN114821750A true CN114821750A (zh) 2022-07-29

Family

ID=82519700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210608837.9A Pending CN114821750A (zh) 2022-05-31 2022-05-31 一种基于三维人脸重建的面部动捕方法及系统

Country Status (1)

Country Link
CN (1) CN114821750A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664746A (zh) * 2023-05-29 2023-08-29 华院计算技术(上海)股份有限公司 人脸重建方法及装置、计算机可读存储介质、终端
CN118115638A (zh) * 2024-01-24 2024-05-31 广州紫为云科技有限公司 基于深度学习及优化方法的单目三维人脸表情驱动系统
WO2024198583A1 (zh) * 2023-03-30 2024-10-03 华南理工大学 基于多尺度特征融合的人脸表情捕捉方法、装置及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024198583A1 (zh) * 2023-03-30 2024-10-03 华南理工大学 基于多尺度特征融合的人脸表情捕捉方法、装置及介质
CN116664746A (zh) * 2023-05-29 2023-08-29 华院计算技术(上海)股份有限公司 人脸重建方法及装置、计算机可读存储介质、终端
CN116664746B (zh) * 2023-05-29 2024-04-02 华院计算技术(上海)股份有限公司 人脸重建方法及装置、计算机可读存储介质、终端
CN118115638A (zh) * 2024-01-24 2024-05-31 广州紫为云科技有限公司 基于深度学习及优化方法的单目三维人脸表情驱动系统

Similar Documents

Publication Publication Date Title
CN112766160B (zh) 基于多级属性编码器和注意力机制的人脸替换方法
Pumarola et al. Ganimation: Anatomically-aware facial animation from a single image
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
Khakhulin et al. Realistic one-shot mesh-based head avatars
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN114821750A (zh) 一种基于三维人脸重建的面部动捕方法及系统
WO2022134971A1 (zh) 一种降噪模型的训练方法及相关装置
JP6207210B2 (ja) 情報処理装置およびその方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN109948454B (zh) 表情数据库的增强方法、训练方法、计算设备及存储介质
Satoshi et al. Globally and locally consistent image completion
CN110853119B (zh) 一种鲁棒的基于参考图片的妆容迁移方法
US20230019851A1 (en) Methods and systems for high definition image manipulation with neural networks
Xia et al. Controllable continuous gaze redirection
CN115035011B (zh) 一种融合策略下自适应RetinexNet的低照度图像增强方法
CN117994480A (zh) 一种轻量化手部重建与驱动的方法
JP2011060289A (ja) 顔画像合成方法及びシステム
CN115861570A (zh) 基于光度一致性匹配和优化算法的多视角人体重建方法
CN113076918B (zh) 基于视频的人脸表情克隆方法
CN113436058A (zh) 一种人物虚拟换衣方法、终端设备及存储介质
CN113673567A (zh) 基于多角度子区域自适应的全景图情感识别方法及系统
CN117333604A (zh) 一种基于语义感知神经辐射场的人物面部重演方法
Ham et al. Learning a manifold-constrained map between image sets: applications to matching and pose estimation
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
CN117079313A (zh) 图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination