CN116958430A - 一种人脸建模方法、装置、设备及介质 - Google Patents
一种人脸建模方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116958430A CN116958430A CN202310904108.2A CN202310904108A CN116958430A CN 116958430 A CN116958430 A CN 116958430A CN 202310904108 A CN202310904108 A CN 202310904108A CN 116958430 A CN116958430 A CN 116958430A
- Authority
- CN
- China
- Prior art keywords
- 3dmm
- expression
- modeling
- user
- parameterized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000014509 gene expression Effects 0.000 claims abstract description 138
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 230000008921 facial expression Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 42
- 230000008859 change Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 8
- 230000002146 bilateral effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000011514 reflex Effects 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种人脸建模方法、装置、设备及介质,方法包括:基于4D人脸表情数据训练深度神经网络,得到参数化3DMM并获取对应的基表情基;获取与参数化3DMM进行配准后的用户三维人脸模型,并获取对应的表情基;基于基表情基与表情基的残差,对深度神经网络进行调参,基于调参后的深度神经网络获取映射函数,并基于映射函数得到与各表情基对应的尺度因子,并对3DMM人脸建模中所应用的3DMM建模方程进行调参;基于调参后的3DMM建模方程进行3DMM人脸建模,提升了3DMM的精度,以及用户三维人脸模型与人脸表情动画中的尺度的统一度,从而提高了用户三维人脸模型中表情的重演精度。
Description
技术领域
本申请实施例涉及数字人建模技术领域,尤其涉及一种人脸建模方法、装置、设备及介质。
背景技术
基于AI(Artificial Intelligence,人工智能)的人脸建模算法可从单张或多张人脸照片重建出三维人脸模型。SOTA(State-of-the-Art,最先进的技术或方法)大都需要借助一个通过主成分分析方法所获取的参数化3DMM(三维可变形人脸模型,3D MorphableModel),通过AI算法在人脸照片检测特征点,并基于与参数化3DMM特征点的匹配关系计算3DMM的参数,从而形变参数化3DMM,将其配准到人脸照片得到用户的三维人脸模型。或者,通过三维扫描比如3D单反相机阵列扫描和光场扫描而得到人脸的绝对物理尺度,进而重建出亚毫米精度的三维人脸模型。
但上述方案具备如下缺点:3D单反相机阵列扫描和光场扫描方法的硬件成本高昂且需专业人员操作;而基于AI算法从单张或多张人脸照片重建出三维人脸模型的方法,通过3DMM建模得到的三维人脸模型精度较低。在后续扩展应用时,比如真人驱动表情动画时,因为三维人脸模型精度低,故而导致即使利用SOTA表情驱动算法也无法实现逼真的表情动画。
发明内容
本申请实施例提供一种人脸建模方法、装置、设备及介质,以解决相关技术中3DMM精度较低,且基于3DMM建模完成的用户三维人脸模型与人脸表情动画中的尺度不统一的技术问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,本申请实施提供一种人脸建模方法,所述方法包括:
基于4D人脸表情数据训练深度神经网络,得到参数化3DMM,并基于所述参数化3DMM的表情变化规律获取对应的基表情基;
获取与所述参数化3DMM进行配准后的用户三维人脸模型,并基于所述用户三维人脸模型的表情变化规律获取对应的表情基;
基于所述基表情基与所述表情基的残差,对所述深度神经网络进行调参;
基于调参后的所述深度神经网络获取映射函数,并基于所述映射函数得到与各所述表情基对应的尺度因子;
基于各所述表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参;
基于调参后的3DMM建模方程进行3DMM人脸建模。
可选的,所述获取与所述参数化3DMM进行配准后的用户三维人脸模型包括:
向调参前的3DMM建模方程中输入目标用户的人脸照片,得到所述用户三维人脸模型;或者,
将采用摄影测量法获取到的用户三维人脸模型与所述参数化3DMM进行配准,得到配准后的用户三维人脸模型。
可选的,在所述对所述深度神经网络进行调参之前,所述方法还包括:
采用双边滤波方法对所述用户三维人脸模型的顶点在法向上的残差进行降噪处理。
可选的,所述对所述深度神经网络进行调参包括:
基于所述残差,确定残差拟合函数;
在所述深度神经网络的损失函数中增加正则项;其中,所述正则项为所述残差拟合函数与预设阈值的差值;
并且,将所述深度神经网络中用于输出尺度因子的层结构改为全连接层;
其中,所述全连接层的数量与所述表情基的数量相等。
可选的,在所述基于4D人脸表情数据训练深度神经网络,得到参数化3DMM之前,所述方法还包括:
对所述参数化3DMM进行表情区域的划分;得到预设数量的表情区域;
其中,所述表情区域至少包括以下一项:上左唇区域、上右唇区域、下左唇区域、下右唇区域或口腔区域。
可选的,所述基于各所述表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参包括:
将3DMM建模方程中的尺度因子修改为各所述表情基对应的尺度因子;
其中,尺度因子与所述表情区域一一对应。
第二方面,本申请实施例提供一种人脸建模装置,所述装置包括:
获取模块,用于基于4D人脸表情数据训练深度神经网络,得到参数化3DMM,并基于所述参数化3DMM的表情变化规律获取对应的基表情基;
所述获取模块,还用于获取与所述参数化3DMM进行配准后的用户三维人脸模型,并基于所述用户三维人脸模型的表情变化规律获取对应的表情基;
调参模块,用于基于所述基表情基与所述表情基的残差,对所述深度神经网络进行调参;
所述获取模块,还用于基于调参后的所述深度神经网络获取映射函数,并基于所述映射函数得到与各所述表情基对应的尺度因子;
所述调参模块,还用于基于各所述表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参;
建模模块,用于基于调参后的3DMM建模方程进行3DMM人脸建模。
可选的,所述获取模块,还用于向调参前的3DMM建模方程中输入目标用户的人脸照片,得到所述用户三维人脸模型;或者,将采用摄影测量法获取到的用户三维人脸模型与所述参数化3DMM进行配准,得到配准后的用户三维人脸模型。
可选的,所述装置还包括:降噪处理模块,用于在所述对所述深度神经网络进行调参之前,采用双边滤波方法对所述用户三维人脸模型的顶点在法向上的残差进行降噪处理。
可选的,所述调参模块,还用于基于所述残差,确定残差拟合函数;
在所述深度神经网络的损失函数中增加正则项;其中,所述正则项为所述残差拟合函数与预设阈值的差值;
并且,将所述深度神经网络中用于输出尺度因子的层结构改为全连接层;
其中,所述全连接层的数量与所述表情基的数量相等。
可选的,所述装置还包括:划分模块,用于在所述基于4D人脸表情数据训练深度神经网络,得到参数化3DMM之前,对所述参数化3DMM进行表情区域的划分;得到预设数量的表情区域;其中,所述表情区域至少包括以下一项:上左唇区域、上右唇区域、下左唇区域、下右唇区域或口腔区域。
可选的,所述调参模块,还用于将3DMM建模方程中的尺度因子修改为各所述表情基对应的尺度因子;其中,尺度因子与所述表情区域一一对应。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的3DMM人脸建模方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的3DMM人脸建模方法的步骤。
由此,将配准后的用户三维人脸模型与人脸表情动画中的尺度均统一为3DMM中的尺度,同时充分利用丰富的4D人脸表情数据训练深度神经网络得到参数化3DMM,并利用表情基的残差拟合函数修改深度神经网络,用以尺度因子的学习,并基于尺度因子修改3DMM建模方程,以进一步提升基于3DMM建模方程所构建的3DMM的模型精度,以及用户三维人脸模型与人脸表情动画中的尺度的统一度,从而提高用户三维人脸模型中表情的重演精度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种人脸建模方法的流程图;
图2为本申请实施例提供的人脸表情局部区域划分的示意图;
图3为本申请实施例提供的一种人脸建模方法的流程图;
图4为本申请实施例提供的装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了根据本申请实施例的一种人脸建模方法的流程图,如图1所示,方法包括:
步骤S101、基于4D人脸表情数据训练深度神经网络,得到参数化3DMM,并基于参数化3DMM的表情变化规律获取对应的基表情基;
步骤S102、获取与参数化3DMM进行配准后的用户三维人脸模型,并基于用户三维人脸模型的表情变化规律获取对应的表情基;
步骤S103、基于基表情基与表情基的残差,对深度神经网络进行调参;
步骤S104、基于调参后的深度神经网络获取映射函数,并基于映射函数得到与各表情基对应的尺度因子;
其中,映射函数由用户三维人脸模型和参数化3DMM之间的尺度因子以及刚性变换组成;
步骤S105、基于各表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参;
步骤S106、基于调参后的3DMM建模方程进行3DMM人脸建模。
在一种可能的实现方式中,在步骤S101、基于4D人脸表情数据训练深度神经网络,得到参数化3DMM之前,方法还包括:对参数化3DMM进行表情区域的划分;得到预设数量的表情区域;其中,表情区域至少包括以下一项:上左唇区域、上右唇区域、下左唇区域、下右唇区域或口腔区域。
需要说明的是,参数化3DMM(三维可变形人脸模型,3D Morphable Model)是一种用于表示和生成人脸形状和纹理的统计模型。也就是说,可基于大量的人脸数据集,通过分析和建模这些数据的主要变化模式,得到一个具有统计意义的模型——参数化3DMM。该模型包含了人脸的形状和纹理信息,并用一组参数来表示。具体而言,参数化3DMM由以下几个部分组成:形状模型:形状模型描述了人脸的几何形状。它通常使用PCA(PrincipalComponent Analysis,主成分分析方法)来提取出表示人脸形状变化的主要成分,并用一个低维的参数向量来表示形状。纹理模型:纹理模型描述了人脸的颜色和纹理信息,类似于形状模型,它也使用PCA来提取出表示人脸纹理变化的主要成分,并用一个低维的参数向量来表示纹理。光照模型:光照模型描述了光照条件对人脸的影响,它可以考虑光源的位置、强度和颜色等因素,并用参数化方式来表示。进一步地,通过调整参数,可以基于参数化3DMM,生成不同的人脸形状和纹理,即基于参数化3DMM进行3DMM人脸建模,由此,可根据给定的参数值来生成逼真的、具有多样性的3DMM。
需要说明的是,对参数化3DMM的表情区域进行划分的方式可以为人工处理方式或者自动处理方式。例如:可借助工具或软件R3DS Wrap4D来辅助划分。在具体应用场景中,可将表情区域划分为13个区域,划分过程为将模型顶点根据其归属的区域赋予不同的顶点颜色,并且,可针对嘴部区域进一步划分,将嘴部区域划分为上左唇,上右唇,下左唇,下右唇,口腔5个区域。划分的依据为FACS(Principal Component Analysis,面部行为编码系统)的AU(Action Unit,动作单元)类型发生的主要区域。对嘴唇部分做进一步划分主要是考虑到本申请实施例的主要应用场景数字人表情动画中的唇形动画是语音驱动表情动画的核心,并且发生频率最高且表情复杂,需要对其进行精细化处理。由此,可将全局人脸的表情处理转换到多个局部区域的表情处理,使得参数化3DMM对表情的表示更加精细化、具体化。
其中,FACS是一种用于描述和分析人脸表情的标准系统,它通过将人脸表情分解为不同的AU来描述和量化人脸表情的各个组成部分。举例说明,FACS AU类型及其对应的编号为:1、AU1:Inner Brow Raiser-抬起内眉毛区;2、AU2:Outer Brow Raiser-抬起外眉毛区;3、AU4:Brow Lowerer-皱眉。
在步骤S101和步骤S102中,需要说明的是,从4D人脸表情数据训练完成三维人脸模型的自动绑定和驱动是当前面向超写实数字人表情动画驱动的方法,如国外ZivaDynamics公司的实时面部绑定工具ZRT Face Trainer国内的FACEGOOD公司的面部捕捉的软件AVATARY,均是从较规模化的4D人脸扫描数据库训练实现更加自然真实的数字人表情动画。从4D人脸表情数据训练完成三维人脸模型的自动绑定,即可自动生成表情基及其对应的系数,驱动即捕捉真人面部表情,并将真人面部表情映射到表情动画驱动模型上,最终,实现基于表情基及其对应的系数来逼近真人表情,并完成对表情动画驱动模型的表情驱动。
虽然原始的参数化3DMM(未经4D人脸表情数据进一步训练的参数化3DMM)本身已经实现了配准,但算法自动配准误差一般较难满足从4D表情数据训练表情动画驱动模型的要求,为了适用于超写实数字人表情动画,基于4D人脸表情数据进一步训练深度神经网络,得到参数化3DMM,并通过工业电影中通用标准做法既利用R3DS Wrap4D软件,获取与参数化3DMM进行配准后的用户三维人脸模型,配准后的用户三维人脸模型和基于4D人脸表情数据进一步训练深度神经网络,得到的参数化3DMM的网格拓扑及AU类型是一致的,因此,对参数化3DMM进行训练获取到的对应的表情基(包括基表情基),以及对用户三维人脸模型进行训练得到的表情基的类型和数量也是一致的。其中,表情基对应了一个表情,且表示为一个形变了的人脸网格。
在一种可能的实现方式中,获取与参数化3DMM进行配准后的用户三维人脸模型包括:向调参前的3DMM建模方程中输入目标用户的人脸照片,得到用户三维人脸模型;或者,将采用摄影测量法获取到的用户三维人脸模型与参数化3DMM进行配准,得到配准后的用户三维人脸模型。
需要说明的是,通过3DMM技术进行三维人脸建模的过程可通过3DMM建模方程来描述(调参前的3DMM建模方程即为相关技术中的3DMM建模方程,传统的3DMM建模方程)。3DMM人脸建模是给定一个训练好的参数化模型(上述的参数化3DMM,即作为训练数据的三维人脸模型的均值模型及表情参数),计算出参数化3DMM的旋转和平移,参数化3DMM上事先标记好的三维人脸关键点从而可以投影到二维空间,并与目标用户人脸照片上的人脸关键点对齐。具体来说,在通过3DMM技术进行三维人脸建模的过程中,首先需要一个训练好的参数化模型,其中包含了三维人脸模型的均值模型(如:平均形状和平均纹理)以及表情参数,这个训练好的参数化模型是通过大量的标记好的三维人脸数据和4D人脸表情数据进行训练得到的。在对目标用户的人脸照片进行建模时,需要先计算出旋转和平移矩阵,将训练好的参数化模型投影到二维空间,这可以通过与目标用户人脸照片中已经标记好的人脸关键点进行对齐实现,通过计算旋转和平移矩阵,可以将参数化模型的坐标映射到目标用户人脸照片的二维空间中,同时,已标记好的三维人脸关键点也会投影到二维空间中,通过比较已标记的人脸关键点和投影后的人脸关键点的位置,可以进行对齐操作,以确保训练好的参数化模型与目标用户的人脸照片的匹配,通过将目标用户人脸照片对齐到训练好的参数化模型,可以获得人脸形状和纹理的参数,这些参数可以用来生成具有用户人脸特征的三维模型,以完成针对于目标用户的人脸照片的三维人脸建模过程,获取到用户三维人脸模型。需说明的是,当前主要是基于深度网络实现3DMM建模。
而上述的配准思路可用建模方程来描述,即:向调参前的3DMM建模方程中输入目标用户的人脸照片(例如:可采用单反相机阵列式扫描拍摄用户多个角度的人脸照片),得到用户三维人脸模型。
3DMM建模方程为:其中f是尺度因子向量,/>是从扫描得到的人脸三维模型作为训练数据的均值模型,Aid是中性表情模型数据中训练得到的主成份基向量,αid为对应的模型形状参数,Aexp是从有表情的模型数据中训练得到的主成份基向量,αexp为对应的表情参数,/>和t为刚性变换中的旋转和平移,最终得到重建的三维模型V(p3d)(步骤2中与参数化3DMM进行配准后的用户三维人脸模型)。需说明的是,与传统的3DMM建模方程相对应,先假设f为全为1的向量,从而可以从目标用户人脸照片重建出用户的三维人脸模型。
可选的,也可以将采用摄影测量法获取到的用户三维人脸模型与参数化3DMM进行配准,得到配准后的用户三维人脸模型。
需要说明的是,在基于4D人脸表情数据训练参数化3DMM获取对应的基表情基;且训练经3DMM建模的用户三维人脸模型V(p3d),获取对应的表情基之后,可确定基表情基与表情基的残差,理想情况下,训练参数化3DMM得到的表情基和训练用户三维人脸模型V(p3d)得到的表情基之间的残差是一个常数。这里的残差是两个表情基网格顶点的空间位置的残差。具体地,以参数化3DMM对应的基表情基为观察值,用户三维人脸模型V(p3d)对应的表情基为估计值,计算二者之间的残差εi,其中,i为模型顶点索引。
在一种可能的实现方式中,确定基表情基与表情基的残差之后,或者说,对深度神经网络进行调参之前,方法还包括:采用双边滤波方法对用户三维人脸模型的顶点在法向上的残差进行降噪处理。需要说明的是,为降低一个基表情中非AU部分三维模型顶点对残差的影响,可采用双边滤波方法对模型顶点在法向上的残差做降噪处理。其中,每个顶点p3d的计算域为其单环邻域,残差域为计算域内其他顶点q3d的残差值与p3d的残差值的差值,值域定义为计算域内其他顶点q3d到顶点p3d切平面的带符号距离,双边滤波方法计算顶点p3d在法向上的残差修正值。
在一种可能的实现方式中,步骤S103、基于基表情基与表情基的残差,对深度神经网络进行调参包括:确定基表情基与表情基的残差,基于残差确定残差拟合函数,并基于残差拟合函数,对3DMM建模中所应用的深度神经网络进行调参。
需要说明的是,基于残差,确定残差拟合函数可通过基于最小二乘法的回归分析计算残差拟合函数ψ(p3d_i),最小二乘目标函数为:其中n为三维模型的顶点数。由于4D表情数据训练不仅得到线性的几何绑定同时也得到非线性的肌肉绑定,因此,最小二乘回归分析是一个非线性问题,可采用迭代法既梯度下降法求解残差拟合函数。
在一种可能的实现方式中,如图3所示,对深度神经网络进行调参包括:
步骤S1031、基于残差,确定残差拟合函数;
步骤S1032、在深度神经网络的损失函数中增加正则项,并且,将深度神经网络中用于输出尺度因子的层结构改为全连接层;
其中,正则项为残差拟合函数与预设阈值的差值;全连接层的数量与表情基的数量相等。
需要说明的是,大部分3DMM深度模型均基于残差网络而设计,本申请实施例可并基于残差拟合函数对3DMM建模中所应用的深度神经网络进行调参,以对深度网络进行修改,用以尺度因子的学习。具体的,在深度网络的损失函数中,增加一个正则项ψ(p3d_i)-c,该正则项表示在由尺度因子以及刚性变换组成的映射函数输出的顶点对应的基表情残差值应该趋于常数c,并且将深度神经网络中,用于输出尺度因子的层结构改为全连接层;其中,全连接层的数量为表情基的数量。并基于映射函数得到与各表情基对应的尺度因子,并基于各表情基对应的尺度因子对3DMM建模中所应用的3DMM建模方程进行调参,基于调参后的3DMM建模方程进行3DMM人脸建模。
其中,基于各表情基对应的尺度因子对3DMM建模中所应用的3DMM建模方程进行调参包括:将3DMM建模方程中的尺度因子修改为各表情基对应的尺度因子;尺度因子与表情区域一一对应。也就是说,将尺度因子向量f的维度(尺度因子向量f的数量)设置为上述可能的实现方式中所划分的人脸表情局部区域的数量(例如:尺度因子向量f的维度为13个),即每个表情区域对应一个局部的尺度因子,再基于调参后的3DMM建模方程进行3DMM人脸建模。由此,可将全局尺度因子转换为与表情基类型及数量相关的局部尺度因子,从而针对每个局部区域进行具体的尺度变化,使得最终基于3DMM建模方程而得到的用户三维人脸模型中,尺度变化更加精细,且贴合目标人脸的表情。
在具体的应用场景中,本申请实施例首先可采用单反相机阵列式扫描拍摄用户多个角度的人脸照片,并通过摄影测量法完成三维人脸建模,通过R3DS Wrap4D将模型对齐到参数化3DMM,这样得到了基于人脸照片(正脸照片)重建的人脸模型(上述的V(p3d)),基于4D人脸表情数据训练参数化3DMM,获取对应的基表情基;训练V(p3d)获取对应的表情基,确定基表情基与表情基的残差,基于残差,确定残差拟合函数,基于残差拟合函数,对3DMM建模中所应用的深度神经网络进行调参。需要说明的是,在深度神经网络的训练中,可将正脸照片作为输入,将通过摄影测量法得到的人脸模型作为真值,来计算残差预设损失函数的正则项。因此,基于训练数据集,深度网络除了学习3DMM的旋转和平移,也将学习尺度因子向量f和常数c,并基于各表情基对应的尺度因子对3DMM建模中所应用的3DMM建模方程进行调参;基于调参后的3DMM建模方程进行3DMM人脸建模。
由此,本申请实施例提供了将4D表情数据训练表情动画驱动的用户模型的表情基与训练3DMM的表情基的尺度残差反馈到3DMM建模的深度网络,并修正网络尺度因子的方法。与基于AI算法从单张或多张人脸照片重建出三维人脸模型的方法,由于建模过程中的尺度丢失,因而只能通过AI算法预测得到一个逼近物理尺度的相对尺度,导致通过3DMM建模得到的三维人脸模型精度较低相比,本申请实施例中,由于将配准后的用户三维人脸模型与人脸表情动画中的尺度均统一为3DMM中的尺度,同时充分利用丰富的4D人脸表情数据训练深度神经网络得到参数化3DMM,并利用表情基的残差拟合函数修改深度神经网络用以尺度因子的学习,并基于尺度因子修改3DMM建模方程,以进一步提升基于3DMM建模方程所构建的用户三维人脸模型的精度,以及用户三维人脸模型与人脸表情动画中的尺度的统一度,从而提高了用户三维人脸模型中表情的重演精度。
图4示出了根据本申请实施例的一种人脸建模装置,如图4所示,装置40包括:
获取模块401,用于基于4D人脸表情数据训练深度神经网络,得到参数化3DMM,并基于参数化3DMM的表情变化规律获取对应的基表情基;
获取模块401,还用于获取与参数化3DMM进行配准后的用户三维人脸模型,并基于用户三维人脸模型的表情变化规律获取对应的表情基;
调参模块402,用于基于基表情基与表情基的残差,对深度神经网络进行调参;
获取模块401,还用于基于调参后的深度神经网络获取映射函数,并基于映射函数得到与各表情基对应的尺度因子;
其中,映射函数由用户三维人脸模型和参数化3DMM之间的尺度因子以及刚性变换组成;
调参模块402,还用于基于各表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参;
建模模块403,用于基于调参后的3DMM建模方程进行3DMM人脸建模。
在一种可能的实现方式中,获取模块401,还用于向调参前的3DMM建模方程中输入目标用户的人脸照片,得到用户三维人脸模型;或者,将采用摄影测量法获取到的用户三维人脸模型与参数化3DMM进行配准,得到配准后的用户三维人脸模型。
在一种可能的实现方式中,装置40还包括:降噪处理模块,用于在对深度神经网络进行调参之前,采用双边滤波方法对用户三维人脸模型的顶点在法向上的残差进行降噪处理。
在一种可能的实现方式中,调参模块402,还用于基于残差,确定残差拟合函数,在深度神经网络的损失函数中增加正则项;其中,正则项为残差拟合函数与预设阈值的差值;
并且,将深度神经网络中用于输出尺度因子的层结构改为全连接层;
其中,全连接层的数量与表情基的数量相等。
在一种可能的实现方式中,装置40还包括:划分模块,用于在基于4D人脸表情数据训练深度神经网络,得到参数化3DMM之前,对参数化3DMM进行表情区域的划分;得到预设数量的表情区域;其中,表情区域至少包括以下一项:上左唇区域、上右唇区域、下左唇区域、下右唇区域或口腔区域。
在一种可能的实现方式中,调参模块402,还用于将3DMM建模方程中的尺度因子修改为各表情基对应的尺度因子;其中,尺度因子与表情区域一一对应。
由此,本申请实施例提供了将4D表情数据训练表情动画驱动的用户模型的表情基与训练3DMM的表情基的尺度残差反馈到3DMM建模的深度网络,并修正网络尺度因子的方法。与相关技术相比,由于将配准后的用户三维人脸模型与人脸表情动画中的尺度均统一为3DMM中的尺度,同时充分利用丰富的4D人脸表情数据训练深度神经网络得到参数化3DMM,并利用表情基的残差拟合函数修改深度神经网络用以尺度因子的学习,并基于尺度因子修改3DMM建模方程,以进一步提升基于3DMM建模方程所构建的用户三维人脸模型的精度,以及用户三维人脸模型与人脸表情动画中的尺度的统一度,从而提高了用户三维人脸模型中表情的重演精度。
本申请实施例还提供一种电子设备50,如图5所示,包括:处理器501、存储器502及存储在存储器502上并可在处理器501上运行的程序,程序被处理器执行时实现如上述实施例所示的一种3DMM人脸建模方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述图1所示的一种3DMM人脸建模方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种人脸建模方法,其特征在于,所述方法包括:
基于4D人脸表情数据训练深度神经网络,得到参数化3DMM,并基于所述参数化3DMM的表情变化规律获取对应的基表情基;
获取与所述参数化3DMM进行配准后的用户三维人脸模型,并基于所述用户三维人脸模型的表情变化规律获取对应的表情基;
基于所述基表情基与所述表情基的残差,对所述深度神经网络进行调参;
基于调参后的所述深度神经网络获取映射函数,并基于所述映射函数得到与各所述表情基对应的尺度因子;
基于各所述表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参;
基于调参后的3DMM建模方程进行3DMM人脸建模。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述参数化3DMM进行配准后的用户三维人脸模型包括:
向调参前的3DMM建模方程中输入目标用户的人脸照片,得到所述用户三维人脸模型;或者,
将采用摄影测量法获取到的用户三维人脸模型与所述参数化3DMM进行配准,得到配准后的用户三维人脸模型。
3.根据权利要求1所述的方法,其特征在于,在所述对所述深度神经网络进行调参之前,所述方法还包括:
采用双边滤波方法对所述用户三维人脸模型的顶点在法向上的残差进行降噪处理。
4.根据权利要求1所述的方法,其特征在于,所述对所述深度神经网络进行调参包括:
基于所述残差,确定残差拟合函数;
在所述深度神经网络的损失函数中增加正则项;其中,所述正则项为所述残差拟合函数与预设阈值的差值;
并且,将所述深度神经网络中用于输出尺度因子的层结构改为全连接层;
其中,所述全连接层的数量与所述表情基的数量相等。
5.根据权利要求1所述的方法,其特征在于,在所述基于4D人脸表情数据训练深度神经网络,得到参数化3DMM之前,所述方法还包括:
对所述参数化3DMM进行表情区域的划分;得到预设数量的表情区域;
其中,所述表情区域至少包括以下一项:上左唇区域、上右唇区域、下左唇区域、下右唇区域或口腔区域。
6.根据权利要求5所述的方法,其特征在于,所述基于各所述表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参包括:
将3DMM建模方程中的尺度因子修改为各所述表情基对应的尺度因子;
其中,尺度因子与所述表情区域一一对应。
7.一种人脸建模装置,其特征在于,所述装置包括:
获取模块,用于基于4D人脸表情数据训练深度神经网络,得到参数化3DMM,并基于所述参数化3DMM的表情变化规律获取对应的基表情基;
所述获取模块,还用于获取与所述参数化3DMM进行配准后的用户三维人脸模型,并基于所述用户三维人脸模型的表情变化规律获取对应的表情基;
调参模块,用于基于所述基表情基与所述表情基的残差,对所述深度神经网络进行调参;
所述获取模块,还用于基于调参后的所述深度神经网络获取映射函数,并基于所述映射函数得到与各所述表情基对应的尺度因子;
所述调参模块,还用于基于各所述表情基对应的尺度因子对3DMM人脸建模中所应用的3DMM建模方程进行调参;
建模模块,用于基于调参后的3DMM建模方程进行3DMM人脸建模。
8.根据权利要求7所述的装置,其特征在于,
所述获取模块,还用于向调参前的3DMM建模方程中输入目标用户的人脸照片,得到所述用户三维人脸模型;或者,
将采用摄影测量法获取到的用户三维人脸模型与所述参数化3DMM进行配准,得到配准后的用户三维人脸模型。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的3DMM人脸建模方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的3DMM人脸建模方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310904108.2A CN116958430A (zh) | 2023-07-21 | 2023-07-21 | 一种人脸建模方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310904108.2A CN116958430A (zh) | 2023-07-21 | 2023-07-21 | 一种人脸建模方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958430A true CN116958430A (zh) | 2023-10-27 |
Family
ID=88442144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310904108.2A Pending CN116958430A (zh) | 2023-07-21 | 2023-07-21 | 一种人脸建模方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958430A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
-
2023
- 2023-07-21 CN CN202310904108.2A patent/CN116958430A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
CN117593442B (zh) * | 2023-11-28 | 2024-05-03 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108475438B (zh) | 基于学习的嵌入的面部重建 | |
CN106778928B (zh) | 图像处理方法及装置 | |
KR102442486B1 (ko) | 3차원 모델 생성 방법, 장치, 컴퓨터 기기 및 저장 매체 | |
CN108182384A (zh) | 一种人脸特征点定位方法及装置 | |
CN107067429A (zh) | 基于深度学习的人脸三维重建和人脸替换的视频编辑系统及方法 | |
EP4118619A1 (en) | Pose estimation method and apparatus | |
WO2018156126A1 (en) | Real-time generation of synthetic data from multi-shot structured light sensors for three-dimensional object pose estimation | |
CN113822982A (zh) | 一种人体三维模型构建方法、装置、电子设备及存储介质 | |
CN113111861A (zh) | 人脸纹理特征提取、3d人脸重建方法及设备及存储介质 | |
CN111127668B (zh) | 一种角色模型生成方法、装置、电子设备和存储介质 | |
CN113096249B (zh) | 训练顶点重建模型的方法、图像重建方法及电子设备 | |
Orts-Escolano et al. | 3d surface reconstruction of noisy point clouds using growing neural gas: 3d object/scene reconstruction | |
CN116958430A (zh) | 一种人脸建模方法、装置、设备及介质 | |
US20200357157A1 (en) | A method of generating training data | |
CN111127309A (zh) | 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置 | |
Wu et al. | [Retracted] 3D Film Animation Image Acquisition and Feature Processing Based on the Latest Virtual Reconstruction Technology | |
CN110546687A (zh) | 图像处理装置及二维图像生成用程序 | |
Du et al. | Research on filtering and measurement algorithms based on human point cloud data | |
Yuan et al. | 3d face reprentation and reconstruction with multi-scale graph convolutional autoencoders | |
CN112308955A (zh) | 基于图像的纹理填充方法、装置、设备及存储介质 | |
CN116188720A (zh) | 数字人的生成方法、装置、电子设备和存储介质 | |
CN115564915A (zh) | 变电站环境数字化区域的地图构建方法及装置 | |
CN115457171A (zh) | 一种采用基表情空间变换的高效表情迁移方法 | |
CN116152399A (zh) | 三维人脸形状生成方法、装置、设备及存储介质 | |
CN116912433B (zh) | 三维模型骨骼绑定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |