CN115330947A - 三维人脸重建方法及其装置、设备、介质、产品 - Google Patents
三维人脸重建方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN115330947A CN115330947A CN202210969989.1A CN202210969989A CN115330947A CN 115330947 A CN115330947 A CN 115330947A CN 202210969989 A CN202210969989 A CN 202210969989A CN 115330947 A CN115330947 A CN 115330947A
- Authority
- CN
- China
- Prior art keywords
- face
- dimensional
- image
- reconstruction
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000014509 gene expression Effects 0.000 claims abstract description 92
- 238000013507 mapping Methods 0.000 claims abstract description 76
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000008921 facial expression Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 23
- 238000009877 rendering Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013508 migration Methods 0.000 abstract description 15
- 230000005012 migration Effects 0.000 abstract description 15
- 230000009466 transformation Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 21
- 238000005286 illumination Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000036548 skin texture Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请涉及一种三维人脸重建方法及其装置、设备、介质、产品,所述方法包括:获取人脸影像数据,提取其中的人脸图像,然后对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像,其后采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;最后采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数。本申请基于双线性的解耦建模可实现自然的表情迁移。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种三维人脸重建方法及其装置、设备、介质、产品。
背景技术
基础网络技术的演进推进了数字人、虚拟人物和3D形象的发展。其在相关影视、游戏及教育等各领域的应用急剧加大了三维虚拟人物生成技术的需求,其中,三维人脸重建技术在三维虚拟人物生成技术领域中更为重要。
传统三维人脸重建方法基于3DMM(3D Morphable Models,3DMM)先验,其依赖于视觉信号,而视觉信号的偏差容易导致泛化性较弱,因此需要更多的样本用于训练。此外,依赖于关键点的表情迁移极易出现非自然表情,非真实感较强。
综上,现有基于神经网络的3DMM,若要取得较好的重建效果,需要丰富且准确的训练数据,即训练成本高;其次,难以有效进行表情迁移,即不能获得精准表达表情的三维人脸图像。
发明内容
本申请的目的在于解决上述问题而提供一种三维人脸重建方法及其相应的装置、设备、非易失性可读存储介质,以及计算机程序产品。
根据本申请的一个方面,提供一种三维人脸重建方法,包括如下步骤:
获取人脸影像数据,提取其中的人脸图像;
对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像;
采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;
采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
根据本申请的另一方面,提供一种三维人脸重建装置,包括:
图像获取模块,设置为获取人脸影像数据,提取其中的人脸图像;
人脸检测模块,设置为对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像;
人脸建模模块,设置为采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;
参数映射模块,设置为采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
根据本申请的另一方面,提供一种三维人脸重建设备,包括中央处理器和存储器,所述中央处理器设置为调用运行存储于所述存储器中的计算机程序以执行本申请所述的三维人脸重建方法的步骤。
根据本申请的另一方面,提供一种非易失性可读存储介质,其以计算机可读指令的形式存储有依据所述的三维人脸重建方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行该方法所包括的步骤。
根据本申请的另一方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请在获得人脸图像中人脸关键点所在区域的人脸区域图像之后,采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;然后采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,完成三维人脸模型的重建。所述三维人脸重建方法采用双线性建模层针对人脸中的身份信息和表情信息进行解耦建模,从而有效分离出表情参数,实现表情迁移,可极大地促进直播、影视、动画等相关行业的应用和发展;其次,所述三维人脸重建网络适于采用基于单张图像的弱监督学习方式进行训练,可极大的减少训练数据的获取成本和标注成本,有助于规模应用。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的三维人脸重建方法的一种实施例的流程示意图;
图2为本申请的三维人脸重建方法示例性场景应用的一种实施例的流程示意图;
图3为本申请的实施例中三维人脸模型表情迁移的结果示意图;
图4为本申请的实施例中获取人脸区域图像的流程示意图;
图5为本申请的实施例中获取三维人脸模型的结果示意图;
图6为本申请的实施例中针对人脸特征图进行参数映射的流程示意图;
图7为本申请的实施例中训练三维人脸重建网络的流程示意图;
图8为本申请的实施例中三维人脸重建网络方法所采用的训练框架示意图;
图9为本申请的实施例中重建损失函数计算的流程示意图;
图10为本申请的三维人脸重建装置的原理框图;
图11为本申请所采用的一种三维人脸重建设备的结构示意图。
具体实施方式
本申请中所引用或可能引用到的模型,包括传统机器学习模型或深度学习模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的机器智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
请参阅图1,根据本申请提供的一种三维人脸重建方法,在其一个实施例中,包括如下步骤:
步骤S1100、获取人脸影像数据,提取其中的人脸图像;
人脸影像数据指的是带有人脸部分的影像数据,该类影像数据可通过已授权的直播、点播等合法途径进行获取,其可以是视频流数据,也可以是图像数据。
一个实施例中,当真实人以数字人形象进行直播活动时,需要通过摄像头实时采集所述真实人的影像数据,其后输送到后台服务器中作进一步处理,生成数字人形象并以此替代所述影像数据中的真实人,最后将带有数字人形象的影像数据输出到面向观众的显示终端设备中。上述实施例中,所采集的真实人的影像数据,即可作为所述人脸影像数据。
又一个实施例中,部分影视作品中常需将真实人替换为数字人形象,以生成带有相应风格的作品。本实施例中,可以将已拍摄完成的视频数据存储至服务器中,交由相关技术人员捕捉其中带有目标人物的影像数据,然后替换成相应的数字人形象,最后生成相应的影像文件。所述带有目标人物的影像数据,即可作为所述人脸影像数据。
再一个实施例中,一些广告海报需要以数字人形象来吸引群众,可以服务于此类目的先通过摄像机拍摄一张带有真实人的图像,然后交由相关技术人员生成其相应风格的数字人形象,来替代所述图像中的真实人。上述实施例中,所述带有真实人的图像,即为所述人脸影像数据。
以上实施例是所述人脸影像数据在示例性应用场景中的部分例证,其来源包括但不局限于此。因此,所述人脸影像数据可以是一种视频流数据,也可以是一种图像数据。适应本申请的需要,需要进一步提取所述人脸影像数据中的人脸图像,即,当所述人脸影像数据是视频流数据时,则提取其中的每一帧图像作为人脸图像;当所述人脸影像数据是图像数据时,则所述人脸影像数据即为人脸图像。
值得说明的是,所抽取的人脸图像需为统一格式,其可以是YUV420格式、或RGB24格式、或YUV444格式、或其他类似编码格式。其图像数据格式的统一能够使得后续操作的接口一致,方便统一处理,快速完成。
步骤S1200、对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像;
获得所述人脸图像之后,进行人脸检测和人脸关键点检测,检测获得人脸图像中的人脸区域图像和人脸关键点。具体地,针对所述人脸图像,采用预训练至收敛状态的人脸检测模型实施人脸检测,获得人脸目标框信息,所述人脸目标框信息包括人脸部分左上点和右下点的坐标信息。根据所述人脸目标框信息从所述人脸图像中截取相应区域位置的图像,即为人脸区域图像,其消除了非人脸区域的冗余图像信息的干扰,具有更聚焦人脸信息的特点。进一步地,针对所述人脸区域图像,采用预训练至收敛状态的人脸关键点检测模型实施人脸关键点检测,获得人脸关键点信息。所述人脸关键点为指向人脸区域图像中人脸部分的关键点,其能够表征人脸面部的关键区域位置,如眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。
在获得所述人脸区域图像和人脸关键点之后,还需要进行标准对齐操作。一种实施例中,可以将预设标准三维人脸模型投影至二维平面中,相应获得二维平面上的标准人脸关键点信息,对所述人脸关键点和所述标准人脸关键点进行对齐匹配,获得标准变换参数,根据所述标准变换参数将人脸区域图像变换到具有标准尺寸和角度的人脸区域图像。
步骤S1300、采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;
三维人脸重建网络包括两层结构,第一层为双线性建模层,基于参数化的三维人脸模型,用于针对所述人脸区域图像进行人脸身份和人脸表情的解耦建模,其对应的身份系数和表情系数需进一步确定;第二层为参数映射层,其用于将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
在所述双线性建模层中,首先确定一种参数化的人脸模型作为待优化的三维人脸模型;一个实施例中,所述参数化的人脸模型可为BFM(Basel Face Model,BFM)模型,BFM模型是以3DMM(3D Morphable Models,3DMM)统计模型为基础的,根据3DMM的原理,每一张人脸为形状向量与纹理向量的叠加。另一个实施例中,亦即本申请中的一个示例性应用实例,采用基于双线性模型的3DMM作为参数化的人脸模型,其参数化的表示可为:
core_tensor=vertex*identity*expression
其中vertex表示人脸网格顶点,identity表示身份系数,expression表示表情系数,core_tensor表示三维人脸模型网格顶点的张量表示。
所述基于双线性模型的3DMM相对于传统的3DMM,采用系数相乘的方式将人脸的身份信息和表情信息进行解耦建模,能够实现身份系数和表情系数的分离应用,以期实现表情迁移等。一个实施例中,不同身份拥有同样表情的人,可以被一组不同的身份系数和相同的表情系数表示。另一实施例中,针对同一身份拥有不同表情的人,可以被一组相同的身份系数和不同的表情系数表示。
针对建模本身作更具体地说明,所述基于双线性模型的3DMM将人脸的表示定义为上述中的core_tensor,其为预设三维人脸模型库中所有三维人脸模型的加权组合,可统一表达为:
B0=U0,B=[U1-U0,U2-U0,…,Um-U0]
其中,UiBi∈Rn×(l+1),α∈Rm×1,n为基底数,l为表情数量,m为身份数量。
则相对应映射到三维空间中的网格顶点可表示为:
f0+fα
在当前实施例中,所述三维人脸模型数据库可由相关技术人员根据实际应用场景和实际业务需求而设定,在示例性应用中,本申请预先构建一个数量为79的三维人脸模型数据库,有46类表情,亦即人脸模型中身份系数的向量维度为79,表情系数的向量维度为46。在其他的应用场景中,所述三维人脸模型数据库的数量、表情类型的数量、身份系数的向量维度和表情系数的向量维度都可以依据实际应用场景而调整,不影响所述方法的实际应用。
步骤S1400、采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
三维人脸重建网络的参数映射层是所述三维人脸重建网络的第二层结构,其用于将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数。
人脸区域图像中包含目标人脸的所有信息,如表征人脸身份的身份信息,表征人脸表情的表情信息等,因而构建其与三维人脸模型中的身份系数和表情系数的映射关系是可行的。除此之外,纹理参数、光照参数、姿态参数和变换参数都可在所述人脸区域图像中得以表达,根据这些参数构建相应的映射关系也是可行的。
因此,可对所述人脸区域图像与所述身份参数、表情参数、纹理参数、光照参数、姿态参数、变换参数之间构建映射关系,使得由所述人脸区域图像可相应获得身份系数、表情系数、纹理系数、光照系数、姿态系数、变换系数等。
一种实施例中,首先采用所述三维人脸重建网络中的编码器针对所述人脸区域图像进行特征提取,获得所述人脸区域图像的深度特征,称之为人脸特征图;其次,针对所述人脸特征图进行空间映射,获得所有参数系数,包括:身份系数、表情系数、纹理系数、光照系数、姿态系数、变换系数,其中,所述身份系数、表情系数即为所述双线性建模层中身份参数和表情参数相对应的参数系数。
各种所述的系数可按需调用,用于三维人脸重建,获得所述人脸区域图像相对应的三维人脸模型,可作为三维人脸重建的结果输出。一个实施例中,每个人脸图像相对应的参数系数,包括其中的身份系数和表情系数,均可独立存储备用,可用于随意组合以构造出不同的三维人脸模型,以便获得不同效果的人脸图像。例如,将一个身份系数与多个表情系数相结合用于产生同一人物不同表情相对应的人脸图像,或者,将一个表情系数与多个不同身份系数相结合用于产生不同人物相同表情相对应的人脸图像等。另一实施例中,采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为参数化的三维人脸模型中相对应的参数系数之后,包括:
根据所述参数系数进行三维重建,获得所述人脸区域图像的三维人脸模型。
具体而言,采用所述参数系数中的身份系数和表情系数用于构建其相对应的三维人脸模型,由此,根据一个人脸区域图像进行本申请以上过程的处理,获得参数化的三维人脸模型和所述身份系数、表情系数,便能得到有效反映所述人脸区域图像的身份信息和表情信息的三维人脸模型。
一个实施例中,三维人脸模型重建后需进一步确定其网格化表示,以期完成三维空间中相应人脸的重构。由此,对三维人脸网格进行建模,首先定义T为[V,I79,E46],其中V为顶点网格、I为身份系数、E为表情系数,则所述三维人脸网格可表示为:
Vx=T×σexp(Fg(x))×σid(Fg(x))
其中Vx可表示为[Nv,3],Nv表示三维网格的顶点数,3表示x,y,z空间坐标信息,σexp(Fg(x))表示三维人脸重建网络中参数映射层输出的表情系数,σid(Fg(x))表示三维人脸重建网络中参数映射层输出的身份系数。
值得说明的是,通常不同人脸具备相同数目的三维网格顶点。
相对于现有技术,本申请在获得人脸图像中人脸关键点所在区域的人脸区域图像之后,采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行身份信息和表情信息的双线性建模,获得参数化的三维人脸模型;然后采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,完成三维人脸模型的重建。所述三维人脸重建方法采用双线性建模层针对人脸中的身份信息和表情信息进行解耦建模,从而有效分离出表情参数,实现表情迁移,可极大地促进直播、影视、动画等相关行业地应用和发展;其次,所述三维人脸重建网络适于采用基于单张图像的弱监督学习方式进行训练,可极大的减少训练数据的获取成本和标注成本,有助于规模应用。
在以上任意实施例的基础上,请参阅图2,采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数之后,包括:
步骤S1500、获取构成所述参数化的三维人脸模型所需的目标参数系数,其中包括预先指定的身份系数和预先指定的表情系数;
所述参数化的三维人脸模型是所述三维人脸重建网络的双线性建模层中构建的,其未被确定的参数系数为身份系数和表情系数。在本申请的一个示例性的应用中,所述身份系数的向量维度为79,所述表情系数的向量维度为46。当所述预先指定的身份系数和预先指定的表情系数被确定之后,所述参数化的三维人脸模型的参数系数亦即被确定,即所述人脸区域图像相对应的三维人脸模型重建完成。
步骤S1600、将所述目标参数系数迁移至相应数字人的三维人脸模型中,获得数字人的三维人脸模型;
上一步骤完成对人脸区域图像的三维人脸模型的重建,但在实际应用场景需求中,更倾向于应用其数字化形象。一个实施例中,用数字人替代所述人脸区域图像中的人脸部分,以期将“真实人”替换成“数字人”进行直播或者交流互动等活动。在该场景下,“数字人”的实时情感模拟成为急需解决的问题。一种解决方式是,将所述“真实人”的真实表情迁移到“数字人”中,使其能够同步表达“真实人”的情感。因此,一个实施例中,本申请构建的双线性建模层能够实现表情信息的解耦,从而实现将所述“真实人”的三维人脸模型中的表情系数迁移到所述“数字人”中的三维人脸模型中,即可完成“真实人”到“数字人”的表情迁移。
实际应用场景中,为能够实现“真实人”到“数字人”的表情迁移,则其身份数量和表情数量,即身份系数和表情系数的向量维度应当保持一致。如图3所示,在此基础上,可以直接将所述“真实人”相对应的表情系数替换到“数字人”三维人脸模型中的表情系数中,其他参数保持不变,即可获得表情迁移后的数字人的三维人脸模型。
步骤S1700、将所述数字人的三维人脸模型渲染投影到二维图像空间,获得数字人图像。
在上一步骤中,获得所述“数字人”的三维人脸模型之后,根据步骤S1400获得的光照系数、姿态系数、变换系数,以及“数字人”本身的纹理系数,进行三维渲染并投影到二维图像空间中,获得“数字人”的图像,亦即完成人脸区域图像到“数字人”图像的表情迁移。一个实施例中,在直播平台的视频流中,获取其单帧人脸图像中的人脸区域图像,将其替换为“数字人”图像,即可进行“数字人”的同步直播。该类应用是所述方法其表情迁移功能性应用的场景之一,在其他场景中亦即可用。
根据以上实施例可知,从真实人的三维人脸模型重建到数字人的表情迁移,所述方法针对身份信息和表情信息的解耦建模,能够给直播、影视、数字化形象等行业带来巨大的应用价值,且其表情迁移应用不影响其他人脸信息的改变。
在以上任意实施例的基础上,请参阅图4,对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像,包括:
步骤S1210、针对所述人脸图像进行人脸关键点检测,获得人脸区域图像和人脸关键点信息;
采用预训练至收敛状态的人脸检测模型对所述人脸图像进行人脸检测,获得人脸图像中的人脸矩形框信息。所述人脸矩形框可对所述人脸图像中人脸部分的位置和尺寸进行标定,其标定的结果可由一个带有四个坐标元素的集合表示,如Sroi。其后,根据所述集合从所述人脸图像中框选出对应的区域图像,即获得人脸区域图像。所述人脸区域图像完整包含人脸部分,去除了人脸图像中其他非人脸区域的冗余部分。
Sroi={x1,y1,x2,y2}
其中x1和y1表示检测出的人脸部分左上角的像素坐标,x2和y2表示人脸部分的右下角像素坐标。
采用预训练至收敛状态的人脸关键点检测模型对上述获得的人脸区域图像进行检测,获取人脸关键点信息。所述人脸关键点能够表征人脸面部的关键区域位置,如眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。所述人脸关键点的所有结果可表示为一个点的集合Ln。其中,n表示人脸关键点的个数,其个数的确定可由相关技术人员根据实际需求而设定,可为5、30、68、106、240等,在本申请的一个实施例中其数目的确定不受限。
Ln={(x1,y1),(x2,y2),…,(xn,yn)}
所述人脸检测模型和人脸关键点检测模型为优选神经网络模型实现,在实际应用中,可用相关技术中较为优秀的人脸检测模型和人脸关键点检测模型。
步骤S1220、对齐所述人脸关键点与标准人脸关键点,获得标准对齐参数,所述标准人脸关键点为标准三维人脸模型经二维投影获得的相应人脸关键点;
所述人脸区域图像中的人脸轮廓由于实际场景的多样性,其角度和尺寸不一,容易对后续三维人脸参数标定工作造成干扰。因此需要对所述人脸区域图像进行标准对齐。
在获得人脸区域图像中的人脸关键点之后,同样从标准三维人脸模型投影到二维平面后的标准人脸图像中检测人脸关键点,从而获得标准人脸关键点。所述标准三维人脸模型可由相关技术人员预先设定。以所述标准人脸关键点的相对位置、尺度、角度为标准,对从所述人脸区域图像中检测得到的人脸关键点进行对齐,获得相对应的标准变换参数。所述对齐操作使用的方法不局限于某特定一种,可用PnP、最小二乘法等任意最小化方法,在本申请的一个实施例中采用PnP方法。所述标准变换参数包括平移变换参数和尺度变换参数。
步骤S1230、根据所述标准对齐参数对齐所述人脸区域图像。
根据所述标准变换参数,对所述人脸区域图像Sroi和人脸关键点Ln关进行标准变换。所述人脸区域图像经变换后调整其尺寸至预设大小,在本申请的一个实施例中,为224x224x3。通过上述操作,可获得对齐后的人脸区域图像。
值得说明的是,所述人脸关键点经标准变换后,在一个实施例中,可通过霍夫变换,求解其人脸区域图像对应的三维人脸模型的姿态信息。所述三维人脸模型的姿态信息包括俯仰角、横滚角和旋转角。
根据以上实施例可知,针对所述待处理对象进行人脸检测和人脸关键点检测,然后进行标准变换,可以排除位置偏移和尺度偏差所带来的干扰、以及非人脸区域部分的冗余信息的后续干扰。
在以上任意实施例的基础上,请参阅图5,所述采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,包括:
步骤S1410、采用所述三维人脸重建网络中的编码器针对所述人脸区域图像进行特征提取,获得人脸特征图;
在所述三维人脸重建网络的双线性建模层确定完参数化的三维人脸模型之后,采用预训练至收敛的编码器针对步骤S1200获得的所述人脸区域图像进行特征提取,获得人脸特征图。所述人脸特征图能够减少人脸图像中非人脸区域图像中冗余信息的干扰,从而更好的提取到人脸部分的语义信息。
所述编码器为优选神经网络模型实现,所述神经网络模型可选用多种现有技术中比较优秀的特征提取模型,包括但不限于:VGG16模型、VGG19模型、InceptionV3模型、Xception模型、MobileNet模型、AlexNet模型、LeNet模型、ZF_Net模型、ResNet18模型、ResNet34模型、ResNet_50模型、ResNet_101模型、ResNet_152模型等,诸如此类,均为成熟的特征提取模型。所述特征提取模型为已训练至收敛的神经网络模型,一个实施例中,采用在ImageNet大规模数据集上训练至收敛。
所述编码器的输出设定为特征图,在本申请的一个实施例中,所述编码器直接输出最后一层卷积层的特征图,称为人脸特征图。定义所述编码器的输入尺寸为N×C×H×W,输出尺寸为N×C′×H′×W′,其中N表示样本数目,C表示通道数,H和W表示预设的图像尺寸,C′表示特征数,H′×W′表示特征图尺寸。
步骤S1420、针对所述人脸特征图进行空间映射,获得所述双线性建模层中的参数系数;
该步骤将上述人脸特征图进行空间映射,获得所述三维人脸模型的参数系数以及用于三维渲染和二维投影的相关参数系数。
需要说明的是,所述空间映射包括语义空间映射和参数空间映射。进一步说明,所述语义空间映射将所述人脸特征图映射为人脸特征向量,所述人脸特征向量包含了人脸图像中的所有深度语义信息,是人脸身份语义信息、表情语义信息、纹理语义信息、光照语义信息、姿态语义信息、变换语义信息的综合表示。所述参数空间映射将所述人脸特征向量映射到对应参数子空间中,从而获得其对应参数的系数,所述参数空间包括人脸身份参数空间、表情参数空间、纹理参数空间、光照参数空间、姿态参数空间、变换参数空间。
将所述人脸特征图通过上述语义空间映射和参数空间映射,获得身份系数、表情系数、纹理系数、光照系数、姿态系数、变换系数。其中,身份系数和表情系数用于重建所述人脸区域图像的三维人脸模型;所述纹理系数、光照系数、姿态系数、变换系数用于三维渲染和二维投影。
从以上的实施例中,不难理解,所述三维人脸重建网络的参数映射层首先提取人脸区域图像中的人脸特征图,其后映射到语义空间中提取其语义特征向量,再将其分别映射到各个不同的参数空间中以期获得相应参数空间中的系数;能够充分利用人脸区域图像中的身份信息、表情信息、纹理信息、光照信息、姿态信息、变换信息,同时又不引入其他额外信息,达到了三维人脸重建与渲染投影的一体化建模的目的。
在以上任意实施例的基础上,请参阅图6,所述针对所述人脸特征图进行空间映射,获得所述双线性建模层中的参数系数,包括:
步骤S1421、所述人脸特征图进行语义空间映射,获得人脸特征向量;
所述人脸特征图为N×C′×H′×W′,其中N表示样本数目,C′表示特征数,H′×W′表示特征图尺寸。
针对所述人脸特征图x进行语义空间映射,一个实施例中,采用全局池化方式:
Fg(x)=gloabl_pooling(x)=x′[N,C‘]
该Fg(x)包含丰富的信息描述了该人脸的特征信息,包括且不限于身份信息、形状信息、纹理信息、光照信息、姿态信息及变换信息。
所述语义空间映射后的Fg(x)为一个特征向量,即人脸特征向量,用x′[N,C‘]表示。
步骤S1422、将所述人脸特征向量进行参数空间映射,获得所述双线性建模层中的参数系数。
进一步的,一个实施例中,设计相应数量的参数空间映射层将所述人脸特征向量映射到相应参数子空间中进行优化,获得相应参数的系数。
具体可表示为:
Fall(x)={σid(Fg(x)),σexp(Fg(x)),σtexture(Fg(x)),σlight(Fg(x)),σpose(Fg(x)),σtransition(Fg(x))}
其中σ(x)表示为可学习的映射函数:σ(x)=Wx+b,其中W表示可学习的权重,在不同参数子空间中随其映射关系不同而不同,b表示可学习的权重偏置,在不同参数子空间中随其映射关系不同而不同。这里σid表示身份系数的学习,同一个人应具备相似的系数表示,不同的人具备不同的系数表示,其参数尺寸可描述为[C′,79];σexp表示表情系数的学习,同样表情的人应当具备相似的系数,例如闭眼、张嘴、撇嘴等,不同表情的人应具备不同的系数,例如闭眼和张眼在特定形状中应当不一致,其参数尺寸可描述为[C′,46];σtexture表示纹理系数的学习,该系数用于建模真实纹理,其参数描述为[C′,79]。σlight用于当前面部光照的估计,其参数描述为[C′,27],代表27个球谐函数的基系数。σpose用于估计人脸的姿态,包含三个子参数yaw,pitch和roll,分别对应横滚,俯仰和旋转。σtransition用于估计人脸三维空间的变换,因此包含x,y,z三个轴的变换系数。
根据以上实施例的理解,所述三维人脸重建网络中基于双线性建模层的解耦建模,可以对身份信息和表情信息进行分离建模,有助于表情迁移的场景应用,带动相关产业中的表情生成应用发展。同时采用参数映射层中的空间映射,将人脸区域图像与三位人脸模型参数和渲染投影参数进行映射建模,充分利用输入人脸区域图像的特征信息,为参数系数的获取提供更方便有效的途径。
本申请的三维人脸重建网络,其输入为人脸区域图像,其输出为三维人脸模型。本申请中,针对所述三维人脸重建网络构建弱监督学习机制对应的框架,完成所述三维人脸重建网络的训练。如图7所示,其示出用于训练本申请的三维人脸重建网络的弱监督学习机制相对应的框架的原理示意图。所述三维人脸重建网络根据该框架实施训练。由此,在以上任意实施例的基础上,请参阅图8,所述三维人脸重建网络的训练过程,包括:
步骤S2100、获取预处理后的人脸影像数据的单个样本;
所述人脸影像数据指的是带有人脸部分的影像数据,该类影像数据可通过已授权的直播、点播等合法途径进行获取,一种实施例中,可以是视频流数据,其视频存储格式可多样,其包括但不局限于MP4、avi、rmvb、x264等。另一种实施例中,也可以是图像数据。所述影像数据内容可包括室内、室外、新闻媒体、体育娱乐等其他场景,其包括但不局限于自然场景。
所述影像数据的数据存储格式由于数据来源的多样而不一致,其包括但不限于RGB24、YUV444、YUV420等格式。为实现本申请中相关技术的自动化应用,将所述数据存储格式统一,一种实施例中,可将不同来源的影像数据转换为统一的YUV420格式。另一种实施例中,也可将不同来源的影像数据转换为统一的RGB24格式、或YUV444格式、或其他。上述预处理方式应用于本申请中相关技术方法的训练和应用,将多样的数据格式统一为一种以提升技术应用的效率同时又不会影响其性能方面。
所述预处理后的人脸影像数据中,无论是视频流数据还是图像数据,抽取其中一张张带有人脸部分的人脸图像作为单个样本供后续处理。
步骤S2200、获取所述单个样本中的人脸区域图像、人脸关键点和三维人脸模型姿态系数;
采用上述步骤S1200中相同的方式从所述单个样本中提取人脸区域图像、人脸关键点和三维人脸模型姿态系数。具体为:采用预训练至收敛状态的人脸检测模型检测所述单个样本,获得人脸矩形框信息,进一步获得人脸区域图像;然后采用预训练至收敛状态的人脸关键点检测模型检测所述人脸区域图像,获得人脸关键点信息;根据标准对齐参数,对齐所述人脸区域图像Sroi和所述人脸关键点信息Ln;最后在人脸关键点上采用霍夫变换计算获得三维人脸姿态信息Ypose。
需要说明的是,所述人脸区域图像用于作为所述三维人脸重建网络的输入,所述人脸关键点和三维人脸姿态信息用于计算损失值。
步骤S2300、采用所述三维人脸重建网络重建获得所述人脸区域图像的三维人脸模型,经渲染投影至二维中获得人脸重建图像;
采用所述三维人脸重建网络的双线性建模层进行身份信息和表情信息的解耦建模,采用所述三维人脸重建网络的参数映射层获取身份系数、表情系数、纹理系数、光照系数、姿态系数、变换系数。所述身份系数和表情系数用于重建获得所述人脸区域图像的三维人脸模型。
所述三维人脸模型的三维渲染和二维投影包括如下操作:进一步估计人脸表面纹理,预先假设人脸面部为朗伯曲面,采用球谐函数近似估计场景照明,则可结合人脸表面发现和皮肤纹理σtexture(Fg(x))来计算顶点的辐射度其中Φ表示球谐函数基函数。
其上便可完成所述三维人脸模型的三维渲染工作,随后进行人脸的相机系变换,利用姿态参数σpose(Fg(x))和变换参数σtransition(Fg(x)),结合相机透视模型对三维人脸进行平移和旋转变化,便可投影到二维平面中获得人脸顶点的所有投影点Lx,可表示为[Nv,2],其中2表示x,y平面坐标信息。需要说明的是,所述人脸投影已经完成从世界坐标系至像素坐标系的相关变换,其与标准人脸关键点的相关位置匹配。到此,完成三维人脸模型到二维平面中的投影,获得人脸重建图像。
假设输入的人脸区域图像为x,则三维人脸重建后进行渲染投影后的人脸重建图像可表示为:
R(x)=Render(Fid,Fexp,Fill,Falbedo,Fpose,Ftransition)
步骤S2400,根据所述人脸区域图像与所述人脸重建图像计算重建损失值,根据该重建损失值对所述三维人脸重建网络进行参数更新;
构造重建损失函数,计算获得所述人脸区域图像和所述人脸重建图像之间的误差。在一个实施例中,所述三维重建损失函数为四个子损失函数的加权之和:第一个子损失函数为感知损失函数,用于最小化所述人脸区域图像和所述人脸重建图像之间的感知误差;第二个子损失函数为光度损失函数,用于加强所述人脸区域图像和所述人脸重建图像之间形状及像素级别的对齐;第三个子损失函数为姿态损失函数,用于保证姿态具备较高准确性;第四个子损失函数为重投影损失函数,用于优化投影点的准确性。上述几个子损失值的加权和,即为当前迭代次数下所述三维人脸重建网络的重建损失值,即误差L(x)。
计算获得误差L(x)之后,可根据神经网络的反向传播机制进行相关权重的更新。
其更新的权重部分主要为所述三维人脸重建网络中的参数映射层中空间映射的权重,即语义空间映射构件和参数空间映射构件。
所述权重更新的方向为使得所述误差L(x)更小的方向。
步骤S2500、重复以上操作,直至预设终止条件触发而结束训练,获得所述三维人脸重建网络。
重复上述步骤,即:获得样本->获得人脸重建图像->计算误差->更新参数。直到训练条件达到预设终止条件即可终止训练,表明训练达到收敛。所述预设终止条件可由相关技术人员根据实际应用场景需求而设定,在一个实施例中,可以是迭代次数约束,即训练次数达到预设次数时终止训练,又一个实施例中,可以是损失值约束,即迭代训练过程中当所述重建损失值达到预设最小值时可终止训练。
根据以上实施例,不难理解,基于单张人脸图像的弱监督学习机制,能够大批量低成本地构造训练数据,从而有效减少训练样本的获取成本和标注成本,这对相关技术的快速研发提供了强大的动力。此外,该方法能够解耦获得人脸表情模型,用于表情迁移应用,如影视、动画及数字人等相关领域,具有很大的实际应用价值和商业价值。
在以上任意实施例的基础上,请参阅图9,所述根据所述对齐后的人脸区域图像与所述重建人脸图像计算重建损失值,包括:
步骤S2410、计算第一损失值,所述第一损失值用于最小化所述人脸区域图像与所述人脸重建图像之间的误差;
第一损失值是基于对所述人脸区域图像与所述人脸重建图像的深度感知之后计算获得。即:通过一个具有成熟感知能力的神经网络预先提取所述人脸区域图像与人脸重建图像的语义特征,然后基于所述语义特征计算相关损失值。
具体的,首先对人脸重建图像进行自监督建模,一个实施例中,引入预训练至收敛状态的人脸识别网络来提取所述人脸重建图像和所述人脸区域图像的顶层深度特征。需要说明的是,所述人脸识别网络可采用现有技术中成熟的优选神经网络模型,可选用但不限于VGGNet,FaceNet、ArcFaceNet等人脸识别模型,进行自监督训练。在本申请的实施例中,可采用ArcFaceNet网络,其效果更好。
定义人脸区域图像为x,重建后的人脸重建图像为R(x),人脸识别模型为E(x),所述感知损失函数可表示为:
通过上述相似度损失函数来约束网络模型使得重构人脸接近真实人脸,来优化表面纹理特征及光照参数等。
步骤S2420、计算第二损失值,所述第二损失值用于加强所述人脸区域图像与所述人脸重建图像之间形状及像素级别的对齐;
所述第一损失值隐式地约束了人脸特征层的近似关系,为进一步地加强形状及像素级别的对齐,增加第二损失值,以加强所述人脸区域图像与所述人脸重建图像之间形状及像素级别的对齐,其可表示为:
该约束具备较强的像素程度约束,因此,一个实施例中,给予一个较小的权重wphoto避免网络陷入局部解。
步骤S2430、计算第三损失值,所述第三损失值用于保证姿态具备较高准确性;
第一损失值对姿态进行隐式的约束和优化。为进一步保证姿态具备较高的准确性,计算第三损失值。一个实施例中,采用步骤S2200中的所述三维人脸模型姿态系数作为标记数据,使用L1范数损失进行数值约束及最小化:
Lpose=||σpose(Fg(x))-Ypose||1
其中,σpose(Fg(x))∈R3,为所述三维人脸重建网络前向推理中所获得的姿态系数,包括横滚角、俯仰角和旋转角,Ypose∈R3表示为步骤S2200中所获得的所述三维人脸模型姿态系数,也包括横滚角、俯仰角和旋转角。
步骤S2440、计算第四损失值,所述第四损失值用于优化二维投影中投影点的准确性;
为进一步优化人脸顶点网格建模的准确性,还可采用第四损失值进行模型约束。具体的,基于样本提取到的人脸关键点数据和三维人脸重建后进行三维渲染和二维投影后的重投影点来构建重投影误差约束。该顶点数目和二维人脸关键点检测数目一致。
由此约束投影点的准确性。
步骤S2450、计算重建损失值,所述重建损失值为第一损失值和第二损失值、第三损失值、第四损失值的加权融合。
根据上述步骤构建的四个子损失函数,进行加权融合。本申请的一个实施例中,完整的网络训练损失函数可表示为:
L(x)=wpercepLpercep(x,R(x))+Lphoto(x,R(x))+wposeLpose(x)+wprojLproj(x)
其中wpercep、wpose和wproj分别表示表示为第一损失值、第三损失值和第四损失值的权重。
根据以上的实施例,不难理解,基于第一损失值、第二损失值、第三损失值、第四损失值的加权融合重建损失值计算,能够更全面地约束所述三维人脸重建网络中获得的所有参数逼近真实标签值,同时基于单样本的损失计算与参数更新能够加速收敛,节约训练成本。
请参阅图10,根据本申请的一个方面提供的一种三维人脸重建装置,一个实施例中,包括图像获取模块1100、人脸检测模块1200、人脸建模模块1300、参数映射模块1400,其中,图像获取模块1100,设置为获取人脸影像数据,提取其中的人脸图像;人脸检测模块1200,设置为对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像;人脸建模模块1300,设置为采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;参数映射模块1400,设置为采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
在以上任意实施例的基础上,后于所述参数映射模块1400,包括:系数获取单元,设置为获取构成所述参数化的三维人脸模型所需的目标参数系数,其中包括预先指定的身份系数和预先指定的表情系数;表情迁移单元,设置为将所述目标参数系数迁移至相应数字人的三维人脸模型中,获得数字人的三维人脸模型;渲染投影单元,设置为将所述数字人的三维人脸模型渲染投影到二维图像空间,获得数字人图像。
在以上任意实施例的基础上,所述人脸检测模块1200,包括:人脸检测单元,设置为针对所述人脸图像进行人脸关键点检测,获得人脸区域图像和人脸关键点信息;标准对齐单元,设置为对齐所述人脸关键点与标准人脸关键点,获得标准对齐参数,所述标准人脸关键点为标准三维人脸模型经二维投影获得的相应人脸关键点;人脸对齐单元,设置根据所述标准对齐参数对齐所述人脸区域图像。
在以上任意实施例的基础上,所述建模投影模块1400,包括:特征编码单元,设置为采用所述三维人脸重建网络中的编码器针对所述人脸区域图像进行特征提取,获得人脸特征图;空间映射单元,设置为针对所述人脸特征图进行空间映射,获得所述双线性建模层中的参数系数。
在以上任意实施例的基础上,所述空间映射单元,包括:语义空间映射子单元,设置为将所述人脸特征图进行语义空间映射,获得人脸特征向量;参数空间映射子单元,设置为将所述人脸特征向量进行参数空间映射,获得所述双线性建模层中的参数系数。
在以上任意实施例的基础上,所述网络训练模块,包括:样本获取单元,设置为获取预处理后的人脸影像数据的单个样本;数据获取单元,设置为获取所述单个样本中的人脸区域图像、人脸关键点和三维人脸模型姿态系数;重建图像单元,设置为采用所述三维人脸重建网络重建获得所述人脸区域图像的三维人脸模型,经渲染投影至二维中获得人脸重建图像;损失优化单元,设置为根据所述人脸区域图像与所述人脸重建图像计算重建损失值,根据该重建损失值对所述三维人脸重建网络进行参数更新;训练重复单元,设置为重复以上操作,直至预设终止条件触发而结束训练,获得所述三维人脸重建网络。
在以上任意实施例的基础上,所述损失优化单元,包括:第一损失子单元,设置为计算第一损失值,所述第一损失值用于最小化所述人脸区域图像与所述人脸重建图像之间的误差;第二损失子单元,设置为计算第二损失值,所述第二损失值用于加强所述人脸区域图像与所述人脸重建图像之间形状及像素级别的对齐;第三损失子单元,设置为计算第三损失值,所述第三损失值用于保证姿态具备较高准确性;第四损失子单元,设置为计算第四损失值,所述第四损失值用于优化二维投影中投影点的准确性;损失融合子单元,设置为计算重建损失值,所述重建损失值为第一损失值和第二损失值、第三损失值、第四损失值的加权融合。
本申请的另一实施例还提供一种三维人脸重建设备。如图11所示,三维人脸重建设备的内部结构示意图。该三维人脸重建设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该三维人脸重建设备的计算机可读的非易失性可读存储介质,存储有操作系统、数据库和计算机可读指令,数据库中可存储有信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种三维人脸重建方法。
该三维人脸重建设备的处理器用于提供计算和控制能力,支撑整个三维人脸重建设备的运行。该三维人脸重建设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的三维人脸重建方法。该三维人脸重建设备的网络接口用于与终端连接通信。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的三维人脸重建设备的限定,具体的三维人脸重建设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图10中的各个模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于实现用户终端或服务器之间的数据传输。本实施方式中的非易失性可读存储介质中存储有本申请的三维人脸重建装置中执行所有模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有模块的功能。
本申请还提供一种存储有计算机可读指令的非易失性可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的三维人脸重建方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解,实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请可以实现三维人脸重建,所述三维人脸重建方法采用双线性建模层针对人脸中的身份信息和表情信息进行解耦建模,从而有效分离出表情参数,实现表情迁移,可极大地促进相关直播、影视等行业地应用和发展;其次,所述方法的训练方式基于单张图像的弱监督学习,可极大的减少训练数据的获取成本和标注成本,有助于规模应用。
Claims (11)
1.一种三维人脸重建方法,其特征在于,包括:
获取人脸影像数据,提取其中的人脸图像;
对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像;
采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;
采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
2.根据权利要求1所述的三维人脸重建方法,其特征在于,采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数之后,包括:
获取构成所述参数化的三维人脸模型所需的目标参数系数,其中包括预先指定的身份系数和预先指定的表情系数;
将所述目标参数系数迁移至相应数字人的三维人脸模型中,获得数字人的三维人脸模型;
将所述数字人的三维人脸模型渲染投影到二维图像空间,获得数字人图像。
3.根据权利要求1所述的三维人脸重建方法,其特征在于,对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像,包括:
针对所述人脸图像进行人脸关键点检测,获得人脸区域图像和人脸关键点信息;
对齐所述人脸关键点与标准人脸关键点,获得标准对齐参数,所述标准人脸关键点为标准三维人脸模型经二维投影获得的相应人脸关键点;
根据所述标准对齐参数对齐所述人脸区域图像。
4.根据权利要求1所述的三维人脸重建方法,其特征在于,采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,包括:
采用所述三维人脸重建网络中的编码器针对所述人脸区域图像进行特征提取,获得人脸特征图;
针对所述人脸特征图进行空间映射,获得所述双线性建模层中的参数系数。
5.据权利要求4所述的三维人脸重建方法,其特征在于,针对所述人脸特征图进行空间映射,获得所述双线性建模层中的参数系数,包括:
将所述人脸特征图进行语义空间映射,获得人脸特征向量;
将所述人脸特征向量进行参数空间映射,获得所述双线性建模层中的参数系数。
6.据权利要求1至5中任意一项所述的三维人脸重建方法,其特征在于,所述三维人脸重建网络的训练过程,包括:
获取预处理后的人脸影像数据的单个样本;
获取所述单个样本中的人脸区域图像、人脸关键点和三维人脸模型姿态系数;
采用所述三维人脸重建网络重建获得所述人脸区域图像的三维人脸模型,经渲染投影至二维中获得人脸重建图像;
根据所述人脸区域图像与所述人脸重建图像计算重建损失值,根据该重建损失值对所述三维人脸重建网络进行参数更新;
重复以上操作,直至预设终止条件触发而结束训练,获得所述三维人脸重建网络。
7.据权利要求6所述的三维人脸重建方法,其特征在于,所述根据所述对齐后的人脸区域图像与所述重建人脸图像计算重建损失值,包括:
计算第一损失值,所述第一损失值用于最小化所述人脸区域图像与所述人脸重建图像之间的误差;
计算第二损失值,所述第二损失值用于加强所述人脸区域图像与所述人脸重建图像之间形状及像素级别的对齐;
计算第三损失值,所述第三损失值用于保证姿态具备较高准确性;
计算第四损失值,所述第四损失值用于优化二维投影中投影点的准确性;
计算重建损失值,所述重建损失值为第一损失值和第二损失值、第三损失值、第四损失值的加权融合。
8.一种三维人脸重建装置,其特征在于,包括:
图像获取模块,设置为获取人脸影像数据,提取其中的人脸图像;
人脸检测模块,设置为对所述人脸图像实施关键点检测,获得其中人脸关键点所在区域的人脸区域图像;
人脸建模模块,设置为采用预训练至收敛状态的三维人脸重建网络的双线性建模层针对所述人脸区域图像进行人脸身份和人脸表情的双线性建模,获得参数化的三维人脸模型;
参数映射模块,设置为采用所述三维人脸重建网络的参数映射层将所述人脸区域图像映射为所述参数化的三维人脸模型中相对应的参数系数,所述参数系数包括与所述人脸身份对应的身份系数和与所述人脸表情对应的表情系数。
9.一种三维人脸重建设备,包括中央处理器和存储器,其特征在于,所述中央处理器设置为调用运行存储于所述存储器中的计算机程序以执行如权利要求1至8中任意一项所述的方法的步骤。
10.一种非易失性可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至8中任意一项所述的方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
11.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1至8中任意一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210969989.1A CN115330947A (zh) | 2022-08-12 | 2022-08-12 | 三维人脸重建方法及其装置、设备、介质、产品 |
PCT/CN2023/111005 WO2024032464A1 (zh) | 2022-08-12 | 2023-08-03 | 三维人脸重建方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210969989.1A CN115330947A (zh) | 2022-08-12 | 2022-08-12 | 三维人脸重建方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115330947A true CN115330947A (zh) | 2022-11-11 |
Family
ID=83923644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210969989.1A Pending CN115330947A (zh) | 2022-08-12 | 2022-08-12 | 三维人脸重建方法及其装置、设备、介质、产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115330947A (zh) |
WO (1) | WO2024032464A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690327A (zh) * | 2022-11-16 | 2023-02-03 | 广州大学 | 一种空频解耦的弱监督三维人脸重建方法 |
CN116228763A (zh) * | 2023-05-08 | 2023-06-06 | 成都睿瞳科技有限责任公司 | 用于眼镜打印的图像处理方法及系统 |
CN116993948A (zh) * | 2023-09-26 | 2023-11-03 | 粤港澳大湾区数字经济研究院(福田) | 一种人脸三维重建方法、系统及智能终端 |
CN117152352A (zh) * | 2023-08-11 | 2023-12-01 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型训练方法及装置 |
CN117237547A (zh) * | 2023-11-15 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
WO2024032464A1 (zh) * | 2022-08-12 | 2024-02-15 | 广州市百果园信息技术有限公司 | 三维人脸重建方法及其装置、设备、介质、产品 |
CN117593447A (zh) * | 2023-04-25 | 2024-02-23 | 上海任意门科技有限公司 | 基于2d关键点的三维人脸构建方法、系统、装置及介质 |
WO2024108552A1 (zh) * | 2022-11-25 | 2024-05-30 | 广州酷狗计算机科技有限公司 | 虚拟模型的面部驱动方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974902B (zh) * | 2024-02-26 | 2024-07-02 | 杭州万物互云科技有限公司 | 一种数字三维人脸建模方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7133048B2 (en) * | 2004-06-30 | 2006-11-07 | Mitsubishi Electric Research Laboratories, Inc. | Variable multilinear models for facial synthesis |
CN103093490B (zh) * | 2013-02-02 | 2015-08-26 | 浙江大学 | 基于单个视频摄像机的实时人脸动画方法 |
CN114241102B (zh) * | 2021-11-11 | 2024-04-19 | 清华大学 | 基于参数化模型的人脸细节重建和编辑方法 |
CN114742954A (zh) * | 2022-04-27 | 2022-07-12 | 南京大学 | 一种构建大规模多样化人脸图片和模型数据对的方法 |
CN115330947A (zh) * | 2022-08-12 | 2022-11-11 | 百果园技术(新加坡)有限公司 | 三维人脸重建方法及其装置、设备、介质、产品 |
-
2022
- 2022-08-12 CN CN202210969989.1A patent/CN115330947A/zh active Pending
-
2023
- 2023-08-03 WO PCT/CN2023/111005 patent/WO2024032464A1/zh unknown
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024032464A1 (zh) * | 2022-08-12 | 2024-02-15 | 广州市百果园信息技术有限公司 | 三维人脸重建方法及其装置、设备、介质、产品 |
CN115690327A (zh) * | 2022-11-16 | 2023-02-03 | 广州大学 | 一种空频解耦的弱监督三维人脸重建方法 |
WO2024108552A1 (zh) * | 2022-11-25 | 2024-05-30 | 广州酷狗计算机科技有限公司 | 虚拟模型的面部驱动方法、装置、设备及存储介质 |
CN117593447A (zh) * | 2023-04-25 | 2024-02-23 | 上海任意门科技有限公司 | 基于2d关键点的三维人脸构建方法、系统、装置及介质 |
CN116228763A (zh) * | 2023-05-08 | 2023-06-06 | 成都睿瞳科技有限责任公司 | 用于眼镜打印的图像处理方法及系统 |
CN117152352A (zh) * | 2023-08-11 | 2023-12-01 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型训练方法及装置 |
CN116993948A (zh) * | 2023-09-26 | 2023-11-03 | 粤港澳大湾区数字经济研究院(福田) | 一种人脸三维重建方法、系统及智能终端 |
CN116993948B (zh) * | 2023-09-26 | 2024-03-26 | 粤港澳大湾区数字经济研究院(福田) | 一种人脸三维重建方法、系统及智能终端 |
CN117237547A (zh) * | 2023-11-15 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
CN117237547B (zh) * | 2023-11-15 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024032464A1 (zh) | 2024-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115330947A (zh) | 三维人脸重建方法及其装置、设备、介质、产品 | |
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
EP3992918A1 (en) | Method for generating 3d expression base, voice interactive method, apparatus and medium | |
WO2021175050A1 (zh) | 三维重建方法和三维重建装置 | |
WO2021052375A1 (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
US20150054825A1 (en) | Method for image and video virtual hairstyle modeling | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
CN110458924B (zh) | 一种三维脸部模型建立方法、装置和电子设备 | |
US20200118333A1 (en) | Automated costume augmentation using shape estimation | |
Kang et al. | Competitive learning of facial fitting and synthesis using uv energy | |
CN117557714A (zh) | 三维重建方法、电子设备及可读存储介质 | |
CN115222917A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN115496862A (zh) | 基于spin模型的实时三维重建方法和系统 | |
CN111862278A (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
WO2021151380A1 (en) | Method for rendering virtual object based on illumination estimation, method for training neural network, and related products | |
CN114266693A (zh) | 图像处理方法、模型生成方法及设备 | |
CN116363320B (zh) | 重建模型的训练和三维模型重建方法、装置、设备及介质 | |
CN117274446A (zh) | 一种场景视频处理方法、装置、设备及存储介质 | |
CN117475105A (zh) | 一种基于单目图像的开放世界三维场景重建及感知方法 | |
CN115775300A (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
CN116452715A (zh) | 动态人手渲染方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |