CN115861525A - 基于参数化模型的多视图人脸重建方法 - Google Patents
基于参数化模型的多视图人脸重建方法 Download PDFInfo
- Publication number
- CN115861525A CN115861525A CN202210607306.8A CN202210607306A CN115861525A CN 115861525 A CN115861525 A CN 115861525A CN 202210607306 A CN202210607306 A CN 202210607306A CN 115861525 A CN115861525 A CN 115861525A
- Authority
- CN
- China
- Prior art keywords
- face
- model
- loss
- parameters
- reconstruction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及一种基于参数化模型的多视图人脸重建方法,包括:步骤S1:获取若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;步骤S3:将mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;步骤S4:将参数拟合到参数化人脸模型,生成对应的三维人脸模型;步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。本发明能够恢复出更加逼真的人脸模型,有效提高了复杂场景下的人脸质量。
Description
技术领域
本发明涉及人脸重建领域,具体涉及一种基于参数化模型的多视图人脸重建方法。
背景技术
三维人脸重建技术在人脸识别、人脸动画、虚拟现实、3D游戏和医疗等领域都起着关键作用。目前存在以下问题:
首先,人脸表情的多样性。人脸具有丰富的表情信息,心理学家最初认为人类有六个基本表情,即由生气、喜悦、震惊、悲伤、恐惧和厌恶组成。此外,还有复合的15种表情。人脸在不同表情下,人脸关键点和三维重建点位置也会相应发生变化。
第二,物体的遮挡。人们可能会佩戴首饰、眼镜以及自身的毛发的影响,遮挡部分五官和面部轮廓信息,这对恢复三维人脸形状特征带来一定难度。
第三,人脸的大姿态。人脸的关键点标注会产生两种不同形式:第一种是可见的人脸边缘关键点,这种点的位置和语义信息会跟着姿态发生变化,并且所有的人脸关键点都是可见的。第二种是伪3D透视标签,由于人脸自遮挡会存在部分的关键点是不可见的点,容易导致标记人脸信息存在一定误差,且无法提取这部分的特征,这样三维人脸重建任务就变得富有挑战。
第四,人脸周围环境的干扰。在自然环境下,人脸图片的背景信息会对人脸信息产生影响,而且还可能受到光照不均匀导致人脸纹理信息会发生缺失,导致预测的三维点精度下降。
第五,目前三维人脸数据集不足,主要分为采用合成数据和使用弱监督或者无监督学习的方式。使用合成数据在一定程度上扩大了训练集的数量,但合成人脸图片和真实人脸图片之间往往出现了很大差距,导致模型的泛化能力明显减弱,因此在真实的人脸图片上训练效果较差。现在比较多的是弱监督或者无监督的方法进行训练,通过人脸关键点或无标签的二维人脸图片回归人脸参数。
发明内容
有鉴于此,本发明的目的在于提供一种基于参数化模型的多视图人脸重建方法,能够恢复出更加逼真的人脸模型,有效提高了复杂场景下的人脸质量。
为实现上述目的,本发明采用如下技术方案:
一种基于参数化模型的多视图人脸重建方法,包括以下步骤:
步骤S1:获取同一个人的若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;
步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;
步骤S3:将步骤S2得到的mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;
步骤S4:将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型,生成对应的三维人脸模型;
步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;
步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。
进一步的,所述步骤S1具体为:获取同一个人的若干张三个不同视角二维人脸图像并处理,所述不同视角包括正脸和左侧脸、右侧脸;并采用采用人脸关键点检测器Dlib算法进行68个面部特征点检测和跟踪。
进一步的,所述步骤S3具体为:
步骤S31:将步骤S2得到的mask裁图输入到Resnet网络中,对输入图片采用通道数拼接方式送入网络,共享网络权重参数,输出对应的3张特征图;
步骤S32:将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数;另一方面,把3张特征图进行拼接融合,再通过一个全连接层输出同一个人的形状、表情参数.
进一步的,所述参数化人脸模型是FLAME参数化模型,由标准的线性混合蒙皮和混合形状两部分构成。
进一步的,所述FLAME参数化模型采用的标准网格模型网格顶点数为N,网格顶点坐标采用函数M(β,θ,ψ):R|β|×|θ|×|ψ|→R3N来表示,其中β∈R|β|为形状参数,θ∈R|θ|为姿态参数,ψ∈R|ψ|为表情参数,具体的,FLAME参数化模型写成如下形式:
M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω);
其中W(T,J,θ,ω)表示标准的线性蒙皮函数,它将模板网络T沿J∈R3K进行变换θ,并使用蒙皮权重ω对变换结果进行平滑;关节J的位置与β,也即头部模型的形状相关;模板网络的表示形式为其中/>表示平均网格,后面三项分别表示形状项,表情项,姿态项。
进一步的,所述FLAME参数化模型的姿态混合函数中还设有一个姿态系数,姿态系数能够分解成旋转矩阵和平移矩阵,方便之后求解相对姿态,在光度一致性损失计算时使用相对姿态;根据平均的人脸模型乘以旋转矩阵,加上平移矩阵,生成对应姿态下的人脸模型。。
进一步的,所述步骤S5采用可微分渲染器,进行纹理渲染,具体为:
Ir=R(M,B,c)
其中,R表示渲染函数,由于较低的mesh分辨率的限制。
进一步的,所述的损失计算包括:人脸关键点损失Llmk、眼睛闭合损失Leye、光度一致性损失Lphoto、人脸识别损失Lid以及正则化损失Lreg,具体如下:
人脸关键点损失Llmk:计算68个人脸关键点位置与FLAME模型表面上相对应点的距离:
眼睛闭合损失Leye:计算上下眼皮相对偏移量
上下眼皮关键点投影到FLAME表面Mi和Mj上相应坐标的偏移量;E是上下眼皮标志对的集合;
光度一致性损失Lphoto:
人脸识别损失Lid:对于重建出的人脸是否为同一个体时,采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性
正则化损失Lreg:
本发明与现有技术相比具有以下有益效果:
1、本发明对于人脸大角度姿态产生的自遮挡问题,参数化模型与多视图人脸图像匹配时,把每幅图像的模型参数与形变模型建立联系,为增强图像之间的几何约束性,采用光度一致性进行约束,获取最终匹配后的三维人脸模型;
2、本发明对于重建出的人脸是否为同一个体时,利用VGG-Face2数据集预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性,具有更强的模型鲁棒性。
附图说明
图1是本发明多视图人脸重建流程图
图2是本发明一实施例中人脸关键点示意图;
图3是本发明一实施例中FLAME参数化模型。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于参数化模型的多视图人脸重建方法,包括以下步骤:
步骤S1:获取同一个人的若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;
步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;
步骤S3:将步骤S2得到的mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;
步骤S4:将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型,生成对应的三维人脸模型;
步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;
步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。
在本实施例中,多张二维人脸图片是在同一环境下拍摄的多张RGB图像,不同的环境条件下拍摄出的图片,光照差别较大,重建出人脸纹理贴图时颜色会发生异常。其中,对图像数量没有严格限制,但一般要求正脸和左侧脸、右侧脸三张图像,因为这三张人脸图像基本完整覆盖了人脸区域。
所述的68个人脸关键点能够约束人脸的基本形状,并且能够定位人脸在图片中的一个大致的位置信息;
在本实施例中,resnet网络使用的是resnet50的网络结构,对输入图片采用通道数拼接方式送入网络,共享网络权重参数,输出对应的3张特征图。将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数;另一方面,把3张特征图进行拼接融合,再通过一个全连接层输出同一个人的形状、表情参数。
将生成的100个形状参数、50个表情参数、50个纹理参数、6个姿态参数、3个相机参数和27个光照参数拟合到一个FLAME参数化模型上。
在本实施例中,优选的,参数化人脸模型采用的是FLAME参数化模型,由标准的线性混合蒙皮和混合形状两部分构成,能够对整个头部区域包括脸部、后脑勺和颈部都进行了重建。FLAME模型采用的标准网格模型网格顶点数为N=5023。FLAME模型的网格顶点坐标可用函数M(β,θ,ψ):R|β|×|θ|×|ψ|→R3N来表示,其中β∈R|β|为形状参数,θ∈R|θ|为姿态参数,ψ∈R|ψ|为表情参数。
FLAME参数化模型可以写成如下形式:M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω),其中W(T,J,θ,ω)表示标准的线性蒙皮函数,它将模板网络T沿J∈R3K进行变换θ,并使用蒙皮权重ω对变换结果进行平滑。关节J的位置与β,也即头部模型的形状相关。模板网络的表示形式为其中/>表示平均网格,其他分别表示形状项,表情项,姿态项。
姿态项:R(θ):R|θ|→R9K表示把姿态向量θ∈R3K+3展开为矩阵形式,去掉全局旋转量,从而得到维度为9K的向量。姿态项的函数表示如公式所示:其中Rn(θ)和Rn(θ*)分别表示R(θ)和R(θ*)的第n个元素。P=[P1,…,P9K]∈R3N×9K。这里的姿态系数包括全局旋转、用于头部绕颈部旋转、下颌旋转和用于每个眼球的旋转。
在FLAME模型的姿态混合函数中多增加一个姿态系数,这个姿态系数能够分解成旋转矩阵和平移矩阵,方便之后求解相对姿态,在光度一致性损失计算时使用相对姿态。根据平均的人脸模型乘以旋转矩阵,加上平移矩阵,生成对应姿态下的人脸模型。
在本实施例中,外观模型:FLAME没有外观模型,因此将Basel Face模型的PCA空间转换为FLAME的UV空间。
相机模型:通过相机模型可将三维人脸顶点投影到二维平面上。本发明采用的是正交投影矩阵:V=sП(Mi)+t,其中M表示顶点,П表示2*3的正交投影矩阵[[1,0,0],[0,1,0]],s表示缩放因子,t表示平移向量。
在本实施例中,纹理渲染,具体为:
Ir=R(M,B,c)
其中,R表示渲染函数,由于较低的mesh分辨率的限制,FLAME模型的中频细节容易丢失。
所述的损失计算包括:人脸关键点损失(Llmk)、眼睛闭合损失(Leye)、光度一致性损失(Lphoto)、人脸识别损失(Lid)以及正则化损失(Lreg)。
Lloss=Llmk+Leye+Lphoto+Lid+Lreg
人脸关键点损失Llmk:计算68个人脸关键点位置与FLAME模型表面上相对应点的距离。
眼睛闭合损失Leye:计算上下眼皮相对偏移量。
光度一致性损失Lphoto:对于人脸大角度姿态产生的自遮挡问题,参数化模型与多视图人脸图像匹配时,把每幅图像的模型参数与形变模型建立联系,为增强图像之间的几何约束性,采用光度一致性进行约束,获取最终匹配后的三维人脸模型。
人脸识别损失Lid:对于重建出的人脸是否为同一个体时,采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性。
正则化损失Lreg:防止形状、表情、光照参数出现过拟合。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于参数化模型的多视图人脸重建方法,其特征在于,包括以下步骤:
步骤S1:获取同一个人的若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;
步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;
步骤S3:将步骤S2得到的mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;
步骤S4:将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型,生成对应的三维人脸模型;
步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;
步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。
2.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述步骤S1具体为:获取同一个人的若干张三个不同视角二维人脸图像并处理,所述不同视角包括正脸和左侧脸、右侧脸;并采用采用人脸关键点检测器Dlib算法进行68个面部特征点检测和跟踪。
3.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述步骤S3具体为:
步骤S31:将步骤S2得到的mask裁图输入到Resnet网络中,对输入图片采用通道数拼接方式送入网络,共享网络权重参数,输出对应的3张特征图;
步骤S32:将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数;另一方面,把3张特征图进行拼接融合,再通过一个全连接层输出同一个人的形状、表情参数。
4.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述参数化人脸模型是FLAME参数化模型,由标准的线性混合蒙皮和混合形状两部分构成。
5.根据权利要求4所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述FLAME参数化模型采用的标准网格模型网格顶点数为N,网格顶点坐标采用函数M(β,θ,ψ):R|β|×|θ|×|ψ|→R3N来表示,其中β∈R|β|为形状参数,θ∈R|θ|为姿态参数,ψ∈R|ψ|为表情参数,具体的,FLAME参数化模型写成如下形式:
M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω);
6.根据权利要求5所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述FLAME参数化模型的姿态混合函数中还设有一个姿态系数,姿态系数能够分解成旋转矩阵和平移矩阵,方便之后求解相对姿态,在光度一致性损失计算时使用相对姿态;根据平均的人脸模型乘以旋转矩阵,加上平移矩阵,生成对应姿态下的人脸模型。。
7.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述步骤S5采用可微分渲染器,进行纹理渲染,具体为:
Ir=R(M,B,c)
其中,R表示渲染函数,由于较低的mesh分辨率的限制。
8.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述的损失计算包括:人脸关键点损失Llmk、眼睛闭合损失Leye、光度一致性损失Lphoto、人脸识别损失Lid以及正则化损失Lreg,具体如下:
人脸关键点损失Llmk:计算68个人脸关键点位置与FLAME模型表面上相对应点的距离:
眼睛闭合损失Leye:计算上下眼皮相对偏移量
上下眼皮关键点投影到FLAME表面Mi和Mj上相应坐标的偏移量;E是上下眼皮标志对的集合;
光度一致性损失Lphoto:
人脸识别损失Lid:对于重建出的人脸是否为同一个体时,采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性
正则化损失Lreg:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210607306.8A CN115861525A (zh) | 2022-05-31 | 2022-05-31 | 基于参数化模型的多视图人脸重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210607306.8A CN115861525A (zh) | 2022-05-31 | 2022-05-31 | 基于参数化模型的多视图人脸重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115861525A true CN115861525A (zh) | 2023-03-28 |
Family
ID=85660150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210607306.8A Pending CN115861525A (zh) | 2022-05-31 | 2022-05-31 | 基于参数化模型的多视图人脸重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115861525A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091676A (zh) * | 2023-04-13 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 虚拟对象的面部渲染方法及点云特征提取模型的训练方法 |
-
2022
- 2022-05-31 CN CN202210607306.8A patent/CN115861525A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091676A (zh) * | 2023-04-13 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 虚拟对象的面部渲染方法及点云特征提取模型的训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pighin et al. | Modeling and animating realistic faces from images | |
US7356447B2 (en) | Facial image processing methods and systems | |
US6950104B1 (en) | Methods and systems for animating facial features, and methods and systems for expression transformation | |
US6532011B1 (en) | Method of creating 3-D facial models starting from face images | |
Wu et al. | Interactive normal reconstruction from a single image | |
CN108564619B (zh) | 一种基于两张照片的真实感三维人脸重建方法 | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
Pighin et al. | Realistic facial animation using image-based 3D morphing | |
CN114450719A (zh) | 人体模型重建方法、重建系统及存储介质 | |
Tarini et al. | Texturing faces | |
CN115861525A (zh) | 基于参数化模型的多视图人脸重建方法 | |
Lee et al. | Cloning and Aging in a VR Family | |
Jeong et al. | Automatic generation of subdivision surface head models from point cloud data | |
Lee et al. | From real faces to virtual faces: problems and solutions | |
Casati et al. | Approximate Reconstruction of 3D Scenes From Bas-Reliefs | |
US20220309733A1 (en) | Surface texturing from multiple cameras | |
Erdem | A new method for generating 3-D face models for personalized user interaction | |
Li | Image-Based 3D Reconstruction and Articulation of the Human Body Shape and Its Use in the Creation of Virtual Fitting Rooms | |
Vanakittistien et al. | Game‐ready 3D hair model from a small set of images | |
Zhang et al. | Anthropometric modeling of faces from range scans | |
Zhang | Modeling of human faces with parameterized local shape morphing | |
Zhang et al. | Reconstruction of Animatable Personalized 3D Faces by Adaptation-based Modeling. | |
Wang et al. | Face synthesis | |
Hillman et al. | Hybrid Facial Model Fitting using Active Appearance Models and Contour-Based Facial Feature Location | |
Wu | From dense photometric stereo to interactive three-dimensional markup |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |