CN115861525A - 基于参数化模型的多视图人脸重建方法 - Google Patents

基于参数化模型的多视图人脸重建方法 Download PDF

Info

Publication number
CN115861525A
CN115861525A CN202210607306.8A CN202210607306A CN115861525A CN 115861525 A CN115861525 A CN 115861525A CN 202210607306 A CN202210607306 A CN 202210607306A CN 115861525 A CN115861525 A CN 115861525A
Authority
CN
China
Prior art keywords
face
model
loss
parameters
reconstruction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210607306.8A
Other languages
English (en)
Inventor
陈俊
林丽皇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210607306.8A priority Critical patent/CN115861525A/zh
Publication of CN115861525A publication Critical patent/CN115861525A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种基于参数化模型的多视图人脸重建方法,包括:步骤S1:获取若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;步骤S3:将mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;步骤S4:将参数拟合到参数化人脸模型,生成对应的三维人脸模型;步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。本发明能够恢复出更加逼真的人脸模型,有效提高了复杂场景下的人脸质量。

Description

基于参数化模型的多视图人脸重建方法
技术领域
本发明涉及人脸重建领域,具体涉及一种基于参数化模型的多视图人脸重建方法。
背景技术
三维人脸重建技术在人脸识别、人脸动画、虚拟现实、3D游戏和医疗等领域都起着关键作用。目前存在以下问题:
首先,人脸表情的多样性。人脸具有丰富的表情信息,心理学家最初认为人类有六个基本表情,即由生气、喜悦、震惊、悲伤、恐惧和厌恶组成。此外,还有复合的15种表情。人脸在不同表情下,人脸关键点和三维重建点位置也会相应发生变化。
第二,物体的遮挡。人们可能会佩戴首饰、眼镜以及自身的毛发的影响,遮挡部分五官和面部轮廓信息,这对恢复三维人脸形状特征带来一定难度。
第三,人脸的大姿态。人脸的关键点标注会产生两种不同形式:第一种是可见的人脸边缘关键点,这种点的位置和语义信息会跟着姿态发生变化,并且所有的人脸关键点都是可见的。第二种是伪3D透视标签,由于人脸自遮挡会存在部分的关键点是不可见的点,容易导致标记人脸信息存在一定误差,且无法提取这部分的特征,这样三维人脸重建任务就变得富有挑战。
第四,人脸周围环境的干扰。在自然环境下,人脸图片的背景信息会对人脸信息产生影响,而且还可能受到光照不均匀导致人脸纹理信息会发生缺失,导致预测的三维点精度下降。
第五,目前三维人脸数据集不足,主要分为采用合成数据和使用弱监督或者无监督学习的方式。使用合成数据在一定程度上扩大了训练集的数量,但合成人脸图片和真实人脸图片之间往往出现了很大差距,导致模型的泛化能力明显减弱,因此在真实的人脸图片上训练效果较差。现在比较多的是弱监督或者无监督的方法进行训练,通过人脸关键点或无标签的二维人脸图片回归人脸参数。
发明内容
有鉴于此,本发明的目的在于提供一种基于参数化模型的多视图人脸重建方法,能够恢复出更加逼真的人脸模型,有效提高了复杂场景下的人脸质量。
为实现上述目的,本发明采用如下技术方案:
一种基于参数化模型的多视图人脸重建方法,包括以下步骤:
步骤S1:获取同一个人的若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;
步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;
步骤S3:将步骤S2得到的mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;
步骤S4:将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型,生成对应的三维人脸模型;
步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;
步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。
进一步的,所述步骤S1具体为:获取同一个人的若干张三个不同视角二维人脸图像并处理,所述不同视角包括正脸和左侧脸、右侧脸;并采用采用人脸关键点检测器Dlib算法进行68个面部特征点检测和跟踪。
进一步的,所述步骤S3具体为:
步骤S31:将步骤S2得到的mask裁图输入到Resnet网络中,对输入图片采用通道数拼接方式送入网络,共享网络权重参数,输出对应的3张特征图;
步骤S32:将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数;另一方面,把3张特征图进行拼接融合,再通过一个全连接层输出同一个人的形状、表情参数.
进一步的,所述参数化人脸模型是FLAME参数化模型,由标准的线性混合蒙皮和混合形状两部分构成。
进一步的,所述FLAME参数化模型采用的标准网格模型网格顶点数为N,网格顶点坐标采用函数M(β,θ,ψ):R|β|×|θ|×|ψ|→R3N来表示,其中β∈R|β|为形状参数,θ∈R|θ|为姿态参数,ψ∈R|ψ|为表情参数,具体的,FLAME参数化模型写成如下形式:
M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω);
其中W(T,J,θ,ω)表示标准的线性蒙皮函数,它将模板网络T沿J∈R3K进行变换θ,并使用蒙皮权重ω对变换结果进行平滑;关节J的位置与β,也即头部模型的形状相关;模板网络的表示形式为
Figure BDA0003671858120000031
其中/>
Figure BDA0003671858120000032
表示平均网格,后面三项分别表示形状项,表情项,姿态项。
进一步的,所述FLAME参数化模型的姿态混合函数中还设有一个姿态系数,姿态系数能够分解成旋转矩阵和平移矩阵,方便之后求解相对姿态,在光度一致性损失计算时使用相对姿态;根据平均的人脸模型乘以旋转矩阵,加上平移矩阵,生成对应姿态下的人脸模型。。
进一步的,所述步骤S5采用可微分渲染器,进行纹理渲染,具体为:
Ir=R(M,B,c)
其中,R表示渲染函数,由于较低的mesh分辨率的限制。
进一步的,所述的损失计算包括:人脸关键点损失Llmk、眼睛闭合损失Leye、光度一致性损失Lphoto、人脸识别损失Lid以及正则化损失Lreg,具体如下:
人脸关键点损失Llmk:计算68个人脸关键点位置与FLAME模型表面上相对应点的距离:
Figure BDA0003671858120000041
眼睛闭合损失Leye:计算上下眼皮相对偏移量
Figure BDA0003671858120000042
上下眼皮关键点投影到FLAME表面Mi和Mj上相应坐标的偏移量;E是上下眼皮标志对的集合;
光度一致性损失Lphoto:
Figure BDA0003671858120000043
其中,
Figure BDA0003671858120000051
表示正脸的左侧Mask区域,MA→B表示从A图旋转到B图的Mask区域,IB[u]表示B图的纹理像素,IA→B[u]表示A图旋转到B图的纹理像素,计算它们之间二范数的平方;
人脸识别损失Lid:对于重建出的人脸是否为同一个体时,采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性
Figure BDA0003671858120000052
正则化损失Lreg
Lreg正则化:形状
Figure BDA0003671858120000053
表情/>
Figure BDA0003671858120000054
和光照/>
Figure BDA0003671858120000055
本发明与现有技术相比具有以下有益效果:
1、本发明对于人脸大角度姿态产生的自遮挡问题,参数化模型与多视图人脸图像匹配时,把每幅图像的模型参数与形变模型建立联系,为增强图像之间的几何约束性,采用光度一致性进行约束,获取最终匹配后的三维人脸模型;
2、本发明对于重建出的人脸是否为同一个体时,利用VGG-Face2数据集预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性,具有更强的模型鲁棒性。
附图说明
图1是本发明多视图人脸重建流程图
图2是本发明一实施例中人脸关键点示意图;
图3是本发明一实施例中FLAME参数化模型。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于参数化模型的多视图人脸重建方法,包括以下步骤:
步骤S1:获取同一个人的若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;
步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;
步骤S3:将步骤S2得到的mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;
步骤S4:将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型,生成对应的三维人脸模型;
步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;
步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。
在本实施例中,多张二维人脸图片是在同一环境下拍摄的多张RGB图像,不同的环境条件下拍摄出的图片,光照差别较大,重建出人脸纹理贴图时颜色会发生异常。其中,对图像数量没有严格限制,但一般要求正脸和左侧脸、右侧脸三张图像,因为这三张人脸图像基本完整覆盖了人脸区域。
所述的68个人脸关键点能够约束人脸的基本形状,并且能够定位人脸在图片中的一个大致的位置信息;
在本实施例中,resnet网络使用的是resnet50的网络结构,对输入图片采用通道数拼接方式送入网络,共享网络权重参数,输出对应的3张特征图。将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数;另一方面,把3张特征图进行拼接融合,再通过一个全连接层输出同一个人的形状、表情参数。
将生成的100个形状参数、50个表情参数、50个纹理参数、6个姿态参数、3个相机参数和27个光照参数拟合到一个FLAME参数化模型上。
在本实施例中,优选的,参数化人脸模型采用的是FLAME参数化模型,由标准的线性混合蒙皮和混合形状两部分构成,能够对整个头部区域包括脸部、后脑勺和颈部都进行了重建。FLAME模型采用的标准网格模型网格顶点数为N=5023。FLAME模型的网格顶点坐标可用函数M(β,θ,ψ):R|β|×|θ|×|ψ|→R3N来表示,其中β∈R|β|为形状参数,θ∈R|θ|为姿态参数,ψ∈R|ψ|为表情参数。
FLAME参数化模型可以写成如下形式:M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω),其中W(T,J,θ,ω)表示标准的线性蒙皮函数,它将模板网络T沿J∈R3K进行变换θ,并使用蒙皮权重ω对变换结果进行平滑。关节J的位置与β,也即头部模型的形状相关。模板网络的表示形式为
Figure BDA0003671858120000071
其中/>
Figure BDA0003671858120000072
表示平均网格,其他分别表示形状项,表情项,姿态项。
形状项:
Figure BDA0003671858120000081
其中β=[β1,…,ββ]T为形状系数;S=[S1,…,Sβ]∈R3N ×|β|表示正交的形状基,通过PCA训练得到。
表情项:
Figure BDA0003671858120000082
其中/>
Figure BDA0003671858120000083
为表情系数,ψ=[ψ1,…,ψβ]∈R3N×|ψ|表示正交的表情基,这个表情基也是通过训练得到的。
姿态项:R(θ):R|θ|→R9K表示把姿态向量θ∈R3K+3展开为矩阵形式,去掉全局旋转量,从而得到维度为9K的向量。姿态项的函数表示如公式所示:
Figure BDA0003671858120000084
其中Rn(θ)和Rn*)分别表示R(θ)和R(θ*)的第n个元素。P=[P1,…,P9K]∈R3N×9K。这里的姿态系数包括全局旋转、用于头部绕颈部旋转、下颌旋转和用于每个眼球的旋转。
在FLAME模型的姿态混合函数中多增加一个姿态系数,这个姿态系数能够分解成旋转矩阵和平移矩阵,方便之后求解相对姿态,在光度一致性损失计算时使用相对姿态。根据平均的人脸模型乘以旋转矩阵,加上平移矩阵,生成对应姿态下的人脸模型。
在本实施例中,外观模型:FLAME没有外观模型,因此将Basel Face模型的PCA空间转换为FLAME的UV空间。
相机模型:通过相机模型可将三维人脸顶点投影到二维平面上。本发明采用的是正交投影矩阵:V=sП(Mi)+t,其中M表示顶点,П表示2*3的正交投影矩阵[[1,0,0],[0,1,0]],s表示缩放因子,t表示平移向量。
光照模型:主要用来计算人脸某点处的光强。本发明采用基于球面谐波:
Figure BDA0003671858120000091
其中A表示反射率,N表示表面法向量,B表示阴影纹理。
在本实施例中,纹理渲染,具体为:
Ir=R(M,B,c)
其中,R表示渲染函数,由于较低的mesh分辨率的限制,FLAME模型的中频细节容易丢失。
所述的损失计算包括:人脸关键点损失(Llmk)、眼睛闭合损失(Leye)、光度一致性损失(Lphoto)、人脸识别损失(Lid)以及正则化损失(Lreg)。
Lloss=Llmk+Leye+Lphoto+Lid+Lreg
人脸关键点损失Llmk:计算68个人脸关键点位置与FLAME模型表面上相对应点的距离。
Figure BDA0003671858120000092
眼睛闭合损失Leye:计算上下眼皮相对偏移量。
Figure BDA0003671858120000093
上下眼皮关键点投影到FLAME表面Mi和Mj上相应坐标的偏移量。E是上下眼皮标志对的集合。
光度一致性损失Lphoto:对于人脸大角度姿态产生的自遮挡问题,参数化模型与多视图人脸图像匹配时,把每幅图像的模型参数与形变模型建立联系,为增强图像之间的几何约束性,采用光度一致性进行约束,获取最终匹配后的三维人脸模型。
Figure BDA0003671858120000101
表示正脸的左侧Mask区域,MA→B表示从A图旋转到B图的Mask区域,IB[u]表示B图的纹理像素,IA→B[u]表示A图旋转到B图的纹理像素,计算它们之间二范数的平方。/>
人脸识别损失Lid:对于重建出的人脸是否为同一个体时,采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性。
Figure BDA0003671858120000102
正则化损失Lreg:防止形状、表情、光照参数出现过拟合。
Lreg正则化:形状
Figure BDA0003671858120000103
表情/>
Figure BDA0003671858120000104
和光照/>
Figure BDA0003671858120000105
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种基于参数化模型的多视图人脸重建方法,其特征在于,包括以下步骤:
步骤S1:获取同一个人的若干张不同视角二维人脸图像并处理,然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪;
步骤S2:根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图;
步骤S3:将步骤S2得到的mask裁图输入到Resnet网络中,回归出不同视角的人脸形状、表情、姿态、光照及相机参数;
步骤S4:将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型,生成对应的三维人脸模型;
步骤S5:进行纹理采样,再使用可微分渲染器生成渲染后的图片;
步骤S6:将渲染图片与原图进行损失计算,反向传播参数,优化三维人脸模型。
2.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述步骤S1具体为:获取同一个人的若干张三个不同视角二维人脸图像并处理,所述不同视角包括正脸和左侧脸、右侧脸;并采用采用人脸关键点检测器Dlib算法进行68个面部特征点检测和跟踪。
3.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述步骤S3具体为:
步骤S31:将步骤S2得到的mask裁图输入到Resnet网络中,对输入图片采用通道数拼接方式送入网络,共享网络权重参数,输出对应的3张特征图;
步骤S32:将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数;另一方面,把3张特征图进行拼接融合,再通过一个全连接层输出同一个人的形状、表情参数。
4.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述参数化人脸模型是FLAME参数化模型,由标准的线性混合蒙皮和混合形状两部分构成。
5.根据权利要求4所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述FLAME参数化模型采用的标准网格模型网格顶点数为N,网格顶点坐标采用函数M(β,θ,ψ):R|β|×|θ|×|ψ|→R3N来表示,其中β∈R|β|为形状参数,θ∈R|θ|为姿态参数,ψ∈R|ψ|为表情参数,具体的,FLAME参数化模型写成如下形式:
M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω);
其中W(T,J,θ,ω)表示标准的线性蒙皮函数,它将模板网络T沿J∈R3K进行变换θ,并使用蒙皮权重ω对变换结果进行平滑;关节J的位置与β,也即头部模型的形状相关;模板网络的表示形式为
Figure QLYQS_1
其中/>
Figure QLYQS_2
表示平均网格,后面三项分别表示形状项,表情项,姿态项。
6.根据权利要求5所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述FLAME参数化模型的姿态混合函数中还设有一个姿态系数,姿态系数能够分解成旋转矩阵和平移矩阵,方便之后求解相对姿态,在光度一致性损失计算时使用相对姿态;根据平均的人脸模型乘以旋转矩阵,加上平移矩阵,生成对应姿态下的人脸模型。。
7.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述步骤S5采用可微分渲染器,进行纹理渲染,具体为:
Ir=R(M,B,c)
其中,R表示渲染函数,由于较低的mesh分辨率的限制。
8.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于,所述的损失计算包括:人脸关键点损失Llmk、眼睛闭合损失Leye、光度一致性损失Lphoto、人脸识别损失Lid以及正则化损失Lreg,具体如下:
人脸关键点损失Llmk:计算68个人脸关键点位置与FLAME模型表面上相对应点的距离:
Figure QLYQS_3
眼睛闭合损失Leye:计算上下眼皮相对偏移量
Figure QLYQS_4
上下眼皮关键点投影到FLAME表面Mi和Mj上相应坐标的偏移量;E是上下眼皮标志对的集合;
光度一致性损失Lphoto:
Figure QLYQS_5
其中,
Figure QLYQS_6
表示正脸的左侧Mask区域,MA→B表示从A图旋转到B图的Mask区域,IB[u]表示B图的纹理像素,IA→B[u]表示A图旋转到B图的纹理像素,计算它们之间二范数的平方;
人脸识别损失Lid:对于重建出的人脸是否为同一个体时,采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算,比较渲染图片和输入图片的特征,计算两张图片的余弦相似性
Figure QLYQS_7
正则化损失Lreg
Lreg正则化:形状
Figure QLYQS_8
表情/>
Figure QLYQS_9
和光照/>
Figure QLYQS_10
/>
CN202210607306.8A 2022-05-31 2022-05-31 基于参数化模型的多视图人脸重建方法 Pending CN115861525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210607306.8A CN115861525A (zh) 2022-05-31 2022-05-31 基于参数化模型的多视图人脸重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210607306.8A CN115861525A (zh) 2022-05-31 2022-05-31 基于参数化模型的多视图人脸重建方法

Publications (1)

Publication Number Publication Date
CN115861525A true CN115861525A (zh) 2023-03-28

Family

ID=85660150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210607306.8A Pending CN115861525A (zh) 2022-05-31 2022-05-31 基于参数化模型的多视图人脸重建方法

Country Status (1)

Country Link
CN (1) CN115861525A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091676A (zh) * 2023-04-13 2023-05-09 腾讯科技(深圳)有限公司 虚拟对象的面部渲染方法及点云特征提取模型的训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091676A (zh) * 2023-04-13 2023-05-09 腾讯科技(深圳)有限公司 虚拟对象的面部渲染方法及点云特征提取模型的训练方法

Similar Documents

Publication Publication Date Title
Pighin et al. Modeling and animating realistic faces from images
US7356447B2 (en) Facial image processing methods and systems
US6950104B1 (en) Methods and systems for animating facial features, and methods and systems for expression transformation
US6532011B1 (en) Method of creating 3-D facial models starting from face images
Wu et al. Interactive normal reconstruction from a single image
CN108564619B (zh) 一种基于两张照片的真实感三维人脸重建方法
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
Pighin et al. Realistic facial animation using image-based 3D morphing
CN114450719A (zh) 人体模型重建方法、重建系统及存储介质
Tarini et al. Texturing faces
CN115861525A (zh) 基于参数化模型的多视图人脸重建方法
Lee et al. Cloning and Aging in a VR Family
Jeong et al. Automatic generation of subdivision surface head models from point cloud data
Lee et al. From real faces to virtual faces: problems and solutions
Casati et al. Approximate Reconstruction of 3D Scenes From Bas-Reliefs
US20220309733A1 (en) Surface texturing from multiple cameras
Erdem A new method for generating 3-D face models for personalized user interaction
Li Image-Based 3D Reconstruction and Articulation of the Human Body Shape and Its Use in the Creation of Virtual Fitting Rooms
Vanakittistien et al. Game‐ready 3D hair model from a small set of images
Zhang et al. Anthropometric modeling of faces from range scans
Zhang Modeling of human faces with parameterized local shape morphing
Zhang et al. Reconstruction of Animatable Personalized 3D Faces by Adaptation-based Modeling.
Wang et al. Face synthesis
Hillman et al. Hybrid Facial Model Fitting using Active Appearance Models and Contour-Based Facial Feature Location
Wu From dense photometric stereo to interactive three-dimensional markup

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination