CN115861525A

CN115861525A - 基于参数化模型的多视图人脸重建方法

Info

Publication number: CN115861525A
Application number: CN202210607306.8A
Authority: CN
Inventors: 陈俊; 林丽皇
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-03-28

Abstract

本发明涉及一种基于参数化模型的多视图人脸重建方法,包括：步骤S1：获取若干张不同视角二维人脸图像并处理，然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪；步骤S2：根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图；步骤S3：将mask裁图输入到Resnet网络中，回归出不同视角的人脸形状、表情、姿态、光照及相机参数；步骤S4：将参数拟合到参数化人脸模型，生成对应的三维人脸模型；步骤S5：进行纹理采样，再使用可微分渲染器生成渲染后的图片；步骤S6：将渲染图片与原图进行损失计算，反向传播参数，优化三维人脸模型。本发明能够恢复出更加逼真的人脸模型，有效提高了复杂场景下的人脸质量。

Description

基于参数化模型的多视图人脸重建方法

技术领域

本发明涉及人脸重建领域，具体涉及一种基于参数化模型的多视图人脸重建方法。

背景技术

三维人脸重建技术在人脸识别、人脸动画、虚拟现实、3D游戏和医疗等领域都起着关键作用。目前存在以下问题：

首先，人脸表情的多样性。人脸具有丰富的表情信息，心理学家最初认为人类有六个基本表情，即由生气、喜悦、震惊、悲伤、恐惧和厌恶组成。此外，还有复合的15种表情。人脸在不同表情下，人脸关键点和三维重建点位置也会相应发生变化。

第二，物体的遮挡。人们可能会佩戴首饰、眼镜以及自身的毛发的影响，遮挡部分五官和面部轮廓信息，这对恢复三维人脸形状特征带来一定难度。

第三，人脸的大姿态。人脸的关键点标注会产生两种不同形式：第一种是可见的人脸边缘关键点，这种点的位置和语义信息会跟着姿态发生变化，并且所有的人脸关键点都是可见的。第二种是伪3D透视标签，由于人脸自遮挡会存在部分的关键点是不可见的点，容易导致标记人脸信息存在一定误差，且无法提取这部分的特征，这样三维人脸重建任务就变得富有挑战。

第四，人脸周围环境的干扰。在自然环境下，人脸图片的背景信息会对人脸信息产生影响，而且还可能受到光照不均匀导致人脸纹理信息会发生缺失，导致预测的三维点精度下降。

第五，目前三维人脸数据集不足，主要分为采用合成数据和使用弱监督或者无监督学习的方式。使用合成数据在一定程度上扩大了训练集的数量，但合成人脸图片和真实人脸图片之间往往出现了很大差距，导致模型的泛化能力明显减弱，因此在真实的人脸图片上训练效果较差。现在比较多的是弱监督或者无监督的方法进行训练，通过人脸关键点或无标签的二维人脸图片回归人脸参数。

发明内容

有鉴于此，本发明的目的在于提供一种基于参数化模型的多视图人脸重建方法，能够恢复出更加逼真的人脸模型，有效提高了复杂场景下的人脸质量。

为实现上述目的，本发明采用如下技术方案：

一种基于参数化模型的多视图人脸重建方法,包括以下步骤：

步骤S1：获取同一个人的若干张不同视角二维人脸图像并处理，然后采用人脸关键点检测器Dlib算法进行面部特征点检测和跟踪；

步骤S2：根据不同视角二维人脸图像中特征点位置对分别对正脸、左侧脸、右侧脸的无遮挡区域进行mask裁图；

步骤S3：将步骤S2得到的mask裁图输入到Resnet网络中，回归出不同视角的人脸形状、表情、姿态、光照及相机参数；

步骤S4：将步骤S3得到的人脸形状、表情、姿态、光照及相机参数拟合到参数化人脸模型，生成对应的三维人脸模型；

步骤S5：进行纹理采样，再使用可微分渲染器生成渲染后的图片；

步骤S6：将渲染图片与原图进行损失计算，反向传播参数，优化三维人脸模型。

进一步的，所述步骤S1具体为：获取同一个人的若干张三个不同视角二维人脸图像并处理，所述不同视角包括正脸和左侧脸、右侧脸；并采用采用人脸关键点检测器Dlib算法进行68个面部特征点检测和跟踪。

进一步的，所述步骤S3具体为：

步骤S31:将步骤S2得到的mask裁图输入到Resnet网络中，对输入图片采用通道数拼接方式送入网络，共享网络权重参数，输出对应的3张特征图；

步骤S32:将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数；另一方面，把3张特征图进行拼接融合，再通过一个全连接层输出同一个人的形状、表情参数.

进一步的，所述参数化人脸模型是FLAME参数化模型，由标准的线性混合蒙皮和混合形状两部分构成。

进一步的，所述FLAME参数化模型采用的标准网格模型网格顶点数为N，网格顶点坐标采用函数M(β,θ,ψ)：R^{|β|×|θ|×|ψ|}→R^3N来表示，其中β∈R^|β|为形状参数，θ∈R^|θ|为姿态参数，ψ∈R^|ψ|为表情参数，具体的，FLAME参数化模型写成如下形式：

M(β,θ,ψ)＝W(T_P(β,θ,ψ),J(β),θ,ω)；

其中W(T,J,θ,ω)表示标准的线性蒙皮函数，它将模板网络T沿J∈R^3K进行变换θ，并使用蒙皮权重ω对变换结果进行平滑；关节J的位置与β，也即头部模型的形状相关；模板网络的表示形式为

其中/>

表示平均网格，后面三项分别表示形状项，表情项，姿态项。

进一步的，所述FLAME参数化模型的姿态混合函数中还设有一个姿态系数，姿态系数能够分解成旋转矩阵和平移矩阵，方便之后求解相对姿态，在光度一致性损失计算时使用相对姿态；根据平均的人脸模型乘以旋转矩阵，加上平移矩阵，生成对应姿态下的人脸模型。。

进一步的，所述步骤S5采用可微分渲染器，进行纹理渲染，具体为：

I_r＝R(M,B,c)

其中，R表示渲染函数，由于较低的mesh分辨率的限制。

进一步的，所述的损失计算包括：人脸关键点损失L_lmk、眼睛闭合损失L_eye、光度一致性损失L_photo、人脸识别损失L_id以及正则化损失L_reg，具体如下：

人脸关键点损失L_lmk：计算68个人脸关键点位置与FLAME模型表面上相对应点的距离：

眼睛闭合损失L_eye：计算上下眼皮相对偏移量

上下眼皮关键点投影到FLAME表面M_i和M_j上相应坐标的偏移量；E是上下眼皮标志对的集合；

光度一致性损失L_photo:

其中，

表示正脸的左侧Mask区域，M_A→B表示从A图旋转到B图的Mask区域，I_B[u]表示B图的纹理像素，I_A→B[u]表示A图旋转到B图的纹理像素，计算它们之间二范数的平方；

人脸识别损失L_id：对于重建出的人脸是否为同一个体时，采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算，比较渲染图片和输入图片的特征，计算两张图片的余弦相似性

正则化损失L_reg：

L_reg正则化：形状

表情/>

和光照/>

本发明与现有技术相比具有以下有益效果：

1、本发明对于人脸大角度姿态产生的自遮挡问题，参数化模型与多视图人脸图像匹配时，把每幅图像的模型参数与形变模型建立联系，为增强图像之间的几何约束性，采用光度一致性进行约束，获取最终匹配后的三维人脸模型；

2、本发明对于重建出的人脸是否为同一个体时，利用VGG-Face2数据集预训练的人脸识别网络进行损失计算，比较渲染图片和输入图片的特征，计算两张图片的余弦相似性，具有更强的模型鲁棒性。

附图说明

图1是本发明多视图人脸重建流程图

图2是本发明一实施例中人脸关键点示意图；

图3是本发明一实施例中FLAME参数化模型。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于参数化模型的多视图人脸重建方法,包括以下步骤：

在本实施例中，多张二维人脸图片是在同一环境下拍摄的多张RGB图像，不同的环境条件下拍摄出的图片，光照差别较大，重建出人脸纹理贴图时颜色会发生异常。其中，对图像数量没有严格限制，但一般要求正脸和左侧脸、右侧脸三张图像，因为这三张人脸图像基本完整覆盖了人脸区域。

所述的68个人脸关键点能够约束人脸的基本形状，并且能够定位人脸在图片中的一个大致的位置信息；

在本实施例中，resnet网络使用的是resnet50的网络结构，对输入图片采用通道数拼接方式送入网络，共享网络权重参数，输出对应的3张特征图。将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数；另一方面，把3张特征图进行拼接融合，再通过一个全连接层输出同一个人的形状、表情参数。

将生成的100个形状参数、50个表情参数、50个纹理参数、6个姿态参数、3个相机参数和27个光照参数拟合到一个FLAME参数化模型上。

在本实施例中，优选的，参数化人脸模型采用的是FLAME参数化模型，由标准的线性混合蒙皮和混合形状两部分构成，能够对整个头部区域包括脸部、后脑勺和颈部都进行了重建。FLAME模型采用的标准网格模型网格顶点数为N＝5023。FLAME模型的网格顶点坐标可用函数M(β,θ,ψ)：R^{|β|×|θ|×|ψ|}→R^3N来表示，其中β∈R^|β|为形状参数，θ∈R^|θ|为姿态参数，ψ∈R^|ψ|为表情参数。

FLAME参数化模型可以写成如下形式：M(β,θ,ψ)＝W(T_P(β,θ,ψ),J(β),θ,ω)，其中W(T,J,θ,ω)表示标准的线性蒙皮函数，它将模板网络T沿J∈R^3K进行变换θ，并使用蒙皮权重ω对变换结果进行平滑。关节J的位置与β，也即头部模型的形状相关。模板网络的表示形式为

其中/>

表示平均网格，其他分别表示形状项，表情项，姿态项。

形状项：

其中β＝[β₁,…,β_β]^T为形状系数；S＝[S₁,…,S_β]∈R^3N ^×|β|表示正交的形状基，通过PCA训练得到。

表情项：

其中/>

为表情系数，ψ＝[ψ₁,…,ψ_β]∈R^3N×|ψ|表示正交的表情基，这个表情基也是通过训练得到的。

姿态项：R(θ):R^|θ|→R^9K表示把姿态向量θ∈R^3K+3展开为矩阵形式，去掉全局旋转量，从而得到维度为9K的向量。姿态项的函数表示如公式所示：

其中R_n(θ)和R_n(θ^*)分别表示R(θ)和R(θ^*)的第n个元素。P＝[P₁,…,P_9K]∈R^3N×9K。这里的姿态系数包括全局旋转、用于头部绕颈部旋转、下颌旋转和用于每个眼球的旋转。

在FLAME模型的姿态混合函数中多增加一个姿态系数，这个姿态系数能够分解成旋转矩阵和平移矩阵，方便之后求解相对姿态，在光度一致性损失计算时使用相对姿态。根据平均的人脸模型乘以旋转矩阵，加上平移矩阵，生成对应姿态下的人脸模型。

在本实施例中，外观模型：FLAME没有外观模型，因此将Basel Face模型的PCA空间转换为FLAME的UV空间。

相机模型：通过相机模型可将三维人脸顶点投影到二维平面上。本发明采用的是正交投影矩阵：V＝sП(M_i)+t，其中M表示顶点，П表示2*3的正交投影矩阵[[1,0,0],[0,1,0]]，s表示缩放因子，t表示平移向量。

光照模型：主要用来计算人脸某点处的光强。本发明采用基于球面谐波：

其中A表示反射率，N表示表面法向量，B表示阴影纹理。

在本实施例中，纹理渲染，具体为：

I_r＝R(M,B,c)

其中，R表示渲染函数，由于较低的mesh分辨率的限制，FLAME模型的中频细节容易丢失。

所述的损失计算包括：人脸关键点损失(L_lmk)、眼睛闭合损失(L_eye)、光度一致性损失(L_photo)、人脸识别损失(L_id)以及正则化损失(L_reg)。

L_loss＝L_lmk+L_eye+L_photo+L_id+L_reg

人脸关键点损失L_lmk：计算68个人脸关键点位置与FLAME模型表面上相对应点的距离。

眼睛闭合损失L_eye：计算上下眼皮相对偏移量。

上下眼皮关键点投影到FLAME表面M_i和M_j上相应坐标的偏移量。E是上下眼皮标志对的集合。

光度一致性损失L_photo:对于人脸大角度姿态产生的自遮挡问题，参数化模型与多视图人脸图像匹配时，把每幅图像的模型参数与形变模型建立联系，为增强图像之间的几何约束性，采用光度一致性进行约束，获取最终匹配后的三维人脸模型。

表示正脸的左侧Mask区域，M_A→B表示从A图旋转到B图的Mask区域，I_B[u]表示B图的纹理像素，I_A→B[u]表示A图旋转到B图的纹理像素，计算它们之间二范数的平方。/>

人脸识别损失L_id：对于重建出的人脸是否为同一个体时，采用VGG-Face2数据集上进行预训练的人脸识别网络进行损失计算，比较渲染图片和输入图片的特征，计算两张图片的余弦相似性。

正则化损失L_reg：防止形状、表情、光照参数出现过拟合。

L_reg正则化：形状

表情/>

和光照/>

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于参数化模型的多视图人脸重建方法,其特征在于，包括以下步骤：

2.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述步骤S1具体为：获取同一个人的若干张三个不同视角二维人脸图像并处理，所述不同视角包括正脸和左侧脸、右侧脸；并采用采用人脸关键点检测器Dlib算法进行68个面部特征点检测和跟踪。

3.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述步骤S3具体为：

步骤S32:将3张特征图分别送入各自的全连接层输出姿态、相机、光照系数；另一方面，把3张特征图进行拼接融合，再通过一个全连接层输出同一个人的形状、表情参数。

4.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述参数化人脸模型是FLAME参数化模型，由标准的线性混合蒙皮和混合形状两部分构成。

5.根据权利要求4所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述FLAME参数化模型采用的标准网格模型网格顶点数为N，网格顶点坐标采用函数M(β,θ,ψ)：R^{|β|×|θ|×|ψ|}→R^3N来表示，其中β∈R^|β|为形状参数，θ∈R^|θ|为姿态参数，ψ∈R^|ψ|为表情参数，具体的，FLAME参数化模型写成如下形式：

M(β,θ,ψ)＝W(T_P(β,θ,ψ),J(β),θ,ω)；

其中/>

6.根据权利要求5所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述FLAME参数化模型的姿态混合函数中还设有一个姿态系数，姿态系数能够分解成旋转矩阵和平移矩阵，方便之后求解相对姿态，在光度一致性损失计算时使用相对姿态；根据平均的人脸模型乘以旋转矩阵，加上平移矩阵，生成对应姿态下的人脸模型。。

7.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述步骤S5采用可微分渲染器，进行纹理渲染，具体为：

I_r＝R(M,B,c)

其中，R表示渲染函数，由于较低的mesh分辨率的限制。

8.根据权利要求1所述的基于参数化模型的多视图人脸重建方法,其特征在于，所述的损失计算包括：人脸关键点损失L_lmk、眼睛闭合损失L_eye、光度一致性损失L_photo、人脸识别损失L_id以及正则化损失L_reg，具体如下：