CN112802031A

CN112802031A - 一种基于三维人头跟踪的实时虚拟试发方法

Info

Publication number: CN112802031A
Application number: CN202110010852.9A
Authority: CN
Inventors: 赵叶清; 杨柏林; 杨文武
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-14
Anticipated expiration: 2041-01-06
Also published as: CN112802031B

Abstract

本发明涉及一种基于三维人头跟踪的实时虚拟试发方法。本发明首先训练耳朵和脖子分割器；然后训练三维人头重建模型，其中包括构建三维人头重建模型，使用训练集对三维人头重建模型进行训练，通过最小化关键点损失函数、形状一致损失函数、耳朵形状一致损失函数和脖子形状一致损失函数来得到最优的网络模型参数，最后虚拟试戴。本发明在三维空间内将发型佩戴到受试者的人头上，使得试戴的效果更加逼真，大大地提升了用户的体验感，并且为个性化形象设计，在线商城等提供技术支持。

Description

一种基于三维人头跟踪的实时虚拟试发方法

技术领域

本发明属于增加现实领域，具体涉及一种基于三维人头跟踪的实时虚拟试发方法。

背景技术

头发作为个人形象的一个重要特征，在如今追求个性化的时代越来越受到人们的重视，拥有一个能提升自身形象的发型已经成为人们日常生活工作中的一部分。如果去理发店通过跟理发师口头描述自己想要发型或者选择发型手册中的一款发型来进行理发的话，往往会出现修剪后的发型并不适合自己的结果并且一般该结果都难以改变。这时候如果可以在还未理发前就能试验一下选择的发型是否适合自己，结果就未必会如此糟糕。但是如果是通过佩戴假发来模拟修建发型后的效果，仅仅是为每个发型准备一个可试戴的假发就会导致成本十分高，而且佩戴假发这一过程十分费时费力。相对来说，如果能够进行虚拟试发的话，成本将会更低，并且更加便捷，适用的范围也更加的广泛，可用于个性化形象设计、在线商城试戴等领域。

目前市场上存在的虚拟试发系统都是基于二维图片的，即用户输入一张人脸照片并且选择一个特定的发型，系统则会自动把选择的发型佩戴在输入的照片中的人脸头部上。然而该类系统会出现如下几个主要缺点：(1)相对于正面角度，若用户输入侧面角度的相片，佩戴结果较差，选择的发型并不会根据人脸旋转的角度来进行对应的变化。(2)用户若想要观察不同角度的试发效果，需要重复提供不同角度的相片，操作过程较为繁琐。

发明内容

本发明针对现有技术的不足，提供了一种基于三维跟踪的实时虚拟试发方法。用户可以输入一段试发视频并且选择像想要试戴的发型，该技术会自动将选择的发型对应地三维虚拟头发佩戴到输入的视频帧中的用户人头上，并进行增强现实绘制，使得用户可以实时地观看到虚实结合的试发效果。

本发明解决其技术问题所采用的技术方案步骤如下：

步骤1、训练耳朵和脖子分割器

(1-1)准备带有耳朵掩膜和脖子掩膜的人脸图片数据库；

(1-2)使用人脸图片数据库来训练实例分割模型，得到耳朵脖子分割器。

步骤2、训练三维人头重建模型

(2-1)构建三维人头重建模型，所述的三维人头重建模型包括特征提取网络，参数回归网络和FLAME解码网络；

所述特征提取网络用于提取人脸输入图片的2048维的特征向量；

所述参数回归网络的输入为特征提取网络提取的特征向量，输出为159维的参数向量，其中前3维为相机参数，接下来6维为姿态参数，接下来100维为形状参数，余下50维为表情参数；

将获得的姿态参数、形状参数和表情参数作为FLAME解码网络的输入，得到与人脸输入图片中人脸对应的三维人头；

(2-2)使用训练集对三维人头重建模型进行训练，通过最小化关键点损失函数、形状一致损失函数、耳朵形状一致损失函数和脖子形状一致损失函数来得到最优的网络模型参数。

步骤3、虚拟试戴

(3-1)准备三维头发模型；

(3-2)通过三维人头重建模型构建试戴者的三维人头；

(3-3)将三维头发模型佩戴到试戴者的三维人头上并进行增强现实绘制。

本发明的有益效果：针对现有的虚拟试发软件一般在二维空间进行最终试戴效果处理，本发明在三维空间内将发型佩戴到受试者的人头上，使得试戴的效果更加逼真，大大地提升了用户的体验感，并且为个性化形象设计，在线商城等提供技术支持。

附图说明

图1是本发明的流程图；

图2是本发明三维人头重建模型的结构示意图。

具体实施方式

本发明包括以下三部分

第一部分：训练耳朵和脖子分割器

(1)准备带有耳朵掩膜和脖子掩膜的人脸图片数据库；

(2)使用上述数据集来训练实例分割模型，得到耳朵脖子分割器。

第二部分：训练三维人头重建模型

(1)构建三维人头重建模型；

(2)使用训练集对三维人头重建模型进行训练，得到最优的网络模型参数。

第三部分：虚拟试戴

(1)准备三维头发模型；

(2)通过三维人头重建模型构建试戴者的三维人头；

(3)将三维头发模型佩戴到试戴者的三维人头上并进行增强现实绘。

本发明的总体流程如图1所示。

进一步地，所述第一部分(1)中使用公开的数据库CelebAMask-HQ。该数据库有三万张人脸图片，并提供耳朵掩膜和脖子掩膜。第一部分(2)中使用Mask-RCNN模型来训练耳朵和脖子分割器，因其只需检测和分割耳朵和脖子这两个类别，因此对训练过程进行了相应的修改，最终得到耳朵脖子分割器，可以对输入的人脸图片中的耳朵和脖子进行实例分割。

进一步地，所述第二部分(1)中构建的三维人头重建模型，其结构如图2所示，包含三个子网络模块，分别为特征提取网络，参数回归网络，FLAME解码网络。

三维人头重建模型以一张人脸图片为输入，经过特征提取网络获得一个2048维的特征向量。将其输入参数回归网络得到一个159维的参数向量，其中前3维为相机参数，接下来6维为姿态参数，接下来100维为形状参数，余下50维为表情参数。将获得姿态参数、形状参数和表情参数作为输入至FLAME解码网络可得到与输入的图片中人脸对应的三维人头。特征提取网络为ResNet-50，参数回归网络由2个尺寸为512的全连接层和1个尺寸为159的线性全连接层组成。

进一步地，所述第二部分(2)中为了训练三维人头重建模型，提出关键点损失函数。希望生成的三维人头上的三维关键点投影到二维图片上后，能与输入的人脸图片上的二维关键点尽可能接近，其关键点损失函数如下：

其中k_i为由二维人脸关键点检测器检测出的人脸关键点的位置，w_i为由二维人脸关键点检测器提供的该关键点的置信度，

为重建的三维人头上的三维关键点投影到二维图片空间的位置。

根据每个人的脸部形状都是独一无二的(除了同卵双胞胎)以及一个人的脸部形状不会随着周围的环境发生改变，提出形状一致损失函数来使三维人头重建模型能够更精准地预测出形状参数，其定义如下：

其中β_i和β_j为一个人在不同环境下的图片通过三维人头重建模型预测出来的形状参数,β_i和β_k为不同人的图片通过三维人头重建模型预测出来的形状参数，η为自定义的阈值。

根据耳朵在运动时几乎不会发生非刚性运动，提出耳朵形状一致损失函数来使三维人头重建模型能够更精准地预测出表情参数(由非刚性运动导致)和姿态参数(由刚性运动导致)，其定义如下：

L_ear＝‖M′_ear-M_ear‖₂

其中M_ear为由第一部分(2)中耳朵和脖子分割器分割出来的耳朵区域，M′_ear为重建的三维人头上的耳朵投影到二维图片的区域。

根据脖子在人头发生全局旋转(整个身体转动)和人头发生局部旋转(由脖子转动引起)变化不同，提出脖子形状一致损失函数来使三维人头重建模型能更准确地预测出姿态参数中的全局旋转和局部旋转，其定义如下：

L_neck＝‖M′_neck-M_neck‖₂

其中M_neck为由第一部分(2)中耳朵和脖子分割器分割出来的脖子区域，M′_neck为重建的三维人头上的脖子投影到二维图片的区域。

通过最小化关键点损失函数、形状一致损失函数、耳朵形状一致损失函数和脖子形状一致损失函数来得到最优的网络模型参数。

进一步地，所述第三部分(1)收集了大约20个不同的三维头发模型。所述第三部分(2)在FLAME平均模型上选取四个点p(左右耳朵和左右前额处)。对于任一人脸视频帧，可获得通过第二部分提出的三维人头重建模型生成的三维人头模型上对应的四个点q位置。通过求得一个最优的相似变化矩阵T_s：

将T_s作用到三维头发模型上，即将三维头发模型佩戴到输入的视频帧中用户的三维人头上。在绘制时，只绘制未被三维人头遮挡的三维头发模型并把绘制结果直接叠加在当前视频帧上。

本发明实施方案已公开如上，该描述是为便于本技术领域的普通技术人员能够理解和应用本发明。对于熟悉本领域的人员而言，可以容易地实现另外的修改，因此本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于三维人头跟踪的实时虚拟试发方法，其特征在于该方法包括以下步骤：

步骤1、训练耳朵和脖子分割器

(1-1)准备带有耳朵掩膜和脖子掩膜的人脸图片数据库；

(1-2)使用人脸图片数据库来训练实例分割模型，得到耳朵脖子分割器；

步骤2、训练三维人头重建模型

(2-2)使用训练集对三维人头重建模型进行训练，通过最小化关键点损失函数、形状一致损失函数、耳朵形状一致损失函数和脖子形状一致损失函数来得到最优的网络模型参数；

关键点损失函数如下：

其中k_i为由二维人脸关键点检测器检测出的人脸关键点的位置，w_i为由二维人脸关键点检测器提供的人脸关键点的置信度，

为重建的三维人头上的三维关键点投影到二维图片空间的位置；

形状一致损失函数如下：

其中β_i和β_j为一个人在不同环境下的图片通过三维人头重建模型预测出来的形状参数，β_i和β_k为不同人的图片通过三维人头重建模型预测出来的形状参数，η为自定义的阈值；

耳朵形状一致损失函数如下：

L_ear＝‖M′_ear-M_ear‖₂

其中M_ear为耳朵和脖子分割器分割出来的耳朵区域，M′_ear为重建的三维人头上的耳朵投影到二维图片的区域；

脖子形状一致损失函数如下：

L_neck＝‖M′_neck-M_neck‖₂

其中M_neck为耳朵和脖子分割器分割出来的脖子区域，M′_neck为重建的三维人头上的脖子投影到二维图片的区域；

步骤3、虚拟试戴

(3-1)准备三维头发模型；

(3-2)通过三维人头重建模型构建试戴者的三维人头；

2.根据权利要求1所述的一种基于三维人头跟踪的实时虚拟试发方法，其特征在于：步骤1中所述的人脸图片数据库采用公开的数据库CelebAMask-HQ。

3.根据权利要求1所述的一种基于三维人头跟踪的实时虚拟试发方法，其特征在于：步骤1中所述的耳朵脖子分割器由Mask-RCNN模型训练得到。

4.根据权利要求1所述的一种基于三维人头跟踪的实时虚拟试发方法，其特征在于：步骤3具体是：

收集18-22个不同的三维头发模型，在FLAME平均模型上选取四个点p，分别为左耳朵、右耳朵、左前额处和右前额处；

对于任一人脸视频帧，获得通过三维人头重建模型生成的三维人头模型上对应的四个点q位置，求得一个最优的相似变化矩阵T_s：

将相似变化矩阵T_s作用到三维头发模型上，即将三维头发模型佩戴到输入的视频帧中用户的三维人头上。

5.根据权利要求3所述的一种基于三维人头跟踪的实时虚拟试发方法，其特征在于：在绘制时，只绘制未被三维人头遮挡的三维头发模型并把绘制结果直接叠加在当前视频帧上。