CN113129347A

CN113129347A - 一种自监督单视图三维发丝模型重建方法及系统

Info

Publication number: CN113129347A
Application number: CN202110453009.8A
Authority: CN
Inventors: 于耀; 潘霄禹; 周余; 都思丹
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-07-16
Anticipated expiration: 2041-04-26
Also published as: CN113129347B

Abstract

本发明涉及一种自监督单视图三维发丝模型重建方法及系统，获取肖像图像样本的发型区域占用图、发丝纹理方向图和投影视角，构建初始的单视图3D发型重建网络，以发型区域占用图和2D占用图的对应像素的差值以及发丝纹理方向图和2D方向图的对应像素的差值构建损失函数，对初始的单视图3D发型重建网络进行训练，最后将待重建肖像图像输入训练好的单视图3D发型重建网络，获得3D数字化发型。本发明在网络训练时无需2D到3D的真实数据对做监督，而是利用单张照片作为输入，借助可微分体积场重投影，将三维数据映射回二维，以输入本身作为约束，完成自监督，利用训练好的单视图3D发型重建网络实现了一种端到端的三维发型重建，让用户快速获取发型重建结果。

Description

一种自监督单视图三维发丝模型重建方法及系统

技术领域

本发明涉及计算机视觉与计算机图形学技术领域，特别是涉及一种自监督单视图三维发丝模型重建方法及系统。

背景技术

单视图3D头发数字化的最新进展为给用户提供可访问的高质量CG(ComputerGraphics，计算机动画)角色提供了可能，从而帮助实现新形式的个性化VR和游戏体验。

在建模CG角色时，创建高质量的3D头发模型是最耗时的任务之一。尽管有各种设计工具如XGen等商业解决方案，但为英雄角色制作单个3D头发模型仍需要耗费艺术家数小时甚至数天才能达到令人满意的结果。因此，已有很多工作致力于引入了毛发数字化技术以试图减少和消除3D头发建模的费力和手动性。

在基于多视图的建模方案中，大部分要借助昂贵的硬件设备，受控的捕获设置和专业的手动清理，如使用全方位可控光源的头发捕捉系统、使用Kinect扫描得到RGB-D的图像数据。而一种使用四视图的建模方法，使用的虽然也是RGB的图片，但对“前后左右”四张视图的视角有较严格的要求，这也不是用户可以独自获取的。

单视图头发建模解决方案在消费者友好的3D头像数字化的背景下变得越来越重要。一种数据驱动方法，可以从单个输入照片和一些用户交互中生成整个发型，并非全自动方案。后来提出了一个全自动变体，使用增强的3D发型数据库和深度卷积神经网络来分割头发区域。有方法通过引入基于深度学习的头发属性分类器进一步提高了检索性能，这增加了对难以提取局部定向字段的挑战性输入图像的鲁棒性。然而，这些数据驱动的方法依赖于数据库的质量和多样性，以及输入图像的成功预处理和分析。特别是，如果数据库中没有具有可识别相似性的3D头发模型，则重建的头发模型可能会失败。此外，随着头发模型的多样性或数量的增加，手工设定的描述变得难以优化。

将深度学习应用于3D数据的研究也越来越多。深度神经网络用于诸如分类和回归之类任务的成功，可以通过它们将数据转换成高维特征表示的有效性来解释。因为卷积神经网络被设计用于处理图像，所以3D形状通常被转换成规则网格表示以实现卷积。有方法将3D点云或网格渲染到深度贴图中，然后将2D卷积应用于它们。也有方法直接将3D卷积神经网络应用于变分自动编码器。

综上，现有方法主要存在以下问题：普通用户难以获取数据、非全自动、非端到端、算法耗时长。

发明内容

本发明的目的是提供一种自监督单视图三维发丝模型重建方法及系统，以实现一种端到端的三维发型重建系统，让用户快速获取发型重建结果。

为实现上述目的，本发明提供了如下方案：

一种自监督单视图三维发丝模型重建方法，所述方法包括：

获取肖像图像样本的发型区域占用图和发丝纹理方向图；

根据所述肖像图像样本，利用Ray-casting光线投射投影方式，获得所述肖像图像样本的投影视角；

根据图像编码器和训练好的VAE网络中的体积解码器，构建初始的单视图3D发型重建网络；

将所述肖像图像样本输入初始的单视图3D发型重建网络，获得所述肖像图像样本的重建体积模型；

将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，获得所述肖像图像样本的2D占用图和2D方向图；

以发型区域占用图和2D占用图的对应像素的差值，以及发丝纹理方向图和2D方向图的对应像素的差值构建损失函数；

以最小化损失函数为优化目标，对初始的单视图3D发型重建网络进行训练，获得训练好的单视图3D发型重建网络；

获取待重建肖像图像，并将所述待重建肖像图像输入所述训练好的单视图3D发型重建网络，获得所述待重建肖像图像的3D发型体积模型；

将所述待重建肖像图像的3D发型体积模型转换为3D发丝模型，并传入渲染器，获得3D数字化发型。

进一步地，所述获取肖像图像样本的发型区域占用图和发丝纹理方向图，具体包括：

将肖像图像样本输入Gabor滤波器，获得肖像纹理方向图；所述肖像纹理方向图包括发丝的纹理方向；

将所述肖像纹理方向图和所述肖像图像样本输入UNet++分割网络，获得发型区域占用图；

在所述肖像纹理方向图中提取所述发型区域占用图对应的发型区域，获得发丝纹理方向图。

进一步地，所述根据图像编码器和训练好的VAE网络中的体积解码器，构建初始的单视图3D发型重建网络，之前还包括：

从数据库中获取多个表示3D发型的发丝模型；

将每个发丝模型转换为体积模型，构成体积模型训练集；

利用所述体积模型训练集对VAE网络进行训练，获得训练好的VAE网络；所述训练好的VAE网络包括体积编码器和体积解码器。

进一步地，所述将每个发丝模型转换为体积模型，具体包括：

计算发丝模型的每个体素的发丝穿过数量；

将发丝穿过数量为0的体素的占用场设置为0；

将发丝穿过数量不为0的体素的占用场设置为1，并将所有穿过所述体素的发丝的平均生长方向作为所述体素的方向场的值；

发丝模型中所有体素的占用场和方向场构成发丝模型对应的体积模型。

进一步地，利用所述体积模型训练集对VAE网络进行训练，获得训练好的VAE网络，具体包括：

利用所述体积模型训练集对VAE网络进行训练，获得一次训练好的VAE网络；

将所述体积模型训练集输入所述一次训练好的VAE网络中的体积编码器，获得编码后的体积模型训练集；

对编码后的体积模型训练集中的编码后的体积模型进行插值，获得体积编码模型训练集；

将体积编码模型训练集输入所述一次训练好的VAE网络中的体积解码器，获得扩充后的体积模型训练集；

利用扩充后的体积模型训练集对所述一次训练好的VAE网络进行训练，获得二次训练好的VAE网络。

进一步地，将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，获得所述肖像图像样本的2D占用图和2D方向图，之前还包括：

利用PyTorch的CudaExtension模块，将Cuda程序编译成Pytorch的自定义结点；

手动编写所述自定义结点的“正向”传播函数和“反向”传播函数；

将体积渲染节点输入所述自定义结点，获得可微分体积渲染节点。

进一步地，将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，获得所述肖像图像样本的2D占用图和2D方向图，具体包括：

将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，利用公式I'_occupy,I'_direction＝P_ray-casting(V'_occupy,V'_direction,M_camera)，获得所述肖像图像样本的2D占用图和2D方向图；

其中，V'_occupy为重建体积模型的占用场，V'_direction为重建体积模型的方向场，M_camera为肖像图像样本的投影视角对应的相机参数，P_ray-casting为可微分体积渲染节点，I'_occupy为肖像图像样本的2D占用图，I'_direction为肖像图像样本的2D方向图。

进一步地，构建的损失函数为

其中，L_self为损失函数，ω₁为占用图的权重，ω₂为方向图的权重，I_occupy为发型区域占用图，I_direction为发丝纹理方向图，I'_occupy为肖像图像样本的2D占用图，I'_direction为肖像图像样本的2D方向图，||||₂为向量二范数。

一种自监督单视图三维发丝模型重建系统，所述系统包括：

发型区域占用图和发丝纹理方向图获取模块，用于获取肖像图像样本的发型区域占用图和发丝纹理方向图；

投影视角获得模块，用于根据所述肖像图像样本，利用Ray-casting光线投射投影方式，获得所述肖像图像样本的投影视角；

初始的单视图3D发型重建网络构建模块，用于根据图像编码器和训练好的VAE网络中的体积解码器，构建初始的单视图3D发型重建网络；

重建体积模型获得模块，用于将所述肖像图像样本输入初始的单视图3D发型重建网络，获得所述肖像图像样本的重建体积模型；

2D占用图和2D方向图获得模块，用于将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，获得所述肖像图像样本的2D占用图和2D方向图；

损失函数构建模块，用于以发型区域占用图和2D占用图的对应像素的差值，以及发丝纹理方向图和2D方向图的对应像素的差值构建损失函数；

训练好的单视图3D发型重建网络获得模块，用于以最小化损失函数为优化目标，对初始的单视图3D发型重建网络进行训练，获得训练好的单视图3D发型重建网络；

3D发型体积模型获得模块，用于获取待重建肖像图像，并将所述待重建肖像图像输入所述训练好的单视图3D发型重建网络，获得所述待重建肖像图像的3D发型体积模型；

3D数字化发型获得模块，用于将所述待重建肖像图像的3D发型体积模型转换为3D发型发丝模型，并传入渲染器，获得3D数字化发型。

进一步地，所述发型区域占用图和发丝纹理方向图获取模块，具体包括：

肖像纹理方向图获得子模块，用于将肖像图像样本输入Gabor滤波器，获得肖像纹理方向图；所述肖像纹理方向图包括发丝的纹理方向；

发型区域占用图获得子模块，用于将所述肖像纹理方向图和所述肖像图像样本输入UNet++分割网络，获得发型区域占用图；

发丝纹理方向图获得子模块，用于在所述肖像纹理方向图中提取所述发型区域占用图对应的发型区域，获得发丝纹理方向图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种自监督单视图三维发丝模型重建方法，首先获取肖像图像样本的发型区域占用图、发丝纹理方向图和投影视角，然后利用图像编码器和训练好的VAE网络中的体积解码器构建初始的单视图3D发型重建网络，以发型区域占用图和2D占用图的对应像素的差值，以及发丝纹理方向图和2D方向图的对应像素的差值构建损失函数，以最小化损失函数为优化目标，对初始的单视图3D发型重建网络进行训练，最后将待重建肖像图像输入训练好的单视图3D发型重建网络，获得3D数字化发型。本发明在对网络训练时无需“2D到3D”的真实数据对做监督，而是利用单张照片作为输入，借助可微分体积场重投影，将三维数据映射回二维，以输入本身作为约束，完成自监督训练，将用户可获取的单张图像输入训练好的单视图3D发型重建网络即可获得三维发丝模型，实现了一种端到端的三维发型重建，让用户快速获取发型重建结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种自监督单视图三维发丝模型重建方法的流程图；

图2为本发明提供的获取肖像图像样本的发型区域占用图和发丝纹理方向图的原理图；

图3为发丝模型与体积模型的对应图；图3(a)为发丝模型，图3(b)为体积模型；

图4为本发明提供的基于体积重投影的自监督单视图三维发丝模型重建管线图；

图5为利用本发明提供的自监督单视图三维发丝模型重建方法获得3D数字化发型图；图5(a)为单张输入图像，图5(b)为对应的3D数字化发型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供了一种自监督单视图三维发丝模型重建方法，如图1所示，方法包括：

S101，获取肖像图像样本的发型区域占用图和发丝纹理方向图；

S102，根据肖像图像样本，利用Ray-casting光线投射投影方式，获得肖像图像样本的投影视角；

S103，根据图像编码器和训练好的VAE网络中的体积解码器，构建初始的单视图3D发型重建网络；

S104，将肖像图像样本输入初始的单视图3D发型重建网络，获得肖像图像样本的重建体积模型；

S105，将重建体积模型的占用场和方向场输入可微分体积渲染节点，按照肖像图像样本的投影视角进行投影，获得肖像图像样本的2D占用图和2D方向图；

S106，以发型区域占用图和2D占用图的对应像素的差值，以及发丝纹理方向图和2D方向图的对应像素的差值构建损失函数；

S107，以最小化损失函数为优化目标，对初始的单视图3D发型重建网络进行训练，获得训练好的单视图3D发型重建网络；

S108，获取待重建肖像图像，并将待重建肖像图像输入训练好的单视图3D发型重建网络，获得待重建肖像图像的3D发型体积模型；

S109，将待重建肖像图像的3D发型体积模型转换为3D发丝模型，并传入渲染器，获得3D数字化发型。

步骤S101，获取肖像图像样本的发型区域占用图和发丝纹理方向图，具体包括：

将肖像图像样本输入Gabor滤波器，获得肖像纹理方向图；肖像纹理方向图包括发丝的纹理方向；

将肖像纹理方向图和肖像图像样本输入UNet++分割网络，获得发型区域占用图；

在肖像纹理方向图中提取发型区域占用图对应的发型区域，获得发丝纹理方向图。

步骤S103之前还包括：

从数据库中获取多个表示3D发型的发丝模型；

将每个发丝模型转换为体积模型，构成体积模型训练集；

利用体积模型训练集对VAE网络进行训练，获得训练好的VAE网络；训练好的VAE网络包括体积编码器和体积解码器。

其中，将每个发丝模型转换为体积模型，具体包括：

计算发丝模型的每个体素的发丝穿过数量；

将发丝穿过数量为0的体素的占用场设置为0；

将发丝穿过数量不为0的体素的占用场设置为1，并将所有穿过体素的发丝的平均生长方向作为体素的方向场的值；

利用体积模型训练集对VAE网络进行训练，获得训练好的VAE网络，具体包括：

利用体积模型训练集对VAE网络进行训练，获得一次训练好的VAE网络；

将体积模型训练集输入一次训练好的VAE网络中的体积编码器，获得编码后的体积模型训练集；

将体积编码模型训练集输入一次训练好的VAE网络中的体积解码器，获得扩充后的体积模型训练集；

利用扩充后的体积模型训练集对一次训练好的VAE网络进行训练，获得二次训练好的VAE网络。

步骤S105之前还包括：

手动编写自定义结点的“正向”传播函数和“反向”传播函数；

将体积渲染节点输入自定义结点，获得可微分体积渲染节点。

步骤S105，具体包括：

将重建体积模型的占用场和方向场输入可微分体积渲染节点，按照肖像图像样本的投影视角进行投影，利用公式I'_occupy,I'_direction＝P_ray-casting(V'_occupy,V'_direction,M_camera)，获得肖像图像样本的2D占用图和2D方向图；

步骤S107中构建的损失函数为

本发明提供的一种自监督单视图三维发丝模型重建方法的具体实现过程如下：

该方法及系统由三个主要阶段组成。第一阶段与第二阶段相对独立，分别进行2D/3D的预处理，其成果汇总在第三阶段组成完整系统管线。

第一阶段为输入图像预处理，目的是提取原始图像中的与发型重建相关的有效特征。具体包含三个部分：发丝纹理方向、发型区域占用和重投影所需的相机参数。

发丝纹理方式是图像中发型部分的重要特征，直接影响最终呈现的3D模型的外观。使用Gabor滤波器提取图像中的纹理信息，根据数据集的测试情况选取滤波函数合适的超参数，并进一步通过计算每个像素的方向信息的置信度筛选出有效的方向信息：

I_direction＝F_gabor(I)

其中F_gabor表示以Gabor滤波为核心的发丝纹理提取算法，输出是一张与输入图像大小相同的图像，其存储的是属于发丝的像素上的方向值θ∈[0,180°)。

发型区域占用表示的是图像中哪些像素属于头发。这是一个计算机视觉领域经典的二值区域分割问题，使用传统的损失函数：

L_segment＝||I_occupy-I'_occupy||₁

其中I_occupy为数据集中的真实分割结果(GroundTruth)，I'_occupy为网络的预测结果。

使用经典网络结构UNet的改进版UNet++进行训练，UNet++能提升参数利用率，同时加快网络收敛速度，在同等精确度的情况下可以大幅减小网络参数量，为将来可能部署在移动端做好了铺垫。

发型区域分割任务中的创新点是，在网络输入的部分同时提供了发丝纹理方向图作为提示信息：

I'_occupy＝N_unet++(I,I_direction)

观察发现，之前分割的失败案例主要是当头发颜色与相邻背景颜色相似时，网络容易误判头发与背景的边界。发丝纹理具有较为独特的鲜明特征，是衣服、墙面等背景不具备的，所以将第一部分提取的纹理方向图一起提供给网络，希望网络能够利用到这部分信息。测试证明本发明的方法在颜色相近的边缘部分取得了明显效果。

由于Gabor滤波的方案是对全图所有像素进行的，而本发明只需要头发部分的信息，所以再使用第二部分区域分割的结果，对纹理方向图取占用的交集，即可得到最终的方向图。

图2展示了由输入图像(肖像图像样本)提取得到发丝方向图(发丝纹理方向图)和发型占用图(发型区域占用图)的整体流程及示例效果。

相机参数是使用重投影自监督方法的必须要计算的量，因为只有在正确的视角下投影，才能保证3D模型映射到2D后，与输入图片有逐像素的对应，才能进行正确的约束。借助人脸关键点这一明确、鲁棒的特征来估计相机参数。使用Github上开源的人脸关键点检测代码，检测得到68个人脸关键点：

M_face2d＝N_detect(I)

其中I为输入图像，N_detect为人脸关键点检测网络，输出M_face2d为68个图像上的人脸关键点。之后通过优化的方式得到相机参数。

由于3D模型是体积场，而非传统的Mesh，所以投影方式也非传统的光栅化，而是体积渲染的经典方案Ray-casting光线投射。首先在体积场中，标定标准人脸的68个3D关键点，使用任意一组Ray-casting的相机参数M_camera，都能将3D关键点投影到2D平面上：

M'_face2d＝P_ray-casting(M_face2d,M_camera)

这时就可以与输入图像检测得到的关键点计算Loss：

利用PyTorch实现这样的优化器：以Ray-casting的相机参数作为优化的参数，以2D关键点的误差做为优化的目标函数，Adam作为优化器，优化收敛后即得到了能够将3D人脸正确投影到2D的相机参数M_camera，这组参数表示的相机当然也适用于发型的投影。

第二阶段为3D发型数据的预处理。目的是构建具有强大生成能力的3D发型参数化模型。主要任务是两点：一是将原本不利于提取特征的发丝表示形式重整，便于网络提取特征；二是对数据集进行扩充，提升网络的泛化性。

第一步：将发丝模型转换为体积模型。

第二步：利用体积模型训练VAE网络，VAE包体积编码器和体积解码器。

第三步：利用第二步中训练好的VAE产生新数据，用新数据扩充数据集再次训练VAE，这里重新训练的VAE网络仍然是包含体积编码器和体积解码器两部分的。

首先介绍下3D发型的表示形式。发片模型多用于早期游戏和动漫中，以Mesh表示不同层次的头发，数据量小，但表达能力差，且看起来真实感不足。发丝模型H_strands将每一根发丝都以空间中一系列点的连线表示，与真实发丝的结构一致，理论上有能力表达任意发型，用于高质量的影视作品和前沿研究中。虽然发丝模型方便渲染，但其信息冗余、无结构，不利于提取特征。

因此建立发型的体积模型H_volume，将空间用一个个小立方体表示，也就是类比像素的体素。体积模型H_volume由占用场V_occupy和方向场V_direction两部分组成，占用场表示该立方体是否有发丝穿过，方向场保存发丝在此处的生长方向(空间向量)。体积模型避免了相邻发丝之间的冗余信息，并且数据天然按空间位置排列，可以方便的使用空间卷积提取特征。

图3展示了发丝模型与相对应的体积模型。

体积模型虽然利于网络学习，但是其渲染结果就是一个个小立方体，因此网络生成体积模型后，要转换为发丝模型来展示效果。同样的，一开始数据库中全部是发丝模型，想要训练时使用体积模型，也需要转换。下面分别介绍两种模型相互的方法。

发丝转体积：统计每个体素中穿过的发丝数量，如果是0，则该体素的占用场为0，反之为1。当占用场为1时，计算所有穿过该体素的发丝的平均生长方向(空间曲线的切线方向)，作为方向场的数值。

体积转发丝：由头皮上固定的起点开始，沿其所在体素的方向场所存储的空间向量，产生下一个点；下一个点可能位于一个新的体素内，再沿新体素的方向产生第三个点；重复此过程，直到新产生的点所在的体素占用场为0，则表示已经生长到边界，该发丝生长完成。两种模型的相互转换采用Cuda并行加速，比cpu版本的效率提升两个数量级以上。

得到体积表示的3D发型后，就可以利用深度学习的方法，进一步提取特征。采用VAE(变分自编码器)的架构，希望通过训练获取3D发型的特征编码：

C_latent＝E_volume(V_occupy,V_direction)

V'_occupy,V'_direction＝D_volume(C_latent)

体积场输入进网络的编码器E_volume得到潜在编码C_latent，编码输入到网络的解码器D_volume恢复体积场，约束输入输出相同：

其中KL散度项为VAE变分的约束，要求潜在编码尽可能符合标准正态分布；L_vae为训练VAE网络时的约束项(损失函数)，α₁为第一项(占用场重建一致)的权重，是超参数(手动设定的标量)，α₂为第二项(方向场重建一致)的权重，是超参数(手动设定的标量)，α₃为第三项(编码分布约束)的权重，是超参数(手动设定的标量)。

既然能恢复模型，自然就要求中间的编码必须包含输入模型的有效信息。使用3D的卷积和3D反卷积分别作为编码器和解码器的主要Layer。

本发明与现有的VAE结构相比有4点改进。一、方向场采用球坐标角度的两个值表示，而非空间向量的3个值。因为归一化的向量本身就只有两个自由度，采用空间向量的话，训练时需要再加一个向量模长为1的约束项，不利于网络收敛。二、编码器中加入残差连接，将当前层的降采样结果和卷积结果合并送入下一层，提升网络能力。三、输入的占用场是0和1的二值，但输出却是0～1的浮点数，所以要取一个阈值来划分该位置是否被占用。针对占用场的约束项，给予“标签0”和“标签1”总量相同的权重，而非每个体素权重相等，这样可以保证以0.5为阈值进行划分占用场的合理性。四、的特征编码以单行向量表示，前后均有全连接层，这其实与原始的VAE做法一致。

得益于VAE的变分体系，训练得到的潜在编码具备一定的空间连续性。除了原始模型对应的编码能解码出发型，两个有效编码之间插值产生的中间编码，也能解码出有效发型。测试选取两组编码，在中间均与插值30个中间编码，将这32个编码全部解码得到的3D发型顺次播放，即可看到两个差异很大的发型之间的3D平滑过渡。这首先证明了VAE训练的成功，其次插值发型也具备一定的独特性，选取其中有代表性的新发型来扩充原始数据集。

使用扩充后的数据集再次训练VAE网络，如此重复，第三次训练时的模型数量达11万。训练好的解码器D_volume，具备根据不同的编码生成大量真实发型的能力，这样“编码+解码器”就共同构成了3D发型的参数化模型(实验中编码为1024维的向量)。

第三阶段为单视图3D发型重建网络，要求重建得到的3D发型与照片在相同视角下有相似的外观，满足用户获取定制化3D数字形象的需求。主要包含两个部分：自研可微分体积渲染，以及借助其实现的自监督重建管线。

可微分渲染是实现“2D输入监督3D输出”的必要条件。由于发丝的渲染本身在图形渲染领域就是一个非常困难的课题：传统光栅化渲染的头发缺乏真实感，离线算法的双圆柱模型配合光线追踪可以实现超高真实感的毛发渲染，但是计算速度慢，着色过程求导难度大，且用于自监督的话，不仅要真实，还要和原图相似，这就要求对材质也有正确的估计，这显然是一个额外的庞大课题。

创新地采用特征体积场H_volume来表示3D发型，每个体素中保存分别占用和方向信息，其投影到2D后就得到了占用图I'_occupy和方向图I'_direction这两张特征图。由于核心目的是重建发型的几何，从原图抽象出的占用图和方向图就足够表示发丝几何相关的信息了，所以颜色、材质、光照等与发丝几何无关的信息自然被剔除。以输入的特征图作为约束，就能实现的目的。

首先基于C++和Cuda实现了Ray-casting的体积投影算法。给定相机位置和视平面，由相机向视平面上每个像素中心发射一根光线，对每一根光线做并行处理。如果光线和体积场相交，从光线进入体积场的交点开始，沿光线方向向前步进，直到遇到第一个占用场数值大于0.5的体素，那么这个体素中保存的信息就是透过该像素看到的发型信息。把占用场和方向场的数值分别写入两张投影图中，写入像素的位置就是该光线穿过的对应像素位置。要注意，方向场中保存的是球坐标角度，投影时要先将其转换为3D空间向量，然后将向量投影到与光线方向垂直的屏幕上，得到平面上2D的方向向量，再将其转换为角度，即可与输入图像处理得到的方向图具有相同的物理意义，这样就可以逐像素计算Loss进行约束。

光线投射(Ray-casting)本身是一个经典算法，但是将其应用在神经网络中，以可微分的形式出现，是本发明的一个创新。使用PyTorch的CudaExtension模块，将Cuda程序编译成Pytorch的自定义结点，并手动编写该结点的“正向”和“反向”传播函数。在应用时，只需要import自定义的Ray-casting节点，即可实现特征体积场的可微分渲染：

I'_occupy,I'_direction＝P_ray-casting(V_occupy,V_direction,M_camera)

其中M_camera为根据输入图像预处理得到的相机参数，V_occupy,V_direction共同组成需要被投影的3D体积发型，I'_occupy,I'_direction是投影得到的占用图和方向图(区别于通过输入图像处理得到的占用图I_occupy和方向图I_direction)。

自监督重建管线是方法的核心，使用到前面两个阶段的全部成果。

将输入图像I传入以DenseNet为架构的图像编码网络中得到1024维的中间编码：

C_latent＝E_image(I)

将编码传入通过VAE训练好的解码器D_volume，得到3D发型体积场(此阶段中Decoder参数固定，不参与训练)：

V'_occupy,V'_direction＝D_volume(C_latent)

将生成的发型体积模型通过可微分体积投影结点，得到两张特征图：

I'_occupy,I'_direction＝P_ray-casting(V'_occupy,V'_direction,M_camera)

这两张特征图中分别包含发型占用信息和发丝方向信息，这与从输入图片中提取的信息表达形式一致，因此可以用输入作为约束：

这就完成了一个自监督的闭环，由于整个管线所有部分都是可微分的，所以最小化L_self即可优化网络中所有的可训练参数。

图4展示了基于体积重投影的自监督单视图三维发丝模型重建管线。

与传统的监督训练不同，的训练不需要“图像”和“3D发型”的真实对应关系作为监督。使用自监督不仅仅是方法上的创新，也有很强的现实意义，因为与照片相对应的3D发丝发型的GroundTruth现阶段根本没有技术可以获取。之前论文中的监督方法，都是以前人手工或检索等本来就效果不佳的算法结果作为“GroundTruth”进行训练，这本身就限制了网络不可能做的比之前的算法做的更好。而自监督完全不担心这一点，的监督信息直接从输入图像获取，是最纯粹、最有效的。

综上，通过三个大的阶段，若干小的技术方案，最终实现了基于体积重投影的自监督单视图三维发丝模型重建方法。

整个过程总结为以下步骤：

自监督重建管线是本发明方法的核心，由于使用了深度学习的方法，所以本节分为训练阶段和测试阶段分别说明具体实施方式。

步骤1：对输入的单张RGB图像I预处理，得到占用图I_occupy、方向图I_direction和相机参数矩阵M_camera。

步骤2：将原始发丝模型H_strands处理为体积模型H_volume，其中体积模型由占用场V_occupy和方向场V_direction两部分组成，作为后续网络训练的数据。

步骤3：使用步骤二中的体积模型训练VAE网络，得到体积编码器E_volume和体积解码器D_volume，两部分均包含网络结构和训练好的参数。

步骤4：自监督重建管线。

首先将输入图像I经过图像编码器E_image得到潜在编码C_latent：

C_latent＝E_image(I)

然后将编码C_latent输入步骤3中训练好的体积解码器D_volume中，得到重建的体积模型H'_volume，也包含占用场V'_occupy和方向场V'_direction两部分：

V'_occupy,V'_direction＝D_volume(C_latent)

将占用场V'_occupy和方向场V'_direction输入可微分体积渲染结点P_ray-casting中，按输入图像的既定视角M_camera投影，得到2D的占用图I'_occupy和方向图I'_direction：

I'_occupy,I'_direction＝P_ray-casting(V'_occupy,V'_direction,M_camera)

使用二范数对其进行自监督约束：

以最小化L_self为优化目标，即可训练整个自监督重建网络。ω₁为第一项(占用图一致)的权重，是超参数(手动设定的标量)；ω₂为第二项(方向图一致)的权重，是超参数(手动设定的标量)；||||₂为向量2范数：向量x的2范数是x中各个元素平方之和再开根号。

测试阶段是端到端的网络推理过程，无需任何预处理，直接将输入图像I传入网络，即可得到3D发型的体积模型：

V'_occupy,V'_direction＝D_volume(E_image(I))

将生成的体积模型转换为发丝模型，传入渲染器中，即可在荧幕上看到3D的数字化发型。

图5展示了本发明整个系统最终的测试效果。

本发明是一种由单张照片生成三维发型的建模系统，输出与用户肖像具有相似外观的发丝模型，并可以作为高品质渲染、三维编辑、物理动画等后续图形工作的基础。本发明使用深度学习的方法：从公开的三维发型数据集获取数据，使用变分自编码网络训练得到参数化模型；预处理输入图像得到特征图，再送入编码网络得到的特征编码；最后，将编码输入到参数化模型中，即可生成与输入图像相对应的三维发型。其核心贡献在于，网络训练时无需“2D到3D”的真实数据对做监督，而是借助自研的可微分体积场重投影，将三维数据映射回二维，以输入本身作为约束，完成自监督。整套系统训练完成后推理速度快，帮助用户方便地获取自己的三维数字形象。

本发明实现一种端到端的三维发型重建系统，可以让用户快速获取结果。该系统不依赖不够准确的标签数据，可以直接根据输入图像的特征约束生成的三维模型，具有更精准的控制力。主要应用于为用户创建定制化的三维数字人像，进一步可用于提供个性化的VR或游戏体验。

本发明还提供了一种自监督单视图三维发丝模型重建系统，系统包括：

投影视角获得模块，用于根据肖像图像样本，利用Ray-casting光线投射投影方式，获得肖像图像样本的投影视角；

重建体积模型获得模块，用于将肖像图像样本输入初始的单视图3D发型重建网络，获得肖像图像样本的重建体积模型；

2D占用图和2D方向图获得模块，用于将重建体积模型的占用场和方向场输入可微分体积渲染节点，按照肖像图像样本的投影视角进行投影，获得肖像图像样本的2D占用图和2D方向图；

3D发型体积模型获得模块，用于获取待重建肖像图像，并将待重建肖像图像输入训练好的单视图3D发型重建网络，获得待重建肖像图像的3D发型体积模型；

3D数字化发型获得模块，用于将待重建肖像图像的3D发型体积模型转换为3D发型发丝模型，并传入渲染器，获得3D数字化发型。

发型区域占用图和发丝纹理方向图获取模块，具体包括：

肖像纹理方向图获得子模块，用于将肖像图像样本输入Gabor滤波器，获得肖像纹理方向图；肖像纹理方向图包括发丝的纹理方向；

发型区域占用图获得子模块，用于将肖像纹理方向图和肖像图像样本输入UNet++分割网络，获得发型区域占用图；

发丝纹理方向图获得子模块，用于在肖像纹理方向图中提取发型区域占用图对应的发型区域，获得发丝纹理方向图。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种自监督单视图三维发丝模型重建方法，其特征在于，所述方法包括：

获取肖像图像样本的发型区域占用图和发丝纹理方向图；

2.根据权利要求1所述的自监督单视图三维发丝模型重建方法，其特征在于，所述获取肖像图像样本的发型区域占用图和发丝纹理方向图，具体包括：

3.根据权利要求1所述的自监督单视图三维发丝模型重建方法，其特征在于，所述根据图像编码器和训练好的VAE网络中的体积解码器，构建初始的单视图3D发型重建网络，之前还包括：

从数据库中获取多个表示3D发型的发丝模型；

将每个发丝模型转换为体积模型，构成体积模型训练集；

4.根据权利要求3所述的自监督单视图三维发丝模型重建方法，其特征在于，所述将每个发丝模型转换为体积模型，具体包括：

计算发丝模型的每个体素的发丝穿过数量；

将发丝穿过数量为0的体素的占用场设置为0；

5.根据权利要求3所述的自监督单视图三维发丝模型重建方法，其特征在于，利用所述体积模型训练集对VAE网络进行训练，获得训练好的VAE网络，具体包括：

6.根据权利要求1所述的自监督单视图三维发丝模型重建方法，其特征在于，将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，获得所述肖像图像样本的2D占用图和2D方向图，之前还包括：

手动编写所述自定义结点的正向传播函数和反向传播函数；

7.根据权利要求1所述的自监督单视图三维发丝模型重建方法，其特征在于，将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，获得所述肖像图像样本的2D占用图和2D方向图，具体包括：

将所述重建体积模型的占用场和方向场输入可微分体积渲染节点，按照所述肖像图像样本的投影视角进行投影，利用公式I′_occupy,I′_direction＝P_ray-casting(V′_occupy,V′_direction,M_camera)，获得所述肖像图像样本的2D占用图和2D方向图；

其中，V′_occupy为重建体积模型的占用场，V′_direction为重建体积模型的方向场，M_camera为肖像图像样本的投影视角对应的相机参数，P_ray-casting为可微分体积渲染节点，I′_occupy为肖像图像样本的2D占用图，I′_direction为肖像图像样本的2D方向图。

8.根据权利要求1所述的自监督单视图三维发丝模型重建方法，其特征在于，构建的损失函数为

其中，L_self为损失函数，ω₁为占用图的权重，ω₂为方向图的权重，I_occupy为发型区域占用图，I_direction为发丝纹理方向图，I′_occupy为肖像图像样本的2D占用图，I′_direction为肖像图像样本的2D方向图，|| ||₂为向量二范数。

9.一种自监督单视图三维发丝模型重建系统，其特征在于，所述系统包括：

10.根据权利要求9所述的自监督单视图三维发丝模型重建系统，其特征在于，所述发型区域占用图和发丝纹理方向图获取模块，具体包括：