CN115375839A

CN115375839A - 一种基于深度学习的多视角头发建模方法及系统

Info

Publication number: CN115375839A
Application number: CN202210922490.5A
Authority: CN
Inventors: 匡志毅; 陈益扬; 郑友怡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-22

Abstract

本发明提供了一种基于深度学习的多视角头发建模方法及系统，本发明先获取每一视角下的二维图像的生长方向图和头部模型的深度图；对头部模型构造头发生长的容积空间，在头发生长的容积空间内获取多个查询点；将每一视角下的二维图像的生长方向图、头部模型的深度图和每一查询点的三维坐标作为一训练好的多目重建网络的输入，获得每一查询点的占用值和生长方向，最后依据查询点的占用值和生长方向在头部模型上生长头发，完成头发建模；本发明结合了两类方法的优点，可使用较少的输入，较有效率地重建出精准的头发几何，能广泛地部署、使用到人体数字化的场景中。

Description

一种基于深度学习的多视角头发建模方法及系统

技术领域

本发明属于计算机图形学，计算机视觉领域，尤其涉及一种基于深度学习的多视角头发建模方法及系统。

背景技术

现有的从图片重建头发几何的方法，根据所需输入图片的数量，大致可以划分为两类：以多张图片为输入的头发建模，和以单张图片为输入的头发建模。前者基于传统的多目重建技术，用特征匹配求解深度值的方式，还原粗糙的头发点云，在点云中根据头发的生长方向构造头发丝。这类方法可以重建出较为精确的头发几何，但是往往需要较为复杂的采集设备(几十台相机同步拍摄、各方向均匀的打光)和较长的处理时间(单个模型的处理时间通常在1小时以上)，因此难以被广泛地部署和使用。另一方面，后者则以一张人的正面照片为输入，使用数据驱动或者深度学习的方法，构造一个空间向量场，向量场代表了头发的生长方向，从而可以在这个向量场里构造头发丝。这类方法的优点是可以使用常见的肖像图片作为输入，较为方便地重建出合理的头发结构，但是往往只能还原出大致的头发形状和结构，缺乏细节，也难以对训练数据中缺少的头发类型进行建模。此外，由于输入信息只有正面的图像，从单张图片重建的头发只在正面视角和原图相似，在侧面和背面视角无法准确地对头发进行建模。

发明内容

本发明的目的是针对现有技术的不足，提供了一种基于深度学习的多视角头发建模方法及系统，本发明结合了现有的两类方法的优点，即可使用较少的输入图片(稀疏的视角)，较有效率地(单个模型的处理时间在1分钟左右)重建出精准的头发几何。本发明旨在将高质量的头发建模技术广泛地部署、使用到人体数字化的场景中，高效地重建出精准的头发的几何结构。

本发明采用的技术方案具体如下：

一种基于深度学习的多视角头发建模方法，包括：

构建头部模型，并获取待重建头发在多个视角下的二维图像；

获取每一视角下的二维图像的生长方向图和头部模型的深度图；

对头部模型构造头发生长的容积空间，在头发生长的容积空间内获取多个查询点；

将每一视角下的二维图像的生长方向图、头部模型的深度图和每一查询点的三维坐标作为一训练好的多目重建网络的输入，获得每一查询点的占用值σ和生长方向d；

依据查询点的占用值σ和生长方向d在头部模型上生长头发，完成头发建模；

其中，多目重建网络由骨干特征提取网络、特征聚合模块、信息聚合模块和解码模块组成，其中骨干特征提取网络用于依据每一视角下的生长方向图和深度图沿通道维度叠加的叠加图，提取获得每一视角下的特征图f_i；

所述特征聚合模块用于依据每一视角下获取的查询点X特征f_i(x_i)及对应的相机坐标系的坐标p_i(X)，得到每一视角下查询点X的表征向量

其中，所述查询点X特征f_i(x_i)依据每一查询点X在第i个视角下的二维坐标x_i，从各视角下的特征图f_i查找获得；

信息聚合模块用于将全部视角下查询点X的表征向量

及所述查询点X对应的用于查询的表征向量q(X)聚合获得所述查询点X的三维特征向量

解码模块用于依据查询点X的三维特征向量

解码获得占用值σ和生长方向d；

所述训练好的多目重建网络是基于训练数据集，通过以最小化输出的每一查询点的占用值σ和生长方向d与真值的损失为目标进行训练获得。

进一步地，所述对头部模型构造头发生长的容积空间，构造的头发生长的容积空间大小设置为头部模型的边界框的两倍。

进一步地，所述查询点为头发生长的容积空间中各个体素的角点，所述依据查询点的占用值σ和生长方向d在头部模型上生长头发，完成头发建模，具体为：在生长的容积空间内均匀地采样点，并沿着生长方向场双向生长头发，空间中任意一点的头发生长方向是包含这一点的体素的角点处生长方向的三线性插值的结果。

进一步地，所述训练数据集中的每组训练数据包括：

同一头发模型在多个视角下的二维图像、基于头发模型采样的每一查询点的占用值和生长方向。

进一步地，所述基于头发模型采样的每一查询点通过如下方法获得：将头发模型周围的空间体素化，如果一个体素被任意一根头发丝穿过，则认为一个体素为正，反之则认为是负，然后，在正体素和正体素邻近的负体素中密集地采样，在剩余的负体素中稀疏地采样作为查询点。

进一步地，训练采用的损失函数如下：

其中，Locc是占用值的损失函数，σ^*表示占用值的真值，d^*是生长方向的真值，N是查询点总数。

进一步地，在依据查询点的占用值σ和生长方向d在头部模型上生长头发后，还包括微调步骤：

将依据查询点的占用值σ和生长方向d在头部模型上生长头发后得到的每根三维头发丝投影到它的可见视角，形成一根二维头发丝，每根投影的二维头发丝依据与它最匹配的引导头发丝按段进行形变，多个视角的形变后的二维头发丝通过反投影，聚合成最终形变后的三维头发丝；其中，所述与它最匹配的引导头发丝通过投影视角对应的二维图像中选择获得。

进一步地，所述获取每一视角下的二维图像的生长方向图具体如下：

将每一视角下的二维图像输入至带有方向的加伯滤波器进行卷积，为每个像素点确定其最显著的头发生长方向，得到对应视角下的一张带噪声的生长方向图和测定生长方向图准确度的置信图；

将对应视角下的一张带噪声的生长方向图和测定生长方向图准确度的置信图作为一训练好的去噪卷积网络的输入，输出获得对应视角下的生长方向图；

所述训练好的去噪卷积网络是基于训练数据集，通过以最小化输出的生长方向图与真值的损失为目标进行训练获得。

一种基于深度学习的多视角头发建模系统，用于实现上述基于深度学习的多视角头发建模方法，包括：

数据预处理单元，用于构建头部模型，并获取待重建头发在多个视角下的二维图像；获取每一视角下的二维图像的生长方向图和头部模型的深度图；

查询点获取单元，用于对头部模型构造头发生长的容积空间，在头发生长的容积空间内获取多个查询点；

头发建模单元，将每一视角下的二维图像的生长方向图、头部模型的深度图和每一查询点的三维坐标作为一训练好的多目重建网络的输入，获得每一查询点的占用值σ和生长方向d；依据查询点的占用值σ和生长方向d在头部模型上生长头发，完成头发建模。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述的基于深度学习的多视角头发建模方法。

本发明的有益效果是：本发明相较于传统多目重建方法，在达到相近建模质量的前提下，减少了对输入图片数量的要求，可使用较稀疏的视角(4张及以上的图片)重建头发的几何结构，相机拍摄设备更易部署。同时，单个头发模型的构建时间从以前的1h以上，缩短到了1分钟左右，大大提高了建模效率，可用于大规模的测试。相较于单目数据驱动重建方法，以往的建模结果只对前部可见的头发进行了粗糙的还原，而本发明的建模结果还原了完整的目标头发结构(包括侧面和背面)且显著地拥有更多与原图像一致的细节。

本发明结合了以上两类方法的优点，可使用较少的输入图片(稀疏的视角)，较有效率地(单个模型的处理时间在1分钟左右)重建出精准的头发几何。本发明旨在将高质量的头发建模技术广泛地部署、使用到人体数字化的场景中，高效地重建出精准的头发的几何结构。

附图说明

图1是本发明整体管线示意图；

图2是多视角头发丝形变示意图；其中，a是二维图像，b是生长方向图，c是在每个可见视角投影后形成一根二维头发丝的示意图；d是二维头发丝形变过程，e是二维头发丝通过反投影，聚合成最终形变后的三维头发丝的示意图；

图3是4组本发明的头发建模结果与二维图像的对比图。

具体实施方式

下面结合具体实施方式和附图对本发明作进一步说明。

本发明提供的一种基于深度学习的多视角头发建模方法，如图1所示，具体包括：

步骤一：获取待重建头发在多个视角下的二维图像，并获取每一视角下的二维图像的生长方向图；基于多个视角下的二维图像构建头部模型，并获取头部模型的深度图；

其中，待重建头发在多个视角下的二维图像是指包含待重建头发的二维图像，可以通过在不同视角下进行相机拍摄获得。为了更好的得到三维重建效果，一般至少包括正面、背面、左面和右面的二维图像。

获取每一视角下的二维图像的生长方向图Orientation Map可以采用常规的过滤器获得，但直接得到的生长方向图准确度较低，在原图的暗部和模糊的区域含有较大的噪声，会影响后续头发建模的准确度。因此，优选地，可以进一步对生长方向图进行去噪，以提高头发建模的准确度，示例性地，本实施例提供了基于训练好的去噪卷积网络的获取每一视角下的二维图像的生长方向图的方法，具体如下：

对于每一视角下的二维图像，首先分割出头发区域，再在头发区域内，使用带有方向的加伯滤波器进行卷积，为每个像素点确定其最显著的头发生长方向，得到一张带噪声的生长方向图Orientation Map和测定生长方向图准确度的置信图。

其中训练好的去噪卷积网络是基于仿真得到的训练数据集，通过以最小化输出的生长方向图与真值的损失为目标进行训练获得。

步骤二：对头部模型构造头发生长的容积空间，在头发生长的容积空间内获取多个查询点；

头发生长的容积空间应当要尽可能覆盖绝大多数的发型的全部头发区域，一般设置为头部模型的边界框(bounding box)的两倍，本实施例中，具体了设置了0.5m×0.6m×0.8m的容积空间尺寸。

步骤三：将每一视角下的二维图像的生长方向图、头部模型的深度图和每一查询点的三维坐标作为一训练好的多目重建网络的输入，获得每一查询点的占用值σ和生长方向d；

其中，多目重建网络HairMVSNet学习从一个查询点被观察到的二维特征，到该查询点的空间占用值和三维生长方向的映射。HairMVSNet学习的是局部特征的映射，因此，相较直接学习全局特征，可以更好的保留细节信息，并且基于局部特征的泛化性，更易于迁移到新的未见的发型上。HairMVSNet被制定为：

H(X，{Dir，Dep}₁，...，{Dir，Dep}_n)＝(σ，d)

式中，n是视角数量，HairMVSNet H使用了隐式表达，它接收一个查询点X和此前预处理得到的方向图Dir、深度图Dep为输入，输出在查询点X处的空间占用值σ和生长方向d。

具体地，HairMVSNet由依次连接的骨干特征提取网络、特征聚合模块、信息聚合模块和解码模块组成；

首先，每一视角下的生长方向图和深度图沿通道维度叠加，并输入一个骨干特征提取网络F，提取获得每一视角下的特征图f_i：

f_i＝F({Dir，Dep}_i)

i表示第i个视角；本发明优选是一个较为轻量的U-Net作为骨干特征提取网络F，兼顾效率和特征提取质量。它可被替换为其他可以用于密集特征去预测的网络，例如resnet系列的backbone network，可达到相近的效果，在效率和特征提取质量上会有一定的差异。

然后，从每个视角下的特征图f_i中，抽取查询点X相机投影处的对齐到像素的特征f_i(x_i)。由于头发生长方向是一个各向异性的特征，即，从不同的视角观察到的二维生长方向是不同的，在各视角下的图像特征f_i(x_i)以外，还利用了与视角信息相关的特征，包括查询点X在各视角对应的相机坐标系的坐标p_i(X)作为点嵌入，以及一个可学习的视角嵌入参数向量e_i。将每一视角下获取的查询点X特征f_i(x_i)及对应的相机坐标系的坐标p_i(X)输入至特征聚合模块g，得到每一视角下查询点X的表征向量

每个视角的完整的表征向量为：

φ_i＝g(f_i(x_i)，p_i(X))+e_i

x_i是查询点X在第i个视角下的二维坐标，p_i(X)表示采样点X在第i个视角对应的相机坐标系的坐标，其中，本实施例中，g是一个MLP网络，用于聚合特征向量。这些视角信息特征参数有效地帮助HairMVSNet学习了各视角之间的相互关系，在视觉效果和指标数值统计上都显著地提升了结果。

为聚合多个视角的表征信息，聚合的方法需要能接收任意数量的无顺序的输入特征向量，进一步将全部视角下查询点X的表征向量

及所述查询点X对应的用于查询的表征向量q(X)输入至信息聚合模块E，聚合获得所述查询点X的三维特征向量

E(q(X)，φ₁，...，φ_n)＝Φ_X

其中，q(X)是用于查询的表征向量，它融合了查询点X的坐标信息；具体地，q是一个可学习的参数向量，和x坐标连接后过一个全连接层，得到q(X)。n是视角数量；本实施例中采用transformer模型作为信息聚合模块。这一transformer模型得到了图像信息和视角信息的输入，因此可以有效地聚合来自不同视角的特征，最终输出聚合后的表征查询点X的三维特征向量

最后，再使用一个解码模块解码三维特征向量Φ，得到查询点X的空间占用值σ(头发穿过为1，头发不穿过为0)和生长方向d，本实施例中采用MLP网络作为解码模块，表示如下：

MLP(Φ_X)＝(σ，d)

所述训练数据集采用仿真头发模型，例如，公开的USC-HairSalon数据集等，此数据集中包含了多样的头发模型，包括长、短、直、卷等类型的头发，以训练一个泛化性较好的模型。训练数据集中的每组训练数据包括：

(1)同一仿真头发模型在多个视角下的二维图像：

为了使相机视角大致覆盖完整的头发区域，同时保持通用性，本实施例初始设置虚拟的相机视角均匀地分布在头发模型的周围，并对相机姿势加入随机的扰动。

(2)基于仿真头发模型采样的每一查询点的占用值和生长方向：

由于头发丝实际上只占据了非常少的物理空间，本实施例中将头发模型周围的空间体素化，如果一个体素被任意一根头发丝穿过，则认为一个体素为正，反之则认为是负。然后，在正的体素和这些正体素邻近的负体素中密集地采样，在剩余的负体素中稀疏地采样作为查询点，在正体素采样的查询点占用值为正，在负体素采样的查询点占用值为0，并计算占用值为正的查询点的头发生长方向，得到所需的每一查询点的占用值和生长方向。这一方式让HairMVSNet的学习聚焦在头发的区域，同时大致平衡了采样点的正负样本。对于头发生长方向的预测，使用原本的头发丝上的点作为采样点，以保留原始的高分辨率。

作为一优选方案，本实施例提供了一种训练时损失函数，具体地，空间占用值被制定为一个二值分类问题，使用交叉熵损失训练：

σ^*表示占用值真值，本实施例中为仿真获得的占用值；三维的头发生长方向则使用平均L-1损失函数训练：

d^*是生长方向的真值，N是查询点总数。

步骤四：依据查询点的占用值σ和生长方向d在头部模型上生长头发，完成头发建模；

该步骤中，可以直接依据采样的查询点沿着生长方向场双向生长头发。作为一优选方案，为了有效率地生成头发丝，可以先体素化目标头发周围的空间(头发生长的容积空间)，并通过HairMVSNet查询各个体素的角点的占用值和生长方向。然后再在生长的容积空间内均匀地采样点，并沿着生长方向场双向生长头发，空间中任意一点的头发生长方向是包含这一点的体素的角点处生长方向的三线性插值的结果。

以上步骤生成的头发丝已经和输入的二维图像大致相近，但仍可能过于平滑，因为体素的分辨率不能无限高，否则会大大降低重建效率。由于，观察到三维头发丝的结构应当与它的可见视角的二维投影的结构相匹配，作为一优选方案，在依据查询点的占用值σ和生长方向d在头部模型上生长头发后，还包括微调步骤，具体地：

如图2所示，对于每一张输入的二维图像，在它的头发区域内，沿着二维生长方向图，生长二维的头发丝，如图2b所示。这些二维的头发丝包含了原输入二维图像(图2a)的大部分细节，可用于指导形变。然后，把每根三维头发丝投影到它的可见视角，在每个可见视角投影后形成一根二维头发丝(图2c)。每根投影的二维头发丝依据与它最匹配的引导头发丝按段进行形变(图2d)，这个形变过程不受交叉的无关发丝(图2d横向的曲线)的影响。多个视角的形变后的二维头发丝通过反投影，聚合成最终形变后的三维头发丝(图2e)。通过重新访问输入的各视角下的二维图像，用二维图像的二维头发结构信息引导三维头发丝的形变，以微调头发丝结构，更贴近原输入二维图像，从而有效提高头发建模的准确度。

图3是4组本发明的头发建模结果与二维图像的对比图，从图中可以看出，本发明方法可使用较少的输入图片(稀疏的视角)，较有效率地(单个模型的处理时间在1分钟左右)重建出精准的头发几何，并且本发明的建模结果还原了完整的目标头发结构(包括侧面和背面)且显著地拥有更多与原图像一致的细节。

与前述一种基于深度学习的多视角头发建模方法的实施例相对应，本发明还提供了一种基于深度学习的多视角头发建模系统的实施例。

本发明的一种基于深度学习的多视角头发建模系统，包括：

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于深度学习的多视角头发建模方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种基于深度学习的多视角头发建模方法，其特征在于，包括：

信息聚合模块用于将全部视角下查询点X的表征向量

解码模块用于依据查询点X的三维特征向量

解码获得占用值σ和生长方向d；

2.根据权利要求1所述的方法，其特征在于，所述对头部模型构造头发生长的容积空间，构造的头发生长的容积空间大小设置为头部模型的边界框的两倍。

3.根据权利要求1所述的方法，其特征在于，所述查询点为头发生长的容积空间中各个体素的角点，所述依据查询点的占用值σ和生长方向d在头部模型上生长头发，完成头发建模，具体为：在生长的容积空间内均匀地采样点，并沿着生长方向场双向生长头发，空间中任意一点的头发生长方向是包含这一点的体素的角点处生长方向的三线性插值的结果。

4.根据权利要求1所述的方法，其特征在于，所述训练数据集中的每组训练数据包括：

5.根据权利要求1所述的方法，其特征在于，所述基于头发模型采样的每一查询点通过如下方法获得：将头发模型周围的空间体素化，如果一个体素被任意一根头发丝穿过，则认为一个体素为正，反之则认为是负，然后，在正体素和正体素邻近的负体素中密集地采样，在剩余的负体素中稀疏地采样作为查询点。

6.根据权利要求1所述的方法，其特征在于，训练采用的损失函数如下：

7.根据权利要求1所述的方法，其特征在于，在依据查询点的占用值σ和生长方向d在头部模型上生长头发后，还包括微调步骤：

8.根据权利要求1所述的方法，其特征在于，所述获取每一视角下的二维图像的生长方向图具体如下：

9.一种基于深度学习的多视角头发建模系统，其特征在于，用于实现权利要求1-8任一项所述基于深度学习的多视角头发建模方法，包括：

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-8任一项所述的基于深度学习的多视角头发建模方法。