CN114375463A

CN114375463A - 从身体的隐藏扫描中估计裸露体形的方法

Info

Publication number: CN114375463A
Application number: CN202080053677.5A
Authority: CN
Inventors: 胡鹏鹏; 阿德里安·蒙泰亚努; 努尔巴赫什·纳斯塔兰; 斯特凡·斯特奇斯
Original assignee: Tridi Co ltd; Universite Libre de Bruxelles ULB
Current assignee: Tridi Co ltd; Universite Libre de Bruxelles ULB
Priority date: 2019-07-12
Filing date: 2020-07-10
Publication date: 2022-04-19
Also published as: US20240193899A1; JP2022544353A; US11922593B2; US20220245911A1; WO2021009062A1; EP3997670A1

Abstract

一种生成用于训练神经网络的训练数据集的方法，该训练数据集包括身体的隐藏形状和相应的暴露形状，该方法包括：在计算装置的帮助下生成第一数据集，该第一数据集包括代表多个身体的多个裸露形状的多个第一表面表示；通过计算机实施的程序虚拟地隐藏该多个裸露形状以获得该多个身体的多个模拟隐藏形状；以及将该多个模拟隐藏形状应用于扫描模拟器，该扫描模拟器生成第二数据集，该第二数据集包括代表该多个模拟隐藏形状的多个第二表面表示。

Description

从身体的隐藏扫描中估计裸露体形的方法

技术领域

本发明涉及一种生成用于训练神经网络、特别是深度学习网络的训练数据集的方法，该训练数据集包括隐藏的(例如，穿衣的)和相应的裸露的(例如，未穿衣的)体形。本发明还涉及一种使用训练数据集训练神经网络的方法。本发明还涉及一种利用经训练的神经网络从扫描的隐藏(例如，穿衣的)体形估计裸露(例如，未穿衣的)体形的方法和相应的系统。身体可以指人类或动物的身体，也可以指物体的本体。

背景技术

估计穿衣的人体的形状和姿势对于许多新兴应用(诸如，虚拟试穿工具、非接触式身体测量和虚拟现实中的化身创建)来说是一项至关重要的任务。影响体形估计方法准确性的关键方面是数据采集和身体预测模型。

显然，通过对没有穿衣服的人进行扫描可以获得准确的体形，但是这一过程对大多数人来说却很不方便，而且往往侵犯了隐私权。当人们需要穿紧身的衣服接受扫描时，情况也是如此。因此，需要建立一种专门设计用于从穿衣的身体扫描中估计体形的方法。在进行穿衣身体扫描时，主要的挑战是由受试者姿势的变化导致的非刚性布料变形引起的。

现有的体形估计方法将此任务表述为一个受约束的优化问题，其中，将统计人体模型拟合到被扫描的穿衣身体上，这在计算上是昂贵的并且对初始化参数敏感。为了获得更好的准确性，一些方法采用一系列穿衣的人体网格作为输入数据。例如，Anguelov D.等人的ACM transactions on graphics(TOG)《美国计算机学会图形学汇刊》，24，408-416(2005)描述了一个名为SCAPE(人的形状完成和动画)的统计形状模型，通过使用不同的姿势优化形状来拟合穿衣的人的扫描序列。然而，统计模型通常过于平滑并且缺乏特征细节。为了解决这个问题，Loper M.等人的ACM Transactions on graphics(TOG)《美国计算机学会图形学汇刊》，34，248(2015)描述了一个名为SMPL(蒙皮多人线性模型)的基于公共顶点的模型来拟合穿衣的人体序列，并通过优化更多的参数获得详细的结果。尽管基于优化的方法可以产生令人印象深刻的结果，但这些方法的计算昂贵，并且对初始化、不同类型的各种噪声源和不完整的数据很敏感。为了克服这些问题，一种无需任何模板或初始化步骤即可快速预测体形的方法至关重要。

发明内容

本发明的目的是克服上述缺点。特别地，本发明的目的是能够以更少的努力获得体形预测模型，和/或能够获得比现有技术更准确的体形预测模型。

训练和验证用于体形估计的神经网络需要数据集，该数据集由穿衣的人体及其相应的未穿衣的身体组成。受限于扫描技术，3D扫描仪只能获得受试者的最外层表面。因此，不可能同时捕获被衣服遮挡的下方身体几何形状。一种直观的解决方案是，首先要求受试者脱下其衣服，并在扫描期间保持静态姿势或做一个动作，然后要求同一受试者重新穿上衣服，并在扫描期间保持相同的静态姿势或做相同的动作。如果受试者被训练为在扫描期间保持绝对静止，或者使用了足够快的扫描仪，则可以以这种方式扫描静态姿势。然而，由于训练数据集的规模要求很大，使用这种方法进行数据收集极其昂贵且耗时。此外，以这种方式扫描动作序列，对于人类受试者来说，在穿衣服和没有穿衣服的情况下复制相同的动作几乎是不可能的，并且结果也不可能完全可靠。姿势拟合和穿透解析只能在视觉上“修复”这个问题，但会引入额外的错误。

发明人找到了一种学习非线性函数的方法，将穿衣的人体点云转换为相应的身体点云。点云是由3D扫描仪产生的原始数据。

更一般地，本发明的各方面不仅涉及估计人类或动物身体的裸露或未穿衣的形状，还可以应用于物体的形状，例如，估计被一层或多层涂层或覆盖物隐藏的物体本体的裸露形状。

根据本发明的第一方面，因此提供了一种如在所附权利要求中阐述的生成用于训练神经网络的训练数据集的方法，该训练数据集包括隐藏的(例如，穿衣的)和相应的暴露的或裸露的(例如，未穿衣的)体形。

如本文所述的生成包括身体的隐藏形状和相应的暴露形状的训练数据集的方法包括计算机生成第一数据集。该第一数据集包括代表多个身体的多个裸露形状的多个第一表面表示。通过计算机实施的程序(虚拟地)隐藏该多个裸露形状以获得该多个身体的多个模拟隐藏形状。将该多个模拟隐藏形状应用于扫描模拟器。该扫描模拟器生成第二数据集，该第二数据集包括代表该多个模拟隐藏形状的多个第二表面表示。

根据本发明的第二方面，提供了一种如在所附权利要求中阐述的训练神经网络的方法。

根据本发明的第三方面，提供了一种如在所附权利要求中阐述的从物理隐蔽(例如，穿衣的)体形中估计隐蔽(例如，未穿衣的)体形的方法。

根据本发明的第四方面，提供了一种如在所附权利要求中阐述的计算机程序代码。

根据本发明的第五方面，提供了一种如在所附权利要求中阐述的系统。

根据本发明的第六方面，提供了一种如在所附权利要求中阐述的用于训练神经网络的训练数据集。

在本发明中，裸露体形估计是由经训练的神经网络(有利地是深度学习网络)执行的。已经使用根据如本文所述的各方面开发的特定训练数据集来训练神经网络。训练数据集包括通过计算机生成而专门获得的相应的(即配对且配准的)隐藏(穿衣的)和裸露(未穿衣的)体形。训练数据集有利地包括不同姿势的体形，从而允许神经网络从不同姿势的隐藏身体扫描中估计裸露体形。通过纯粹由计算机生成来生成训练数据集，可以获得非常大的训练数据集，这些训练数据集包括形状、姿势、尺寸和穿衣风格变化很大的身体。这允许更有效地训练神经网络。此外，通过计算机生成根据本发明的各方面的训练数据集，可以获得良好配准且配对的穿衣的和未穿衣的身体网格，从而允许训练准确性更高的神经网络。

附图说明

现在将参考附图详细地描述本发明的各方面，其中，相同的附图标记展示了相同的特征。

图1表示了根据本发明的地面真值数据集，由10个未穿衣的体形(5男性，5女性)组成。

图2表示了图1中的一名男性和一名女性的体形，摆出不同的姿势且穿着不同的服装款式。

图3：三维扫描模拟。(a)和(b)是所呈现的虚拟扫描仪的设置的前视图和俯视图；(c)是扫描数据，即由每个相机捕获的点云，以灰度突出显示；(d)是模拟噪声的特写；(e)是模拟孔的特写；以及(f)是遮挡的特写。

图4：(a)是未穿衣的身体网格样本；(b)是(a)的穿衣的人体网格样本；(c)是使用扫描仪模拟器对(b)的扫描。

图5：根据本发明的用于获得经训练的神经网络的方法步骤的概览：通过虚拟扫描仪获得的穿衣的体形数据集被馈送到方向包围盒(OBB)归一化，以便配准体形的所有取向，并且随后与地面真值数据集一起被馈送到编码器-解码器神经网络。

图6：用根据本发明的数据集训练的神经网络估计女性体形后的测试结果。顶行：穿衣的人体扫描作为经训练的神经网络的输入；中间行：估计的身体；底行：地面真值。

图7表示了根据本发明的各方面的训练神经网络的方法的方法步骤。

图8示意性地表示了如本文所述的用于从穿衣的体形中估计未穿衣的体形的系统。

图9表示了对于实验2，重建误差与现有技术方法的比较。每个点的灰度强度指示每顶点误差，单位为毫米。

图10表示了从通过不同扫描仪获得的真实扫描、并运行图9的相同身体估计方法得到的未穿衣的身体估计结果的视觉比较。通过扫描仪[4]扫描顶行的身体，通过扫描仪[5]扫描中间行的身体，并且通过扫描仪[6]扫描底行的身体。

具体实施方式

本发明的各方面将针对从穿衣的身体扫描中估计未穿衣的人的体形的特定领域进行说明。将方便地注意到，本文描述的各方面通常可以应用于从隐藏形状的扫描中估计物体或人体的裸露形状。特别地，如本文所用的术语穿衣的和未穿衣的可以分别指至少部分地隐藏和裸露(或暴露)。

学习神经网络以从穿衣的身体扫描中估计未穿衣的体形的一个问题是拥有可靠的训练数据集，该训练数据集包括地面真值数据(未穿衣的体形)和相应的穿衣数据。现有技术的训练数据集仅包括穿衣的体形，而未穿衣的形状必须从穿衣的形状中构建或估计，这正是根本问题所在，执行起来相当困难。

在本发明中，采用不同的方法，即，从通过计算机生成的包括未穿衣(裸露的)体形的第一数据集开始生成训练数据集。存在用于开发第一数据集的不同类型的软件包，例如，Bastioni，M.:MB-Lab，10/02/2019。可从以下网址获得：http://github.com/animate1978/MB-Lab。举例来说，第一数据集可以包括具有不同体形的至少三个、有利地至少五个未穿衣的(裸露的)男性受试者和具有不同体形的至少三个、有利地至少五个未穿衣的(裸露的)女性受试者，如图1所示。这些受试者的形状可以根据专业艺术家的经验来确立。ManuelBastioni实验室软件包提供的重要优势是预定义了明确定义的骨架权重和蒙皮权重。

第一数据集的不同体形可以以任何合适的数字格式提供，诸如表面网格，并且优选地作为点云。

第一数据集的体形可以全都是一个姿势。然而，提供不同姿势的体形将是有利的。不同的姿势可以指身体采取不同的取向，优选地是其一个或多个身体部位的不同展开或衔接状态，例如，手臂和/或腿部的伸展、折叠等。这可以通过不同的方式获得，例如，直接从用于开发第一数据集的体形的软件包中生成不同的姿势。另一种可能性是使用允许获得特定体形的动作序列的专用软件包。包括行走、旋转身体、提膝、下蹲、U形姿势扭动和热身在内的动作序列可以通过线性混合蒙皮来应用。

第一数据集因此可以包括不同身体类型(性别、年龄、身体比例等)在一个或多个姿势或体态下的多个未穿衣的体形。因此，第一数据集代表了体形和体态的地面真值。

第一数据集的多个未穿衣的体形有利地被提供为身体网格，包括三角形和顶点。举例来说，一个身体网格可以包括至少5000个顶点、有利地至少10000个顶点、有利地至少15000个顶点。

现在从第一数据集生成第二数据集，该第二数据集对应于穿衣的体形。

为此，可以使用合适的商业服装CAD建模软件(诸如，CLO(www.clo3d.com))来模拟穿在第一数据集的体形上的服装。为了获得更大的数据集，来自第一数据集的体形可以穿着不同的服装款式——例如以下中的一种或多种：T恤和长裤、长袖分层衣服、宽大的衣服(例如，女性穿的连衣裙、男性穿的阔腿裤)、足球装和宽大的长袖衣服。每个受试者可以穿着多种服装款式。一些软件包(诸如CLO)包括基于物理的模拟引擎，可以用于获得逼真的穿衣人体动画序列。不同服装款式的示例如图2所示。服装款式可以包括鞋子。

为了加快穿衣服过程，可以使用自动穿衣技术。在这种技术中，使用包括多件服装的服装模板。服装模板可以包括一个或多个设置有多件服装或衣服的参考(未穿衣的)身体。参考身体可以作为网格或点云提供，并且可以使用如上所述的合适的商业服装CAD建模软件为其穿上服装。

这些服装之一或组合从服装模板转移到第一数据集的多个未穿衣的体形。有利地，将服装的顶点绑定到参考身体的三角形上。有利地，将服装的每个顶点绑定到参考身体的至少三个、优选地六个最接近的三角形上，而不是仅仅一个三角形。这种简单的改进可以使重新穿上的服装表面光滑。实际上，有利的是，第一数据集的多个身体网格具有相应的且可能相似的语义顶点和语义三角形，其也可以对应于用于转移服装的参考身体的语义顶点和语义三角形。结果，可以通过目标身体的形状和姿势快速推断出变形的服装。由于这种绑定是局部操作，因此在将服装转移到目标身体期间，将合成更逼真的服装细节，诸如褶皱。

通过生成多种身体姿势和多种服装款式，可以有效地增加穿衣的体形的数量。有利地，在本发明的方法中，生成至少5000种、有利地至少10000种、有利地至少20000种、有利地至少25000种模拟的穿衣的体形，这些体形在身体类型(形状)和姿势的一者或组合方面彼此不同。在一个示例中，基于上述方法，构建了48,100个模拟的穿衣的人体网格，每个网格都具有相应的地面真值(未穿衣的)形状。将方便地注意到，多个穿衣的体形可以共享相同的地面真值(未穿衣的)，例如，其中，穿衣的形状是指应用于同一未穿衣的体形的不同服装款式。

将三维扫描仪模拟器应用于模拟的穿衣体形，以生成第二数据集。

通过上述模拟获得的穿衣的体形是干净、密集、详细的3D身体模型，这些模型不代表涉及人体扫描的真实场景。噪声是影响在真实人类3D扫描场景中捕获的点云和其他表面表示的重要扰动，因此，在本发明中，在训练数据集中考虑噪声扰动。

此外，合成的穿衣人体模型具有能够作为3D数据获得的多层服装，而真实场景的人体3D扫描将产生单层表面表示。

为了解决上述问题，使用虚拟扫描方法，该方法模拟真实的3D扫描仪，并结合了影响测量的固有噪声扰动。根据中心极限定理，采集管道中的各种噪声源组合成高斯噪声分布。因此，从虚拟扫描仪得到的深度数据可能会被高斯噪声破坏，从而模拟真实世界采集过程中的噪声。

例如，虚拟扫描仪被构建为四相机(飞行时间)系统，该系统从4个不同的视角捕获受试者的四个深度图像，如图3(a)和图3(b)所示。这个相机布置在正方形的角落，而穿衣的体形放置在正方形(几何)中心。将方便地注意到，在虚拟扫描仪中可以实施更多或更少的相机。将高斯噪声添加到代表将在现实世界中使用的3D相机(扫描仪)的噪声特征的扫描数据中。这些相机允许获得深度图像。捕获的深度图像被反向投影到3D点云中，这可以通过利用相机的外部参数使用以下等式进行配准：

其中，S是所产生的穿衣人体伪扫描，R是相机的外在矩阵，C是来自一个相机的数据，以及m是相机的数量。

借助虚拟扫描仪，可以轻松生成使用上述模拟方法获得的每个动画穿衣人体网格的点云或任何其他合适的表面表示。

参考图3(c)至图3(g)，值得注意的是，可以从扫描仪模拟器(虚拟扫描仪)中获得逼真的扫描点云。虚拟3D扫描仪捕获的点云中存在噪声、孔和遮挡。所产生的数据集由穿衣人体扫描点云(网格)的第二数据集和干净地面真值身体点云(网格)的第一数据集组成。虚拟扫描仪是在Blender(一种开源3D计算机图形软件(www.blender.org))中实施的。

有利地，诸如法线、颜色和曲率等局部属性可以与点云相关联。为此，将称为偏移量的属性指配给第二数据集的身体网格的每个顶点(即，点)。对于扫描的穿衣身体网格(第二数据集)上的每个顶点

在相关联的地面真值身体网格(第一数据集)上确定相应的顶点

例如作为最近的点。

的偏移量确定为：

该偏移量可以用于训练如下文进一步描述的神经网络。

第一数据集(未穿衣的体形)和第二数据集(穿衣的体形)都有利地可作为点云提供，或者至少以适合输入到神经网络的格式提供以训练神经网络，以便使其能够从物理3D扫描的穿衣模型中估计未穿衣的体形。

体形估计模型的问题可以表示如下：

B＝d(e(D))

其中，e表示编码器，d是解码器，以及D是穿衣人体的点云，可以是干净的也可以是有噪的，以及B是估计的身体点云。这意味着对体形和体态的估计可以定义为在给定D的情况下预测B。请注意，在此公式下，D与B之间没有明确的对应关系。从D到B的映射是通过基于上述数据集训练的神经网络执行的。

参考图5，在一个示例中，神经网络10被构建为编码器和解码器架构。首先，编码器11通过生成k维特征向量来描述输入点云D。其次，解码器12使用所生成的特征向量来产生(未穿衣的)身体点云。解码器12可以是Yuan,W.、Khot,T.、Held,D.、Mertz,C.和Hebert,M.在国际3D视觉会议(3DV)上在PCN:Point Completion Network[PCN：点完成网络]，728-737(2018)中所述的解码器，其是在Achlioptas,P.、Diamanti,O.、Mitliagkas,I.和Guibas,L.的Learning Representations and Generative Models for 3D Point Clouds.[学习3D点云的表示和生成模型](arXiv预印本arXiv：1707.02392(2017))中描述的全连接解码器与在Yang,Y.、Feng,C.、Shen,Y.和Tian,D.的FoldingNet:Interpretable UnsupervisedLearning on 3D Point Clouds[FoldingNet：3D点云上的可解释无监督学习](arXiv预印本arXiv：1712.07262(2017))中描述的基于折叠的解码器的组合。全连接网络适用于预测稀疏点云，而基于折叠的解码器在估计密集点云方面表现良好。这些解码器的组合可以捕获点云的局部和全局特性，并优于其组成解码器。

训练深度神经网络涉及明确定义的损失函数。损失函数通过将输出与地面真值体形点云进行比较来评估神经网络对身体点云的估计效果。由于点云的不规则性，成本函数应该以这样的方式定义，即所有点的置换都会导致相同的结果。为了实现这一点，可以使用置换不变函数，诸如倒角距离(CD)和推土机距离(EMD)。预测点云C₁与地面真值点云C₂之间的倒角距离定义为：

其中，C₁和C₂可以分别具有不同的大小|C1|、|C2|。此函数平均出每个点与其在另一集合中的最近邻点之间的所有距离。使用该度量并不能使神经网络生成具有均匀分布的点云。为了解决这个问题，可以使用推土机距离。C₁与C₂之间的EMD距离定义为：

其中，φ:C₁→C₂是双射。该度量允许最小化C₁与C₂之间的平均点对点距离。点对点映射确保了预测点云的一致性。然而，寻找最优φ的计算成本很高，尤其是对于高分辨率点云。为了利用这两种损失函数，全连接解码器预测的稀疏体点云可以通过CD和EMD的损失值之和来评估，而基于折叠的解码器预测的密集身体点云则通过CD损失函数来评估。

更具体地，可以使用EMD将初始身体估计损失确定为：

其中，

表示在预测的初始未穿衣的身体顶点(点)

中的对应点v。此EMD测量预测的初始未穿衣的身体顶点

与初始地面真值(GT)身体顶点

之间的误差。

随后，类似于初始身体估计损失，可以使用EMD将粗略重建损失确定为：

其中，

表示在预测的粗略的未穿衣身体顶点

中的对应点v。此EMD测量预测的粗略的未穿衣身体顶点

与粗略的地面真值(GT)身体顶点

之间的误差。

随后，可以使用对称倒角距离(SCD)将精细重建损失确定为：

SCD测量估计的密集未穿衣身体顶点

与地面真值(GT)身体顶点

之间的平均最近点距离。

可选地，涉及偏移量损失的另一损失函数被添加到上述损失函数中，并且有利地被用于训练顶点偏移量ΔO。偏移量损失OL可以定义为：

其中，OL(ΔO,ΔO_GT)是l₁损失，其最小化了预测偏移量ΔO与地面真值偏移量

之间的误差。

有利地，组合上述损失函数以获得最终损失函数，定义为：

其中，α_OL,α_初始,α_粗略和α_SCD是控制每一项的贡献的权重。

第一数据集和第二数据集有利地作为任何合适的表面表示的数据集输入到神经网络。有利地，数据集作为点云被输入。在Qi,C.R.等人在IEEE计算机视觉和模式识别会议上在Pointnet:Deep learning on Point Sets for 3d Classification andSegmentation[Pointnet：用于3d分类和分割的点集深度学习]，4(2017)中描述了允许使用点云的一种可能的网络架构。

处理第一数据集和第二数据集的一个挑战是应对身体全局取向的巨大变化。传统地，可以通过将所有网格或点云居中到包围盒的中心并将这些网格或点云缩放为单位球面来对几何数据进行归一化。然而，这可能是一项繁琐的任务，因为输出的身体点云高度依赖于输入的穿衣人体扫描的取向。实现取向不变性的另一有利方式是采用称为方向包围盒(OBB)归一化的高级归一化方法，如Ge,L.等人在IEEE计算机视觉和模式识别会议论文集上在Hand PointNet:3d Hand Pose Estimation using Point Sets[Hand PointNet：使用点集的3d手部姿势估计]，8417-8426(2018)中所述。

因此，所获得的第二数据集和有利地第一数据集的点云在被输入到神经网络以在归一化模块13中进行训练之前将首先对其取向进行归一化。

由于在虚拟扫描仪14中实施的噪声，并非第二数据集的所有点都将具有相同程度的信任。扫描仪在困难区域(例如腋下)生成的点比位于身体高度可见部位的点更容易产生噪声。另一个重要的观察结果是，位于布料紧贴身体区域的点比位于身体上布料宽松的困难区域的点更可能导致准确的体形估计。有利地，在第二数据集上生成将置信水平与第二数据集的每个点云相关联的置信水平图。置信水平图有利地输入到神经网络，以指导其正确地估计体形。

计算置信水平值的一种可能方法是使它们与每个3D点(或在使用其他表面表示(例如网格、贝塞尔曲线等)的情况下，在选定节点中)的噪声的局部方差成反比。这些方差可以使用各种姿势的穿衣的身体数据集和未穿衣的等效数据来估计。产生的方差越高，相应3D点的置信水平就越低。另一种可能性是考虑穿衣的身体模型与相应的未穿衣的体形之间的每个点的相对距离。可以计算各种身体姿势的平均相对距离和相对距离的方差。置信水平与所产生的方差成反比。

参考图7，用第一数据集和第二数据集训练神经网络的方法100包括虚拟扫描穿衣的身体网格以生成具有坐标(x,y,z)的n个点的输入点云的第一步骤101。在步骤102中对输入点云进行归一化以获得归一化点云。举例来说，归一化可以作为OBB归一化来执行，例如，如L.Ge、Y.Cai、J.Weng和J.Yuan在IEEE计算机视觉和模式识别会议论文集中的“Handpointnet：3d hand pose estimation using point sets[Hand pointNet：使用点集进行3d手部姿势估计]，”，2018年，8417-8426页中所述。有利地，对归一化点云进行下采样以获得具有m个归一化点的下采样点云，其中，m<n。有利地，例如如上所述，为下采样点云的点确定偏移量。m个下采样点与偏移量之间的残差表示初始未穿衣的身体点。在步骤103中，将初始未穿衣的身体点馈送到神经网络的编码器部分。编码器使用这些初始身体点来学习这些点上的特征。在步骤104中，将来自编码器的特征馈送到神经网络的解码器部分，以输出粗略或稀疏的身体点。解码器可以用多层感知器(MLP)模块来实施，以生成粗略的身体点(例如，如上所述实施CD和/或EMD)。然后，在步骤105中，解码器细化粗略的身体点以获得密集的未穿衣的身体点云。解码器可以包括被配置为细化粗略的身体点的折叠模块。如上所述，折叠模块可以用CD来实施。折叠模块可以如Y.Yang、C.Feng、Y.Shen和D.Tian在IEEE计算机视觉和模式识别会议论文集中的“Foldingnet:Point cloud auto-encoder via deepgrid deformation[Foldingnet：通过深度网格变形的点云自动编码器]”，2018年，206-215页中的描述来实施。解码器可以可选地包括反归一化模块以对细化的粗略身体点进行反归一化并获得密集身体点。细化步骤105可选地包括反归一化步骤106以恢复点云/身体网格的原始比例和取向。

参考图8，系统200包括耦合到三维(3D)身体扫描设备202的计算设备201。3D身体扫描设备202可以包括一个或多个相机203，该一个或多个相机布置在多边形的角落处并且被配置为扫描位于多边形的中心区域中的身体。相机203可以是用于此目的的任何合适的相机，例如飞行时间相机。

计算设备201包括如本文所述的经训练的神经网络10并且可以包括一个或多个用户应用程序204，该一个或多个用户应用程序耦合到神经网络10以便从/向神经网络接收和/或传输数据。用户应用程序204之一可以能够操作地耦合到3D身体扫描设备202以接收穿衣的身体扫描，然后将该穿衣的身体扫描馈送到经训练的神经网络10以估计未穿衣的身体网格。

实验1

以上方法已经过测试。使用上述过程获得了包括48100个模型的训练数据集。使用具有为结构化光相机设计的噪声模型的Kinect v1混合器模拟进行扫描模拟。数据集分别按90％、5％和5％分为训练数据集、验证数据集和测试数据集。训练是使用Kingma,D.P.和Ba,J.的Adam:A Method for Stochastic Optimization[Adam：随机优化方法]，arXiv预印本arXiv：1412.6980(2014)中描述的Adam优化器完成的。在基于TensorFlow(Abadi,M.、Barham,P.、Chen,J.、Chen,Z.、Davis,A.、Dean,J.、Devin,M.、Ghemawat,S.、Irving,G.、Isard,M.和Kudlur,M.：Tensorflow:a System for Large-scale Machine Learning[Tensorflow：一种大规模机器学习系统]，OSDI，265-283(2016年))的台式PC(Intel(R)Xeon(R)Silver 4112CPU@2.60GHz 64GB RAM GPU GeForce GTX 1080Ti)上，使用50个时期(epoch)的0.0001的初始学习率和大小为16的批大小(batch size)。每50K次迭代，学习率衰减0.7。编码器中的输入点云、编码器中的特征向量、解码器中的稀疏输出和解码器中的密集输出的大小分别为6144、1024、2048和16384。解码器预测的稀疏身体点云通过CD和EMD损失值之和来评估，而基于叠的解码器预测的密集身体点云则通过CD损失函数来评估。

将估计的体形与来自测试数据的地面真值身体点云进行比较。由于从宽大的衣服(诸如连衣裙)估计体形更具挑战性，因此在女性数据上测试了该性能。这些结果在表1中示出。一些比较图形形状如图6所示。

表1：估计体形的数值结果。对于每个女性受试者，从测试数据集中随机选择每种服装款式的10帧(参见第5.1节)并报告了地面真值(GT)身体网格与方法结果之间的平均点对点距离(以毫米为单位)。

注释：FHD是前向豪斯多夫(Hausdorff)距离：从GT的所有点到估计的身体上的一点的距离的所有点的最小距离，对所有估计的身体点进行平均；RHD是反向豪斯多夫距离：从估计的身体的所有点到GT中一点的最小距离，对所有B进行平均；AVG是FHD和RHD的平均值。

实验2

使用上述过程生成了包括100,000个男性模型和100,000个女性模型的训练数据集。他们每人穿上三种类型的衣服，因此获得了600,000个穿衣扫描和相应的200,000个地面真值体形。该数据集在下文中称为BUG数据集。在训练阶段，数据集分别按97％、2％和1％分为训练、验证和测试。训练是使用实验1中的Adam优化器完成的。每50K次迭代，学习率衰减0.7。使用根据等式(5)的损失函数。等式(5)中定义的每个项的权重设置为：α_OL＝1，α_初始＝1，α_粗略＝1以及α_CD＝1。使用了一种广泛使用的评估度量，即倒角距离(CD)。CD误差测量重建的身体网格与地面真值身体网格之间的平均欧式距离。测量单位为mm。CD误差被定义为：

计算顶点间误差的平均值和平均标准差。

用BUG数据集对经训练的神经网络进行测试。BUG数据集包括地面真值摆姿势身体(posed body)模型，用于将我们的方法与现有技术方法进行定量比较。在本实验中，将标记为[INV]的本发明方法与以下方法进行了比较，[1]：Hasler,N.、Stoll,C.、Rosenhahn,B.、

T.和Seidel,H.P.，2009年，估计穿衣的人的体形。计算机与图形，33(3)，211-216页；[2]:Kanazawa,A.、Black,M.J.、Jacobs,D.W.和Malik,J.，2018年，人的形状和姿势的端到端恢复。IEEE计算机视觉和模式识别会议论文集(7122-7131页)。[3]:T.Groueix、M.Fisher、V.G.Kim、B.C.Russell和M.Aubry，“3dcoded:3d correspondencesby deep deformation[3d编码：深度变形的3d对应关系]”，欧洲计算机视觉会议(ECCV)论文集，2018年，230-246页。该评估基于包含2000个身体网格的BUG测试数据集。图9示出了一些估计的体形的误差图。使用本发明的方法估计的体形的超过90％的顶点具有小于10mm的每顶点误差，从而优于现有技术的参考方法。

实验3

测试了本发明的方法对传感器噪声和丢失数据的鲁棒性。三种常见的扫描系统，包括：[4]多Kinect扫描(M.Kowalski、J.Naruniec和M.Daniluk，“Livescan3d:A fast andinexpensive 3d data acquisition system for multiple kinect v2 sensors[Livescan3d：用于多个kinect v2传感器的快速且廉价的3d数据采集系统]”，2015年3D视觉国际会议，IEEE，2015年，318-325页)，[5]微软Kinect版本2和转盘扫描系统(P.Hu、T.Komura、D.Holden和Y.Zhong)，“Scanning and animating characters dressed inmultiple-layer garments[扫描穿着多层服装的人物并为其制作动画]，”视觉计算机，33卷，6-8期，961-969页，2017年)，以及[6]使用称为PhotoScan(https://www.agisoft.com/)的摄影测量扫描系统捕获三个受试者，并使用本发明的方法[INV]从扫描中估计未穿衣的体形并将其与方法[1]-[3]进行比较。图10示出了视觉比较。[1]的结果存在严重的穿透问题；[2]的结果在形状和体态方面是不正确的；[3]的结果更胖且不自然地变形。相比之下，根据本发明的方法的结果似乎是可靠的。估计的身体(浅色区域)几乎在服装(深色区域)内部。[4]中的扫描噪声非常严重、不完整且配准不正确。[5]的扫描在头部区域缺少数据，但它是干净的网格。[6]的扫描在手臂和胯部区域有噪声。[1]的性能由于不期望的噪声而降低。[2]的误差很大。[3]的性能似乎得到了保留，但与现实相比，估计的身体又过大了。与现有技术的方法相比，本发明的方法的结果是最好的。这证明了本发明的从穿衣的身体扫描中估计未穿衣的体形的方法可以用于由不同扫描仪捕获的扫描，从而证明对大噪声水平和丢失数据具有鲁棒性。

本发明的方法在运行时间方面也优于现有技术的方法。对于本发明的方法，基于一次扫描的重建时间为5.8s，而[1]为11分钟，且[3]为1分钟。基于一张照片，[2]的重建时间为2.5分钟。此外，方法[1]和[3]另外需要提供先验模型，方法[2]需要提供二维关节，这些都不是本发明的方法所必需的。这种额外数据在实际应用中并不总是可用的。

可能的应用领域包括人体扫描、人类生物特征识别、时尚物品(特别是人类或动物穿的服装鞋类和服装配饰)、以及自动物体识别。

Claims

1.一种生成用于训练神经网络的训练数据集的方法，该训练数据集包括身体的隐藏形状和相应的暴露形状，该方法包括：

在计算装置的帮助下生成第一数据集，该第一数据集包括代表多个身体的多个裸露形状的多个第一表面表示，

通过计算机实施的程序虚拟地隐藏该多个裸露形状以获得该多个身体的多个模拟隐藏形状，

将该多个模拟隐藏形状应用于扫描模拟器，该扫描模拟器生成第二数据集，该第二数据集包括代表该多个模拟隐藏形状的多个第二表面表示。

2.如权利要求1所述的方法，其中，这些第一表面表示代表采取多个姿势的多个裸露形状。

3.如前述权利要求中任一项所述的方法，其中，这些模拟隐藏形状包括多层表面。

4.如权利要求3所述的方法，其中，该扫描模拟器将包括这些多层表面的模拟隐藏形状转换为这些代表单层表面的第二表面表示。

5.如前述权利要求中任一项所述的方法，其中，该扫描模拟器是基于摄影测量的模拟器。

6.如前述权利要求中任一项所述的方法，其中，该扫描模拟器实施噪声模型，其中，该噪声模型将模拟噪声添加到该多个第二表面表示。

7.如前述权利要求中任一项所述的方法，其中，该扫描模拟器实施布置在多边形角落的多个相机模拟器，其中，这些模拟隐藏形状布置在该多边形的中心，其中，该多个相机模拟器从不同的视角对这些模拟隐藏形状进行成像。

8.如前述权利要求中任一项所述的方法，包括生成与该多个第二表面表示的节点相关联的置信水平值。

9.如前述权利要求中任一项所述的方法，其中，这些第一表面表示是第一点云和/或这些第二表面表示是第二点云。

10.如权利要求9所述的方法，包括生成与这些第二点云的点相关联的置信水平值。

11.如前述权利要求中任一项所述的方法，其中，该多个裸露形状代表多个人类或动物身体的多个未穿衣的形状，并且其中，虚拟隐藏包括对该多个未穿衣的形状进行虚拟穿衣，其中，该多个模拟隐藏形状是该多个人类或动物身体的多个模拟穿衣形状。

12.如权利要求11所述的方法，其中，该多个模拟穿衣形状包括多种服装款式的模拟穿衣形状，该多种服装款式有利地包括紧身服装和宽松服装。

13.一种训练神经网络的方法，包括：

根据如前述权利要求中任一项所述的方法来生成训练数据集，该训练数据集包括隐藏的形状和相应的裸露形状，以及

将该第一数据集和该第二数据集应用于该神经网络，其中，该第一数据集被认为是地面真值数据集。

14.如权利要求13所述的方法，其中，该多个第二表面表示包括具有根据如权利要求8或10所述的方法获得的相关联置信水平值的节点，其中，这些置信水平值作为输入被馈送到该神经网络。

15.一种从身体的物理隐藏形状中估计裸露形状的方法，包括：

根据如权利要求13或14所述的方法来训练神经网络，

用三维相机设备扫描该物理隐藏形状并生成代表该物理隐藏形状的第三表面表示，以及

将该第三表面表示应用于该神经网络，该神经网络输出代表该身体的估计裸露形状的第四表面表示。

16.如权利要求15结合权利要求6所述的方法，其中，该噪声模型代表与该三维相机设备相关联的噪声特征。

17.如权利要求15或16结合权利要求2所述的方法，其中，该神经网络以与该第三表面表示的姿势基本上相同的姿势输出该第四表面表示。

18.一种计算机程序代码，该计算机程序代码当在计算机上实施时被配置为执行如前述权利要求中任一项所述的方法。

19.一种系统，包括用根据如权利要求13或14所述的方法训练的神经网络实施的计算机、能够操作地耦合到该神经网络的三维相机设备，其中，该计算机被配置为执行如权利要求15至17中任一项所述的方法。

20.一种用于训练神经网络的训练数据集，包括第一数据集和第二数据集，该第一数据集包括代表多个身体的多个裸露形状的多个第一表面表示，该第二数据集包括代表该多个身体的隐藏形状的多个第二表面表示，其中，该第一数据集和该第二数据集是根据如权利要求1至12中任一项的方法获得的。