CN104240288A

CN104240288A - 用于产生对象的三维表示的方法和系统

Info

Publication number: CN104240288A
Application number: CN201410283599.4A
Authority: CN
Inventors: S·约翰逊; F·佩尔贝; B·施滕格; M-T·范; O·伍德福德; R·盖拉尔迪; R·奇波拉
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-06-21
Filing date: 2014-06-23
Publication date: 2014-12-24
Anticipated expiration: 2034-06-23
Also published as: JP5833189B2; EP2819098B1; JP2015015021A; US9646408B2; US20140375635A1; CN104240288B; GB2515343B; EP2819098A1; GB2515343A; GB201311117D0

Abstract

根据一个实施例，一种由深度图像产生对象的三维表示的方法，包括：将对象的深度图像与多个表示图像相比较，其中，每一个表示图像都与对象的各自参数模型相关联；将多个表示图像中的一个表示图像识别为与对象的深度图像最接近的表示图像；选择与和深度图像最接近的表示图像相关联的参数模型；及通过将所选择的参数模型与对象的深度图像相适配来产生对象的三维表示。

Description

用于产生对象的三维表示的方法和系统

技术领域

本文所述的实施例总体上涉及根据深度图像来产生诸如人之类的对象的三维表示。

背景技术

人体体形的估计具有广泛的应用，从医学到商业领域。例如在医学中，可以显现对3D身体的未来变化，以鼓励生活方式的改变。在商业领域中，对赤裸体形的准确捕获会允许虚拟试穿；顾客在不同着装中的显现。对于这些应用得以广泛开展的关键在于任何体形估计系统的可用性。在这种系统中，如果能迅速产生三维展示是有利的。此外，如果能去除对操作者手动设置标记的要求是有利的。

附图说明

在下文中，参考附图仅以示例的方式描述了实施例，在附图中：

图1显示了用于产生对象的三维表示的系统；

图2显示了用于产生对象的三维表示的方法；

图3显示了产生三维扫描数据的方法；

图4a-d显示了人对象的多分辨率模型；

图5a-d显示了用于准备人对象的模型的体形与姿势的分离图示；

图6显示了摆姿势的身体体形的样本的产生；

图7显示了对象的聚类模型的产生；

图8a显示了人对象的聚类模型；及

图8b显示了对应于图8a中所示的聚类模型的表示图像。

具体实施方式

根据一个实施例，一种根据深度图像来产生对象的三维表示的方法包括：将对象的深度图像与多个表示图像相比较，其中，每一个表示图像都与对象的各自的参数模型相关联；将多个表示图像中的一个表示图像识别为与对象的深度图像最接近的表示图像；选择与和深度图像最接近的表示图像相关联的参数模型；及通过将所选择的参数模型与对象的深度图像相适配来产生对象的三维表示。

在一个实施例中，将所选择的参数模型与对象的深度图像相适配包括使得能量函数最小，其中，所述能量函数包括距离项，其取决于在对象的深度图像上的点与所选择的参数模型上的相应点之间的距离。

在一个实施例中，距离项给出了对在由深度图像上的点限定的体积内的模型上的点的优先选择。

在一个实施例中，距离项包括重力函数，其与所选择的模型的表面的法向和重力方向相关。

在一个实施例中，每一个表示图像都是根据各自的参数模型来计算的深度图像。

在一个实施例中，每一个表示图像都是根据各自的参数模型来计算的深度图像与alpha图像的加权组合。

在一个实施例中，所述方法进一步包括：在将对象的深度图像与多个表示图像相比较之前，标准化深度图像中的对象的定向和/或对象的深度。

在一个实施例中，所述方法进一步包括：在将对象的深度图像与多个表示图像相比较之前，减小深度图像的分辨率。

在一个实施例中，所述方法进一步包括：根据三维表示来计算对象的尺寸指标和/或测量值。

在一个实施例中，一种用于根据深度图像来产生对象的三维表示的系统包括：储存设备，所述储存设备用于储存对象的多个参数模型和多个表示图像，每一个表示图像都与各自的参数模型相关联；选择模块，所述选择模块用于将对象的深度图像与多个表示图像中的每一个表示图像相比较，将多个表示图像中的一个表示图像识别为与对象的深度图像最接近的表示图像，和选择与和深度图像最接近的表示图像相关联的参数模型；以及适配模块，所述适配模块用于通过将所选择的参数模型与对象的深度图相适配来产生对象的三维表示。

在一个实施例中，适配模块用于通过使得能量函数最小化来将所选择的参数模型与对象的深度图像相适配，其中，所述能量函数包括距离项，其取决于在对象的深度图像上的点与所选择的参数模型上的相应点之间的距离。

在一个实施例中，距离项包括重力函数，其与所选择的模型的表面的法向与重力方向相关。

在一个实施例中，每一个表示图像的分辨率都小于100×100像素。

在一个实施例中，选择模块用于在将对象的深度图像与多个表示图像相比较之前，标准化深度图像中对象的定向和/或对象的深度。

在一个实施例中，系统进一步用于根据三维表示来计算对象的尺寸指标和/或测量值。

在一个实施例中，系统包括深度图像捕获设备，所述深度图像捕获设备被配置为捕获对象的深度图像。

一个实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，当所述指令被处理器执行时，得所述处理器执行以上阐述的方法。计算机程序产品可以包含在载体介质中，其可以是储存介质或信号介质。储存介质可以包括光储存单元、或磁储存单元、或电子储存单元。

所述实施例可以结合在特定硬件设备中、结合在由适合的软件配置的通用设备中、或者结合在二者组合中。本发明的某些方面可以在软件产品中实施，或者为完整软件实施方式，或者为用于修改或增强现有软件的附加组件(例如插件程序)。这个软件产品可以包含在载体介质中，例如储存介质(例如光盘或诸如闪存的大容量储存器)或信号介质(例如下载)。适合于实施例的特定硬件设备可以包括特定应用程序设备，例如ASIC、FPGA或DSP，或者其他专用功能硬件实施方式。读者应当理解，没有任何软件或硬件中的实施例的前述讨论将本发明的未来实现方式限制于实施的尚待发现或尚待限定的方式。

图1显示了根据实施例的用于产生对象的三维表示的系统。系统100包括处理器110和储存设备120。处理器110包括选择模块112和适配模块114。储存设备120存储多个聚类模型。在图1所示的示例中，储存设备存储三个聚类模型。第一聚类模型、即聚类模型1130包括表示图像132、体形模型134和姿势模型136。第二聚类模型、即聚类模型2140包括表示图像142、体形模型144和姿势模型146。第三聚类模型、即聚类模型3150包括表示图像152、体形模型154和姿势模型156。

系统100与深度图像捕获设备160和显示器170耦合。系统还可以包括摄像机。摄像机可以与深度图像捕获设备集成，或者可以是分离的设备。

聚类模型130、140和150是用于人对象的体形和姿势的模型。聚类模型130、140和150是参数模型，就是说，它们包括数值变量，其可以改变以使得模型与对象的深度图像相适配。每一个聚类模型130、140和150都对应于人对象的可能的体形和姿势的聚类。表示图像132、142和152是根据各自的聚类模型的聚类平均值来计算的图像。

在实施例中，表示图像是深度图像。在可替换的实施例中，表示图像是alpha图像或轮廓。在一个实施例中，表示图像是深度图像与alpha图像的加权组合。

在实施例中，表示图像的分辨率较低，例如小于100像素乘100像素。采用低分辨率表示图像增大了匹配的效率。

选择模块112和适配模块114是计算机程序模块。它们可以实施为在通用处理器上运行的计算机软件，或可以是特定编程的硬件模块或二者的组合。

图2显示了根据深度图像来产生对象的三维表示的方法，其由处理器110上的选择模块112和适配模块114执行。

深度图像可以由深度图像捕获设备160捕获。或者，可以对通过网络或储存介质而转移到系统100的深度图像实施所述方法。

可以使用诸如按钮之类的手动触发器或遥控来开始方法。或者，可以由语音或姿势命令来触发方法。

可以以不同方式来自动触发方法。如果检测到人站在特定区域中，可以自动触发方法。这个检测可以作为来自深度图像捕获设备的检测的结果，或者由位于地面上的单独传感器的检测的结果。或者，不管在现实世界中人的位置如何，如果将人检测为在姿势和体形的统计空间内，就可以触发方法。例如，如果系统评估它能够提供良好的身体体形估计，则方法将被触发。

在步骤S202中，将深度图像与每一个表示图像132、142和152相比较。在步骤S204中，识别与深度图像最接近的表示图像。在步骤S206中，选择用于与最接近的表示图像对应的体形和姿势的参数模型。在步骤S208中，将所选择的模型与深度图像相适配。将与对象适配的体形模型作为对象的三维表示。

在实施例中，在将深度图像与表示图像相比较之前，使其标准化。标准化可以包括调整深度图像中对象的定向，以使得对象的正面平面与图像平面平行。标准化还可以包括标准化对象的正面的平面的深度。

在实施例中，以两个方式改变输入深度图像。首先，将其旋转并从真实世界转化到用户的正面。其次，为了效率，模糊并二次采样深度。

在表示图像是深度图像与轮廓的加权组合的实施例中，以三个方式改变输入深度。首先，将其旋转并从真实世界转化到用户的正面。其次，为了效率，模糊并二次采样深度和相应的轮廓。第三，重新加权深度和轮廓，以匹配深度图像与根据表示图像的轮廓的加权组合的权重。

系统的输出可以是3D数据文件，其包括在三维和网格定义中的位置的集合。

在实施例中，系统被配置为计算对象的测量值。测量值可以是离散的尺寸，例如小、中和大，或者诸如对象的腰部或下落裆/小腿內侧的测量值。

显示器170可以被配置为显示对象的三维表示。显示器也可以被配置为显示为对象计算的测量值的结果。

在实施例中，显示器可以被配置为显示对象穿着服装商品的形象，而无需他们试穿真实产品。

在上述方法中，将人的姿势和体形的估计视为配准问题。将在前学习的体形和姿势的模型与深度图像相适配。这个模型允许在一定姿势范围中任何似乎可能的人体体形的有效配准。

在下文中，说明创建上述聚类模型的方法，并说明产生对象的三维表示的方法的实施例。下述的方案关注效率，由在计算机图形领域中使用的特征网格来产生模型。学习姿势和体形的分离模型，使用线性混合蒙皮(LBS)将身体体形变形为特定姿势。

为了学习这种模型，需要包含在各种不同体形和姿势上完全对应的许多3D的人类的数据集。

图3显示了用于创建这个数据集的方法的概要。使用图3中所示的方法，因为无法获得单个数据集。

方法的输入是3D人体扫描302和简单的人的网格304。对于3D人扫描，使用一定姿势范围中的多个人的扫描的数据库。为了创建可以用于学习体形和姿势的模型的数据集，采用了图3中所示的方案。

作为人的网格模型304，使用了普通3D立方体模型的具体实例，在以下说明中将其称为立方体网格。随后在从粗到精的过程中将立方体网格模型与给定人扫描相适配。

图4a显示了人对象的立方体网格模型。这个模型允许使用立方体而被构造的对象类的3D形式的简单“草图”，其中，每一个立方体分配有不同的语义和结构信息。

图4b到4d显示了从低分辨率到高分辨率的人的网格模型。

随后可以将初始的几何粗略模型细分为每个立方体的任意分辨率。尽管在模型的应用方面，任何细分的网格都是有用的，但可以在原始立方体上以连续方式参数化定义操作。例如，这允许每一个立方体上的点或区域的指定，无需对细分的网格的特定顶点位置的离散化。在配准人的网格的情况下，这个特性允许确定例程的指定，用于从任意给定配准的网格产生人骨架。

立方体网格模型允许基于粗略立方图的诸如图4a所示的人之类的3D对象类的“草图”的描述。随后在如图4b到4d所示的从粗到细过程中将这个模型与给定人扫描相适配，同时保留与每一个贴片有关的语义信息。模型还允许在原始立方体上具有连续参数的确定性结构算法的容易指定，和其到高分辨率配准模型的转换。这个过程用于为每一个配准网格恢复骨架。

在配准步骤306中，将人立方体网格与一定姿势范围中的多个人的扫描的输入数据库中的每一个3D扫描配准。为了减小计算时间，借助从粗到精策略执行配准。过程以最粗略的网格表示开始，包括重复地适配立方体网格随后增大其分辨率。对于每一个分辨率，使用标准梯度下降方案，通过使得代价函数最小来找到解决方案。代价函数是三项的线性组合：平滑度项(曲率必须低)、数据项(立方图网格必须与扫描接近)和界标项(已知界标必须接近)。立方体网格模型的连续参数表示用于增加对应于呈现在每一个被扫描人上的现实世界标记的界标点。

在步骤308中，对配准结果执行统计分析。统计分析的目的是识别任何异常值。统计分析的结果用于去除错误的配准。例如，由于在获取扫描中的错误，会遗漏手臂的下侧。在步骤310中，从数据集去除错误的扫描。

在步骤312中，学习线性混合蒙皮(LBS)权重。从配准的网格学习LBS权重，其允许蒙皮过程的逆转和将每一个网格变形为标准姿势。存储学习的LBS权重与每一个姿势和标准化身体体形的单一集合。

在步骤314中，标准化扫描的姿势。身体扫描的姿势通过配准隐含地给出，因为对于任何给定网格，存在给出基础骨架的确定性算法。更大的困难在于恢复无姿势的真实身体体形。为此，必须选择标准规范姿势。将来自图4中所示的一定姿势范围中的多个人的扫描的输入数据库的平均姿势用作标准规范姿势。

使用是蒙皮过程的逆转的逆线性混合蒙皮(ILBS)来实现将配准的网格变形为标准姿势，以便从变形的蒙皮的体形恢复穿衣服的体形。线性混合蒙皮(LBS)是在计算机图形业界中为了有效的角色动画而使用的技术。

按照应用于“穿衣姿势”顶点位置的n个骨架骨骼变换M_b的加权和来计算每一个顶点v_s的蒙皮或变形的位置，如下：

v_{s} = Σ_{b = 1}^{n} w_{b} M_{b} {\overset{&OverBar;}{M}}_{b}^{- 1} \overset{&OverBar;}{v}

在以上等式中，w_b是表示骨骼b对顶点Vs的影响的权重，b是索引。矩阵表示逆“穿衣姿势”骨架骨骼变换。从右至左，以上等式的左侧表示获得“穿衣姿势”顶点位置，将其变换到穿衣姿势中的骨骼b的坐标系中，随后借助骨骼b的姿势变换来变换它。

使用配准的网格的整个集合来学习权重w_b。随后弃用穿衣顶点位置的全体集合。

学习单独的3D人体体形的参数模型需要去除在训练示例之间的任何姿势变化。

图5a显示了有姿势体形的配准的人的网格。图5b显示了图5a中的网格的姿势中的骨架。图5c显示了标准化姿势或“穿衣姿势”中的骨架。图5d显示了变换为穿衣姿势的图5a的配准网格的身体体形。

给定有姿势的配准的网格(例如图5a中的)，确定对每一个有具体姿势的网格(图5d)特定的穿衣姿势顶点的集合。为此，逆转LBS过程。对于每一个顶点v，计算从穿衣顶点位置v到v_s的完整变换矩阵T：

T = Σ_{b = 1}^{n} w_{b} M_{b} {\overset{&OverBar;}{M}}_{b}^{- 1}

这允许在每一个配准网格中将穿衣的或有姿势的标准化顶点位置计算为：

\overset{&OverBar;}{v} = T^{- 1} v_{s}

上述技术允许在3D的人扫描的数据集中将身体体形与其姿势分离。这产生了两个数据集，一个由标准姿势的身体体形316组成，另一个由姿势318组成。这允许构建每一个的单独的统计模型，并独立地估计每一个。也存储LBS权重320的单一集合。

在本文所述的方案中，数据集被划分并在每一个区域内学习统计模型。考虑到这个目的，期望在存在极少示例的姿势和体形空间的区域中产生额外数据。上述技术与人体形、人姿势和LBS权重的输出允许产生有姿势的身体体形的额外样本。

图6显示了产生有姿势的身体体形的样本的方法。方法的输入是人体形316、人姿势318和LBS权重320，使用图3所示的方法计算它们。

在步骤602中，采样相同性别的两个立方体网格。在步骤604中，随机插值采样的立方体网格。随后将这个新身体体形蒙皮606成为姿势。通过为每一关节608产生主成分分析(PCA)来创建姿势，随后从相应的主成分分析(PCA)模型为每一关节采样旋转610。为数据集中每一个所需样本重复这个采样和蒙皮过程，每个样本大致花费1/30秒。方法的输出是有姿势的身体体形612的样本的集合。

如图6所示的，使用标准规范姿势的立方体网格的随机加权线性组合来产生新体形。这个简单线性组合几乎总是给出人样子的结果，不管插值的身体体形相距多远。在步骤602中，发现将相同性别的样本用作不同性别的插值体形给出了明显的不现实的结果。

建模整个范围的人姿势的外观是有挑战性的任务，由于所提的清晰度的程度。给定13个主关节中每一个单独移动的可允许范围，可能的姿势的空间是极大的，这甚至还没有考虑手指移动。因而，我们愿意能够限定我们为之创建数据集的姿势的空间。这通过在每一个关节的相对3D定向上使用主成分分析(PCA)和从这个模型加权采样来学习姿势的参数模型来实现。

使用指数映射来表示每一个关节相对于其母体的角度，即表示通过R³中的向量的3D旋转。这个向量描述了旋转轴和围绕该轴的旋转角度。使用这个参数表示，因为它允许3D旋转的紧凑表示，同时允许使用统计分析方法。对于每一个关节，计算从母体到子骨骼的相对变换，随后计算旋转的指数映射。随后在全部示例姿势中每一个关节的指数映射的集合上分别执行PCA。为了采样新姿势，为骨架中每一个关节采样相对旋转。通过对用于来自每个关节的PCA模型的每一个尺寸的样本的方差加权来实现姿势空间的控制。在目测检查每一个主成分对应的移动的范围之后，手动设定这些权重。

姿势和体形模型采用两个单独的PCA模型的形式，所述PCA模型组合有LBS。给定具有相同拓扑的身体体形网格的数据库，在原点开始，向量化并连接所有顶点的x；y；z位置。随后为所有网格在这个向量的集合上执行PCA。借助为我们骨架的19个关节的每一个计算的PCA模型如上计算姿势的模型。这个方案的可替换方案是在连接到单一向量中的所有关节参数上计算PCA模型。实际上，发现每个关节模型在适配阶段过程中提供了对不可见姿势的更大程度的普遍化。使用具有在训练过期间所计算的权重的LBS来给定姿势和体形模型最终网格输出的参数空间中的位置。

为了有效适配，如果将体形和姿势的空间很好地局限于给定初始状态并从而更紧凑是有利的。这减小了优化的参数空间，导致增大的效率。而且，其有助于优化的参数的正则化，以保持假定姿势和体形接近于初始状态的点。为了实现这种局限，通过模拟深度摄像机测量的空间来共同聚类姿势和体形。

图7显示了学习体形和姿势的局部模型的方法。适配过程的效率和鲁棒性在于快速初始近似和梯度下降阶段的姿势和体形的有限模型。这通过在模拟的深度图像的空间中聚类来实现，模拟的深度图像是为有姿势的身体体形数据库612中的每一个样本渲染的。在适配过程中，我们首先将输入图像与聚类质心相匹配，随后将姿势和体形的相应模型用于重复的基于最接近点的配准。

在步骤702中，从有姿势的身体体形612的样本合成深度图像。在步骤704中，标准化深度图像。

实施标准化以减小可能的测量图像的空间。这实现了两个关键目标：(i)去除杂散背景信息，仅留下当前的人，(ii)标准化相对于传感器的定向和距离。

使用区域生长方法来将人从背景中划分出。将具有在预期人位于的中心处的像素的区域作为种子。重复增加像素，直至达到大于给定阈值的深度图像的边界为止。

定向是通过将平面与3D前景点相适配而标准化的定向，仅允许围绕垂直轴的旋转。通过去除所有划分点的平均值来标准化所划分的人的转化。使用发现的变换允许原始测量图像的标准化正交重新投影。其效果在于将深度图像旋转并转化到标准化平面。

在步骤706中，聚类经标准化的深度图像。为了聚类大量标准化测量图像，使用了k均值聚类。首先通过将尺寸减小到任意小规模来准备测量图像。图8显示了减小到16乘16像素的测量图像。尺寸中的这个减小增大了训练和测试过程的效率。由于这个减小，连同每一个小深度图像一起计算alpha图。这个alpha图表示在每一个深度像素之中的置信度，即，起作用的有效高分辨率测量像素的数量。可以认为alpha图像表示人对象的轮廓。通过模糊并二次采样全分辨率二值轮廓图像－即减小分辨率－来创建alpha图像。

随后加权并向量化深度加alpha图像，且形成样本的特征向量。权重允许将在仅基于轮廓或者基于轮廓加深度的聚类之间调整置信。会发现，即使在这个小规模，也捕获了大部分身体体形和姿势的变化。

在步骤708中，为每一个聚类构建局部模型720。使用两个单独PCA模型形式构建局部模型，以与上面相关于全局模型所述的相同的方式借助LBS组合两个单独PCA模型。每一个局部模型都包括平均深度图像722、体形模型724、姿势模型726和非固有姿势模型。如上所述，平均深度图像722可以是alpha图像与深度图像的加权组合。非固有姿势模型728模拟有姿势的人体形在标准化平面的坐标系中的位置。这有助于克服在测量图像上操作的标准化中的局部化误差，标准化与身体体形和姿势相关。

图8a显示了聚类质心网格的示例，图8b显示了相应的聚类质心深度和alpha图像。

图8a显示了用于10个聚类模型的聚类质心网格，将这10个聚类模型标记为聚类模型1到聚类模型10。如图8a中所示的，每一个聚类都具有不同的体形和/或姿势。

图8b显示了用于图8a中所示的每一个聚类模型的表示图像。每一个聚类都由依据姿势和体形模型的平均值渲染的测量图像表示。如图8b中所见的，在尺寸上极大地减小图像，以增大效率。由于尺寸中的减小，为每一个像素计算深度测量和alpha值。alpha值指示有效信息存在的程度。

现在将说明使用图7中所示的聚类模型720根据深度图像来估计人的身体体形的过程。以下说明的方法对应于图2中所示的方法的示例。

给定不可见的输入深度图像，在不受可能的厚衣服的扰乱的情况下来估计任意当前人的身体体形。给定以上学习的模型，这在两阶段过程中实现。首先，通过与所有聚类表示图像比较来执行非参数化估计。体形、姿势和标准化误差的相应模型随后用于第二梯度下降阶段中，以达到准确配准。

在适配可以开始之前，我们需要地面位置的准确估计。这实现了脚的准确放置，对于朝向摄像机的人定向的准确标准化是重要的。

在实施例中，所使用的深度传感器通过采用加速度计来提供重力向量。假定在任何场景中地面都大致垂直于这个向量。因而可以通过将场景中的所有3D点投影到这个向量上并找到最大密度的点来实现地面平面的适配。使用简单的迭代最近点(ICP)式算法来改进得到的地面位置，以弥补加速度计测量中的误差。

当触发系统时，执行上述的标准化过程。这给出了以与在训练阶段过程中合成的深度测量相同方式标准化的深度测量。根据到所有聚类质心的欧几里得距离执行穷举的最近邻居比较，借助在训练过程中使用的相同权重来加权深度和alpha图像。最近聚类包含用于姿势、体形和标准化误差的模型，平均值是真实身体体形的接近初始近似。

给定计算的初始状态和姿势、体形及标准化误差的约束模型，使用迭代Levenberg-Marquardt算法来将立方体网格适配于深度图像的输入点云相。配准借助三个过程的重复迭代来执行，其中独立地适配网格体形、固有(有关节的)姿势和非固有姿势(弥补标准化误差)。在优化的每一个高级阶段，确定网格与点云的对应关系，随后更新模型以使得以下的能量函数最小：

E(X)＝E_d(X)+αE_v(X)+βE_f(X)+γE_r(X)

其中，X＝(X_s,X_p,X_t)分别是体形、姿势和标准化误差模型的参数。能量函数的项捕获在相应点之间的距离E_d、配准网格的几何体积E_v、对于抬脚离地过远的惩罚E_f、和在X元素上的正规化项E_r。以下进一步详细说明每一项，连同用于相对于法向n＝(x,y,z)的对应关系发现的鲁棒方法。α、β和γ是系数，在模型的训练过程中确定它们。

距离项，即数据项促使模型网格接近于输入点云：

E_d＝∑K(d(p_i,q_i)/σ)

其中，p_i＝(x,y,z)和q_i＝(x,y,z)是数据与模型顶点的相应对，d(..)是距离函数，σ是噪声级别，K是核函数。

构造距离函数d(..)以处理衣服的存在。它是修改的点到点距离。

d(p,q)＝重力(内部(＜p-q,n_q＞),n_q)

其中，n_q是在点q的法向，变量y的函数内部(..)由以下给出：

内部(y)＝y·(1+δ(y＜0)τ_内部)

内部(..)函数给出了在有衣服的体形内的模型的优先选择。就是说，裸露的体形在有衣服的体形内。

重力函数由以下给出：

重力(y,n)＝y·(1+max(0,N_y)·τ_重力)

其中，N_y是法向n＝(x,y,z)的y分量。当法向为反重力时，重力函数施加了更紧密的匹配。这解决了希望衣服朝向身体表面贴紧的事实。τ_内部和τ_重力是真实估值的权重，其分别控制内部项与重力项的影响。函数max(..)是最大值运算符，其返回其自变量的较大值。例如max(a,b)返回a与b的较大值。

体积项E_v设定对较小体积的优先选择。类似于上述的距离项，这个项旨在处理衣服的存在。

E_{v} = volume {(M (X))}^{\frac{1}{3}}

其中，体积(M(X))是网格M(X)的体积。

脚部项E_f优选具有触地的脚部的网格。它是不浮动或碰撞的脚。

E_{f} = \underset{feet}{Σ} < q_{j}, U >

其中，q_j是属于右脚或左脚的底部的模型点，U＝(0,1,0)是上向量。

正规化项E_r考虑了PCA模型是用于小偏差的数据的良好表示。为了保持结果真实，正规化项用于优选更有可能的体形。

E_{r} = Σ \frac{x_{i}}{σ_{r}}

其中，x_i是输入参数向量X的标量分量，σ_r是对认为是正常的有影响的阈值。

相对于法向来计算在模型与深度图像之间的对应关系。这是因为不成熟地计算对应关系会导致差的匹配，例如给定一个不正确的姿势，手掌上的点可以与手上侧上的点匹配。为了克服它，相对于法向来计算对应关系。将经平滑的点云法向在它们的方向上存储到极向和径向存储箱中。在匹配阶段过程中，计算每个模型顶点的储存器索引，仅为相应的储存器及其邻居搜索匹配顶点的点云。这确保了匹配点的法向是类似的，有助于克服姿势中的初始化误差。

在一个实施例中，上述的方法和系统用于健康和体形监控。对经受节食或锻炼的对象的影响进行显现和评估。可以预测并评估未来的体形。实施例允许整个体形的显现和追踪。这相较于诸如腰部测量或体重测量的单一测量更易于显现并可以更有动力。

实施例可以应用于服装零售中。例如，实施例允许顾客以高度准确的方式显现着装。此外，可以进行精确且准确的测量用以甚至在在线环境中进行着装测量。

实施例可以应用于在线游戏和通信。可以创建与对象的身体外形非常匹配的现实角色。由于体形和纹理参数仅需发送一次姿势可以随后数次更新，从而改进包括人的视频的压缩。

实施例可以应用于追踪视频片断中的人。一旦获知了体形，就可以在视频片断的帧中追踪具有该体形的人，甚至可以在由不同摄像机拍摄的片断中对其重新识别。

实施例可以应用于生物统计学。例如，体形估计允许在办公室建筑中的被动访问控制。与诸如步态和姿态的其他被动生物统计结合的身体外形允许身份验证的改进。被动地估计体重的能力可用于按体重计价的机票。

实施例可以应用于安全领域。体形估计可以用于检测在衣服下面隐藏的物品。体形估计和对顾客进出商店之间的比较可以提供行窃检测。人在不同时间点的之间的估计与比较可以检测个别包裹遗漏，这在公共安全环境下是有用的。

在一个实施例中，在具有运行在2.93GHz的双Intel Xeon X5647处理器和GeForce GT640GPU的Dell Precision T7500上实施上述系统。

尽管说明了特定实施例，但提出这些实施例仅是作为示例，并非旨在限制本发明的范围。实际上，本文所述的创新方法和系统可以以各种其他形式来体现；而且，在不脱离本发明的精神的情况下，可以做出多个省略、替换和变型。所附权利要求书及其等效替代旨在覆盖将落入本发明的范围和精神内的形式或变型。

Claims

1.一种根据深度图像来产生对象的三维表示的方法，所述方法包括：

将所述对象的深度图像与多个表示图像相比较，其中，每一个表示图像都与对象的各自的参数模型相关联；

将所述多个表示图像中的一个表示图像识别为与所述对象的所述深度图像最接近的表示图像；

选择与和所述深度图像最接近的表示图像相关联的所述参数模型；以及

通过将所选择的参数模型与所述对象的所述深度图像相适配来产生所述对象的三维表示。

2.根据权利要求1所述的方法，其中，将所选择的参数模型与所述对象的所述深度图像相适配包括使能量函数最小，其中，所述能量函数包括距离项，所述距离项取决于在所述对象的所述深度图像上的点与所选择的参数模型上的相应点之间的距离。

3.根据权利要求2所述的方法，其中，所述距离项给出了对所述模型上的位于由所述深度图像上的点限定的体积内的点的优先选择。

4.根据权利要求2所述的方法，其中，所述距离项包括重力函数，所述重力函数与所选择的模型的表面的法向和重力方向相关。

5.根据权利要求1所述的方法，其中，每一个表示图像都是根据所述各自的参数模型而计算的深度图像。

6.根据权利要求1所述的方法，其中，每一个表示图像都是根据所述各自的参数模型而计算的深度图像与alpha图像的加权组合。

7.根据权利要求1所述的方法，进一步包括：在将所述对象的所述深度图像与所述多个表示图像相比较之前，标准化所述深度图像中的所述对象的定向和/或所述对象的深度。

8.根据权利要求1所述的方法，进一步包括：在将所述对象的所述深度图像与所述多个表示图像相比较之前，减小所述深度图像的分辨率。

9.根据权利要求1所述的方法，进一步包括：根据所述三维表示来计算所述对象的尺寸指标和/或测量值。

10.一种计算机可读介质，所述计算机可读介质承载处理器可执行指令，当所述指令在处理器上被执行时，使得所述处理器执行根据权利要求1所述的方法。

11.一种用于根据深度图像来产生对象的三维表示的系统，所述系统包括：

储存设备，所述储存设备用于存储所述对象的多个参数模型和多个表示图像，每一个表示图像都与各自的参数模型相关联；

选择模块，所述选择模块用于：

将所述对象的所述深度图像与所述多个表示图像中的每一个表示图像相比较；

将所述多个表示图像中的一个表示图像识别为与所述对象的所述深度图像最接近的表示图像；以及

选择与和所述深度图像最接近的表示图像相关联的参数模型；以及

适配模块，所述适配模块用于通过将所选择的参数模型与所述对象的所述深度图像相适配来产生所述对象的三维表示。

12.根据权利要求11所述的系统，其中，所述适配模块用于通过使得能量函数最小化来将所选择的参数模型与所述对象的所述深度图像相适配，其中，所述能量函数包括距离项，所述距离项取决于在所述对象的所述深度图像上的点与所选择的参数模型上的相应点之间的距离。

13.根据权利要求12所述的系统，其中，所述距离项给出了对所述模型上的位于由所述深度图像上的点限定的体积内的点的优先选择。

14.根据权利要求12所述的系统，其中，所述距离项包括重力函数，所述重力函数与所选择的模型的表面的法向和重力方向相关。

15.根据权利要求11所述的系统，其中，每一个表示图像都是根据所述各自的参数模型来计算的深度图像。

16.根据权利要求11所述的系统，其中，每一个表示图像都是根据所述各自的参数模型来计算的深度图像与alpha图像的加权组合。

17.根据权利要求11所述的系统，其中，每一个表示图像的分辨率都小于100×100像素。

18.根据权利要求11所述的系统，其中，所述选择模块用于在将所述对象的所述深度图像与所述多个表示图像相比较之前，标准化所述深度图像中的所述对象的定向和/或所述对象的深度。

19.根据权利要求11所述的系统，进一步用于根据所述三维表示来计算所述对象的尺寸指标和/或测量值。

20.根据权利要求11所述的系统，进一步包括深度图像捕获设备，所述深度图像捕获设备被配置为捕获所述对象的所述深度图像。