CN107818580A - 根据深度图对真实对象进行3d重建 - Google Patents

根据深度图对真实对象进行3d重建 Download PDF

Info

Publication number
CN107818580A
CN107818580A CN201710817786.XA CN201710817786A CN107818580A CN 107818580 A CN107818580 A CN 107818580A CN 201710817786 A CN201710817786 A CN 201710817786A CN 107818580 A CN107818580 A CN 107818580A
Authority
CN
China
Prior art keywords
depth
function
depth map
modeling object
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710817786.XA
Other languages
English (en)
Other versions
CN107818580B (zh
Inventor
M·A·阿亚里
V·吉特尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes of America Corp
Original Assignee
Dassault Systemes of America Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dassault Systemes of America Corp filed Critical Dassault Systemes of America Corp
Publication of CN107818580A publication Critical patent/CN107818580A/zh
Application granted granted Critical
Publication of CN107818580B publication Critical patent/CN107818580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/536Depth or shape recovery from perspective effects, e.g. by using vanishing points
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/257Colour aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明显著地涉及用于学习函数的计算机实现的方法,该函数被配置用于针对一类的真实对象根据该类的实例的深度图来重建表示实例的3D建模对象。该方法包括提供(S10)该类的参数化模型,创建数据库,以及利用数据库来学习(S30)该函数。该方法改进了根据深度图对真实对象进行3D重建。

Description

根据深度图对真实对象进行3D重建
技术领域
本发明涉及计算机程序和系统领域,以及更具体地,涉及与根据深度图对表示真实对象(例如,人体)的3D建模对象进行重建相关的方法、系统、以及程序。
背景技术
市场上提供了很多用于对象的设计、工程、以及制造的系统和程序。CAD是计算机辅助设计的首字母缩写,例如,CAD涉及用于对对象进行设计的软件解决方案。CAE是计算机辅助工程的首字母缩写,例如,CAE涉及用于对未来产品的物理行为进行仿真的软件解决方案。CAM是计算机辅助制造的首字母缩写,例如,CAM涉及用于对制造工艺和操作进行定义的软件解决方案。在这样的计算机辅助设计系统中,图形用户界面对于技术的效率起到重要作用。这些技术可以嵌入到产品生命周期管理(PLM)系统中。PLM是指这样的商业策略:跨越扩展企业的概念而帮助公司来共享产品数据、应用公共过程以及利用企业知识来从概念至产品的生命结束地开发产品。由Dassault Systèmes提供的PLM解决方案(商标为CATIA、ENOVIA以及DELMIA)提供了:组织产品工程知识的工程中心、管理制造工程知识的制造中心、以及使得企业能够集成并连接到工程及制造中心的企业中心。该系统一起提供了开放的对象模型,其将产品、过程、资源链接起来使得能够进行动态且基于知识的产品创造与决策支持,驱动优化的产品定义、制造准备、生产以及服务。
在这个框架下,计算机视觉和计算机图形学领域提供越来越有用的技术。事实上,这个领域具有3D重建上的应用。3D重建可以用于涉及创建(例如,纹理化)3D模型的任何领域,例如,功能性游戏、视频游戏、架构、考古学、反向工程、3D资产数据库、或虚拟环境。若干学术和工业人士现在提供用于3D重建的软件解决方案,例如,通过RGB和/或深度图像分析(例如,Acute3D、Autodesk、VisualSFM),或者通过RGB深度分析(例如,ReconstructMe或Microsoft’s SDK for Kinect(注册商标))。
RGB深度(或RGB-D)图像分析是使用“发射器-接收器”传感器的3D重建方法,“发射器-接收器”传感器除了标准RGB数据之外还提供深度数据。深度数据可以构成在重建过程中主要使用的数据。以下文章涉及这种方法:“Yan Cui等人:3D Shape Scanning with aTime-of-Flight Camera,CVPR 2010”,“RS.Izadi等人:KinectFusion:Real-Time DenseSurface Mapping and Tracking,Symposium ISMAR 2011”,以及“R.Newcombe等人:LiveDense Reconstruction with a Single Moving Camera,IEEE ICCV2011”。深度-图(depth-map)分析重建方法基于视差图或近似3D点云。这些视差图是使用立体视觉或结构光(参见例如“Kinect”设备)或“飞行时间”3D照相机获得的。
RGB-D图像分析可以显著地用于对诸如人体的真实对象进行3D重建的过程。从对用户进行RGB-D获取(即,具有深度图图像的彩色图像)开始,这样的过程的目的在于预测用户身体的准确3D形状和/或姿势。这在虚拟试穿仿真、增强现实、物联网、以及视频游戏方面具有许多应用,其中例如利用单个RGB-D传感器来捕获用户身体形状和姿势。
3D人体重建文献中的大多数可以归纳为可以被称为“基于优化的方法”的单一类的方法。这些方法使用优化技术来估计3D人体参数、姿势、以及形状,优化技术应用于将用户的视图与3D参数化身体模型进行比较的成本函数。
下面列出了公开基于优化的方法的示例的文章:
-Balan,L.S.Detailed Human Shape and Pose from Images.CVPR,2007。
-Balan,M.B.The Naked Truth:Estimating Body Shape Under Clothing.ECCV,2008。
-A.Weiss,D.H.Home 3D body scans from noisy image and range data.ICCV,2011。
-F.Perbet,S.J.Human Body Shape Estimation Using Multi-ResolutionManifold Forest.CVPR,2014。
-M.Loper,M.B.OpenDR:An approximate Differentiable Renderer.ECCV,201.4。
-P.Guan,A.W.Estimating human shape and pose from a single image.ICCV,2009。
-Y.Chen,Z.L.Tensor-based Human Body Modeling.CVPR,2013。
如在这些文章中陈述的,基于优化的方法通过使用RGB-D照相机来捕获用户而开始。这实现RGB图像和深度图图像。该方法然后利用由形状和姿势参数控制的参数化模型来表示3D人体。形状参数捕获人的固有形状,而姿势参数捕获身体姿势。
使用该参数化模型以及用户RGB-D获取,基于优化的方法经常使用两个优化步骤来预测模型参数。
第一步骤在于通过将参数化身体模型的剪影与所观察到的剪影(从用户深度图中提取的)进行匹配来搜索身体参数(形状和姿势)。
使用双向成本来比较两个剪影,定义为例如:
E剪影=d(S→T)+d(T→S)
其中S是用户剪影,T是模型剪影,并且:
·如果索引的像素(i,j)在S内,则Sij=1,否则为0。
·如果像素(i,j)不在T中,则Cij(T)=像素(i,j)到S中最近像素的距离,否则为0。
第二步骤在于通过最小化两个图的成本函数来匹配身体参数与所观察到的深度图二者。成本函数被定义为重叠的两个深度图之间的距离,定义如下:
其中DS是用户深度图,DT是模型深度图,ρ是Geman-McClure估计器,而N是重叠像素的数量。
另一种基于优化的方法由上面引用的“F.Perbet,S.J.Human Body ShapeEstimation Using Multi-Resolution Manifold Forest.CVPR,2014”提出。该方法仅搜索形状参数,并且将形状估计的任务公式化为在人类身体形状的流形(manifold)上优化能量函数。从单个人类深度图开始,使用相似性测量找到关于流形的初始解决方案。然后使用迭代最近点来改良解决方案。
使用基于优化的重建方法来进行3D人体重建遭受不同的缺点。一个缺点涉及低收敛速度。例如,如上面引用的“A.Weiss,D.H.Home 3D body scans from noisy image andrange data.ICCV,2011”中所陈述的,该方法收敛可能花费超过四十五分钟。这是由于大量的未知数以及目标函数(其在大多数情况下是不可微的)的复杂度。另外,优化方法可能陷入局部最小值,因为采用的优化目标函数不是凸的。绕过局部最小值问题的常见策略是:通过将优化分解为每个优化具有不同未知数的若干优化问题,交替在姿势参数和形状参数之间进行优化。这显著地由上面引用的“Balan,M.B.The Naked Truth:Estimating BodyShape Under Clothing.ECCV,2008”提出。这避免了对大的未知数向量进行优化并且有助于收敛,但是该方法仍然花费重要的时间,并且不能保证收敛。
在这种上下文内,仍然需要改进的解决方案,以用于根据深度图来重建表示真实对象的3D建模对象。
发明内容
因此,提供了一种用于学习函数的计算机实现的方法,该函数被配置用于针对一类的真实对象根据该类的实例的深度图来重建表示实例的3D建模对象。该方法可以被称为“学习方法”或者“离线”模式或方法。
该学习方法包括提供该类的参数化模型。该学习方法还包括创建数据库。创建数据库包括改变参数化模型的参数,以生成各自表示该类的相应实例的3D建模对象。创建数据库还包括针对每个生成的3D建模对象合成由所生成的3D建模对象表示的实例的相应状态的相应深度图。创建数据库还包括将每个合成的深度图关联到对应的3D建模对象。学习方法还包括利用数据库来学习函数。
在示例中,学习方法可以包括以下中的一个或多个:
-针对每个生成的3D建模对象合成相应深度图包括:提供虚拟视点,以及确定表示从虚拟视点到所生成的3D建模对象的准确深度的理论深度图;
-针对每个生成的3D建模对象合成相应深度图还包括:至少在对应于相应的所生成的3D建模对象的轮廓的位置处将扰动添加到理论深度图;
-添加扰动包括将随机噪声添加到深度图;
-随机噪声是高斯噪声;
-随机噪声对应于深度传感器的噪声;
-深度传感器与在稍后讨论的重建方法中和/或稍后讨论的系统中涉及的深度传感器相同或与其为相同类型;
-该类的真实对象是一类人体;和/或
-然后将通过学习方法习得的函数输出,例如,存储在存储器(例如,非易失性存储器)上,-和/或将该函数发送到远程系统(例如,稍后讨论的系统),-例如,该学习方法由另一设备执行。
还提供了一种能够根据学习方法来学习的函数,即,与由学习方法输出的函数相对应的数据结构。在示例中,该函数是根据学习方法高效地习得的。该函数可以被称为“重建函数”。
还提供了一种用于针对一类的真实对象根据该类的实例的深度图来重建表示实例的3D建模对象的方法。这种方法可以被称为“重建方法”或者“在线”模式或方法。
重建方法包括提供重建函数。重建方法还包括提供深度图。重建方法还包括将重建函数应用于深度图。在示例中,深度图可以由深度传感器获取。
还提供了一种能够通过重建方法获得的3D建模对象,即,与由重建方法输出的3D建模对象相对应的数据结构。3D建模对象可以被称为“经重建的3D建模对象”。
还提供了一种计算机程序,包括用于执行学习方法和/或重建方法的指令。
还提供了一种计算机可读存储介质,即,存储器,其上记录有上面讨论的数据结构中的任一种或组合,即经重建的3D建模对象、重建函数、和/或计算机程序。
还提供了一种系统,包括耦合到计算机可读存储介质或存储器的处理器。在示例中,系统还可以包括深度传感器。
附图说明
现在将通过非限制性示例的方式并且参考附图来描述本发明的实施例,在附图中:
-图1示出了学习方法的示例的流程图;
-图2示出了重建方法的示例的流程图;
-图3示出了系统的示例;以及
-图4-10示出了方法及其测试的示例。
具体实施方式
所提供的方法、程序、介质、以及系统改进了根据实例真实对象的深度图对表示一类的真实对象中的实例的3D建模对象进行重建,显著地通过在这样的上下文中实现机器学习范例并且由此实现其优点。
重建方法允许从表示实例的相对简单的数据结构(即,实例的深度图)获得3D建模对象。在示例中,可以基于实例的单个深度图来执行重建方法。深度图可以通过包括利用深度传感器获取深度测量或由该操作构成的过程获得。因此,通过例如利用包括深度传感器的任何设备或系统(例如,RGB-D照相机)简单地获取实例的深度图(例如,单个深度图),可以非常容易地执行重建方法。然后,重建方法可以包括将重建函数应用于直接输出3D建模对象,其中计算复杂度仅取决于深度图的大小,因为重建函数直接应用于深度图。因此重建方法相对快速并实现实时性能。这开放了许多面向消费者的应用。
另外,在示例中,可以基于处于任何姿势的实例的深度图来执行重建方法。换言之,对于在对实例进行3D重建之前的深度数据获取,可以采用任何姿势。因此,3D重建在深度获取时提供自由姿势。由于将姿势变化性纳入考虑的重建函数,重建方法在获取深度数据时不要求采用参考姿势。这增加了执行重建方法时的灵活性。
这都是由于获得重建函数的方法,换言之,由于学习方法的特异性。特别地,重建函数是关于数据库习得的(即,通过机器学习获得的),该数据库被适当地创建,以使得机器学习能够产生相关的结果。适于这种学习的预先存在的数据库不可用(例如,与在对用于识别例如图像中的猫的函数进行机器学习的上下文中不同,其中可以简单地检索并适当地索引在互联网上可获得的图像来形成学习数据库)。因此,学习方法通过使用该类的参数化模型来创建/合成这样的自组织学习数据库。然后,用于获得重建函数的机器学习过程(即,学习方法)可以在所创建的数据库上运行。具体地,数据库的创建产生各自与对应的3D建模对象相关联的深度图。因此,学习方法可以基于这样的数据库及其特定的“3D建模对象-深度图”数据关联来学习根据深度图重建3D建模对象的重建函数。
现在参考图1-3讨论方法和系统的一般示例。
图1示出了离线学习方法的示例。
图1的方法产生被配置用于至少针对一(即,至少一个)类真实对象根据深度图来重建3D建模对象的函数。因此,通过学习方法获得的重建函数使得重建方法稍后可以应用于每个这样的类的真实对象。学习方法输出数据结构,该数据结构表示取深度图作为变元的函数如何处理这样的变元。因此,数据结构可以用于执行这样的处理。学习使得当重建函数在任何时间应用于表示该类的实例的深度图时,重建产生相对精确地表示所述实例的3D建模对象(即,就几何而言相对接近实例的真实形态)。该函数还可以应用于表示该类以外的真实对象的深度图或者抽象深度图(即,不表示任何真实对象),并且例如产生以下3D建模对象:其表示与从最接近的深度图到抽象深度图的重建相对应的该类的实例。可替代地,可以限制该函数,以便于在这种情况下输出错误或空值。然而,这仅是实现方式的问题,并且因此在下面不再进一步讨论。
图1的学习方法包括在S10处提供该类真实对象的(即,至少一个)参数化模型。现在详细讨论该数据结构,尽管是众所周知的。
表述“真实对象的类”指定具有相似形态的真实对象的集合、组、或类别。术语“形态”指定真实对象的3D形状,而不管其姿势。换言之,真实对象的形态是由真实对象相对于其能够采用的所有可能的姿势可实现的3D形状的分布。真实对象的姿势对应于真实对象相对于内部变形自由度(如果有的话)如何站立(在真实对象根本没有内部变形自由度的情况下,则姿势是真实对象可以呈现的唯一3D形状)。换言之,真实对象的姿势对应于其内部变形自由度的特定配置。内部自由度可以对应于真实对象的块成员之间的真实对象的可变形部分(即,真实对象的不被变形的部分)。可变形部分可以形成铰接。铰接可以允许在两个块成员之间进行旋转,可扭转和/或(例如,稍微地)可拉伸。
该类的元素被称为“实例”。因此,实例是该类的真实对象。实例具有3D形状——取决于其姿势(如果有的话)。实例可以由对该实例的这种3D形状进行建模的3D建模对象来表示。显著地,在改变S22处,生成各自表示该类的相应实例的3D建模对象。3D建模对象可以表示处于给定姿势的实例。例如,由重建方法输出的3D建模对象可以表示处于如由深度图表示的实例的姿势的实例(提供其深度图以用于重建)。然而,不一定是这样的情况,这取决于如何执行改变S22和合成S24,显著地考虑到构思用于该方法的应用。稍后当讨论改变S22和合成S24时将更详细地进行讨论。
该类真实对象是可以通过这样的3D建模对象(各自代表其建模的真实对象的相应姿势)的方式来表示的真实对象的集合。每个这样的3D建模对象对应于相同参数化模型的参数值。因此,类可以由这样的代表性参数化模型来定义。参数化模型对于该类的所有真实对象都是共同的,从而表示该类。换言之,一类的真实对象是可以通过其相应的3D形状共享相同的参数化模型的事实来收集的真实对象的集合。因此,参数化模型可以用于获得各自表示处于相应姿势的该类的相应实例的不同3D形状(对应于不同的参数值),即,具有处于所述相应姿势的所输出的3D形状的相应真实对象。这样的参数化模型在S10处出于这样的目的提供。注意,该类真实对象可以由不同的参数化模型来表示,即,由具有不同数据结构和/或不同数学表达式但是仍然产生相同类的形态并且因此在这种方面等效的模型来表示。学习方法可以在S10处提供,并且然后处理一个或若干这样的参数化模型。另外,学习方法还可以应用于单一类的真实对象或若干类的真实对象(在S10处针对每个类提供相应的参数化模型)。以下讨论涉及由该方法设想的单一类的情况,并且在S10处提供单一参数化模型。对多个情况的适应是简单直接的。
因此,参数化模型可以是基于输入参数来输出数据结构的函数,3D建模对象可以从该数据结构导出(例如,直接导出3D建模对象)。因此,参数化模型的参数的一组值表示3D建模对象(每个参数一个值)。参数化模型的图像(即,通过在其全部域上应用参数化模型而输出的该组值)表示处于相应姿势的该类真实对象的相应实例的3D形状。这些参数可以分为两个不同的类别:形状参数和姿势参数。形状参数控制在该类中对真实对象进行选择,而姿势参数控制所选定的真实对象的姿势。参数化模型的复杂度以及显著地所涉及的参数的数量取决于该类中的真实对象的形态的复杂度,以及取决于对类和/或姿势进行建模的精细度与合成需求之间的比率(换言之,对类和/或姿势进行建模所希望的区分级别)。这个数字一般可以低于100或75。例如,对于稍后提及的该类人体,在S10处提供的参数化模型可以涉及多于5个和/或小于15个(例如,以10为量级)用于表示实例选择的参数,和/或多于20或30个和/或小于60或45个用于表示所选定的实例的姿势的参数。参数化模型在参数化域上可以是连续的。参数的每个域可以是有界或非有界的实数范围。每个参数可以控制——例如连续地——变形或同态(homeomorphism)的类型。
例如,通过主成分分析(PCA)(如本身已知的),可以根据处于相应姿势的该类的实例的3D形状的样本(例如,超过1000个)来确定一类的真实对象的参数化模型。3D形状可以以任何方式建模,例如,从数据库中检索或手动设计。然后,参数化模型将该类的实例的任何形状描述为由这样的PCA输出、由参数值加权的主成分之和。该学习方法可以包括这样确定参数化模型的先前步骤,或者可替代地,参数化模型可以预确定并简单地检索以在S10处提供的。
“参数化模型”的概念因此从现有技术中已知,并且显著地从较早引用的基于优化的方法的现有技术中已知。事实上,在这种方法中,优化过程经常搜索一类的真实对象的参数化模型的最优参数。在S10处提供的参数化模型可以是在这种现有技术中公开的这样的参数化模型。文章“A.Weiss,D.H.Home 3D body scans from noisy image and rangedata.ICCV,2011”显著地提供了一类人体的参数化模型的详细描述。
在示例中,参数化模型的输出可以是3D三角网格结构,其被定义为一组顶点(3D点)以及定义网格的三角形的该组点上的对应连接。该3D网格被建模为参考网格的变形。变形处于三角形的边的水平。其被定义为:
Dk=Rp(k)(w)Sk(β)Qk(w)
ek,j=xk,j-xk,0
j=1,2
k=1,..,nT
X=M-1E
其中ek,j是经变换网格中的第k个三角形的第j个边,其为大小(3×1)的向量。是参考网格中的对应的边。大小(3×1)的xk,j是第k个网格三角形中的第j个顶点。nT是3D人体输出网格中的三角形的数量。Dk是大小(3×3)的变形矩阵。
在示例中,该矩阵可以因式分解为:
1.大小(3×3)的刚性变换姿势矩阵Rp(k),其是例如三角形k所属的刚性体部分p(k)的旋转。该矩阵是姿势参数w的函数。姿势参数w是身体关节的局部旋转。
2.大小(3×3)的非刚性变形姿势矩阵Qk,其用作校正变形矩阵,例如,特别是在关节区域和肌肉区域的已变形的三角形上。每个Qk矩阵被建模为两个最近的三角形关节局部旋转(6个参数)与Qk的9个矩阵值之间的线性回归。
3.大小(3×3)的形状变形矩阵Sk,其是形状参数β的函数。该矩阵可以对人际形态变化进行建模,并且负责独立于身体姿势而使身体形状变形。所有网格三角形上的堆叠矩阵Sk被建模为在身体形状数据库上的主成分分析:
其中S是大小(9×nT)的矩阵,S0是平均身体形状,Sl是第l个主成分。
E是大小(nE×3)的边矩阵(针对所有三角形堆叠的ek,j),X是身体模型的输出,身体模型是大小为(nv×3)的身体顶点的矩阵,并且最后M的大小为(nE×nv)。
该类真实对象可以是对其而言3D重建证明有用的任何类。该方法对于可以采用不同姿势的类的真实对象(即,具有至少一个内部自由度的真实对象)特别有用。实际上,在这种情况下,该方法允许的对深度数据的自由形式的获取特别有用。这显著地在该类真实对象是一类人体时保持真实。此外,根据深度数据对3D重建进行研究主要集中于这样的一类的真实对象,显著地由于有希望的应用,例如,在虚拟试穿仿真、增强现实、物联网、以及视频游戏中,其中例如利用单个RGB-D传感器来捕获用户的身体形状和姿势。
然而,该类可以收集任何其它类型的真实对象,包括动物、身体器官部分、或植物/树木,或者包括诸如(例如,机械的)零件或零件的组装或更一般地任何刚性体组装的产品(例如,移动机构)。产品可以用于各种且无限制的工业领域,包括:航空航天、建筑、建造、消费品、高科技设备、工业装备、运输、船舶和/或海上石油/天然气生产或运输。该方法可以设想可以是任何机械零件的工业产品,例如,陆地交通工具的一部分(包括例如汽车和轻型卡车装备、赛车、摩托车、卡车和电机装备、卡车和公共汽车、火车),航空交通工具的一部分(包括例如机身装备、航空航天装备、推进装备、国防产品、飞机装备、空间装备),航海交通工具的一部分(包括航海装备、商船、近海装备、游艇和工作船、船舶装备),一般机械零件(包括例如工业制造机械、重型移动机械或装备、安装装备、工业装备产品、制造金属产品、轮胎制品等),机电或电子零件(包括例如消费电子、安全和/或控制和/或仪表化产品、计算和通信装备、半导体、医疗设备和装备),消费品(包括例如家具、家居和园艺产品、休闲用品、时尚产品、硬商品零售商的产品、软商品零售商的产品),包装(包括例如食品和饮料和烟草、美容和个人护理、家用产品包装)。
现在讨论图1的学习方法的其它步骤。
该学习方法包括基于参数化模型来创建数据库。数据库然后可以用于机器学习,并且因此可以被称为“学习数据库”。如从机器学习领域本身已知的,这样的学习数据库可以包括训练数据库(用于在S30处确定候选重建函数)和测试数据库(用于在S30处评估候选重建函数是否良好执行)。训练数据库可以包括比测试数据库多的数据片,例如,多于数据片的总数的60%(例如,80%的量级)。数据片的总数取决于所设想的学习质量以及针对所设想的特定类的真实对象的深度图的区分能力。该数字可以高于1.000、10.000、50.000、或者100.000(例如,对于非常快速的学习而言为40.000的量级,对于非常精确的学习而言为120.000的量级)。
创建数据库包括改变S22参数化模型的参数,以生成各自表示该类的相应实例的3D建模对象。换言之,该方法通过使用参数化模型(即,通过确定利用特定参数值对参数化模型进行评估的结果),在S22处确定各自表示(处于相应姿势的)该类的相应实例的3D建模对象。因此,改变S22实现对参数化模型的参数化域的采样。参数值可以在S22处以任何方式改变。在S22处生成的3D建模对象可以表示该类的不同实例。对于该类的实例中的至少一部分,相同的实例可以严格地由在S22处生成的多于一个3D建模对象来表示(例如,表示实例的不同姿势)。可替代地,该类的每个实例可以由至多一个所生成的3D建模对象来表示(因此针对所有实例提供至多一个姿势)。所生成的3D建模对象可以表示处于相同姿势(跨实例)或者可替代地处于不同姿势的实例。在示例中,改变包括在对参数化域的采样中的规则性水平和/或随机性水平。在示例中,可以将采样均匀地应用于利用参数的最小值和最大值约束的每个模型参数。最小值/最大值是仍然给出合理身体形状的值。
该学习方法还包括针对每个所生成的3D建模对象合成S24由所生成的3D建模对象表示的相应实例的相应深度图。换言之,该学习方法在S24处针对每个所生成的3D建模对象人工地(例如,并且自动地)构造深度图,该深度图表示如果对由3D建模对象表示的实例的深度进行测量将获得的深度图。这是计算地完成的,即,没有进行测量。然后,这允许通过学习后验函数来构建重建函数,该函数变换对应的3D建模对象中的深度图,并且由此允许对由深度图表示的该类的实例进行建模。
为此,学习方法通过将每个合成的深度图关联S26到对应的3D建模对象来创建数据库。如图1所示,在S26处关联到给定深度图的对应的3D建模对象可以是在S22处生成的3D建模对象,给定深度图根据在S22处生成的3D建模对象在S24处合成。这允许学习将重建这样的3D建模对象的重建函数:该3D建模对象不仅表示实例而且还表示在重建方法期间对深度图进行测量时实例的姿势。但是不一定是这种情况。实际上在示例中,在S26处,合成的深度图可以关联到任何3D建模对象,其表示这种实例而不一定处于正确的姿势。这取决于该方法是仅应用于对实例进行重建(而不是姿势),还是也对姿势进行重建。在任何情况下,如从机器学习领域本身已知的,在S26处执行的关联制约将在S30处学习的内容,并且因此执行S26的方式精确地取决于重建函数的目的。
一旦创建了数据库,则学习方法在S30处基于数据库来学习重建函数。学习S30通常利用任何机器学习方案来执行,如从机器学习领域本身已知的。执行学习S30的方式与设想用于要被学习的重建函数的结构密切相关。例如,重建函数可以包括回归函数,并且机器学习回归学习。显著地,重建函数可以包括神经网络的应用。神经网络可以实现处理层(例如,多于2层),例如,包括应用线性运算然后进行逐点非线性化的层,例如卷积层和/或最大池化层(例如,在交替中)。例如,神经网络可以是深度卷积神经网络(CNN)。重建函数还可以包括在以上(多个)处理之前对初始(原始)深度图进行预处理。预处理可以包括或者在于丰富原始深度图和/或从原始深度图导出实例的另一表示。预处理可以包括或者在于初始特征提取,例如,初始手工特征提取(例如,基于所计算的法线图或者对法线图进行计算)。可替代地,该方法可以在初始(原始)深度图中直接执行以上(多个)处理(换言之,该方法可以排除任何这样的预处理)。然而,可以实现根据所创建的数据库的其它类型的机器学习,例如,线性回归算法和非线性回归算法(例如,基于核心的)。
现在详细讨论针对每个生成的3D建模对象合成S24相应的深度图。
合成S24可以以任何方式执行,这取决于本领域技术人员希望如何训练重建函数。图1所示的S24的高效且简单的示例包括提供S242虚拟视点,以及确定S244表示从虚拟视点到所生成的3D建模对象的准确深度的理论深度图。换言之,针对在S22处生成的每个3D建模对象,基于在关联到所生成的3D建模对象的参考系中提供的理论视点来计算准确的理论深度图,例如,使用简单的几何计算,例如由应用从理论视点进行透视投影构成。视点可以是相同的或者呈现一个或若干(例如,全部)球面坐标——相对于关联到所生成的3D建模对象的球面参考系——球面坐标跨S242的迭代(即,跨不同的3D建模对象)是不同的。极角和方位角可以是固定的(例如,由参数化模型的参数直接提供跨这些角的变化)。在示例中,半径可以是固定的或有界的(例如,如果在重建方法中使用的硬件仅提供一个测量点用于对实例进行定位)。
图1的示例的合成S24还包括将扰动添加S246到在S244处获得的理论深度图。至少在理论图的对应于所生成的3D建模对象的轮廓的位置处添加扰动。所生成的3D建模对象的轮廓对应于深度的不连续性(例如,从实例到背景和/或从突起到后面的部分的通道)。对应于轮廓的位置可以指定轮廓本身或者具有低于预确定的阈值的宽度的(例如,几个像素)、围绕轮廓的条带。换言之,在S246处,至少在所生成的3D建模对象的轮廓处对理论图(即,通过从虚拟视点进行透视投影获得的)进行修改。扰动是在使得轮廓的规则性减少的这种轮廓处对深度数据进行的任何类型的修改。这大大地改进了学习,并且产生更精确的重建函数。
实际上,根据2D图像(例如,深度图)进行机器学习通常使得对2D图像中非常独特的特征给予高权重。合成S24的理论计算使得理论深度图呈现这种独特的特征,显著地包括所生成的3D建模对象的轮廓。如果这样用作训练,则理论深度图将产生深深地依赖于找到这种平滑轮廓的重建函数。然而,在真实的深度测量中,轮廓不那么平滑,不仅因为真实对象的轮廓绝不是完全规则的(规则性的这种缺乏通常不被参数化模型捕获),而且更重要的是因为深度传感器仅提供有噪声的测量。在S246处添加扰动打破了不希望的规则性(即,理论深度图中的轮廓具有过高的“平滑度”)。这种规则性在学习重建函数时实际上会削弱训练,从而导致不太有用的重建函数。
添加S246可以包括向深度图添加随机噪声。随机噪声可以是应用于整个理论深度图的随机变量,并且在理论深度图中的所生成的3D建模对象的轮廓处特别地表达。随机噪声可以是高斯噪声。
在示例中,添加随机噪声可以在数学上对应于:
其中Iij是深度图像中的i×j像素位置深度值,是像素位置i×j处的归一化深度图像梯度值,而是从均值为0且方差在1cm与5cm之间的高斯分布中采样的实数。
一种特别高效的学习方法是在S246处将对应于深度传感器的噪声的随机噪声添加到在S244处输出的理论深度图。深度传感器被广泛地研究,其所呈现的噪声的特性是已知的或者能够得知。学习方法可以显著地耦合到设想使用具有特定深度传感器的系统的重建方法。在这种情况下,这种特定深度传感器类型的深度传感器的噪声或者所述特定深度传感器的特定噪声可以被建模为随机高斯噪声,并且在学习期间在S246处被添加。这产生特别精确的重建函数。
图2示出了在线(或“内联”)重建方法的示例。这种方法使用重建函数(例如,作为预确定的数据片)根据该类的实例的深度图来重建表示实例的3D建模对象。
因此,重建方法包括提供S40重建函数(例如,经由图1的方法获得的)。重建函数可以存储在存储器上,并且因此随时可用。
重建方法还包括提供S50深度图。在S50处提供的深度图表示其代表性3D建模对象将被重建的实例。例如,深度图是通过由深度传感器关于处于给定姿势的实例执行的测量获取的。获取可以在于单一深度图像说明。这使得获取快速且简单。实例在获取期间可以采用自由姿势。这使得获取灵活。
然后,重建方法包括将重建函数应用S60于深度图。重建函数的应用S60是快速的并且产生精确的结果。换言之,从重建获得的3D建模对象是其深度图在S50处被提供的实例的精确表示。当学习方法考虑深度传感器的测量中的噪声时(在较早讨论的步骤S246处),这是尤其真实的。
重建函数是机器学习的函数,并且因此与运行基于优化的方法相比,重建函数的应用S60相对快并且相对鲁棒,因为重建函数不受到落入局部最小值的风险。重建函数的应用实际上可以更快或者以1秒的量级。在CNN回归学习方法的情况下,重建函数的应用S60可以显著地包括一系列卷积层并且然后点积,或者由其构成。在示例中,重建函数的应用S60可以显著地包括以下一系列内容或者由以下一系列内容构成:
1.总复杂度为的连续卷积层,其中l为卷积层的索引,d为神经网络深度(卷积层的数量),nl是第l层中滤波器的数量,sl是滤波器的空间大小,并且最后ml是输出特征图的空间大小。
2.最后卷积层的输出与所习得的完全连接层之间的点积。最后卷积层的大小为Wd×Wd×nd。其中:
其中W0是输入深度图像的宽度,并且也是高度。CNN的所习得的完全连接层参数的大小为dfc,该层将包含本领域技术人员正在寻找的模型参数。该点积的复杂度为
总的来说,该方法的复杂度是
作为示例,本领域技术人员可以考虑以下参数的情况:
d=5,dfc=10,W0=300
n0=1,n1=96,n2=256,n3=384,n4=384,n5=256
s1=11,s2=5,s3=3,s4=3,s5=3
m1=73,m2=36,m3=17,m4=17,m5=36
在该示例中,复杂度是8*106量级的运算。现有的基于优化的算法关于相同的示例可能相反地消耗3*1011量级的运算。
经重建的3D建模对象可以在较早提及的应用中如此使用。可替代地,经重建的3D建模对象可以用作基于优化的算法中的初始化数据。经重建的3D建模对象是很好的起始点,基于优化的算法可以更快地收敛。另外,可以将基于优化的算法限于姿势优化(即,经重建的3D建模对象的形状参数因此被固定)。
建模对象是由例如存储在数据库中的数据定义的任何对象。引申开来,表述“建模对象”指定数据本身。根据使用的系统的类型,建模对象可以由不同种类的数据来定义。系统实际上可以是CAD系统、CAE系统、CAM系统、PDM系统、和/或PLM系统的任何组合。在这些不同的系统中,建模对象由对应的数据来定义。本领域技术人员可以相应地提及CAD对象、PLM对象、PDM对象、CAE对象、CAM对象、CAD数据、PLM数据、PDM数据、CAM数据、CAE数据。然而,这些系统不是互相排斥的,因为建模对象可以由对应于这些系统的任何组合的数据来定义。因此,如根据下文提供的这种系统的定义将显而易见的,系统大可以是CAD和PLM系统二者。
CAD系统附加地表示至少适于在建模对象的图形表示的基础上来设计建模对象的任何系统,例如,CATIA。在这种情况下,定义建模对象的数据包括允许建模对象的表示的数据。例如,CAD系统可以使用边或线(在某些情况下使用面或表面)来提供CAD建模对象的表示。可以利用诸如非均匀有理B样条(NURBS)的各种方式来表示线、边、或表面。特别地,CAD文件包含规格,根据该规格可以生成几何形状,这反过来允许生成表示。建模对象的规格可以存储在单个CAD文件或多个CAD文件中。表示CAD系统中的建模对象的文件的典型大小在每个零件一兆字节的范围内。并且建模对象典型地可以是成千上万个零件的组装。
在CAD的上下文中,建模对象典型地可以是3D建模的。“3D建模对象”表示由允许其3D表示的数据建模的任何对象。3D表示允许从所有角度来查看该零件。例如,3D建模对象当被3D表示时,可以围绕其轴中的任一个轴或者围绕显示该表示的屏幕中的任何轴来进行操纵并转动。这显著地排除了非3D建模的2D图标。3D表示的显示有助于进行设计(即,加快了设计人员统计地完成其任务的速度)。
该方法是计算机实现的。这表示该方法的步骤(或基本上所有步骤)由至少一个计算机或任何类似的系统来执行。因此,该方法的步骤由计算机可能全自动地或半自动地执行。在示例中,可以通过用户-计算机交互来执行该方法的步骤中的至少一些步骤的触发。所需要的用户-计算机交互水平可以取决于预见的自动化水平,并与实现用户意愿的需求保持平衡。在示例中,该水平可以是用户定义的和/或预定义的。
该方法的计算机实现方式的典型示例是利用适于该目的的系统来执行该方法。系统可以包括耦合到存储器的处理器和图形用户接口(GUI),存储器在其上记录有计算机程序,计算机程序包括用于执行该方法的指令。存储器还可以存储数据库。存储器是适于这样的存储的任何硬件,可能包括若干物理不同的部分(例如,一部分用于程序,而一部分可能用于数据库)。该系统还可以包括深度传感器,其耦合到处理器并且被配置为获取实例的深度图以用于3D重建。系统还可以包括用于实例在获取期间摆姿势的姿势点。
图3示出了系统的示例,如连接到深度传感器的计算机系统。
示例的系统包括连接到内部通信BUS 1000的中央处理单元(CPU)1010,也连接到BUS的随机存取存储器(RAM)1070。该系统还设置有图形处理单元(GPU)1110,其与连接到BUS的视频随机存取存储器1100相关联。视频RAM 1100在本领域中也被称为帧缓冲器。大容量存储设备控制器1020管理对大容量存储设备(例如,硬盘驱动器1030)的访问。适合于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器,通过示例的方式,包括半导体存储器设备(例如,EPROM、EEPROM、以及闪速存储器设备);磁盘(例如,内部硬盘和可移除盘);磁光盘;以及CD-ROM盘1040。前述中的任一个可以由专门设计的ASIC(专用集成电路)补充或并入其中。网络适配器1050管理对网络1060的访问。系统还可以包括深度传感器1090。
计算机程序可以包括可由计算机执行的指令,该指令包括用于使得上面的系统执行该方法的模块。程序可记录在包括系统的存储器的任何数据存储介质上。例如,程序可以以数字电子电路来实现,或者以计算机硬件、固件、软件来实现,或以其组合来实现。程序可以被实现为装置,例如,有形地体现在机器可读存储设备中的产品,以用于由可编程处理器执行。方法步骤可以由执行指令的程序的可编程处理器来执行,以通过对输入数据进行操作并生成输出来执行该方法的功能。因此,处理器可以是可编程且耦合的,以从数据存储系统的至少一个输入设备接收数据和指令,并向数据存储系统的至少一个输出设备发送数据和指令。可以以高级过程语言或面向对象的编程语言来实现应用程序,或者如果需要则以汇编语言或机器语言来实现应用程序。在任何情况下,语言都可以是编译语言或解释语言。程序可以是全安装程序或更新程序。在任何情况下将程序应用于系统都会产生用于执行该方法的指令。
3D重建可以是3D设计过程的一部分。“设计3D建模对象”指定作为精心制作3D建模对象的过程的至少一部分的任何动作或一系列动作。3D重建还可以是虚拟试穿仿真、增强现实、物联网、以及视频游戏的一部分。
现在参照图4-10来讨论应用于一类人体并且符合图1-2的示例的方法的示例。示例提及了RGB-D照相机,但是可以实现具有深度传感器的任何系统(例如,纯深度感测设备,例如不具有RGB照相机)。另外,示例提及采用网格形式的3D建模对象。可以实现其它类型的3D建模对象(关于参数化模型提供),例如,B-Reps。
现有技术的基于优化的方法在每次呈现新的用户时搜索3D身体模型参数。示例方法的思想不同地将问题公式化:代替搜索3D身体模型参数,示例的方法使用机器学习来学习从任何RGB-D照相机深度图到其3D身体模型参数的直接映射函数。这在图4所示的流水线中示出。从用户深度图的大型数据库(具有其已知的身体模型参数)中习得这样的映射。使用该思想,示例的方法定义了基于学习的新类别的3D人体重建。不同于现有的算法,示例的方法更快并且实现实时性能,这开放了更多面向消费者的应用。这些应用仅需要用户的深度图图像作为输入,并且不要求用户以参考姿势站立。示例的方法的详细流水线在图5中示出。
现在讨论图5所示的离线学习。
概述
可以从3D模型中提取的简单直接的信息是其深度图。重建方法希望的是相反的,本领域技术人员希望从深度图开始,推断3D身体模型网格或更准确地说推断其内部参数(形状和姿势)。离线预处理根据合成地生成的数据库来学习到模型参数的映射函数。该方法在用户轮廓上合成地添加随机噪声,以便于模拟噪声RGB-D照相机深度获取。深度图像数据库及其身体模型参数二者将构成学习数据。
合成数据库创建
示例的方法假设本领域技术人员已经拥有对人体形状和姿势变化进行处理的参数化3D身体模型。该模型将姿势和形状参数转换为对应的3D身体模型。为了构建深度图数据库,首先,该方法可以对形状和姿势参数空间进行随机采样并生成其对应的3D身体模型。其次,3D身体模型可以与公共向上的向量、相同的地平面、以及相同的比例对齐。最后,本领域技术人员可以使用虚拟照相机来提取每个3D模型的深度图。
噪声添加
示例的方法将随机噪声(高斯)添加到数据库深度图,特别是在身体模型轮廓上,以模拟有噪声的传感器深度图。这确保在相同的深度图图像结构上进行高质量的学习和测试。
特征图提取
特征提取部分是可选的。该方法可以使用所生成的有噪声的深度图或从深度图中提取更多的区分特征,例如,法线图或任何种类的图像表示的深度特征。特征提取的作用是推断在下一步中有助于学习算法的深度图的更加区分的表示。
回归学习
从深度图图像特征数据库与其模型参数(形状和姿势)耦合开始,该方法学习从特征图像的空间到模型参数的回归函数。本领域技术人员可以通过利用深层卷积神经网络(CNN)的特征来求解该回归。
深层卷积神经网络(CNN)
卷积神经网络通过被组织为如图6所示的层的简单运算的序列来转换输入图像,这表示卷积神经网络架构。每个层应用线性运算,之后进行逐点非线性化。在形式上,表示为向量的图像x的CNN的输出f(x)为:
f(x)=γKK(WK...γ22(W2γ11(W1x))...))
其中术语Wk是对应于线性运算的矩阵,函数σk是逐点非线性函数(Sigmoid),并且函数γk执行下采样运算(池化(pooling))。对于CNN,矩阵Wk具有特定的结构并且对应于空间图的卷积。
训练
执行测试来验证关于深度图的集合学习CNN的思想。损失函数被定义为预测的参数与地面真值参数之间的欧几里得距离。
在测试中,使用文章“Krizhevsky,I.Sutskever,G.Hinton,ImageNetClassification with Deep Convolutional Neural Networks.NIPS,2012”中公开的方案(即,AlexNet架构,在最后两层上具有很小的变化)来训练回归CNN。将层N-1的输出的数目改变为示例中的身体参数的数目,而最后层(层N)被移除并替换为非常适合于回归问题的欧几里得损失层。
该测试使用超过120k个实例的数据库,分为80%用于学习而20%用于测试。测试包括训练网络以在每次迭代时使用32个深度图像的基于批次的学习利用随机梯度下降(SGD)找到矩阵Wk、σk、以及γk的最佳参数。图7的曲线图示出了随着时间的推移,训练损失和测试损失的演变。
现在讨论图5所示的在线阶段(特别是在线测试)。
根据实时RGB-D获取,并且使用上述预习得的回归函数,本领域技术人员可以直接估计人员的3D身体模型参数。
图8的绘图示出了来自随机生成的合成深度图(使用随机身体模型参数)的预测的3D身体模型。其示出了在预测的3D身体模型的每个顶点与地面真值3D身体模型之间计算的损失函数(欧几里得距离)的热图。在该曲线图中,出于测试的目的,只对形状进行预测并且将姿势设置为T参考姿势。本领域技术人员可以看出,所习得的回归函数很好地预测了身体形状:在非常小的顶点集合上所发现的最大误差是4.45mm。
另一测试将姿势参数整合到回归学习函数中。图9-10的绘图示出了预测(黑色)身体模型与地面真值(灰色阴影)身体模型之间的差异。本领域技术人员可以看到,预测的人体非常接近地面真值模型。
这可以给予使用姿势优化算法的姿势改良步骤完美的初始化。

Claims (15)

1.一种用于学习函数的计算机实现的方法,所述函数被配置用于针对一类的真实对象根据所述类的实例的深度图来重建表示所述实例的3D建模对象,所述方法包括:
-提供(S10)所述类的参数化模型;
-创建数据库,创建所述数据库包括:
■改变(S22)所述参数化模型的参数,以生成各自表示所述类的相应实例的3D建模对象;
■针对每个生成的3D建模对象,合成(S24)由所生成的3D建模对象表示的所述相应实例的相应深度图;
■将每个合成的深度图关联(S26)到对应的3D建模对象;以及-利用所述数据库来学习(S30)所述函数。
2.根据权利要求1所述的方法,其中,针对每个所生成的3D建模对象合成相应深度图包括:
-提供(S242)虚拟视点;以及
-确定(S244)理论深度图,所述理论深度图表示从所述虚拟视点到所生成的3D建模对象的准确深度。
3.根据权利要求2所述的方法,其中,针对每个所生成的3D建模对象合成相应深度图还包括,至少在对应于所生成的3D建模对象的轮廓的位置处将扰动添加(S246)到所述理论深度图。
4.根据权利要求3所述的方法,其中,添加扰动包括将随机噪声添加到所述深度图。
5.根据权利要求4所述的方法,其中,所述随机噪声是高斯噪声。
6.根据权利要求4或5所述的方法,其中,所述随机噪声对应于深度传感器的噪声。
7.根据权利要求1-6中任一项所述的方法,其中,所述一类的真实对象是一类人体。
8.一种函数,所述函数被配置用于针对一类的真实对象根据所述类的实例的深度图来重建表示所述实例的3D建模对象,所述函数是能够根据权利要求1-7中任一项所述的方法来学习的。
9.一种用于针对一类的真实对象根据所述类的实例的深度图来重建表示所述实例的3D建模对象的方法,所述方法包括:
-提供(S40)根据权利要求8的函数;
-提供(S50)深度图;以及
-将所述函数应用(S60)于所述深度图。
10.根据权利要求9所述的方法,其中,所述深度图是由深度传感器获取的。
11.一种3D建模对象,所述3D建模对象能够通过权利要求9或10所述的方法获得。
12.一种计算机程序,包括指令,所述指令用于执行权利要求1-7中任一项所述的方法和/或权利要求9-10中任一项所述的方法。
13.一种计算机可读存储介质,其上记录有权利要求8所述的函数、权利要求11所述的3D建模对象、和/或权利要求12所述的计算机程序。
14.一种系统,包括处理器,所述处理器耦合到根据权利要求13所述的计算机可读存储介质。
15.根据权利要求14所述的系统,还包括深度传感器。
CN201710817786.XA 2016-09-12 2017-09-12 根据深度图对真实对象进行3d重建 Active CN107818580B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16188268.3A EP3293705B1 (en) 2016-09-12 2016-09-12 3d reconstruction of a real object from a depth map
EP16188268.3 2016-09-12

Publications (2)

Publication Number Publication Date
CN107818580A true CN107818580A (zh) 2018-03-20
CN107818580B CN107818580B (zh) 2023-12-05

Family

ID=56926040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710817786.XA Active CN107818580B (zh) 2016-09-12 2017-09-12 根据深度图对真实对象进行3d重建

Country Status (4)

Country Link
US (1) US10499031B2 (zh)
EP (2) EP4131172A1 (zh)
JP (1) JP7180970B2 (zh)
CN (1) CN107818580B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875780A (zh) * 2018-05-07 2018-11-23 广东省电信规划设计院有限公司 基于图像数据的图像间差异对象的获取方法以及装置
CN109769109A (zh) * 2019-03-05 2019-05-17 东北大学 基于虚拟视点合成绘制三维物体的方法和系统
CN110221689A (zh) * 2019-05-10 2019-09-10 杭州趣维科技有限公司 一种基于增强现实的空间绘画方法
CN110787445A (zh) * 2019-11-13 2020-02-14 山东领信信息科技股份有限公司 一种虚拟仿真心理沙盘游戏中沙坑沙包的生成方法
CN112991207A (zh) * 2021-03-11 2021-06-18 五邑大学 全景深度估计方法、装置、终端设备及存储介质
CN113362632A (zh) * 2021-07-08 2021-09-07 安徽富煌科技股份有限公司 一种基于3d结构光相机的车站公共交通调度系统
CN113826148A (zh) * 2019-07-18 2021-12-21 索尼集团公司 使用经修改的从阴影恢复形状(sfs)方案对三角形三维网格进行形状细化
CN114297176A (zh) * 2021-12-15 2022-04-08 东南大学 基于人工智能的中国古典园林假山自动生成方法及系统

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
US10529137B1 (en) * 2016-11-29 2020-01-07 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods for augmenting images
EP3343502B1 (en) * 2016-12-28 2019-02-20 Dassault Systèmes Depth sensor noise
US10621779B1 (en) * 2017-05-25 2020-04-14 Fastvdo Llc Artificial intelligence based generation and analysis of 3D models
US10453220B1 (en) * 2017-12-29 2019-10-22 Perceive Corporation Machine-trained network for misalignment-insensitive depth perception
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
WO2019225734A1 (ja) 2018-05-24 2019-11-28 株式会社 Preferred Networks レンダリング装置、学習装置、レンダリング方法及びプログラム
JP7091844B2 (ja) * 2018-05-30 2022-06-28 沖電気工業株式会社 画像処理装置、画像処理方法およびプログラム
CN109325972B (zh) * 2018-07-25 2020-10-27 深圳市商汤科技有限公司 激光雷达稀疏深度图的处理方法、装置、设备及介质
CN109117763A (zh) * 2018-07-28 2019-01-01 南京理工大学 一种基于rgb-d数据建立超平面的异常行为识别方法
US11690551B2 (en) * 2018-07-30 2023-07-04 Biosense Webster (Israel) Ltd. Left atrium shape reconstruction from sparse location measurements using neural networks
CN109241875B (zh) * 2018-08-20 2020-08-25 北京市商汤科技开发有限公司 姿态检测方法及装置、电子设备和存储介质
SG11202010514SA (en) 2018-08-20 2020-11-27 Beijing Sensetime Technology Development Co Ltd Pose detection method and device, electronic device and storage medium
US10713850B2 (en) * 2018-09-24 2020-07-14 Sony Corporation System for reconstructing three-dimensional (3D) human body model using depth data from single viewpoint
WO2020113417A1 (zh) * 2018-12-04 2020-06-11 深圳市大疆创新科技有限公司 目标场景三维重建方法、系统及无人机
US10943352B2 (en) * 2018-12-17 2021-03-09 Palo Alto Research Center Incorporated Object shape regression using wasserstein distance
EP3674984B1 (en) 2018-12-29 2024-05-15 Dassault Systèmes Set of neural networks
CN109840939B (zh) * 2019-01-08 2024-01-26 北京达佳互联信息技术有限公司 三维重建方法、装置、电子设备及存储介质
JP6667785B1 (ja) * 2019-01-09 2020-03-18 裕樹 有光 3次元モデルとデプス画像とを対応付けて学習するプログラム
JP6892569B2 (ja) * 2019-01-09 2021-06-23 株式会社OrbisBrain 人体に基づくデプス画像と組成値とを対応付ける装置
US11308652B2 (en) * 2019-02-25 2022-04-19 Apple Inc. Rendering objects to match camera noise
CN110298916B (zh) * 2019-06-21 2022-07-01 湖南大学 一种基于合成深度数据的三维人体重建方法
RU2019125602A (ru) * 2019-08-13 2021-02-15 Общество С Ограниченной Ответственностью "Тексел" Комплексная система и способ для дистанционного выбора одежды
GB2586869B (en) * 2019-09-06 2023-02-15 Imperial College Innovations Ltd Scene representation using image processing
JP7356958B2 (ja) * 2019-09-18 2023-10-05 Toyo Tire株式会社 タイヤ物理情報推定システムおよびタイヤ物理情報推定方法
JP6772351B1 (ja) * 2019-09-18 2020-10-21 Toyo Tire株式会社 タイヤ物理情報推定システム
CN111292365B (zh) * 2020-01-23 2023-07-25 抖音视界有限公司 生成深度图的方法、装置、电子设备和计算机可读介质
CN111340944B (zh) * 2020-02-26 2022-05-17 清华大学 基于隐式函数和人体模板的单图像人体三维重建方法
US11526697B1 (en) * 2020-03-10 2022-12-13 Amazon Technologies, Inc. Three-dimensional pose estimation
US11238650B2 (en) * 2020-03-13 2022-02-01 Nvidia Corporation Self-supervised single-view 3D reconstruction via semantic consistency
DE102021109386B4 (de) 2020-04-22 2024-05-16 Ifm Electronic Gmbh Verfahren zur Korrektur von Tiefenbildern einer Lichtlaufzeitkamera
CN112330814B (zh) * 2020-11-24 2023-11-07 革点科技(深圳)有限公司 一种基于机器学习的结构光三维重建方法
CN112329726B (zh) * 2020-11-27 2023-01-13 合肥的卢深视科技有限公司 人脸识别方法及装置
CN113379767B (zh) * 2021-06-18 2022-07-08 中国科学院深圳先进技术研究院 一种构建自我监督点云学习的语义扰动重构网络的方法
CN113706714B (zh) * 2021-09-03 2024-01-05 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013174671A1 (en) * 2012-05-22 2013-11-28 Telefonica, S.A. A method and a system for generating a realistic 3d reconstruction model for an object or being
WO2013189058A1 (en) * 2012-06-21 2013-12-27 Microsoft Corporation Avatar construction using depth camera
JP2014524071A (ja) * 2011-06-06 2014-09-18 マイクロソフト コーポレーション 開いた手または閉じた手を認識するシステム
CN104240288A (zh) * 2013-06-21 2014-12-24 株式会社东芝 用于产生对象的三维表示的方法和系统
CN105027562A (zh) * 2012-12-28 2015-11-04 Metaio有限公司 用于将数字信息投影到真实环境中的真实对象上的方法和系统
US20150347846A1 (en) * 2014-06-02 2015-12-03 Microsoft Corporation Tracking using sensor data
CN105657402A (zh) * 2016-01-18 2016-06-08 深圳市未来媒体技术研究院 一种深度图恢复方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07120410B2 (ja) 1991-01-15 1995-12-20 インターナショナル・ビジネス・マシーンズ・コーポレイション 大規模並列アーキテクチャによる3次元物体の表示・操作システム及び方法
JP3162630B2 (ja) 1996-07-31 2001-05-08 トヨタ自動車株式会社 ワイヤフレームモデルの面定義方法および装置
US6549201B1 (en) 1999-11-23 2003-04-15 Center For Advanced Science And Technology Incubation, Ltd. Method for constructing a 3D polygonal surface from a 2D silhouette by using computer, apparatus thereof and storage medium
US7084868B2 (en) 2000-04-26 2006-08-01 University Of Louisville Research Foundation, Inc. System and method for 3-D digital reconstruction of an oral cavity from a sequence of 2-D images
US6654027B1 (en) 2000-06-09 2003-11-25 Dassault Systemes Tool for three-dimensional analysis of a drawing
US6554086B1 (en) 2000-10-27 2003-04-29 Invacare Corporation Obstacle traversing wheelchair
US6834119B2 (en) 2001-04-03 2004-12-21 Stmicroelectronics, Inc. Methods and apparatus for matching multiple images
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US7565029B2 (en) 2005-07-08 2009-07-21 Seiko Epson Corporation Method for determining camera position from two-dimensional images that form a panorama
US8259101B2 (en) 2006-06-07 2012-09-04 Carnegie Mellon University Sketch-based design system, apparatus, and method for the construction and modification of three-dimensional geometry
JP2008309595A (ja) 2007-06-13 2008-12-25 Horiba Ltd オブジェクト認識装置及びそれに用いられるプログラム
BRPI0917864A2 (pt) * 2008-08-15 2015-11-24 Univ Brown aparelho e método para estimativa da forma corporal
US8588465B2 (en) * 2009-01-30 2013-11-19 Microsoft Corporation Visual target tracking
US8570343B2 (en) 2010-04-20 2013-10-29 Dassault Systemes Automatic generation of 3D models from packaged goods product images
BR112012027770A2 (pt) 2010-05-11 2017-08-08 Thomson Licensing processamento de granulação de filme e ruído de conforto para vídeo 3 dimensional
EP2400410B1 (en) 2010-05-25 2014-01-08 Dassault Systèmes Computing of a resulting closed triangulated polyhedral surface from a first and a second modeled object
SG189284A1 (en) 2010-10-07 2013-05-31 Sungevity Rapid 3d modeling
US9235891B2 (en) 2011-01-10 2016-01-12 Rutgers, The State University Of New Jersey Boosted consensus classifier for large images using fields of view of various sizes
US20150172628A1 (en) 2011-06-30 2015-06-18 Google Inc. Altering Automatically-Generated Three-Dimensional Models Using Photogrammetry
US9031356B2 (en) 2012-03-20 2015-05-12 Dolby Laboratories Licensing Corporation Applying perceptually correct 3D film noise
US9218685B2 (en) 2012-06-05 2015-12-22 Apple Inc. System and method for highlighting a feature in a 3D map while preserving depth
US9183666B2 (en) 2013-03-15 2015-11-10 Google Inc. System and method for overlaying two-dimensional map data on a three-dimensional scene
US9111348B2 (en) * 2013-03-15 2015-08-18 Toyota Motor Engineering & Manufacturing North America, Inc. Computer-based method and system of dynamic category object recognition
US9483703B2 (en) 2013-05-14 2016-11-01 University Of Southern California Online coupled camera pose estimation and dense reconstruction from video
EP2811463B1 (en) 2013-06-04 2018-11-21 Dassault Systèmes Designing a 3d modeled object with 2d views
US9378576B2 (en) 2013-06-07 2016-06-28 Faceshift Ag Online modeling for real-time facial animation
US10121273B2 (en) * 2013-08-08 2018-11-06 University Of Florida Research Foundation, Incorporated Real-time reconstruction of the human body and automated avatar synthesis
EP2874118B1 (en) 2013-11-18 2017-08-02 Dassault Systèmes Computing camera parameters
US9524582B2 (en) 2014-01-28 2016-12-20 Siemens Healthcare Gmbh Method and system for constructing personalized avatars using a parameterized deformable mesh
US9299195B2 (en) 2014-03-25 2016-03-29 Cisco Technology, Inc. Scanning and tracking dynamic objects with depth cameras
WO2016050290A1 (en) 2014-10-01 2016-04-07 Metaio Gmbh Method and system for determining at least one property related to at least part of a real environment
US10110881B2 (en) * 2014-10-30 2018-10-23 Microsoft Technology Licensing, Llc Model fitting from raw time-of-flight images
EP3032495B1 (en) 2014-12-10 2019-11-13 Dassault Systèmes Texturing a 3d modeled object
CN104794722A (zh) 2015-04-30 2015-07-22 浙江大学 利用单个Kinect计算着装人体三维净体模型的方法
US10318008B2 (en) * 2015-12-15 2019-06-11 Purdue Research Foundation Method and system for hand pose detection
EP3188033B1 (en) 2015-12-31 2024-02-14 Dassault Systèmes Reconstructing a 3d modeled object
US9760837B1 (en) * 2016-03-13 2017-09-12 Microsoft Technology Licensing, Llc Depth from time-of-flight using machine learning
EP3343502B1 (en) * 2016-12-28 2019-02-20 Dassault Systèmes Depth sensor noise

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524071A (ja) * 2011-06-06 2014-09-18 マイクロソフト コーポレーション 開いた手または閉じた手を認識するシステム
WO2013174671A1 (en) * 2012-05-22 2013-11-28 Telefonica, S.A. A method and a system for generating a realistic 3d reconstruction model for an object or being
WO2013189058A1 (en) * 2012-06-21 2013-12-27 Microsoft Corporation Avatar construction using depth camera
CN105027562A (zh) * 2012-12-28 2015-11-04 Metaio有限公司 用于将数字信息投影到真实环境中的真实对象上的方法和系统
CN104240288A (zh) * 2013-06-21 2014-12-24 株式会社东芝 用于产生对象的三维表示的方法和系统
US20150347846A1 (en) * 2014-06-02 2015-12-03 Microsoft Corporation Tracking using sensor data
CN105657402A (zh) * 2016-01-18 2016-06-08 深圳市未来媒体技术研究院 一种深度图恢复方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HANDA ANKUR ET AL: "《Understanding RealWorld Indoor Scenes with Synthetic Data》", 《 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 27 JUNE 2016 (2016-06-27), PAGES 4077 - 4085, XP033021592》 *
JAMIE SHOTTON ET AL: "《Real-time human pose recognition in parts from single depth images》", 《COMMUNICATIONS OF THE ACM, ASSOCIATION FOR COMPUTING MACHINERY, INC, UNITED STATES, VOL. 56, NO. 1, 1 JANUARY 2013 (2013-01-01), PAGES 116 - 124, XP058010058》 *
孙志远等: "深度学习研究与进展", 《计算机科学》 *
王鑫等: "人体几何建模方法综述", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875780A (zh) * 2018-05-07 2018-11-23 广东省电信规划设计院有限公司 基于图像数据的图像间差异对象的获取方法以及装置
CN109769109A (zh) * 2019-03-05 2019-05-17 东北大学 基于虚拟视点合成绘制三维物体的方法和系统
CN110221689A (zh) * 2019-05-10 2019-09-10 杭州趣维科技有限公司 一种基于增强现实的空间绘画方法
CN113826148A (zh) * 2019-07-18 2021-12-21 索尼集团公司 使用经修改的从阴影恢复形状(sfs)方案对三角形三维网格进行形状细化
CN110787445A (zh) * 2019-11-13 2020-02-14 山东领信信息科技股份有限公司 一种虚拟仿真心理沙盘游戏中沙坑沙包的生成方法
CN112991207A (zh) * 2021-03-11 2021-06-18 五邑大学 全景深度估计方法、装置、终端设备及存储介质
CN112991207B (zh) * 2021-03-11 2022-11-15 五邑大学 全景深度估计方法、装置、终端设备及存储介质
CN113362632A (zh) * 2021-07-08 2021-09-07 安徽富煌科技股份有限公司 一种基于3d结构光相机的车站公共交通调度系统
CN114297176A (zh) * 2021-12-15 2022-04-08 东南大学 基于人工智能的中国古典园林假山自动生成方法及系统

Also Published As

Publication number Publication date
JP2018073393A (ja) 2018-05-10
US10499031B2 (en) 2019-12-03
EP3293705A1 (en) 2018-03-14
EP4131172A1 (en) 2023-02-08
US20180077400A1 (en) 2018-03-15
JP7180970B2 (ja) 2022-11-30
CN107818580B (zh) 2023-12-05
EP3293705B1 (en) 2022-11-16

Similar Documents

Publication Publication Date Title
CN107818580A (zh) 根据深度图对真实对象进行3d重建
CN109147048B (zh) 一种利用单张彩色图的三维网格重建方法
CN109410307B (zh) 一种场景点云语义分割方法
US20200257891A1 (en) Face Reconstruction from a Learned Embedding
US11514642B2 (en) Method and apparatus for generating two-dimensional image data describing a three-dimensional image
CN110288695B (zh) 基于深度学习的单帧图像三维模型表面重建方法
CN108804094A (zh) 学习自动编码器
CN107067473A (zh) 对3d建模对象进行重构
CN107507126A (zh) 一种利用rgb图像还原3d场景的方法
CN104299250A (zh) 基于先验模型的正面人脸图像合成方法及系统
CN111028335B (zh) 一种基于深度学习的点云数据的分块面片重建方法
CN114419412A (zh) 一种用于点云配准的多模态特征融合方法与系统
US20210241106A1 (en) Deformations basis learning
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
JP2005535951A (ja) n−ピクセルに基づくと共に、代数学的位相幾何学で定義されたイメージモデル、及びそれに基づくアプリケーション
US20220405448A1 (en) Deep parameterization for 3d shape optimization
Esfahani et al. A survey of state-of-the-Art GAN-based approaches to image synthesis
Ge et al. Point2MM: Learning medial mesh from point clouds
US20230126829A1 (en) Point-based modeling of human clothing
CN116091762A (zh) 一种基于rgbd数据和视锥体的三维目标检测方法
Hu et al. IMMAT: Mesh reconstruction from single view images by medial axis transform prediction
Lai et al. Additive depth maps, a compact approach for shape completion of single view depth maps
US20230177722A1 (en) Apparatus and method with object posture estimating
Tsai et al. Multiview Regenerative Morphing with Dual Flows
US20240135634A1 (en) Method and apparatus with neural scene representation data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant