CN108292358A - 用于识别系统的合成三维对象图像的生成 - Google Patents

用于识别系统的合成三维对象图像的生成 Download PDF

Info

Publication number
CN108292358A
CN108292358A CN201680066761.4A CN201680066761A CN108292358A CN 108292358 A CN108292358 A CN 108292358A CN 201680066761 A CN201680066761 A CN 201680066761A CN 108292358 A CN108292358 A CN 108292358A
Authority
CN
China
Prior art keywords
variant
background scene
image
images
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680066761.4A
Other languages
English (en)
Inventor
A·布雷韦斯
C·帕兹
O·利维
I·本-阿里
Y·柳井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taihao Research Co ltd
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108292358A publication Critical patent/CN108292358A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Architecture (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

提供了用于生成用于训练识别系统的合成三维对象图像变化的技术。示例系统可包括图像合成电路,该图像合成电路被配置成基于3D模型合成对象的3D图像(包括色彩和深度图像对);系统还包括背景场景生成电路,该背景场景生成电路被配置成为经渲染图像变体中的每一个生成背景。系统可进一步包括图像姿势调整电路,该图像姿势调整电路被配置成针对变体中的每一个调整对象的定向和平移。系统可进一步包括照度和视觉效果调整电路,该照度和视觉效果调整电路被配置成针对变体中的每一个调整对象和背景的照度,并且进一步基于模拟相机参数的应用来针对变体中的每一个调整对象和背景的视觉效果。

Description

用于识别系统的合成三维对象图像的生成
发明人:
Amit Bleiweiss
Chen Paz
Ofir Levy
Itamar Ben-Ari
Yaron Yanai
背景技术
机器学习系统典型地需要提供相对广泛的图像变体以便稳健地支持计算机基于视觉应用的大型图像数据库。一些现存商业数据库具有以分层格式布置的数千万个图像,其中每个对象由数千个图像来描绘。常常会花费数年来捕捉和标记所有必要图像来包含在此类数据库中。此外,通常需要许多人的努力来检查和维护数据库。这种方法是低效、成本高、且不易缩放的。例如,在对象识别系统中,将新对象添加到所识别对象列表中将需要从多个相机定向捕捉此对象在不同的对象姿势、不同的照明环境和变化的场景背景(仅例举图像描绘变量的几个)下的图像。一些现有系统依靠手动捕捉技术来获得所需的相对大量的数据。其他系统采用网络爬虫软件来搜索因特网,并以自组织(adhoc)方式聚集图像数据——无论是从哪里可找到图像数据。然而,给定所需的图像数据库的大小,任一种方法都不能令人满意。
附图说明
本专利或申请文件包含至少一个彩色绘制的附图。经请求并且支付必要费用后,专利局将提供具有一个或多个彩色附图的本专利或专利申请公开的副本。
随着以下详细描述继续进行,并且参考附图,所要求保护的主题的实施例的特征和优点将变得明显,在附图中,相似附图标记描绘相似部件,并且其中:
图1是根据本文所公开的实施例中的某一实施例的用于渲染3D对象图像变体的系统的顶层框图。
图2是根据本文所公开的实施例中的某一实施例配置的合成3D图像变体渲染模块的更详细框图。
图3A例示出根据本文所公开的实施例中的某一实施例的对象图像的示例经渲染变体。
图3B例示出根据本文所公开的实施例中的某一实施例的对象图像的经渲染变体的附加示例。
图4例示出根据本文所公开的实施例中的某一实施例的具有相似形状和色彩特性但具有不同深度的对象的示例。
图5A是例示出根据本公开的实施例中的某一实施例的用于生成3D对象图像变体的方法的流程图。
图5B是根据示例实施例的图示地例示出图5A所描绘的方法的框图。
图6是示意性地例示出根据本文所公开的实施例中的某一实施例配置的用于渲染3D对象图像变体的系统平台的框图。
虽然下列具体实施方式将参考示例性实施例来进行,但是,示例性实施例的许多替代方案、修改以及变型对本领域的技术人员而言将是显而易见的。
具体实施方式
一般来说,本公开提供用于基于对象的三维(3D)模型来渲染该3D对象图像的多个变体的技术。每个经渲染的3D图像包括一对二维(2D)图像:其中的一个提供色彩图像,其中每个像素可具有标准红-绿-蓝(RGB)值;而另一个提供深度图像,其中每个像素将深度编码成灰度值。3D图像在本文中可被称为RGB-D图像,以强调它们是由一对色彩图像和深度图像来表示的。所生成的合成3D图像随后可被用作机器学习系统的输入,该机器学习系统进而输出用于现实世界对象识别的分类器。任意期望数目的渲染可被合成并在随后被机器学习系统采用,例如用以生成、训练或测试对象识别分类器。本技术包括针对每次渲染,对不同背景场景的生成、对对象姿势的调整、以及对照度和其他视觉效果的应用,以提供自动建立对象的图像渲染的数据库的高效方法,而没有与手动捕捉相关联的典型开销。此类数据库可因此包含适合构建可支持计算机基于视觉应用以及其他此类图像处理应用的稳健分类器的相对广泛样本变体。
与捕捉现实世界图像的现有手动或半手动方法相比,本文所描述的用于合成图像变体的技术提供大体上增加的效率。在一些实施例中,所描述的技术可被用于自动生成经数百万个变体的3D图像数据(例如,包括色彩和深度)。本技术能以硬件或软件或其组合来实现。
图1是根据本文所公开的实施例中的某一实施例的用于渲染RGB-D对象图像的变体的系统的顶层框图100。该系统被示为包括3D模型生成模块102、合成RGB-D图像变体渲染模块104、渲染数据库106、机器学习/对象识别系统108、分类器110以及分类器测试模块112。
3D模型生成模块102可被配置成生成所感兴趣对象的3D模型。3D模型一般通过数学表示或者通过3D坐标空间中可由诸如多边形之类的几何形状连接的点集合来定义或表示对象的3D表面。在一些实施例中,该模型可由对象的制造商来提供。该模型可由计算机辅助设计(CAD)工具来生成,例如作为设计对象的过程的一部分。替代地,该模型可由配置成扫描对象的物理样本的3D扫描工具来创建。在另一替代方案中,该模型可由设计者使用3D雕刻工具来创建,或者由任何其他已知技术鉴于本公开而创建。
合成3D(RGB-D)图像变体渲染模块104可被配置成基于3D模型合成或渲染对象的任意期望数目的3D图像,其中每次渲染与一个或多个图像参数的变体相关联,如将结合图2在下文更详细描述的那样。合成的3D图像包括色彩数据(RGB)和深度数据,并且可被称为RGB-D图像。
任选渲染数据库106可被配置成存储由合成3D(RGB-D)图像变体渲染模块104产生的经渲染图像变体。在一些实施例中,这些所存储图像渲染的第一子集可被用作用于分类器的生成的训练图像,而该图像渲染的第二子集可被用于测试分类器。
机器学习/对象识别系统108可被配置成基于由合成3D(RGB-D)图像变体渲染模块104提供的任意期望数目的经渲染图像变体来生成对象识别分类器。可鉴于本公开使用任何已知技术在图像变体上训练识别分类器。
所生成的分类器110由此可被配置成在对象随后出现在不同视觉条件下的新图像中并潜在地处于不同对象姿势时识别它。分类器测试模块112(其在一些实施例中可以是机器学习/对象识别系统108的组件)可被配置成使用来自渲染数据库106的任意合适数目的不同图像变体来测试所生成的分类器110。
将理解,例如,物品或对象(或任何数量的此类物品)的制造商或供应商可拥有其库存或目录中的物品中的每一个的3D模型。本文所描述的系统可被用于合成例如每个物品的数千个图像变体,这些图像变体随后可被用于生成识别分类器,该识别分类器能够在制造商的所编录物品中的任一个物品可能随后出现在任意视觉条件下的任何现实世界图像中时识别该物品。
图2是根据本文所公开的实施例中的某一实施例配置的合成3D(RGB-D)图像变体渲染模块的更详细框图200。合成3D(RGB-D)图像变体渲染模块104被示为包括模型纠正电路202、图像合成电路204、背景场景生成器电路206、图像姿势调整电路208、照度和视觉效果调整电路210以及渲染参数变体电路212,这些电路的操作将在下文更详细地进行解释。当然,所例示的模块和电路的次序表示一个可能示例,且其他变体是可能的,例如姿势调整可在背景场景生成之前执行。
作为任选初始化操作,模型纠正电路202可被配置成将对象的3D模型缩放成标准化尺寸并将该模型平移至3D坐标系统的原点。这可期望补偿以下事实:不同3D模型生成技术可产生具有任意尺寸、定向和/或相对于给定坐标系统的位置的模型。纠正可因此确保所有模型都经历类似的缩放并共享公共坐标系统,这可由此助益下文所描述的后续处理模块和电路的实现和性能。
图像合成电路204可被配置成基于对象的3D模型,鉴于本公开使用已知技术来合成该对象的3D(RGB-D)图像对。然后可基于由此电路生成的对象的合成3D图像来渲染相对大数目的3D图像变体。变体的数目可以在数百、数千或更多的范围内。可应用由以下所描述的组件执行的操作的任何组合来创建每个RGB-D渲染变体(即,针对RGB图像和深度图像两者)。
背景场景生成器电路206可被配置成为经渲染图像变体中的每一个生成背景场景。每个经渲染的变体可包括潜在独特的背景场景,虽然也可能按需重新使用背景场景。在一些实施例中,背景场景生成器可从背景场景数据库随机地选择背景场景。在一些实施例中,背景场景可以是如以下图3所例示的位于对象背后的2D平面图像。在一些实施例中,背景场景可以是较复杂的3D构造模型。例如,可以有位于房子内的桌子,其中该桌子是感兴趣对象而房子的地板和墙充当背景场景。
图像姿势调整电路28可被配置成针对经渲染图像变体中的每一个调整对象的姿势(例如,定向和/或平移)。此外,例如在非刚性对象的情形中,图像姿势调整电路可进一步调整对象的区域的姿势,其中区域与该对象中可相对于彼此自由移动的组分或子组分相关联。例如,如果对象是玩具角色人物,则该人物可被旋转和/或平移至图像空间中的任何定向和位置。此外,如果玩具人物旨在是非刚性的(例如,柔性的),则头、臂和腿的姿势可在每次渲染时变化。如以下所描述的图3B所例示的,可生成包括对象的不同组分或子组分的姿势的所有可能(或实际)排列(premutation)和组合的渲染。
照度和视觉效果调整电路210可被配置成针对经渲染图像变体中的每一个调整对象和/或所生成背景的照度。照度可例如从较亮被调整或变化至较暗,反之亦然,并且在一些实施例中,对象的对比度可变化。作为进一步的示例,图像的一些部分可被遮蔽,而其他部分被高亮,或者可使得对象的一些部分看起来有光泽,而其他部分暗淡无光。作为另一进一步的示例,照明的色彩可变化。
照度和视觉效果调整电路210可进一步被配置成基于模拟相机参数的应用针对经渲染图像变体中的每一个调整对象和/或背景的视觉效果。模拟相机参数可包括例如透镜焦距和透镜孔径。改变透镜焦距会将视野例如从广角效果改变成远距效果。改变透镜孔径可改变图像的景深(即,聚焦图像和背景的深度范围)。
渲染参数变体电路212可被配置成为每次迭代或变体生成用于控制或选择所期望效果的参数。参数可控制例如用于图像的对象和/或背景的姿势调整以及照度和视觉效果。参数的选择可由系统的操作者来确定,或者可基于对象的性质来预先确定。参数的选择还可基于要生成的分类器的类型或者分类器的所期望性能特性来确定。
将进一步理解,本公开的实施例可实现分类器系统的高效缩放以识别新的现实世界对象。例如,被训练成识别不同家居配件的现有分类器可被配置成通过从制造商获得新对象的3D模型并使用上述技术处理该模型来识别新配件。
图3A例示出根据本文所公开的实施例中的某一实施例的对象图像的示例经渲染变体300A。在例示出了3D图像的色彩或RGB分量的各种经渲染图像302、304、306和308中示出对象330。在每个图像中,对象的姿势(例如,其在空间中的位置和定向)是变化的。此外,在经渲染图像中的每一个中,可看见背景320被改变,并且照明也是变化的。图像310和312例示出3D渲染的深度分量的示例变体。深度分量基于每个像素与将产生这些图像的视觉相机的距离来将每个像素编码成灰度值。
图3B例示出根据本文所公开的实施例中的某一实施例的对象图像的示例经渲染变体300B。对象,即非刚性玩具人物,被示为以第一姿势350和第二姿势360被渲染。右臂图像子组分的姿势被示为从位置370变化至位置374。类似地,左臂(以及盾牌)的姿势被示为从位置372变化至位置376。
图4例示出根据本文所公开的实施例中的某一实施例的具有类似形状和色彩特性的对象的示例400。对象402、404和406具有类似形状和着色,这典型地可导致在仅使用色彩数据操作的识别算法下的识别模糊和/或假肯定。然而,可利用这些对象中的每一个的不同维度来通过使用深度信息来解决此类识别模糊。为此,合成3D(RGB-D)图像变体渲染模块104被配置成渲染包括深度帧(例如,310和312)以及色彩数据帧(例如,302、304、306、308)两者的图像。
方法
图5A是例示出根据本公开的实施例的用于生成3D对象图像变体的示例方法500的流程图。如可见的,示例方法500包括多个阶段和子过程,这多个阶段和子过程的顺序可从一个实施例到另一实施例而不同。然而,当作为总体考虑时,这些阶段和子过程形成根据本文所公开的实施例中的某一实施例的用于3D对象图像变体的生成的过程。这些实施例可例如通过使用如上述的图1和2中所例示的系统架构来实现。然而,在其他实施例中可使用其他系统架构,如鉴于本公开而将显而易见的。为此,图5A中所示的各功能与图1和2中所例示的特定组分的相关性并不旨在暗示任何结构和/或使用限制。相反,其他实施例可包括例如不同程度的集成,其中多个功能由一个系统有效地执行。例如,在替代实施例中,单个模块可被用于执行方法500的所有功能。因此其他实施例可具有较少或较多的模块和/或子模块,这取决于实现的粒度。大量变体和替代配置鉴于本公开而将显而易见。
如图5A中所例示的,在一个实施例中,用于3D对象图像变体的生成的方法500通过在操作510处接收对象的3D模型而开始。该模型可由计算机辅助设计(CAD)工具、3D扫描工具、3D雕刻工具或通过其他合适的技术来生成。接下来,在操作520处,基于该模型来合成对象的RGB-D图像对。在操作530处,基于对象的合成RGB-D图像对来渲染多个RGB图像对变体。变体的数目可以在数百、数千、数百万或更多的范围内。后续操作的任何组合可针对每次渲染变体来执行。
在操作540中,生成背景场景。在一些实施例中,背景场景是从所存储的2D背景场景的数据库随机选择的。在一些实施例中,生成3D背景场景。在操作550处,调整或改变对象的姿势(例如,定向和/或平移)。在操作560处,将对象的照度例如从较亮调整或改变成较暗,反之亦然。在一些实施例中,还可改变对象的对比度。
在操作570处,可通过应用模拟相机参数(诸如例如,透镜焦距和透镜孔径)来改变与对象和/或背景有关的其他视觉效果。改变透镜焦距会将视场例如从广角效果改变成远距效果。改变透镜孔径会改变图像的景深(即,聚焦图像的深度范围)。
当然,在一些实施例中,可执行附加操作,如先前结合系统所描述的。这些附加操作可包括例如在非刚性对象的情形中调整对象的多个区域的定向和平移,其中各区域与该对象中可相对于彼此移动的子组分相对应。进一步的附加操作可包括纠正对象的所述3D模型以将模型缩放至标准化尺寸以及将模型平移至3D坐标系统的原点。此外,在一些实施例中,在操作580处,可将经渲染RGB-D图像对变体提供至机器学习系统以生成对象识别分类器或者以测试分类器。
图5B是根据示例实施例的图示地例示出图5A所描绘的方法的框图。如在上文中的操作510中所描述的,示例对象590的3D模型被示为被提供至合成3D(RGB-D)图像变体渲染模块104。在一些实施例中,如上文的操作550、560和570中所描述的,例如可由模块104通过改变背景、改变照明、改变建模对象定向和/或改变模拟相机参数(诸如景深和视场角度)来渲染不同的3D场景。对象的多个经渲染图像592被示出。虽然为简单起见示出了6个示例,但实际上可生成大量渲染,或许有数千至数百万数量级的渲染。如上文的操作580中所描述的,这些经渲染图像592可被存储于数据库中和/或被直接提供至机器学习系统108。
机器学习系统108可被配置成例如基于使用经渲染图像592或其子集进行训练来生成用于建模对象590的识别分类器110。所生成分类器110随后可被用于识别各种现实世界图像或设置中的对象590的实例。在一些实施例中,合成3D(RGB-D)图像变体渲染模块104和/或机器学习系统108可被主存在本地系统上或基于云的系统上。例如用户可将3D CAD模型上传至执行渲染和/或分类器训练的基于云的系统。
示例系统
图6例示出如本文所描述的可基于对象的3D模型来执行对3D对象图像变体的渲染以提供至配置成生成识别分类器的机器学习系统的示例系统600。在一些实施例中,系统600包括平台610,平台610可主存或以其他方式被并入个人计算机、工作站、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、机器人或无人机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如,智能电话或智能平板)、移动因特网设备(MID)等等。不同设备的任何组合可被用于某些实施例。例如,分类器训练(其是用于创建新分类器的离线过程)可典型地在更加计算能力强大的平台(诸如台式计算机、工作站或基于云的计算机)上执行。识别(其是用于实时识别对象的在线过程)一般可由较广泛的设备类型来执行。
在一些实施例中,平台610可包括处理器620、存储器630、合成3D(RGB-D)图像变体渲染系统104、机器学习/对象识别系统108、2D或3D照相机或扫描工具690、网络接口640、输入/输出(I/O)系统650、显示元件660和存储系统670的任何组合。如进一步可见的,还提供总线和/或互连692以允许以上所列各组件和/或未示出的其他组件之间的通信。平台610可通过网络接口640耦合至网络694以允许与其他计算设备、平台或资源通信。未在图6的框图中反映的其他组件和功能鉴于本公开而将显而易见,并且将理解,其他实施例不限于任何特定硬件配置。
处理器620可以是任何合适的处理器,并且可包括一个或多个协处理器或控制器,诸如音频处理器或图形处理单元,以帮助控制和处理与系统600相关联的操作。在一些实施例中,处理器620可被实现为任何数量的处理器核。处理器(或处理器核)可以是任何类型的处理器或处理器的组合,该处理器诸如例如微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列或被配置成执行代码的其他设备。处理器可以是多线程核,因为它们可每个核地包括多于一个的硬件线程上下文(或“逻辑处理器”)。处理器620可被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中,处理器620可被配置为x86指令集兼容处理器。
存储器630可通过使用任何合适类型的数字存储(包括例如,闪存和/或随机存取存储器(RAM))来实现。在一些实施例中,存储器630可包括本领域技术人员已知的存储器层次结构和/或存储器高速缓存的各个层。存储器630可被实现为易失性存储器设备,诸如但不限于RAM、动态RAM(DRAM)或静态RAM(SRAM)设备。存储系统670可被实现为非易失性存储设备,诸如但不限于一个或多个硬盘驱动器(HDD)、固态驱动器(SSD)、通用串行总线(USB)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附连存储设备、闪存、电池备份的同步DRAM(SDRAM)和/或网络可访问存储设备。在一些实施例中,存储设备670可包括用于例如在包括多个硬盘驱动器时提高对有价值数字媒体的存储性能增强保护的技术。
处理器620可被配置成执行操作系统(OS)680,该操作系统(OS)680可包括任何合适的操作系统,诸如Google Android(加利福尼亚州山景城谷歌公司)、Microsoft Windows(华盛顿州雷德蒙德的微软公司)、Linux或Apple OS X(加利福尼亚州库比蒂诺城苹果公司)和/或各种实时操作系统。如鉴于本公开而将理解的,本文提供的技术可以在无需考虑结合系统600提供的特定操作系统的情况下实现,并且因此还可通过使用任何合适的现有或随后开发的平台来实现。
网络接口模块640可以是任何合适的网络芯片或芯片组,该任何合适的网络芯片或芯片组允许计算机系统600的其他组件和/或网络694之间的有线和/或无线连接,由此使系统600能够与其他本地和/或远程计算系统、服务器和/或资源通信。有线通信可遵循现有(或尚未开发的)标准,诸如例如以太网。无线通信可符合现有(或尚未开发的)标准,诸如例如包括LTE(长期演进)、无线保真(Wi-Fi)、蓝牙和/或近场通信(NFC)的蜂窝通信。示例无线网络包括但不限于无线局域网、无线个域网、无线城域网、蜂窝网络和卫星网络。
I/O系统650可被配置成在各种I/O设备与计算机系统600的其他组件之间进行接口。I/O设备可包括但不限于显示元件660、相机或扫描工具690以及未示出的其他设备,诸如键盘、鼠标、扬声器、麦克风等。
I/O系统650可包括配置成执行对显示元件660的图像的处理的图形子系统。图形子系统可以是例如图形处理单元或视觉处理单元(VPU)。模拟或数字接口可被用于通信地耦合图形子系统和显示元件660。例如,接口可以是高清晰度多媒体接口(HDMI)、显示端口、无线HDMI和/或使用无线高清晰度兼容技术中的任何其他合适接口。在一些实施例中,图形子系统可被集成在平台610的处理器620或任何芯片组中。在一些实施例中,显示元件660可包括任何电视类型监视器或显示器,包括液晶显示器(LCD)和发光二极管显示器(LED)。显示元件660可包括例如计算机显示屏、触摸屏显示器、视频监视器、电视机类设备和/或电视机。显示元件660可以是数字和/或模拟的。在OS 680(或一个或多个软件应用)的控制下,平台610可在显示元件660上显示经处理图像。图像可由相机/扫描工具690或其他源提供,并且可由合成3D(RGB-D)图像变体渲染系统104处理,如本文所描述的。相机690可被配置成提供对象(可从该对象生成对象的3D模型)的2D或3D图像或扫描。
将会理解的是,在一些实施例中,系统100的各个部件可组合或集成在片上系统(SoC)架构中。在一些实施例中,部件可以是硬件部件、固件部件、软件部件或者硬件、固件或软件的任何合适的组合。
合成3D(RGB-D)图像变体渲染系统104被配置成从对象的3D模型生成合成三维对象图像变体。这些经渲染图像变体随后被用于例如通过机器学习/对象识别系统108来训练识别系统或分类器。合成3D(RGB-D)图像变体渲染系统104可包括图2所例示的以及以上所描述的组件中的任一个或全部。合成3D(RGB-D)图像变体渲染系统104可结合耦合至系统600或以其他方式形成系统600的一部分的各种合适软件和/或硬件来实现或以其他方式使用。合成3D(RGB-D)图像变体渲染系统104可附加地或替代地结合用户I/O设备来实现或以其他方式使用,该用户I/O设备能够将信息提供至用户或者从用户接收信息和命令。这些I/O设备可包括显示元件660、文本输入设备(诸如键盘)以及基于指针的输入设备(诸如鼠标)。可在其他实施例中使用的其他输入/或输出设备包括触摸屏、触摸板、扬声器和/或麦克风。可在其他实施例中使用另外其他输入/输出设备。
在一些实施例中,合成3D(RGB-D)图像变体渲染系统104可被本地安装到系统600,如在图6的示例实施例中示出的。替代地,系统600可用客户端-服务器布置(或基于本地和云的布置)来实现,其中与合成3D(RGB-D)图像变体渲染系统104相关联的至少一些功能通过使用小程序(诸如JavaScript小程序)或其他可下载模块来提供至系统600。此类远程可访问模块或子模块可响应于来自客户端计算系统对访问具有为客户端计算系统的用户所感兴趣的资源的给定服务器的请求而被实时供应。在此类实施例中,服务器可位于网络694本地或通过一个或多个其他网络和/或通信通道被远程耦合至网络694。在一些情形中,对给定网络或计算系统上的资源的访问可能需要证书,诸如用户名、口令和/或与任何其他合适的安全机制兼容。
在各种实施例中,可将系统600实现为无线系统、有线系统或无线和有线系统两者的组合。当被实现为无线系统时,系统600可包括适合于通过无线共享介质进行通信的组件和接口,该组件和接口诸如,一个或多个天线、发射机、接收机、收发机、放大器、过滤器、控制逻辑等。无线共享介质的示例可包括无线频谱的多个部分,诸如,射频频谱等。当实现为有线系统时,系统600可以包括适用于通过有线通信介质进行通信的组件和接口,诸如输入/输出适配器、将输入/输出适配器与相应的有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等等。有线通信介质的示例可包括线、电缆、金属引线、印刷电路板(PCB)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。
可使用硬件元件、软件元件或软硬件元件的组合来实现各实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、感应器等等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号,或其任何组合。确定是否使用硬件元件和/或软件元件来实现实施例可根据任何数量的因素而变化,这些因素诸如所期望的计算速率、功率电平、热容限、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。
可以用表述“耦合”和“连接”及其派生词对一些实施例进行描述。这些术语不旨在互为同义词。例如,可以用术语“连接”和/或“耦合”对一些实施例进行描述,以表示两个或更多个元件彼此直接物理或电接触。然而,术语“耦合”也可以指两个或更多个元件彼此并非直接接触,但是仍然彼此协作或交互。
本文所公开的各实施例可以以各种形式的硬件、软件、固件和/或专用处理器来实现。例如,在一个实施例中,至少一个非瞬态计算机可读存储介质具有在其上编码的指令,指令在由一个或多个处理器执行时使在本文所公开的用于生成3D对象图像变体的一个或多个方法被实现。指令可通过使用合适的编程语言(诸如C、C++、面向对象的C,JavaScript、Visual Basic.NET、初学者通用符号指令代码(BASIC))进行编码,或者替代地使用定制或专有指令集来编码。指令可以以一种或多种计算机软件应用和/或小程序的形式提供,这些计算机软件应用和/或小程序在存储器设备上被有形地具体化,并且可以由具有任何合适架构的计算机来执行。在一个实施例中,系统可被主存在给定网站上并且例如通过使用JavaScript或其他合适的基于浏览器的技术来实现。例如,在某些实施例中,合成3D(RGB-D)图像变体渲染系统可通过充分利用由可经由网络694访问的远程计算机系统提供的处理资源来生成图像变体。在其他实施例中,本文公开的功能可被并入其他软件应用,例如图像管理应用。本文所公开的计算机软件应用可包括任何数量的不同模块、子模块或不同功能的其他组件,并且可向另外其他组件提供信息或从该另外其他组件接收信息。这些模块可被用于例如与输入和/或输出设备(诸如显示屏、触敏表面、打印机和/或任何其它合适的设备)通信。没有反映在示例中的其他组件和功能将根据本公开变得明显,并且将理解,其他实施例不限于任何特定的硬件或软件配置。因此在其他实施例中,系统600可包括与图6的示例实施例中包括的子组件相比附加的、更少的或替代的子组件。
前述非瞬态计算机可读介质可以是用于存储数字信息的任何合适的介质,诸如硬盘驱动器、服务器、闪存和/或随机存取存储器(RAM)。在替代实施例中,本文公开的组件和/或模块可通过使用硬件来实现,硬件包括诸如现场可编程门阵列(FPGA)的门级逻辑,或者替代地,诸如专用集成电路(ASIC)之类的专用半导体。还可使用具有用于接收和输出数据的多个输入/输出端口的微控制器以及用于执行本文所公开的各种功能的多个嵌入式例程来实现其他实施例。显而易见的是,可使用硬件、软件和固件的任何合适的组合,并且其他实施例不限于任何特定系统架构。
例如,可使用机器可读介质或者制品来实现一些实施例,这些介质或者制品可存储指令或者指令集,这些指令或指令集在由机器执行时可使该机器根据实施例来执行方法和/或操作。此类机器可包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等,并可使用硬件和/或软件的任何合适组合来实现。机器可读介质或制品可包括例如任何合适类型的存储器单元、存储器设备、存储器制品、存储器介质、存储设备、存储制品、存储介质和/或存储单元,诸如存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、紧凑盘只读存储器(CD-ROM)、紧凑盘可记录(CD-R)存储器、紧凑盘可重写(CD-RW)存储器、光盘、磁性介质、磁光介质、可移除存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、盒式磁带等等。指令可包括任何合适类型的代码,例如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密的代码等,它们使用任何合适的高级、低级、面向对象的、可视的、编译的和/或解释的编程语言来实现。
除非特别声明,应该领会,诸如“处理”、“计算”、“运算”、“确定”之类的术语表示计算机或计算系统或者类似电子计算设备的动作和/或过程,其将计算系统的寄存器和/或存储器内被表示为物理量(例如,电子学的)的数据处理和/或转换为在计算系统的存储器、寄存器或其它这类信息存储、传输或显示器内被类似表示为物理量的其它数据。实施例不限于此上下文。
如本文任何实施例中所使用的那样,术语“电路(circuit)”或“电路系统(circuitry)”可单独或以任何组合方式包括诸如:硬连线电路;可编程电路,诸如包括一个或更多单独指令处理核的计算机处理器;状态机电路;和/或存储由可编程电路执行的指令的固件。电路可包括配置成执行一个或多个指令以执行本文所描述的一个或多个操作的处理器和/或控制器。指令可被具体化为例如被配置为使电路执行任何前述操作的应用、软件、固件等。软件可被具体化为记录在计算机可读存储设备上的软件包、代码、指令,指令集和/或数据。软件可被具体化或实现为包括任何数量的进程,并且进程进而可被具体化或实现为以分层方式包括任何数量的线程等。固件可以实现如硬编码(例如,非易失性)在存储器设备中的代码、指令或指令集和/或数据。电路可以总体地或个别地被体现为形成较大系统的一部分的电路,例如,集成电路(IC)、专用集成电路(ASIC)、片上系统(SoC)、台式计算机、膝上型计算机、平板计算机、服务器、智能电话、等等。其他实施例可被实现为由可编程控制设备执行的软件。如本文所述,各实施例可利用硬件要素、软件要素或其任何组合实现。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。
在此已经阐明了许多具体的细节,以便对这些实施例有透彻的理解。然而,本领域技术人员可理解,可在没有这些具体细节的情况下实施这些实施例。在其它实例中,并未对公知方法、程序、组件以及电路进行详细描述以免使本发明不清楚。可以理解的是,本文中公开的具体结构和功能细节可以代表但不一定限制实施例的范围。此外,尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中限定的主题不必限于本文所描述的具体特征或动作。相反,本文所描述的具体特征和动作是作为实现权利要求的示例形式公开的。
其他示例实施例
以下示例涉及进一步的实施例,大量的排列和配置将根据这些实施例变得显而易见。
示例1是用于生成三维(3D)对象图像变体的方法。方法包括接收对象的3D模型并基于3D模型合成对象的色彩和深度(RGB-D)图像对。方法还包括基于对象的合成RGB-D图像对渲染对象的多个RGB-D图像对变体。渲染包括针对变体中的每一个进行以下各项中的至少一者:生成背景场景;调整对象的定向和平移;调整对象和背景场景的照度;以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。方法进一步包括将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。
示例2包括示例1的主题,进一步包括,针对非刚性对象,调整对象的多个区域中的每个区域的定向和平移,其中区域与对象的子组分相关联。
示例3包括示例1和2的主题,进一步包括纠正对象的3D模型以将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点。
示例4包括示例1-3的主题,背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。
示例5包括示例1-4的主题,其中背景场景生成进一步包括生成3D背景场景。
示例6包括示例1-5的主题,其中模拟相机参数包括透镜焦距和透镜孔径。
示例7包括示例1-6的主题,进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具生成对象的3D模型。
示例8包括示例1-7的主题,其中渲染包括以下各项中的每一者:生成背景场景;调整对象的定向和平移;调整对象和背景场景的照度;以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。
示例9包括示例1-8的主题,进一步包括将经渲染RGB-D图像对变体的第二子集提供至机器学习系统以测试对象识别分类器。
示例10是用于渲染三维(3D)对象图像变体的系统。该系统包括:图像合成电路,图像合成电路用于基于对象的3D模型合成对象的色彩和深度(RGB-D)图像对;系统还包括以下中的至少一者:背景场景生成器电路,背景场景生成器电路用于为经渲染图像变体生成背景场景;图像姿势调整电路,图像姿势调整电路用于针对经渲染图像变体中的每一个调整对象的定向和平移;以及照度和视觉效果调整电路,照度和视觉效果调整电路用于针对经渲染图像变体中的每一个调整对象和背景场景的照度,并且进一步用于基于模拟相机参数的应用针对经渲染图像变体中的每一个调整对象和背景场景的视觉效果。系统进一步包括渲染参数变体电路,渲染参数变体电路用于为每次变体迭代生成参数,这些参数用于控制姿势调整或者照度和视觉效果;以及机器学习系统,机器学习系统用于基于经渲染图像变体的至少第一子集生成对象识别分类器。
示例11包括示例10的主题,其中图像姿势调整电路进一步用于针对非刚性对象,调整对象的多个区域中的每个区域的定向和平移,其中区域与对象的子组分相关联。
示例12包括示例10或11的主题,进一步包括用于将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点的模型纠正电路。
示例13包括示例10-12的主题,背景场景生成器电路进一步用于从背景场景的数据库随机选择二维(2D)背景场景。
示例14包括示例10-13的主题,其中模拟相机参数包括透镜焦距和透镜孔径。
示例15包括示例10-14的主题,进一步包括3D模型生成模块,该3D模型生成模块用于基于计算机辅助设计(CAD)工具或3D扫描工具来生成对象的3D模型。
示例16包括示例10-15的主题,其中系统包括以下各项中的每一个:背景场景生成器电路;图像姿势调整电路;照度和视觉效果调整电路。
示例17包括示例10-16的主题,其中机器学习系统进一步用于基于经渲染图像变体的第二子集来测试对象识别分类器。
示例18包括示例10-17的主题,进一步包括用于存储经渲染图像变体的数据库。
示例19是具有在其上编码的指令的至少一种非瞬态计算机可读存储介质,指令在由一个或多个处理器执行时,导致用于生成三维(3D)对象图像变体的以下操作。操作包括:接收对象的3D模型并基于3D模型合成对象的色彩和深度(RGB-D)图像对。该操作还包括基于对象的合成RGB-D图像对来渲染对象的多个RGB-D图像对变体。渲染包括针对变体中的每一个进行以下各项中的至少一者:生成背景场景;调整对象的定向和平移;调整对象和背景场景的照度;以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。操作进一步包括将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。
示例20包括示例19的主题,进一步包括针对非刚性对象,调整对象的多个区域中的每个区域的定向和平移,其中这些区域与对象的子组分相关联。
示例21包括示例19和20的主题,进一步包括纠正对象的3D模型以将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点。
示例22包括示例19-21的主题,背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。
示例23包括示例19-22的主题,其中背景场景生成进一步包括生成3D背景场景。
示例24包括示例19-23的主题,其中模拟相机参数包括透镜焦距和透镜孔径。
示例25包括示例19-24的主题,进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具生成对象的3D模型。
示例26包括示例19-25的主题,其中渲染包括以下各项中的每一者:生成背景场景;调整对象的定向和平移;调整对象和背景场景的照度;以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。
示例27包括示例19-26的主题,进一步包括将经渲染RGB-D图像对变体的第二子集提供至机器学习系统以测试对象识别分类器。
示例28是用于生成三维(3D)对象图像变体的系统。该系统包括:用于接收对象的3D模型的装置以及用于基于3D模型合成对象的色彩和深度(RGB-D)图像对的装置。该系统还包括用于基于对象的合成RGB-D图像对来渲染对象的多个RGB-D图像对变体的装置。用于渲染的装置包括针对变体中的每一个的以下各项中的至少一者:用于生成背景场景的装置;用于调整对象的定向和平移的装置;用于调整对象和背景场景的照度的装置;以及用于基于模拟相机参数的应用调整对象和背景场景的视觉效果的装置。系统进一步包括用于将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器的装置。
示例29包括示例28的主题,进一步包括,对于非刚性对象,用于调整对象的多个区域中的每个区域的定向和平移的装置,其中区域与对象的子组分相关联。
示例30包括示例28和29的主题,进一步包括用于纠正对象的3D模型以将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点的装置。
示例31包括示例28-30的主题,背景场景生成进一步包括用于从背景场景的数据库随机选择二维(2D)背景场景的装置。
示例32包括示例28-31的主题,其中背景场景生成进一步包括用于生成3D背景场景的装置。
示例33包括示例28-32的主题,其中模拟相机参数包括透镜焦距和透镜孔径。
示例34包括示例28-33的主题,进一步包括用于通过采用计算机辅助设计(CAD)工具或3D扫描工具生成对象的3D模型的装置。
示例35包括示例28-34的主题,其中用于渲染的装置包括以下各项中的每一者:用于生成背景场景的装置;用于调整对象的定向和平移的装置;用于调整对象和背景场景的照度的装置;以及用于基于模拟相机参数的应用调整对象和背景场景的视觉效果的装置。
示例36包括示例28-35的主题,进一步包括用于将经渲染RGB-D图像对变体的第二子集提供至机器学习系统以测试对象识别分类器的装置。
本文所使用的术语和表达被用作描述性而非限制性的术语,在使用此类术语和表达时,不旨在排除所示出的和所描述的特征(或其某些部分)的任何等效内容,应当认识到,在权利要求书的范围之内,各种修改都是可能的。相应地,权利要求书旨在涵盖所有此类等效内容。本文描述了各种特征、方面和实施例。如本领域技术人员将理解的,各个特征、方面和实施例易于彼此组合及进行变化和修改。本公开应该因此被认为包含此类组合、变化和修改。本公开的范围不是由该详细说明书限制而是由所附权利要求限定。将来提出的要求本申请优先权的申请可以以不同的方式要求所公开的主题,并且通常可包括如在此多方面地公开或以其他方式展示的一个或多个限制的任意集合。

Claims (27)

1.一种用于生成三维(3D)对象图像变体的处理器实现的方法,所述方法包括:
由处理器接收对象的3D模型;
由所述处理器基于所述3D模型合成所述对象的色彩和深度(RGB-D)图像对;
由所述处理器基于所述对象的合成RGB-D图像对来渲染所述对象的多个RGB-D图像对变体,所述渲染包括针对所述变体中的每一个变体进行以下各项中的至少一者:
由所述处理器生成背景场景;
由所述处理器调整所述对象的定向和平移;
由所述处理器调整所述对象和所述背景场景的照度;以及
由所述处理器基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果;以及
由所述处理器将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。
2.如权利要求1所述的方法,其特征在于,进一步包括,针对非刚性对象,调整所述对象的多个区域中的每个区域的定向和平移,其中所述区域与所述对象的子组分相关联。
3.如权利要求1所述的方法,其特征在于,进一步包括纠正所述对象的所述3D模型以将模型缩放至标准化尺寸并将所述模型平移至3D坐标系统的原点。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。
5.如权利要求1-3中任一项所述的方法,其特征在于,所述背景场景生成进一步包括生成3D背景场景。
6.如权利要求1-3中任一项所述的方法,其特征在于,所述模拟相机参数包括透镜焦距和透镜孔径。
7.如权利要求1-3中任一项所述的方法,其特征在于,进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具来生成所述对象的所述3D模型。
8.如权利要求1-3中任一项所述的方法,其特征在于,所述渲染包括以下各项中的每一个:生成背景场景;调整所述对象的定向和平移;调整所述对象和所述背景场景的照度;以及基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果。
9.如权利要求1-3中任一项所述的方法,其特征在于,进一步包括将经渲染RGB-D图像对变体的第二子集提供至所述机器学习系统以测试所述对象识别分类器。
10.一种用于渲染三维(3D)对象图像变体的系统,所述系统包括:
图像合成电路,所述图像合成电路用于基于对象的3D模型合成所述对象的色彩和深度(RGB-D)图像对;
以下各项中的至少一者:
背景场景生成器电路,所述背景场景生成器电路用于为经渲染图像变体中的每一个生成背景场景;
图像姿势调整电路,所述图像姿势调整电路用于针对所述经渲染图像变体中的每一个调整所述对象的定向和平移;以及
照度和视觉效果调整电路,所述照度和视觉效果调整电路用于针对所述经渲染图像变体中的每一个调整所述对象和所述背景场景的照度,以及进一步用于基于模拟相机参数的应用针对所述经渲染图像变体中的每一
个调整所述对象和所述背景场景的视觉效果;
渲染参数变体电路,所述渲染参数变体电路用于为每次变体迭代生成参数,所述参数用于控制姿势调整或者照度和视觉效果;以及
机器学习系统,所述机器学习系统用于基于所述经渲染图像变体的至少第一子集生成对象识别分类器。
11.如权利要求10所述的系统,其特征在于,所述图像姿势调整电路进一步用于针对非刚性对象,调整所述对象的多个区域中的每个区域的定向和平移,其中所述区域与所述对象的子组分相关联。
12.如权利要求10所述的系统,其特征在于,进一步包括模型纠正电路,所述模型纠正电路用于将所述对象的模型缩放至标准化尺寸并将所述模型平移至3D坐标系统的原点。
13.如权利要求10-12中任一项所述的系统,其特征在于,所述背景场景生成器电路进一步用于从背景场景的数据库随机选择二维(2D)背景场景。
14.如权利要求10-12中任一项所述的系统,其特征在于,所述模拟相机参数包括透镜焦距和透镜孔径。
15.如权利要求10-12中任一项所述的系统,其特征在于,进一步包括3D模型生成模块,所述3D模型生成模块用于基于计算机辅助设计(CAD)工具或3D扫描工具来生成所述对象的所述3D模型。
16.如权利要求10-12中任一项所述的系统,其特征在于,所述系统包括以下各项中的每一者:所述背景场景生成器电路;所述图像姿势调整电路;以及所述照度和视觉效果调整电路。
17.如权利要求10-12中任一项所述的系统,其特征在于,所述机器学习系统进一步用于基于所述经渲染图像变体的第二子集来测试所述对象识别分类器。
18.如权利要求10-12中任一项所述的系统,其特征在于,进一步包括用于存储所述经渲染图像变体的数据库。
19.具有在其上编码的指令的至少一种非瞬态计算机可读存储介质,所述指令在由一个或多个处理器执行时,导致用于生成三维(3D)对象图像变体的以下操作,所述操作包括:
接收对象的3D模型;
基于所述3D模型合成所述对象的色彩和深度(RGB-D)图像对;
基于所述对象的合成RGB-D图像对来渲染所述对象的多个RGB-D图像对变体,所述渲染包括针对所述变体中的每个变体进行以下各项中的至少一者:
生成背景场景;
调整所述对象的定向和平移;
调整所述对象和所述背景场景的照度;以及
基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果;以及
将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。
20.如权利要求19所述的计算机可读存储介质,其特征在于,进一步包括,针对非刚性对象,调整所述对象的多个区域中的每个区域的定向和平移,其中所述区域与所述对象的子组分相关联。
21.如权利要求19所述的计算机可读存储介质,其特征在于,进一步包括纠正所述对象的所述3D模型以将所述模型缩放至标准化尺寸并将所述模型平移至3D坐标系统的原点。
22.如权利要求19-21中任一项所述的计算机可读存储介质,其特征在于,所述背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。
23.如权利要求19-21中任一项所述的计算机可读存储介质,其特征在于,所述背景场景生成进一步包括生成3D背景场景。
24.如权利要求19-21中任一项所述的计算机可读存储介质,其特征在于,所述模拟相机参数包括透镜焦距和透镜孔径。
25.如权利要求19-21中任一项所述的计算机可读存储介质,其特征在于,进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具生成所述对象的所述3D模型。
26.如权利要求19-21中任一项所述的计算机可读存储介质,其特征在于,所述渲染包括以下各项中的每一个:生成背景场景;调整所述对象的定向和平移;调整所述对象和所述背景场景的照度;以及基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果。
27.如权利要求19-21中任一项所述的计算机可读存储介质,其特征在于,进一步包括将所述经渲染RGB-D图像对变体的第二子集提供至所述机器学习系统以测试所述对象识别分类器。
CN201680066761.4A 2015-12-15 2016-11-15 用于识别系统的合成三维对象图像的生成 Pending CN108292358A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/969,563 US10068385B2 (en) 2015-12-15 2015-12-15 Generation of synthetic 3-dimensional object images for recognition systems
US14/969,563 2015-12-15
PCT/US2016/062028 WO2017105724A1 (en) 2015-12-15 2016-11-15 Generation of synthetic 3-dimensional object images for recognition systems

Publications (1)

Publication Number Publication Date
CN108292358A true CN108292358A (zh) 2018-07-17

Family

ID=59019954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680066761.4A Pending CN108292358A (zh) 2015-12-15 2016-11-15 用于识别系统的合成三维对象图像的生成

Country Status (3)

Country Link
US (4) US10068385B2 (zh)
CN (1) CN108292358A (zh)
WO (1) WO2017105724A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112825127A (zh) * 2019-11-20 2021-05-21 百度(美国)有限责任公司 生成用于自动驾驶标记的紧密2d边界框的新方法
CN113424230A (zh) * 2018-12-19 2021-09-21 安尼派恩有限公司 生成动画序列的方法、系统以及非瞬时计算机可读存储介质

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151655B1 (en) 2015-12-11 2021-10-19 State Farm Mutual Automobile Insurance Company Structural characteristic extraction and claims processing using 3D images
US10068385B2 (en) 2015-12-15 2018-09-04 Intel Corporation Generation of synthetic 3-dimensional object images for recognition systems
US9740944B2 (en) * 2015-12-18 2017-08-22 Ford Global Technologies, Llc Virtual sensor data generation for wheel stop detection
US9760690B1 (en) * 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
US10504008B1 (en) * 2016-07-18 2019-12-10 Occipital, Inc. System and method for relocalization and scene recognition
CN107958197A (zh) * 2016-10-14 2018-04-24 松下电器(美国)知识产权公司 学习数据制作支援方法
US11132543B2 (en) * 2016-12-28 2021-09-28 Nvidia Corporation Unconstrained appearance-based gaze estimation
US10229534B2 (en) * 2017-01-10 2019-03-12 Ditto Technologies, Inc. Modeling of a user's face
US11004568B2 (en) 2017-03-10 2021-05-11 Altair Engineering, Inc. Systems and methods for multi-dimensional fluid modeling of an organism or organ
US10409950B2 (en) 2017-03-10 2019-09-10 General Electric Company Systems and methods for utilizing a 3D CAD point-cloud to automatically create a fluid model
US10803211B2 (en) 2017-03-10 2020-10-13 General Electric Company Multiple fluid model tool for interdisciplinary fluid modeling
US10977397B2 (en) 2017-03-10 2021-04-13 Altair Engineering, Inc. Optimization of prototype and machine design within a 3D fluid modeling environment
US10867085B2 (en) * 2017-03-10 2020-12-15 General Electric Company Systems and methods for overlaying and integrating computer aided design (CAD) drawings with fluid models
WO2019060787A1 (en) * 2017-09-21 2019-03-28 Lexset.Ai Llc DETECTION OF AT LEAST ONE OBJECT IN AN IMAGE, OR A SEQUENCE OF IMAGES, AND DETERMINATION OF A CATEGORY AND AT LEAST ONE DESCRIPTOR FOR EACH OF THESE OBJECTS, GENERATION OF SYNTHETIC LEARNING DATA, AND FORMATION OF A NEURONAL NETWORK USING SYNTHETIC LEARNING DATA
US10931931B2 (en) * 2017-11-21 2021-02-23 The Boeing Company Apparatus, system, and method for generating an image
EP3495771A1 (en) * 2017-12-11 2019-06-12 Hexagon Technology Center GmbH Automated surveying of real world objects
JP7028333B2 (ja) * 2018-03-05 2022-03-02 オムロン株式会社 照明条件の設定方法、装置、システム及びプログラム並びに記憶媒体
KR102577472B1 (ko) 2018-03-20 2023-09-12 한국전자통신연구원 동작 인식을 위한 가상 학습 데이터를 생성하는 방법 및 장치
KR102559202B1 (ko) 2018-03-27 2023-07-25 삼성전자주식회사 3d 렌더링 방법 및 장치
EP3759649B1 (en) * 2018-04-06 2022-04-20 Siemens Aktiengesellschaft Object recognition from images using cad models as prior
US11550841B2 (en) * 2018-05-31 2023-01-10 Microsoft Technology Licensing, Llc Distributed computing system with a synthetic data as a service scene assembly engine
US10740694B2 (en) * 2018-08-10 2020-08-11 Vis Machina Inc. System and method for capture and adaptive data generation for training for machine vision
CN109040612B (zh) * 2018-08-29 2020-07-28 百度在线网络技术(北京)有限公司 目标对象的图像处理方法、装置、设备及存储介质
US10867404B2 (en) * 2018-08-29 2020-12-15 Toyota Jidosha Kabushiki Kaisha Distance estimation using machine learning
JP6697042B2 (ja) * 2018-08-31 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、固体撮像方法及びプログラム
US11544499B2 (en) 2018-09-18 2023-01-03 Microsoft Technology Licensing, Llc Classification of synthetic data tasks and orchestration of resource allocation
US10957099B2 (en) * 2018-11-16 2021-03-23 Honda Motor Co., Ltd. System and method for display of visual representations of vehicle associated information based on three dimensional model
CN109741405B (zh) * 2019-01-21 2021-02-02 同济大学 一种基于对偶结构光rgb-d相机的深度信息采集系统
US11132826B2 (en) * 2019-05-16 2021-09-28 Caterpillar Inc. Artificial image generation for training an object detection system
WO2020235862A1 (en) * 2019-05-17 2020-11-26 Samsung Electronics Co., Ltd. Image manipulation
GB201907193D0 (en) * 2019-06-05 2019-07-03 Secr Defence Obtaining patterns for surfaces of objects
US10922877B2 (en) 2019-07-01 2021-02-16 Samsung Electronics Co., Ltd. Higher-order function networks for learning composable three-dimensional (3D) object and operating method thereof
CN110490960B (zh) * 2019-07-11 2023-04-07 创新先进技术有限公司 一种合成图像生成方法及装置
US20220358149A1 (en) * 2019-07-12 2022-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Life cycle management
CN110443892B (zh) * 2019-07-25 2021-06-04 北京大学 一种基于单张图像的三维网格模型生成方法及装置
CN111243058B (zh) * 2019-12-31 2024-03-22 富联裕展科技(河南)有限公司 物件模拟图像生成方法及计算机可读存储介质
CN112907738A (zh) * 2020-04-06 2021-06-04 张志云 智慧建筑楼宇物联网对象模拟方法及楼宇云服务器
CN111583305B (zh) * 2020-05-11 2022-06-21 北京市商汤科技开发有限公司 神经网络训练及运动轨迹确定方法、装置、设备和介质
US11669999B2 (en) * 2020-05-26 2023-06-06 Disney Enterprises, Inc. Techniques for inferring three-dimensional poses from two-dimensional images
CN117744196A (zh) * 2020-10-13 2024-03-22 弗莱瑞尔公司 通过自动分析传感器数据生成物理结构和环境的测量结果
CN112215366B (zh) * 2020-12-07 2021-03-02 成都数联铭品科技有限公司 基于结果画像的模型解释方法、系统、计算及存储设备
WO2022197587A1 (en) * 2021-03-15 2022-09-22 Ortelligence, Inc. Systems and methods for dynamic identification of a surgical tray and the items contained thereon
US11886541B2 (en) 2021-11-17 2024-01-30 Ford Motor Company Systems and methods for generating synthetic images of a training database
TWI802514B (zh) * 2022-10-07 2023-05-11 國立中興大學 無人機目標辨識之處理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1703470B1 (en) * 2005-01-08 2009-09-09 Samsung Electronics Co., Ltd. Depth image-based modeling method and apparatus
US20110002531A1 (en) * 2009-07-01 2011-01-06 Honda Motor Co., Ltd. Object Recognition with 3D Models
CN102194105A (zh) * 2010-03-19 2011-09-21 微软公司 用于人体跟踪的代表训练数据
CN103886315A (zh) * 2012-12-21 2014-06-25 本田技研工业株式会社 应用于行人姿势分类的3d人体模型
CN103886757A (zh) * 2012-12-21 2014-06-25 业纳遥控设备有限公司 用于自动分类运动中的车辆的方法
US20150043806A1 (en) * 2013-08-08 2015-02-12 Adobe Systems Incorporated Automatic geometry and lighting inference for realistic image editing
CN104504671A (zh) * 2014-12-12 2015-04-08 浙江大学 一种用于立体显示的虚实融合图像生成方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2239279C (en) 1997-06-02 2002-04-23 Nippon Telegraph And Telephone Corporation Image generating apparatus and method
US7706603B2 (en) * 2005-04-19 2010-04-27 Siemens Corporation Fast object detection for augmented reality systems
KR100735676B1 (ko) 2006-02-24 2007-07-06 조현덕 가상현실 모델하우스 운영시스템 및 운영방법
DE102007045835B4 (de) 2007-09-25 2012-12-20 Metaio Gmbh Verfahren und Vorrichtung zum Darstellen eines virtuellen Objekts in einer realen Umgebung
US8073243B2 (en) 2008-05-30 2011-12-06 General Instrument Corporation Replacing image information in a captured image
FR2935579B1 (fr) 2008-08-28 2010-11-05 Centre Nat Etd Spatiales Procede d'acquisition, de reduction et de transmission d'images satellitaires
JP4911191B2 (ja) 2009-04-08 2012-04-04 株式会社ニコン 画像処理装置および画像処理プログラム
US8787663B2 (en) 2010-03-01 2014-07-22 Primesense Ltd. Tracking body parts by combined color image and depth processing
US9053571B2 (en) * 2011-06-06 2015-06-09 Microsoft Corporation Generating computer models of 3D objects
KR101845231B1 (ko) 2011-06-14 2018-04-04 삼성전자주식회사 영상 처리 장치 및 방법
US9626798B2 (en) 2011-12-05 2017-04-18 At&T Intellectual Property I, L.P. System and method to digitally replace objects in images or video
US9031317B2 (en) 2012-09-18 2015-05-12 Seiko Epson Corporation Method and apparatus for improved training of object detecting system
US8799829B2 (en) * 2012-09-28 2014-08-05 Interactive Memories, Inc. Methods and systems for background uploading of media files for improved user experience in production of media-based products
US9665800B1 (en) 2012-10-21 2017-05-30 Google Inc. Rendering virtual views of three-dimensional (3D) objects
US8994652B2 (en) 2013-02-15 2015-03-31 Intel Corporation Model-based multi-hypothesis target tracker
WO2014182545A1 (en) 2013-05-04 2014-11-13 Vupad Partners, Llc Virtual object scaling in augmented reality environment
KR102121592B1 (ko) 2013-05-31 2020-06-10 삼성전자주식회사 시력 보호 방법 및 장치
WO2015048694A2 (en) * 2013-09-27 2015-04-02 Pelican Imaging Corporation Systems and methods for depth-assisted perspective distortion correction
US20150091891A1 (en) * 2013-09-30 2015-04-02 Dumedia, Inc. System and method for non-holographic teleportation
WO2015083199A1 (en) 2013-12-04 2015-06-11 J Tech Solutions, Inc. Computer device and method executed by the computer device
KR101599257B1 (ko) 2013-12-11 2016-03-03 류지혁 3d모델 증강현실 서비스 시스템
CN105980928B (zh) * 2014-10-28 2020-01-17 深圳市大疆创新科技有限公司 使用超声波深度感测的rgb-d成像系统和方法
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
US10068385B2 (en) 2015-12-15 2018-09-04 Intel Corporation Generation of synthetic 3-dimensional object images for recognition systems
US20170278308A1 (en) 2016-03-23 2017-09-28 Intel Corporation Image modification and enhancement using 3-dimensional object model based recognition
US10580140B2 (en) * 2016-05-23 2020-03-03 Intel Corporation Method and system of real-time image segmentation for image processing
US10289925B2 (en) * 2016-11-29 2019-05-14 Sap Se Object classification in image data using machine learning models

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1703470B1 (en) * 2005-01-08 2009-09-09 Samsung Electronics Co., Ltd. Depth image-based modeling method and apparatus
US20110002531A1 (en) * 2009-07-01 2011-01-06 Honda Motor Co., Ltd. Object Recognition with 3D Models
CN102194105A (zh) * 2010-03-19 2011-09-21 微软公司 用于人体跟踪的代表训练数据
CN103886315A (zh) * 2012-12-21 2014-06-25 本田技研工业株式会社 应用于行人姿势分类的3d人体模型
CN103886757A (zh) * 2012-12-21 2014-06-25 业纳遥控设备有限公司 用于自动分类运动中的车辆的方法
US20150043806A1 (en) * 2013-08-08 2015-02-12 Adobe Systems Incorporated Automatic geometry and lighting inference for realistic image editing
CN104504671A (zh) * 2014-12-12 2015-04-08 浙江大学 一种用于立体显示的虚实融合图像生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NICHOLAS WALCZAK ET AL: "Locating Occupants in Preschool Classrooms Using a Multiple RGB-D Sensor System", 《 2013 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》 *
席小霞等: "基于RGB-D值的三维图像重建系统研究", 《测试技术学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113424230A (zh) * 2018-12-19 2021-09-21 安尼派恩有限公司 生成动画序列的方法、系统以及非瞬时计算机可读存储介质
CN113424230B (zh) * 2018-12-19 2024-03-05 安尼派恩有限公司 生成动画序列的方法、系统以及非瞬时计算机可读存储介质
CN112825127A (zh) * 2019-11-20 2021-05-21 百度(美国)有限责任公司 生成用于自动驾驶标记的紧密2d边界框的新方法
CN112825127B (zh) * 2019-11-20 2023-12-05 百度(美国)有限责任公司 生成用于自动驾驶标记的紧密2d边界框的方法

Also Published As

Publication number Publication date
US11574453B2 (en) 2023-02-07
US20170169620A1 (en) 2017-06-15
US20210056768A1 (en) 2021-02-25
US20180357834A1 (en) 2018-12-13
US20230186584A1 (en) 2023-06-15
US10068385B2 (en) 2018-09-04
WO2017105724A1 (en) 2017-06-22
US10769862B2 (en) 2020-09-08

Similar Documents

Publication Publication Date Title
CN108292358A (zh) 用于识别系统的合成三维对象图像的生成
CN108701352A (zh) 使用基于三维对象模型的识别的图像修改与增强
CN110310175B (zh) 用于移动增强现实的系统和方法
CN110533707B (zh) 照明估计
CN108537859A (zh) 使用深度学习的图像蒙板
CN109891466A (zh) 3d模型的增强扫描
CN114972617B (zh) 一种基于可导渲染的场景光照与反射建模方法
CN109906600A (zh) 模拟景深
KR20200136723A (ko) 가상 도시 모델을 이용하여 객체 인식을 위한 학습 데이터 생성 방법 및 장치
Li et al. Openrooms: An end-to-end open framework for photorealistic indoor scene datasets
CN111161388B (zh) 零售商品货架图像的生成方法、系统、设备和存储介质
Van Nguyen et al. Reconstruction of 3D digital heritage objects for VR and AR applications
Yu et al. Hierarchical disentangled representation learning for outdoor illumination estimation and editing
JP7457211B2 (ja) サードパーティ資産を用いて拡張現実体験を促進するためのコンピューティングプラットフォーム
Jiang et al. Configurable, photorealistic image rendering and ground truth synthesis by sampling stochastic grammars representing indoor scenes
JP2021086462A (ja) データ生成方法、データ生成装置、モデル生成方法、モデル生成装置及びプログラム
US11366981B1 (en) Data augmentation for local feature detector and descriptor learning using appearance transform
Ancona et al. Extending a mobile device with low-cost 3d modeling and building-scale mapping capabilities, for application in architecture and archaeology
Hempe et al. A semantics-based, active render framework to realize complex eRobotics applications with realistic virtual testing environments
Magrini et al. Marine virtual environment to access underwater cultural heritage
US20230154145A1 (en) Guided domain randomization via differentiable dataset rendering
Bornstein et al. New Dimensions in Conservation Imaging: Combining Photogrammetry and Photometric Stereo for 3D Documentation of Heritage Artefacts
JP7111309B2 (ja) 情報処理装置、学習装置、認識装置、静止画の生産方法、およびプログラム
US20240127457A1 (en) Layout-aware background generating system and method
WO2023126817A1 (en) System and method for 3d computer vision assisted retail product synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221021

Address after: Irish Dublin

Applicant after: Taihao Research Co.,Ltd.

Address before: California, USA

Applicant before: INTEL Corp.

TA01 Transfer of patent application right