CN108292358A

CN108292358A - 用于识别系统的合成三维对象图像的生成

Info

Publication number: CN108292358A
Application number: CN201680066761.4A
Authority: CN
Inventors: A·布雷韦斯; C·帕兹; O·利维; I·本-阿里; Y·柳井
Original assignee: Intel Corp
Current assignee: Taihao Research Co ltd
Priority date: 2015-12-15
Filing date: 2016-11-15
Publication date: 2018-07-17
Also published as: US11574453B2; US20170169620A1; US20210056768A1; US20180357834A1; US20230186584A1; US10068385B2; WO2017105724A1; US10769862B2

Abstract

提供了用于生成用于训练识别系统的合成三维对象图像变化的技术。示例系统可包括图像合成电路，该图像合成电路被配置成基于3D模型合成对象的3D图像(包括色彩和深度图像对)；系统还包括背景场景生成电路，该背景场景生成电路被配置成为经渲染图像变体中的每一个生成背景。系统可进一步包括图像姿势调整电路，该图像姿势调整电路被配置成针对变体中的每一个调整对象的定向和平移。系统可进一步包括照度和视觉效果调整电路，该照度和视觉效果调整电路被配置成针对变体中的每一个调整对象和背景的照度，并且进一步基于模拟相机参数的应用来针对变体中的每一个调整对象和背景的视觉效果。

Description

用于识别系统的合成三维对象图像的生成

发明人：

Amit Bleiweiss

Chen Paz

Ofir Levy

Itamar Ben-Ari

Yaron Yanai

背景技术

机器学习系统典型地需要提供相对广泛的图像变体以便稳健地支持计算机基于视觉应用的大型图像数据库。一些现存商业数据库具有以分层格式布置的数千万个图像，其中每个对象由数千个图像来描绘。常常会花费数年来捕捉和标记所有必要图像来包含在此类数据库中。此外，通常需要许多人的努力来检查和维护数据库。这种方法是低效、成本高、且不易缩放的。例如，在对象识别系统中，将新对象添加到所识别对象列表中将需要从多个相机定向捕捉此对象在不同的对象姿势、不同的照明环境和变化的场景背景(仅例举图像描绘变量的几个)下的图像。一些现有系统依靠手动捕捉技术来获得所需的相对大量的数据。其他系统采用网络爬虫软件来搜索因特网，并以自组织(adhoc)方式聚集图像数据——无论是从哪里可找到图像数据。然而，给定所需的图像数据库的大小，任一种方法都不能令人满意。

附图说明

本专利或申请文件包含至少一个彩色绘制的附图。经请求并且支付必要费用后，专利局将提供具有一个或多个彩色附图的本专利或专利申请公开的副本。

随着以下详细描述继续进行，并且参考附图，所要求保护的主题的实施例的特征和优点将变得明显，在附图中，相似附图标记描绘相似部件，并且其中：

图1是根据本文所公开的实施例中的某一实施例的用于渲染3D对象图像变体的系统的顶层框图。

图2是根据本文所公开的实施例中的某一实施例配置的合成3D图像变体渲染模块的更详细框图。

图3A例示出根据本文所公开的实施例中的某一实施例的对象图像的示例经渲染变体。

图3B例示出根据本文所公开的实施例中的某一实施例的对象图像的经渲染变体的附加示例。

图4例示出根据本文所公开的实施例中的某一实施例的具有相似形状和色彩特性但具有不同深度的对象的示例。

图5A是例示出根据本公开的实施例中的某一实施例的用于生成3D对象图像变体的方法的流程图。

图5B是根据示例实施例的图示地例示出图5A所描绘的方法的框图。

图6是示意性地例示出根据本文所公开的实施例中的某一实施例配置的用于渲染3D对象图像变体的系统平台的框图。

虽然下列具体实施方式将参考示例性实施例来进行，但是，示例性实施例的许多替代方案、修改以及变型对本领域的技术人员而言将是显而易见的。

具体实施方式

一般来说，本公开提供用于基于对象的三维(3D)模型来渲染该3D对象图像的多个变体的技术。每个经渲染的3D图像包括一对二维(2D)图像：其中的一个提供色彩图像，其中每个像素可具有标准红-绿-蓝(RGB)值；而另一个提供深度图像，其中每个像素将深度编码成灰度值。3D图像在本文中可被称为RGB-D图像，以强调它们是由一对色彩图像和深度图像来表示的。所生成的合成3D图像随后可被用作机器学习系统的输入，该机器学习系统进而输出用于现实世界对象识别的分类器。任意期望数目的渲染可被合成并在随后被机器学习系统采用，例如用以生成、训练或测试对象识别分类器。本技术包括针对每次渲染，对不同背景场景的生成、对对象姿势的调整、以及对照度和其他视觉效果的应用，以提供自动建立对象的图像渲染的数据库的高效方法，而没有与手动捕捉相关联的典型开销。此类数据库可因此包含适合构建可支持计算机基于视觉应用以及其他此类图像处理应用的稳健分类器的相对广泛样本变体。

与捕捉现实世界图像的现有手动或半手动方法相比，本文所描述的用于合成图像变体的技术提供大体上增加的效率。在一些实施例中，所描述的技术可被用于自动生成经数百万个变体的3D图像数据(例如，包括色彩和深度)。本技术能以硬件或软件或其组合来实现。

图1是根据本文所公开的实施例中的某一实施例的用于渲染RGB-D对象图像的变体的系统的顶层框图100。该系统被示为包括3D模型生成模块102、合成RGB-D图像变体渲染模块104、渲染数据库106、机器学习/对象识别系统108、分类器110以及分类器测试模块112。

3D模型生成模块102可被配置成生成所感兴趣对象的3D模型。3D模型一般通过数学表示或者通过3D坐标空间中可由诸如多边形之类的几何形状连接的点集合来定义或表示对象的3D表面。在一些实施例中，该模型可由对象的制造商来提供。该模型可由计算机辅助设计(CAD)工具来生成，例如作为设计对象的过程的一部分。替代地，该模型可由配置成扫描对象的物理样本的3D扫描工具来创建。在另一替代方案中，该模型可由设计者使用3D雕刻工具来创建，或者由任何其他已知技术鉴于本公开而创建。

合成3D(RGB-D)图像变体渲染模块104可被配置成基于3D模型合成或渲染对象的任意期望数目的3D图像，其中每次渲染与一个或多个图像参数的变体相关联，如将结合图2在下文更详细描述的那样。合成的3D图像包括色彩数据(RGB)和深度数据，并且可被称为RGB-D图像。

任选渲染数据库106可被配置成存储由合成3D(RGB-D)图像变体渲染模块104产生的经渲染图像变体。在一些实施例中，这些所存储图像渲染的第一子集可被用作用于分类器的生成的训练图像，而该图像渲染的第二子集可被用于测试分类器。

机器学习/对象识别系统108可被配置成基于由合成3D(RGB-D)图像变体渲染模块104提供的任意期望数目的经渲染图像变体来生成对象识别分类器。可鉴于本公开使用任何已知技术在图像变体上训练识别分类器。

所生成的分类器110由此可被配置成在对象随后出现在不同视觉条件下的新图像中并潜在地处于不同对象姿势时识别它。分类器测试模块112(其在一些实施例中可以是机器学习/对象识别系统108的组件)可被配置成使用来自渲染数据库106的任意合适数目的不同图像变体来测试所生成的分类器110。

将理解，例如，物品或对象(或任何数量的此类物品)的制造商或供应商可拥有其库存或目录中的物品中的每一个的3D模型。本文所描述的系统可被用于合成例如每个物品的数千个图像变体，这些图像变体随后可被用于生成识别分类器，该识别分类器能够在制造商的所编录物品中的任一个物品可能随后出现在任意视觉条件下的任何现实世界图像中时识别该物品。

图2是根据本文所公开的实施例中的某一实施例配置的合成3D(RGB-D)图像变体渲染模块的更详细框图200。合成3D(RGB-D)图像变体渲染模块104被示为包括模型纠正电路202、图像合成电路204、背景场景生成器电路206、图像姿势调整电路208、照度和视觉效果调整电路210以及渲染参数变体电路212，这些电路的操作将在下文更详细地进行解释。当然，所例示的模块和电路的次序表示一个可能示例，且其他变体是可能的，例如姿势调整可在背景场景生成之前执行。

作为任选初始化操作，模型纠正电路202可被配置成将对象的3D模型缩放成标准化尺寸并将该模型平移至3D坐标系统的原点。这可期望补偿以下事实：不同3D模型生成技术可产生具有任意尺寸、定向和/或相对于给定坐标系统的位置的模型。纠正可因此确保所有模型都经历类似的缩放并共享公共坐标系统，这可由此助益下文所描述的后续处理模块和电路的实现和性能。

图像合成电路204可被配置成基于对象的3D模型，鉴于本公开使用已知技术来合成该对象的3D(RGB-D)图像对。然后可基于由此电路生成的对象的合成3D图像来渲染相对大数目的3D图像变体。变体的数目可以在数百、数千或更多的范围内。可应用由以下所描述的组件执行的操作的任何组合来创建每个RGB-D渲染变体(即，针对RGB图像和深度图像两者)。

背景场景生成器电路206可被配置成为经渲染图像变体中的每一个生成背景场景。每个经渲染的变体可包括潜在独特的背景场景，虽然也可能按需重新使用背景场景。在一些实施例中,背景场景生成器可从背景场景数据库随机地选择背景场景。在一些实施例中，背景场景可以是如以下图3所例示的位于对象背后的2D平面图像。在一些实施例中，背景场景可以是较复杂的3D构造模型。例如，可以有位于房子内的桌子，其中该桌子是感兴趣对象而房子的地板和墙充当背景场景。

图像姿势调整电路28可被配置成针对经渲染图像变体中的每一个调整对象的姿势(例如，定向和/或平移)。此外，例如在非刚性对象的情形中，图像姿势调整电路可进一步调整对象的区域的姿势，其中区域与该对象中可相对于彼此自由移动的组分或子组分相关联。例如，如果对象是玩具角色人物，则该人物可被旋转和/或平移至图像空间中的任何定向和位置。此外，如果玩具人物旨在是非刚性的(例如，柔性的)，则头、臂和腿的姿势可在每次渲染时变化。如以下所描述的图3B所例示的，可生成包括对象的不同组分或子组分的姿势的所有可能(或实际)排列(premutation)和组合的渲染。

照度和视觉效果调整电路210可被配置成针对经渲染图像变体中的每一个调整对象和/或所生成背景的照度。照度可例如从较亮被调整或变化至较暗，反之亦然，并且在一些实施例中，对象的对比度可变化。作为进一步的示例，图像的一些部分可被遮蔽，而其他部分被高亮，或者可使得对象的一些部分看起来有光泽，而其他部分暗淡无光。作为另一进一步的示例，照明的色彩可变化。

照度和视觉效果调整电路210可进一步被配置成基于模拟相机参数的应用针对经渲染图像变体中的每一个调整对象和/或背景的视觉效果。模拟相机参数可包括例如透镜焦距和透镜孔径。改变透镜焦距会将视野例如从广角效果改变成远距效果。改变透镜孔径可改变图像的景深(即，聚焦图像和背景的深度范围)。

渲染参数变体电路212可被配置成为每次迭代或变体生成用于控制或选择所期望效果的参数。参数可控制例如用于图像的对象和/或背景的姿势调整以及照度和视觉效果。参数的选择可由系统的操作者来确定，或者可基于对象的性质来预先确定。参数的选择还可基于要生成的分类器的类型或者分类器的所期望性能特性来确定。

将进一步理解，本公开的实施例可实现分类器系统的高效缩放以识别新的现实世界对象。例如，被训练成识别不同家居配件的现有分类器可被配置成通过从制造商获得新对象的3D模型并使用上述技术处理该模型来识别新配件。

图3A例示出根据本文所公开的实施例中的某一实施例的对象图像的示例经渲染变体300A。在例示出了3D图像的色彩或RGB分量的各种经渲染图像302、304、306和308中示出对象330。在每个图像中，对象的姿势(例如，其在空间中的位置和定向)是变化的。此外，在经渲染图像中的每一个中，可看见背景320被改变，并且照明也是变化的。图像310和312例示出3D渲染的深度分量的示例变体。深度分量基于每个像素与将产生这些图像的视觉相机的距离来将每个像素编码成灰度值。

图3B例示出根据本文所公开的实施例中的某一实施例的对象图像的示例经渲染变体300B。对象，即非刚性玩具人物，被示为以第一姿势350和第二姿势360被渲染。右臂图像子组分的姿势被示为从位置370变化至位置374。类似地，左臂(以及盾牌)的姿势被示为从位置372变化至位置376。

图4例示出根据本文所公开的实施例中的某一实施例的具有类似形状和色彩特性的对象的示例400。对象402、404和406具有类似形状和着色，这典型地可导致在仅使用色彩数据操作的识别算法下的识别模糊和/或假肯定。然而，可利用这些对象中的每一个的不同维度来通过使用深度信息来解决此类识别模糊。为此，合成3D(RGB-D)图像变体渲染模块104被配置成渲染包括深度帧(例如，310和312)以及色彩数据帧(例如，302、304、306、308)两者的图像。

方法

图5A是例示出根据本公开的实施例的用于生成3D对象图像变体的示例方法500的流程图。如可见的，示例方法500包括多个阶段和子过程，这多个阶段和子过程的顺序可从一个实施例到另一实施例而不同。然而，当作为总体考虑时，这些阶段和子过程形成根据本文所公开的实施例中的某一实施例的用于3D对象图像变体的生成的过程。这些实施例可例如通过使用如上述的图1和2中所例示的系统架构来实现。然而，在其他实施例中可使用其他系统架构，如鉴于本公开而将显而易见的。为此，图5A中所示的各功能与图1和2中所例示的特定组分的相关性并不旨在暗示任何结构和/或使用限制。相反，其他实施例可包括例如不同程度的集成，其中多个功能由一个系统有效地执行。例如，在替代实施例中，单个模块可被用于执行方法500的所有功能。因此其他实施例可具有较少或较多的模块和/或子模块，这取决于实现的粒度。大量变体和替代配置鉴于本公开而将显而易见。

如图5A中所例示的，在一个实施例中，用于3D对象图像变体的生成的方法500通过在操作510处接收对象的3D模型而开始。该模型可由计算机辅助设计(CAD)工具、3D扫描工具、3D雕刻工具或通过其他合适的技术来生成。接下来，在操作520处，基于该模型来合成对象的RGB-D图像对。在操作530处，基于对象的合成RGB-D图像对来渲染多个RGB图像对变体。变体的数目可以在数百、数千、数百万或更多的范围内。后续操作的任何组合可针对每次渲染变体来执行。

在操作540中，生成背景场景。在一些实施例中，背景场景是从所存储的2D背景场景的数据库随机选择的。在一些实施例中，生成3D背景场景。在操作550处，调整或改变对象的姿势(例如，定向和/或平移)。在操作560处，将对象的照度例如从较亮调整或改变成较暗，反之亦然。在一些实施例中，还可改变对象的对比度。

在操作570处，可通过应用模拟相机参数(诸如例如，透镜焦距和透镜孔径)来改变与对象和/或背景有关的其他视觉效果。改变透镜焦距会将视场例如从广角效果改变成远距效果。改变透镜孔径会改变图像的景深(即，聚焦图像的深度范围)。

当然，在一些实施例中，可执行附加操作，如先前结合系统所描述的。这些附加操作可包括例如在非刚性对象的情形中调整对象的多个区域的定向和平移，其中各区域与该对象中可相对于彼此移动的子组分相对应。进一步的附加操作可包括纠正对象的所述3D模型以将模型缩放至标准化尺寸以及将模型平移至3D坐标系统的原点。此外，在一些实施例中，在操作580处，可将经渲染RGB-D图像对变体提供至机器学习系统以生成对象识别分类器或者以测试分类器。

图5B是根据示例实施例的图示地例示出图5A所描绘的方法的框图。如在上文中的操作510中所描述的，示例对象590的3D模型被示为被提供至合成3D(RGB-D)图像变体渲染模块104。在一些实施例中，如上文的操作550、560和570中所描述的，例如可由模块104通过改变背景、改变照明、改变建模对象定向和/或改变模拟相机参数(诸如景深和视场角度)来渲染不同的3D场景。对象的多个经渲染图像592被示出。虽然为简单起见示出了6个示例，但实际上可生成大量渲染，或许有数千至数百万数量级的渲染。如上文的操作580中所描述的，这些经渲染图像592可被存储于数据库中和/或被直接提供至机器学习系统108。

机器学习系统108可被配置成例如基于使用经渲染图像592或其子集进行训练来生成用于建模对象590的识别分类器110。所生成分类器110随后可被用于识别各种现实世界图像或设置中的对象590的实例。在一些实施例中，合成3D(RGB-D)图像变体渲染模块104和/或机器学习系统108可被主存在本地系统上或基于云的系统上。例如用户可将3D CAD模型上传至执行渲染和/或分类器训练的基于云的系统。

示例系统

图6例示出如本文所描述的可基于对象的3D模型来执行对3D对象图像变体的渲染以提供至配置成生成识别分类器的机器学习系统的示例系统600。在一些实施例中，系统600包括平台610，平台610可主存或以其他方式被并入个人计算机、工作站、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、机器人或无人机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如，智能电话或智能平板)、移动因特网设备(MID)等等。不同设备的任何组合可被用于某些实施例。例如，分类器训练(其是用于创建新分类器的离线过程)可典型地在更加计算能力强大的平台(诸如台式计算机、工作站或基于云的计算机)上执行。识别(其是用于实时识别对象的在线过程)一般可由较广泛的设备类型来执行。

在一些实施例中，平台610可包括处理器620、存储器630、合成3D(RGB-D)图像变体渲染系统104、机器学习/对象识别系统108、2D或3D照相机或扫描工具690、网络接口640、输入/输出(I/O)系统650、显示元件660和存储系统670的任何组合。如进一步可见的，还提供总线和/或互连692以允许以上所列各组件和/或未示出的其他组件之间的通信。平台610可通过网络接口640耦合至网络694以允许与其他计算设备、平台或资源通信。未在图6的框图中反映的其他组件和功能鉴于本公开而将显而易见，并且将理解，其他实施例不限于任何特定硬件配置。

处理器620可以是任何合适的处理器，并且可包括一个或多个协处理器或控制器，诸如音频处理器或图形处理单元，以帮助控制和处理与系统600相关联的操作。在一些实施例中，处理器620可被实现为任何数量的处理器核。处理器(或处理器核)可以是任何类型的处理器或处理器的组合，该处理器诸如例如微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列或被配置成执行代码的其他设备。处理器可以是多线程核，因为它们可每个核地包括多于一个的硬件线程上下文(或“逻辑处理器”)。处理器620可被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中，处理器620可被配置为x86指令集兼容处理器。

存储器630可通过使用任何合适类型的数字存储(包括例如，闪存和/或随机存取存储器(RAM))来实现。在一些实施例中，存储器630可包括本领域技术人员已知的存储器层次结构和/或存储器高速缓存的各个层。存储器630可被实现为易失性存储器设备，诸如但不限于RAM、动态RAM(DRAM)或静态RAM(SRAM)设备。存储系统670可被实现为非易失性存储设备，诸如但不限于一个或多个硬盘驱动器(HDD)、固态驱动器(SSD)、通用串行总线(USB)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附连存储设备、闪存、电池备份的同步DRAM(SDRAM)和/或网络可访问存储设备。在一些实施例中，存储设备670可包括用于例如在包括多个硬盘驱动器时提高对有价值数字媒体的存储性能增强保护的技术。

处理器620可被配置成执行操作系统(OS)680，该操作系统(OS)680可包括任何合适的操作系统，诸如Google Android(加利福尼亚州山景城谷歌公司)、Microsoft Windows(华盛顿州雷德蒙德的微软公司)、Linux或Apple OS X(加利福尼亚州库比蒂诺城苹果公司)和/或各种实时操作系统。如鉴于本公开而将理解的，本文提供的技术可以在无需考虑结合系统600提供的特定操作系统的情况下实现，并且因此还可通过使用任何合适的现有或随后开发的平台来实现。

网络接口模块640可以是任何合适的网络芯片或芯片组，该任何合适的网络芯片或芯片组允许计算机系统600的其他组件和/或网络694之间的有线和/或无线连接，由此使系统600能够与其他本地和/或远程计算系统、服务器和/或资源通信。有线通信可遵循现有(或尚未开发的)标准，诸如例如以太网。无线通信可符合现有(或尚未开发的)标准，诸如例如包括LTE(长期演进)、无线保真(Wi-Fi)、蓝牙和/或近场通信(NFC)的蜂窝通信。示例无线网络包括但不限于无线局域网、无线个域网、无线城域网、蜂窝网络和卫星网络。

I/O系统650可被配置成在各种I/O设备与计算机系统600的其他组件之间进行接口。I/O设备可包括但不限于显示元件660、相机或扫描工具690以及未示出的其他设备，诸如键盘、鼠标、扬声器、麦克风等。

I/O系统650可包括配置成执行对显示元件660的图像的处理的图形子系统。图形子系统可以是例如图形处理单元或视觉处理单元(VPU)。模拟或数字接口可被用于通信地耦合图形子系统和显示元件660。例如，接口可以是高清晰度多媒体接口(HDMI)、显示端口、无线HDMI和/或使用无线高清晰度兼容技术中的任何其他合适接口。在一些实施例中，图形子系统可被集成在平台610的处理器620或任何芯片组中。在一些实施例中，显示元件660可包括任何电视类型监视器或显示器，包括液晶显示器(LCD)和发光二极管显示器(LED)。显示元件660可包括例如计算机显示屏、触摸屏显示器、视频监视器、电视机类设备和/或电视机。显示元件660可以是数字和/或模拟的。在OS 680(或一个或多个软件应用)的控制下，平台610可在显示元件660上显示经处理图像。图像可由相机/扫描工具690或其他源提供，并且可由合成3D(RGB-D)图像变体渲染系统104处理，如本文所描述的。相机690可被配置成提供对象(可从该对象生成对象的3D模型)的2D或3D图像或扫描。

将会理解的是，在一些实施例中，系统100的各个部件可组合或集成在片上系统(SoC)架构中。在一些实施例中，部件可以是硬件部件、固件部件、软件部件或者硬件、固件或软件的任何合适的组合。

合成3D(RGB-D)图像变体渲染系统104被配置成从对象的3D模型生成合成三维对象图像变体。这些经渲染图像变体随后被用于例如通过机器学习/对象识别系统108来训练识别系统或分类器。合成3D(RGB-D)图像变体渲染系统104可包括图2所例示的以及以上所描述的组件中的任一个或全部。合成3D(RGB-D)图像变体渲染系统104可结合耦合至系统600或以其他方式形成系统600的一部分的各种合适软件和/或硬件来实现或以其他方式使用。合成3D(RGB-D)图像变体渲染系统104可附加地或替代地结合用户I/O设备来实现或以其他方式使用，该用户I/O设备能够将信息提供至用户或者从用户接收信息和命令。这些I/O设备可包括显示元件660、文本输入设备(诸如键盘)以及基于指针的输入设备(诸如鼠标)。可在其他实施例中使用的其他输入/或输出设备包括触摸屏、触摸板、扬声器和/或麦克风。可在其他实施例中使用另外其他输入/输出设备。

在一些实施例中，合成3D(RGB-D)图像变体渲染系统104可被本地安装到系统600，如在图6的示例实施例中示出的。替代地，系统600可用客户端-服务器布置(或基于本地和云的布置)来实现，其中与合成3D(RGB-D)图像变体渲染系统104相关联的至少一些功能通过使用小程序(诸如JavaScript小程序)或其他可下载模块来提供至系统600。此类远程可访问模块或子模块可响应于来自客户端计算系统对访问具有为客户端计算系统的用户所感兴趣的资源的给定服务器的请求而被实时供应。在此类实施例中，服务器可位于网络694本地或通过一个或多个其他网络和/或通信通道被远程耦合至网络694。在一些情形中，对给定网络或计算系统上的资源的访问可能需要证书，诸如用户名、口令和/或与任何其他合适的安全机制兼容。

在各种实施例中，可将系统600实现为无线系统、有线系统或无线和有线系统两者的组合。当被实现为无线系统时，系统600可包括适合于通过无线共享介质进行通信的组件和接口，该组件和接口诸如，一个或多个天线、发射机、接收机、收发机、放大器、过滤器、控制逻辑等。无线共享介质的示例可包括无线频谱的多个部分，诸如，射频频谱等。当实现为有线系统时，系统600可以包括适用于通过有线通信介质进行通信的组件和接口，诸如输入/输出适配器、将输入/输出适配器与相应的有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等等。有线通信介质的示例可包括线、电缆、金属引线、印刷电路板(PCB)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。

可使用硬件元件、软件元件或软硬件元件的组合来实现各实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、感应器等等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号，或其任何组合。确定是否使用硬件元件和/或软件元件来实现实施例可根据任何数量的因素而变化，这些因素诸如所期望的计算速率、功率电平、热容限、处理循环预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。

可以用表述“耦合”和“连接”及其派生词对一些实施例进行描述。这些术语不旨在互为同义词。例如，可以用术语“连接”和/或“耦合”对一些实施例进行描述，以表示两个或更多个元件彼此直接物理或电接触。然而，术语“耦合”也可以指两个或更多个元件彼此并非直接接触，但是仍然彼此协作或交互。

本文所公开的各实施例可以以各种形式的硬件、软件、固件和/或专用处理器来实现。例如，在一个实施例中，至少一个非瞬态计算机可读存储介质具有在其上编码的指令，指令在由一个或多个处理器执行时使在本文所公开的用于生成3D对象图像变体的一个或多个方法被实现。指令可通过使用合适的编程语言(诸如C、C++、面向对象的C，JavaScript、Visual Basic.NET、初学者通用符号指令代码(BASIC))进行编码，或者替代地使用定制或专有指令集来编码。指令可以以一种或多种计算机软件应用和/或小程序的形式提供，这些计算机软件应用和/或小程序在存储器设备上被有形地具体化，并且可以由具有任何合适架构的计算机来执行。在一个实施例中，系统可被主存在给定网站上并且例如通过使用JavaScript或其他合适的基于浏览器的技术来实现。例如，在某些实施例中，合成3D(RGB-D)图像变体渲染系统可通过充分利用由可经由网络694访问的远程计算机系统提供的处理资源来生成图像变体。在其他实施例中，本文公开的功能可被并入其他软件应用，例如图像管理应用。本文所公开的计算机软件应用可包括任何数量的不同模块、子模块或不同功能的其他组件，并且可向另外其他组件提供信息或从该另外其他组件接收信息。这些模块可被用于例如与输入和/或输出设备(诸如显示屏、触敏表面、打印机和/或任何其它合适的设备)通信。没有反映在示例中的其他组件和功能将根据本公开变得明显，并且将理解，其他实施例不限于任何特定的硬件或软件配置。因此在其他实施例中，系统600可包括与图6的示例实施例中包括的子组件相比附加的、更少的或替代的子组件。

前述非瞬态计算机可读介质可以是用于存储数字信息的任何合适的介质，诸如硬盘驱动器、服务器、闪存和/或随机存取存储器(RAM)。在替代实施例中，本文公开的组件和/或模块可通过使用硬件来实现，硬件包括诸如现场可编程门阵列(FPGA)的门级逻辑，或者替代地，诸如专用集成电路(ASIC)之类的专用半导体。还可使用具有用于接收和输出数据的多个输入/输出端口的微控制器以及用于执行本文所公开的各种功能的多个嵌入式例程来实现其他实施例。显而易见的是，可使用硬件、软件和固件的任何合适的组合，并且其他实施例不限于任何特定系统架构。

例如，可使用机器可读介质或者制品来实现一些实施例，这些介质或者制品可存储指令或者指令集，这些指令或指令集在由机器执行时可使该机器根据实施例来执行方法和/或操作。此类机器可包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等，并可使用硬件和/或软件的任何合适组合来实现。机器可读介质或制品可包括例如任何合适类型的存储器单元、存储器设备、存储器制品、存储器介质、存储设备、存储制品、存储介质和/或存储单元，诸如存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、紧凑盘只读存储器(CD-ROM)、紧凑盘可记录(CD-R)存储器、紧凑盘可重写(CD-RW)存储器、光盘、磁性介质、磁光介质、可移除存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、盒式磁带等等。指令可包括任何合适类型的代码，例如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密的代码等，它们使用任何合适的高级、低级、面向对象的、可视的、编译的和/或解释的编程语言来实现。

除非特别声明，应该领会，诸如“处理”、“计算”、“运算”、“确定”之类的术语表示计算机或计算系统或者类似电子计算设备的动作和/或过程，其将计算系统的寄存器和/或存储器内被表示为物理量(例如，电子学的)的数据处理和/或转换为在计算系统的存储器、寄存器或其它这类信息存储、传输或显示器内被类似表示为物理量的其它数据。实施例不限于此上下文。

如本文任何实施例中所使用的那样，术语“电路(circuit)”或“电路系统(circuitry)”可单独或以任何组合方式包括诸如：硬连线电路；可编程电路，诸如包括一个或更多单独指令处理核的计算机处理器；状态机电路；和/或存储由可编程电路执行的指令的固件。电路可包括配置成执行一个或多个指令以执行本文所描述的一个或多个操作的处理器和/或控制器。指令可被具体化为例如被配置为使电路执行任何前述操作的应用、软件、固件等。软件可被具体化为记录在计算机可读存储设备上的软件包、代码、指令，指令集和/或数据。软件可被具体化或实现为包括任何数量的进程，并且进程进而可被具体化或实现为以分层方式包括任何数量的线程等。固件可以实现如硬编码(例如，非易失性)在存储器设备中的代码、指令或指令集和/或数据。电路可以总体地或个别地被体现为形成较大系统的一部分的电路，例如，集成电路(IC)、专用集成电路(ASIC)、片上系统(SoC)、台式计算机、膝上型计算机、平板计算机、服务器、智能电话、等等。其他实施例可被实现为由可编程控制设备执行的软件。如本文所述，各实施例可利用硬件要素、软件要素或其任何组合实现。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等。

在此已经阐明了许多具体的细节，以便对这些实施例有透彻的理解。然而，本领域技术人员可理解，可在没有这些具体细节的情况下实施这些实施例。在其它实例中，并未对公知方法、程序、组件以及电路进行详细描述以免使本发明不清楚。可以理解的是，本文中公开的具体结构和功能细节可以代表但不一定限制实施例的范围。此外，尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中限定的主题不必限于本文所描述的具体特征或动作。相反，本文所描述的具体特征和动作是作为实现权利要求的示例形式公开的。

其他示例实施例

以下示例涉及进一步的实施例，大量的排列和配置将根据这些实施例变得显而易见。

示例1是用于生成三维(3D)对象图像变体的方法。方法包括接收对象的3D模型并基于3D模型合成对象的色彩和深度(RGB-D)图像对。方法还包括基于对象的合成RGB-D图像对渲染对象的多个RGB-D图像对变体。渲染包括针对变体中的每一个进行以下各项中的至少一者：生成背景场景；调整对象的定向和平移；调整对象和背景场景的照度；以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。方法进一步包括将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。

示例2包括示例1的主题，进一步包括，针对非刚性对象，调整对象的多个区域中的每个区域的定向和平移，其中区域与对象的子组分相关联。

示例3包括示例1和2的主题，进一步包括纠正对象的3D模型以将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点。

示例4包括示例1-3的主题，背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。

示例5包括示例1-4的主题，其中背景场景生成进一步包括生成3D背景场景。

示例6包括示例1-5的主题，其中模拟相机参数包括透镜焦距和透镜孔径。

示例7包括示例1-6的主题，进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具生成对象的3D模型。

示例8包括示例1-7的主题，其中渲染包括以下各项中的每一者：生成背景场景；调整对象的定向和平移；调整对象和背景场景的照度；以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。

示例9包括示例1-8的主题，进一步包括将经渲染RGB-D图像对变体的第二子集提供至机器学习系统以测试对象识别分类器。

示例10是用于渲染三维(3D)对象图像变体的系统。该系统包括：图像合成电路，图像合成电路用于基于对象的3D模型合成对象的色彩和深度(RGB-D)图像对；系统还包括以下中的至少一者：背景场景生成器电路，背景场景生成器电路用于为经渲染图像变体生成背景场景；图像姿势调整电路，图像姿势调整电路用于针对经渲染图像变体中的每一个调整对象的定向和平移；以及照度和视觉效果调整电路，照度和视觉效果调整电路用于针对经渲染图像变体中的每一个调整对象和背景场景的照度，并且进一步用于基于模拟相机参数的应用针对经渲染图像变体中的每一个调整对象和背景场景的视觉效果。系统进一步包括渲染参数变体电路，渲染参数变体电路用于为每次变体迭代生成参数，这些参数用于控制姿势调整或者照度和视觉效果；以及机器学习系统，机器学习系统用于基于经渲染图像变体的至少第一子集生成对象识别分类器。

示例11包括示例10的主题，其中图像姿势调整电路进一步用于针对非刚性对象，调整对象的多个区域中的每个区域的定向和平移，其中区域与对象的子组分相关联。

示例12包括示例10或11的主题，进一步包括用于将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点的模型纠正电路。

示例13包括示例10-12的主题，背景场景生成器电路进一步用于从背景场景的数据库随机选择二维(2D)背景场景。

示例14包括示例10-13的主题，其中模拟相机参数包括透镜焦距和透镜孔径。

示例15包括示例10-14的主题，进一步包括3D模型生成模块，该3D模型生成模块用于基于计算机辅助设计(CAD)工具或3D扫描工具来生成对象的3D模型。

示例16包括示例10-15的主题，其中系统包括以下各项中的每一个：背景场景生成器电路；图像姿势调整电路；照度和视觉效果调整电路。

示例17包括示例10-16的主题，其中机器学习系统进一步用于基于经渲染图像变体的第二子集来测试对象识别分类器。

示例18包括示例10-17的主题，进一步包括用于存储经渲染图像变体的数据库。

示例19是具有在其上编码的指令的至少一种非瞬态计算机可读存储介质，指令在由一个或多个处理器执行时，导致用于生成三维(3D)对象图像变体的以下操作。操作包括：接收对象的3D模型并基于3D模型合成对象的色彩和深度(RGB-D)图像对。该操作还包括基于对象的合成RGB-D图像对来渲染对象的多个RGB-D图像对变体。渲染包括针对变体中的每一个进行以下各项中的至少一者：生成背景场景；调整对象的定向和平移；调整对象和背景场景的照度；以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。操作进一步包括将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。

示例20包括示例19的主题，进一步包括针对非刚性对象，调整对象的多个区域中的每个区域的定向和平移，其中这些区域与对象的子组分相关联。

示例21包括示例19和20的主题，进一步包括纠正对象的3D模型以将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点。

示例22包括示例19-21的主题，背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。

示例23包括示例19-22的主题，其中背景场景生成进一步包括生成3D背景场景。

示例24包括示例19-23的主题，其中模拟相机参数包括透镜焦距和透镜孔径。

示例25包括示例19-24的主题，进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具生成对象的3D模型。

示例26包括示例19-25的主题，其中渲染包括以下各项中的每一者：生成背景场景；调整对象的定向和平移；调整对象和背景场景的照度；以及基于模拟相机参数的应用调整对象和背景场景的视觉效果。

示例27包括示例19-26的主题，进一步包括将经渲染RGB-D图像对变体的第二子集提供至机器学习系统以测试对象识别分类器。

示例28是用于生成三维(3D)对象图像变体的系统。该系统包括：用于接收对象的3D模型的装置以及用于基于3D模型合成对象的色彩和深度(RGB-D)图像对的装置。该系统还包括用于基于对象的合成RGB-D图像对来渲染对象的多个RGB-D图像对变体的装置。用于渲染的装置包括针对变体中的每一个的以下各项中的至少一者：用于生成背景场景的装置；用于调整对象的定向和平移的装置；用于调整对象和背景场景的照度的装置；以及用于基于模拟相机参数的应用调整对象和背景场景的视觉效果的装置。系统进一步包括用于将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器的装置。

示例29包括示例28的主题，进一步包括，对于非刚性对象，用于调整对象的多个区域中的每个区域的定向和平移的装置，其中区域与对象的子组分相关联。

示例30包括示例28和29的主题，进一步包括用于纠正对象的3D模型以将模型缩放至标准化尺寸并将模型平移至3D坐标系统的原点的装置。

示例31包括示例28-30的主题，背景场景生成进一步包括用于从背景场景的数据库随机选择二维(2D)背景场景的装置。

示例32包括示例28-31的主题，其中背景场景生成进一步包括用于生成3D背景场景的装置。

示例33包括示例28-32的主题，其中模拟相机参数包括透镜焦距和透镜孔径。

示例34包括示例28-33的主题，进一步包括用于通过采用计算机辅助设计(CAD)工具或3D扫描工具生成对象的3D模型的装置。

示例35包括示例28-34的主题，其中用于渲染的装置包括以下各项中的每一者：用于生成背景场景的装置；用于调整对象的定向和平移的装置；用于调整对象和背景场景的照度的装置；以及用于基于模拟相机参数的应用调整对象和背景场景的视觉效果的装置。

示例36包括示例28-35的主题，进一步包括用于将经渲染RGB-D图像对变体的第二子集提供至机器学习系统以测试对象识别分类器的装置。

本文所使用的术语和表达被用作描述性而非限制性的术语，在使用此类术语和表达时，不旨在排除所示出的和所描述的特征(或其某些部分)的任何等效内容，应当认识到，在权利要求书的范围之内，各种修改都是可能的。相应地，权利要求书旨在涵盖所有此类等效内容。本文描述了各种特征、方面和实施例。如本领域技术人员将理解的，各个特征、方面和实施例易于彼此组合及进行变化和修改。本公开应该因此被认为包含此类组合、变化和修改。本公开的范围不是由该详细说明书限制而是由所附权利要求限定。将来提出的要求本申请优先权的申请可以以不同的方式要求所公开的主题，并且通常可包括如在此多方面地公开或以其他方式展示的一个或多个限制的任意集合。

Claims

1.一种用于生成三维(3D)对象图像变体的处理器实现的方法，所述方法包括：

由处理器接收对象的3D模型；

由所述处理器基于所述3D模型合成所述对象的色彩和深度(RGB-D)图像对；

由所述处理器基于所述对象的合成RGB-D图像对来渲染所述对象的多个RGB-D图像对变体，所述渲染包括针对所述变体中的每一个变体进行以下各项中的至少一者：

由所述处理器生成背景场景；

由所述处理器调整所述对象的定向和平移；

由所述处理器调整所述对象和所述背景场景的照度；以及

由所述处理器基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果；以及

由所述处理器将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。

2.如权利要求1所述的方法，其特征在于，进一步包括，针对非刚性对象，调整所述对象的多个区域中的每个区域的定向和平移，其中所述区域与所述对象的子组分相关联。

3.如权利要求1所述的方法，其特征在于，进一步包括纠正所述对象的所述3D模型以将模型缩放至标准化尺寸并将所述模型平移至3D坐标系统的原点。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。

5.如权利要求1-3中任一项所述的方法，其特征在于，所述背景场景生成进一步包括生成3D背景场景。

6.如权利要求1-3中任一项所述的方法，其特征在于，所述模拟相机参数包括透镜焦距和透镜孔径。

7.如权利要求1-3中任一项所述的方法，其特征在于，进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具来生成所述对象的所述3D模型。

8.如权利要求1-3中任一项所述的方法，其特征在于，所述渲染包括以下各项中的每一个：生成背景场景；调整所述对象的定向和平移；调整所述对象和所述背景场景的照度；以及基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果。

9.如权利要求1-3中任一项所述的方法，其特征在于，进一步包括将经渲染RGB-D图像对变体的第二子集提供至所述机器学习系统以测试所述对象识别分类器。

10.一种用于渲染三维(3D)对象图像变体的系统，所述系统包括：

图像合成电路，所述图像合成电路用于基于对象的3D模型合成所述对象的色彩和深度(RGB-D)图像对；

以下各项中的至少一者：

背景场景生成器电路，所述背景场景生成器电路用于为经渲染图像变体中的每一个生成背景场景；

图像姿势调整电路，所述图像姿势调整电路用于针对所述经渲染图像变体中的每一个调整所述对象的定向和平移；以及

照度和视觉效果调整电路，所述照度和视觉效果调整电路用于针对所述经渲染图像变体中的每一个调整所述对象和所述背景场景的照度，以及进一步用于基于模拟相机参数的应用针对所述经渲染图像变体中的每一

个调整所述对象和所述背景场景的视觉效果；

渲染参数变体电路，所述渲染参数变体电路用于为每次变体迭代生成参数，所述参数用于控制姿势调整或者照度和视觉效果；以及

机器学习系统，所述机器学习系统用于基于所述经渲染图像变体的至少第一子集生成对象识别分类器。

11.如权利要求10所述的系统，其特征在于，所述图像姿势调整电路进一步用于针对非刚性对象，调整所述对象的多个区域中的每个区域的定向和平移，其中所述区域与所述对象的子组分相关联。

12.如权利要求10所述的系统，其特征在于，进一步包括模型纠正电路，所述模型纠正电路用于将所述对象的模型缩放至标准化尺寸并将所述模型平移至3D坐标系统的原点。

13.如权利要求10-12中任一项所述的系统，其特征在于，所述背景场景生成器电路进一步用于从背景场景的数据库随机选择二维(2D)背景场景。

14.如权利要求10-12中任一项所述的系统，其特征在于，所述模拟相机参数包括透镜焦距和透镜孔径。

15.如权利要求10-12中任一项所述的系统，其特征在于，进一步包括3D模型生成模块，所述3D模型生成模块用于基于计算机辅助设计(CAD)工具或3D扫描工具来生成所述对象的所述3D模型。

16.如权利要求10-12中任一项所述的系统，其特征在于，所述系统包括以下各项中的每一者：所述背景场景生成器电路；所述图像姿势调整电路；以及所述照度和视觉效果调整电路。

17.如权利要求10-12中任一项所述的系统，其特征在于，所述机器学习系统进一步用于基于所述经渲染图像变体的第二子集来测试所述对象识别分类器。

18.如权利要求10-12中任一项所述的系统，其特征在于，进一步包括用于存储所述经渲染图像变体的数据库。

19.具有在其上编码的指令的至少一种非瞬态计算机可读存储介质，所述指令在由一个或多个处理器执行时，导致用于生成三维(3D)对象图像变体的以下操作，所述操作包括：

接收对象的3D模型；

基于所述3D模型合成所述对象的色彩和深度(RGB-D)图像对；

基于所述对象的合成RGB-D图像对来渲染所述对象的多个RGB-D图像对变体，所述渲染包括针对所述变体中的每个变体进行以下各项中的至少一者：

生成背景场景；

调整所述对象的定向和平移；

调整所述对象和所述背景场景的照度；以及

基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果；以及

将经渲染RGB-D图像对变体的至少第一子集提供至机器学习系统以生成对象识别分类器。

20.如权利要求19所述的计算机可读存储介质，其特征在于，进一步包括，针对非刚性对象，调整所述对象的多个区域中的每个区域的定向和平移，其中所述区域与所述对象的子组分相关联。

21.如权利要求19所述的计算机可读存储介质，其特征在于，进一步包括纠正所述对象的所述3D模型以将所述模型缩放至标准化尺寸并将所述模型平移至3D坐标系统的原点。

22.如权利要求19-21中任一项所述的计算机可读存储介质，其特征在于，所述背景场景生成进一步包括从背景场景的数据库随机选择二维(2D)背景场景。

23.如权利要求19-21中任一项所述的计算机可读存储介质，其特征在于，所述背景场景生成进一步包括生成3D背景场景。

24.如权利要求19-21中任一项所述的计算机可读存储介质，其特征在于，所述模拟相机参数包括透镜焦距和透镜孔径。

25.如权利要求19-21中任一项所述的计算机可读存储介质，其特征在于，进一步包括通过采用计算机辅助设计(CAD)工具或3D扫描工具生成所述对象的所述3D模型。

26.如权利要求19-21中任一项所述的计算机可读存储介质，其特征在于，所述渲染包括以下各项中的每一个：生成背景场景；调整所述对象的定向和平移；调整所述对象和所述背景场景的照度；以及基于模拟相机参数的应用来调整所述对象和所述背景场景的视觉效果。

27.如权利要求19-21中任一项所述的计算机可读存储介质，其特征在于，进一步包括将所述经渲染RGB-D图像对变体的第二子集提供至所述机器学习系统以测试所述对象识别分类器。