CN112236778B - 使用cad模型作为先验的从图像中的对象识别 - Google Patents
使用cad模型作为先验的从图像中的对象识别 Download PDFInfo
- Publication number
- CN112236778B CN112236778B CN201880094291.1A CN201880094291A CN112236778B CN 112236778 B CN112236778 B CN 112236778B CN 201880094291 A CN201880094291 A CN 201880094291A CN 112236778 B CN112236778 B CN 112236778B
- Authority
- CN
- China
- Prior art keywords
- image
- normal map
- clutter
- unit
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 53
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 abstract description 2
- 238000011960 computer-aided design Methods 0.000 description 32
- 210000002569 neuron Anatomy 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 241000282326 Felis catus Species 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 241000219357 Cactaceae Species 0.000 description 6
- 238000005286 illumination Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种如何从杂乱图像中恢复对象的方法。本发明还涉及一种包括指令的计算机程序产品和计算机可读存储介质,当所述程序由计算机执行时,所述指令使得计算机执行所提及方法的步骤。进一步地,本发明涉及如何训练识别系统的组件以用于从这样的杂乱图像中恢复对象的方法。此外,本发明涉及这样的识别系统。
Description
本发明涉及一种如何从杂乱图像中恢复对象的方法。本发明还涉及一种计算机程序产品和一种包括指令的计算机可读存储介质,当该程序由计算机执行时,该指令使得计算机执行所提及方法的步骤。进一步地,本发明涉及一种如何训练识别系统的组件以用于从这样的杂乱图像中恢复对象的方法。此外,本发明涉及这样的识别系统。
从(如例如从照片或视频相机获得的)图像的可靠的基于机器的对象识别是一项具有挑战性的任务。已知的识别系统典型地包括诸如相机之类的检测部件,以及计算机实现的方法,通过该计算机实现的方法可以识别对象的性质(换言之,类别或种类)或对象的姿态。例如,识别系统应该能够识别:图像上是否描绘了例如猫、汽车或仙人掌,和/或对象相对于相机的姿态如何。
作为具体的示例,识别系统接收彩色图像作为输入。对象的预定集合(例如猫、汽车和仙人掌)中的一个对象(例如猫)在输入图像中被描绘。该对象被以杂乱的方式描绘,即它是在特定的背景之前、在特定的照明条件下、部分遮挡、有噪声等地被描绘的。识别系统的任务是告知输入图像中实际上描绘的是预定对象中的哪一个(这里是猫)。
识别系统的另一个示例性任务将是评估猫是从前面、后面还是从侧面被示出。另一个示例性任务将是确定在图像中实际上描绘了多少只猫,即使它们彼此部分遮蔽、即遮挡。
由于识别系统在真实生活中应该能够从看不见的杂乱图像中自主地恢复对象,因此它需要预先训练。
用于训练识别系统的传统方法是利用大量真实的、杂乱的图像对它进行训练,所述大量真实的、杂乱的图像描绘了具有例如不同外观和在不同背景之前的猫。这意味着需要提供大量的猫(以及汽车和仙人掌)的标记图像以便训练识别系统。
除了提供大量真实的、标记的训练图像是一项耗时且乏味的任务这一事实之外,这在某些情况下甚至可能是不可能的。例如,在其中需要由识别系统标识机器组件的工业应用中,构建机器组件的大量训练图像将是不可接受的,特别是在机器因为是定制的范本而是唯一的情况下。
为了解决缺少真实训练数据的问题,已经提出纯粹在合成图像上训练识别系统。与真实图像形成对比,合成图像是基于某些输入数据通过模拟获得的。至少在工业应用中广泛可用的输入数据是应当被识别的机器组件计算机辅助设计(CAD)模型。
CAD模型通常仅具有纯粹的语义和几何信息,即它们不包含任何视觉信息。换言之,这样的CAD模型被假定为是无纹理的。纹理信息以及照明和阴影信息将仅包含在渲染处理之后的图像中,该渲染处理被理解为基于2D或3D模型生成包含几何、视点、纹理、照明和阴影信息的图像(或“场景”)的处理。
本发明聚焦于用于生成训练数据的作为输入数据(即,作为先验)的无纹理CAD模型。已知的是,从无纹理CAD模型生成彩色图像。这些彩色图像可以用作识别系统的训练图像。训练图像可以通过使用图形处理单元(GPU)的常规技术获得,所述训练图像是杂乱的彩色图像,其包括在背景之前的要被识别的对象,并且包括照明、阴影、纹理、噪声、遮挡等。识别系统随后在其训练阶段期间使用合成地生成的杂乱彩色图像作为输入图像。因此,识别系统具有从合成的杂乱彩色图像中标识对象的期望特征(例如类别或姿态)的任务。该训练被认为是有监督训练,因为识别系统的结果(例如,在杂乱图像中描绘的是仙人掌而不是汽车的陈述)与真实结果进行比较,真实结果是已知的,因为它表示已经被用于生成杂乱图像的输入CAD模型。在训练阶段期间执行的许多迭代步骤之后,识别系统在确定合成的杂乱图像中所描绘的对象的所需特征方面变得越来越准确。
在识别系统被训练之后,它可以用于标识看不见的、真实的杂乱图像中的性质和/或特征。通常,要在图像中识别的对象需要是识别系统之前在训练阶段期间已经针对其进行训练的对象。取决于识别系统的训练水平,识别系统因此可以被用来或多或少准确地确定看不见的、真实的杂乱彩色图像上的期望特征。
对于依赖于合成数据的计算机视觉方法而言严重且公知的问题是所谓的真实感差距,因为在这些模态上获取的知识通常很难转化为更复杂的真实域,从而导致准确度急剧下降。到目前为止,已经研究了解决该问题的若干种方法。
第一个明显的解决方案是改进合成模型的质量和真实感。若干工作试图推进用于感测设备和环境现象的模拟工具。例如,最先进的深度传感器模拟器工作得相当好,因为削弱深度扫描的机制已经得到了很好的研究,并且可以很好地重现。然而,在颜色数据的情况下,问题不在于传感器模拟,而在于颜色域的实际复杂性和可变性(例如,对照明条件的敏感性、磨损后的纹理改变等)。这使得提出令人满意的映射极度艰难,除非提供精确的、详尽的合成模型(例如通过捕捉真实感的纹理)。然而,对目标类别的合适建模经常是不够的,因为识别方法还将需要关于它们的环境(背景、遮挡物等)的信息应用于真实生活场景。
出于该原因并且在模拟工具的补充中,基于卷积神经网络(CNN)的最近的方法正试图通过直接在图像域中学习从经渲染数据到真实数据的映射来进一步弥合真实感差距。大多数基于无监督条件的生成对抗网络(GAN)(诸如Bousmalis等的:“UnsupervisedPixel—Level Domain Adaption with Generative Adver sarial Networks”,arXiv:1612.05424)或风格转移解决方案,这些方法仍然需要真实样本集合来学习它们的映射。
然而,存在某些情况,其中提供真实样本是不可能的,或者仅在相当大的努力的情况下才有可能。
因此,本发明的目的是提供一种识别系统,该识别系统给定唯一可用的输入是无纹理CAD模型的约束。
该目的通过独立权利要求中公开的概念来实现。在从属权利要求和伴随说明书的附图中描述了有利的实施例和变型。
根据本发明的一个方面,提供了一种借助于人工神经网络从杂乱图像中恢复对象的方法。该方法包括以下步骤:
-借助于经训练的图像生成器从杂乱图像中生成法线贴图,
-借助于经训练的任务特定识别单元从法线贴图中恢复对象,以及
-将结果输出到输出单元。
本文中,图像生成器已经由人工神经网络训练,并且识别单元由人工神经网络训练。
在本专利申请的上下文中,“恢复”对象包括识别(即确定)对象立姿的类别实例、其相对于相机的姿态或者对象的其他属性。
“人工神经网络”(ANN)是一种计算系统,其灵感来源于构成动物大脑的生物神经网络。人工神经网络通过考虑示例来“学习”执行任务,而通常不利用任何任务特定的规则来编程。
ANN基于被称为人工神经元的连接单元或节点的集合,它们松散地对生物大脑中的神经元进行建模。每一个连接、像生物大脑中的突触一样可以将信号从一个人工神经元传输到另一个人工神经元。接收信号的人工神经元可以对其进行处理,并且然后向与之相连的附加人工神经元发信号。
在常见的ANN实现中,在人工神经元之间连接处的信号是实数,并且每个人工神经元的输出通过其输入之和的一些非线性函数来计算。在人工神经元之间的连接被称为“边”。人工神经元和边典型地具有随着学习的进行而调整的权重。权重增加或减少在连接处的信号强度。典型地,人工神经元被聚合成几层。不同的层可以对它们的输入执行不同种类的变换。信号从第一层(输入层)行进到最后一层(输出层),经常穿过在中间的众多隐藏层。
根据本发明的另一方面,被设计用于从合成的法线贴图恢复对象的任务特定识别单元包括人工神经网络,并且根据具有以下步骤的方法来被训练:
-接收合成的法线贴图作为输入,其中合成的法线贴图是从无纹理CAD模型获得的,
-恢复对象作为输出,
-将识别单元的输出与如在法线贴图中表示的对象的相应属性进行比较,
-并且优化识别单元的神经网络,使得其输出与输入的相应属性之间的偏差最小。
本发明的又一个方面涉及图像生成器的训练,该图像生成器被设计用于将杂乱图像转换成法线贴图。训练也是基于ANN的,因为图像生成器也包括人工神经网络。该训练方法包括以下步骤:
-接收合成的杂乱图像作为输入,其中杂乱图像是增强管道的输出,所述增强管道将合成的法线贴图增强为合成的杂乱图像,
-给出法线贴图作为输出,
-将图像生成器的输出与作为对增强管道的输入而给出的相应法线贴图进行比较,以及
-优化图像生成器的神经网络,使得其输出与作为对增强管道的输入而给出的法线贴图之间的偏差最小。
从杂乱图像中恢复对象的一般方法有利地使用已经根据上述训练方法被训练的图像生成器,并且使用已经根据上述训练方法被训练的任务特定识别单元。
因此,提供了一种识别系统,其能够从对象的预定集合中准确地标识对象,对于该对象的预定集合,仅存在作为先验的CAD模型。结果,标记的和未标记的真实生活的彩色图像例如对于训练识别系统而言均不是所必需的。
本发明的一个重要方面是,所要求保护的方法的目标不在于为了训练任务特定识别单元而从无纹理CAD模型中构建真实感图像。相反,识别单元纯粹是在合成数据上训练的,即直接从CAD模型获得的合成的法线贴图。此外,在真实生活使用阶段期间所需要的将真实杂乱图像转换成真实法线贴图的图像生成器纯粹在合成数据上进行训练。
另一个方面是在识别单元的训练期间,从无纹理输入CAD模型创建法线贴图。创建法线贴图而不是图像(例如彩色图像)具有巨大的优势,即,这可以由识别系统的中央处理器单元(CPU)而不是GPU来执行。结果是所创建的法线贴图不需要被单独存储,而是可以由识别单元直接使用。因此,根据本发明从CAD模型生成和处理法线贴图可以被称为“在线”处理,而从CAD模型生成和处理图像的常规处理可以被称为“离线”处理。
法线贴图是来自特定视点的3D模型的表面法线的表示,其存储在二维彩色图像中,二维彩色图像也被称为RGB(即红色/绿色/蓝色)图像。本文中每种颜色对应于表面法线的定向。注意,用于训练识别单元的合成的法线贴图是无噪声的,即与在一些现有技术概念中用于训练识别单元的输入训练图像形成对比,它们不包含任何杂乱。
3D引擎能够自动渲染来自3D模型中的真实感图像(参见电影/视频-游戏行业)。但为此,他们需要详细的3D模型,以及真实感的纹理/颜色信息。大多数工业CAD模型不具有这样的细节,因为这些模型主要用于工程/生产任务,而不是用于可视化。将该信息添加到CAD模型的一种方式是例如构建真实感纹理库,或者对所产生的对象拍摄照片以提取信息。但是使操作者针对每个新的客户、对象、部分等都这样做将是高成本和/或不可扩展的。
将作为图像生成器输出给出的法线贴图相对于作为对增强管道的输入给出的法线贴图进行比较。换言之,由人工神经网络自主调整人工神经元和边的权重,目的在于最小化在图像生成器的输出法线贴图与输入法线贴图(目标法线贴图)之间的偏差。对ANN的众多权重中的哪一个进行调整是由ANN自主确定的,并且经常不对用户公开(即对用户隐藏)。
在本发明的有利实施例中,图像生成器由如下两个单元组成:
-用于从杂乱图像中提取前景从而获得分割图像的分割单元(Gseg),以及
-用于将分割图像转换成法线贴图的颜色到法线单元(Grgb2n)。
描述性地讲,分割单元确定杂乱图像中感兴趣对象的轮廓,并且创建对象的二元掩模,而颜色到法线单元将杂乱图像及其二元掩模的叠加转换成法线贴图。
分割单元可以被单独训练,以最佳地从杂乱图像中提取前景,或者它可以与颜色到法线单元一起被优化。
除了图像生成器的两个所提及的组件——每个组件包括自己的人工神经网络——之外,图像生成器可以进一步包括细化单元,细化单元对通过图像生成器获得的法线贴图进行细化。细化单元还有利地包括人工神经网络,特别是生成对抗网络。
现在仅通过示例的方式借助于随附附图描述本发明的实施例,其中:
图1示出了根据现有技术的识别系统;和
图2示出了根据本发明实施例的识别系统。
图1图示了根据现有技术的用于从图像中识别对象的方法。在第一阶段中,训练识别系统T'。因此,该阶段被称为训练阶段110。在训练已经完成之后,在第二阶段中,经训练的识别系统T'被用于从杂乱图像中识别对象(121),该杂乱图像对于识别系统是未知的,并且是真实的杂乱图像。因此,第二阶段被称为使用阶段120。
在训练阶段110期间,合成的杂乱图像112被馈送到识别系统T'中。杂乱图像112是从无纹理CAD模型111获得的。基于CAD模型111的杂乱图像112的创建由图形处理器单元(GPU)执行,该图形处理器单元(GPU)是被设计用于纯粹从CAD模型数据中创建图形(即图像)的处理器。所述图像存储在识别系统的存储器空间中。
注意,杂乱图像112不仅照此显示CAD模型111的对象。通常,向对象给予一个纹理和一个颜色;考虑由于对象的模拟照明所致的阴影;对象可能被部分遮挡;在同一图像中可能显示其他对象;整个图像包含噪声;并且图像通常包含背景。因此,所述图像被称为杂乱图像112。杂乱可以完全随机选取;然而,例如对于遮挡或噪声的某些约束是可能的。
针对在使用阶段中应由识别单元准确识别的每个对象,由GPU模拟大量的杂乱图像。观看对象所用的视角对于每个模拟图像而言首先都是相同的;然而,“杂乱”、即背景、照明、噪声等对于每个图像都是不同的。
此外,观看对象所用的视角被改变。虚拟地创建在对象的CAD模型周围和上方的半球,并且定义期望数量的视点。如上所述,针对每个视点、即针对每个视角,由GPU模拟大量的杂乱图像。通过该过程,获得大量的图像,所述大量的图像以不同的“杂乱”从不同的视点描绘相同的对象。
识别单元T'分析合成的杂乱图像112,其中向识别单元设置特定任务。例如,任务可以是识别对象的性质、即类别或种类,例如杂乱图像中描绘的对象是牛、猫还是仙人掌。在该情况下,识别单元需要利用所提及的所有对象(这里是牛、猫和仙人掌)的CAD模型进行训练。识别单元的另一个任务可以是标识对象的姿态,即对象是以顶视图、从正面、背面还是从一侧(在对象具有明确定义的正面、背面、顶面和底面的情况下)描绘的。由于识别单元的算法取决于识别单元在使用阶段期间预期要解决的任务,因此识别单元也被称为任务特定识别单元T'。
注意,所描述的现有技术概念的缺点是所生成的每个图像都需要被存储在识别系统的存储器空间处。在被存储在系统中之后,其可以立即被馈送到识别单元中。可替代地,这可以在已经创建了所有图像之后进行。
另外,主要依赖于合成数据来训练识别系统的已知方法的更重要的缺点是真实感差距。由于目标对象的实际纹理是未知的,因此无法渲染真实感的合成图像,因为它们的视觉外观的关键元素是缺失的。因此,模型针对合成域学习的特征通常在真实图像域上表现不佳。虽然先前的工作聚焦于适配模型,使得它从合成域中学习到的特征可以应用于真实域,但是本专利申请中公开的方法表现得不同。令模型纯粹处理合成数据,该模型由另外的函数(即由生成神经网络集合)并行训练,以将真实图像投影到干净的合成域中。
回到现有技术,识别单元T'以有监督方式被训练。它必须关于给予它的任务做出它的决策,并且传输或显示其输出113,例如对象的类别或姿态。由于识别系统固有地已知任务的解决方案,因此可以自动评估输出113。因此,识别系统的准确度的评估可以由识别系统自身来执行。
在识别单元T'被训练到足够的程度之后,可以开始使用阶段120。本文中,对于识别系统T'而言未知的图像121被作为输入给予识别单元T'。显然,图像是杂乱的,并且图像是真实的,而不是合成的。然而,由于识别单元T'的训练阶段110,因此可以实现识别单元T'的合理准确度。
已经提及的缺点仍然存在:有限数量的训练数据,其需要单独地存储在存储位置处;以及不是最佳的准确度。
图2图示了本发明概念的示例性实施例。在第一阶段(训练阶段210)中,任务特定识别单元T被训练用于解决特定任务,例如识别对象的类别或姿态。在第二阶段(训练阶段220)中,图像生成器G被训练用于生成法线贴图224,法线贴图224尽可能最好地表示给定CAD模型221的法线贴图222。在第三阶段(使用阶段230)中,在经训练的图像生成器G的帮助下,由经训练的识别单元T评估看不见的、真实的杂乱图像231。结果,表示给予识别单元T的任务的解决方案的输出233被发出,例如以识别和标识在真实杂乱输入图像231中显示的对象的性质和/或特定特征。
与图1中图示的现有技术相比,本发明的一个关键差异在于,在识别单元T、T'的训练阶段210期间,分别是从无纹理的输入CAD模型211中创建法线贴图212相比于从无纹理的输入CAD模型211中创建杂乱图像112。创建法线贴图212而不是图像112具有巨大的优势,这可以由识别系统的中央处理器单元(CPU)而不是GPU来执行。结果是,所创建的法线贴图212不需要被单独地存储,而是可以由识别单元T直接使用。因此,根据本发明从CAD模型211中生成和处理法线贴图212可以被称为“在线”处理,而从CAD模型111中生成和处理图像112的常规处理可以被称为“离线”处理。
再次,识别单元T针对特定任务进行训练。示例性任务是标识在法线贴图212中描绘的对象的类别或姿态。识别单元T给出给定任务的对应解决方案作为输出213。
识别单元T的训练以有监督方式执行。因为识别系统“知道”任务的解决方案,即因为它知道对象的类别或姿态——该对象被变换成法线贴图212并且随后被馈送到识别单元T中,所以它可以校正或确认识别单元T的输出213。因此,识别单元T自己学习并且不需要人类交互。
值得提及的是,识别单元T原则上可以由无限制数量的训练数据来训练。由于训练是“即时(on the fly)”发生的,换言之是“在线”发生的,因此与上面解释的现有技术方法形成对比,不需要构建训练图像库,在现有技术方法中,构建训练图像库是强制性的。因此,识别单元T的训练有时被称为在“无限”数量的训练数据上执行。
注意,与可以直观想象的情况形成对比,目标不是要从无纹理的输入CAD模型生成尽可能有真实感的图像。此外,象征性地讲,识别单元应变成“纹理盲”,这意味着不管背景、阴影、最终遮挡等如何,都应在杂乱的图像中识别出对象。
进一步注意,另外,观看对象所用的视角被改变。虚拟地创建在对象的CAD模型周围和上方的半球,并且定义所期望数量的视点。针对每个视点、即针对每个视角,由GPU模拟大量的杂乱图像。通过该过程,获得大量的图像,所述大量的图像以不同的“杂乱”从不同的视点描绘相同的对象。
除了识别单元的训练(第一训练阶段210)之外,在本发明的概念中还需要第二训练阶段220。在第二训练阶段220期间,图像生成器G借助于生成对抗网络(GAN)来训练。图像生成器G需要训练,以便从杂乱图像223中生成高质量的法线贴图224。
在第一步骤中,无纹理的CAD模型221被变换成合成的、无噪声的法线贴图222,像在识别单元的训练阶段210期间一样。法线贴图222的生成由CPU在线执行。
随后,合成的法线贴图222经由增强管道A被转换成合成的杂乱图像223。增强管道通过添加纹理、噪声、部分遮挡物等来增强接收到的法线贴图,并且同时将法线贴图转换成彩色图像。Marcus D. Bloice、Christof Stocker和Andreas Holzinger的“Augmentor: AnImage Augmentation Library for Machine Learning”,arXiv:1708.04680vl给出了增强管道的示例。
在将法线贴图222变换成杂乱图像223之后,杂乱图像223随后被变换回到法线贴图224。这里的挑战不仅仅是执行该变换,而且最重要的是从杂乱的(即有噪声的)图像生成干净的(即理想的)无噪声法线贴图。该任务由图像生成器G完成。
图像生成器G由分割单元Gseg和颜色到法线单元Grgb2n组成。分割单元Gseg具有从杂乱图像223中提取前景的任务。前景有时也被称为“目标对象”。换言之,分割单元Gseg的任务是识别和标识待分析对象的轮廓,并且将其从背景中“切”掉。在实践中,第一卷积神经网络(CNN)很适合用来完成该任务。
随后,生成对抗网络(GAN)被用于颜色到法线单元Grgb2n,以将分割的彩色图像(目标对象)转换成法线贴图224。
Gseg被训练成使用生成损失将杂乱图像223转换成它们前景的二元掩模。
Grgb2n从Gseg取得杂乱图像及其相应的掩模作为输入,使用这两者来输出无噪声的几何贴图。作为GAN,它具有若干个损失来指导它对该复杂任务的训练:
-在其输出与预期几何贴图之间的法线和前景生成损失。法线生成损失计算两幅图像之间的距离(此处为原始的法线贴图与生成的法线贴图之间的距离),比较它们的像素值。前景生成损失计算类似的距离,但是忽略不属于前景对象的像素(使用二元掩模);
-由辅助/对抗网络计算的鉴别器损失。该网络是沿着图像生成器G训练的,以从原始贴图中识别出“假”贴图。鉴别性损失表达G对辅助/对抗网络的欺骗能力;
-可选的任务特定损失。在目标识别方法在训练该GAN时已经可用并且准备就绪的情况下,它可以针对生成的法线贴图以及针对原始法线贴图使用。然后,任务特定损失是在识别方法对原始数据与对生成数据的估计(所恢复的信息)之间的距离。换言之,它引导GAN生成法线贴图,该法线贴图将从识别方法中诱发与原始干净法线贴图相同的响应。该公式具有两个优点:没有关于所恢复的信息的性质作出假设,并且不需要基准,因为该损失仅取决于由识别方法作出的两种估计之间的差异。
每个步骤可以首先被连续训练(即首先,训练Gseg,然后在固定Gseg的同时训练Grgb2n),然后被联合训练(端到端训练)。
作为选项(图2中未图示),另一个CNN、即Gref,可以用来细化第一CNN Gseg的输出。Gref将合成的杂乱图像和它们相应的来自Grgb2n的输出取作输入,使用所述两种模态来细化几何估计。它是使用将其输出与预期贴图进行比较的生成损失来训练的。
在固定Gseg和Grgb2n的同时优选地执行Gref的训练。
在识别单元T和图像生成器G这二者被训练之后,可以在“真实生活”中使用识别系统T。在使用阶段230期间,首先将对象的看不见的、真实的杂乱图像231给予图像生成器G。图像生成器G通过首先提取前景、并且然后将分割的图像转换成法线贴图232,来从杂乱图像231中提取干净的法线贴图232。分割由分割单元Gseg执行;转换成法线贴图由颜色到法线单元Grgb2n执行。
然后将所得到的干净法线贴图232作为输入馈送到任务特定识别系统T,该任务特定识别系统T给出所需的输出233,例如对象的类别和/或姿态。
Claims (12)
1.一种借助于人工神经网络从杂乱图像中识别对象的方法,所述方法包括以下步骤:
-借助于经训练的图像生成器(G)从杂乱图像中生成法线贴图,
-借助于经训练的任务特定识别单元(T)从法线贴图中识别对象,以及
-将结果输出到输出单元,
其中图像生成器(G)和识别单元(T)这二者已经通过人工神经网络被训练,
图像生成器(G)的训练包括如下步骤
-接收合成的杂乱图像作为输入,其中杂乱图像是增强管道(A)的输出,所述增强管道(A)将合成的法线贴图增强成合成的杂乱图像,
-给出法线贴图作为输出,
-将具有相应法线贴图的图像生成器(G)的输出作为输入给予增强管道(A),
-优化图像生成器(G)的神经网络,使得在其输出与作为输入给予增强管道(A)的法线贴图之间的偏差最小;并且
识别单元(T)的训练包括如下步骤
-接收合成的法线贴图作为输入,其中合成的法线贴图是从无纹理CAD模型获得的,
-识别对象作为输出,
-将识别单元(T)的输出与如在法线贴图中表示的对象的相应属性进行比较,以及
-优化识别单元(T)的神经网络,使得在其输出与输入的相应属性之间的偏差最小。
2.根据权利要求1所述的方法,其中识别对象包括标识对象的类别。
3.根据权利要求1所述的方法,其中识别对象包括评估对象的姿态。
4.根据权利要求1所述的方法,其中识别对象包括评估杂乱图像的占位贴图。
5.根据权利要求1-4中任一项所述的方法,其中被用作所述方法的输入的杂乱图像是彩色图像。
6.根据权利要求1-4中任一项所述的方法,其中图像生成器(G)包括
-分割单元(Gseg),用于从杂乱图像中提取前景,从而获得分割的图像,以及
-颜色到法线单元(Grgb2n),用于将分割的图像转换成法线贴图。
7.根据权利要求6所述的方法,其中分割单元(Gseg)包括卷积神经网络。
8.根据权利要求6所述的方法,其中颜色到法线单元(Grgb2n)包括生成对抗网络。
9.根据权利要求1-4中任一项所述的方法,其中图像生成器(G)进一步包括细化单元,所述细化单元对由图像生成器(G)获得的法线贴图进行细化,并且包括神经网络。
10.根据权利要求9所述的方法,其中所述神经网络是生成对抗网络。
11.用于借助于人工神经网络从杂乱图像中识别对象的识别系统,所述识别系统包括:
-经训练的图像生成器(G),用于从杂乱图像中生成法线贴图,
-经训练的任务特定识别单元(T),用于从法线贴图中识别对象,以及
-输出单元,用于输出结果,
其中图像生成器(G)和识别单元(T)这二者包括人工神经网络,并且已经根据权利要求1被训练。
12.一种包括指令的计算机可读存储介质,所述指令在被计算机执行时,使得计算机执行根据权利要求1至10中的一项的权利要求的方法的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862653720P | 2018-04-06 | 2018-04-06 | |
US62/653720 | 2018-04-06 | ||
PCT/EP2018/079599 WO2019192744A1 (en) | 2018-04-06 | 2018-10-29 | Object recognition from images using cad models as prior |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112236778A CN112236778A (zh) | 2021-01-15 |
CN112236778B true CN112236778B (zh) | 2024-04-16 |
Family
ID=64270827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880094291.1A Active CN112236778B (zh) | 2018-04-06 | 2018-10-29 | 使用cad模型作为先验的从图像中的对象识别 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11403491B2 (zh) |
EP (1) | EP3759649B1 (zh) |
KR (1) | KR102419011B1 (zh) |
CN (1) | CN112236778B (zh) |
WO (1) | WO2019192744A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494584B2 (en) * | 2021-01-12 | 2022-11-08 | Disney Enterprises, Inc. | Automated prediction of pixel error noticeability |
EP4275140A1 (en) * | 2021-03-03 | 2023-11-15 | Nanyang Technological University | Simulated powdered model generation for neural networks |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014199584A (ja) * | 2013-03-29 | 2014-10-23 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
CN104463954A (zh) * | 2014-11-14 | 2015-03-25 | 无锡梵天信息技术股份有限公司 | 一种三维图像表面细节的模拟方法及系统 |
WO2015083199A1 (en) * | 2013-12-04 | 2015-06-11 | J Tech Solutions, Inc. | Computer device and method executed by the computer device |
CN104937934A (zh) * | 2013-01-23 | 2015-09-23 | 西门子公司 | 图像边界邻域中的自回归像素预测 |
CN105556508A (zh) * | 2013-08-04 | 2016-05-04 | 艾斯适配有限公司 | 虚拟镜子的装置、系统和方法 |
CN106548455A (zh) * | 2015-09-17 | 2017-03-29 | 三星电子株式会社 | 用于调整图像的亮度的设备和方法 |
CN107038751A (zh) * | 2015-12-07 | 2017-08-11 | 达索系统公司 | 从2d图像进行3d建模对象的识别 |
WO2017160688A1 (en) * | 2016-03-14 | 2017-09-21 | Siemens Aktiengesellschaft | Method and system for efficiently mining dataset essentials with bootstrapping strategy in 6dof pose estimate of 3d objects |
KR20170137350A (ko) * | 2016-06-03 | 2017-12-13 | (주)싸이언테크 | 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법 |
GB201718547D0 (en) * | 2017-03-02 | 2017-12-27 | Adobe Systems Inc | Image matting using deep learning |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101208723A (zh) | 2005-02-23 | 2008-06-25 | 克雷格·萨默斯 | 用于3维照相机和3维视频的自动场景建模 |
JP5430456B2 (ja) * | 2010-03-16 | 2014-02-26 | キヤノン株式会社 | 幾何特徴抽出装置、幾何特徴抽出方法、及びプログラム、三次元計測装置、物体認識装置 |
US9582706B2 (en) * | 2011-04-28 | 2017-02-28 | Koninklijke Philips N.V. | Face location detection |
US10068385B2 (en) * | 2015-12-15 | 2018-09-04 | Intel Corporation | Generation of synthetic 3-dimensional object images for recognition systems |
US10504004B2 (en) * | 2016-09-16 | 2019-12-10 | General Dynamics Mission Systems, Inc. | Systems and methods for deep model translation generation |
JP6255125B2 (ja) | 2017-04-07 | 2017-12-27 | キヤノン株式会社 | 画像処理装置、画像処理システム、および画像処理方法 |
DE102017216821A1 (de) * | 2017-09-22 | 2019-03-28 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts |
US11074717B2 (en) * | 2018-05-17 | 2021-07-27 | Nvidia Corporation | Detecting and estimating the pose of an object using a neural network model |
EP3611665A1 (en) * | 2018-08-17 | 2020-02-19 | Siemens Aktiengesellschaft | Mapping images to the synthetic domain |
-
2018
- 2018-10-29 US US17/045,124 patent/US11403491B2/en active Active
- 2018-10-29 CN CN201880094291.1A patent/CN112236778B/zh active Active
- 2018-10-29 WO PCT/EP2018/079599 patent/WO2019192744A1/en active Search and Examination
- 2018-10-29 KR KR1020207031768A patent/KR102419011B1/ko active IP Right Grant
- 2018-10-29 EP EP18800533.4A patent/EP3759649B1/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104937934A (zh) * | 2013-01-23 | 2015-09-23 | 西门子公司 | 图像边界邻域中的自回归像素预测 |
JP2014199584A (ja) * | 2013-03-29 | 2014-10-23 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
CN105556508A (zh) * | 2013-08-04 | 2016-05-04 | 艾斯适配有限公司 | 虚拟镜子的装置、系统和方法 |
WO2015083199A1 (en) * | 2013-12-04 | 2015-06-11 | J Tech Solutions, Inc. | Computer device and method executed by the computer device |
CN104463954A (zh) * | 2014-11-14 | 2015-03-25 | 无锡梵天信息技术股份有限公司 | 一种三维图像表面细节的模拟方法及系统 |
CN106548455A (zh) * | 2015-09-17 | 2017-03-29 | 三星电子株式会社 | 用于调整图像的亮度的设备和方法 |
CN107038751A (zh) * | 2015-12-07 | 2017-08-11 | 达索系统公司 | 从2d图像进行3d建模对象的识别 |
WO2017160688A1 (en) * | 2016-03-14 | 2017-09-21 | Siemens Aktiengesellschaft | Method and system for efficiently mining dataset essentials with bootstrapping strategy in 6dof pose estimate of 3d objects |
KR20170137350A (ko) * | 2016-06-03 | 2017-12-13 | (주)싸이언테크 | 신경망 생성 모델을 이용한 객체 움직임 패턴 학습장치 및 그 방법 |
GB201718547D0 (en) * | 2017-03-02 | 2017-12-27 | Adobe Systems Inc | Image matting using deep learning |
Non-Patent Citations (4)
Title |
---|
Combining Texture and Shape Cues for Object Recognition with Minimal Supervision;Peng X, Saenko K.;Computer Vision–ACCV 2016: 13th Asian Conference on Computer Vision;第256-272页 * |
Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks;Bousmalis K等;Proceedings of the IEEE conference on computer vision and pattern recognition;第3722-3731页 * |
基于多尺度生成对抗网络的遮挡行人重识别方法;杨婉香;严严;陈思;张小康;王菡子;;软件学报(第07期);全文 * |
基于自学习机制的工程图特征识别算法;陈万领,黄培,陈卓宁;华中科技大学学报(自然科学版);第29卷(第5期);第16-20页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3759649A1 (en) | 2021-01-06 |
WO2019192744A1 (en) | 2019-10-10 |
US20210150274A1 (en) | 2021-05-20 |
CN112236778A (zh) | 2021-01-15 |
US11403491B2 (en) | 2022-08-02 |
KR102419011B1 (ko) | 2022-07-07 |
EP3759649B1 (en) | 2022-04-20 |
KR20200140334A (ko) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455496B2 (en) | System and method for domain adaptation using synthetic data | |
US11928592B2 (en) | Visual sign language translation training device and method | |
US20200143522A1 (en) | Denoising monte carlo renderings using machine learning with importance sampling | |
Vazquez et al. | Virtual and real world adaptation for pedestrian detection | |
CN111316291A (zh) | 用生成式对抗神经网络分割和去噪深度图像用于识别应用 | |
US20210232926A1 (en) | Mapping images to the synthetic domain | |
CN112236778B (zh) | 使用cad模型作为先验的从图像中的对象识别 | |
US11769309B2 (en) | Method and system of rendering a 3D image for automated facial morphing with a learned generic head model | |
CN115131492A (zh) | 目标对象的重光照方法、装置及存储介质和背景替换方法 | |
Kaskman et al. | 6 dof pose estimation of textureless objects from multiple rgb frames | |
WO2019192745A1 (en) | Object recognition from images using cad models as prior | |
Hepburn et al. | Enforcing perceptual consistency on generative adversarial networks by using the normalised laplacian pyramid distance | |
Khan et al. | Towards monocular neural facial depth estimation: Past, present, and future | |
Li et al. | Face mask removal based on generative adversarial network and texture network | |
CN113068017A (zh) | 增强真实场景的视频通量 | |
Jian et al. | Realistic face animation generation from videos | |
JP6282121B2 (ja) | 画像認識装置、画像認識方法およびプログラム | |
US20230055538A1 (en) | Method and device for generating training data to generate synthetic real-world-like raw depth maps for the training of domain-specific models for logistics and manufacturing tasks | |
Chen | Deep Learning for Printed Image Quality | |
Zeng et al. | Archaeology drawing generation algorithm based on multi-branch feature cross fusion | |
Gai et al. | Digital Art Creation and Visual Communication Design Driven by Internet of Things Algorithm | |
Babu et al. | Image quality estimation based on visual perception using adversarial networks in autonomous vehicles | |
JP6814374B2 (ja) | 検出方法、検出プログラム及び検出装置 | |
CN118071968A (zh) | 一种基于ar技术的智能交互深展示方法及系统 | |
Montserrat | Machine Learning-Based Multimedia Analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |