CN111316291A

CN111316291A - 用生成式对抗神经网络分割和去噪深度图像用于识别应用

Info

Publication number: CN111316291A
Application number: CN201880070745.1A
Authority: CN
Inventors: 本杰明·普兰谢; 谢尔盖·扎哈罗夫; 吴子彦; 斯洛博丹·伊利克
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2017-11-03
Filing date: 2018-11-05
Publication date: 2020-06-19
Anticipated expiration: 2038-11-05
Also published as: WO2019090213A1; US11403737B2; CN111316291B; US20200294201A1; EP3688666A1

Abstract

一种从深度图像移除噪声的方法，包括向第一生成式对抗神经网络(GAN)实时呈现真实世界深度图像，通过从要在真实世界深度图像中识别的至少一个对象的计算机辅助设计(CAD)信息生成的合成图像来训练第一GAN。第一GAN减去真实世界深度图像中的背景，并对真实世界深度图像中的前景分割，以生成经清洁的真实世界深度图像。使用经清洁的图像，可经由通过合成图像和经清洁的真实世界深度图像训练的第一GAN来识别真实世界深度图像中的关注对象。在一实施方式中，将来自第一GAN的经清洁的真实世界深度图像提供给第二GAN，其提供附加的噪声消除和由第一GAN移除的功能的恢复。

Description

用生成式对抗神经网络分割和去噪深度图像用于识别应用

相关申请的交叉引用

本申请要求于2017年11月3日提交的名称为“用生成式对抗神经网络分割和去噪深度图像用于识别应用”的美国临时专利申请序列号62/581,282的优先权，其全文以引用方式并入本文。

技术领域

本申请涉及成像。更具体地，本申请涉及对图像中的对象的自动识别。

背景技术

随着机器自动化不断发展，一个重要方面是识别操作附近的对象的存在和状态。例如，检测光学信息(包括深度信息)的图像传感器可以用于捕获工厂区域的图像。观看图像的人可以基于先验知识容易地识别图像中的对象。然而，使机器“观看”图像并识别图像中的对象并不那么容易。各种因素(包括环境状况、传感器的状况、对象的取向、以及在图像的背景或前景中捕获的附加不重要对象)在捕获图像中产生变化，这使得难以教机器如何做出这些确定。

为了识别具体对象，可以将这些对象的现存图像呈现给机器学习网络，该机器学习网络然后可以通过网络先前已有权访问的训练数据对捕获图像中的对象进行分类。为了减小生成和注释真实世界图像以训练神经网络的时间和费用，已经开发了根据三维(3D)计算机辅助设计(CAD)数据生成对象的合成图像的方法。必须解决通常用于训练识别方法的合成深度图像与目标真实世界深度扫描之间的差异(噪声、杂乱等)以实现准确的对象识别。两个图像域(真实和合成)之间的该差距严重影响了识别算法的准确性。

具体地，计算机视觉的最新进展已经由通过大量准确标记数据训练的深度神经网络占主导地位。但收集和注释此类数据集是一项繁琐且在一些情况下不切实际的任务。因此，方法中的最近关注仅依赖于来自3D模型的合成生成数据以进行其训练(使用3D渲染引擎)。

到目前为止，研究主要集中在通过改善合成深度图像的生成来弥合现实差距。我们建议从相反角度解决这个问题，即在生产中处理真实图像(分割和增强)以使它们更接近已用来训练识别算法的合成图像。

先前工作已包括尝试在统计上模拟和应用噪声损害的深度图像。例如，先前研究提出了一个端到端框架，该框架模拟结构化光传感器的整个机制，从而通过对重要因素(诸如传感器噪声、材料反射率、表面几何形状等)进行全面建模，根据三维(3D)计算机辅助设计(CAD)模型生成真实深度数据。除了与先前方法相比涵盖更宽范围的传感器之外，该方法还提供了更真实的数据，从而一致且显著地增强用于不同3D识别任务的神经网络算法的性能(在用于其训练时)。

通过使用基于GAN的过程来改善已生成深度扫描的真实性并且将一些伪真实背景应用于它们，其他工作已经以该概念作为基础。然而，使用模拟数据无法总是准确地表示真实世界图像以训练神经网络。可使用更能表示真实世界图像的数据来训练识别网络的方法和系统将是有益的。

发明内容

一种用于生成用于训练识别网络的真实图像的方法和系统包括处理要识别的实际的真实世界图像，以使其看起来像用于训练算法的无噪声合成数据。一种从深度图像移除噪声的方法包括：向第一生成式对抗神经网络(GAN)实时呈现真实世界深度图像，第一GAN通过根据要在真实世界深度图像中识别的至少一个对象的计算机辅助设计(CAD)信息所生成的合成图像来训练；在第一GAN中，减去真实世界深度图像中的背景；以及在第一GAN中，对真实世界深度图像中的前景进行分割以生成经清洁的真实世界深度图像。

在一些实施方式中，方法还可以包括经由第一GAN和经清洁的真实世界深度图像在真实世界深度图像中识别关注的对象。在其他实施方式中，方法还包括将经清洁的真实世界深度图像提供给第二GAN，以便提供附加噪声消除以及由第一GAN移除的一些功能的恢复。当训练第一GAN时，可以通过向合成图像添加模拟失真来增强用于训练GAN的合成图像。此外，随机背景元素被添加到用于训练第一GAN的合成图像。

当训练GAN时，训练数据可具有包括没有噪声且没有背景的、堆叠以创建真实的一对的经清洁的真实世界深度图像和合成图像的真实的一对图像的形式，以及具有包括来自第一GAN的输出的、堆叠以创建伪造的一对的经清洁的真实世界深度图像和一图像的真实的一对图像的形式。

当增强合成图像时，所添加的失真可以包括合成图像中的目标对象的线性变换，将随机背景数据组合到合成图像中，或者将至少部分地遮挡合成图像中的目标对象的对象插入到合成图像中。

第一和第二GAN可能以任何GAN架构来实现，包括但不限于图像到图像GAN架构或U-Net GAN架构。

一种用于从捕获的真实世界深度图像移除噪声的系统包括：第一生成式对抗神经网络(GAN)，通过从要在捕获的真实世界深度图像中识别的目标对象的三维计算机辅助绘图(CAD)信息得出的合成图像来训练第一GAN，其中第一GAN被配置为接收真实世界深度图像并且输出经清洁的图像以类似于合成图像中的一个；以及被配置为接收第一GAN的输出的第二GAN，通过用于训练第一GAN的合成图像来训练第二GAN，其中第二GAN操作以微调对真实世界深度图像的清洁，包括从经清洁的深度图像移除附加噪声或恢复目标对象的特征。

附图说明

当结合附图阅读时，从以下详细描述中将最好地理解本发明的前述和其他方面。为了说明本发明的目的，在附图中示出了当前优选的实施方式，然而应当理解，本发明不限于所公开的具体手段。附图中包括以下附图：

图1是根据本公开的实施方式的用于训练第一GAN的框图。

图2是根据本公开的实施方式的用于训练第二GAN的框图。

图3是根据本公开的实施方式的方面的用于处理真实世界深度图像的流水线方法的框图。

图4是根据本公开的实施方式的方面的在训练第一GAN期间生成的合成图像的示例的图示。

图5是根据本公开的实施方式的方面的由第一GAN生成的经清洁图像的示例的图示。

图6是根据本公开的实施方式的方面的可用于增强训练数据的噪声类型的图示。

图7是根据本公开的实施方式的方面的在目标对象上使用变形因子的图示。

图8是根据本公开的实施方式的方面的通过相对于目标对象插入遮挡对象来增强训练数据的示例的图示。

图9是根据本公开的实施方式的方面的清洁真实世界深度图像以类似于合成训练数据的方法的过程流程图。

图10是可用于实现本公开中描述的实施方式的方面的计算机系统。

具体实施方式

用于通过预处理输入深度数据以提取和去噪前景来改善基于深度的识别应用的方法和系统有助于进一步的操作(例如，对象识别、姿态估计等)。这种预处理是通过应用实时分割来完成的，该实时分割可以然后是使用仅以合成数据训练的生成式对抗神经网络来平滑化深度图像。

计算机视觉的最新进展由通过大量准确标记数据训练的深度神经网络占主导地位。收集和注释此类数据集是繁琐且在一些情况下不切实际的任务。因此，许多最近方法仅依赖于来自3D模型的合成生成的数据以进行其训练(使用3D渲染引擎)。然而，对于深度图像，建模图像与真实扫描之间的差异会明显影响这些方法的性能。

到目前为止，研究主要集中在通过改善用于训练神经网络的合成深度图像的生成来弥合建模图像与真实世界图像之间的差距。根据本文描述的实施方式，从相反的角度解决了这个问题。即在生产中处理真实世界深度图像(通过分割和增强)，以使真实世界图像更接近用于训练识别算法的建模合成图像。先前方法尝试在统计上模拟和应用噪声损害的深度图像。一个研究提出了端到端框架以模拟结构化光传感器的整个机制，从而通过对相关因素(诸如传感器噪声、材料反射率、表面几何形状等)进行全面建模，根据3D CAD模型生成真实深度数据。除了与先前方法相比涵盖更宽范围的传感器之外，该方法产生了更真实数据，从而一致且显著地增强用于不同3D识别任务的神经网络算法的性能(在用于其训练时)。在其他工作中，通过使用基于GAN的过程来改善已生成深度扫描的现实性并且将一些伪真实背景应用于已建模深度图像，扩展了该模拟流水线。

根据本发明的实施方式，从相反的观点考虑该问题。本文的方法和系统不是尝试生成用于训练识别方法的真实图像以便允许识别技术随后处理真实图像，而是处理待识别的真实世界深度图像。该处理使图像看起来类似于用于训练算法的无噪声合成数据。为了实现这一点，使真实扫描穿过深度生成式对抗神经网络(GAN)，这些神经网络被训练以将真实世界深度图像映射到对应的合成建模图像。

除了对真实图像差异问题的这种反演之外，用于解决该问题的关键作用还在于采用深度传感器模拟流水线结合泛数据增强步骤，以生成真实和具有挑战性的合成数据以用于对GAN进行分段/去噪的训练。该解决方案不依赖于真实图像及其真实数据信息的可用性(在许多工业应用中不太可能获得)，这提供了真实优势。此外，可以证明使用这些新颖技术训练的GAN在训练后用于预处理真实世界扫描时效果很好。根据一些实施方式，可以通过使用两个连续GAN(第一GAN用于分割和部分去噪，并且第二GAN用于细化结果)的任选使用来实现附加贡献。

根据一个实施方式，用于生成深度图像的片段并对其前景进行去噪的解决方案应用了生成式对抗神经网络(GAN)，这些神经网络被训练为将真实扫描映射到无噪声的整洁扫描。该流水线包括主要GAN，其被训练以减去背景并分割前景以便对结果进行部分去噪并恢复一些丢失部分。任选地，训练第二GAN以基于第一过程的结果进一步去噪和恢复。两个GAN都仅对于根据目标对象的3D模型生成的合成数据进行训练。因此，解决方案具有高度适应性并且易于部署。通过使真实扫描看起来像合成图像，可以改善以合成数据进行训练的识别方法的准确性，从而有助于消除现有技术中存在的差异。

所提出的方法不需要真实世界深度图像及其真实数据信息，其即使不是不可能获得，通常也很乏味。该解决方案可以对于由增强传感器模拟流水线生成的真实建模图像进行训练，该模拟流水线模拟传感器噪声和环境因素。流水线被配置为根据3D模型生成以下：1)具有真实噪声和真实或随机背景的深度图像(第一GAN的输入)；以及2)没有噪声和背景的等效图像(相同的视点，清洁的深度-两个GAN的目标)。

除了使用传感器模拟流水线来获得真实训练数据之外，在将训练图像馈送到GAN时，在线使用泛数据增强步骤。每次迭代，输入图像会经历一系列随机变换，诸如背景噪声、前景对象失真、随机遮挡、小线性变换(例如，平移)。这种随机化步骤使针对GAN训练数据更具挑战性并且补偿模拟流水线的可能偏置。

根据一个实施方式，解决方案使用两个GAN，每个GAN由两个深卷积神经网络(CNN)组成。训练第一生成器网络以获取真实深度扫描作为输入并返回类似于合成图像的图像，在训练第一生成器网络期间使用合成图像作为目标(执行图像到图像平移/样式转移)。第二鉴别器网络学习在真实与合成化的一对图像之间的分类，并且评估第一网络的结果。这一对GAN使用针对其网络的标准架构(例如，DCGAN/图像到图像平移GAN)，其被编辑以处理多信道深度图像(例如，16bpp)。

训练第一、主要或生成器GAN以从输入真实图像中分割出前景并且然后平滑化或恢复对象形状。这是通过尝试将真实图像映射到无背景、无噪声的等效对象来完成的。换句话说，并非尝试提供模拟训练数据来近似逼近真实世界状况，这种方法从真实世界图像开始并且尝试对其进行变换以类似于用于训练GAN的根据CAD数据建模的图像。

第二GAN可以被认为是任选的并且被训练以将由第一GAN输出的图像再次映射到其对应的无噪声建模图像(也没有背景)。以这种方式，第二GAN可以专注于进一步平滑化和恢复图像中的目标对象。第二GAN不需要学习第一GAN已经完成的分割。

任选地，可以使用真实深度扫描来微调该方法。对于每个真实世界图像，需要其前景和视点信息的3D模型作为真实数据。使用模拟流水线，可以从而生成来自相同视点的前景的无噪声图像。该合成图像用作以下两者：1)作为从真实图像中裁剪前景的掩模，从而获得无背景真实扫描，该无背景真实扫描将用作第一GAN的目标以及第二GAN的输入；以及2)作为第二GAN的目标图像。

本文描述了一种从捕获深度扫描中裁剪和移除噪声的方法，并且该方法包括两个主要步骤：

1.使用生成式对抗神经网络(GAN)来从输入真实扫描中提取前景，并且在恢复对象形状的一部分时部分地平滑化结果；以及

2.使用任选第二GAN以进一步消除传感器噪声并填充前景的缺失部分。

图3是根据本发明的实施方式的用于从捕获深度图像扫描中修剪和移除噪声的方法的框图。捕获真实世界深度图像301并且将其用作第一预处理器GAN 310的输入。使用合成图像对预处理器GAN 1进行训练，这些合成图像是从包含在CAD文件中的信息得出的，这些文件包含图像扫描中的对象的设计。使用这些合成图像作为目标，预处理器GAN 1输出表示真实世界图像301的、被裁剪并且其中移除背景和前景噪声的经清洁图像311。可以添加第二GAN 320以接收从第一GAN 310输出的经清洁图像311。第二GAN 320还使用根据3D CAD信息生成的合成图像来进行训练，并且用于微调来自第一级的输出图像311，并进一步清洁或恢复在微调输出图像321中的对象的元素。微调输出图像321可以用于其他处理，包括对象识别应用或对象的姿态估计。

图9是根据本发明的实施方式的用于捕获真实世界深度图像的两级清洁过程的过程流程图。在第一步骤中，将真实世界深度图像扫描提供给第一GAN 910，该第一GAN通过根据3D CAD信息生成的针对待识别对象的合成图像来进行训练。使用第一GAN来清洁真实世界深度图像以产生经清洁深度图像920。可以将由第一GAN清洁的图像提供给通过合成图像训练的第二GAN，该第二GAN微调对真实世界深度图像的清洁以生成微调的经清洁图像930。第二GAN可以向输出图像提供附加的降噪或特征恢复，其微调第一GAN的过程。然后，由第二GAN输出的微调的经清洁深度图像可以用于其他应用，诸如对象识别或初始真实世界深度图像中捕获的对象的姿态估计。

一旦使用选定渲染方法进行训练，整个流水线平滑地链接不同步骤，从而实时处理深度图像，其可以用作对来自相同渲染过程的合成数据进行训练的识别算法的输入。

现在将描述每个步骤以及伴随的训练过程的详细信息。

预处理GAN用作第一或主要GAN。为了训练主要GAN，必须满足以下要求。对于训练，第一GAN需要：

目标数据集的每个对象的3D模型；

渲染流水线，其被配置为模拟目标传感器，从而生成真实深度图像；

一种或多种背景生成方法(例如，单纯形噪声、来自深度场景的补丁等)。

可以从以下选项中选择主要GAN的架构。在优选实施方式中，选择以下两种GAN架构以根据输入真实世界图像生成更清晰的整洁图像。尽管可以取决于目标用例来使用这两种架构，但其他GAN架构可以被考虑并且落入本公开的范围内。

图像到图像GAN

标准图像到图像GAN架构及其损失函数可以用于主要GAN。鉴别器(第二GAN)网络的架构遵循DCGAN架构：具有带泄露修正线性单元(Leaky ReLU)和S型(sigmoid)激活输出的深度卷积网络。它将堆叠成单个图像的、初始真实图像以及目标无噪声无背景图像(“真实的”一对)或来自生成器(第一GAN)的输出(“伪造的”一对)作为输入。由于鉴别器的作用是从“真实的”配对中识别“伪造的”配对，因此激活层表示其演绎，该层的每次激活表示鉴别器对输入数据补丁的猜测。使用了二进制交叉熵损失函数。

作为第二选项，生成器(第一GAN)神经网络，使用U-Net架构，其中初始真实世界深度数据作为输入，并且生成器的激活层返回已裁剪图像。为了训练生成器以使输入数据与目标真实世界数据类似并欺骗鉴别器，生成器的损失函数是输出和目标图像的交叉熵评估以及反向鉴别器损失的组合。编辑两个网络以处理深度图像(16bpp)。

以任务特定损失来扩展的图像到图像GAN

在一些实施方式中，可以通过在训练GAN时考虑目标识别网络来扩展先前架构解决方案。该任务特定方法以合成数据进行训练，并且可以在使用固定任务特定网络来训练GAN期间用作另一个“伪鉴别器”。

将来自生成器的图像给予经训练(固定的)识别网络，以将该网络的输出与真实数据无噪声图像进行比较。2个特征向量/估计(对GAN输出的向量/估计与对真实数据z缓冲图像的向量/估计)之间的距离将用作第三损失(以及生成器损失和鉴别器损失)以训练生成器。这样允许GAN更加“了解”语义信息(例如，不同对象的类和姿态)。

GAN架构的该任选扩展可以在以下情况时使用：

目标识别方法已经被训练和固定并且包括可轻松地反向传播任务特定损失的神经网络。

GAN接收目标对象之间的太大变化并且需要更加了解对象的类信息以恢复丢失的部分(例如，对于具有部分遮挡的用例)。

训练

图1示出描绘根据本发明的实施方式的第一GAN(生成器)130的训练的框图。3DCAD信息101被用于生成待识别对象的合成图像。将Z-缓冲信息用于渲染103，并且添加噪声113以模拟不一致性，诸如传感器变化、表面几何形状、以及从对象表面离开的光反射。使用深度传感器信息105来生成建模对象的模拟视图，并使用模拟流水线115对其进行增强。模拟流水线115诸如使用由模拟流水线113根据大量不同视点生成的真实扫描的巨大数据集以及加上任选的无噪声合成图像111来添加信息，并且混入背景115作为输入，以及无背景的等效无噪声图像作为目标，训练GAN以将前景分割出来。该训练如下进行：

在每次迭代时，

根据3D CAD数据101生成的输入图像131、133由模拟流水线115随机增强以使它们更具挑战性，如以下更详细描述的；

使用生成器130的最新状态，对于“真实的”一对和“伪造的”一对两者训练鉴别器；

对于一批输入/目标数据131、133训练生成器130。一旦收敛，则固定并保存135第一GAN的权重。

数据增强

在每次迭代时，输入图像231(无噪声或伪真实)会经由模拟流水线115进行一系列随机变换，诸如：

线性变换(例如，平移)

目标对象可能进行小X-Y平移，以涵盖检测到的对象不在真实图像中完美居中的情况。然而，不期望应用太大的线性变换，否则GAN可能开始识别真实图像中的外围元素(例如，背景中出现的其他目标对象)。

背景

可以生成随机背景数据117并将其添加到合成图像，以向生成器GAN1 130提供用于区分对象与不同背景场景的附加基础。背景信息107可以包括随机生成元素117，其与增强合成图像数据125组合127以将增强输入图像133提供给生成器GAN 130。

背景噪声：

为了更好地模拟可能的背景变化，在一些实施方式中引入了几种噪声类型113。这些噪声类型通常被用于步骤内容生成：分形Perlin噪声、蜂窝噪声和白噪声。图6是这些噪声类型的视觉描绘，示出了Perlin噪声类型601、蜂窝噪声类型603和白噪声类型605。这些噪声模式使用大频率范围来生成，从而进一步增加了可能的背景变化的数量。

前景对象失真：

Perlin噪声生成器被用于创建两个矢量场。第一场表示向量的X分量，然而第二场表示Y分量。然后，通过将存储的矢量视为初始图像每个像素的偏置值，使用逆变形步骤来生成变形图像。由于噪声值范围根据设计跨越[-1；1]的范围，因此我们引入允许更严重失真的乘法变形因子。

图7是在图像经受乘法变形因子时的图像的图示。图像701示出了变形因子为零时的图像，图像703示出了应用变形因子为2时的图像，图像705示出了应用变形因子为6时的图像，图像707示出了变形因子为8时的图像，并且图像709示出了在将变形因子为10应用于初始图像时的图像。

随机遮挡：

引入遮挡是为了两个不同的目的：第一个目的是教网络来重建对象的被部分遮挡的部分。第二个目的是强制不变补丁内的附加对象，即忽略它们，将它们作为背景。遮挡对象是通过围绕圆走动，每一步采取随机角度步长和随机半径来生成的。生成的多边形然后填充有任意深度值并被绘制在补丁的顶部上。这种随机化步骤使针对GAN的训练数据更具挑战性/补偿模拟流水线的可能偏置。图8提供了具有部分遮挡的合成图像的示例。这三个图像801a、801b和801c描绘了对象810。图像801a包括样本遮挡820、821。图像801b包括不同的遮挡830和831。图像801c包括对象810和遮挡840。

预处理GAN 2

要求

对于其训练，第二GAN需要：

目标数据集的每个对象的3D模型；

类似或不同的流水线，其被配置为生成无噪声的清洁深度图像(例如，固定的Z缓冲区)。

GAN架构

第二GAN与第一GAN的定义方式相同，从而取决于用例在两种架构之间进行选择。不同之处在于生成器的损失函数，其第一部分(生成图像与目标图像的比较)被编辑以严厉惩罚对背景所做的任何改变(即，使用输入数据作为二进制掩模+Hadamard乘积)。

训练

图2示出了根据本发明的实施方式的第二GAN的训练。第二组件的训练也类似于第一网络的训练，其中仅输入和目标数据集改变，例如：

由现在固定的第一GAN 130输出的图像(在给定真实增强图像作为输入时)被用作输入232；

无背景清洁深度数据231用作目标。一旦收敛，就可以保存第二GAN230的权重，从而完成整个流水线235的训练。

微调

如果可用，可以使用真实深度扫描来微调该方法。对于每个真实图像，需要其前景和视点信息的3D模型作为真实数据。使用被配置为生成无噪声深度图像的3D引擎，可以因此生成来自相同视点的前景的清洁图像。这些合成图像中的每一个被用作为以下两者：

作为从真实图像中裁剪前景的掩模，从而获得无背景真实扫描，该无背景真实扫描将被用作第一GAN的目标和第二GAN的输入；

作为第二GAN的目标图像。

使用

一旦经过训练，所提出的流水线就可以简单地被用于包含目标对象之一的每个真实世界深度扫描，以提取和清洁其深度信息。然后，结果可以用于各种应用(例如，实例识别或姿态估计)。

图4提供了从生成器(GAN 1)生成的结果的示例，每个图像三元组与对象相关联。列a是输入到GAN 1以进行训练的合成图像，中心列b是GAN 1的输出或真实世界深度图像的去噪和整洁版本，并且列c示出了真实数据合成图像(在噪声和背景添加到合成输入图像之前)。

图5示出在真实世界深度图像的测试期间的GAN 1的输出。图像的每个三元组对应于待识别对象。列a表示在其被捕获时的真实世界深度图像。中心列b示出了如其从第一GAN输出时的图像，其中移除背景并且清洁对象以类似于对象的无噪声合成图像。当从列a中所示的初始捕获图像中裁剪出对象时，列c是真实世界深度图像的真实数据。

所描述的方法和系统表示对在诸如深度成像应用的图像中识别对象的现有技术方式的改善。通过将视角从生成模拟图像以尝试模拟真实世界干扰和噪声改为从真实世界深度图像开始，并且在GAN流水线中处理这些图像以将真实世界图像变换成去噪和整洁的图像，以模拟在根据CAD信息生成的模拟图像中视场将看起来如何，可以实现更准确的对象检测和姿态估计。

图10示出了可以在其内实现本发明的实施方式的示例性计算环境1000。计算机和计算环境(诸如计算机系统1010和计算环境1000)是本领域技术人员已知的并且因此在此简要描述。

如图10所示，计算机系统1010可以包括通信机构，诸如系统总线1021或用于在计算机系统1010内传送信息的其他通信机制。计算机系统1010还包括与系统总线1021耦接以用于处理信息的一个或多个处理器1020。

处理器1020可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、或本领域中已知的任何其他处理器。更一般地，如本文所用的处理器是用于执行存储在计算机可读介质上的机器可读指令以执行任务的设备，并且可以包括硬件和固件中的任何一个或组合。处理器还可以包括存储器，该存储器存储可执行以用于执行任务的机器可读指令。处理器通过操纵、分析、修改、转换或传输供可执行步骤或信息设备使用的信息，和/或通过将信息路由到输出设备来对信息起作用。处理器可以例如使用或包括计算机、控制器或微处理器的能力，并且可以使用可执行指令来进行调节以执行通用计算机没有执行的特殊目的功能。处理器可以与能够在其间进行交互和/或通信的任何其他处理器耦接(电和/或包括可执行部件)。用户接口处理器或生成器是包括用于生成显示图像或其部分的电子电路或软件或两者的组合的已知元件。用户接口包括使得用户能够与处理器或其他设备进行交互的一个或多个显示图像。

继续参考图10，计算机系统1010还包括耦接到系统总线1021以用于存储将由处理器1020执行的信息和指令的系统存储器1030。系统存储器1030可以包括以易失性和/或非易失性存储器形式的计算机可读存储介质，诸如只读存储器(ROM)1031和/或随机存取存储器(RAM)1032。RAM1032可以包括其他动态存储设备(例如，动态RAM、静态RAM和同步DRAM)。ROM 1031可以包括其他静态存储设备(例如，可编程ROM、可擦除PROM和电可擦除PROM)。此外，系统存储器1030可以用于在处理器1020执行指令期间存储临时变量或其他中间信息。可以在ROM1031中存储基本输入/输出系统1033(BIOS)，该基本输入/输出系统包含有助于在计算机系统1010内的元件之间(诸如在启动期间)转移信息的基本例程。RAM 1032可以包含可立即由处理器1020访问和/或当前由处理器对其操作的数据和/或程序模块。系统存储器1030可以另外包括例如操作系统1034、应用程序1035、其他程序模块1036和程序数据1037。

计算机系统1010还包括磁盘控制器1040，该磁盘控制器耦接到系统总线1021以控制用于存储信息和指令的一个或多个存储设备，诸如磁硬盘1041和可移除介质驱动器1042(例如，软盘驱动器、光盘驱动器、磁带驱动器和/或固态驱动器)。可以使用适当的设备接口(例如，小型计算机系统接口(SCSI)、集成设备电子器件(IDE)、通用串行总线(USB)或FireWire)将存储设备添加到计算机系统1010。

计算机系统1010还可以包括显示控制器1065，其耦接到系统总线1021以控制显示器或监视器1066(诸如阴极射线管(CRT)或液晶显示器(LCD))，以用于向计算机用户显示信息。计算机系统包括输入接口1060和一个或多个输入设备，诸如键盘1062和指向设备1061，以用于与计算机用户交互并将信息提供给处理器1020。例如，点击设备1061可以是鼠标、光笔、轨迹球、或点击杆，其用于向处理器1020传送方向信息和命令选择并用于控制显示器1066上的光标移动。显示器1066可以提供触摸屏接口，其允许输入以补充或替点击设备1061对方向信息和命令选择的传送。在一些实施方式中，用户可穿戴的增强真实设备1067可以提供允许用户与物理世界和虚拟世界交互的输入/输出功能。增强真实设备1067与显示控制器1065和用户输入界面1060通信，从而允许用户通过显示控制器1065与增强真实设备1067中生成的虚拟项目进行交互。用户还可以提供由增强真实设备1067检测并作为输入信号传输到用户输入界面1060的手势。

响应于处理器1020执行包含在存储器(诸如系统存储器1030)中的一个或多个指令的一个或多个序列，计算机系统1010可以执行本发明的实施方式的处理步骤的部分或全部。此类指令可以从另一个计算机可读介质(诸如磁硬盘1041或可移动介质驱动器1042)读入系统存储器1030中。磁硬盘1041可以包含由本发明的实施方式使用的一个或多个数据存储和数据文件。数据存储的内容和数据文件可以被加密以提高安全性。处理器1020还可在多处理布置中采用以执行系统存储器1030中包含的指令的一个或多个序列。在替代性实施方式中，可以使用硬连线电路代替软件指令或与软件指令结合使用。因此，实施方式不限于硬件电路和软件的任何特定组合。

如上，计算机系统1010可以包括至少一个计算机可读介质或存储器，其用于保持根据本发明的实施方式编程的指令，并且用于包含本文描述的数据结构、表、记录或其他数据。如本文所用，术语“计算机可读介质”是指参与向处理器1020提供指令以供执行的任何介质。计算机可读介质可以采用许多形式，包括但不限于非暂时性、非易失性介质、易失性介质和传输介质。非易失性介质的非限制性示例包括光盘、固态驱动器、磁盘和磁光盘，诸如磁硬盘1041或可移动介质驱动器1042。易失性介质的非限制性示例包括动态存储器，诸如系统存储器1030。传输介质的非限制性示例包括同轴电缆、铜线和光纤，包括构成系统总线1021的线。传输介质也可以采用声波或光波的形式，诸如在无线电波和红外数据通信期间生成的那些。

计算环境1000还可以包括计算机系统1010，该计算机系统使用与一个或多个远程计算机(诸如远程计算设备1080)的逻辑连接来在联网环境中操作。远程计算设备1080可以是个人计算机(膝上型计算机或台式计算机)、移动设备、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括以上相对于计算机系统1010描述的许多或全部的元件。当在联网环境中使用时，计算机系统1010可以包括调制解调器1072，其用于通过网络1071(诸如互联网)建立通信。调制解调器1072可以经由用户网络接口1070或经由另一适当机制连接至系统总线1021。

网络1071可以是本领域公知的任何网络或系统，包括互联网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、直接连接或连接系列、蜂窝电话网络、或能够促进计算机系统1010与其他计算机(例如、远程计算设备1080)之间的通信的任何其他网络或介质。网络1071可以是有线的、无线的或其组合。可以使用以太网、通用串行总线(USB)、RJ-6或本领域通常已知的任何其他有线连接来实现有线连接。可以使用Wi-Fi、WiMAX、以及蓝牙、红外、蜂窝网络、卫星或本领域通常已知的任何其他无线连接方法来实现无线连接。另外，几个网络可以单独或彼此通信地工作以促进网络1071中的通信。

如本文所用，可执行应用程序包括代码或机器可读指令，其用于例如响应于用户命令或输入而调节处理器以实现预定功能，诸如操作系统、上下文数据获取系统或其他信息处理系统的功能。可执行步骤是代码段或机器可读指令、子例程、或代码的其他不同部分、或者可执行应用程序的一部分，其用于执行一个或多个特定过程。这些过程可以包括：接收输入数据和/或参数，对接收的输入数据执行操作，和/或响应于接收的输入参数执行功能，以及提供所得输出数据和/或参数。

如本文所用，图形用户接口(GUI)包括一个或多个显示图像，这些图像由显示处理器生成，并且允许用户与处理器或其他设备进行交互以及相关联的数据获取和处理功能。GUI还包括可执行步骤或可执行应用程序。可执行步骤或可执行应用程序调节显示处理器以生成表示GUI显示图像的信号。这些信号被提供给显示设备，该显示设备显示图像以供用户观看。在可执行步骤或可执行应用程序的控制下，处理器响应于从输入设备接收到的信号而操纵GUI显示图像。这样，用户可以使用输入设备与显示图像进行交互，从而使用户能够与处理器或其他设备进行交互。

本文的功能和过程步骤可以响应于用户命令而自动地或全部地或部分地执行。自动执行的活动(包括步骤)是响应于一个或多个可执行指令或设备操作而执行的，而无需活动的用户直接启动。

附图的系统和过程不是唯一的。可以根据本发明的原理导出其他系统、过程和菜单以实现相同的目的。尽管已经参考特定实施方式描述了本发明，但应当理解，本文示出和描述的实施方式和变型仅用于说明目的。在不脱离本发明的范围的情况下，本领域技术人员可以实现对当前设计的修改。如本文，可以使用硬件部件、软件部件和/或它们的组合来实现各种系统、子系统、代理、管理器和过程。

Claims

1.一种从深度图像移除噪声的方法，包括：

向第一生成式对抗神经网络(GAN)实时呈现真实世界深度图像，通过从要在所述真实世界深度图像中识别的至少一个对象的计算机辅助设计(CAD)信息所生成的合成图像来训练所述第一GAN；

在所述第一GAN中，减去所述真实世界深度图像中的背景；

在所述第一GAN中，分割所述真实世界深度图像中的前景，以生成经清洁的真实世界深度图像。

2.根据权利要求1所述的方法，还包括：经由所述第一GAN和所述经清洁的真实世界深度图像在所述真实世界深度图像中识别关注的对象。

3.根据权利要求1所述的方法，还包括：将所述经清洁的真实世界深度图像提供给第二GAN，以提供附加的噪声消除和由所述第一GAN移除的一些功能的恢复。

4.根据权利要求1所述的方法，还包括：使用从所述CAD信息生成的合成图像来训练所述第一GAN，其中所述CAD信息通过以下方式增强：向所述合成图像添加模拟失真。

5.根据权利要求4所述的方法，还包括：向用于训练所述第一GAN的所述合成图像添加随机背景元素。

6.根据权利要求4所述的方法，其中训练所述第一GAN还包括：向所述第一GAN提供具有真实的一对图像的形式的训练数据，所述真实的一对图像包括没有噪声且没有背景的、堆叠以形成真实的一对的所述经清洁的真实世界深度图像和合成图像。

7.根据权利要求6所述的方法，其中训练所述第一GAN还包括：向所述第一GAN提供具有真实的一对图像的形式的训练数据，所述真实的一对图像包括来自所述第一GAN的输出的、堆叠以创建伪造的一对的所述经清洁的真实世界深度图像和一图像。

8.根据权利要求4所述的方法，其中向所述合成图像添加失真包括：所述合成图像中的目标对象的线性变换。

9.根据权利要求4所述的方法，其中向所述合成图像添加失真包括：将随机背景数据组合到所述合成图像中。

10.根据权利要求4所述的方法，其中向所述合成图像添加失真包括：将至少部分地遮挡所述合成图像中的目标对象的对象插入到所述合成图像中。

11.根据权利要求1所述的方法，还包括：使用图像到图像GAN架构来实现所述第一GAN。

12.根据权利要求1所述的方法，还包括：将所述第一GAN实现为U-Net GAN架构。

13.一种用于从捕获的真实世界深度图像移除噪声的系统，包括：

第一生成式对抗神经网络(GAN)，通过从要在所述捕获的真实世界深度图像中识别的目标对象的三维计算机辅助绘图(CAD)信息得出的合成图像来训练所述第一GAN，其中所述第一GAN被配置为接收所述真实世界深度图像并且输出经清洁的图像以类似于所述合成图像中的一个；

第二GAN，被配置为接收所述第一GAN的输出，通过用于训练所述第一GAN的所述合成图像来训练所述第二GAN，其中，所述第二GAN操作以微调对所述真实世界深度图像的清洁，包括从经清洁的深度图像移除附加噪声或恢复所述目标对象的特征。

14.根据权利要求13所述的系统，还包括：所述第一GAN，被配置为经由所述第一GAN比较合成图像和经清洁的真实世界深度图像来识别所述真实世界深度图像中的关注对象。

15.根据权利要求13所述的系统，其中：使用从所述CAD信息生成的合成图像来训练所述第一GAN，其中，通过将模拟失真添加到所述合成图像来增强所述CAD信息。

16.根据权利要求15所述的系统，其中，随机背景元素被添加到用于训练所述第一GAN的所述合成图像。

17.根据权利要求15所述的系统，其中，训练所述第一GAN还包括：向所述第一GAN提供具有真实的一对图像的形式的训练数据，所述真实的一对图像包括没有噪声且没有背景的、堆叠以创建真实的一对的所述经清洁的真实世界深度图像和合成图像。

18.根据权利要求17所述的系统，其中，训练所述第一GAN还包括：向所述第一GAN提供具有真实的一对图像的形式的训练数据，所述真实的一对图像包括来自所述第一GAN的输出的、堆叠以创建伪造的一对的所述经清洁的真实世界深度图像和一图像。

19.根据权利要求15所述的系统，其中，向所述合成图像添加失真包括：所述合成图像中的目标对象的线性变换。

20.根据权利要求15所述的系统，其中，向所述合成图像添加失真包括：将随机背景数据组合到所述合成图像中。

21.根据权利要求15所述的系统，其中，向所述合成图像添加失真包括：将至少部分地遮挡所述合成图像中的目标对象的对象插入到所述合成图像中。

22.根据权利要求13所述的系统，其中，使用图像到图像GAN架构来实现所述第一GAN。

23.根据权利要求13所述的系统，其中，使用U-Net GAN架构来实现所述第一GAN。