CN114638876A

CN114638876A - 具有图像处理的方法和设备

Info

Publication number: CN114638876A
Application number: CN202110857568.5A
Authority: CN
Inventors: 金熙愿; 李宣旼; 金智慧; 韩承周
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-12-15
Filing date: 2021-07-28
Publication date: 2022-06-17
Also published as: US20220188987A1; EP4016447A1; KR20220085635A

Abstract

公开了具有图像处理的方法和设备。具有图像处理的方法包括：生成包括与第一深度图像的像素对应的表面法线向量的第一表面法线图像；以及将第一深度图像和第一表面法线图像施加到第一神经网络，并通过使用第一神经网络改变第一深度图像来获取第二深度图像。第一神经网络基于包括第一深度图像的特征和第一表面法线图像的特征的嵌入向量，来生成与第一深度图像相比具有改善的质量的第二深度图像。

Description

具有图像处理的方法和设备

本申请要求于2020年12月15日在韩国知识产权局提交的第10-2020-0175858号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及用于处理图像的方法和设备。例如，描述涉及用于处理三维(3D)深度图像的方法和设备。

背景技术

深度图像是包括关于相机与被摄体之间的距离信息的三维(3D)图像，并且可通过测量被摄体与相机之间的距离的深度相机(诸如，飞行时间(TOF)相机)获取。

TOF方法是通过在前面从相机发射强光然后检测反射光来测量距离的方法。TOF型相机可使用发光二极管(LED)或激光二极管(LD)将特定波长的光(例如，850纳米(nm)的近红外线)投射到被摄体，利用光电二极管或相机测量或拍摄从被摄体反射的相同波长的光，并且计算照射光信号与从被摄体反射的并在每帧的积分时间内返回的光的信号之间的相位差，从而生成深度图像。

此时，如果相机或被摄体在比积分时间短的时间段内移动，则反射光信号可在相位上改变。在这种情况下，由于外部环境和成像条件(包括待成像的对象的材料、颜色、距离和照明)，可发生深度测量误差。为了解决这个问题，正在开发用于校正深度图像的技术(诸如，用于从通过TOF相机获取的深度图像去除噪声的加权最小二乘(WLS)滤波器)。

发明内容

提供本发明内容以简要的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。

在一个总体方面，一种具有图像处理的方法，包括：生成包括与第一深度图像的像素对应的表面法线向量的第一表面法线图像；以及将第一深度图像和第一表面法线图像施加到第一神经网络，并通过使用第一神经网络改变第一深度图像来获取第二深度图像。第一神经网络基于包括第一深度图像的特征和第一表面法线图像的特征的嵌入向量，来生成与第一深度图像相比具有改善的质量的第二深度图像。

第一神经网络可去除包括在第一深度图像中的噪声并提高第一深度图像的清晰度。

第一深度图像可包括飞行时间(TOF)图像。

所述方法还可包括：生成包括与对应于第二深度图像的像素对应的表面法线向量的第二表面法线图像；以及将第二深度图像和第二表面法线图像施加到第二神经网络，并通过使用第二神经网络改变第二深度图像来获取第三深度图像。第二神经网络可基于包括第二深度图像的特征和第二表面法线图像的特征的嵌入向量，生成与第二深度图像相比具有劣化的质量的第三深度图像。

所述图像处理方法还可包括通过将第二深度图像和第三深度图像配对来生成训练数据。

第一神经网络和第二神经网络可基于循环生成对抗网络(GAN)训练方法被训练。

在另一总体方面，一种非暂时性计算机可读存储介质存储指令，所述指令在被处理器执行时，使处理器执行上述方法。

在另一总体方面，一种训练方法包括：通过将第一类型的第一深度图像和与第一深度图像对应的第一表面法线图像施加到第一神经网络，来获取第二类型的第二深度图像；通过将获取的第二深度图像和与第二深度图像对应的第二表面法线图像施加到第二神经网络，来获取第一类型的第三深度图像；获取与第二深度图像是否是通过第一神经网络生成的图像相关的第一生成对抗网络(GAN)损失；获取与第三深度图像和第一深度图像之间的差相关的第一循环一致性损失；以及基于第一GAN损失和第一循环一致性损失来训练第一神经网络。

训练第一神经网络的步骤可包括：通过将第二类型的第四深度图像和与第四深度图像对应的第四表面法线图像施加到第二神经网络，来获取第一类型的第五深度图像；通过将获取的第五深度图像和与第五深度图像对应的第五表面法线图像施加到第一神经网络，来获取第二类型的第六深度图像；获取与第五深度图像是否是通过第二神经网络生成的图像相关的第二GAN损失；获取与第六深度图像和第四深度图像之间的差相关的第二循环一致性损失；以及基于第一GAN损失、第二GAN损失、第一循环一致性损失和第二循环一致性损失来训练第一神经网络和第二神经网络。

所述训练方法还可包括：获取与第一深度图像和通过将第一深度图像和第一表面法线图像施加到第二神经网络而获取的深度图像之间的差相关的第一恒等(ID)损失；获取与第四深度图像和通过将第四深度图像和第四表面法线图像施加到第一神经网络而获取的深度图像之间的差相关的第二ID损失；以及进一步基于第一ID损失和第二ID损失来训练第一神经网络和第二神经网络。

所述训练方法还可包括：进一步基于用于限制第一深度图像与第二深度图像之间的差的第一范围保持损失和用于限制第四深度图像与第五深度图像之间的差的第二范围保持损失，来训练第一神经网络和第二神经网络。

所述训练方法还可包括：基于用于判别第四深度图像与第五深度图像之间的差以及第四深度图像与第四深度图像所对应的第一类型的真实深度图像之间的差的损失，来训练第二神经网络。

第一神经网络可包括预训练的神经网络，预训练的神经网络被训练为通过沿第一方向改变第一类型的深度图像来生成第二类型的深度图像。第二神经网络可包括预训练的神经网络，预训练的神经网络被训练为通过沿与第一方向相反的第二方向改变第二类型的深度图像来生成第一类型的深度图像。

第一类型的深度图像可包括具有噪声的深度图像。第二类型的深度图像可包括不包含噪声的深度图像。第一神经网络可被配置为通过从输入深度图像去除噪声来生成去除噪声的深度图像。第二神经网络可被配置为通过将噪声添加到另一输入深度图像来生成添加噪声的深度图像。

在另一总体方面，一种图像处理设备包括：至少一个处理器，被配置为：生成包括与第一深度图像的像素对应的表面法线向量的第一表面法线图像，将第一深度图像和第一表面法线图像施加到第一神经网络，并通过使用第一神经网络改变第一深度图像来获取第二深度图像。第一神经网络可被配置为：基于包括第一深度图像的特征和第一表面法线图像的特征的嵌入向量，来生成与第一深度图像相比具有改善的质量的第二深度图像。

第一神经网络还可被配置为：去除包括在第一深度图像中的噪声并提高第一深度图像的清晰度。

第一深度图像可包括飞行时间(TOF)图像。

处理器还可被配置为：生成包括与对应于第二深度图像的像素对应的表面法线向量的第二表面法线图像，将第二深度图像和第二表面法线图像施加到第二神经网络，并通过使用第二神经网络改变第二深度图像来获取第三深度图像。第二神经网络可被配置为：基于包括第二深度图像的特征和第二表面法线图像的特征的嵌入向量，来生成与第二深度图像相比具有劣化的质量的第三深度图像。

处理器还可被配置为：通过将第二深度图像和第三深度图像配对来生成训练数据。

在另一总体方面，一种具有图像处理的设备包括：至少一个处理器，被配置为：通过将具有强噪声的第一深度图像和与第一深度图像对应的第一表面法线图像施加到第一神经网络，来获取具有弱噪声的第二深度图像；通过将获取的第二深度图像和与第二深度图像对应的第二表面法线图像施加到第二神经网络，来获取具有强噪声的第三深度图像；获取与第二深度图像是否是通过第一神经网络生成的图像相关的第一生成对抗网络(GAN)损失；获取与第三深度图像和第一深度图像之间的差相关的第一循环一致性损失；以及基于第一GAN损失和第一循环一致性损失来训练第一神经网络。

训练第一神经网络的步骤可包括：通过将具有弱噪声的第四深度图像和与第四深度图像对应的第四表面法线图像施加到第二神经网络，来获取具有强噪声的第五深度图像；通过将获取的第五深度图像和与第五深度图像对应的第五表面法线图像施加到第一神经网络，来获取具有弱噪声的第六深度图像；获取与第五深度图像是否是通过第二神经网络生成的图像相关的第二GAN损失；获取与第六深度图像和第四深度图像之间的差相关的第二循环一致性损失；以及基于第一GAN损失、第二GAN损失、第一循环一致性损失和第二循环一致性损失来训练第一神经网络和第二神经网络。

所述至少一个处理器还可被配置为：获取与第一深度图像和通过将第一深度图像和第一表面法线图像施加到第二神经网络而获取的深度图像之间的差相关的第一恒等(ID)损失；获取与第四深度图像和通过将第四深度图像和第四表面法线图像施加到第一神经网络而获取的深度图像之间的差相关的第二ID损失；以及进一步基于第一ID损失和第二ID损失来训练第一神经网络和第二神经网络。

所述至少一个处理器还可被配置为：进一步基于用于限制第一深度图像与第二深度图像之间的差的第一范围保持损失和用于限制第四深度图像与第五深度图像之间的差的第二范围保持损失，来训练第一神经网络和第二神经网络。

所述至少一个处理器还可被配置为：基于用于判别第四深度图像与第五深度图像之间的差以及第四深度图像与第四深度图像所对应的第一类型的真实深度图像之间的差的损失，来训练第二神经网络。

根据下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1示出用于获取增强的深度图像的图像处理系统的示例。

图2示出用于获取增强的深度图像的神经网络的训练方法的示例。

图3示出增强卷积神经网络(CNN)和噪声模拟CNN的训练方法的示例。

图4A和图4B分别示出用于训练增强CNN和噪声模拟CNN的损失函数的示例。

图5示出用于训练噪声模拟CNN的损失函数的示例。

图6A和图6B示出使用预训练模型来训练增强CNN和噪声模拟CNN的方法的示例。

图7示出图像处理设备的示例。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例，并且为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，除了必须以特定顺序发生的操作之外，在此描述的操作顺序仅是示例，并不限于在此阐述的那些顺序，而是可如在理解本申请的公开之后将是清楚地那样被改变。此外，为了更加清楚和简要，可省略本领域已知的特征的描述。

在此描述的特征可以以不同的形式被实现，而不应被解释为限于在此描述的示例。相反，在此描述的示例已被提供，以仅示出实现在理解本申请的公开之后将是清楚的在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。

下面在本公开中公开的示例的结构性或功能性描述仅意在出于描述示例的目的，并且示例可以以各种形式被实现。示例并不意在限制，而是意在各种修改、等同物和替代物也被涵盖在权利要求的范围内。

尽管术语“第一”或“第二”用于解释各种组件，但是组件不限于术语。这些术语应当仅用于将一个组件与另一组件区分开。例如，在根据本公开的构思的权利的范围内，“第一”组件可被称为“第二”组件，或者类似地，“第二”组件可被称为“第一”组件。

将理解，当组件被称为“连接到”另一组件时，所述组件可直接连接到或结合到另一组件，或者可存在中间组件。

如在此使用的，除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。还应当理解，当在本说明书中使用术语“包括”和/或“包含”时，表明存在陈述的特征、整体、步骤、操作、元件、组件或它们的组合，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组。

除非另外定义，否则在此使用的所有术语(包括技术术语或科学术语)具有与示例所属领域的普通技术人员通常理解的含义相同的含义。还将理解，除非在此明确地如此定义，否则术语(诸如，在通用词典中定义的术语)应当被解释为具有与它们在相关领域的上下文中的含义一致的含义，并且将不以理想化或过于形式化的含义进行解释。

在下文中，将参照附图详细描述示例。关于分配给附图中的元件的参考标号，应当注意，相同的元件将由相同的参考标号表示，并且将省略其冗余描述。

图1示出用于获取增强的深度图像的图像处理系统的示例。

参照图1，图像处理系统可包括例如表面法线图像生成模块110和神经网络120。表面法线图像生成模块110可生成与输入深度图像101对应的表面法线图像102。神经网络120可接收输入深度图像101和与输入深度图像101对应的表面法线图像102作为输入，并生成增强的深度图像103。

深度图像是包括与从视点到对象表面的距离相关联的深度信息的图像，并且是除了构成图像的每个像素的二维(2D)位置信息之外还包括深度信息的三维(3D)图像。深度图像可以是例如使用飞行时间(TOF)传感器相机获取的图像(在下文中，被称为TOF图像)或使用激光扫描仪获取的图像(在下文中，被称为LS图像)，TOF传感器相机基于发射到被摄体的光学信号在被摄体处被反射然后返回的TOF来提供拍摄的被摄体的逐像素深度值。与LS图像相比，TOF图像可通过更快地测量深度信息而被生成。然而，当与LS图像相比时，TOF图像在深度测量中具有更大的误差，并且由于深度测量中的误差等而包括相对强的噪声。LS图像是通过精确测量深度而生成的图像，因此，与TOF图像相比，LS图像没有噪声或具有小的噪声。被输入到图像处理系统以获取增强的深度图像的深度图像可对应于带噪深度图像(诸如，TOF图像)。在下文中，深度图像也可被简称为图像。

表面法线图像生成模块110可计算与输入深度图像101的每个像素对应的表面法线向量，并对计算的表面法线向量进行成像，从而生成与输入深度图像101对应的表面法线图像102。与深度图像对应的表面法线图像是通过对与深度图像的像素对应的表面法线向量进行成像而获得的图像。表面法线向量表示与表面上的点的切平面垂直的单位向量。表面法线图像生成模块110可通过基于输入深度图像101的深度信息通过计算每个像素的切平面来获取表面法线向量，并且对输入深度图像101的像素的表面法线向量进行成像，从而生成表面法线图像102。

神经网络120可对应于接收输入深度图像101和与输入深度图像101对应的表面法线图像102作为输入并生成增强的深度图像103的学习模型。输入深度图像101和表面法线图像102可被拼接(concatenate)，然后输入到神经网络120。神经网络120可基于包括输入深度图像101的特征和表面法线图像102的特征的嵌入向量来生成增强的深度图像103。换句话说，神经网络120可基于通过对输入深度图像101和表面法线图像102进行编码而提取的特征来改变输入深度图像101的特征，对改变后的特征进行解码，并且生成增强的深度图像103。

增强的深度图像103是输入深度图像101被改变后的图像，并且可对应于这样的图像，在该图像中，输入深度图像101的一些特征通过在神经网络120中反映从表面法线图像102提取的特征而被改变。增强的深度图像103可对应于被改变以改善输入深度图像101的一些特征的图像(即，与输入深度图像101相比质量被改善的图像)。例如，增强的深度图像103可对应于输入深度图像101的噪声被移除或质量(诸如，清晰度(sharpness，也称为锐度))被改善的图像。

例如，神经网络120可对应于被配置为卷积神经网络(CNN)的学习模型。神经网络120可包括多个层。可通过学习来确定层之间的参数。在神经网络120中，可基于层之间的参数对输入深度图像101和表面法线图像102执行计算操作，从而生成增强的深度图像103。

尽管未在图1中示出，但是除了神经网络120之外，图像处理系统还可包括以与神经网络120相反的方式改变深度图像的另一神经网络。当神经网络120是生成与输入图像相比具有改善的质量的图像的网络时，另一神经网络可对应于生成与输入深度图像相比具有劣化的质量的深度图像的网络。在下文中，为了区分神经网络120和另一神经网络，生成增强的深度图像的神经网络120可被称为第一神经网络，并且以与第一神经网络相反的方式生成深度图像的神经网络可被称为第二神经网络。

与第一神经网络类似，第二神经网络可接收深度图像和与深度图像对应的表面法线图像作为输入。第二神经网络可基于包括输入深度图像的特征和输入表面法线图像的特征的嵌入向量来生成具有劣化的质量的深度图像。此时，第二神经网络可通过反映从输入表面法线图像提取的特征来改变输入深度图像的一些特征。输入深度图像的特征可沿与在第一神经网络中输入深度图像被改变的方向相反的方向被改变。第二神经网络可对应于第一神经网络的反函数的构思。

例如，第一神经网络可生成输入深度图像沿第一方向被改变的深度图像。在这个示例中，第一方向是第一类型深度图像被改变为第二类型深度图像的方向。同时，第二神经网络可生成输入深度图像沿与第一方向相反的第二方向被改变的深度图像。第二方向可对应于第二类型深度图像被改变为第一类型深度图像的方向。

例如，第一类型可对应于具有强噪声的图像，并且第二类型可对应于无噪声的干净图像。在这个示例中，第一神经网络可对应于被训练为从具有强噪声的深度图像生成去噪图像的网络。此外，第二神经网络可对应于被训练为从干净深度图像生成对噪声进行模拟的图像的网络。

例如，第一神经网络和第二神经网络可基于循环生成对抗网络(GAN)学习方法被训练。第一神经网络可被训练，使得通过第一神经网络生成的深度图像被恢复为通过第二神经网络输入到第一神经网络的深度图像。第二神经网络可被训练，使得通过第二神经网络生成的深度图像被恢复为通过第一神经网络输入到第二神经网络的深度图像。稍后将描述训练第一神经网络和第二神经网络的方法。

可生成其中两个或更多个特征通过第一神经网络和第二神经网络被改变的深度图像。例如，第一神经网络可输出通过从输入深度图像去除噪声并提高清晰度而获得的深度图像。在这个示例中，第二神经网络可输出通过将噪声添加到输入深度图像并降低清晰度而获得的深度图像。换句话说，第一神经网络和第二神经网络可对应于通过沿不同方向分别改变输入深度图像的两个或更多个特征而生成图像的网络。通过第一神经网络和第二神经网络改变的深度图像的一个或多个特征可与和深度图像一起输入的表面法线图像的一个或多个特征相关。

在下面的描述中，输出增强的深度图像的第一神经网络也可被称为增强CNN，输出与第一神经网络相比沿相反方向改变的深度图像的第二神经网络也可被称为噪声模拟CNN。第一类型深度图像可以是具有强噪声的图像，并且第二类型深度图像可以是具有弱噪声的干净图像。增强CNN可对应于接收具有强噪声的TOF图像和与TOF图像对应的表面法线图像并输出干净的去噪深度图像的学习模型。噪声模拟CNN可以是接收具有弱噪声的干净LS图像和与LS图像对应的表面法线图像并输出带噪深度图像的学习模型。在一个示例中，强噪声可表示大于第一阈值的噪声，弱噪声可表示小于第二阈值的噪声，并且第一阈值大于或等于第二阈值。

参照图2，用于获取增强的深度图像的神经网络的训练方法可包括以下操作：通过将第一类型的第一深度图像201和与第一深度图像201对应的第一表面法线图像211施加到第一神经网络(在下文中，被称为“增强CNN”)210来获取第二类型的第二深度图像202的操作、通过将获取的第二深度图像202和与第二深度图像202对应的第二表面法线图像212施加到第二神经网络220来获取第一类型的第三深度图像203的操作、获取与第二深度图像202是否是通过第一神经网络210生成的图像相关的GAN损失221的操作、获取与第三深度图像203和第一深度图像201之间的差相关的循环一致性损失(cycle consistency loss)231的操作、以及基于GAN损失221和循环一致性损失231训练第一神经网络210的操作。在一个示例中，可通过将第二深度图像202和第三深度图像203配对来生成训练数据。

可基于GAN损失221来训练增强CNN(例如，第一神经网络210)。GAN损失221是与预定深度图像是否是在增强CNN 210中生成的图像相关的损失，并且可基于验证预定深度图像是在增强CNN 210中生成的去噪图像还是无噪声的干净图像的结果而被获取。

增强质量判别器230是与作为生成器的增强CNN 210对应的判别器，并且可对应于验证输入深度图像是由激光扫描仪拍摄的真实干净深度图像还是通过增强CNN 210生成的虚假干净深度图像的网络。真实干净深度图像可以是不固有地包含噪声的干净深度图像，而不是通过处理(诸如，噪声去除)获得的图像。虚假干净深度图像可以是通过执行噪声去除处理而被制成干净图像的深度图像。

当输入图像是真实干净深度图像时，增强质量判别器230可被训练为确定输入图像是真实的。此外，当输入图像是通过将TOF图像施加到增强CNN 210而生成的虚假干净深度图像时，增强质量判别器230可被训练为确定输入图像是虚假的。基于增强质量判别器230的输出，GAN损失函数可被配置。基于GAN损失，作为生成器的增强CNN 210和判别器230可被训练。

生成器210和判别器230可在基于GAN损失221进行对抗性竞争时被训练。基于GAN损失221，判别器230可被训练为区分真实干净图像和在生成器210中生成的虚假干净图像，并且生成器210可被训练为生成接近于真实干净深度图像的深度图像。

增强CNN 210可基于循环一致性损失231被训练。循环一致性损失231是：用于控制改变深度图像的增强CNN 210使得在增强CNN 210中生成的第二深度图像202被恢复为作为原始图像的第一深度图像201的损失。此外，可基于作为噪声模拟CNN 220的输出图像的第三深度图像203与作为增强CNN 210的输入图像的第一深度图像201之间的差来获取循环一致性损失231，其中，可通过将从增强CNN 210输出的第二深度图像202输入到噪声模拟CNN220中来获取第三深度图像203。

噪声模拟CNN 220可接收从增强CNN输出的第二深度图像202和与第二深度图像202对应的第二表面法线图像212，并且输出作为带噪图像的第三深度图像203。尽管图2中未示出，但是从增强CNN 210输出的第二深度图像202可被输入到表面法线图像生成模块，从而基于第二深度图像202的深度信息获取第二表面法线图像212。换句话说，训练方法还可包括以下操作：计算与从增强CNN 210输出的第二深度图像202的每个像素对应的表面法线向量，并且对计算的表面法线向量进行成像，从而获取第二表面法线图像212。

图2示出基于通过将第二深度图像202输入到噪声模拟CNN 220中而获取的循环一致性损失(在下文中，也被称为“第一循环损失”)231来训练增强CNN 210的处理，其中，通过将增强CNN 210的GAN损失(在下文中，也被称为“第一GAN损失”)221和第一深度图像201预先输入到增强CNN 210中来生成第二深度图像202。除了增强CNN 210之外，训练方法还可包括训练噪声模拟CNN 220的操作。训练方法可包括基于通过将输出图像输入到增强CNN 210中而获取的循环一致性损失(在下文中，也被称为“第二循环损失”)来训练噪声模拟CNN220的操作，其中，通过将噪声模拟CNN 220的GAN损失(在下文中，也被称为“第二GAN损失”)和深度图像预先输入到噪声模拟CNN 220中来生成输出图像。将参照图3描述相关的示例。

图3示出增强CNN和噪声模拟CNN的训练方法的示例。

参照图3，可根据循环GAN学习方法基于第一GAN损失321、第二GAN损失322、第一循环损失331和第二循环损失332来训练增强CNN 310和噪声模拟CNN 320。在图3中，第一深度图像301、第一表面法线图像311、第二深度图像302、第三深度图像303和增强质量判别器330分别与图2的实施例中描述的第一深度图像201、第一表面法线图像211、第二深度图像202、第三深度图像203和增强质量判别器230对应。

为了获取第二GAN损失和第二循环损失，训练方法可包括以下操作：通过将第二类型的第四深度图像304和与第四深度图像304对应的第四表面法线图像314施加到第二神经网络320(在下文中，被称为“噪声模拟CNN”)来获取第一类型的第五深度图像305的操作、通过将获取的第五深度图像305和与第五深度图像305对应的第五表面法线图像施加到第一神经网络310(在下文中，被称为“增强CNN”)来获取第二类型的第六深度图像306的操作、获取与第五深度图像305是否是通过第二神经网络320生成的图像相关的第二GAN损失322的操作、以及获取与第六深度图像306和第四深度图像304之间的差相关的第二循环损失332的操作。

可基于第二GAN损失322来训练噪声模拟CNN(例如，第二神经网络320)。第二GAN损失322是与预定深度图像是否是在噪声模拟CNN 320中生成的图像相关的损失，并且可基于验证预定深度图像是在噪声模拟CNN 320中生成的带噪图像还是固有地包含噪声的图像的结果而被获取。

噪声质量判别器340是与作为生成器的噪声模拟CNN 320对应的判别器。判别器340可对应于验证输入深度图像是通过TOF相机拍摄的真实带噪图像还是通过噪声模拟CNN320生成的虚假带噪图像的网络。真实带噪深度图像可以是固有地包含噪声的深度图像，而不是通过处理(诸如，噪声模拟)获得的图像。虚假带噪图像可以是通过执行噪声模拟处理而被制成强带噪图像的深度图像。

当输入图像是真实带噪图像时，噪声质量判别器340可被训练为确定输入图像是真实的。此外，当输入图像是通过将LS图像施加到噪声模拟CNN 320而生成的虚假带噪图像时，噪声质量判别器340可被训练为确定输入图像是虚假的。基于噪声质量判别器340的输出，第二GAN损失322可被配置。基于第二GAN损失322，作为生成器的噪声模拟CNN 320和噪声质量判别器340可被训练。

生成器320和判别器340可在基于第二GAN损失322进行对抗性竞争时被训练。基于第二GAN损失322，判别器340可被训练为区分真实带噪图像和在生成器320中生成的虚假带噪图像，并且生成器320可被训练为生成接近于真实带噪深度图像的深度图像。

噪声模拟CNN 320可基于第二循环损失332被训练。第二循环损失332是：用于控制改变深度图像的噪声模拟CNN 320使得在噪声模拟CNN 320中生成的第五深度图像305被恢复为作为原始图像的第四深度图像304的损失。此外，可基于作为增强CNN 310的输出图像的第六深度图像306与作为噪声模拟CNN 320的输入图像的第四深度图像304之间的差来获取第二循环损失332，其中，可通过将从噪声模拟CNN 320输出的第五深度图像305输入到增强CNN 310中来获取第六深度图像306。

尽管图3中未示出，但是增强CNN 310可接收从噪声模拟CNN 320输出的第五深度图像305和与第五深度图像305对应的表面法线图像作为输入，并且输出噪声被去除的第六深度图像306。从噪声模拟CNN 320输出的第五深度图像305可被输入到表面法线图像生成模块，从而基于第五深度图像305的深度信息获取表面法线图像。换句话说，训练方法还可包括以下操作：计算与从噪声模拟CNN 320输出的第五深度图像305的每个像素对应的表面法线向量，并且对表面法线向量进行成像，从而获取表面法线图像。

图4A和图4B示出用于训练增强CNN和噪声模拟CNN的损失函数的示例。

增强CNN和噪声模拟CNN可基于恒等(identity，ID)损失被训练。ID损失用于在图像生成中提供稳定的指导。此外，当对应于预定类型的数据被输入到神经网络(神经网络输出将输入数据转换为预定类型的数据的结果)时，ID损失是用于训练神经网络以输出与输入数据相同的数据的损失。

参照图4A，第一ID损失441是用于响应于干净图像401被输入到输出干净深度图像的增强CNN 410而训练增强CNN 410以生成与干净图像401相同的输出图像402的损失。可基于输入到增强CNN 410的干净图像401与输出图像402之间的差来获取第一ID损失441。基于第一ID损失441，增强CNN 410可被训练为减小输入的干净图像401与生成的输出图像402之间的差。

参照图4B，第二ID损失442是用于响应于带噪图像403被输入到输出带噪深度图像的噪声模拟CNN 420而训练噪声模拟CNN 420以输出与带噪图像403相同的输出图像404的损失。可基于输入到噪声模拟CNN 420的带噪图像403与输出图像404之间的差来获取第二ID损失442。基于第二ID损失442，噪声模拟CNN 420可被训练为减小输入的带噪图像403与生成的输出图像404之间的差。

图5示出用于训练噪声模拟CNN的损失函数的示例。

参照图5，噪声模拟CNN 510可基于残差损失551被训练。残差损失551可通过残差判别器520获取，残差判别器520判别噪声模拟CNN 510的输入图像501与输出图像502之间的差值。

残差判别器520可对应于判别噪声模拟CNN的输入图像501与输出图像502之间的差值503以及训练数据中包括的深度图像对的差值513的网络。深度图像对可以是通过激光扫描仪和TOF相机同时拍摄并对齐的一对LS图像511和TOF图像512。深度图像对的差值513可以是形成深度图像对的LS图像511和TOF图像512之间的差值。

残差判别器520可确定输入数据是噪声模拟CNN 510的输入图像与输出图像之间的差还是训练数据中的包括的深度图像对的差值。基于残差判别器520的输出，残差损失函数可被构造。基于残差损失，残差判别器520可被训练为区分噪声模拟CNN的输入图像与输出图像之间的差值和深度图像对的差值，并且噪声模拟CNN 510可被训练为从输入图像生成接近于深度图像对的差值的输出图像。在一个示例中，残差判别器520可接收输入图像501的表面法线图像504以及噪声模拟CNN 510的输入图像与输出图像之间的差值503。

尽管图5示出噪声模拟CNN基于残差损失被训练作为示例，但是甚至增强CNN也可基于残差损失被训练。用于训练增强CNN的残差损失可通过残差判别器获取，残差判别器判别增强CNN的输入图像与输出图像之间的差值。用于训练增强CNN的残差损失可对应于区分增强CNN的输入图像与输出图像之间的差和训练数据中包括的深度图像对的差值的网络。

增强CNN和噪声模拟CNN可基于范围保持损失(range preserving loss)被训练。范围保持损失是用于限制输入图像与输出图像之间的差的损失，并且可基于输入图像与输出图像之间的差来获取范围保持损失。例如，增强CNN可基于通过增强CNN的输入图像与输出图像的均方误差所获取的范围保持损失被训练。此外，噪声模拟CNN可基于通过噪声模拟CNN的输入图像与输出图像的均方误差所获取的范围保持损失被训练。

表1示出在训练方法中使用的损失函数的设计示例。

[表1]

GAN损失	D<sub>1</sub>(G<sub>2</sub>(B)，A)+D<sub>2</sub>(G<sub>1</sub>(A)，B)
		循环损失	L<sub>1</sub>loss(G<sub>2</sub>(G<sub>1</sub>(A))，A)+L<sub>1</sub>loss(G<sub>1</sub>(G<sub>2</sub>(B))，B)
恒等损失	L<sub>1</sub>loss(G<sub>2</sub>(A)，A)+L<sub>1</sub>loss(G<sub>1</sub>(B)，B)
		残差损失	D<sub>R</sub>(B-G<sub>2</sub>(B)，C)
范围保持损失	MSE(G<sub>1</sub>(A)，A)+MSE(G<sub>2</sub>(B)，B)

在表1中，A表示第一类型深度图像(例如，TOF图像)，B表示第二类型深度图像(例如，LS图像)，C表示第一类型深度图像和第二类型深度图像的对的差值(例如，通过TOF图像和LS图像形成的对的差值)，G₁表示第一神经网络(例如，增强CNN)，G₂表示第二神经网络(例如，噪声模拟CNN)，D₁表示与作为生成器的第一神经网络对应的第一判别器(例如，增强质量判别器)，D₂表示与作为生成器的第二神经网络对应的第二判别器(例如，噪声质量判别器)，D_R表示残差判别器，L₁loss表示计算L1损失的函数，MSE表示计算均方误差的函数。

图6A和图6B示出使用预训练模型训练增强CNN和噪声模拟CNN的方法的示例。

由于缺少用作用于训练TOF图像的地面真值(GT)数据的LS图像，可使用半监督学习方法来训练增强CNN和噪声模拟CNN。例如，可根据上述循环GAN学习方法使用训练的CNN模型来训练增强CNN和噪声模拟CNN。在这个示例中，训练的CNN模型可使用TOF深度图像和通过加权最小二乘(WLS)滤波器去噪的深度图像作为训练数据被预先训练。

参照图6A和图6B，增强CNN 610可使用被训练为生成通过WLS滤波器从TOF图像601去除噪声而获得的深度图像602的CNN 620，作为预训练模型。噪声模拟CNN 630可使用被训练为从通过WLS滤波器去噪的图像602生成未去除噪声的TOF图像601的CNN 640，作为预训练模型。换句话说，尚未根据循环GAN方法训练的增强CNN 610和噪声模拟CNN 630可对应于使用TOF图像601和通过WLS滤波器去噪的深度图像602作为训练数据而训练的CNN模型620和640。在一个示例中，CNN模型620和640可包括卷积层(Conv)、修正线性单元层(ReLU)、批归一化层(BN)等。

根据上述训练方法训练的增强CNN 610可接收具有强噪声的TOF图像和与TOF图像对应的表面法线图像，并且生成增强的深度图像。增强CNN 610可生成具有优异的噪声去除效果和清晰度改善效果的深度图像。此外，增强CNN 610可生成多径失真(multipathdistortion)降低的深度图像。例如，增强CNN 610可通过降低输入图像中具有大曲率的部分中的多径失真来生成图像。

根据上述训练方法训练的噪声模拟CNN 630可用于：通过生成与干净深度图像对应的带噪深度图像，来生成与噪声去除相关的神经网络的训练数据。

图7示出图像处理设备的示例。

参照图7，图像处理设备700可包括例如处理器701、存储器703以及输入和输出(I/O)装置705。

图像处理设备700可以是执行上述图像处理方法或训练方法的设备，并且可包括服务器和用户装置(例如，移动电话、计算机等)。处理器701可执行参照图1至图6B描述的上述方法中的至少一个。存储器703可存储与图像处理方法或训练方法相关联的信息，或者存储实现上述图像处理方法或训练方法的程序。存储器703可以是易失性存储器或非易失性存储器。

处理器701可执行程序并控制图像处理设备700。由处理器701执行的程序的代码可存储在存储器703中。图像处理设备700可通过I/O装置705连接到外部装置(例如，个人计算机或网络)，并执行数据交换。

在此描述的设备、单元、模块和其他组件由硬件组件实现。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况下包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行在本申请中描述的操作的硬件组件中的一个或多个硬件组件。处理器或计算机可由一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或者被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现。在一个示例中，处理器或计算机包括或者连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简明，单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中，但是在其他示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件、或多种类型的处理元件、或两者。例如，单个硬件组件、或者两个或更多个硬件组件可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可由一个或多个处理器、或者处理器和控制器来实现，并且一个或多个其他硬件组件可由一个或多个其他处理器、或者另一处理器和另一控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个，不同的处理配置的示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。

执行在本申请中描述的操作的方法由计算硬件(例如，由一个或多个处理器或计算机)来执行，计算硬件被实现为如上所述执行指令或软件以执行在本申请中描述的由所述方法执行的操作。例如，单个操作、或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可由一个或多个处理器、或者处理器和控制器来执行，并且一个或多个其他操作可由一个或多个其他处理器、或者另一处理器和另一控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作、或者两个或更多个操作。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合，以单独地或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作，以执行由如上所述的硬件组件和方法执行的操作。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程人员可基于附图中示出的框图和流程图以及说明书中的相应描述容易地编写指令或软件，附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储装置、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡式存储器(诸如，多媒体卡或微型卡(例如，安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机，使得处理器或计算机能够执行指令。

虽然本公开包括特定示例，但是对本领域普通技术人员来说将清楚的是，在不脱离权利要求及其等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的，而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合、和/或由其他组件或其等同物替代或补充，则可实现合适的结果。因此，公开的范围不是由具体实施方式限定，而是由权利要求以及其等同物限定，并且在权利要求以及其等同物的范围内的所有变化应被解释为包括在公开中。

Claims

1.一种具有图像处理的方法，包括：

生成包括与第一深度图像的像素对应的表面法线向量的第一表面法线图像；以及

将第一深度图像和第一表面法线图像施加到第一神经网络，并通过使用第一神经网络改变第一深度图像来获取第二深度图像，

其中，第一神经网络基于包括第一深度图像的特征和第一表面法线图像的特征的嵌入向量，来生成与第一深度图像相比具有改善的质量的第二深度图像。

2.根据权利要求1所述的方法，其中，第一神经网络去除包括在第一深度图像中的噪声并提高第一深度图像的清晰度。

3.根据权利要求1所述的方法，其中，第一深度图像包括飞行时间图像。

4.根据权利要求1至3中的任一项所述的方法，还包括：

生成包括与第二深度图像的像素对应的表面法线向量的第二表面法线图像；以及

将第二深度图像和第二表面法线图像施加到第二神经网络，并通过使用第二神经网络改变第二深度图像来获取第三深度图像，

其中，第二神经网络基于包括第二深度图像的特征和第二表面法线图像的特征的嵌入向量，生成与第二深度图像相比具有劣化的质量的第三深度图像。

5.根据权利要求4所述的方法，还包括：

通过将第二深度图像和第三深度图像配对来生成训练数据。

6.根据权利要求4所述的方法，其中，第一神经网络和第二神经网络基于循环生成对抗网络GAN训练方法被训练。

7.一种训练方法，包括：

通过将第一类型的第一深度图像和与第一深度图像对应的第一表面法线图像施加到第一神经网络，来获取第二类型的第二深度图像；

通过将获取的第二深度图像和与第二深度图像对应的第二表面法线图像施加到第二神经网络，来获取第一类型的第三深度图像；

获取与第二深度图像是否是通过第一神经网络生成的图像相关的第一生成对抗网络GAN损失；

获取与第三深度图像和第一深度图像之间的差相关的第一循环一致性损失；以及

基于第一GAN损失和第一循环一致性损失来训练第一神经网络。

8.根据权利要求7所述的训练方法，其中，训练第一神经网络的步骤包括：

通过将第二类型的第四深度图像和与第四深度图像对应的第四表面法线图像施加到第二神经网络，来获取第一类型的第五深度图像；

通过将获取的第五深度图像和与第五深度图像对应的第五表面法线图像施加到第一神经网络，来获取第二类型的第六深度图像；

获取与第五深度图像是否是通过第二神经网络生成的图像相关的第二GAN损失；

获取与第六深度图像和第四深度图像之间的差相关的第二循环一致性损失；以及

基于第一GAN损失、第二GAN损失、第一循环一致性损失和第二循环一致性损失来训练第一神经网络和第二神经网络。

9.根据权利要求8所述的训练方法，还包括：

获取与第一深度图像和通过将第一深度图像和第一表面法线图像施加到第二神经网络而获取的深度图像之间的差相关的第一恒等ID损失；

获取与第四深度图像和通过将第四深度图像和第四表面法线图像施加到第一神经网络而获取的深度图像之间的差相关的第二ID损失；以及

进一步基于第一ID损失和第二ID损失来训练第一神经网络和第二神经网络。

10.根据权利要求8所述的训练方法，还包括：

进一步基于用于限制第一深度图像与第二深度图像之间的差的第一范围保持损失和用于限制第四深度图像与第五深度图像之间的差的第二范围保持损失，来训练第一神经网络和第二神经网络。

11.根据权利要求8所述的训练方法，还包括：

基于用于判别第四深度图像与第五深度图像之间的差以及第四深度图像与第四深度图像所对应的第一类型的真实深度图像之间的差的损失，来训练第二神经网络。

12.根据权利要求7至12中的任一项所述的训练方法，其中，

第一神经网络包括第一预训练的神经网络，第一预训练的神经网络被训练为通过沿第一方向改变第一类型的深度图像来生成第二类型的深度图像，并且

第二神经网络包括第二预训练的神经网络，第二预训练的神经网络被训练为通过沿与第一方向相反的第二方向改变第二类型的深度图像来生成第一类型的深度图像。

13.根据权利要求7至12中的任一项所述的训练方法，其中，

第一类型的深度图像包括具有噪声的深度图像，

其中，第二类型的深度图像包括不包含噪声的深度图像，

其中，第一神经网络被配置为通过从输入深度图像去除噪声来生成去除噪声的深度图像，并且

其中，第二神经网络被配置为通过将噪声添加到另一输入深度图像来生成添加噪声的深度图像。

14.一种存储指令的非暂时性计算机可读存储介质，所述指令在被处理器执行时，使处理器执行根据权利要求1至14中的任一项所述的方法。

15.一种具有图像处理的设备，包括：

至少一个处理器，被配置为：生成包括与第一深度图像的像素对应的表面法线向量的第一表面法线图像，将第一深度图像和第一表面法线图像施加到第一神经网络，并通过使用第一神经网络改变第一深度图像来获取第二深度图像，

其中，第一神经网络被配置为：基于包括第一深度图像的特征和第一表面法线图像的特征的嵌入向量，来生成与第一深度图像相比具有改善的质量的第二深度图像。

16.根据权利要求15所述的设备，其中，第一神经网络还被配置为：去除包括在第一深度图像中的噪声并提高第一深度图像的清晰度。

17.根据权利要求15所述的设备，其中，第一深度图像包括飞行时间图像。

18.根据权利要求15至18中的任一项所述的设备，其中

处理器还被配置为：生成包括与第二深度图像的像素对应的表面法线向量的第二表面法线图像，将第二深度图像和第二表面法线图像施加到第二神经网络，并通过使用第二神经网络改变第二深度图像来获取第三深度图像，并且

其中，第二神经网络被配置为：基于包括第二深度图像的特征和第二表面法线图像的特征的嵌入向量，来生成与第二深度图像相比具有劣化的质量的第三深度图像。

19.根据权利要求18所述的设备，其中，处理器还被配置为：通过将第二深度图像和第三深度图像配对来生成训练数据。

20.根据权利要求18所述的设备，其中，第一神经网络和第二神经网络基于循环生成对抗网络GAN训练方法被训练。

21.一种具有图像处理的设备，包括：

至少一个处理器，被配置为：

通过将具有强噪声的第一深度图像和与第一深度图像对应的第一表面法线图像施加到第一神经网络，来获取具有弱噪声的第二深度图像；

通过将获取的第二深度图像和与第二深度图像对应的第二表面法线图像施加到第二神经网络，来获取具有强噪声的第三深度图像；

基于第一GAN损失和第一循环一致性损失来训练第一神经网络，

其中，强噪声表示大于第一阈值的噪声，弱噪声表示小于第二阈值的噪声，并且第一阈值大于或等于第二阈值。

22.根据权利要求21所述的设备，其中，训练第一神经网络的步骤包括：

通过将具有弱噪声的第四深度图像和与第四深度图像对应的第四表面法线图像施加到第二神经网络，来获取具有强噪声的第五深度图像；

通过将获取的第五深度图像和与第五深度图像对应的第五表面法线图像施加到第一神经网络，来获取具有弱噪声的第六深度图像；

23.根据权利要求22所述的设备，其中，所述至少一个处理器还被配置为：

24.根据权利要求22所述的设备，其中，所述至少一个处理器还被配置为：进一步基于用于限制第一深度图像与第二深度图像之间的差的第一范围保持损失和用于限制第四深度图像与第五深度图像之间的差的第二范围保持损失，来训练第一神经网络和第二神经网络。

25.根据权利要求22所述的设备，其中，所述至少一个处理器还被配置为：基于用于判别第四深度图像与第五深度图像之间的差以及第四深度图像与第四深度图像所对应的具有强噪声的真实深度图像之间的差的损失，来训练第二神经网络。