CN114793457A - 用于改进确定深度图、相对姿势或语义分割的过程的设备和方法 - Google Patents

用于改进确定深度图、相对姿势或语义分割的过程的设备和方法 Download PDF

Info

Publication number
CN114793457A
CN114793457A CN202080045747.2A CN202080045747A CN114793457A CN 114793457 A CN114793457 A CN 114793457A CN 202080045747 A CN202080045747 A CN 202080045747A CN 114793457 A CN114793457 A CN 114793457A
Authority
CN
China
Prior art keywords
image
discriminator
neural network
semantic
composite image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080045747.2A
Other languages
English (en)
Inventor
阿基尔·古拉姆
奥纳伊·优厄法利欧格路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN114793457A publication Critical patent/CN114793457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T5/60
    • G06T5/77
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及先进驾驶辅助系统(advanced driver assistance system,ADAS)、计算机视觉和机器学习(machine learning,ML)领域。本发明提供了一种基于ML的方法,用于根据合成图像(根据真实图像或虚拟图像生成)训练神经网络,以改进确定深度图、相对姿势或语义分割的过程。因此,本发明提供了一种用于确定深度图(101)、相对姿势(102)或语义分割(103)的设备(100)。所述设备(100)包括:神经网络(104),用于在推理阶段根据输入图像(105)确定所述深度图(101)、所述相对姿势(102)或所述语义分割(103);生成器(106),用于在训练阶段根据真实图像(108)或虚拟图像(109)并根据损失函数(110)生成合成图像(107);根据所述合成图像(107)训练所述神经网络(104);其中,所述损失函数(110)包括语义边缘函数(111)。

Description

用于改进确定深度图、相对姿势或语义分割的过程的设备和 方法
技术领域
本发明涉及先进驾驶辅助系统(advanced driver assistance system,ADAS)、计算机视觉和机器学习(machine learning,ML)领域。本发明提供了一种基于ML的方法,用于根据合成图像(根据真实图像或虚拟图像生成)训练神经网络,以改进确定深度图、相对姿势或语义分割(例如,可用于训练自动驾驶车辆的自动驾驶仪)的过程。此外,本发明涉及域适应,例如,通过在虚拟图像上训练神经网络和在真实图像上测试来解决计算机视觉问题。
背景技术
根据传感器输入进行相对姿势、深度图或语义分割的估计是机器人、ADAS或自动驾驶系统的重要任务。例如,用于进行所述估计的传感器输入来自视觉传感器(例如由数码相机拍摄的输入图像)。根据输入图像估计的信息(深度图、语义分割或相对姿势)可(与输入图像一起)用于机器人、ADAS或自动驾驶系统的进一步训练。例如,可以根据输入图像并根据对应的相对姿势、深度图或语义分割训练车辆的自动驾驶仪。
随着神经网络的快速发展,为了解决计算机视觉问题,立体匹配或自监督深度学习方法等估计技术取得了进步,但需要大量真实高质量的立体图像或真实序列图像作为估计训练的输入图像。即使真实立体图像或真实序列图像很容易生成,但也很难创建对应于所述真实图像的准确深度图、相对姿势或语义分割(可用作进一步训练的地面真值)。
而创建具有关于深度图、相对姿势或语义分割的对应的准确信息的虚拟图像(不是相机拍摄的,而是计算机生成的)是可行的。通过这种方式,可以创建大量的训练数据(例如用于训练机器人、ADAS或自动驾驶系统)。
但是,例如,由于虚拟图像的图像纹理或色彩强度不如真实图像中的好,所以可以发现虚拟图像与真实图像之间存在域间隙。如果执行估计的神经网络仅根据虚拟图像训练,则该域间隙还降低了基于输入图像的深度图、相对姿势估计或语义分割的估计质量。
解决这个问题的传统方法是使用深度神经网络学习域不变特征或域不变表示,或者推动两个域分布彼此接近。但是,这些方法的结果不那么有效。也就是说,传统方法并不能有效地减小虚拟图像与真实图像之间的域间隙。
发明内容
鉴于上述问题,本发明的实施例的目的是改进不同图像域之间(例如虚拟图像与真实图像之间)的域适应。
该目的或其它目的可以通过所附独立权利要求中描述的本发明的实施例实现。本发明的实施例的有利实现方式在从属权利要求中进一步定义。
本发明的第一方面提供了一种用于确定深度图、相对姿势或语义分割的设备,其中,该设备包括:神经网络,用于在推理阶段根据输入图像确定深度图、相对姿势或语义分割;生成器,用于在训练阶段根据真实图像或虚拟图像并根据损失函数生成合成图像,并根据合成图像训练神经网络,其中,损失函数包括语义边缘函数。
这确保了可以有效地减小虚拟图像与真实图像之间的域间隙。因此,可以避免对创建用于训练神经网络的真实图像的依赖,并且可以使用虚拟图像,对于虚拟图像,可以自动创建标签(例如指示分割、姿势或深度)。具体地,语义边缘函数确保了有效地减小域间隙。
具体地,输入图像可以是输入到设备的真实图像或虚拟图像。具体地,真实图像或虚拟图像被输入到设备,用于生成用于车辆自动驾驶仪的训练数据。
具体地,真实图像是在真实环境中用立体相机获取的二维图像(例如,RGB或色度-亮度图像)。例如,真实图像根据以下至少一项获取:KITTI、CITYSCAPES、AEV数据集。
具体地,虚拟图像是在Carla等虚拟环境中用立体相机获取的二维图像(例如,RGB图像或色度-亮度图像)或照片般逼真的数据集。
具体地,合成图像是生成对抗网络(generative adversarial network,GAN)根据真实图像或虚拟图像的生成的二维图像(例如RGB图像或色度-亮度图像)。
具体地,深度图是2D图像或矩阵,其中,每个像素或元素描述场景中相对于相机的对应3D点的深度。具体地,场景是相机捕获的真实世界的预定义感兴趣区域。
具体地,场景中的3D点投影到立体相机图像对(left,right)的x坐标差根据以下公式计算:I_left(x+d)=I_right(x),其中,d是视差。
具体地,视差图是2D图像或矩阵,其中,每个像素或元素描述了该像素或元素的视差。
具体地,相对姿势是包括3D位置坐标(例如x、y、z)和用于车辆定向(例如偏航、俯仰、侧倾)的3个角度的6D矢量。
具体地,语义分割包括对输入图像的每个像素进行分类,用于描绘对象的类型(例如:汽车、植被、建筑、天空、道路中的至少一个)。
具体地,语义边缘函数考虑真实图像或虚拟图像中的至少一个边缘。具体地,边缘包括图像中对象的边界,其中,边界包括显著的对比度变化。
在第一方面的一种实现方式中,语义边缘函数用于维护合成图像中的语义梯度信息和/或边缘信息。
这确保了根据合成图像中的语义梯度信息和/或边缘信息减小真实图像与合成图像之间的域间隙。
在第一方面的另一种实现方式中,该设备还包括第一鉴别器和第二鉴别器,其中,生成器还用于在训练阶段将合成图像提供给第一鉴别器或第二鉴别器,以训练神经网络。
这确保了可以提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
具体地,纹理是图像的一个区域,描绘了色彩强度显著变化的内容。
在第一方面的另一种实现方式中,生成器还用于在训练阶段根据提供了合成图像的鉴别器的确定结果训练神经网络。
这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
在第一方面的另一种实现方式中,生成器还用于在训练阶段将合成图像随机提供给第一鉴别器或第二鉴别器。
这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
在第一方面的另一种实现方式中,第一鉴别器还用于在训练阶段确定生成器根据虚拟图像生成的合成图像是虚假图像,并确定虚拟图像是原始图像;第二鉴别器还用于在训练阶段确定生成器根据真实图像生成的合成图像是虚假图像,并确定真实图像是原始图像。
这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
在第一方面的另一种实现方式中,该设备还用于根据合成图像训练神经网络,用于确定以下至少一项:深度图、相对姿势、语义分割。
这确保了可以根据合成图像改进确定深度图、相对姿势、语义分割中的至少一个的过程。
在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像生成可学习掩码;并根据可学习掩码训练神经网络。
这确保了也可以根据可学习掩码减小域间隙。
具体地,可学习掩码是合成图像中的感兴趣区域。具体地,可学习掩码支持确定合成图像的像素是否可用于视图重建。
在第一方面的另一种实现方式中,可学习掩码为语义内层掩码。
这确保了也可以根据语义内层掩码减小域间隙。
具体地,语义内层掩码是合成图像中的感兴趣区域。具体地,语义内层掩码支持确定合成图像的像素是否可用于视图重建。具体地,语义内层掩码包括语义分割信息。语义分割信息可用于确定合成图像的像素是否可用于视图重建。具体地,语义内层掩码是神经网络根据语义分割信息生成的。
在第一方面的另一种实现方式中,该设备还用于根据可学习掩码训练神经网络,用于确定以下至少一项:深度图、相对姿势、语义分割。
这确保了可以根据可学习掩码改进确定深度图、相对姿势、语义分割中的至少一个的过程。
具体地,根据语义内层掩码训练神经网络,以用于确定深度图。
在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像确定分割信息,并根据分割信息生成可学习掩码。
这确保了可学习掩码可以考虑分割信息。
在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像确定姿势信息,并根据姿势信息生成可学习掩码。
这确保了可学习掩码可以考虑姿势信息。
在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像确定内层掩码,并根据内层掩码生成可学习掩码。
这确保了可学习掩码可以考虑内层掩码。
具体地,内层掩码是合成图像中的感兴趣区域。具体地,内层掩码支持确定合成图像的像素是否可用于视图重建。
具体地,该设备还用于:在训练阶段,如果合成图像是根据真实图像生成的,则根据合成图像对神经网络应用自监督训练。
具体地,该设备还用于:在训练阶段,如果合成图像是根据虚拟图像生成的,则根据合成图像和/或对应于合成图像的地面真值标签将监督训练应用于神经网络。
具体地,该设备使用地面真值标签,包括深度图、相对姿势或语义分割。
具体地,该设备还包括第三鉴别器和第四鉴别器,其中,该设备还用于根据第三鉴别器的确定结果,和/或根据第四鉴别器的确定结果训练神经网络。
具体地,该设备用于训练神经网络,以用于根据第三鉴别器确定深度图。
具体地,该设备用于训练神经网络,以用于根据第四鉴别器确定语义分割。
本发明的第二方面提供了一种用于确定深度图、相对姿势或语义分割的方法,该方法包括以下步骤:在推理阶段,该设备的神经网络根据输入图像确定深度图、相对姿势或语义分割;在训练阶段,该设备的生成器根据真实图像或虚拟图像并根据损失函数生成合成图像,生成器根据合成图像训练神经网络,其中,损失函数包括语义边缘函数。
在第二方面的一种实现方式中,语义边缘函数维护合成图像中的语义梯度信息和/或边缘信息。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,生成器将合成图像提供给设备的第一鉴别器或设备的第二鉴别器,以用于训练神经网络。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,生成器根据提供了合成图像的鉴别器的确定结果训练神经网络。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,生成器随机向第一鉴别器或第二鉴别器提供合成图像。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,第一鉴别器确定生成器根据虚拟图像生成的合成图像是虚假图像,第一鉴别器确定虚拟图像是原始图像;在训练阶段,第二鉴别器确定生成器根据真实图像生成的合成图像是虚假图像,确定真实图像是原始图像。
在第二方面的另一种实现方式中,该方法还包括设备根据合成图像训练神经网络,以用于确定以下至少一项:深度图、相对姿势、语义分割。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像生成可学习掩码;设备根据可学习掩码训练神经网络。
在第二方面的另一种实现方式中,可学习掩码为语义内层掩码。
在第二方面的另一种实现方式中,该方法还包括设备根据可学习掩码训练神经网络,以用于确定以下至少一项:深度图、相对姿势、语义分割。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像确定分割信息,且该设备根据分割信息生成可学习掩码。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像确定姿势信息,并根据姿势信息生成可学习掩码。
在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像确定内层掩码,且设备根据内层掩码生成可学习掩码。
第二方面及其实现方式包括与第一方面及其相应的实现方式相同的优点。
本发明的第三方面提供了一种包括指令的计算机程序产品,当计算机执行程序时,该指令使计算机执行第二方面或其任何实现方式提供的方法的步骤。
第三方面及其实现方式包括与第二方面及其相应的实现方式相同的优点。
需要说明的是,本申请中描述的所有设备、元件、单元和模块可以通过软件或硬件元件或其任何类型的组合实现。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明相应的实体用于执行相应的步骤和功能。虽然在以下具体实施例的描述中,外部实体执行的具体功能或步骤没有在执行该具体步骤或功能的实体的具体详述元件的描述中反映,但是技术人员应清楚,这些方法和功能可以通过相应的硬件或软件元件或其任何组合实现。
附图说明
结合所附附图,下面具体实施例的描述阐述上述本发明的各方面及实现方式,其中:
图1示出了本发明的实施例提供的设备的示意图;
图2详细地示出了本发明的实施例提供的设备的示意图;
图3示出了本发明提供的操作场景的示意图;
图4示出了本发明提供的深度图的示意图;
图5示出了本发明提供的操作场景的示意图;
图6示出了本发明提供的操作场景的示意图;
图7示出了本发明提供的操作场景的示意图;
图8示出了本发明提供的操作场景的示意图;
图9示出了本发明的实施例提供的方法的示意图。
具体实施方式
图1示出了本发明的实施例提供的设备100的示意图。设备100用于根据输入图像105确定深度图101、相对姿势102或语义分割103。此外,所述确定过程通过基于ML的方法改进。为此,设备100包括神经网络104和生成器106。具体地,根据神经网络104改进该确定过程,神经网络104根据合成图像107进行训练。
因此,设备100区分推理阶段和训练阶段。在推理阶段,将训练后的神经网络104应用于输入图像105,以根据输入图像105确定深度图101、相对姿势102或语义分割103。在训练阶段,将训练数据(即真实图像108或虚拟图像109)提供给神经网络104。因此,生成器106用于根据真实图像108或虚拟图像109生成合成图像107。对于合成图像107的生成,生成器还使用损失函数110。具体地,损失函数110包括语义边缘函数111。一旦生成合成图像107,生成器106根据合成图像107训练神经网络104。
可选地,语义边缘函数111可以维护合成图像107中的语义梯度信息和/或边缘信息。
换句话说,设备100可以使用虚拟图像109以及地面真值标签(例如深度图、语义分割或相对姿势,这些标签是专门为虚拟图像109生成的)来训练神经网络104,并在真实图像108等上进行测试。
根据对应于两个不同域的真实图像109和虚拟图像108,可以创建对应于中间域的合成图像107。根据中间域的合成图像107训练神经网络104可以产生鲁棒和准确的深度图101、相对姿势102或语义分割103,独立于域特定纹理特征或图像分布。
设备100可以包括处理器或处理电路(未示出),该处理器或处理电路用于执行、进行或启动本文描述的设备100的各种操作。处理电路可以包括硬件和/或处理电路可以由软件控制。硬件可以包括模拟电路或数字电路,或模拟电路和数字电路两者。数字电路可以包括专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、数字信号处理器(digital signal processor,DSP)或多用途处理器等部件。
设备100还可以包括存储器电路,其存储可以由处理器或处理电路执行(具体地,在软件的控制下执行)的一个或多个指令。例如,存储器电路可以包括存储可执行软件代码的非瞬时性存储介质,当处理器或处理电路执行可执行软件代码时,该可执行软件代码使设备100执行各种操作。
在一个实施例中,处理电路包括一个或多个处理器以及与一个或多个处理器连接的非瞬时性存储器。非瞬时性存储器可以携带可执行程序代码,当一个或多个处理器执行可执行程序代码时,使设备100执行、进行或启动本文描述的操作或方法。
图2详细地示出了本发明的实施例提供的设备100的示意图。图2所示的设备100包括图1的网络设备100的所有特征和功能,以及以下可选特征。
如图2所示,设备100可选地包括第一鉴别器201和第二鉴别器202。在训练阶段,生成器106可选地可以将合成图像107提供给第一鉴别器201或第二鉴别器202,以训练神经网络104。第一鉴别器201和第二鉴别器202支持生成器106使用虚拟图像109和真实图像108创建具有类似于域的纹理的合成图像107。
更具体地说,生成器106可以将合成图像107随机提供给第一鉴别器201或第二鉴别器202。然后,生成器106根据提供了合成图像107的鉴别器201、202的确定结果训练神经网络104。
换句话说,生成器106以及第一鉴别器201和第二鉴别器202根据主要考虑普遍公共特征的对抗性损失函数(即损失函数110)生成合成图像107,用于训练神经网络104,普遍公共特征例如语义边缘和语义信息、模式、场景结构,以及相机传感器生成的纹理、滤色器、噪声、照明效果、阴影和反射等伪影。
换句话说,对于损失函数110,例如,可以使用语义梯度或基于边缘的重建(可能与鲁棒损失函数结合),而不是使用均方误差(mean square error,MSE)损失来重建输入图像105。这支持生成器106通过保持场景结构和几何特性来重建合成图像107,并混合或创建虚拟图像109与真实图像108之间的纹理、强度或质量。
可选地,损失函数110是语义边缘函数111,其目的可以是维护语义梯度信息和/或语义边缘信息以生成合成图像107。此外,通过使用第一鉴别器201和第二鉴别器202,生成器106可以生成类似于真实图像域的图像纹理,而不会丢失几何结构。
生成器106、第一鉴别器201和第二鉴别器202生成的合成图像107可用于进一步训练神经网络104,以例如用于改进根据合成图像107确定深度图101、相对姿势102或语义分割103的过程。具体地,这由L1/视图重建函数、交叉熵函数或L1函数等相应的损失函数110支持。
换句话说,生成器106和鉴别器201、202通过考虑合成图像107中的语义边缘应与原始输入中(即,在真实图像108或虚拟图像109中)相同,生成合成图像107,其中,合成图像107具有较高的纹理变化。
具体地,将合成图像107随机提供给第一鉴别器201或第二鉴别器202支持生成器106生成具有较高纹理变化的合成图像107。
为了实现这种效果,在训练阶段,第一鉴别器201确定生成器106根据虚拟图像109生成的合成图像107是虚假图像,并确定虚拟图像109是原始图像。出于相同的目的,在训练阶段,第二鉴别器202确定由生成器106根据真实图像108生成的合成图像107是虚假图像,并确定真实图像108是原始图像。
如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107生成可学习掩码203。可学习掩码203指示合成图像107中的像素,这对于进一步训练神经网络104是重要的。因此,设备100可选地进一步根据可学习掩码203和合成图像107训练神经网络104。可选地,可学习掩码203可用于训练神经网络104,以改进确定以下至少一项的过程:深度图101、相对姿势102、语义分割103。
可选地,可学习掩码203为语义内层掩码。语义内层掩码通过语义内层掩码中的语义分割信息指示合成图像107中的感兴趣的区域。
如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107确定分割信息204。分割信息204支持将合成图像107的部分与标签相关联,例如指示预定义部分是以下至少一个:街道、墙、树、交通灯、人行道、天空、房屋。然后,设备100根据分割信息204和合成图像107生成可学习掩码203。
如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107确定姿势信息205。例如,姿势信息205包括用于车辆定向的位置坐标和角度。然后,设备100根据姿势信息205和合成图像107生成可学习掩码203。
如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107确定内层掩码206。具体地,估计的语义分割信息被结合在内层掩码206中,用于训练神经网络104的自监督深度估计模型。然后,设备100根据内层掩码206和合成图像107生成可学习掩码203。
具体地,根据内层掩码206和分割信息204训练神经网络104能够改进设备100根据输入图像105确定深度图101的过程。另外两个鉴别器(图2中未示出)可以支持将真实图像域以及估计深度和语义分割的对应分布向虚拟域移动。
换句话说,设备100能够在两个鉴别器201、202的附加支持下训练神经网络104,以根据合成图像107的估计深度图和语义分割结果将域从真实移动到虚拟。
因此,图1和图2公开的特征可以根据自监督方法减小虚拟图像109与真实图像108(或虚拟数据集与真实数据集)之间的域间隙,以改进确定深度图101、语义分割103和相对姿势估计102的过程。
图3更详细地示出了本发明的实施例提供的设备100的示意图。图3所示的设备100包括图1和图2的网络设备100的所有特征和功能,以及以下可选特征。
根据图3,现在更详细地描述生成器106(也可以称为域适应模块或生成器块)。生成器106可用于训练模型(例如神经网络104),以根据虚拟图像域和真实图像域创建具有共同特征的新域图像(例如合成图像107)。对抗损失函数(即损失函数110)可以与基于图像语义边缘的损失函数一起使用,并与两个鉴别器网络(即第一鉴别器201和第二鉴别器202)一起使用,一个鉴别器用于虚拟域,另一个鉴别器用于真实域。
在学习过程中,使用第一鉴别器201和第二鉴别器202。为了再现输入图像105,在神经网络104的估计公共域RGB图像中使用重建损失。输入图像105可以来自随机模式中的虚拟域或真实域。生成器106的输出通过语义梯度或基于边缘的损失函数(即损失函数110)并通过第一鉴别器201和第二鉴别器202中的一个。鉴别器的选择是完全随机的。仅选择一个鉴别器的原因是生成器106根据所选择的鉴别器提供的判断计算结果,这有助于通过安全地保持场景结构和边缘来混合真实图像108和虚拟图像109的纹理信息。此外,选择鉴别器或选择数据集(真实图像或虚拟图像)的随机性有助于神经网络104不进入局部极小值,相反,损失将波动,因为这可能达到全局极小值。
根据图3,现在更详细地描述损失函数110(其也可以称为基于图像梯度的损失函数)。为了保持图像梯度、边缘或场景结构,提供了完全基于图像语义边缘的鲁棒的损失函数110。基于语义边缘的学习支持生成器106生成从训练开始维护语义梯度或边缘信息的图像,同时确保为训练深度估计(depth estimation,DE)模型、语义分割(semanticsegmentation,SS)模型和相对姿势估计(relative pose estimation,RPE)模型而生成的图像(即合成图像107)上纹理的更大变化。因此,通过将语义边缘作为用于训练模型(DE、SS、RPE)的共同重要特征来训练计算机视觉应用模型。DE模型、SS模型和RPE模型的卷积支持学习计算机视觉应用程序,独立于变化的纹理、阴影、照明效果、天气状况或色彩滤波。
根据图3,现在更详细地描述第一鉴别器201和第二鉴别器202(它们也可以是域适应模块的一部分)。对于第一鉴别器201和/或第二鉴别器202,可以使用Wasserstein鉴别器,其使用搬土距离来最小化虚拟数据集(即虚拟图像109)的分布与真实图像数据集(即真实图像108)的分布之间的差异。此外,梯度惩罚可以由鉴别器201、202中的至少一个鉴别器施加,用于解决梯度消失或爆炸的问题。第一鉴别器201的目的可以是学习神经网络104的输入是否来自虚拟数据集。在基于第一鉴别器201的训练期间,虚拟图像109被认为是真的/真实的,而生成器106的输出总是被认为是假的/虚假的。第二鉴别器202的目的类似于第一鉴别器201,但以正好相反的方式操作(即反向地)。第二鉴别器202总是将真实图像108视为真的/真实的,并且生成器106的输出视为假的/虚假的。
当训练神经网络104时,生成器106的输出总是被认为是假的/虚假的,并且随机选择鉴别器201、202中的一个鉴别器来判断生成的RGB(即合成图像107)是虚拟的还是真实的。通过混淆生成器106和第一鉴别器201和第二鉴别器202,生成器106将生成具有混合纹理和特征的图像。
在真实世界场景中,深度图101是根据相机传感器参数和语义信息投影为模式的3D场景结构的表示。对于在设备100中进行的处理,语义信息可以纯粹是3D场景、边缘和对象形状的模式。
如图3所示,设备100可选地可以包括第三鉴别器301和第四鉴别器302。第三鉴别器301可以在估计的深度图101上操作,而第四鉴别器302可以在估计的语义分割上操作。第三鉴别器301和第四鉴别器302的目的是进一步改进根据输入图像105确定深度图101和语义分割103的过程。
图4示出了输入图像401的一部分和深度图402、403的两部分,这些部分是由仅在虚拟图像109上训练的设备根据输入图像401确定的。如图4所示,在比较部分402和部分403时,在真实图像的估计深度图402、403中存在一些孔和不规则性(其中,设备已单独在虚拟数据集上训练)。在这种情况下,第三鉴别器301和第四鉴别器302有助于改进基于输入纹理的估计深度图或语义分割(通过在虚拟或真实数据集上训练设备100)。因此,生成器106被迫生成具有虚拟域和真实域共同特征的更好的合成图像107。
回到图3,现在描述如何根据用于分割、深度网或姿势和掩码网(即根据分割信息204、深度信息、姿势信息205和内层掩码206)的生成器的输出来训练神经网络104。作为用于创建用于改进确定深度图101、相对姿势102和语义分割103的过程的地面真值的监督方法,可以应用基于图像之间几何和视图重建的自监督方法。例如,这些图像可以来自立体图像或序列图像,也可以来自映射数据的图像。
使用分割信息204支持创建高效的可学习掩码203。通常,当使用视图重建损失函数以便将网络输入扭曲到立体图像、序列图像或地图相对图像时,像遮挡、非重叠或边缘周围这样的异常值对于神经网络104来说是棘手的区域。通过使用语义边缘作为损失函数110和通过根据分割信息204进行进一步训练,神经网络104可以被训练以进一步学习和改进内层掩码206和可学习掩码203,以便在视图重建损失的帮助下生成更好的深度图101。
根据图5、图6和图7,现在描述训练神经网络104的各种方法。
图5示出了使用虚拟图像109(即虚拟数据集)来训练深度图101和语义分割103,例如,同时使用真实视频(即序列图像)运行自监督方法(图5中未示出)。这种方法的主要好处是持续的学习过程。虽然虚拟数据集始终可用于训练,但真实视频是动态可用的,以进一步改进训练。因此,深度或分割模型可以用精确的虚拟标签来丰富。同时,根据以虚拟图像的学习结果作为使用第三鉴别器301和第四鉴别器302的基础的真实图像108改进设备100的确定结果。
具体地,图5示出了用于根据虚拟图像109训练的设备100的有源部件。由于虚拟图像109可以用于生成深度图101和语义分割103等的标签,所以虚拟图像109用于通过损失函数110训练神经网络104。
图6示出了用于使用序列真实图像108进行训练的设备100的网络架构。具体地,示出了用于训练真实视频(序列真实图像108)的有源部件。由于训练基于真实视频,因此使用自监督方法(基于视图重建损失函数)来计算深度图101和相对姿势102(里程测量),此外,估计的语义分割103用于(仅前向传播)改进内层掩码206和/或可学习掩码203。此外,仅虚拟图像109(数据集)用于训练深度图101和语义分割102,而在真实图像108上,训练的深度和分割模型被正向传递,并将真实图像108上的估计结果调整为类似于根据虚拟图像109进行估计的结果。这通过使用第三鉴别器301和第四鉴别器302仅在估计的深度和分割结果中将域从真实移动到虚拟来支持。
图7示出了用于根据单个真实图像108训练神经网络104的设备100的网络架构,除了用于训练用于深度图和语义分割的模型的鉴别器之外,没有任何损失函数。更具体地说,网络架构是根据真实图像108(数据集)训练的,没有深度相关损失函数。在所示的示例中,真实图像上的深度图用于根据第三鉴别器301和第四鉴别器302生成更好的结果。所示的方法支持使用没有任何地面真值标签的立体虚拟图像109和立体真实图像108,通过使用自监督方法来估计深度图101。所示的方法还支持使用没有任何地面真值标签的立体虚拟图像109和序列真实图像108,通过使用自监督方法来估计深度图101。
图8示出了设备100的推理阶段(也称为测试阶段)。在如图所示的推理阶段,确定真实域的给定输入图像105的深度图101和语义分割103。设备100还支持确定相对姿势102(图8中未示出)。
图9示出了本发明的实施例提供的方法900的示意图。方法900用于确定深度图101、相对姿势102或语义分割103。方法900包括步骤901:在推理阶段,神经网络104根据输入图像105确定深度图101、相对姿势102或语义分割103。方法900还包括步骤902:在训练阶段,生成器106根据真实图像108或虚拟图像109并根据损失函数110生成合成图像107。方法900还包括步骤903:生成器106根据合成图像107训练神经网络104;其中,损失函数110包括语义边缘函数111。
已经结合作为示例的各种实施例以及实现方式描述了本发明。但是,根据对附图、本发明和独立权利要求的研究,本领域技术人员在实践所要求保护的发明时,能够理解和实现其它变型。在权利要求书以及说明书中,词语“包括”不排除其它元件或步骤,且“一、”“一个”不排除多个。单个元件或其它单元可满足权利要求书中所列举的若干实体或项目的功能。在互不相同的从属权利要求中列举一些措施并不表示这些措施的组合不能用于有益的实现方式。

Claims (15)

1.一种用于确定深度图(101)、相对姿势(102)或语义分割(103)的设备(100),其特征在于,所述设备(100)包括:
-神经网络(104),用于在推理阶段根据输入图像(105)确定所述深度图(101)、所述相对姿势(102)或所述语义分割(103);
-生成器(106),用于在训练阶段:
根据真实图像(108)或虚拟图像(109)并根据损失函数(110)生成合成图像(107);
根据所述合成图像(107)训练所述神经网络(104);
其中,所述损失函数(110)包括语义边缘函数(111)。
2.根据权利要求1所述的设备(100),其特征在于,所述语义边缘函数(111)用于维护所述合成图像(107)中的语义梯度信息和/或边缘信息。
3.根据权利要求1或2所述的设备(100),其特征在于,还包括第一鉴别器(201)和第二鉴别器(202),所述生成器(106)还用于在所述训练阶段将所述合成图像(107)提供给所述第一鉴别器(201)或所述第二鉴别器(202),以训练所述神经网络(104)。
4.根据权利要求3所述的设备(100),其特征在于,所述生成器(106)还用于,在所述训练阶段根据提供了所述合成图像(107)的所述鉴别器(201,202)的确定结果,训练所述神经网络(104)。
5.根据权利要求3或4所述的设备(100),其特征在于,所述生成器(106)还用于在所述训练阶段将所述合成图像(107)随机提供给所述第一鉴别器(201)或所述第二鉴别器(202)。
6.根据权利要求4或5所述的设备(100),其特征在于,所述第一鉴别器(201)还用于在所述训练阶段确定所述生成器(106)根据虚拟图像(109)生成的合成图像(107)是虚假图像,并确定所述虚拟图像(109)是原始图像;
其中,所述第二鉴别器(202)还用于在所述训练阶段确定所述生成器(106)根据真实图像(108)生成的合成图像(107)是虚假图像,并确定所述真实图像(108)是原始图像。
7.根据上述权利要求中任一项所述的设备(100),其特征在于,还用于根据所述合成图像(107)训练所述神经网络(104),以用于确定以下至少一项:深度图(101)、相对姿势(102)、语义分割(103)。
8.根据上述权利要求中任一项所述的设备(100),其特征在于,还用于在所述训练阶段根据所述合成图像(107)生成可学习掩码(203);并根据所述可学习掩码(203)训练所述神经网络(104)。
9.根据权利要求8所述的设备(100),其特征在于,所述可学习掩码(203)是语义内层掩码。
10.根据权利要求8或9所述的设备(100),其特征在于,还用于根据所述可学习掩码(203)训练所述神经网络(104),以用于确定以下至少一项:深度图(101)、相对姿势(102)、语义分割(103)。
11.根据权利要求8至10中任一项所述的设备(100),其特征在于,还用于在所述训练阶段根据所述合成图像(107)确定分割信息(204),并根据所述分割信息(204)生成所述可学习掩码(203)。
12.根据权利要求8至11中任一项所述的设备(100),其特征在于,还用于在所述训练阶段根据所述合成图像(107)确定姿势信息(205),并根据所述姿势信息(205)生成所述可学习掩码(203)。
13.根据权利要求8至12中任一项所述的设备(100),其特征在于,还用于在所述训练阶段根据所述合成图像(107)确定内层掩码(206),并根据所述内层掩码(206)生成所述可学习掩码(203)。
14.一种用于确定深度图(101)、相对姿势(102)或语义分割(103)的方法(900),其特征在于,所述方法(900)包括以下步骤:
-在推理阶段,神经网络(104)根据输入图像(105)确定(901)所述深度图(101)、所述相对姿势(102)或所述语义分割(103);
-在训练阶段,
生成器(106)根据真实图像(108)或虚拟图像(109)并根据损失函数(110)生成(902)合成图像(107);
所述生成器(106)根据所述合成图像(107)训练(903)所述神经网络(104);
其中,所述损失函数(110)包括语义边缘函数(111)。
15.一种包括指令的计算机程序产品,其特征在于,当计算机执行所述程序时,所述指令使所述计算机执行根据权利要求14所述的方法(900)的步骤。
CN202080045747.2A 2020-11-13 2020-11-13 用于改进确定深度图、相对姿势或语义分割的过程的设备和方法 Pending CN114793457A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/082042 WO2022100843A1 (en) 2020-11-13 2020-11-13 Device and method for improving the determining of a depth map, a relative pose, or a semantic segmentation

Publications (1)

Publication Number Publication Date
CN114793457A true CN114793457A (zh) 2022-07-26

Family

ID=73449050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080045747.2A Pending CN114793457A (zh) 2020-11-13 2020-11-13 用于改进确定深度图、相对姿势或语义分割的过程的设备和方法

Country Status (3)

Country Link
EP (1) EP4241237A1 (zh)
CN (1) CN114793457A (zh)
WO (1) WO2022100843A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342800B (zh) * 2023-02-21 2023-10-24 中国航天员科研训练中心 一种多模态位姿优化的语义三维重建方法及系统
CN117115786B (zh) * 2023-10-23 2024-01-26 青岛哈尔滨工程大学创新发展中心 一种联合分割跟踪的深度估计模型训练方法及使用方法

Also Published As

Publication number Publication date
EP4241237A1 (en) 2023-09-13
WO2022100843A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN101542529B (zh) 图像的深度图的生成方法和图像处理单元
Gupta et al. Real-time stereo matching using adaptive binary window
EP3293700B1 (en) 3d reconstruction for vehicle
Guizilini et al. Learning optical flow, depth, and scene flow without real-world labels
Tian et al. Adaptive and azimuth-aware fusion network of multimodal local features for 3D object detection
CN114793457A (zh) 用于改进确定深度图、相对姿势或语义分割的过程的设备和方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
Hwang et al. Lidar depth completion using color-embedded information via knowledge distillation
Wang et al. Improving deep stereo network generalization with geometric priors
Wang et al. Cbwloss: constrained bidirectional weighted loss for self-supervised learning of depth and pose
Yang et al. Mapping technology in visual slam: A review
CN112308893B (zh) 一种基于迭代搜索策略的单目深度估计方法
Ghosh et al. Depth completion using a view-constrained deep prior
Fan et al. Collaborative three-dimensional completion of color and depth in a specified area with superpixels
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
Xu et al. DOS-SLAM: A real-time dynamic object segmentation visual SLAM system
Haji-Esmaeili et al. Large-scale Monocular Depth Estimation in the Wild
Xu et al. Binocular vision of fish swarm detection in real-time based on deep learning
Liu et al. Binocular depth estimation using convolutional neural network with Siamese branches
Garcia-Dopico et al. Locating moving objects in car-driving sequences
Johnston et al. Single View 3D Point Cloud Reconstruction using Novel View Synthesis and Self-Supervised Depth Estimation
Săftescu et al. Look Here: Learning Geometrically Consistent Refinement of Inverse-Depth Images for 3D Reconstruction
Cheng et al. Real-time stereo matching for depth estimation using GPU
CN117333627B (zh) 一种自动驾驶场景的重建与补全方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination