CN113196746A

CN113196746A - 在摄像机系统之间转移附加信息

Info

Publication number: CN113196746A
Application number: CN201980082462.3A
Authority: CN
Inventors: D·拉普勒格尔; P·R·赫尔佐克; L·R·托里斯洛佩斯; P-S·劳尔; U·布罗施
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-12-13
Filing date: 2019-10-29
Publication date: 2021-07-30
Also published as: EP3895415A1; US20210329219A1; WO2020119996A1; DE102018221625A1

Abstract

一种用于以附加信息(4，41，42)丰富目标图像(31)的方法(100)，目标摄像机系统(3)已经从场景(1)记录所述目标图像，源摄像机系统(2)已经从另一视角从相同场景(1)记录的至少一个源图像(21)已经富含所述附加信息，所述方法具有以下步骤：将所述源图像(21)的源像素(21a)分配给三维空间中的3D位置(5)(110)，所述3D位置对应于所述源像素(21a)在所述源图像(21)中的位置；将分配给所述源像素(21a)的附加信息(4，41，42)分配给分别相关的3D位置(5)(120)；将所述3D位置(5)分配给所述目标图像(31)的那些在所述目标图像(31)中的位置对应于所述3D位置(5)的目标像素(31a)(130)；将分配给所述3D位置(5)的附加信息(4，41，42)分配给相关的目标像素(31a)(140)。一种用于训练KI模块(50)的方法(200)，其中，借助所述方法(100)将学习附加信息(54)至少部分地分配给学习图像(53)的作为目标像素(31a)的像素(53a)(215)。一种相关的计算机程序。

Description

在摄像机系统之间转移附加信息

技术领域

本发明涉及一种用于处理借助不同摄像机系统所记录的图像的方法。该方法尤其能够用于驾驶辅助系统和用于至少部分自动化驾驶的系统。

背景技术

对于驾驶辅助系统以及对于用于至少部分自动化驾驶的系统，借助摄像机系统从车辆环境记录的图像是最重要的信息来源。针对图像通常存在附加信息，例如借助人工神经网络获得的语义分割。附加信息与分别使用的摄像机系统绑定。

US 8,958,630 B1公开一种用于制造用于属于不同对象类型的图像像素的语义分类的分类器的方法。在此，在无监督的学习过程中扩大学习数据的数据库。

US 9,414,048 B2和US 8,330,801 B2公开可以将二维图像和视频序列转换为三维图像的方法。

发明内容

在本发明的范畴中，开发一种以附加信息丰富目标图像的方法，目标摄像机系统已经从场景记录该目标图像。将附加信息分配给源图像或者说该源图像的源像素，源摄像机系统从另一视角从相同的场景记录该源图像。换句话说，源图像已经富含这些附加信息。

附加信息可以是任何类型。例如，附加信息可以包含结合源图像的记录检测的物理测量数据。例如，源摄像机系统可以是包括对可见光敏感的源摄像机和朝向相同观察区域定向的热成像摄像机的摄像机系统。该源摄像机系统然后可以以可见光记录源图像，并且源图像的每个像素分配有来自同时记录的热图像的强度值作为附加信息。

源图像的源像素分配有三维空间中的3D位置，该3D位置对应于源像素在源图像中的位置。因此确定场景的三维表示，在借助源摄像机系统成像时，该三维表示指向所输入的源图像。这种表示不必如传统的三维场景那样在三维空间中是连续的和/或完整的，尤其是因为完全不能从单个二维图像中唯一明确地推断出确定的三维场景。而是存在多个三维场景，在借助源摄像机系统成像时，这些三维场景产生相同的二维图像。因此，从单个源图像中获得的三维表示可以是例如三维空间中的点云，在该点云中，存在与源图像具有的源像素一样多的点，并且在该点云中，此外假设3D空间为空。因此，在将这些点绘制在三维表示中时，三维空间是稀疏占据的。

将分配给源像素的附加信息分配给分别相关的3D位置。因此，在先前所提及的具有附加热成像摄像机的示例中，对应于源图像的三维点云中的每个点都分配有热图像的属于源图像中的相应像素的强度值。

现在，将3D位置分配给目标图像的那些在目标图像中的位置对应于3D位置的目标像素。因此求取，当借助目标摄像机系统记录三维场景时，将3D位置映射到目标图像中的哪些目标像素上。这种分配由目标摄像机系统在空间中的布置与目标摄像机系统的成像特性的相互作用得出。

现在，将分配给3D位置的附加信息分配给相关的目标像素。

以这种方式，可以将最初结合源图像获得的附加信息转移到目标图像上。因此可以使目标图像配备有该附加信息而不必以物理方式重新记录该附加信息。

该方法背后的基本思想是，附加信息(例如在所提及的示例中来自热图像的红外强度)在物理上主要不是与源图像的源像素绑定，而是与三维空间中的相关3D位置绑定。在该示例中，在该3D位置上存在发出红外辐射的材料。该3D位置仅在源图像和目标图像中分别映射到不同的位置上，因为源摄像机和目标摄像机从不同的视角观察该3D位置。该方法利用这种关系，其方式为：针对源图像的源像素，在三维“世界坐标系”中重建3D位置，并且然后将这些3D位置分配给目标图像的目标像素。

在一种特别有利的构型中，选择图像像素的语义分类作为附加信息。例如，这种语义分类可以为每个像素分配像素所属的对象的类型的信息。对象可以是例如车辆、车道、车道标记、车道边界、结构障碍物或交通标志。语义分类通常借助神经网络或其他KI模块进行。训练这些KI模块，其方式为：将多个学习图像输入到这些KI模块中，对于这些学习图像，正确的语义分类分别称为“标定真实数据(ground truth)”。检查由KI模块输出的分类在多大程度上与“标定真实数据”相对应，并且从偏差中进行学习，其方式为：相应地优化KI模块的处理。

“标定真实数据”通常是通过由人对多个图像进行语义分类来获得的。这就是说，人在图像中标记哪些像素属于哪类对象。这个称为“贴标签(Labelling)”的过程既费时又昂贵。到目前为止，以这种方式由人输入(eingepflegt)的附加信息始终与记录学习图像的确切摄像机系统绑定。如果切换到不同类型的摄像机系统，例如从普通的透视摄像机切换到鱼眼摄像机(Fish-Eye-Kamera)，或者如果也仅改变现有摄像机系统的视角，则“贴标签”的过程必须完全从头开始。由于现在可以将对于借助源摄像机系统记录的源图像而言已经存在的语义分类转移到借助目标摄像机系统记录的目标图像上，因此可以继续使用先前结合源图像所投入的工作。

这对于车辆中的应用尤其重要。在驾驶辅助系统和用于至少部分自动化驾驶的系统中，越来越多的摄像机和越来越多的不同摄像机视角投入使用。

如此，例如，在挡风玻璃后面的中间安装前置摄像机是常见的。对于这种摄像机视角，存在大量呈由人语义分类的图像形式的“标定真实数据”，并且目前仍然始终制作。然而，此外，例如在散热器区域的前部区域中、在侧视镜中或在尾门中也出现越来越多的系统，这些系统除了前置摄像机系统之外还包含其他摄像机。借助前置摄像机的记录和相关的“标定真实数据”进行训练的神经网络现在提供其余摄像机从其不同角度看到的内容的语义分类。这种语义分类可以作为“标定真实数据”用于借助这些其余摄像机的记录来训练神经网络。因此，结合作为源摄像机的前置摄像机获取的“标定真实数据”可以继续用于训练作为目标摄像机的其余摄像机。因此，为了训练多个摄像机，只需获取一次“标定真实数据”，即用于获取“标定真实数据”的开销不随着摄像机和视角的数量而成倍增加。

可以以任何方式将源像素分配给3D位置。例如，针对至少一个源像素，可以由时间程序求取相关的3D位置，源摄像机系统的至少一个源摄像机根据该时间程序在空间中运动。例如，可以使用“运动恢复结构(Structure from Motion)”算法，以便将单个源摄像机的运动的时间程序转换为源像素与3D位置的分配。

在一种特别有利的构型中，选择具有至少两个源摄像机的源摄像机系统。一方面，然后可以通过对由两个3D摄像机记录的源图像进行立体分析处理来求取与源像素相关的3D位置。至少两个源摄像机尤其可以包含在立体摄像机系统中，该立体摄像机系统为每个像素直接提供深度信息。这种深度信息可以用于将源图像的源像素直接分配给3D位置。

另一方面，也可以将由两个源摄像机记录的源图像的源像素合并，以便将附加信息分配给目标图像的更多目标像素。由于源摄像机系统和目标摄像机系统的视角不同，因此两个摄像机系统并不恰好成像三维场景的相同区段。因此，如果将附加信息从单个源图像的所有源像素转移到目标图像的目标像素，由此并不覆盖目标图像的所有目标像素。因此，将存在尚未分配附加信息的目标像素。如果使用多个源摄像机，优选两个或三个源摄像机，则可以填补目标图像中与此有关的空白。然而，对于基于目标图像训练神经网络或其他KI模块，这不是绝对必要的。特别地，在这类训练中，可以通过在训练中所使用的质量度量(例如误差函数)将目标图像的没有附加信息的目标像素从评估中排除。

在该系统的另一构型中，为了获得源摄像机系统和目标摄像机系统观察到的3D结构，任何一个3D传感器都可以提供一个点云，该点云借助合适的校准方法在3D空间中定位源像素和目标像素，并且因此确保训练信息从源系统到目标系统的可转移性。

仅确定观察场景的连接3D结构以用于训练的可能的其他3D传感器可以是附加的成像的飞行时间(Time-of-Flight，TOF)传感器或激光雷达传感器。

在另一有利的构型中，选择同时记录的源图像和目标图像。以这种方式确保，尤其是在具有运动对象的动态场景中，除了不同的摄像机视角之外，源图像和目标图像成像出相同的场景状态。相反，如果在源图像与目标图像之间存在时间偏移，则在一个图像中仍然存在的对象在记录另一图像时可能已经从检测区域中消失。

在一种特别有利的构型中，选择以相对于彼此固定的相对取向安装在同一车辆上的源摄像机系统和目标摄像机系统。尤其是在车辆中和车辆上的应用中，观察到的场景通常是动态的。如果两个摄像机系统以相对于彼此固定的相对取向安装，则尤其可以同时进行图像记录。两个摄像机系统的固定连接导致两个摄像机系统之间的视角差异在行驶中保持不变。

如先前所阐述的那样，附加信息从源图像到目标图像的转移是有用的，而不管附加信息具体存在于哪里。然而，一个重要的应用是将为了处理一个摄像机系统的图像而借助KI模块生成的“标定真实数据”继续用于处理另一摄像机系统的图像。

因此，本发明还涉及一种用于训练KI模块的方法，该KI模块通过在内部处理链中的处理将附加信息分配给由摄像机系统记录的图像和/或这种图像的像素。该附加信息尤其可以是图像像素的分类。KI模块的内部处理链尤其可以包含人工神经网络(künstlichesneuronales Netzwerk，KNN)。

内部处理链的行为由参数确定。在训练KI模块时优化这些参数。在KNN的情况下，参数可以是例如神经元接收到的输入相互加权的权重。

在训练时，将学习图像输入到KI模块中。将由KI模块输出的附加信息与分配给相应学习图像的学习附加信息进行比较。将该比较的结果用于匹配参数。例如，误差函数(损失函数)可以取决于在比较中求取的偏差，并且可以以最小化该误差函数为目标来优化参数。为此可以使用任何多元优化方法，例如梯度下降法。

借助先前所描述的方法将学习附加信息至少部分地分配给学习图像的作为目标像素的像素。这就是说，将所创建的学习附加信息继续用于另一摄像机系统和/或从不同视角进行观察的摄像机系统。因此，用于与经训练的KI模块结合使用的具体摄像机系统的“标定真实数据”的生成可以至少部分地自动化。由于手动生成“标定真实数据”非常耗费人力，因此KI模块和新摄像机系统的组合的开发成本显著降低。此外，还降低误差易发性

因为一次检查的“标定真实数据”可以多次继续使用。

该方法可以尤其在计算机和/或控制设备上执行并且就此而言体现在软件中。该软件是具有客户利益的独立产品。因此，本发明还涉及一种具有机器可读指令的计算机程序，当在计算机和/或控制设备上实施该指令时，该指令促使计算机和/或控制设备实施所述的方法之一。

下面基于附图结合对本发明的优选实施例的描述进一步示出改进本发明的其他措施。

附图说明

附图示出：

图1示出方法100的实施例；

图2示出示例性的源图像21；

图3示出将源图像21示例性地转换为三维空间中的点云；

图4示出具有从源图像21转移的附加信息4、41、42的示例性的目标图像31；

图5示出车辆6上的源摄像机系统2和目标摄像机系统3的示例性布置；

图6示出方法200的实施例。

具体实施方式

根据图1，在方法100的步骤110中，将源图像21的源像素21a分配给三维空间中的3D位置5。在此，根据框111，针对至少一个源像素21a，可以由时间程序求取相关的3D位置5，源摄像机系统2的至少一个源摄像机根据该时间程序在空间中运动。替代于此或也与此结合，根据框112，针对至少一个源像素21a，可以通过对由两个源摄像机记录的源图像21的立体分析处理来求取相关的3D位置5。

后一选项的前提是，在步骤105中已经选择具有至少两个源摄像机的源摄像机系统。此外，根据可选的步骤106，可以选择已经同时记录的源图像21a和目标图像31a。根据该可选的步骤107，还可以选择源摄像机系统2和目标摄像机系统3，该源摄像机系统和该目标摄像机系统以相对于彼此固定的相对取向61安装在同一车辆6上。

在步骤120中，将分配给源图像21的源像素21a的附加信息4、41、42分配给分别相关的3D位置5。在步骤130中，将3D位置分配给目标图像31的以下目标像素31a：在目标图像31中，该目标像素的位置对应于3D位置5。在步骤140中，将分配给3D位置5的附加信息4、41、42分配给相关的目标像素31a。

在图2至4中进一步阐述该过程。

图2以坐标方向x和y示出二维源图像21，源摄像机系统2已经从场景1记录到该二维源图像。对源图像21进行语义分割。因此，在图2中所示出的示例中，针对源图像21的部分区域获取附加信息4、41，该部分区域属于存在于场景1中的车辆11。针对源图像21的其他部分区域获取附加信息4、42，这些部分区域属于存在于场景1中的车道标记12。源图像21的单个像素21a在图2中示例性地标记。

在图3中，将源像素21a转换为三维空间中的3D位置5，其中，针对来自图2的目标像素21a，这以附图标记5来表示。如果针对源像素21a已经存储有附加信息4、41，即源像素21a属于车辆11，则也将该附加信息4、41分配给相应的3D位置5。如果关于源像素21a已经存储有附加信息4、42，即源像素21a属于车道标记12，则也将该附加信息4、42指配给相应的3D位置5。这由不同的符号表示，在图3中所示出的点云中，以这些符号表示相应的3D位置5。

在图3中仅画出与源图像21中的源像素21a一样多的3D位置5。因此，图3中的三维空间没有完全填充，而是仅由点云稀疏地占据。尤其是仅示出车辆11的后部区域，因为在图2中也仅该区域可见。

在图3中还标明，图2中所示出的源图像21是从视角A记录的。作为不要求实际适用性的纯粹说明性的示例，目标图像31是从图3中所标明的视角B记录的。

该示例性的目标图像31在图4中示出。在此示例性地标明，源像素21a最终间接地(auf dem Umweg)通过相关的3D位置5分配给目标像素31a。与此相应地，如下所有目标像素31a都间接地通过相关的3D位置5分配有附加信息4、41、42：针对这些目标像素，在图2中存在相关的源像素21a，这些源像素具有所存储的附加信息4、41、42。因此，就此而言投入到源图像21的语义分割中的工作已经完全再用。

如在图4中所表明的那样，与在源图像的视角A中相比，在此处所示出的视角B中可以看到车辆11的更多部分。但是，附加信息4、41(源像素21a属于车辆11)仅关于车辆11的在图2中可以看到的后部区域被检测到。因此，在图4中以虚线标明的、车辆11的前部区域不配备有该附加信息4、41。这个极端的、所构建的示例示出，将来自多个源摄像机的源图像21结合以便使目标图像31的尽可能多的目标像素31a配备有附加信息4、41、42是有利的。

图5示出源摄像机系统2和目标摄像机系统3的示例性布置，该源摄像机系统和该目标摄像机系统两者以相对于彼此固定的相对取向61安装在同一车辆6上。在图5中所示出的示例中，该固定的相对取向61由刚性的测试载体预先规定。

源摄像机系统2从第一视角A‘观察场景1。目标摄像机系统3从第二视角B‘观察相同的场景1。所描述的方法100使得能够实现：结合源摄像机系统2获取的附加信息4、41、42能够在目标摄像机系统3的上下文中使用。

图6示出用于训练KI模块50的方法200的一种实施例。KI模块50包括内部处理链51，其行为由参数52确定。

在方法200的步骤210中，将具有像素53a的学习图像53输入到KI模块50中。KI模块50为这些学习图像提供附加信息4、41、42，例如语义分割。根据步骤215，借助方法100将学习数据54(针对给定的学习图像53，分别预期哪个附加信息4、41、42)转移到记录学习图像53的视角中。

在步骤220中，将实际由KI模块50提供的附加信息4、41、42与学习附加信息54进行比较。在步骤230中使用比较220的结果220a，以便优化KI模块50的内部处理链51的参数52。

Claims

1.一种用于以附加信息(4，41，42)丰富目标图像(31)的方法(100)，目标摄像机系统(3)已经从场景(1)记录所述目标图像，源摄像机系统(2)已经从另一视角从相同场景(1)记录的至少一个源图像(21)已经富含所述附加信息，所述方法具有以下步骤：

·将所述源图像(21)的源像素(21a)分配给三维空间中的3D位置(5)(110)，所述3D位置对应于所述源像素(21a)在所述源图像(21)中的位置；

·将分配给所述源像素(21a)的附加信息(4，41，42)分配给分别相关的3D位置(5)(120)；

·将所述3D位置(5)分配给所述目标图像(31)的那些在所述目标图像(31)中的位置对应于所述3D位置(5)的目标像素(31a)(130)；

·将分配给所述3D位置(5)的附加信息(4，41，42)分配给相关的目标像素(31a)(140)。

2.根据权利要求1所述的方法(100)，其中，针对至少一个源像素(21a)，由时间程序求取相关的3D位置(5)(111)，所述源摄像机系统(2)的至少一个源摄像机根据所述时间程序在空间中运动。

3.根据权利要求1或2所述的方法(100)，其中，选择具有至少两个源摄像机的源摄像机系统(2)(105)。

4.根据权利要求3所述的方法(100)，其中，针对至少一个源像素(21a)，通过对由两个源摄像机记录的源图像(21)的立体分析处理来求取相关的3D位置(5)(112)。

5.根据权利要求3或4所述的方法(100)，其中，将由两个源摄像机记录的源图像(21)的源像素合并，以便将附加信息(4，41，42)分配给所述目标图像(31)的更多目标像素(31a)。

6.根据权利要求1至5中任一项所述的方法(100)，其中，选择同时记录的源图像(21a)和目标图像(31a)(106)。

7.根据权利要求1至6中任一项所述的方法(100)，其中，选择以相对于彼此固定的相对取向(61)安装在同一车辆(6)上的源摄像机系统(2)和目标摄像机系统(3)(107)。

8.一种用于训练KI模块(50)的方法(200)，所述KI模块通过在内部处理链(51)中的处理将附加信息(4，41，42)分配给由摄像机系统(3)记录的图像(31)和/或这种图像(31)的像素(31a)，其中，所述内部处理链(51)的行为由参数(52)确定，其中，

·将学习图像(53a)输入到所述KI模块(50)中(210)；

·将由所述KI模块(50)输出的附加信息(4，41，42)与分配给相应学习图像(53)的学习附加信息(54)进行比较(220)；

·将所述比较(220)的结果(220a)用于匹配所述参数(52)(230)；

·借助根据权利要求1至5中任一项所述的方法(100)将所述学习附加信息(54)至少部分地分配给所述学习图像(53)的作为目标像素(31a)的像素(53a)(215)。

9.根据权利要求1至8中任一项所述的方法(100，200)，选择图像像素(21a，31a)的语义分类作为附加信息(4，41，42)。

10.一种计算机程序，所述计算机程序包含机器可读的指令，当在计算机和/或控制设备上实施所述指令时，所述指令促使所述计算机和/或所述控制设备实施根据权利要求1至9中任一项所述的方法(100，200)。