CN117280390A

CN117280390A - 用于预测对象的对象数据的方法和装置

Info

Publication number: CN117280390A
Application number: CN202280031643.5A
Authority: CN
Inventors: A·马科斯-拉米罗; M-A·尼库埃·马哈妮; A·莱纳; J·尼德迈耶; B·希尔森贝克; M·施密特
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2021-04-28
Filing date: 2022-03-30
Publication date: 2023-12-22
Also published as: US20240212206A1; DE102021110824A1; WO2022228809A1

Abstract

本发明涉及一种用于确定与至少一个图像相机的周围环境中的对象相关的对象数据的装置。该装置被设置为借助于神经编码器网络基于图像相机在第一时间点的至少一个图像来确定基于相机的特征张量。此外，该装置被设置为将基于相机的特征张量从图像的图像平面变换和/或投影到图像相机的周围环境的环境网格的网格平面上，以确定变换后的特征张量。此外，该装置还被设置为借助于神经评估网络基于变换后的特征张量确定与图像相机的周围环境中的对象相关的对象数据，其中对象数据包括对象在第一时间点的后续时间点的一个或多个预测属性。

Description

用于预测对象的对象数据的方法和装置

技术领域

本发明涉及例如使得车辆可以基于一个或多个相机的图像数据来确定与一个或多个相机的周围环境中的一个或多个对象相关的对象数据的预测的方法和相应装置。

背景技术

车辆通常包括多个不同的环境传感器，其被设置为采集关于车辆周围环境的不同传感器数据。示例性的环境传感器是激光雷达传感器、图像传感器或图像相机、雷达传感器、超声波传感器等。基于车辆的一个或多个环境传感器的传感器数据，可以检测并在必要时追踪车辆的周围环境中的一个或多个环境对象(例如一个或多个其他车辆)。

发明内容

本文的技术目的在于，基于一个或多个图像相机的图像数据使得可以特别可靠和/或精确地追踪一个或多个对象。

该目的通过每个独立权利要求来实现。尤其在从属权利要求中说明了有利的实施方式。需要指出，从属于独立权利要求的权利要求的附加特征在没有独立权利要求的特征的情况下或者仅在与独立权利要求的特征子集相组合的情况下可以构成独立于独立权利要求的所有特征组合的单独发明，其可以成为独立权利要求、分案申请或后续申请的主题。这同样适用于说明书中所述的技术理论，其可以形成独立于独立权利要求的特征的发明。

根据一个方面，描述了一种用于确定与至少一个图像相机的周围环境中的(至少)一个对象相关的对象数据的装置。示例性的对象是车辆周围环境中的障碍物和/或其他道路使用者。图像相机可以被设计为采集与图像相机前面的周围环境相关的图像，特别是图像的时间序列。各个图像可以排列在(二维、2D)图像平面中。各个图像特别是可以在特定的图像平面中具有像素，例如像素矩阵。

图像相机可以安装在车辆中(例如作为车辆的前置相机)。车辆可以被设计为在车道上移动。图像相机的图像平面可以被布置为(必要时基本上或至少部分地)垂直于车道。

该装置被设置为借助于神经编码器网络(例如借助于预先训练的卷积神经网络)基于图像相机在第一时间点的至少一个图像来确定基于相机的特征张量。基于相机的特征张量可以包括图像相机的图像平面内的一个或多个特征。本文中所述的特征张量可以具有两个或多个维度。在特殊情况下，特征张量可以是或可以包括特征矩阵。例如，特征张量可以具有多个平面的特征矩阵。在这种情况下，特征张量可以是三维的。在此，每个平面可以分别具有不同类型的特征。

该装置还被设置为将基于相机的特征张量从图像的图像平面变换和/或投影到图像相机的周围环境的环境网格的网格平面上，以确定变换后的特征张量(具有网格平面中的一个或多个特征)。网格平面可以被布置为平行于车道。网格平面可以对应于周围环境的鸟瞰图(BEV)。基于相机的特征张量可以借助于时不变和/或预定的变换从图像的图像平面变换和/或投影到图像相机周围环境的环境网格的网格平面上。在Roddick、Thomas、AlexKendall和Roberto Cipolla的“用于单目3d对象检测的正交特征变换”(英国机器视觉会议(2019年)中说明了一个示例性的变换。变换该文件中称为“正交特征变换”。该文件的内容通过引用纳入本说明书中。

此外，该装置被设置为借助于神经评估网络基于变换后的特征张量来确定与图像相机的周围环境中的对象相关的对象数据。在此，对象数据可以包括对象在第一时间点的后续时间点的一个或多个预测属性。例如，第一时间点可以是时间点n，后续时间点可以是时间点n+1。该装置可以被设置为重复性地、特别是周期性地在时间点n、n+1、n+2等的序列上确定对象数据。

对象的一个或多个预测属性可以包括对象在后续时间点的位置和/或定向，特别是环境网格内的位置和/或定向。替代地或附加地，对象的一个或多个预测属性可以包括对象在后续时间点所占用的环境网格的一个或多个单元格(以便由此描述对象的位置和/或定向)。替代地或附加地，对象的一个或多个预测属性可以包括对象在后续时间点对于环境网格的一个或多个单元格的占用概率和/或证据群。

因此，说明了一种如下装置，其通过使用神经编码器网络、(固定的)变换和神经评估网络使得可以基于图像相机的图像以精确且鲁棒的方式预测在鸟瞰平面上的关于一个或多个对象的(三维、3D)对象数据。在此，特别是可以在鸟瞰视图平面内(而不是(仅)在图像平面内)预测对象在后续时间点n+1的3D位置和/或3D定向。在此，必要时可以仅基于一个或多个相机的图像来进行预测。然后，可以将所预测的对象数据(特别是所预测的位置和/或定向)用于一个或多个对象的可靠且鲁棒的追踪。

神经编码器网络和神经评估网络通常借助于所标记的训练数据进行预先训练，在此训练数据包括大量训练数据集。在此，各个训练数据集可以分别包括：图像相机的训练图像，其具有在一个训练时间点的一个或多个(其中示出的)训练对象；以及对象数据，其具有该一个或多个训练对象在相应训练时间点的后续时间点的一个或多个实际属性。

可以通过使用学习方法和误差函数基于训练数据来训练网络的各个参数。在此，该装置可以用于为训练数据集确定一个或多个训练对象的一个或多个预测属性，然后将其与训练数据集中的一个或多个实际属性进行比较以确定误差函数。然后可以使用误差函数来调整装置的神经网络的各个参数，以便在确定对象数据时逐渐提高装置的质量。

该装置可以被设置为将图像相机的多个在时间上连续的图像组合、特别是叠加或排列成对于第一时间点的整体图像。多个在时间上连续的图像可在第一时间点之前或最迟在第一时间点处被图像相机采集。由此可以对图像相机的图像的时间序列进行查看和组合。然后可以借助神经编码器网络基于整体图像来确定基于相机的特征张量。通过查看图像的时间序列，可以以更高的精度确定(在图像中所示的)对象的一个或多个预测属性(特别是关于垂直于图像相机的图像平面的深度信息)。

替代地或附加地，该装置可以被设置为对于图像相机的多个在时间上连续的图像借助于神经编码器网络来确定相应的多个基于相机的特征张量。在此，多个在时间上连续的图像可以覆盖时间上在第一时间点之前和/或直到第一时间点延伸的采集时间段。因此，可以单独分析图像的时间序列的各个图像，以便分别确定具有图像相机的图像平面中的特征的基于相机的特征张量。

该装置还可以被设置为在多个基于相机的特征张量的基础上确定相应的多个变换后的特征张量。为此可以相应地使用上述变换。

此外，该装置可以被设置为确定与图像相机在采集时间段期间的移动相关的里程计数据。如上所述，图像相机可以安装在车辆中。于是，图像相机的移动可以对应于车辆的移动，并且可以例如基于车轮传感器、惯性测量单元、速度传感器、加速度传感器等来确定与车辆的移动相关的里程计数据。

然后可以通过考虑里程计数据来组合、特别是融合多个变换后的特征张量，以便确定组合的变换后的特征张量。在此，可以基于里程计数据来识别(并融合)各个变换后的特征张量中的相应特征。然后可以借助于神经评估网络基于组合的变换后的特征张量以特别精确的方式确定与图像相机的周围环境中的对象相关的对象数据。

该装置可以被设置为基于图像相机的后续时间点的至少一个图像来确定对象在后续时间点的、对应于一个或多个预测属性的一个或多个更新属性。然后，可以基于一个或多个预测属性并且基于一个或多个更新属性、特别是基于一个或多个更新属性与相应的一个或多个预测属性的比较，以精确且鲁棒的方式在连续的时间点追踪对象。

该装置可以被设置为借助于另一神经编码器网络基于一个或多个环境传感器(例如激光雷达传感器和/或雷达传感器)在第一时间点的基于网格的传感器数据来确定基于网格的特征张量。由此可以使用一个或多个环境传感器的传感器数据，其被设计为感测与直接在网格平面内的对象相关的信息。

然后可以基于变换后的特征张量并且基于网格的特征张量、特别是通过级联和/或通过相加来确定融合的特征张量。然后可以借助于神经评估网络基于融合的特征张量以特别精确且鲁棒的方式确定与图像相机的周围环境中的对象相关的对象数据。

根据另一方面，描述了一种包括本文所述装置的(道路)机动车辆(特别是乘用车或卡车或公共汽车或摩托车)。

根据另一方面，描述了一种用于确定与至少一个图像相机的周围环境中的对象相关的对象数据的方法。该方法包括借助于神经编码器网络基于图像相机在第一时间点的至少一个图像来确定基于相机的特征张量。此外，该方法还包括将基于相机的特征张量从图像的图像平面变换和/或投影到图像相机的周围环境的环境网格的网格平面上，以便确定变换后的特征张量。此外，该方法还包括借助于神经评估网络基于变换后的特征张量来确定与图像相机的周围环境中的对象相关的对象数据。在此，对象数据可以包括对象在第一时间点的后续时间点的一个或多个预测属性。

根据另一方面，描述了一种软件(SW)程序。软件程序可以被设置为在处理器上(例如在车辆控制设备上)运行，从而执行本文所述的方法。

根据另一方面，描述了一种存储介质。该存储介质可以包括软件程序，其被配置为在处理器上运行从而执行本文中所述的方法。

需要指出，本文所述的方法、装置和系统既可以单独使用，也可以与本文所述的其他方法、装置和系统组合使用。此外，本文中所述的方法、装置和系统的任何方面均可以彼此以多种方式组合。特别是权利要求的特征可以彼此以多种方式组合。

附图说明

下文中将借助于实施例进一步更详细地说明本发明。其中：

图1示出了具有一个或多个环境传感器的示例性车辆；

图2示出了与车辆的周围或环境相关的示例性环境网格；

图3a示出了可用于识别和/或追踪对象的示例性输入数据；

图3b示出了用于基于图像数据识别和/或追踪对象的示例性装置；

图4示出了在追踪对象时对图像序列的示例性考虑；并且

图5示出了用于基于图像数据来预测与对象相关的对象数据的示例性方法的流程图。

具体实施方式

如开头所述，本文涉及基于一个或多个环境传感器的传感器数据对对象进行可靠且精确的检测和/或追踪。就此而言，图1示出了具有一个或多个用于采集传感器数据的环境传感器111、112的车辆100。示例性的环境传感器111、112是一个或多个激光雷达传感器、一个或多个雷达传感器、一个或多个图像相机等。

车辆100包括装置(或处理单元)101，其被设置为基于传感器数据检测和追踪车辆100的周围环境中的对象150。所检测的对象150、特别是关于对象150的对象数据可以被考虑在驾驶功能102中(例如用于车辆100的半自动或高度自动驾驶)。

车辆100的本地环境可以被估计或显示为占用网格地图或(占用)网格200(见图2)。图2示出了车辆100的附近或周围环境的示例性网格200，其具有多个网格单元或简称为单元201。网格200可以将车辆100的附近或周围环境划分为多个二维(2D)或三维(3D)单元201。在此，二维单元201可以具有矩形形状(例如边长为10cm、5cm、2cm、1cm或更短)。

车辆100的处理单元101可以被配置为基于传感器数据为一个或多个单元201(特别是为每个单元201)确定如下数据，其表明单元201在特定时间点t是否被占用。单元201的数据特别是可以表明

z_c＝(m(O),m(F))，

其中m({O})为单元c 201被对象150(例如静态或动态对象)占用的证据或证据群，并且其中m(F)为单元c 201是空的从而未被对象150占用的证据。单元201被对象150占用的证据可以被视为单元201被对象150占用的对象概率(特别是在登普斯特-谢弗理论的意义上)。

由此可以基于一个或多个环境传感器111的传感器数据来确定具有多个单元201的网格200，其中各个单元201可以显示如下信息或数据：

·相应单元201是否被对象占用；和/或

·相应单元201是被动态对象占用还是被静态对象占用；和/或

·对象在相应单元201中的高度。

网格200可以特别是基于激光雷达传感器和/或雷达传感器111的传感器数据来确定。(环境)网格200的数据也可以被称为与周围环境相关的鸟瞰图(BEV)数据，因为网格200以俯视图从上方描述周围环境。

如上所述，车辆100可以具有不同类型的环境传感器111、112。车辆100特别是可以包括一个或多个可借以直接确定BEV环境网格200的数据(如图3a所示)的环境传感器111(例如激光雷达传感器和/或雷达传感器)。此外，车辆100可以包括一个或多个可借以采集周围环境的二维(2D)图像300的环境传感器112(特别是一个或多个相机)。在此，图像300对周围环境的透视不同于BEV环境网格200的透视(如图3a右侧所示)。

图3b示出了示例性的检测和/或预测装置310，其被设置为融合来自不同类型的环境传感器111、112的传感器数据和/或信息，以便以更高的精度确定、特别是对于未来的时间点预测关于一个或多个对象150的对象数据330。

装置310包括第一神经编码器网络311，其被设置为基于环境传感器111的传感器数据320(其在环境网格200内被提供)来确定(基于网格的)第一特征张量313。此外，装置310包括一个或多个第二神经编码器网络312，其分别被配置为基于一个或多个相机112的一个或多个图像300来分别确定(基于相机的)第二特征张量314。

可以通过变换315将一个或多个(基于相机的)第二特征张量314投影到网格200上，以提供一个或多个相应的变换后的特征张量319。在Roddick、Thomas、Alex Kendall和Roberto Cipolla的“用于单目3d对象检测的正交特征变换”(arXiv预印本arXiv:1811.08188(2018)或英国机器视觉大会(2019))中描述了示例性的变换315。该文件的内容通过引用纳入本说明书中。

然后，可以在融合单元316中例如通过级联和/或相加将(基于网格的)第一特征张量313与一个或多个变换后的特征张量319融合，以便提供融合的特征张量317。然后可以基于融合的特征张量317借助于评估网络318来确定一个或多个对象150的对象数据330。

装置310的神经网络311、312、318可以基于被标记的训练数据并且必要时通过使用反向传播算法进行训练。

在图3b所示的装置310中，基于网格的环境数据320、例如激光雷达传感器和/或雷达传感器111的数据的处理是可选的。装置310可以被配置为仅基于与一个或多个对象150相关的基于相机的数据300来确定对象数据330。

由装置310确定的对象数据330可以包括对已经检测到的对象150的一个或多个属性的预测或预报。在此，后续时间点的一个或多个属性可以根据一系列时间点进行预测。装置310可以被设置为分别基于当前的输入数据300、320重复性地、特别是周期性地分别确定当前的对象数据330。因此，例如可以分别针对一系列时间点n来确定对象数据330。装置310可以被配置为基于时间点n的输入数据300、320来预测对象150在后续时间点n+1的一个或多个属性。然后，一个或多个预测属性可以用于对象150的追踪(英语为“Tracking”)。

对象150的示例性属性为：

·对象150的(参考点的)位置；

·对象150的方向或定向；

·被对象150占用的一个或多个单元201；和/或

·一个或多个单元201被对象150占用的占用概率和/或证据群。

对象数据330可以特别是包括基于时间点n的输入数据300、320所预测的后续时间点n+1的占用网格200。此外，对象数据330可以显示所占用的网格单元201和各个对象150之间的关联性。然后，可以将针对后续时间点n+1所预测的占用网格200与基于输入数据300、320针对后续时间点n+1所确定的占用网格200相叠加，以实现对检测到的对象150的特别精确且鲁棒的追踪。在此，特别是将从所预测的占用网格200已知的各个网格单元201与各个对象150的关联性用于针对后续时间点n+1所确定的占用网格200，以便能够在其中定位各个对象150。

如图4所示，基于相机的输入数据300可以具有相机112的图像401、402、403的时间序列。图像401、402、403的时间序列可以被叠加和/或排序，以便通过(神经)编码器网络312来确定基于相机的特征张量314。然后，通过包括例如变换单元316和评估网络318的处理模块410能够以更高的精度来确定对象数据330。

替代地或附加地，可以借助于编码器网络312为各个图像401、402、403分别确定基于相机的特征张量314。然后可以在变换单元315中将各个基于相机的特征张量314分别变换为变换后的特征张量319。

在此，各个变换后的特征张量319分别示出了相应的特征，然而其由于图像相机112、特别是车辆100的移动可能布置在网格200内的不同位置处。基于与图像相机112、特别是车辆100的移动相关的里程计数据，可以执行在各个变换后的特征张量319中的相应特征的精确分配，以便融合变换后的特征张量319并且基于此以更高的精度确定对象数据330。

图5示出了示例性的(必要时计算机实现的)方法500的流程图，其用于确定与一个或多个图像相机112的周围环境中的一个或多个对象150相关的对象数据330。一个或多个图像相机112可以布置在车辆100中。方法500可以由车辆100的控制单元101来执行。

方法500包括借助于神经编码器网络312基于至少一个图像相机112在第一时间点的至少一个图像300来确定501基于相机的特征张量314。编码器网络312可以包括卷积神经网络(CNN)。图像300可以在2D图像平面上显示图像相机112的周围环境。此外，基于相机的特征张量314可以表明2D平面中的特征(相当于2D图像平面)。

此外，方法500包括将基于相机的特征张量314从图像300的(2D)图像平面变换和/或投影502到图像相机112的周围环境的环境网格200的网格平面上，以确定变换后的特征张量319。在此，网格平面可以对应于在图像相机112前方的周围环境的BEV平面。作为变换，可以使用上文所述的变换。在此，变换可以(必要时仅)取决于图像平面和网格平面彼此之间的几何布置。

此外，方法500还包括借助于神经评估网络318基于变换后的特征张量319确定503与图像相机112的周围环境中的对象150相关的对象数据330。在此，对象数据330可以包括对象150在第一时间点的后续时间点的一个或多个预测属性。因此，可以对在图像300中所示的对象150在未来的一个或多个属性进行预测。由此可以使得能够特别精确且鲁棒地追踪对象150。

本发明不限于所示的实施例。特别应注意的是，说明书和附图旨在仅示例性地说明所提出的方法、装置和系统的原理。

Claims

1.一种用于确定与至少一个图像相机(112)的周围环境中的对象(150)相关的对象数据(330)的装置(101、310)，其中所述装置(101、310)被设置为：

–借助于神经编码器网络(312)基于所述图像相机(112)在第一时间点的至少一个图像(300)来确定基于相机的特征张量(314)；

–将所述基于相机的特征张量(314)从所述图像(300)的图像平面变换和/或投影到所述图像相机(112)的周围环境的环境网格(200)的网格平面上，以确定变换后的特征张量(319)；并且

–借助于神经评估网络(318)基于所述变换后的特征张量(319)确定与所述图像相机(112)的周围环境中的所述对象(150)相关的对象数据(330)，其中所述对象数据(330)包括所述对象(150)在所述第一时间点的后续时间点的一个或多个预测属性。

2.根据权利要求1所述的装置(101、310)，其中所述对象(150)的所述一个或多个预测属性包括所述对象(150)在所述后续时间点的位置和/或定向，特别是在所述环境网格(200)内的位置和/或定向。

3.根据前述权利要求中任一项所述的装置(101、310)，其中所述对象(150)的所述一个或多个预测属性包括：

–所述环境网格(200)的在所述后续时间点被所述对象(150)占用的一个或多个单元(201)；和/或

–所述对象(150)在所述后续时间点对所述环境网格(200)的一个或多个单元(201)的占用概率和/或证据群。

4.根据前述权利要求中任一项所述的装置(101、310)，其中借助于时不变的和/或预先规定的变换将所述基于相机的特征张量(314)从所述图像(300)的图像平面变换和/或投影到所述图像相机(112)的周围环境的所述环境网格(200)的网格平面上。

5.根据前述权利要求中任一项所述的装置(101、310)，其中–利用被标记的训练数据预先训练所述神经编码器网络(312)和所述神经评估网络(317)；

–所述训练数据包括多个训练数据集；并且

–训练数据集分别包括：所述图像相机(112)的训练图像(300)，具有在一个训练时间点的一个或多个训练对象(150)；和对象数据(330)，具有所述一个或多个训练对象(150)在所述训练时间点的后续时间点的一个或多个实际属性。

6.根据前述权利要求中任一项所述的装置(101、310)，其中所述装置(101、310)被设置为：

–将所述图像相机(112)的多个在时间上连续的图像(401、402、403)组合、特别是叠加或排列成对于所述第一时间点的整体图像(300)，其中所述多个在时间上连续的图像(401、402、403)在所述第一时间点之前或最迟在所述第一时间点被所述图像相机(112)采集；并且

–借助于所述神经编码器网络(312)基于所述整体图像(300)来确定所述基于相机的特征张量(314)。

7.根据前述权利要求中任一项所述的装置(101、310)，其中所述装置(101、310)被设置为：

–对于所述图像相机(112)的多个在时间上连续的图像(401、402、403)借助于所述神经编码器网络(312)来确定相应的多个基于相机的特征张量(314)，其中所述多个在时间上连续的图像(401、402、403)覆盖时间上在所述第一时间点之前和/或直到所述第一时间点延伸的采集时间段；

–基于所述多个基于相机的特征张量(314)，确定相应的多个变换后的特征张量(319)；

–确定与所述图像相机(112)在所述采集时间段期间的移动相关的里程计数据；

–通过考虑所述里程计数据来组合、特别是融合所述多个变换后的特征张量(319)，以便确定组合的变换后的特征张量；并且

–借助于所述神经评估网络(318)基于所述组合的变换后的特征张量确定与所述图像相机(112)的周围环境中的所述对象(150)相关的所述对象数据(330)。

8.根据前述权利要求中任一项所述的装置(101、310)，其中所述装置(101、310)被设置为：

–基于所述图像相机(112)在所述后续时间点的至少一个图像(300)来确定所述对象(150)在所述后续时间点的、对应于所述一个或多个预测属性的一个或多个更新属性；并且

–基于所述一个或多个预测属性并且基于所述一个或多个更新属性、特别是基于所述一个或多个更新属性与相应的所述一个或多个预测属性的比较，在连续的时间点追踪所述对象(150)。

9.根据前述权利要求中任一项所述的装置(101、310)，其中所述装置(101、310)被设置为：

–借助于另一神经编码器网络(311)基于一个或多个环境传感器(111)在所述第一时间点的基于网格的传感器数据来确定基于网格的特征张量(313)；

–基于所述变换后的特征张量(319)并且基于所述基于网格的特征张量(313)、特别是通过级联和/或通过相加，确定融合的特征张量(317)；并且

–借助于所述神经评估网络(318)基于所述融合的特征张量(417)来确定与所述图像相机(112)的周围环境中的所述对象(150)相关的所述对象数据(330)。

10.一种用于确定与至少一个图像相机(112)的周围环境中的对象(150)相关的对象数据(330)的方法(500)，其中所述方法(500)包括：

–借助于神经编码器网络(312)基于所述图像相机(112)在第一时间点的至少一个图像(300)来确定(501)基于相机的特征张量(314)；

–将所述基于相机的特征张量(314)从所述图像(300)的图像平面变换和/或投影(502)到所述图像相机(112)的周围环境的环境网格(200)的网格平面上，以确定变换后的特征张量(319)；并且

–借助于神经评估网络(318)基于所述变换后的特征张量(319)确定(503)与所述图像相机(112)的周围环境中的所述对象(150)相关的对象数据(330)，其中所述对象数据(330)包括所述对象(150)在所述第一时间点的后续时间点的一个或多个预测属性。