CN112020725A

CN112020725A - 用于根据输入图像来确定深度信息图像的方法和设备

Info

Publication number: CN112020725A
Application number: CN201980029633.6A
Authority: CN
Inventors: K·格罗
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-05-03
Filing date: 2019-04-10
Publication date: 2020-12-01
Also published as: US20210042946A1; US11580653B2; DE102018206848A1; WO2019211068A1; EP3788552A1

Abstract

本发明涉及一种用于确定输入图像（B）的深度信息图像以便尤其是根据所述深度信息图像来操控车辆功能的方法，其中所述输入图像（B）借助于卷积神经网络（2）来被处理，其中所述卷积神经网络（2）具有多个层，所述层按顺序来处理所述输入图像（B）并且分别将输入特征图（MKI）转化成输出特征图（MKO），其中这些层中的至少一个层构造为深度图层，其中所述深度信息图像根据深度图层来被确定，其中在所述深度图层（22）中，将所述深度图层（22）的输入特征图（MKI）与多个缩放滤波器（23、23a、23b、23c）进行卷积，以便获得相应的缩放图（24a、24b、24c）；将多个缩放图（24a、24b、24c）逐像素地进行比较，以便生成相应的输出特征图（MKO），在所述输出特征图中，每个像素都对应于来自所述缩放图（24a、24b、24c）中的所选择的缩放图的相对应的像素；生成缩放特征图（SK），其方式是所述缩放特征图（SK）的每个像素都被分配给如下说明，所述说明说明了从中选择所述输出特征图（MKO）的像素的那个缩放图（24a、24b、24c）；其中所述深度信息图像对应于所述缩放特征图（SK）或者根据所述缩放特征图（SK）来被确定。

Description

用于根据输入图像来确定深度信息图像的方法和设备

技术领域

本发明涉及用于图像处理的方法、尤其是用于根据所提供的图像来确定深度信息的方法。本发明还涉及用于实现技术系统、尤其是机器人、车辆、工具或工作机的功能的方法或者用于基于深度信息图像来控制车辆功能的方法，其中所述功能根据周围环境的深度信息图像来被实施。

背景技术

技术系统、尤其是机器人、车辆、工具或工作机的功能是公知的，其中这些功能根据周围环境的深度信息图像来被实施。例如，受车辆或外部装置控制的自主或半自主车辆功能以对机动车周围环境中的空地、车辆和人或其它对象的可靠识别为基础。为了在机动车中实现这种驾驶功能，借助于一个或多个摄像机或者其它图像检测装置对周围环境的图像检测是基本前提。

所检测到的摄像机图像以适当的方式来被分析，以便例如对车辆周围环境进行分割或识别车辆周围环境中的对象。在此，非常重要的是确定所检测到的图像的各个图像点或图像对象的深度信息。深度信息尤其能够实现或简化图像区与各个对象的关联，这有利于对所要调查的图像的可靠的分割。

到目前为止的用于创建这种深度信息图像、也就是配备有深度信息的图像或对应于深度图并且说明参考图像的每个图像点的深度的图像的方法通常使用立体摄像机来检测立体图像。通过标识在所记录的场景中的特征，可以基于两张立体图像之间的图像区别来确定所检测到的特征的距离并且据此来创建深度图。

到目前为止，尚未公知或尚未可靠地实现基于借助于单色摄像机以非立体观测方式检测到的输入图像对深度信息图像的确定。

发明内容

按照本发明，规定了一种根据权利要求1所述的用于根据输入图像来确定深度信息图像的方法以及根据并列权利要求所述的一种设备和一种图像处理系统。

其它的设计方案在从属权利要求中说明。

按照第一方面，规定了一种用于确定输入图像的深度信息图像的方法，其中输入图像借助于卷积神经网络来被处理，其中卷积神经网络具有多个层，这些层按顺序来处理输入图像并且分别将输入特征图转化成输出特征图，其中这些层之一构造为深度图层，其中深度信息图像根据深度图层来被确定，其中在深度图层中，

- 将深度图层的输入特征图与多个缩放滤波器进行卷积，以便获得相应的缩放图；

- 将多个缩放图逐像素地进行比较，以便生成相应的输出特征图，在该输出特征图中，每个像素都对应于来自这些缩放图中的所选择的缩放图的相对应的像素；

- 生成缩放特征图，其方式是缩放特征图的每个像素都被分配给如下说明，该说明说明了从中选择输出特征图的像素的那个缩放图；

其中深度信息图像对应于缩放特征图或者根据缩放特征图来被确定。

所选择的缩放图还可以对应于对于相应的像素来说包含最大像素值的那个缩放图。

上述方法在不同的通过缩放滤波器来预先给定的缩放中使用特征识别。由此，通过分析不同的基于缩放滤波器来获得的被分配给相对应的不同的缩放的缩放图，可以识别在所要调查的图像中的特征以怎样的大小出现。对于特定的所要识别的对象来说，特征的大小于是含有关于属于该特征的对象距检测图像的摄像机的距离多远的信息。因此，通过应用不同缩放的缩放滤波器，特定对象可以与其距进行检测的摄像机的距离无关地通过这些缩放滤波器中的分别至少一个缩放滤波器来被标识。现在，上述方法使用缩放滤波器的对于对象的标识来说决定性的信息，以便据此来估计距相关的对象的距离。

如果通过卷积神经网络的一个或多个层将输入图像的通道与不同的缩放滤波器（内核）进行卷积，则得到如下缩放图，这些缩放图在针对输出特征图的随后的最大池化（Max-Pooling）步骤中被关联。最大池化步骤对应于逐像素地应用的对像素值的最大选择，其中将缩放图的被分配给相同像素的像素值的相应最大值录入到输出特征图中。

同时，在缩放特征图中针对输出特征图的每个像素录入缩放说明，该缩放说明说明了导致最大像素值的那个缩放滤波器。这样，针对卷积神经网络的一个或多个计算层的输入特征图的各个通道来确定缩放特征图。根据一个或多个这样确定的缩放特征图，可以针对所要调查的图像说明深度信息图像。

上述方法具有如下优点：可以根据简单的、也就是说以非立体观测方式存在的图像来确定在该图像中示出的特征的深度信息。在此，深度信息根据被分配给如下那个缩放滤波器的缩放来得到，所述那个缩放滤波器最好地识别通过缩放滤波器所说明的特征。

缩放滤波器还可以根据经训练的卷积神经网络的滤波器内核通过下采样（Down-Sampling）来被确定。

可以规定：卷积神经网络具有多个深度图层，以便确定多个缩放特征图，其中借助于其它神经网络根据多个缩放特征图来确定深度信息图像。

还可以在组合过程中对多个缩放图逐像素地进行比较，以便根据相应的最大像素值还获得输出特征图或者获得输出图像，该输出特征图用作对卷积神经网络的其它层的随后计算的输入特征图。

深度信息图像还可以根据所述多个缩放特征图以及神经网络的层中的一个或多个层的一个或多个输出特征图和/或神经网络的输出图像来被确定。

可以规定：神经网络生成输出图像，其中这些层中的至少一个层根据缩放特征图中的一个或多个缩放特征图来生成输出特征图和/或输出图像，其中为此尤其是添加输送相关层的缩放特征图中的一个或多个缩放特征图的输入特征图。

按照一个实施方式，在下游的附加的神经网络中可以对输出图像和深度信息图像共同进行处理。

按照另一方面，规定了一种用于确定输入图像的深度信息图像以便尤其是根据深度信息图像来操控车辆功能的设备，其中输入图像借助于卷积神经网络来被处理，其中卷积神经网络具有多个层，这些层按顺序来处理输入图像并且分别将输入特征图转化成输出特征图，其中这些层中的至少一个层构造为深度图层，其中深度信息图像根据深度图层来被确定，其中该设备构造用于针对至少一个深度图层：

- 将相关的深度图层的输入特征图与多个缩放滤波器进行卷积，以便获得相应的缩放图；

按照另一方面，规定了一种系统，其包括：

- 图像检测装置，用于检测输入图像；

- 预处理装置，该预处理装置通过用于根据输入图像来提供深度信息图像的上述设备来实现；和

- 控制设备，用于根据所述深度信息图像来操控所述系统的至少一个执行器。

附图说明

实施方式随后依据随附的附图进一步予以阐述。其中：

图1示出了根据输入图像来确定具有深度信息的被分割的图像的示意图；

图2示出了用于根据多个缩放特征图来获得深度信息图像的结构的示意图；

图3示出了用来阐明用于确定在以非立体观测方式存在的所要调查的输入图像中的对象的深度信息的方法的流程图；以及

图4示出了用于根据多个缩放特征图并且借助于用于语义分割的神经网络来获得被分割的输出图像的结构的示意图。

具体实施方式

图1示出了图像处理系统1的示意图，该图像处理系统1用来执行用于确定以非立体观测方式提供的输入图像B的以深度信息图像为形式的深度信息的方法。图像处理系统1包括处理装置，在该处理装置中实现具有多个层21的第一卷积神经网络2。

卷积神经网络以本身公知的方式通过对特征图的级联计算来被计算。为此，卷积神经网络可包括不同类型的计算层，其中这些层包括一个或多个卷积层21。在卷积层21中，将滤波器内核应用于对于第一计算层来说可对应于输入图像的输入特征图的片段，以便产生相关的层的输出特征图。滤波器内核对应于具有权重值的卷积矩阵。在此，给当前基于滤波器内核的图像片段分别分配输出特征图的像素并且通过其内积来计算相对应的像素值。将权重值与输入特征图的片段的相对应的像素值相乘，其中将滤波器内核的所有乘法的结果相加，以便获得输出特征图的相对应的像素值。

在多层卷积神经网络的情况下，通常设置输出特征图作为下一个计算层的输入特征图或者在最后一个计算层的情况下作为输出图像。

示例性地，图像处理系统1的第一神经网络2设置多个级联的标准卷积层21，其中在所示出的实施例中设置第一层作为深度图层22。一般来说，在神经网络2中可以设置第一层中的多个层作为深度图层22。在随后的（更深的）层中，同样可以使用这些层，但是这些层通常构造为标准卷积层21。

深度图层22具有与第一卷积神经网络2的其余的层不同的实现方案，其中利用多个不同的缩放内核23来处理相关的输入特征图（在这种情况下是输入图像B）。

缩放内核23对应于卷积神经网络2的卷积层的滤波器内核，该滤波器内核以不同的缩放来设置，使得形成多个缩放内核23。这些缩放内核通过将最大的缩放内核23a规定为权重数目最大的滤波器内核并且通过将最大的缩放内核23a下采样成其余的缩放内核23b、23c来得到。被假定为最大的缩放内核23a的滤波器内核可以被预先给定或者根据利用相对应的训练数据对卷积神经网络2的训练来得到。每个层的缩放内核23的数目都能任意地被选择，然而优选地为2至10个，进一步优选地为3至5个。

一般来说，下采样表示时间序列或者离散值的其它排列的网格点的减少。这样，过滤器内核的权重值的矩阵的大小相对应地通过这些权重值的组合来被减少。

在最简单的情况下，“下采样”对应于矩阵乘法。在此，大缩放内核的大滤波器X被映射到小滤波器Y上：

作为将5x5x1滤波器下采样成3x3x1滤波器的示例的是：

那么：

必要时，还将Y乘以可自由选择的因子。

对于具有多个（k个）特征、比如5x5xk的内核来说，针对这k个特征中的每个特征都实施该运算。除了上述方法之外，在下采样法中也可以使用如下方法：最近邻（Nearestneighbors）、立方（cubic）、双立方（bicubic）、面积插值（area-interploation）、双线性（bilinear）或池化（Pooling）。

通过利用多个缩放内核23a、23b、23c来处理输入特征图MKI，通过卷积来确定相对应的缩放图24a、24b、24c，这些缩放图分别被分配给这些缩放内核23a、23b、23c。以在卷积神经网络的情况下常见的方式来进行处理，其中通过将所分配的缩放滤波器23a、23b、23c应用于输入特征图MKI的相对应的片段来算出缩放图24a、24b、24c的每个像素值。

这样获得的缩放图24a、24b、24c被输送给组合过程25，该组合过程类似于最大池化过程。在组合过程中，通过对缩放图24a、24b、24c的逐像素的比较来将像素值中的相应的最大值接收到相对应的输出特征图MKO中。现在，该输出特征图MKO可以用作针对神经网络2的下一层的输入特征图，该下一层可以是标准卷积层21或深度图层22，或者如果进行计算的层是神经网络2的最后一层，则该下一层可对应于由神经网络2进行的处理的输出图像A、例如被分割的图像。

在用于缩放图24a、24b、24c的组合过程25中，除了最大像素值之外，获得如下说明：最大像素值（argmax函数）是根据缩放图24a、24b、24c中的哪个缩放图来被算出的。缩放图24a、24b、24c被分配给相对应的缩放内核23a、23b、23c并且因此被分配给相对应的缩放，使得就对负责最大像素值的缩放图24a、24b、24c的说明而言，也存在关于所分配的缩放内核23a、23b、23c的大小/缩放的说明。关于提供最大像素值的缩放图24的说明被写入缩放特征图SK中，使得在缩放特征图SK中对于输出特征图MKO的每个像素来说都存在如下说明：缩放图24a、24b、24c中的哪个缩放图或缩放内核23a、23b、23c的哪个参量负责选择输出特征图MKO中的最大像素值。

缩放特征图SK可以直接被用作深度图TK或者在处理块3中被转化成深度图TK。深度图TK对应于深度信息图像，该深度信息图像说明了每个单个的图像点（像素）与摄像机平面的距离。处理块3可对应于简单的功能块或者可训练的神经网络。

替选地，如在图2中示意性示出的那样，多个深度图层22可以级联地被应用，以便这样来获得多个缩放特征图SK1、SK2、SK3、SKn。因此，对于深度图层22的每个相关的输入特征图MKI来说，除了相应的输出特征图MKO之外，存在相对应的缩放特征图SK。多个缩放特征图SK1, SK2, SK3, ..., SKn可以相对应地在构造为其它神经网络的处理块3中被处理，以便获得针对例如被分割的输出图像A的深度图TK。

附加地，在处理块3中的处理除了一个或多个缩放特征图SK, Sk1, Sk2..., SKn之外也可以对当前的输出图像A进行处理，以便获得深度图TK。

替选地或附加地，在神经网络2中的处理也可以考虑一个或多个缩放特征图SK,Sk1, Sk2..., SKn或者由此所确定的深度图TK，以便获得当前的输出图像A。

输出图像A可以是被分割的图像，在该被分割的图像中处理多个缩放特征图Sk1,Sk2..., SKn的深度信息。那么，该输出图像可以是深度信息图像。为此，如在图4中示出的那样，神经网络2'可被用于语义分割，该神经网络具有编码器部分27和解码器部分26，该编码器部分具有深度图层22以及必要时具有常规的卷积神经网络的其它层。解码器部分26具有解码层28，这些解码层利用编码器部分27的相关深度图层22的相应的缩放特征图SK1,SK2, SK3, ...来对通过神经网络2'所传播的输入图像B共同进行处理。结果是，基于神经网络2'和缩放图22的附加地生成的深度信息来获得被分割的图像。由编码器部分27和解码器部分26构成的所示出的组合形成分割网络，如例如从Hyeonwoo Noh等人的“LearningDeconvolution Network for Semantic Segmentation”，Computer Vision and PatternRecognition，https://arxiv.org/abs/1505.04366中公知的那样。编码器部分27与解码器部分26之间的通过对网络的配置来形成的潜在空间（对应于自动编码器网络）用于减少用来描述输入图像的数据量，其中在潜在空间内的映射被解码方解读为分割图像。

解码层28对缩放特征图Sk1, Sk2..., SKn进行处理，其方式是将这些缩放特征图在输入侧附加到相关的解码层28的相应的输入矢量/输入张量上。

为了对图1的图像处理系统进行训练，神经网络2和处理块3的其它神经网络多级地和/或交替地被训练和固定，因为不能推导出argmax函数并且因此不能使用反向传播（Backpropagation）方法。因而，首先借助于训练图像以常规方式来训练神经网络2的滤波器内核。现在，将训练图像以上文所描述的方式施加给神经网络2，以便获得缩放特征图SK1, SK2, SK3, ...SKn。为此，这些训练图像分别分配有训练分割图像，使得第一神经网络2的参数可以被训练。这样被训练的参数现在被固定并且针对与深度图层22的滤波器内核相对应的缩放内核例如借助于上文所描述的下采样来被确定。

现在，根据这些训练图像，借助于缩放内核23来确定训练缩放特征图SK1, SK2,SK3, ...SKn，这些训练缩放特征图被分配给相应的训练图像。现在，借助于被分配给这些训练图像的、将深度信息提供给这些训练图像的训练深度图，可以对第二神经网络3进行训练。这基于在输入侧施加从训练图像获得的缩放特征图SK1, SK2, SK3, ...Skn和被分配给相应的训练图像的预先给定的训练深度图。为此，第二神经网络3同样可以构造为常规的卷积网络。

随后，依据图3的流程图来进一步阐述用于确定深度图TK的方法。

在步骤S1中提供输入图像B，该输入图像通过预先给定的卷积神经网络2来被处理，该卷积神经网络应该被应用于确定被分割的图像。

在步骤S2中，按照神经网络2的配置来检查第一个/下一个所要计算的层是对应于深度图层22还是对应于神经网络2的常规的层21。如果下一个所要计算的层对应于深度图层（二选一：“1”），则该方法以步骤S3来继续，否则（二选一：“2”）该方法以步骤S4来继续。

在步骤S3中，如上文所描述的那样来确定输出特征图MKO并且同时如上文所描述的那样基于多个缩放滤波器23来确定所属的缩放特征图SK。

在替选的步骤S4中，基于常规的层21的函数来确定相对应的输出特征图MKO。

在步骤S5中，检查神经网络2是否具有其它所要计算的侧。如果情况如此（二选一：是），则将输出特征图MKO假定为下一层的输入特征图并且该方法以步骤S2来继续。否则，该方法以步骤S6继续。

因为没有设置其它计算步骤，所以在步骤S6中将输出特征图作为输出图像A来输出。

在步骤S7中，可以将之前获得的缩放特征图SK输送给处理块3的其它相对应地被训练的神经网络，以便根据缩放特征图SK来确定深度图TK。深度图TK于是对应于深度信息图像。

这样，可以根据非立体观测的输入图像来确定深度信息图像，这些非立体观测的输入图像由技术系统、尤其是机器人、车辆、工具或工作机的摄像机来记录。

在图5中示出了技术系统10，该技术系统具有用于检测输入图像的摄像机11、预处理装置12和用于实施控制功能的控制设备13。预处理装置12基于由摄像机11所检测的输入图像来实施上述用于确定深度信息图像（深度图TK）以及必要时输出图像A的方法。

通过控制设备13来实现技术系统10的功能，这些功能需要摄像机图像的深度信息，但是不能实现对图像的以立体观测方式的检测。控制设备13除了其它输入参量之外必要时将深度信息图像处理成一个或多个输出参量。根据控制设备13的输出参量，通过计算单元利用相对应的操控信号来操控技术系统的至少一个执行器14。例如，这样可以控制机器人或车辆的运动或者控制车辆的驱动单元或驾驶员辅助系统。

Claims

1.用于确定输入图像（B）的深度信息图像以便尤其是根据所述深度信息图像来操控车辆功能的方法，其中所述输入图像（B）借助于卷积神经网络（2）来被处理，其中所述卷积神经网络（2）具有多个层，这些层按顺序来处理所述输入图像（B）并且分别将输入特征图（MKI）转化成输出特征图（MKO），其中这些层中的至少一个层构造为深度图层，其中所述深度信息图像根据深度图层来被确定，其中在所述深度图层（22）中，

- 将所述深度图层（22）的输入特征图（MKI）与多个缩放滤波器（23、23a、23b、23c）进行卷积，以便获得相应的缩放图（24a、24b、24c）；

- 将多个缩放图（24a、24b、24c）逐像素地进行比较，以便生成相应的输出特征图（MKO），在所述输出特征图中，每个像素都对应于来自所述缩放图（24a、24b、24c）中的所选择的缩放图的相对应的像素；

- 生成缩放特征图（SK），其方式是所述缩放特征图（SK）的每个像素都被分配给如下说明，所述说明说明了从中选择所述输出特征图（MKO）的像素的那个缩放图（24a、24b、24c）；

其中所述深度信息图像对应于所述缩放特征图（SK）或者根据所述缩放特征图（SK）来被确定。

2.根据权利要求1所述的方法，其中所选择的缩放图（24a、24b、24c）对应于对于相应的像素来说包含最大像素值的那个缩放图。

3.根据权利要求2所述的方法，其中所述缩放滤波器根据经训练的卷积神经网络的滤波器内核通过下采样或上采样来被确定。

4.根据权利要求1至3中任一项所述的方法，其中在多个深度图层（22）中确定多个缩放特征图（SK），其中所述深度信息图像借助于其它神经网络（3）根据所述多个缩放特征图（SK）来被确定，其中所述深度信息图像尤其对应于深度图（TK）。

5.根据权利要求3所述的方法，其中所述深度信息图像根据所述多个缩放特征图（SK）以及所述神经网络（2）的层中的一个或多个层的一个或多个输出特征图（MKO）和/或所述神经网络（2）的输出图像（A）来被确定。

6.根据权利要求1至5中任一项所述的方法，其中所述神经网络生成输出图像（A），其中所述层中（21）的至少一个层根据所述缩放特征图（SK）中的一个或多个缩放特征图来生成输出特征图（MKO）和/或所述输出图像（A），其中为此尤其是添加输送相关的层的缩放特征图（SK）中的一个或多个缩放特征图的输入特征图（MKI）。

7.根据权利要求1至6中任一项所述的方法，其中在下游的附加的神经网络中对所述输出图像（A）和所述深度信息图像共同进行处理。

8.根据权利要求1至7中任一项所述的方法，其中使用所述深度信息图像来操控车辆功能，所述车辆功能尤其是涉及全自主或半自主的行驶运行或者用于报警以提防周围环境对象的驾驶员辅助功能。

9.用于确定输入图像（B）的深度信息图像以便尤其是根据所述深度信息图像来操控车辆功能的设备，其中所述输入图像（B）借助于卷积神经网络（2）来被处理，其中所述卷积神经网络（2）具有多个层，所述层按顺序来处理所述输入图像（B）并且分别将输入特征图（MKI）转化成输出特征图（MKO），其中所述层中的至少一个层构造为深度图层（22），其中所述深度信息图像根据深度图层（22）来被确定，其中所述设备构造用于针对至少一个深度图层（22）：

- 将相关的深度图层（22）的输入特征图（MKI）与多个缩放滤波器进行卷积，以便获得相应的缩放图（24a、24b、24c）；

10.系统（10），其包括：

- 图像检测装置（11），用于检测输入图像（B）；

- 预处理装置（12），所述预处理装置对应于根据权利要求9所述的用于根据输入图像来提供深度信息图像的设备；

- 控制设备（13），用于根据所述深度信息图像来操控所述系统（10）的至少一个执行器（14）。

11.计算机程序，其被设立为实施根据权利要求1至8中任一项所述的方法的所有步骤。

12.电子存储介质，在其上存储有根据权利要求11所述的计算机程序。