CN112712556A

CN112712556A - 用于训练神经卷积网络的方法、用于确定定位位姿的方法、设备和存储介质

Info

Publication number: CN112712556A
Application number: CN202011154501.7A
Authority: CN
Inventors: C·哈斯贝格; P·萨兰里蒂斋; T·纳赛尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-10-24
Filing date: 2020-10-26
Publication date: 2021-04-27
Also published as: US20210125366A1; DE102019216379A1; US11315279B2

Abstract

提出一种用于训练神经卷积网络以确定移动平台的定位位姿的方法，航拍图像训练周期具有步骤：提供移动平台的参考位姿；提供移动平台周围环境的参考位姿的航拍图像；将航拍图像用作神经卷积网络的输入信号；借助神经卷积网络的输出信号确定定位位姿；适配神经卷积网络以最小化定位位姿与参考位姿的偏差；借助地面图像训练周期来训练经训练的神经卷积网络，其分别具有步骤：提供移动平台的参考位姿；提供移动平台周围环境的参考位姿的地面图像；将地面图像用作所训练的神经卷积网络的输入信号；借助神经卷积网络的输出信号确定定位位姿；适配该神经卷积网络以最小化定位位姿与参考位姿的偏差，以提供用于确定定位位姿的神经卷积网络。

Description

用于训练神经卷积网络的方法、用于确定定位位姿的方法、设备和存储介质

技术领域

本发明涉及一种用于训练神经卷积网络以便借助该神经卷积网络借助地面图像来确定移动平台的定位位姿的方法。本发明还涉及一种用于确定移动平台的定位位姿的方法、一种设备，以及一种机器可读的存储介质。

背景技术

精准的定位是至少部分自动化的平台(例如自主运行车辆)的行驶的前提。

为了借助这种移动平台的周围环境的地面图像来对这种移动平台进行定位，已经进行多个不同的方案，这些方案通常关于该移动平台的周围环境是基于特征的，其中，然后通过高分辨率地图将这些特征分配给移动平台的位姿。

发明内容

但是，使用这种高分辨率地图伴随着经济上的不利。相反，用于借助基于地面图像的回归来确定位姿的基于深度学习的方法具有优点：相应的地图的确定的大小；恒定的询问时间。借助来自直接摄像机位置的单目图像、视频图像序列和深度图像，可以借助这样的方法确定定位。在此，在非常大的地理区域中进行定位在确定位姿的唯一明确性方面位姿是一个挑战。

本发明公开根据本发明的特征的一种用于训练神经卷积网络以借助地面图像确定移动平台的定位位姿的方法、一种用于确定定位位姿的方法、一种用于操控移动平台的方法、一种计算机程序以及一种机器可读的存储介质。有利的构型是本发明的优选实施方式和以下描述的主题。

本发明基于以下知识：借助例如以移动平台的估计位置为中心的航拍图像，可以使用移动平台的周围环境的空间上下文和视角来结合地面图像一起训练神经网络，以便确定移动平台的位姿。这尤其能够实现，越过更大的地理区域正确地分配来自地面图像的非唯一明确的特征。

根据一个方面，提出一种用于训练神经卷积网络以便借助该神经卷积网络借助地面图像来确定移动平台的定位位姿的方法。

在此，该方法具有第一多个(Vielzahl)航拍图像训练周期，其中，每个航拍图像训练周期具有以下步骤：

在航拍图像训练周期的一个步骤中，提供移动平台的参考位姿。在另一步骤中，提供在参考位姿中移动平台的周围环境的航拍图像。在另一步骤中，将所述航拍图像用作神经卷积网络的输入信号。在另一步骤中，借助神经卷积网络的输出信号来确定相应的定位位姿。在另一步骤中，对神经卷积网络进行适配，以便最小化借助相应的航拍图像所确定的相应的定位位姿与相应的参考位姿的偏差。

在进一步的步骤中，方法借助第二多个地面图像训练周期来训练借助第一多个航拍图像训练周期所训练的神经卷积网络，其中，每个地面图像训练周期具有以下步骤：

在一个步骤中，提供移动平台的参考位姿。在另一步骤中，提供在参考位姿中移动平台的周围环境的地面图像。在另一步骤中，将地面图像用作借助第一多个航拍图像训练周期所训练的神经卷积网络的输入信号。在另一步骤中，借助神经卷积网络的输出信号来确定定位位姿。在另一步骤中，对神经卷积网络进行适配，以便最小化借助相应的地面图像所确定的相应的定位位姿与相应的参考位姿的偏差，以便提供经训练的神经卷积网络以用于借助地面图像确定定位位姿。

对于该方法，可以提供未经训练的卷积神经网络用于第一航拍图像训练周期，如下所述。

有利地，在该方法中，为第一多个航拍图像训练周期的各个航拍图像训练周期提供移动平台的不同周围环境的不同参考位姿和相应不同的航拍图像。

有利地，借助该方法，可以借助移动平台的周围环境的视觉的地面图像和视觉的航拍图像来确定定位位姿，而无需使用高分辨率地图。因此，将航拍图像用于对用于确定移动平台的定位位姿的神经卷积网络进行预训练。由于该方法并非基于人工完成的特征，因此能够关于更大的地理区域良好地进行缩放。

在此，将地面图像或航拍图像用作神经网络的输入信号意味着将地面图像或航拍图像传递给神经网络的输入层。

在此，地面图像通常由移动平台的前置摄像机借助数字摄像机系统以相应的视角生成。

在该方法中，向神经卷积网络提供地面图像(例如来自移动平台前置摄像机的RGB图像)和航拍图像(例如卫星图像)。

通过借助第一多个航拍图像训练周期对神经卷积网络进行预训练，在随后借助第二多个地面图像训练周期进行训练时实现消除以下地面图像的模糊性：这些地面图像看上去非常相似，但是在空间上相距较远。因此，首先借助第一多个航拍图像训练周期训练该卷积网络，然后借助第二多个地面图像训练周期依次训练该卷积网络。在此，所提供的第一多个航拍图像训练周期的航拍图像可以在以下意义上对应于第二多个地面图像训练周期的地面图像：包含在航拍图像或地面图像的整体中的地理信息对于确定移动平台的位姿相互补充和/或对于改善位姿的确定共同作用。这种共同作用和/或补充尤其可以涉及代表相似地理区域的航拍图像和地面图像。但是，也可以通过航拍图像和地面图像的不同地理区域来实现判别性的效果。

通过(借助预训练)考虑移动平台的周围环境的航拍图像，通过航拍图像特征的显著空间布置，将神经卷积网络训练为：用于学习判别性的特征，并且附加地能够更精确地确定定位位姿。

为了能够以高精度确定车辆位置或车辆定位位姿，不对地面图像和航拍图像(例如卫星图像的至少局部部分)的相似性进行比较，而是由所提供的地面图像结合相应的局部航拍图像或局部卫星图像推导出移动平台的位姿。

因此，执行基于地面图像和航拍图像的端到端学习，以便实现良好的可缩放性。因此，将位置前体

在良好可缩放性方面的优点与应用神经卷积网络的优点结合。

神经卷积网络本质上具有交替地重复的过滤器(Convolutional Layer：卷积层)和聚合层(Pooling Layer：池化层)，并且可以在网络的末端处包含一个或多个层“正常的”全连接神经元(Dense/Fully Connected Layer：密集层/全连接层)。

在此，第一或第二经训练的神经编码器卷积网络部分可以构型为神经卷积网络的一部分，或者这些网络部分可以分别以单个神经卷积网络的形式实现。

地面图像和航拍图像都可以作为移动平台的周围环境上的不同角度的数字图像而存在，并且可以例如借助数字摄像机系统生成。航拍图像在移动平台周围环境上的视角是俯视图(英：top down view)。这样的航拍图像可以例如由卫星、飞机或无人驾驶飞机的摄像机系统生成。在此，这样的航拍图像不仅可以是移动平台的周围环境的单个产生的航拍图像，而且可以是例如来自更大的航拍图像的局部图像，其中，该局部图像尤其以移动平台的估计位姿为中心。这样的航拍图像尤其可以是以下卫星图像图块：可以针对确定的卫星导航位置(例如GPS位置)调用该卫星图像图块。

移动平台的定位位姿是以下位姿：即，所述位姿是具有三个空间维度的位置定义和移动平台在空间中的定向，例如可以由三个欧拉角来说明该定向，通过该方法确定所述位姿。

移动平台的参考位姿是以下位姿：所述位姿例如通过用于确定移动平台的位姿的参考系统位姿为确定该方法的定位位姿的训练提供非常准确的说明。

前馈神经网络为用于机器学习、用于协作和用于处理复杂数据输入的许多不同算法提供框架。这种神经网络学习基于示例实施任务，通常无需借助特定于任务的规则进行编程。

这种神经网络基于连接的单元或节点的集合，这些单元或节点称为人工神经元。每个连接都能够将信号从一个人工神经元传输到另一个。接收信号的人工神经元可以对所接收的信号进行处理，然后激活与其连接的其他人工神经元。

在神经网络的常规实现中，人工神经元的连接处的信号是实数，并且人工神经元的输出是通过其输入之和的非线性函数来计算的。人工神经元的连接通常具有与学习的进展相匹配的权重。权重增加或减小连接处的信号的强度。人工神经元可以具有阈值，使得仅当总信号超过该阈值时才输出信号。

通常，将多个人工神经元分层组合。不同的层可能对其输入执行不同类型的转换。可能在多次遍历这些层之后，信号从第一层(输入层)传播到最后一层(输出层)。

作为上面前馈神经网络的实施方案的补充，人工神经卷积网络(ConvolutionalNeural Network：卷积神经网络)的结构还包括一个或多个卷积层(convolutionallayer)，必要时跟随着池化层。层的顺序可以在具有或不具有归一化层(例如批量归一化)、零填充层、退出层和激活函数(例如整流线性单元(ReLU)、S形函数、tanh函数或softmax函数)的情况下使用。原则上，这些单元可以重复任意次，在重复足够的情况下，则谈及深度卷积神经网络。

为了训练神经编码器/解码器卷积网络的如此定义的结构，每个神经元获得例如随机的初始权重。然后将输入数据给予网络，并且每个神经元以其权重对输入信号进行加权，并继续将结果给予下一层的神经元。然后在输出层中提供结果。可以计算错误的大小，以及每个神经元在该错误中的比例，然后在使错误最小化的方向上改变每个神经元的权重。然后递归地进行遍历、重新测量误差、匹配权重，直到误差低于预给定的极限。

在本发明的整体描述中如此示出方法步骤的顺序，使得方法易于理解。然而，本领域技术人员应认识到，也可以以不同的顺序遍历许多方法步骤并导致相同的结果。在这个意义上，方法步骤的顺序可以相应地改变并且因此也被公开。

移动平台可以理解为至少部分自动化的移动系统和/或车辆的驾驶员辅助系统。一个示例可以是至少部分自动化的车辆或具有驾驶员辅助系统的车辆。这意味着，在此背景下，至少部分自动化的系统在至少部分自动化的功能方面包含移动平台，但是移动平台也包含车辆和其他包括驾驶员辅助系统的移动机器。移动平台的其他示例可以是具有多个传感器的驾驶员辅助系统、移动式多传感器机器人(例如机器人吸尘器或割草机)、多传感器监控系统、制造机器、个人助理、班车、机器人、船舶、飞机、商用车或访问控制系统。这些系统中的每一个都可以是完全或部分自动化的系统。

根据一个方面提出，通过以下方式确定第一多个航拍图像训练周期：相应的所确定的定位位姿与相应的参考位姿的偏差小于预给定的第一值。

因此，于是可以在所述方法的具有第一多个航拍图像训练周期的第一部分中确定定位位姿确定的力求达到的准确度，和/或可以定义用于第一多个航拍图像训练周期的终止标准。

根据一个方面提出，通过以下方式确定第二多个地面图像训练周期：相应的所确定的定位位姿与相应的参考位姿的偏差小于预给定的第二值。

因此，于是可以在所述方法的具有第二多个地面图像训练周期的第二部分中确定定位位姿确定的力求达到的准确度，和/或可以定义用于第二多个地面图像训练周期的终止标准。

根据一个方面提出，应训练的神经卷积网络是神经编码器卷积网络或编码器网络。

根据一个方面提出，借助卫星、飞机或无人驾驶飞机生成用于训练的方法的以及用于确定移动平台的周围环境的定位位姿的方法的航拍图像。

根据一个方面提出，借助已经借助全球导航系统和/或移动无线电支持的导航系统确定的位姿来选择航拍图像。

通过借助导航系统的位置预给定值，能够减小特征的搜索空间，并且能够借助减少的数据量来更精细地估计借助地面图像的位姿确定。

根据一个方面提出：在对神经卷积网络进行适配时，在至少一些训练周期中改变神经卷积网络的权重，以便最小化相应的定位位姿与相应的参考位姿的偏差。

根据一个方面提出：在对借助第一多个航拍图像训练周期所训练的神经卷积网络进行适配时，在至少一些训练周期中改变借助第一多个航拍图像训练周期所训练的神经卷积网络的权重，以便最小化相应的定位位姿与相应的参考位姿的偏差。

提出一种用于确定移动平台的定位位姿的方法，其中，该移动平台设置为用于生成该移动平台的周围环境的地面图像。在该方法中，在一个步骤中提供移动平台的周围环境的地面图像。在另一步骤中，借助通过移动平台的相应周围环境的航拍图像和相应的地面图像依次训练的神经卷积网络和所提供的地面图像(作为经依次训练的神经卷积网络的输入信号)来生成移动平台的定位位姿。

该方法基于已经借助移动平台的相应周围环境的航拍图像和相应的地面图像来依次训练的神经卷积网络。由此，在具有依次连接的航拍图像训练周期和地面图像训练周期的神经网络的二阶段训练中，来自更大空间上下文(例如来自航拍图像)的特征能够有利地纳入神经卷积网络的训练中，以便实现移动平台定位位姿的确定的更高精度。

所述用于确定移动平台的定位位姿的方法可以与用于改善位姿确定的不同现有方法结合。这尤其例如是顺序信息的整合和对几何限制的考虑，这能够导致进一步的性能提升。

该方法的主要优点是该方法的应用的可缩放性，因为上下文的信息和大面积的定位信息都纳入该方法中。

此外，借助该方法得出用于位姿确定的恒定询问时间，在常规的基于特征的方法中则不适用这种情况。例如，在3D-3D/2D-3D特征匹配中，在大的地图尺寸情况下无法实现良好的缩放。

在该方法中得出固定的“地图尺寸”，因为地图由所设置和存储的网络的权重隐式表示。

附加地，借助该方法将可公共访问的信息用于第一估计位姿，并且例如可以将卫星图像用于航拍图像，该卫星图像在经济上是有利的并且不需要手动的标记。

根据一个方面提出，根据上述用于训练神经卷积网络的方法中的一个来训练借助移动平台的相应周围环境的航拍图像和相应的地面图像所依次训练的神经卷积网络。

根据一个方面提出，数字地面图像由移动平台提供。

根据一个方面提出：在确定移动平台的位姿时由神经卷积网络生成输出信号，并且该输出信号具有用于确定定位位姿的值。

根据一个方面，提出该神经卷积网络具有全连接网络层。

在此，在全连接层中，一个层的神经元与下一层的所有神经元连接，并且因此称为“全连接层”(也称为“密集层”)。于是，神经层具有如同连接数量的高权重。

根据一个方面提出，该神经卷积网络是神经编码器卷积网络。

根据一个方面提出，移动平台的周围环境的地面图像是数字地面图像。

根据一个方面提出，借助数字摄像机系统生成移动平台的周围环境的地面图像。

使用数字摄像机系统具有以下优点：能够简单地进一步处理在此所生成的数字图像。

根据一个方面提出，借助移动平台的前置摄像机从移动平台的视角生成移动平台的周围环境的地面图像。

根据一个方面提出：基于定位位姿提供用于操控至少部分自动化的移动平台的控制信号；和/或基于该定位位姿提供用于警告至少部分自动化的移动平台的乘员的警告信号。

关于特征“基于定位位姿来提供控制信号”，应广义地理解术语“基于”。应如此理解：将定位位姿考虑用于控制信号的每个确定或计算，其中，这并不排除也还将其他输入参量考虑用于控制信号的确定。类似地，这同样适用于提供警告信号。

说明一种设备，该设备设置为用于执行上述方法中的一个。借助这种设备能够简单地将该方法集成到不同的系统中。

说明一种计算机程序，该计算机程序包括指令，在通过计算机实施该程序时，该指令促使该计算机实施上述方法中的一个。这样的计算机程序使得能够在不同系统中使用所描述的方法。

说明一种机器可读的存储介质，在该机器可读的存储介质上存储有上述计算机程序。

附图说明

参考图1和图2示出本发明的实施例，并且在下文中进一步阐述。附图示出：

图1示出用于训练神经卷积网络以确定定位位姿的方法的流程图；

图2示出用于确定至少部分自动化的移动平台的定位位姿的方法的流程图。

具体实施方式

图1以数据流程图示意性地描绘用于训练神经卷积网络110以便借助该神经卷积网络110借助地面图像140来确定移动平台的定位位姿150的方法100。

在此，方法100具有第一多个航拍图像训练周期，其中，每个航拍图像训练周期具有以下步骤：

在航拍图像训练周期的步骤S1中，提供移动平台的参考位姿120。在另一步骤S2中，提供在参考位姿120中移动平台的周围环境的航拍图像130。在另一步骤S3中，将航拍图像130用作神经卷积网络110的输入信号。在另一步骤S4中，借助神经卷积网络110的输出信号来确定相应的定位位姿150。在另一步骤S5中，对神经卷积网络110进行适配，以便最小化借助相应的航拍图像130所确定的相应的定位位姿150与相应的参考位姿120的偏差。

在进一步的步骤中，方法100借助第二多个地面图像训练周期来训练借助第一多个航拍图像训练周期所训练的神经卷积网络110，其中，每个地面图像训练周期具有以下步骤：

在步骤S6中，提供移动平台的参考位姿120。在另一步骤S7中，提供在参考位姿120中移动平台的周围环境的地面图像140。在另一步骤S8中，将地面图像140用作神经卷积网络110的输入信号。在另一步骤S9中，借助神经卷积网络110的输出信号来确定定位位姿150。在另一步骤S10中，对借助第一多个航拍图像训练周期所训练的神经卷积网络110进行适配，以便最小化借助相应的地面图像140所确定的相应的定位位姿150与相应的参考位姿120的偏差，以便提供用于借助地面图像130来确定定位位姿150的经训练的卷积神经网络110。在此，神经卷积网络110可以具有第一数量的卷积层112和第二数量的全连接层114(fully connected layer)。其中，在神经卷积网络110的层序列中，第二数量的全连接层114可以连接在第一数量的卷积层112上。

图2以数据流程图示意性地描绘用于确定移动平台的定位位姿150的方法200，其中，该移动平台设置为用于生成该移动平台的周围环境的地面图像140。在该方法中，在步骤S21中提供移动平台的周围环境的地面图像140。在另一步骤S22中，借助通过移动平台的相应周围环境的航拍图像130和相应的地面图像140依次训练的神经卷积网络110和所提供的地面图像140(作为经依次训练的神经卷积网络110的输入信号)生成移动平台的定位位姿150。

在此，可以根据在图1中所描述的方法100来训练借助移动平台的相应周围环境的航拍图像130和相应的地面图像140所依次训练的神经卷积网络110。

Claims

1.一种用于训练神经卷积网络(110)以便借助所述神经卷积网络(110)借助地面图像(140)来确定移动平台的定位位姿(150)的方法(100)，所述方法具有第一多个航拍图像训练周期，其中，每个航拍图像训练周期具有以下步骤：

提供所述移动平台的参考位姿(120)(S1)；

提供在所述参考位姿(120)中所述移动平台的周围环境的航拍图像(130)(S2)；

将所述航拍图像(130)(S3)用作所述神经卷积网络(110)的输入信号；

借助所述神经卷积网络(110)的输出信号确定相应的定位位姿(150)(S4)；

对所述神经卷积网络(110)进行适配(S5)，以便最小化借助相应的航拍图像(130)所确定的相应的定位位姿(150)与相应的参考位姿(120)的偏差；

借助第二多个地面图像训练周期来训练借助所述第一多个航拍图像训练周期所训练的神经卷积网络(110)，其中，每个地面图像训练周期具有以下步骤：

提供所述移动平台的参考位姿(120)(S6)；

提供在所述参考位姿(120)中的所述移动平台的所述周围环境的地面图像(140)(S7)；

将所述地面图像(140)(S8)用作借助所述第一多个航拍图像训练周期所训练的神经卷积网络(110)的输入信号；

借助所述神经卷积网络(110)的输出信号确定所述定位位姿(S9)；

对所述神经卷积网络(110)进行适配(S10)，以便最小化借助相应的地面图像(140)所确定的相应的定位位姿(150)与相应的参考位姿(120)的偏差，以便提供用于借助地面图像(140)来确定定位位姿(150)的经训练的神经卷积网络(110)。

2.根据权利要求1所述的方法(100)，其中，通过以下方式确定所述第一多个航拍图像训练周期：使相应的所确定的定位位姿(150)与相应的参考位姿(120)的偏差小于预先确定的第一值。

3.根据权利要求1或2所述的方法(100)，其中，通过以下方式确定所述第二多个地面图像训练周期：使相应的所确定的定位位姿(150)与相应的参考位姿(120)的偏差小于预先确定的第二值。

4.根据权利要求1至3中任一项所述的方法(100)，其中，借助卫星、飞机或无人驾驶飞机生成所述移动平台的所述周围环境的所述航拍图像(130)。

5.根据权利要求1至4中任一项所述的方法(100)，其中，借助已经借助全球导航系统和/或移动无线电支持的导航系统所确定的位姿来选择所述航拍图像(130)。

6.一种用于确定移动平台的定位位姿(150)的方法(200)，其中，所述移动平台设置为用于生成所述移动平台的周围环境的地面图像(140)，所述方法具有以下步骤：

提供所述移动平台的周围环境的地面图像(140)(S21)；

借助以下神经卷积网络(110)和所提供的地面图像(140)生成所述移动平台的定位位姿(150)(S22)：借助移动平台的相应周围环境的航拍图像(130)和相应的地面图像(140)依次训练所述神经卷积网络，所提供的地面图像(140)作为经依次训练的所述神经卷积网络(110)的输入信号。

7.根据权利要求6所述的方法(200)，其中，根据权利要求1至5中任一项，对借助移动平台的相应周围环境的航拍图像(130)和相应的地面图像(140)所依次训练的神经卷积网络(110)进行训练。

8.根据权利要求6或7所述的方法(200)，其中，由所述移动平台提供数字地面图像(140)。

9.根据权利要求6至8中任一项所述的方法(200)，其中，由所述神经卷积网络(110)生成输出信号，所述输出信号具有用于确定所述定位位姿(150)的值。

10.根据以上权利要求中任一项所述的方法(200)，其中，所述神经卷积网络(110)是神经编码器卷积网络。

11.根据以上权利要求中任一项所述的方法(100)(200)，其中，借助所述移动平台的前置摄像机从所述移动平台的视角来生成所述移动平台的周围环境的地面图像(140)。

12.根据权利要求6至11中任一项所述的方法(200)，其中，基于定位位姿(150)，提供用于操控至少部分自动化的移动平台的控制信号；和/或基于所述定位位姿(150)，提供用于警告所述至少部分自动化的移动平台的乘员的警告信号。

13.一种设备，所述设备设置为用于执行根据权利要求1至12中任一项所述的方法。

14.一种计算机程序，所述计算机程序包括指令，在通过计算机实施所述计算机程序时，所述指令促使所述计算机实施根据权利要求1至12中任一项所述的方法。

15.一种机器可读的存储介质，在所述机器可读的存储介质上存储有根据权利要求14所述的计算机程序。