CN114821517A

CN114821517A - 用于学习神经网络以确定环境中车辆姿态的方法和系统

Info

Publication number: CN114821517A
Application number: CN202111577257.XA
Authority: CN
Inventors: H.U.李; B.N.巴克斯
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2021-01-20
Filing date: 2021-12-22
Publication date: 2022-07-29
Also published as: DE102021129426A1; US11669998B2; US20220230353A1

Abstract

提供了用于学习神经网络和确定环境中车辆姿态的方法和系统。第一处理器对基于传感器的图像数据执行第一特征提取，以提供第一特征图。第一处理器还对空中图像数据执行第二特征提取，以提供第二特征图。两个特征图被相关以提供相关结果。第一处理器使用相关结果和地面真实数据学习神经网络，其中学习第一特征提取和第二特征提取中的每个以从相应的图像数据提取一部分特征。地理标记的第二特征图然后可以由车辆的车载处理器检索，该车载处理器连同通过由第一处理器训练的网络的车载处理的基于传感器的数据一起确定车辆的姿态。

Description

用于学习神经网络以确定环境中车辆姿态的方法和系统

技术领域

技术领域总体涉及导航通过环境的车辆的姿态确定。更具体地，本发明涉及用于学习神经网络以确定环境中车辆位置的方法和系统，以便改善车辆的实时定位。

背景技术

在过去的几年里，由于对客运系统的需求不断增加，基于车载相机的导航系统变得非常重要。这种系统为在环境中移动的车辆提供定位信息。定位信息用于导航相应的车辆或者用于提供关于特定区域的交通状况的信息。然而，从这种基于传感器的导航系统获得的数据有时缺乏当前在某些情况下可靠导航车辆所需的精度。对精确定位信息的要求对于导航目的来说是重要的，并且对于车辆导航通过人口密集区域(例如大城市)的导航场景来说变得更加重要，在这些区域，必须区分周围环境中的多个不同特征和物体。此外，在没有特定或典型物体的环境中也需要精确的定位信息，基于这些物体可以执行基于传感器的定位。为了解决定位问题，车载基于传感器的系统(包括例如相机系统等)利用手动注释的特征即交通标志和车道边缘来训练，从而可以进行这些特征的推断姿态和已经映射出的特征的匹配，以恢复位置。然而，这种方法所需的相应特性的手动注释增加了这种系统的准备工作。

因此，期望提供避免这种手动特征注释的相关特征的改进识别，将这种相关特征与为导航目的提供不太可靠的信息的特征区分开，并提供用于改进所述区别的自学习过程，以便改进确定移动物体(例如车辆)的姿态。此外，结合附图和前述技术领域和背景技术，从随后的详细描述和所附权利要求中，本发明的其他期望特征和特性将变得显而易见。

发明内容

提供了一种用于学习神经网络以确定环境中车辆姿态的计算机实现方法。该方法包括由第一处理器获得环境的传感器数据，以提供基于传感器的图像。该方法还包括由第一处理器执行第一特征提取，其中从基于传感器的图像提取特征以提供第一特征图。该方法还包括由第一处理器获得环境的空中图像数据。该方法还包括由第一处理器执行第二特征提取，其中从获得的空中图像数据提取特征以提供第二特征图。该方法还包括由第一处理器将第一特征图与第二特征图相关以提供相关结果。该方法还包括由第一处理器获得地面真实数据。此外，该方法包括由第一处理器使用相关结果和地面真实数据来学习神经网络，其中学习神经网络包括学习第一特征提取以从基于传感器的图像提取一部分特征，并且学习第二特征提取以从获得的空中图像数据提取一部分特征。

在示例性实施例中，第一处理器在将第一特征图与第二特征图相关之前旋转第一特征图。

在示例性实施例中，在将第一特征图与第二特征图相关之前，第一处理器对第二特征图应用插值，例如空间插值、三次插值、双线性插值或任何其他插值过程。

在示例性实施例中，第一处理器学习神经网络包括通过使用软argmax函数确定相关结果中的预测坐标，基于地面真实数据确定相关结果上的地面真实坐标，以及基于预测坐标和地面真实坐标确定损失值。

在示例性实施例中，第一处理器学习神经网络包括基于地面真实数据确定地面真实高斯分布，并基于地面真实高斯分布和相关结果确定损失值。

在示例性实施例中，第一处理器反向传播损失值以学习神经网络，基于该神经网络，第一处理器从基于传感器的图像提取部分特征。

在示例性实施例中，第一处理器反向传播损失值以学习神经网络，基于该神经网络，第一处理器从获得的空中图像数据提取部分特征。

在示例性实施例中，第一处理器在迭代过程中减小损失值，在迭代过程中，损失值被重复确定并反向传播以学习神经网络。

在示例性实施例中，第一处理器确定从基于传感器的图像提取的部分特征的优先化特征组，并且还确定从基于传感器的图像提取的部分特征的去优先化特征组。优先化特征组被分配比去优先化特征组更高的对降低损失值的影响。

在示例性实施例中，第一处理器通过仅提取优先化特征组的特征来从基于传感器的图像提取部分特征。此外，第一处理器通过仅提取优先化特征组的特征来从获得的空中图像数据提取部分特征。

在示例性实施例中，第一处理器学习神经网络，直到达到指定精度的收敛，从而提供学习的神经网络。

在示例性实施例中，第一处理器确定第二特征图，例如地理标记的第二特征图，在达到指定精度的收敛之后，对第二特征图进行编码，并将第二特征图存储在存储介质上。

在示例性实施例中，提供第二处理器，其使用学习的神经网络确定车辆的姿态。第二处理器是车辆的车载处理器。

在示例性实施例中，第二处理器通过以下而使用学习的神经网络来确定车辆的姿态：从存储介质中检索第二特征图；获得车辆导航通过的环境的传感器数据，以便提供基于传感器的图像；从基于传感器的图像提取特征，以提供第一特征图；使用学习的神经网络来处理第一特征图；将第一特征图与第二特征图相关，以提供相关结果；以及基于相关结果确定车辆的姿态。

在示例性实施例中，第二处理器将粒子滤波器应用于由第二处理器确定的相关结果。粒子滤波器提供相关结果内的概率分布，其中概率分布指示车辆的预期位置。第二处理器基于概率分布确定车辆的姿态。

在示例性实施例中，通过为相关结果的一部分内的每个像素分配概率值，在相关结果内提供概率分布。

在示例性实施例中，第二处理器基于概率分布确定车辆的位置和定向。

在示例性实施例中，空中图像数据由与车辆在空间上分离的外部实体提供。

在示例性实施例中，空中图像数据由卫星系统提供。

提供了一种用于确定车辆在环境中的位置的系统。该系统包括第一处理器和第二处理器。第一处理器获得环境的传感器数据以提供基于传感器的图像，并执行第一特征提取，其中从基于传感器的图像提取特征以提供第一特征图。第一处理器进一步获得环境的空中图像数据并执行第二特征提取，其中从获得的空中图像数据中提取特征以提供第二特征图。第一处理器将第一特征图与第二特征图相关以提供相关结果。第一处理器进一步获得地面真实数据。第一处理器使用相关结果和地面真实数据来学习神经网络，其中学习神经网络包括学习第一特征提取以从基于传感器的图像提取一部分特征，以及学习第二特征提取以从获得的空中图像数据提取一部分特征。第二处理器是车辆的车载处理器，并且使用在第一处理器上学习的神经网络来确定车辆的姿态。

附图说明

下文将结合以下附图描述示例性实施例，其中相同的数字表示相同的元件，并且其中：

图1是根据实施例的具有执行用于确定车辆姿态的方法的处理器的车辆；

图2是示出根据实施例的用于确定车辆姿态的系统的图示；

图3是根据实施例的用于学习神经网络以确定车辆姿态的方法的可视化示例。

图4示出了根据实施例的用于学习神经网络以确定车辆姿态的系统的软件架构的示意图。

图5是示出根据实施例的用于学习神经网络以确定车辆姿态的方法的方法步骤的详细示例的框图。

图6是示出根据实施例的用于确定车辆姿态的方法的方法步骤的详细示例的框图。

图7示出了两个框图，分别示出了根据实施例的用于确定车辆姿态的方法的学习过程和运行时操作。

具体实施方式

以下详细描述本质上仅是示例性的，并不旨在限制应用和使用。此外，无意受在前述技术领域、背景技术、发明内容或以下详细描述中提出的任何明示或暗示的理论约束。如本文所用，术语模块和/或系统是指单独或以任何组合的任何硬件、软件、固件、电子控制部件、处理逻辑和/或处理器设备，包括但不限于：专用集成电路(ASIC)、电子电路、处理器(共享的、专用的或成组的)和执行一个或多个软件或固件程序的存储器、组合逻辑电路和/或提供所描述功能的其他合适部件。

这里可以根据功能和/或逻辑块部件以及各种处理步骤来描述本公开的实施例。应当理解，可以通过配置为执行指定功能的任何数量的硬件、软件和/或固件部件来实现这样的块部件。例如，本公开的实施例可以采用各种集成电路部件，例如存储器元件、数字信号处理元件、逻辑元件、查找表等，其可以在一个或多个微处理器或其他控制设备的控制下执行各种功能。另外，本领域技术人员将理解，可以结合任何数量的系统来实践本公开的实施例，并且本文描述的系统仅仅是本公开的示例性实施例。

为了简洁起见，与信号处理、数据传输、信令、控制和系统的其他功能方面(以及系统的各个操作部件)有关的常规技术在此处可能不会详细描述。此外，本文包含的各个附图中所示的连接线旨在表示各个元件之间的示例功能关系和/或物理联接。应当注意，在本公开的实施例中可以存在许多替代或附加的功能关系或物理连接。

参考图1，示出了根据各种实施例的车辆10。车辆10通常包括车身14、前轮16和后轮18。车辆10通常包括推进系统20、传动系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储设备32、至少一个控制器34和通信系统36。在各种实施例中，推进系统20可以包括内燃机、诸如牵引马达的电机和/或燃料电池推进系统。

传感器系统28包括一个或多个感测设备40a-40n，其感测车辆10的外部环境50和/或内部环境的可观察状态，车辆10例如是自主车辆10。一个或多个感测设备40a-40n可以例如感测车辆10的外部环境50中的物体。感测设备40a-40n可以包括但不限于雷达、激光雷达、全球定位设备、相机，特别是光学相机和/或热相机、超声波传感器、温度传感器和/或其他传感器。例如，感测设备40a可以包括配置为从环境50(即车辆10的周围环境)接收物体和/或图像数据的相机。图像数据可以包括关于位于车辆10的环境50中的至少一个物体的信息。致动器系统30包括一个或多个致动器设备42a-42n，其控制一个或多个车辆特征，比如但不限于感测设备40a-40n、推进系统20、传动系统22、转向系统24和制动系统26。

通信系统36配置成与其他实体48无线通信，比如但不限于第一处理器60，其可以是后台、卫星导航系统、其他车辆(“V2V”通信)、基础设施(“V2I”通信)、远程系统、个人设备或其组合的一部分。

第一处理器60可以配置为执行用于学习神经网络的方法的方法步骤，基于该神经网络可以确定车辆10的姿态。特别地，地理标记的第二特征图以及学习的神经网络可以由第一处理器60提供给车辆的第二处理器44，其中第二处理器44是车辆的车载处理器。车辆的车载处理器44然后可以使用学习的神经网络和地理标记的第二特征图来确定车辆10的姿态。换句话说，后台的第一处理器60可以执行学习或训练过程来学习神经网络，并且车辆10上的第二处理器44可以使用学习的神经网络来确定车辆的姿态。

在示例性实施例中，通信系统36配置成从第一处理器60接收信息。此外，通信系统36可以从诸如卫星系统的其他实体48接收卫星信息。通信系统36可以配置成从飞机或航天器接收空中图像、地面真实信息或相机图像和/或对应于这些图像的数据。

在示例性实施例中，通信系统36是无线通信系统，其配置为使用IEEE802.11标准或通过使用蜂窝数据通信经由无线局域网(WLAN)进行通信。然而，在本公开的范围内还考虑了附加或替代通信方法，比如专用短程通信(DSRC)信道。DSRC信道是指专门为汽车使用而设计的单向或双向短程到中程无线通信信道以及一组相应的协议和标准。

在各种实施例中，数据存储设备32存储可导航环境50的定义的或预定的地图。特别地，数据存储设备32可以提供表示车辆10的环境50的地图数据，特别是车辆当前导航通过的环境。此外，数据存储设备32可以提供图像，例如环境50的存储的相机图像或空中图像。地图数据可以连续更新，即实时更新，以提供对应于车辆10当前正行驶通过的环境50的地图和/或图像数据。在各种实施例中，定义的地图和/或图像可以由远程实体48(例如远程数据服务器或第一处理器60)预定义并从其获得。特别地，数据存储设备32存储算法以实现神经网络，例如从第一处理器获得的学习的神经网络。此外，数据存储设备32可以存储从第一处理器60接收的第二特征图，例如地理标记的第二特征图。例如，定义的地图和/或图像可以由远程系统收集，并传送到自主车辆10(无线地和/或以有线方式)并存储在数据存储设备32中。数据存储设备32可能已经存储了环境50的图像数据和/或环境50中的物体的特征数据。例如，存储的图像数据可以包括分配给环境50中指定位置的物体和物体特征的外观。这里描述的物体特征可以对应于树木、车辆、人行道、交通标志、街道和街道交叉口、人行横道、十字路口、街道附近的草覆盖区域等。应当理解，数据存储设备32可以是控制器34的一部分，与控制器34分离，或者是与车辆10分离的系统的一部分。

控制器34包括第二处理器44和计算机可读存储设备或介质46。第一处理器60和第二处理器44中的每个可以是任何定制的或可商购的处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关的多个处理器中的辅助处理器、基于半导体的微处理器(形式为微芯片或芯片组)、宏处理器、其任何组合或通常用于执行指令的任何设备。例如，计算机可读存储设备或介质46可以包括只读存储器(ROM)、随机存取存储器(RAM)和保持活动存储器(KAM)中的易失性和非易失性存储。KAM是持久性或非易失性存储器，其可以在第一处理器60和/或第二处理器44掉电时用于存储各种操作变量。可以使用许多已知的存储设备中的任何一种来实现计算机可读存储设备或介质46，比如PROM(可编程只读存储器)、EPROM(电PROM)、EEPROM(电可擦除PROM)、闪存或能够存储数据的任何其他电、磁、光或组合存储设备，其中一些数据代表可执行指令，控制器34在控制车辆10时使用它们，尤其是用于确定车辆10的姿态，即车辆10在环境内的位置和定向。

指令可以包括一个或多个单独的程序，每个程序包括用于实现逻辑功能的可执行指令的有序列表。当由第一处理器60和/或第二处理器44执行时，这些指令接收和处理来自传感器系统28的信号，执行逻辑、计算、方法和/或算法，特别是机器学习算法，用于确定环境50内的车辆10的姿态，用于自动控制自主车辆10的部件，并且基于逻辑、计算、方法和/或算法生成至致动器系统30的控制信号以自动控制自主车辆10的部件。尽管在图1中仅示出了一个控制器34，但自主车辆10的实施例可以包括任意数量的控制器34，它们通过任何合适的通信介质或通信介质的组合进行通信，并且配合以处理传感器信号，执行逻辑、计算、方法和/或算法，并且生成控制信号以自动控制车辆10的特征。

在各种实施例中，第一处理器60实现机器学习技术，比如使用地面真实确定基于特征图和图像反向传播一个或多个损失值以改进特征提取或概括等。

在各种实施例中，第二处理器44实现用于确定车辆10的姿态例如位置和/或定向的方法和系统，如将在此更详细讨论。特别地，第二处理器44使用在第一处理器60上学习的神经网络以及由第一处理器60提供的地理标记的空中图像数据来实现用于确定车辆10在环境50中的姿态的方法。在第一处理器上学习的神经网络可以通过车辆10的车载处理器44提供的附加学习技术进一步改进。

在示例性实施例中，该方法和系统包括在第一处理器60上以端到端的方式训练深度学习神经网络(DLNN)以直接预测地面真实姿态，并包括在第二处理器44上应用的粒子滤波器以匹配学习的特征并估计姿态。所描述的方法和系统能够在缺少映射的语义和车辆来源特征的区域中改进定位，从而通过消除对所获得的图像中存在的语义特征进行注释的需要来提高定位精度并降低成本。由第一处理器60执行的深度学习神经网络进一步以端到端的方式进行学习，以基于优先化方案提取用于定位的最佳特征，而不需要特征的任何注释。优先化方案可以包括区分优先化特征和去优先化特征，其中优先化特征对于本地化目的具有更可靠的响应。

换句话说，该方法和系统在训练没有注释数据的检测器时自动识别非语义和语义特征，避免了昂贵注释过程的需要。在端到端过程中会自动选择和学习这些特征，以便在限制地图存储的同时优化本地化性能。这包括学习忽略或去优先化空中和相机图像中的瞬态物体，比如环境中的阴影、人、树或其他车辆等。此外，可以通过使用自动编码器来限制地图存储空间，并且可以通过提供来自实时运动学的空中图像、相机图像和地面真实数据来促进数据收集。

该方法和系统通过使用空中图像而不是车辆来源的数据来实现第一天驾驶，并且通过提供不确定性指示符来支持无法完全确定确切车辆姿态的模糊场景，例如在没有横向信息的直路上。

现在参考图2，示出了用于确定车辆10(图1)在环境50中的姿态的系统70。车辆10包括具有相机40a和/或其他感测设备40n(例如雷达或激光雷达)的传感器，其生成车辆10导航通过的环境50的传感器数据。相机40a生成基于传感器的图像110，例如相机图像110，其包括物体和/或物体特征，例如树、其他车辆、人行道等。然后，基于传感器的图像被提供给第一特征提取器120。第一特征提取器120执行第一特征提取，并基于基于传感器的图像110生成第一特征图。第一特征图可以包括车辆10的环境50的各种特征。第一特征图中的特征可以包括环境50中的物体的物体特征，例如道路或交叉路口、人行道等的横向边界。与特征提取之前的相机图像中的特征量相比，该第一特征图可以包括更少的特征。上述过程的步骤可以在所谓的相机侧执行，这将参照图5更详细地描述。

车辆10(图1)还经由通信系统36接收车辆10的环境50的空中图像数据。这些空中图像数据可以作为或基于由位于车辆10之外的外部实体48捕获的空中图像210来提供。外部实体48可以是已经捕获环境50的空中图像210的飞行器或航天器，例如卫星。空中图像210可以包括物体和/或物体特征，例如树木、其他车辆、人行道等。通信系统36向第二特征提取器220提供空中图像数据。第二特征提取器220执行第二特征提取，并基于空中图像数据生成第二特征图。第二特征图可以包括车辆10的环境50的各种特征。第二特征图中的特征可以包括环境50中的物体的物体特征，例如道路或交叉路口、人行道等的横向边界。与特征提取之前的空中图像中的特征量相比，该第二特征图可以包括更少的特征。上述过程的步骤可以在所谓的空中图像侧执行，这将参照图5更详细地描述。

相关器310将第一特征图与第二特征图相关，以提供形成所谓的相关表面的相关结果。相关结果可以包括相关的特征数据，例如第一特征图和第二特征图的图像特征数据。

在一示例中，提供了滤波器320，其中对相关结果执行滤波过程，如将参考图6进一步详细描述。滤波过程的输出可以与传递附加输入360的其他现有定位策略融合，例如支持向量机(SVM)数据、全球定位系统(GPS)数据、偏航数据等。以这种方式，获得了车辆10在环境中的姿态分布340，该姿态分布340然后可以基于地面真实数据和改进第一和第二特征图的特征提取和选择的训练过程来进一步细化。滤波过程可以是运行时操作的一部分，其中使用学习的神经网络来确定车辆姿态。

地面真实数据由实时运动学330提供，并与相关结果一起用于确定指示定位损失的损失值。损失值可以基于相关结果中车辆的预测x-y坐标和根据地面真实数据确定的车辆10的地面真实-x_gt-y_gt-坐标之间的偏差来确定。损失值用于学习神经网络，基于该神经网络，第一特征提取器120中的第一特征提取和第二特征提取器220中的第二特征提取被改进。特别地，提取器学习调整它们的神经网络权重以提取能够最好地减少定位损失的特征，即损失值，其中损失值被重复确定并反向传播以学习神经网络，从而提供环中定位过程350，其中损失被迭代地减少，直到训练收敛到交叉验证性能令人满意的点。在这种情况下，可以说损失值已经达到预定或最小的阈值损失值，或者已经达到指定精度阈值的收敛。如果这样，特征提取器120、220已经学会识别噪声，例如阴影、人、树和/或汽车，这使得相应的提取和概括特征没有影响，例如“0”，使得图像中的这种噪声不会有助于相关结果的计算。

图3示出了如本文所述的用于学习神经网络以确定车辆姿态的方法的详细示例，其中强调了在该方法的情况下应用的学习原理，以便提高姿态确定的准确性。特别地，图3示出了如何处理基于传感器的图像1300和空中图像2300中的图像特征来学习神经网络。在该示例中，图像特征可以对应于物体，例如其他车辆51、树木、人52以及在捕获的图像1300、2300内表示的环境50中与道路53相关的物体。图像1300由车辆(例如图1中描述的车辆)的车载传感器获得，并且包括周围物体51、53的车载相机视图。图像数据从车载传感器获得，例如相机、雷达、激光雷达。图像2300由提供车辆周围环境50的空中图像的独立实体获得。然而，应当理解，也可以从存储介质中检索空中图像。空中图像2300中的空中特征可以单通道或多通道配置来概括。为了提供归一化相关性，即基于传感器的图像1300和空中图像2300的相关性结果3100，对图像1300、2300执行特征提取和概括，其中图像1300、2300的特征被提取和选择。特别地，基于传感器的图像1300中的特征被提取和概括，这产生第一特征图1500。提取和概括包括从图像1300中去除噪声，如汽车和/或阴影。此外，空中图像2300中的特征也被提取和概括，这产生第二特征图2500。两侧的提取和概括包括从图像1300、2300去除对应于特征如汽车、树木和/或阴影的噪声。在该提取步骤期间，一些特征被突出，导致一组特征即被认为更重要的特征将被优先化于另一组特征即被认为不太重要的特征。在将第一特征图1500与第二特征图2500相关之前，第一特征图1500基于对应于车辆定向(即自我偏航)的数据被旋转，以提供旋转的第一特征图1600。在相关中，旋转的第一特征图1600在第二特征图2500上滑动或覆盖其，以提供相关结果3100，该结果在本文中也被称为相关表面3100。基于相关表面3100和地面真实数据，可以确定车辆的位置数据图3500。从相关表面3100中的最高峰值区域3510，可以推断车辆的预测位置，例如具有x-y坐标[10,3]。然而，地面真实数据提供了不同于预测x-y坐标的x_gt-y_gt-坐标[10,2]。基于该偏差，可以确定用于学习神经网络的损失，该神经网络在多次迭代中改进了特征提取和概括，并最终导致真实坐标[10,2]。特别是，相关表面3100可以变成可以两种不同方式微分的反向可传播损耗。

第一种方法是使用二维空间软argmax函数来产生一个x-y坐标。可以相对于相关表面3100上的地面真实姿态位置来确定损失，即均方误差(MSE)，其中可以基于从精确定位设备(例如实时运动学)获得的到特定区域(例如图像1300、2300中所示的交叉点)上的x_gt-y_gt坐标的全局位置地面真实纬度/经度/方位来计算地面真实。由于二维空间软argmax是可微的，通过使用随机梯度下降的反向传播，特征提取和概括学习调整其神经网络权重以提取特征并选择最能减少定位损失的特征。该学习适用于空中图像侧和车辆传感器侧，并且在神经网络中实现，基于该神经网络，在可以在车载处理器44上执行的运行时操作期间确定车辆10(图1)的姿态。

例如，如果场景中有道路边缘、车道、人行道和阴影，那么在开始时，提取的特征可能指的是草地或邮箱等，并且选择/概括模块可以主要选择草地，并且可能选择一些其他物体。由于数据集中的其他场景可能没有邮箱或草地，因此这些区域的本地化损失会很大。然而，在训练的迭代之后，神经网络学习提取在数据集中的所有场景中更鲁棒的特征，即也许道路边缘和人行道以及一般的道路形状，因为这些特征比邮箱更常见并且更经常出现，并且神经网络还学习阴影和诸如汽车、树木、人等瞬态物体的典型外观。可以训练概括和选择来否定被认为是噪声的某些特征，即阴影、树木、人和/或汽车，并突出更可靠的特征，例如道路形状或人行道。在该训练收敛到交叉验证性能令人满意的点(收敛点或精度)之后，神经网络能够识别诸如阴影和/或汽车之类的噪声，使各个概括特征无影响，例如“0”，使得这些特征不会对相关表面3100的计算有贡献。在这种情况下，神经网络的学习已经收敛到指定精度。以这种方式，神经网络学习第一特征提取以从基于传感器的图像提取一部分特征，并学习第二特征提取以从获得的空中图像数据提取一部分特征。

因此，神经网络自动训练网络来选择重要特征，并学习自动选择鲁棒特征和去优先化非鲁棒特征。以这种方式，可以建立优先化特征组和非优先化特征组，其中优先化特征组被分配比非优先化特征组更高的对降低损失值的影响。该网络不仅学习交通标志、车道边缘、道路边缘等语义特征，还有以密集特征的形式出现的非语义特征，如道路形状、人行道、结构、小巷子、具有不典型形状的车道等。

将相关表面3100转变成向后可传播损失的第二方式是，该方法包括将地面真实姿态准备成地面真实高斯分布表面，其具有与如上所述通过将旋转的第一特征图1600与第二特征图2500相关而计算出的推断相关表面3100相同的尺寸，并且相对于地面真实高斯分布表面执行推断相关表面3100的像素损失。该第二方法具有引导神经网络学习更集中的特征的效果。这种方法使神经网络能够专注于道路形状的特定部分，而不是分散的道路形状。

图4示出了如图3所示的用于学习神经网络的系统的软件架构的示意图。学习过程可以在第一处理器60(图1)上执行。特别地，第一处理器60包括不同的处理模块，这将在下文中描述，重点是应用于学习神经网络的方法的学习原理。

在示例性实施例中，从车辆的一个或多个传感器获得车辆导航通过的环境50的传感器数据1100，并将其提供给生成基于传感器的图像1300的第一图像获得模块1200。基于传感器的图像1300被提供给第一特征提取模块1400。第一特征提取模块1400从基于传感器的图像1300中提取一部分特征，以提供第一特征图1500。

在示例性实施例中，获得环境的空中图像数据2100，并将其提供给基于空中图像数据2100生成空中图像2300的第二图像获得模块2200。空中图像2300被提供给第二特征提取模块2400。第二特征提取模块2400从空中图像2300提取一部分特征，以提供第二特征图2500。

在示例性实施例中，相关模块3000将第一特征图1500与第二特征图2500相关，以提供相关结果3100。

在示例性实施例中，地面真实确定模块3200确定地面真实数据3300，然后将其提供给损失确定模块3400。损失值3600由损失确定模块3400确定，如上面参考图3所述。使用损失值3600来学习神经网络，其中学习神经网络包括学习第一特征提取模块1400以从基于传感器的图像1300提取一部分特征，并且学习第二特征提取模块2400以从获得的空中图像2300提取一部分特征。

图5是用于学习神经网络以确定车辆(例如电动电池车辆(BEV))姿态的示例性方法的框图。图5的方法可以由图1所示的第一处理器60来执行。该方法包括相机侧100、空中侧200和相关部分300，其交互将在下面参考学习过程更详细地描述。

在示例性实施例中，该方法的相机侧100包括使用相机和/或其他感测设备捕获车辆环境的图像110。该相机图像110被用作相机侧100的输入，并且在该示例性实施例中，具有三个通道，例如用于红色、绿色和蓝色。相机图像被提供给第一处理器60和/或第二处理器44，并且特别地经过BEV的卷积特征提取器中的卷积特征提取111，并且可选地与单应变换的RGB(红、绿、蓝)图像连接112作为特征。从卷积特征提取111提取的特征通过对照从空中侧200接收的空中图像210的地面真实三通道RGB空中面片211进行训练而与BEV对准113。BEV特征概括模块中的浅卷积层将D通道特征减少114为单一通道特征，其在随后的步骤中被微调116之前相对于BEV的灰度版本被预训练115，其中提供了BEV推断对准损失L2。阴影补救模块基于空中地面真实面片211上的统计异常检测来检测117阴影可能存在于图像中的像素，并屏蔽掉118对应的像素，其中提供了BEV对准逐像素损失L1。相机侧100的结果是提供给旋转模块的第一特征图，该旋转模块在第一特征图被提供给相关部分300之前对其旋转119。旋转119可以使得相机图像特征的图像特征视角与空中图像特征的图像特征视角对准。因此，旋转119可以考虑车辆的定向，例如基于空中图像侧200上的空中图像210获得218的自我偏航。从图5可以看出，BEV模块包括卷积特征提取器和概括模块。

在一实施例中，该方法的空中侧200包括捕获车辆环境的空中图像210，其中空中图像210由与车辆分开定位的外部实体(图5中未示出)提供。例如，空中图像210可以从飞机或卫星提供，但也可以存储在存储介质上。在该示例中，空中图像210具有三个通道，例如用于红色、绿色和蓝色。然后，第一处理器60执行这里描述的空中侧200的步骤。空中图像210经过空中卷积特征提取器中的卷积特征提取212，并且所得特征经过213空中特征概括模块中的另一组浅卷积层。在一示例中，如果需要减少存储使用，则所得特征被进一步传递214给自动编码器。空中侧200的结果是作为单通道概括特征图输出的第二特征图。针对原始三通道RGB空中图像210的灰度和双插值版本，对该概括的特征图进行预训练216，其中提供了空中特征预训练损失L4。如果采用可选的自动编码器，则提取的特征构成n深度特征图，其中n深度特征图的总尺寸小于单特征概括特征图。否则，单通道概括特征图存储215在车辆上。此外，在相关部分300中将第一特征图与第二特征图相关之前，对单通道概括特征图(即第二特征图)执行217双线性插值。

在相关部分300的相关模块中，将第一特征图(即来自相机侧100的单通道概括特征图)和第二特征图(即来自空中侧200的单通道概括特征图)相关311，以形成相关表面，其在本文中也被称为相关结果。在示例中，在相关311之前，可以在值“-1”和“1”之间归一化两个特征图。

在示例性实施例中，学习神经网络伴随312使用二维空间软argmax函数确定相关结果中的预测坐标，并基于地面真实数据确定地面真实坐标。基于预测坐标和地面真实坐标，特别是基于相关结果中这些坐标之间的偏差，确定351定位姿态损失L3的损失值。L3可被称为地面真实定位损失。由于二维空间软argmax函数是可微的，通过使用随机梯度下降的反向传播，特征提取模块(对于相机侧100和空中侧200)和概括模块(对于相机侧100和空中侧200)可以学习调整252它们的神经网络权重，以便能够提取和选择可以最好地减少定位损失的特征，即考虑加权损失L1、L2、L3和L4的总损失值。可以提供进一步的损失值(图5中未示出)。例如，可以提供额外的损失，这有助于为特征提取神经网络找到更好的收敛点，即空中特征向后损失。在特征提取器神经网络的训练期间，它包括关于从车辆相机侧100推断的鸟瞰图特征的匹配损失，使得空中特征提取器不仅从相关结果和地面真实姿态中学习，而且从车载传感器上看到的内容中学习。这样，这种额外损失有助于提取器学习收敛到更好的解，即收敛直到达到指定精度。

可替代地，确定定位姿态损失L3的损失值可以伴随312基于地面真实数据确定地面真实高斯分布。基于地面真实高斯分布和相关结果确定351损失值L3。

这意味着指示定位损失的总损失值可以用于学习相机侧100和空中侧200的神经网络，卷积特征提取模块和概括模块基于该神经网络提取和选择特征。

图6是示出根据实施例的使用滤波过程来确定车辆姿态的方法的方法步骤的详细示例的框图。强调的是车辆10(图1)的姿态确定的运行时操作。关于在相机侧100和空中侧200上执行的学习步骤，参考图5。在操作期间，可以从数据存储器例如车辆10的数据存储设备32检索215空中侧200上的地图特征。这些地图特征可被解码221和内插217，以产生用作第二特征图的二维特征矩阵。相机图像110也通过特征提取器，并且提取111被应用于其以基于在步骤218中估计的车辆偏航来创建用作旋转119之后的第一特征图的BEV二维特征矩阵。如本文所述，两个特征图被相关311，并且相关表面被传递320到使用相关表面作为观察模型的粒子滤波器中。粒子滤波器的状态变量分别由x-y坐标和偏航角表示，提供了车辆10在环境中的位置和定向。

在示例性实施例中，滤波过程可以包括随机散布在车辆10的GPS位置周围的多个初始粒子，例如500个粒子。为每个粒子分配一个权重，该权重反映相关表面上每个像素位置的大小或强度。通过迭代，其中每次迭代都会随机量地扰动每个粒子，权重较高的粒子比权重较低的粒子存活的概率更大。粒子会聚到聚集在相关表面上的最高峰值区域周围，并且该区域周围的粒子分布可被计算313为姿态分布，即平均x-y坐标和定向以及每个的协方差。该姿态分布可以单独用作自主车辆10的最终输出定位或姿态确定。此外，如上面参考图2所述，该姿态分布可以可选地与其他现有定位策略融合。通过使用粒子滤波器，诸如没有纵向线索的长直路的模糊场景可以用于提供有用的姿态分布，该姿态分布可以提供车辆10的横向控制，这使得即使在没有纵向线索的情况下也能够继续自主车辆操作。

图7示出了两个框图，示出了根据实施例的用于学习神经网络的训练过程400和用于确定车辆姿态的方法的运行时操作500。图7的左图示出了训练过程，而图7的右图示出了该方法的运行时操作。注意，下面讨论的步骤可以由图1所示的处理器44和60执行。特别地，训练过程400在与车辆10分离的第一处理器60上执行，例如后台的远程处理器，而运行时操作500可以由第二处理器44执行，例如车辆10的车载处理器。

示出训练过程400的图7的左图包括例如从相机获得基于传感器的图像数据以及通过数据收集或众包获得车辆姿态信息的步骤410。在步骤420中，该基于相机的图像数据被提供给卷积特征提取器，并基于具有现有或初始精度的现有技术被滤波。为了提高这些提取和滤波精度，训练过程应用神经网络，即机器学习技术，该技术是基于相关后确定的损失来学习的，如参考图3和5所述。特别地，步骤440使用基于在来自步骤410中获得的相机图像和步骤430中获得的空中图像的特征图的相关中确定的损失的偏差校正和预处理。例如，通过学习用于准备相关的第一和第二特征图的特征提取和概括模式，该偏差校正得以改善，即在步骤450训练交叉验证。在步骤460，确定交叉验证是否已经达到期望的精度。该确定可以相对于车辆姿态确定的特定要求来进行。如果确定交叉验证已经达到期望的精度并满足要求，使得现有或初始精度可以得到改善，则在步骤470中，可以基于分配的权重来优先化的相应特征被存储为空中特征。例如，可以存储指示各个特征的优先化的权重。然而，如果确定交叉验证没有达到期望的精度，因此不满足要求，导致现有或初始精度不能提高，则在步骤480中，将至少为某些区域生成标志，指示必须进一步减少损失，可能通过发起从步骤410开始的进一步迭代。

图7的右图示出了用于确定车辆位置的方法的运行时操作500包括加载和检索在训练过程400中建立的存储权重的步骤510。这可以包括当具有存储的抽象特征的区域接近时，即车辆接近检测到存在存储的抽象特征的区域时，加载存储权重。在步骤520，该过程包括通过来自车辆相机的向前经过的相机馈送获得概括的特征图。在步骤530，确定车辆10的位置和定向，即车辆姿态，并使用粒子滤波器计算不确定性。不确定性计算可以在触发车辆10的抽象定位之前执行。在步骤540，可以在运行时操作400期间更新地图特征，并且不确定性值即增量被发送到后台，例如第一处理器60。在步骤550，得到的估计定位或姿态然后可以直接用于确定车辆的位置和定向，或者它可以与现有定位策略融合，例如SVM等。

总之，这里描述的方法和系统避免了任何类型的特征的手动注释，而是依赖于获得的车辆的地面真实姿态及其时间同步的车载传感器数据，即相机图像。利用地理标记的空中图像，在由第一处理器60执行的离线过程400中学习特征提取神经网络，然后在车载运行时操作500期间使用提取的特征，在车载运行时操作500中，特别是由第二处理器44从原始相机馈送中在车辆上处理相机侧特征。第一处理器60已经处理了空中特征侧。

虽然在前面的详细描述中已经呈现了至少一个示例性实施例，但应当理解，存在大量的变化。还应当理解，一个或多个示例性实施例仅是示例，并不旨在以任何方式限制本公开的范围、适用性或配置。相反，前述详细描述将为本领域技术人员提供用于实现一个或多个示例性实施例的便利路线图。应当理解，在不脱离所附权利要求及其法律等同物中阐述的本公开的范围的情况下，可以对元件的功能和布置进行各种改变。

Claims

1.一种用于学习神经网络以确定环境中车辆姿态的计算机实现方法，包括：

由第一处理器获得环境的传感器数据，以提供基于传感器的图像；

由第一处理器执行第一特征提取，其中从基于传感器的图像提取特征以提供第一特征图；

由第一处理器获得环境的空中图像数据；

由第一处理器执行第二特征提取，其中从获得的空中图像数据提取特征以提供第二特征图；

由第一处理器将第一特征图与第二特征图相关，以提供相关结果；

由第一处理器获得地面真实数据；以及

由第一处理器使用相关结果和地面真实数据来学习神经网络，其中学习神经网络包括学习第一特征提取以从基于传感器的图像提取一部分特征，并且学习第二特征提取以从获得的空中图像数据提取一部分特征。

2.根据权利要求1所述的方法，其中，学习神经网络包括：

使用软argmax函数确定相关结果中的预测坐标；

基于地面真实数据确定地面真实坐标；以及

基于预测坐标和地面真实坐标确定损失值。

3.根据权利要求1所述的方法，其中，学习神经网络包括：

基于地面真实数据确定地面真实高斯分布；以及

基于地面真实高斯分布和相关结果确定损失值。

4.根据权利要求2所述的方法，

由第一处理器在迭代过程中减少损失值，在迭代过程中，损失值被重复确定并反向传播以学习神经网络。

5.根据权利要求4所述的方法，

由第一处理器确定从基于传感器的图像提取的部分特征的优先化特征组；以及

由第一处理器确定从基于传感器的图像提取的部分特征的去优先化特征组；

其中，优先化特征组被分配比去优先化特征组更高的对降低损失值的影响。

6.根据权利要求1所述的方法，

由第一处理器学习神经网络，直到达到指定精度的收敛，从而提供学习的神经网络。

7.根据权利要求6所述的方法，

在达到指定精度的收敛之后，由第一处理器确定第二特征图；以及

由第一处理器对第二特征图进行编码，并将第二特征图存储在存储介质上。

8.根据权利要求7所述的方法，

由第二处理器使用学习的神经网络来确定车辆的姿态，其中第二处理器是车辆的车载处理器。

9.根据权利要求8所述的方法，

其中，由第二处理器使用学习的神经网络来确定车辆的姿态包括：

由第二处理器从存储介质中检索第二特征图；

由第二处理器获得车辆导航通过的环境的传感器数据，以便提供基于传感器的图像；

由第二处理器从基于传感器的图像提取特征，以提供第一特征图；

由第二处理器使用学习的神经网络来处理第一特征图；

由第二处理器将第一特征图与第二特征图相关，以提供相关结果；

由第二处理器基于相关结果确定车辆的姿态。

10.一种用于确定车辆在环境中的位置的系统，包括：

第一处理器，其配置为：

获得环境的传感器数据，以提供基于传感器的图像；

执行第一特征提取，其中从基于传感器的图像提取特征以提供第一特征图；

获得环境的空中图像数据；

执行第二特征提取，其中从获得的空中图像数据提取特征以提供第二特征图；

将第一特征图与第二特征图相关以提供相关结果；

获得地面真实数据；

使用相关结果和地面真实数据来学习神经网络，其中学习神经网络包括学习第一特征提取以从基于传感器的图像提取一部分特征，并且学习第二特征提取以从获得的空中图像数据提取一部分特征；以及

车辆上的第二处理器，其配置为使用学习的神经网络来确定车辆的姿态。