CN110895674A

CN110895674A - 用于基于自我中心视觉的未来车辆定位的系统和方法

Info

Publication number: CN110895674A
Application number: CN201910797187.5A
Authority: CN
Inventors: 姚煜; 徐铭泽; 崔智保; 贝赫扎德·达里乌什
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-09-13
Filing date: 2019-08-27
Publication date: 2020-03-20
Anticipated expiration: 2039-08-27
Also published as: JP6833936B2; CN110895674B; JP2020042808A; US11155259B2; US20200086858A1

Abstract

本发明题为“用于基于自我中心视觉的未来车辆定位的系统和方法”。一种用于基于自我中心视觉的未来车辆定位的系统和方法，所述系统和方法包括接收车辆的周围环境的至少一个自我中心的第一人称视角图像。所述系统和方法还包括对与至少一个交通参与者相关联的至少一个过去边界框轨迹进行编码，所述至少一个交通参与者被捕获在所述至少一个自我中心第一人称视角图像内，以及对与所述至少一个交通参与者相关联的所述自我中心第一人称视角图像的密集光流进行编码。所述系统和方法还包括基于所述至少一个过去边界框轨迹编码的最终隐藏状态以及所述密集光流编码的所述最终隐藏状态，对与所述至少一个交通参与者相关联的至少一个未来边界框进行解码。

Description

用于基于自我中心视觉的未来车辆定位的系统和方法

背景技术

自动化和高级驾驶辅助系统(ADAS)中的任务可能需要参与者车辆的动作和位置预测。使用通常由周围摄像机、LiDAR系统或空中照片生成的鸟瞰视角(BEV)成像已经尝试了未来动作预测。然而，由于大多数生产车辆未配备捕获BEV图像所需的传感器或服务，因此BEV图像的适用性可能受到限制。

在许多情况下，可通过将LiDAR点投影到地平面来生成BEV图像。投影的图像可使用未看到的未来帧来创建，或者由于作为变换函数的性质的道路不规则性而扭曲。因此，这些解决方案无法与一般ADAS界面一致地工作以开发有效的预测性运动规划策略。

发明内容

根据一个方面，一种用于基于自我中心视觉的未来车辆定位的计算机实施方法包括接收车辆的周围环境的至少一个自我中心的第一人称视角图像。该计算机实施方法还包括对与被捕获在至少一个自我中心第一人称视角图像内的至少一个交通参与者相关联的至少一个过去边界框轨迹进行编码。输出至少一个过去边界框轨迹编码的最终隐藏状态。该计算机实施方法另外包括对与至少一个交通参与者相关联的自我中心第一人称视角图像的密集光流进行编码。输出密集光流编码的最终隐藏状态。另外，该计算机实施方法包括基于至少一个过去边界框轨迹编码的最终隐藏状态以及密集光流编码的最终隐藏状态，对与至少一个交通参与者相关联的至少一个未来边界框进行解码。该计算机实施方法还包括基于与至少一个交通参与者相关联的至少一个未来边界框来控制要自主驾驶的车辆。

根据另一方面，一种基于自我中心视觉的未来车辆定位系统包括存储器，该存储器在由处理器执行时存储指令，引起处理器接收车辆的周围环境的至少一个自我中心第一人称视角图像。指令还引起处理器对与被捕获在至少一个自我中心第一人称视角图像内的至少一个交通参与者相关联的至少一个过去边界框轨迹进行编码。输出至少一个过去边界框轨迹编码的最终隐藏状态。指令另外引起处理器对与至少一个交通参与者相关联的自我中心第一人称视角图像的密集光流进行编码。输出密集光流编码的最终隐藏状态。另外，指令引起处理器基于至少一个过去边界框轨迹编码的最终隐藏状态以及密集光流编码的最终隐藏状态，对与至少一个交通参与者相关联的至少一个未来边界框进行解码。指令还引起处理器基于与至少一个交通参与者相关联的至少一个未来边界框来控制要自主驾驶的车辆。

根据又一方面，一种存储指令的非暂态计算机可读存储介质，该指令在由包括处理器的计算机执行时进行一种方法，该方法包括接收车辆的周围环境的至少一个自我中心第一人称视角图像。该方法还包括对与被捕获在至少一个自我中心第一人称视角图像内的至少一个交通参与者相关联的至少一个过去边界框轨迹进行编码。输出至少一个过去边界框轨迹编码的最终隐藏状态。该方法另外包括对与至少一个交通参与者相关联的自我中心第一人称视角图像的密集光流进行编码。输出密集光流编码的最终隐藏状态。另外，该方法还包括基于至少一个过去边界框轨迹编码的最终隐藏状态以及密集光流编码的最终隐藏状态，对与至少一个交通参与者相关联的至少一个未来边界框进行解码。该方法还包括基于与至少一个交通参与者相关联的至少一个未来边界框来控制要自主驾驶的车辆。

附图说明

图1是根据本公开的示例性实施方案的用于实施用于基于自我中心视觉的未来车辆定位的系统和方法的示例性操作环境的示意图；

图2包括根据本公开的示例性实施方案的神经网络的RNN编码器解码器结构的说明性示例；

图3是根据本公开的示例性实施方案的用于对过去边界框轨迹进行编码的方法的过程流程图；

图4是根据本公开的示例性实施方案的用于对过去相对运动和标度变化进行编码的方法的过程流程图；

图5是根据本公开的示例性实施方案的用于对与每个交通参与者相关联的未来边界框进行解码的方法的过程流程图；

图6是对来自位于车辆的周围环境内的交通参与者中的每一个交通参与者的过去边界框的未来边界框进行解码的说明性示例；

图7是根据本公开的示例性实施方案的用于控制要自主驾驶的车辆以说明位于车辆的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹的方法的过程流程图；并且

图8是根据本公开的示例性实施方案的用于基于自我中心视觉的未来车辆定位的方法的过程流程图。

具体实施方式

以下包括本文采用的选定术语的定义。定义包括落入某个术语的范围内的并且可用于实施方式的组件的各种示例和/或形式。这些示例不是限制性的。

如本文所用的“总线”是指可互连的架构，其可操作地连接到在计算机内或在计算机之间的其他计算机组件。总线可以在计算机组件之间传输数据。总线可以是存储器总线、存储器控制器、外围总线、外部总线、纵横开关和/或本地总线等等。总线可还是使用诸如面向媒体的系统传送(MOST)、控制器局域网(CAN)、本地互连网络(LIN)等等协议来将在车辆内的组件互连的车辆总线。

如本文所用的“计算机通信”是指在两个或多个计算装置(例如，计算机、个人数字助理、蜂窝电话、网络装置)之间的通信，并且可以是例如网络传输、文件传输、小程序传输、电子邮件、超文本传输协议(HTTP)传输等。计算机通信可以跨例如无线系统(例如，IEEE802.11)、以太网系统(例如，IEEE 802.3)、令牌环系统(例如，IEEE 802.5)、局域网(LAN)、广域网(WAN)、点对点系统、电路交换系统、分组交换系统等等发生。

如本文所用的“盘”可以是例如磁盘驱动器、固态磁盘驱动器、软盘驱动器、磁带驱动器、Zip驱动器、闪存存储器卡和/或存储棒。此外，盘可以是CD-ROM(压缩盘ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)和/或数字视频ROM驱动器(DVDROM)。盘可以存储控制或分配计算装置的资源的操作系统。

如本文所用的“存储器”可以包括易失性存储器和/或非易失性存储器。非易失性存储器可以包括例如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除PROM)和EEPROM(电可擦除PROM)。易失性存储器可以包括例如RAM(随机存取存储器)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)和直接RAM总线RAM(DRRAM)。存储器可以存储控制或分配计算装置的资源的操作系统。

如本文所用，“模块”包括(但不限于)非暂态计算机可读介质，其存储在机器上执行的指令、多个指令；在机器上执行的硬件、固件、软件和/或各自的组合以执行功能或动作和/或引起来自另一模块、方法和/或系统的功能或动作。模块可还包括逻辑、软件控制微处理器、离散逻辑电路、模拟电路、数字电路、编程逻辑装置、包含执行指令的存储器装置、逻辑门、门组合和/或其他电路组件。多个模块可组合成一个模块，并且单个模块可分布在多个模块之间。

“可操作的连接”或使实体“可操作地连接”的连接是可发送和/或接收信号、物理通信和/或逻辑通信的连接。可操作的连接可以包括无线接口、物理接口、数据接口和/或电气接口。

如本文所用的“处理器”处理信号并且执行一般计算和算术功能。由处理器处理的信号可以包括数字信号、数据信号、计算机指令、处理器指令、消息、位、位串流或可被接收、传输和/或检测的其他手段。一般来讲，处理器可以是多种处理器，包括多个单核和多核处理器和协处理器以及其他多个单核和多核处理器和协处理器架构。处理器可以包括各种模块以执行各种功能。

如本文所用，“车辆”是指能够运载一个或多个人类乘员并且由任何形式的能量提供动力的任何移动车辆。术语“车辆”包括(但不限于)：汽车、卡车、面包车、小型货车、SUV、摩托车、踏板车、船只、卡丁车、游乐车、铁路运输、个人水艇和飞机。在一些情况中，机动车辆包括一个或多个发动机。此外，术语“车辆”可以是指能够运载一个或多个人类乘员并且完全地或部分地由电池供电的一个或多个电动马达供电的电动车辆(EV)。EV可包括电池动力电动车辆(BEV)和插电式混合动力电动车辆(PHEV)。另外，术语“车辆”可还是指由任何形式的能量提供动力的自主车辆和/或自行驾驶车辆。自主车辆可以运载或可以不运载一个或多个人类乘员。此外，术语“车辆”可包括具有预定路径的自动化或非自动的车辆或自由移动的车辆。

如本文所用，“值”和“水平”可包括(但不限于)数值或其他种类的值或水平，诸如百分比、非数值、离散状态、离散值、连续值等等。在具体实施方式和权利要求书各处使用的术语“X的值”或“X的水平”是指用于区分X的两种或更多种状态的任何数值或其他种类的值。例如，在一些情况下，X的值或水平可以介于0％和100％之间的百分比给定。在其他情况下，X的值或水平可以是1到10之间的范围内的值。在其他情况下，X的值或水平可以不是数值，但是可以与给定的离散状态相关联，诸如“非X”、“略x”、“x”，“非常x”和“极x”。

I.系统概述

现在参考其中所示附图是出于示出一个或多个示例性实施方案的目的而非出于进行限制的目的，图1是根据本公开的示例性实施方案的用于实施用于基于自我中心视觉的未来车辆定位的系统和方法的示例性操作环境100的示意图。对于各种实施方案，本文所讨论的环境100的组件以及其他系统、硬件架构和软件架构的组件可以组合、省略或组织成不同的架构。

一般来讲，环境100包括具有电子控制单元(ECU)104的自主车辆(ego-vehicle)(车辆)102，该电子控制单元执行一个或多个应用程序、操作系统、车辆系统和子系统用户界面等等。ECU 104可还执行未来车辆定位应用程序(定位应用程序)106，该应用程序可被配置为完成基于自我中心视觉的车辆定位，以完成本文分类为位于车辆102的周围环境内的交通参与者(示于图6中)的一个或多个车辆和/或行人的定位。如下文所讨论，未来定位可包括预测位于车辆102的周围环境内的一个或多个交通参与者的一个或多个交通参与者的未来位置、地点、标度、深度和轨迹。周围环境可包括包括车辆102附近的区域。例如，车辆102的周围环境可包括车辆102定位(例如停车)在其处的交叉口和/或车辆102在其上驾驶的道路(例如，高速公路的车道)。

如下文所讨论，未来定位应用程序106可与神经网络108通信并且利用神经网络108对过去观察的时间信息进行编码，以提供与位于车辆102的周围环境内的一个或多个交通参与者有关的位置和标度信息。未来定位应用程序106可还利用神经网络108对密集光流进行编码以提供关于交通参与者运动、标度变化和外观的像素水平信息。另外，未来定位应用程序106可还利用神经网络108基于编码提供的融合编码输出对未来数据进行解码，从而输出与车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关联的预测未来边界框的预测未来位置的变化。

如下文所讨论，在一些实施方案中，应用程序106可还输入由车辆102的车辆自主控制器112提供的与车辆102的规划未来自主运动相关的数据，所述数据可还被提供给神经网络108以对与预测边界框相关的信息进行解码并且输出该信息。在一些配置中，应用程序106可还处理来自作为输入提供的各种来源的信息，并且可利用神经网络108来提供各种功能，这些功能可包括(但不限于)对象分类、特征识别、多层感知和自主驾驶命令。

如下文更详述讨论，神经网络108可被配置为多串流复发性神经网络(RNN)并且可包括编码器解码器结构，该编码器解码器结构包括多个完全连接的层。神经网络108可利用机器学习/深度学习来提供人工智能能力，该人工智能能力可用于对来自过去观察的时间信息和光流信息进行编码，并且基于车辆102的周围环境的自我中心FPV图像对预测的未来边界框进行解码。

神经网络108可被配置为处理来自解码的预测未来边界框的未来车辆定位信息，并且可构建和维护可针对一个或多个道路环境场景(例如，交叉口场景)收集的定位数据集110。在一些实施方案中，应用程序106可访问并且分析定位数据集110以提供运动规划能力，同时执行自主驾驶命令，可提供该自主驾驶命令以自主控制车辆102优先适应车辆102的周围环境内的一个或多个交通参与者和/或车辆102的预测的未来位置、地点、标度、深度和轨迹。在另外实施方案中，应用程序106可访问并且分析定位数据集110以向车辆102的驾驶员提供警告，可提供该警告来基于车辆102的周围环境内的一个或多个交通参与者和/或车辆102的预测的未来位置、地点、标度、深度和轨迹，出于优先碰撞避免目而警告/警示驾驶员。

继续参考图1，除了ECU 104和车辆自主控制器112之外，车辆102可包括多个组件，例如存储器114、可操作地连接到一个或多个摄像机118的车辆摄像机系统116，以及多个车辆系统120。在示例性实施方案中，ECU104可被配置成可操作地控制车辆102的多个组件。

在一个或多个实施方案中，ECU 104可包括微处理器、一个或多个专用集成电路(ASIC)或其他类似装置。ECU 104可还包括内部处理存储器、接口电路，以及用于传输数据、发送命令以及与车辆102的多个组件通信的总线。ECU 104可还包括用于在车辆102中内部发送数据并且与外部托管的计算系统(例如，车辆102的外部)通信的通信装置(未示出)。通常，ECU104与存储器114通信以执行存储在存储器114内的一个或多个应用程序、操作系统、车辆系统和子系统用户界面等。

在一个实施方案中，ECU 104可以可操作地控制车辆自主控制器112以基于以下项而处理并且执行自主驾驶规划：车辆102的预期目的地中的一个或多个、位于车辆102的周围环境内的一个或多个交通参与者、如由未来定位应用程序106确定的交通参与者中的一个或多个的一个或多个未来预测位置，和/或可包括(但不限于)车辆102正在其中行驶的车道、交通信号的状态、交通模式、交通规则等的一个或多个外在因素。如下文所讨论，在一些实施方案中，未来定位应用程序106可以基于由车辆自主控制器112处理的自主驾驶规划来预测车辆102的未来自主运动。

在一个实施方案中，车辆自主控制器112可另外向车辆系统120中的一个或多个和/或车辆102的一个或多个控制单元(未示出)包括(但不限于)发动机控制单元、制动控制单元、传输控制单元、转向控制单元等提供一个或多个命令，以基于由应用程序106传递的自主驾驶规划和/或数据控制要自主驾驶的车辆102，以自主地或半自主地控制车辆102。换句话讲，车辆102可基于一个或多个因素自主驾驶，该一个或多个因素可影响自主驾驶规划(例如，车辆102正在其中行驶的车道、交通信号的状态、交通模式、交通规则等)和/或基于对由神经网络108输出的最终隐藏状态的编码和解码而优先适应车辆102的周围环境内的一个或多个交通参与者的预测位置、地点、标度、深度和轨迹。

特定而言，车辆自主控制器112可被配置为向车辆系统120和/或控制单元中的一个或多个提供一个或多个命令(信号)，以提供车辆102的完全自主或半自主控制。车辆102的这种自主控制可通过发送一个或多个命令来控制车辆系统120中的一个或多个和/或控制单元中的一个或多个，以在一个或多个情况(例如，驾驶员辅助控制)期间操作(例如，驾驶)车辆102和/或在车辆102的整个行程期间完全控制车辆102的驾驶来提供。

存储器114可被配置为存储与由ECU 104执行的一个或多个操作系统、应用程序、相关联的操作系统数据、应用程序数据、车辆系统和子系统用户界面数据等相关联的一个或多个可执行文件。在一个或多个实施方案中，车辆102的存储器114可由未来定位应用程序106访问以存储数据，例如车辆102的周围环境的一个或多个自我中心FPV图像。在一些实施方案中，存储器114可包括与一个或多个类型的交通参与者相关联的一个或多个交通参与者模型(未示出)，该交通参与者模型表示包括与不同类型的交通参与者相关联的一系列尺寸和特征(基于图像数据)的值。

在示例性实施方案中，存储器114可包括神经网络108的组件。如上文所讨论，神经网络108可被配置为RNN，该RNN被配置为处理可主要为提供给神经网络108的一个或多个形式的数据的计算机/基于机器/深度学习。在一些实施方案中，除了被托管在存储器114上之外，神经网络108、神经网络108的子集和/或可由神经网络108使用的数据的子集可被托管在外部托管的服务器基础结构(未示出)上，该外部托管的服务器基础结构可被配置为通过ECU 104的通信装置与车辆102的ECU 104通信。

在一个或多个实施方案中，神经网络108可包括可提供处理能力的神经网络处理单元122，该处理能力被配置为利用机器学习/深度学习来提供可用来将数据输出至未来定位应用程序106并且构建和维护定位数据集110的人工智能能力。神经网络处理单元122可处理作为输入提供的信息，并且可利用定位数据集110来访问存储的未来定位数据以提供各种功能，可包括(但不限于)对象分类、特征识别、计算机视觉、速度识别、机器翻译、自主驾驶命令等。

在示例性实施方案中，神经网络108可被配置为RNN编码器解码器结构，该结构由神经网络处理单元122可操作地控制并且包括位置编码器124、运动编码器126和未来定位解码器128。位置编码器124和运动编码器126可被配置为门控复发性单元编码器。在示例性实施方案中，位置编码器124可被配置为相对于位于车辆102的周围环境内的一个或多个交通参与者的过去边界框轨迹来对被捕获在一个或多个自我中心FPV图像内过去观察的时间信息进行编码。因此，位置编码器124可提供与位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关的位置和标度信息。

在一个实施方案中，运动编码器126可被配置成对在一个或多个自我中心FPV图像内捕获的一个或多个交通参与者和背景的运动、标度和/或外观变化的密集光流信息进行编码。如下文所讨论，应用程序106可被配置为融合由位置编码器124和运动编码器126输出的数据，以提供位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者的编码的过去位置、标度和对应的光流场。融合的数据可被传递至未来定位解码器128以推断位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者的未来边界框轨迹。

更具体地讲，未来定位解码器128可被配置为门控复发性单元解码器，该门控复发性单元解码器被配置为基于车辆102的周围环境的一个或多个自我中心FPV图像来解码未来边界框。未来定位解码器128的隐藏状态可由位置编码器124和运动编码器126的最终融合隐藏状态来初始化，以对未来边界框进行解码，从而允许应用程序106输出要更新到定位数据集110的车辆102的周围环境内的一个或多个交通参与者的预测位置、地点、标度、深度和轨迹。在一些实施方案中，除了车辆102的未来自主运动(基于由车辆自主控制器112提供的自主驾驶规划)之外，未来定位解码器128的隐藏状态可由位置编码器124和运动编码器126的最终融合隐藏状态来初始化。

图2包括根据本公开的示例性实施方案的神经网络108的RNN编码器解码器结构的说明性示例。如下文更详细地讨论，基于由未来定位应用程序106向神经网络108的神经网络处理单元122提供的一个或多个命令，可由位置编码器124对基于一个或多个自我中心FPV图像的一个或多个交通参与者的一个或多个过去边界框轨迹202进行编码以提供位置和标度信息。

如所示，未来定位应用程序106可还为运动编码器126提供一个或多个命令，以编码与位于车辆102的周围环境内的一个或多个交通参与者相关联的自我中心FPV图像的密集光流(例如，密集光流场)204，以提供一个或多个交通参与者中的每一个交通参与者的运动、标度和/或外观变化的像素水平信息。在一些实施方案中，未来定位应用程序106可另外提供一个或多个命令以将与车辆102的自主运动规划相关联的未来自主运动数据214输入到未来定位解码器128。未来定位解码器128可被配置为解码和预测与位于车辆102的周围环境内的一个或多个交通参与者相关联的未来边界框216。如下文所讨论，未来定位应用程序106可因此通过评估相对于车辆102的周围环境的经解码的隐藏状态来预测与位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关联的未来位置、地点、标度、深度和轨迹。

在一些实施方案中，车辆102的周围环境内的一个或多个交通参与者的未来预测位置、地点、标度、深度和轨迹可作为添加到定位数据集110的车辆定位数据来提供。在一些配置中，应用程序106可利用定位数据集110来提供运动规划能力，同时执行自主驾驶命令，可提供该自主驾驶命令以自主地控制车辆102优先适应车辆102的周围环境内的一个或多个交通参与者的预测位置、地点、标度、深度和轨迹。

再次参考图1，车辆摄像机系统116可包括位于车辆102的周围环境的一个或多个区域处的一个或多个摄像机118。在示例性实施方案中，车辆102的周围环境可被限定为位于车辆102的周围(前面/侧面/后面)且可包括在车辆行驶路径内的预定区域(例如，车辆102的前面、侧面和/或后面的道路环境)。

车辆摄像机系统116的一个或多个摄像机118可被设置在车辆102的外前部分，包括(但不限于)车辆仪表板、车辆保险杠、车辆前照明单元、车辆挡泥板和挡风玻璃的不同部分。在一个实施方案中，一个或多个摄像机可被配置为可捕获RGB带的RGB摄像机，该RGB带被配置为捕获关于对象外观以及车辆102与车辆102的周围环境(其可包括一个或多个交通参与者)内的对象之间的关系和交互的丰富信息。一个或多个摄像机118可被配置为以一个或多个分辨率捕获车辆102的周围环境的自我中心FPV图像(例如，图像、视频)。例如，一个或多个摄像机118可被配置为以1920×1200分辨率和10fps捕获车辆102的正面周围环境的视频片段。

如所讨论，图像数据可由车辆摄像机系统116提供给未来定位应用程序106的一个或多个组件，以便基于神经网络108的利用来进一步评估和处理。在一些实施方案中，应用程序106可被配置为执行图像逻辑以在图像上执行特征提取。图像提取可包括提取一个或多个空间时间特征，并且可涉及对象和场景识别。在一个实施方案中，图像逻辑可还用于确定与一个或多个对象相关联的一组或多组图像坐标，该一个或多个对象可包括(但不限于)交通参与者(例如，行人、自行车、其他车辆)、道路属性(例如，车道标记、出口闸道、路缘)和路边对象(例如，交通灯、停车标志)。

在一个或多个实施方案中，车辆系统120可包括可用于自主地控制车辆102和/或车辆102的一个或多个功能和特征的一个或多个系统。例如，车辆系统120可包括(但不限于)可用于增强车辆驾驶的任何自动或手动系统。应当理解，车辆系统120可包括感测和测量与车辆102和/或特定车辆系统120相关联的不同激励(例如，信号、特性、测量、数量)的各种车辆传感器(未示出)。

例如，一些车辆传感器可包括安装到车辆102的外部的雷达和激光传感器。传感器可以是任何类型的传感器，例如声、电、环境、光学、成像、光、压力、力、热、温度、接近等。在一些实施方案中，车辆系统120中的一个或多个可包括用于检测围绕车辆102的对象的车辆传感器。例如，接近传感器、雷达传感器，激光传感器、LIDAR传感器和其他光学传感器可用于检测车辆102的周围环境内的对象。

车辆系统120可以包括高级驾驶员辅助系统(ADAS)，例如，自适应巡航控制系统、盲点监控系统、碰撞缓解系统、车道偏离警告系统等，其可以用于基于车辆102的周围环境内的一个或多个交通参与者和/或车辆102的预测的位置、地点、标度、深度和轨迹出于优先碰撞避免的目的而向车辆102的驾驶员提供警告/警示(例如，如果车辆102正由驾驶员驾驶而不是自主驾驶)。

II.未来车辆定位应用程序和相关方法

现在将根据示例性实施方案并且参考图1和图2描述未来定位应用程序106的组件。在示例性实施方案中，未来定位应用程序106可被存储在存储器114上并且由车辆102的ECU 104执行。在另一个实施方案中，未来定位应用程序106可被存储在外部托管的计算基础结构上，并且可由ECU 104的通信装置访问以由车辆102的ECU 104执行。

现在将讨论未来定位应用程序106的一般功能。在示例性实施方案中，未来定位应用程序106可包括过去数据编码模块130、未来数据解码模块132和车辆控制模块134。如下文更详细地讨论，过去数据编码模块130可被配置为从车辆摄像机系统116接收图像数据，并且利用神经网络108对来自从车辆102捕获的一个或多个自我中心FPV图像的一个或多个过去边界框轨迹进行编码。过去数据编码模块130可还被配置成对与一个或多个交通参与者相关联的密集光流进行编码，作为由运动编码器126基于一个或多个过去边界框轨迹编码的提示，以评估运动和外观的像素水平信息，从而确定车辆102的周围环境中的相对运动的模式。

如下文更详细地讨论，未来数据解码模块132可接收与位置编码器124和运动编码器126的最终融合隐藏状态210有关的数据，并且可将最终融合隐藏状态210输入到未来定位解码器128以预测一个或多个交通参与者的未来摄像机帧中的未来边界框216(例如，未来一秒)。应用程序106可因此从当前自我中心FPV图像帧输出未来边界框的相对未来位置和标度，以完成车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者的未来车辆定位。未来定位可涉及车辆102的周围环境内的一个或多个交通参与者的预测位置、地点、标度、深度和轨迹，并且可进一步用于可操作地控制要控制的车辆的一个或多个车辆系统以自主地或半自主地操作车辆102。现在将更详细地描述由未来定位应用程序106的模块130至134执行的过程步骤描述的方法和示例。

图3是根据本公开的示例性实施方案的用于对过去边界框轨迹进行编码的方法300的过程流程图。图3将参考图1和图2的组件来描述，但是应当理解，图3的方法300可与其他系统/组件一起使用。方法300可在框302处开始，其中方法300可包括从车辆摄像机系统116接收图像数据。在示例性实施方案中，未来定位应用程序106的过去数据编码模块130可封装和存储与由一个或多个摄像机118捕获的车辆102的周围环境的自我中心FPV图像/视频有关的图像数据。在一个实施方案中，过去数据编码模块130可将图像数据封装并且存储在存储器114上。

方法300可前进至框304，其中方法300可包括分析图像数据并且确定多个图像帧。在一些实施方案中，过去数据编码模块130可利用图像逻辑来评估图像数据，并且可利用神经网络108来执行机器学习/深度学习，以通过降低图像数据的采样率或相同的尺寸来对图像数据进行降频采样(down sample)。降频采样可允许减少比特率以更有效地处理图像数据。

在一个或多个实施方案中，过去数据编码模块130可将一个或多个命令发送至神经网络108，以将降频采样的数据转换为可包括图像的一个或多个过去图像帧的多个图像帧，该一个或多个图像帧包括来自当前时间点的一个或多个即时过去时间点，以确定过去图像帧的图像数据输入。一个或多个即时过去时间点可包括以图像数据的形式接收的当前时间点的近过去(例如，瞬间过去)时间点。在一些实施方案中，过去数据编码模块130可还被配置为确定包括当前图像帧的图像帧，以确定当前图像帧的图像数据输入。

方法300可前进至框306，其中方法300可包括确定一个或多个对象的物理位置。在一个实施方案中，过去数据编码模块130可执行图像逻辑以进行确定一个或多个对象相对于车辆102的物理位置。过去数据编码模块130可提取与对象和场景识别相关的一个或多个空间时间特征。在一个实施方案中，图像逻辑可还用于确定与一个或多个对象相关联的一组或多组图像坐标，该一个或多个对象可包括(但不限于)交通参与者(例如，行人、自行车、其他车辆)、道路属性(例如，车道标记、出口闸道、路缘)和路边对象(例如，交通灯、停车标志)以确定一个或多个对象相对于车辆102的物理位置。

方法300可前进至框308，其中方法300可包括从每个图像帧中对一个或多个交通参与者进行分类。在示例性实施方案中，在输出一个或多个对象的物理位置之后，过去数据编码模块130可基于一组或多组确定的图像坐标来提取与被分类为交通参与者的一个或多个对象相关联的特征。在一种配置中，过去数据编码模块130可访问存储器114以比较对象的像素位置和标度和与一个或多个类型的交通参与者相关联的一个或多个交通参与者模型，该交通参与者模型表示包括与不同类型的交通参与者相关联的一系列尺寸和特征的值，以将一个或多个对象分类成交通参与者。在一些实施方案中，过去数据编码模块130可利用在COCO数据集(未示出)上预训练以用于交通参与者检测的掩码RCNN(未示出)。过去数据编码模块130可利用卡尔曼滤波器针对(例如，视频的)每个图像帧进行多个交通参与者跟踪，从而在每个图像帧中分类一个或多个交通参与者。

方法300可前进至框310，其中方法300可包括对过去边界框轨迹位置进行编码。在对一个或多个交通对象进行分类之后，过去数据编码模块130可相对于过去图像帧在一个或多个交通参与者周围计算边界框。参考图2，可由过去数据编码模块130通过神经网络处理单元122将过去边界框轨迹202输入到神经网络108的全连接层208a。

过去数据编码模块130可访问神经网络108以利用位置编码器124为与位于车辆102的周围环境内的一个或多个交通参与者的过去轨迹相关联的过去边界框轨迹编码对象位置-标度观察。在一种配置中，可由过去数据编码模块130将每个交通参与者的过去边界框轨迹计算为：

X＝{x_t0-T₊₁,x_t0-T_+2…,,x_t0}

其中x_t＝[x_t,y_t,w_t,h_t]包含时间t下每个交通参与者边界框的像素坐标(帧)以及其像素宽度和高度。

方法300可前进至框310，其中方法300可包括对过去框轨迹进行编码。在示例性实施方案中，过去数据编码模块130可与神经网络108通信以通过神经网络108的全连接层208a向位置编码器124提供每个交通参与者的过去边界框轨迹。在一个实施方案中，过去数据编码模块130可以基于交通参与者在时间t下由每个交通参与者边界框的像素坐标指定的像素位置和标度以及其像素宽度和高度，来对具有每个交通参与者的过去位置、地点和轨迹的过去轨迹进行编码。作为示例，位于图像中心处的另一个交通参与者的过去位置、地点和轨迹可被确定为来自交叉口的相对侧的附近车辆或远程车辆。这种差异可导致交通参与者的未来位置、地点和轨迹的不同定位。

在一个或多个实施方案中，在对与车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关联的过去边界框轨迹进行编码之后，位置编码器124可基于交通参与者在时间t下由每个交通参与者边界框的像素坐标指定的像素位置和标度以及其像素宽度和高度，将每个交通参与者的过去位置、地点和轨迹传递至过去数据编码模块130，并且可输出与编码的过去边界框轨迹中的每一个编码的过去边界框轨迹相关联的最终隐藏状态。与编码的过去边界框轨迹中的每一个编码的过去边界框轨迹相关联的最终隐藏状态可输出为时间t下的门控复发性单元(GRU)模型的隐藏状态向量，其中：

其中GRU是位置编码器124的门控复发性单元，而参数

是具有ReLU激活的现行投影，

是GRU模型在时间t下的隐藏状态向量。在一个实施方案钟，在输出隐藏状态向量之后，位置编码器124可以将隐藏状态向量传递至过去数据编码模型130。如所讨论，位置编码器124的最终隐藏状态可进一步与运动编码器126的最终隐藏状态融合。

图4是根据本公开的示例性实施方案的用于对过去相对运动和标度变化进行编码的方法400的过程流程图，该方法将结合图1和图2的组件来描述，但是应当理解，图4的方法400可与其他系统/组件一起使用。在一个或多个实施方案中，方法400可由未来定位应用程序106的过去数据编码模块130来执行。

方法400可在框402处开始，其中方法400可包括确定堆叠的光流场。如上文所讨论，在对与车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关联的过去边界框轨迹进行编码之后，过去数据编码模块130可基于图像数据(如由方法300的框304处确定)来评估过去图像帧。在一个实施方案中，过去数据编码模块130可相对于过去图像帧的每个像素来评估像素水平信息，以确定过去图像帧的密集光流。密集光流可提供由可包括一个或多个交通参与者的对象的移动引起的两个连续图像帧之间的一个或多个交通参与者的明显的运动变化的模式。

在一种配置中，过去数据编码模块130可提供密集光流数据作为其中每个向量表示位移向量的向量场，该位移向量示出了点从一个图像帧到下一个图像帧的移动。换句话说，对于与交通参与者相关联的每个特征点而言，使用向量[u,v]来描述相应交通参与者由于捕获从其中确定图像帧(在框304处)的图像的一个或多个相应摄像机118的移动以及包括在图像帧内的一个或多个交通参与者的移动引起的相对运动。

密集光流提供对每个像素的精确估计。因此，过去数据编码模块130可将移动对象诸如交通参与者与在图像帧内捕获的背景对象区分开。另外，过去数据编码模块130可因此描述对象外观的变化，因为对象上的不同像素可具有不同的流。因此，密集光流可捕获以(堆叠的)密集光流场204的形式的交通参与者运动以及外观信息。确定的密集光流场204可以包括光流图(数据)，该光流图可由过去数据编码模块130进一步处理并且可针对过去T帧由模型130计算为O＝{O_t0-T₊₁,O_t0-T_+2…,,O_t0}。

方法400可前进至框404，其中方法400可包括完成光流场和过去边界框轨迹的所关注的池化区。在一个实施方案中，在确定堆叠的光流场之后，未来定位应用程序106的过去数据编码模块130可利用所关注的池化区(ROIPooling)操作206来提取一个或多个交通参与者中的每一个交通参与者的特征。

在示例性实施方案中，ROIPooling操作206可包括使用来自密集光流场204的双线性插值和与位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关联的过去边界框轨迹202。因此，ROI区可从与每个交通参与者相关联且包含关于相应交通参与者的上下文信息的边界框(例如，围绕每个交通参与者计算的边界框)扩展。

模块130可被配置为通过完成ROIPooling操作206来提取交通参与者特征。换句话讲，池化数据可用于基于与光流有关的数据提取与一个或多个交通参与者相关联的特征，该光流与被围在在确定一个或多个交通参与者的相应过去边界框轨迹时计算的一个或多个边界框内的一个或多个交通参与者相关联。

如下文所讨论，该功能可确保每个交通参与者相对于车辆102的周围环境的相对运动也由运动编码器126编码。在一个实施方案中，所得的相对运动向量表示为：

O_t＝[u_1,v_1,u_2,v_2,u_2,…u_n,v_n]_t,

其中n是池化区的尺寸。在一个或多个实施方案中，在完成ROIPooling操作206时，过去数据编码模块130可基于来自密集光流场204的双线性插值和位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者的过去边界框轨迹202来输出池化数据。如下文所讨论，过去数据编码模块130可还通过神经网络处理单元122将所池化的数据输入到另一个全连接层208b，以进一步输入到运动编码器126。

方法400可前进至框406，其中方法400可包括编码过去相对运动和标度变化。在示例性实施方案中，在完成ROIPooling操作206并且将池化数据输出到神经网络108的全连接层208b之后，过去数据编码模块130可与神经网络108的神经网络处理单元122通信以将数据串流从全连接层208b输入到神经网络108的运动编码器126。运动编码器126可用于每个输入杆并且可施加延迟融合。因此，位置编码器124和运动编码器126的最终隐藏状态可被输出至基于位置编码器124和运动编码器126的编码的未来数据解码模块132。

特定而言，运动编码器126的隐藏状态可在时间t下输出为GRU模型的隐藏状态向量，其中

其中GRU是运动编码器126的门控复发性单元，其中参数

是具有ReLU激活的线性投影，并且

是时间t下GRU模型的隐藏状态向量。在一个实施方案中，在输出隐藏状态向量之后，运动编码器126可将隐藏状态向量传递至过去数据编码模块130。

方法400可前进至框408，其中方法400可包括融合由位置编码器124和运动编码器126输出的最终隐藏状态。在示例性实施方案中，在接收与如由位置编码器124输出的一个或多个交通参与者中的每一个交通参与者的过去边界框轨迹相关联的最终隐藏状态(基于执行方法300)以及与光流交通参与者特征相关联的最终隐藏状态(基于框406)之后，过去数据编码模块130可融合(例如，合并、聚集)最终隐藏状态。特定而言，过去数据编码模块130可融合位置编码器124的最终隐藏状态和运动编码器126的最终隐藏状态以输出最终融合的隐藏状态210。最终融合的隐藏状态210可在时间t下输出为GRU模型的隐藏状态向量，其中

其中参数

是具有ReLU激活的线性投影，

和

分别是位置编码器124和运动编码器126在时间t下的GRU模型的隐藏状态向量。在示例性实施方案中，在融合由位置编码器124和运动编码器126输出的最终隐藏状态之后，过去数据编码模块130可在时间t下将最终融合隐藏状态210作为GRU模型的隐藏状态向量传递到未来定位应用程序106的未来数据解码模块132。

如下文所讨论，未来数据解码模块132可被配置为利用神经网络108来预测位于车辆102的周围环境内的一个或多个交通参与者的未来摄像机帧中的未来边界框216(例如，未来一秒)。未来数据解码模块132可因此从当前自我中心FPV图像帧输出未来边界框的相对未来位置和标度，以完成车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者的未来车辆定位。

图5是根据本公开的示例性实施方案的用于对与每个交通参与者相关联的未来边界框进行解码的方法500的过程流程图，该方法将参考图1和图2的组件来描述，但是应当理解，图5的方法500可与其他系统/组件一起使用。

方法500可在框502处开始，其中方法500可包括将最终融合隐藏状态输入到未来定位解码器128。如上文所讨论，在融合由位置编码器124和运动编码器126输出的最终隐藏状态之后，过去数据编码模块130可在时间t下将最终融合的隐藏状态210作为GRU模型的隐藏状态向量传递到未来定位应用程序106的未来数据解码模块132。

未来数据解码模块132可被配置为通过神经网络处理单元122将最终融合隐藏状态210的隐藏状态向量输入到另一个全连接层206c。因此，编码的过去边界框轨迹(过去车辆位置)的最终隐藏状态以及与位于车辆102的周围环境内的交通参与者的每一个相关联的堆叠光流场的最终隐藏状态的最终融合隐藏状态210可被输入到全连接层208c。在示例性实施方案中，最终融合隐藏状态210可由未来数据解码模块132进一步输出到未来定位解码器128，以利用GRU来解码与一个或多个交通参与者的预测未来位置相关联的未来边界框。

方法500可前进至框504，其中方法500可包括估计车辆102的未来自主运动214。在一个或多个实施方案中，未来数据解码模块132可估计车辆102的未来自主运动214以提供可有助于预测位于车辆102的周围环境中的一个或多个交通参与者的未来位置的额外数据。在一个实施方案中，如果车辆102被配置为半自主车辆或完全自主车辆，那么框504可被执行为任选的过程步骤。

如上文所讨论，车辆102的车辆自主控制器112可以基于以下项而处理并且执行自主驾驶规划：车辆102的预期目的地中的一个或多个、位于车辆102的周围环境内的一个或多个交通参与者、如由未来定位应用程序106确定的交通参与者中的一个或多个的一个或多个未来预测位置，和/或可包括(但不限于)车辆102正在其中行驶的车道、交通信号的状态、交通模式、交通规则等的一个或多个外在因素。

在示例性实施方案中，未来数据解码模块132可被配置为估计与车辆102相关联的未来自主运动，以预测交通参与者相对于移动车辆102的未来位置。换句话讲，该功能可确定对运动规划的认知，使得可估计车辆102的未来姿势(地点、位置和轨迹)以帮助对位于车辆102的周围环境内的一个或多个交通参与者的未来位置预测。这种规划的自主运动信息可有助于预测由车辆102与一个或多个交通参与者之间的交互引起的运动。例如，如果估计车辆102在交叉路口左转，那么该估计可有助于进一步估计一个或多个交通参与者可能停车让路或者可加速超过车辆102。

因此，未来数据解码模块132可分析由车辆自主控制器处理的自主驾驶规划，以估计车辆102的未来速度、偏航速率和去向(例如，未来一秒)。在一个实施方案中，未来数据解码模块132可以由一起描述从时间t到t+1的摄像机坐标系的变换的旋转矩阵

和平移向量

表示估计的未来自主运动。可以构成帧之间的相对成对变换，以估计来自当前帧的整个预测范围内的变换：

未来自主运动特征可由以下向量表示：

其中t＞t₀，

是从

和

中提取的偏航角并且

是时间t₀下来自坐标系的平移。未来数据编码模块132可以利用固定到车辆102的右手坐标系，其中车辆去向沿正x结束。

方法500可前进至框506，其中方法500可包括将所估计的未来自主运动输入到未来定位解码器128以用于未来轨迹解码。在示例性实施方案中，在估计车辆102的未来自主运动之后，未来数据解码模块132可因此通过神经网络处理单元122将车辆102的未来自主运动输入到神经网络108的全连接层208d。未来数据解码模块132可将估计的未来自主运动从全连接层208d输入到神经网络108的未来定位解码器128，以利用GRU来基于最终融合隐藏状态210和车辆102的估计自主运动来对与一个或多个交通参与者的预测未来位置相关联的未来边界框进行解码。

方法500可前进至框508，其中方法500可包括对与位于车辆102的周围环境内的一个或多个交通参与者相关联的未来边界框进行解码。在示例性实施方案中，未来数据解码模块132可利用未来定位解码器对与位于车辆102的周围环境内的一个或多个交通参与者中的每一个交通参与者相关联的未来边界框进行解码。在一个实施方案中，未来定位解码器128可输出解码器隐藏状态，该解码器隐藏状态从(过去边界框轨迹输入的)位置编码器124和(光流输入的)运动编码器126的最终融合隐藏状态210中进行初始化。未来定位解码器128可计算复发性函数：

在示例性实施方案中，未来定位解码器128可基于对如输入到未来定位解码器128的最终融合隐藏状态210和车辆102的估计的自主运动进行GRU解码，来输出来自过去边界框轨迹的未来估计边界框轨迹的估计增量(变化)。解码器隐藏状态可在时间t下输出为GRU模型的隐藏状态向量，其中：

其中

是解码器的隐藏状态，

是未来定位解码器128的初始隐藏状态，并且φ(·)是具有应用于域传送的ReLU激活的线性投影。因此，未来定位解码器128生成与来自图像帧的一个或多个交通参与者中的每一个交通参与者相关联的每个未来边界框的相对位置和标度(在方法300的框302处确定并且由上文的公式表示)。因此，由未来定位解码器128输出的模型移位以具有零初始。

在一个实施方案中，未来定位解码器128可因此在未来(预测的)边界框位置和尺寸中提供来自过去边界框轨迹位置和尺寸的增量(变化)，并且可将相应的数据传送至未来数据解码模块132。应当理解，未来定位解码器128可为可与位于车辆102的周围环境内的一个或多个交通参与者中的每一个相关联的多个预测的未来边界框提供未来边界框位置的增量。

方法500可前进到框510，其中方法500可包括预测一个或多个交通参与者的未来位置、地点、标度、深度和轨迹。在一个实施方案中，未来数据解码模块132可以利用图像逻辑(例如，预编程的计算机逻辑)并且可还与神经网络108通信以提供机器学习/深度学习，以提供人工智能能力来预测未来位置(例如，物理位置)、地点(例如，相对于车辆102的自主地点、相对于车辆102的行驶方向)、标度(例如，交通参与者的物理尺寸)、深度(例如，可转译成交通参与者与车辆102之间的距离的图像内的深度)，和轨迹(例如，行驶方向、路径、车辆102的周围环境600内的一个或多个交通参与者的去向)。

如图6的说明性示例所示，基于由位置编码器124、运动编码器126完成的编码以及未来自主运动的确定，未来定位解码器128可对来自位于车辆102的周围环境内的交通参与者610、612中的每一个交通参与者的过去边界框602中的未来边界框604、606、608进行解码。未来数据解码模块132可因此预测位于车辆102的周围环境600内的交通参与者610、612的未来位置、地点、标度、深度和轨迹(由示例性线614a和614b表示)。

在示例性实施方案中，未来数据解码模块132可将相应数据传递至神经网络108，从而更新可针对一个或多个道路环境场景(例如，交叉口场景)收集的定位数据集110。在一个或多个实施方案中，应用程序106可访问并且分析定位数据集110以提供运动规划能力，同时执行自主驾驶命令，可提供该自主驾驶命令以自主地控制车辆102优先适应车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹。在另外实施方案中，应用程序106可访问并且分析定位数据集110以向车辆102的驾驶员提供警告，可被提供该警告来基于车辆102的周围环境内的一个或多个交通参与者和/或车辆102的预测的未来位置、地点、标度、深度和轨迹，出于优先碰撞避免目而警告/警示驾驶员。

图7是根据本公开的示例性实施方案的用于控制要自主驾驶的车辆102以说明位于车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹的方法700的过程流程图，该方法将参考图1和图2的组件来描述，但是应当理解，图7的方法可与其他系统/组件一起使用。方法700可在框702处开始，其中方法700可包括接收图像数据和多个图像帧。在一个实施方案中，车辆控制模块134可与车辆摄像机系统116通信以接收车辆102的周围环境的图像数据。车辆控制模块134可另外与过去数据编码模块130通信以接收多个图像帧(在框304处确定)。

方法700可前进至框704，其中方法700可包括分析与一个或多个交通参与者相关联的预测的未来定位数据。在一个或多个实施方案中，未来数据解码模块132可还将与位于车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹有关的数据传递到未来定位应用程序106的车辆控制模块134。在接收图像数据和多个图像帧之后，车辆控制模块134可分析位于车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹。车辆控制模块134可另外基于图像数据和多个图像帧来确定车辆102可在一个或多个未来时间点行驶的一个或多个路径。可还基于由车辆自主控制器112处理的自主驾驶规划(如上文所讨论)进一步分析车辆102的未来自主运动来确定一个或多个路径。

在另外的实施方案中，车辆控制模块134可另外与神经网络108通信以从定位数据集110访问定位数据，该定位数据可与其中一个或多个交通参与者位于如预测的类似未来位置、地点、标度、深度和轨迹内的一个或多个类似的道路环境场景有关(在框510处)。来自数据集110的数据可用于进一步优化可被发送以自主地控制车辆102的一个或多个命令，以说明车辆102正在其中被驾驶的环境和位于车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹。

方法700可前进至框706，其中方法700可包括与车辆自主控制器112通信以自主地控制车辆102。在示例性实施方案中，在分析位于车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹，车辆102在一个或多个未来时间点中可行驶的一个或多个路径，以及/或者来自定位数据集110的数据之后，车辆控制模块134可以将一个或多个命令(例如，数据信号)传递至车辆自主控制器112和/或ECU 104以基于位于车辆102的周围环境内的一个或多个交通参与者的预测的基于自我中心视觉的未来车辆定位来自主控制车辆102。

在一个或多个实施方案中，车辆自主控制器112可操作地控制车辆系统120中的一个或多个，以基于位于车辆102的周围环境内的一个或多个交通参与者的预测的基于自我中心视觉的未来车辆定位来自主地或半自主地控制车辆102。车辆自主控制器112和/或ECU104可与车辆102的一个或多个控制单元通信，从而基于位于车辆102的周围环境内的一个或多个交通参与者的预测的基于自我中心视觉的未来车辆定位来控制要驾驶来控制车辆102的车辆102。

再次参考图6，作为说明性示例，车辆控制模块136可确定一个或多个离散的未来动作，该动作可由车辆102进行以说明位于车辆102的周围环境600内的交通参与者610、612的预测的未来位置、地点、标度、深度和轨迹(由示例性线614a和614b表示)。更具体地讲，可控制车辆102以执行以特定方式进行的一个或多个离散动作(例如，施加特定的速度、加速度、转向角、油门角度、制动力等)，以说明车辆102的估计的自主运动和位于车辆102的周围环境600内的交通参与者610、612的预测的未来位置、地点、标度、深度和轨迹(由示例性线614s和614b表示)。例如，车辆102可根据车辆102的估计自主运动和位于车辆102的周围环境600内的交通参与者610、612的预测的未来位置、地点、标度、深度和轨迹(由线614s和614b表示)自主地控制以使用具体制动力减速和停车。

在另外的实施方案中，在分析位于车辆102的周围环境内的一个或多个交通参与者的预测的未来位置、地点、标度、深度和轨迹，车辆102在一个或多个未来时间点中可行驶的一个或多个路径，以及/或者来自定位数据集110的数据之后，车辆控制模块134可以将一个或多个命令(例如，数据信号)传递至ECU 104以相应地可操作地控制车辆系统120中的一个或多个，以执行可以特定方式进行的一个或多个离散动作，以说明车辆102的估计的自主运动以及位于车辆102的周围环境内的一个或多个交通参与者的预测的基于自我中心视觉的未来车辆定位。

图8是根据本公开的示例性实施方案的用于基于自我中心视觉的未来车辆定位的方法800的过程流程图，该方法将参考图1和图2的组件来描述，但是应当理解，图8的方法可与其他系统/组件一起使用。方法800可在框802处开始，其中方法800可包括接收车辆102的周围环境的至少一个自我中心第一人称视角图像。

方法800可前进至框804，其中方法800可包括对与被捕获在至少一个自我中心FPV图像内的至少一个交通参与者相关联的至少一个过去边界框轨迹进行编码。在一个实施方案中，至少一个过去边界框轨迹编码的最终隐藏状态被输出。方法800可前进至框806，其中方法800可包括对与至少一个交通参与者相关联的自我中心第一人称视角图像的密集光流进行编码。

方法800可前进至框808，其中方法800可包括基于至少一个过去边界框轨迹编码的最终隐藏状态以及密集光流编码的最终隐藏状态，对与至少一个交通参与者相关联的至少一个未来边界框进行解码。方法800可前进至框810，其中方法800可包括基于与至少一个交通参与者相关联的至少一个未来边界框来控制车辆102自主驾驶。

从上述描述中应当显而易见的是，本发明的各种示例性实施方案可以在硬件中实施。此外，各种示例性实施方案可被实施为存储在非暂态机器可读存储介质诸如易失性或非易失性存储器上的指令，该存储介质可由至少一个处理器读取和执行以进行本文详细描述的操作。机器可读存储介质可包括用于以机器可读的形式存储信息的任何机构，诸如个人计算机或膝上型计算机、服务器或其他计算装置。因此，非暂态机器可读存储介质不包括瞬态信号，但是可包括易失性和非易失性存储器两者，包括(但不限于)只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存存储器装置和类似存储介质。

本领域的技术人员应当理解，本文的任何框图表示体现本发明原理的说明性电路的概念性视图。相似地，应当理解，任何流程图、流程图示、状态转变图、伪代码等表示可在机器可读介质中基本上表示并且由计算机或处理器执行的各种过程，而不管此类计算机或处理器是否被明确示出。

将会知道，上文公开的以及其他特征和功能中的各种实施方式或它们的替代物或变体可以理想地组合成许多其他不同系统或应用。此外，本领域的技术人员可以之后做出本文的各种目前无法预料或无法预期的替代、修改、变化或改进，这些也旨在涵盖在所附权利要求书中。

Claims

1.一种用于基于自我中心视觉的未来车辆定位的计算机实施方法，包括：

接收车辆的周围环境的至少一个自我中心第一人称视角图像；

对与至少一个交通参与者相关联的至少一个过去边界框轨迹进行编码，所述至少一个交通参与者被捕获在所述至少一个自我中心第一人称视角图像内，其中所述至少一个过去边界框轨迹编码的最终隐藏状态被输出；

对与所述至少一个交通参与者相关联的所述自我中心第一人称视角图像的密集光流进行编码，其中所述密集光流编码的最终隐藏状态被输出；

基于所述至少一个过去边界框轨迹编码的所述最终隐藏状态以及所述密集光流编码的所述最终隐藏状态，对与所述至少一个交通参与者相关联的至少一个未来边界框进行解码；以及

基于与所述至少一个交通参与者相关联的所述至少一个未来边界框来控制要自主驾驶的车辆。

2.根据权利要求1所述的计算机实施方法，其中接收所述至少一个自我中心第一人称视角图像包括提取与对象有关的至少一个空间时间特征，以及基于所述对象的像素位置和标度与至少一个交通参与者模型的比较将所述对象分类为所述至少一个交通参与者。

3.根据权利要求2所述的计算机实施方法，其中编码所述至少一个过去边界框轨迹包括计算在所述分类的至少一个交通参与者周围的至少一个边界框，其中基于所述至少一个过去边界框来计算至少一个过去轨迹。

4.根据权利要求3所述的计算机实施方法，其中对所述至少一个过去边界框轨迹进行编码包括基于如由所述至少一个交通参与者边界框的像素坐标每次指定的像素位置和标度，以及所述至少一个交通参与者的所述至少一个自我中心第一人称视角图像的像素中的宽度和高度，来对所述至少一个交通参与者的过去位置、地点和轨迹进行编码。

5.根据权利要求1所述的计算机实施方法，其中对所述自我中心第一人称视角图像的所述密集光流进行编码包括评价相对于所述过去图像帧的像素中的每个像素的像素水平信息，以确定所述过去图像帧的密集光流，其中所述至少一个交通参与者在两个连续图像帧之间的明显的运动变化的模式由所述至少一个交通参与者的移动引起。

6.根据权利要求5所述的计算机实施方法，其中对所述自我中心第一人称视角图像的所述密集光流进行编码包括完成光流场和所述过去边界框轨迹的所关注的池化区，其中所关注的区可从边界框扩展以提取与所述至少一个交通参与者相关联的特征。

7.根据权利要求1所述的计算机实施方法，还包括融合所述至少一个过去边界框轨迹编码的所述最终隐藏状态与所述密集光流编码的所述最终隐藏状态，其中在特定时间下将最终融合的隐藏状态输出为门控复发性单元模型的隐藏状态向量。

8.根据权利要求7所述的计算机实施方法，还包括估计所述车辆的未来自主运动，其中所述车辆的所述未来自主运动由基于以下中的至少一者的自主驾驶规划确定：所述车辆的预期目的地、所述车辆正在其中行驶的车道、交通信号的状态、交通模式和交通规则。

9.根据权利要求8所述的计算机实施方法，其中对与所述至少一个交通参与者相关联的至少一个未来边界框进行解码包括将所述车辆的所述最终融合隐藏状态和所述未来自主运动输入到未来定位解码器，以对与所述至少一个交通参与者相关联的所述至少一个未来边界框进行解码。

10.一种用于基于自我中心视觉的未来车辆定位的系统，包括：

存储器，所述存储器在由处理器执行时存储指令，引起所述处理器：

11.根据权利要求10所述的系统，其中接收所述至少一个自我中心第一人称视角图像包括提取与对象有关的至少一个空间时间特征，以及基于所述对象的像素位置和标度与至少一个交通参与者模型的比较将所述对象分类为所述至少一个交通参与者。

12.根据权利要求11所述的系统，其中编码所述至少一个过去边界框轨迹包括计算在所述分类的至少一个交通参与者周围的至少一个边界框，其中基于所述至少一个过去边界框来计算至少一个过去轨迹。

13.根据权利要求12所述的系统，其中编码所述至少一个过去边界框轨迹包括基于如由所述至少一个交通参与者边界框的像素坐标每次指定的像素位置和标度，以及所述至少一个交通参与者的所述至少一个自我中心第一人称视角图像的像素中的宽度和高度，来对所述至少一个交通参与者的过去位置、地点和轨迹进行编码。

14.根据权利要求10所述的系统，其中对所述自我中心第一人称视角图像的所述密集光流进行编码包括评价相对于所述过去图像帧的像素中的每个像素的像素水平信息，以确定所述过去图像帧的密集光流，其中所述至少一个交通参与者在两个连续图像帧之间的明显的运动变化的模式由所述至少一个交通参与者的移动引起。

15.根据权利要求14所述的系统，其中对所述自我中心第一人称视角图像的所述密集光流进行编码包括完成光流场和所述过去边界框轨迹的所关注的池化区，其中所关注的区可从边界框扩展以提取与所述至少一个交通参与者相关联的特征。

16.根据权利要求10所述的系统，还包括融合所述至少一个过去边界框轨迹编码的所述最终隐藏状态与所述密集光流编码的所述最终隐藏状态，其中在特定时间下将最终融合的隐藏状态输出为门控复发性单元模型的隐藏状态向量。

17.根据权利要求16所述的系统，还包括估计所述车辆的未来自主运动，其中所述车辆的所述未来自主运动由基于以下中的至少一者的自主驾驶规划确定：所述车辆的预期目的地、所述车辆正在其中行驶的车道、交通信号的状态、交通模式和交通规则。

18.根据权利要求17所述的系统，其中对与所述至少一个交通参与者相关联的至少一个未来边界框进行解码包括将所述车辆的所述最终融合隐藏状态和所述未来自主运动输入到未来定位解码器，以解码与所述至少一个交通参与者相关联的所述至少一个未来边界框。

19.一种存储指令的非暂态计算机可读存储介质，所述指令在由包括处理器的计算机执行时进行一种方法，所述方法包括：

基于与所述至少一个交通参与者相关联的所述至少一个未来边界框来控制要自主驾驶的所述车辆。

20.根据权利要求19所述的非暂态计算机可读存储介质，还包括融合所述至少一个过去边界框轨迹编码的所述最终隐藏状态与所述密集光流编码的所述最终隐藏状态，其中在特定时间下将最终融合的隐藏状态输出为门控复发性单元模型的隐藏状态向量。