CN113382908A

CN113382908A - 用于获取车辆动作预测的系统及相应方法

Info

Publication number: CN113382908A
Application number: CN202080011839.9A
Authority: CN
Inventors: E·迪斯特凡诺; A·富兰; D·丰塔纳; I·切尔努哈; E·圣吉内托; N·塞贝
Original assignee: Marilyn Europe
Current assignee: Marilyn Europe
Priority date: 2019-02-27
Filing date: 2020-02-20
Publication date: 2021-09-10
Also published as: US20220126844A1; EP3931058A1; JP2022521881A; WO2020174327A1; US11970175B2; IT201900002853A1

Abstract

一种用于获取车辆(V)的动作(a_t)的预测的系统(10；20)，包括：摄像机，其用于获取所述车辆(V)看到的所述场景动态的图像序列(F_t)，特别是在所述车辆(V)前方的场景动态的图像序列(F_t)；卷积神经网络视觉编码器(50)，其配置为获取车辆(V)在每个时间步(t)所看到的场景动态的图像序列(F_t)中的每个所获取图像(F_t)的对应视觉特征向量(v_t)；一个或多个传感器(40)，其配置为获取在所述相同时间步(s_t)的车辆位置(s_t)；递归神经网络(65；70)，特别是LSTM网络，其配置为接收在所述时间步(t)的所述视觉特征向量(v_t)和车辆位置(s_t)，并且生成车辆(V)的动作(a_t)的预测；所述系统(20)配置为接收表示车辆(V)的操纵的控制指令集(C)作为输入；所述递归神经网络(70)包括多个递归神经网络分支(70₁、70₂、70₃、70₄)，每一递归神经网络分支对应于所述控制指令集(C)中的一个控制指令(c_i)；所述系统(20)包括指令调节开关(60)，其配置在接收到控制指令(c_i)时选择所述递归神经网络(70)中的对应分支(70₁、70₂、70₃、70₄)；所述系统(20)然后配置为操作所述选择的对应分支(70₁、70₂、70₃、70₄)以处理在所述时间步(t)的所述视觉特征向量(v_t)和车辆位置(s_t)以获取车辆(V)的动作(a_t)的所述预测。

Description

用于获取车辆动作预测的系统及相应方法

技术领域

本说明书涉及用于获取车辆动作预测的技术，特别是用于获取公路车辆动作预测的技术，包括：

摄像机，其用于获取车辆看到的场景动态的图像序列，特别是用于在车辆前方的场景动态的图像序列，

卷积神经网络视觉编码器，其配置为获取所述车辆在每个时间步(time step)所看到的场景动态的所述图像序列中的每个所获取图像的对应视觉特征向量，

一个或多个传感器，其配置为获取在相同时间步的车辆位置(s_t)，

递归神经网络，特别是LSTM网络，其配置为接收在所述时间步的所述视觉特征向量和车辆位置并生成车辆动作预测。

背景技术

大多数基于深度学习的自动驾驶方法可以分类为两大范式：中介感知方法和行为反射(或，端到端)方法。前者由不同的、有区别的识别组件组成，如行人探测器、道路分割算法、交通信号灯/标志探测器等。然后，将相应的检测结果组合成中间整体场景表示，即(通常是基于规则的)决策者系统的知识输入，以便计划车辆接下来的动作。

另一方面，行为反射方法是一种新兴的范式，包括训练深度网络，以便将未加工数据传感器直接映射到车辆的动作决策中。将未加工数据传感器(例如图像)作为输入并输出车辆动作的网络也被表示为端到端可训练的。现代的行为反射方法使用卷积神经网络(CNNs)从通过车辆的车载摄像机捕捉的帧中提取视觉信息，例如使用为回归任务训练的简单CNN：输出神经元预测转向角。这种“仅限CNN”架构的一个问题是，每个决策仅取决于当前的帧。没有关于观察到的场景动态的“记忆”，因为之前的帧根本没有被表示出来。

例如，从2017年的CVPR中的第3530-3538页的公布的Huazhe Xu,Yang Gao,FisherYu和Trevor Darrell的“End-to-end learning of driving models from large-scalevideo datasets(从大型视频数据集进行驾驶模型的端到端学习)”中可以知晓，将动态表现引入到了使用LSTM(Long Short Term Memory，长短期记忆)网络的网络中。

具体地，如图1所示，系统10确实实质上是神经网络，由两个主要子网络组成，扩张型全卷积神经网络视觉编码器(简称为FCN)50，表示从独立于其他帧的每个帧提取的(静态)视觉信息。给定在时间步t输入的帧F_t，FCN 50使用特征向量v_t表示帧F_t。具体来说，特征向量v_t对应于FCN 50最后一层的神经元激活向量。然后，特征向量v_t与当前车辆位置s_t(使用二维向量表示)串接并输入到LSTM网络65。该第二个子网络考虑其先前的隐藏状态值而预测最可能的动作a_t。

可以用回归任务和均方误差损失来制定连续预测。然而，通过不同的工作可以广泛观察到的是，这种损失表现很差，例如，当目标分布是多模态时。因此，回归问题在这样的方案中被描述成为使用表示目标值范围的离散箱的分类任务。更详细地，转向角α_t([-90,90]度)的值的可能范围被离散化到N＝181个箱中。类似地，车速m_t的值得可能范围被离散化到N＝181个箱中。因此，网络的输出神经元的数量为2N＝362，每个神经元对应于“箱-类”，而且所采用的损失函数(见以下等式1和2)是预测类值和真实类值之间的标准交叉熵。等式1表示转向角度损失H(p_α,q_α)，q_α(x)是网络预测，且p_α(x)是训练地面实况。类似地，等式2指速度损失H(p_m,q_m)。

H(p_α,q_α)＝-Σp_α(F_t,s_t)log q_α(F_t,s_t) (1)

H(p_m,q_m)＝-Σp_m(F_t,s_t)log q_m(F_t,s_t) (2)

最终损失是两个交叉熵损失的等权重的总和。

这种方案，除了较差的损失外，仅仅只基于传感器，从而缺乏对网络行为的高级控制。

发明内容

一个或多个实施例的目的是克服可从现有技术实现的方案中固有的限制。

根据一个或多个实施例，该目的通过具有权利要求1中所述的特征的方法而实现。一个或多个实施例可能涉及相应的系统。

权利要求构成本文中所提供的与各实施例相关的技术教导的组成部分。

根据本文中所描述的方案，系统配置为接收表示车辆操纵的控制指令集作为输入，

递归神经网络包括多个递归神经网络分支，每个递归神经网络分支对应于所述控制指令集中的一个控制指令，

所述系统包括指令调节开关，所述指令调节开关配置为在接收到控制指令时选择所述递归神经网络的对应分支，

然后，所述系统配置为操作所述选择的相应分支，以处理在所述时间步的所述视觉特征向量和所述车辆位置，以获得对车辆动作的所述预测。

本文描述的方案还指向用于预测车辆动作的相应方法。

附图说明

现将参考附图并仅通过非限制性示例的方式描述实施例，其中：

图1已在前文中被讨论。

图2示出了本文描述的方案的应用环境。

图3表示本文所描述的系统的方框示意图。

图4更详细地表示了图4中的系统。

具体实施方式

随后的描述示出了旨在深入理解实施例的各种具体细节。该些实施例可以在没有一个或多个具体细节的情况下被实施，或者该些实施例可以采用其他方法、组件、材料等实施。在其他情况下，没有详细示出或描述已知的结构、材料或操作，而实施例的各个方面也不会是不清楚的。

在本说明书的框架中，对“实施例”或“一个实施例”的引用旨在指出所描述的与该实施例相关的特定配置、结构或特征包括在至少一个实施例中。同样地，可能存在于本说明书的各个方面的诸如“在实施例中”或“在一个实施例中”之类的措词并不必然指一个实施例和相同的实施例。此外，特定的构造、结构或特征可以以适当的方式组合在一个或多个实施例中。

本文中所使用的引用文献仅仅是出于方便，而并不因此限定实施例的保护范围或范围。

简而言之，本文描述了一种获取车辆动作预测的系统和方法，其是基于深度学习的自动驾驶方法，基于“端到端”训练的网络。在本文中描述的方案对车辆在移动时观察到的场景动态和指令调节决策策略进行了联合建模，该策略考虑了高级指令，该高级指令表示，例如，乘客的目标(例如，期望的目的地)。场景动态是使用递归神经网络(特别是使用LSTM)来建模的。然而，本文描述的方案涉及一种系统和方法，该系统和方法在对场景动态建模的同时也考虑了乘客的目标，而不是具有仅仅是传感器数据函数的网络。本文描述的方案提供网络行为的高级控制，利用外部提供的“指令”作为对网络的附加输入，以调节网络行为。

举例来说，参考图2，其示意性地展示了具有街道的公路地图，假设一个乘客，例如车辆V，特别是公路车辆或陆地车辆，希望从A点到B点。导航器将产生与路径P对应的以下指令序列：在下一个交叉路口右转(如在下文中所更详细介绍的c₄)、在下一个交叉路口左转(c₂)、沿路行驶(c₁)。现在通过传感器和指令的函数来描述网络函数，且可以从外部控制网络函数。指令(例如，左)要求网络计划短期策略，即，车辆操纵(对应于动作序列)，该车辆操纵能够使车辆驾驶到下一个交叉路口，然后左转。

根据本文描述的方案，图3示出了用于获取对车辆V的动作a_t的预测的系统20。

扩张型全卷积神经网络视觉编码器用50表示，其接收图像帧F_t，该图像帧F_t表示在时间步t由安装在车辆V上的前置摄像机(未示出)所获取的观察到的场景动态，并在该图像帧F_t的基础上提取相应的视觉表示v_t，比如前景像素和背景像素。所提及的扩张型FCN 50是例如从众所周知的AlexNet提取的CNN，如在Xu等的文章中所讨论的，AlexNet已经使用1×1卷积滤波器替换了最后的稠密层。它在ImageNet上进行预训练并随后与网络的其余部分一起进行微调。扩张型FCN 50配置为表示从独立于其他帧的每一帧F_t提取的视觉信息v_t，即，静态视觉信息。更具体地说，给定在时间步t输入的帧F_t，扩张型FCN 50使用由其最后一层的神经元激活所获取的特征向量或视觉向量v_t表示这样的帧F_t。

扩张型FCN 50将CNN特征向量v_t输出至指令调节开关块60，指令调节开关开块60也接收车辆的当前位置s_t。当前车辆位置s_t＝(x_t,y_t)，其中x_t、y_t是车辆V在时间步t的坐标，并且是使用由自身运动传感器块40表示的自身运动传感器获取的。自身运动传感器是用来测量相对于任意固定参照系的车辆运动的传感器(例如，IMU传感器)。这些传感器输出的轨迹与摄像机帧同步，通过这样的方式，以在每个时间步t处获得位置。

然后，指令块60中的CNN特征v_t与车辆的当前位置s_t串接，使用二维向量(x_t,y_t)表示成联合表示(s_t,v_t)。LSTM网络70包括多个LSTM分支，例如4个LSTM分支70₁、70₂、70₃、70₄。指令块60在接收到控制指令c_t时配置为切换到多个LSTM分支70₁、70₂、70₃、70₄中的与该控制指令c_t对应的一个LSTM分支。

具体而言，控制指令c_t充当分支70₁、70₂、70₃、70₄之间的开关。在“向前传递”期间，根据输入指令c_t，仅激活该些分支中的一者。因此，当处理联合表示(s_t,v_t)时，仅涉及与分支70₁、70₂、70₃、70₄的当前值对应的子策略。优选地，联合表示(s_t,v_t)被输入到每个LSTM分支，但是只有被选择的分支处理该输入。

控制指令c_t源于指令c_i的预定义集合C，i索引从1到|C|，例如，预定义集合C可以是C＝{c₁,c₂,c₃,c₄}，其中c₁,、c₂、c₃、c₄在本文的示例中分别显示为：继续(continue)、左行(left)、直行(straight)、右行(right)。这些控制指令c_t可以源于，例如车辆V的导航器。

系统20输出(即，学习)映射函数f(Ft,s_t,c_t)→a_t，其中，a_t是在时间步t预测的车辆动作，即，作为获取的图像Ft(具体是由相应的CNN特征v_t表示)、车辆的当前位置s_t和指令c_t的函数的预测车辆动作的映射。

由于使用了连续输出，预测的车辆动作a_t被定义为一对转向角和速度大小：a_t＝(α_t，m_t)，其中α_t是以弧度表示的转向角，m_t是车速值。

需要强调的是，控制指令被用作对系统20或网络的输入以选择短期策略，而动作是系统10的瞬时输出，即构成这样的短期策略。

每个LSTM分支70_i考虑到其先前的隐藏状态值h_t-1而预测最有可能的动作a_t，动作a_t表示视觉动态。重要的是要注意，尽管图3示出了一个单一的隐藏状态h_t-1，实际上，每个分支中的每个LSTM都计算它自己的隐藏状态h_t-1。

在图中，它以更详细的方式显示了系统20的一部分。

每个输入帧F_t被调整为360×640像素的分辨率，并用三个RGB通道表示。FCN 50包括第一卷积层CV1(96 11×11滤波器)，然后是具有3×3滤波器的MaxPool层MP，步幅(stride)为1的具有5x5滤波器的第二卷积层CV2(27x27x256)，步幅为1、填充(pad)为1的具有384 3x3滤波器的第三卷积层，步幅为1、填充为1的具有384 3x3滤波器的第四卷积层CV4[13x13x256]，步幅为1、填充为1的具有256 3x3滤波器的第五卷积层CV5，然后是具有40961x1滤波器的第六卷积层CV6和具有4096 1x1滤波器的第七卷积层CV7。每个LSTM分支70_i均包括两个堆叠的LSTM层，其分别包括64个神经元。在每个分支中的最终输出层71由362个神经元组成，特别是FC Softmax层64x362。在第六卷积层CV6和第七卷积层CV7之后，具有等于0.5的丢弃系数的丢弃层可用于正则化。

因此，简而言之，用于获取车辆(即，公路车辆或陆地车辆)V的动作a_t的预测的系统20，如刚才所描述的，包括：用于获取车辆V所看到的场景动态的图像序列F_t的摄像机，特别是在车辆V前方的摄像机，即，其获取车辆V前方的场景动态的图像；卷积神经网络视觉编码器50，优选扩张型FCN，配置为获取车辆V在每个时间步t所看到的场景动态的所述图像序列F_t中的在不同时间t的每个所获取图像F_t的对应视觉特征向量v_t，例如根据诸如前景、背景和其他的类别表示图像的像素的分类；一个或多个传感器40，例如，通过利用摄像机获得的图像帧所获取的自身运动传感器，其配置为在相同的时间步获取车辆的位置s_t；递归神经网络70，特别是LSTM网络70，其配置为接收所述在所述时间步t的所述视觉特征向量v_t和车辆位置s_t并考虑先前的隐藏状态h_t-1而生成车辆(V)的动作a_t的预测；其中，该系统20配置为接收控制指令集C作为输入，控制指令集C表示车辆V的操纵，特别是与动作序列相对应，递归神经网络70包括多个递归神经网络分支70₁、70₂、70₃、70₄，每一递归神经网络分支对应于所述控制指令集C中的一个控制指令c_i，该系统20包括指令调节开关60，指令调节开关60在接收到控制指令c_i时配置为选择所述递归神经网络70中的对应分支70₁、70₂、70₃、70₄，该系统20然后配置为操作由开关60所选择的所述选择的对应分支70₁、70₂、70₃、70₄，以通过处理输入(即，在所述时间步t的所述视觉特征向量v_t和车辆位置s_t)而获取车辆V的动作a_t(特别是作为在相同给定时间步t的获取的图像Ft，车辆位置s_t和控制指令c_t的映射)的预测。如所指出的，优选地，系统20将在所述时间步t的所述视觉特征向量v_t以及车辆位置s_t提供到每个对应分支70₁、70₂、70₃、70₄，然后只由选择的分支处理输入，这表明了相比将视觉特征向量v_t以及车辆的位置s_t输入只应用到所选择的分支更简单的实现方式。

优选地，所描述的系统20包括在自动驾驶系统中，例如提供由车辆待执行的动作的预测以沿着某一特定路径P行驶。

为了更好地理解本文中图3和图4的系统20的性能，这里简要讨论与该系统20相关的损失函数。

在下方等式3中，其示出了系统20的损失函数Loss(Ft,s_t,c_t)。

第一项是转向角α的交叉熵损失的和，第二项是速度m在指令nimne|C|上的交叉熵损失的和。所指出的是预测q_α,q_m的函数且p_α，p_m是训练地面实况。分支的数量对应于指令(|C|)的数量，因而对应于每项中的损失分量的数量。每个分支70_i负责从对应于指令c_i的示例中学习。因此，用于与地面-实况指令c_t相关联的样本的一个反向传播传递应该有助于反向传播仅在分支70_i中的误差，其中c_t＝c_i。在等式3中，这由指示函数1(c_i,c_t)表示，当且仅当c_t＝ci时，指示函数1(c_i,c_t)等于1。出于效率的原因，控制指令c_i被编码为独热向量(one-hot vector)。

因此，刚才公开的方法和系统的优点是显而易见的。

所描述的方法和系统允许通过使用指令调节网络来预测改进LSTM操作的动作。

使用FCN和LMTS的已知方案是自反系统，其中LMTS提供转向角或其他参数作为对FCN编码器的输出的反应。使用指令调节网络所描述的方法和系统(其中每个LMTS针对特定的车辆操纵进行训练)能够通过考虑乘客的最终目的地(其被表示为作为网络的输入的指令序列，后者由车辆导航器提供)进行操作。

此外，本文所描述的方案是将来自图像序列的动态输入而不是静态输入应用到LSTM分支的指令调节网络中。

当然，在不损害实施例的原理的情况下，结构和实施例的细节可以在不因此而偏离如随后的权利要求中所限定的本申请实施例的保护范围的情况下，相对于本文中仅仅通过示例的方式已经描述和示出的内容，进行广泛的变化。

当然，系统的神经网络，即本文所描述的，可以由一个或多个处理器或微处理器或任何处理系统实现，特别是由布置在车辆中的能够支持该神经网络的任何处理系统来实现。

Claims

1.一种用于获取车辆(V)的动作(a_t)的预测的系统(10；20)，包括：

摄像机，其用于获取所述车辆(V)看到的所述场景动态的图像序列(F_t)，特别是在所述车辆(V)前方的场景动态的图像序列(F_t)，

卷积神经网络视觉编码器(50)，其配置为获取所述车辆(V)在每个时间步(t)看到的场景动态的所述图像序列(F_t)中的每个所获取图像(F_t)的对应视觉特征向量(v_t)，

一个或多个传感器(40)，其配置为获取在相同时间步(s_t)的车辆位置(s_t)，

递归神经网络(65；70)，特别是LSTM网络，其配置为接收在所述时间步(t)的所述视觉特征向量(v_t)和所述车辆位置(s_t)，并且考虑所述先前的隐藏状态(h_t-1)而生成车辆(V)的动作(a_t)的预测，

其特征在于：

所述系统(20)配置为接收表示车辆(V)的操纵的控制指令集(C)作为输入，

所述递归神经网络(70)包括多个递归神经网络分支(70₁、70₂、70₃、70₄)，每一个递归神经网络分支对应于所述控制指令集(C)中的一个控制指令(c_i)，

所述系统(20)包括指令调节开关(60)，所述指令调节开关(60)配置为在接收到所述控制指令(c_i)时选择所述递归神经网络(70)中的对应分支(70₁、70₂、70₃、70₄)，

所述系统(20)然后配置为操作所述选择的对应分支(70₁、70₂、70₃、70₄)以处理在所述时间步(t)的所述视觉特征向量(v_t)和所述车辆位置(s_t)以获取车辆(V)的动作(a_t)的所述预测。

2.根据权利要求1所述的系统，其特征在于，所述递归神经网络包括LSTM网络。

3.根据权利要求1所述的系统，其特征在于，所述卷积神经网络视觉编码器(50)是扩张型全卷积神经网络视觉编码器(50)。

4.根据权利要求1所述的系统，其特征在于，所述系统(20)配置为操作所述对应分支(70₁、70₂、70₃、70₄)以获取车辆(V)的作为在相同给定时间步(t)的获取的所述图像(F_t)、车辆位置(s_t)和控制指令(ct)的映射的动作(a_t)的所述预测。

5.根据权利要求1所述的系统，其特征在于，所述操纵包括在所述车辆的导航路径中，特别是通过导航系统提供的。

6.根据权利要求1所述的系统，其特征在于，所述动作包括转向角和车速。

7.根据前述权利要求中的任一项所述的系统，其特征在于，所述系统包括在所述车辆的自动驾驶系统中。

8.一种用于预测车辆的动作(a_t)的方法，包括：

获取车辆(V)看到的场景动态的图像序列(F_t)，特别是在所述车辆(V)前方的场景动态的图像序列(F_t)，

通过将卷积神经网络视觉编码器(50)，特别是扩张型全卷积神经网络视觉编码器(50)，应用到对应的所获取图像(F_t)以获取在每个时间步(t)的视觉特征向量(v_t)，获取(40)在所述相同时间步(s_t)的车辆位置(s_t)，

将在所述时间步(t)的所述视觉特征向量(v_t)和所述车辆位置(s_t)提供至递归神经网络，特别是LSTM网络(65；70)，

其特征在于，所述方法包括：

确定表示车辆(V)的操纵的控制指令集(C)，

提供所述递归神经网络(70)中的多个分支(70₁、70₂、70₃、70₄)，每一分支对应所述控制指令集(C)中的一个控制指令(c_i)，

当控制指令(c_i)被发出时，选择所述递归神经网络(70)中的所述对应分支(70₁、70₂、70₃、70₄)且将在所述时间步(t)的所述视觉特征向量(v_t)和所述车辆位置(s_t)提供至所述对应分支(70₁、70₂、70₃、70₄)，

操作所述对应分支(70₁、70₂、70₃、70₄)以进行车辆的所述动作(a_t)的所述预测。

9.根据权利要求8所述的方法，其特征在于，所述操作所述对应分支(70₁、70₂、70₃、70₄)以获取车辆(V)的作为在相同给定时间步(t)的所获取的所述图像(F_t)、所述车辆位置(s_t)和控制指令(ct)的映射的动作(a_t)的所述预测。

10.根据权利要求8所述的方法，其特征在于，所述操纵包括在所述车辆的导航路径中。

11.根据权利要求8所述的方法，其特征在于，所述动作包括转向角和车速。