CN108267123A

CN108267123A - 一种基于边界框和距离预测的双流车载行人车辆预测方法

Info

Publication number: CN108267123A
Application number: CN201810064792.7A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-07-10

Abstract

本发明中提出的一种基于边界框和距离预测的双流车载行人车辆预测方法，其主要内容包括：行人轨迹预测、贝叶斯建模、循环神经网络(RNN)编码器‑解码器、距离的预测、训练和推理，其过程为，测距流将预测最有可能的车辆距离序列，边界框流由贝叶斯RNN编码器‑解码器架构组成，用于预测行人轨迹上的姿态分布，捕捉认知和任意的不确定性，由于测距法预测流用于预测点估计，所以通过最小化训练集上的均方误差来训练它，通过估计和最小化其近似权重分布的KL散度来训练贝叶斯边界框预测流。本发明使用了包括行人边界框预测和车辆距离预测的双流体系结构，大大减少了预测所需时间，而不确定性估计也显著提高了模型的预测准确性。

Description

一种基于边界框和距离预测的双流车载行人车辆预测方法

技术领域

本发明涉及行人车辆预测领域，尤其是涉及了一种基于边界框和距离预测的双流车载行人车辆预测方法。

背景技术

随着国内汽车市场的快速发展，汽车已经成为人们出行的主要方式，给人们的生活带来了很大的便利，但与此同时，交通事故发生率也逐年增加。因此，如何提高汽车的性能，降低事故发生率是许多汽车生产厂商和研究者一直致力解决的问题。近年来，计算机视觉技术快速发展，高级驾驶辅助系统也正在成为一种发展趋势。通过车载系统预测道路情况，如预测与障碍物的距离、检测车辆前方或道路两旁的行人并发出警报、预测车辆距离、盲点检测等，这些都可以帮助驾驶员进行快速有效的决策，及时调整行车路线或控制汽车的减速、刹车甚至是启动安全气囊等，从而增加驾驶的舒适性，降低危险的发生率。这种行人预测和车辆距离预测的技术还有望运用到自动驾驶系统中，在未来的无人驾驶汽车中发挥重要作用。然而，现有的车载行人车辆预测技术在预测时并不及时，当驾驶员收到相应提示时，很有可能已经来不及做出反应措施。

本发明提出了一种基于边界框和距离预测的双流车载行人车辆预测方法，测距流将预测最有可能的车辆距离序列，边界框流由贝叶斯RNN编码器-解码器架构组成，用于预测行人轨迹上的姿态分布，捕捉认知和任意的不确定性，由于测距法预测流用于预测点估计，所以通过最小化训练集上的均方误差来训练它，通过估计和最小化其近似权重分布的KL散度来训练贝叶斯边界框预测流。本发明使用了包括行人边界框预测和车辆距离预测的双流体系结构，大大减少了预测所需时间，而不确定性估计也显著提高了模型的预测准确性。

发明内容

针对预测时间太长的问题，本发明的目的在于提供一种基于边界框和距离预测的双流车载行人车辆预测方法，测距流将预测最有可能的车辆距离序列，边界框流由贝叶斯RNN编码器-解码器架构组成，用于预测行人轨迹上的姿态分布，捕捉认知和任意的不确定性，由于测距法预测流用于预测点估计，所以通过最小化训练集上的均方误差来训练它，通过估计和最小化其近似权重分布的KL散度来训练贝叶斯边界框预测流。

为解决上述问题，本发明提供一种基于边界框和距离预测的双流车载行人车辆预测方法，其主要内容包括：

(一)行人轨迹预测；

(二)贝叶斯建模；

(三)循环神经网络(RNN)编码器-解码器；

(四)距离的预测；

(五)训练和推理。

其中，所述的行人轨迹预测，在时间步长t，在车辆上观察到的与第i个行人相对应的边界框可以用左上和右下像素坐标来描述预测未来行人边界框序列 B_f(其中|B_p|＝m)的分布，调整对过去的边界框序列B_p、过去的测距序列O_p以及车辆的相应未来测距序列O_f的预测；未来的测距序列O_f是根据过去的测距序列O_p和车载视觉观察来预测的；测速序列由车辆的速度s^t和转向角d^t组成，即o^t＝(s^t,d^t)；其中，O_p＝[o^t-m,…,o^t],O_f＝ [o^t ⁺¹,…,o^t+n]；预测分布p(B_f|B_p)的方差提供了相关不确定性的度量；行人轨迹预测使用了一个基本序列。

进一步地，所述的基本序列，首先对循环神经网络(RNN)进行排序，然后将其扩展到预测分布并提供不确定性估计；序列RNN包括两个嵌入层，一个编码器RNN和一个解码器RNN；输入序列由串联的过去边界框B_p和测距序列O_p组成；输入嵌入层将输入序列x_t嵌入到表示中；该嵌入序列由编码器RNN(RNN_enc)读取，其产生摘要向量v_bbox；该摘要向量与预测距离数据O_f连接，并且使用第二嵌入层嵌入该摘要序列；由解码器RNN(RNN_dec)用嵌入的摘要序列(包含关于过去的行人运动、过去和将来的车辆距离信息)进行预测。

其中，所述的贝叶斯建模，通过学习分布模型p(f|X,Y)来捕获认知(模型)不确定性，这个分布模型可能会产生数据{X,Y}；在这里，模型具有不同参数的RNN编码器-解码器；推断RNN编码器-解码器p(f|X,Y)的后验分布，给出RNN编码器-解码器p(f)的分布的先验置信度；过去序列B_p的未来序列B_f上的预测概率是通过对RNN编码器-解码器的后验分布进行边缘化获得的：

p(B_f|B_p,O_p,O_f,X,Y)＝∫p(B_f|B_f,O_p,O_f,f)p(f|X,Y)df (1)

但是，公式(1)中的积分难以处理；但是，可以分两步来估计；首先，假设RNN编码器- 解码器模型可以用限制变量ω来描述；因此，将可能的RNN编码器-解码器的集合限制为可以用ω来描述的编码器-解码器；则公式(1)可以等价为：

p(B_f|B_p,O_p,O_f,X,Y)＝∫p(B_f|B_f,O_p,O_f,ω)p(ω|X,Y)dω (2)

其次，假设一个近似的变分分布q(ω)，它允许有效的采样：

p(B_f|B_p,O_p,O_f)＝∫p(B_f|B_p,O_p,O_f,ω)q(ω)dω (3)

选择RNN编码器-解码器的权重矩阵{W₁,…,W_L}∈w的集合作为变量ω；然后定义在权重矩阵的列上的近似伯努利变分分布q(ω)：

z_i,j＝Bernoulli(p_i),i＝1,…,L,j＝1,…,K_i-1 (4)

其中，M_k是变分参数；该分布允许在训练和测试过程中进行有效的采样。

进一步地，所述的近似，对于一个精确的近似，q(ω)和真实后验p(ω|X,Y)之间的KL散度(相对熵)最小化为训练步骤；

第一部分对应于先前模型分布的距离，第二部分对应于数据拟合；在训练和预测过程中，使用蒙特-卡罗积分来近似积分(3)和(5)；

不确定性是预测分布(3)的方差，可以通过矩匹配方法来获得；如果有未来行人边界框序列的T个样本，则时间步长t的总不确定度为：

总和的第一部分对应于认知不确定性第二部分对应于任意不确定性对时间步长的不确定性进行平均，得出完整的不确定性估计。

其中，所述的循环神经网络(RNN)编码器-解码器，长短期记忆(LSTM)的权矩阵可以连接成一个矩阵W，LSTM可以表示为：

其中，i是输入门，f是忘记门，o是输出门，c_t是细胞状态，是候选细胞状态，h_t是隐藏状态；

定义伯努利变分布q(ω)在模型的所有权矩阵的联合上：

ω＝{W_emi,W_ems,W_enc,W_dec} (8)

其中，W_enc,W_dec是RNN编码器和解码器的权重矩阵；

从q(W_emi),q(W_ems)抽样可以通过抽样随机伯努利掩码z_emi,z_ems，并在线性变换之后应用这些掩码；在输入嵌入的情况下，

类似地，LSTM的采样权重矩阵可以通过对随机伯努利掩码z_x,z_h进行采样来有效地执行；并在每个时间步长应用，LSTM编码器和解码器展开为：

通过抽样贝叶斯RNN编码器-解码器的权重矩阵来完成从预测分布p(B_f|B_p,O_f,O_p)中的抽样；然后预测每个时间步的高斯观测噪声分布参数；为此，使用RNN_dec的隐藏状态序列和一个附加的线性变换：

并从预测的高斯分布中抽取一个样本。

其中，所述的距离的预测，使用用于边界框预测的RNN编码器-解码器架构，在过去的测距序列O_p上调节预测的序列O_f，并在车辆上进行最后的视觉观察；O_p被输入到编码器RNN，其产生摘要向量v_odo；车辆O_p的过去测距法对于未来(特别是在短期内)的速度给出了提示；使用相同的LSTM公式作为RNN编码器；与最后的隐藏状态h^t作为摘要；最后的视觉观察可以更长期地测距；使用卷积神经网络(CNN编码器)来嵌入由当前观察帧提供的视觉信息。

进一步地，所述的CNN编码器体系结构，CNN编码器有10个具有修正线性单元(ReLU) 非线性的卷积层；使用固定的3×3像素的小滤镜；在每两层之后使用最大化池；在最大化池之后，将卷积滤波器的数量加倍；使用{32,64,128,256,512}卷积滤波器；卷积层之后是三个完全连接的层，具有1024、256和128个神经元和ReLU非线性；最后完全连接层的输出是视觉摘要向量v_vis；

测距和视觉摘要向量连接在v＝{v_odo,v_vis}上，并由RNN解码器(RNN_dec)读取；使用描述的相同的LSTM公式作为RNN解码器；

如前所述，LSTM解码器的隐藏状态用于通过线性变换来预测未来的测距序列。

其中，所述的训练和推理，由于测距法预测流用于预测点估计，所以首先通过最小化训练集上的均方误差(MSE)来训练它；通过估计和最小化其近似权重分布q(ω)的KL散度来训练贝叶斯边界框预测流；进一步来说，

(1)从训练集中抽取一个大小为T的小批量样本；

(2)对于每个例子，通过如(9)和(10)中的伯努利掩码采样，从q(ω)中采样权重{W_emi,W_ems,W_enc,W_dec}；

(3)对于每个例子，推导出ω参数化的异方差模型的预测均值和方差

(4)KL散度(5)可以等效地最小化以下损失：

其中，|B_f|＝n，N表示行人数；公式(5)中的左边部分是负对数似然项的等价；中间部分是用λ参数化的权重正则化，相当于公式(5)中的KL项；在训练中使用ADAM优化器，对于长于|B_p|+|B_f|的训练序列，使用一个滑动窗口来转换为多个序列。

进一步地，所述的推理，给定|B_p|和|O_p|以及视觉观测，距离预测流首先用于预测O_f；从预测分布(3)中抽样，通过如(9)和(10)中的伯努利掩码采样，从学习的近似分布q(ω)中采样贝叶斯边界框预测流的权重矩阵{W_emi,W_ems,W_enc,W_dec}的T个样本；将RNN_dec展开，从每个T个预测的高斯分布中获得样本相关的不确定性是使用T样本(6)获得的。

附图说明

图1是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的系统框架图。

图2是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的双流体系结构。

图3是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的行人轨迹预测。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的系统框架图。主要包括行人轨迹预测，贝叶斯建模，循环神经网络(RNN)编码器-解码器，距离的预测，训练和推理。

贝叶斯建模，通过学习分布模型p(f|X,Y)来捕获认知(模型)不确定性，这个分布模型可能会产生数据{X,Y}；在这里，模型具有不同参数的RNN编码器-解码器；推断RNN编码器-解码器p(f|X,Y)的后验分布，给出RNN编码器-解码器p(f)的分布的先验置信度；过去序列B_p的未来序列B_f上的预测概率是通过对RNN编码器-解码器的后验分布进行边缘化获得的：

p(B_f|B_p,O_p,O_f,X,Y)＝∫p(B_f|B_f,O_p,O_f,f)p(f|X,Y)df (1)

p(B_f|B_p,O_p,O_f,X,Y)＝∫p(B_f|B_f,O_p,O_f,ω)p(ω|X,Y)dω (2)

其次，假设一个近似的变分分布q(ω)，它允许有效的采样：

p(B_f|B_p,O_p,O_f)＝∫p(B_f|B_p,O_p,O_f,ω)q(ω)dω (3)

选择RNN编码器-解码器的权重矩阵的集合作为变量ω；然后定义在权重矩阵的列上的近似伯努利变分分布q(ω)：

z_i,j＝Bernoulli(p_i),i＝1,…,L,j＝1,…,K_i-1 (4)

对于一个精确的近似，q(ω)和真实后验p(ω|X,Y)之间的KL散度(相对熵)最小化为训练步骤；

循环神经网络(RNN)编码器-解码器，长短期记忆(LSTM)的权矩阵可以连接成一个矩阵W，LSTM可以表示为：

定义伯努利变分布q(ω)在模型的所有权矩阵的联合上：

ω＝{W_emi,W_ems,W_enc,W_dec} (8)

其中，W_enc,W_dec是RNN编码器和解码器的权重矩阵；

并从预测的高斯分布中抽取一个样本。

距离的预测，使用用于边界框预测的RNN编码器-解码器架构，在过去的测距序列O_p上调节预测的序列O_f，并在车辆上进行最后的视觉观察；O_p被输入到编码器RNN，其产生摘要向量v_odo；车辆O_p的过去测距法对于未来(特别是在短期内)的速度给出了提示；使用相同的LSTM公式作为RNN编码器；与最后的隐藏状态h^t作为摘要；最后的视觉观察可以更长期地测距；使用卷积神经网络(CNN编码器)来嵌入由当前观察帧提供的视觉信息。

CNN编码器有10个具有修正线性单元(ReLU)非线性的卷积层；使用固定的3×3像素的小滤镜；在每两层之后使用最大化池；在最大化池之后，将卷积滤波器的数量加倍；使用 {32,64,128,256,512}卷积滤波器；卷积层之后是三个完全连接的层，具有1024、256和128 个神经元和ReLU非线性；最后完全连接层的输出是视觉摘要向量v_vis；

训练，由于测距法预测流用于预测点估计，所以首先通过最小化训练集上的均方误差 (MSE)来训练它；通过估计和最小化其近似权重分布q(ω)的KL散度来训练贝叶斯边界框预测流；进一步来说，

(1)从训练集中抽取一个大小为T的小批量样本；

(4)KL散度(5)可以等效地最小化以下损失：

推理，给定|B_p|和|O_p|以及视觉观测，距离预测流首先用于预测O_f；从预测分布(3)中抽样，通过如(9)和(10)中的伯努利掩码采样，从学习的近似分布q(ω)中采样贝叶斯边界框预测流的权重矩阵{W_emi,W_ems,W_enc,W_dec}的T个样本；将RNN_dec展开，从每个T个预测的高斯分布中获得样本相关的不确定性是使用T样本(6)获得的。

图2是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的双流体系结构。本方法模型具有任意性和认知的不确定性；模型包含两个流来预测行人的运动和车辆的距离；测距流将预测最有可能的车辆距离序列；边界框流由贝叶斯循环神经网络(RNN)编码器- 解码器架构组成，用于预测行人轨迹上的姿态分布，捕捉认知和任意的不确定性。

图3是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的行人轨迹预测。在时间步长t，在车辆上观察到的与第i个行人相对应的边界框可以用左上和右下像素坐标来描述预测未来行人边界框序列B_f(其中|B_p|＝m)的分布，调整对过去的边界框序列B_p、过去的测距序列O_p以及车辆的相应未来测距序列O_f的预测；未来的测距序列O_f是根据过去的测距序列O_p和车载视觉观察来预测的；测速序列由车辆的速度s^t和转向角d^t组成，即o^t＝(s^t,d^t)；其中， O_p＝[o^t-m,…,o^t],O_f＝[o^t+1,…,o^t+n]；预测分布p(B_f|B_p)的方差提供了相关不确定性的度量；行人轨迹预测使用了一个基本序列。

基本序列首先对循环神经网络(RNN)进行排序，然后将其扩展到预测分布并提供不确定性估计；序列RNN包括两个嵌入层，一个编码器RNN和一个解码器RNN；输入序列由串联的过去边界框B_p和测距序列O_p组成；输入嵌入层将输入序列x_t嵌入到表示中；该嵌入序列由编码器RNN(RNN_enc)读取，其产生摘要向量v_bbox；该摘要向量与预测距离数据O_f连接，并且使用第二嵌入层嵌入该摘要序列；由解码器RNN(RNN_dec)用嵌入的摘要序列(包含关于过去的行人运动、过去和将来的车辆距离信息)进行预测。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于边界框和距离预测的双流车载行人车辆预测方法，其特征在于，主要包括行人轨迹预测(一)；贝叶斯建模(二)；循环神经网络(RNN)编码器-解码器(三)；距离的预测(四)；训练和推理(五)。

2.基于权利要求书1所述的行人轨迹预测(一)，其特征在于，在时间步长t，在车辆上观察到的与第i个行人相对应的边界框可以用左上和右下像素坐标来描述预测未来行人边界框序列B_f(其中|B_p|＝m)的分布，调整对过去的边界框序列B_p、过去的测距序列O_p以及车辆的相应未来测距序列O_f的预测；未来的测距序列O_f是根据过去的测距序列O_p和车载视觉观察来预测的；测速序列由车辆的速度s^t和转向角d^t组成，即o^t＝(s^t,d^t)；其中，O_p＝[o^t ^-m,…,o^t],O_f＝[o^t+1,…,o^t+n]；预测分布p(B_f|B_p)的方差提供了相关不确定性的度量；行人轨迹预测使用了一个基本序列。

3.基于权利要求书2所述的基本序列，其特征在于，首先对循环神经网络(RNN)进行排序，然后将其扩展到预测分布并提供不确定性估计；序列RNN包括两个嵌入层，一个编码器RNN和一个解码器RNN；输入序列由串联的过去边界框B_p和测距序列O_p组成；输入嵌入层将输入序列x_t嵌入到表示中；该嵌入序列由编码器RNN(RNN_enc)读取，其产生摘要向量v_bbox；该摘要向量与预测距离数据O_f连接，并且使用第二嵌入层嵌入该摘要序列；由解码器RNN(RNN_dec)用嵌入的摘要序列(包含关于过去的行人运动、过去和将来的车辆距离信息)进行预测。

4.基于权利要求书1所述的贝叶斯建模(二)，其特征在于，通过学习分布模型p(f|X,Y)来捕获认知(模型)不确定性，这个分布模型可能会产生数据{X,Y}；在这里，模型具有不同参数的RNN编码器-解码器；推断RNN编码器-解码器p(f|X,Y)的后验分布，给出RNN编码器-解码器p(f)的分布的先验置信度；过去序列B_p的未来序列B_f上的预测概率是通过对RNN编码器-解码器的后验分布进行边缘化获得的：

p(B_f|B_p,O_p,O_f,X,Y)＝∫p(B_f|B_f,O_p,O_f,f)p(f|X,Y)df (1)

但是，公式(1)中的积分难以处理；但是，可以分两步来估计；首先，假设RNN编码器-解码器模型可以用限制变量ω来描述；因此，将可能的RNN编码器-解码器的集合限制为可以用ω来描述的编码器-解码器；则公式(1)可以等价为：

p(B_f|B_p,O_p,O_f,X,Y)＝∫p(B_f|B_f,O_p,O_f,ω)p(ω|X,Y)dω (2)

其次，假设一个近似的变分分布q(ω)，它允许有效的采样：

p(B_f|B_p,O_p,O_f)＝∫p(B_f|B_p,O_p,O_f,ω)q(ω)dω (3)

z_i,j＝Bernoulli(p_i),i＝1,…,L,j＝1,…,K_i-1 (4)

5.基于权利要求书4所述的近似，其特征在于，对于一个精确的近似，q(ω)和真实后验p(ω|X,Y)之间的KL散度(相对熵)最小化为训练步骤；

6.基于权利要求书1所述的循环神经网络(RNN)编码器-解码器(三)，其特征在于，长短期记忆(LSTM)的权矩阵可以连接成一个矩阵W，LSTM可以表示为：

h_t＝o⊙tanh(c_t) (7)

定义伯努利变分布q(ω)在模型的所有权矩阵的联合上：

ω＝{W_emi,W_ems,W_enc,W_dec} (8)

其中，W_enc,W_dec是RNN编码器和解码器的权重矩阵；

并从预测的高斯分布中抽取一个样本。

7.基于权利要求书1所述的距离的预测(四)，其特征在于，使用用于边界框预测的RNN编码器-解码器架构，在过去的测距序列O_p上调节预测的序列O_f，并在车辆上进行最后的视觉观察；O_p被输入到编码器RNN，其产生摘要向量v_odo；车辆O_p的过去测距法对于未来(特别是在短期内)的速度给出了提示；使用相同的LSTM公式作为RNN编码器；与最后的隐藏状态h^t作为摘要；最后的视觉观察可以更长期地测距；使用卷积神经网络(CNN编码器)来嵌入由当前观察帧提供的视觉信息。

8.基于权利要求书7所述的CNN编码器体系结构，其特征在于，CNN编码器有10个具有修正线性单元(ReLU)非线性的卷积层；使用固定的3×3像素的小滤镜；在每两层之后使用最大化池；在最大化池之后，将卷积滤波器的数量加倍；使用{32,64,128,256,512}卷积滤波器；卷积层之后是三个完全连接的层，具有1024、256和128个神经元和ReLU非线性；最后完全连接层的输出是视觉摘要向量v_vis；

9.基于权利要求书8所述的训练和推理(五)，其特征在于，由于测距法预测流用于预测点估计，所以首先通过最小化训练集上的均方误差(MSE)来训练它；通过估计和最小化其近似权重分布q(ω)的KL散度来训练贝叶斯边界框预测流；进一步来说，

(1)从训练集中抽取一个大小为T的小批量样本；

(4)KL散度(5)可以等效地最小化以下损失：

10.基于权利要求书9所述的推理，其特征在于，给定|B_p|和|O_p|以及视觉观测，距离预测流首先用于预测O_f；从预测分布(3)中抽样，通过如(9)和(10)中的伯努利掩码采样，从学习的近似分布q(ω)中采样贝叶斯边界框预测流的权重矩阵{W_emi,W_ems,W_enc,W_dec}的T个样本；将RNN_dec展开，从每个T个预测的高斯分布中获得样本相关的不确定性是使用T样本(6)获得的。