CN108267123A - 一种基于边界框和距离预测的双流车载行人车辆预测方法 - Google Patents

一种基于边界框和距离预测的双流车载行人车辆预测方法 Download PDF

Info

Publication number
CN108267123A
CN108267123A CN201810064792.7A CN201810064792A CN108267123A CN 108267123 A CN108267123 A CN 108267123A CN 201810064792 A CN201810064792 A CN 201810064792A CN 108267123 A CN108267123 A CN 108267123A
Authority
CN
China
Prior art keywords
rnn
prediction
sequence
distribution
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810064792.7A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810064792.7A priority Critical patent/CN108267123A/zh
Publication of CN108267123A publication Critical patent/CN108267123A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/02Picture taking arrangements specially adapted for photogrammetry or photographic surveying, e.g. controlling overlapping of pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)

Abstract

本发明中提出的一种基于边界框和距离预测的双流车载行人车辆预测方法,其主要内容包括:行人轨迹预测、贝叶斯建模、循环神经网络(RNN)编码器‑解码器、距离的预测、训练和推理,其过程为,测距流将预测最有可能的车辆距离序列,边界框流由贝叶斯RNN编码器‑解码器架构组成,用于预测行人轨迹上的姿态分布,捕捉认知和任意的不确定性,由于测距法预测流用于预测点估计,所以通过最小化训练集上的均方误差来训练它,通过估计和最小化其近似权重分布的KL散度来训练贝叶斯边界框预测流。本发明使用了包括行人边界框预测和车辆距离预测的双流体系结构,大大减少了预测所需时间,而不确定性估计也显著提高了模型的预测准确性。

Description

一种基于边界框和距离预测的双流车载行人车辆预测方法
技术领域
本发明涉及行人车辆预测领域,尤其是涉及了一种基于边界框和距离预测的双流车载行 人车辆预测方法。
背景技术
随着国内汽车市场的快速发展,汽车已经成为人们出行的主要方式,给人们的生活带来 了很大的便利,但与此同时,交通事故发生率也逐年增加。因此,如何提高汽车的性能,降 低事故发生率是许多汽车生产厂商和研究者一直致力解决的问题。近年来,计算机视觉技术 快速发展,高级驾驶辅助系统也正在成为一种发展趋势。通过车载系统预测道路情况,如预 测与障碍物的距离、检测车辆前方或道路两旁的行人并发出警报、预测车辆距离、盲点检测 等,这些都可以帮助驾驶员进行快速有效的决策,及时调整行车路线或控制汽车的减速、刹 车甚至是启动安全气囊等,从而增加驾驶的舒适性,降低危险的发生率。这种行人预测和车 辆距离预测的技术还有望运用到自动驾驶系统中,在未来的无人驾驶汽车中发挥重要作用。 然而,现有的车载行人车辆预测技术在预测时并不及时,当驾驶员收到相应提示时,很有可 能已经来不及做出反应措施。
本发明提出了一种基于边界框和距离预测的双流车载行人车辆预测方法,测距流将预测 最有可能的车辆距离序列,边界框流由贝叶斯RNN编码器-解码器架构组成,用于预测行人 轨迹上的姿态分布,捕捉认知和任意的不确定性,由于测距法预测流用于预测点估计,所以 通过最小化训练集上的均方误差来训练它,通过估计和最小化其近似权重分布的KL散度来 训练贝叶斯边界框预测流。本发明使用了包括行人边界框预测和车辆距离预测的双流体系结 构,大大减少了预测所需时间,而不确定性估计也显著提高了模型的预测准确性。
发明内容
针对预测时间太长的问题,本发明的目的在于提供一种基于边界框和距离预测的双流车 载行人车辆预测方法,测距流将预测最有可能的车辆距离序列,边界框流由贝叶斯RNN编码 器-解码器架构组成,用于预测行人轨迹上的姿态分布,捕捉认知和任意的不确定性,由于测 距法预测流用于预测点估计,所以通过最小化训练集上的均方误差来训练它,通过估计和最 小化其近似权重分布的KL散度来训练贝叶斯边界框预测流。
为解决上述问题,本发明提供一种基于边界框和距离预测的双流车载行人车辆预测方法, 其主要内容包括:
(一)行人轨迹预测;
(二)贝叶斯建模;
(三)循环神经网络(RNN)编码器-解码器;
(四)距离的预测;
(五)训练和推理。
其中,所述的行人轨迹预测,在时间步长t,在车辆上观察到的与第i个行人相对应的边 界框可以用左上和右下像素坐标来描述预测未来行人边界框序列 Bf(其中|Bp|=m)的分布,调整对过去的边界框序列Bp、过去的测距序列Op以及车辆的相 应未来测距序列Of的预测;未来的测距序列Of是根据过去的测距序列Op和车载视觉观察来预 测的;测速序列由车辆的速度st和转向角dt组成,即ot=(st,dt);其中,Op=[ot-m,…,ot],Of= [ot +1,…,ot+n];预测分布p(Bf|Bp)的方差提供了相关不确定性的度量;行人轨迹预测使用了一个基本序列。
进一步地,所述的基本序列,首先对循环神经网络(RNN)进行排序,然后将其扩展到 预测分布并提供不确定性估计;序列RNN包括两个嵌入层,一个编码器RNN和一个解码器RNN;输入序列由串联的过去边界框Bp和测距序列Op组成;输入嵌入层将输入序列xt嵌入到表示中;该嵌入序列由编码器RNN(RNNenc)读取,其产生摘要向量vbbox;该摘要向量与 预测距离数据Of连接,并且使用第二嵌入层嵌入该摘要序列;由解码器RNN(RNNdec)用嵌 入的摘要序列(包含关于过去的行人运动、过去和将来的车辆距离信息)进行预测。
其中,所述的贝叶斯建模,通过学习分布模型p(f|X,Y)来捕获认知(模型)不确定性, 这个分布模型可能会产生数据{X,Y};在这里,模型具有不同参数的RNN编码器-解码器;推 断RNN编码器-解码器p(f|X,Y)的后验分布,给出RNN编码器-解码器p(f)的分布的先验置 信度;过去序列Bp的未来序列Bf上的预测概率是通过对RNN编码器-解码器的后验分布进行 边缘化获得的:
p(Bf|Bp,Op,Of,X,Y)=∫p(Bf|Bf,Op,Of,f)p(f|X,Y)df (1)
但是,公式(1)中的积分难以处理;但是,可以分两步来估计;首先,假设RNN编码器- 解码器模型可以用限制变量ω来描述;因此,将可能的RNN编码器-解码器的集合限制为可 以用ω来描述的编码器-解码器;则公式(1)可以等价为:
p(Bf|Bp,Op,Of,X,Y)=∫p(Bf|Bf,Op,Of,ω)p(ω|X,Y)dω (2)
其次,假设一个近似的变分分布q(ω),它允许有效的采样:
p(Bf|Bp,Op,Of)=∫p(Bf|Bp,Op,Of,ω)q(ω)dω (3)
选择RNN编码器-解码器的权重矩阵{W1,…,WL}∈w的集合作为变量ω;然后定义在权 重矩阵的列上的近似伯努利变分分布q(ω):
zi,j=Bernoulli(pi),i=1,…,L,j=1,…,Ki-1 (4)
其中,Mk是变分参数;该分布允许在训练和测试过程中进行有效的采样。
进一步地,所述的近似,对于一个精确的近似,q(ω)和真实后验p(ω|X,Y)之间的KL散 度(相对熵)最小化为训练步骤;
第一部分对应于先前模型分布的距离,第二部分对应于数据拟合;在训练和预测过程中, 使用蒙特-卡罗积分来近似积分(3)和(5);
不确定性是预测分布(3)的方差,可以通过矩匹配方法来获得;如果有未来行人边界框序 列的T个样本,则时间步长t的总不确定度为:
总和的第一部分对应于认知不确定性第二部分对应于任意不确定性对时间步长 的不确定性进行平均,得出完整的不确定性估计。
其中,所述的循环神经网络(RNN)编码器-解码器,长短期记忆(LSTM)的权矩阵可以连接成一个矩阵W,LSTM可以表示为:
其中,i是输入门,f是忘记门,o是输出门,ct是细胞状态,是候选细胞状态,ht是隐藏状态;
定义伯努利变分布q(ω)在模型的所有权矩阵的联合上:
ω={Wemi,Wems,Wenc,Wdec} (8)
其中,Wenc,Wdec是RNN编码器和解码器的权重矩阵;
从q(Wemi),q(Wems)抽样可以通过抽样随机伯努利掩码zemi,zems,并在线性变换之后应用 这些掩码;在输入嵌入的情况下,
类似地,LSTM的采样权重矩阵可以通过对随机伯努利掩码zx,zh进行采样来有效地执行; 并在每个时间步长应用,LSTM编码器和解码器展开为:
通过抽样贝叶斯RNN编码器-解码器的权重矩阵来完成从预测分布p(Bf|Bp,Of,Op)中的 抽样;然后预测每个时间步的高斯观测噪声分布参数;为此,使用RNNdec的隐藏状态序列和一个附加的线性变换:
并从预测的高斯分布中抽取一个样本。
其中,所述的距离的预测,使用用于边界框预测的RNN编码器-解码器架构,在过去的 测距序列Op上调节预测的序列Of,并在车辆上进行最后的视觉观察;Op被输入到编码器RNN, 其产生摘要向量vodo;车辆Op的过去测距法对于未来(特别是在短期内)的速度给出了提示; 使用相同的LSTM公式作为RNN编码器;与最后的隐藏状态ht作为摘要;最后的视觉观察 可以更长期地测距;使用卷积神经网络(CNN编码器)来嵌入由当前观察帧提供的视觉信息。
进一步地,所述的CNN编码器体系结构,CNN编码器有10个具有修正线性单元(ReLU) 非线性的卷积层;使用固定的3×3像素的小滤镜;在每两层之后使用最大化池;在最大化池 之后,将卷积滤波器的数量加倍;使用{32,64,128,256,512}卷积滤波器;卷积层之后是三个 完全连接的层,具有1024、256和128个神经元和ReLU非线性;最后完全连接层的输出是 视觉摘要向量vvis
测距和视觉摘要向量连接在v={vodo,vvis}上,并由RNN解码器(RNNdec)读取;使用描述的相同的LSTM公式作为RNN解码器;
如前所述,LSTM解码器的隐藏状态用于通过线性变换来预测未来的测距序列。
其中,所述的训练和推理,由于测距法预测流用于预测点估计,所以首先通过最小化训 练集上的均方误差(MSE)来训练它;通过估计和最小化其近似权重分布q(ω)的KL散度来 训练贝叶斯边界框预测流;进一步来说,
(1)从训练集中抽取一个大小为T的小批量样本;
(2)对于每个例子,通过如(9)和(10)中的伯努利掩码采样,从q(ω)中采样权重{Wemi,Wems,Wenc,Wdec};
(3)对于每个例子,推导出ω参数化的异方差模型的预测均值和方差
(4)KL散度(5)可以等效地最小化以下损失:
其中,|Bf|=n,N表示行人数;公式(5)中的左边部分是负对数似然项的等价;中间部分 是用λ参数化的权重正则化,相当于公式(5)中的KL项;在训练中使用ADAM优化器,对于长 于|Bp|+|Bf|的训练序列,使用一个滑动窗口来转换为多个序列。
进一步地,所述的推理,给定|Bp|和|Op|以及视觉观测,距离预测流首先用于预测Of;从 预测分布(3)中抽样,通过如(9)和(10)中的伯努利掩码采样,从学习的近似分布q(ω)中采样贝 叶斯边界框预测流的权重矩阵{Wemi,Wems,Wenc,Wdec}的T个样本;将RNNdec展开,从每个T个 预测的高斯分布中获得样本相关的不确定性是使用T样本(6)获得的。
附图说明
图1是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的系统框架图。
图2是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的双流体系结构。
图3是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的行人轨迹预测。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合, 下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的系统框架图。 主要包括行人轨迹预测,贝叶斯建模,循环神经网络(RNN)编码器-解码器,距离的预测, 训练和推理。
贝叶斯建模,通过学习分布模型p(f|X,Y)来捕获认知(模型)不确定性,这个分布模型 可能会产生数据{X,Y};在这里,模型具有不同参数的RNN编码器-解码器;推断RNN编码 器-解码器p(f|X,Y)的后验分布,给出RNN编码器-解码器p(f)的分布的先验置信度;过去序 列Bp的未来序列Bf上的预测概率是通过对RNN编码器-解码器的后验分布进行边缘化获得的:
p(Bf|Bp,Op,Of,X,Y)=∫p(Bf|Bf,Op,Of,f)p(f|X,Y)df (1)
但是,公式(1)中的积分难以处理;但是,可以分两步来估计;首先,假设RNN编码器- 解码器模型可以用限制变量ω来描述;因此,将可能的RNN编码器-解码器的集合限制为可 以用ω来描述的编码器-解码器;则公式(1)可以等价为:
p(Bf|Bp,Op,Of,X,Y)=∫p(Bf|Bf,Op,Of,ω)p(ω|X,Y)dω (2)
其次,假设一个近似的变分分布q(ω),它允许有效的采样:
p(Bf|Bp,Op,Of)=∫p(Bf|Bp,Op,Of,ω)q(ω)dω (3)
选择RNN编码器-解码器的权重矩阵的集合作为变量ω;然后定义在权 重矩阵的列上的近似伯努利变分分布q(ω):
zi,j=Bernoulli(pi),i=1,…,L,j=1,…,Ki-1 (4)
其中,Mk是变分参数;该分布允许在训练和测试过程中进行有效的采样。
对于一个精确的近似,q(ω)和真实后验p(ω|X,Y)之间的KL散度(相对熵)最小化为训 练步骤;
第一部分对应于先前模型分布的距离,第二部分对应于数据拟合;在训练和预测过程中, 使用蒙特-卡罗积分来近似积分(3)和(5);
不确定性是预测分布(3)的方差,可以通过矩匹配方法来获得;如果有未来行人边界框序 列的T个样本,则时间步长t的总不确定度为:
总和的第一部分对应于认知不确定性第二部分对应于任意不确定性对时间步长 的不确定性进行平均,得出完整的不确定性估计。
循环神经网络(RNN)编码器-解码器,长短期记忆(LSTM)的权矩阵可以连接成一个矩阵W,LSTM可以表示为:
其中,i是输入门,f是忘记门,o是输出门,ct是细胞状态,是候选细胞状态,ht是隐藏状态;
定义伯努利变分布q(ω)在模型的所有权矩阵的联合上:
ω={Wemi,Wems,Wenc,Wdec} (8)
其中,Wenc,Wdec是RNN编码器和解码器的权重矩阵;
从q(Wemi),q(Wems)抽样可以通过抽样随机伯努利掩码zemi,zems,并在线性变换之后应用 这些掩码;在输入嵌入的情况下,
类似地,LSTM的采样权重矩阵可以通过对随机伯努利掩码zx,zh进行采样来有效地执行; 并在每个时间步长应用,LSTM编码器和解码器展开为:
通过抽样贝叶斯RNN编码器-解码器的权重矩阵来完成从预测分布p(Bf|Bp,Of,Op)中的 抽样;然后预测每个时间步的高斯观测噪声分布参数;为此,使用RNNdec的隐藏状态序列和一个附加的线性变换:
并从预测的高斯分布中抽取一个样本。
距离的预测,使用用于边界框预测的RNN编码器-解码器架构,在过去的测距序列Op上 调节预测的序列Of,并在车辆上进行最后的视觉观察;Op被输入到编码器RNN,其产生摘要 向量vodo;车辆Op的过去测距法对于未来(特别是在短期内)的速度给出了提示;使用相同 的LSTM公式作为RNN编码器;与最后的隐藏状态ht作为摘要;最后的视觉观察可以更长 期地测距;使用卷积神经网络(CNN编码器)来嵌入由当前观察帧提供的视觉信息。
CNN编码器有10个具有修正线性单元(ReLU)非线性的卷积层;使用固定的3×3像素 的小滤镜;在每两层之后使用最大化池;在最大化池之后,将卷积滤波器的数量加倍;使用 {32,64,128,256,512}卷积滤波器;卷积层之后是三个完全连接的层,具有1024、256和128 个神经元和ReLU非线性;最后完全连接层的输出是视觉摘要向量vvis
测距和视觉摘要向量连接在v={vodo,vvis}上,并由RNN解码器(RNNdec)读取;使用描述的相同的LSTM公式作为RNN解码器;
如前所述,LSTM解码器的隐藏状态用于通过线性变换来预测未来的测距序列。
训练,由于测距法预测流用于预测点估计,所以首先通过最小化训练集上的均方误差 (MSE)来训练它;通过估计和最小化其近似权重分布q(ω)的KL散度来训练贝叶斯边界框 预测流;进一步来说,
(1)从训练集中抽取一个大小为T的小批量样本;
(2)对于每个例子,通过如(9)和(10)中的伯努利掩码采样,从q(ω)中采样权重{Wemi,Wems,Wenc,Wdec};
(3)对于每个例子,推导出ω参数化的异方差模型的预测均值和方差
(4)KL散度(5)可以等效地最小化以下损失:
其中,|Bf|=n,N表示行人数;公式(5)中的左边部分是负对数似然项的等价;中间部分 是用λ参数化的权重正则化,相当于公式(5)中的KL项;在训练中使用ADAM优化器,对于 长于|Bp|+|Bf|的训练序列,使用一个滑动窗口来转换为多个序列。
推理,给定|Bp|和|Op|以及视觉观测,距离预测流首先用于预测Of;从预测分布(3)中抽样, 通过如(9)和(10)中的伯努利掩码采样,从学习的近似分布q(ω)中采样贝叶斯边界框预测流的 权重矩阵{Wemi,Wems,Wenc,Wdec}的T个样本;将RNNdec展开,从每个T个预测的高斯分布中 获得样本相关的不确定性是使用T样本(6)获得的。
图2是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的双流体系结构。 本方法模型具有任意性和认知的不确定性;模型包含两个流来预测行人的运动和车辆的距离; 测距流将预测最有可能的车辆距离序列;边界框流由贝叶斯循环神经网络(RNN)编码器- 解码器架构组成,用于预测行人轨迹上的姿态分布,捕捉认知和任意的不确定性。
图3是本发明一种基于边界框和距离预测的双流车载行人车辆预测方法的行人轨迹预测。 在时间步长t,在车辆上观察到的与第i个行人相对应的边界框可以用左上和右下像素坐标来 描述预测未来行人边界框序列Bf(其中|Bp|=m)的分布,调整 对过去的边界框序列Bp、过去的测距序列Op以及车辆的相应未来测距序列Of的预测;未来的 测距序列Of是根据过去的测距序列Op和车载视觉观察来预测的;测速序列由车辆的速度st和 转向角dt组成,即ot=(st,dt);其中, Op=[ot-m,…,ot],Of=[ot+1,…,ot+n];预测分布p(Bf|Bp)的方差提供了相关不 确定性的度量;行人轨迹预测使用了一个基本序列。
基本序列首先对循环神经网络(RNN)进行排序,然后将其扩展到预测分布并提供不确 定性估计;序列RNN包括两个嵌入层,一个编码器RNN和一个解码器RNN;输入序列由串联的过去边界框Bp和测距序列Op组成;输入嵌入层将输入序列xt嵌入到表示中;该嵌入序列由编码器RNN(RNNenc)读取,其产生摘要向量vbbox;该摘要向量与预测距离数据Of连 接,并且使用第二嵌入层嵌入该摘要序列;由解码器RNN(RNNdec)用嵌入的摘要序列(包 含关于过去的行人运动、过去和将来的车辆距离信息)进行预测。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范 围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行 各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。 因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于边界框和距离预测的双流车载行人车辆预测方法,其特征在于,主要包括行人轨迹预测(一);贝叶斯建模(二);循环神经网络(RNN)编码器-解码器(三);距离的预测(四);训练和推理(五)。
2.基于权利要求书1所述的行人轨迹预测(一),其特征在于,在时间步长t,在车辆上观察到的与第i个行人相对应的边界框可以用左上和右下像素坐标来描述 预测未来行人边界框序列Bf(其中|Bp|=m)的分布,调整对过去的边界框序列Bp、过去的测距序列Op以及车辆的相应未来测距序列Of的预测;未来的测距序列Of是根据过去的测距序列Op和车载视觉观察来预测的;测速序列由车辆的速度st和转向角dt组成,即ot=(st,dt);其中,Op=[ot -m,…,ot],Of=[ot+1,…,ot+n];预测分布p(Bf|Bp)的方差提供了相关不确定性的度量;行人轨迹预测使用了一个基本序列。
3.基于权利要求书2所述的基本序列,其特征在于,首先对循环神经网络(RNN)进行排序,然后将其扩展到预测分布并提供不确定性估计;序列RNN包括两个嵌入层,一个编码器RNN和一个解码器RNN;输入序列由串联的过去边界框Bp和测距序列Op组成;输入嵌入层将输入序列xt嵌入到表示中;该嵌入序列由编码器RNN(RNNenc)读取,其产生摘要向量vbbox;该摘要向量与预测距离数据Of连接,并且使用第二嵌入层嵌入该摘要序列;由解码器RNN(RNNdec)用嵌入的摘要序列(包含关于过去的行人运动、过去和将来的车辆距离信息)进行预测。
4.基于权利要求书1所述的贝叶斯建模(二),其特征在于,通过学习分布模型p(f|X,Y)来捕获认知(模型)不确定性,这个分布模型可能会产生数据{X,Y};在这里,模型具有不同参数的RNN编码器-解码器;推断RNN编码器-解码器p(f|X,Y)的后验分布,给出RNN编码器-解码器p(f)的分布的先验置信度;过去序列Bp的未来序列Bf上的预测概率是通过对RNN编码器-解码器的后验分布进行边缘化获得的:
p(Bf|Bp,Op,Of,X,Y)=∫p(Bf|Bf,Op,Of,f)p(f|X,Y)df (1)
但是,公式(1)中的积分难以处理;但是,可以分两步来估计;首先,假设RNN编码器-解码器模型可以用限制变量ω来描述;因此,将可能的RNN编码器-解码器的集合限制为可以用ω来描述的编码器-解码器;则公式(1)可以等价为:
p(Bf|Bp,Op,Of,X,Y)=∫p(Bf|Bf,Op,Of,ω)p(ω|X,Y)dω (2)
其次,假设一个近似的变分分布q(ω),它允许有效的采样:
p(Bf|Bp,Op,Of)=∫p(Bf|Bp,Op,Of,ω)q(ω)dω (3)
选择RNN编码器-解码器的权重矩阵的集合作为变量ω;然后定义在权重矩阵的列上的近似伯努利变分分布q(ω):
zi,j=Bernoulli(pi),i=1,…,L,j=1,…,Ki-1 (4)
其中,Mk是变分参数;该分布允许在训练和测试过程中进行有效的采样。
5.基于权利要求书4所述的近似,其特征在于,对于一个精确的近似,q(ω)和真实后验p(ω|X,Y)之间的KL散度(相对熵)最小化为训练步骤;
第一部分对应于先前模型分布的距离,第二部分对应于数据拟合;在训练和预测过程中,使用蒙特-卡罗积分来近似积分(3)和(5);
不确定性是预测分布(3)的方差,可以通过矩匹配方法来获得;如果有未来行人边界框序列的T个样本,则时间步长t的总不确定度为:
总和的第一部分对应于认知不确定性第二部分对应于任意不确定性对时间步长的不确定性进行平均,得出完整的不确定性估计。
6.基于权利要求书1所述的循环神经网络(RNN)编码器-解码器(三),其特征在于,长短期记忆(LSTM)的权矩阵可以连接成一个矩阵W,LSTM可以表示为:
hto⊙tanh(ct) (7)
其中,i是输入门,f是忘记门,o是输出门,ct是细胞状态,是候选细胞状态,ht是隐藏状态;
定义伯努利变分布q(ω)在模型的所有权矩阵的联合上:
ω={Wemi,Wems,Wenc,Wdec} (8)
其中,Wenc,Wdec是RNN编码器和解码器的权重矩阵;
从q(Wemi),q(Wems)抽样可以通过抽样随机伯努利掩码zemi,zems,并在线性变换之后应用这些掩码;在输入嵌入的情况下,
类似地,LSTM的采样权重矩阵可以通过对随机伯努利掩码zx,zh进行采样来有效地执行;并在每个时间步长应用,LSTM编码器和解码器展开为:
通过抽样贝叶斯RNN编码器-解码器的权重矩阵来完成从预测分布p(Bf|Bp,Of,Op)中的抽样;然后预测每个时间步的高斯观测噪声分布参数;为此,使用RNNdec的隐藏状态序列和一个附加的线性变换:
并从预测的高斯分布中抽取一个样本。
7.基于权利要求书1所述的距离的预测(四),其特征在于,使用用于边界框预测的RNN编码器-解码器架构,在过去的测距序列Op上调节预测的序列Of,并在车辆上进行最后的视觉观察;Op被输入到编码器RNN,其产生摘要向量vodo;车辆Op的过去测距法对于未来(特别是在短期内)的速度给出了提示;使用相同的LSTM公式作为RNN编码器;与最后的隐藏状态ht作为摘要;最后的视觉观察可以更长期地测距;使用卷积神经网络(CNN编码器)来嵌入由当前观察帧提供的视觉信息。
8.基于权利要求书7所述的CNN编码器体系结构,其特征在于,CNN编码器有10个具有修正线性单元(ReLU)非线性的卷积层;使用固定的3×3像素的小滤镜;在每两层之后使用最大化池;在最大化池之后,将卷积滤波器的数量加倍;使用{32,64,128,256,512}卷积滤波器;卷积层之后是三个完全连接的层,具有1024、256和128个神经元和ReLU非线性;最后完全连接层的输出是视觉摘要向量vvis
测距和视觉摘要向量连接在v={vodo,vvis}上,并由RNN解码器(RNNdec)读取;使用描述的相同的LSTM公式作为RNN解码器;
如前所述,LSTM解码器的隐藏状态用于通过线性变换来预测未来的测距序列。
9.基于权利要求书8所述的训练和推理(五),其特征在于,由于测距法预测流用于预测点估计,所以首先通过最小化训练集上的均方误差(MSE)来训练它;通过估计和最小化其近似权重分布q(ω)的KL散度来训练贝叶斯边界框预测流;进一步来说,
(1)从训练集中抽取一个大小为T的小批量样本;
(2)对于每个例子,通过如(9)和(10)中的伯努利掩码采样,从q(ω)中采样权重{Wemi,Wems,Wenc,Wdec};
(3)对于每个例子,推导出ω参数化的异方差模型的预测均值和方差
(4)KL散度(5)可以等效地最小化以下损失:
其中,|Bf|=n,N表示行人数;公式(5)中的左边部分是负对数似然项的等价;中间部分是用λ参数化的权重正则化,相当于公式(5)中的KL项;在训练中使用ADAM优化器,对于长于|Bp|+|Bf|的训练序列,使用一个滑动窗口来转换为多个序列。
10.基于权利要求书9所述的推理,其特征在于,给定|Bp|和|Op|以及视觉观测,距离预测流首先用于预测Of;从预测分布(3)中抽样,通过如(9)和(10)中的伯努利掩码采样,从学习的近似分布q(ω)中采样贝叶斯边界框预测流的权重矩阵{Wemi,Wems,Wenc,Wdec}的T个样本;将RNNdec展开,从每个T个预测的高斯分布中获得样本相关的不确定性是使用T样本(6)获得的。
CN201810064792.7A 2018-01-23 2018-01-23 一种基于边界框和距离预测的双流车载行人车辆预测方法 Withdrawn CN108267123A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810064792.7A CN108267123A (zh) 2018-01-23 2018-01-23 一种基于边界框和距离预测的双流车载行人车辆预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810064792.7A CN108267123A (zh) 2018-01-23 2018-01-23 一种基于边界框和距离预测的双流车载行人车辆预测方法

Publications (1)

Publication Number Publication Date
CN108267123A true CN108267123A (zh) 2018-07-10

Family

ID=62776314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810064792.7A Withdrawn CN108267123A (zh) 2018-01-23 2018-01-23 一种基于边界框和距离预测的双流车载行人车辆预测方法

Country Status (1)

Country Link
CN (1) CN108267123A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472366A (zh) * 2018-11-01 2019-03-15 郑州云海信息技术有限公司 一种机器学习模型的编码解码方法与装置
CN109670303A (zh) * 2018-12-26 2019-04-23 网智天元科技集团股份有限公司 基于条件变分自编码的密码攻击评估方法
CN109829583A (zh) * 2019-01-31 2019-05-31 成都思晗科技股份有限公司 基于概率编程技术的山火风险预测方法
CN110163439A (zh) * 2019-05-24 2019-08-23 长安大学 一种基于注意力机制的城市规模出租车轨迹预测方法
CN110753239A (zh) * 2018-07-23 2020-02-04 深圳地平线机器人科技有限公司 视频预测方法、视频预测装置、电子设备和车辆
CN110991625A (zh) * 2020-03-02 2020-04-10 南京邮电大学 基于循环神经网络的地表异常现象遥感监测方法、装置
CN111666804A (zh) * 2019-03-06 2020-09-15 罗伯特·博世有限公司 对于自主驾驶有用的行人移动预测
CN112257566A (zh) * 2020-10-20 2021-01-22 哈尔滨工程大学 一种基于大数据的人工智能目标识别测距方法
WO2021087242A1 (en) * 2019-10-31 2021-05-06 Waymo Llc Training trajectory scoring neural networks to accurately assign scores
CN113377662A (zh) * 2021-06-24 2021-09-10 吉林大学 一种基于势场法和信息熵的自动驾驶安全性评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
APRATIM BHATTACHARYYA等: "Long-Term On-Board Prediction of People in Traffic Scenes under Uncertainty", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1711.09026V1》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753239B (zh) * 2018-07-23 2022-03-08 深圳地平线机器人科技有限公司 视频预测方法、视频预测装置、电子设备和车辆
CN110753239A (zh) * 2018-07-23 2020-02-04 深圳地平线机器人科技有限公司 视频预测方法、视频预测装置、电子设备和车辆
CN109472366A (zh) * 2018-11-01 2019-03-15 郑州云海信息技术有限公司 一种机器学习模型的编码解码方法与装置
CN109472366B (zh) * 2018-11-01 2020-07-24 苏州浪潮智能科技有限公司 一种机器学习模型的编码解码方法与装置
CN109670303A (zh) * 2018-12-26 2019-04-23 网智天元科技集团股份有限公司 基于条件变分自编码的密码攻击评估方法
CN109670303B (zh) * 2018-12-26 2021-05-25 网智天元科技集团股份有限公司 基于条件变分自编码的密码攻击评估方法
CN109829583A (zh) * 2019-01-31 2019-05-31 成都思晗科技股份有限公司 基于概率编程技术的山火风险预测方法
CN109829583B (zh) * 2019-01-31 2022-10-11 成都思晗科技股份有限公司 基于概率编程技术的山火风险预测方法
CN111666804A (zh) * 2019-03-06 2020-09-15 罗伯特·博世有限公司 对于自主驾驶有用的行人移动预测
CN110163439A (zh) * 2019-05-24 2019-08-23 长安大学 一种基于注意力机制的城市规模出租车轨迹预测方法
US11586931B2 (en) 2019-10-31 2023-02-21 Waymo Llc Training trajectory scoring neural networks to accurately assign scores
WO2021087242A1 (en) * 2019-10-31 2021-05-06 Waymo Llc Training trajectory scoring neural networks to accurately assign scores
CN110991625A (zh) * 2020-03-02 2020-04-10 南京邮电大学 基于循环神经网络的地表异常现象遥感监测方法、装置
CN112257566A (zh) * 2020-10-20 2021-01-22 哈尔滨工程大学 一种基于大数据的人工智能目标识别测距方法
CN112257566B (zh) * 2020-10-20 2023-05-23 陕西合友网络科技有限公司 一种基于大数据的人工智能目标识别测距方法
CN113377662B (zh) * 2021-06-24 2022-09-27 吉林大学 一种基于势场法和信息熵的自动驾驶安全性评价方法
CN113377662A (zh) * 2021-06-24 2021-09-10 吉林大学 一种基于势场法和信息熵的自动驾驶安全性评价方法

Similar Documents

Publication Publication Date Title
CN108267123A (zh) 一种基于边界框和距离预测的双流车载行人车辆预测方法
Bhattacharyya et al. Long-term on-board prediction of people in traffic scenes under uncertainty
CN110796168B (zh) 一种基于改进YOLOv3的车辆检测方法
CN112965499B (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN108909624B (zh) 一种基于单目视觉的实时障碍物检测和定位方法
CN109285348B (zh) 基于无人机与长短时记忆网络的车辆行为识别方法及系统
CN109711557B (zh) 一种行车轨迹预测方法、计算机设备及存储介质
CN112435503B (zh) 一种辨识高危行人意图的智能汽车主动避撞方法
CN112734808B (zh) 一种车辆行驶环境下易受伤害道路使用者的轨迹预测方法
CN113911129A (zh) 一种基于驾驶行为生成机制的交通车意图识别方法
CN111292366B (zh) 一种基于深度学习和边缘计算的视觉行车测距算法
CN112052802A (zh) 一种基于机器视觉的前方车辆行为识别方法
CN115131640A (zh) 一种利用光照引导和注意力机制的目标检测方法和系统
CN113895460A (zh) 行人轨迹预测方法、装置及存储介质
CN114078243A (zh) 基于循环图卷积网络的驾驶员驾驶行为识别方法及系统
CN111126327B (zh) 车道线检测方法、系统、车载系统及车辆
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN114821462A (zh) 基于多分支并行混合空洞编码神经网络的目标检测方法
John et al. Estimation of steering angle and collision avoidance for automated driving using deep mixture of experts
CN111160089B (zh) 一种基于不同车辆类型的轨迹预测系统及方法
CN117218855A (zh) 一种评价侧撞事故风险的方法及系统
CN117429461A (zh) 一种用于城市无信号路段的自动驾驶汽车通行决策方法
CN117273201A (zh) 一种基于Deepwalk-LSTM编码的车辆未来轨迹预测方法
CN112800879B (zh) 一种基于车载视频的前方车辆位置预测方法和预测系统
CN114889608A (zh) 一种基于注意力机制的车辆换道预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180710

WW01 Invention patent application withdrawn after publication