CN111027461A

CN111027461A - 基于多维单步lstm网络的车辆轨迹预测方法

Info

Publication number: CN111027461A
Application number: CN201911243162.7A
Authority: CN
Inventors: 侯俊; 赵嘉成; 赵祥模; 张阳; 刘怀杰
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-17
Anticipated expiration: 2039-12-06
Also published as: CN111027461B

Abstract

本发明公开了一种基于多维单步LSTM网络的车辆轨迹预测方法，首先针对单目摄像机存在的镜头畸变情况进行矫正，克服了因获取的行车视频数据画面失真所导致的目标检测漏检的问题；其次，利用基于KITTI数据集训练的YOLO目标检测模型来检测视频中的车辆边框坐标，采用多维单步LSTM网络，通过对前两秒的轨迹进行学习，预测一秒后的轨迹，并采用滑动窗口的方法循环学习并预测整个视频的车辆轨迹。本发明采用多维单步LSTM网络对时间序列进行预测，解决了长序列训练过程中的梯度消失与梯度爆炸问题，相比普通的利用RNN进行时间序列预测的方法，本发明能够在更长的序列中有更好的表现，能极大的降低成本，且采用端到端的模型，通过目标检测模型输出的周围车辆边框信息。

Description

基于多维单步LSTM网络的车辆轨迹预测方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于多维单步LSTM网络的车辆轨迹预测方法。

背景技术

近年来，随着汽车的普及，车辆碰撞等问题所带来的交通安全问题日趋严重，交通事故频发更是严重威胁人们的生命与财产安全。为了减少行车中的碰撞问题，需要一种预测周围车辆的行车轨迹的方法从而感知危险，提前进行制动等措施。在传统的车辆轨迹预测中，大多采用激光雷达或者车载GPS设备来收集车辆的位置数据，从而对车辆的历史行驶轨迹进行分析后进行预测。但这一类方法仍存在一定局限性，激光雷达因其较为昂贵的价格使得产品难以普及，车载GPS普及过程极为缓慢。因此，目前出现通过摄像头来获取车辆位置数据的方法，由于高清摄像头价格较为低廉且目标检测技术也得到了长足的发展，通过车载单目摄像头来获取周围车辆位置数据，并以此预测周围车辆轨迹变得可行，且更符合当前的实际情况。

目前通过单目摄像头的来获得周围车辆的位置信息的方法中，在图像传感器获取图像前，必须通过镜头进行成像。由于透镜的固有特性(凸透镜汇聚光线、凹透镜发散光线)，被拍摄物体经过透镜成像后变成了弯曲的，这便是镜头畸变。由于畸变，图像中的物体失去了原来的形状，使得目标检测算法出现漏判等现象，因此需要对车载单目摄像头获取的数据进行畸变矫正。

由于汽车行驶的位置序列之间存在很强的相关性和依赖性，借助于时间序列方法能够分析与表征序列值之间的隐性关系，根据汽车行驶的历史位置序列，可以预测未来时刻的位置。而长短期记忆网络(Long Short-Term Memory，LSTM)主要用于处理时间序列数据，广泛的应用在语音识别、文本识别等领域。通过构建多维单步LSTM时间序列预测模型，对车辆的历史轨迹进行学习从而预测将来一段时刻的位置，可使驾驶员提前感知潜在的碰撞危险，提供一定的制动时间，减少车辆碰撞等交通问题。

发明内容

本发明的目的在于提供一种基于多维单步LSTM网络的车辆轨迹预测方法，采用端到端模型，通过矫正单目摄像头的镜头畸变，获取周围车辆的位置信息，分别对两个方向的坐标序列进行多维单步LSTM时间序列预测，从而达到车辆轨迹预测的目的，解决现有技术的问题。

为了实现上述目的，本发明采用的技术方案是，一种基于多维单步LSTM网络的车辆轨迹预测方法，包括以下具体步骤：

S1，获取行车视频数据；

S2，确定S1获取视频数据所用摄像头的畸变参数，具体为：

S21，使用行车记录仪拍摄标准矩形黑白棋盘格图片，并多次改变拍摄位置、拍摄角度与拍摄姿态，拍摄多张棋盘格图片；

S22，对S21拍摄得到的棋盘格图片的格角点进行检测，得到用于标定的三维点与其对应图像上的二维点对，对图像进行校准以获得摄像头内参数矩阵与畸变系数；

S3，构建基于YOLO的端到端车辆检测追踪模型，并对端到端车辆检测追踪模型进行优化；

S4，使用S22得到的摄像头内参数矩阵与畸变系数对S1所得视频数据进行逐帧的畸变矫正，得到一系列矫正后的图像，并使用S3得到的端到端车辆检测追踪模型对得到的矫正后的图像进行车辆边框检测，得到每一帧的车辆边框坐标信息；

S5，构建端到端的车辆轨迹预测模型，具体为：

S51，建立多步LSTM时间序列预测模型：确定训练集中学习组和预测组的帧数以及测试集中学习组和预测组的帧数，定义LSTM模型有一个隐藏层，以及一个用于进行预测的输出层，其中该模型的隐藏层有50个LSTM单元，输出层预测单个数值；

S52，在算法层采用adam对损失函数mse对S51所构建的模型进行优化，得到优化后的端到端的车辆轨迹预测模型；

S6，将S3得到的车辆边框信息的X，Y坐标构成时间序列，分别输入S5所得端到端的车辆轨迹预测模型进行训练，得到预测的X，Y坐标序列，并绘制预测车辆的边框信息；

S7，车辆在行驶过程中，根据所得行车记录仪实时采集的视频信息、S5所构建的模型以及S6所得车辆的边框信息，实现车辆轨迹预测。

S1中，行车中视频数据来自行车记录仪中的视频，采用H.264/MOV格式以1280×720的分辨率进行编码。

S2中，使用单目摄像头，所拍摄的棋盘图片采用JPEG格式以1280×720分辨率进行编码。

S21中，在保证摄像头光圈、焦距不变的情况下，多次改变拍摄位置、拍摄角度，使棋盘格图片在摄像头视野内的左上角、右上角、左下角、右下角以及正中心不同位置，拍摄时要有倾斜角度，且使棋盘格图片占据摄像头视野的1/4，拍摄15张棋盘格图片。

构建基于YOLO的端到端车辆检测追踪模型，具体包括以下步骤：

S31，使用ImageNet 1000类数据训练YOLO网络的前20个卷积层、1个平均池化层以及一个全连接层，得到预训练检测追踪模型；

S32，对S31得到的前20个卷积层网络参数来初始化YOLO模型的前20个卷积层的网络参数，然后使用转化为VOC格式的KITTI 3类标注数据集(Car，Van，Truck)进行YOLO模型训练，同时为了提高精度，得到训练检测追踪模型和权重参数；

S33，对S32所构建的模型进优化，在卷积层全部使用Batch Normalization对模型进行优化，得到优化后的端到端车辆检测追踪模型。

S32中，调整训练图像的分辨率为224×224；

S33中，调整输入图像分辨率为448×448。

将步骤S4检测到的车辆边框坐标信息分为水平坐标X与竖直坐标Y，并逐帧构建时间序列X(X₁，X₂…X_i)与Y(Y₁，Y₂…Y_i)，分别对两个时间序列在S5中进行预测。

采用均方和误差作为loss函数评估S32所得训练模型的稳健性和精确度，即网络输出的S*S*(B*5+C)维向量与真实图像的对应S*S*(B*5+C)维向量的均方和误差；loss为：

其中coordError为预测数据与标定数据之间的坐标误差，iouError为IOU误差，classError为分类误差。

S5中，S5中，训练集中学习组为第i～i+29帧，训练集中预测组为第i+60帧，测试集的学习组为第i+30～i+59帧，测试集的预测组为第i+90帧，其中i＝1，2，3…30为一个预测周期，预测周期取决于S1所获取视频数据的分辨率。

S5中，模型的运行环境为：GeForce GTX 760、16GB RAM和Keras 2.2.4；网络各层均使用修正单元Relu作为激活函数。

与现有技术相比，本发明至少具有以下有益效果：

首先本发明针对单目摄像机存在的镜头畸变情况进行矫正，克服了因获取的行车视频数据画面失真所导致的目标检测漏检的问题；其次，利用基于KITTI数据集训练的YOLO目标检测模型来检测视频中的车辆边框坐标，本发明采用多维单步LSTM网络对时间序列进行预测，解决了长序列训练过程中的梯度消失与梯度爆炸问题，相比普通的利用RNN进行时间序列预测的方法，本发明能够在更长的序列中有更好的表现，同时在收集车辆位置信息的方式上；仿真结果表明，本发明能够较为准确的预测行驶中的车辆一秒后的位置，同时在模型泛化方面具有一定的有效性与可靠性，可以广泛应用于各类高级辅助驾驶系统的防碰撞环节中。

进一步的，本发明仅采用一个车载单目摄像头，相比于使用激光雷达的相关方法，能极大的降低成本，且采用端到端的模型，通过目标检测模型输出的周围车辆边框信息，输入单目摄像机采集的视频数据，可直接预测出该车辆一秒后的位置信息，从而简化了预测模式。

进一步的，S32中，调整训练图像的分辨率为224×224；能够在不失真的条件下提高处理速度，S33中，调整输入图像分辨率为448×448能有效提高精度。

进一步的，本发明逐帧将边框信息分为水平坐标时间序列X(X₁，X₂…X_i)与竖直坐标时间序列Y(Y₁，Y₂…Y_i)；最后，分别对两个时间序列进行预测，采用多维单步LSTM网络，通过对前两秒的轨迹进行学习，预测一秒后的轨迹，并采用滑动窗口的方法循环学习并预测整个视频的车辆轨迹。

附图说明

图1是本发明的实现流程框图。

图2a是棋盘图标定前的图像数据采集的图像数据。

图2b为棋盘图标定后的图像数据采集的图像数据。

图3a为畸变矫正前的图像数据和图3b为畸变矫正后的图像数据。

图4a为在原视频中第一时间的预测结果。

图4b为在原视频中相对图4a预测时间的下一时间预测结果。

图4c为在原视频中相对图4b预测时间的下一时间预测结果。

图4d为在原视频中相对图4c预测时间的下一时间预测结果。

图5a是一个方向上的预测结果与真实结果的对比效果图。

图5b是另一个方向上的预测结果与真实结果的对比效果图。

图6是本发明的预测算法模型架构图。

图7是本发明的时间序列预测结构图。

具体实施方式

本发明首先利用行车记录仪采集行车视频数据，通过棋盘标定法获取使用的行车记录仪的镜头畸变系数对获取的视频进行畸变矫正，利用基于KITTI数据集训练的YOLO作为车辆特征提取网络，获取视频中出现的临近车辆的坐标信息，并将坐标转化为两个方向的时间序列，通过多维单步LSTM预测模型，分别对两个时间序列进行预测，输出预测结果并合成在原视频中。

参考图1，一种基于多维单步LSTM网络的车辆轨迹预测方法，包括以下具体步骤：

S1，获取行车视频数据；行车中视频数据来自行车记录仪中的视频，采用H.264/MOV格式以1280×720的分辨率进行编码；

S2，确定S1获取视频数据所用摄像头的畸变参数，使用单目摄像头，所拍摄的棋盘图片采用JPEG格式以1280×720分辨率进行编码，具体为：

S21，使用行车记录仪拍摄标准矩形黑白棋盘格图片，并多次改变拍摄位置、拍摄角度与拍摄姿态，拍摄多张棋盘格图片；在保证摄像头光圈、焦距不变的情况下，多次改变拍摄位置、拍摄角度，使棋盘格图片在摄像头视野内的左上角、右上角、左下角、右下角以及正中心不同位置，拍摄时要有倾斜角度，且使棋盘格图片占据摄像头视野的1/4，拍摄15张棋盘格图片；

S5，构建端到端的车辆轨迹预测模型，具体为：

S51，建立多步LSTM时间序列预测模型：确定训练集中学习组和预测组的帧数以及测试集中学习组和预测组的帧数，定义LSTM模型有一个隐藏层，以及一个用于进行预测的输出层，其中该模型的隐藏层有50个LSTM单元，输出层预测单个数值；S5中，训练集中学习组为第i～i+29帧，训练集中预测组为第i+60帧，测试集的学习组为第i+30～i+59帧，测试集的预测组为第i+90帧，其中i＝1，2，3…30为一个预测周期，预测周期取决于S1所获取视频数据的分辨率；

S52，在算法层采用adam对损失函数mse对S51所构建的模型进行优化，得到优化后的端到端的车辆轨迹预测模型；运行环境为：GeForce GTX 760、16GB RAM和Keras 2.2.4；网络各层均使用修正单元Relu作为激活函数。

S3中，构建基于YOLO的端到端车辆检测追踪模型，具体包括以下步骤：

S31，使用ImageNet 1000类数据训练YOLO网络的前20个卷积层、1个平均池化层以及一个全连接层，调整训练图像的分辨率为224×224；得到预训练检测追踪模型；

S33，对S32所构建的模型进优化，在卷积层全部使用Batch Normalization对模型进行优化，调整输入图像分辨率为448×448，得到优化后的端到端车辆检测追踪模型。

参照图1，本发明的具体实现步骤如下：

S1，使用车载行车记录仪采集行车中视频数据

首先利用行车记录仪采集行车视频数据，采用H.264/MOV格式以1280×720的分辨率进行编码。

S2，确定单目摄像头的畸变参数

通过单目摄像机获取的视频数据会因为透镜的固有特性而产生畸变，引起失真，因此需要对获取的视频数据进行畸变矫正。

使用该行车记录仪拍摄标准10×7(7行10列)黑白棋盘格图片，并多次改变拍摄位置、拍摄角度与拍摄姿态，拍摄15张，所拍摄的棋盘图片采用JPEG格式以1280×720分辨率进行编码，对拍摄的棋盘照片的格角点进行检测，计算畸变参数，其中径向畸变三个(k₁，k₂，k₃)，切向畸变两个(p₁，p₂)，参考图2a和图2b。

径向畸变：

X_correct＝x(1+k₁r²+k₂r⁴+k₃r⁶)

Y_correct＝y(1+k₁r²+k₂r⁴+k₃r⁶)

切向畸变：

X_correct＝x+[2p₁xy+p₂(r²+2x²)]

Y_correct＝y+[p₁(r²+2y²)+2p₂xy]

S3，构建基于YOLO的端到端车辆检测追踪模型，参考图3a和图3b：

S31，预训练：使用ImageNet 1000类数据训练YOLO网络的前20个卷积层、1个平均池化层以及一个全连接层，同时调整训练图像的分辨率为224×224；其中，卷积层用来提取图像特征，全连接层用来检测图像位置。

S32，训练检测模型：对步骤S31得到的前20个卷积层网络参数来初始化YOLO模型的前20个卷积层的网络参数，保留泛化能力，然后使用转化为VOC格式的KITTI 3类标注数据集(Car，Van，Truck)进行YOLO模型训练，同时为了提高精度，调整输入图像分辨率为448×448；

S33，采用Batch Normalization在网络模型的中间层内添加正态标准化处理，作为BN层出现，同时约束网络模型在训练过程中自动调整该标准化的强度，从而加快训练速度并降低权值初始化的成本；使用RELU作为激活函数，同时为了防止过拟合，在全连接层后加上一个ratio＝0.5的输出层；

S4，将S1中获取的视频按图片逐帧提取，并通过S2中得到的畸变参数来矫正畸变图像，使用S32得到的检测模型对矫正后的图像进行车辆边框检测，得到每一帧的车辆矩形边框信息(x₁，y₁)与(x₂，y₂)，分别为矩形边框的左上角坐标与右下角坐标，为便于后续计算，将每一帧的数据保存为矩形边框的中心坐标(X，Y)，矩形高度h，矩形宽度w。

S5，构建端到端的车辆轨迹预测模型：

S51，建立多维单步LSTM时间序列预测模型，具体为：分别对S3得到的每一帧的中心坐标构建时间序列X(X₁，X₂…X_i)与Y(Y₁，Y₂…Y)，采用滑动窗口分割数据，训练集与测试集的构成形式如图7所示，学习组一组为30帧数据，预测组一组为1帧数据，通过学习训练集的30组数据来对测试集的30组数据进行预测；

参考图6，S5中，训练集中学习组为第i～i+29帧，训练集中预测组为第i+60帧，测试集的学习组为第i+30～i+59帧，测试集的预测组为第i+90帧，其中i＝1，2，3…30为一个预测周期，预测周期取决于S1所获取视频数据的分辨率；

使用scikit-learn中的MinMaxScaler函数对学习组数据进行归一化，定义LSTM模型有一个隐藏层，以及一个用于进行预测的输出层，其中该模型的隐藏层有50个LSTM单元，输出层预测单个数值；

采用MSE(Mean Squared Error)对S51所得训练模型的稳健性和精确度进行评估，MSE的值越小，说明预测模型描述实验数据具有更好的精确度，

其中，

为第i组数据的真实值，

为模型对第i组数据的预测值，N为数据集的大小；

S6，将S51得到的车辆边框信息的X，Y坐标构成时间序列，分别带入S51所构建的模型进行训练，得到预测的X，Y坐标序列，并使用moviepy.editor函数绘制预测车辆的边框信息。

S7，车辆在行驶过程中，采用S2所得摄像机镜头畸变参数对行车记录仪的视频数据进行矫正，使用S3所构建的模型对视频中的车辆位置进行检测，输出车辆位置坐标，借助S5中的预测模型对下一秒的位置进行预测，得到临近车辆的下一时刻位置，如图4a、图4b、图4c以及图4d所示。本发明模型预测结果与测试集性能比较结果如图5a和图5b所示，本发明所得训练模型的稳健性和精确度均符合要求。

Claims

1.基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，包括以下具体步骤：

S1，获取行车视频数据；

S2，确定S1获取视频数据所用摄像头的畸变参数，具体为：

S22，对S21拍摄得到的棋盘格图片的格角点进行检测，得到用于标定的三维点与其对应图像上的二维点对，对图像进行校准以获得S1获取视频数据所用摄像头内参数矩阵与畸变系数；

S5，构建端到端的车辆轨迹预测模型，具体为：

2.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，S1中，行车中视频数据来自行车记录仪中的视频，采用H.264/MOV格式以1280×720的分辨率进行编码。

3.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，S2中，使用单目摄像头，所拍摄的棋盘图片采用JPEG格式以1280×720分辨率进行编码。

4.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，S21中，在保证摄像头光圈、焦距不变的情况下，多次改变拍摄位置、拍摄角度，使棋盘格图片在摄像头视野内的左上角、右上角、左下角、右下角以及正中心不同位置，拍摄时设有倾斜角度，且使棋盘格图片占据摄像头视野的1/4，拍摄15张棋盘格图片。

5.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，构建基于YOLO的端到端车辆检测追踪模型，具体包括以下步骤：

S32，对S31得到的前20个卷积层网络参数来初始化YOLO模型的前20个卷积层的网络参数，然后使用转化为VOC格式的KITTI 3类标注数据集进行YOLO模型训练，得到训练检测追踪模型和权重参数；

6.根据权利要求5所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，S32中，调整训练图像的分辨率为224×224；

S33中，调整输入图像分辨率为448×448。

7.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，将步骤S4检测到的车辆边框坐标信息分为水平坐标X与竖直坐标Y，并逐帧构建时间序列X(X₁，X₂…X_i)与Y(Y₁，Y₂…Y_i)，分别对两个时间序列在S5中进行预测。

8.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，采用均方和误差作为loss函数评估S32所得训练模型的稳健性和精确度，即网络输出的S*S*(B*5+C)维向量与真实图像的对应S*S*(B*5+C)维向量的均方和误差；loss为：

9.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，S5中，训练集中学习组为第i～i+29帧，训练集中预测组为第i+60帧，测试集的学习组为第i+30～i+59帧，测试集的预测组为第i+90帧，其中i＝1，2，3…30为一个预测周期，预测周期取决于S1所获取视频数据的分辨率。

10.根据权利要求1所述的基于多维单步LSTM网络的车辆轨迹预测方法，其特征在于，S5中，模型的运行环境为：GeForce GTX 760、16GB RAM和Keras 2.2.4；网络各层均使用修正单元Relu作为激活函数。