CN117198064A

CN117198064A - 一种基于聚类和神经网络的车辆速度预测方法

Info

Publication number: CN117198064A
Application number: CN202310595508.XA
Authority: CN
Inventors: 罗浩轩; 胡潇; 黄霖宇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-12-08

Abstract

本发明涉及智能交通系统车辆速度预测技术领域，具体的说是一种基于聚类和神经网络的车辆速度预测方法，其根据车辆历史驾驶特征数据，包括行驶速度、加速度和前车距离数据，计算特征间斯皮尔曼（Spearman）系数后，确定用于聚类的各特征权重系数，并根据轮廓系数指标确定簇的数量后，采用k‑means对历史数据段进行聚类；进一步针对每一个簇中的样本数据段构建基于深度学习的速度预测模型。通过对不同的速度变化模式进行聚类并针对性的建立速度预测模型，实现对复杂驾驶场景车辆预测速度的精度提升。

Description

一种基于聚类和神经网络的车辆速度预测方法

技术领域

本发明属于智能交通系统车辆速度预测技术领域，具体涉及一种基于聚类和神经网络的车辆速度预测方法。

背景技术

随着物联网技术的快速发展和应用，智能交通系统作为物联网应用的重要领域之一，也受到了广泛的关注。而车联网概念的兴起，标志着智能交通系统的发展更进一步，这意味着能够带来全新的机遇和应用。车速预测作为智能交通系统中的重要问题之一，对提高交通运输效率、改善路网拥堵、保障交通安全具有重要作用。进行准确，失误率低的速度预测是安全自动驾驶的前提，也是实现物联网的先决条件，车速预测可以帮助车辆驾驶者做出更加明智的决策，从而提高交通安全和效率。因此，在智能交通系统领域，许多方法被引入以提高车速预测的准确度。

传统的车速预测方法主要基于统计学和机器学习算法，但是存在着一些局限性。由于车速预测数据来源的复杂性和数据量的大量性，现有的预测方法存在一些问题，比如预测的准确度不够高，需要大量的特征工程等。

随着深度学习技术的不断发展，越来越多的研究开始将深度学习与车速预测相结合。卷积神经网络(CNN)，长短时记忆网络(LSTM)是常用的深度学习模型，已经被广泛应用于车速预测中。但由于驾驶数据来源多样，且车辆速度与驾驶员习惯以及周围环境等多种因素有关，单一的预测模型难以在所有场景下都有很好的预测精度。

中国专利CN113253739A公开了一种用于高速公路的驾驶行为决策方法。将自动驾驶车辆在高速公路上的决策过程定义为部分可观测的马尔可夫决策过程；定义了自动驾驶车辆的策略；训练自动驾驶车辆；将自动驾驶车辆神经网络模型部署于车载终端，并实现驾驶行为决策。该方法用来先进的神经网络预测方法，但没有充分考虑不同的驾驶风格对预测的影响。

中国专利CN113095558A公开了一种智能网联汽车的迭代优化多尺度融合车速预测算法。根据不同驾驶风格的司机分类，分别建立回归模型。然后分配各模型的权重，获得全局融合预测车速。通过建立局部车速预测模型，对模型概率更新，然后计算校准的全局融合预测车速，重复步骤。该方法考虑了不同驾驶风格的司机，但没有考虑不同驾驶风格的行驶段，并且没有充分利用驾驶数据。

在同一驾驶场景下，由于受驾驶员风格和交通状况等多种因素的影响，会出现多种不同的车速变化模式。采用单一的车速预测模型难以在上述多种车速变化模式下均能有很好的预测性能表现。如果能根据驾驶数据对车速变化模式进行聚类，然后针对每一类模式针对性的构建车速预测模型，则可实现对车速预测精度的提升。

发明内容

为了克服现有技术中存在的上述问题，本发明基于聚类和深度学习网络，利用车速、加速度和与前车距离等驾驶数据，提取历史数据样本段的特征向量，对样本数据段进行聚类用以区分不同的车速变化模式，然后根据不同的簇建立不同的深度学习车速预测模型，从而设计出提出一种基于聚类和神经网络的车辆速度预测方法，实现对车辆速度预测精度的提升。

为实现上述技术效果，本申请的技术方案如下：

一种基于聚类和神经网络的车辆速度预测方法，基于车辆历史驾驶数据，对历史驾驶数据进行预处理后，将历史驾驶数据切分为多个样本数据段；计算所有样本数据段中被预测车辆与前车间距和车辆速度之间斯皮尔曼(Spearman)系数后，确定用于聚类的各特征权重系数并计算每个样本数据段的特征向量，进一步根据轮廓系数指标确定簇的数量后，采用k-means聚类方法对样本数据段特征向量进行聚类；根据特征向量聚类结果将对应的样本数据段进行分簇；针对每一个簇中的样本数据段构建基于深度学习的速度预测模型，用于对车辆速度的预测。

具体包括以下步骤：

步骤1，将获取到的数据库做清洗预处理后，切分为多个样本数据段；

步骤2，计算整个数据库中车辆速度和与前车间距之间的Spearman系数；

步骤3，提取各样本数据段的特征值，确定用于聚类的各特征权重系数并计算每个样本数据段的特征向量；

步骤4，根据轮廓系数指标确定聚类簇的数量；

步骤5，采用k-means聚类方法对样本数据段特征向量进行聚类；根据特征向量聚类结果将对应的样本数据段进行分簇；

步骤6：针对每一个簇中的样本数据段构建基于深度学习的速度预测模型。

具体的，步骤1中在对历史驾驶数据进行预处理时，首先去除重复数值，然后将与前车距离超出预设阈值M米的数据修正为M米；阈值M根据应用场景进行设置，在高速场景下取相对较大的数值，在低速场景下选取相对较小的值；对于缺失的数据采用的是三次样条插值法进行补齐，采用缺失部分前后各两帧数据作为提供插值参考数据的点；然后对车速、加速度和与前车距离数据分别进行归一化，具体归一化方法为：将速度和与前车间距等比例缩放到区间[0,1]，加速度等比例缩放到区间[-0.5,0.5]；数值区间左端对应该特征最小值，右端对应该特征最大值。

进一步地，在完成数据的预处理后，将数据集中持续时间较长的历史驾驶数据切分为多个样本数据段。具体方法为：将数据划分为每连续t秒(共包含T帧数据)划为一段，末尾不足t秒的部分数据舍弃；参数t的值根据应用场景进行设定：针对频繁变化的驾驶场景选取较小的值，针对相对稳定的驾驶场景选取较大的值。

进一步地，步骤2中计算车辆速度和与前车间距之间的Spearman系数ρ的公式为：

其中，N为数据集中所有样本数据段的总数量，R(v_i)和R(d_i)分别表示第i个样本数据段中的速度值和与前车车距值在对应特征中按照升序排列的位次，和/>分别速度和与前车车距的平均位次。

进一步地，步骤3中提取各样本数据段的特征值的具体方法为：提取第j段样本数据的特征值包括车辆平均速度平均加速度/>与前车平均间距/>计算方法为：

；

第j个样本数据段的特征向量由该段数据中T帧数据的平均速度平均加速度/>与前车平均间距/>三个指标加权后构成，即向量/> 其中，w_v，w_a和w_d的取值分别为max{0,(1-4ρ²)}，3ρ²和ρ²。

进一步地，步骤4中根据轮廓系数指标确定聚类簇的数量的具体方法为：分别设置不同的簇数指标K，并分别采用k-means方法进行聚类，聚类完成后针对轮廓系数指标来确定簇的数量。其中指标K的取值为整数，最小值为2，最大值的取值不小于使对应的轮廓系数出现峰值所需阈值。

进一步地，给定指标K时，采用k-means方法进行聚类的具体方法为：根据输簇数K，随机初始化K个聚类中心；针对第i个聚类，其聚类中心标记为并定义空集合S_i，用来存储该类中的特征向量；设置迭代次数上限L，L的值默认为500，可根据聚类结束时间进行调整；然后计算每个数据段特征向量/>与每个聚类中心/>之间的欧氏距离dis：

根据计算得到的特征向量与每个簇心的欧式距离，将与每个特征向量分别划分进对应欧式距离最小的簇，例如S_i′，这个簇的中心是/>然后按照如下方法更新簇心的位置：

该式子表示针对向量中每个元素分别进行上述计算。重复上述步骤，直到类簇中心不再更新或者达到迭代次数上限为止。

进一步地，根据轮廓系数指标来确定簇的数量的具体方法为：采用聚类数量2～K分别进行聚类后，分别针对聚类结果计算对应的轮廓系数。若为特征向量/>到簇内其他点的距离的平均值，/>为特征向量/>到不包含/>到所在的簇的所有点的平均距离；如果样本数据段的总数为N，轮廓系数计算方法为：

完成了聚类数量2～K的聚类，并绘制轮廓系数曲线时，可以发现当聚类数量为K^*时轮廓系数达到最大值时，则选择K^*作为后续聚类簇数指标。

进一步地，在上述步骤5中，采用k-means聚类方法对样本数据段进行聚类的方法为：采用聚类数量指标K^*，根据前述k-means聚类方法对特征向量进行聚类。聚类结果中，如果特征向量则将第j个样本数据段归类到第i个簇中。

进一步地，在上述步骤6中，针对每一个簇中的样本数据段构建基于深度学习的速度预测模型的具体方法为：针对每一个簇中的样本数据段构建基于深度学习的速度预测模型方法如下：随机将该簇中的样本数据段的70％选择训练集，余下30％作为测试集；将每段数据的前帧数据作为深度学习网络输入数据，余下帧数据用作对预测网络输出进行性能验证的真实数据；预测性能采用均方根误差(RMSE)指标进行衡量；分别针对长短期记忆(LSTM)神经网络和门控循环(GRU)神经网络进行模型调参和训练；将对应RMSE指标更小的网络模型选择该簇数据的网络模型。

进一步地，采用LSTM网络进行模型训练方法如下：通过“门”结构处理固定长度的车辆历史行驶数据段以进行速度预测，具体步骤为：遗忘门通过对车辆历史行驶的特征数据x_j和当前的隐藏状态h_t-1做非线性映射生成f_t，f_t被使用以决定在当前的细胞状态中遗忘什么内容：

f_t＝σ(W_f[h_t-1,x_j]+b_f)

输入门与遗忘门相反，则是通过对x_j，h_t-1运算生成决定更新哪些相关信息的输出i_t与m_t：

i_t＝σ(W_i[h_t-1,x_j]+b_i)

m_t＝tanh(W_m[h_t-1,x_j]+b_m)

细胞结构更新过程，则用旧的细胞状态C_t-1乘以遗忘门生成的f_t以决定从细胞结构中遗忘什么内容，再加上更新门生成的i_t与m_t相乘，完成对于细胞结构的输入，生成新的细胞状态C_t-1：

C_t＝C_t-1×f_t+i_t×m_t

输出门则是通过处理更新后的细胞状态C_t以确定下一个隐藏状态h_t的值。生成的新的细胞状态C_t以及新的隐藏状态h_t传递到下一个模块作为输入，输出门的公式展示如下：

O_t＝σ(W₀[h_t-1,x_j]+b₀)

H_t＝O_t×tanh(C_t)

原始数据库中的记录被分成许多段，每个段由T帧组成，每两帧之间的间隔为秒。每帧由三个维度的特征数据组成，即车速、加速度和与前车车距。在LSTM网络中，每个数据段的前/>帧数据作为输入来学习车辆运动过程，采用ReLU函数作为激活函数；然后采用常规LSTM网络训练过程对网络进行训练。

进一步地，采用GRU网络进行网络训练的具体方法为：重置门则是通过对x_j与h_t-1运算决定了如何将目前的输入信息与前面的记忆相结合：

r_t＝σ(W_r[h_t-1,x_j]+b_r)

GRU网络使用更新门决定哪些信息需要被遗忘和更新：

z_t＝σ(W_z[h_t-1,x_j]+b_z)

m_t＝tanh(W_m[r_t×x_j]+b_m)

h_t＝(1-z_t)×m_t+z_th_t-1

LSTM网络以及GRU网络通过链式的网络结构得到了包含驾驶信息的特征信息，特征信息则又被全连接层重塑以得到模型的输出信息代表未来的预测速度值。

GRU预测网络由一个网络层和一个全连接层组成。在GRU网络中，每个数据段的前帧数据作为输入来学习车辆运动过程，采用LeakyReLU作为激活函数；然后采用常规GRU网络训练过程对网络进行训练。

进一步地，训练好的模型用于实际车速预测时，将过去帧的数据(包括车辆速度、车辆加速度以及被预测车速的车辆与前车之间的距离)作为一段数据，按照前述步骤3所述方法得到该段数据的特征向量/>进一步计算每个簇心与/>的欧氏距离；进一步将该段数据归类为对应欧式距离最小的簇，并使用该簇对应的网络模型作为预测模型；将所述/>帧的数据作为网络的输入，预测网络的输出即为预测的未来车速。

与现有技术相比，本发明的有益效果是：

所发明的一个速度预测方法下充分考虑了多种不同的速度变化模式。由于不同的路段情况、天气原因、不同驾驶者或者相同驾驶者的驾驶习惯等因素影响，会形成不同的速度变化模式。该发明充分考虑这一点，对数据段聚类构建出针对不同速度变化模式的预测模型，实现对速度预测精度的提升。

附图说明

图1为本方法的流程示意图。

图2为实施例1中LSTM网络所使用参数。

图3为实施例1中GRU网络所使用参数。

图4为实施例1中车速预测效果图。

具体实施方式

实施例1

采用NGSIM数据库进行预处理，除去重复和错位的数据，在缺失帧少于10帧的地方采用三次样条插值法补齐缺失数据，缺失部分前后各两帧被用来作为提供数据的点。并且将与前车距离大于100米或未记录该值的部分数据记录为100米，即视为与前车间距非常大。然后对车速、加速度和与前车距离数据分别进行归一化，具体归一化方法为：将速度和与前车间距等比例缩放到区间[0,1]，加速度等比例缩放到区间[-0.5,0.5]；数值区间左端对应该特征最小值，右端对应该特征最大值。处理后，得到的数据有7513000帧。将数据按照20秒长度划分为一段，每一段中包含200帧数据，总共得到37565段数据。

进一步地，计算处理后数据车辆速度和与前车间距之间Spearman系数；Spearman系数ρ计算结果为0.45。可得到提取特征向量时，各特征值的权重系数分别为：速度权重w_v为0.2，加速度权重w_a为0.6，与前车间距的权重w_d为0.2。

进一步地，根据下列公式计算每一段样本数据的特征参数：针对第j段数据，其车辆平均速度平均加速度/>与前车平均间距/>

并得到对应的特征向量为

进一步地，设置聚类数量范围为2～7，分别对特征向量进行k-means聚类，迭代次数上限L设置为500；聚类完成后，计算从k＝2到k＝7时相应的轮廓系数，分别为0.4627,0.5234,0.5135,0.4920,0.4677,0.4541,0.4565。由于在k＝3时轮廓系数达最大值，因此选择聚类簇数k＝3，最后得到三个类。按照k＝3时k-means聚类方法对特征向量的划分，将每个特征向量对应的样本数据段进行分类。

进一步地，对三个簇中的数据分别使用LSTM网络和GRU网络进行预测。随机将每个簇中的样本数据段的70％选择训练集，余下30％作为测试集；将每段数据的前即160，帧数据作为深度学习网络输入数据，余下帧数据用作对预测网络输出进行性能验证的真实数据；设置预测时间为4秒，即预测未来80帧，预测性能采用均方根误差(RMSE)指标进行衡量；发现簇1和簇3使用LSTM网络预测时误差相对较小，因此选择LSTM为簇1和簇3的车速预测网络；簇2使用GRU网络预测时误差相对较小，因此选择GRU为簇2的车速预测网络。LSTM和GRU网络所使用的参数分别如图2和图3所示，对应的预测数据效果图分别如图4所示。

实施例2

在实施例1的基础上，一种基于聚类和神经网络的车辆速度预测方法，基于车辆历史驾驶数据，对历史驾驶数据进行预处理后，将历史驾驶数据切分为多个样本数据段；计算所有样本数据段中被预测车辆与前车间距和车辆速度之间斯皮尔曼(Spearman)系数后，确定用于聚类的各特征权重系数并计算每个样本数据段的特征向量，进一步根据轮廓系数指标确定簇的数量后，采用k-means聚类方法对样本数据段特征向量进行聚类；根据特征向量聚类结果将对应的样本数据段进行分簇；针对每一个簇中的样本数据段构建基于深度学习的速度预测模型，用于对车辆速度的预测。

具体包括以下步骤：

步骤4，根据轮廓系数指标确定聚类簇的数量；

；

第j个样本数据段的特征向量由该段数据中T帧数据的平均速度平均加速度与前车平均间距/>三个指标加权后构成，即向量/> 其中，w_v，w_a和w_d的取值分别为max{0,(1-4ρ²)}，3ρ²和ρ²。

当完成了聚类数量2～K的聚类，并绘制轮廓系数曲线时，可以发现当聚类数量为K^*时轮廓系数达到最大值时，则选择K^*作为后续聚类簇数指标。

f_t＝σ(W_f[h_t-1,x_j]+b_f)

i_t＝σ(W_i[h_t-1,x_j]+b_i)

m_t＝tanh(W_m[h_t-1,x_j]+b_m)

C_t＝C_t-1×f_t+i_t×m_t

O_t＝σ(W₀[h_t-1,x_j]+b₀)

H_t＝O_t×tanh(C_t)

r_t＝σ(W_r[h_t-1,x_j]+b_r)

GRU网络使用更新门决定哪些信息需要被遗忘和更新：

z_t＝σ(W_z[h_t-1,x_j]+b_z)

m_t＝tanh(W_m[r_t×x_j]+b_m)

h_t＝(1-z_t)×m_t+z_th_t-1

Claims

1.一种基于聚类和神经网络的车辆速度预测方法，其特征在于基于车辆历史驾驶数据，对历史驾驶数据进行预处理后，将历史驾驶数据切分为多个样本数据段；计算所有样本数据段的车辆速度和与前车间距两类数据之间斯皮尔曼(Spearman)系数后，确定用于聚类的各特征权重系数并计算每个样本数据段的特征向量，进一步根据轮廓系数指标确定簇的数量后，采用k-means聚类方法对样本数据段特征向量进行聚类；根据特征向量聚类情况将对应的样本数据段进行分簇；针对每一个簇中的样本数据段构建基于深度学习的速度预测模型，用于对车辆速度的预测。

2.根据权利要求1所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：历史驾驶数据包括历史时间点的时间戳，对应的车辆速度、车辆加速度以及车辆与前车之间的距离。

3.根据权利要求1所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：在对历史驾驶数据进行预处理时，首先去除重复数值，然后将与前车距离超出预设阈值M米的数据修正为M米；阈值M根据应用场景进行设置，在高速场景下取相对较大的数值，在低速场景下选取相对较小的值；对于缺失的数据采用的是三次样条插值法进行补齐，采用缺失部分前后各两帧数据作为提供插值参考数据的点；然后对车速、加速度和与前车距离数据分别进行归一化，具体归一化方法为：将速度和与前车间距等比例缩放到区间[0,1]，加速度等比例缩放到区间[-0.5,0.5]；数值区间左端对应该特征最小值，右端对应该特征最大值。

4.根据权利要求1所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：在将持续时间较长的历史驾驶数据切分为多个样本数据段时，将数据划分为每连续t秒(共包含T帧数据)划为一段，末尾不足t秒的部分数据舍弃；参数t的值根据应用场景进行设定：针对频繁变化的驾驶场景选取较小的值，针对相对稳定的驾驶场景选取较大的值。

5.根据权利要求1-4任意一项所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：确定用于聚类的各特征权重系数和计算样本段特征向量方法如下：首先计算车辆速度和与前车间距之间的Spearman系数ρ；第j个样本数据段的特征向量由该段数据中T帧数据的平均速度平均加速度/>与前车平均间距/>三个指标加权后构成，即向量其中w_v，w_a和w_d为加权系数；/>和/>的计算方法为：

；

w_v，w_a和w_d的取值分别为max{0,(1-4ρ²)}，3ρ²和ρ²。

6.根据权利要求1所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：根据轮廓系数指标确定簇的数量的具体方法为：设置不同的簇数指标K，并分别采用k-means方法进行聚类；绘制轮廓系数曲线，选择曲线中轮廓系数峰值所对应的聚类数量并表示为K^*；选择K^*作为后续聚类簇数指标。

7.根据权利要求1所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：针对每一个簇中的样本数据段构建基于深度学习的速度预测模型方法如下：随机将该簇中的样本数据段的70％选择训练集，余下30％作为测试集；将每段数据的前帧数据作为深度学习网络输入参数，余下帧数据用作对预测网络输出进行性能验证的真实数据；预测性能采用均方根误差(RMSE)指标进行衡量；分别针对长短期记忆(LSTM)神经网络和门控循环(GRU)神经网络进行模型调参和训练；将对应RMSE指标更小的网络模型选择该簇数据的网络模型。

8.根据权利要求1-7任意一项所述的一种基于聚类和神经网络的车辆速度预测方法，其特征在于：训练好的模型用于实际车速预测时，将过去0.8t秒的数据(包括车辆速度、车辆加速度以及被预测车速的车辆与前车之间的距离)作为一段数据，按照权利要求3所述方法得到该段数据的特征向量进一步计算每个簇心与/>的欧氏距离；进一步将该段数据归类为对应欧式距离最小的簇，并使用该簇对应的网络模型作为预测模型；将0.8t秒的数据作为网络的输入，预测网络的输出即为预测的未来车速。