CN110322704A

CN110322704A - 一种基于号牌识别和gps数据的排队长度实时估计方法

Info

Publication number: CN110322704A
Application number: CN201910514435.0A
Authority: CN
Inventors: 夏井新; 刘佳超; 安成川; 王寅朴; 叶含珺; 严颖
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-11
Anticipated expiration: 2039-06-14
Also published as: CN110322704B

Abstract

本发明公开了一种基于号牌识别和GPS数据的排队长度实时估计方法，包括如下步骤：S1：通过车辆在路段中的停车位置和与停车位置相关的特征参数，建立二级随机森林回归模型；S2：对二级随机森林回归模型进行训练和测试，确定最终的随机森林回归模型；S3：将实际排队车辆中所有车辆的号牌信息，作为最终随机森林回归模型的输入，通过最终随机森林回归模型的输出，确定出实际路段中车辆排队的长度。本发明利用GPS轨迹数据提供的车辆停车位置和上下游号牌匹配数据提供对应停车位置相关的特征参数，建立随机森林回归模型，将从号牌数据中提取出的特征作为随机森林回归模型的输入，从而可以预测待测车辆的停车位置，得到具体的实时排队长度。

Description

一种基于号牌识别和GPS数据的排队长度实时估计方法

技术领域

本发明涉及交通车流控制技术领域，尤其涉及一种基于号牌识别和GPS数据的排队长度实时估计方法。

背景技术

实时精确的排队长度信息是现代交通控制系统在制定排队管理控制策略时的重要参数输入。在当前应用的信号控制系统中，安装的额外排队检测器的花费较大，而且视频检测器由于高度的限制，无法检测到长排队。因此，如何利用现有的检测器数据来进行排队估计是研究主流问题。

现阶段，有两种较为成熟的排队估计方法，一种是韦伯斯特的输入输出模型，该方法通过计算上游到达和下游驶离的车辆数差值得到排队长度，这种方法的局限性在于无法描述空间上的排队分布，而且如果排队超过了检测器布设位置，上游到达流量的检测结果是不可靠的。另一种方法是LWR理论中的冲击波方法，该方法通过实测数据重构冲击波，来得到每个周期的空间上的排队长度，且可用的数据种类丰富，特别是近些年网联车轨迹数据的兴起，大量研究利用GPS轨迹数据进行排队估计。但这种基于冲击波理论的方法对数据量有一定的要求，一般需要轨迹数据的渗透率达到25％以上才可以进行冲击波的重构和实时排队长度估计，而目前可用的轨迹数据渗透率还很低(低于5％)。

因此现有技术的缺点主要在于：(1)大多数方法只利用一种数据源，没有挖掘多源数据之间的关联性；(2)方法没有做到对实际数据的完全驱动，而是基于一些并不符合实际情况的假设条件和简化条件；(3)在实际应用中，现有方法无法适用于不同的复杂的场景，估计精度无法保障。

发明内容

发明目的：针对现有对实时排队长度的估计无法在满足不同复杂场景的情况下，同时达到一定精度的问题，本发明提出一种基于号牌识别和GPS数据的排队长度实时估计方法。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

一种基于号牌识别和GPS数据的排队长度实时估计方法，所述方法具体包括如下步骤：

S1：通过车辆在车辆排队路段中的停车位置和与停车位置相关的特征参数，建立初级随机森林回归模型，获取二级随机森林回归模型；

S2：对所述二级随机森林回归模型进行训练和测试，通过训练和测试的结果，确定最终的随机森林回归模型；

S3：将实际排队车辆中所有车辆的相关特征，作为所述最终随机森林回归模型的输入，通过所述最终随机森林回归模型的输出，确定出实际路段中车辆排队的长度。

进一步地讲，所述步骤S1获取二级随机森林回归模型，具体如下：

S1.1：根据选择的车辆排队路段，对所述路段上的所有GPS数据点进行GPS数据地图匹配，从所述匹配好的数据中获取车辆在车辆排队路段中的停车位置；

S1.2：通过车辆排队路段上下游中所有车辆的号牌信息，在车辆排队路段中，将经过车辆排队路段上下游的车辆作为标记车辆，同时获取所述标记车辆的相关特征，其中所述标记车辆的相关特征包括驶离交通流特征、控制延误特征、到达交通流特征和时间特征；

S1.3：根据车辆在车辆排队路段中的停车位置和所述标记车辆的相关特征，根据车辆的号牌信息，判断所述标记车辆是否位于停车样本中，当所述标记车辆位于停车样本中时，将在停车样本中标记车辆的停车位置和该标记车辆的相关特征进行匹配，当所述标记车辆不位于停车样本中时，将该标记车辆删除；

将所述每个匹配后标记车辆的停车位置和相关特征均存储在同一个数据集中，作为随机森林回归模型的数据集；

S1.4：将所述随机森林回归模型数据集分为训练集和测试集，通过所述训练集中的数据，其中训练集中的数据包括每个匹配后标记车辆的停车位置和相关特征，建立初级随机森林回归模型，并获取所述训练集中所有特征对应的PI指标，具体为：

其中：PI_i为训练集中第i个特征对应的PI指标，K为所有特征的数目，为对于回归树在样本中的均方误差，为在样本中随机排列特征的值而获得的扰动样本；

S1.5：将所述训练集中所有特征对应的PI指标进行比较，选出数值最大的五个所述PI指标，通过所述选出的五个PI指标所对应的数据，所述选出的五个PI指标所对应的数据为匹配后标记车辆的停车位置和相关特征，建立二级随机森林回归模型。

进一步地讲，所述步骤S1.1从匹配好的数据中获取车辆在车辆排队路段中的停车位置，具体如下：

S1.1.1：选择车辆排队的路段，将在所述路段上的所有GPS数据点的瞬时速度进行比较，选出瞬时速度小于阈值时所对应的GPS数据点，由所述选出的GPS数据点对应的车辆，组建排队车辆的停车样本；

S1.1.2：根据停车样本中排队车辆的GPS坐标点方向，确定出所述停车样本中排队车辆所在的路段，当所述排队车辆所在的路段不是车辆排队的路段时，将所述排队车辆从停车样本中删除；

当所述排队车辆所在的路段是车辆排队的路段时，所述组成停车样本的排队车辆保持不变；

S1.1.3：根据所述判断后的停车样本，将所述GPS坐标点对应的排队车辆与车辆排队路段下游停车线之间的距离，作为所述排队车辆在车辆排队路段中的停车位置。

进一步地讲，所述步骤S1.1.2确定出停车样本中排队车辆所在的路段，具体如下：

S1.1.2.1：根据停车样本中排队车辆的GPS坐标点方向，判断所述排队车辆的GPS坐标点方向、与距离最近的车辆排队路段中行驶车辆的行驶方向是否一致，若一致，则所述排队车辆为该车辆排队路段中的行驶车辆，所述组成停车样本的排队车辆保持不变，若不一致，执行步骤S1.1.2.2；

S1.1.2.2：将所述距离最近的车辆排队路段从所有的车辆排队路段中去除，在剩余的车辆排队路段中重新确定出与所述排队车辆距离最近的车辆排队路段，判断所述排队车辆的GPS坐标点方向、与确定的车辆排队路段中行驶车辆的行驶方向是否一致，若一致，则所述排队车辆为该车辆排队路段中的行驶车辆，所述组成停车样本的排队车辆保持不变，若不一致，执行步骤S1.1.2.3；

S1.1.2.3：在剩余的车辆排队路段中，根据所述排队车辆和车辆排队路段之间距离的远近，重复步骤S1.1.2.2，直至在剩余的车辆排队路段中匹配到方向一致的路段，则所述排队车辆为该车辆排队路段中的行驶车辆，所述组成停车样本的排队车辆保持不变；

若所述排队车辆的GPS坐标点方向与所有车辆排队路段中行驶车辆的行驶方向均不一致，则所述排队车辆不是该车辆排队路段中的行驶车辆，将所述排队车辆从停车样本中删除。

进一步地讲，所述步骤S1.2获取标记车辆的相关特征，具体如下：

S1.2.1：通过车辆排队路段上游号牌检测器识别到的号牌数据、车辆排队路段下游号牌检测器识别到的号牌数据，获取所有经过车辆排队路段上游和下游车辆的车牌号码和时间戳，根据所述车辆的车牌号码，在车辆排队路段中，将经过车辆排队路段上下游的车辆作为标记车辆；

S1.2.2：提取驶离交通流特征：通过车辆排队路段下游号牌检测器识别到的号牌数据，获取在相同周期内，在每个所述标记车辆之前驶离车辆排队路段下游的车辆数目和平均车头时距，其中在每个所述标记车辆之前驶离车辆排队路段下游的所有车辆之间的平均车头时距，具体为：

其中：h_di为在第i个标记车辆之前驶离车辆排队路段下游的所有车辆之间的平均车头时距，t_bi为第i个标记车辆经过车辆排队路段下游时的时间，m_di为在第i个标记车辆之前驶离车辆排队路段下游的车辆数目；

S1.2.3：提取控制延误特征：通过所有经过车辆排队路段上游和下游车辆的时间戳，获取每个标记车辆从车辆排队路段上游到下游的行驶时间、每个标记车辆与相邻标记车辆之间间隔的车辆数目和平均车头时距，具体为：

其中：t_ci为第i个标记车辆从车辆排队路段上游到下游的行驶时间，h_ci为第i个标记车辆和相邻标记车辆之间所有车辆的平均车头时距，t_ai为第i个标记车辆经过车辆排队路段上游时的时间，t_bi为第i个标记车辆经过车辆排队路段下游时的时间，m_ci为在第i个标记车辆和相邻标记车辆之间所有的车辆数目；

根据所述每个标记车辆从车辆排队路段上游到下游的行驶时间，确定在相同周期内，与每个标记车辆相邻的其他标记车辆从车辆排队路段上游到下游的行驶时间；

S1.2.4：到达交通流特征：获取在当前周期内，所述标记车辆和前j个周期内与当前标记车辆间隔时间最长的标记车辆之间的到达流率和平均车头时距，具体为：

其中：q_ai为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间的到达流率，h_ai为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间所有车辆的平均车头时距，m_ai为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间所有的车辆数目，ΔT_i为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间的时间间隔，t_bi为第i个标记车辆经过车辆排队路段下游时的时间；

S1.2.5：提取时间相关特征：将一天的24小时均分为W份，并根据时间顺序对划分的时间段进行编号，其中所述W≥2且W为整数，根据经过车辆排队路段下游所有车辆的时间戳，确定出每个所述标记车辆经过车辆排队路段下游的时间位于划分的哪个时间段。

进一步地讲，所述步骤S1.4获取训练集中所有特征对应的PI指标，具体如下：

S1.4.1：将所述随机森林回归模型数据集按比例进行划分，分为训练集和测试集；

S1.4.2：通过训练集中的数据，建立初级随机森林回归模型，同时获取所述训练集中所有特征对应的PI指标，具体为：

其中：PI_i为训练集中第i个特征对应的PI指标，K为所有特征的数目，为对于回归树在样本中的均方误差，为在样本中随机排列特征的值而获得的扰动样本。

进一步地讲，所述步骤S2确定最终的随机森林回归模型，具体如下：

S2.1：将所述测试集中排队车辆的相关特征作为二级随机森林回归模型的输入，对所述二级随机森林回归模型进行训练和测试，通过所述二级随机森林回归模型的输出确定车辆停车位置的预测值，同时再根据所述测试集中排队车辆的实际停车位置，获取二级随机森林回归模型训练和测试结果的平均绝对误差、平均绝对百分误差和均方根误差，具体为：

其中：MAE为平均绝对误差，MAPE为平均绝对百分误差，RMSE为均方根误差，N为测试集的样本数量，X_predict为停车位置预测值，X_actual为停车位置实际值；

S2.2：比较预设阈值和所述平均绝对误差、平均绝对百分误差、均方根误差之间的大小，当所述平均绝对误差、平均绝对百分误差和均方根误差小于预设阈值时，所述二级随机森林回归模型为最终的随机森林回归模型；

反之，重复步骤S1-S2，直至所述平均绝对误差、平均绝对百分误差和均方根误差小于预设阈值，将二级随机森林回归模型作为最终的随机森林回归模型。

进一步地讲，所述步骤S3确定出实际路段中车辆排队的长度，具体如下：

S3.1：根据实际排队车辆中所有车辆的号牌信息，获取实际排队车辆中所有车辆的相关特征，将所述相关特征作为最终随机森林回归模型的输入，通过所述最终随机森林回归模型的输出，获取实际排队车辆中所有车辆在排队路径中的停车位置；

S3.2：将所述实际排队车辆中所有车辆在排队路径中的停车位置进行比较，选出所述停车位置的最大值，所述停车位置的最大值即为实际路段中车辆排队的长度。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

(1)本发明利用GPS轨迹数据提供的车辆停车位置和上下游号牌匹配数据提供对应停车位置相关的特征参数，建立随机森林回归模型，将从号牌数据中提取出的特征作为随机森林回归模型的输入，从而可以预测待测车辆的停车位置，得到具体的实时排队长度；

(2)本发明充分挖掘了多源数据的关联信息，提高了数据的利用率，在特征选择的过程中，分析了不同特征对排队预测的影响，在对实时排队长度估计的同时，也补充了对排队的相关理论知识；

(3)本发明通过号牌数据和GPS轨迹数据，利用随机森林模型建立停车位置和排队特征参数之间的关系模型，具有一定的鲁棒性，对不同等级以及不同车道有着稳定的预测效果。

附图说明

图1是本发明的方法的流程示意图；

图2是本发明的GPS地图匹配示意图；

图3是不同路段的特征重要性指标对比图；

图4是两个不同车道的最大排队长度预测值和实际值的对比曲线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。其中，所描述的实施例是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。

实施例1

参考图1，本实施例提供了一种基于号牌识别和GPS数据的排队长度实时估计方法，通过江苏省昆山市主干路和次干路的9个路段作为具体案例，对本发明的排队长度实时估计方法进行说明，具体包括如下步骤：

步骤S1：根据江苏省昆山市主干路和次干路的9个路段中各个车辆的停车位置和与停车位置相关的特征参数，建立二级随机森林回归模型，具体如下：

步骤S1.1：在江苏省昆山市主干路和次干路的9个路段中，将在这9个路段中的所有GPS数据点匹配到该GPS数据点对应的车辆行驶的相应路段上，从而获取该GPS数据点在该行驶路段中的相对位置。也就是说，先是进行GPS数据地图匹配，再从匹配好的数据中提取出GPS数据点的停车位置，即GPS数据点到路段下游停车线之间的距离。在本实施例中，为了在9个路段中从所有GPS数据点中选择出合适的GPS数据点，我们选择的是所有瞬时速度小于阈值时所对应的GPS数据点。具体如下：

步骤S1.1.1：在9个路段中所有的GPS数据点的瞬时速度并不同完全相同的，为了选取出合适的GPS数据点作为排队车辆的停车样本。在本实施例中，将所有速度小于5km/h的瞬时速度所对应的GPS数据点选取出来，然后由所有选取出来的GPS数据点对应的车辆组建排队车辆的停车样本。

步骤S1.1.2：根据选取出的排队车辆停车样本，将所有GPS数据点根据其自身的GPS坐标点方向，和江苏省昆山市主干路和次干路的9个路段进行匹配。

若排队车辆所在的路段不是江苏省昆山市主干路和次干路的9个路段中的任意一个，则将该排队车辆从停车样本中删除。

若排队车辆所在的路段为江苏省昆山市主干路和次干路的9个路段中的任意一个，则组成停车样本的排队车辆保持不变。具体如下：

步骤S1.1.2.1：根据选取出的排队车辆停车样本，判断停车样本中每个排队车辆的GPS坐标点方向、与9个路段中距离最近的路段中行驶车辆的行驶方向是否一致。若一致，则将停车样本中的排队车辆匹配到该距离最近的路段上，可以确定出停车样本中的排队车辆为该路段中的行驶车辆，同时组成停车样本的排队车辆保持不变。反之，若不一致，则执行步骤S1.1.2.2。

步骤S1.1.2.2：将距离最近的车辆排队路段从9个路段中去除，在剩余的8个路段中重新确定出距离最近的路段，判断排队车辆的GPS坐标点方向和确定的路段中行驶车辆的行驶方向是否一致。若一致，则将停车样本中的排队车辆匹配到该距离最近的路段上，可以确定出停车样本中的排队车辆为该路段中的行驶车辆，同时组成停车样本的排队车辆保持不变。反之，若不一致，则执行步骤S1.1.2.3。

步骤S1.1.2.3：在剩余的车辆排队路段中，根据排队车辆和车辆排队路段之间距离的远近，重复步骤S1.1.2.2，直至在剩余的车辆排队路段中匹配到方向一致的路段，则排队车辆为该车辆排队路段中的行驶车辆，组成停车样本的排队车辆保持不变。

若排队车辆的GPS坐标点方向与9个路段中行驶车辆的行驶方向均不一致，则该排队车辆不是这9个路段中的行驶车辆，将该排队车辆从停车样本中删除，确定出新的停车样本。

步骤S1.1.3：参考图2，根据判断后重新确定的停车样本，确定出该停车样本中所有GPS坐标点对应的排队车辆与相应路段下游停车线之间的距离，并将此距离标作为排队车辆在相应路段中对应的停车距离。其中，对于GPS坐标点对应的排队车辆正好在相应路段下游停车线处，或是越过了相应路段下游停车线处，则将该排队车辆在相应路段中对应的停车距离标记为0。

步骤S1.2：根据停车样本中所有排队车辆的号牌，通过号牌检测器识别所有号牌中的数据，在车辆排队路段中，将经过车辆排队路段上下游的车辆作为标记车辆，同时获取标记车辆的相关特征，其中标记车辆的相关特征包括驶离交通流特征、控制延误特征、到达交通流特征和时间相关特征。

在本实施例中，选取的江苏省昆山市主干路和次干路的9个路段的基础信息和数据如表1所示。表1具体为：

表1路段基础信息及数据

参考图3，由于选取的道路等级包含有主干路和次干路两种，车道类型包含左转和直行两种，因此汇总之后有四种情况，从而对于不同等级的不同车道类型，特征的重要性排序是不同的。

具体地讲，在车辆排队路段中，将选出经过车辆排队路段上下游的车辆，并提取出标记车辆的相关特征，具体如下：

步骤S1.2.1：根据停车样本中所有排队车辆的号牌，通过号牌检测器识别所有号牌中的数据，包括有排队车辆的车牌号码和时间戳。通过排队车辆的车牌号码，选出经过路段上游和路段下游的车辆，将选出的车辆作为标记车辆。

步骤S1.2.2：提取驶离交通流特征：通过车辆排队路段下游号牌检测器识别到的号牌数据，确定在相同周期内，在每个标记车辆之前驶离相应路段下游的所有车辆数目和平均车头时距。在本实施例中，相同周期的选取是3，即包括有第一个周期、第二个周期和第三个周期。且需要获取在这三个周期内，在每个标记车辆之前驶离相应路段下游的所有车辆数目和平均车头时距。其中在每个标记车辆之前驶离相应路段下游的所有车辆数目，可以通过确认在标记车辆驶离相应路段下游之前，读取的号牌数目，进行确定。也就是说，在每个标记车辆之前驶离相应路段下游的所有车辆数目，与在标记车辆驶离相应路段下游之前读取的号牌数目相同。

同时在每个标记车辆之前驶离相应路段下游的平均车头时距，可以通过步骤S1.2.1中确定的时间戳进行确定，具体为：

其中：h_di为在第i个标记车辆之前驶离车辆排队路段下游的所有车辆之间的平均车头时距，t_bi为第i个标记车辆经过车辆排队路段下游时的时间，m_di为在第i个标记车辆之前驶离车辆排队路段下游的车辆数目。

步骤S1.2.3：提取控制延误特征：根据每个标记车辆驶离车辆排队路段上下游的行程时间，确定在相同周期内，与该标记车辆相邻的其他标记车辆驶离相应路段的行程时间，以及该标记车辆与其相邻的其他标记车辆之间的停留的车辆数目和平均车头时距。其中距离该标记车辆相邻的其他标记车辆包括有：在该标记车辆前方最近的其他标记车辆、在该标记车辆后方最近的其他标记车辆。

在本实施例中，通过时间戳可以得知标记车辆经过车辆排队路段上游时的时间、经过车辆排队路段下游时的时间，从而可以获取得到每个标记车辆从车辆排队路段上游到下游的行驶时间。

每个标记车辆从车辆排队路段上游到下游的行驶时间、每个标记车辆与相邻标记车辆之间所有车辆的平均车头时距，具体为：

其中：t_ci为第i个标记车辆从车辆排队路段上游到下游的行驶时间，h_ci为第i个标记车辆和相邻标记车辆之间所有车辆的平均车头时距，t_ai为第i个标记车辆经过车辆排队路段上游时的时间，t_bi为第i个标记车辆经过车辆排队路段下游时的时间，m_ci为在第i个标记车辆和相邻标记车辆之间所有的车辆数目。

步骤S1.2.4：提取到达交通流特征：在当前周期内，确定标记车辆与前j个周期前与当前标记车辆间隔时间最长的标记车辆之间的到达流率，以及标记车辆与前j个周期前与当前标记车辆间隔时间最长的标记车辆之间的平均车头时距。其中，j的大小并不固定，可以根据实际需要进行选择。在本实施例中，j的大小选择为4。

在本实施例中，标记车辆和前j个周期内与当前标记车辆间隔时间最长的标记车辆之间的到达流率和平均车头时距，具体为：

其中：q_ai为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间的到达流率，h_ai为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间所有车辆的平均车头时距，m_ai为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间所有的车辆数目，ΔT_i为第i个标记车辆和前j个周期内间隔时间最长的标记车辆之间的时间间隔，t_bi为第i个标记车辆经过车辆排队路段下游时的时间。

步骤S1.2.5：提取时间相关特征：将每个标记车辆通过车辆排队路段下游号牌检测器时的时间，和对应的日期进行记录。

具体地讲，将一天的24小时进行均分，根据时间顺序划分为W份，并将划分的W份时间段进行编号，其中一天的第一个时间段对应的编号为1，一天的最后一个时间段对应的编号为W。其中W≥2且W为整数，在本实施例中，以15分钟对一天的24小时进行均分，分为96份，也就是说W选择为96。

根据经过车辆排队路段下游所有车辆的时间戳，确定出每个标记车辆经过车辆排队路段下游的时间位于划分的哪个时间段，并处于哪个星期。

步骤S1.3：根据车辆的号牌信息，将同一辆车的停车位置和相关特征匹配在一起，并将匹配后车辆的数据存储在同一个数据集中，作为随机森林回归模型的数据集。也就是说，随机森林回归模型的数据集包括有车辆的停车位置和相关特征。

其中由于号牌检测器的误检或漏检，会造成部分车辆的相关特征不完整。此时，在随机森林回归模型的数据集中，缺失的特征用NA进行表示。

步骤S1.4：将随机森林回归模型的数据集进行划分，分为训练集和测试集，并根据训练集中的所有特征建立初级随机森林回归模型，然后根据初级随机森林回归模型，获取得到训练集中所有特征的PI指标。具体如下：

步骤S1.4.1：将随机森林回归模型数据集整体按照7:3的比例进行随机划分，分成两个部分：训练集和测试集。其中随机森林回归模型数据集的70％作为训练集，随机森林回归模型数据集的30％作为测试集。

步骤S1.4.2：在R语言的环境中，根据选取出的训练集中的数据，建立初级随机森林回归模型。并通过初级随机森林回归模型，计算出训练集中所有特征对应的PI指标，具体为：

步骤S1.5：将训练集中所有特征对应的PI指标进行比较，从中选取出数值最大的五个PI指标。R语言通过选取出的五个PI指标所对应的数据，建立二级随机森林回归模型。

步骤S2：根据步骤S1.4.1中测试集中的数据，对步骤S1.5中建立的二级随机森林回归模型进行训练和测试，通过训练和测试的结果，确定最终的随机森林回归模型。具体如下：

步骤S2.1：将测试集中排队车辆的相关特征作为二级随机森林回归模型的输入，对二级随机森林回归模型进行训练和测试，通过二级随机森林回归模型的输出，确定车辆停车位置的预测值。

根据测试集中的车辆停车位置，将二级随机森林回归模型中根据测试集的数据得到的车辆停车位置预测值进行比较，获取二级随机森林回归模型训练和测试结果的平均绝对误差、平均绝对百分误差和均方根误差，具体为：

其中：MAE为平均绝对误差，MAPE为平均绝对百分误差，RMSE为均方根误差，N为测试集的样本数量，X_predict为停车位置预测值，X_actual为停车位置实际值。

步骤S2.2：根据步骤S2.1中获取的平均绝对误差MAE、平均绝对百分误差MAPE和均方根误差RMSE的大小，判断其三者与预设阈值之间的大小，当平均绝对误差MAE、平均绝对百分误差MAPE和均方根误差RMSE小于预设阈值时，步骤S1.5中建立的二级随机森林回归模型即为最终的随机森林回归模型。

反之，当平均绝对误差MAE、平均绝对百分误差MAPE和均方根误差RMSE不小于预设阈值时，重复步骤S1-S2，直至所述平均绝对误差、平均绝对百分误差和均方根误差小于预设阈值时，将二级随机森林回归模型为最终的随机森林回归模型。

在本实施例中，获取的平均绝对误差MAE、平均绝对百分误差MAPE和均方根误差RMSE的大小，在选取的江苏省昆山市主干路和次干路的9个路段中的性能指标，如表2所示，具体为：

表2随机森林模型的效果评价指标

参考图4，其为两个不同车道的最大排队长度预测值和实际值的对比曲线图。两个车道的预测结果平均绝对误差MAE分别为13.2m和7.2m，平均绝对百分误差MAPE分别为14.5％和11.9％。

步骤S3：将实际排队车辆中所有车辆的相关特征，作为最终随机森林回归模型的输入，通过最终随机森林回归模型的输出，确定出实际路段中车辆排队的长度。具体如下：

步骤S3.1：根据实际排队车辆中所有车辆的号牌信息，获取实际排队车辆中所有车辆的相关特征，并将其相关特征作为步骤S2.2中确认出的最终随机森林回归模型的输入，通过最终随机森林回归模型的输出，获取得到实际排队中所有车辆在该排队路径中的停车位置。

步骤S3.2：根据得到的实际排队中所有车辆在该排队路径中的停车位置，将所有的停车位置对应的数值进行比较，选出其中最大数值对应的停车位置，其中选出的停车位置对应的数值即为实际路段中车辆排队的长度。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构和方法并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均属于本发明的保护范围。

Claims

1.一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述方法具体包括如下步骤：

2.根据权利要求1所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S1获取二级随机森林回归模型，具体如下：

3.根据权利要求2所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S1.1从匹配好的数据中获取车辆在车辆排队路段中的停车位置，具体如下：

4.根据权利要求3所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S1.1.2确定出停车样本中排队车辆所在的路段，具体如下：

5.根据权利要求2或3所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S1.2获取标记车辆的相关特征，具体如下：

6.根据权利要求5所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S1.4获取训练集中所有特征对应的PI指标，具体如下：

7.根据权利要求1或2所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S2确定最终的随机森林回归模型，具体如下：

8.根据权利要求7所述的一种基于号牌识别和GPS数据的排队长度实时估计方法，其特征在于，所述步骤S3确定出实际路段中车辆排队的长度，具体如下：