CN114627646B

CN114627646B - 一种基于车牌识别数据的路段交通流模式识别方法及系统

Info

Publication number: CN114627646B
Application number: CN202210216986.0A
Authority: CN
Inventors: 张伟斌; 李俊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-03-06
Filing date: 2022-03-06
Publication date: 2023-04-28
Anticipated expiration: 2042-03-06
Also published as: CN114627646A

Abstract

本发明公开了一种基于车牌识别数据的路段交通流模式识别方法及系统，确定基础研究路段，统计每辆车的出行链；基于路段的实时流量、驶入场所的车流量、驶出场所的车流量以及区域流量，将全天划分为不同时段并构建特征数据集；利用主成分分析法对特征数据集进行降维；将降维后的数据集分别传入不同的聚类算法，利用轮廓系数和Davies‑Bouldin指数评判出最优算法、最优模式类别数，以及基础研究路段的模式识别结果；利用不同的分类学习器对已经带有标签的基础研究路段进行学习，获得最优分类器，用于新增路段的交通流模式识别。本发明通过交通流模式识别结果能够找出明显地释放或者吸引车辆的路段，这对于整体路网的交通控制都是非常有用的。

Description

一种基于车牌识别数据的路段交通流模式识别方法及系统

技术领域

本发明涉及模式识别以及数据挖掘技术，具体涉及一种基于车牌识别数据的路段交通流模式识别方法及系统。

背景技术

路段是城市交通路网的基本单元，对路段交通模式的清晰认识具有重要的意义。由于每条路段在城市中的位置不同，不同的路段在路网中往往扮演着不同的角色，有着不同的地位。对路段模式有清晰的认识，有利于城市路网状态的估计、交通管理与决策以及可以用于交通流预测。

以往的针对车流量的分析中，除了出行行为的规则挖掘这一重点，虽然有考虑车辆的出发地和目的地分析，但是多数都停留在区域(即多条路段相互交错构成的路网)上，对路段的研究不足。例如，Zhu等人(Development ofdestination choice model withpairwise district-level constants using taxi gps data)基于历史出租车数据得到的OD出行矩阵建立的预测模型中，其划分单元来自于961个居民委员会构成的52个居民区，以及将城市路网划分为许多相同的网格来预测乘客需求(Contextualized spatial-temporal network for taxi origin-destination demandprediction)，以及区域层级上的交通状态分析与预测(Region-wide congestionprediction and control using deeplearning)。

发明内容

本发明的目的在于提供一种基于车牌识别数据的城市路段交通流模式识别方法及系统。

实现本发明目的的技术解决方案为：一种基于车牌识别数据的路段交通流模式识别方法，步骤如下：

步骤一，将城市内检测器所在的部分路网划定为选择区域，并且以区域的历史车牌识别数据作为后续步骤的数据基础，确定区域内两端交叉口数据均完整的路段，将其作为基础研究路段；

步骤二，由历史车牌识别数据统计出每辆车的出行链，根据实时车流量以及驶入场所和驶出场所的车流量的定义计算路段三部分流量以及区域流量，其中路段三部分流量包括实时交通流量、驶入场所的车流量以及驶出场所的车流量；

步骤三，将区域流量序列作为输入，将全天划分为不同时段；

步骤四，基于划分的时间段对路段三部分流量进行特征计算，包括流量均值、高峰流量平稳度、非高峰流量均值平稳度、午高峰频率系数、早高峰频率系数、下午高峰频率系数、晚高峰频率系数、车流量峰值均值，构建特征数据集；

步骤五，利用主成分分析法对特征数据集进行降维；

步骤六，将降维后的数据集分别传入不同的聚类算法，利用轮廓系数和 Davies-Bouldin指数评判出最优算法、最优模式类别数，以及基础研究路段的模式识别结果；

步骤七，利用不同的分类学习器对已经带有标签的基础研究路段进行学习，获得最优分类器，用于新增路段的交通流模式识别。

进一步的，所述路段三部分流量，具体定义如下：

实时交通流量：表示在规定的时间单位内行驶在路段上的车辆数，使用半小时作为时间单位，每天有48个值；

驶入场所的车流量：表示每半小时进入道路并在道路所在场所内停留1小时以上的车辆数量，每天有48个值；

驶出场所的车流量：表示每半小时离开该路段的车辆数，通过统计当前半小时内离开路段且离开前在路段场所内停留1小时以上的车辆数量得到，每天有48个值。

进一步的，步骤三，将区域流量序列作为输入，将全天划分为不同时段，其中区域流量序列描述的是区域在每个步长下的出行车辆数，具体划分方法为：

步骤3-1：以待划分的区域流量数据为输入，自定义时段划分最大时间间隔I_max；

步骤3-2：利用Fisher最优分割算法对流量数据进行有序聚类，得到初始插针点集合π₀；

步骤3-3：依次遍历初始插针点集合，当π₀(i+1)-π₀(i)≥I_max，其中i表示π₀中的第i个插针点，则取时间点处于[π₀(i+1),π₀(i)]之间的流量数据再次进行Fisher最优分割，遍历完后得到二次划分插针点集合π₁，合并π₁与π₀，得到最优分割最终插针点集合π；

步骤3-4：利用K-means聚类对区域流量数据进行一维聚类，为每个流量数据点赋值类标签，π中每两个相邻点π(i),π(i+1)组成一个时段P(i),i＝0,1,2,...,定义各时段的状态标签S(i)为时段内所有流量数据点类标签的众数，得到各时段的状态标签集合S；

步骤3-5：遍历各时段的状态标签集合S，如果S(i)＝S(i+1)，则合并时段P(i)和 P(i+1)，即π中删去插针点π(i+1)，得到最终时段划分结果进而确定早、午、下午、晚高峰和非高峰时段。

进一步的，步骤四，基于划分的时间段对路段三部分流量进行特征计算，具体方法为：

流量均值：

将路段交通流的第一个描述性特征定义为流量均值F₁，计算公式为：

其中N为天数，M_i代表第i天下路段的路段流量均值；

高峰流量平稳度：

引入高峰平稳度来描述路段非高峰与早、晚高峰在车流量上的相似性，假设早高峰流量平稳度为S₁，晚高峰流量平稳度为S₂，计算公式为：

其中O_i为第i天非高峰期间的流量均值，P_ij为第i天早/晚高峰的流量峰值；

非高峰流量均值平稳度：

引入非高峰流量均值F₂平稳度来描述非高峰期的流量在一天内的表现，计算公式为：

其中W为一天内的流量峰值；

午高峰频率系数：

用午高峰频率系数来描述路段在中午流量出现高峰这一现象，假设V₁、V₂、V₃分别代表实时车流量、驶入场所的车流量、驶出场所的车流量，计算公式为：

其中代表流量V_j(j＝1,2,3)序列存在午高峰的天数；

早高峰频率系数：

同理，引入早高峰频率系数来描述路段在早上驶入场所以及驶出场所的车流量出现高峰这一现象，计算公式为：

其中代表流量V_j(j＝2,3)序列存在早高峰的天数；

下午高峰频率系数：

引入下午高峰频率系数来描述路段在下午驶入场所以及驶出场所的车流量出现高峰这一现象，计算公式为：

其中代表流量V_j(j＝2,3)序列存在下午高峰的天数；

晚高峰频率系数：

引入晚高峰高峰频率系数来描述路段在下班时段驶入场所以及驶出场所的流量出现高峰这一现象，计算公式为：

其中代表流量V_j(j＝2,3)序列存在晚高峰的天数。

车流量峰值均值：

引入车流量峰值均值衡量驶入场所的车流量和驶出场所的车流量对路段影响的具体大小，计算公式为：

其中代表流量V_j(j＝2,3)序列在第i天的峰值；

由于特征S₁,针对早高峰设定，针对午高峰设定，针对下午高峰设定，S₂,定针对晚高峰设定，若城市车辆出行不存在四个高峰期，则只需要计算与相应高峰期有关的特征，特征F₁,F₂,这部分特征和城市高峰时间段是无关的，这部分特征是必需的，到此，获得特征数据集T，其行内容为所选择的每一条路段，列内容包含上述构建的特征。

进一步的，步骤五，利用主成分分析法对特征数据集T降维后得到新的数据集X，具体方法为：

步骤5-1，特征数据集行为路段数，列为特征数，对特征数据集进行标准化处理，得到标准化矩阵；

步骤5-2，根据标准化数据矩阵建立协方差矩阵R，根据协方差矩阵R求出特征值、主成分贡献率和累计方差贡献率，根据陡坡图和总方差贡献率准则确定主成分个数。

进一步的，步骤六，将降维后的数据集分别传入不同的聚类算法，包括K均值、高斯混合模型以及自组织映射神经网络三类算法，利用轮廓系数和Davies-Bouldin指数评判出最优算法以及最优模式类别数，其中轮廓系数和Davies-Bouldin指数具体计算方法为：

针对某一个聚类算法得到的聚类结果，假设得到的簇集合为C＝{C_s,s＝1,2,...,k}，对簇集合里所有的数据点的轮廓系数求平均即为该聚类算法对应的轮廓系数，针对某簇内某一个数据点P_i，即某一条路段在降维后的数据集X中对应的特征向量，数据点P_i的轮廓指数的计算公式如下：

其中，SC(i)为数据点Pi的轮廓系数；b(i)＝min{b_i1,b_i2,…,b_ik}为数据点Pi的簇间不相似度即分离度，b_ij为数据点P_i与簇C_j所有数据点的平均距离；a(i)为数据点Pi的簇内不相似度，通过计算数据点P_i与同簇内其他数据点的平均距离得到；

针对簇集合C＝{C_s,s＝1,2,...,k}，定义单个簇的簇内数据点之间的平均距离为avg(C)，簇C_i与簇C_j中心点间的距离为d_cen(C_i,C_j)，则Davies-Bouldin指数的计算过程如下：

dist(x_i,x_j)＝||x_i-x_j||₂

轮廓系数越大越好，Davies-Bouldin指数越小越好，比较两个指标值得到最优算法以及最优类别数，以及当前研究路段的模式识别结果。

进一步的，步骤七，利用不同的分类学习器对已经带有标签的研究路段进行学习，包括SVM、KNN、RandomForest以及NaiveBayse分类学习器，获得最优分类器，具体方法为：

步骤7-1，将带标签列的模式识别结果作为输入分别传入SVM、KNN、RandomForest以及NaiveBayse分类学习器；

步骤7-2，计算出不同分类学习器的学习指标，包括准确度、宏观精确率、宏观召回率以及宏观F1分数，计算公式如下所示：

其中i∈K，表示所有可能的类别，K为总类别数，TP_i表示第i类的真正例，TN_i表示第i类的真反例，FP_i表示第i类的假正例，FN_i表示第i类的假反例；

步骤7-3，比较不同分类器的学习指标，四个学习指标均为指标值越大，则学习效果越佳，然后获得最优分类器。

一种基于车牌识别数据的路段交通流模式识别系统，基于所述的基于车牌识别数据的路段交通流模式识别方法，实现基于车牌识别数据的路段交通流模式识别。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于车牌识别数据的路段交通流模式识别方法，实现基于车牌识别数据的路段交通流模式识别。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于车牌识别数据的路段交通流模式识别方法，实现基于车牌识别数据的路段交通流模式识别。

本发明与现有技术相比，其显著优点在于：1)从路段不同属性的流量中提取多个特征，能够反应路段交通流的真实特点；2)将已经完成模式识别的基础研究路段作为输入，传入不同的学习器进行训练并且比较，可以得到效果最好的学习器用于快速完成新增路段的交通流模式识别；3)通过交通流模式识别结果能够找出明显地释放或者吸引车辆的路段，这对于整体路网的交通控制都是非常有用的。

附图说明

图1为本发明基于车牌识别数据的路段交通流模式识别方法流程图。

图2为路段三类流量示例图，其中(a)为实时流量，(b)中为驶入场所以及驶出场所的车流量。

图3为基于区域流量序列的时段划分图。

图4为时段划分调整结果图。

图5为主成分分析法的分析结果图，(a)为Scree Plot,(b)为方差总贡献率。

图6为不同的聚类算法评价指标结果图。

图7为不同的分类器学习指标结果图。

具体实施方式

下面结合附图以及附表和实施案例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明基于车牌识别数据的路段交通流模式识别方法，以原始的车牌识别数据为基础，通过一系列算法以及无监督和有监督学习方法，完成对城市路段交通流的模式识别。

结合图1，一种基于车牌识别数据的路段交通流模式识别方法，从路段不同属性的流量中提取多个特征来反应路段交通流的特点，将已经完成模式识别的基础研究路段作为输入，传入不同的学习器进行训练并且比较，效果最好的学习器用于快速完成新增路段的交通流模式识别。以某城市的核心区作为具体案例分析，实施步骤包括：

步骤一，将城市内检测器所在的部分路网划定为选择区域，并且以区域N天的历史车牌识别数据作为后续步骤的数据基础，N建议至少取15，即至少应该有15天的历史车牌识别数据。该案例中N取30，即一个月的历史车牌识别数据。接着确定区域内两端交叉口数据均完整的路段，将其作为基础研究路段.

步骤二，由历史车牌识别数据统计出每辆车的出行链，根据实时车流量以及驶入场所和驶出场所的车流量的定义计算路段三部分流量以及区域流量。路段三部分流量用来提取特征，区域流量用来划分城市车辆出行高峰时段。

所述的路段三流量分别为实时流量，驶入场所的车流量，以及驶出场所的车流量，如图2所示。下面定义了这三种流量。

实时交通流量：表示在规定的时间单位内行驶在路段上的车辆数。使用半小时作为时间单位，每天有48个值。

驶入场所的车流量：表示每半小时进入道路并在道路所在场所内停留1小时以上的车辆数量。每天有48个值。

驶出场所的车流量：表示每半小时离开该路段的车辆数。通过统计当前半小时内离开路段且离开前在路段场所内停留1小时以上的车辆数量得到。每天有48个值。

步骤三，基于提出的时段划分算法，将区域流量序列作为输入，将全天划分为不同时段。

所述的区域流量序列步长为五分钟，所描述的是区域在每个步长下有多少车辆出行。算法具体步骤如表1所示，划分结果如图3所示，且根据实际将划分结果调整为图4。

算法具体步骤如下：

步骤3-1：以待划分的区域流量数据为输入，自定义时段划分最大时间间隔I_max，I_max建议取八个小时，即划分所得到的单个时间段最多跨越八个小时。

步骤3-2：利用Fisher最优分割算法对流量数据进行有序聚类，得到初始插针点集合π₀。

步骤3-3：依次遍历初始插针点集合，当π₀(i+1)-π₀(i)≥I_max(其中i表示π₀中的第i个插针点),则取时间点处于[π₀(i+1),π₀(i)]之间的流量数据再次进行Fisher最优分割。遍历完后得到二次划分插针点集合π₁,合并π₁与π₀，得到最优分割最终插针点集合π。

步骤3-4：利用K-means聚类对区域流量数据进行一维聚类，为每个流量数据点赋值类标签，π中每两个相邻点π(i),π(i+1)可组成一个时段P(i),i＝0,1,2,...,定义各时段的状态标签S(i)为时段内所有流量数据点类标签的众数，得到各时段的状态标签集合S。

步骤3-5：遍历各时段的状态标签集合S，如果S(i)＝S(i+1)，则合并时段P(i)和 P(i+1)，即π中删去插针点π(i+1)，得到最终时段划分结果划分结果包含高峰时段具体是什么时间(例如上午7:00-8:00)，同时，将全天除开高峰期的所有其它时间归为非高峰。划分结果可视化出来后即可观察出高峰期与非高峰期。

步骤四，在得到时段划分结果后，需要进行特征的计算。该步骤需要说明的是，城市车辆出行一般至少有早高峰和晚高峰两大高峰期，但是不同城市的情况不一样，可能还存在午高峰和下午高峰，即划分结果中得到了四个高峰时段，本发明在此全面考虑了四个高峰均存在的情况，针对四个高峰期以及全天均定义了特征，其中，特征 F₁,F₂,是针对全天而定义的，特征S₁,针对早高峰设定，针对午高峰设定，针对下午高峰设定，S₂,定针对晚高峰设定。若城市车辆出行不存在四个高峰期，例如只含有早高峰和晚高峰，则只需要计算与相应高峰期有关的特征，即S₁,和S₂,但是需要注意，特征F₁,F₂,这部分特征和城市高峰时间段是无关的，意思也就是这部分特征是必需的，然后再将所涉及的特征构成的特征数据集作为下一步的输入，步骤四后续的方法在任何城市中执行都是一样的。图三的可视化结果中，我们看到该案例中一共存在四个高峰期，故在该案例中十五个特征均需要考虑。由于步骤二中已分析出了路段的三部分流量，且通过步骤三的划分结果得知了城市车辆出行的高峰时段和非高峰时段，研究的天数N在步骤一中已经声明，特征计算的公式中已经特征可直接按照定义计算得知。各个特征的定义如下。

流量均值：

车流量往往是最直观的交通参数之一。因此，将路段交通流的第一个描述性特征定义为流量均值F₁。计算公式为：

其中N为天数，M_i代表第i天下路段的路段流量均值。

高峰流量平稳度：

路网中的路段大多数均会有早晚高峰现象，引入高峰平稳度来描述路段非高峰与早、晚高峰在车流量上的相似性。假设早高峰流量平稳度为S₁，晚高峰流量平稳度为S₂。计算公式为：

其中O_i为第i天非高峰期间的流量均值，P_ij为第i天早(晚)高峰的流量峰值。

非高峰流量均值平稳度：

考虑到城市中可能不止早晚高峰，例如午高峰。引入非高峰流量均值F₂平稳度来描述非高峰期的流量在一天内的表现。计算公式为：

其中W为一天内的流量峰值。

午高峰频率系数：

用午高峰频率系数来描述路段在中午流量出现高峰这一现象，其中V₁，V₂，V₃分别代表实时车流量、驶入场所的车流量、驶出场所的车流量。计算公式为：

其中代表流量V_j(j＝1,2,3)序列存在午高峰的天数。

驶入/驶出车流量-早高峰频率系数：

为了了解早高峰期间内路段是否经常吸引车辆或者释放车辆，引入驶入场所和驶出场所的流量早高峰频率系数计算公式为：

其中代表流量V_j(j＝2,3)序列存在早高峰的天数。

驶入/驶出车流量-下午高峰频率系数：

由于城市出行者中午回家休息的原因，在下午某一时间段路段同样会迎来一次下午高峰现象，故引入下午高峰频率系数计算公式为：

其中代表流量V_j(j＝2,3)序列存在下午高峰的天数。

驶入/驶出车流量-晚高峰频率系数：

由于城市出行者基本集中在同一时间段下班，从路段的场所内会涌现出许多车辆驶入或者驶出路段造成高峰现象。故引入晚高峰高峰频率系数计算公式为：

其中代表流量V_j(j＝2,3)序列存在晚高峰的天数。

驶入/驶出场所的车流量峰值均值：

前面已经提到了驶入场所的车流量和驶出场所的车流量的高峰频率系数特征，考虑到还没有具体的量值来衡量驶入场所和驶出场所的车流量对路段影响的具体大小，故引入车流量峰值均值计算公式为：

其中代表流量V_j(j＝2,3)序列在第i天的峰值。

到此，获得特征数据集T，其行内容为所选择的每一条路段，列内容包含上述构建的每一个特征，即包括F₁在内的十五个特征。

步骤五，利用主成分分析法对特征数据集T降维后得到新的数据集X；这里，需要事先确定好降维后的维数。

主成分分析法是一种尽可能保持高维数据信息同时简化其复杂性的方法，其通过正交变换将数据集中众多具有相关性的特征转换成新的一组新的线性无关的综合因子，在保留原始数据绝大多数信息量的前提下生成解释力更强的因子。其具体步骤包括：

步骤5-1，特征数据集行为路段数，列为特征数，对特征数据集进行标准化处理，得到标准化矩阵。

步骤5-2，根据标准化数据矩阵建立协方差矩阵R，根据协方差矩阵R求出特征值、主成分贡献率和累计方差贡献率，根据Scree plot(陡坡图)和Total Variance explainedcriteria(总方差贡献率准则)确定主成分个数。

具体地，陡坡图提供了因子数目和特征值大小的图形表示，依靠凯瑟准则，用于直观的判断主成分个数，凯瑟准则即视特征值大于1的特征值个数作为主成分个数(降维后的维数)。总方差贡献率准则即累计方差贡献率，一般降维后的主成分累计贡献率至少达80％。

具体案例中。在保留了原始信息量83.4％的前提下，将15个特征降维成了 7个综合因子。陡坡图以及方差总贡献率图如图5所示。

步骤六，对降维后的数据集分别传入不同的聚类算法，包括K均值(K-means)、高斯混合模型(GMM)以及自组织映射神经网络(SOM)三类算法，利用轮廓系数(SC) 和Davies-Bouldin指数(DBI)评判出最优算法以及最优模式类别数。

轮廓系数(SC)以及Davies-Bouldin指数(DBI)计算如下。每一个聚类算法得到的结果均需要计算轮廓系数，然后将各个算法得到的轮廓系数进行比较。针对某一个聚类算法得到的聚类结果(即簇集合)，假设得到的簇集合为C＝{C_s,s＝1,2,…,k}。对簇集合里所有的数据点的轮廓系数求平均即为该聚类算法对应的轮廓系数。针对某簇内某一个数据点P_i(即某一条路段在降维后的数据集X中对应的特征向量)，数据点P_i的轮廓指数的计算公式如下：

其中，SC(i)定义为数据点Pi的轮廓系数。b(i)定义为数据点Pi的簇间不相似度，即该数据点到所有其他簇的所有数据点的平均距离中最小的那一个，体现分离度。对于b(i)，通过计算数据点P_i到其他某簇C_j所包含的所有数据点的平均距离b_ij可得知，b_ij称为数据点P_i与簇C_j的不相似度，即可得到b(i)＝min{b_i1,b_i2,…,b_ik}。a(i)定义为数据点Pi的簇内不相似度，体现凝聚度，通过计算数据点P_i与同簇内其他数据点的平均距离可得知。

簇集合为C＝{C_s,s＝1,2,…,k}，定义单个簇的簇内数据点之间的平均距离为avg(C)；簇C_i与簇C_j中心点间的距离为d_cen(C_i,C_j)。Davies-Bouldin指数(DBI)的计算过程如下所示。

dist(x_i,x_j)＝||x_i-x_j||₂

具体分析步骤包括：

步骤6-1，将步骤五降维后得到的数据集X作为输入分别传入K-means、GMM、SOM 三类算法。

步骤6-2，计算出不同算法在不同类别数下的聚类指标值，聚类指标包括轮廓系数(SC)以及Davies-Bouldin指数(DBI)，轮廓系数越大越好，Davies-Bouldin指数越小越好，比较两个指标值得到最优算法以及最优类别数，得到最优分类数以及当前研究路段的模式识别结果。模式识别结果行为路段名，列一共十六列，前十五列为特征，第十六列为路段的标签(标签指代路段所属的模式)

具体案例分析中，不同的聚类算法评价指标结果图如图6所示。最终K-means被选为最优算法，一共得到了九类交通流模式，结果如表1所示。表1中行名C₁-C₉代表了九类，列中的前十五列为特征值，最后一列N代表每一类的路段数量。九类交通流模式识别结果中可以看到，C₁，C₃，C₇，C₈四类在特征和数值上明显大于剩下的五类，表明了C₁，C₃，C₇，C₈这四类所包含的路段受路段内场所的影响较大，且以C₁，C₃包含的路段最为显著，同时，根据高峰频率等一系列特征值可得知场所影响路段的具体时间段等特性以及根据F₁等特征可得知路段的交通流在全天内的特点。

表1为具体案例实施中得到的九类交通流模式

步骤七，利用不同的分类学习器对已经带有标签的研究路段进行学习，包括SVM、KNN、RandomForest(RF)以及NaiveBayse分类学习器，获得最优分类器。

步骤7-1，将步骤6-2得到的最优分类结果(即带标签列的模式识别结果)作为输入分别传入SVM、KNN、RandomForest(RF)以及NaiveBayse分类学习器。

步骤7-2，计算出不同分类学习器的学习指标结果，学习指标包括准确度(Accuracy)、宏观精确率(Macro-precision)、宏观召回率(Macro-recall)以及宏观F1分数(Macro-F1-Score)。计算公式如下所示。

其中i∈K，表示所有可能的类别，K为总类别数，TP_i表示第i类的真正例，TN_i表示第i类的真反例，FP_i表示第i类的假正例，FN_i表示第i类的假反例。

步骤7-3，比较不同分类器的学习指标，四个学习指标均为指标值越大，则学习效果越佳，然后获得最优分类器。除开已经获得识别结果的路段，若有需要识别的新增路段，先计算出新增路段的实时车流量、驶入场所的车流量以及驶出场所的车流量，接着按照步骤四计算出新增的路段的十五个特征值，将十五个特征值构成的特征向量作为分类器的输入，输出即可得到新增路段的模式识别结果，从而得知新增路段的交通流在全天的特点以及路段交通流受场所影响的大小以及场所影响具体的时间段。

具体案例分析中，不同的分类学习器学习能力结果如图7。由图7可知，该实例中，Bayes学习器的性能最佳，选为最终的分类器。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于车牌识别数据的路段交通流模式识别方法，其特征在于，步骤如下：

步骤四，基于划分的时间段对路段三部分流量进行特征计算，包括流量均值、高峰流量平稳度、非高峰流量均值平稳度、午高峰频率系数、早高峰频率系数、下午高峰频率系数、晚高峰频率系数和车流量峰值均值，构建特征数据集；

步骤五，利用主成分分析法对特征数据集进行降维；

步骤六，将降维后的数据集分别传入不同的聚类算法，利用轮廓系数和Davies-Bouldin指数评判出最优算法、最优模式类别数，以及基础研究路段的模式识别结果；

2.根据权利要求1所述的基于车牌识别数据的路段交通流模式识别方法，其特征在于，所述路段三部分流量，具体定义如下：

3.根据权利要求1所述的基于车牌识别数据的路段交通流模式识别方法，其特征在于，步骤三，将区域流量序列作为输入，将全天划分为不同时段，其中区域流量序列描述的是区域在每个步长下的出行车辆数，具体划分方法为：

步骤3-5：遍历各时段的状态标签集合S，如果S(i)＝S(i+1)，则合并时段P(i)和P(i+1)，即π中删去插针点π(i+1)，得到最终时段划分结果

进而确定早、午、下午、晚高峰和非高峰时段。

4.根据权利要求1所述的基于车牌识别数据的路段交通流模式识别方法，其特征在于，步骤四，基于划分的时间段对路段三部分流量进行特征计算，具体方法为：

流量均值：

其中N为天数，M_i代表第i天下路段的路段流量均值；

高峰流量平稳度：

非高峰流量均值平稳度：

引入非高峰流量均值平稳度F₂来描述非高峰期的流量在一天内的表现，计算公式为：

其中W为一天内的流量峰值；

午高峰频率系数：

用午高峰频率系数

来描述路段在中午流量出现高峰这一现象，假设V₁、V₂、V₃分别代表实时车流量、驶入场所的车流量、驶出场所的车流量，计算公式为：

其中

代表流量V_j,j＝1,2,3序列存在午高峰的天数；

早高峰频率系数：

同理，引入早高峰频率系数

来描述路段在早上驶入场所以及驶出场所的车流量出现高峰这一现象，计算公式为：

其中

代表流量V_j,j＝2,3序列存在早高峰的天数；

下午高峰频率系数：

引入下午高峰频率系数

来描述路段在下午驶入场所以及驶出场所的车流量出现高峰这一现象，计算公式为：

其中

代表流量V_j,j＝2,3序列存在下午高峰的天数；

晚高峰频率系数：

引入晚高峰频率系数

来描述路段在下班时段流量出现高峰这一现象，计算公式为：

其中

代表流量V_j,j＝2,3序列存在晚高峰的天数；

车流量峰值均值：

引入车流量峰值均值

衡量驶入场所的车流量和驶出场所的车流量对路段影响的具体大小，计算公式为：

其中

代表流量V_j,j＝2,3序列在第i天的峰值；

由于特征S₁,

针对早高峰设定，

针对午高峰设定，

针对下午高峰设定，S₂,

定针对晚高峰设定，若城市车辆出行不存在四个高峰期，则只需要计算与相应高峰期有关的特征，特征F₁,F₂,

这部分特征和城市高峰时间段是无关的，这部分特征是必需的，到此，获得特征数据集T，其行内容为所选择的每一条路段，列内容包含上述构建的特征。

5.根据权利要求1所述的基于车牌识别数据的路段交通流模式识别方法，其特征在于，步骤五，利用主成分分析法对特征数据集T降维后得到新的数据集X，具体方法为：

6.根据权利要求1所述的基于车牌识别数据的路段交通流模式识别方法，其特征在于，步骤六，将降维后的数据集分别传入不同的聚类算法，包括K均值、高斯混合模型以及自组织映射神经网络三类算法，利用轮廓系数和Davies-Bouldin指数评判出最优算法以及最优模式类别数，其中轮廓系数和Davies-Bouldin指数具体计算方法为：

其中，SC(i)为数据点P_i的轮廓系数；b(i)＝min{b_i1,b_i2,…,b_ik}为数据点P_i的簇间不相似度即分离度，b_ij为数据点P_i与簇C_j所有数据点的平均距离；a(i)为数据点P_i的簇内不相似度，通过计算数据点P_i与同簇内其他数据点的平均距离得到；

针对簇集合C＝{C_s,s＝1,2,...,k}，定义单个簇的簇内数据点x_i,x_j之间的平均距离为avg(C)，簇C_i与簇C_j中心点间的距离为d_cen(C_i,C_j)，则Davies-Bouldin指数的计算过程如下：

dist(x_i,x_j)＝||x_i-x_j||₂

7.根据权利要求1所述的基于车牌识别数据的路段交通流模式识别方法，其特征在于，步骤七，利用不同的分类学习器对已经带有标签的研究路段进行学习，包括SVM、KNN、RandomForest以及NaiveBayse分类学习器，获得最优分类器，具体方法为：

步骤7-2，计算出不同分类学习器的学习指标，包括准确度Accuracy、宏观精确率Macro-precision、宏观召回率Macro-recall以及宏观F1分数Macro-F1，计算公式如下所示：

8.一种基于车牌识别数据的路段交通流模式识别系统，其特征在于，基于权利要求1-7任一项所述的基于车牌识别数据的路段交通流模式识别方法，实现基于车牌识别数据的路段交通流模式识别。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于权利要求1-7任一项所述的基于车牌识别数据的路段交通流模式识别方法，实现基于车牌识别数据的路段交通流模式识别。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于权利要求1-7任一项所述的基于车牌识别数据的路段交通流模式识别方法，实现基于车牌识别数据的路段交通流模式识别。