CN110362557A

CN110362557A - 一种基于机器学习和车牌识别数据的缺失路径修复方法

Info

Publication number: CN110362557A
Application number: CN201910448107.5A
Authority: CN
Inventors: 魏鑫; 徐建闽; 林永杰; 首艳芳; 卢凯
Original assignee: GUANGZHOU YUNXING TECHNOLOGY Co Ltd; South China University of Technology SCUT; Guangzhou Institute of Modern Industrial Technology
Current assignee: GUANGZHOU YUNXING TECHNOLOGY Co Ltd; South China University of Technology SCUT; Guangzhou Institute of Modern Industrial Technology
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-10-22
Anticipated expiration: 2039-05-27
Also published as: CN110362557B

Abstract

本发明提供了一种基于机器学习和车牌识别数据的缺失路径修复方法，通过对获取的车牌识别数据寻找可能的噪声源，对其进行筛选清洗，提取车辆的出行轨迹，然后对出行轨迹针对行程时间的异常值进行进一步处理，以保证出行轨迹数据的有效性和合理性；并提取出行轨迹数据中的有效特征以训练有效的机器学习模型，针对大规模点位及车牌识别数据的缺失路径，估计出车辆经过每个路口的信息从而形成完整出行链。本发明方法以城市视频车牌识别数据的基本数据项为基础，解决了由于车牌识别数据存在漏拍、错拍等点位缺失现象，导致基于其提取的机动车出行轨迹存在路径缺失的问题。

Description

一种基于机器学习和车牌识别数据的缺失路径修复方法

技术领域

本发明涉及智能交通技术领域，更具体地，涉及一种基于机器学习和车牌识别数据的缺失路径修复方法。

背景技术

随着智能交通领域行业的发展势头及大数据存储与数据挖掘技术的兴起，基于人工智能机器学习、深度学习等技术的快速发展，基于交通基础数据，如自动车牌识别数据(Automatic Number Plate Recognition,ANPR)、全球定位系统数据(Global PositioningSystem,GPS)数据、线圈数据、手机信令等数据采集技术的升级，可以获取越来越多有效的出行轨迹相关信息，为对交通出行轨迹进行数据的提取打下基础，通过获得的准确的出行轨迹信息，能够反推交通出行起讫点(Origin Destination,OD)信息及职住比信息，为交通政策制定、交通规划与设计、交通控制与管理、交通信息发布等决策提供可靠的信息支持。

其中由于自动车牌识别数据具有连续性强、数据精度高、检测样本量大等优点，目前更多地通过自动车牌识别数据来获取出行轨迹。但由于检测设备故障、拍摄角度不对、车速过快、车流量过大等原因，城市视频设备的检测率存在一定的精度问题，在实际生成的源数据中存在漏拍、错拍等点位缺失问题，导致提取的机动车出行轨迹往往不能真实地匹配其实际的出行轨迹，存在路径缺失的现象。

发明内容

本发明为解决由于车牌识别数据存在漏拍、错拍等点位缺失现象，导致基于其提取的机动车出行轨迹存在路径缺失的问题，提供了一种基于机器学习和车牌识别数据的缺失路径修复方法。

为实现以上发明目的，而采用的技术手段是：

一种基于机器学习和车牌识别数据的缺失路径修复方法，包括以下步骤：

S1.获取车牌识别数据，对所述车牌识别数据中的无效数据和冗余数据进行清洗，获取出行链数据集；

S2.基于所述出行链数据集和车牌识别数据，计算各路段的行程时间，对所述行程时间的异常值进行处理后，构建重构出行链数据集；

S3.对所述重构出行链数据集进行特征提取，然后输入基于机器学习的重构出行链模型进行训练；

S4.使用训练完毕的重构出行链模型对缺失的出行链数据集进行修复，得到补全的出行链数据。

上述方案中，通过对获取的车牌识别数据寻找可能的噪声源，对其进行筛选清洗，提取车辆的出行轨迹，然后对出行轨迹针对行程时间的异常值进行进一步处理，以保证出行轨迹数据的有效性和合理性；并提取出行轨迹数据中的有效特征以训练有效的机器学习模型，针对大规模点位及车牌识别数据的缺失路径，估计出车辆经过每个路口的信息从而形成完整出行链。

优选的，步骤S1中所述的车牌识别数据包括的属性有：车牌号VehicleID、车道编号LaneID、交叉口进口方向Direction、检测时间RecordTime、交叉口编号NodeID。

优选的，步骤S1中所述的对所述车牌识别数据中的无效数据和冗余数据进行清洗具体包括以下步骤：

S1.1.剔除车牌识别数据中的无效数据；

其中无效数据包括表示车辆车牌为套牌的无车牌数据项、表示车辆无车牌的无牌数据项、车辆车牌未被识别的未识别车牌数据项；以及车牌日检测次数N小于λ的数据项；其中将一日的车牌识别数据根据车牌号VehicleID属性进行分组，统计各分组的频数即为车牌日检测次数N；其中N、λ均为正整数；

S1.2.剔除车牌识别数据中的冗余数据；

其中冗余数据包括车牌在同一交叉口的检测时间间隔tt_ab小于预设阈值μ_detect的数据项；其中车牌在同一交叉口的检测时间间隔tt_ab定义为tt_ab＝t_a-t_b，其中t_a,t_b分别表示车牌经过交叉口Node_a,Node_b的时刻、且Node_a和Node_b对应相同的交叉口。

优选的，步骤S1中所述的获取出行链数据集的具体过程为：

S1.3.对清洗后的车牌识别数据按车牌号VehicleID进行分组，然后按检测时间RecordTime进行升序排序，得到group＝{group₁,...,group_i,...,group_k}；定义I,D,L,T,G∈group,i＝1,...,k，其中k为城市路网的总车辆数，I为进行分组和排序后属性VehicleID对应的数据，L为进行分组和排序后属性LaneID对应的数据，D为进行分组和排序后属性Direction对应的顺序数据，T为进行分组和排序后属性RecordTime对应的数据，G为进行分组和排序后属性NodeID对应的数据，I_i,D_i,L_i,T_i,G_i∈group_i；

定义每辆车辆的出行链数据集为G_i＝(Node_i1→…→Node_im→…→Node_iN)；

其中Node_im为车牌I_i的检测设备对应的交叉口，N为车牌日检测次数。

优选的，所述步骤S2具体包括以下步骤：

S2.1.建立道路路网拓扑邻接表，将所述出行链数据集中的相邻交叉口与所述道路路网拓扑邻接表进行匹配判断，若判断结果为匹配，则保留所述出行链数据集中相邻交叉口对应的数据项；若判断结果为不匹配，则得到对应车辆缺失的出行链，即ch_i＝{G_i1,...,G_ij,...,G_ip}，ch_i为车牌I_i对应车辆缺失的出行链；匹配判断结束后得到所有车辆缺失的出行链数据集CH_h；

S2.2.遍历车辆缺失的出行链数据集CH_h中的各个数据项，即遍历对应车辆ch_i中G_ij的各个数据项，计算相邻交叉口间的行程时间，采用统计时窗过滤算法过滤异常的相邻交叉口间的行程时间；

S2.3.步骤S2.2遍历结束后得到重构出行链数据集。

优选的，所述步骤S2.2具体包括以下步骤：

S2.2.1.遍历车辆缺失的出行链数据集CH_h中的各个数据项，即遍历对应车辆ch_i中G_ij的各个数据项，计算其中相邻交叉口Node_a,Node_b之间的行程时间t_ab，组成行程时间样本；对所有行程时间样本依次以均值、标准差、中位值和平均绝对偏差为条件进行噪声滤波，直至行程时间样本不再发生变化，得到过滤后的行程时间样本；其中t_ab＝t_b-t_a，t_a,t_b分别表示车牌经过交叉口Node_a,Node_b的时刻；

S2.2.2.基于所述过滤后的行程时间样本，设定统计时窗t_w，将一天以T分钟为时间间隔进行分窗，共划分为1440/T个统计时窗，其中T为正整数；取当前统计时窗t_w行程时间样本的平均值作为此统计时窗路段对应在该统计时窗t_w下的路段行程时间估计值并用memory数组记录不同路段的不同统计时窗t_w对应的上阈值t_u、下阈值t_l，及其行程时间估计值遍历车辆缺失的出行链数据集CH_h中的各个数据项，即遍历对应ch_i中G_ij的各个数据项，计算其中相邻交叉口Node_a,Node_b之间的行程时间t_ab，判断是否满足t_l＜t_ab＜t_u，若是则将其对应在车牌识别数据中的交叉口存入重构出行链数据集；否则，将出行链子链G_ij在交叉口Node_a,Node_b之间分离成两条链，得到的可用于路径重构的数据集为Traj＝{Traj₁,...,Traj_i,...,Traj_m}，其中Traj_i＝{Tr_i1,...,Tr_ij,...,Tr_ih}，其中Traj_i为出行链分离完毕后的子链集合，ih/ip＞＞α(α＞1)。

优选的，步骤S3中所述的对所述重构出行链数据集进行特征提取具体包括：

a.根据所述重构出行链数据集的起点时间戳、终点时间戳提取缺失出行链的行程时间od_tt；

b.根据所述重构出行链数据集与车牌识别数据集提取进入缺失出行链起点O点的前一目标交叉口b_port；

c.根据所述重构出行链数据集与车牌识别数据集提取缺失出行链终点D点的下一目标交叉口a_port；

d.根据所述重构出行链数据集与车牌识别数据集提取经过缺失出行链起点O点的时间戳所属时间窗o_tw、经过b_port点的时间戳所属时间窗b_tw、经过a_port点的时间戳所属时间窗a_tw；

e.根据车牌识别数据集提取经过缺失出行链终点D点的进口方向d_dir、是否工作日is_week；

f.根据步骤a～e完成特征提取后得到用于模型训练的重构出行链数据集。

优选的，步骤S3中所述输入重构出行链模型进行训练的具体步骤包括：

采用梯度提升决策树模型对所述用于模型训练的重构出行链数据集进行训练：

对所述模型训练的重构出行链数据集进行数据的预处理，将所述用于模型训练的重构出行链数据集按照缺失出行链的OD点对进行分组，并将各OD点对分组后的对应重构出行链数据集切分出来，单独训练各个OD点对的梯度提升决策树模型；并通过网格参数搜索法确定对应梯度提升决策树模型的最优参数，从而得到训练完毕的城市路网各个OD点对的重构出行链模型。

优选的，对所述模型训练的重构出行链数据集进行数据的预处理具体包括：

将离散型的特征所对应的重构出行链数据集采用one-hot方法进行处理；将连续型的特征所对应的重构出行链数据集采用数据标准化方法进行处理。

与现有技术相比，本发明技术方案的有益效果是：

本发明结合了自动车牌识别数据与机器学习技术的优势，对采集的基础源数据进行可视化，从而寻找可能的噪声源并对数据进行清洗工作，为出行链的重构奠定基础。

同时提取出行链数据中的有效特征以训练有效的机器学习模型，针对大规模点位及车牌识别数据的缺失路径，估计出车辆经过每个路口的信息形成完整出行链；通过优化机器学习模型的参数，提高出行轨迹还原的准确率。本发明方法以城市视频车牌识别数据的基本数据项为基础，解决了由于车牌识别数据存在漏拍、错拍等点位缺失现象，导致基于其提取的机动车出行轨迹存在路径缺失的问题。

附图说明

图1为本发明方法的总流程图。

图2为实施例中步骤S1和步骤S2的流程图。

图3为实施例中步骤S3中重构出行链数据集的特征提取流程图。

图4为实施例中步骤S3中重构出行链模型训练的流程图

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于机器学习和车牌识别数据的缺失路径修复方法，如图1所示，包括以下步骤：

S1.获取车牌识别数据，对所述车牌识别数据中的无效数据和冗余数据进行清洗，获取出行链数据集；其中车牌识别数据包括的属性有：车牌号VehicleID、车道编号LaneID、交叉口进口方向Direction、检测时间RecordTime、交叉口编号NodeID；其中无效数据和冗余数据的具体情况如表1所示；

表1

如图2所示，具体包括以下步骤：

S1.1.剔除车牌识别数据中的无效数据；

其中无效数据包括表示车辆车牌为套牌的无车牌数据项、表示车辆无车牌的无牌数据项、车辆车牌未被识别的未识别车牌数据项，这几个数据项均是由城市视频卡口检测设备通过图像光学字符识别技术识别后得到的结果，并存于原始的车牌识别数据集中的数据项；以及车牌日检测次数N小于λ的数据项；其中将一日的车牌识别数据根据车牌号VehicleID属性进行分组，统计各分组的频数即为车牌日检测次数N；其中N、λ均为正整数；λ根据具体的城市路网进行设定，在本实施例中λ≥3；

S1.2.剔除车牌识别数据中的冗余数据；

其中冗余数据包括车牌在同一交叉口的检测时间间隔tt_ab小于预设阈值μ_detect的数据项；其中车牌在同一交叉口的检测时间间隔tt_ab定义为tt_ab＝t_a-t_b，其中t_a,t_b分别表示车牌经过交叉口Node_a,Node_b的时刻、且Node_a和Node_b对应相同的交叉口；

具体包括以下步骤：

S2.2.2.基于所述过滤后的行程时间样本，设定统计时窗t_w，将一天以15分钟为时间间隔进行分窗，共划分为96个统计时窗；取当前统计时窗t_w行程时间样本的平均值作为此统计时窗路段对应在该统计时窗t_w下的路段行程时间估计值并用memory数组记录不同路段的不同统计时窗t_w对应的上阈值t_u、下阈值t_l，及其行程时间估计值遍历车辆缺失的出行链数据集CH_h中的各个数据项，即遍历对应ch_i中G_ij的各个数据项，计算其中相邻交叉口Node_a,Node_b之间的行程时间t_ab，判断是否满足t_l＜t_ab＜t_u，若是则将其对应在车牌识别数据中的交叉口存入重构出行链数据集；否则，将出行链子链G_ij在交叉口Node_a,Node_b之间分离成两条链，得到的可用于路径重构的数据集为Traj＝{Traj₁,...,Traj_i,...,Traj_m}，其中Traj_i＝{Tr_i1,...,Tr_ij,...,Tr_ih}，其中Traj_i为出行链分离完毕后的子链集合，ih/ip＞＞α(α＞1)；

S2.3.步骤S2.2遍历结束后得到重构出行链数据集；

如图3所示，其中对所述重构出行链数据集进行特征提取具体包括：

如图4所示，其中输入重构出行链模型进行训练的具体步骤包括：

对所述模型训练的重构出行链数据集进行数据的预处理，其中将离散型的特征所对应的重构出行链数据集采用one-hot方法进行处理；将连续型的特征所对应的重构出行链数据集采用数据标准化方法进行处理；

将所述用于模型训练的重构出行链数据集按照缺失出行链的OD点对进行分组，并将各OD点对分组后的对应重构出行链数据集切分出来，单独训练各个OD点对的梯度提升决策树模型；

对所述各个OD点对的重构出行链数据集分别使用梯度提升决策树算法进行对应重构出行链模型的训练，在本实施例中，将需要重构的某段时间的重构出行链数据集作为训练集，用于对这段时间或其之后一段时间缺失出行链数据集进行修复，测试集选用与训练集不同的日期的重构出行链数据集；

定义训练集为D＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，损失函数L(y,f(x))；

训练第k轮得到回归树其中β_k是第k轮回归树的参数，k＝1,2,...,K，K为树的个数，J为回归树的叶结点个数，R_kj为Θ输入空间互不相交的区域，γ_kj为输入常量，得到：

f_k(x)＝f_k-1(x)+T_k(x；β_k)

本实施例的具体训练步骤如下：

A.初始化

B.对k＝1,2,...,K：

B1.对i＝1,2,...,N，计算

B2.用回归树拟合g_k,i，得第k棵树的叶节点区R_kj,j＝1,2,…,J_k；

B3.对j＝1,2,...,J_k，计算

B4.更新f_k(x)＝f_k-1(x)+T_k(x；β_k)；

C.得到集成学习器：

D.由于梯度提升决策树模型训练过程中需要调整参数，采用网格搜索法进行参数寻优；

梯度提升决策树模型的评估性能采用了分类准确率作为评价指标，即：

E.选用与训练集不同的日期的重构出行链数据集，将其划分成多份日期不相交的部分作为测试集进行交叉验证，得到训练完毕的重构出行链模型；

S4.对缺失的出行链数据集CH_h中的ch_i＝{G_i1,...,G_ij,...,G_ip}，使用训练完毕的重构出行链模型进行修复，得到补全的出行链数据。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于机器学习和车牌识别数据的缺失路径修复方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的缺失路径修复方法，其特征在于，步骤S1中所述的车牌识别数据包括的属性有：车牌号VehicleID、车道编号LaneID、交叉口进口方向Direction、检测时间RecordTime、交叉口编号NodeID。

3.根据权利要求2所述的缺失路径修复方法，其特征在于，步骤S1中所述的对所述车牌识别数据中的无效数据和冗余数据进行清洗具体包括以下步骤：

S1.1.剔除车牌识别数据中的无效数据；

S1.2.剔除车牌识别数据中的冗余数据；

4.根据权利要求3所述的缺失路径修复方法，其特征在于，步骤S1中所述的获取出行链数据集的具体过程为：

S1.3.对清洗后的车牌识别数据按车牌号VehicleID进行分组，然后按检测时间RecordTime进行升序排序，得到group＝{group₁,…,group_i,…,group_k}；定义I,D,L,T,G∈group,i＝1,...,k，其中k为城市路网的总车辆数，I为进行分组和排序后属性VehicleID对应的数据，L为进行分组和排序后属性LaneID对应的数据，D为进行分组和排序后属性Direction对应的顺序数据，T为进行分组和排序后属性RecordTime对应的数据，G为进行分组和排序后属性NodeID对应的数据，I_i,D_i,L_i,T_i,G_i∈group_i；

5.根据权利要求2所述的缺失路径修复方法，其特征在于，所述步骤S2具体包括以下步骤：

S2.3.步骤S2.2遍历结束后得到重构出行链数据集。

6.根据权利要求5所述的缺失路径修复方法，其特征在于，所述步骤S2.2具体包括以下步骤：

S2.2.1.遍历车辆缺失的出行链数据集CH_h中的各个数据项，即遍历对应车辆ch_i中G_ij的各个数据项，计算其中相邻交叉口Node_a,Node_b之间的行程时间t_ab，组成行程时间样本；对所有行程时间样本依次以均值、标准差、中位值和平均绝对偏差为条件进行噪声滤波，直至行程时间样本不再发生变化，得到过滤后的行程时间样本；其中行程时间t_ab＝t_b-t_a，t_a,t_b分别表示车牌经过交叉口Node_a,Node_b的时刻；

7.根据权利要求6所述的缺失路径修复方法，其特征在于，步骤S3中所述的对所述重构出行链数据集进行特征提取具体包括：

8.根据权利要求1所述的缺失路径修复方法，其特征在于，步骤S3中所述输入重构出行链模型进行训练的具体步骤包括：

9.根据权利要求8所述的缺失路径修复方法，其特征在于，对所述模型训练的重构出行链数据集进行数据的预处理具体包括：