CN110362557A - 一种基于机器学习和车牌识别数据的缺失路径修复方法 - Google Patents

一种基于机器学习和车牌识别数据的缺失路径修复方法 Download PDF

Info

Publication number
CN110362557A
CN110362557A CN201910448107.5A CN201910448107A CN110362557A CN 110362557 A CN110362557 A CN 110362557A CN 201910448107 A CN201910448107 A CN 201910448107A CN 110362557 A CN110362557 A CN 110362557A
Authority
CN
China
Prior art keywords
license plate
data
trip chain
data set
reconstruct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910448107.5A
Other languages
English (en)
Other versions
CN110362557B (zh
Inventor
魏鑫
徐建闽
林永杰
首艳芳
卢凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU YUNXING TECHNOLOGY Co Ltd
South China University of Technology SCUT
Guangzhou Institute of Modern Industrial Technology
Original Assignee
GUANGZHOU YUNXING TECHNOLOGY Co Ltd
South China University of Technology SCUT
Guangzhou Institute of Modern Industrial Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU YUNXING TECHNOLOGY Co Ltd, South China University of Technology SCUT, Guangzhou Institute of Modern Industrial Technology filed Critical GUANGZHOU YUNXING TECHNOLOGY Co Ltd
Priority to CN201910448107.5A priority Critical patent/CN110362557B/zh
Publication of CN110362557A publication Critical patent/CN110362557A/zh
Application granted granted Critical
Publication of CN110362557B publication Critical patent/CN110362557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种基于机器学习和车牌识别数据的缺失路径修复方法,通过对获取的车牌识别数据寻找可能的噪声源,对其进行筛选清洗,提取车辆的出行轨迹,然后对出行轨迹针对行程时间的异常值进行进一步处理,以保证出行轨迹数据的有效性和合理性;并提取出行轨迹数据中的有效特征以训练有效的机器学习模型,针对大规模点位及车牌识别数据的缺失路径,估计出车辆经过每个路口的信息从而形成完整出行链。本发明方法以城市视频车牌识别数据的基本数据项为基础,解决了由于车牌识别数据存在漏拍、错拍等点位缺失现象,导致基于其提取的机动车出行轨迹存在路径缺失的问题。

Description

一种基于机器学习和车牌识别数据的缺失路径修复方法
技术领域
本发明涉及智能交通技术领域,更具体地,涉及一种基于机器学习和车牌识别数据的缺失路径修复方法。
背景技术
随着智能交通领域行业的发展势头及大数据存储与数据挖掘技术的兴起,基于人工智能机器学习、深度学习等技术的快速发展,基于交通基础数据,如自动车牌识别数据(Automatic Number Plate Recognition,ANPR)、全球定位系统数据(Global PositioningSystem,GPS)数据、线圈数据、手机信令等数据采集技术的升级,可以获取越来越多有效的出行轨迹相关信息,为对交通出行轨迹进行数据的提取打下基础,通过获得的准确的出行轨迹信息,能够反推交通出行起讫点(Origin Destination,OD)信息及职住比信息,为交通政策制定、交通规划与设计、交通控制与管理、交通信息发布等决策提供可靠的信息支持。
其中由于自动车牌识别数据具有连续性强、数据精度高、检测样本量大等优点,目前更多地通过自动车牌识别数据来获取出行轨迹。但由于检测设备故障、拍摄角度不对、车速过快、车流量过大等原因,城市视频设备的检测率存在一定的精度问题,在实际生成的源数据中存在漏拍、错拍等点位缺失问题,导致提取的机动车出行轨迹往往不能真实地匹配其实际的出行轨迹,存在路径缺失的现象。
发明内容
本发明为解决由于车牌识别数据存在漏拍、错拍等点位缺失现象,导致基于其提取的机动车出行轨迹存在路径缺失的问题,提供了一种基于机器学习和车牌识别数据的缺失路径修复方法。
为实现以上发明目的,而采用的技术手段是:
一种基于机器学习和车牌识别数据的缺失路径修复方法,包括以下步骤:
S1.获取车牌识别数据,对所述车牌识别数据中的无效数据和冗余数据进行清洗,获取出行链数据集;
S2.基于所述出行链数据集和车牌识别数据,计算各路段的行程时间,对所述行程时间的异常值进行处理后,构建重构出行链数据集;
S3.对所述重构出行链数据集进行特征提取,然后输入基于机器学习的重构出行链模型进行训练;
S4.使用训练完毕的重构出行链模型对缺失的出行链数据集进行修复,得到补全的出行链数据。
上述方案中,通过对获取的车牌识别数据寻找可能的噪声源,对其进行筛选清洗,提取车辆的出行轨迹,然后对出行轨迹针对行程时间的异常值进行进一步处理,以保证出行轨迹数据的有效性和合理性;并提取出行轨迹数据中的有效特征以训练有效的机器学习模型,针对大规模点位及车牌识别数据的缺失路径,估计出车辆经过每个路口的信息从而形成完整出行链。
优选的,步骤S1中所述的车牌识别数据包括的属性有:车牌号VehicleID、车道编号LaneID、交叉口进口方向Direction、检测时间RecordTime、交叉口编号NodeID。
优选的,步骤S1中所述的对所述车牌识别数据中的无效数据和冗余数据进行清洗具体包括以下步骤:
S1.1.剔除车牌识别数据中的无效数据;
其中无效数据包括表示车辆车牌为套牌的无车牌数据项、表示车辆无车牌的无牌数据项、车辆车牌未被识别的未识别车牌数据项;以及车牌日检测次数N小于λ的数据项;其中将一日的车牌识别数据根据车牌号VehicleID属性进行分组,统计各分组的频数即为车牌日检测次数N;其中N、λ均为正整数;
S1.2.剔除车牌识别数据中的冗余数据;
其中冗余数据包括车牌在同一交叉口的检测时间间隔ttab小于预设阈值μdetect的数据项;其中车牌在同一交叉口的检测时间间隔ttab定义为ttab=ta-tb,其中ta,tb分别表示车牌经过交叉口Nodea,Nodeb的时刻、且Nodea和Nodeb对应相同的交叉口。
优选的,步骤S1中所述的获取出行链数据集的具体过程为:
S1.3.对清洗后的车牌识别数据按车牌号VehicleID进行分组,然后按检测时间RecordTime进行升序排序,得到group={group1,...,groupi,...,groupk};定义I,D,L,T,G∈group,i=1,...,k,其中k为城市路网的总车辆数,I为进行分组和排序后属性VehicleID对应的数据,L为进行分组和排序后属性LaneID对应的数据,D为进行分组和排序后属性Direction对应的顺序数据,T为进行分组和排序后属性RecordTime对应的数据,G为进行分组和排序后属性NodeID对应的数据,Ii,Di,Li,Ti,Gi∈groupi
定义每辆车辆的出行链数据集为Gi=(Nodei1→…→Nodeim→…→NodeiN);
其中Nodeim为车牌Ii的检测设备对应的交叉口,N为车牌日检测次数。
优选的,所述步骤S2具体包括以下步骤:
S2.1.建立道路路网拓扑邻接表,将所述出行链数据集中的相邻交叉口与所述道路路网拓扑邻接表进行匹配判断,若判断结果为匹配,则保留所述出行链数据集中相邻交叉口对应的数据项;若判断结果为不匹配,则得到对应车辆缺失的出行链,即chi={Gi1,...,Gij,...,Gip},chi为车牌Ii对应车辆缺失的出行链;匹配判断结束后得到所有车辆缺失的出行链数据集CHh
S2.2.遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应车辆chi中Gij的各个数据项,计算相邻交叉口间的行程时间,采用统计时窗过滤算法过滤异常的相邻交叉口间的行程时间;
S2.3.步骤S2.2遍历结束后得到重构出行链数据集。
优选的,所述步骤S2.2具体包括以下步骤:
S2.2.1.遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应车辆chi中Gij的各个数据项,计算其中相邻交叉口Nodea,Nodeb之间的行程时间tab,组成行程时间样本;对所有行程时间样本依次以均值、标准差、中位值和平均绝对偏差为条件进行噪声滤波,直至行程时间样本不再发生变化,得到过滤后的行程时间样本;其中tab=tb-ta,ta,tb分别表示车牌经过交叉口Nodea,Nodeb的时刻;
S2.2.2.基于所述过滤后的行程时间样本,设定统计时窗tw,将一天以T分钟为时间间隔进行分窗,共划分为1440/T个统计时窗,其中T为正整数;取当前统计时窗tw行程时间样本的平均值作为此统计时窗路段对应在该统计时窗tw下的路段行程时间估计值并用memory数组记录不同路段的不同统计时窗tw对应的上阈值tu、下阈值tl,及其行程时间估计值遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应chi中Gij的各个数据项,计算其中相邻交叉口Nodea,Nodeb之间的行程时间tab,判断是否满足tl<tab<tu,若是则将其对应在车牌识别数据中的交叉口存入重构出行链数据集;否则,将出行链子链Gij在交叉口Nodea,Nodeb之间分离成两条链,得到的可用于路径重构的数据集为Traj={Traj1,...,Traji,...,Trajm},其中Traji={Tri1,...,Trij,...,Trih},其中Traji为出行链分离完毕后的子链集合,ih/ip>>α(α>1)。
优选的,步骤S3中所述的对所述重构出行链数据集进行特征提取具体包括:
a.根据所述重构出行链数据集的起点时间戳、终点时间戳提取缺失出行链的行程时间od_tt;
b.根据所述重构出行链数据集与车牌识别数据集提取进入缺失出行链起点O点的前一目标交叉口b_port;
c.根据所述重构出行链数据集与车牌识别数据集提取缺失出行链终点D点的下一目标交叉口a_port;
d.根据所述重构出行链数据集与车牌识别数据集提取经过缺失出行链起点O点的时间戳所属时间窗o_tw、经过b_port点的时间戳所属时间窗b_tw、经过a_port点的时间戳所属时间窗a_tw;
e.根据车牌识别数据集提取经过缺失出行链终点D点的进口方向d_dir、是否工作日is_week;
f.根据步骤a~e完成特征提取后得到用于模型训练的重构出行链数据集。
优选的,步骤S3中所述输入重构出行链模型进行训练的具体步骤包括:
采用梯度提升决策树模型对所述用于模型训练的重构出行链数据集进行训练:
对所述模型训练的重构出行链数据集进行数据的预处理,将所述用于模型训练的重构出行链数据集按照缺失出行链的OD点对进行分组,并将各OD点对分组后的对应重构出行链数据集切分出来,单独训练各个OD点对的梯度提升决策树模型;并通过网格参数搜索法确定对应梯度提升决策树模型的最优参数,从而得到训练完毕的城市路网各个OD点对的重构出行链模型。
优选的,对所述模型训练的重构出行链数据集进行数据的预处理具体包括:
将离散型的特征所对应的重构出行链数据集采用one-hot方法进行处理;将连续型的特征所对应的重构出行链数据集采用数据标准化方法进行处理。
与现有技术相比,本发明技术方案的有益效果是:
本发明结合了自动车牌识别数据与机器学习技术的优势,对采集的基础源数据进行可视化,从而寻找可能的噪声源并对数据进行清洗工作,为出行链的重构奠定基础。
同时提取出行链数据中的有效特征以训练有效的机器学习模型,针对大规模点位及车牌识别数据的缺失路径,估计出车辆经过每个路口的信息形成完整出行链;通过优化机器学习模型的参数,提高出行轨迹还原的准确率。本发明方法以城市视频车牌识别数据的基本数据项为基础,解决了由于车牌识别数据存在漏拍、错拍等点位缺失现象,导致基于其提取的机动车出行轨迹存在路径缺失的问题。
附图说明
图1为本发明方法的总流程图。
图2为实施例中步骤S1和步骤S2的流程图。
图3为实施例中步骤S3中重构出行链数据集的特征提取流程图。
图4为实施例中步骤S3中重构出行链模型训练的流程图
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于机器学习和车牌识别数据的缺失路径修复方法,如图1所示,包括以下步骤:
S1.获取车牌识别数据,对所述车牌识别数据中的无效数据和冗余数据进行清洗,获取出行链数据集;其中车牌识别数据包括的属性有:车牌号VehicleID、车道编号LaneID、交叉口进口方向Direction、检测时间RecordTime、交叉口编号NodeID;其中无效数据和冗余数据的具体情况如表1所示;
表1
如图2所示,具体包括以下步骤:
S1.1.剔除车牌识别数据中的无效数据;
其中无效数据包括表示车辆车牌为套牌的无车牌数据项、表示车辆无车牌的无牌数据项、车辆车牌未被识别的未识别车牌数据项,这几个数据项均是由城市视频卡口检测设备通过图像光学字符识别技术识别后得到的结果,并存于原始的车牌识别数据集中的数据项;以及车牌日检测次数N小于λ的数据项;其中将一日的车牌识别数据根据车牌号VehicleID属性进行分组,统计各分组的频数即为车牌日检测次数N;其中N、λ均为正整数;λ根据具体的城市路网进行设定,在本实施例中λ≥3;
S1.2.剔除车牌识别数据中的冗余数据;
其中冗余数据包括车牌在同一交叉口的检测时间间隔ttab小于预设阈值μdetect的数据项;其中车牌在同一交叉口的检测时间间隔ttab定义为ttab=ta-tb,其中ta,tb分别表示车牌经过交叉口Nodea,Nodeb的时刻、且Nodea和Nodeb对应相同的交叉口;
S1.3.对清洗后的车牌识别数据按车牌号VehicleID进行分组,然后按检测时间RecordTime进行升序排序,得到group={group1,...,groupi,...,groupk};定义I,D,L,T,G∈group,i=1,...,k,其中k为城市路网的总车辆数,I为进行分组和排序后属性VehicleID对应的数据,L为进行分组和排序后属性LaneID对应的数据,D为进行分组和排序后属性Direction对应的顺序数据,T为进行分组和排序后属性RecordTime对应的数据,G为进行分组和排序后属性NodeID对应的数据,Ii,Di,Li,Ti,Gi∈groupi
定义每辆车辆的出行链数据集为Gi=(Nodei1→…→Nodeim→…→NodeiN);
其中Nodeim为车牌Ii的检测设备对应的交叉口,N为车牌日检测次数。
S2.基于所述出行链数据集和车牌识别数据,计算各路段的行程时间,对所述行程时间的异常值进行处理后,构建重构出行链数据集;
具体包括以下步骤:
S2.1.建立道路路网拓扑邻接表,将所述出行链数据集中的相邻交叉口与所述道路路网拓扑邻接表进行匹配判断,若判断结果为匹配,则保留所述出行链数据集中相邻交叉口对应的数据项;若判断结果为不匹配,则得到对应车辆缺失的出行链,即chi={Gi1,...,Gij,...,Gip},chi为车牌Ii对应车辆缺失的出行链;匹配判断结束后得到所有车辆缺失的出行链数据集CHh
S2.2.遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应车辆chi中Gij的各个数据项,计算相邻交叉口间的行程时间,采用统计时窗过滤算法过滤异常的相邻交叉口间的行程时间;
S2.2.1.遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应车辆chi中Gij的各个数据项,计算其中相邻交叉口Nodea,Nodeb之间的行程时间tab,组成行程时间样本;对所有行程时间样本依次以均值、标准差、中位值和平均绝对偏差为条件进行噪声滤波,直至行程时间样本不再发生变化,得到过滤后的行程时间样本;其中tab=tb-ta,ta,tb分别表示车牌经过交叉口Nodea,Nodeb的时刻;
S2.2.2.基于所述过滤后的行程时间样本,设定统计时窗tw,将一天以15分钟为时间间隔进行分窗,共划分为96个统计时窗;取当前统计时窗tw行程时间样本的平均值作为此统计时窗路段对应在该统计时窗tw下的路段行程时间估计值并用memory数组记录不同路段的不同统计时窗tw对应的上阈值tu、下阈值tl,及其行程时间估计值遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应chi中Gij的各个数据项,计算其中相邻交叉口Nodea,Nodeb之间的行程时间tab,判断是否满足tl<tab<tu,若是则将其对应在车牌识别数据中的交叉口存入重构出行链数据集;否则,将出行链子链Gij在交叉口Nodea,Nodeb之间分离成两条链,得到的可用于路径重构的数据集为Traj={Traj1,...,Traji,...,Trajm},其中Traji={Tri1,...,Trij,...,Trih},其中Traji为出行链分离完毕后的子链集合,ih/ip>>α(α>1);
S2.3.步骤S2.2遍历结束后得到重构出行链数据集;
S3.对所述重构出行链数据集进行特征提取,然后输入基于机器学习的重构出行链模型进行训练;
如图3所示,其中对所述重构出行链数据集进行特征提取具体包括:
a.根据所述重构出行链数据集的起点时间戳、终点时间戳提取缺失出行链的行程时间od_tt;
b.根据所述重构出行链数据集与车牌识别数据集提取进入缺失出行链起点O点的前一目标交叉口b_port;
c.根据所述重构出行链数据集与车牌识别数据集提取缺失出行链终点D点的下一目标交叉口a_port;
d.根据所述重构出行链数据集与车牌识别数据集提取经过缺失出行链起点O点的时间戳所属时间窗o_tw、经过b_port点的时间戳所属时间窗b_tw、经过a_port点的时间戳所属时间窗a_tw;
e.根据车牌识别数据集提取经过缺失出行链终点D点的进口方向d_dir、是否工作日is_week;
f.根据步骤a~e完成特征提取后得到用于模型训练的重构出行链数据集。
如图4所示,其中输入重构出行链模型进行训练的具体步骤包括:
采用梯度提升决策树模型对所述用于模型训练的重构出行链数据集进行训练:
对所述模型训练的重构出行链数据集进行数据的预处理,其中将离散型的特征所对应的重构出行链数据集采用one-hot方法进行处理;将连续型的特征所对应的重构出行链数据集采用数据标准化方法进行处理;
将所述用于模型训练的重构出行链数据集按照缺失出行链的OD点对进行分组,并将各OD点对分组后的对应重构出行链数据集切分出来,单独训练各个OD点对的梯度提升决策树模型;
对所述各个OD点对的重构出行链数据集分别使用梯度提升决策树算法进行对应重构出行链模型的训练,在本实施例中,将需要重构的某段时间的重构出行链数据集作为训练集,用于对这段时间或其之后一段时间缺失出行链数据集进行修复,测试集选用与训练集不同的日期的重构出行链数据集;
定义训练集为D={(x1,y1),(x2,y2),...,(xN,yN)},损失函数L(y,f(x));
训练第k轮得到回归树其中βk是第k轮回归树的参数,k=1,2,...,K,K为树的个数,J为回归树的叶结点个数,Rkj为Θ输入空间互不相交的区域,γkj为输入常量,得到:
fk(x)=fk-1(x)+Tk(x;βk)
本实施例的具体训练步骤如下:
A.初始化
B.对k=1,2,...,K:
B1.对i=1,2,...,N,计算
B2.用回归树拟合gk,i,得第k棵树的叶节点区Rkj,j=1,2,…,Jk
B3.对j=1,2,...,Jk,计算
B4.更新fk(x)=fk-1(x)+Tk(x;βk);
C.得到集成学习器:
D.由于梯度提升决策树模型训练过程中需要调整参数,采用网格搜索法进行参数寻优;
梯度提升决策树模型的评估性能采用了分类准确率作为评价指标,即:
E.选用与训练集不同的日期的重构出行链数据集,将其划分成多份日期不相交的部分作为测试集进行交叉验证,得到训练完毕的重构出行链模型;
S4.对缺失的出行链数据集CHh中的chi={Gi1,...,Gij,...,Gip},使用训练完毕的重构出行链模型进行修复,得到补全的出行链数据。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于机器学习和车牌识别数据的缺失路径修复方法,其特征在于,包括以下步骤:
S1.获取车牌识别数据,对所述车牌识别数据中的无效数据和冗余数据进行清洗,获取出行链数据集;
S2.基于所述出行链数据集和车牌识别数据,计算各路段的行程时间,对所述行程时间的异常值进行处理后,构建重构出行链数据集;
S3.对所述重构出行链数据集进行特征提取,然后输入基于机器学习的重构出行链模型进行训练;
S4.使用训练完毕的重构出行链模型对缺失的出行链数据集进行修复,得到补全的出行链数据。
2.根据权利要求1所述的缺失路径修复方法,其特征在于,步骤S1中所述的车牌识别数据包括的属性有:车牌号VehicleID、车道编号LaneID、交叉口进口方向Direction、检测时间RecordTime、交叉口编号NodeID。
3.根据权利要求2所述的缺失路径修复方法,其特征在于,步骤S1中所述的对所述车牌识别数据中的无效数据和冗余数据进行清洗具体包括以下步骤:
S1.1.剔除车牌识别数据中的无效数据;
其中无效数据包括表示车辆车牌为套牌的无车牌数据项、表示车辆无车牌的无牌数据项、车辆车牌未被识别的未识别车牌数据项;以及车牌日检测次数N小于λ的数据项;其中将一日的车牌识别数据根据车牌号VehicleID属性进行分组,统计各分组的频数即为车牌日检测次数N;其中N、λ均为正整数;
S1.2.剔除车牌识别数据中的冗余数据;
其中冗余数据包括车牌在同一交叉口的检测时间间隔ttab小于预设阈值μdetect的数据项;其中车牌在同一交叉口的检测时间间隔ttab定义为ttab=ta-tb,其中ta,tb分别表示车牌经过交叉口Nodea,Nodeb的时刻、且Nodea和Nodeb对应相同的交叉口。
4.根据权利要求3所述的缺失路径修复方法,其特征在于,步骤S1中所述的获取出行链数据集的具体过程为:
S1.3.对清洗后的车牌识别数据按车牌号VehicleID进行分组,然后按检测时间RecordTime进行升序排序,得到group={group1,…,groupi,…,groupk};定义I,D,L,T,G∈group,i=1,...,k,其中k为城市路网的总车辆数,I为进行分组和排序后属性VehicleID对应的数据,L为进行分组和排序后属性LaneID对应的数据,D为进行分组和排序后属性Direction对应的顺序数据,T为进行分组和排序后属性RecordTime对应的数据,G为进行分组和排序后属性NodeID对应的数据,Ii,Di,Li,Ti,Gi∈groupi
定义每辆车辆的出行链数据集为Gi=(Nodei1→…→Nodeim→…→NodeiN);
其中Nodeim为车牌Ii的检测设备对应的交叉口,N为车牌日检测次数。
5.根据权利要求2所述的缺失路径修复方法,其特征在于,所述步骤S2具体包括以下步骤:
S2.1.建立道路路网拓扑邻接表,将所述出行链数据集中的相邻交叉口与所述道路路网拓扑邻接表进行匹配判断,若判断结果为匹配,则保留所述出行链数据集中相邻交叉口对应的数据项;若判断结果为不匹配,则得到对应车辆缺失的出行链,即chi={Gi1,...,Gij,...,Gip},chi为车牌Ii对应车辆缺失的出行链;匹配判断结束后得到所有车辆缺失的出行链数据集CHh
S2.2.遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应车辆chi中Gij的各个数据项,计算相邻交叉口间的行程时间,采用统计时窗过滤算法过滤异常的相邻交叉口间的行程时间;
S2.3.步骤S2.2遍历结束后得到重构出行链数据集。
6.根据权利要求5所述的缺失路径修复方法,其特征在于,所述步骤S2.2具体包括以下步骤:
S2.2.1.遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应车辆chi中Gij的各个数据项,计算其中相邻交叉口Nodea,Nodeb之间的行程时间tab,组成行程时间样本;对所有行程时间样本依次以均值、标准差、中位值和平均绝对偏差为条件进行噪声滤波,直至行程时间样本不再发生变化,得到过滤后的行程时间样本;其中行程时间tab=tb-ta,ta,tb分别表示车牌经过交叉口Nodea,Nodeb的时刻;
S2.2.2.基于所述过滤后的行程时间样本,设定统计时窗tw,将一天以T分钟为时间间隔进行分窗,共划分为1440/T个统计时窗,其中T为正整数;取当前统计时窗tw行程时间样本的平均值作为此统计时窗路段对应在该统计时窗tw下的路段行程时间估计值并用memory数组记录不同路段的不同统计时窗tw对应的上阈值tu、下阈值tl,及其行程时间估计值遍历车辆缺失的出行链数据集CHh中的各个数据项,即遍历对应chi中Gij的各个数据项,计算其中相邻交叉口Nodea,Nodeb之间的行程时间tab,判断是否满足tl<tab<tu,若是则将其对应在车牌识别数据中的交叉口存入重构出行链数据集;否则,将出行链子链Gij在交叉口Nodea,Nodeb之间分离成两条链,得到的可用于路径重构的数据集为Traj={Traj1,...,Traji,...,Trajm},其中Traji={Tri1,...,Trij,...,Trih},其中Traji为出行链分离完毕后的子链集合,ih/ip>>α(α>1)。
7.根据权利要求6所述的缺失路径修复方法,其特征在于,步骤S3中所述的对所述重构出行链数据集进行特征提取具体包括:
a.根据所述重构出行链数据集的起点时间戳、终点时间戳提取缺失出行链的行程时间od_tt;
b.根据所述重构出行链数据集与车牌识别数据集提取进入缺失出行链起点O点的前一目标交叉口b_port;
c.根据所述重构出行链数据集与车牌识别数据集提取缺失出行链终点D点的下一目标交叉口a_port;
d.根据所述重构出行链数据集与车牌识别数据集提取经过缺失出行链起点O点的时间戳所属时间窗o_tw、经过b_port点的时间戳所属时间窗b_tw、经过a_port点的时间戳所属时间窗a_tw;
e.根据车牌识别数据集提取经过缺失出行链终点D点的进口方向d_dir、是否工作日is_week;
f.根据步骤a~e完成特征提取后得到用于模型训练的重构出行链数据集。
8.根据权利要求1所述的缺失路径修复方法,其特征在于,步骤S3中所述输入重构出行链模型进行训练的具体步骤包括:
采用梯度提升决策树模型对所述用于模型训练的重构出行链数据集进行训练:
对所述模型训练的重构出行链数据集进行数据的预处理,将所述用于模型训练的重构出行链数据集按照缺失出行链的OD点对进行分组,并将各OD点对分组后的对应重构出行链数据集切分出来,单独训练各个OD点对的梯度提升决策树模型;并通过网格参数搜索法确定对应梯度提升决策树模型的最优参数,从而得到训练完毕的城市路网各个OD点对的重构出行链模型。
9.根据权利要求8所述的缺失路径修复方法,其特征在于,对所述模型训练的重构出行链数据集进行数据的预处理具体包括:
将离散型的特征所对应的重构出行链数据集采用one-hot方法进行处理;将连续型的特征所对应的重构出行链数据集采用数据标准化方法进行处理。
CN201910448107.5A 2019-05-27 2019-05-27 一种基于机器学习和车牌识别数据的缺失路径修复方法 Active CN110362557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910448107.5A CN110362557B (zh) 2019-05-27 2019-05-27 一种基于机器学习和车牌识别数据的缺失路径修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910448107.5A CN110362557B (zh) 2019-05-27 2019-05-27 一种基于机器学习和车牌识别数据的缺失路径修复方法

Publications (2)

Publication Number Publication Date
CN110362557A true CN110362557A (zh) 2019-10-22
CN110362557B CN110362557B (zh) 2022-04-26

Family

ID=68214883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910448107.5A Active CN110362557B (zh) 2019-05-27 2019-05-27 一种基于机器学习和车牌识别数据的缺失路径修复方法

Country Status (1)

Country Link
CN (1) CN110362557B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694861A (zh) * 2020-06-16 2020-09-22 天津白泽技术有限公司 一种基于网络数据码流特征分析的车牌数据提取方法
CN113160565A (zh) * 2021-04-14 2021-07-23 北京掌行通信息技术有限公司 一种套牌车辆的识别方法、装置、存储介质及终端
CN113190997A (zh) * 2021-04-29 2021-07-30 贵州数据宝网络科技有限公司 一种大数据终端数据修复方法及系统
CN113342576A (zh) * 2021-06-22 2021-09-03 中山大学 一种车辆技术参数实时恢复方法及系统
CN113538902A (zh) * 2021-06-17 2021-10-22 北京工业大学 基于交通状态的交叉口车辆轨迹数据修复方法
CN114333292A (zh) * 2021-11-22 2022-04-12 上海电科智能系统股份有限公司 一种基于轨迹重构技术的流量修复方法
CN115512543A (zh) * 2022-09-21 2022-12-23 浙江大学 一种基于深度逆向强化学习的车辆路径链重构方法
CN116665439A (zh) * 2023-04-28 2023-08-29 东南大学 基于车牌识别数据的城市路网车流od不确定性估计方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575125A (zh) * 2015-12-15 2016-05-11 上海微桥电子科技有限公司 一种车流视频侦测分析系统
CN106023589A (zh) * 2016-06-16 2016-10-12 北京航空航天大学 一种基于卡口数据的车辆轨迹重构方法
CN107195180A (zh) * 2017-06-08 2017-09-22 青岛海信网络科技股份有限公司 一种基于电警数据的交通出行轨迹提取方法和装置
CN107885795A (zh) * 2017-10-24 2018-04-06 广东方纬科技有限公司 一种卡口数据的数据校验方法、系统和装置
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN108717790A (zh) * 2018-07-06 2018-10-30 广州市交通运输研究所 一种基于卡口车牌识别数据的车辆出行分析方法
CN109166309A (zh) * 2018-08-06 2019-01-08 重庆邮电大学 一种面向复杂城市交通网络的缺失流量数据恢复方法
US20190095846A1 (en) * 2017-09-27 2019-03-28 Microsoft Technology Licensing, Llc Implicit status tracking of tasks and management of task reminders based on device signals

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575125A (zh) * 2015-12-15 2016-05-11 上海微桥电子科技有限公司 一种车流视频侦测分析系统
CN106023589A (zh) * 2016-06-16 2016-10-12 北京航空航天大学 一种基于卡口数据的车辆轨迹重构方法
CN107195180A (zh) * 2017-06-08 2017-09-22 青岛海信网络科技股份有限公司 一种基于电警数据的交通出行轨迹提取方法和装置
US20190095846A1 (en) * 2017-09-27 2019-03-28 Microsoft Technology Licensing, Llc Implicit status tracking of tasks and management of task reminders based on device signals
CN107885795A (zh) * 2017-10-24 2018-04-06 广东方纬科技有限公司 一种卡口数据的数据校验方法、系统和装置
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN108717790A (zh) * 2018-07-06 2018-10-30 广州市交通运输研究所 一种基于卡口车牌识别数据的车辆出行分析方法
CN109166309A (zh) * 2018-08-06 2019-01-08 重庆邮电大学 一种面向复杂城市交通网络的缺失流量数据恢复方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAO W ET AL.: "Signal progression model for long arterial: intersection grouping and coordination", 《IEEE ACCESS》 *
阮树斌等: "基于车牌识别数据的机动车出行轨迹提取算法", 《浙江大学学报》 *
陈奔: "基于双向递归神经网络的轨迹数据修复", 《中国优秀硕士学位论文全文数据库》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694861A (zh) * 2020-06-16 2020-09-22 天津白泽技术有限公司 一种基于网络数据码流特征分析的车牌数据提取方法
CN111694861B (zh) * 2020-06-16 2023-10-24 天津白泽技术有限公司 一种基于网络数据码流特征分析的车牌数据提取方法
CN113160565A (zh) * 2021-04-14 2021-07-23 北京掌行通信息技术有限公司 一种套牌车辆的识别方法、装置、存储介质及终端
CN113160565B (zh) * 2021-04-14 2022-12-30 北京掌行通信息技术有限公司 一种套牌车辆的识别方法、装置、存储介质及终端
CN113190997A (zh) * 2021-04-29 2021-07-30 贵州数据宝网络科技有限公司 一种大数据终端数据修复方法及系统
CN113538902B (zh) * 2021-06-17 2022-09-20 北京工业大学 基于交通状态的交叉口车辆轨迹数据修复方法
CN113538902A (zh) * 2021-06-17 2021-10-22 北京工业大学 基于交通状态的交叉口车辆轨迹数据修复方法
CN113342576A (zh) * 2021-06-22 2021-09-03 中山大学 一种车辆技术参数实时恢复方法及系统
CN114333292A (zh) * 2021-11-22 2022-04-12 上海电科智能系统股份有限公司 一种基于轨迹重构技术的流量修复方法
CN114333292B (zh) * 2021-11-22 2022-11-18 上海电科智能系统股份有限公司 一种基于轨迹重构技术的流量修复方法
CN115512543A (zh) * 2022-09-21 2022-12-23 浙江大学 一种基于深度逆向强化学习的车辆路径链重构方法
CN115512543B (zh) * 2022-09-21 2023-11-28 浙江大学 一种基于深度逆向强化学习的车辆路径链重构方法
CN116665439A (zh) * 2023-04-28 2023-08-29 东南大学 基于车牌识别数据的城市路网车流od不确定性估计方法
CN116665439B (zh) * 2023-04-28 2024-05-07 东南大学 基于车牌识别数据的城市路网车流od不确定性估计方法

Also Published As

Publication number Publication date
CN110362557B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN110362557A (zh) 一种基于机器学习和车牌识别数据的缺失路径修复方法
CN109448370B (zh) 一种基于车辆轨迹数据的交通控制子区划分方法
CN112365711B (zh) 一种基于车牌识别数据的车辆轨迹重构方法
CN106323301B (zh) 一种道路情报的获取方法及装置
CN104778836B (zh) 基于手机信令数据质量感知的高速公路交通状态识别方法
CN111553236A (zh) 基于道路前景图像的路面病害目标检测与实例分割方法
CN110189317A (zh) 一种基于深度学习的道路影像智能采集和识别方法
CN107036572A (zh) 一种农机作业面积获取方法及装置
CN106610981A (zh) 电子地图中道路信息的验证更新方法及系统
CN114049765B (zh) 基于自动车辆号牌识别数据的城市路网车流od估计方法
CN111210612B (zh) 基于公交gps数据与站点信息提取公交线路轨迹的方法
CN112509356B (zh) 一种车辆行驶路线生成方法及系统
CN103903441B (zh) 一种基于半监督学习的道路交通状态判别方法
CN107195180A (zh) 一种基于电警数据的交通出行轨迹提取方法和装置
CN110807919A (zh) 基于过车数据的城市路网交通运行态势评价方法
CN106898142B (zh) 一种考虑路段相关性的路径行程时间可靠度计算方法
CN109214345A (zh) 基于相似度比对查找换牌车辆的行驶轨迹的方法
CN104615858A (zh) 一种计算车辆起始地和目的地的方法
CN105046959B (zh) 基于双窗口滑动匹配机制的城市道路行程时间提取方法
CN116797055A (zh) 一种基于物联网的城市道路规划方法及系统
CN111680638B (zh) 一种乘客路径识别方法和基于该方法的客流清分方法
CN114067610B (zh) 一种错过岔道口事故的仿真场景构建方法及装置
CN110913345B (zh) 一种基于手机信令数据的断面客流计算方法
CN110392343A (zh) 一种出行起点和出行终点的获取方法及装置
CN115691170B (zh) 一种基于号牌数据的城市干线道路子区划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant