CN104035954B - 一种基于Hadoop的套牌车识别方法 - Google Patents
一种基于Hadoop的套牌车识别方法 Download PDFInfo
- Publication number
- CN104035954B CN104035954B CN201410100491.7A CN201410100491A CN104035954B CN 104035954 B CN104035954 B CN 104035954B CN 201410100491 A CN201410100491 A CN 201410100491A CN 104035954 B CN104035954 B CN 104035954B
- Authority
- CN
- China
- Prior art keywords
- car
- fake
- licensed
- licensed car
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/017—Detecting movement of traffic to be counted or controlled identifying vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于Hadoop的套牌车识别方法,本发明的输入为海量的过程记录,首先将削减维度后的有效过车记录迁移到Hadoop集群的HBase中,然后使用Hive从HBase中获取同一车牌号码出现在任意两个监控点的过车记录并按照车牌号码和过车时间分组排序,接着初始化由监控点为顶点集及两两之间距离为边权值的带权图,计算出所有监控点两两之间的最短路径,将其两两组合分块处理,最后创建多个线程,在套牌车规则下根据分块处理后监控点的两两组合并发提交Hive任务来识别套牌车,并通过校正因子获取最终的嫌疑套牌车,本发明与传统环境下不经过优化的方法相比具有较高的运行效率和加速比,可以有效地识别套牌车。
Description
技术领域
本发明属于海量时空数据挖据技术领域,具体涉及到一种基于Hadoop的套牌车识别方法。
背景技术
套牌车指套用其它车辆的车牌号码来逃避责罚的车辆。由于套牌车可以逃避所造成的严重后果和上缴的费用,对人民生命财产和公共安全造成了极大的威胁,所以一直是交通监管部门重点打击的对象,并被国家严令禁止。因此,在海量交通流过车数据中主动发现和识别套牌车,不仅对公安交警主动预警和事后侦查具有重要意义,更是对真正车主和套牌车肇事受害者利益的保护。
然而,随着交通信息流的快速增长,其数据量已达到TB级甚至PB级的规模。传统计算机系统已不能满足需求。此外,交通信息流具有高维、时空相关性等特征,使得数据分析处理更加复杂。传统方法在处理海量交通流数据时受到计算能力、存储能力等因素的影响,表现出存储空间不够、稳定性差、耗时长等诸多缺点,不能有效地识别套牌车。
发明内容
本发明针对现有技术的不足,提供了一种基于Hadoop的套牌车识别方法。
本发明一种基于Hadoop的套牌车识别方法,具体包括以下步骤:
步骤1:在关系型数据库的海量过车记录表中,每一条交通流过车记录由序列号、车牌号码、过车时间、地点编号、方向编号属性组成,删除车牌号码为空的无效记录;削减掉序列号和方向编号两个与套牌车识别方法无关数据维度,将保留车牌号码、过车时间和地点编号三个维度的过车记录迁移到Hadoop集群的分布式数据库HBase中;
步骤2:使用分布式数据仓库Hive从分布式数据库HBase中获取同一车牌号码出现在任意两个监控点的过车记录;获取的每一对监控点的过车记录按照车牌号码和过车时间分组排序,即首先按照车牌号码从小到大排序,然后在相同车牌号码的记录中按过车时间从先到后排序;
步骤3:初始化由m个监控点为顶点集及两两之间距离为边权值的带权图G,计算出带权图G中所有监控点两两之间的最短路径;将所有监控点的两两组合种分成n份,当n>1且整除时,每份包含种组合,不能整除时,前面n-1份包含种组合,最后一份包含种组合;
将每对监控点di和dj(i≠j)及最短路径值Dist(di,dj)保存到Map<key,value>中,以mapi(i=1,2,3,...,n)表示每份中所有监控点对相对应的Map<key,value>的集合,其中key为di@dj,value为Dist(di,dj)值;
步骤4:创建n个线程,每个线程根据步骤3得到的mapi,遍历mapi中的key值,封装一个Hive任务,根据套牌车规则并行识别key值中两监控点内的套牌车,即如果某一号牌的车辆通过一对监控点的时间小于在最大极限速度下通过的时间,则将该号牌的过车记录放入候选套牌车集;
假设车牌号码为H的车辆通过监控点di和dj的时间差为TDH i,j,在最大极限速度下通过监控点di和dj最短路径下的时间为即当满足规则则将该车牌号码H的过车记录放入候选套牌车集中;
步骤5:n个线程并发运行步骤4提交的Hive任务,每个线程负责提交步骤3中每份包含的监控点两两组合相对应的Hive任务进行分布式套牌车识别;在步骤4得到的候选套牌车集中,设置校正因子λ(0<λ≤1)用于校正最大极限速度,转换为 为通过校正因子λ校正后的值并应用于识别套牌车获取最终的嫌疑套牌车集,当满足规则则将该车牌号码H的过车记录放入嫌疑套牌车集中;
步骤6:各线程提交完成后,待集群中运行的所有Hive任务执行完毕,输出最终的嫌疑套牌车集中的车牌号码。
本发明提出的方法基于Hadoop集群,采用HBase分布式数据库,Hive数据仓库及Zookeeper分布式协调组件,构建了HBase+Hive集成环境,采用数据分割和Hive任务并行相结合的策略,通过算法优化有效减少套牌车识别匹配次数。在海量数据中识别套牌车,与传统环境下及不经过优化的方法相比,采用本发明所述方法可使套牌车识别过程具有较高的运行效率和加速比,可以有效地识别套牌车。
附图说明
图1套牌车识别流程图;
图2云环境架构图;
图3分布式识别套牌车图。
具体实施方式
本发明所提供的一种基于Hadoop的套牌车识别方法的具体实施方式主要分4步,如图1所示,基于Hadoop集群的架构如图2所示:
为叙述方便,定义相关符号如下:
Pi:第i(i=1,2,...,n)个线程。
O={o0,...,oi,...,on-1}(0≤i≤n-1):过车记录对象集合。
D={d0,...,di,...,dm-1}(0≤i≤m-1):监控点集合。
T={t0,...,ti,...,tq-1}(0≤i≤q-1):时间戳集合。
H:车牌号码。
T:过车时间。
Dist(di,dj):监控点di和dj之间的最短路径。
Sij:同时出现在地点编号为di和dj的过车记录集。
TDH i,j=ti-tj:同一车牌H经过监控点di和dj的时间差。
监控点di和dj之间的最大极限速度。
在速度下通过监控点di和dj的最短路径的时间。
通过校正因子λ校正后的值。
(1)数据预处理
检查过车记录数据集的一致性和完整性约束条件,使用SQL语句删除车牌号码为空的无效记录;使用SQL语句获取关系型数据库中的数据集,削减了过车记录的序列号和方向编号两个维度,将持有车牌号码、过车时间和地点编号三个维度的过车记录分批导入到分布式数据库HBase中。
(2)分布式套牌车识别方法
m个监控点的两两组合数为分成n份(n的值通过实验获取的Hadoop集群下并行提交Hive任务的线程数),当n>1且整除时,每份包含种组合,不能整除时,前面n-1份包含种组合,最后一份包含种组合。通过最短路径算法计算得到Dist(di,dj)。将每对组合及最短路径值保存到中,其中key为di@dj,value为Dist(di,dj)值。因此,每一份中监控点两两组合数及相应的最短路径保存到mapi(i=1,2,...,n)。遍历mapi中的key值,根据di和dj使用Hive语法的left semi join来获取Sij数据集,并使用order by语法按车牌号码和过车时间分组排序。
Sij中的数据根据车牌号码及过车时间分组排序优化,可以大大减少套牌车比对次数。例如,Sij中有六个过程记录为{(h1,t1,d1),(h1,t2,d1),(h1,t3,d1),(h1,t4,d2),(h2,t5,d1),(h2,t6,d2)},在比对的过程中,首先根据车牌h1得到两个指针分别指向第一和第四个记录,然后从第一个记录开始依次比较1-2,1-3,1-4,2-3,2-4...,判断两指针指向记录的监控点相同时直接跳过该比对,当监控点不同时进入套牌车规则比对,依次类推。接着第一个指针从第五条记录开始,第二个指针根据车牌h2指向第六个,比较的过程和前面一样,故在比较车牌h2时,直接跳过了前面的记录,大大减少比对次数。一个线程Pi负责处理一个mapi,并发的运行提交Hive任务,如图3所示。
(3)套牌车规则
假设车牌号码为H的车辆通过监控点di和dj的时间差为TDH i,j,在最大极限速度下通过监控点di和dj最短路径下的时间为即当满足规则则将车牌号码H的过车记录放入候选套牌车集。套牌车规则应用于套牌车识别方法。
(4)结果验证
在候选套牌车集中,通过设置校正因子为λ(0<λ≤1),用于校正最大极限速度的值,转换为 为通过校正因子λ校正后的值并应用于识别套牌车来获取最终的嫌疑套牌车集,当满足规则则将该车牌号码H的过车记录放入嫌疑套牌车集中。
本发明所提供的一种基于Hadoop的套牌车识别方法由一组功能模块组成,它们包括:数据预处理模块、分布式并行套牌车识别模块和套牌车展示模块。
数据预处理模块删除了无车牌号码的无效过车记录,削减了过车记录的序列号和方向编号两个维度,将持有车牌号码、过车时间和地点编号三个维度的过车记录分批导入到分布式数据库HBase中。然后使用分布式数据仓库Hive从分布式数据库HBase中获取同一车牌号码出现在任意两个监控点的过车记录。
分布式套牌车识别模块初始化完成了带权图G中每对监控点间的最短路径,并保存到Map<key,value>中,其中key为两监控点的组合,value为其最短路径。将所有两两组合分成n份,创建了n个线程,每个线程负责封装一个Hive任务,根据套牌车规则并行识别key值中两监控点内的套牌车,将结果放入候选套牌车集。在候选套牌车集中通过设置校正因子得到最终的嫌疑套牌车,将结果放入嫌疑套牌车车牌号码集中。n个线程并发的提交Hive任务,各线程提交完成后,待集群中运行的所有Hive任务执行完毕,完成识别套牌车的过程。
套牌车展示模块用于展示找到的嫌疑套牌车,根据用户的查询条件输出相应的嫌疑套牌车。
本发明可用于公安交警部门车辆监控系统中海量交通流数据的挖掘,以快速识别具有套牌嫌疑的车辆。
Claims (1)
1.一种基于Hadoop的套牌车识别方法,其特征在于,该方法具体包括以下步骤:
步骤1:在关系型数据库的海量过车记录表中,每一条交通流过车记录由序列号、车牌号码、过车时间、地点编号、方向编号属性组成,删除车牌号码为空的无效记录;削减掉序列号和方向编号两个与套牌车识别方法无关数据维度,将保留车牌号码、过车时间和地点编号三个维度的过车记录迁移到Hadoop集群的分布式数据库HBase中;
步骤2:使用分布式数据仓库Hive从分布式数据库HBase中获取同一车牌号码出现在任意两个监控点的过车记录;获取的每一对监控点的过车记录按照车牌号码和过车时间分组排序,即首先按照车牌号码从小到大排序,然后在相同车牌号码的记录中按过车时间从先到后排序;
步骤3:初始化由m个监控点为顶点集及两两之间距离为边权值的带权图G,计算出带权图G中所有监控点两两之间的最短路径;将所有监控点的两两组合种分成n份,当n>1且整除时,每份包含种组合,不能整除时,前面n-1份包含种组合,最后一份包含种组合;
将每对监控点di和dj(i≠j)及最短路径值Dist(di,dj)保存到Map<key,value>中,以mapi(i=1,2,3,...,n)表示每份中所有监控点对相对应的Map<key,value>的集合,其中key为di@dj,value为Dist(di,dj)值;
步骤4:创建n个线程,每个线程根据步骤3得到的mapi,遍历mapi中的key值,封装一个Hive任务,根据套牌车规则并行识别key值中两监控点内的套牌车,即如果某一号牌的车辆通过一对监控点的时间小于在最大极限速度下通过的时间,则将该号牌的过车记录放入候选套牌车集;
假设车牌号码为H的车辆通过监控点di和dj的时间差为TDH i,j,在最大极限速度下通过监控点di和dj最短路径下的时间为即当满足规则则将该车牌号码H的过车记录放入候选套牌车集中;
步骤5:n个线程并发运行步骤4提交的Hive任务,每个线程负责提交步骤3中每份包含的监控点两两组合相对应的Hive任务进行分布式套牌车识别;在步骤4得到的候选套牌车集中,设置校正因子λ(0<λ≤1)用于校正最大极限速度,转换为 为通过校正因子λ校正后的值并应用于识别套牌车获取最终的嫌疑套牌车集,当满足规则则将该车牌号码H的过车记录放入嫌疑套牌车集中;
步骤6:各线程提交完成后,待集群中运行的所有Hive任务执行完毕,输出最终嫌疑的套牌车集中的过车记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410100491.7A CN104035954B (zh) | 2014-03-18 | 2014-03-18 | 一种基于Hadoop的套牌车识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410100491.7A CN104035954B (zh) | 2014-03-18 | 2014-03-18 | 一种基于Hadoop的套牌车识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104035954A CN104035954A (zh) | 2014-09-10 |
CN104035954B true CN104035954B (zh) | 2017-05-24 |
Family
ID=51466724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410100491.7A Active CN104035954B (zh) | 2014-03-18 | 2014-03-18 | 一种基于Hadoop的套牌车识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104035954B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104468787A (zh) * | 2014-12-09 | 2015-03-25 | 浪潮电子信息产业股份有限公司 | 一种基于大数据的人车关联识别方法 |
CN104715608B (zh) * | 2015-03-26 | 2017-01-11 | 杭州电子科技大学 | 基于HBase的全天候全域出租车聚集实时监测方法 |
CN105206062A (zh) * | 2015-10-23 | 2015-12-30 | 浪潮(北京)电子信息产业有限公司 | 查找方法及装置 |
CN105448099A (zh) * | 2015-12-14 | 2016-03-30 | 南威软件股份有限公司 | 一种基于大数据的机动车套牌识别方法 |
CN105654730B (zh) * | 2015-12-31 | 2018-07-31 | 公安部交通管理科学研究所 | 一种基于卡口过车大数据分析的套牌车认定方法 |
CN105825212A (zh) * | 2016-02-18 | 2016-08-03 | 江西洪都航空工业集团有限责任公司 | 一种基于Hadoop的分布式车牌识别方法 |
CN106097720A (zh) * | 2016-05-27 | 2016-11-09 | 安徽四创电子股份有限公司 | 一种交通卡口车牌识别准确性评价方法 |
CN106448178B (zh) * | 2016-09-05 | 2019-12-20 | 青岛海信网络科技股份有限公司 | 一种套牌车分析方法及装置 |
CN106297305A (zh) * | 2016-09-18 | 2017-01-04 | 河南工业大学 | 一种结合牌照识别和路径优化的套牌车分层检测方法 |
CN106599024A (zh) * | 2016-11-01 | 2017-04-26 | 武汉烽火众智数字技术有限责任公司 | 基于大数据的套牌车分析方法及系统 |
CN107067736B (zh) * | 2017-04-12 | 2019-10-08 | 安徽超远信息技术有限公司 | 基于时间路网的套牌车分析方法及其系统 |
CN107195181B (zh) * | 2017-06-02 | 2019-08-02 | 中通服咨询设计研究院有限公司 | 一种根据套牌车识别规则库识别套牌车的方法 |
CN107945522B (zh) * | 2017-11-24 | 2019-10-29 | 泰华智慧产业集团股份有限公司 | 基于大数据查找嫌疑车辆的方法和系统 |
CN107977421A (zh) * | 2017-11-24 | 2018-05-01 | 泰华智慧产业集团股份有限公司 | 基于大数据进行套牌车分析的方法及装置 |
CN111078973B (zh) * | 2019-12-16 | 2023-10-20 | 浙江省北大信息技术高等研究院 | 基于大数据的套牌车识别方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373517A (zh) * | 2007-08-22 | 2009-02-25 | 北京万集科技有限责任公司 | 一种车牌识别方法及系统 |
CN101527079A (zh) * | 2008-03-07 | 2009-09-09 | 上海宝康电子控制工程有限公司 | 闯红灯兼卡口电子警察设备及其监测方法 |
CN101901543A (zh) * | 2010-07-16 | 2010-12-01 | 上海宝康电子控制工程有限公司 | 一种智能交通集成管理系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7028896B2 (en) * | 2002-08-22 | 2006-04-18 | Arthur Blank & Company, Inc. | Transaction card fabrication control system and method |
-
2014
- 2014-03-18 CN CN201410100491.7A patent/CN104035954B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373517A (zh) * | 2007-08-22 | 2009-02-25 | 北京万集科技有限责任公司 | 一种车牌识别方法及系统 |
CN101527079A (zh) * | 2008-03-07 | 2009-09-09 | 上海宝康电子控制工程有限公司 | 闯红灯兼卡口电子警察设备及其监测方法 |
CN101901543A (zh) * | 2010-07-16 | 2010-12-01 | 上海宝康电子控制工程有限公司 | 一种智能交通集成管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104035954A (zh) | 2014-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104035954B (zh) | 一种基于Hadoop的套牌车识别方法 | |
CN108108657B (zh) | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN109255565B (zh) | 地址的归属识别和物流任务的分发方法及其装置 | |
CN102662949B (zh) | 一种基于多特征融合的指定目标检索方法及系统 | |
CN109325019B (zh) | 数据关联关系网络构建方法 | |
CN103336957A (zh) | 一种基于时空特征的网络同源视频检测方法 | |
CN107346550A (zh) | 一种针对具有颜色信息的三维点云数据快速配准方法 | |
CN110533316A (zh) | 一种基于大数据的产品生命周期分析方法、系统及存储介质 | |
CN106919719A (zh) | 一种面向大数据的信息补全方法 | |
Subhadhira et al. | License plate recognition application using extreme learning machines | |
CN112419268A (zh) | 一种输电线路图像缺陷检测方法、装置、设备及介质 | |
CN105046323A (zh) | 一种正则化rbf网络多标签分类方法 | |
CN106570104A (zh) | 一种流数据的多分区聚类预处理方法 | |
CN109035407A (zh) | 基于方向的参数曲面三角化方法、装置、设备及存储介质 | |
Wang et al. | YOLOv5s-FCG: An improved YOLOv5 method for inspecting Riders’ helmet wearing | |
CN110826449A (zh) | 基于轻量型卷积神经网络的非机动车再识别目标检索方法 | |
CN108363962A (zh) | 一种基于多层次特征深度学习的人脸检测方法及系统 | |
Zhu et al. | Fuzzy c-means clustering identification method of urban road traffic state | |
CN117218102A (zh) | 一种基于改进YOLOv5的绝缘子缺陷检测方法及其系统 | |
CN117058669A (zh) | 一种基于深度学习的荔枝果实识别方法 | |
Zhao et al. | Face occlusion detection algorithm based on yolov5 | |
CN103258211A (zh) | 一种手写体数字识别方法和系统 | |
Liang et al. | YOLOD: A Task Decoupled Network Based on YOLOv5 | |
CN106095811A (zh) | 一种基于最优编码的监督离散哈希的图像检索方法 | |
CN108898264B (zh) | 一种重叠社区集合质量度量指标的计算方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |