CN112347200A - 一种基于大数据的车辆同行分析方法 - Google Patents
一种基于大数据的车辆同行分析方法 Download PDFInfo
- Publication number
- CN112347200A CN112347200A CN202011329024.3A CN202011329024A CN112347200A CN 112347200 A CN112347200 A CN 112347200A CN 202011329024 A CN202011329024 A CN 202011329024A CN 112347200 A CN112347200 A CN 112347200A
- Authority
- CN
- China
- Prior art keywords
- data
- vehicle
- big
- hive
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000007405 data analysis Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000013500 data storage Methods 0.000 claims abstract description 6
- 238000005192 partition Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于大数据的车辆同行分析方法,所述方法包括:步骤1,将过车数据以结构化数据形式存储在hdfs或ftp服务器中,作为车辆结构化数据;步骤2,在hive中根据车辆结构化数据信息建立内部表,将车辆结构化数据导入新建的hive内部表中;步骤3,在hive之上增加alluxio分布式缓存,将hive内部表数据存储位置指向alluxio分布式缓存;步骤4,上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据,进行车辆同行分析。本发明基于大数据分布式计算、存储框架,能匹配多种数据源数据结合车辆结构化数据进行分析,比传统的分析方法更加高效、稳定、扩展性强。
Description
技术领域
本发明涉及大数据分析、数据挖掘领域,具体涉及一种基于大数据的车辆同行分析方法。
背景技术
现代社会道路监控技术发展的同时,违法犯罪行为与车辆、交通系统的联系也越来越密切。同行车辆是一个交通术语,是指在一定时间内与追踪车辆以一定规则存在同行关系的车辆。如果事先知道涉案车辆的车牌号,可以直接通过查询车牌识别数据找出其同行车辆。但是车辆数据规模庞大,怎么花费尽可能少的时间和资源来分析这些数据,得到准确的分析结果,是一个需要持续关注的问题。
通常车辆同行分析方式有的是将每辆车的过车数据根据一定信息标识进行聚合,计算出行车轨迹并存储,根据各时间点卡口重合度得出同行车辆信息,这种方式需要对数据做预计算处理,并对结果做额外的存储,不够灵活。有的是将车辆过车数据存储在数据仓库中,通过开源分析引擎将数据分批加载到内存或写文件方式进行车辆同行分析,但是数据间分析的相关性、数据加载开销、多源数据等问题没有一个完善的方案。
发明内容
鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种基于大数据的车辆同行分析方法,具体方案如下:
一种基于大数据的车辆同行分析方法,所述方法包括:
步骤1,将过车数据以结构化数据形式存储在hdfs或ftp服务器中,作为车辆结构化数据;
步骤2,在hive中根据车辆结构化数据信息建立内部表,将车辆结构化数据导入新建的hive内部表中;
步骤3,在hive之上增加alluxio分布式缓存,将hive内部表数据存储位置指向alluxio分布式缓存;
步骤4,上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据,进行车辆同行分析。
进一步地,步骤1中,所述车辆结构化数据以文本方式存储,每条车辆结构化数据采用json格式或分隔符分割字段形式保存在文本中,车辆结构化数据中包含车牌号码、卡口标识、抓拍时间以及车辆类型信息。
进一步地,步骤2中,hive的内部表根据车辆结构化数据量大小按照抓拍时间字段按天或按小时的粒度设置分区,同时根据卡口标识和车牌号码字段设置数据的分桶。
进一步地,步骤2中,将车辆结构化数据导入新建的hive内部表中时,车辆结构化数据在磁盘存储时做压缩处理。
进一步地,步骤4中,通过上层大数据分析引擎获取hive中的数据具体为:上层大数据分析引擎执行分析任务第一次加载数据时,从hive中扫描读取目标数据,并在alluxio分布式缓存中进行缓存,上层大数据分析引擎在后面执行分析任务时,如果目标数据在alluxio分布式缓存中存在,则直接从alluxio分布式缓存中直接读取,否则就从hdfs中加载。
进一步地,所述方法包括:手动加载hdfs中的数据到alluxio分布式缓存中。
进一步地,上层大数据分析引擎采用presto大数据分析引擎,presto大数据分析引擎分布式节点与alluxio分布式缓存中的分布式节点同置。
进一步地,alluxio分布式缓存支持横向扩展节点,并根据场景需求动态配置。
进一步地,步骤4中,进行车辆同行分析具体为:根据同行车辆定义设置车牌号码、时间维度、去重时间间隔误差Tms以及跟车卡口数执行车辆同行分析。
进一步地,所述方法还包括:上层大数据分析引擎配置hive连接和外部mysql数据源连接,通过配置hive连接和外部mysql数据源连接,获取车辆结构化数据和外部mysql数据,通过车辆结构化数据和外部mysql数据进行车辆同行分析,其中,所述外部mysql数据包括车辆信息码表。
本发明具有以下有益效果:
1.对数据存储做分区分桶并压缩处理,通过分布式缓存,能极大提升数据扫描加载速度;
2.对数据内容存储进行分类,相关度较高的数据集中存储,能避免过度的分布式节点间数据流动,提升分析效率;
3.基于大数据mpp架构内存分布式计算、存储框架,能匹配多种数据源数据结合车辆结构化数据进行分析,比传统的分析方法更加高效、稳定、扩展性强。
附图说明
图1为本发明实施例提供的一种基于大数据的车辆同行分析方法示意图流程图;
图2为本发明实施例提供的基于大数据的车辆同行分析方法的分析结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1-2所示,本发明实施例提供的一种基于大数据的车辆同行分析方法,所述方法包括:
步骤1,将过车数据以结构化数据形式存储在hdfs或ftp服务器中,作为车辆结构化数据;
步骤2,在hive中根据车辆结构化数据信息建立内部表,将车辆结构化数据导入新建的hive内部表中;
步骤3,在hive之上增加alluxio分布式缓存,将hive内部表数据存储位置指向alluxio分布式缓存;
步骤4,上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据,根据同行车辆定义设置车牌号码、时间维度、去重时间间隔误差以及跟车卡口数等N个过滤条件执行车辆同行分析。
其中,hive(数据仓库工具)是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制,hive数据仓库工具能将结构化的数据文件映射为一张数据库表。
其中,步骤1中,所述车辆结构化数据以文本方式存储,每条车辆结构化数据采用json格式或分隔符分割字段形式保存在文本中,车辆结构化数据中包含车牌号码、卡口标识、抓拍时间以及车辆类型信息。
其中,步骤2中,hive的内部表根据车辆结构化数据量大小按照抓拍时间字段按天或按小时的粒度设置分区,通过时间分区可以减少时间维度分析条件数据扫描消耗时间,同时根据卡口标识和车牌号码字段设置数据的分桶,通过数据分桶,相同时间段以及相同卡口的车辆数据会在磁盘块中顺序存储,在做目标车辆关联数据加载时,可以避免离散的全表扫描,数据在磁盘存储时做压缩处理,降低数据块大小,能够提升数据加载速度。
其中,步骤4中,通过上层大数据分析引擎获取hive中的数据具体为:上层大数据分析引擎执行分析任务第一次加载数据时,从hive中扫描读取目标数据,并在alluxio分布式缓存中进行缓存,上层大数据分析引擎在后面执行分析任务时,如果目标数据在alluxio分布式缓存中存在,则直接从alluxio分布式缓存中直接读取,否则就从hdfs中加载,所以尽可能缓存需要参与分析计算的热数据,由于数据块经过压缩,缓存消耗较小,支持手动加载hdfs中数据到alluxio缓存中,同时alluxio缓存支持横向扩展节点,能根据场景需求动态配置。
其中,上层大数据分析引擎采用presto大数据分析引擎,presto大数据分析引擎分布式节点与alluxio分布式缓存中的分布式节点同置,可以本地化加载alluxio缓存中的数据,提高分析效率。车辆信息码表一般存储在外部数据源关系型数据库中,presto大数据分析引擎能够配置获取hive元数据和外部数据源元数据信息,将车辆同行分析结果和车辆信息码表做关联返回给控制台。
具体地,假设本发明中车辆结构化数据存储在hdfs上,创建hive外部表,外部表包含车辆车牌、卡口id、抓拍时间、车辆类型等关键字段信息,同时按天对数据进行分区。外部表数据格式如下:
创建hive内部表,按天分区,分桶个数为128个(分区粒度、分桶个数根据实际数据量设置,分桶键为卡口id,分桶数据按抓拍时间降序排列,如:CLUSTEREDBY(pu_id)SORTEDBY(pass_timeDESC)INTO128BUCKETS),采用snappy算法压缩数据,orc格式存储数据,数据存储位置指向alluxio分布式缓存,如:alluxio://x.x.x.x:19998/dw_vehicle_search_alluxio,从hive外部表中根据过滤条件,选择目标数据集导入车辆结构化数据到hive内部表,内部表数据格式如下:
主键 | 车牌 | 抓拍时间 | 卡口id | 车辆类型 | …… |
1 | 鄂A11111_蓝 | 2020-05-1211:53:05 | D<sub>1</sub> | 1 | |
2 | 鄂A11111_蓝 | 2020-06-1215:53:06 | D<sub>2</sub> | 1 | |
3 | 鄂A22222_蓝 | 2020-05-1211:53:08 | D<sub>1</sub> | 2 | |
4 | 鄂A22222_蓝 | 2020-06-1215:53:09 | D<sub>2</sub> | 2 |
但是存储方式和外部表不同,hive中除了有2020-05-12分区目录外,对这个日期下数据还做了D1分桶,并且按照抓拍时间做降序排列,同时对数据进行固定格式压缩,方便节点间传输。同时alluxio和hive有映射关系,写入hive的数据都会经过alluxio分布式缓存再持久化到hive中。
使用presto大数据分析引擎配置hive连接和外部mysql数据源连接,presto大数据分析引擎可以获取到hive和外部mysql数据源元数据信息,车辆信息码表存储在外部mysql数据源中,车辆信息码表格式如下:
主键 | 类型标识 | 类型编码 | 类型名称 | …… |
1 | VehicleType | 1 | 小汽车 | |
2 | VehicleType | 1 | 小汽车 | |
3 | VehicleType | 2 | 小货车 | |
4 | VehicleType | 2 | 小货车 |
根据同行车辆定义可以通过设置车牌号码、时间维度、去重时间间隔误差Tms、跟车卡口数N个等过滤条件执行车辆同行分析,查询的数据目标经过分区、分桶匹配缩小目标数据集,如果还在alluxio缓存中,会极大提升查询效率。
presto大数据分析引擎可以将同行分析结果数据结合车辆码表数据做关联查询,还可以融合多个数据源中存储的其他信息,把最终结果返回给上层应用层程序,避免了上层应用层通过程序逻辑对多个数据源关联数据进行融合,而且方式简洁、执行效率高。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的车辆同行分析方法,其特征在于,所述方法包括:
步骤1,将过车数据以结构化数据形式存储在hdfs或ftp服务器中,作为车辆结构化数据;
步骤2,在hive中根据车辆结构化数据信息建立内部表,将车辆结构化数据导入新建的hive内部表中;
步骤3,在hive之上增加alluxio分布式缓存,将hive内部表数据存储位置指向alluxio分布式缓存;
步骤4,上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据,进行车辆同行分析。
2.根据权利要求1所述的基于大数据的车辆同行分析方法,其特征在于,步骤1中,所述车辆结构化数据以文本方式存储,每条车辆结构化数据采用json格式或分隔符分割字段形式保存在文本中,车辆结构化数据中包含车牌号码、卡口标识、抓拍时间以及车辆类型信息。
3.根据权利要求2所述的基于大数据的车辆同行分析方法,其特征在于,步骤2中,hive的内部表根据车辆结构化数据量大小按照抓拍时间字段按天或按小时的粒度设置分区,同时根据卡口标识和车牌号码字段设置数据的分桶。
4.根据权利要求2所述的基于大数据的车辆同行分析方法,其特征在于,步骤2中,将车辆结构化数据导入新建的hive内部表中时,对车辆结构化数据在磁盘存储时做压缩处理。
5.根据权利要求1所述的基于大数据的车辆同行分析方法,其特征在于,步骤4中,通过上层大数据分析引擎获取hive中的数据具体为:上层大数据分析引擎执行分析任务第一次加载数据时,从hive中扫描读取目标数据,并在alluxio分布式缓存中进行缓存,上层大数据分析引擎在后面执行分析任务时,如果目标数据在alluxio分布式缓存中存在,则直接从alluxio分布式缓存中直接读取,否则就从hdfs中加载。
6.根据权利要求5所述的基于大数据的车辆同行分析方法,其特征在于,所述方法包括:手动加载hdfs中的数据到alluxio分布式缓存中。
7.根据权利要求5所述的基于大数据的车辆同行分析方法,其特征在于,上层大数据分析引擎采用presto大数据分析引擎,presto大数据分析引擎的分布式节点与alluxio分布式缓存中的分布式节点同置。
8.根据权利要求5所述的基于大数据的车辆同行分析方法,其特征在于,alluxio分布式缓存支持横向扩展节点,并根据场景需求动态配置。
9.根据权利要求1所述的基于大数据的车辆同行分析方法,其特征在于,步骤4中,进行车辆同行分析具体为:根据同行车辆定义设置车牌号码、时间维度、去重时间间隔误差以及跟车卡口数执行车辆同行分析。
10.根据权利要求1所述的基于大数据的车辆同行分析方法,其特征在于,所述方法还包括:上层大数据分析引擎配置hive连接和外部mysql数据源连接,通过配置hive连接和外部mysql数据源连接,获取车辆结构化数据和外部mysql数据,通过车辆结构化数据和外部mysql数据进行车辆同行分析,其中,所述外部mysql数据包括车辆信息码表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329024.3A CN112347200A (zh) | 2020-11-24 | 2020-11-24 | 一种基于大数据的车辆同行分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329024.3A CN112347200A (zh) | 2020-11-24 | 2020-11-24 | 一种基于大数据的车辆同行分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347200A true CN112347200A (zh) | 2021-02-09 |
Family
ID=74365667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011329024.3A Pending CN112347200A (zh) | 2020-11-24 | 2020-11-24 | 一种基于大数据的车辆同行分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347200A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563191A (zh) * | 2022-11-21 | 2023-01-03 | 广东盈峰科技有限公司 | 水环境项目中多类型数据库表混合关联查询的方法与系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012128651A1 (en) * | 2011-03-24 | 2012-09-27 | Business Intelligence Solutions Safe B.V. | An improved system and method for analysing data from multiple perspectives |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
US9501585B1 (en) * | 2013-06-13 | 2016-11-22 | DataRPM Corporation | Methods and system for providing real-time business intelligence using search-based analytics engine |
CN107798142A (zh) * | 2017-11-24 | 2018-03-13 | 泰华智慧产业集团股份有限公司 | 基于大数据分析隐匿车辆的方法及装置 |
CN110377595A (zh) * | 2019-07-24 | 2019-10-25 | 浙江吉利汽车研究院有限公司 | 一种车辆数据管理系统 |
CN110517503A (zh) * | 2019-08-28 | 2019-11-29 | 武汉烽火众智数字技术有限责任公司 | 基于大数据的僵尸车分析预警方法及装置 |
US20200159726A1 (en) * | 2015-09-04 | 2020-05-21 | Pure Storage, Inc. | Dynamically resizable structures for approximate membership queries |
-
2020
- 2020-11-24 CN CN202011329024.3A patent/CN112347200A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012128651A1 (en) * | 2011-03-24 | 2012-09-27 | Business Intelligence Solutions Safe B.V. | An improved system and method for analysing data from multiple perspectives |
US9501585B1 (en) * | 2013-06-13 | 2016-11-22 | DataRPM Corporation | Methods and system for providing real-time business intelligence using search-based analytics engine |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
US20200159726A1 (en) * | 2015-09-04 | 2020-05-21 | Pure Storage, Inc. | Dynamically resizable structures for approximate membership queries |
CN107798142A (zh) * | 2017-11-24 | 2018-03-13 | 泰华智慧产业集团股份有限公司 | 基于大数据分析隐匿车辆的方法及装置 |
CN110377595A (zh) * | 2019-07-24 | 2019-10-25 | 浙江吉利汽车研究院有限公司 | 一种车辆数据管理系统 |
CN110517503A (zh) * | 2019-08-28 | 2019-11-29 | 武汉烽火众智数字技术有限责任公司 | 基于大数据的僵尸车分析预警方法及装置 |
Non-Patent Citations (2)
Title |
---|
康耀龙等: ""路况大数据分析平台的设计与实现"", 《电子技术与软件工程》 * |
康耀龙等: ""路况大数据分析平台的设计与实现"", 《电子技术与软件工程》, 31 March 2020 (2020-03-31), pages 200 - 201 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563191A (zh) * | 2022-11-21 | 2023-01-03 | 广东盈峰科技有限公司 | 水环境项目中多类型数据库表混合关联查询的方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657049B (zh) | 一种基于数据仓库的数据处理方法 | |
CN109916413B (zh) | 基于网格划分的道路匹配方法、系统、装置和存储介质 | |
CN105550225B (zh) | 索引构建方法、查询方法及装置 | |
US20220214182A1 (en) | Method, system, terminal, and storage medium for rapid generation of reference lines | |
Chen et al. | Distributed modeling in a MapReduce framework for data-driven traffic flow forecasting | |
US9223801B2 (en) | Information management method and information management apparatus | |
CN110309233B (zh) | 数据存储的方法、装置、服务器和存储介质 | |
CN107077480A (zh) | 基于查询需求自适应地从当前时间的行存储数据库中构建列存储数据库的方法和系统 | |
CN111241350B (zh) | 图数据查询方法、装置、计算机设备和存储介质 | |
CN103970902A (zh) | 一种大量数据情况下的可靠即时检索方法及系统 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN104809244A (zh) | 一种大数据环境下的数据挖掘方法和装置 | |
CN115062016A (zh) | 关联关系提取方法、装置和计算机设备 | |
CN106970937B (zh) | 一种基于本地缓存快速建立索引的方法及系统 | |
CN112347200A (zh) | 一种基于大数据的车辆同行分析方法 | |
Cho et al. | A basis of spatial big data analysis with map-matching system | |
CN104573082A (zh) | 基于访问日志信息的空间小文件数据分布存储方法及系统 | |
Tang et al. | On discovering motifs and frequent patterns in spatial trajectories with discrete Fréchet distance | |
Xiong et al. | ShenZhen transportation system (SZTS): a novel big data benchmark suite | |
CN116226553A (zh) | 轨迹查询方法和装置、存储介质 | |
CN116664025A (zh) | 装卸货位置点生成方法、装置及设备 | |
US20240153265A1 (en) | Road data processing method, device, and storage medium | |
Dong et al. | GAT: A unified GPU-accelerated framework for processing batch trajectory queries | |
CN114637929A (zh) | 一种基于ElasticSearch的轨迹碰撞方法 | |
Wang et al. | A Second-Order HMM Trajectory Prediction Method based on the Spark Platform. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210209 |
|
RJ01 | Rejection of invention patent application after publication |