CN112347200A

CN112347200A - 一种基于大数据的车辆同行分析方法

Info

Publication number: CN112347200A
Application number: CN202011329024.3A
Authority: CN
Inventors: 李辰; 贺珊; 张龙涛; 杨光; 吕峰; 杨玲
Original assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Current assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-09

Abstract

一种基于大数据的车辆同行分析方法，所述方法包括：步骤1，将过车数据以结构化数据形式存储在hdfs或ftp服务器中，作为车辆结构化数据；步骤2，在hive中根据车辆结构化数据信息建立内部表，将车辆结构化数据导入新建的hive内部表中；步骤3，在hive之上增加alluxio分布式缓存，将hive内部表数据存储位置指向alluxio分布式缓存；步骤4，上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据，进行车辆同行分析。本发明基于大数据分布式计算、存储框架，能匹配多种数据源数据结合车辆结构化数据进行分析，比传统的分析方法更加高效、稳定、扩展性强。

Description

一种基于大数据的车辆同行分析方法

技术领域

本发明涉及大数据分析、数据挖掘领域，具体涉及一种基于大数据的车辆同行分析方法。

背景技术

现代社会道路监控技术发展的同时，违法犯罪行为与车辆、交通系统的联系也越来越密切。同行车辆是一个交通术语，是指在一定时间内与追踪车辆以一定规则存在同行关系的车辆。如果事先知道涉案车辆的车牌号，可以直接通过查询车牌识别数据找出其同行车辆。但是车辆数据规模庞大，怎么花费尽可能少的时间和资源来分析这些数据，得到准确的分析结果，是一个需要持续关注的问题。

通常车辆同行分析方式有的是将每辆车的过车数据根据一定信息标识进行聚合，计算出行车轨迹并存储，根据各时间点卡口重合度得出同行车辆信息，这种方式需要对数据做预计算处理，并对结果做额外的存储，不够灵活。有的是将车辆过车数据存储在数据仓库中，通过开源分析引擎将数据分批加载到内存或写文件方式进行车辆同行分析，但是数据间分析的相关性、数据加载开销、多源数据等问题没有一个完善的方案。

发明内容

鉴于现有技术中存在的技术缺陷和技术弊端，本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种基于大数据的车辆同行分析方法，具体方案如下：

一种基于大数据的车辆同行分析方法，所述方法包括：

步骤1，将过车数据以结构化数据形式存储在hdfs或ftp服务器中，作为车辆结构化数据；

步骤2，在hive中根据车辆结构化数据信息建立内部表，将车辆结构化数据导入新建的hive内部表中；

步骤3，在hive之上增加alluxio分布式缓存，将hive内部表数据存储位置指向alluxio分布式缓存；

步骤4，上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据，进行车辆同行分析。

进一步地，步骤1中，所述车辆结构化数据以文本方式存储，每条车辆结构化数据采用json格式或分隔符分割字段形式保存在文本中，车辆结构化数据中包含车牌号码、卡口标识、抓拍时间以及车辆类型信息。

进一步地，步骤2中，hive的内部表根据车辆结构化数据量大小按照抓拍时间字段按天或按小时的粒度设置分区，同时根据卡口标识和车牌号码字段设置数据的分桶。

进一步地，步骤2中，将车辆结构化数据导入新建的hive内部表中时，车辆结构化数据在磁盘存储时做压缩处理。

进一步地，步骤4中，通过上层大数据分析引擎获取hive中的数据具体为：上层大数据分析引擎执行分析任务第一次加载数据时，从hive中扫描读取目标数据，并在alluxio分布式缓存中进行缓存，上层大数据分析引擎在后面执行分析任务时，如果目标数据在alluxio分布式缓存中存在，则直接从alluxio分布式缓存中直接读取，否则就从hdfs中加载。

进一步地，所述方法包括：手动加载hdfs中的数据到alluxio分布式缓存中。

进一步地，上层大数据分析引擎采用presto大数据分析引擎，presto大数据分析引擎分布式节点与alluxio分布式缓存中的分布式节点同置。

进一步地，alluxio分布式缓存支持横向扩展节点，并根据场景需求动态配置。

进一步地，步骤4中，进行车辆同行分析具体为：根据同行车辆定义设置车牌号码、时间维度、去重时间间隔误差Tms以及跟车卡口数执行车辆同行分析。

进一步地，所述方法还包括：上层大数据分析引擎配置hive连接和外部mysql数据源连接，通过配置hive连接和外部mysql数据源连接，获取车辆结构化数据和外部mysql数据，通过车辆结构化数据和外部mysql数据进行车辆同行分析，其中，所述外部mysql数据包括车辆信息码表。

本发明具有以下有益效果：

1.对数据存储做分区分桶并压缩处理，通过分布式缓存，能极大提升数据扫描加载速度；

2.对数据内容存储进行分类，相关度较高的数据集中存储，能避免过度的分布式节点间数据流动，提升分析效率；

3.基于大数据mpp架构内存分布式计算、存储框架，能匹配多种数据源数据结合车辆结构化数据进行分析，比传统的分析方法更加高效、稳定、扩展性强。

附图说明

图1为本发明实施例提供的一种基于大数据的车辆同行分析方法示意图流程图；

图2为本发明实施例提供的基于大数据的车辆同行分析方法的分析结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1-2所示，本发明实施例提供的一种基于大数据的车辆同行分析方法，所述方法包括：

步骤4，上层大数据分析引擎通过alluxio分布式缓存获取车辆结构化数据，根据同行车辆定义设置车牌号码、时间维度、去重时间间隔误差以及跟车卡口数等N个过滤条件执行车辆同行分析。

其中，hive(数据仓库工具)是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制，hive数据仓库工具能将结构化的数据文件映射为一张数据库表。

其中，步骤1中，所述车辆结构化数据以文本方式存储，每条车辆结构化数据采用json格式或分隔符分割字段形式保存在文本中，车辆结构化数据中包含车牌号码、卡口标识、抓拍时间以及车辆类型信息。

其中，步骤2中，hive的内部表根据车辆结构化数据量大小按照抓拍时间字段按天或按小时的粒度设置分区，通过时间分区可以减少时间维度分析条件数据扫描消耗时间，同时根据卡口标识和车牌号码字段设置数据的分桶，通过数据分桶，相同时间段以及相同卡口的车辆数据会在磁盘块中顺序存储，在做目标车辆关联数据加载时，可以避免离散的全表扫描，数据在磁盘存储时做压缩处理，降低数据块大小，能够提升数据加载速度。

其中，步骤4中，通过上层大数据分析引擎获取hive中的数据具体为：上层大数据分析引擎执行分析任务第一次加载数据时，从hive中扫描读取目标数据，并在alluxio分布式缓存中进行缓存，上层大数据分析引擎在后面执行分析任务时，如果目标数据在alluxio分布式缓存中存在，则直接从alluxio分布式缓存中直接读取，否则就从hdfs中加载，所以尽可能缓存需要参与分析计算的热数据，由于数据块经过压缩，缓存消耗较小，支持手动加载hdfs中数据到alluxio缓存中，同时alluxio缓存支持横向扩展节点，能根据场景需求动态配置。

其中，上层大数据分析引擎采用presto大数据分析引擎，presto大数据分析引擎分布式节点与alluxio分布式缓存中的分布式节点同置，可以本地化加载alluxio缓存中的数据，提高分析效率。车辆信息码表一般存储在外部数据源关系型数据库中，presto大数据分析引擎能够配置获取hive元数据和外部数据源元数据信息，将车辆同行分析结果和车辆信息码表做关联返回给控制台。

具体地，假设本发明中车辆结构化数据存储在hdfs上，创建hive外部表，外部表包含车辆车牌、卡口id、抓拍时间、车辆类型等关键字段信息，同时按天对数据进行分区。外部表数据格式如下：

创建hive内部表，按天分区，分桶个数为128个(分区粒度、分桶个数根据实际数据量设置，分桶键为卡口id，分桶数据按抓拍时间降序排列，如：CLUSTEREDBY(pu_id)SORTEDBY(pass_timeDESC)INTO128BUCKETS)，采用snappy算法压缩数据，orc格式存储数据，数据存储位置指向alluxio分布式缓存，如：alluxio://x.x.x.x:19998/dw_vehicle_search_alluxio，从hive外部表中根据过滤条件，选择目标数据集导入车辆结构化数据到hive内部表，内部表数据格式如下：

主键	车牌	抓拍时间	卡口id	车辆类型	……
						1	鄂A11111_蓝	2020-05-1211:53:05	D<sub>1</sub>	1
2	鄂A11111_蓝	2020-06-1215:53:06	D<sub>2</sub>	1
						3	鄂A22222_蓝	2020-05-1211:53:08	D<sub>1</sub>	2
4	鄂A22222_蓝	2020-06-1215:53:09	D<sub>2</sub>	2

但是存储方式和外部表不同,hive中除了有2020-05-12分区目录外，对这个日期下数据还做了D1分桶，并且按照抓拍时间做降序排列，同时对数据进行固定格式压缩，方便节点间传输。同时alluxio和hive有映射关系，写入hive的数据都会经过alluxio分布式缓存再持久化到hive中。

使用presto大数据分析引擎配置hive连接和外部mysql数据源连接，presto大数据分析引擎可以获取到hive和外部mysql数据源元数据信息，车辆信息码表存储在外部mysql数据源中，车辆信息码表格式如下：

主键	类型标识	类型编码	类型名称	……
					1	VehicleType	1	小汽车
2	VehicleType	1	小汽车
					3	VehicleType	2	小货车
4	VehicleType	2	小货车

根据同行车辆定义可以通过设置车牌号码、时间维度、去重时间间隔误差Tms、跟车卡口数N个等过滤条件执行车辆同行分析，查询的数据目标经过分区、分桶匹配缩小目标数据集，如果还在alluxio缓存中，会极大提升查询效率。

presto大数据分析引擎可以将同行分析结果数据结合车辆码表数据做关联查询，还可以融合多个数据源中存储的其他信息，把最终结果返回给上层应用层程序，避免了上层应用层通过程序逻辑对多个数据源关联数据进行融合，而且方式简洁、执行效率高。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的车辆同行分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于大数据的车辆同行分析方法，其特征在于，步骤1中，所述车辆结构化数据以文本方式存储，每条车辆结构化数据采用json格式或分隔符分割字段形式保存在文本中，车辆结构化数据中包含车牌号码、卡口标识、抓拍时间以及车辆类型信息。

3.根据权利要求2所述的基于大数据的车辆同行分析方法，其特征在于，步骤2中，hive的内部表根据车辆结构化数据量大小按照抓拍时间字段按天或按小时的粒度设置分区，同时根据卡口标识和车牌号码字段设置数据的分桶。

4.根据权利要求2所述的基于大数据的车辆同行分析方法，其特征在于，步骤2中，将车辆结构化数据导入新建的hive内部表中时，对车辆结构化数据在磁盘存储时做压缩处理。

5.根据权利要求1所述的基于大数据的车辆同行分析方法，其特征在于，步骤4中，通过上层大数据分析引擎获取hive中的数据具体为：上层大数据分析引擎执行分析任务第一次加载数据时，从hive中扫描读取目标数据，并在alluxio分布式缓存中进行缓存，上层大数据分析引擎在后面执行分析任务时，如果目标数据在alluxio分布式缓存中存在，则直接从alluxio分布式缓存中直接读取，否则就从hdfs中加载。

6.根据权利要求5所述的基于大数据的车辆同行分析方法，其特征在于，所述方法包括：手动加载hdfs中的数据到alluxio分布式缓存中。

7.根据权利要求5所述的基于大数据的车辆同行分析方法，其特征在于，上层大数据分析引擎采用presto大数据分析引擎，presto大数据分析引擎的分布式节点与alluxio分布式缓存中的分布式节点同置。

8.根据权利要求5所述的基于大数据的车辆同行分析方法，其特征在于，alluxio分布式缓存支持横向扩展节点，并根据场景需求动态配置。

9.根据权利要求1所述的基于大数据的车辆同行分析方法，其特征在于，步骤4中，进行车辆同行分析具体为：根据同行车辆定义设置车牌号码、时间维度、去重时间间隔误差以及跟车卡口数执行车辆同行分析。

10.根据权利要求1所述的基于大数据的车辆同行分析方法，其特征在于，所述方法还包括：上层大数据分析引擎配置hive连接和外部mysql数据源连接，通过配置hive连接和外部mysql数据源连接，获取车辆结构化数据和外部mysql数据，通过车辆结构化数据和外部mysql数据进行车辆同行分析，其中，所述外部mysql数据包括车辆信息码表。