CN107862867A

CN107862867A - 基于大数据进行初次入城车辆分析的方法及系统

Info

Publication number: CN107862867A
Application number: CN201711091114.1A
Authority: CN
Inventors: 李占强; 辛国茂; 李善宝; 马述杰
Original assignee: Taihua Wisdom Industry Group Co Ltd
Current assignee: Taihua Wisdom Industry Group Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-30
Anticipated expiration: 2037-11-08
Also published as: CN107862867B

Abstract

本申请公开一种基于大数据进行初次入城车辆分析的方法及系统，方法包括：采集车辆信息数据并将车辆信息数据随机传递到分布式列存储数据库中的各处理节点；各处理节点并行工作，各所述处理节点中的数据存储单元分别接收并分类存储车辆信息数据，触发数据处理单元使数据处理单元计算[s，e]时间范围内的车牌号集合U以及[s‑h，s)时间范围内车牌号集合V，计算U‑V，并将差集U‑V和[s‑h，s)时间范围内车牌号集合V发送至客户端；客户端对各差集U‑V和集合V进行汇总，形成集合U1和V1；通过计算U1‑V1获得[s，e]时间范围内初次入城的车辆的车牌号集合R。如此解决了现有技术中无法基于大数据进行复杂查询的问题。

Description

基于大数据进行初次入城车辆分析的方法及系统

技术领域

本申请涉及公共安全领域，具体地说，涉及一种基于大数据进行初次入城车辆分析的方法及系统。

背景技术

近年来随着人们消费理念的转变和消费水平的提高、轨道交通的加宽和拓展等因素使得私家车越来越普及。但是私家车在给人们的生活带来便利的同时也给违法分子提供了一款作案工具，进而对公安部门的案件侦破带来了一大难题。现如今城市日过车数量基数巨大，如何在如此大基数的过车数据中挖掘出涉案车辆成为了困扰公安部门的一大难题。

所谓初次入城的车辆指的是在指定时间范围内出现出现过，但是在往前追溯的指定时间范围内没有出现过的车辆。更加严谨的表述如下：指定开始时间s、结束时间e、回溯时长h，那么在[s,e]时间范围内出现过，在[s-h,s)时间范围内没有出现过的车辆，我们称之为符合条件的初次入城的车辆。初次入城车辆作为涉案车辆比较高的群体而备受公安部门的关注。入城踩点、跨城逃窜、套牌车辆在一定程度上都属于初次入城车辆。

传统的排查初次入城车辆的方法是基于传统关系型数据库(RDBMS，RelationalDatabase Management System)的，如Oracle、MySQL等，首先从数据库中查询出[s,e]时间范围内经过的所有车牌号集合U，然后查询出[s-h,s)范围内的所有过车的车牌号V，最后求出集合U和集合V的差集就是符合条件的初次入城的车辆。这种方式在数据量不大的情况下是没有问题，但是随着数据量的逐渐增大，传统的数据库技术很难解决基于大数据的复杂查询。

因此，如何基于大数据进行初次入城车辆的分析成为现阶段亟待解决的技术问题。

发明内容

有鉴于此，本申请所要解决的技术问题是提供了一种基于大数据进行初次入城车辆分析的方法及系统，解决了现有技术中无法基于大数据进行复杂查询的技术问题，而且计算速度快、稳定性高，能够自动筛选出初次入城的车辆，减少了公安部门破案任务的复杂性。

为了解决上述技术问题，本申请有如下技术方案：

第一方面，本申请提供一种基于大数据进行初次入城车辆分析的方法，包括：

通过监控设备采集经过卡口的车辆信息数据，并将所述车辆信息数据随机传递到分布式列存储数据库中的若干处理节点，各处理节点包括数据存储单元和数据处理单元，所述车辆信息数据包括：车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、过车时间、卡口编号；

所述分布式列存储数据库中的若干处理节点并行工作，各所述处理节点中的数据存储单元分别接收所述车辆信息数据，按照预设的数据存储规则对所述车辆信息数据进行分类有序存储，并在接收到所述车辆信息数据后触发对应的数据处理单元，所述数据处理单元根据预设的开始时间s、结束时间e、回溯时长h、车辆出现次数t，分别计算[s，e]时间范围内的车牌号集合U以及[s-h，s)时间范围内车牌号集合V，计算U-V，其中，U-V代表集合U和集合V的差集，并将差集U-V和[s-h，s)时间范围内车牌号集合V发送至客户端；

所述客户端汇总各所述处理节点处的所述数据处理单元发送的差集U-V，并对多个差集U-V取并集，形成集合U1；所述客户端同时汇总各所述处理节点处的[s-h，s)时间范围内车牌号集合V，并对多个集合V取并集，形成集合V1；

所述客户端对集合U1和集合V1进行处理，通过计算U1-V1获得[s，e]时间范围内初次入城的车辆的车牌号集合R，其中U1-V1为集合U1和集合V1的差集；

将所述初次入城的车辆的车牌号集合R进行展示。

可选地，其中：

所述预设的数据存储规则与检索查询项目对应，所述检索查询项目包括所述所述车辆信息数据中的一项或多项的组合。

可选地，其中：

所述检索查询项目包括过车时间、车牌号和卡口编号中的一项或多项的组合。

可选地，其中：

当所述分布式列存储数据库中的任一所述处理节点出现故障时，故障的所述处理节点将自动将其内部所存储的数据传递至其他正常工作的处理节点。

第二方面，本申请提供一种基于大数据进行初次入城车辆分析的系统，其特征在于，包括：

监控设备，用于采集经过卡口的车辆信息数据，并将所述车辆信息数据随机传递到分布式列存储数据库中的若干处理节点，各处理节点包括数据存储单元和数据处理单元，所述车辆信息数据包括：车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、过车时间、卡口编号；

分布式列存储数据库，所述分布式列存储数据库包括若干处理节点，各所述处理节点并行工作，所述处理节点包括数据存储单元和数据处理单元，各所述处理节点中的数据存储单元分别用于接收所述车辆信息数据，按照预设的数据存储规则对所述车辆信息数据进行分类有序存储，并用于在接收到所述车辆信息数据后触发对应的数据处理单元；所述数据处理单元用于根据预设的开始时间s、结束时间e、回溯时长h、车辆出现次数t，分别计算[s，e]时间范围内的车牌号集合U以及[s-h，s)时间范围内车牌号集合V，并计算U-V，其中，U-V代表集合U和集合V的差集，所述数据处理单元还用于将差集U-V和[s-h，s)时间范围内车牌号集合V发送至客户端；

客户端，用于汇总各所述处理节点处的所述数据处理单元发送的差集U-V，并对多个差集U-V取并集，形成集合U1；所述客户端还用于汇总各所述处理节点处的[s-h，s)时间范围内车牌号集合V，并对多个集合V取并集，形成集合V1；所述客户端还用于对集合U1和集合V1进行处理，通过计算U1-V1获得[s，e]时间范围内初次入城的车辆的车牌号集合R，其中U1-V1为集合U1和集合V1的差集，并将所述初次入城的车辆的车牌号集合R进行展示。

可选地，其中：

所述检索查询项目包括过车时间、车牌号和卡口中的一项或多项的组合。

可选地，其中：

当所述分布式列存储数据库中的任一所述处理节点出现故障时，故障的所述处理节点用于将自动将其内部所存储的数据传递至其他正常工作的处理节点。

与现有技术相比，本申请所述的方法及系统，达到了如下效果：

第一，本发明所提供的基于大数据进行初次入城车辆分析的方法及系统，在大数据前提下能够自动筛选出初次入城车辆，减少了公安部门破案任务的复杂性，有利于案件快速侦破。

第二，本发明所提供的基于大数据进行初次入城车辆分析的方法及系统，若干处理节点并行工作，计算速度快，能够自动过滤掉大部分不符合条件的数据，较快地筛选出初次入城的车辆。

第三，本发明所提供的基于大数据进行初次入城车辆分析的方法及系统，稳定性高，即使有某个处理节点出现故障，该故障的处理节点也能够自动将其上所存储的数据发送到其他正常的处理节点进行处理，有利于提高计算的稳定性以及系统的稳定性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1所示为本申请实施例中所述一种基于大数据进行初次入城车辆分析的方法的流程图；

图2所示为本申请实施例中所述一种基于大数据进行初次入城车辆分析的系统的一种结构图；

图3所示为将HBase应用于本申请基于大数据进行初次入城车辆分析的系统的一种结构图；

图4所示为计算初次入城车辆的一种时间分布示意图；

图5所示为本申请实施例中所述一种基于大数据进行初次入城车辆分析的方法的另一种流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

实施例1

参见图1所示为本申请实施例中所述一种基于大数据进行初次入城车辆分析的方法的流程图，参见图1，该方法包括：

步骤101、通过监控设备采集经过卡口的车辆信息数据，并将车辆信息数据随机传递到分布式列存储数据库中的若干处理节点，各处理节点包括数据存储单元和数据处理单元，车辆信息数据包括：车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、过车时间、卡口编号；

步骤102、分布式列存储数据库中的若干处理节点并行工作，各处理节点中的数据存储单元分别接收车辆信息数据，按照预设的数据存储规则对车辆信息数据进行分类有序存储，并在接收到车辆信息数据后触发对应的数据处理单元，数据处理单元根据预设的开始时间s、结束时间e、回溯时长h、车辆出现次数t，分别计算[s，e]时间范围内的车牌号集合U以及[s-h，s)时间范围内车牌号集合V，计算U-V，其中，U-V代表集合U和集合V的差集，并将差集U-V和[s-h，s)时间范围内车牌号集合V发送至客户端；

步骤103、客户端汇总各节点处的数据处理单元发送的差集U-V，并对多个差集U-V取并集，形成集合U1；客户端同时汇总各节点处的[s-h，s)时间范围内车牌号集合V，并对多个集合V取并集，形成集合V1；

步骤104、客户端对集合U1和集合V1进行处理，通过计算U1-V1获得[s，e]时间范围内初次入城的车辆的车牌号集合R，其中U1-V1为集合U1和集合V1的差集；

步骤105、将初次入城的车辆的车牌号集合R进行展示。

具体地，本申请基于大数据进行初次入城车辆分析的方法中，步骤101通过监控设备采集经过卡口的车辆信息数据，并将车辆信息数据随机传递到分布式存储数据库中的若干处理节点，每个处理节点均处理一部分车辆信息数据，因此每个处理节点处理的均不是完整的车辆信息数据。此处的监控设备例如可以是电子警察、高空球及视频监控等，监控设备所采集的车辆信息数据包含但不限于车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、过车时间、卡口编号等等。本申请中分布式列存储数据库中各处理节点均是分布式排列的，各处理节点是并行工作的，本申请将监控设备采集到的车辆信息数据随机分配到不同的处理节点进行处理，多个处理节点并行对车辆信息数据进行处理，即使采集到大量的车辆信息数据也能够及时进行处理，不会影响数据处理进度。

上述步骤102中，各处理节点中的数据处理单元在接收到车辆信息数据后，会按照预设的数据存储规则对车辆信息数据进行分类有序存储，将复杂的车辆信息数据分类有序存储后，再进行数据检索时，有利于缩短检索时间，提高检索速率。数据存储单元在接收到车辆信息数据后会触发与其对应的数据处理单元，使数据处理单元根据预设的开始时间s、结束时间e、回溯时长h、车辆出现次数t，分别计算[s，e]时间范围内的车牌号集合U以及[s-h，s)时间范围内车牌号集合V，也就是分别计算预设时间范围内[s，e]的车牌号集合U以及从预设时间范围内往前追溯一定时间h的时间范围内[s-h，s)的车牌号集合V。计算集合U和集合V的差集，即U-V，也就是从[s，e]时间范围内的车牌号集合U中去除一部分车牌号，去除的这部分车牌号同时出现在[s-h，s)时间范围内车牌号集合V中。例如，当[s，e]时间范围内的车牌号集合U包括{A1,A2,A3,A4,A5}，[s-h，s)时间范围内的车牌号集合V包括{A4,A5,A6,A7,A8}，，集合U-V将包括{A1,A2,A3}。需要说明的是，为方便表示，本申请仅用A1、A2、A3……的形式来代表车牌号。在计算完成后，数据处理单元将差集U-V和[s-h，s)时间范围内车牌号集合V发送至客户端。

上述步骤103中，客户端汇总各处理节点所发来的差集U-V，并将各处理节点所发来的差集U-V取并集，形成集合U1；同时汇总各处理节点所发来的集合V，取并集形成集合V1。考虑到每个处理节点所处理的车辆信息数据均不是完整的车辆信息数据，客户端同时汇总各处理节点所发来的差集U-V和集合V，有利于确保所处理数据的完整性，使得后续得出的初次入城车辆的车牌号信息更为准确。

上述步骤104中，在获得到集合U1和V1后，即得到了[s，e]时间范围内的所有车牌号集合以及[s-h，s)时间范围内的所有车牌号集合，对集合U1和V1取差集即得到了[s，e]时间范围内初次入城的车辆的车牌号集合。通过此种方法计算得到的初次入城车辆的车牌号集合，准确性高，计算速度快。

可选地，上述步骤101中，预设的数据存储规则与检索查询项目对应，检索查询项目包括车辆信息数据中的一项或多项的组合。也就是说，在获得车辆信息数据后，每个车辆信息数据中的各项子数据将会自动分类有序存储，分类有序存储的方式可以大大节省检索时间，提高获得初次入城车辆的车牌号集合的处理速率。例如，想要获得某一时间范围内通过某一卡口的颜色为白色的车辆时，只需输入时间范围、卡口编号和车辆颜色即可快速搜索出对应的车牌号集合。

可选地，检索查询项目包括过车时间、车牌号和卡口编号中的一项或多项的组合。具体地，考虑到本申请是需要对某一时间范围内初次入城车辆的统计，因此，在将车辆信息数据进行存储时，可按照过车时间、车牌号和卡口编号对车辆信息数据进行存储，在进行初次入城车辆统计时，只需要输入卡口编号和对应的时间范围，就得得到相应的车牌号集合，应用非常方便，而且检索速度快，效率高。

可选地，当分布式列存储数据库中的任一处理节点出现故障时，故障的处理节点将自动将其内部所存储的数据传递至其他正常工作的处理节点。

具体地，由于本申请分布式列存储数据库中的处理节点均是并行工作的，各个处理节点之间不会相互影响，当某个处理节点出现故障无法进行数据存储或数据处理时，该处理节点将能够自动将其内部存储的车辆信息数据传递到其他正常工作的处理节点进行处理，采用此种冗余设计的方式，大大避免了某一处理节点故障而导致结果数据不准确的现象，同时也有利于提高数据处理的稳定性。

实施例2

图2所示为本申请实施例中所述一种基于大数据进行初次入城车辆分析的系统的一种结构图，参见图2，本申请还提供了一种基于大数据进行初次入城车辆分析的系统100，包括：

监控设备10，用于采集经过卡口的车辆信息数据，并将车辆信息数据随机传递到分布式列存储数据库中的若干处理节点20，各处理节点20包括数据存储单元21和数据处理单元22，车辆信息数据包括：车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、过车时间、卡口编号；

分布式列存储数据库，分布式列存储数据库包括若干处理节点20，各处理节点20并行工作，处理节点20包括数据存储单元21和数据处理单元22，各处理节点20中的数据存储单元21分别用于接收车辆信息数据，按照预设的数据存储规则对车辆信息数据进行分类有序存储，并用于在接收到车辆信息数据后触发对应的数据处理单元22；数据处理单元22用于根据预设的开始时间s、结束时间e、回溯时长h、车辆出现次数t，分别计算[s，e]时间范围内的车牌号集合U以及[s-h，s)时间范围内车牌号集合V，并计算U-V，其中，U-V代表集合U和集合V的差集，数据处理单元22还用于将差集U-V和[s-h，s)时间范围内车牌号集合V发送至客户端30；

客户端30，用于汇总各节点处的数据处理单元22发送的差集U-V，并对多个差集U-V取并集，形成集合U1；客户端30还用于汇总各节点处的[s-h，s)时间范围内车牌号集合V，并对多个集合V取并集，形成集合V1；客户端30还用于对集合U1和集合V1进行处理，通过计算U1-V1获得[s，e]时间范围内初次入城的车辆的车牌号集合R，其中U1-V1为集合U1和集合V1的差集，并将初次入城的车辆的车牌号集合R进行展示。

具体地，本申请基于大数据进行初次入城车辆分析的系统100包括监控设备10、分布式列存储数据库和客户端30。通过监控设备10采集经过卡口的车辆信息数据，并将车辆信息数据随机传递到分布式存储数据库中的若干处理节点20，每个处理节点20均处理一部分车辆信息数据，因此每个处理节点20处理的均不是完整的车辆信息数据。此处的监控设备10例如可以是电子警察、高空球及视频监控等，监控设备10所采集的车辆信息数据包含但不限于车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、过车时间、卡口编号等等。本申请中分布式列存储数据库中各处理节点20均是分布式排列的，各处理节点20是并行工作的，本申请将监控设备10采集到的车辆信息数据随机分配到不同的处理节点20进行处理，多个处理节点20并行对车辆信息数据进行处理，即使采集到大量的车辆信息数据也能够及时进行处理，不会影响数据处理进度。

各处理节点20中的数据处理单元22用于在接收到车辆信息数据后，按照预设的数据存储规则对车辆信息数据进行分类有序存储，将复杂的车辆信息数据分类有序存储后，再进行数据检索时，有利于缩短检索时间，提高检索速率。数据存储单元21在接收到车辆信息数据后会触发与其对应的数据处理单元22，使数据处理单元22根据预设的开始时间s、结束时间e、回溯时长h、车辆出现次数t，分别计算[s，e]时间范围内的车牌号集合U以及[s-h，s)时间范围内车牌号集合V，也就是分别计算预设时间范围内[s，e]的车牌号集合U以及从预设时间范围内往前追溯一定时间h的时间范围内[s-h，s)的车牌号集合V。计算集合U和集合V的差集，即U-V，也就是从[s，e]时间范围内的车牌号集合U中去除一部分车牌号，去除的这部分车牌号同时出现在[s-h，s)时间范围内车牌号集合V中。例如，当[s，e]时间范围内的车牌号集合U包括{A1,A2,A3,A4,A5}，[s-h，s)时间范围内的车牌号集合V包括{A4,A5,A6,A7,A8}时，集合U-V将包括{A1,A2,A3}。需要说明的是，为方便表示，本申请仅用A1、A2、A3……的形式来代表车牌号。在计算完成后，数据处理单元22将差集U-V和[s-h，s)时间范围内车牌号集合V发送至客户端30。

客户端30用于汇总各处理节点20所发来的差集U-V，并将各处理节点20所发来的差集U-V取并集，形成集合U1；同时汇总各处理节点20所发来的集合V，取并集形成集合V1。考虑到每个处理节点20所处理的车辆信息数据均不是完整的车辆信息数据，客户端30同时汇总各处理节点20所发来的差集U-V和集合V，有利于确保所处理数据的完整性，使得后续得出的初次入城车辆的车牌号信息更为准确。

在获得到集合U1和V1后，即得到了[s，e]时间范围内的所有车牌号集合以及[s-h，s)时间范围内的所有车牌号集合，客户端30对集合U1和V1取差集即得到了[s，e]时间范围内初次入城的车辆的车牌号集合。通过此种方式计算得到的初次入城车辆的车牌号集合，准确性高，计算速度快。

可选地，预设的数据存储规则与检索查询项目对应，检索查询项目包括车辆信息数据中的一项或多项的组合。也就是说，在获得车辆信息数据后，每个车辆信息数据中的各项子数据将会自动分类有序存储，分类有序存储的方式可以大大节省检索时间，提高获得初次入城车辆的车牌号集合的处理速率。例如，想要获得某一时间范围内通过某一卡口的颜色为白色的车辆时，只需输入时间范围、卡口编号和车辆颜色即可快速搜索出对应的车牌号集合。

可选地，检索查询项目包括过车时间、车牌号和卡口中的一项或多项的组合。具体地，考虑到本申请是需要对某一时间范围内初次入城车辆的统计，因此，在将车辆信息数据进行存储时，可按照过车时间、车牌号和卡口编号对车辆信息数据进行存储，在进行初次入城车辆统计时，只需要输入卡口编号和对应的时间范围，就得得到相应的车牌号集合，应用非常方便，而且检索速度快，效率高。

可选地，当分布式列存储数据库中的任一处理节点20出现故障时，故障的处理节点20用于将自动将其内部所存储的数据传递至其他正常工作的处理节点20。

具体地，由于本申请分布式列存储数据库中的处理节点20均是并行工作的，各个处理节点20之间不会相互影响，当某个处理节点20出现故障无法进行数据存储或数据处理时，该处理节点20将能够自动将其内部存储的车辆信息数据传递到其他正常工作的处理节点20进行处理，采用此种冗余设计的方式，大大避免了某一处理节点20故障而导致结果数据不准确的现象，同时也有利于提高数据处理的稳定性。

实施例3

以下提供一种本发明基于大数据进行初次入城车辆分析的方法的应用实施例。

近年来大数据技术的普及使得初次入城的快速计算成为可能，而Hadoop作为大数据领域的领头羊而备受关注。Hadoop作为大数据领域的佼佼者，不单单指某一种技术，而是代表整个Hadoop生态圈。Hadoop生态圈提供了全方位、多种应用场景下所适用的技术，如：分布式文件系统HDFS；分布式列存数据库HBase；离线批处理计算框架MapReduce；基于内存的计算框架Spark；流式计算引擎Spark Streaming和Storm；分布式消息服务器Kafka；MapReduce的SQL引擎Hive等。

本申请对初次入城车辆的统计需要基于海量的数据计算，而Hadoop生态圈中就有一些组件非常适合处理此类任务，如可以使用MapReduce，MapReduce作为离线批处理框架，可以植入复杂的代码逻辑，但是缺点是速度慢，不适合这种即席查询系统。HBase作为Hadoop生态圈内的分布式列存数据库，以其稳定性高、查询速度快、可扩展性强而为人熟知。HBase是key/value型的基于列族的列存数据库，它的每条记录都有一个唯一的rowkey作为主键标识，其余字段存储在列族中的具体的某一列中。HBase是个分布式数据库，细分为Master角色和RegionServer角色，其中RegionServer负责具体的数据存储，HBase的表数据存在于Region中，而Region又归属于某一个RegionServer管理。随着Region数据量的增大，它还会分裂为两个Region，进而均衡到其他负载小的RegionServer上。若所有RegionServer负载都较重，HBase集群支持通过快速便捷的扩容来应对。综上所述，HBase是一款高性能、可扩展、高容错的分布式数据库，比较适用于做初次入城。

图3所示为将HBase应用于本申请基于大数据进行初次入城车辆分析的系统的一种结构图，参见图3，在HBase之上实现初次入城的具体思路也是先查询出[s,e]范围内的车牌号集合U，和[s-h,h)之间的车牌号集合V，然后求集合U跟集合V的差集。基于HBase的方式有如下好处：首先HBase是分布式数据库，可以将检索任务分配到各个节点去并发执行；其次HBase的数据是预先按照rowkey排序的，检索具体的某条记录或者某段时间范围内的记录是非常迅速的；最后也是最重要的一点是HBase支持Coprocessor，Coprocessor类似于传统数据库的存储过程，其本质是执行在RegionServer上的一段用户可以自定义的代码。使用HBase的Coprocessor技术来实现初次入城车辆统计，当检索任务分发到每个RegionServer上之后就会触发该RegionServer之上的Coprocessor，Coprocessor的任务就是在当前节点计算符合指定条件的初次入城的车辆，然后将上述各个RegionServer计算出的数据再返回给客户端最终的过滤，由于Coprocessor已经过滤掉了相当大一部分不符合条件的数据，所以最终返回给客户端过滤的数据量是比较小的，这也是HBase实现初次入城速度比较快的主要原因之一。

基于HBase Coprocessor实现的初次入城车辆统计速度快，因为HBase的Coprocessor程序是运行与RegionServer之上，已经帮客户端过滤掉了大部分不符合条件的数据。此外，HBase是Hadoop之上的分布式数据库，HBase Master支持配置多个，在某个Master挂掉之后，Zookeeper就会选举并切换到另一个健康的Master上；如果某一RegionServer挂掉，HBase集群会自动将该RegionServer负责的数据自动转移到其他节点，因此，基于HBase Coprocessor实现的初次入城车辆统计的系统稳定性高。

基于上述HBase，在进行初次入城车辆统计时，可采用如下的工作流程：

步骤1.入库，前端监控设备(如卡口、电子警察、高空球、视频监控等)的数据经过图像识别进入到HBase中，入库的数据包含但不限于：车牌号、车辆品牌、车辆类型、车辆年款、车辆系列、过车图片地址、车身颜色、车牌颜色、卡口编号等。其中HBase的rowkey组织为混合rowkey键值：过车时间+车牌号+卡口，之所以采用混合rowkey是考虑到业务场景，也为了充分利用HBase的按照rowkey预排序的特点以加速HBase的查询速度。

步骤2.过滤，客户端根据用户设置的条件(开始时间、结束时间、回溯时长、出现次数等)触发HBase的RegionServer之上的Coprocessors，初步在RegionServer端进行数据的过滤，过滤出[s,e]时间范围内出现，但是[s-h,s)时间范围内没有出现的车牌号。过滤之前的数据量为B，过滤之后的数据量为S。具体计算过程参见图4和图5，图4所示为计算初次入城车辆的一种时间分布示意图，图5所示为本申请实施例中所述一种基于大数据进行初次入城车辆分析的方法的另一种流程图，查询2017年10月10日到2017年10月15日出现过，但是在2017年9月10到2017年10月10日没有出现过的过车数据，计算方式为：各RegionServer查询出在2017年10月10日至2017年10月15的过车记录并抽取出车牌号的集合U，各RegionServer查询出2017年9月10日至2017年10月10日的过车记录并抽取出车牌号的集合V，最终返回集合U跟集合V的差集U-V。其中上述的数据量B即为集合U，上述的数据量S即可集合U-V(集合U跟V的差集)

步骤3.汇总，由于HBase是分布式存储数据库，各节点都没有完整的数据，所以经过步骤2处理的数据还需要在客户端汇总，步骤2返回的数据包括V和U-V(U和V的差集)。我们将各节点汇总后的U-V的集合称为U1，将各节点汇总后的V的集合称为V1。

步骤4.过滤，对汇总之后的数据进行过滤，由于HBase是个分布式数据库，每个RegionServer之上都没有全部的数据，所以需要将每个RegionServer过滤之后的数据进行汇总，并对汇总的数据进行过滤，最终筛选出符合指定条件的初次入城的车辆R。如图3所示St包含两部分数据U1和V1，R为U1-V1。

步骤5.展示，经过上述步骤的处理，数据R就是最终符合用户指定条件的初次入城的车辆。系统将数据R的数据做整合处理，并展示给最终的用户。至此，整个处理流程完毕。

总的来说，系统的整个工作流程可参见图5，首先根据指定的条件，如开始时间s，结束时间e，回溯时长h，出现次数t，然后客户端触发各RegionServer节点的查询，各节点分别计算[s,e]时间范围内车牌号的集合U，[s-h,s)范围内车牌号集合V。然后计算出U-V(其中-代表集合的差集运算符)连同V一块返回给客户端。客户端汇总各节点的U-V形成集合U1，汇总各节点的V的集合形成集合V1，最后计算U1-V1即为符合条件的初次入城的车辆。最终将符合条件的过车数据展示给用户。

通过以上各实施例可知，本申请存在的有益效果是：

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种基于大数据进行初次入城车辆分析的方法，包括：

将所述初次入城的车辆的车牌号集合R进行展示。

2.根据权利要求1所述基于大数据进行初次入城车辆分析的方法，其特征在于，所述预设的数据存储规则与检索查询项目对应，所述检索查询项目包括所述所述车辆信息数据中的一项或多项的组合。

3.根据权利要求2所述基于大数据进行初次入城车辆分析的方法，其特征在于，所述检索查询项目包括过车时间、车牌号和卡口编号中的一项或多项的组合。

4.根据权利要求1所述基于大数据进行初次入城车辆分析的方法，其特征在于，当所述分布式列存储数据库中的任一所述处理节点出现故障时，故障的所述处理节点将自动将其内部所存储的数据传递至其他正常工作的处理节点。

5.一种基于大数据进行初次入城车辆分析的系统，其特征在于，包括：

6.根据权利要求5所述基于大数据进行初次入城车辆分析的系统，其特征在于，所述预设的数据存储规则与检索查询项目对应，所述检索查询项目包括所述所述车辆信息数据中的一项或多项的组合。

7.根据权利要求5所述基于大数据进行初次入城车辆分析的系统，其特征在于，所述检索查询项目包括过车时间、车牌号和卡口中的一项或多项的组合。

8.根据权利要求5所述基于大数据进行初次入城车辆分析的系统，其特征在于，当所述分布式列存储数据库中的任一所述处理节点出现故障时，故障的所述处理节点用于将自动将其内部所存储的数据传递至其他正常工作的处理节点。