CN105912709A

CN105912709A - 基于大数据的伴随车分析方法及系统

Info

Publication number: CN105912709A
Application number: CN201610273433.3A
Authority: CN
Inventors: 李占强; 辛国茂; 孙希彬; 马述杰
Original assignee: Taihua Wisdom Industry Group Co Ltd
Current assignee: Taihua Wisdom Industry Group Co Ltd
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2016-08-31

Abstract

本申请公开基于大数据的伴随车分析方法，包括：图片识别服务器接收并识别过车图片，生成视频结构化数据并发送到消息服务器；消息服务器将视频结构化数据存储至消息队列中；消息服务器的消费单元从消息队列中读取视频结构化数据的记录信息，将视频结构化数据发送至面向列的开源数据库；开源数据库将视频结构化数据存储至其第一列表和第二列表中；根据车牌号和起止时间，通过第二列表查询目标车辆在起止时间范围内经过的所有卡口；结合目标车辆所经过的卡口和起止时间，通过第一列表查询与目标车辆经过相同的卡口的所有车辆；分析得出目标车辆的伴随车。

Description

基于大数据的伴随车分析方法及系统

技术领域

本申请涉及智能交通控制技术领域，具体地说，涉及一种基于大数据的伴随车分析方法及系统。

背景技术

近年来，图侦技术成为继刑侦、经侦、技侦、网侦之后又一个强有力侦查技术手段。这一侦查手段的普及得益于长期以来公安部门积累的卡口、电警的海量过车图片和图片识别技术的成熟。近年来国内各大城市道路所部署的卡口、电警越来越多，公安部门所能监控的路段也日益增多，而且随着科技技术的进步，高清卡口、高清电警设备已经开始普及。图片识别技术可以从这些过车图片中识别出很多有用的信息，如，车辆品牌、车辆类型、车辆年款、车辆系列、车牌颜色、车牌号码、车辆类别、车身颜色、行车速度、是否系安全带、遮阳板是否放下等。这些识别出的结果我们称之为VSD(Video Structure Description)。这些VSD信息传统情况下都会存储到公安监控内网的Oracle服务器中。前端业务系统查询Oracle数据库进行伴随车分析。

伴随车是指一辆车在经过若干卡口、电警的时候，有另外的车辆也在同时非常短的时间间隔内(一般为30秒内)经过这几个卡口。伴随车通常用于帮助公安干警侦破案件，如团伙犯罪通常会开多辆车，如果抓获其中一个团伙人员及其所驾驶车辆，民警就可以通过分析该车的伴随车进而进一步锁定团伙内其他犯罪车辆；再如尾随盗窃，通常犯罪车辆都会通过长期的尾随目标车辆，进而掌握精确的犯罪时机，通过伴随车分析就可以分析出目标车在某段时间内的所有伴随车辆，进而缩小排查范围。

短期内这种架构不会出问题，但实际情况下却充满了挑战。调查发现一个一般的县级市一天的过车图片就有60万张左右，二三线的地级市一天的过车图片基本都在500万张以上。Oracle服务器作为一个OLTP服务器，本身就不擅长这种OLAP的分析查询。按照这个量级，用不了多长时间单机的Oracle服务器就会支撑不住。暂时的解决方案可以采取Oracle服务器的垂直扩展或使用Oracle RAC集群。前述垂直扩展是相对水平扩展来说的，水平扩展是通过增加服务器的数量来提高计算能力，而垂直扩展指的是通过增加服务器的配置(如提升内存容量、增加CPU核心数、换更快的SAS盘、使用更快的网络，如IB网)来提供计算能力。Oracle服务器一般需要部署在高端硬件设备上，如果采取垂直扩展，需要购买更高端的硬件，在某些关键应用上甚至需要使用小型机，而一般的小型机动辄就要500万以上，所以说Oracle服务器的垂直扩展的成本是非常巨大的。Oracle RAC属于水平扩展Oracle服务器的处理能力，Oracle RAC通过增加一个专业的存储设备，并在多台服务器上运行Oracle服务，这些Oracle服务共享底层存储，这些Oracle服务都可以对外服务，这样就提升了Oracle服务器的计算能力，但是OracleRAC需要使用多台高端服务器运行Oracle服务，而且还需要专业的存储设备，所以Oracle RAC的实施成本也是巨大的。

因此，上述传统的两种方案有两个弊端：1.只能暂时应付，不是长远打算；2.成本太大。

发明内容

有鉴于此，本申请所要解决的技术问题是提供了一种基于大数据的伴随车分析方法及系统，利用面向列的开源数据库存储海量的过车数据，面向列的开源数据库对数据进行分布式存储，其中的存储单元在存储数据量变大时会自动分裂，而且随着数据量的增加其处理性能并不会下降，此外，面向列的开源数据库中过车数据能够根据用户的需求进行排序及存储，能够更好地辅助进行伴随车分析，成本低、处理效率高、可靠性高。

为了解决上述技术问题，本申请有如下技术方案：

一种基于大数据的伴随车分析方法，其特征在于，包括：

图片识别服务器接收视频采集终端发送的过车图片，并对所述过车图片进行识别，生成视频结构化数据；

图片识别服务器将所述视频结构化数据发送到消息服务器；

所述消息服务器接收所述视频结构化数据并将所述视频结构化数据存储至消息队列中；

所述消息服务器的消费单元从所述消息服务器的消息队列中读取所述视频结构化数据的记录信息，并将所述视频结构化数据发送至面向列的开源数据库；

所述面向列的开源数据库接收所述视频结构化数据，并将所述视频结构化数据分别存储至所述面向列的开源数据库的第一列表和第二列表中，所述第一列表按照“卡口编号+过车时间+车牌号”的形式存储所述视频结构化数据，用于查询指定时间范围内、通过指定卡口的所有车辆，所述第二列表按照“车牌号+过车时间+卡口编号”的形式存储所述视频结构化数据，用于查询指定车辆在指定时间范围内所经过的所有卡口；

根据用户指定的目标车辆的车牌号和起止时间，通过所述第二列表查询目标车辆在所述起止时间范围内经过的所有卡口；结合所述目标车辆所经过的卡口和所述起止时间，通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆；分析得出所述目标车辆的伴随车。

优选地，其中：

所述分析得出所述目标车辆的伴随车，进一步为：

在通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆后，选择与所述目标车辆从同一方向经过相同卡口时、间隔为固定时间t内的车辆作为准伴随车辆；

将所有卡口处的准伴随车辆取并集，获得每辆所述准伴随车辆伴随所述目标车辆的卡口数；

计算伴随卡口比例；

根据所述伴随卡口比例，分析得出所述目标车辆的伴随车。

优选地，其中：

所述计算伴随卡口的比例，进一步为：

将每辆所述准伴随车辆伴随所述目标车辆的卡口数除以所述目标车辆所经过的卡口的总数。

优选地，其中：

根据所述伴随卡口的比例，分析得出所述目标车辆的伴随车，进一步为：

判断各辆所述准伴随车辆的伴随卡口的比例是否超过固定阈值p，若超过，则判定该车辆为所述目标车辆的伴随车，若未超过，则判定该车辆并非所述目标车辆的伴随车。

优选地，其中：

所述固定阈值p≥80％。

优选地，其中：

所述固定时间t≤30s。

一种基于大数据的伴随车分析系统，其特征在于，

包括：视频采集终端、图片识别服务器、消息服务器、消息服务器的消费单元、面向列的开源数据库和伴随车分析模块，其中，

所述视频采集终端，用于向所述图片识别服务器发送过车图片；

所述图片识别服务器，用于接收所述过车图片，并对所述过车图片进行识别，生成视频结构化数据，并将所述视频结构化数据发送至所述消息服务器；

所述消息服务器，用于接收所述视频结构化数据并将所述视频结构化数据存储至消息队列中；

所述消息服务器的消费单元，用于从所述消息服务器的消息队列中读取所述视频结构化数据的记录信息，并将所述视频结构化数据发送至面向列的开源数据库；

所述面向列的开源数据库，用于接收所述视频结构化数据，并将所述视频结构化数据分别存储至所述面向列的开源数据库的第一列表和第二列表中，所述第一列表按照“卡口编号+过车时间+车牌号”的形式存储所述视频结构化数据，用于查询指定时间范围内、通过指定卡口的所有车辆，所述第二列表按照“车牌号+过车时间+卡口编号”的形式存储所述视频结构化数据，用于查询指定车辆在指定时间范围内所经过的所有卡口；

所述伴随车分析模块，用于根据用户指定目标车辆的车牌号和起止时间，通过所述第二列表查询目标车辆在所述起止时间范围内经过的所有卡口，并用于结合所述目标车辆所经过的卡口和所述起止时间，通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆，同时用于分析得出所述目标车辆的伴随车。

优选地，其中：

所述伴随车分析模块，进一步用于：在通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆后，选择与所述目标车辆从同一方向经过相同卡口时、间隔为固定时间t内的车辆作为准伴随车辆，将所有卡口处的准伴随车辆取并集，获得每辆所述准伴随车辆伴随所述目标车辆的卡口数，计算伴随卡口比例，根据所述伴随卡口比例，分析得出所述目标车辆的伴随车。

优选地，其中：

所述伴随车分析模块，进一步用于：判断各辆所述准伴随车辆的伴随卡口的比例是否超过固定阈值p，若超过，则判定该车辆为所述目标车辆的伴随车，若未超过，则判定该车辆并非所述目标车辆的伴随车，其中，所述固定阈值p≥80％。

优选地，其中：

所述固定时间t≤30s。

与现有技术相比，本申请所述的方法及系统，达到了如下效果：

第一，利用本发明的基于大数据的伴随车分析系统，能够从海量的过车数据中，查询分析出指定时间范围内所有可能成为目标车辆的伴随车的准伴随车辆，通过计算每辆准伴随车辆伴随目标车辆的伴随卡口比例，将伴随卡口比例与固定的阈值进行比较，从而得到目标车辆的伴随车辆。在分析得到准伴随车辆的过程中，其他车辆与目标车辆经过同一卡口的时间间隔可以灵活设定，在获得伴随车辆的过程中个，与伴随卡口比例比较的阈值也可根据实际需求灵活设定，处理过程更加人性化，从而能够使得本发明分析得出的伴随车辆的结果更加准确、可靠。

第二、在应用本发明基于大数据的伴随车分析方法获得目标车辆的伴随车信息时，用户只需根据提示输入车牌号、开始时间和结束时间即可，系统将自动完成伴随车分析过程，从而大大降低了操作人员的工作量，减少了人工成本，还能够提高工作效率，有利于提高警察的办案效率。

第三，本发明基于大数据的伴随车分析方法及系统，与传统基于Oracle数据库实现的伴随车分析的方法和系统相比，基于分布式系统基础架构Hadoop实现伴随车的分析，Hadoop集群容错机制高，即使其中几个节点宕机也不会影响到整个集群的正确运行，而且不耗费较高的硬件资源，只需要使用普通商用硬件即可，因此极大的降低了成本。

第四，本发明基于大数据的伴随车分析方法及系统，采用面向列的开源数据库HBase实现过车数据的存储及伴随车分析，随着数据量的增加，可以往Hadoop集群中增加新的商用服务器，成本低，而且也不会导致系统变慢，使得系统更加人性化，更有利于提高处理效率。

第五，本发明基于大数据的伴随车分析方法及系统中，由于面向列的开源数据库HBase是分布式数据库，HBase的数据文件存储在分布式文件系统HDFS(Hadoop Distributed File System)上，HDFS可对文件进行多组备份，分别备份到不同的区域服务器上，即使其中一个区域服务器出现故障，控制器也会检测到并将故障区域服务器上的文件迁移到别的区域服务器上。因此，有效提高了系统的可靠性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的所述一种基于大数据的伴随车分析方法的流程图；

图2为本发明中分析得出所述目标车辆的伴随车的具体流程图；

图3为本发明的所述一种基于大数据的伴随车分析系统的结构示意图；

图4为本发明应用实施例中基于大数据的伴随车分析系统的工作流程图；

图5为本发明伴随车辆分析的流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

实施例1

参见图1所示为本申请所述一种基于大数据的伴随车分析方法的流程图，包括：

步骤101、图片识别服务器接收视频采集终端发送的过车图片，并对所述过车图片进行识别，生成视频结构化数据；

步骤102、图片识别服务器将所述视频结构化数据发送到消息服务器；

步骤103、所述消息服务器接收所述视频结构化数据并将所述视频结构化数据存储至消息队列中；

步骤104、所述消息服务器的消费单元(以下可称为消费者)从所述消息服务器的消息队列中读取所述视频结构化数据的记录信息，并将所述视频结构化数据发送至面向列的开源数据库；

步骤105、所述面向列的开源数据库接收所述视频结构化数据，并将所述视频结构化数据分别存储至所述面向列的开源数据库的第一列表和第二列表中，所述第一列表按照“卡口编号+过车时间+车牌号”的形式存储所述视频结构化数据，用于查询指定时间范围内、通过指定卡口的所有车辆，所述第二列表按照“车牌号+过车时间+卡口编号”的形式存储所述视频结构化数据，用于查询指定车辆在指定时间范围内所经过的所有卡口；

步骤106、伴随车分析：根据用户指定的目标车辆的车牌号和起止时间，通过所述第二列表查询目标车辆在所述起止时间范围内经过的所有卡口；结合所述目标车辆所经过的卡口和所述起止时间，通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆；分析得出所述目标车辆的伴随车。

上述步骤106中的分析得出所述目标车辆的伴随车，进一步包括如下步骤，参见图2：

步骤201、在通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆后，选择与所述目标车辆从同一方向经过相同卡口时、间隔为固定时间t内的车辆作为准伴随车辆；

其中，可将固定时间设为t≤30s，当然该固定时间也可根据用户的需求灵活设置，例如想要精确获取伴随如车信息，可将该时间设置得较小，如t≤3s，若时间设置的太小而无法获得足够数据时，还可将该规定时间扩大，如为t≤50s。

步骤202、将所有卡口处的准伴随车辆取并集，获得每辆所述准伴随车辆伴随所述目标车辆的卡口数；

步骤203、计算伴随卡口比例；

步骤204、根据所述伴随卡口比例，分析得出所述目标车辆的伴随车。

上述步骤203中，计算伴随卡口比例的方法为：将每辆所述准伴随车辆伴随所述目标车辆的卡口数除以所述目标车辆所经过的卡口的总数。

上述步骤204，根据所述伴随卡口比例，分析得出所述目标车辆的伴随车，进一步为：

上述固定阈值p≥80％。此处的阈值可根据实际需求灵活设置，当阈值设为80％时，若查询到的伴随车辆很多，就可将阈值扩大，例如设为86％、92％等，若查询到的伴随车辆很少或者没有，还可将阈值缩小，例如设为72％、70％等等。

本发明的基于大数据的伴随车分析方法，能够从海量的过车数据中，查询分析出指定时间范围内所有可能成为目标车辆的伴随车的准伴随车辆，通过计算每辆准伴随车辆伴随目标车辆的伴随卡口比例，将伴随卡口比例与固定的阈值进行比较，从而得到目标车辆的伴随车辆。在分析得到准伴随车辆的过程中，其他车辆与目标车辆经过同一卡口的时间间隔可以灵活设定，在获得伴随车辆的过程中个，与伴随卡口比例比较的阈值也可根据实际需求灵活设定，处理过程更加人性化，从而能够使得本发明分析得出的伴随车辆的结果更加准确、可靠。

此外，在应用本发明基于大数据的伴随车分析方法获得目标车辆的伴随车信息时，用户只需根据提示输入车牌号、开始时间和结束时间即可，系统将自动完成伴随车分析过程，从而大大降低了操作人员的工作量，减少了人工成本，还能够提高工作效率。

实施例2

参见图3所示为本申请所述一种基于大数据的伴随车分析系统的结构示意图，该系统包括：

视频采集终端10、图片识别服务器20、消息服务器30、消息服务器的消费单元40(以下可称为消息服务器的消费者40)、面向列的开源数据库50和伴随车分析模块60，其中，

所述视频采集终端10，用于向所述图片识别服务器20发送过车图片；

所述图片识别服务器20，用于接收所述过车图片，并对所述过车图片进行识别，生成视频结构化数据，并将所述视频结构化数据发送至所述消息服务器30；

所述消息服务器30，用于接收所述视频结构化数据并将所述视频结构化数据存储至消息队列中；

所述消息服务器的消费者40，用于从所述消息服务器30的消息队列中读取所述视频结构化数据的记录信息，并将所述视频结构化数据发送至面向列的开源数据库50；

所述面向列的开源数据库50，用于接收所述视频结构化数据，并将所述视频结构化数据分别存储至所述面向列的开源数据库50的第一列表和第二列表中，所述第一列表按照“卡口编号+过车时间+车牌号”的形式存储所述视频结构化数据，用于查询指定时间范围内、通过指定卡口的所有车辆，所述第二列表按照“车牌号+过车时间+卡口编号”的形式存储所述视频结构化数据，用于查询指定车辆在指定时间范围内所经过的所有卡口；

所述伴随车分析模块60，用于根据用户指定目标车辆的车牌号和起止时间，通过所述第二列表查询目标车辆在所述起止时间范围内经过的所有卡口，并用于结合所述目标车辆所经过的卡口和所述起止时间，通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆，同时用于分析得出所述目标车辆的伴随车。

所述伴随车分析模块60，进一步用于：在通过所述第一列表查询与所述目标车辆经过相同的卡口的所有车辆后，选择与所述目标车辆从同一方向经过相同卡口时、间隔为固定时间t内的车辆作为准伴随车辆，将所有卡口处的准伴随车辆取并集，获得每辆所述准伴随车辆伴随所述目标车辆的卡口数，计算伴随卡口比例，根据所述伴随卡口比例，分析得出所述目标车辆的伴随车。

其中，固定时间t≤30s。当然该固定时间也可根据用户的需求灵活设置，例如想要精确获取伴随如车信息，可将该时间设置得较小，如t≤5s，若时间设置的太小而无法获得足够数据时，还可将该规定时间扩大，如为t≤40s。

所述伴随车分析模块60，进一步用于：判断各辆所述准伴随车辆的伴随卡口的比例是否超过固定阈值p，若超过，则判定该车辆为所述目标车辆的伴随车，若未超过，则判定该车辆并非所述目标车辆的伴随车，

其中，所述固定阈值p≥80％。此处的阈值可根据实际需求灵活设置，当阈值设为80％时，若查询到的伴随车辆很多，就可将阈值扩大，例如设为87％、95％等，若查询到的伴随车辆很少或者没有，还可将阈值缩小，例如设为69％、73％等等。

上述视频采集终端10可体现为高清卡口、电子警察等等。

本发明采用分布式的、面向列的开源数据库HBase存储海量过车数据，HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群，有效的降低了成本。此外，Hbase的数据文件存储在分布式文件系统HDFS(HadoopDistributed File System)上，HDFS可对文件进行多组备份，分别备份到不同的区域服务器上，即使其中一个区域服务器出现故障，控制器也会检测到并将故障区域服务器上的文件迁移到别的区域服务器上。因此，有效提高了系统的可靠性。

利用本发明的基于大数据的伴随车分析系统，能够从海量的过车数据中，查询分析出指定时间范围内所有可能成为目标车辆的伴随车的准伴随车辆，通过计算每辆准伴随车辆伴随目标车辆的伴随卡口比例，将伴随卡口比例与固定的阈值进行比较，从而得到目标车辆的伴随车辆。在分析得到准伴随车辆的过程中，其他车辆与目标车辆经过同一卡口的时间间隔可以灵活设定，在获得伴随车辆的过程中个，与伴随卡口比例比较的阈值也可根据实际需求灵活设定，处理过程更加人性化，从而能够使得本发明分析得出的伴随车辆的结果更加准确、可靠。

此外，在应用本发明基于大数据的伴随车分析方法获得目标车辆的伴随车信息时，用户只需根据提示输入车牌号、开始时间和结束时间即可，系统将自动完成伴随车分析过程，从而大大降低了操作人员的工作量，减少了人工成本，还能够提高工作效率，有利于提高警察的办案效率。

实施例3

以下提供一种本发明的应用实施例。

本发明基于大数据的伴随车分析系统的工作流程参见图4，本繁忙基于大数据的伴随车分析系统是基于分布式系统基础架构Hadoop集群实现的。

首先，高清卡口11、电警12把所拍摄的过车图片发送到图片识别服务器20。

其次，图片识别服务器20把识别出的VSD(Video Structure Description)信息发送到kafka消息服务器30。

再次，kafka消费者40从kafka消息队列中读取VSD记录并插入到分布式的、面向列的开源数据库HBase的T_VSD_KSC表51和T_VSD_CSK表52中。T_VSD_KSC表51的rowkey是由“卡口编号+过车时间+车牌号”所组成的复合rowkey，T_VSD_CSK表的rowkey是由“车牌号+过车时间+卡口编号”组成的复合rowkey。之所以设计这两张HBase表是由于HBase表的数据是按照rowkey的字典序进行存储的。查询T_VSD_KSC表可以很容易的查询到在某一时间范围内通过某一特定卡口的所有的车辆。查询T_VSD_CSK表52则可以查询到某一车辆在某一时间范围内经过的所有卡口。而这些查询信息刚好可以用于后续的伴随车分析。

经过上述步骤VSD信息已经被插入到了HBase的表中，应用程序负责读取HBase表并从中分析出伴随车。具体的流程如图5所示。

用户在前端页面81输入车牌号、开始时间和结束时间，系统后台启动伴随车分析；

业务系统82接收到前端页面传来的车牌号、开始时间和结束时间后，从T_VSD_CSK表52中查找这段时间内指定车辆的过车记录；

Hbase得到上述指定时间段内，指定车辆的过车记录；

业务系统82循环运行，得到所有指定车辆的过车记录。获取各指定车辆的每一个过车卡口，从T_VSD_KSC表51中查询所有跟当前过车记录间隔很短的时间内(如3秒)从同一方向经过了相同卡口的车辆，作为准伴随车辆。查询到的准伴随车辆代表该车辆在当前遍历到的卡口处伴随了目标车辆一次，并不一定是最终的伴随车辆。循环完毕，把所有卡口处的准伴随车辆取并集，从而得到每辆车伴随了目标车辆多少个卡口。然后将每辆准伴随车辆所伴随目标车辆的卡口数除以目标车辆所经过的卡口总数，每辆准伴随车辆的伴随卡口比例。当某一准伴随车辆的伴随卡口比例大于某个阈值时，则判定该车辆属于目标车辆的伴随车辆。此处的阈值可根据实际需求灵活设置，例如可设置为80％。当阈值设为80％时，若查询到的伴随车辆很多，就可将阈值扩大，例如设为85％、90％等，若查询到的伴随车辆很少或者没有，还可将阈值缩小，例如设为75％、70％等等。

如此则完成了伴随车辆的分析，系统将分析结果返回显示界面供用户参考。

本发明基于Hadoop集群实现伴随车分析，Hadoop集群的容错机制很好，首先表现在Hadoop上的数据上安全的，HDFS上的文件默认有三个备份，一份存放在同一机架上的不同机器上，一份存放在不同机架上的一台机器上。这样即使有机器宕机也不会有数据丢失。Hadoop集群的容错性其次表现在跑在Hadoop集群之上的计算任务是安全的，MapReduce、Spark等计算框架运行与Hadoop的Yarn资源管理框架之上，这些计算框架都会在任务失败之后多次尝试运行该任务。由于Hadoop的容错机制做的非常好，Hadoop集群某几个节点的宕机并不会影响到整个集群的正确运行，所以Hadoop集群一般运行与廉价的商用服务器之上，而不需要使用专门的高端硬件。

本发明采用分布式的、面向列的开源数据库HBase存储海量过车数据。首先它的数据是存储到HDFS(Hadoop Distributed File System)之上的，完全能胜任海量VSD记录的存储任务。然后，HBase是分布式部署的，HBase中作为数据存储和提供查询、更新的是RegionServer，RegionServer可以运行在多台商用服务器之上，HBase的表分region(类似于关系型数据库的范围分区)分布到各RegionServer中，而且随着region的增大它可以自动分裂。HBase中每个region负责处理rowkey所涵盖的某一范围内的数据，随着客户端往该region中插入越来越多的数据，region所负责的数据量也会越来越大。为了避免region任务过重，HBase中的region可以自动分裂，分裂的结果就是一个region变成了两个region，且这两个region所负责的数据量之和等于原region所负责的数据量的大小。HMaster会根据集群的负载情况将分裂后的两个region分发到相应的节点，进而使整个HBase集群处于一个动态的平衡之中而不会出现数据热点。最后HBase的数据都是按照rowkey的字典序排序的。

因此，利用HDFS作为底层存储，理论上可以存储无限多的VSD记录。另外，HBase是分布式的，且region可以自动分裂，这点就保障了随着数据量的增加HBase的处理性能几乎不下降；此外，HBase中的数据是按照rowkey排序的，我们可以利用这个特点，科学设计rowkey的结构，使它更好的适用于伴随车分析的场景。

通过以上各实施例可知，本申请存在的有益效果是：

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种基于大数据的伴随车分析方法，其特征在于，包括：

图片识别服务器将所述视频结构化数据发送到消息服务器；

2.根据权利要求1所述基于大数据的伴随车分析方法，其特征在于，

所述分析得出所述目标车辆的伴随车，进一步为：

计算伴随卡口比例；

根据所述伴随卡口比例，分析得出所述目标车辆的伴随车。

3.根据权利要求2所述基于大数据的伴随车分析方法，其特征在于，

所述计算伴随卡口的比例，进一步为：

4.根据权利要求2或3所述基于大数据的伴随车分析方法，其特征在于，

5.根据权利要求4所述基于大数据的伴随车分析方法，其特征在于，

所述固定阈值p≥80％。

6.根据权利要求2、3或5所述基于大数据的伴随车分析方法，其特征在于，

所述固定时间t≤30s。

7.一种基于大数据的伴随车分析系统，其特征在于，

8.根据权利要求7所述基于大数据的伴随车分析系统，其特征在于，

9.根据权利要求8所述基于大数据的伴随车分析系统，其特征在于，

10.根据权利要求7～9之任一所述基于大数据的伴随车分析系统，其特征在于，

所述固定时间t≤30s。