CN107895487A

CN107895487A - 一种基于大数据进行相似车牌串并的方法

Info

Publication number: CN107895487A
Application number: CN201711189942.9A
Authority: CN
Inventors: 李庆功; 辛国茂; 李善宝; 马述杰
Original assignee: Taihua Wisdom Industry Group Co Ltd
Current assignee: Taihua Wisdom Industry Group Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-10
Anticipated expiration: 2037-11-24
Also published as: CN107895487B

Abstract

本发明公开了一种基于大数据进行相似车牌串并的方法，包括获取多个车辆的车辆数据，获取过车时间在预设时间段内的车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表，选取目标车型，获取目标车牌号集合，选取对比车牌号，从目标车牌号集合中，获取可疑车牌号，以对比车牌号和与对比车牌号对应的全部可疑车牌号，作为对比车牌号对应的对比集合，获取目标车牌号集合中每个有车牌号对应的对比集合，得到多个对比集合，删除多个对比集合中的冗余对比集合，得到目标车型的相似车牌串并结果。本发明在使用时无需接入车管所数据库，减少了使用限制，而且无需在各个车辆上安装RFID芯片，降低了使用成本。

Description

一种基于大数据进行相似车牌串并的方法

技术领域

本发明涉及大数据领域，更具体地，涉及一种基于大数据进行相似车牌串并的方法。

背景技术

近年来随着物质生活的逐步提高，汽车的数量越来越多，与汽车相关的案件也渐渐增多，其中：通过涂改车牌号从而躲避追踪的事件更是屡见不鲜，通过购买与真车车牌颜色一致的车牌贴纸，将印有车牌数字或字母的贴纸贴在车牌上，遮盖住其中一个数字或字母，从而改变车牌号，很多时候即使在近距离进行观察都很难看出差别。这种通过修改车牌号来作案、犯案、躲避追踪的方式已经成为犯罪分子惯用的伎俩。因此如何快速的从海量的过车数据中鉴别出涂改、修改过车牌号的车辆是公安部门面临的重大挑战。

现有技术中，一种对套牌车进行识别的方法，是通过判断同一个车牌号的车经过两个卡口的时间间隔是否合理来进行甄别，如果一个车牌号在很短的时间内出现在两个距离很远的卡口，则认为套有此车牌号的车辆很可能是套牌车。使用这种方法的前提是有两个完全相同的车牌号同时挂在两辆车上，且同时在路面上出现。但是，有时候修改后的车牌号不一定跟其它车牌号相同，有可能是没有使用过的车牌号，所以这种识别方法并不能充分解决问题。另一种对套牌车进行识别的方式，是先采集车牌号，再从车管所数据库中读取该车牌号对应的车型，若没有查询到该车牌号，或者车型与数据库中记录的车型不匹配，则判定为套牌车，使用这种方法时需要依赖车管所的数据库，限制了应用范围。还有一种方法是在机动车上安装RFID(Radio Frequency Identification，射频识别)芯片，RFID芯片中包含有车辆的车牌号、车型、发动机号等信息，当带有RFID芯片的机动车行驶到监控设备处时，已安装好的设备会读取RFID芯片里车牌号、车型等信息，与卡口拍摄的车牌号进行比对，如果卡口设备识别的车牌号与RFID芯片中读取的车牌号不同，则拍摄的车辆是套牌车，使用该方法时需要在机动车上安装RFID芯片，还需要建设读取RFID芯片的基站，投入成本较高，实施难度较大。

因此，提供一种成本低且无需接入车管所数据库的套牌车识别方法，更具体的，提供一种基于大数据进行相似车牌串并的方法，是本领域亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于大数据进行相似车牌串并的方法，解决了现有技术中识别套牌车时需要接入车管所数据库以及成本较高的问题。

为了解决上述技术问题，本发明提出一种基于大数据进行相似车牌串并的方法，包括：

获取多个车辆的车辆数据，并存储至文件系统，其中，所述车辆数据包括车型、车牌号和过车时间；

获取所述过车时间在预设时间段内的所述车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表，其中，每个所述车型为所述车辆数据表中的一个键，每个所述车牌号为所述车辆数据表中的一个值；

选取所述车辆数据表中的一个所述车型为目标车型；

获取所述车辆数据表中键为所述目标车型的全部所述键值对，作为目标车集合；

获取所述目标车集合中，全部的所述车牌号作为目标车牌号集合；

选取所述目标车牌号集合中的一个所述车牌号，作为对比车牌号；

从所述目标车牌号集合中，获取与所述对比车牌号对应的全部可疑车牌号，其中，所述可疑车牌号与所述对比车牌号的相差位数不大于最大相差位数，其中，所述最大相差位数为1或2；

以所述对比车牌号和与所述对比车牌号对应的全部所述可疑车牌号，作为所述对比车牌号对应的对比集合；

获取所述目标车牌号集合中每个有车牌号对应的所述对比集合，得到多个所述对比集合；

删除多个所述对比集合中的冗余对比集合，得到所述目标车型的相似车牌串并结果，其中，当n个所述对比集合中的车牌号相同时，将n个所述对比集合中的n-1个所述对比集合作为所述冗余对比集合，其中，n大于或等于2。

可选的，获取多个车辆的车辆数据，并存储至文件系统，进一步为：

搭建HADOOP大数据平台集群；

获取非结构化车辆数据；

将所述非结构化车辆数据转化为结构化车辆数据；

获取所有结构化车辆数据并存储到HADOOP大数据平台集群的分布式文件系统HDFS上。

可选的，所述非结构化车辆数据，包括：视频、图片和语音；

将所述非结构化车辆数据转化为结构化车辆数据，进一步为：

判断所述非结构化车辆数据的类别；

当所述非结构车辆数据是所述视频时，提取所述视频中的帧画面，采用图片识别方法获取的所述帧画面中的信息；

当所述非结构车辆数据是所述图片时，采用所述图片识别方法获取所述图片中的信息；

当所述非结构车辆数据是语音时，采用语音识别方法将所述语音转化为文字，获取所述文字中的信息。

可选的，获取所述过车时间在预设时间段内的所述车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表，进一步为：

采用批处理框架MapReduce，从所述分布式文件系统HDFS上读取所述过车时间在预设时间段内的所述车辆数据并分发给map任务；

所述map任务将所述车辆数据转换成键值对并输出，得到车辆数据表。

可选的，以所述对比车牌号和与所述对比车牌号对应的全部所述可疑车牌号，作为所述对比车牌号对应的对比集合，进一步为：

建立所述对比车牌号和与所述对比车牌号对应的全部所述可疑车牌号的键值对，作为一个所述对比集合，其中，所述对比车牌号作为所述对比集合中的一个键，全部的所述可疑车牌号作为所述对比集合中的一个值。

可选的，删除多个所述对比集合中相同的所述对比集合，得到所述目标车型的相似车牌串并结果，进一步为：

获取多个所述比对集合中的每个所述对比集合；

将每个所述对比集合中的所述车牌号，在所述对比集合中按照预设的排序规则进行排序；

获取经过排序后的多个所述比对集合中相同的所述n个所述对比集合作为一个对比集合组；

将所述对比集合组中的n-1个所述对比集合删除，得到所述目标车型的相似车牌串并结果；

将所述目标车型的相似车牌串并结果写到所述分布式文件系统HDFS上并展示。

可选的，所述结构化车辆数据，包括：所述车牌号、车辆颜色、所述车型、拍摄位置和过车时间，其中，所述车型，包括：品牌、型号和年款。

与现有技术相比，本发明的一种基于大数据进行相似车牌串并的方法，实现了如下的有益效果：

本发明提供的一种基于大数据进行相似车牌串并的方法，在使用时无需接入车管所数据库，减少了使用限制，而且无需在各个车辆上安装RFID芯片，降低了使用成本，此外，即使套有相同车牌号的车辆没有同时出现在路上，或是涂改后的车牌号为未使用的车牌号，本发明提供的方法也能对其是否为套牌车进行判断，相比于现有技术大幅扩大了使用范围，采用本发明提供的方法，有利于提高公安部门解决套牌车相关案件的办案效率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1为实施例1中一种基于大数据进行相似车牌串并的方法流程图；

图2为实施例2中一种基于大数据进行相似车牌串并的方法流程图；

图3为实施例3中一种基于大数据进行相似车牌串并的方法流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

图1为实施例1中一种基于大数据进行相似车牌串并的方法流程图，如图1所示，本发明提供的人一种基于大数据进行相似车牌串并的方法，包括：

S101：获取多个车辆的车辆数据，并存储至文件系统。

具体的，获取的车辆数据，包括：设置在各个位置的卡口拍摄的图像或者照片，目击者提供的口述的资料，现有的记录有车辆数据的文字资料，车辆数据包括车型、车牌号和过车时间，将汇集的车辆数据存储到计算机的文件系统中，进行统计汇总。

S102：获取过车时间在预设时间段内的车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表。

具体的，使用本方法时需要设定一个预设时间段，然后从汇总到文件系统的车辆数据中，获取过车时间位于该预设时间段的车辆数据，例如预设时间段为一年，就获取从一年前到现在这个时间段内的车辆数据。然后从中提取车辆数据中的车型和车牌号，组成键值对，每个车型为车辆数据表中的一个键，每个车牌号为车辆数据表中的一个值，每一个键和每一个值都一一对应，每一个键可以不唯一，因为可能采集同一车型的多辆车的车辆数据，每一个值也可以不唯一，因为不同的车可能装有同一车牌号，即存在套牌车，可选的，可以先将获取的车辆数据按照车牌号进行排序，然后获取具有同一车牌号的车辆数据，如果具有同一车牌号的车辆数据的个数不小于2，则这些车辆数据记载的车辆中有套牌车。

S103：选取车辆数据表中的一个车型为目标车型，获取车辆数据表中键为目标车型的全部键值对，作为目标车集合，获取目标车集合中，全部的车牌号作为目标车牌号集合。

具体的，选取的目标车型可以是任一车型，目标车集合就是车型为目标车型的车的键值对集合，目标车牌号集合就是对应的车型为目标车型的车牌号集合，例如：选取目标车型为：大众-朗逸-2016，目标车牌号集合就是对应的车型为大众-朗逸-2016的全部车牌号，可选的，可以用键值对的形式对其进行存储，键对应目标车型，值对应目标车牌号集合。

S104：选取目标车牌号集合中的一个车牌号，作为对比车牌号，从目标车牌号集合中，获取与对比车牌号对应的全部可疑车牌号

具体的，对比车牌号是任意一个车牌号，可疑车牌号是与对比车牌号的相差位数不大于最大相差位数的车牌号。其中，最大相差位数为1或2。例如：目标车型是：大众-朗逸-2016，对比车牌号是：鲁A12345，车牌号：鲁A12346与对比车牌号相差1位，即最后一位不同，这就是一个可疑车牌号。最大相差位数表示被篡改的车牌号的位数，一般情况篡改3位以上的概率极小，因此，本发明设定最大相差位数为1或2，不同之处可以是数字也可以是字母。

S105：以对比车牌号和与对比车牌号对应的全部可疑车牌号，作为对比车牌号对应的对比集合。

具体的，例如目标车型是：大众-朗逸-2016，对比车牌号是：鲁A12345，获取的可疑车牌号为：鲁A12341、鲁A12342和鲁A22345，由鲁A12345、鲁A12341、鲁A12342鲁A22345组成的集合就是对比集合，可选的，可以用键值对的形式对其存储对比集合，键是对比车牌号，值是全部的可疑车牌号。

S106：获取目标车牌号集合中每个有车牌号对应的对比集合，得到多个对比集合，删除多个对比集合中的冗余对比集合，得到目标车型的相似车牌串并结果。

具体的，可以按照顺序获取目标车牌号集合中各个车牌号的对比集合，此时，大部分情况下获取的对比集合中具有冗余对比集合，例如，目标车型是：大众-朗逸-2016，目标车牌号为鲁A12345时，获取的可疑车牌号为：鲁A12341、鲁A12342和鲁A22345，对比集合由鲁A12345、鲁A12341、鲁A12342和鲁A22345组成，当目标车牌号为鲁A12341、鲁A12342或鲁A22345时，对比集合可能仍然是由鲁A12345、鲁A12341、鲁A12342和鲁A22345组成，这就形成了冗余对比集合，需要删除，当n个对比集合中的车牌号相同时，将n个对比集合中的n-1个对比集合作为冗余对比集合，其中，n大于或等于2，例如，当A12345、鲁A12341、鲁A12342和鲁A22345的对比集合，都是由鲁A12345、鲁A12341、鲁A12342和鲁A22345组成时，即有4个对比集合中的车牌号相同，将其中3个对比集合作为冗余对比集合删除，得到目标车型的相似车牌串并结果，即大众-朗逸-2016的相似车牌串并结果是鲁A12345、鲁A12341、鲁A12342和鲁A22345，这些车牌号有极大可能是涂改过的车牌号。

本实施例提供的一种基于大数据进行相似车牌串并的方法，在使用时无需接入车管所数据库，减少了使用限制，而且无需在各个车辆上安装RFID芯片，降低了使用成本，此外，即使套有相同车牌号的车辆没有同时出现在路上，或是涂改后的车牌号为未使用的车牌号，本发明提供的方法也能对其是否为套牌车进行判断，扩大了使用范围。

实施例2

图2为实施例2中一种基于大数据进行相似车牌串并的方法流程图，如图2所示，本发明提供的人一种基于大数据进行相似车牌串并的方法，包括：

S201：搭建HADOOP大数据平台集群，获取非结构化车辆数据，将非结构化车辆数据转化为结构化车辆数据，获取所有结构化车辆数据并存储到HADOOP大数据平台集群的分布式文件系统HDFS上。

具体的，实施例2基于HADOOP实现本发明提供的方法，HADOOP是一种分布式系统基础架构，它实现了一种分布式文件系统HDFS和批处理框架MapReduce。HDFS是一种高吞吐量和高容错性的文件系统，它的高吞吐量决定了它可以处理超大数据量的应用，高容错性又决定了它可以部署在廉价的服务器上，大大降低了存储大数据量时的服务器的成本，MapReduce是一种批处理框架，它的处理过程分为两个阶段：map任务阶段和reduce任务阶段。MapReduce框架从分布式文件系统HDFS上读取指定要处理的数据，然后分割成若干独立的数据块，然后将每个数据块分别分发给一个单独的节点的map任务，各个节点的map任务会以完全并行的方式去做相应的处理，然后将处理的结果组织成键值对的形式，并输出到磁盘。map任务输出的结果按照键进行分区，具体的分区格式可以通过自定义分区函数实现。然后MapReduce框架将每个分区的数据发送到相应的reduce任务，这其中键相同的键值对会被发送到同一个reduce任务，reduce任务拿到数据做相应的处理，并将最终的处理结果组成键值对写到分布式文件系统HDFS上。

进一步的，在一些可选的实施例中，获取的车辆数据，包括：设置在各个位置的卡口拍摄的图像或者照片，目击者提供的口述的资料，现有的记录由车辆数据的文字资料，非结构化车辆数据，包括采集到的视频、图片和语音，将非结构化车辆数据转化为结构化车辆数据，进一步为：判断非结构化车辆数据的类别，当非结构车辆数据是视频时，提取视频中的帧画面，采用图片识别方法获取的帧画面中的信息，当非结构车辆数据是图片时，采用图片识别方法获取图片中的信息，当非结构车辆数据是语音时，采用语音识别方法将语音转化为文字，获取文字中的信息。获取的信息会按照统一的格式，组织成结构化车辆数据，通过将非结构化车辆数据转化为结构化车辆数据，方便数据库进行统一处理，提高了计算速度，解决了不同数据来源造成的运算困难问题。进一步的，在一些可选的实施例中，结构化车辆数据，包括：车牌号、车辆颜色、车型、拍摄位置和过车时间，其中，车型，包括：品牌、型号和年款。

S202：获取过车时间在预设时间段内的车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表。

具体的，使用本发明提供的方法时需要设定一个预设时间段，然后从汇总到文件系统的车辆数据中，获取过车时间位于该预设时间段的车辆数据，优选的，预设时间段为3年，预设时间段太长时，有可能降低计算的精度，因为涂改车牌号的位置或者方式可能会改变，车辆也可能更换。

进一步的，在一些可选的实施例中，获取过车时间在预设时间段内的车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表，进一步为：采用批处理框架MapReduce，从分布式文件系统HDFS上读取过车时间在预设时间段内的车辆数据并分发给map任务，map任务将车辆数据转换成键值对并输出，得到车辆数据表。

S203：选取车辆数据表中的一个车型为目标车型，获取车辆数据表中键为目标车型的全部键值对，作为目标车集合，获取目标车集合中，全部的车牌号作为目标车牌号集合。

S204：选取目标车牌号集合中的一个车牌号，作为对比车牌号，从目标车牌号集合中，获取与对比车牌号对应的全部可疑车牌号

S205：以对比车牌号和与对比车牌号对应的全部可疑车牌号，作为对比车牌号对应的对比集合。

进一步的，在一些可选的实施例中，以对比车牌号和与对比车牌号对应的全部可疑车牌号，作为对比车牌号对应的对比集合，进一步为：建立对比车牌号和与对比车牌号对应的全部可疑车牌号的键值对，作为一个对比集合，其中，对比车牌号作为对比集合中的一个键，全部的可疑车牌号作为对比集合中的一个值。例如目标车型是：大众-朗逸-2016，对比车牌号是：鲁A12345，获取的可疑车牌号为：鲁A12341、鲁A12342和鲁A22345，键是对比车牌号鲁A12345，值是全部的可疑车牌号。

S206：获取目标车牌号集合中每个有车牌号对应的对比集合，得到多个对比集合，删除多个对比集合中的冗余对比集合，得到目标车型的相似车牌串并结果。

进一步的，在一些可选的实施例中，删除多个对比集合中相同的对比集合，得到目标车型的相似车牌串并结果，进一步为：获取多个比对集合中的每个对比集合；将每个对比集合中的车牌号，在对比集合中按照预设的排序规则进行排序；获取经过排序后的多个比对集合中相同的n个对比集合作为一个对比集合组；将对比集合组中的n-1个对比集合删除，得到目标车型的相似车牌串并结果；将目标车型的相似车牌串并结果写到分布式文件系统HDFS上并展示。通过按照预设的排序规则进行排序，可以直观的看出哪些是冗余对比集合，预设的排序规则可以是任意规则，例如可以是按照拼音首字母顺序进行排序

实施例3

图3为实施例3中一种基于大数据进行相似车牌串并的方法流程图，如图3所示，本发明提供的方法，包括：

S301：搭建HADOOP大数据平台集群，并把实现了map方法和Reduce方法的MapReduce处理程序部署在集群中各个节点上，前端设备抓拍车辆数据并解析出成结构化文本信息，将获取的结构化车辆数据存储到HADOOP大数据平台集群的分布式文件系统HDFS上。

具体的，车辆数据，包括：车牌号、车牌颜色、车型、拍摄地点和过车时间。

S302：部署应用程序。

具体的，此应用程序用于实现与用户的交互，用户在页面上输入开始时间、结束时间、最大相差位数并提交任务，开始时间与结束时间相差的时间段，就是预设时间段。

S303：进行map任务。

MapReduce框架接收到分析任务后，根据前台指定的预设时间段从分布式文件系统HDFS上读取相应目录下的车辆数据，并发送给map任务。map任务读取到键值对形式的数据，其中值是分布式文件系统HDFS上的文件里的一条车辆数据，键是该车辆数据在分布式文件系统HDFS的文件里的偏移量。为了保证本方法的准确度，map任务首先验证该车辆数据的合法性，若不符合前台页面指定的条件则丢弃该条车辆数据，继续读取下一条车辆数据，若符合条件则对车辆数据进行处理，从中取出车型作为K1，车牌号作为V1，并组织成新键值对<K1,V1>，例如：<大众-朗逸-2016，鲁A12345>。然后对输出的键值对<K1,V1>进行分区，并在分区内按照K1对数据进行排序、分组，分组时会把具有相同K1的V1值放到一个集合中，组成新的键值对<K2,V2>，其中K2是目标车型(品牌-型号-年款)，V2是目标车牌号集合，即，如：<大众-朗逸-2016，{鲁A12345，鲁A12346}>，到此map任务结束。

S304：进行Reduce任务。

MapReduce框架读取map任务输出的结果，此时Reduce任务接收到数据格式为<K2,V2>的新键值对，在Reduce任务中，获取到K2对应的V2的值后，遍历V2这个目标车牌号集合中的所有车牌号，每遍历到其中一个车牌号都要与该集合中其它的车牌号做对比，对比的过程是比较这两个车牌号相同位数的数字是否相同，并记录下不同的位数，然后根据页面指定的最大相差位数，将大于最大相差位数的车牌号过滤掉，只留下小于等于最大相差位数但不完全相同的车牌号。最后将结果组织成格式为<K3,V3>的新键值对，作为对比集合，其中K3是目标车牌号，V3是全部可疑车牌号，例如：<K3,V3>为<鲁A12345,{鲁A12346,鲁A12347,鲁A22345}>。此时的对比集合中可能包含一些冗余对比集合，例如，假设有个对比集合是<鲁A66888，{鲁A66887，鲁A66889}>,那么可能会有<鲁A66887，{鲁A66888，鲁A66889}>和<鲁A66889，{鲁A66888，鲁A66887}>这两个结果，所以要将这种冗余的对比集合删除掉，并将分析结果写到分布式文件系统HDFS上。

S305：从HDFS文件系统中读取分析的结果，并展示到界面上。

具体的，当一个对比集合中的车牌号个数不小于2时，该集合中的车牌号就是可能被篡改后的车牌号，目标车型就是对应的篡改了车牌号的车型。

使用本发明提供的方法时，可以基于HADOOP大数据平台，采用HDFS分布式文件系统存储和MapReduce批处理框架进行分析，可以存储和处理PB数量级的过车数据，具体实施时，可以将分析任务分发到集群中的各个节点上，并发执行，提高分析效率，而且HADOOP是一种分布式架构，可以根据数据量的增加，通过增加节点服务器的方式增强集群的处理能力。

本发明提供的一种基于大数据进行相似车牌串并的方法，在使用时无需接入车管所数据库，减少了使用限制，而且无需在各个车辆上安装RFID芯片，降低了使用成本，此外，即使套有相同车牌号的车辆没有同时出现在路上，或是涂改后的车牌号为未使用的车牌号，本发明提供的方法也能对其是否为套牌车进行判断，相比于现有技术大幅扩大了使用范围，采用本发明提供的方法，有利于提高公安部门的解决套牌车相关案件的办案效率。

虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种基于大数据进行相似车牌串并的方法，其特征在于，包括：

选取所述车辆数据表中的一个所述车型为目标车型；

2.根据权利要求1所述的一种基于大数据进行相似车牌串并的方法，其特征在于，获取多个车辆的车辆数据，并存储至文件系统，进一步为：

搭建HADOOP大数据平台集群；

获取非结构化车辆数据；

将所述非结构化车辆数据转化为结构化车辆数据；

3.根据权利要求2所述的一种基于大数据进行相似车牌串并的方法，其特征在于，所述非结构化车辆数据，包括：视频、图片和语音；

判断所述非结构化车辆数据的类别；

4.根据权利要求2所述的一种基于大数据进行相似车牌串并的方法，其特征在于，获取所述过车时间在预设时间段内的所述车辆数据中的车型和车牌号，并以键值对的形式输出，得到车辆数据表，进一步为：

5.根据权利要求4所述的一种基于大数据进行相似车牌串并的方法，其特征在于，以所述对比车牌号和与所述对比车牌号对应的全部所述可疑车牌号，作为所述对比车牌号对应的对比集合，进一步为：

6.根据权利要求4所述的一种基于大数据进行相似车牌串并的方法，其特征在于，删除多个所述对比集合中相同的所述对比集合，得到所述目标车型的相似车牌串并结果，进一步为：

获取多个所述比对集合中的每个所述对比集合；

7.根据权利要求2所述的一种基于大数据进行相似车牌串并的方法，其特征在于，所述结构化车辆数据，包括：所述车牌号、车辆颜色、所述车型、拍摄位置和过车时间，其中，所述车型，包括：品牌、型号和年款。