CN108509912B

CN108509912B - 多路网络视频流车牌识别方法及系统

Info

Publication number: CN108509912B
Application number: CN201810286399.2A
Authority: CN
Inventors: 熊伟成; 张亮; 李学万
Original assignee: Shenzhen Smart Mapping Tech Co ltd
Current assignee: Shenzhen Smart Mapping Tech Co ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2021-09-28
Anticipated expiration: 2038-04-03
Also published as: CN108509912A

Abstract

本发明实施例公开了一种多路网络视频流车牌识别方法及系统，所述车牌识别方法应用于监控系统中且包括：采集解码步骤：采集多路IP摄像头分发的网络视频流，实时进行解码；并发处理步骤：采用多线程并发处理模式对图像帧数据依次进行车牌检测、字符分割及字符识别；显示分析步骤：对车牌号数据及图像帧数据进行实时渲染显示，同时接收用户的交互信息以控制渲染显示，以及对车牌号数据进行显示、分发、统计，并将统计结果保存为日志信息。本发明实施例通过检测视频中存在的车牌区域的车牌图像，并对车牌图像利用深度学习技术进行识别，获取视频中的车牌号数据，解决了传统方法容错差、速度慢的问题，进而能够适用于环境复杂多变的视频流信息。

Description

多路网络视频流车牌识别方法及系统

技术领域

本发明涉及车牌识别技术领域，尤其涉及一种多路网络视频流车牌识别方法及系统。

背景技术

随着我国经济的快速发展，人们的生活节奏加快，汽车已经成为了不可缺少的交通工具。汽车数量的飞速增长给城市交通状况带来诸多不利影响，大中城市交通拥堵愈发严重，传统的交通技术和手段已不适应经济社会发展的要求。城市交通规划的发展需要新的技术手段。智能交通系统可以有效地利用现有交通设施、减少交通负荷和环境污染、保证交通安全、提高运输效率，因而，日益受到各国的重视。智能交通系统是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的，实时、准确、高效的综合交通运输管理系统。

车牌识别作为智能交通系统的一个重要的组成部分，其任务就是在装备了数字摄像设备和计算机信息管理系统等软硬件平台的基础之上，通过对车辆图像的采集，采用相应的图像处理、模式识别和人工智能技术，在图像中找到车牌的位置，提取并识别出车牌中的汉字、字母和数字，最后给出车牌的真实号码。对车辆牌照的正确识别，既可实现在交通路口、高速公路、小区门卫对过往车辆的实时登记、流量统计和对防卫目标的安全警备，对肇事车辆、被盗车辆、犯罪车辆进行辨别和拦截；又可以在汽车停车场对进出的车辆进行登记、统计和查询，以保障安全防盗，并可协助自动计费，因此车辆牌照识别的快速、准确实现对于交通管理、治安处罚等工作的智能化起着非常重要的作用。

车牌定位与识别系统的检测方式有多种，但是目前市场上主要使用两种。

一种是使用硬件触发器探测的检测方式。通过硬件探测到车辆经过，触发信号控制高速摄像机拍照，然后进行图像分析和信息获取。主流方案采用埋藏线圈的方式需要路面施工，一方面安装成本昂贵，不灵活，更重要的是，挖开路面埋藏感应线圈，将对道路的整体结构和力学结构造成破坏，经过一段时间的碾压，有很大概率造成道路损坏和感应线圈的损坏。

另一种是基于图像分析的视频检测方式。视频检测基于摄像机摄取的运动图像，利用计算机进行运动检测，获取车辆运动方向和位置，判断车辆的违章行为，获取车辆各种状态和行驶信息，该方法安装极其简单，一台摄像机在现场足以提供监控功能，然后后台计算机系统将对获取的数字图像流进行实时的分析与识别。该方式，安装简单，使用灵活，但是技术参数也要求很苛刻。

相比传统的信号检测技术，视频检测有着成本低廉，灵活性高，获取信息丰富，以及高效实时快速，硬件成本低的优势，但是相应的技术难度也高，在实时性上，要求随时实时的对过往车辆进行行为检测，抓拍，识别，要求处理效率和速度非常高，同时，大量计算对算法和计算机性能要求较高。近年来计算机图像处理技术的普及应用与发展，使得视频检测技术应用范围越来越广泛。

基于实时视频流的车牌定位与识别技术作为未来智能交通系统核心模块的主要发展方向，前人已经提出了非常多的优秀的算法，而且所用的方法非常广泛。

传统的车牌识别算法分为车牌定位、字符分割与字符识别等过程，每个过程也分为多个子部分。以字符识别模块为例，它的基本分为三部分：图像预处理，字符特征提取，字符分类器。预处理过程基本采用灰度化，二值化，大小归一化等方法。字符特征提取方面，可以提取非常多的特征，如结构特征，纹理特征，投影直方图特征和矩不变特征等。

对于传统的车牌识别算法而言，采用的算法比较简单、运算量相对较小，这与过去硬件资源匮乏、处理器性能较弱是相适应的。然而，随着计算机硬件容量及运行速度的提高，使得利用复杂算法甚至是深度学习算法对图像进行实时处理已经成为可能，并且复杂的算法往往具有更好的识别性能和鲁棒性，这时候再固守传统的车牌识别算法已经不合时宜。

深度学习算法，尤其卷积神经网络具有良好的容错、并行处理和自学习能力，能够应对背景信息复杂、推理规则不明确等情况下的模式识别问题，允许样本数据存在一定程度的缺损。因此对于应用环境复杂多变的车牌识别问题，深度学习算法比传统方法更具有优势。将深度学习算法应用于车牌识别问题当中，既能充分考察深度学习算法的性能特点、有助于更好理解和发展深度学习算法，同时又丰富了车牌识别的应用研究，具有重要的理论意义和实用价值。

发明内容

本发明实施例所要解决的技术问题在于，提供一种多路网络视频流车牌识别方法及系统，以使能够实时、准确、快速识别视频中的车牌号。

为了解决上述技术问题，本发明实施例提出了一种多路网络视频流车牌识别方法，应用于监控系统中，包括：

采集解码步骤：采集多路IP摄像头分发的网络视频流，实时对网络视频流进行解码，得到对应的多路网络视频的图像帧数据；

并发处理步骤：采用多线程并发处理模式对多路网络视频的图像帧数据依次进行车牌检测、字符分割及字符识别，得到车牌号数据；

显示分析步骤：对车牌号数据及多路网络视频的图像帧数据进行实时渲染显示，同时接收用户的交互信息以控制所述数据的渲染显示，以及对车牌号数据进行显示、分发、统计，并根据用户设定的时间将统计结果保存为日志信息。

相应地，本发明实施例还提供了一种多路网络视频流车牌识别系统，包括：

采集解码模块：采集多路IP摄像头分发的网络视频流，实时对网络视频流进行解码，并将解码得到的多路网络视频的图像帧数据分发至并发处理模块及显示分析模块；

并发处理模块：采用多线程并发处理模式对多路网络视频的图像帧数据依次进行车牌检测、字符分割及字符识别，得到车牌号数据并将车牌号数据发送至显示分析模块；

显示分析模块：对车牌号数据及多路网络视频的图像帧数据进行实时渲染显示，同时接收用户的交互信息以控制所述数据的渲染显示，以及对车牌号数据进行显示、分发、统计，并根据用户设定的时间将统计结果保存为日志信息。

本发明实施例的有益效果为：1.可适用于已安装相应硬件的视频监控系统中，无需改变现有视频监控系统的框架，具有安装简单成本低廉，灵活性高，获取信息丰富，以及高效实时快速，硬件成本低的优势。2.避免了传统方法中复杂的规则设计，采用输入图像输出字符信息这种端到端的处理模式，具有良好的容错能力、分类能力和并行处理能力及自我学习能力。3.兼顾实时、高效和稳定的特点，可以长时间不间断地实时识别多路视频中的车辆信息，其稳定性和实用性适用于各种实际应用场景。

本发明实施例通过提出一种多路网络视频流车牌识别方法及系统，所述车牌识别方法包括采集解码步骤、并发处理步骤及显示分析步骤，通过检测视频中存在的车牌区域的车牌图像，并对车牌图像利用深度学习技术进行识别，获取视频中的车牌号数据，解决了传统方法容错差、速度慢的问题，进而能够适用于环境复杂多变的视频流信息。

附图说明

图1是本发明实施例的多路网络视频流车牌识别方法的流程图。

图2是本发明实施例的多路网络视频流车牌识别系统的结构示意图。

图3是本发明实施例的车牌检测YOLO-9000网络结构的示意图。

图4是本发明实施例的字符检测YOLO-9000网络结构的示意图。

图5是本发明实施例的IOU的计算的示意图。

图6是本发明实施例的字符识别卷积神经网络框架的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

本发明实施例中若有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中若涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

请参照图1，本发明实施例的多路网络视频流车牌识别方法应用于监控系统中，包括采集解码步骤、并发处理步骤及显示分析步骤。

采集解码步骤：采集多路IP摄像头分发的网络视频流，实时对网络视频流进行解码，得到对应的多路网络视频的图像帧数据。本发明实施例利用现有的监控系统中的多路IP摄像头分发的网络视频流进行多线程硬件解码。

并发处理步骤：采用多线程并发处理模式对多路网络视频的图像帧数据依次进行车牌检测、字符分割及字符识别，得到车牌号数据。

作为一种实施方式，并发处理步骤包括：

图像处理子步骤：维护一个图像待处理队列，将图像帧数据加入所述图像待处理队列，对图像待处理队列的队首中的图像帧数据进行检测识别并删除所述队首的图像帧数据。

作为一种实施方式，并发处理步骤包括：

车牌检测子步骤：采用预设的目标检测算法提取图像特征以及预测图像位置和类别概率值，检测出图像帧数据中的车牌图像；其中，所述预设的目标检测算法为YOLO-9000的目标检测算法，且采用如下算法进行维度聚类，选取最佳尺寸的候选框：

设通过卷积获取的候选框集合为μ₁,μ₂,μ₃…μ_n∈Rⁿ；

①从候选框集合Rⁿ中随机选择一个候选框作为第一个聚类中心；

②对于候选框集合Rⁿ，计算Rⁿ中每一个候选框与最近聚类中心的距离D(x)；

设μ_i∈Rⁿ为候选框集合Rⁿ中任意一个候选框，μ_k∈Rⁿ为候选框集合Rⁿ中的一个聚类中心，则μ_i与μ_k之间的距离D(x)_ik为：

D(x)_ik＝1-f[IOU(μ_i,μ_k)]；

其中f(·)为Sigmoid激活函数，其公式为：

而IOU(·)为检测评价函数(intersection-over-union)，即模型产生的目标窗口和原来标记窗口的交叠率；

设候选框μ_i的范围为(x_i，y_i，w_i，h_i)，候选框μ_k的范围为(x_k，y_k，w_k，h_k)，如图5所示，候选框μ_i与候选框μ_k的IOU指即为两矩形框的交集与并集之间的除值，即：

③选择一个新的候选框作为新的聚类中心，选择的原则是：D(x)较大的候选框，被选取作为聚类中心的概率较大；

④重复②③直到m个聚类中心被选出来；

⑤利用这m个初始的聚类中心来运行标准的k-means聚类算法。

作为一种实施方式，车牌检测子步骤之后还包括：

字符分割子步骤：将车牌图像作为字符分割的图像输入，采用预设的目标检测算法分割出车牌图像中的字符；

字符识别子步骤：采用卷积神经网络对分割得到的每一个字符进行识别，得到车牌号数据。

本发明实施例基于安装简单适用场景广泛的视频流信息进行车牌识别，避免了对现有环境的改变，具有安装简单，适用广泛的特点；同时，本发明实施例基于深度学习的车牌检测与识别算法避免了传统方法中复杂的规则设计，在自然场景中可以实时、准确地识别存在的车牌信息。

作为一种实施方式，显示分析步骤包括：

子步骤1：将多路网络视频的图像帧数据以及车牌号数据组成智能解议序列，所述序列包括对应的实时视频流编号以及时间信息；

子步骤2：利用实时视频流编号和时间信息将车牌号数据与对应视频流编号中的图像帧数据结合；同时对车牌号数据按照用户指定的IP地址进行分发，并将所述数据进行相应统计，保存于日志信息中；

子步骤3：利用图像帧数据以及对应的车牌号数据进行硬件实时渲染，并将渲染结果发送至对应的客户端中显示。

请参照图2，本发明实施例的多路网络视频流车牌识别系统包括采集解码模块、并发处理模块及显示分析模块。

采集解码模块：采集多路IP摄像头分发的网络视频流，实时对网络视频流进行解码，并将解码得到的多路网络视频的图像帧数据分发至并发处理模块及显示分析模块。采集解码模块的输入为网络视频流，包括RTSP/RTP/RTCP协议，HTTP协议如HLS、HDS、MSS、DASH，RTMP协议等；在一些已存在的视频监控系统中，摄像头一般是IP摄像头，支持以上网络传输协议；且目前主流的摄像头都为IP摄像头，完全支持视频网络传输协议。

采集解码模块处理流程如下：

⑴Access访问

Access部分负责从网络接收组播流，放到内存缓冲区中，Access模块关注IP协议，如是否IPv6、组播地址、组播协议、端口等信息；如果检测出来是RTP协议(RTP协议在UDP头部简单得加上了固定12个字节的信息)，还要分析RTP头部信息。

⑵Demux解复用

Demux部分首先要解析视频流的信息，以UDP组播的MPEG TS流为例。TS格式是MPEG2协议的一部分，概括地说，TS通常是固定188字节的一个packet，一个TS流可以包含多个program(节目)，一个program又可以包含多个视频、音频、和文字信息的ES流；每个ES流会有不同的PID标示。而又为了可以分析这些ES流，TS有一些固定的PID用来间隔发送program和ES流信息的表格：PAT和PMT表。而其他协议如RTSP/RTP/RTCP协议等都有其固定格式，根据协议的固定格式对视频流进行解析。

之所以需要Demux，是因为音视频在制作的时候实际上都是独立编码的，得到的是分开的数据，为了传输方便必须要用某种方式合起来，这就有了各种封装格式也就有了Demux。Demux分解出来的音频和视频流分别送往音频解码器和视频解码器。因为原始的音视频都是占用大量空间，而且冗余度较高的数据，通常在制作的时候就会进行某种压缩。这就是我们熟知的音视频编码格式，包括MPEG1(VCD)、MPEG2(DVD)、MPEG4、H.264、rmvb等等。

⑶Decode解码

Decode解码包括音频和视频的解码，Decode解码需要将压缩的音频和视频数据还原成原始的音视频数据，在这个过程当中，本发明主要用到几个开源的解码器，如解码MPEG2格式的开源解码器libmpeg2；解码H.264等格式的解码器ffmpeg。

⑷Output输出

音频和视频在Demux解复用和Decode解码之后是相互独立的，Output输出则是利用时间同步机制将音频、视频进行同步，同时将音频、视频分发到并发处理模块和显示分析模块。

并发处理模块：采用多线程并发处理模式对多路网络视频的图像帧数据依次进行车牌检测、字符分割及字符识别，得到车牌号数据并将车牌号数据发送至显示分析模块。

显示分析模块：对车牌号数据及多路网络视频的图像帧数据进行实时渲染显示，同时接收用户的交互信息以控制所述数据的渲染显示，以及对车牌号数据进行显示、分发、统计，并根据用户设定的时间将统计结果保存为日志信息。显示分析模块部署在本地服务器，它一方面接收多路网络视频的图像帧数据与车牌号数据，完成数据的实时渲染显示；另一方面对车牌号数据进行显示、分发、统计，并根据用户设定的时间将统计结果保存为日志信息，同时接收用户的交互信息以控制数据的渲染显示。显示分析模块提供了对日志信息相应的可视化展示、查询功能，便于用户分析使用。

作为一种实施方式，并发处理模块包括图像入队线程及智能解译线程。

图像入队线程：维护一个图像待处理队列，将图像帧数据加入所述图像待处理队列中，将图像待处理队列的队首中的图像帧数据发送到智能解译线程同时删除所述队首的图像帧数据。

智能解译线程：对接收到的图像帧数据依次进行车牌检测、字符分割及字符识别，得到车牌号数据。智能解议线程持续的识别出网络视频流中的车牌号码，并将识别的车牌号码持续的发送到显示分析模块。

作为一种实施方式，并发处理模块包括车牌检测子模块：采用预设的目标检测算法提取图像特征以及预测图像位置和类别概率值，检测出图像帧数据中的车牌图像。预设的目标检测算法为YOLO-9000(You Only Look Once-9000)的目标检测算法。YOLO-9000算法是对YOLO v1算法的改进，本发明实施例通过提出了一种联合训练的方法，可以同时利用检测数据集和分类数据集来训练目标检测器，可实时地检测超过9000类目标。

本发明实施例通过对该算法进行相应的改进以同时实现车牌检测与字符检测。具体如下：

⑴网络结构

图3、图4分别为车牌检测、字符检测基于深度学习YOLO-9000的网络结构。车牌检测网络结构中，图像输入为416×416，其中s取7，B取2，一共有1个类别。字符检测网络结构中，图像输入为288×288，其中s与B的取值一样。两个网络都包含24个卷积层和两个全链接层，其中卷积层用来提取图像特征，全链接层用来预测图像位置和类别概率值。

⑵维度聚类(Dimension clusters)

维度聚类过程中YOLO-9000算法采用的是k-means聚类算法，以便选取最佳尺寸的候选框(anchor boxes)。k-means聚类算法需要提前指定聚类簇的个数k，且其对种子点的初始化非常敏感。本发明将采用k-means++算法，同时采用新的距离计算公式。

设通过卷积获取的候选框集合为μ₁,μ₂,μ₃…μ_n∈Rⁿ；

D(x)_ik＝1-f[IOU(μ_i,μ_k)]；

其中f(·)为Sigmoid激活函数，其公式为：

而IOU(·)为检测评价函数，即模型产生的目标窗口和原来标记窗口的交叠率；

④重复②③直到m个聚类中心被选出来；

⑤利用这m个初始的聚类中心来运行标准的k-means聚类算法。

作为一种实施方式，并发处理模块还包括：

字符分割子模块：将车牌图像作为字符分割的图像输入，采用预设的目标检测算法分割出车牌图像中的字符；

字符识别子模块：采用卷积神经网络对分割得到的每一个字符进行识别，得到车牌号数据。

字符识别的网络结构如图6所示，图像输入为28×28，由四个卷积层、三个池化层以及两个全连接层组成。卷积都是3×3的模板，stride＝1，池化都是MAX。最后的全连接层大小为67，表示分类字符的个数，包括字母、数字、每省的简称以及其他等。

本发明实施例通过接入多路网络视频流，并对视频流进行实时解码，将解码的多路图像利用深度学习算法进行分析，自动提取出视频中存在的车牌图像，并对提取的车牌图像进行智能识别，可对已有交通监控系统硬件不更改，仅仅利用监控系统中IP摄像头分发的网络视频流就进行车牌识别。

作为一种实施方式，显示分析模块包括子模块1、子模块2、子模块3。

子模块1：将多路网络视频的图像帧数据以及车牌号数据组成智能解议序列，所述序列包括对应的实时视频流编号以及时间信息；

子模块2：利用实时视频流编号和时间信息将车牌号数据与对应视频流编号中的图像帧数据结合；同时对车牌号数据按照用户指定的IP地址进行分发，并将所述数据进行相应统计，保存于日志信息中，便于数据的可视化分析。

子模块3：利用图像帧数据以及对应的车牌号数据进行硬件实时渲染，并将渲染结果发送至对应的客户端中显示，便于用户进行交互。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同范围限定。

Claims

1.一种多路网络视频流车牌识别方法，应用于监控系统中，其特征在于，包括：

显示分析步骤：对车牌号数据及多路网络视频的图像帧数据进行实时渲染显示，同时接收用户的交互信息以控制所述数据的渲染显示，以及对车牌号数据进行显示、分发、统计，并根据用户设定的时间将统计结果保存为日志信息；

所述并发处理步骤包括：

设通过卷积获取的候选框集合为μ₁,μ₂,μ₃…μ_n∈Rⁿ；

D(x)_ik＝1-f[IOU(μ_i,μ_k)]；

其中f(·)为Sigmoid激活函数，其公式为：

IOU(·)为检测评价函数；

设候选框μ_i的范围为(x_i，y_i，w_i，h_i)，候选框μ_k的范围为(x_k，y_k，w_k，h_k)，候选框μ_i与候选框μ_k的IOU指为两矩形框的交集与并集之间的除值，即：

④重复②③直到m个聚类中心被选出来；

⑤利用这m个初始的聚类中心来运行标准的k-means聚类算法。

2.如权利要求1所述的多路网络视频流车牌识别方法，其特征在于，所述并发处理步骤包括：

3.如权利要求1所述的多路网络视频流车牌识别方法，其特征在于，所述车牌检测子步骤之后还包括：

4.如权利要求1所述的多路网络视频流车牌识别方法，其特征在于，所述显示分析步骤包括：

5.一种多路网络视频流车牌识别系统，其特征在于，包括：

显示分析模块：对车牌号数据及多路网络视频的图像帧数据进行实时渲染显示，同时接收用户的交互信息以控制所述数据的渲染显示，以及对车牌号数据进行显示、分发、统计，并根据用户设定的时间将统计结果保存为日志信息；

所述并发处理模块包括车牌检测子模块：

采用预设的目标检测算法提取图像特征以及预测图像位置和类别概率值，检测出图像帧数据中的车牌图像；其中，所述预设的目标检测算法为YOLO-9000的目标检测算法，且采用如下算法进行维度聚类，选取最佳尺寸的候选框：

设通过卷积获取的候选框集合为μ₁,μ₂,μ₃…μ_n∈Rⁿ；

D(x)_ik＝1-f[IOU(μ_i,μ_k)]；

其中f(·)为Sigmoid激活函数，其公式为：

IOU(·)为检测评价函数；

设候选框μ_i的范围为(x_i，y_i，w_i，h_i)，候选框μ_k的范围为(x_k，y_k，w_k，h_k)，如候选框μ_i与候选框μ_k的IOU指为两矩形框的交集与并集之间的除值，即：

④重复②③直到m个聚类中心被选出来；

⑤利用这m个初始的聚类中心来运行标准的k-means聚类算法。

6.如权利要求5所述的多路网络视频流车牌识别系统，其特征在于，所述并发处理模块包括：

图像入队线程：维护一个图像待处理队列，将图像帧数据加入所述图像待处理队列中，将图像待处理队列的队首中的图像帧数据发送到智能解译线程同时删除所述队首的图像帧数据；

智能解译线程：对接收到的图像帧数据依次进行车牌检测、字符分割及字符识别，得到车牌号数据。

7.如权利要求5所述的多路网络视频流车牌识别系统，其特征在于，所述并发处理模块还包括：

8.如权利要求5所述的多路网络视频流车牌识别系统，其特征在于，所述显示分析模块包括：

子模块2：利用实时视频流编号和时间信息将车牌号数据与对应视频流编号中的图像帧数据结合；同时对车牌号数据按照用户指定的IP地址进行分发，并将所述数据进行相应统计，保存于日志信息中；

子模块3：利用图像帧数据以及对应的车牌号数据进行硬件实时渲染，并将渲染结果发送至对应的客户端中显示。