CN112232371A

CN112232371A - 一种基于YOLOv3与文本识别的美式车牌识别方法

Info

Publication number: CN112232371A
Application number: CN202010978381.6A
Authority: CN
Inventors: 柯逍; 林炳辉; 陈宇杰
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-15
Anticipated expiration: 2040-09-17
Also published as: CN112232371B

Abstract

本发明涉及一种基于YOLOv3与文本识别的美式车牌识别方法，包括步骤S1：采集美式车牌中各个州的车牌的图像数据，构成美式车牌图像集；步骤S2：对下载好的图像进行人工标注，生成xml文件，以符合YOLOv3神经网络模型训练的要求；步骤S3：对步骤S2中处理好的数据进行若干数据增强，用以提高图像质量，利于之后的训练与识别；步骤S4：训练YOLOv3神经网络模型，并用训练好的权重检测出车牌的特征区域；步骤S5：车牌特殊字符作为新样本加入deep‑text文本识别工具训练，将检测出的车牌特征区域通过训练好的文本识别工具提取出对应的字符信息。本发明提出方法的准确率高，时效性好，对于美式的车牌识别具有实际应用意义。

Description

一种基于YOLOv3与文本识别的美式车牌识别方法

技术领域

本发明涉及目标识别与计算机视觉领域，特别是一种基于YOLOv3与文本识别的美式车牌识别方法。

背景技术

随着计算机视觉技术的不断发展，车牌识别作为计算机视频图像识别技术在车辆牌照识别中的一种应用，也相应地取得了飞速的发展，在高速公路车辆管理中得到广泛应用。而我国统一蓝底白字的车牌比较规范，运用现有的车牌识别技术已经能够很高的识别率，并且在许多应用场景中都有这广泛的应用。相比之下，美式的车牌就五花八门，且背景颜色各异，不同州的车牌格式都各不相同，在这种问题背景下，本文针对美式车牌的特殊性，提出了该方法用于解决美式车牌中不同于中国车牌的识别方法。

美式的车牌识别包含若干技术，其中最核心的部分就是车牌内车牌号区域、年检区域、州名区域的检测部分，该部分属于目标检测领域，剩余部分就是对检测出的文字的字符识别。

而对于目标检测，相关算法愈发成熟并广泛应用在各个领域。早期的目标检测方法通常是通过提取图像的一些robust的特征(如Haar、SIFT、HOG等)，使用DPM(DeformableParts Model)模型，用滑动窗口(silding window)的方式来预测具有较高score的bounding box。这种方式非常耗时，而且精度又不怎么高。2013年，Ross Girshick等提出了R-CNN，将CNN方法应用到目标检测上，借助CNN良好的特征提取和分类性能，通过RegionProposal方法实现目标检测问题的转化，减少了大量的计算，但其仍存在几个明显的问题，如多个候选区域对应的图像需要预先提取，占用较大的磁盘空间等。而后Kaiming He提出SPP-Net用于解决R-CNN特征提取过于耗时的问题，在R-CNN的基础上做了实质性的改进，对特征提取步骤做了修改，特征提取不再需要每个候选区域都经过CNN，只需要将整张图片输入到CNN就可以了，ROI特征直接从特征图获取。和R-CNN相比，速度提高了百倍。但其仍存在很多问题，CNN中的conv层在微调时是不能继续训练的，很大程度上限制了深度CNN的效果，而且它仍然是R-CNN的框架，离端到端的检测还差很多。2015年，R-CNN原作者RossGirshick进一步提出了Fast-RCNN，Fast-RCNN实现大部分end-to-end训练，所有的特征都暂存在显存中，就不需要额外的磁盘空间，借鉴SPP-Net提出了一个RoI层，SPP是pooling成多个固定尺度，RoI只pooling到单个固定的尺度。然而，Fast-RCNN依然没有解决ProposalRegion耗时的问题。2016年，由Ross Girshick与Kaming He共同提出的Faster-RCNN，通过添加额外的RPN分支网络，将候选框提取合并到深度网络中。通过使用共享特征交替训练的方式，达到接近实时的性能。而在2015年，Joseph Redmon和Ali Farhadi等人于2015年提出基于单个神经网络的目标检测系统YOLO(You Only Look Once)YOLO算法使用深度神经网络进行对象的位置检测以及分类，主要的特点是速度够快，而且准确率也很高，采用直接预测目标对象的边界框的方法，将候选区和对象识别这两个阶段合二为一，与faster rcnn区分开来，是端到端的检测方法。Yolo算法不再是窗口滑动了，而是直接将原始图片分割成互不重合的小方块，然后通过卷积最后生产这样大小的特征图，基于上面的分析，可以认为特征图的每个元素也是对应原始图片的一个小方块，然后用每个元素来可以预测那些中心点在该小方格内的目标，这就是Yolo算法的朴素思想，最新的YOLOv3算法再以往的结构上做出了改进，增加了多尺度检测，以及更深的网络结构darknet53,这是比较主要的改进，采用了上采样和特征图融合，将浅层的细节信息和深层的语义信息进行融合，并且多特征输出，这样做可以极大提升对小物体的检测效果。

字符识别部分，2016年Z.Tian等提出额一个深度神经网络叫做CTPN，直到今天这个网络框架一直是OCR系统中做文本检测的一个常用网络，极大地影响了后面文本检测算法的方向。CTPN借鉴了Faster-RCNN的RPN思想，加入了双向LSTM，为了精确定位加入了sideregression。

随着计算机技术的发展，不管是高速公路上的车牌识别还是小区门口的车牌识别都已经取得了很好的效果。不过目前应用中的车牌识别工具都是用于简单且规范的中式车牌识别，这类识别规范性强，复杂性低，容易得到较好的识别结果。

而在美式的车牌上，该类车牌背景复杂性较高，并且车牌信息区域的分布没有严格的规律，中间部分都是车牌号信息，但是州名信息可能在车牌的上端中部或者下端中部，而年检信息则可能在车牌的左(右)上或者左(右)下，检测难度高。

发明内容

有鉴于此，本发明的目的是提供一种基于YOLOv3与文本识别的美式车牌识别方法，准确率高，时效性好，对于美式的车牌识别具有实际应用意义。

本发明采用以下方案实现：一种基于YOLOv3与文本识别的美式车牌识别方法，包括以下步骤：

步骤S1：采集美式车牌中各个州的车牌的图像数据，构成美式车牌图像集；

步骤S2：对步骤S1中采集到的美式车牌图像进行人工标注，生成xml文件，以符合YOLOv3神经网络模型训练的要求；

步骤S3：对步骤S2中标注好的数据进行高斯滤波降噪、对比度调整的图像预处理，用以提高图像质量，利于之后的训练与识别；

步骤S4：训练YOLOv3神经网络模型，并用训练好的权重检测出车牌的州名、年限、车牌号特征区域所在位置；

步骤S5：车牌特殊字符作为新样本加入deep-text文本识别工具训练，将步骤S4中检测出的车牌特征区域通过训练好的文本识别工具提取出对应的字符信息。

进一步地，步骤S1中所述采集图像数据具体包括以下步骤：

步骤Sa：分析美式车牌要识别的范围，包括车牌号信息、年检信息和州名信息，确定包含该类信息的车牌图片为图像集；

步骤Sb：通过爬虫下载百度图片网站上的美式车牌数据，下载公开车牌数据集中的相关图片；

步骤Sc：对下载的图片进行筛选，剔除不包含车牌号信息、年检信息和州名信息的图片。

进一步地，步骤S2中所述进行图像标注具体包括以下步骤：

步骤SA：下载图片标签工具labelImg，并进行配置；

步骤SB：利用labelImg，对每一张图手动框选出车牌号信息区域、年检信息区域和州名信息区域，将矩形框的位置信息与分类信息保存于xml文件中。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：对步骤S2所得数据集中倾斜的车牌图片进行旋转变换，用以使原本是倾斜的车牌区域调整为正的，对xml中的标注信息同时做相应的坐标变换；

步骤S32：对步骤S2所得数据集中所有图片进行对比度调整，用以使车牌信息不会太亮或太暗，提高后期识别效率，对应的xml中的标注信息不变；

步骤S33：对步骤S2所得数据集中所有图片进行裁剪，裁剪掉每张图片不属于车牌的区域，保留中心，并对xml中的标注信息做相应的坐标变换；

步骤S34：对步骤S2所得数据集中所有图片进行高斯滤波降噪，生成新的低噪图片，对应的xml中的标注信息不变，将分别经过步骤S31至S34处理的图片加入原本的数据集构成新的数据集。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：采用深度学习框架darknet进行训练，初始参数设定：

初始学习率learning rate：0.001；

多项式速率衰减-polynomial rate decay：4的幂次；

权值衰减-weight decay：0.0005；

动量-momentum：0.9；

步骤S42：通过k-means聚类生成YOLOv3神经网络模型所需的锚框anchor boxes，利用锚框anchor boxes预测边界框bounding boxes；

步骤S43：对每个边界框bounding box通过逻辑回归预测出边界框内有物体的概率分数每个box都有(x,y,w,h,confidence)五个基本参数，其中，(x,y)是边界框的中心坐标，(w,h)为边界框的宽高，confidence为置信度；

步骤S44：利用一个下采样和一个上采样，输出三个不同尺度的特征图，在前向传播中通过改变卷积核步长实现张量的尺寸变化；

步骤S45：计算出损失值；

损失函数为：

其中，第一行就总方误差(sum-squared error)来当作位置预测的损失函数，λ_coord＝5，S²表示网格数，上式中为13×13，B表示边界预测框，i表示第i个网格，j表示第j个边界预测框，

表示网格i中的第j个边界框预测到了正确类别，x_i、y_i、

分别表示第i个网格内预测框的x、y坐标，真实框x、y坐标；第二行用根号总方误差来当作宽度和高度的损失函数，ω_i、h_i、

分别表示预测框的宽、高和输入图像的宽、高；第三行和第四行对置信度confidence也用SSE作为损失函数，λ_noobj＝5，

表示网格i中的第j个边界框预测到了正确类别，

表示未预测到正确类别，C_i为第i个框含有物体的置信度，第三行

第四行

第五行用SSE作类别概率的损失函数，

表示第i个网格预测到了正确类别，p_i(c)表示c为正确类的概率，

中c为正确类别则值为1，否则为0。

步骤S46：采用随机梯度下降方法，用当前的权重值减去学习率乘以损失函数对权重的偏导数，计算YOLOv3神经网络模型更新后的权重值，权重更新公式如下：

其中，t为当前的迭代次数，w_t-1则为迭代t-1次的权重，α为学习率，

为损失函数对权重w_t-1的偏导数，w_t则为更新后的权重值；

步骤S47：训练迭代到10000次后，将学习率调整为0.0001，继续训练，迭代到30000次后停止训练，保存训练好的模型；

步骤S48：将待测试的美式车牌图片缩放成416*416，按下列3种尺寸划分，平均划分成13*13个网格；平均划分成26*26网格；平均划分成52*52个网格；

步骤S49：对于上述3类网格，每个网格预测3个bounding box，每个box包含5个预测量以及5个类别概率；

步骤S410：根据步骤S48预测出13*13*3+26*26*3+52*52*3个目标窗口，根据阈值筛选置信度低于0.7窗口，接着利用非极大值抑制去除冗余窗口，最终得到的边界框则是YOLOv3神经网络预测到的车牌号信息、年检信息、州名信息特征区域，每个边界框四个顶点的坐标则是特征区域在原图中的所在位置。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：截取车牌图片中的不易识别区分的字符，包括A与4，o与0，将这些字符图片构造为样本集；

步骤S52：在deep-text预训练模型上继续训练S51中挑选出来的不易识别的字符图像样本，得到新的模型权重，用以使字符的识别工具更适用于车牌上的字符；

步骤S53：对于步骤S49中的获取到的位置信息，根据坐标将对应的车牌号区域、年检区域、州名区域截取出来成为单独的一张小图，这些小图仅包含待识别字符，没有多余的背景信息；

步骤S54：调用S52中训练的新的deep-text训练模型权重，识别出每张小图中的具体字符。

与现有技术相比，本发明具有以下有益效果：

本发明提出了两阶段的美式车牌识别，使用yolov3检测车牌、州名等特征区域，时效性好且能排除车牌背景区域对车牌字符识别的影响，同时将车牌字符作为新样本加入到字符识别工具中训练，使得字符识别在美式车牌识别下效果更佳，具有创新意义。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于YOLOv3与文本识别的美式车牌识别方法，包括以下步骤：

在本实施例中，步骤S1中所述采集图像数据具体包括以下步骤：

在本实施例中，步骤S2中所述进行图像标注具体包括以下步骤：

步骤SA：下载图片标签工具labelImg，并进行配置；

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：对步骤S2所得数据集中倾斜的车牌图片进行旋转变换，用以使原本是倾斜的车牌区域调整为正的，这样检测到的车牌区域就不会因为倾斜而有多余的非字符特征，对xml中的标注信息同时做相应的坐标变换；

在本实施例中，所述步骤S4具体包括以下步骤：

步骤S41：采用深度学习框架darknet进行训练，初始参数设定：

初始学习率learning rate：0.001；

多项式速率衰减-polynomial rate decay：4的幂次；

权值衰减-weight decay：0.0005；

动量-momentum：0.9；

步骤S45：计算出损失值；

损失函数是用来衡量神经网络预测值与真实值间的差距，计算出损失值后，神经网络根据梯度下降法反向传播，更新网络的权重置和偏置值。

损失函数为：

表示网格i中的第j个边界框预测到了正确类别，x_i、y_i、

表示网格i中的第j个边界框预测到了正确类别，

第四行

第五行用SSE作类别概率的损失函数，

中c为正确类别则值为1，否则为0。

为损失函数对权重w_t-1的偏导数，w_t则为更新后的权重值；

在本实施例中，权重值就是神经网络学习到的权重，权重会不断更新，使得神经网络预测的输出越来越接近真实的值。偏置值就是加在每个神经元上。

在本实施例中，每个车牌上有年检，车牌号，州名等信息，这些信息在图中的位置就是要提取的特征区域位置，预测到的边界框四个顶点的坐标就是特征区域的位置。

在本实施例中，所述步骤S5具体包括以下步骤：

步骤S51：截取车牌图片中的不易识别区分的字符，如“o”和“0”，“A”和“4”，“G”和“6”等，将这些字符图片构造为样本集；

步骤S54：调用S52中训练的新的deep-text训练模型权重，识别出每张小图中的具体字符。较佳的，本实施例将目光放在美式的车牌上，该类车牌背景复杂性较高，并且车牌信息区域的分布没有严格的规律，中间部分都是车牌号信息，但是州名信息可能在车牌的上端中部或者下端中部，而年检信息则可能在车牌的左(右)上或者左(右)下。对于车牌特征区域，车牌号区域、年检区域、州名区域，先检测出这些区域的位置坐标再将对应位置中的文本识别出来。鉴于这种情况，本实施例在采集美式车牌中各个州的车牌的图像数据，构成美式车牌图像集后，对下载好的图像进行人工标注，生成xml文件，以符合YOLOv3训练的要求。接着对处理好的数据进行若干数据增强。训练YOLOv3神经网络模型并检测出车牌的车牌号区域、年检区域、州名区域，最后将检测出的区域通过文本识别工具提取出字符信息本实施例着眼于计算机视觉对于车牌识别应用的拓展，在中国车牌识别比较成熟的背景下，提出了两阶段的美式车牌识别，使用yolov3检测车牌、州名等特征区域，时效性好且能排除车牌背景区域对车牌字符识别的影响，同时将车牌字符作为新样本加入到字符识别工具中训练，使得字符识别在美式车牌识别下效果更佳，具有创新意义。且本实施例准确率高，时效性好，对于美式的车牌识别具有实际应用意义。以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。