CN112232371B - 一种基于YOLOv3与文本识别的美式车牌识别方法 - Google Patents

一种基于YOLOv3与文本识别的美式车牌识别方法 Download PDF

Info

Publication number
CN112232371B
CN112232371B CN202010978381.6A CN202010978381A CN112232371B CN 112232371 B CN112232371 B CN 112232371B CN 202010978381 A CN202010978381 A CN 202010978381A CN 112232371 B CN112232371 B CN 112232371B
Authority
CN
China
Prior art keywords
license plate
information
american
training
yolov3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010978381.6A
Other languages
English (en)
Other versions
CN112232371A (zh
Inventor
柯逍
林炳辉
陈宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010978381.6A priority Critical patent/CN112232371B/zh
Publication of CN112232371A publication Critical patent/CN112232371A/zh
Application granted granted Critical
Publication of CN112232371B publication Critical patent/CN112232371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于YOLOv3与文本识别的美式车牌识别方法,包括步骤S1:采集美式车牌中各个州的车牌的图像数据,构成美式车牌图像集;步骤S2:对下载好的图像进行人工标注,生成xml文件,以符合YOLOv3神经网络模型训练的要求;步骤S3:对步骤S2中处理好的数据进行若干数据增强,用以提高图像质量,利于之后的训练与识别;步骤S4:训练YOLOv3神经网络模型,并用训练好的权重检测出车牌的特征区域;步骤S5:车牌特殊字符作为新样本加入deep‑text文本识别工具训练,将检测出的车牌特征区域通过训练好的文本识别工具提取出对应的字符信息。本发明提出方法的准确率高,时效性好,对于美式的车牌识别具有实际应用意义。

Description

一种基于YOLOv3与文本识别的美式车牌识别方法
技术领域
本发明涉及目标识别与计算机视觉领域,特别是一种基于YOLOv3与文本识别的美式车牌识别方法。
背景技术
随着计算机视觉技术的不断发展,车牌识别作为计算机视频图像识别技术在车辆牌照识别中的一种应用,也相应地取得了飞速的发展,在高速公路车辆管理中得到广泛应用。而我国统一蓝底白字的车牌比较规范,运用现有的车牌识别技术已经能够很高的识别率,并且在许多应用场景中都有这广泛的应用。相比之下,美式的车牌就五花八门,且背景颜色各异,不同州的车牌格式都各不相同,在这种问题背景下,本文针对美式车牌的特殊性,提出了该方法用于解决美式车牌中不同于中国车牌的识别方法。
美式的车牌识别包含若干技术,其中最核心的部分就是车牌内车牌号区域、年检区域、州名区域的检测部分,该部分属于目标检测领域,剩余部分就是对检测出的文字的字符识别。
而对于目标检测,相关算法愈发成熟并广泛应用在各个领域。早期的目标检测方法通常是通过提取图像的一些robust的特征(如Haar、SIFT、HOG等),使用DPM(DeformableParts Model)模型,用滑动窗口(silding window)的方式来预测具有较高score的bounding box。这种方式非常耗时,而且精度又不怎么高。2013年,Ross Girshick等提出了R-CNN,将CNN方法应用到目标检测上,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化,减少了大量的计算,但其仍存在几个明显的问题,如多个候选区域对应的图像需要预先提取,占用较大的磁盘空间等。而后Kaiming He提出SPP-Net用于解决R-CNN特征提取过于耗时的问题,在R-CNN的基础上做了实质性的改进,对特征提取步骤做了修改,特征提取不再需要每个候选区域都经过CNN,只需要将整张图片输入到CNN就可以了,ROI特征直接从特征图获取。和R-CNN相比,速度提高了百倍。但其仍存在很多问题,CNN中的conv层在微调时是不能继续训练的,很大程度上限制了深度CNN的效果,而且它仍然是R-CNN的框架,离端到端的检测还差很多。2015年,R-CNN原作者RossGirshick进一步提出了Fast-RCNN,Fast-RCNN实现大部分end-to-end训练,所有的特征都暂存在显存中,就不需要额外的磁盘空间,借鉴SPP-Net提出了一个RoI层,SPP是pooling成多个固定尺度,RoI只pooling到单个固定的尺度。然而,Fast-RCNN依然没有解决ProposalRegion耗时的问题。2016年,由Ross Girshick与Kaming He共同提出的Faster-RCNN,通过添加额外的RPN分支网络,将候选框提取合并到深度网络中。通过使用共享特征交替训练的方式,达到接近实时的性能。而在2015年,Joseph Redmon和Ali Farhadi等人于2015年提出基于单个神经网络的目标检测系统YOLO(You Only Look Once)YOLO算法使用深度神经网络进行对象的位置检测以及分类,主要的特点是速度够快,而且准确率也很高,采用直接预测目标对象的边界框的方法,将候选区和对象识别这两个阶段合二为一,与faster rcnn区分开来,是端到端的检测方法。Yolo算法不再是窗口滑动了,而是直接将原始图片分割成互不重合的小方块,然后通过卷积最后生产这样大小的特征图,基于上面的分析,可以认为特征图的每个元素也是对应原始图片的一个小方块,然后用每个元素来可以预测那些中心点在该小方格内的目标,这就是Yolo算法的朴素思想,最新的YOLOv3算法再以往的结构上做出了改进,增加了多尺度检测,以及更深的网络结构darknet53,这是比较主要的改进,采用了上采样和特征图融合,将浅层的细节信息和深层的语义信息进行融合,并且多特征输出,这样做可以极大提升对小物体的检测效果。
字符识别部分,2016年Z.Tian等提出额一个深度神经网络叫做CTPN,直到今天这个网络框架一直是OCR系统中做文本检测的一个常用网络,极大地影响了后面文本检测算法的方向。CTPN借鉴了Faster-RCNN的RPN思想,加入了双向LSTM,为了精确定位加入了sideregression。
随着计算机技术的发展,不管是高速公路上的车牌识别还是小区门口的车牌识别都已经取得了很好的效果。不过目前应用中的车牌识别工具都是用于简单且规范的中式车牌识别,这类识别规范性强,复杂性低,容易得到较好的识别结果。
而在美式的车牌上,该类车牌背景复杂性较高,并且车牌信息区域的分布没有严格的规律,中间部分都是车牌号信息,但是州名信息可能在车牌的上端中部或者下端中部,而年检信息则可能在车牌的左(右)上或者左(右)下,检测难度高。
发明内容
有鉴于此,本发明的目的是提供一种基于YOLOv3与文本识别的美式车牌识别方法,准确率高,时效性好,对于美式的车牌识别具有实际应用意义。
本发明采用以下方案实现:一种基于YOLOv3与文本识别的美式车牌识别方法,包括以下步骤:
步骤S1:采集美式车牌中各个州的车牌的图像数据,构成美式车牌图像集;
步骤S2:对步骤S1中采集到的美式车牌图像进行人工标注,生成xml文件,以符合YOLOv3神经网络模型训练的要求;
步骤S3:对步骤S2中标注好的数据进行高斯滤波降噪、对比度调整的图像预处理,用以提高图像质量,利于之后的训练与识别;
步骤S4:训练YOLOv3神经网络模型,并用训练好的权重检测出车牌的州名、年限、车牌号特征区域所在位置;
步骤S5:车牌特殊字符作为新样本加入deep-text文本识别工具训练,将步骤S4中检测出的车牌特征区域通过训练好的文本识别工具提取出对应的字符信息。
进一步地,步骤S1中所述采集图像数据具体包括以下步骤:
步骤Sa:分析美式车牌要识别的范围,包括车牌号信息、年检信息和州名信息,确定包含该类信息的车牌图片为图像集;
步骤Sb:通过爬虫下载百度图片网站上的美式车牌数据,下载公开车牌数据集中的相关图片;
步骤Sc:对下载的图片进行筛选,剔除不包含车牌号信息、年检信息和州名信息的图片。
进一步地,步骤S2中所述进行图像标注具体包括以下步骤:
步骤SA:下载图片标签工具labelImg,并进行配置;
步骤SB:利用labelImg,对每一张图手动框选出车牌号信息区域、年检信息区域和州名信息区域,将矩形框的位置信息与分类信息保存于xml文件中。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:对步骤S2所得数据集中倾斜的车牌图片进行旋转变换,用以使原本是倾斜的车牌区域调整为正的,对xml中的标注信息同时做相应的坐标变换;
步骤S32:对步骤S2所得数据集中所有图片进行对比度调整,用以使车牌信息不会太亮或太暗,提高后期识别效率,对应的xml中的标注信息不变;
步骤S33:对步骤S2所得数据集中所有图片进行裁剪,裁剪掉每张图片不属于车牌的区域,保留中心,并对xml中的标注信息做相应的坐标变换;
步骤S34:对步骤S2所得数据集中所有图片进行高斯滤波降噪,生成新的低噪图片,对应的xml中的标注信息不变,将分别经过步骤S31至S34处理的图片加入原本的数据集构成新的数据集。
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:采用深度学习框架darknet进行训练,初始参数设定:
初始学习率learning rate:0.001;
多项式速率衰减-polynomial rate decay:4的幂次;
权值衰减-weight decay:0.0005;
动量-momentum:0.9;
步骤S42:通过k-means聚类生成YOLOv3神经网络模型所需的锚框anchor boxes,利用锚框anchor boxes预测边界框bounding boxes;
步骤S43:对每个边界框bounding box通过逻辑回归预测出边界框内有物体的概率分数每个box都有(x,y,w,h,confidence)五个基本参数,其中,(x,y)是边界框的中心坐标,(w,h)为边界框的宽高,confidence为置信度;
步骤S44:利用一个下采样和一个上采样,输出三个不同尺度的特征图,在前向传播中通过改变卷积核步长实现张量的尺寸变化;
步骤S45:计算出损失值;
损失函数为:
Figure BDA0002686045240000071
Figure BDA0002686045240000072
其中,第一行就总方误差(sum-squared error)来当作位置预测的损失函数,λcoord=5,S2表示网格数,上式中为13×13,B表示边界预测框,i表示第i个网格,j表示第j个边界预测框,
Figure BDA0002686045240000073
表示网格i中的第j个边界框预测到了正确类别,xi、yi
Figure BDA0002686045240000074
分别表示第i个网格内预测框的x、y坐标,真实框x、y坐标;第二行用根号总方误差来当作宽度和高度的损失函数,ωi、hi
Figure BDA0002686045240000075
分别表示预测框的宽、高和输入图像的宽、高;第三行和第四行对置信度confidence也用SSE作为损失函数,λnoobj=5,
Figure BDA0002686045240000076
表示网格i中的第j个边界框预测到了正确类别,
Figure BDA0002686045240000077
表示未预测到正确类别,Ci为第i个框含有物体的置信度,第三行
Figure BDA0002686045240000078
第四行
Figure BDA0002686045240000079
第五行用SSE作类别概率的损失函数,
Figure BDA00026860452400000710
表示第i个网格预测到了正确类别,pi(c)表示c为正确类的概率,
Figure BDA00026860452400000711
中c为正确类别则值为1,否则为0。
步骤S46:采用随机梯度下降方法,用当前的权重值减去学习率乘以损失函数对权重的偏导数,计算YOLOv3神经网络模型更新后的权重值,权重更新公式如下:
Figure BDA0002686045240000081
其中,t为当前的迭代次数,wt-1则为迭代t-1次的权重,α为学习率,
Figure BDA0002686045240000082
为损失函数对权重wt-1的偏导数,wt则为更新后的权重值;
步骤S47:训练迭代到10000次后,将学习率调整为0.0001,继续训练,迭代到30000次后停止训练,保存训练好的模型;
步骤S48:将待测试的美式车牌图片缩放成416*416,按下列3种尺寸划分,平均划分成13*13个网格;平均划分成26*26网格;平均划分成52*52个网格;
步骤S49:对于上述3类网格,每个网格预测3个bounding box,每个box包含5个预测量以及5个类别概率;
步骤S410:根据步骤S48预测出13*13*3+26*26*3+52*52*3个目标窗口,根据阈值筛选置信度低于0.7窗口,接着利用非极大值抑制去除冗余窗口,最终得到的边界框则是YOLOv3神经网络预测到的车牌号信息、年检信息、州名信息特征区域,每个边界框四个顶点的坐标则是特征区域在原图中的所在位置。
进一步地,所述步骤S5具体包括以下步骤:
步骤S51:截取车牌图片中的不易识别区分的字符,包括A与4,o与0,将这些字符图片构造为样本集;
步骤S52:在deep-text预训练模型上继续训练S51中挑选出来的不易识别的字符图像样本,得到新的模型权重,用以使字符的识别工具更适用于车牌上的字符;
步骤S53:对于步骤S49中的获取到的位置信息,根据坐标将对应的车牌号区域、年检区域、州名区域截取出来成为单独的一张小图,这些小图仅包含待识别字符,没有多余的背景信息;
步骤S54:调用S52中训练的新的deep-text训练模型权重,识别出每张小图中的具体字符。
与现有技术相比,本发明具有以下有益效果:
本发明提出了两阶段的美式车牌识别,使用yolov3检测车牌、州名等特征区域,时效性好且能排除车牌背景区域对车牌字符识别的影响,同时将车牌字符作为新样本加入到字符识别工具中训练,使得字符识别在美式车牌识别下效果更佳,具有创新意义。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于YOLOv3与文本识别的美式车牌识别方法,包括以下步骤:
步骤S1:采集美式车牌中各个州的车牌的图像数据,构成美式车牌图像集;
步骤S2:对步骤S1中采集到的美式车牌图像进行人工标注,生成xml文件,以符合YOLOv3神经网络模型训练的要求;
步骤S3:对步骤S2中标注好的数据进行高斯滤波降噪、对比度调整的图像预处理,用以提高图像质量,利于之后的训练与识别;
步骤S4:训练YOLOv3神经网络模型,并用训练好的权重检测出车牌的州名、年限、车牌号特征区域所在位置;
步骤S5:车牌特殊字符作为新样本加入deep-text文本识别工具训练,将步骤S4中检测出的车牌特征区域通过训练好的文本识别工具提取出对应的字符信息。
在本实施例中,步骤S1中所述采集图像数据具体包括以下步骤:
步骤Sa:分析美式车牌要识别的范围,包括车牌号信息、年检信息和州名信息,确定包含该类信息的车牌图片为图像集;
步骤Sb:通过爬虫下载百度图片网站上的美式车牌数据,下载公开车牌数据集中的相关图片;
步骤Sc:对下载的图片进行筛选,剔除不包含车牌号信息、年检信息和州名信息的图片。
在本实施例中,步骤S2中所述进行图像标注具体包括以下步骤:
步骤SA:下载图片标签工具labelImg,并进行配置;
步骤SB:利用labelImg,对每一张图手动框选出车牌号信息区域、年检信息区域和州名信息区域,将矩形框的位置信息与分类信息保存于xml文件中。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:对步骤S2所得数据集中倾斜的车牌图片进行旋转变换,用以使原本是倾斜的车牌区域调整为正的,这样检测到的车牌区域就不会因为倾斜而有多余的非字符特征,对xml中的标注信息同时做相应的坐标变换;
步骤S32:对步骤S2所得数据集中所有图片进行对比度调整,用以使车牌信息不会太亮或太暗,提高后期识别效率,对应的xml中的标注信息不变;
步骤S33:对步骤S2所得数据集中所有图片进行裁剪,裁剪掉每张图片不属于车牌的区域,保留中心,并对xml中的标注信息做相应的坐标变换;
步骤S34:对步骤S2所得数据集中所有图片进行高斯滤波降噪,生成新的低噪图片,对应的xml中的标注信息不变,将分别经过步骤S31至S34处理的图片加入原本的数据集构成新的数据集。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:采用深度学习框架darknet进行训练,初始参数设定:
初始学习率learning rate:0.001;
多项式速率衰减-polynomial rate decay:4的幂次;
权值衰减-weight decay:0.0005;
动量-momentum:0.9;
步骤S42:通过k-means聚类生成YOLOv3神经网络模型所需的锚框anchor boxes,利用锚框anchor boxes预测边界框bounding boxes;
步骤S43:对每个边界框bounding box通过逻辑回归预测出边界框内有物体的概率分数每个box都有(x,y,w,h,confidence)五个基本参数,其中,(x,y)是边界框的中心坐标,(w,h)为边界框的宽高,confidence为置信度;
步骤S44:利用一个下采样和一个上采样,输出三个不同尺度的特征图,在前向传播中通过改变卷积核步长实现张量的尺寸变化;
步骤S45:计算出损失值;
损失函数是用来衡量神经网络预测值与真实值间的差距,计算出损失值后,神经网络根据梯度下降法反向传播,更新网络的权重置和偏置值。
损失函数为:
Figure BDA0002686045240000131
Figure BDA0002686045240000132
其中,第一行就总方误差(sum-squared error)来当作位置预测的损失函数,λcoord=5,S2表示网格数,上式中为13×13,B表示边界预测框,i表示第i个网格,j表示第j个边界预测框,
Figure BDA0002686045240000133
表示网格i中的第j个边界框预测到了正确类别,xi、yi
Figure BDA0002686045240000134
分别表示第i个网格内预测框的x、y坐标,真实框x、y坐标;第二行用根号总方误差来当作宽度和高度的损失函数,ωi、hi
Figure BDA0002686045240000135
分别表示预测框的宽、高和输入图像的宽、高;第三行和第四行对置信度confidence也用SSE作为损失函数,λnoobj=5,
Figure BDA0002686045240000136
表示网格i中的第j个边界框预测到了正确类别,
Figure BDA0002686045240000137
表示未预测到正确类别,Ci为第i个框含有物体的置信度,第三行
Figure BDA0002686045240000138
第四行
Figure BDA0002686045240000139
第五行用SSE作类别概率的损失函数,
Figure BDA00026860452400001310
表示第i个网格预测到了正确类别,pi(c)表示c为正确类的概率,
Figure BDA00026860452400001311
中c为正确类别则值为1,否则为0。
步骤S46:采用随机梯度下降方法,用当前的权重值减去学习率乘以损失函数对权重的偏导数,计算YOLOv3神经网络模型更新后的权重值,权重更新公式如下:
Figure BDA0002686045240000141
其中,t为当前的迭代次数,wt-1则为迭代t-1次的权重,α为学习率,
Figure BDA0002686045240000142
为损失函数对权重wt-1的偏导数,wt则为更新后的权重值;
在本实施例中,权重值就是神经网络学习到的权重,权重会不断更新,使得神经网络预测的输出越来越接近真实的值。偏置值就是加在每个神经元上。
步骤S47:训练迭代到10000次后,将学习率调整为0.0001,继续训练,迭代到30000次后停止训练,保存训练好的模型;
步骤S48:将待测试的美式车牌图片缩放成416*416,按下列3种尺寸划分,平均划分成13*13个网格;平均划分成26*26网格;平均划分成52*52个网格;
步骤S49:对于上述3类网格,每个网格预测3个bounding box,每个box包含5个预测量以及5个类别概率;
步骤S410:根据步骤S48预测出13*13*3+26*26*3+52*52*3个目标窗口,根据阈值筛选置信度低于0.7窗口,接着利用非极大值抑制去除冗余窗口,最终得到的边界框则是YOLOv3神经网络预测到的车牌号信息、年检信息、州名信息特征区域,每个边界框四个顶点的坐标则是特征区域在原图中的所在位置。
在本实施例中,每个车牌上有年检,车牌号,州名等信息,这些信息在图中的位置就是要提取的特征区域位置,预测到的边界框四个顶点的坐标就是特征区域的位置。
在本实施例中,所述步骤S5具体包括以下步骤:
步骤S51:截取车牌图片中的不易识别区分的字符,如“o”和“0”,“A”和“4”,“G”和“6”等,将这些字符图片构造为样本集;
步骤S52:在deep-text预训练模型上继续训练S51中挑选出来的不易识别的字符图像样本,得到新的模型权重,用以使字符的识别工具更适用于车牌上的字符;
步骤S53:对于步骤S49中的获取到的位置信息,根据坐标将对应的车牌号区域、年检区域、州名区域截取出来成为单独的一张小图,这些小图仅包含待识别字符,没有多余的背景信息;
步骤S54:调用S52中训练的新的deep-text训练模型权重,识别出每张小图中的具体字符。较佳的,本实施例将目光放在美式的车牌上,该类车牌背景复杂性较高,并且车牌信息区域的分布没有严格的规律,中间部分都是车牌号信息,但是州名信息可能在车牌的上端中部或者下端中部,而年检信息则可能在车牌的左(右)上或者左(右)下。对于车牌特征区域,车牌号区域、年检区域、州名区域,先检测出这些区域的位置坐标再将对应位置中的文本识别出来。鉴于这种情况,本实施例在采集美式车牌中各个州的车牌的图像数据,构成美式车牌图像集后,对下载好的图像进行人工标注,生成xml文件,以符合YOLOv3训练的要求。接着对处理好的数据进行若干数据增强。训练YOLOv3神经网络模型并检测出车牌的车牌号区域、年检区域、州名区域,最后将检测出的区域通过文本识别工具提取出字符信息本实施例着眼于计算机视觉对于车牌识别应用的拓展,在中国车牌识别比较成熟的背景下,提出了两阶段的美式车牌识别,使用yolov3检测车牌、州名等特征区域,时效性好且能排除车牌背景区域对车牌字符识别的影响,同时将车牌字符作为新样本加入到字符识别工具中训练,使得字符识别在美式车牌识别下效果更佳,具有创新意义。且本实施例准确率高,时效性好,对于美式的车牌识别具有实际应用意义。以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (4)

1.一种基于YOLOv3与文本识别的美式车牌识别方法,其特征在于:包括以下步骤:
步骤S1:采集美式车牌中各个州的车牌的图像数据,构成美式车牌图像集;
步骤S2:对步骤S1中采集到的美式车牌图像进行人工标注,生成xml文件,以符合YOLOv3神经网络模型训练的要求;
步骤S3:对步骤S2中标注好的数据进行高斯滤波降噪、对比度调整的图像预处理;
步骤S4:训练YOLOv3神经网络模型,并用训练好的权重检测出车牌的州名、年限、车牌号特征区域所在位置;
步骤S5:车牌特殊字符作为新样本加入deep-text文本识别工具训练,将步骤S4中检测出的车牌特征区域通过训练好的文本识别工具提取出对应的字符信息;
所述步骤S4具体包括以下步骤:
步骤S41:采用深度学习框架darknet进行训练,初始参数设定:
初始学习率learning rate:0.001;
多项式速率衰减-polynomial rate decay:4的幂次;
权值衰减-weight decay:0.0005;
动量-momentum:0.9;
步骤S42:通过k-means聚类生成YOLOv3神经网络模型所需的锚框anchor boxes,利用锚框anchor boxes预测边界框bounding boxes;
步骤S43:对每个边界框bounding box通过逻辑回归预测出边界框内有物体的概率分数每个box都有(x,y,w,h,confidence)五个基本参数,其中,(x,y)是边界框的中心坐标,(w,h)为边界框的宽高,confidence为置信度;
步骤S44:利用一个下采样和一个上采样,输出三个不同尺度的特征图,在前向传播中通过改变卷积核步长实现张量的尺寸变化;
步骤S45:计算出损失值;
损失函数为:
Figure FDA0003588187080000021
Figure FDA0003588187080000022
其中,第一行就总方误差来当作位置预测的损失函数,λcoord=5,S2表示网格数,上式中为13×13,B表示边界预测框,i表示第i个网格,j表示第j个边界预测框,
Figure FDA0003588187080000023
表示网格i中的第j个边界框预测到了正确类别,xi、yi
Figure FDA0003588187080000024
分别表示第i个网格内预测框的x、y坐标,真实框x、y坐标;第二行用根号总方误差来当作宽度和高度的损失函数,ωi、hi
Figure FDA0003588187080000031
分别表示预测框的宽、高和输入图像的宽、高;第三行和第四行对置信度confidence也用SSE作为损失函数,λnoobj=5,
Figure FDA0003588187080000032
表示网格i中的第j个边界框预测到了正确类别,
Figure FDA0003588187080000033
表示未预测到正确类别,Ci为第i个框含有物体的置信度,第三行
Figure FDA0003588187080000034
第四行
Figure FDA0003588187080000035
第五行用SSE作类别概率的损失函数,
Figure FDA0003588187080000036
表示第i个网格预测到了正确类别,pi(c)表示c为正确类的概率,
Figure FDA0003588187080000037
中c为正确类别则值为1,否则为0;
步骤S46:采用随机梯度下降方法,用当前的权重值减去学习率乘以损失函数对权重的偏导数,计算YOLOv3神经网络模型更新后的权重值,权重更新公式如下:
Figure FDA0003588187080000038
其中,t为当前的迭代次数,wt-1则为迭代t-1次的权重,α为学习率,
Figure FDA0003588187080000039
为损失函数对权重wt-1的偏导数,wt则为更新后的权重值;
步骤S47:训练迭代到10000次后,将学习率调整为0.0001,继续训练,迭代到30000次后停止训练,保存训练好的模型;
步骤S48:将待测试的美式车牌图片缩放成416*416,按下列3种尺寸划分,平均划分成13*13个网格;平均划分成26*26网格;平均划分成52*52个网格;
步骤S49:对于上述3类网格,每个网格预测3个bounding box,每个box包含5个预测量以及5个类别概率;
步骤S410:根据步骤S48预测出13*13*3+26*26*3+52*52*3个目标窗口,根据阈值筛选置信度低于0.7窗口,接着利用非极大值抑制去除冗余窗口,最终得到的边界框则是YOLOv3神经网络预测到的车牌号信息、年检信息、州名信息特征区域,每个边界框四个顶点的坐标则是特征区域在原图中的所在位置;
所述步骤S5具体包括以下步骤:
步骤S51:截取车牌图片中的不易识别区分的字符,包括A与4或o与0,将这些字符图片构造为样本集;
步骤S52:在deep-text预训练模型上继续训练S51中挑选出来的不易识别的字符图像样本,得到新的模型权重;
步骤S53:对于步骤S49中的获取到的位置信息,根据坐标将对应的车牌号区域、年检区域、州名区域截取出来成为单独的一张小图,这些小图仅包含待识别字符,没有多余的背景信息;
步骤S54:调用S52中训练的新的deep-text训练模型权重,识别出每张小图中的具体字符。
2.根据权利要求1所述的一种基于YOLOv3与文本识别的美式车牌识别方法,其特征在于:步骤S1中所述采集图像数据具体包括以下步骤:
步骤Sa:分析美式车牌要识别的范围,包括车牌号信息、年检信息和州名信息,确定包含该类信息的车牌图片为图像集;
步骤Sb:通过爬虫下载图片网站上的美式车牌数据,下载公开车牌数据集中的相关图片;
步骤Sc:对下载的图片进行筛选,剔除不包含车牌号信息、年检信息和州名信息的图片。
3.根据权利要求1所述的一种基于YOLOv3与文本识别的美式车牌识别方法,其特征在于:步骤S2中所述进行图像标注具体包括以下步骤:
步骤SA:下载图片标签工具labelImg,并进行配置;
步骤SB:利用labelImg,对每一张图手动框选出车牌号信息区域、年检信息区域和州名信息区域,将矩形框的位置信息与分类信息保存于xml文件中。
4.根据权利要求1所述的一种基于YOLOv3与文本识别的美式车牌识别方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:对步骤S2所得数据集中倾斜的车牌图片进行旋转变换,对xml中的标注信息同时做相应的坐标变换;
步骤S32:对步骤S2所得数据集中所有图片进行对比度调整,对应的xml中的标注信息不变;
步骤S33:对步骤S2所得数据集中所有图片进行裁剪,裁剪掉每张图片不属于车牌的区域,保留中心,并对xml中的标注信息做相应的坐标变换;
步骤S34:对步骤S2所得数据集中所有图片进行高斯滤波降噪,生成新的低噪图片,对应的xml中的标注信息不变,将分别经过步骤S31至S34处理的图片加入原本的数据集构成新的数据集。
CN202010978381.6A 2020-09-17 2020-09-17 一种基于YOLOv3与文本识别的美式车牌识别方法 Active CN112232371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978381.6A CN112232371B (zh) 2020-09-17 2020-09-17 一种基于YOLOv3与文本识别的美式车牌识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978381.6A CN112232371B (zh) 2020-09-17 2020-09-17 一种基于YOLOv3与文本识别的美式车牌识别方法

Publications (2)

Publication Number Publication Date
CN112232371A CN112232371A (zh) 2021-01-15
CN112232371B true CN112232371B (zh) 2022-06-10

Family

ID=74108293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978381.6A Active CN112232371B (zh) 2020-09-17 2020-09-17 一种基于YOLOv3与文本识别的美式车牌识别方法

Country Status (1)

Country Link
CN (1) CN112232371B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949692A (zh) * 2021-02-03 2021-06-11 歌尔股份有限公司 一种目标检测方法和装置
CN112883965A (zh) * 2021-02-08 2021-06-01 中兴盛达电气技术(郑州)有限公司 包装器皿上的日期检测方法、电子设备和计算机可读存储介质
CN112990197A (zh) * 2021-03-17 2021-06-18 浙江商汤科技开发有限公司 车牌识别方法及装置、电子设备和存储介质
CN113011405B (zh) * 2021-05-25 2021-08-13 南京柠瑛智能科技有限公司 一种解决无人机地物目标识别多框重叠误差的方法
CN113435446B (zh) * 2021-07-07 2023-10-31 南京云创大数据科技股份有限公司 一种基于深度学习的倾斜车牌矫正方法
CN114565597B (zh) * 2022-03-04 2024-05-14 昆明理工大学 一种基于YOLO v3-tiny-DB和迁移学习的夜间道路行人检测方法
CN114998220B (zh) * 2022-05-12 2023-06-13 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245577A (zh) * 2019-05-23 2019-09-17 复钧智能科技(苏州)有限公司 目标车辆识别方法、装置及车辆实时监控系统
CN111310773A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法
CN111666938A (zh) * 2020-05-21 2020-09-15 珠海大横琴科技发展有限公司 一种基于深度学习的两地双车牌检测识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242282B2 (en) * 2017-03-20 2019-03-26 Conduent Business Services, Llc Video redaction method and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245577A (zh) * 2019-05-23 2019-09-17 复钧智能科技(苏州)有限公司 目标车辆识别方法、装置及车辆实时监控系统
CN111310773A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种高效的卷积神经网络的车牌定位方法
CN111666938A (zh) * 2020-05-21 2020-09-15 珠海大横琴科技发展有限公司 一种基于深度学习的两地双车牌检测识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
License Plate Recognition in Unconstrained Scenarios Based on ALPR System;Jiao,Zhiquan et al.;《PROCEEDINGS OF THE 2019 INTERNATIONAL CONFERENCE ON ROBOTICS, INTELLIGENT CONTROL AND ARTIFICIAL INTELLIGENCE (RICAI 2019)》;20190920;第540-544页 *
Vehicle Logo Recognition with Small Sample Problem in Complex Scene Based on Data Augmentation;Ke,Xiao et al.;《Mathematical Problems in Engineering》;20200709;第1-10页 *
YOLOv3网络在车标检测中的应用;王林 等;《电子技术应用》;20200906;第46卷(第09期);第34-37页 *

Also Published As

Publication number Publication date
CN112232371A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN111553200A (zh) 一种图像检测识别方法及装置
CN111914634B (zh) 一种抗复杂场景干扰的井盖类别自动检测方法和系统
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN111428625A (zh) 一种基于深度学习的交通场景目标检测方法及系统
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN112419202B (zh) 基于大数据及深度学习的野生动物图像自动识别系统
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN109002771B (zh) 一种基于递归神经网络的遥感图像分类方法
CN110414616A (zh) 一种利用空间关系的遥感图像字典学习分类方法
CN110969121A (zh) 一种基于深度学习的高分辨率雷达目标识别算法
CN111507353B (zh) 一种基于文字识别的中文字段检测方法及系统
CN110533100A (zh) 一种基于机器学习进行cme检测和跟踪的方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN109034213A (zh) 基于相关熵原则的高光谱图像分类方法和系统
CN113657414B (zh) 一种物体识别方法
CN111144422A (zh) 一种飞机部件的定位识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant