CN110097044B - 基于深度学习的一阶段车牌检测识别方法 - Google Patents

基于深度学习的一阶段车牌检测识别方法 Download PDF

Info

Publication number
CN110097044B
CN110097044B CN201910393968.8A CN201910393968A CN110097044B CN 110097044 B CN110097044 B CN 110097044B CN 201910393968 A CN201910393968 A CN 201910393968A CN 110097044 B CN110097044 B CN 110097044B
Authority
CN
China
Prior art keywords
license plate
detection
layer
information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910393968.8A
Other languages
English (en)
Other versions
CN110097044A (zh
Inventor
黄鹤
王健霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910393968.8A priority Critical patent/CN110097044B/zh
Publication of CN110097044A publication Critical patent/CN110097044A/zh
Application granted granted Critical
Publication of CN110097044B publication Critical patent/CN110097044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的一阶段车牌检测识别方法。本发明一种基于深度学习的一阶段车牌检测识别方法,包括:S1.输入一张待检测识别的彩色图像,通过图像预处理器将其缩放到尺寸为300*300的图像;S2.将缩放后的图像输入到检测模块和识别模块进行车牌检测和车牌字符识别;S3.组合检测模块和识别模块的输出结果就是整个系统对车牌检测与识别的输出结果。本发明的有益效果:将车牌检测与车牌字符识别集中融合到一个模型中的一阶段车牌检测识别系统的优势主要有:本发明提出的基于深度学习的车牌检测和车牌字符识别算法可以在复杂自然场景中保持较高的检测准确率和字符识别准确率,从而表现出超越其它相关系统的稳定性和准确性。

Description

基于深度学习的一阶段车牌检测识别方法
技术领域
本发明涉及车牌检测领域,具体涉及一种基于深度学习的一阶段车牌检测识别方法。
背景技术
车牌的检测与识别作为“智慧交通”的重要组成部分,对于交通管理、车辆管理以及社会秩序的稳定起着至关重要的作用。车牌的检测与识别作为计算机视觉领域的一大应用,涉及计算机技术、图像处理技术、模式识别等多个学科的知识。近年来,以深度学习为代表的人工智能技术为各个行业带来了巨大的变革,尤其在计算机视觉领域更是大放异彩。因此研究实现基于深度学习的车牌检测与识别系统符合当下的研究趋势,对于构建更加高效稳定的系统有着积极意义。
现在比较成熟的车牌检测识别系统一般需要昂贵的硬件捕获高质量的图片或者要求车辆处于某个固定的场景中。一旦这些条件不能满足时,系统的检测识别性能就会大打折扣。但是,存在很多高度复杂的应用场景往往因为极端的光照条件、多样的拍摄角度、雨雪雾特殊天气、污渍的遮挡、车身以及街边相似信息干扰等原因使车牌检测识别任务变得错综复杂,例如交警的道路巡逻、街边的停车管理等。现在系统的检测识别成功率与准确率很难满足这些场景的实际需求。
现在的车牌检测识别系统一般分为车牌的定位检测和车牌字符识别两个步骤。
车牌的定位检测技术主要有基于边缘特征、基于色彩特征、基于纹理特征和基于字符特征四大类。车牌一般是固定长宽比的矩形,而且比图像中的其它区域具有更高的边缘密度,因此可以利用边缘特征来检测车牌区域。基于边缘特征的方法计算速度快,但它们对一些类似车牌区域的边缘过于敏感,因此在复杂图像中效果较差。车牌的颜色一般与车身等周围背景的颜色有较大的差别,因此可以利用车牌的色彩特征进行车牌检测。但这些方法容易受到光照条件的影响,而且当车身颜色或者图像中存在与车牌颜色接近的物体时,这些方法往往性能不佳。基于纹理特征的方法根据车牌区域中的非常规像素强度分布来检测车牌,但计算复杂度很高。车牌本身是由字符串构成,所以可以根据车牌字符特征进行车牌的定位检测,但这些方法易受到图像中其它字符的干扰。总体而言,现在的车牌检测技术稳定性较差,容易受到环境噪声的干扰。
现在的车牌字符识别技术一般分为字符分割和单字符识别两个步骤,这些基于分割的车牌字符识别技术中分割错误的字符很难会被识别正确,因此分割算法的成功率直接影响着最终车牌字符识别的准确率,然而分割算法易受到环境的干扰,所以这些车牌字符识别算法的稳定性较差。
传统技术存在以下技术问题:
1.对环境影响比较敏感,稳定性较差;2.分为车牌检测与车牌字符识别两大步骤,车牌字符识别又进一步分为字符分割和单字符识别两步,因此检测算法、分割算法和识别算法的成功率与准确率都会对最终的识别结果产生直接影响。3.因为检测、分割和识别三种算法需要依次进行,因此运算速度慢,难以满足实时性的要求。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的一阶段车牌检测识别方法,通过深度学习技术解决复杂自然场景中的车牌检测与识别问题,所实现的系统应当在不同环境干扰中保持较高的车牌检测准确率和车牌字符识别准确率。将车牌检测和车牌字符识别集中融合到一个网络模型中,实现检测和识别同时进行的一阶段系统,从而降低甚至消除传统系统中检测和分割成功率对最终字符识别的影响。系统应当满足实时性的实际需求。
为了解决上述技术问题,本发明提供了一种基于深度学习的一阶段车牌检测识别方法,包括:
S1.输入一张待检测识别的彩色图像,通过图像预处理器将其缩放到尺寸为300*300的图像;
S2.将缩放后的图像输入到检测模块和识别模块进行车牌检测和车牌字符识别;
S3.组合检测模块和识别模块的输出结果就是整个系统对车牌检测与识别的输出结果。
在其中一个实施例中,其中步骤S2的具体流程为:
S2-1.通过检测和识别模块的共享卷积层提取图像的特征信息;
S2-2.通过检测模块卷积层进一步提取图像用于检测的特征信息;
S2-3.通过五层反卷积层对用于检测的特征信息进行上采样和特征融合;
S2-4.将每层反卷积层融合后的信息分别进行坐标回归和分类判断;
S2-5.采用非极大值抑制(NMS)算法对回归结果和判断结果进行筛选,从而得到最终的检测结果;
S2-6.根据检测结果从共享卷积层的第2和第3层切割对应区域的特征图,并将切割出的特征图通过双线性插值缩放到16*8的尺寸;
S2-7.将缩放后的特征图按通道进行级联后输入到识别模块中两个1*1的卷积层进行特征映射;
S2-8.使用双向循环神经网络(BRNN)和连接时序分类(CTC)算法对特征映射完的特征信息进行字符无分割识别与解码从而得到最终的车牌字符识别结果。
在其中一个实施例中,步骤S2-2所使用的卷积层尺度依次减小,这意味着卷积层越深,其感受野越大。
在其中一个实施例中,步骤S2-3通过可以学习的反卷积层将高层语义信息进行上采样使其与相邻的低层信息拥有相同的分辨率,进而实现不同尺度特征图的信息融合,在融合后的特征信息上进行回归与分类即可大幅提升系统对小目标检测的成功率与准确率。通过不同尺度特征图的信息融合,一方面可以丰富低层卷积层的特征信息,弥补低层卷积层在目标检测时因高级语义信息不足而导致成功率较低的问题;另一方面可以使特征图包含上下文信息,根据这些信息可以更好地推断遮挡、模糊、重叠等目标的准确位置。高层与低层信息融合的具体方式如图2所示,首先将高层特征图通过反卷积层上采样提升分辨率,然后通过一个卷积层后与低层特征图沿通道进行级联,再使用一个1*1的卷积层对级联特征图进行特征映射从而起到降维与消除混叠效应的作用,1*1卷积层的输出即为融合完成的信息,然后将该信息作为高层信息继续重复上述过程与更低层的信息进行融合。
在其中一个实施例中,步骤S2-4分别对融合的特征信息进行了回归和分类。一般来讲,感受野越大越适用于检测尺寸较大的物体,感受野越小越有利于检测较小的物体。在不同尺度的特征图上分别进行目标检测充分利用了不同感受野的优势,从而提升对不同尺寸物体的检测精确度。这里所使用的尺度分别为3*3,5*5,10*10,19*19,38*38。对于每一层的坐标回归和分类判断的具体方式为:
S2-4-1.在特征图的每一个单元上设置k个固定的初始框用于检测。
S2-4-2.对每一个初始框进行坐标回归,修正得到每一个框的坐标偏移量(Δx,Δy,Δw,Δh),同时预测该初始框所框区域是车牌的概率大小。修正后的框应该能够准确框住车牌的位置并指出是车牌的概率。
其中步骤S2-4-1中每一个初始框通过坐标(x,y,w,h)进行确定,这里x,y代表初始框中心点的横纵坐标,w,h代表初始框的宽和高。具体初始框的设置方法为:以特征图中每个单元的中点横纵坐标均偏移0.5为中心分别设置k个不同比例大小的同心初始框。最低层的初始框尺寸smin设为0.2,最高层的尺寸smax设为0.9,其它层尺寸sm的计算公式为:
Figure BDA0002057552590000051
其中M代表使用的不同尺度特征图的数量,这里M=5。进一步地,设置四个不同的比例ar∈{2,3,4,5},由公式
Figure BDA0002057552590000052
计算不同比例初始框的宽和高。也就是说,对于每一个中心点都设置了k=4个同心的初始框。
在其中一个实施例中,步骤S2-4-2中对用于多尺度特征图预测的每一种尺度分别使用4组小卷积核组成的卷积预测器来进行初始框的坐标回归修正和车牌概率预测。对于一个m×n×p的特征图,使用4组3×3×p×4的小卷积核进行卷积实现初始框的坐标(x,y,w,h)的回归修正。使用4组3×3×p×2的小卷积核进行卷积实现初始框的车牌概率预测。也就是说通过4组3×3×p×6的小卷积核进行卷积操作就可以对该尺度特征图的初始框进行对应的坐标回归和车牌概率预测。
在其中一个实施例中,步骤S2-5通过非极大值抑制算法(NMS)来对框进行筛选,从而去除冗余的框。NMS算法的具体过程如下:
将所有的框按照车牌概率大小进行排序,选出最高概率的框;
遍历其余所有的框,如果和当前最高概率框的重叠度(IoU)大于阈值,则认为该框和最高概率框重复,将该框删除;
从未删除的框中选出概率最高的框重复上述过程直到处理完所有框。
NMS算法筛选完成后冗余的框被完全剔除,如果剩余多个框则意味着检测到了多张车牌。输出筛选完的结果就是检测模块的输出结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
将车牌检测与车牌字符识别集中融合到一个模型中的一阶段车牌检测识别系统的优势主要有:本发明提出的基于深度学习的车牌检测和车牌字符识别算法可以在复杂自然场景中保持较高的检测准确率和字符识别准确率,从而表现出超越其它相关系统的稳定性和准确性。检测模块中使用反卷积层以及独特的信息融合方式和多尺度特征图预测策略提升了系统对于车牌小目标的检测成功率与准确率。识别模块采用字符无分割识别算法成功避免了分割过程对于识别准确率的影响。通过共享卷积层减少了模型的参数量,避免了图像特征的重复提取,从而大大减小了模型的计算量和计算时间。车牌检测和识别同时进行的一阶段策略消除了传统检测识别系统中检测和识别分别进行所需要的多次的图像保存、读取和预处理,从而大幅减小了系统的运行时间,并且不需要额外的存储空间来处理检测过程中产生的车牌图像,使得系统更易部署。
附图说明
图1是本发明基于深度学习的一阶段车牌检测识别方法的一阶段车牌检测识别系统结构示意图。
图2是本发明基于深度学习的一阶段车牌检测识别方法的特征信息融合方式图。
图3为本发明所述的BRNN模块示意图,图中“C”代表级联。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提出的一阶段车牌检测识别系统将车牌检测与车牌识别两个独立的过程集成融合到一个网络当中,从而实现了车牌的检测与识别的同步完成。图1给出了整个系统的结构示意图,该系统的具体流程为:
S1.输入一张待检测识别的彩色图像,通过图像预处理器将其缩放到尺寸为300*300的图像;
S2.将缩放后的图像输入到检测模块和识别模块进行车牌检测和车牌字符识别;
S3.组合检测模块和识别模块的输出结果就是整个系统对车牌检测与识别的输出结果。
其中步骤S2的具体流程为:
S2-1.通过检测和识别模块的共享卷积层提取图像的特征信息;
S2-2.通过检测模块卷积层进一步提取图像用于检测的特征信息;
S2-3.通过五层反卷积层对用于检测的特征信息进行上采样和特征融合;
S2-4.将每层反卷积层融合后的信息分别进行坐标回归和分类判断;
S2-5.采用非极大值抑制(NMS)算法对回归结果和判断结果进行筛选,从而得到最终的检测结果;
S2-6.根据检测结果从共享卷积层的第2和第3层切割对应区域的特征图,并将切割出的特征图通过双线性插值缩放到16*8的尺寸;
S2-7.将缩放后的特征图按通道进行级联后输入到识别模块中两个1*1的卷积层进行特征映射;
S2-8.使用双向循环神经网络(BRNN)和连接时序分类(CTC)算法对特征映射完的特征信息进行字符无分割识别与解码从而得到最终的车牌字符识别结果。
在步骤S2-1中使用了三层卷积层作为检测与识别的共享卷积层。这样的设计一方面可以减少重复的特征提取,降低网络的参数量;另一方面由检测与识别模块共同决定共享卷积层的参数打破了其它传统系统中检测与识别之间的独立,加深了检测与识别之间的联系,达到相互促进的目的。另外,之所以只使用了三层而没有选择更多更深的卷积层作为共享卷积层是因为字符识别需要更多关于文字的细节特征,而越往后的卷积层感受野越大,这就导致文字的细节特征越少,不利于文字的识别。在步骤S2-6中,将共享卷积层第2层和第3层的特征图进行切割作为识别模块的特征信息输入,这里采用了多尺度特征图预测的思想,通过组合不同卷积层的信息输出,可以保留更多细节信息用于识别,从而提升识别的准确率。没有使用第1层的输出是因为第1层的特征信息包含有大量背景噪声干扰,会对识别产生负面影响。
步骤S2-2到步骤S2-5属于检测模块流程。
步骤S2-2所使用的卷积层尺度依次减小,这意味着卷积层越深,其感受野越大。
步骤S2-3通过可以学习的反卷积层将高层语义信息进行上采样使其与相邻的低层信息拥有相同的分辨率,进而实现不同尺度特征图的信息融合,在融合后的特征信息上进行回归与分类即可大幅提升系统对小目标检测的成功率与准确率。通过不同尺度特征图的信息融合,一方面可以丰富低层卷积层的特征信息,弥补低层卷积层在目标检测时因高级语义信息不足而导致成功率较低的问题;另一方面可以使特征图包含上下文信息,根据这些信息可以更好地推断遮挡、模糊、重叠等目标的准确位置。高层与低层信息融合的具体方式如图2所示,首先将高层特征图通过反卷积层上采样提升分辨率,然后通过一个卷积层后与低层特征图沿通道进行级联,再使用一个1*1的卷积层对级联特征图进行特征映射从而起到降维与消除混叠效应的作用,1*1卷积层的输出即为融合完成的信息,然后将该信息作为高层信息继续重复上述过程与更低层的信息进行融合。
步骤S2-4分别对融合的特征信息进行了回归和分类。一般来讲,感受野越大越适用于检测尺寸较大的物体,感受野越小越有利于检测较小的物体。在不同尺度的特征图上分别进行目标检测充分利用了不同感受野的优势,从而提升对不同尺寸物体的检测精确度。这里所使用的尺度分别为3*3,5*5,10*10,19*19,38*38。对于每一层的坐标回归和分类判断的具体方式为:
S2-4-1.在特征图的每一个单元上设置k个固定的初始框用于检测。
S2-4-2.对每一个初始框进行坐标回归,修正得到每一个框的坐标偏移量(Δx,Δy,Δw,Δh),同时预测该初始框所框区域是车牌的概率大小。修正后的框应该能够准确框住车牌的位置并指出是车牌的概率。
其中步骤S2-4-1中每一个初始框通过坐标(x,y,w,h)进行确定,这里x,y代表初始框中心点的横纵坐标,w,h代表初始框的宽和高。具体初始框的设置方法为:以特征图中每个单元的中点横纵坐标均偏移0.5为中心分别设置k个不同比例大小的同心初始框。最低层的初始框尺寸smin设为0.2,最高层的尺寸smax设为0.9,其它层尺寸sm的计算公式为:
Figure BDA0002057552590000091
其中M代表使用的不同尺度特征图的数量,这里M=5。进一步地,设置四个不同的比例ar∈{2,3,4,5},由公式
Figure BDA0002057552590000092
计算不同比例初始框的宽和高。也就是说,对于每一个中心点都设置了k=4个同心的初始框。
步骤S2-4-2中对用于多尺度特征图预测的每一种尺度分别使用4组小卷积核组成的卷积预测器来进行初始框的坐标回归修正和车牌概率预测。对于一个m×n×p的特征图,使用4组3×3×p×4的小卷积核进行卷积实现初始框的坐标(x,y,w,h)的回归修正。使用4组3×3×p×2的小卷积核进行卷积实现初始框的车牌概率预测。也就是说通过4组3×3×p×6的小卷积核进行卷积操作就可以对该尺度特征图的初始框进行对应的坐标回归和车牌概率预测。
在步骤S2-4进行后原始图像中的每张车牌区域可能会被多个修正后的框检测到,最终的检测结果只需要保留最好的一个框即可。步骤S2-5通过非极大值抑制算法(NMS)来对框进行筛选,从而去除冗余的框。NMS算法的具体过程如下:
将所有的框按照车牌概率大小进行排序,选出最高概率的框;
遍历其余所有的框,如果和当前最高概率框的重叠度(IoU)大于阈值,则认为该框和最高概率框重复,将该框删除;
从未删除的框中选出概率最高的框重复上述过程直到处理完所有框。
NMS算法筛选完成后冗余的框被完全剔除,如果剩余多个框则意味着检测到了多张车牌。输出筛选完的结果就是检测模块的输出结果。
步骤S2-6到步骤S2-8属于识别模块流程。
步骤S2-7所使用的两层1*1卷积层用于消除混叠效应并进一步整合提取识别所需的特征信息。
步骤S2-8中使用双向循环神经网络(BRNN)和连接时序分类(CTC)算法来进行车牌字符识别。BRNN模块如图3所示,模块包含两个连续的BRNN层和一个全连接层。每个BRNN层由两个方向相反的长短时记忆网络(LSTM)组成,每个LSTM有128个隐层神经元,两个LSTM的输出进行级联后作为该BRNN层的输出。全连接层由66个神经元组成,这是因为中国车牌字符识别任务有66类:31个中文字符,10个数字,24个英文字母(为避免与数字“1”和“0”混淆,中国车牌没有字母“I”和“O”)和一个“blank”类别(背景标签)。设BRNN模块的输入为特征序列X={X1,X2,…,XT},对应的输出表示为Z={Z1,Z2,…,ZT},其中Zt∈R66是第t个特征向量Xt对应识别出的序列标签。将Z使用接下来的CTC算法进行解码就可以得到车牌字符最终的识别结果。
下面介绍本发明的进一步介绍:
本发明采用CTC算法解码BRNN模块的输出来得到车牌字符最终的识别结果。首先使用一个softmax层将BRNN模块的输出Z={Z1,Z2,…,ZT}转化为对应的概率分布Y={Y1,Y2,…YT}:
Yt=softmax(Zt)
Figure BDA0002057552590000111
定义L为识别任务中所有字符标签组成的标签空间,定义另一个标签空间L′=L∪{blank},其中“blank”代表空白标签,意味着该类不含有任何字符。定义在标签空间L′上所有可能取到的长度为T的序列的集合L′T,将集合中的每一个序列称为一条“路径”(path)并用π来表示。定义一种多到一(many-to-one)的映射关系В,В可以将π∈L′T映射为路径l∈L≤T,其中L≤T代表在标签空间L上所有可能取到的长度小于或等于T的序列的集合。该映射的实现方法为先移除掉路径π中所有连续的重复标签再移除掉所有的“blank”标签,例如В
(-aa-b--c--)=В(-a--bb-cc-)=abc。可见不同的标签路径可能最终会映射到同一条路径,因此称映射В为多到一的映射关系。对于输入的概率分布Y取得路径l的概率就是所有可以映射到l的π所对应概率的和:
Figure BDA0002057552590000112
其中
Figure BDA0002057552590000113
πt是路径π的元素,
Figure BDA0002057552590000114
是πt所对应的概率。
最后,对应概率p(l|Y)最大的路径l*就是CTC解码算法最终的解码结果,l*也就是车牌字符识别模块最终的识别结果:
Figure BDA0002057552590000121
最终将NMS算法的输出和CTC算法的输出l*组合就是整个系统的检测和识别结果。
整个检测识别系统需要先在标注好的数据集进行训练才可以用于实际测试和使用。
首先对于车牌检测模块,由于可以同时检测到图像中的多张车牌,所以一张输入图像会有多个真实标签框,在对检测模块进行训练时需要找到每一个标签框所能对应的初始框。具体的匹配策略步骤为:
1.寻找与每一个真实标签框有最大重叠度的初始框,这样就能确保每一个标签框至少有一个匹配对应的初始框。
2.将还没有匹配的初始框与任意一个标签框尝试匹配,只要它们的重叠度大于一个阈值(0.5)就认为匹配成功。
3.成功匹配的初始框称为正样本,没有匹配的初始框称为负样本。
该匹配策略意味着每一个真实标签框可能对应多个初始框。一般情况下,在匹配完成后绝大多数的初始框属于负样本。如果直接拿来训练,负样本的损失函数值会淹没正样本的损失函数,这将导致网络过于重视负样本,使得网络无法有效训练。为解决这个问题,在训练时将正负样本的比例控制在1:3,负样本的选取方法是将负样本按照是车牌的概率从大到小进行排序,选择概率大的指定数量的负样本作为训练对象,其中指定数量是正样本数量的3倍。难分样本挖掘策略可以使网络的训练过程更加稳定和快速。
检测模块的训练损失函数主要包括定位损失函数和识别分类的损失函数,具体为
Figure BDA0002057552590000122
其中,N是正样本初始框的数量,α用于调整定位损失和分类损失之间的比例,设为1。分类损失是典型的softmax损失函数:
Figure BDA0002057552590000131
Figure BDA0002057552590000132
当第i个初始框与第j个分类为p的真实标签框匹配成功则
Figure BDA0002057552590000133
否则等于0。因为每个标签框与至少一个初始框匹配,所以
Figure BDA0002057552590000134
定位损失函数则使用了预测坐标偏移量(l)和标签偏移量
Figure BDA0002057552590000135
之间的Smooth L1loss:
Figure BDA0002057552590000136
Figure BDA0002057552590000137
Figure BDA0002057552590000138
其中,g为真实标签框的坐标,d为匹配到的待回归的初始框的坐标,Smooth L1loss的计算公式为:
Figure BDA0002057552590000139
对于识别模块,整个识别模块的损失函数为
Figure BDA00020575525900001310
其中,Z是网络的输入数据,G是该训练样本的真实标签,S是训练数据集,也就是说(Z,G)为S中一组对应的数据与其标签,p(GZ)是得到标签G的概率。
因为本发明的系统将检测模块和识别模块集中到同一个网络当中,所以可以同时对两个模块进行端到端的训练。整个系统的损失函数由检测模块的定位回归损失、分类损失和识别模块的CTC损失共同组成:
Figure BDA00020575525900001311
公式中的β用来平衡CTC损失函数的大小,这里取为1。通过最小化该损失函数进行反向传播训练就可以对整个网络进行联合优化。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (9)

1.一种基于深度学习的一阶段车牌检测识别方法,其特征在于,包括:
S1.输入一张待检测识别的彩色图像,通过图像预处理器将其缩放到尺寸为300*300的图像;
S2.将缩放后的图像输入到检测模块和识别模块进行车牌检测和车牌字符识别;
S3.组合检测模块和识别模块的输出结果就是整个系统对车牌检测与识别的输出结果;
其中步骤S2的具体流程为:
S2-1.通过检测和识别模块的共享卷积层提取图像的特征信息;
S2-2.通过检测模块卷积层进一步提取图像用于检测的特征信息;
S2-3.通过五层反卷积层对用于检测的特征信息进行上采样和特征融合;
S2-4.将每层反卷积层融合后的信息分别进行坐标回归和分类判断;
S2-5.采用非极大值抑制算法对回归结果和判断结果进行筛选,从而得到最终的检测结果;
S2-6.根据检测结果从共享卷积层的第2和第3层切割对应区域的特征图,并将切割出的特征图通过双线性插值缩放到16*8的尺寸;
S2-7.将缩放后的特征图按通道进行级联后输入到识别模块中两个1*1的卷积层进行特征映射;
S2-8.使用双向循环神经网络和连接时序分类算法对特征映射完的特征信息进行字符无分割识别与解码从而得到最终的车牌字符识别结果。
2.如权利要求1所述的基于深度学习的一阶段车牌检测识别方法,其特征在于,步骤S2-2所使用的卷积层尺度依次减小,这意味着卷积层越深,其感受野越大。
3.如权利要求1所述的基于深度学习的一阶段车牌检测识别方法,其特征在于,步骤S2-3通过可以学习的反卷积层将高层语义信息进行上采样使其与相邻的低层信息拥有相同的分辨率,进而实现不同尺度特征图的信息融合,在融合后的特征信息上进行回归与分类即可大幅提升系统对小目标检测的成功率与准确率;通过不同尺度特征图的信息融合,一方面可以丰富低层卷积层的特征信息,弥补低层卷积层在目标检测时因高级语义信息不足而导致成功率较低的问题;另一方面可以使特征图包含上下文信息,根据这些信息可以更好地推断遮挡、模糊、重叠目标的准确位置;高层与低层信息融合的具体方式:首先将高层特征图通过反卷积层上采样提升分辨率,然后通过一个卷积层后与低层特征图沿通道进行级联,再使用一个1*1的卷积层对级联特征图进行特征映射从而起到降维与消除混叠效应的作用,1*1卷积层的输出即为融合完成的信息,然后将该信息作为高层信息继续重复上述过程与更低层的信息进行融合。
4.如权利要求1所述的基于深度学习的一阶段车牌检测识别方法,其特征在于,步骤S2-4分别对融合的特征信息进行了回归和分类;一般来讲,感受野越大越适用于检测尺寸较大的物体,感受野越小越有利于检测较小的物体;在不同尺度的特征图上分别进行目标检测充分利用了不同感受野的优势,从而提升对不同尺寸物体的检测精确度;这里所使用的尺度分别为3*3,5*5,10*10,19*19,38*38;对于每一层的坐标回归和分类判断的具体方式为:
S2-4-1.在特征图的每一个单元上设置k个固定的初始框用于检测;
S2-4-2.对每一个初始框进行坐标回归,修正得到每一个框的坐标偏移量(Δx,Δy,Δw,Δh),同时预测该初始框所框区域是车牌的概率大小;修正后的框应该能够准确框住车牌的位置并指出是车牌的概率;
其中步骤S2-4-1中每一个初始框通过坐标(x,y,w,h)进行确定,这里x,y代表初始框中心点的横纵坐标,w,h代表初始框的宽和高;具体初始框的设置方法为:以特征图中每个单元的中点横纵坐标均偏移0.5为中心分别设置k个不同比例大小的同心初始框;最低层的初始框尺寸smin设为0.2,最高层的尺寸smax设为0.9,其它层尺寸sm的计算公式为:
Figure FDA0002721699300000021
其中M代表使用的不同尺度特征图的数量,这里M=5;进一步地,设置四个不同的比例ar∈{2,3,4,5},由公式
Figure FDA0002721699300000031
计算不同比例初始框的宽和高;也就是说,对于每一个中心点都设置了k=4个同心的初始框。
5.如权利要求4所述的基于深度学习的一阶段车牌检测识别方法,其特征在于,步骤S2-4-2中对用于多尺度特征图预测的每一种尺度分别使用4组小卷积核组成的卷积预测器来进行初始框的坐标回归修正和车牌概率预测;对于一个m×n×p的特征图,使用4组3×3×p×4的小卷积核进行卷积实现初始框的坐标(x,y,w,h)的回归修正;使用4组3×3×p×2的小卷积核进行卷积实现初始框的车牌概率预测;也就是说通过4组3×3×p×6的小卷积核进行卷积操作就可以对该尺度特征图的初始框进行对应的坐标回归和车牌概率预测。
6.如权利要求1所述的基于深度学习的一阶段车牌检测识别方法,其特征在于,步骤S2-5通过非极大值抑制算法来对框进行筛选,从而去除冗余的框;NMS算法的具体过程如下:
将所有的框按照车牌概率大小进行排序,选出最高概率的框;
遍历其余所有的框,如果和当前最高概率框的重叠度大于阈值,则认为该框和最高概率框重复,将该框删除;
从未删除的框中选出概率最高的框重复上述过程直到处理完所有框;
NMS算法筛选完成后冗余的框被完全剔除,如果剩余多个框则意味着检测到了多张车牌;输出筛选完的结果就是检测模块的输出结果。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。
CN201910393968.8A 2019-05-13 2019-05-13 基于深度学习的一阶段车牌检测识别方法 Active CN110097044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393968.8A CN110097044B (zh) 2019-05-13 2019-05-13 基于深度学习的一阶段车牌检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393968.8A CN110097044B (zh) 2019-05-13 2019-05-13 基于深度学习的一阶段车牌检测识别方法

Publications (2)

Publication Number Publication Date
CN110097044A CN110097044A (zh) 2019-08-06
CN110097044B true CN110097044B (zh) 2020-12-01

Family

ID=67447828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393968.8A Active CN110097044B (zh) 2019-05-13 2019-05-13 基于深度学习的一阶段车牌检测识别方法

Country Status (1)

Country Link
CN (1) CN110097044B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766017B (zh) * 2019-10-22 2023-08-04 国网新疆电力有限公司信息通信公司 基于深度学习的移动终端文字识别方法及系统
CN111091131B (zh) * 2019-12-18 2023-06-09 创新奇智(南京)科技有限公司 基于多任务学习的自适应车牌字符识别系统及识别方法
CN111027564A (zh) * 2019-12-20 2020-04-17 长沙千视通智能科技有限公司 基于深度学习一体化的低照度成像车牌识别方法及装置
CN111209858B (zh) * 2020-01-06 2023-06-20 电子科技大学 一种基于深度卷积神经网络的实时车牌检测方法
CN111461128A (zh) * 2020-03-31 2020-07-28 北京爱笔科技有限公司 一种车牌的识别方法及装置
CN112116533B (zh) * 2020-08-06 2022-10-21 南京理工大学 一种雾霾天气下的车标检测方法
CN112464938B (zh) * 2020-12-18 2024-04-12 深圳赛安特技术服务有限公司 车牌检测识别方法、装置、设备及存储介质
CN113255659B (zh) * 2021-01-26 2022-07-29 南京邮电大学 一种基于MSAFF-Yolov3的车牌校正检测识别方法
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112950954B (zh) * 2021-02-24 2022-05-20 电子科技大学 一种基于高位摄像头的智能停车车牌识别方法
CN112990197A (zh) * 2021-03-17 2021-06-18 浙江商汤科技开发有限公司 车牌识别方法及装置、电子设备和存储介质
CN113343977B (zh) * 2021-05-17 2022-06-14 武汉理工大学 一种集装箱码头集卡车牌的多路自动识别方法
CN113537211B (zh) * 2021-06-21 2023-06-02 电子科技大学 一种基于非对称iou的深度学习车牌框定位方法
CN117333879A (zh) * 2022-06-23 2024-01-02 北京火山引擎科技有限公司 模型的训练方法、水印文本识别方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692313A (zh) * 2009-07-03 2010-04-07 华东师范大学 基于嵌入式平台的便携式车辆识别装置
CN109740603A (zh) * 2019-01-21 2019-05-10 闽江学院 基于cnn卷积神经网络下的车辆字符识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956626A (zh) * 2016-05-12 2016-09-21 成都新舟锐视科技有限公司 基于深度学习的对车牌位置不敏感的车牌识别方法
CN106127248A (zh) * 2016-06-24 2016-11-16 平安科技(深圳)有限公司 基于深度学习的车牌分类方法及系统
CN106845487B (zh) * 2016-12-30 2020-04-17 佳都新太科技股份有限公司 一种端到端的车牌识别方法
CN108509954A (zh) * 2018-04-23 2018-09-07 合肥湛达智能科技有限公司 一种实时交通场景的多车牌动态识别方法
CN108960175A (zh) * 2018-07-12 2018-12-07 天津艾思科尔科技有限公司 一种基于深度学习的车牌识别方法
CN109508715B (zh) * 2018-10-30 2022-11-08 南昌大学 一种基于深度学习的车牌定位和识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692313A (zh) * 2009-07-03 2010-04-07 华东师范大学 基于嵌入式平台的便携式车辆识别装置
CN109740603A (zh) * 2019-01-21 2019-05-10 闽江学院 基于cnn卷积神经网络下的车辆字符识别方法

Also Published As

Publication number Publication date
CN110097044A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN110097044B (zh) 基于深度学习的一阶段车牌检测识别方法
CN109190444B (zh) 一种基于视频的收费车道车辆特征识别系统的实现方法
CN109902806A (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
Foedisch et al. Adaptive real-time road detection using neural networks
CN110363160B (zh) 一种多车道线识别方法及装置
CN113723377B (zh) 一种基于ld-ssd网络的交通标志检测方法
CN112949633B (zh) 一种基于改进YOLOv3的红外目标检测方法
CN107944354B (zh) 一种基于深度学习的车辆检测方法
CN112417931B (zh) 一种基于视觉显著性的水面物体检测和分类的方法
Espinosa et al. Motorcycle detection and classification in urban Scenarios using a model based on Faster R-CNN
Xiang et al. Lightweight fully convolutional network for license plate detection
CN114973207B (zh) 一种基于目标检测的路标识别方法
CN112906583A (zh) 一种车道线检测方法及装置
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN112016512A (zh) 基于反馈式多尺度训练的遥感图像小目标检测方法
Liu et al. Multi-type road marking recognition using adaboost detection and extreme learning machine classification
CN115841649A (zh) 一种用于城市复杂场景的多尺度人数统计方法
CN112862845A (zh) 一种基于置信度评估的车道线重构方法及装置
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN110008834B (zh) 一种基于视觉的方向盘干预检测与统计方法
Wang et al. Multiscale traffic sign detection method in complex environment based on YOLOv4
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN111986233A (zh) 基于特征自学习的大场景极小目标遥感视频跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant