CN113255659B - 一种基于MSAFF-Yolov3的车牌校正检测识别方法 - Google Patents

一种基于MSAFF-Yolov3的车牌校正检测识别方法 Download PDF

Info

Publication number
CN113255659B
CN113255659B CN202110103233.4A CN202110103233A CN113255659B CN 113255659 B CN113255659 B CN 113255659B CN 202110103233 A CN202110103233 A CN 202110103233A CN 113255659 B CN113255659 B CN 113255659B
Authority
CN
China
Prior art keywords
license plate
network
feature
layer
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110103233.4A
Other languages
English (en)
Other versions
CN113255659A (zh
Inventor
王堃
戴旺
刘耀辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110103233.4A priority Critical patent/CN113255659B/zh
Publication of CN113255659A publication Critical patent/CN113255659A/zh
Application granted granted Critical
Publication of CN113255659B publication Critical patent/CN113255659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于MSAFF‑Yolov3的车牌校正检测识别方法。属于深度学习和车牌识别领域,具体步骤:采集图像,将图像输入到设计的自适应多尺度融合的MSAFF‑Yolov3网络;将输入的车牌区域进行检测,检测其是否出现扭曲的情况;引入一个含有LSTM的BRNN网络,对特征序列中的每个特征执行BLSTM处理,将整个特征序列转换成一个数组;将CTC布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串。本发明通过在特征提取中使用MSAFF‑Yolov3网络以及校正网络同时在字符识别中引入长短时记忆网络,有效的检测识别复杂车牌,具有收敛快、识别迅速、准确率高的优点。

Description

一种基于MSAFF-Yolov3的车牌校正检测识别方法
技术领域
本发明涉及深度学习和车牌识别领域,具体涉及一种基于MSAFF-Yolov3的车牌校正检测识别方法。
背景技术
随着机器学习的不断发展,针对各种数据的不同网络结构被相继构造成深度结构来解决各种各样的实际问题,例如,卷积神经网络(Convolutional Neural Network,CNN)利用卷积结构模拟视觉神经中的感受区域,非常适合用来解决各种图像处理问题;循环神经网络(Recurrent Neural Network,RNN)加入了反馈连接,因此对时间序列数据具有很好的处理能力。耦合深度卷积网络(Coupled Deep Convolutional Network,CDCN)是无监督变化检测模型,不需要其他的先验信息,通过优化目标函数对网络参数进行训练,得到不同图像的对比信息。
一些与交通有关的应用,如检测失窃车辆、收费控制和停车场进出验证,都涉及车牌识别,受不同光照条件、可视角度、新旧程度及背景光亮等条件影响,不同场景中对于车牌的识别具有相对难度,因为对于非车牌区域的文字提出,车牌区域的正确切割、字符的孤立与识别等都是需要提升的技术空间,其中任何一项的断层都会对整个车牌的识别过程造成困难。
并行处理和深度学习(DL)的最新进展有助于改善计算机视觉任务,如物体检测/识别和光学字符识别(OCR),这对于车牌识别系统的实现具有积极帮助。实际上,深度卷积神经网络(CNNs)已经成为应用于车牌检测的领先深度学习技术。
一般来说,车牌检测可以分为三个步骤:牌照定位、牌照字符分割、牌照字符识别。牌照定位自然环境下,汽车图像背景复杂、光照不均匀,如何在自然背景中准确地确定牌照区域是整个识别过程的关键。首先对采集到的视频图像进行大范围相关搜索,找到符合汽车牌照特征的若干区域作为候选区,然后对这些侯选区域做进一步分析、评判,最后选定一个最佳的区域作为牌照区域,并将其从图像中分离出来。牌照字符分割完成牌照区域的定位后,再将牌照区域分割成单个字符,然后进行识别。字符分割一般采用垂直投影法。由于字符在垂直方向上的投影必然在字符间或字符内的间隙处取得局部最小值的附近,并且这个位置应满足牌照的字符书写格式、字符、尺寸限制和一些其他条件。利用垂直投影法对复杂环境下的汽车图像中的字符分割有较好的效果。牌照字符识别方法主要有基于模板匹配算法和基于人工神经网络算法。基于模板匹配算法首先将分割后的字符二值化并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,选择最佳匹配作为结果。基于人工神经网络的算法有两种:一种是先对字符进行特征提取,然后用所获得特征来训练神经网络分配器;另一种方法是直接把图像输入网络,由网络自动实现特征提取直至识别出结果。但是在多变的角度和场景(光线)下车牌往往是倾斜的,导致识别的效果并不如意。因此,如何设计一个识别算法和校正倾斜角度的车牌网络使得整体系统识别率和准确率得到提高是很有必要的。
发明内容
针对上述问题,本发明提供了一种基于MSAFF-Yolov3的车牌校正检测识别方法,其专注于无约束的场景,其中车牌图像可能由于倾斜视角而存在严重的失真。本专利的主要贡献是引入了一种新颖的自适应多尺度融合的Yolov3网络(MSAFF-Yolov3),该网络能够更加准确快速提取车牌特征图,使得整个系统更加快速高效。检测出车牌后又将扭曲的车牌送入校正网络COD-NET将扭曲车牌校正为正常车牌大大提高了识别的准确率,这些校正过的车牌可以通过光学字符识别(OCR)方法以获得最终结果。
本发明的技术方案是:一种基于MSAFF-Yolov3的车牌校正检测识别方法,在MSAFF-Yolov3网络下对车牌的目标检测、校正网络中对扭曲车牌的校正、OCR算法中对车牌字符的识别三个部分,具体操作步骤如下:
步骤(1):采集图像,并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中,对车牌区域的特征区域进行提取;
步骤(2):将输入的车牌区域进行检测,检测其是否出现扭曲的情况;
如出现扭曲,则通过校正目标检测网络对扭曲的车牌进行校正,再利用CNN对车牌符号进行特征提取;
如未出现扭曲,则直接利用CNN对车牌符号进行特征提取;
步骤(3):为增加前后文字符的双向接收和处理能力,引入一个含有LSTM的BRNN网络,从而对特征序列中的每个特征执行BLSTM处理,最终将整个特征序列转换成一个数组;
步骤(4):将CTC布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串;
在所述步骤(1)中,
设计的自适应多尺度融合的MSAFF-Yolov3网络能够对车牌进行更精准的检测,该网络将所有输出尺度的特征进行融合,其具体操作步骤如下:
步骤(1.1):自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征调整特征图的大小;
其中,所述路径层和亚像素卷积层通过不同的通道特征重新排列到一个通道来对特征图进行采样,
所述亚像素卷积层从H×W×r2C改变为rH×rW×C;
上式中,H、W和C分别表示特征图的高度,宽度和通道,r表示特征图的比例;
所述路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样;路径层将特征图从rH×rW×C改变为H×W×r2C;
步骤(1.2):每个尺度下的特征图调整大小;
Figure GDA0003683697700000031
表示特征图(i,j)位置的特征,n-l表示特征图从n缩放为l;
定义
Figure GDA0003683697700000032
为特征图大小为n在(i,j)位置上特征的权重,
首先,使用一个1×1的卷积块去学习
Figure GDA0003683697700000033
Figure GDA0003683697700000034
的映射关系,然后使用Softmax函数计算每个训练轮次的权重,每次训练权重必须符合以下(1)和(2)公式;
Figure GDA0003683697700000035
式(1)中,N表示网络中尺度的数量;
Figure GDA0003683697700000036
式(2)中,
Figure GDA0003683697700000037
表示不同尺度下特征图各个位置特征的重要性,其中,大尺度的特征包含更多的上下文信息,小尺度的特征包含更多的具体信息;
根据公式(3)重新在每个尺度上加权了特征图,自动调整不同尺度下特征的重要性;
Figure GDA0003683697700000038
式(3)中,
Figure GDA0003683697700000039
表示重新加权的特征图,
Figure GDA00036836977000000310
表示是从空间角度关注目标;自适应特征融合通过连接每个尺度上的
Figure GDA00036836977000000311
来执行特征融合;
接着,使用全局池得到网络的全局接受域,使用Relu激活层来学习不同通道之间的非线性关系,使用Sigmoid函数来产生每个通道的权值集合;
最后,通过信道方向的乘法重新确定特征图的权重;网络能够学习自适应的信道特征,从信道特征的角度关注目标;
步骤(1.3):将带有注意力机制的自适应融合尺度与Yolov3相融合,Yolov3使用Darknet53进行特征提取,其在3个尺度上检测不同大小的目标;
利用路径层和亚像素卷积层调整Yolov3在各个尺度下的特征映射大小;
在尺度1中,利用两个亚像素卷积层(r=2和r=4)对低分辨率的特征图进行上采样;在尺度2中,利用亚像素卷积层(r=2)对低分辨率的特征图进行上采样,采用路径层(r=2)对低分辨率的特征图进行下采样;在尺度3中,使用两个路径层(r=2和r=4)对高分辨的特征图进行下采样,然后利用注意力机制进行特征融合,学习不同尺度下通道特征与空间特征;最后在将检测结果进行1×1卷积;
步骤(1.4):设计新的损失函数,GIOU反映预测边界盒和ground truth,GIOU由以下公式计算:
Figure GDA0003683697700000041
式(4)中,BGT表示ground truth的边界框,BP表示预测的边界框,B表示BGT和BP的最小封闭凸面,GIOU loss由下面公式计算:
Figure GDA0003683697700000042
Focal loss被用来预测目标的置信度,Focal loss能够降低简单样例的相对损失,而对困难样则更加重视,置信度的focal loss如下述公式所示:
Lossconf=-(yGT-yp)γ×[yGTlogyp-(1-yGT)log(1-yp)] (6)
式(6)中,yGT表示ground truth的置信度,yp表示预测的置信度,γ设置为2;
利用二元交叉熵损失来预测目标的类别;如下式所示:
Losscls=CGTlogCp-(1-CGT)log(1-Cp) (7)
式(7)中,CGT表示ground truth的种类,Cp表示预测的种类,最终损失函数定义如下式所示:
Figure GDA0003683697700000051
式(8)中,n表示网络的尺度。
进一步的,在步骤(2)中,
对于扭曲车牌的校正目标检测网络,其中包括以下步骤:
步骤(2.1)、设计的架构共有21个卷积层,其中14个包含在残差块;
所有卷积滤波器的大小固定为3×3;除检测块外,整个网络中都使用ReLU激活函数;有4个最大池,大小为2×2,步幅2,可将输入维数降低16倍;
最后,检测块包括两个平行的卷积层:(i)、一个用于推断由softmax函数激活的概率值;(ii)、另一个用于回归仿射参数而没有激活函数;
步骤(2.2)、车牌检测并调整大小后的图像H*W输出尺寸为M*N*8,M=H/16,N=W/16,预测是否包含车牌的概率和仿射变换系数;
损失函数:令pi=[xi,yi]T,i=1,…,4表示标注的车牌的四个角,从左上角开始顺时针表示;
另:
q1=[-0.5,-0.5]T,q2=[0.5,-0.5]T,q3=[0.5,0.5]T,q3=[0.5,0.5]T,q4=[-0.5,0.5]T表示以小格中心为原点的标准单位坐标系的顶点;
对于高度为H和宽度为W的输入图像,及由NS=16给出的网络步幅,网络输出特征图大小为M×N×8,其中,M=H/Ns且N=W/NS
对于特征图中的每个点(m,n),都要估计八个值:前两个值v1,v2表示有无目标的概率,后面六个值v3~v8用于构建仿射变换矩阵Tmn:
Figure GDA0003683697700000052
式(9)中,对v3和v6使用了最大函数以确保对角线为正;
步骤(2.2)、通过网络步幅的倒数重新缩放点pi,并根据特征图中的每个点(m,n)重新进行中心化,其通过应用归一化函数完成,如下式所示:
Figure GDA0003683697700000053
式(10)中,α表示虚构正方形一侧的缩放常数,设置为7.75;p表示车牌相对于车辆原图的真实位置除以网络步幅Ns,减去(m,n),除以平均大小α后,得到以小格中心为原点并缩小后的矩形框Amn(p)。
进一步的,在步骤(3)中,所述车牌字符识别步骤如下:
步骤(3.1)、首先,通过一个CNN网络对裁剪后的车牌图像进行特征提取,提取过程采用了滑动窗口的方式;
然后,对于每一张待检车牌,都将其转换为灰度图像,并重塑为CNN网络24像素的输入高度;之后使用24*24像素的子窗口分割该图像,步长为1;对完成分割的每幅图像输入CNN网络,在第四个卷积层提取4*4*256维度的特征,并在第一个全连接层的输出中得到1000个特征;
最后,将两种特征向量进行结合,从而得到包含图像的本地和全局信息;
步骤(3.2)、通过操作,候选车牌的特征按从左至右的顺序被子窗口提取出来,并得到了一个特征序列数组Arr={x1,x2,…,xL};
式中,L表示子窗口的数量,x属于256个维度的集合;
步骤(3.3)、引入了LSTM克服梯度消失或梯度爆炸;所述的LSTM包含记忆锁定机制,能够长时间保存文本信息;
引入含LSTM的BRNN网络;在BLSTM网络中有两个彼此独立的隐藏层,其中之一负责处理前向的序列特征,另一个则负责处理后项序列特征;
对每个隐藏层来说,整个LSTM共享超参数;两个隐藏层都连接至同一个输出层,为之提供输入序列的双向信息;如下式所示:
Figure GDA0003683697700000061
所述序列标记是通过循环地对特征序列中的每个特征执行BLSTM来处理的;每一次状态ht都根据当前特征xt及相邻状态ht-1或ht+1进行更新;
式(11)中,(f)表示向前递归,(b)表示向后递归;
接这,Softmax层将BLSTM层的状态转换成69个类别的概率分布;额外的第69个分类是为了描述字符间的空格;整个特征序列最终转换成一个与输入序列长度一致的概率估计值数组p={p1,p2,…,pL}:
Figure GDA0003683697700000062
进一步的,在步骤(4)中,
所述数组解码的操作步骤如下:将CTC布置在BRNN的输出层之后;其目标函数定义为如下公式:
θ=-∑(c,z∈S)lnP(z|c) (12)
式(12)中,S表示训练数据集;P(z|c)表示在输入为c时获得目标序列z的条件概率;CTC的输入数据c恰为BLSTM的输出P,且符合下式:
P(z|c)=∑π:B(π)=zP(π|P) (13)
式(13)中,运算B表示用来移除重复标签及空格标签;
序列解码的目标就是找到符合BLSTM输出序列中最大概率的近似最优路径π:
Figure GDA0003683697700000071
本发明的有益效果是:本发明通过构建MSAFF-Yolov3与校正网络来实现对不同车牌检测的系统。在本发明文本中,本发明文本为无约束的场景提出了一个完整的深度学习车牌检测识别系统。实验的结果表明,所提出的方法在具有挑战性的数据集中优于现有方法,其中包含在强倾斜视图处捕获的车牌,同时在更受控制的数据集中保持良好结果。本发明的主要贡献是引入了一种新型校正网络,该网络允许通过为每个检测单元生成仿射变换矩阵来检测和解除失真的车牌与构建了MSAFF-Yolov3网络更加准确快速的识别车牌。
附图说明
图1是本发明中整体结构流程图;
图2是本发明中MSAFF-Yolov3结构流程图;
图3是本发明的COD-NET的网络结构示意图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图所述;一种基于MSAFF-Yolov3的车牌校正检测识别方法,在MSAFF-Yolov3网络下对车牌的目标检测、校正网络中对扭曲车牌的校正、OCR算法中对车牌字符的识别三个部分,具体操作步骤如下:
步骤(1):采集图像,并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中,对车牌区域的特征区域进行提取,且将车牌区域进行裁剪并作为车牌识别的输入;
步骤(2):将输入的车牌区域进行检测,检测其是否出现扭曲的情况;
如出现扭曲,则通过校正目标检测网络对扭曲的车牌进行校正,再利用CNN对车牌符号进行特征提取;
如未出现扭曲,则直接利用CNN对车牌符号进行特征提取;
步骤(3):对上述调整后的图像通过一个CNN网络进行特征提取,为了增加前后文字符的双向接收和处理能力,引入一个含有LSTM的BRNN网络,从而对特征序列中的每个特征执行BLSTM处理,最终将整个特征序列转换成一个数组;
步骤(4):将CTC布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串。
进一步的,在所述步骤(1)中,
设计的自适应多尺度融合的MSAFF-Yolov3网络能够对车牌进行更精准的检测,该网络将所有输出尺度的特征进行融合,其具体操作步骤如下:
步骤(1.1):自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征调整特征图的大小,更好的学习复杂的特征映射;
其中,所述路径层和亚像素卷积层通过不同的通道特征重新排列到一个通道来对特征图进行采样,
所述亚像素卷积层可以从H×W×r2C改变为rH×rW×C;
上式中,H、W和C分别表示特征图的高度,宽度和通道,r表示特征图的比例;
所述路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样;路径层将特征图从rH×rW×C改变为H×W×r2C,;网络可以隐式的、自动的学习特征映射的过程;
步骤(1.2):自适应多尺度融合利用注意力机制来学习不同尺度下通道特征的相关性以及空间特征的重要性,每个尺度下的特征图都被亚像素层和路径层调整了大小,为了了解不同尺度下空间特征的重要性;
Figure GDA0003683697700000081
表示特征图(i,j)位置的特征,n-l表示特征图从n缩放为l;
定义
Figure GDA0003683697700000082
为特征图大小为n在(i,j)位置上特征的权重,
首先,使用一个1×1的卷积块去学习
Figure GDA0003683697700000083
Figure GDA0003683697700000084
的映射关系,然后使用Softmax函数计算每个训练轮次的权重,每次训练权重必须符合以下(1)和(2)公式;
Figure GDA0003683697700000091
式(1)中,N表示网络中尺度的数量;
Figure GDA0003683697700000092
式(2)中,
Figure GDA0003683697700000093
表示不同尺度下特征图各个位置特征的重要性,其中,大尺度的特征包含更多的上下文信息,小尺度的特征包含更多的具体信息;
根据公式(3)重新在每个尺度上加权了特征图,自动调整不同尺度下特征的重要性;
Figure GDA0003683697700000094
式(3)中,
Figure GDA0003683697700000095
表示重新加权的特征图,
Figure GDA0003683697700000096
表示是从空间角度关注目标;自适应特征融合通过连接每个尺度上的
Figure GDA0003683697700000097
来执行特征融合;
接着,使用全局池得到网络的全局接受域,两个完全连接的层被用来减少和提高通道的尺寸,使用Relu激活层来学习不同通道之间的非线性关系,使用Sigmoid函数来产生每个通道的权值集合;
最后,权值反映了信道之间的相关性,通过信道方向的乘法重新确定特征图的权重;网络能够学习自适应的信道特征,从信道特征的角度关注目标;
步骤(1.3):将带有注意力机制的自适应融合尺度与Yolov3相融合,Yolov3使用的是Darknet53进行特征提取,其在3个尺度上检测不同大小的目标;
利用路径层和亚像素卷积层调整Yolov3在各个尺度下的特征映射大小;各尺度特征图的大小调整过程如表一所示;
在尺度1中,利用两个亚像素卷积层(r=2和r=4)对低分辨率的特征图进行上采样;在尺度2中,利用亚像素卷积层(r=2)对低分辨率的特征图进行上采样,采用路径层(r=2)对低分辨率的特征图进行下采样;在尺度3中,使用两个路径层(r=2和r=4)对高分辨的特征图进行下采样,然后利用注意力机制进行特征融合,学习不同尺度下通道特征与空间特征;最后在将检测结果进行1×1卷积;
表1各尺度下特征图的大小调整过程;
Figure GDA0003683697700000098
Figure GDA0003683697700000101
步骤(1.4):设计新的损失函数使得MSAFF-Yolov3具有更强的自适应能力,GIOU反映预测边界盒和ground truth,GIOU由以下公式计算:
Figure GDA0003683697700000102
式(4)中,BGT表示ground truth的边界框,BP表示预测的边界框,B表示BGT和BP的最小封闭凸面,GIOU loss由下面公式计算:
Figure GDA0003683697700000103
Focal loss被用来预测目标的置信度,Focal loss能够降低简单样例的相对损失,而对困难样则更加重视,置信度的focal loss如下述公式所示:
Lossconf=-(yGT-yp)γ×[yGTlogyp-(1-yGT)log(1-yp)] (6)
式(6)中,yGT表示ground truth的置信度,yp表示预测的置信度,γ设置为2;
利用二元交叉熵损失来预测目标的类别;如下式所示:
Losscls=CGTlogCp-(1-CGT)log(1-Cp) (7)
式(7)中,CGT表示ground truth的种类,Cp表示预测的种类,最终损失函数定义如下式所示:
Figure GDA0003683697700000104
式(8)中,n表示网络的尺度。
进一步的,在步骤(2)中,对于扭曲车牌的校正目标检测网络(COD-Net),其中包括以下步骤:
步骤(2.1)、设计的架构共有21个卷积层,其中14个包含在残差块;
所有卷积滤波器的大小固定为3×3;除检测块外,整个网络中都使用ReLU激活函数;有4个最大池,大小为2×2,步幅2,可将输入维数降低16倍;
最后,检测块包括两个平行的卷积层:(i)、一个用于推断由softmax函数激活的概率值;(ii)、另一个用于回归仿射参数而没有激活函数(或等效地,使用恒等函数F(x)=x作为激活函数);
步骤(2.2)、车牌检测并调整大小后的图像H*W(图像的高度,宽度)输出尺寸为M*N*8,M=H/16,N=W/16,预测是否包含车牌的概率(2个)和仿射变换系数(6个);OD-NET相当于把原图分成了M*N个格子,每个格子以点单元(m,n)为中心单元格虚构的平方区域,如果包含车牌的概率大于阈值,则用仿射变换系数将单元格仿射变换成LP,从而得到车牌的4个角坐标,再经过透视变换将不规则的车牌校正;
损失函数:令pi=[xi,yi]T,i=1,…,4表示标注的车牌的四个角,从左上角开始顺时针表示;
另:q1=[-0.5,-0.5]T,q2=[0.5,-0.5]T,q3=[0.5,0.5]T,q3=[0.5,0.5]T,q4=[-0.5,0.5]T表示以小格中心为原点的标准单位坐标系的顶点;
对于高度为H和宽度为W的输入图像,以及由NS=16(四个最大池化层)给出的网络步幅,网络输出特征图大小为M×N×8,其中M=H/Ns并且N=W/NS
对于特征图中的每个点(m,n),都要估计八个值:前两个值v1,v2表示有无目标的概率,后面六个值v3~v8用于构建仿射变换矩阵Tmn:
Figure GDA0003683697700000111
式(9)中,对v3和v6使用了最大函数以确保对角线为正(避免不期望的镜像或过度旋转);
步骤(2.2)、为了匹配网络的输出分辨率,通过网络步幅的倒数重新缩放点pi,并根据特征图中的每个点(m,n)重新进行中心化,其通过应用归一化函数完成,如下式所示:
Figure GDA0003683697700000112
式(10)中,α表示虚构正方形一侧的缩放常数,设置为7.75;这是增强训练数据中最大和最小车牌维度除以网络步幅之后的平均值;p表示车牌相对于车辆原图的真实位置(以原图左上角为原点)除以网络步幅Ns,减去(m,n),除以平均大小α后,得到以小格中心为原点并缩小后的矩形框Amn(p);
假设在位置(m,n)处有一个车牌,损失函数的第一部分是考虑标准正方形的仿射版本与车牌的标准化标注之间的误差,表示为:
Figure GDA0003683697700000121
损失函数的第二部分处理在(m,n)处具有/不具有对象的概率。它类似于SSD置信度损失,基本上是两个对数损失函数的和:
fprobs(m,n)=logloss(Ⅱobj,v1)+logloss(1-Ⅱobj,v2)
其中,Ⅱobj为目标指示函数,如果在点(m,n)处包含目标,则该函数值为1,否则为0;logloss(y,p)=-ylog(p);如果一个目标的矩形边界框与任一个同样大小,中心点为(m,n)的矩形框之间的IOU大于γobj(根据经验设置为0.3),则该目标被认为是在点(m,n)内部;最终的损失是定位损失和分类损失的和:
Figure GDA0003683697700000122
进一步的,在步骤(3)中,所述车牌字符识别步骤如下:
步骤(3.1)、首先,通过一个CNN网络对裁剪后的车牌图像进行特征提取,提取过程采用了滑动窗口的方式;
然后,对于每一张待检车牌,都将其转换为灰度图像,并重塑为CNN网络24像素的输入高度;之后使用24*24像素的子窗口分割该图像,步长为1;对完成分割的每幅图像输入CNN网络,在第四个卷积层提取4*4*256维度的特征,并在第一个全连接层的输出中得到1000个特征;
最后,将两种特征向量进行结合,从而得到包含图像的本地和全局信息;
步骤(3.2)、通过操作,候选车牌的特征按从左至右的顺序被子窗口提取出来,并得到了一个特征序列数组Arr={x1,x2,…,xL};
式中,L表示子窗口的数量,x属于256个维度的集合;这样不仅保留了信息的原始顺序,还获取了高效的上下文信息便于RNN的后续处理;
步骤(3.3)、为了克服RNN训练过程中可能出现的梯度消失或梯度爆炸问题,引入了LSTM(长短期记忆)克服梯度消失或梯度爆炸;所述的LSTM包含记忆锁定机制,能够长时间保存文本信息;
引入含LSTM的BRNN(BLSTM)网络;在BLSTM网络中有两个彼此独立的隐藏层,其中之一负责处理前向的序列特征,另一个则负责处理后项序列特征;
对每个隐藏层来说,整个LSTM共享超参数;两个隐藏层都连接至同一个输出层,为之提供输入序列的双向信息;如下式所示:
Figure GDA0003683697700000131
所述序列标记是通过循环地对特征序列中的每个特征执行BLSTM来处理的;每一次状态ht都根据当前特征xt及相邻状态ht-1或ht+1进行更新;
式(11)中,(f)表示向前递归,(b)表示向后递归;
接着,Softmax层将BLSTM层的状态转换成69个类别(10个数字,24个字母和34个汉字)的概率分布;额外的第69个分类是为了描述字符间的空格;整个特征序列最终转换成一个与输入序列长度一致的概率估计值数组p={p1,p2,…,pL}:
Figure GDA0003683697700000132
在步骤(4)中,
所述数组解码的操作步骤如下:将CTC布置在BRNN的输出层之后;CTC是一种特别为不需要数据预分割而设计的序列分类方法,它直接将预测概率数组解码为输出标签值;其目标函数定义为如下公式:
θ=-∑(c,z∈S)lnP(z|c) (12)
式(12)中,S表示训练数据集;P(z|c)表示在输入为c时获得目标序列z的条件概率;CTC的输入数据c恰为BLSTM的输出P,且符合下式:
P(z|c)=∑π:B(π)=zP(π|P) (13)
式(13)中,运算B表示用来移除重复标签及空格标签;例如B(a-a-b-)=B(-aa--ab-b)=(aab);网络得到充分有效的训练后,序列解码的目标就是找到符合BLSTM输出序列中最大概率的近似最优路径π:
Figure GDA0003683697700000141
实施例一:
本发明实施例提供了一种基于MSAFF-Yolov3的车牌校正检测识别方法,利用设计的自适应多尺度融合的MSAFF-Yolov3网络,进行对车牌区域的特征区域的提取,将车牌区域进行裁剪并作为车牌识别的输入;将输入的车牌区域包括不同扭曲程度的车牌送入校正目标检测网络(COD-Net)进行车牌的校正;通过一个CNN网络进行特征提取,引入一个含有长短期记忆(LSTM)的双向循环神经网络(BRNN)网络(BLSTM),对特征序列中的每个特征执行BLSTM处理,将整个特征序列转换成一个数组;将CTC(Connectionist temporalclassification)算法布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串。本发明利用现有的三种数据集只在训练阶段使用了标注有车牌位置信息的车辆图片和标注有车牌号码信息的车牌图片,分别训练车牌检测算法和车牌识别算法。在测试阶段,使用完全陌生的车辆图片进行车牌的检测和车牌识别。
本发明实施例提供了一种基于MSAFF-Yolov3的车牌校正检测识别方法,包括如下的处理步骤:
步骤S110、采集图像,并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中,通过网络将车牌区域进行特征提取。
自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征来调整特征图的大小,更好的学习复杂的特征映射。路径层和亚像素卷积层通过不同的通道特征重新排列到一个通道来对特征图进行采样,亚像素卷积层可以从H×W×r2C改变为rH×rW×C。H,W和C代表特征图的高度,宽度和通道,r代表特征图的比例。路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样。路径层可以将特征图从rH×rW×C改变为H×W×r2C,网络可以隐式的、自动的学习特征映射的过程。
自适应多尺度融合利用注意力机制来学习不同尺度下通道特征的相关性以及空间特征的重要性,每个尺度下的特征图都被亚像素层和路径层调整了大小,设计新的损失函数使得MSAFF-Yolov3具有更强的自适应能力。
步骤S120、为了增加前后文字符的双向接收和处理能力,引入一个含有LSTM的BRNN网络,从而对特征序列中的每个特征执行BLSTM处理,将整个特征序列转换成一个数组;将输入的车牌区域不同扭曲程度的车牌送入校正目标检测网络进行车牌的校正以提高车牌字符识别的准确率。
设计的架构总共具有21个卷积层,其中14个包含在残差块。所有卷积滤波器的大小固定为3×3。除检测块外,整个网络中都使用ReLU激活函数。有4个最大池,大小为2×2,步幅2,可将输入维数降低16倍;最后,检测块有两个平行的卷积层:(i)一个用于推断由softmax函数激活的概率值;(ii)另一个用于回归仿射参数而没有激活函数;车牌检测并调整大小后的图像H*W输出尺寸为M*N*8,M=H/16,N=W/16,预测是否包含车牌的概率和仿射变换系数;损失函数:令pi=[xi,yi]T,i=1,…,4表示标注的车牌的四个角,从左上角开始顺时针表示;
另q1=[-0.5,-0.5]T,q2=[0.5,-0.5]T,q3=[0.5,0.5]T,q3=[0.5,0.5]T,q4=[-0.5,0.5]T表示以小格中心为原点的标准单位坐标系的顶点;
对于高度为H和宽度为W的输入图像,以及由NS=16给出的网络步幅,网络输出特征图大小为M×N×8,其中M=H/Ns且N=W/NS
对于特征图中的每个点(m,n),估计八个值:前两个值v1,v2表示有无目标的概率,后面六个值v3~v8用于构建仿射变换矩阵Tmn:
Figure GDA0003683697700000151
对v3和v6使用了最大函数以确保对角线为正;
通过网络步幅的倒数重新缩放点pi,并根据特征图中的每个点(m,n)重新进行中心化,其通过应用归一化函数完成,如下式所示:
Figure GDA0003683697700000152
α表示虚构正方形一侧的缩放常数,设置为7.75;p表示车牌相对于车辆原图的真实位置除以网络步幅Ns,减去(m,n),除以平均大小α后,得到以小格中心为原点并缩小后的矩形框Amn(p);
步骤S130、通过一个CNN网络对裁剪后的车牌图像进行特征提取,提取过程采用了滑动窗口的方式;对于每一张待检车牌,都将其转换为灰度图像,并重塑为CNN网络24像素的输入高度;之后使用24*24像素的子窗口分割该图像,步长为1;对完成分割的每幅图像输入CNN网络,在第四个卷积层提取4*4*256维度的特征,并在第一个全连接层的输出中得到1000个特征;
最后将上述两种特征向量进行结合,从而得到包含图像的本地和全局信息;通过上述操作,候选车牌的特征按从左至右的顺序被子窗口提取出来,并得到了一个特征序列数组Arr={x1,x2,…,xL};
其中L表示子窗口的数量,x属于256个维度的集合;
引入了LSTM克服梯度消失或梯度爆炸;所述的LSTM包含记忆锁定机制,能够长时间保存文本信息;引入了含LSTM的BRNN网络;在BLSTM网络中有两个彼此独立的隐藏层,其中之一负责处理前向的序列特征,而另一个负责处理后项序列特征。对每个隐藏层来说,整个LSTM共享超参数;两个隐藏层都连接至同一个输出层,为之提供输入序列的双向信息;如下式所示:
Figure GDA0003683697700000161
所述序列标记是通过循环地对特征序列中的每个特征执行BLSTM来处理;每一次状态ht都根据当前特征xt及相邻状态ht-1或ht+1进行更新;
其中(f)表示向前递归,(b)表示向后递归;
接下来的Softmax层将BLSTM层的状态转换成69个类别的概率分布;额外的第69个分类是为了描述字符间的空格;整个特征序列最终转换成了一个与输入序列长度一致的概率估计值数组p={p1,p2,…,pL}:
Figure GDA0003683697700000162
将CTC布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串。
综上所述,本发明实施例提出了一种基于MSAFF-Yolov3的车牌校正检测识别方法,利用MSAFF-Yolov3网络对车牌区域进行检测,然后利用COD-Net对车牌进行校正,使得本方法能够进行车牌的校正以提高车牌字符识别的准确率。使用一个含有LSTM的双向循环神经网络(BRNN)网络(BLSTM),对特征序列中的每个特征执行BLSTM处理,将整个特征序列转换成一个数组,将CTC布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串。使得该车牌识别方法能够识别不同位数长度的车牌以及提升了识别的准确率。本实施例在四种数据集中训练模型和测试同时还比较了商业系统和学术系统现有的车牌检测系统,对比结果如下图表二所示,本专利所用方法在四种数据集中对比其他方法都有所领先;
表2本专利与其他系统在四种数据集中的测试
Figure GDA0003683697700000171
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims (4)

1.一种基于MSAFF-Yolov3的车牌校正检测识别方法,在MSAFF-Yolov3网络下对车牌的目标检测、校正网络中对扭曲车牌的校正、OCR算法中对车牌字符的识别三个部分,其特征在于:具体操作步骤如下:
步骤(1):采集图像,并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中,对车牌区域的特征区域进行提取;
其中,设计的自适应多尺度融合的MSAFF-Yolov3网络能够对车牌进行更精准的检测,该网络将所有输出尺度的特征进行融合,其具体操作步骤如下:
步骤(1.1):自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征调整特征图的大小;
其中,所述路径层和亚像素卷积层通过不同的通道特征重新排列到一个通道来对特征图进行采样,
所述亚像素卷积层从H×W×r2C改变为rH×rW×C;
上式中,H、W和C分别表示特征图的高度,宽度和通道,r表示特征图的比例;
所述路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样;路径层将特征图从rH×rW×C改变为H×W×r2C;
步骤(1.2):每个尺度下的特征图调整大小;
Figure FDA0003683697690000011
表示特征图(i,j)位置的特征,n-l表示特征图从n缩放为l;
定义
Figure FDA0003683697690000012
为特征图大小为n在(i,j)位置上特征的权重,
首先,使用一个1×1的卷积块去学习
Figure FDA0003683697690000013
Figure FDA0003683697690000014
的映射关系,然后使用Softmax函数计算每个训练轮次的权重,每次训练权重必须符合以下(1)和(2)公式;
Figure FDA0003683697690000015
式(1)中,N表示网络中尺度的数量;
Figure FDA0003683697690000016
式(2)中,
Figure FDA0003683697690000017
表示不同尺度下特征图各个位置特征的重要性,其中,大尺度的特征包含更多的上下文信息,小尺度的特征包含更多的具体信息;
根据公式(3)重新在每个尺度上加权了特征图,自动调整不同尺度下特征的重要性;
Figure FDA0003683697690000021
式(3)中,
Figure FDA0003683697690000022
表示重新加权的特征图,
Figure FDA0003683697690000023
表示是从空间角度关注目标;自适应特征融合通过连接每个尺度上的
Figure FDA0003683697690000024
来执行特征融合;
接着,使用全局池得到网络的全局接受域,使用Relu激活层来学习不同通道之间的非线性关系,使用Sigmoid函数来产生每个通道的权值集合;
最后,通过信道方向的乘法重新确定特征图的权重;网络能够学习自适应的信道特征,从信道特征的角度关注目标;
步骤(1.3):将带有注意力机制的自适应融合尺度与Yolov3相融合,Yolov3使用Darknet53进行特征提取,其在3个尺度上检测不同大小的目标;
利用路径层和亚像素卷积层调整Yolov3在各个尺度下的特征映射大小;
在尺度1中,利用两个亚像素卷积层对低分辨率的特征图进行上采样;在尺度2中,利用亚像素卷积层对低分辨率的特征图进行上采样,采用路径层对低分辨率的特征图进行下采样;在尺度3中,使用两个路径层对高分辨的特征图进行下采样,然后利用注意力机制进行特征融合,学习不同尺度下通道特征与空间特征;最后在将检测结果进行1×1卷积;
步骤(1.4):设计新的损失函数,GIOU反映预测边界盒和ground truth,GIOU由以下公式计算:
Figure FDA0003683697690000025
式(4)中,BGT表示ground truth的边界框,BP表示预测的边界框,B表示BGT和BP的最小封闭凸面,GIOU loss由下面公式计算:
Figure FDA0003683697690000026
Focal loss被用来预测目标的置信度,Focal loss能够降低简单样例的相对损失,而对困难样则更加重视,置信度的focal loss如下述公式所示:
Lossconf=-(yGT-yp)γ×[yGTlogyp-(1-yGT)log(1-yp)] (6)
式(6)中,yGT表示ground truth的置信度,yp表示预测的置信度,γ设置为2;
利用二元交叉熵损失来预测目标的类别;如下式:
Losscls=CGTlogCp-(1-CGT)log(1-Cp) (7)
式(7)中,CGT表示ground truth的种类,Cp表示预测的种类,最终损失函数定义如下式:
Figure FDA0003683697690000031
式(8)中,n表示网络的尺度;
步骤(2):将输入的车牌区域进行检测,检测其是否出现扭曲的情况;
如出现扭曲,则通过校正目标检测网络对扭曲的车牌进行校正,再利用CNN对车牌符号进行特征提取;
如未出现扭曲,则直接利用CNN对车牌符号进行特征提取;
步骤(3):为增加前后文字符的双向接收和处理能力,引入一个含有LSTM的BRNN网络,从而对特征序列中的每个特征执行BLSTM处理,最终将整个特征序列转换成一个数组;
步骤(4):将CTC布置在BRNN的输出层,将预测概率数组解码成输出标签值,将数组转换成字符串。
2.根据权利要求1所述的一种基于MSAFF-Yolov3的车牌校正检测识别方法,其特征在于:在步骤(2)中,
对于扭曲车牌的校正目标检测网络,其中包括以下步骤:
步骤(2.1)、设计的架构共有21个卷积层,其中14个包含在残差块;
所有卷积滤波器的大小固定为3×3;除检测块外,整个网络中都使用ReLU激活函数;有4个最大池,大小为2×2,步幅2,可将输入维数降低16倍;
最后,检测块包括两个平行的卷积层:(i)、一个用于推断由softmax函数激活的概率值;(ii)、另一个用于回归仿射参数而没有激活函数;
步骤(2.2)、车牌检测并调整大小后的图像H*W输出尺寸为M*N*8,M=H/16,N=W/16,预测是否包含车牌的概率和仿射变换系数;
损失函数:令pi=[xi,yi]T,i=1,...,4表示标注的车牌的四个角,从左上角开始顺时针表示;
另:
q1=[-0.5,-0.5]T,q2=[0.5,-0.5]T,q3=[0.5,0.5]T,q3=[0.5,0.5]T,q4=[-0.5,0.5]T表示以小格中心为原点的标准单位坐标系的顶点;
对于高度为H和宽度为W的输入图像,及由NS=16给出的网络步幅,网络输出特征图大小为M×N×8,其中,M=H/Ns且N=W/NS
对于特征图中的每个点(m,n),都要估计八个值:前两个值v1,v2表示有无目标的概率,后面六个值v3~v8用于构建仿射变换矩阵Tmn
Figure FDA0003683697690000041
式(9)中,对v3和v6使用了最大函数以确保对角线为正;
步骤(2.2)、通过网络步幅的倒数重新缩放点pi,并根据特征图中的每个点(m,n)重新进行中心化,其通过应用归一化函数完成,如下式:
Figure FDA0003683697690000042
式(10)中,α表示虚构正方形一侧的缩放常数,设置为7.75;p表示车牌相对于车辆原图的真实位置除以网络步幅Ns,减去(m,n),除以平均大小α后,得到以小格中心为原点并缩小后的矩形框Amn(p)。
3.根据权利要求1所述的一种基于MSAFF-Yolov3的车牌校正检测识别方法,其特征在于:在步骤(3)中,所述车牌字符识别步骤如下:
步骤(3.1)、首先,通过一个CNN网络对裁剪后的车牌图像进行特征提取,提取过程采用了滑动窗口的方式;
然后,对于每一张待检车牌,都将其转换为灰度图像,并重塑为CNN网络24像素的输入高度;之后使用24*24像素的子窗口分割该图像,步长为1;对完成分割的每幅图像输入CNN网络,在第四个卷积层提取4*4*256维度的特征,并在第一个全连接层的输出中得到1000个特征;
最后,将两种特征向量进行结合,从而得到包含图像的本地和全局信息;
步骤(3.2)、通过操作,候选车牌的特征按从左至右的顺序被子窗口提取出来,并得到了一个特征序列数组Arr={x1,x2,...,xL};
式中,L表示子窗口的数量,x属于256个维度的集合;
步骤(3.3)、引入了LSTM克服梯度消失或梯度爆炸;所述的LSTM包含记忆锁定机制,能够长时间保存文本信息;
引入含LSTM的BRNN网络;在BLSTM网络中有两个彼此独立的隐藏层,其中之一负责处理前向的序列特征,另一个则负责处理后项序列特征;
对每个隐藏层来说,整个LSTM共享超参数;两个隐藏层都连接至同一个输出层,为之提供输入序列的双向信息;如下式:
Figure FDA0003683697690000051
所述序列标记是通过循环地对特征序列中的每个特征执行BLSTM来处理的;每一次状态ht都根据当前特征xt及相邻状态ht-1或ht+1进行更新;
式(11)中,(f)表示向前递归,(b)表示向后递归;
接着,Softmax层将BLSTM层的状态转换成69个类别的概率分布;额外的第69个分类是为了描述字符间的空格;整个特征序列最终转换成一个与输入序列长度一致的概率估计值数组p={p1,p2,...,pL}:
Figure FDA0003683697690000052
4.根据权利要求1所述的一种基于MSAFF-Yolov3的车牌校正检测识别方法,其特征在于:在步骤(4)中,
所述数组解码的操作步骤如下:将CTC布置在BRNN的输出层之后;其目标函数定义为如下公式:
θ=-∑(c,z∈S)lnP(z|c) (12)
式(12)中,S表示训练数据集;P(z|c)表示在输入为c时获得目标序列z的条件概率;CTC的输入数据c恰为BLSTM的输出P,且符合下式:
P(z|c)=∑π:B(π)=zP(π|P) (13)
式(13)中,运算B表示用来移除重复标签及空格标签;
序列解码的目标就是找到符合BLSTM输出序列中最大概率的近似最优路径π:
Figure FDA0003683697690000053
CN202110103233.4A 2021-01-26 2021-01-26 一种基于MSAFF-Yolov3的车牌校正检测识别方法 Active CN113255659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103233.4A CN113255659B (zh) 2021-01-26 2021-01-26 一种基于MSAFF-Yolov3的车牌校正检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103233.4A CN113255659B (zh) 2021-01-26 2021-01-26 一种基于MSAFF-Yolov3的车牌校正检测识别方法

Publications (2)

Publication Number Publication Date
CN113255659A CN113255659A (zh) 2021-08-13
CN113255659B true CN113255659B (zh) 2022-07-29

Family

ID=77180804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103233.4A Active CN113255659B (zh) 2021-01-26 2021-01-26 一种基于MSAFF-Yolov3的车牌校正检测识别方法

Country Status (1)

Country Link
CN (1) CN113255659B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN113628206B (zh) * 2021-08-25 2022-08-12 深圳市捷顺科技实业股份有限公司 一种车牌检测方法、装置、介质
TWI786946B (zh) * 2021-11-15 2022-12-11 國立雲林科技大學 金屬製品表面之文字辨識方法
CN114463611A (zh) * 2021-12-18 2022-05-10 北京工业大学 一种非可控环境下的鲁棒中文车牌检测与校正方法
CN114419605B (zh) * 2022-03-29 2022-07-19 之江实验室 基于多网联车空间对齐特征融合的视觉增强方法及系统
CN114494250A (zh) * 2022-04-01 2022-05-13 浙江大学湖州研究院 基于神经网络模型的地板缺陷检测方法
CN114677502B (zh) * 2022-05-30 2022-08-12 松立控股集团股份有限公司 一种任意倾斜角度的车牌检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097044A (zh) * 2019-05-13 2019-08-06 苏州大学 基于深度学习的一阶段车牌检测识别方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097044A (zh) * 2019-05-13 2019-08-06 苏州大学 基于深度学习的一阶段车牌检测识别方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法

Also Published As

Publication number Publication date
CN113255659A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113255659B (zh) 一种基于MSAFF-Yolov3的车牌校正检测识别方法
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
US10198657B2 (en) All-weather thermal-image pedestrian detection method
CN111612008B (zh) 基于卷积网络的图像分割方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
US6587586B1 (en) Extracting textual information from a video sequence
CN111461039B (zh) 基于多尺度特征融合的地标识别方法
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
CN111680705B (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
Zhang et al. Local–global attentive adaptation for object detection
CN112686247A (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN112784834A (zh) 一种自然场景下的车牌自动识别方法
Liang et al. Cross-scene foreground segmentation with supervised and unsupervised model communication
CN113361467A (zh) 基于领域适应的车牌识别方法
Asgarian Dehkordi et al. Vehicle type recognition based on dimension estimation and bag of word classification
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN114842478A (zh) 文本区域的识别方法、装置、设备及存储介质
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant