CN114092926A - 一种复杂环境下的车牌定位和识别方法 - Google Patents
一种复杂环境下的车牌定位和识别方法 Download PDFInfo
- Publication number
- CN114092926A CN114092926A CN202111222652.6A CN202111222652A CN114092926A CN 114092926 A CN114092926 A CN 114092926A CN 202111222652 A CN202111222652 A CN 202111222652A CN 114092926 A CN114092926 A CN 114092926A
- Authority
- CN
- China
- Prior art keywords
- license plate
- layer
- feature
- loss function
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 20
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 7
- 238000013508 migration Methods 0.000 claims abstract description 4
- 230000005012 migration Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 238000010304 firing Methods 0.000 claims description 2
- 102100032202 Cornulin Human genes 0.000 claims 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009547 dual-energy X-ray absorptiometry Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公开了一种复杂环境下的车牌定位和识别方法,本发明采用循环生成对抗网络对合成车牌图像进行风格迁移,生成更接近真实的车牌图像以丰富训练样本集,并解决样本不均衡问题,采用一种MF‑RepUnet车牌定位方法,将改进的VGG结构和特征金字塔融入U‑Net模型,提高模型特征提取能力,成功弥补了车牌定位中小目标车牌和倾斜车牌等容易漏检的缺陷,用基于卷积循环神经网络和注意力机制的车牌识别方法,通过注意力自适应加权协助循环神经网络改善因图像质量退化导致的语义特征模糊问题,进一步提高字符识别的准确率。
Description
技术领域
本发明属于目标检测和模式识别领域,具体涉及一种基于MF-RepUnet的车牌定位方法和基于卷积循环神经网络和注意力机制的车牌识别方法。
背景技术
智慧交通是智慧城市的重要组成部分,快速准确的车牌识别技术对智慧交通系统建设具有重大意义。现有的车牌识别技术已广泛应用于各种限定场景如车辆通行管理、智慧停车场、电子警察、电子停车收费系统(Electronic Toll Collection,ETC)等。这些智能管理系统不仅提供了安全、有效的服务,还极大地便利了人们的日常生活。虽然传统车牌识别技术已十分成熟,限定场景下车牌图像质量相对较高,车牌识别能够达到较高的精确率和实时性,但无法普遍适用于各种复杂场景。在真实复杂环境下,如光照变换、背景复杂、拍摄角度和拍摄距离多变、运动模糊、天气恶劣等多种因素影响导致获取的车牌图像往往质量差且分辨率低,为后续车牌精确定位和识别带来了严峻的挑战。因此,复杂环境下的车牌定位和识别方法研究仍具有重要意义。
近年来,随着深度学习技术的不断发展,深度卷积神经网络因其强大的特征提取能力和复杂问题表达能力,在计算机视觉领域如目标检测、语义分割、图像处理等取得了显著的成效。车牌识别也从传统的基于字符分割的方法转向基于深度学习的方法,丢掉了字符分割等中间过程,实现了端到端的精确识别。然而,这种识别方法仍存在一些局限。深度学习算法需要大量的训练样本,而收集的车牌图像因车辆类型、区域分布的不同,会存在颜色、字符上的差异问题和样本不均衡问题,导致图像通用性较差,需要均衡训练样本以提高模型泛化能力。此外,深度学习模型复杂且计算开销大,识别准确率与模型结构复杂程度相关,不利于移动端和嵌入式端的部署,需要权衡识别准确率和效率,使其适用于各种场景。
发明内容
本发明针对现有技术的不足,提出了一种复杂环境下的车牌定位和识别方法。本发明采用端到端的车牌定位和字符识别框架,实现高效、准确的车牌识别。主要贡献如下:(1)采用循环生成对抗网络(Cycle-consistent Generative Adversarial Network,CycleGAN)对合成车牌图像进行风格迁移,生成更接近真实的车牌图像以丰富训练样本集,并解决样本不均衡问题。(2)提出了一种MF-RepUnet车牌定位方法,将改进的VGG结构和特征金字塔(Feature Pyramid Network,FPN)融入U-Net模型,提高模型特征提取能力,成功弥补了车牌定位中小目标车牌和倾斜车牌等容易漏检的缺陷。(3)提出了一种基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)和注意力机制的车牌识别方法,通过注意力自适应加权协助循环神经网络(Recurrent Neural Network,RNN)改善因图像质量退化导致的语义特征模糊问题,进一步提高字符识别的准确率。
一种复杂环境下的车牌定位和识别方法,其特征在于,该方法具体包括以下步骤:
步骤1:基于CycleGAN的训练样本生成
步骤1-1:根据标准车牌模板自动合成各个省份的车牌图像,通过透视畸变模拟车牌形变程度,更改HSV颜色空间数据模拟光照强度,添加环境背景以及高斯噪声模拟模糊场景。经过以上操作合成的车牌图像已具有一定的真实性和多样性。
步骤1-2:采用CycleGAN进行风格迁移,使合成车牌图像更接近真实车牌图像以解决样本不平衡问题;同时进一步提高样本多样性;CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器,整个网络是一个对偶结构,包括两个生成器和两个鉴别器。
步骤2:基于MF-RepUnet的车牌定位
MF-RepUnet网络模型具体结构以U-Net模型结构为骨干,分为编码和解码两个阶段,包含四次下采样和四次上采样,并通过通道拼接的方式将低层特征与高层特征结合起来。
步骤2-1:编码阶段
将一种改进的RepVGG结构替换U-Net的全部卷积层,用于提取车牌图像特征。首先,在普通卷积基础上加入了恒等映射和残差分支,并在每一层卷积都做了恒等映射,构建出RepVGG训练模型。然后,采用结构重参数化技术除去多余分支,最终得到一个仅由3×3卷积层堆栈的RepVGG的推理模型。
步骤2-2:解码阶段
将FPN融入到解码路径中,通过在每一级上采样过程中添加支路径,分别预测不同尺度的车牌图像特征。同时,在改进的RepVGG结构中添加批量归一化,加快网络的训练和收敛速度,并在一定程度上避免过拟合。然后,采用线性整流函数作为激活函数,缓解模型梯度消失问题。通过最大池化层进行下采样,减小计算量并扩大感受野。最后,使用Adam优化算法进行优化,并在反向传播过程中采用BCEWithLogitsLoss损失函数,计算公式如下:
l(p,t)=mean(L)=mean({l1,…,lN}T) (4)
ln=-ωn[tn·logσ(pn)+(1-tn)·log(1-σ(pn))] (5)
其中,pn代表第n个批量的预测结果,tn代表第n个批量的真实标签,L={l1,…,lN}T表示损失函数,N为批量数;σ指代sigmoid函数,把pn映射到(0,1)区间,ωn为损失函数的权重,用于缓解样本不平衡问题。
步骤3:基于CRNN和注意力机制的车牌识别
将ResNet作为特征提取结构的骨干,并根据车牌特征对其网络结构加以改进,同时采用注意力机制对顺序输入的特征序列进行选择和权衡以协助LSTM预测结果,算法整体框架由特征提取层、序列建模层和注意力解码层三大模块组成。
步骤3-1:特征提取层
首先,将图像归一化到相同大小,通过处理灰度图像加快训练速度。车牌图像宽度和高度在经过Max-pooling层时采取不同程度的量化,在最后一次Max-pooling操作时,设定窗口大小,通过Zero Padding来扩充特征图宽度,最终提取特征图;
步骤3-2:序列建模层
序列建模层首先通过Map-to-sequence操作将上一层输出的特征图转换为特征向量序列,然后采用深层双向长短期记忆网络,在卷积特征的基础上继续提取文字序列特征。
步骤3-3:注意力解码层
通过注意力机制对顺序输入的特征序列进行选择和权衡,将相邻目标区域联系起来用特征序列加权的方式来衡量各字符之间相关性的权重,更有利于获取字符最优的特征表达。
作为优选,所述的CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器,整个网络是一个对偶结构,包括两个生成器和两个鉴别器;具体为:
所述的原始GAN模型中生成器G:X→Y和其判别器DY,其对抗损失定义如下:
其中,X代表合成车牌,Y代表生成的伪车牌,x~pdata(x)和y~pdata(y)为数据分布定义。同样,对于生成器F:Y→X和判别器DX的损失函数也是如此。此外,CycleGAN增加了循环一致性损失函数,定义如下:
最后,CycleGAN的损失函数由对抗损失和循环一致性损失组成,具体定义如下:
LSUM(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+Lcyc(G,F) (3)。
作为优选,所述的步骤3-1中图像归一化到相同大小为1×32×160。
作为优选,所述的在最后一次Max-pooling操作时,窗口大小设定为2×1。
作为优选,所述步骤3-1中的最终提取的特征图大小为(C,H,W)=(512,1,41)。
本发明的有益结果:
1、使用CycleGAN将人工合成车牌图像变换到真实数据域,生成更多复杂多样的接近真实场景的车牌图像,该算法仅通过少量的训练样本即可获得大量的伪真实车牌图像,不仅节约了成本,还解决了车牌数据集不均衡问题,能够有效提高后续车牌识别的准确率。
2、基于MF-RepUnet的车牌定位方法通过添加恒等映射和残差分支改进VGG结构,提升模型特征提取能力,并采用结构重参数化技术简化模型,从而得到一个速度快、内存少、并行度高、灵活性好的单路特征提取结构。在上采样过程中,结合FPN的多尺度信息,不仅解决了倾斜车牌和小尺度车牌漏检问题,还增强了模型的鲁棒性,提高车牌定位准确性。
3、基于CRNN和注意力机制的车牌识别方法通过引入注意力机制对顺序输入的特征序列进行选择和权衡,将相邻目标区域联系起来,用特征序列加权的方式来衡量各字符之间相关性的权重,更有利于获取字符最优的特征表达,解决了语义结构模糊问题,提高了不定长字符序列识别精度,支持准确识别车牌字符。
附图说明
图1为本发明的整体流程图;
图2为基于CycleGAN的训练样本生成流程图;
图3为MF-RepUnet的网络模型结构图;
图4为基于CRNN和注意力机制的车牌识别方法过程;
图5为特征提取层网络配置参数。
具体实施方式
本发明提出了一种适用于复杂环境下的车牌定位和识别方法。整体流程如附图1所示,分为两部分,第一部分由CycleGAN生成大量伪车牌样本,与公开数据集CCPD作为训练车牌识别网络的训练集。第二部分为车牌定位和识别过程,首先,输入的车牌图像通过改进的VGG结构进行特征提取,经过U-Net解码阶段的上采样过程获取不同尺度的特征图,然后与相应的编码阶段的特征图进行融合,结合浅层细节信息和深层的语义信息,输出的粗定位车牌图像再经过边缘检测、透视变换等操作矫正倾斜车牌并去除无关的背景信息,最后通过基于CRNN和注意力机制的模型对车牌进行识别。
下面将结合附图和实例对本发明进行详细说明,具体步骤如下:
步骤1、基于CycleGAN的训练样本生成。
步骤2、基于MF-RepUnet的车牌定位。
步骤3、基于CRNN和注意力机制的车牌识别。
进一步,步骤1中CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器,包括两个生成器和两个鉴别器。如附图2所示,第一个生成器GXY将人工合成车牌图像X转换为伪真实车牌图像Y,第二个生成器GYX将伪真实车牌图像Y作为输入,并生成伪合成车牌图像,判别器DX和DY分别用于判别生成的伪合成车牌和伪真实车牌的真伪,计算所生成图像的相似度,并相应的更新生成器模型。此外,CycleGAN在原始GAN的基础上增加了循环一致性损失函数,目的在于计算第二个生成器的生成输出与原始图像之间的相似度差值,基于此方法来充当生成器模型的“正则化”,引导新的图像生成过程朝着图像转译的方向发展。为了进一步减少函数映射可能得到的空间大小,数据域X中的每一张图片x在循环翻译中,应让x回到翻译的原点,反之亦然,即前向、后向循环一致,换言之:
x→G(x)→F(G(x))≈x (6)
y→F(y)→G(F(y))≈y (7)
于是定义其损失函数如下:
进一步,步骤2中MF-RepUnet网络模型的具体结构如附图3所示,以U-Net模型结构为骨干,分为编码和解码两个阶段,包含四次下采样和四次上采样,并通过通道拼接的方式将低层特征与高层特征结合起来。
步骤2-1:首先在编码路径中,将改进的RepVGG结构替换U-Net的全部卷积层,用于提取车牌图像特征。通过在普通卷积基础上加入了恒等映射和残差分支,并且为了后续重参数化为单路结构,在每一层卷积都做了恒等映射,构建出RepVGG训练模型,相当于在一个Block块中所作的计算为:
Output=C1(a)+C2(a)+a (9)
其中,C1(a)表示3×3卷积,C2(a)表示1×1卷积,a表示恒等映射。
此外,采用结构重参数化技术除去多余分支,其原理就是利用卷积的线性特征作简单的代数变换,假设三个3×3卷积核分别是w1,w2,w3,具体计算如下:
conv(a,w1)+conv(a,w2)+conv(a,w3)=conv(a,w1+w2+w3) (10)
最后,通过构造一个以单位矩阵为卷积核的1×1卷积,分通道卷积即可将恒等映射转换为1×1卷积,再通过零填充(Zero Padding)等价转换为3×3卷积。利用公式(10)将3×3卷积、1×1卷积和恒等映射三个分支合并为一个3×3卷积。最终得到一个仅由3×3卷积层堆栈的RepVGG的推理模型。
步骤2-2:在解码路径中,将FPN融入U-Net模型中,通过在每一级上采样过程中添加支路径,分别预测不同尺度的车牌图像特征。同时,在改进的VGG结构中添加BN层,加快网络的训练和收敛速度,并在一定程度上避免过拟合。然后,采用ReLU作为激活函数,缓解模型梯度消失问题。通过最大池化层进行下采样,减小计算量并扩大感受野。最后,使用Adam优化算法进行优化,并在反向传播过程中采用BCEWithLogitsLoss损失函数。
进一步,步骤3中基于CRNN和注意力机制的端到端车牌识别方法,将ResNet作为特征提取结构的骨干,并根据车牌特征对其网络结构加以改进以应对复杂环境下车牌背景杂乱、图像模糊的情况,同时采用注意力机制对顺序输入的特征序列进行选择和权衡协助LSTM预测结果,算法整体框架如附图4所示,由特征提取层、序列建模层和注意力解码层三大模块组成。
步骤3-1:特征提取层旨在获取车牌图像特征图,主要由多层卷积和最大池化层组成。本发明选用ResNet作为特征提取网络的骨干,并根据车牌特征改进网络结构。首先,将图像归一化到相同大小1×32×160,通过处理灰度图像加快训练速度。在经过Max-pooling层时对车牌图像的宽度和高度采取不同程度的量化,以保留车牌宽度上的信息。最终提取的特征图大小为(C,H,W)=(512,1,41)。特征提取层的具体网络配置如附图5所示。其中,#filters代表卷积层滤波器的个数,K、S和P分别代表滤波器的尺寸(Kernel Size)、步长(Stride)和填充尺寸(Padding Size),windows代表滑动窗口大小,Layer代表残差结构,Layer1,Layer2,Layer3,Layer4分别包含1,2,5,3个残差结构。图中的所有卷积后面都添加了BN层用于归一化操作。
步骤3-2:序列建模层首先通过Map-to-sequence操作将上一层输出的特征图转换为特征向量序列,然后采用深层双向长短期记忆网络(Bi-LSTM,Bidirectional LongShort-Term Memory),在卷积特征的基础上继续提取文字序列特征。
步骤3-3:在注意力解码层引入注意力机制,帮助LSTM更准确地预测特征向量。该模块是一个解码器,根据序列建模层编码的特征序列循环地生成目标字符序列。首先,经过序列建模层的Bi-LSTM编码得到特征序列V,包含了每个时间步长的局部信息,作为注意力模型的上下文信息。定义输入到解码器LSTM的向量序列为v'0,v'1,...,v'T+1,其中,
v'0是编码器的最后一个隐藏状态vB和引导向量h′为0注意力输出的串联。ψ()是嵌入函数,被定义为线性层,tanh()为非线性层。v'i由第i-1个LSTM输出和前一步长的引导向量的注意力输出组成,T代表时间步长。
注意力功能ci=Attend(V,h′i)是输入特征的加权总和,可以定义为:
其中,Bv和Bh是要学习的线性嵌入权重,α为B的注意力权重。
对于t时间步长,解码器LSTM计算其隐藏状态h′t并输出向量zt,公式如下:
其中,f()定义为递归函数,Bo将隐藏状态线性转换为大小为66的输出空间,包括31个省份汉字,10个数字,24个英文字母和1个结束标志符<EOS>。
对于车牌定位实验结果:如表1所示,cascade classifier算法速度最快,但定位正确率太低,仅69.44%。本文提出的MF-RepUnet方法不仅定位正确率高达98.65%,优于经典算法Faster R-CNN,而且定位时间也缩短了55%,同时兼顾了正确率与定位速度;并且相较于基础模型U-Net,定位正确率提升了7.5%。由此可以看出,本发明方法在复杂环境数据集上进行车牌定位时,无论是正确率还是定位速度均表现优异,整体性能优越。
表1不同车牌定位方法实验对比
对于车牌字符识别实验结果:如表2所示,本文算法识别单张车牌需要大概23.43ms,虽然相较于其他三种方法所耗时间略长,但并不影响对车牌实时性识别的要求。从识别准确率来看,本文算法提升效果非常明显,尤其是汉字字符识别的准确率,分别比HyperLPR、CRNN算法和CRNN-C算法提高35%、11%和2.4%,从而在整体字符识别准确度上提高了74%、13%和2.4%。实验结果证明了注意力机制能有效改善因图像质量退化导致的语义特征模糊问题,证明了本文算法的优越性,能够有效提升车牌识别的准确度。
表2不同字符识别算法实验对比
Claims (6)
1.一种复杂环境下的车牌定位和识别方法,其特征在于,该方法具体包括以下步骤:
步骤1:基于CycleGAN的训练样本生成
步骤1-1:根据标准车牌模板自动合成各个省份的车牌图像,通过透视畸变模拟车牌形变程度,更改HSV颜色空间数据模拟光照强度,添加环境背景以及高斯噪声模拟模糊场景;
步骤1-2:采用CycleGAN进行风格迁移,使合成车牌图像更接近真实车牌图像以解决样本不平衡问题,同时进一步提高样本多样性;CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器,整个网络是一个对偶结构,并采用对抗损失函数和循环一致性损失函数;
步骤2:基于MF-RepUnet的车牌定位
MF-RepUnet网络模型具体结构以U-Net模型结构为骨干,分为编码和解码两个阶段,包含四次下采样和四次上采样,并通过通道拼接的方式将低层特征与高层特征结合起来;
步骤2-1:编码阶段
将一种改进的RepVGG结构替换U-Net的全部卷积层,用于提取车牌图像特征;首先,在普通卷积基础上加入了恒等映射和残差分支,并在每一层卷积都做了恒等映射,构建出RepVGG训练模型;然后,采用结构重参数化技术除去多余分支,最终得到一个仅由3×3卷积层堆栈的RepVGG的推理模型;
步骤2-2:解码阶段
将FPN融入到解码路径中,通过在每一级上采样过程中添加支路径,分别预测不同尺度的车牌图像特征;同时,在改进的RepVGG结构中添加批量归一化,加快网络的训练和收敛速度,并在一定程度上避免过拟合;然后,采用线性整流函数作为激活函数,缓解模型梯度消失问题;通过最大池化层进行下采样,减小计算量并扩大感受野;最后,使用Adam优化算法进行优化,并在反向传播过程中采用BCEWithLogitsLoss损失函数;
步骤3:基于CRNN和注意力机制的车牌识别
将ResNet作为特征提取结构的骨干,并根据车牌特征对其网络结构加以改进,同时采用注意力机制对顺序输入的特征序列进行选择和权衡以协助LSTM预测结果,算法整体框架由特征提取层、序列建模层和注意力解码层三大模块组成;
步骤3-1:特征提取层
首先,将图像归一化到相同大小,通过处理灰度图像加快训练速度;车牌图像宽度和高度在经过Max-pooling层时采取不同程度的量化,在最后一次Max-pooling操作时,根据车牌形状特征设定窗口大小,通过Zero Padding来扩充特征图宽度,最终提取特征图;
步骤3-2:序列建模层
序列建模层首先通过Map-to-sequence操作将上一层输出的特征图转换为特征向量序列,然后采用深层双向长短期记忆网络,在卷积特征的基础上继续提取文字序列特征;
步骤3-3:注意力解码层
通过注意力机制对顺序输入的特征序列进行选择和权衡,将相邻目标区域联系起来用特征序列加权的方式来衡量各字符之间相关性的权重,更有利于获取字符最优的特征表达。
2.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法,其特征在于:所述的CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器,整个网络是一个对偶结构,包括两个生成器和两个鉴别器;具体为:
所述的原始GAN模型中生成器G:X→Y和其判别器DY,其对抗损失定义如下:
其中,X代表合成车牌,Y代表生成的伪车牌,x~pdata(x)和y~pdata(y)为数据分布定义;同样,对于生成器F:Y→X和判别器DX的损失函数也是如此;此外,CycleGAN增加了循环一致性损失函数,定义如下:
最后,CycleGAN的损失函数由对抗损失和循环一致性损失组成,具体定义如下:
LSUM(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+Lcyc(G,F) (3)。
3.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法,其特征在于:所述的步骤2-2中BCEWithLogitsLoss损失函数,计算公式如下:
l(p,t)=mean(L)=mean({l1,…,lN}T) (4)
ln=-ωn[tn·logσ(pn)+(1-tn)·log(1-σ(pn))] (5)
其中,p代表预测结果,t代表真实标签,L={l1,…,lN}T表示损失函数,N为批量数,σ指代sigmoid函数,可以把pn映射到(0,1)区间,ωn为损失函数的权重,可用于缓解样本不平衡问题。
4.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法,其特征在于:所述的步骤3-1中,将图像归一化到相同大小为1×32×160。
5.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法,其特征在于:所述的在最后一次Max-pooling操作时,窗口大小设定为2×1。
6.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法,其特征在于:步骤3-1中的最终提取的特征图大小为(C,H,W)=(512,1,41)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111222652.6A CN114092926A (zh) | 2021-10-20 | 2021-10-20 | 一种复杂环境下的车牌定位和识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111222652.6A CN114092926A (zh) | 2021-10-20 | 2021-10-20 | 一种复杂环境下的车牌定位和识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114092926A true CN114092926A (zh) | 2022-02-25 |
Family
ID=80297282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111222652.6A Pending CN114092926A (zh) | 2021-10-20 | 2021-10-20 | 一种复杂环境下的车牌定位和识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092926A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943869A (zh) * | 2022-03-30 | 2022-08-26 | 中国民用航空飞行学院 | 风格迁移增强的机场目标检测方法 |
CN116386023A (zh) * | 2023-05-29 | 2023-07-04 | 松立控股集团股份有限公司 | 基于时空扩散的高位相机车牌识别方法、系统及电子设备 |
CN117079263A (zh) * | 2023-10-16 | 2023-11-17 | 内江师范学院 | 一种碑文文字提取方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508717A (zh) * | 2018-10-09 | 2019-03-22 | 苏州科达科技股份有限公司 | 一种车牌识别方法、识别装置、识别设备及可读存储介质 |
CN111461134A (zh) * | 2020-05-18 | 2020-07-28 | 南京大学 | 一种基于生成对抗网络的低分辨率车牌识别方法 |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN112308092A (zh) * | 2020-11-20 | 2021-02-02 | 福州大学 | 一种基于多尺度注意力机制的轻量型车牌检测与识别方法 |
CN112686119A (zh) * | 2020-12-25 | 2021-04-20 | 陕西师范大学 | 基于自注意力生成对抗网络的车牌运动模糊图像处理方法 |
WO2021196873A1 (zh) * | 2020-03-30 | 2021-10-07 | 京东方科技集团股份有限公司 | 车牌字符识别方法、装置、电子设备和存储介质 |
-
2021
- 2021-10-20 CN CN202111222652.6A patent/CN114092926A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508717A (zh) * | 2018-10-09 | 2019-03-22 | 苏州科达科技股份有限公司 | 一种车牌识别方法、识别装置、识别设备及可读存储介质 |
WO2021196873A1 (zh) * | 2020-03-30 | 2021-10-07 | 京东方科技集团股份有限公司 | 车牌字符识别方法、装置、电子设备和存储介质 |
CN111461134A (zh) * | 2020-05-18 | 2020-07-28 | 南京大学 | 一种基于生成对抗网络的低分辨率车牌识别方法 |
CN111723585A (zh) * | 2020-06-08 | 2020-09-29 | 中国石油大学(华东) | 一种风格可控的图像文本实时翻译与转换方法 |
CN112308092A (zh) * | 2020-11-20 | 2021-02-02 | 福州大学 | 一种基于多尺度注意力机制的轻量型车牌检测与识别方法 |
CN112686119A (zh) * | 2020-12-25 | 2021-04-20 | 陕西师范大学 | 基于自注意力生成对抗网络的车牌运动模糊图像处理方法 |
Non-Patent Citations (1)
Title |
---|
段宾;符祥;江毅;曾接贤;: "结合GAN的轻量级模糊车牌识别算法", 中国图象图形学报, no. 09, 16 September 2020 (2020-09-16) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943869A (zh) * | 2022-03-30 | 2022-08-26 | 中国民用航空飞行学院 | 风格迁移增强的机场目标检测方法 |
CN116386023A (zh) * | 2023-05-29 | 2023-07-04 | 松立控股集团股份有限公司 | 基于时空扩散的高位相机车牌识别方法、系统及电子设备 |
CN116386023B (zh) * | 2023-05-29 | 2023-08-25 | 松立控股集团股份有限公司 | 基于时空扩散的高位相机车牌识别方法、系统及电子设备 |
CN117079263A (zh) * | 2023-10-16 | 2023-11-17 | 内江师范学院 | 一种碑文文字提取方法、装置、设备及介质 |
CN117079263B (zh) * | 2023-10-16 | 2024-01-02 | 内江师范学院 | 一种碑文文字提取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
Tian et al. | Cctrans: Simplifying and improving crowd counting with transformer | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN114092926A (zh) | 一种复杂环境下的车牌定位和识别方法 | |
CN108510012A (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112329760B (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
CN108399419A (zh) | 基于二维递归网络的自然场景图像中中文文本识别方法 | |
CN109919174A (zh) | 一种基于门控级联注意力机制的文字识别方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN114463340A (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN112800882A (zh) | 一种基于加权双流残差网络的口罩人脸姿态分类方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN114937154B (zh) | 一种基于递归解码器的显著性检测方法 | |
Rao et al. | Roads detection of aerial image with FCN-CRF model | |
Yu et al. | Research on license plate location and recognition in complex environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |