CN114092926A

CN114092926A - 一种复杂环境下的车牌定位和识别方法

Info

Publication number: CN114092926A
Application number: CN202111222652.6A
Authority: CN
Inventors: 王兴起; 于淏; 邵艳利; 魏丹; 陈滨; 方景龙
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-25
Anticipated expiration: 2041-10-20

Abstract

本发明公开了一种复杂环境下的车牌定位和识别方法，本发明采用循环生成对抗网络对合成车牌图像进行风格迁移，生成更接近真实的车牌图像以丰富训练样本集，并解决样本不均衡问题，采用一种MF‑RepUnet车牌定位方法，将改进的VGG结构和特征金字塔融入U‑Net模型，提高模型特征提取能力，成功弥补了车牌定位中小目标车牌和倾斜车牌等容易漏检的缺陷，用基于卷积循环神经网络和注意力机制的车牌识别方法，通过注意力自适应加权协助循环神经网络改善因图像质量退化导致的语义特征模糊问题，进一步提高字符识别的准确率。

Description

一种复杂环境下的车牌定位和识别方法

技术领域

本发明属于目标检测和模式识别领域，具体涉及一种基于MF-RepUnet的车牌定位方法和基于卷积循环神经网络和注意力机制的车牌识别方法。

背景技术

智慧交通是智慧城市的重要组成部分，快速准确的车牌识别技术对智慧交通系统建设具有重大意义。现有的车牌识别技术已广泛应用于各种限定场景如车辆通行管理、智慧停车场、电子警察、电子停车收费系统(Electronic Toll Collection,ETC)等。这些智能管理系统不仅提供了安全、有效的服务，还极大地便利了人们的日常生活。虽然传统车牌识别技术已十分成熟，限定场景下车牌图像质量相对较高，车牌识别能够达到较高的精确率和实时性，但无法普遍适用于各种复杂场景。在真实复杂环境下，如光照变换、背景复杂、拍摄角度和拍摄距离多变、运动模糊、天气恶劣等多种因素影响导致获取的车牌图像往往质量差且分辨率低，为后续车牌精确定位和识别带来了严峻的挑战。因此，复杂环境下的车牌定位和识别方法研究仍具有重要意义。

近年来，随着深度学习技术的不断发展，深度卷积神经网络因其强大的特征提取能力和复杂问题表达能力，在计算机视觉领域如目标检测、语义分割、图像处理等取得了显著的成效。车牌识别也从传统的基于字符分割的方法转向基于深度学习的方法，丢掉了字符分割等中间过程，实现了端到端的精确识别。然而，这种识别方法仍存在一些局限。深度学习算法需要大量的训练样本，而收集的车牌图像因车辆类型、区域分布的不同，会存在颜色、字符上的差异问题和样本不均衡问题，导致图像通用性较差，需要均衡训练样本以提高模型泛化能力。此外，深度学习模型复杂且计算开销大，识别准确率与模型结构复杂程度相关，不利于移动端和嵌入式端的部署，需要权衡识别准确率和效率，使其适用于各种场景。

发明内容

本发明针对现有技术的不足，提出了一种复杂环境下的车牌定位和识别方法。本发明采用端到端的车牌定位和字符识别框架，实现高效、准确的车牌识别。主要贡献如下：(1)采用循环生成对抗网络(Cycle-consistent Generative Adversarial Network,CycleGAN)对合成车牌图像进行风格迁移，生成更接近真实的车牌图像以丰富训练样本集，并解决样本不均衡问题。(2)提出了一种MF-RepUnet车牌定位方法，将改进的VGG结构和特征金字塔(Feature Pyramid Network,FPN)融入U-Net模型，提高模型特征提取能力，成功弥补了车牌定位中小目标车牌和倾斜车牌等容易漏检的缺陷。(3)提出了一种基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)和注意力机制的车牌识别方法，通过注意力自适应加权协助循环神经网络(Recurrent Neural Network,RNN)改善因图像质量退化导致的语义特征模糊问题，进一步提高字符识别的准确率。

一种复杂环境下的车牌定位和识别方法，其特征在于，该方法具体包括以下步骤：

步骤1：基于CycleGAN的训练样本生成

步骤1-1：根据标准车牌模板自动合成各个省份的车牌图像，通过透视畸变模拟车牌形变程度，更改HSV颜色空间数据模拟光照强度，添加环境背景以及高斯噪声模拟模糊场景。经过以上操作合成的车牌图像已具有一定的真实性和多样性。

步骤1-2：采用CycleGAN进行风格迁移，使合成车牌图像更接近真实车牌图像以解决样本不平衡问题；同时进一步提高样本多样性；CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器，整个网络是一个对偶结构，包括两个生成器和两个鉴别器。

步骤2：基于MF-RepUnet的车牌定位

MF-RepUnet网络模型具体结构以U-Net模型结构为骨干，分为编码和解码两个阶段，包含四次下采样和四次上采样，并通过通道拼接的方式将低层特征与高层特征结合起来。

步骤2-1：编码阶段

将一种改进的RepVGG结构替换U-Net的全部卷积层，用于提取车牌图像特征。首先，在普通卷积基础上加入了恒等映射和残差分支，并在每一层卷积都做了恒等映射，构建出RepVGG训练模型。然后，采用结构重参数化技术除去多余分支，最终得到一个仅由3×3卷积层堆栈的RepVGG的推理模型。

步骤2-2：解码阶段

将FPN融入到解码路径中，通过在每一级上采样过程中添加支路径，分别预测不同尺度的车牌图像特征。同时，在改进的RepVGG结构中添加批量归一化，加快网络的训练和收敛速度，并在一定程度上避免过拟合。然后，采用线性整流函数作为激活函数，缓解模型梯度消失问题。通过最大池化层进行下采样，减小计算量并扩大感受野。最后，使用Adam优化算法进行优化，并在反向传播过程中采用BCEWithLogitsLoss损失函数，计算公式如下：

l(p,t)＝mean(L)＝mean({l₁,…,l_N}^T) (4)

l_n＝-ω_n[t_n·log_σ(p_n)+(1-t_n)·log(1-σ(p_n))] (5)

其中，p_n代表第n个批量的预测结果，t_n代表第n个批量的真实标签，L＝{l₁,…,l_N}^T表示损失函数，N为批量数；σ指代sigmoid函数，把p_n映射到(0,1)区间，ω_n为损失函数的权重，用于缓解样本不平衡问题。

步骤3：基于CRNN和注意力机制的车牌识别

将ResNet作为特征提取结构的骨干，并根据车牌特征对其网络结构加以改进，同时采用注意力机制对顺序输入的特征序列进行选择和权衡以协助LSTM预测结果，算法整体框架由特征提取层、序列建模层和注意力解码层三大模块组成。

步骤3-1：特征提取层

首先，将图像归一化到相同大小，通过处理灰度图像加快训练速度。车牌图像宽度和高度在经过Max-pooling层时采取不同程度的量化，在最后一次Max-pooling操作时，设定窗口大小，通过Zero Padding来扩充特征图宽度，最终提取特征图；

步骤3-2：序列建模层

序列建模层首先通过Map-to-sequence操作将上一层输出的特征图转换为特征向量序列，然后采用深层双向长短期记忆网络，在卷积特征的基础上继续提取文字序列特征。

步骤3-3：注意力解码层

通过注意力机制对顺序输入的特征序列进行选择和权衡，将相邻目标区域联系起来用特征序列加权的方式来衡量各字符之间相关性的权重，更有利于获取字符最优的特征表达。

作为优选，所述的CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器，整个网络是一个对偶结构，包括两个生成器和两个鉴别器；具体为：

所述的原始GAN模型中生成器G：X→Y和其判别器D_Y，其对抗损失定义如下：

其中，X代表合成车牌，Y代表生成的伪车牌，x～p_data(x)和y～p_data(y)为数据分布定义。同样，对于生成器F：Y→X和判别器D_X的损失函数也是如此。此外，CycleGAN增加了循环一致性损失函数，定义如下：

最后，CycleGAN的损失函数由对抗损失和循环一致性损失组成，具体定义如下：

L_SUM(G,F,D_X,D_Y)＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_X,Y,X)+L_cyc(G,F) (3)。

作为优选，所述的步骤3-1中图像归一化到相同大小为1×32×160。

作为优选，所述的在最后一次Max-pooling操作时，窗口大小设定为2×1。

作为优选，所述步骤3-1中的最终提取的特征图大小为(C,H,W)＝(512,1,41)。

本发明的有益结果：

1、使用CycleGAN将人工合成车牌图像变换到真实数据域，生成更多复杂多样的接近真实场景的车牌图像，该算法仅通过少量的训练样本即可获得大量的伪真实车牌图像，不仅节约了成本，还解决了车牌数据集不均衡问题，能够有效提高后续车牌识别的准确率。

2、基于MF-RepUnet的车牌定位方法通过添加恒等映射和残差分支改进VGG结构，提升模型特征提取能力，并采用结构重参数化技术简化模型，从而得到一个速度快、内存少、并行度高、灵活性好的单路特征提取结构。在上采样过程中，结合FPN的多尺度信息，不仅解决了倾斜车牌和小尺度车牌漏检问题，还增强了模型的鲁棒性，提高车牌定位准确性。

3、基于CRNN和注意力机制的车牌识别方法通过引入注意力机制对顺序输入的特征序列进行选择和权衡，将相邻目标区域联系起来，用特征序列加权的方式来衡量各字符之间相关性的权重，更有利于获取字符最优的特征表达，解决了语义结构模糊问题，提高了不定长字符序列识别精度，支持准确识别车牌字符。

附图说明

图1为本发明的整体流程图；

图2为基于CycleGAN的训练样本生成流程图；

图3为MF-RepUnet的网络模型结构图；

图4为基于CRNN和注意力机制的车牌识别方法过程；

图5为特征提取层网络配置参数。

具体实施方式

本发明提出了一种适用于复杂环境下的车牌定位和识别方法。整体流程如附图1所示，分为两部分，第一部分由CycleGAN生成大量伪车牌样本，与公开数据集CCPD作为训练车牌识别网络的训练集。第二部分为车牌定位和识别过程，首先，输入的车牌图像通过改进的VGG结构进行特征提取，经过U-Net解码阶段的上采样过程获取不同尺度的特征图，然后与相应的编码阶段的特征图进行融合，结合浅层细节信息和深层的语义信息，输出的粗定位车牌图像再经过边缘检测、透视变换等操作矫正倾斜车牌并去除无关的背景信息，最后通过基于CRNN和注意力机制的模型对车牌进行识别。

下面将结合附图和实例对本发明进行详细说明，具体步骤如下：

步骤1、基于CycleGAN的训练样本生成。

步骤2、基于MF-RepUnet的车牌定位。

步骤3、基于CRNN和注意力机制的车牌识别。

进一步，步骤1中CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器，包括两个生成器和两个鉴别器。如附图2所示，第一个生成器G_XY将人工合成车牌图像X转换为伪真实车牌图像Y，第二个生成器G_YX将伪真实车牌图像Y作为输入，并生成伪合成车牌图像，判别器D_X和D_Y分别用于判别生成的伪合成车牌和伪真实车牌的真伪，计算所生成图像的相似度，并相应的更新生成器模型。此外，CycleGAN在原始GAN的基础上增加了循环一致性损失函数，目的在于计算第二个生成器的生成输出与原始图像之间的相似度差值，基于此方法来充当生成器模型的“正则化”，引导新的图像生成过程朝着图像转译的方向发展。为了进一步减少函数映射可能得到的空间大小，数据域X中的每一张图片x在循环翻译中，应让x回到翻译的原点，反之亦然，即前向、后向循环一致，换言之：

x→G(x)→F(G(x))≈x (6)

y→F(y)→G(F(y))≈y (7)

于是定义其损失函数如下：

进一步，步骤2中MF-RepUnet网络模型的具体结构如附图3所示，以U-Net模型结构为骨干，分为编码和解码两个阶段，包含四次下采样和四次上采样，并通过通道拼接的方式将低层特征与高层特征结合起来。

步骤2-1：首先在编码路径中，将改进的RepVGG结构替换U-Net的全部卷积层，用于提取车牌图像特征。通过在普通卷积基础上加入了恒等映射和残差分支，并且为了后续重参数化为单路结构，在每一层卷积都做了恒等映射，构建出RepVGG训练模型，相当于在一个Block块中所作的计算为：

Output＝C₁(a)+C₂(a)+a (9)

其中，C₁(a)表示3×3卷积，C₂(a)表示1×1卷积，a表示恒等映射。

此外，采用结构重参数化技术除去多余分支，其原理就是利用卷积的线性特征作简单的代数变换，假设三个3×3卷积核分别是w1，w2，w3，具体计算如下：

conv(a,w₁)+conv(a,w₂)+conv(a,w₃)＝conv(a,w₁+w₂+w₃) (10)

最后，通过构造一个以单位矩阵为卷积核的1×1卷积，分通道卷积即可将恒等映射转换为1×1卷积，再通过零填充(Zero Padding)等价转换为3×3卷积。利用公式(10)将3×3卷积、1×1卷积和恒等映射三个分支合并为一个3×3卷积。最终得到一个仅由3×3卷积层堆栈的RepVGG的推理模型。

步骤2-2：在解码路径中，将FPN融入U-Net模型中，通过在每一级上采样过程中添加支路径，分别预测不同尺度的车牌图像特征。同时，在改进的VGG结构中添加BN层，加快网络的训练和收敛速度，并在一定程度上避免过拟合。然后，采用ReLU作为激活函数，缓解模型梯度消失问题。通过最大池化层进行下采样，减小计算量并扩大感受野。最后，使用Adam优化算法进行优化，并在反向传播过程中采用BCEWithLogitsLoss损失函数。

进一步，步骤3中基于CRNN和注意力机制的端到端车牌识别方法，将ResNet作为特征提取结构的骨干，并根据车牌特征对其网络结构加以改进以应对复杂环境下车牌背景杂乱、图像模糊的情况，同时采用注意力机制对顺序输入的特征序列进行选择和权衡协助LSTM预测结果，算法整体框架如附图4所示，由特征提取层、序列建模层和注意力解码层三大模块组成。

步骤3-1：特征提取层旨在获取车牌图像特征图，主要由多层卷积和最大池化层组成。本发明选用ResNet作为特征提取网络的骨干，并根据车牌特征改进网络结构。首先，将图像归一化到相同大小1×32×160，通过处理灰度图像加快训练速度。在经过Max-pooling层时对车牌图像的宽度和高度采取不同程度的量化，以保留车牌宽度上的信息。最终提取的特征图大小为(C,H,W)＝(512,1,41)。特征提取层的具体网络配置如附图5所示。其中，#filters代表卷积层滤波器的个数，K、S和P分别代表滤波器的尺寸(Kernel Size)、步长(Stride)和填充尺寸(Padding Size)，windows代表滑动窗口大小，Layer代表残差结构，Layer1，Layer2，Layer3，Layer4分别包含1，2，5，3个残差结构。图中的所有卷积后面都添加了BN层用于归一化操作。

步骤3-2：序列建模层首先通过Map-to-sequence操作将上一层输出的特征图转换为特征向量序列，然后采用深层双向长短期记忆网络(Bi-LSTM,Bidirectional LongShort-Term Memory)，在卷积特征的基础上继续提取文字序列特征。

步骤3-3：在注意力解码层引入注意力机制，帮助LSTM更准确地预测特征向量。该模块是一个解码器，根据序列建模层编码的特征序列循环地生成目标字符序列。首先，经过序列建模层的Bi-LSTM编码得到特征序列V，包含了每个时间步长的局部信息，作为注意力模型的上下文信息。定义输入到解码器LSTM的向量序列为v'₀,v'₁,...,v'_T+1，其中，

v'₀是编码器的最后一个隐藏状态v_B和引导向量h′为0注意力输出的串联。ψ()是嵌入函数，被定义为线性层，tanh()为非线性层。v'_i由第i-1个LSTM输出和前一步长的引导向量的注意力输出组成，T代表时间步长。

注意力功能c_i＝Attend(V,h′_i)是输入特征的加权总和，可以定义为：

其中，B_v和B_h是要学习的线性嵌入权重，α为B的注意力权重。

对于t时间步长，解码器LSTM计算其隐藏状态h′_t并输出向量z_t，公式如下：

其中，f()定义为递归函数，B_o将隐藏状态线性转换为大小为66的输出空间，包括31个省份汉字，10个数字，24个英文字母和1个结束标志符<EOS>。

对于车牌定位实验结果：如表1所示，cascade classifier算法速度最快，但定位正确率太低，仅69.44％。本文提出的MF-RepUnet方法不仅定位正确率高达98.65％，优于经典算法Faster R-CNN，而且定位时间也缩短了55％，同时兼顾了正确率与定位速度；并且相较于基础模型U-Net，定位正确率提升了7.5％。由此可以看出，本发明方法在复杂环境数据集上进行车牌定位时，无论是正确率还是定位速度均表现优异，整体性能优越。

表1不同车牌定位方法实验对比

对于车牌字符识别实验结果：如表2所示，本文算法识别单张车牌需要大概23.43ms，虽然相较于其他三种方法所耗时间略长，但并不影响对车牌实时性识别的要求。从识别准确率来看，本文算法提升效果非常明显，尤其是汉字字符识别的准确率，分别比HyperLPR、CRNN算法和CRNN-C算法提高35％、11％和2.4％，从而在整体字符识别准确度上提高了74％、13％和2.4％。实验结果证明了注意力机制能有效改善因图像质量退化导致的语义特征模糊问题，证明了本文算法的优越性，能够有效提升车牌识别的准确度。

表2不同字符识别算法实验对比

Claims

1.一种复杂环境下的车牌定位和识别方法，其特征在于，该方法具体包括以下步骤：

步骤1：基于CycleGAN的训练样本生成

步骤1-1：根据标准车牌模板自动合成各个省份的车牌图像，通过透视畸变模拟车牌形变程度，更改HSV颜色空间数据模拟光照强度，添加环境背景以及高斯噪声模拟模糊场景；

步骤1-2：采用CycleGAN进行风格迁移，使合成车牌图像更接近真实车牌图像以解决样本不平衡问题，同时进一步提高样本多样性；CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器，整个网络是一个对偶结构，并采用对抗损失函数和循环一致性损失函数；

步骤2：基于MF-RepUnet的车牌定位

MF-RepUnet网络模型具体结构以U-Net模型结构为骨干，分为编码和解码两个阶段，包含四次下采样和四次上采样，并通过通道拼接的方式将低层特征与高层特征结合起来；

步骤2-1：编码阶段

将一种改进的RepVGG结构替换U-Net的全部卷积层，用于提取车牌图像特征；首先，在普通卷积基础上加入了恒等映射和残差分支，并在每一层卷积都做了恒等映射，构建出RepVGG训练模型；然后，采用结构重参数化技术除去多余分支，最终得到一个仅由3×3卷积层堆栈的RepVGG的推理模型；

步骤2-2：解码阶段

将FPN融入到解码路径中，通过在每一级上采样过程中添加支路径，分别预测不同尺度的车牌图像特征；同时，在改进的RepVGG结构中添加批量归一化，加快网络的训练和收敛速度，并在一定程度上避免过拟合；然后，采用线性整流函数作为激活函数，缓解模型梯度消失问题；通过最大池化层进行下采样，减小计算量并扩大感受野；最后，使用Adam优化算法进行优化，并在反向传播过程中采用BCEWithLogitsLoss损失函数；

步骤3：基于CRNN和注意力机制的车牌识别

将ResNet作为特征提取结构的骨干，并根据车牌特征对其网络结构加以改进，同时采用注意力机制对顺序输入的特征序列进行选择和权衡以协助LSTM预测结果，算法整体框架由特征提取层、序列建模层和注意力解码层三大模块组成；

步骤3-1：特征提取层

首先，将图像归一化到相同大小，通过处理灰度图像加快训练速度；车牌图像宽度和高度在经过Max-pooling层时采取不同程度的量化，在最后一次Max-pooling操作时，根据车牌形状特征设定窗口大小，通过Zero Padding来扩充特征图宽度，最终提取特征图；

步骤3-2：序列建模层

序列建模层首先通过Map-to-sequence操作将上一层输出的特征图转换为特征向量序列，然后采用深层双向长短期记忆网络，在卷积特征的基础上继续提取文字序列特征；

步骤3-3：注意力解码层

2.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法，其特征在于：所述的CycleGAN在传统GAN模型基础上各增加了一个生成器和鉴别器，整个网络是一个对偶结构，包括两个生成器和两个鉴别器；具体为：

其中，X代表合成车牌，Y代表生成的伪车牌，x～p_data(x)和y～p_data(y)为数据分布定义；同样，对于生成器F：Y→X和判别器D_X的损失函数也是如此；此外，CycleGAN增加了循环一致性损失函数，定义如下：

L_SUM(G，F，D_X，D_Y)＝L_GAN(G，D_Y，X，Y)+L_GAN(F，D_X，Y，X)+L_cyc(G，F) (3)。

3.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法，其特征在于：所述的步骤2-2中BCEWithLogitsLoss损失函数，计算公式如下：

l(p，t)＝mean(L)＝mean({l₁，…，l_N}^T) (4)

l_n＝-ω_n[t_n·log_σ(p_n)+(1-t_n)·log(1-σ(p_n))] (5)

其中，p代表预测结果，t代表真实标签，L＝{l₁，…，l_N}^T表示损失函数，N为批量数，σ指代sigmoid函数，可以把p_n映射到(0，1)区间，ω_n为损失函数的权重，可用于缓解样本不平衡问题。

4.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法，其特征在于：所述的步骤3-1中，将图像归一化到相同大小为1×32×160。

5.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法，其特征在于：所述的在最后一次Max-pooling操作时，窗口大小设定为2×1。

6.根据权利要求1所述的一种复杂环境下的车牌定位和识别方法，其特征在于：步骤3-1中的最终提取的特征图大小为(C，H，W)＝(512，1，41)。