CN111008639A

CN111008639A - 一种基于注意力机制的车牌字符识别方法

Info

Publication number: CN111008639A
Application number: CN201910989192.6A
Authority: CN
Inventors: 张卡; 何佳; 尼秀明
Original assignee: Anhui Qingxin Internet Information Technology Co ltd
Current assignee: Anhui Qingxin Internet Information Technology Co ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-04-14
Anticipated expiration: 2039-10-17
Also published as: CN111008639B

Abstract

一种基于注意力机制的车牌字符识别方法，可解决现有的车牌字符识别方法效率低、准确率不高的技术问题。包括以下步骤：S1、建立深度神经网络模型；S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；S3、读取车牌图像信息，通过所述最优深度神经网络模型运算，输出的特征图就是该车牌字符属于每一类目标的可信度，选择最大可信度的识别结果作为当前车牌字符的最优识别结果。本发明可以保留更多的字符细节，同时不会增加模型的运算量；融合注意力机制，可以自适应地抓住每个字符的关键细节信息，字符识别结果更加精确，对相似字符的区分能力更强，对于模糊字符、残缺字符、粘连字符，鲁棒性更高。

Description

一种基于注意力机制的车牌字符识别方法

技术领域

本发明涉及车牌识别技术领域，具体涉及一种基于注意力机制的车牌字符识别方法。

背景技术

车牌识别是智能交通的核心技术，包含了三个大部分：车牌位置检测，车牌字符分割，车牌字符识别。其中，车牌字符识别是整个技术最重要的一部分，车牌字符识别引擎的质量，直接决定车牌识别技术的整体性能。

车牌字符识别是指对于已经精确分割的单个车牌字符，识别出其真实的字母意义，常用的方法有以下几类：

(1)基于全局特征的方法，该类特征采用全局变换来获取字符的整体特征，使用有序的整体特征或者子集特征来构成特征向量，常见的特征有GABOR变换特征、矩特征、投影特征、笔划密度特征、HARR特征、HOG特征等。这些特征的优点是对局部变化不敏感，抗干扰能力强；其缺点是容易忽略某些重要的局部特征，无法区分相似的字符。

(2)基于局部特征的方法，该类特征是在字符的多个局部区域内，计算相应的特征，使用串联的有序局部特征构成最终的特征向量，主要特征包括局部灰度直方图特征、LBP特征、穿线特征、SIFT特征等。该类特征的优点是区分字符的能力强；其缺点是过分关注字符的局部特征，往往会错误区分具有噪声干扰的字符。

(3)基于深度学习的方法，近年来，深度学习技术凭借着可以模拟人类大脑神经网络，能够进行精确的非线性预测，各个领域都得到了广泛的关注和应用，出现了一批经典的目标识别网络框架，如resnet，densenet，LSTM等，这些经典网络框架通过迁移学习，可以很好地识别车牌字符，但该类技术的缺点是较深的网络虽然识别效果好，但是模型消耗内存很大，运算量很大，较浅的网络模型虽然运行速度快，但是识别准确度一般，尤其对于相似字符的区分能力不足。一幅图像里可能会存在多个车牌，进而存在较多的车牌字符，需要一种速度快，准确率高的深度神经网络模型。

发明内容

本发明提出的一种基于注意力机制的车牌字符识别方法，可解决现有的车牌字符识别方法效率低、准确率不高的技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种基于注意力机制的车牌字符识别方法，包括：

S1、建立深度神经网络模型；

S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；

S3、读取车牌图像信息，通过所述最优深度神经网络模型运算，输出的特征图就是该车牌字符属于每一类目标的可信度，选择最大可信度的识别结果作为当前车牌字符的最优识别结果。

进一步的，所述S1、建立深度神经网络模型；包括：

S11、设计深度神经网络模型的输入图像；

S12、设计主干网络；

所述主干网络包括：卷积层conv0、三个残差网络基础结构体、卷积层conv1、卷积层conv2；

conv0是一个核尺寸是7×7，跨度是4×4的卷积层；

resnetblock0,resnetblock1，resnetblock2是三个残差网络基础结构体，所述残差网络基础结构体包括：maxpool0是一个核尺寸是2×2，跨度是2×2的最大值下采样层，convresnet1_0是一个核尺寸是1×1，跨度是1×1的卷积层，该卷积层的作用是降低特征图通道数，减少后续卷积层的运算量，convresnet1_1是一个核尺寸是3×3，跨度是2×2的卷积层，convresnet1_2是一个核尺寸是1×1，跨度是1×1的卷积层，该卷积层的作用是提升特征图通道数，增加特征丰富度，eltsum是两个输入特征图进行逐像素相加的合并层；

conv1是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合；

conv2是一个核尺寸是1×1，跨度是1×1的卷积层，其作用是调整输出特征图的通道数目；

S13、设计注意力网络，根据车牌字符的不同识别类别，自适应的调整注意力，对有利于字符识别的关键区域，分配更多的注意力权值；

S14、设计字符识别网络，通过在步骤S12获取的高维抽象特征图和步骤S13获取的注意力特征图的基础上，进一步提升特征图网络的表达能力，最终识别出车牌字符。

进一步的，所述S13设计注意力网络，根据车牌字符的不同识别类别，自适应的调整注意力，对有利于字符识别的关键区域，分配更多的注意力权值；具体包括：

注意力网络接入到步骤S12中的残差网络基础结构体resnetblock0后面；所述注意力网络结构包括：

Resnetblock3是残差网络基础结构体，所述残差网络基础结构体包括：avepool0是一个均值下采样层，fc0和fc1是两个全连接层，sigmod是激活函数层，其作用是获取每个通道的归一化权值，scale是输入特征图加权层，其作用是对输入特征图的各个通道特征图进行加权；avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体；eltsum1是两个输入特征图进行逐像素相加的合并层，conv3是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合；conv4是一个核尺寸是3×3，跨度是2×2的卷积层,其作用是生成注意力特征图，注意力特征图的通道数目和字符识别网络中最后的输出特征图通道数相同。

进一步的，所述对输入特征图的各个通道特征图进行加权，其中加权计算过程如公式(1)；

Fscale_c(x_i,y_j)＝S_c*F(x_i,y_j)

(1)

其中，Fscale_c(x_i,y_j)表示输出加权特征图的第c个通道第(x_i,y_j)位置处的数值，S_c表示第c个通道的权重值，F(x_i,y_j)表示输入特征图的第c个通道第(x_i,y_j)位置处的数值。

进一步的，所述S14中所述字符识别网络包括：

weightedconcat层是一个加权合并层，用于把注意力特征图融合到车牌字符的高维抽象特征图中，使得高维抽象特征图能够根据车牌字符的不同类别，自适应的调整相应的特征图权值，使得车牌字符识别更加准确；

conv5是一个核尺寸是3×3，跨度是2×2的卷积层，fc3是一个全连接层，其输出特征图尺寸是1×1×N，N表示字符识别的类别数目。

进一步的，所述加权合并层weightedconcat的获取方法如下：首先把注意力特征图中的每一个通道特征图，分别和高维抽象特征图中的每一个通道特征图进行逐像素相乘运算，然后集合所有的运算后的高维抽象特征图，按照特征图通道维度进行拼接，拼接后的输出特征图就是加权合并层特征图。

进一步的，所述S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；

具体的步骤如下：

S21、获取训练样本图像，收集各种场景，各种光线、各种角度下的车牌图像，使用现有的车牌字符分割方法获取车牌字符局部区域图像，然后标注每一车牌字符的类别；

S22、设计深度神经网络模型的目标损失函数；

S23、训练深度神经网络模型，把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型，学习相关的模型参数。

由上述技术方案可知，本发明的基于注意力机制的车牌字符识别方法采用深度学习技术直接识别车牌字符类别，采用大输入图像尺寸和快速提取特征网络，可以保留更多的字符细节，同时不会增加模型的运算量；融合注意力机制，可以自适应地抓住每个字符的关键细节信息，字符识别结果更加精确，对相似字符的区分能力更强，对于模糊字符、残缺字符、粘连字符，鲁棒性更高。

附图说明

图1是本发明方法的流程图；

图2是本发明设计的深度神经网络模型结构图；

图3是残差网络基础机构体结构图；

其中，每一个神经网络结构层图形旁边的标识，表示该网络结构的输出特征层尺寸：特征层宽度×特征层高度×特征层通道数。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的基于注意力机制的车牌字符识别方法，包括：

S1、建立深度神经网络模型；

以下对上述步骤进行详细说明：

S1、设计深度神经网络模型，本发明设计的深度神经网络模型，其主要作用是借助一个深度神经网络模型，提取车牌字符的高维抽象信息特征，通过融合注意力机制模型，使得获取的高维抽象信息特征对于不同车牌字符，给予不一样的分布权值，即不同车牌字符，获取的注意力也不同，进而借助一个较简单的识别网络，可以精确的识别出车牌字符。本发明采用的深度神经网络模型如图2所示，该深度神经网络模型包含主干网络、注意力网络、字符识别网络等。本发明采用的是卷积神经网络(CNN)，特征图尺寸指的是特征图宽度×特征图高度×特征图通道数，核尺寸指的是核宽度×核高度，跨度指的是宽度方向跨度×高度方向跨度，另外，每一个卷积层和全连接层后面均带有批量归一化层batchnorm和非线性激活层PRelu或者Relu。该深度神经网络模型的具体设计步骤如下：

S11、设计深度神经网络模型的输入图像，本发明所采用的输入图像是尺寸为64×128的车牌字符局部区域RGB图像，输入图像尺寸越大，其包含的细节越多，越有利于精确分类识别，但同时也会增大深度神经网络模型的存储空间和运算量。

S12、设计主干网络，主干网络主要用于获取输入图像的具有高度抽象和丰富表达能力的高层抽象特征，高层抽象特征提取的好坏直接影响后续字符识别的准确度，同时，主干网络也是整个深度神经网络模型中运算量最大的部分，由步骤S11可知，本发明采用的输入图像尺寸较大，需要较多的存储内存和运算开销，因此，需要一种能够提取输入图像特征的高效网络，快速去除较大输入图像尺寸带来的运算量影响。本发明采用的主干网络如图2所示，conv0是一个核尺寸是7×7，跨度是4×4的卷积层，这种大核尺寸大跨度卷积操作的好处是，可以快速降低特征图尺寸，大大降低后续操作的运算量，同时保留更多图像细节；resnetblock0,resnetblock1，resnetblock2是三个残差网络基础结构体，该残差网络基础结构体如图3所示，maxpool0是一个核尺寸是2×2，跨度是2×2的最大值下采样层，convresnet1_0是一个核尺寸是1×1，跨度是1×1的卷积层，该卷积层的作用是降低特征图通道数，减少后续卷积层的运算量，convresnet1_1是一个核尺寸是3×3，跨度是2×2的卷积层，convresnet1_2是一个核尺寸是1×1，跨度是1×1的卷积层，该卷积层的作用是提升特征图通道数，增加特征丰富度，eltsum是两个输入特征图进行逐像素相加的合并层，conv1是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合。conv2是一个核尺寸是1×1，跨度是1×1的卷积层，其作用是调整输出特征图的通道数目。

S13、设计注意力网络,本发明中的车牌字符识别不同于通用的目标识别应用，每个字符的精确识别，不仅和字符整体特征有关系，还和字符的局部特征有关系，尤其是对于相似字符的识别，局部细节才是正确识别的关键。本发明采用了一种新颖的注意力网络，可以根据车牌字符的不同识别类别，自适应的调整注意力，对有利于字符识别的关键区域，分配更多的注意力权值。注意力网络接入到步骤S12中的残差网络基础结构体resnetblock0后面，其输入特征图尺寸是8×16×64，具体网络结构如图2所示，resnetblock3是残差网络基础结构体，该残差网络基础结构体如图3所示，avepool0是一个均值下采样层，fc0和fc1是两个全连接层，sigmod是激活函数层，其作用是获取每个通道的归一化权值，scale是输入特征图加权层，其作用是对输入特征图的各个通道特征图进行加权，加权计算过程如公式(1)；avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体，这是Squeeze-and-ExcitationNetworks的精髓；eltsum1是两个输入特征图进行逐像素相加的合并层，conv3是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合。conv4是一个核尺寸是3×3，跨度是2×2的卷积层,其作用是生成注意力特征图，注意力特征图的通道数目和字符识别网络中最后的输出特征图通道数相同。

Fscale_c(x_i,y_j)＝S_c*F(x_i,y_j) (1)

S14、设计字符识别网络，字符识别网络主要是在步骤S12获取的高维抽象特征图和步骤S13获取的注意力特征图的基础上，进一步提升特征图网络的表达能力，最终识别出车牌字符。字符识别网络如图2所示，weightedconcat层是一个加权合并层，其主要作用是，把注意力特征图融合到车牌字符的高维抽象特征图中，使得高维抽象特征图能够根据车牌字符的不同类别，自适应的调整相应的特征图权值，使得车牌字符识别更加准确，该加权合并层的获取方法如下：首先把注意力特征图中的每一个通道特征图，分别和高维抽象特征图中的每一个通道特征图进行逐像素相乘运算，然后集合所有的运算后的高维抽象特征图，按照特征图通道维度进行拼接，拼接后的输出特征图就是加权合并层特征图。conv5是一个核尺寸是3×3，跨度是2×2的卷积层，fc3是一个全连接层，其输出特征图尺寸是1×1×N，N表示字符识别的类别数目，本发明中，针对中国车牌中的字母和数字识别，N的取值是34(不包括I和O)；

S2、训练深度神经网络模型，主要是通过大量的标注好的训练样本数据，优化深度神经网络模型参数，使得深度神经网络模型识别性能最优，具体的步骤如下：

S21、获取训练样本图像，主要是收集各种场景，各种光线、各种角度下的车牌图像，使用现有的车牌字符分割方法获取车牌字符局部区域图像，然后标注每一车牌字符的类别；

S22、设计深度神经网络模型的目标损失函数，目标损失函数采用的是经典的交叉熵损失函数。

S23、训练深度神经网络模型，主要是把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型，学习相关的模型参数；

S3、使用深度神经网络模型，训练完深度神经网络模型后，接下来就是在实际环境中进行模型使用，对于任意给出的一个车牌字符局部图像，经过深度神经网络模型前向运算后，输出的特征图就是该车牌字符属于每一类目标的可信度，选择最大可信度的识别结果作为当前车牌字符的最优识别结果。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于注意力机制的车牌字符识别方法，其特征在于：包括以下步骤：

S1、建立深度神经网络模型；

2.根据权利要求1所述的基于注意力机制的车牌字符识别方法，其特征在于：所述S1、建立深度神经网络模型；包括：

S11、设计深度神经网络模型的输入图像；

S12、设计主干网络；

conv0是一个核尺寸是7×7，跨度是4×4的卷积层；

3.根据权利要求2所述的基于注意力机制的车牌字符识别方法，其特征在于：所述S13设计注意力网络，根据车牌字符的不同识别类别，自适应的调整注意力，对有利于字符识别的关键区域，分配更多的注意力权值；具体包括：

4.根据权利要求3所述的基于注意力机制的车牌字符识别方法，其特征在于：所述对输入特征图的各个通道特征图进行加权，其中加权计算过程如公式(1)；

Fscale_c(x_i,y_j)＝S_c*F(x_i,y_j) (1)

5.根据权利要求4所述的基于注意力机制的车牌字符识别方法，其特征在于：所述S14中所述字符识别网络包括：

6.根据权利要求5所述的基于注意力机制的车牌字符识别方法，其特征在于：所述加权合并层weightedconcat的获取方法如下：首先把注意力特征图中的每一个通道特征图，分别和高维抽象特征图中的每一个通道特征图进行逐像素相乘运算，然后集合所有的运算后的高维抽象特征图，按照特征图通道维度进行拼接，拼接后的输出特征图就是加权合并层特征图。

7.根据权利要求1所述的基于注意力机制的车牌字符识别方法，其特征在于：

所述S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；

具体的步骤如下：

S22、设计深度神经网络模型的目标损失函数；

8.根据权利要求7所述的基于注意力机制的车牌字符识别方法，其特征在于：所述步骤S22中目标损失函数采用的是交叉熵损失函数。

9.根据权利要求2所述的基于注意力机制的车牌字符识别方法，其特征在于：所述S11、设计深度神经网络模型的输入图像中所采用的输入图像是尺寸为64×128的车牌字符局部区域RGB图像。

10.根据权利要求3所述的基于注意力机制的车牌字符识别方法，其特征在于：所述注意力网络接入到步骤S12中的残差网络基础结构体resnetblock0后面，其输入特征图尺寸是8×16×64。