CN111008633A

CN111008633A - 一种基于注意力机制的车牌字符分割方法

Info

Publication number: CN111008633A
Application number: CN201910990074.7A
Authority: CN
Inventors: 张卡; 何佳; 尼秀明
Original assignee: Anhui Qingxin Internet Information Technology Co ltd
Current assignee: Anhui Qingxin Internet Information Technology Co ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-04-14
Anticipated expiration: 2039-10-17
Also published as: CN111008633B

Abstract

一种基于注意力机制的车牌字符分割方法，可解决当前技术对低质量车牌图像进行字符分割，不够精确的技术问题。包括以下步骤：S1、建立深度神经网络模型；S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；S3、读取车牌图像信息，经过最优深度神经网络模型前向运算后，输出的特征图就是车牌上每个字符的分割位置；本发明采用深度学习技术预测车牌字符位置，采用高效的基干网络，减少了模型内存消耗，极大提升了系统的运行速度，采用无anchor训练机制，降低了模型训练的难度，同时使得训练模型的收敛速度更快，利用注意力机制，针对车牌的不同字符位置，能够自适应的调整注意力权值分布，车牌字符分割结果更加准确。

Description

一种基于注意力机制的车牌字符分割方法

技术领域

本发明涉及车牌识别技术领域，具体涉及一种基于注意力机制的车牌字符分割方法。

背景技术

车牌识别是智能交通的核心技术，包含了三个部分：车牌定位，字符分割，字符识别。其中，字符分割是整个技术最重要的一部分，字符分割的好坏，直接影响后续的字符识别，进而影响整体的识别性能。

字符分割是指在一幅已知车牌准确位置的图像中，精确分割出每个单一字符。对于清晰的车牌图像，已有很多成熟方法，可以获得较好的分割结果，然而，实际环境中，由于光线变化、拍摄角度、车牌污损等各种复杂场景的存在，会造成车牌字符的模糊、缺失、粘连等缺陷的出现，当前的成熟方法很难进行精确分割，造成最终的车牌识别失败。因此，如何有效的对低质量车牌图像进行精确字符分割，仍然是当前限制车牌识别技术的难题。

目前，车牌字符分割主要有以下几类方法：

(1)基于垂直投影的方法，该方法通过获取车牌字符的垂直投影曲线，依据曲线的波峰波谷位置，获取每个字符的边缘位置。该类方法的优点是算法简单，速度快，对于清晰车牌，分割效果较佳，其缺点是对于一些污损、粘连、定位不够精确的低质量车牌，分割效果会明显下降，甚至失效。

(2)基于连通区域分析的方法，该方法首先进行车牌图像二值化，利用单个字符都是单连通区域的特征进行分析，最终获取字符的位置。该类方法的优点是对低图像质量的车牌适应性较好，速度较快，然而，它对于缺失、粘连的字符，却无能为力。

(3)基于机器学习的方法，如“一种基于支持向量机的车牌字符分割方法”，该类方法通过获取车牌的布局规律特征，借助分类器进行训练学习，最终完成车牌字符的分割。其优点是对于清晰车牌，识别效果较佳，对于低质量图像也有一定的抵抗性，其缺点是合适的布局规律特征较难选取，部分变形车牌不满足布局规律，计算特征的过程，相对较复杂。

(4)基于深度学习的方法，近年来，深度学习技术凭借着可以模拟人类大脑神经网络，能够进行精确的非线性预测，各个领域都得到了广泛的关注和应用，出现了一批经典的目标位置检测网络框架，如fasterrcnn，ssd，yolo等，这些经典网络框架通过迁移学习，可以很好地检测车牌字符位置，但该类技术的缺点是模型消耗内存很大，运算量很大，基于anchorbox的模型训练参数很复杂，不易收敛，这些缺点严重的限制了深度学习算法在车牌字符分割领域的应用。

注意力机制是人类视觉系统特有的特征，当人们注意到某个目标或某个场景时，分布在该目标内部以及该场景内每一处位置上的注意力是不一样的，一般地，对于图片而言，特别显眼的局部区域会率先吸引住注意力，那是因为脑袋中对这类东西很敏感，当人们辨认两个相似目标的时候，往往也是把注意力放在最具分辨力的局部区域。因此，把注意力机制融合到车牌字符分割的应用场景，可以获得更加令人满意的效果。

发明内容

本发明提出的一种基于注意力机制的车牌字符分割方法，可解决当前技术对低质量车牌图像进行字符分割，不够精确的技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种基于注意力机制的车牌字符分割方法，包括：

S1、建立深度神经网络模型；

S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；

S3、读取车牌图像信息，经过最优深度神经网络模型前向运算后，输出的特征图就是车牌上每个字符的分割位置；

其中，

所述S1、建立深度神经网络模型；具体包括：

S11、设计深度神经网络模型的输入图像；

S12、设计基干网络，所述基干网络包括卷积层conv0、残差网络基础结构体、卷积层conv2；

卷积层conv0的核尺寸是7×7，跨度是4×4；

卷积层conv2是一个核尺寸是3×3，跨度是2×2的卷积层；

所述残差网络基础结构体包括三个，resnetblock0、resnetblock1、和resnetblock2，所述残差网络基础结构体又包括最大值下采样层maxpool0、卷积层convresnet1_0、卷积层convresnet1_1、卷积层convresnet1_2、合并层eltsum、卷积层conv1；

最大值下采样层maxpool0的核尺寸是2×2，跨度是2×2；

卷积层convresnet1_0的核尺寸是1×1，跨度是1×1；

卷积层convresnet1_1的核尺寸是3×3，跨度是2×2；

卷积层convresnet1_2的核尺寸是1×1，跨度是1×1；

eltsum是两个输入特征图进行逐像素相加的合并层，conv1是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合；

S13、设计注意力模型网络，所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面；

S14、设计字符预测网络，所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上，进一步提升特征网络的表达能力，最终预测出车牌各个字符的准确位置。

进一步的，所述S13、设计注意力模型网络，所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面；

其中，所述注意力模型网络包括：

avepool0是一个均值下采样层，fc0和fc1是两个全连接层；sigmod是激活函数层，其作用是获取每个通道的归一化权值；

scale是输入特征图加权层，其作用是对输入特征图的各个通道特征图进行加权，加权计算过程如公式(1)；

avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体；

eltsum1是两个输入特征图进行逐像素相加的合并层，conv3是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合，resnetblock3是残差网络基础结构体；

其中，所述残差网络基础结构体包括，conv4一个核尺寸是3×3，跨度是2×2的卷积层，其作用是生成注意力模型特征图；

Fscale_c(x_i,y_j)＝S_c*F(x_i,y_j) (1)

其中，Fscale_c(x_i,y_j)表示输出加权特征图的第c个通道第(x_i,y_j)位置处的数值，S_c表示第c个通道的权重值，F(x_i,y_j)表示输入特征图的第c个通道第(x_i,y_j)位置处的数值。

进一步的，所述S14、设计字符预测网络，所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上，进一步提升特征网络的表达能力，最终预测出车牌各个字符的准确位置；

其中所述字符预测网络具体包括：

weightedconcat层是一个加权合并层，其作用是把注意力模型特征图融合到车牌字符的高维特征图中，使得高维特征图能够根据车牌的不同位置字符，自适应的调整相应的特征图权值，使得车牌字符位置预测更加准确；

conv5是一个核尺寸是3×3，跨度是2×2的卷积层，fc3是一个全连接层，其输出特征图尺寸是1×1×28，28表示字符预测网络的回归值数目。

进一步的，所述weightedconcat层的获取方法如下：

首先把注意力模型特征图中的每一个通道特征图，分别和高维特征图中每一通道特征图进行逐像素相乘运算，然后集合所有的运算后的高维特征图，按照特征图通道维度进行拼接，拼接后的输出特征图就是加权合并层特征图。

进一步的，所述字符预测网络的回归值数目28，该数值的设定方法如下：字符预测网络需要预测车牌的7个字符的分割位置，而对于车牌每一个字符的位置，使用该字符的最小外接矩形的左上角点和右下角点表示，每一个角点需要使用2个坐标来表示。

进一步的，所述S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；

具体包括：

S21、获取训练样本图像，收集各种场景，各种光线、各种角度下的车牌图像，使用现有的车牌检测方法获取车牌局部区域图像，然后标注车牌字符的位置信息；

S22、设计深度神经网络模型的目标损失函数；

S23、训练深度神经网络模型，是把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型，学习相应的模型参数。

进一步的，所述S21中标注车牌字符的位置信息，具体标注方法如下：

首先获取车牌上单个字符的最小外接矩形，然后获取最小外接矩形边框的左上角坐标和右下角坐标，最后，按照每个字符左上角坐标和右下角坐标的顺序，串联车牌上所有字符的位置坐标，作为车牌字符的标注值。

由上述技术方案可知，本发明的基于注意力机制的车牌字符分割方法具有以下有益效果：

本发明采用深度学习技术直接预测车牌字符位置，采用高效的基干网络，减少了模型内存消耗，极大地提升了系统的运行速度，采用无anchor训练机制，降低了模型训练的难度，同时使得训练模型的收敛速度更快，利用注意力机制，针对车牌的不同字符位置，能够自适应的调整注意力权值分布，车牌字符分割结果更加准确，对于污损、粘连、字符缺失、字符模糊的低质量车牌图像，鲁棒性更强。

附图说明

图1是本发明深度神经网络模型总体结构图；

图2是基础网络结构图；

图3是残差网络基础机构体结构图；

图4是注意力模型网络结构图；

其中，每一个神经网络结构层图形旁边的标识，表示该网络结构的输出特征层尺寸：特征层宽度×特征层高度×特征层通道数；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的基于注意力机制的车牌字符分割方法，包括：

S1、建立深度神经网络模型；

S3、读取车牌图像信息，经过最优深度神经网络模型前向运算后，输出的特征图就是车牌上每个字符的分割位置。

以下针对上述步骤具体说明本发明实施例：

S1、设计深度神经网络模型，本发明设计的深度神经网络模型，其主要作用是借助一个深度神经网络模型，提取车牌字符的高维信息特征，通过融合注意力机制模型，使得获取的高维信息特征对于不同的车牌字符位置，给予不一样的分布权值，即不同位置的车牌字符，获取的注意力也不同，进而借助一个较简单的预测网络，可以精确的获取车牌每一个字符的位置。本发明采用的深度神经网络模型如图2所示，该深度神经网络模型包含基干网络、注意力模型网络、字符预测网络等。本发明采用的是卷积神经网络(CNN)，特征图尺寸指的是特征图宽度×特征图高度×特征图通道数，核尺寸指的是核宽度×核高度，跨度指的是宽度方向跨度×高度方向跨度，另外，每一个卷积层后面均带有批量归一化层batchnorm和非线性激活层PRelu或者Relu。该深度神经网络模型的具体设计步骤如下：

S11、设计深度神经网络模型的输入图像，本发明所采用的输入图像是尺寸为256×128的RGB图像。

S12、设计基干网络，基干网络主要用于获取输入图像的具有高度抽象和丰富表达能力的高层特征，高层特征提取的好坏直接影响后续字符分割的准确度，同时，基干网络也是整个深度神经网络模型中运算量最大的部分，由步骤S11可知，本发明采用的输入图像尺寸较大，需要较多的存储内存和运算开销，因此，需要一种能够提取输入图像特征的高效网络，快速去除较大输入图像尺寸带来的运算量影响。本发明采用的基干网络如图2所示，conv0是一个核尺寸是7×7，跨度是4×4的卷积层，这种大核尺寸大跨度卷积操作的好处是，可以快速降低特征图尺寸，大大降低后续操作的运算量，同时保留更多图像细节；resnetblock0,resnetblock1，resnetblock2是三个残差网络基础结构体，该残差网络基础结构体如图3所示，maxpool0是一个核尺寸是2×2，跨度是2×2的最大值下采样层，convresnet1_0是一个核尺寸是1×1，跨度是1×1的卷积层，该卷积层的作用是降低特征图通道数，减少后续卷积层的运算量，convresnet1_1是一个核尺寸是3×3，跨度是2×2的卷积层，convresnet1_2是一个核尺寸是1×1，跨度是1×1的卷积层，该卷积层的作用是提升特征图通道数，增加特征丰富度，eltsum是两个输入特征图进行逐像素相加的合并层，conv1是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合。conv2是一个核尺寸是3×3，跨度是2×2的卷积层。

S13、设计注意力模型网络,本发明中的车牌字符分割不同于通用的目标位置检测应用，所有的车牌字符位置之间存在相同的规则排列，精确的分割车牌字符，不仅要注意车牌字符的整体特征，还要注意车牌字符之间的局部特征。本发明采用了一种新颖的注意力模型网络，可以根据车牌不同字符的位置预测，自适应的调整注意力，对有利于预测字符位置的关键区域，分配更多的注意力权值。注意力模型网络接入到步骤S12中的结构体resnetblock1后面，其输入特征图尺寸是16×8×128，具体网络结构如图4所示，avepool0是一个均值下采样层，fc0和fc1是两个全连接层，sigmod是激活函数层，其作用是获取每个通道的归一化权值，scale是输入特征图加权层，其作用是对输入特征图的各个通道特征图进行加权，加权计算过程如公式(1)；avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体，这是Squeeze-and-ExcitationNetworks的精髓；eltsum1是两个输入特征图进行逐像素相加的合并层，conv3是一个核尺寸是3×3，跨度是1×1的卷积层，其作用是进行合并特征融合，resnetblock3是残差网络基础结构体，该残差网络基础结构体如图3所示，conv4一个核尺寸是3×3，跨度是2×2的卷积层,其作用是生成注意力模型特征图。

Fscale_c(x_i,y_j)＝S_c*F(x_i,y_j)(1)

S14、设计字符预测网络，字符预测网络主要是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上，进一步提升特征网络的表达能力，最终预测出车牌各个字符的准确位置。字符预测网络如图2所示，weightedconcat层是一个加权合并层，其主要作用是，把注意力模型特征图融合到车牌字符的高维特征图中，使得高维特征图能够根据车牌的不同位置字符，自适应的调整相应的特征图权值，使得车牌字符位置预测更加准确，该加权合并层的获取方法如下：首先把注意力模型特征图中的每一个通道特征图，分别和高维特征图中每一通道特征图进行逐像素相乘运算，然后集合所有的运算后的高维特征图，按照特征图通道维度进行拼接，拼接后的输出特征图就是加权合并层特征图。conv5是一个核尺寸是3×3，跨度是2×2的卷积层，fc3是一个全连接层，其输出特征图尺寸是1×1×28,28表示字符预测网络的回归值数目，该数值的设定方法如下：字符预测网络需要预测车牌的7个字符的分割位置，而对于车牌每一个字符的位置，使用该字符的最小外接矩形的左上角点和右下角点表示，每一个角点需要使用2个坐标来表示；

S2、训练深度神经网络模型，主要是通过大量的标注好的训练样本数据，优化深度神经网络模型参数，使得深度神经网络模型车牌字符分割性能最优，具体的步骤如下：

S21、获取训练样本图像，主要是收集各种场景，各种光线、各种角度下的车牌图像，使用现有的车牌检测方法获取车牌局部区域图像，然后标注车牌字符的位置信息。具体标注方法如下：首先获取车牌上单个字符的最小外接矩形，然后获取最小外接矩形边框的左上角坐标和右下角坐标，最后，按照每个字符左上角坐标和右下角坐标的顺序，串联车牌上所有字符的位置坐标，作为车牌字符的标注值。

S22、设计深度神经网络模型的目标损失函数，目标损失函数采用的是均方差损失函数。

S23、训练深度神经网络模型，主要是把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型，学习相关的模型参数；

S3、使用深度神经网络模型，训练完深度神经网络模型后，接下来就是在实际环境中进行模型使用，对于任意给出的一个车牌局部图像，经过深度神经网络模型前向运算后，输出的特征图就是车牌上每个字符的分割位置。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于注意力机制的车牌字符分割方法，其特征在于：包括以下步骤：

S1、建立深度神经网络模型；

其中，

所述S1、建立深度神经网络模型；具体包括：

S11、设计深度神经网络模型的输入图像；

S12、设计基干网络，所述基干网络包括卷积层conv0、三个残差网络基础结构体：resnetblock0、resnetblock1、resnetblock2，卷积层conv2；

卷积层conv0的核尺寸是7×7，跨度是4×4；

卷积层conv2是一个核尺寸是3×3，跨度是2×2的卷积层；

每个残差网络基础结构体包括最大值下采样层maxpool0、卷积层convresnet1_0、卷积层convresnet1_1、卷积层convresnet1_2、合并层eltsum、卷积层conv1；

最大值下采样层maxpool0的核尺寸是2×2，跨度是2×2；

卷积层convresnet1_0的核尺寸是1×1，跨度是1×1；

卷积层convresnet1_1的核尺寸是3×3，跨度是2×2；

卷积层convresnet1_2的核尺寸是1×1，跨度是1×1；

2.根据权利要求1所述的基于注意力机制的车牌字符分割方法，其特征在于：所述S13、设计注意力模型网络，所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面；

其中，所述注意力模型网络包括：

其中，conv4一个核尺寸是3×3，跨度是2×2的卷积层，其作用是生成注意力模型特征图；

Fscale_c(x_i,y_j)＝S_c*F(x_i,y_j) (1)

3.根据权利要求2所述的基于注意力机制的车牌字符分割方法，其特征在于：所述S14、设计字符预测网络，所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上，进一步提升特征网络的表达能力，最终预测出车牌各个字符的准确位置；

其中所述字符预测网络具体包括：

4.根据权利要求3所述的基于注意力机制的车牌字符分割方法，其特征在于：所述weightedconcat层的获取方法如下：

5.根据权利要求3所述的基于注意力机制的车牌字符分割方法，其特征在于：

所述字符预测网络的回归值数目28，该数值的设定方法如下：字符预测网络需要预测车牌的7个字符的分割位置，而对于车牌每一个字符的位置，使用该字符的最小外接矩形的左上角点和右下角点表示，每一个角点需要使用2个坐标来表示。

6.根据权利要求1所述的基于注意力机制的车牌字符分割方法，其特征在于：

所述S2、通过标注好的训练样本数据，优化所述深度神经网络模型参数，得到最优深度神经网络模型；

具体包括：

S22、设计深度神经网络模型的目标损失函数；

7.根据权利要求6所述的基于注意力机制的车牌字符分割方法，其特征在于：

所述S21中标注车牌字符的位置信息，具体标注方法如下：

8.根据权利要求1所述的基于注意力机制的车牌字符分割方法，其特征在于：

所述S11中所采用的输入图像是尺寸为256×128的RGB图像。

9.根据权利要求1所述的基于注意力机制的车牌字符分割方法，其特征在于：

所述注意力模型网络其输入特征图尺寸是16×8×128。

10.根据权利要求6所述的基于注意力机制的车牌字符分割方法，其特征在于：

所述S22中目标损失函数采用的是均方差损失函数。