CN111310861B

CN111310861B - 一种基于深度神经网络的车牌识别和定位方法

Info

Publication number: CN111310861B
Application number: CN202010225650.1A
Authority: CN
Inventors: 王兰美; 褚安亮; 朱衍波; 廖桂生; 王桂宝; 贾建科
Original assignee: Xidian University; Shaanxi University of Technology
Current assignee: Xidian University; Shaanxi University of Technology
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2023-05-23
Anticipated expiration: 2040-03-27
Also published as: CN111310861A

Abstract

本发明提出了一种基于深度神经网络的车牌识别和定位方法，主要解决现有算法中复杂场景下车牌识别与定位不准的问题。首先建立符合车牌检测特定需求的车牌数据集，并利用K均值聚类算法生成锚框，结合机器学习并引入注意力机制建立一个车牌检测深度卷积神经网络结构并利用已建立的车牌数据集对该网络模型进行训练，训练过程中采用Adam算法作为优化算法。采用交并比IOU＝0.8时的检测准确率作为算法性能的度量指标，并采用HyperLPR算法和数学形态法作为对比算法，对本模型进行测试。本发明提出的基于深度神经网络的车牌识别和定位方法较之前的方法增加通道注意力机制，从而使得检测准确率更高，速度更快，且对环境有非常强的鲁棒性。

Description

一种基于深度神经网络的车牌识别和定位方法

技术领域

该发明属于图像识别领域，尤其涉及一种深度卷积神经网络的车牌检测方法，该方法具有很好的车牌检测性能。

背景技术

近年来，智能化处理技术在很多领域发挥着重要作用，智能交通系统也随之兴起，大大提高了管理效率，节省了大量人力资源。车牌是车辆的重要标识，每辆汽车都有唯一的“身份证件”，这为车辆的统一管理提供了强有力的保障。在车辆管理高效性的要求下，自动收集并识别车牌成为整个检测过程中极其重要的环节。

车牌识别技术的任务是从包含各种复杂背景的车辆图片中自动检测车牌区域并对其进行处理和识别，最后输出识别结果。传统的车牌识别算法或多或少都会受到环境或人为因素的制约，例如光照条件，大气可见度，部分遮挡，车牌悬挂区域等。这些因素使得一些检测算法达不到人为预期的效果，导致应用过程中受阻。近年来，随着计算机性能的大幅度提升，深度学习方法受到很多研究者的青睐，并且在众多领域取得了不错的效果，这为车牌检测算法的研究提供了一个很好的思路。而且，当外界因素改变的情况下，可以通过对模型微调来提高适应性，对车牌检测来说无疑是一大福音。

卷积神经网络是一种特殊的神经网络模型，它的神经元是非全连接的，而且同层神经元共享权值，基于此网络模型提出的智能算法在图像检测任务中表现最为突出，实现了速度与精度的完美结合，表现结果甚至突破了人眼的极限，无疑成为图像检测领域的佼佼者。但是联合利用深度卷积和多尺度思想的车牌检测算法鲜见研究报道，针对高交并比(intersection-over-union,IOU)情况下检测效果不佳的实际问题，引入注意力机制，融合全局信息，提出了一种新的深度神经网路车牌检测方法。

发明内容

本发明方法提出了一种基于深度神经网络的车牌识别和定位方法，通过深度卷积网络结构的设计并融合多尺度思想进行车牌识别和定位。

步骤一、针对车牌识别的特定任务，通过多种方式采集数据，建立尽可能全面的车牌图片数据集，确保训练模型的泛化性和鲁棒性，对收集的图片进行过滤、清洗和筛选得到原始数据集；利用LabelImg软件对原始数据集进行人工标注，标出目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，最后对该车牌数据集通过旋转、平移、加入噪声等进行数据增强操作，进一步增加数据量。

数据的具体获取方式为：利用摄像机实地拍摄的车牌图片，这部分车牌图像包括了白天、黑夜、阴天、雨天、倾斜等多种场景；从网页爬取的车牌图片数据集；从互联网获取的小规模车牌数据集。

步骤二、以步骤一中建立的数据集为基础，采用K均值聚类方法生成锚框，利用K均值聚类算法对车牌数据集中所有目标的边界框进行聚类，进而发现数据集中边界框的统计规律，最后根据这些统计规律去生成锚框。

在这种方法中，聚类中心个数k等于数据集对应的锚框数。也就是说如果我们要为车牌数据集设定k个锚框，那么K均值聚类算法的聚类中心个数也等于k。另外在这个聚类任务中，如果使用传统的欧式距离进行聚类，会导致大尺度锚框的位置误差远大于小尺度锚框的位置误差。而我们最终希望的是通过聚类得到的锚框和车牌数据集中的目标锚框有尽可能大的IOU值，故而本发明采用以下的距离d度量：

d(box,centroid)＝1-IOU(box,centroid)

其中，box表示数据集中的边界框，centroid表示聚类中心对应的边界框， IOU(box,centroid)表示聚类中心对应的边界框和数据集中的边界框的交并比。

在发明中，我们取k＝9对车牌数据集进行聚类，最终得到9个新的更符合本发明数据集的锚框，锚框分为3个不同尺度，每个尺度各有3个，分别给出锚框的宽度p_w和高度p_h，并使用这些锚框去训练模型。

步骤三、建立特征提取网络，然后在该特征提取网络三个不同尺度的特征图输出线路之前分别添加加权网络模块，最后通过三个特征交互网络实现特征图之间的局部特征交互，从而建立一个车牌检测深度卷积神经网络结构。

本发明的主体网络结构由52个卷积层组成，其中分为三个阶段，即三个不同尺度的输出。1～26层卷积为阶段1,27～43层卷积为阶段2,44～52层卷积为阶段3，阶段1的输出也就是第26个卷积层的输出感受野小，负责检测小目标，阶段2的输出也就是第43个卷积层的输出感受野居中，负责检测中等大小的目标，阶段3的输出也就是第52个卷积层的输出感受野大，容易检测出大目标。

具体如下：

输入像素为416×416×3的图片，通过第1层卷积层，卷积核尺寸为3×3，步长为1，个数为32，得到416×416×32的特征图输出；进入第2层卷积层，卷积核尺寸为3×3，步长为2，个数为64，得到208×208×64的特征图输出；进入第 1个残差模块，该模块包含2个卷积层和1个快捷链路，重复1次，即第3～4层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为32和64，得到208×208×64的特征图输出；进入第5层卷积层，卷积核尺寸为3×3，步长为 2，个数为128，得到104×104×128的特征图输出；进入第2个残差模块，该模块包含2个卷积层和1个快捷链路，重复2次，即第6～9层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为64和128，得到104×104×128的特征图输出；进入第10层卷积层，卷积核尺寸为3×3，步长为2，个数为256，得到52×52×256的特征图输出；进入第3个残差模块，该模块包含2个卷积层和1个快捷链路，重复8次，即第11～26层卷积，卷积核的尺寸分别为1×1和 3×3，步长均为1，个数分别为128和256，得到52×52×256的特征图输出；进入第27层卷积层，卷积核尺寸为3×3，步长为2，个数为512，得到26×26×512 的特征图输出；进入第4个残差模块，该模块包含2个卷积层和1个快捷链路，重复8次，即第28～43层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为256和512，得到26×26×512的特征图输出；进入第44层卷积层，卷积核尺寸为3×3，步长为2，个数为1024，得到13×13×1024的特征图输出；进入第5个残差模块，该模块包含2个卷积层和1个快捷链路，重复4次，即第45～52层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为 512和1024，得到13×13×1024的特征图输出。

阶段1，即第1～26层卷积，得到52×52×256的特征图输出之后进入加权模块作为输入，该模块具体为：对该输入做全局平均池化生成1×1×256的实数序列，经过卷积操作将其降维得到1×1×32的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×256的输出，利用Sigmoid 函数层将该实数序列归一化得到权重，与原52×52×256的特征图加权融合后输出，后续做矩阵拼接操作。

阶段2，即第27～43层卷积，得到26×26×512的特征图输出之后进入加权模块作为输入，该模块具体为：对该输入做全局平均池化生成1×1×512的实数序列，经过卷积操作将其降维得到1×1×64的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×512的输出，利用Sigmoid 函数层将该实数序列归一化得到权重，与原26×26×512的特征图加权融合后输出，后续做矩阵拼接操作。

阶段3，即第44～52层卷积，得到13×13×1024的特征图输出之后进入加权模块作为输入，该模块具体为：对该输入做全局平均池化生成1×1×1024的实数序列，经过卷积操作将其降维得到1×1×128的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×1024的输出，利用 Sigmoid函数层将该实数序列归一化得到权重，与原13×13×1024的特征图加权融合后进入特征交互层3。

特征交互层3是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512，步长均为1，得到 13×13×512的特征图；然后分成两条线路继续进行，第一条线路是2步卷积操作，卷积核的尺寸及个数依次为3×3×1024和1×1×18，得到13×13×18的特征图 1。第二条线路是先进行1步卷积操作，卷积核的尺寸及个数为1×1×256，得到 13×13×256的特征图之后进行上采样操作放大特征图为原来的两倍，即得到 26×26×256的特征图，与阶段2得到的26×26×512的特征图做矩阵拼接，得到 26×26×768的特征图，进入特征交互层2。

特征交互层2也是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256，步长均为1，得到 26×26×256的特征图；然后再分成两条线路继续进行，第一条线路是2步卷积操作，卷积核的尺寸及个数依次为3×3×512和1×1×18，得到26×26×18的特征图 2。第二条线路仍是上采样操作，放大特征图为原来的两倍，得到52×52×128的特征图，与阶段1得到的52×52×256的特征图做矩阵拼接，得到52×52×384的特征图，进入特征交互层1。

特征交互层1是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到 52×52×128的特征图；然后是2步卷积操作，卷积核的尺寸及个数依次为3×3×256 和1×1×18，得到52×52×18的特征图3。

卷积层：包含三步操作，一是卷积操作，此处的卷积方式是same卷积。卷积核的尺寸决定局部感受野的大小，卷积核的个数决定卷积之后的通道数；二是批量归一化操作，将图片进行卷积之后得到的输出结果通过该层归一化到[0,1]范围内，使其均值为0，方差为1；三是激活操作，将归一化后的结果通过该层激活函数的处理引入非线性元素，增强网络的能力。

52×52×18的特征图3代表52×52个网格，每个网格输出向量的维度为18，其中包含了3个预测框的信息，每一个预测框对应6个参数，这6个参数分别为预测框4个坐标值信息t_xi,t_yi,t_wi,t_hi和置信度

以及1个类别信息/>

其中(t_xi,t_yi)表示第i个预测框中心点的坐标参数值，(t_wi,t_hi)表示第i个预测框的宽和高的参数值，预测置信度/>

表示第i个预测框包含目标的概率，类别概率/>

为多维向量，表示第i个预测框的目标是某一类别的概率。需要注意的是， t_xi,t_yi,t_wi,t_hi这四个参数是相对坐标位置，需要转换为最终在原始图片中的实际坐标。转换公式如下：

其中，t_xi,t_yi,t_wi,t_hi分别表示第i个预测框的相对x坐标、y坐标、宽度和高度，σ(·)表示Sigmoid函数，p_w、p_h表示预测框对应锚框的宽度以及高度，c_x、c_y表示预测框相对图片左上角位置坐标的偏移量，

表示第i个预测框中心点的实际坐标，/>

表示第i个预测框的实际宽度以及高度。

步骤四、利用已建立的车牌数据集对该网络模型进行训练，训练过程如下：

(1)网络随机初始化权值，使初始化的值服从高斯正态分布。

(2)输入数据经过本发明步骤二中的网络结构向前传播得到输出值为特征图 1、特征图2、特征图3，并利用特征图信息得到预测边框的信息

(3)将数据集中标注出的真实框与聚类得到的锚框进行匹配：计算出真实框所在的中心点，筛选出此中心点对应的锚框(共九个)，选取与真实框有最大IOU 值的锚框作为目标框，并将该真实框的坐标值信息赋给目标框，即得到目标框的坐标值(x_i,y_i,w_i,h_i)，并将目标框的类别值p_i设置为1，置信度值C_i设置为1，其余未标记的锚框的参数值均设置为0。

(4)利用本发明提出的损失函数求网络预测边框的输出值与真实边界框的目标值之间的误差损失，该损失函数包含位置损失、置信度损失和类别损失，具体如下：

位置损失

中心损失center_loss包含x_loss和y_loss，x_loss和y_loss使用的函数为二值交叉熵函数，尺度损失size_loss使用的函数为平方函数。

/>

center_loss＝x_loss+y_loss

其中，N表示网络预测的边界框的总数，

表示第i个预测的边界框中是否存在目标，(x_i,y_i)表示目标所在第i个边界框的中心位置，/>

表示网络预测的第i个边界框的中心位置，w_i、h_i目标所在的第i个边界框的宽度和高度，/>

表示网络预测的第i个边界框的宽度和高度，α用于调整尺度损失在所有损失中所占据的比例。

置信度损失

置信度损失使用的函数为二值交叉熵函数：

confidence_loss＝obj_loss+noobj_loss

其中，C_i表示目标所在第i个边界框的置信度，

表示网络预测的第i个边界框的置信度。

类别损失

其中，p_i表示目标所在第i个边界框中车牌的概率，

表示网络预测的第i个边界框中车牌的概率。

最终的损失函数loss为：

loss＝center_loss+size_loss+confidence_loss+cls_loss

(5)当迭代次数<epoch时，利用Adam优化算法进行权值更新，直到损失函数值低于设置的阈值；当误差小于阈值或者迭代次数>epoch时，结束训练，epoch 根据精度要求设定。

步骤五、对已训练好的模型进行测试，并采用HyperLPR算法和数学形态法作为对比算法。

测试过程中采用IOU＝0.8时的检测准确率作为算法性能的度量指标，如果算法对某张图片的预测矩形框和该图片的真实矩形框间的交并比大于0.8，那么就认为算法对该图片检测成功。

前述步骤中，N表示预测框总数，i＝1,2,3,…,N表示预测框标号。

本发明具有以下优点：

1、本发明建立了数据规模可观的车牌数据库以及用于车牌检测任务的深度卷积神经网络结构，该网络通过引入注意力机制提高了检测准确率。

2、本发明提出的基于深度神经网络的车牌识别和定位算法较之前的算法检测准确率更高，速度更快，且对环境有非常强的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中需要使用的附图做简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的流程图；

图2是本发明网络结构中残差模块示意图；

图3是本发明网络结构中卷积模块示意图；

图4是本发明网络结构中加权模块结构图；

图5是本发明网络模型结构图；

图6是本发明网格输出向量维度示意图；

图7是本发明网络训练流程示意图；

图8是不同方法在不同场景下的部分车牌检测效果图；

表1是不同方法在验证数据集上的总体性能。

具体实施方式

为了让本发明的上述和其它目的、特征及优点能更明显，下面特举本发明实施例，并配合所附图示，做详细说明如下：

参照图1，本发明的实现步骤如下：

步骤一、针对车牌识别的特定任务，通过多种方式采集数据，建立尽可能全面的车牌图片数据集，确保训练模型的泛化性和鲁棒性，对收集的图片进行过滤、清洗和筛选得到原始数据集；利用LabelImg软件对原始数据集进行人工标注，标出目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，最后对该车牌数据集通过旋转、平移、加入噪声等进行数据增强操作，进一步增加数据量。数据的具体获取方式为：利用摄像机实地拍摄的车牌图片，这部分车牌图像包括了白天、黑夜、阴天、雨天、倾斜等多种场景；从网页爬取的车牌图片数据集；从互联网获取的小规模车牌数据集。

在这种方法中，聚类中心个数k等于数据集对应的锚框数。也就是说如果我们要为车牌数据集设定k个锚框，那么K均值聚类算法的聚类中心个数也等于 k。另外在这个聚类任务中，如果使用传统的欧式距离进行聚类，会导致大尺度锚框的位置误差远大于小尺度锚框的位置误差。而我们最终希望的是通过聚类得到的锚框和车牌数据集中的目标锚框有尽可能大的IOU值，故而本发明采用以下的距离d度量：

d(box,centroid)＝1-IOU(box,centroid)

在本发明中，我们取k＝9对车牌数据集进行聚类，最终得到9个新的更符合本发明数据集的锚框，锚框分为3个不同尺度，每个尺度各有3个，分别给出锚框的宽度p_w和高度p_h，并使用这些锚框去训练模型。

步骤三、建立包含52个卷积层、23个残差层的特征提取网络；然后在该特征提取网络三个不同尺度的特征图输出线路之前分别添加由1个均值池化层和 2个卷积层构成的加权网络模块，最后通过三个特征交互网络实现特征图之间的局部特征交互，从而建立一个车牌检测深度卷积神经网络结构。

参照图5，本发明的主体网络结构由52个卷积层组成，其中分为三个阶段，即三个不同尺度的输出。1～26层卷积为阶段1,27～43层卷积为阶段2,44～52层卷积为阶段3，低层卷积感受野更小，负责检测小目标，深层卷积感受野大，容易检测出大目标。具体如下：

输入像素为416×416×3的图片，通过第1层卷积层，卷积核尺寸为3×3，步长为1，个数为32，得到416×416×32的特征图输出；进入第2层卷积层，卷积核尺寸为3×3，步长为2，个数为64，得到208×208×64的特征图输出；进入第 1个残差模块，参照图2,该模块包含2个卷积层和1个快捷链路，重复1次，即第3～4层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为32 和64，得到208×208×64的特征图输出；进入第5层卷积层，卷积核尺寸为3×3，步长为2，个数为128，得到104×104×128的特征图输出；进入第2个残差模块，该模块包含2个卷积层和1个快捷链路，重复2次，即第6～9层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为64和128，得到104×104×128 的特征图输出；进入第10层卷积层，卷积核尺寸为3×3，步长为2，个数为256，得到52×52×256的特征图输出；进入第3个残差模块，该模块包含2个卷积层和1个快捷链路，重复8次，即第11～26层卷积，卷积核的尺寸分别为1×1和 3×3，步长均为1，个数分别为128和256，得到52×52×256的特征图输出；进入第27层卷积层，卷积核尺寸为3×3，步长为2，个数为512，得到26×26×512 的特征图输出；进入第4个残差模块，该模块包含2个卷积层和1个快捷链路，重复8次，即第28～43层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为256和512，得到26×26×512的特征图输出；进入第44层卷积层，卷积核尺寸为3×3，步长为2，个数为1024，得到13×13×1024的特征图输出；进入第5个残差模块，该模块包含2个卷积层和1个快捷链路，重复4次，即第45～52层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为 512和1024，得到13×13×1024的特征图输出。

阶段1，即第1～26层卷积，得到52×52×256的特征图输出之后进入加权模块作为输入，参照图4，该模块具体为：对该输入做全局平均池化生成1×1×256 的实数序列，经过卷积操作将其降维得到1×1×32的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×256的输出，利用Sigmoid函数层将该实数序列归一化得到权重，与原52×52×256的特征图加权融合后输出，后续做矩阵拼接操作。

阶段2，即第27～43层卷积，得到26×26×512的特征图输出之后进入加权模块作为输入，参照图4，该模块具体为：对该输入做全局平均池化生成1×1×512 的实数序列，经过卷积操作将其降维得到1×1×64的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×512的输出，利用Sigmoid函数层将该实数序列归一化得到权重，与原26×26×512的特征图加权融合后输出，后续做矩阵拼接操作。

阶段3，即第44～52层卷积，得到13×13×1024的特征图输出之后进入加权模块作为输入，参照图4，该模块具体为：对该输入做全局平均池化生成1×1×1024 的实数序列，经过卷积操作将其降维得到1×1×128的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×1024的输出，利用Sigmoid函数层将该实数序列归一化得到权重，与原13×13×1024的特征图加权融合后进入特征交互层3。

特征交互层3是一个卷积模块，参照图3，包含5步卷积操作，卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512，步长均为1，得到13×13×512的特征图；此处分成两条线路继续进行，第一条线路是2 步卷积操作，卷积核的尺寸及个数依次为3×3×1024和1×1×18，得到13×13×18 的特征图1。第二条线路是先进行1步卷积操作，卷积核的尺寸及个数为1×1×256，得到13×13×256的特征图之后进行上采样操作放大特征图为原来的两倍，即得到26×26×256的特征图，与阶段2得到的26×26×512的特征图做矩阵拼接，得到26×26×768的特征图，进入特征交互层2。

特征交互层2的操作与特征交互层3相同，得到26×26×256的特征图；此处再分成两条线路继续进行，第一条线路是2步卷积操作，卷积核的尺寸及个数依次为3×3×512和1×1×18，得到26×26×18的特征图2。第二条线路仍是上采样操作，得到52×52×128的特征图，与阶段1得到的52×52×256的特征图做矩阵拼接，得到52×52×384的特征图，进入特征交互层1。

特征交互层1的操作与特征交互层3相同，得到52×52×128的特征图；然后是2步卷积操作，卷积核的尺寸及个数依次为3×3×256和1×1×18，得到 52×52×18的特征图3。

卷积层：包含三步操作，一是卷积操作，卷积是元素对元素的加法和乘法。卷积核的尺寸决定局部感受野的大小，卷积核的个数决定卷积之后的通道数；二是批量归一化操作，将图片进行卷积之后得到的输出结果通过该层归一化到[0,1] 范围内，使其均值为0，方差为1；三是激活操作，将归一化后的结果通过该层激活函数的处理引入非线性元素，增强网络的能力。

参照图6，52×52×18的特征图3代表52×52个网格，每个网格输出向量的维度为18，其中包含了3个预测框的信息，每一个预测框对应6个参数，这6 个参数分别为预测框4个坐标值信息t_xi,t_yi,t_wi,t_hi和置信度

以及1个类别信息/>

其中(t_xi,t_yi)表示第i个预测框中心点的坐标参数值，(t_wi,t_hi)表示第i 个预测框的宽和高的参数值，预测置信度/>

表示第i个预测框包含目标的概率，类别概率/>

为多维向量，表示第i个预测框的目标是某一类别的概率。需要注意的是，t_xi,t_yi,t_wi,t_hi这四个参数是相对坐标位置，需要转换为最终在原始图片中的实际坐标。转换公式如下：

其中，t_xi,t_yi,t_wi,t_hi是预测框的相对坐标值，σ(·)表示Sigmoid函数， p_w、p_h表示预测框对应锚框的宽度以及高度，c_x、c_y表示预测框相对图片左上角位置坐标的偏移量，

表示预测框中心点的实际坐标，/>

表示预测框的实际宽度以及高度。

步骤四、利用已建立的车牌数据集对该网络模型进行训练，参照图7，训练过程如下：

(1)网络随机初始化权值，使初始化的值服从高斯正态分布。

位置损失

/>

center_loss＝x_loss+y_loss

其中，N表示网络预测的边界框的总数，

置信度损失

置信度损失使用的函数为二值交叉熵函数：

confidence_loss＝obj_loss+noobj_loss 其中，C_i表示目标所在第i个边界框的置信度，

表示网络预测的第i个边界框的置信度。

类别损失

其中，p_i表示目标所在第i个边界框中车牌的概率，

表示网络预测的第i个边界框中车牌的概率。

最终的损失函数loss为：

loss＝center_loss+size_loss+confidence_loss+cls_loss

(5)当迭代次数<epoch时，利用Adam优化算法进行权值更新，然后进入到第(2)步，直到损失函数值低于设置的阈值；当误差小于阈值或者迭代次数>epoch 时，结束训练，epoch根据精度要求设定。

前述步骤中，N表示预测框总数，i＝1,2,3,…N表示预测框标号。

下面结合仿真实例对该发明做进一步的描述。

仿真实例：

本发明采用传统的数学形态学法和HyperLPR作为对比算法，HyperLPR是一个开源的基于深度学习的车牌检测算法，测试过程中场景的变化因素主要包括及天气干扰、车牌区域污染、光照强度等。

图8中，(a)、(b)、(c)分别表示在正常条件下利用数学形态法、HyperLPR算法和本发明方法对车牌的检测结果图；(d)、(e)、(f)分别表示在天气干扰条件下利用数学形态法、HyperLPR方法和本发明方法对车牌的检测结果图；(g)、(h)、 (i)分别表示在车牌区域污染条件下利用数学形态法、HyperLPR方法和本发明方法对车牌检测的结果图。

附表1给出了本发明所用各种方法对车牌的检测结果，表明基于神经网络的车牌检测方法性能要远远高于传统方法。且较之同样基于神经网络的 HyperLPR检测方法，本发明提出的方法检测准确率更高。

综上仿真实验表明基于神经网络的车牌检测方法在不同场景均有相当优异的性能。该类型方法可以完成各种复杂环境中车牌检测任务且检测准确率在各种场景中都非常高。基于神经网络的车牌检测方法可以随着数据量的提升而不断提升其检测性能，扩大其适用场景。另外，此类方法还可以通过硬件加速来实现车牌实时定位，进而应用到更多现实场景中。

Claims

1.一种基于深度神经网络的车牌识别和定位方法，包含以下步骤：

步骤一、针对车牌识别的特定任务，通过多种方式采集数据，建立尽可能全面的车牌图片数据集，确保训练模型的泛化性和鲁棒性，对收集的图片进行过滤、清洗和筛选得到原始数据集；利用LabelImg软件对原始数据集进行人工标注，标出目标所在的中心位置坐标(x,y)及目标的宽度w和高度h，最后对该车牌数据集通过旋转、平移、加入噪声等进行数据增强操作，进一步增加数据量；

步骤二、以步骤一中建立的数据集为基础，采用K均值聚类方法生成锚框，利用K均值聚类算法对车牌数据集中所有目标的边界框进行聚类，进而发现数据集中边界框的统计规律，最后根据这些统计规律去生成锚框；

步骤三、建立特征提取网络，然后在该特征提取网络三个不同尺度的特征图输出线路之前分别添加加权网络模块，最后通过三个特征交互网络实现特征图之间的局部特征交互，从而建立一个车牌检测深度卷积神经网络结构；

步骤四、利用已建立的车牌数据集对该网络模型进行训练；

步骤五、采用IOU＝0.8时的检测准确率作为算法性能的度量指标，对已训练好的模型进行测试分析。

2.根据权利要求1所述的一种基于深度神经网络的车牌识别和定位方法，步骤一建立符合车牌识别特定任务训练要求的数据集，数据来源具体如下：第一，手持摄像机实地拍摄，这部分车牌图像包括了白天、黑夜、阴天、雨天、倾斜等多种场景；第二，从网页爬取图片；第三，整合一些从互联网搜索到的小规模车牌数据集；收集图片完成后再经过清洗和筛选，过滤掉无法使用的低质量图片，然后利用labelImg软件对原始数据集进行人工标注；标注完成后，对该车牌数据集通过旋转、平移、加入噪声等进行数据增强操作以保证数据量的充足。

3.根据权利要求1所述的一种基于深度神经网络的车牌识别和定位方法，步骤二中以步骤一中建立的数据集为基础，采用K均值聚类方法生成锚框，利用K均值聚类算法对车牌数据集中所有目标的边界框进行聚类，进而发现数据集中边界框的统计规律，最后根据这些统计规律去生成锚框；具体如下：

在这种方法中，聚类中心个数k等于数据集对应的锚框数；也就是说如果我们要为车牌数据集设定k个锚框，那么K均值聚类算法的聚类中心个数也等于k；另外在这个聚类任务中，如果使用传统的欧式距离进行聚类，会导致大尺度锚框的位置误差远大于小尺度锚框的位置误差；而我们最终希望的是通过聚类得到的锚框和车牌数据集中的目标锚框有尽可能大的IOU值，故而采用以下的距离d度量：

d(box,centroid)＝1-IOU(box,centroid)

其中，box表示数据集中的边界框，centroid表示聚类中心对应的边界框，IOU(box,centroid)表示聚类中心对应的边界框和数据集中的边界框的交并比；

取k＝9对车牌数据集进行聚类，最终得到9个新的更符合数据集的锚框，锚框分为3个不同尺度，每个尺度各有3个，分别给出锚框的宽度p_w和高度p_h，并使用这些锚框去训练模型。

4.根据权利要求1所述的一种基于深度神经网络的车牌识别和定位方法，步骤三中建立特征提取网络，然后在该特征提取网络三个不同尺度的特征图输出线路之前分别添加加权网络模块，最后通过三个特征交互网络实现特征图之间的局部特征交互，从而建立一个车牌检测深度卷积神经网络结构；

主体网络结构由52个卷积层组成，其中分为三个阶段，即三个不同尺度的输出；1～26层卷积为阶段1,27～43层卷积为阶段2,44～52层卷积为阶段3，阶段1的输出也就是第26个卷积层的输出感受野小，负责检测小目标，阶段2的输出也就是第43个卷积层的输出感受野居中，负责检测中等大小的目标，阶段3的输出也就是第52个卷积层的输出感受野大，容易检测出大目标；具体如下：

输入像素为416×416×3的图片，通过第1层卷积层，卷积核尺寸为3×3，步长为1，个数为32，得到416×416×32的特征图输出；进入第2层卷积层，卷积核尺寸为3×3，步长为2，个数为64，得到208×208×64的特征图输出；进入第1个残差模块，该模块包含2个卷积层和1个快捷链路，重复1次，即第3～4层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为32和64，得到208×208×64的特征图输出；进入第5层卷积层，卷积核尺寸为3×3，步长为2，个数为128，得到104×104×128的特征图输出；进入第2个残差模块，该模块包含2个卷积层和1个快捷链路，重复2次，即第6～9层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为64和128，得到104×104×128的特征图输出；进入第10层卷积层，卷积核尺寸为3×3，步长为2，个数为256，得到52×52×256的特征图输出；进入第3个残差模块，该模块包含2个卷积层和1个快捷链路，重复8次，即第11～26层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为128和256，得到52×52×256的特征图输出；进入第27层卷积层，卷积核尺寸为3×3，步长为2，个数为512，得到26×26×512的特征图输出；进入第4个残差模块，该模块包含2个卷积层和1个快捷链路，重复8次，即第28～43层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为256和512，得到26×26×512的特征图输出；进入第44层卷积层，卷积核尺寸为3×3，步长为2，个数为1024，得到13×13×1024的特征图输出；进入第5个残差模块，该模块包含2个卷积层和1个快捷链路，重复4次，即第45～52层卷积，卷积核的尺寸分别为1×1和3×3，步长均为1，个数分别为512和1024，得到13×13×1024的特征图输出；

阶段1，即第1～26层卷积，得到52×52×256的特征图输出之后进入加权模块作为输入，该模块具体为：对该输入做全局平均池化生成1×1×256的实数序列，经过卷积操作将其降维得到1×1×32的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×256的输出，利用Sigmoid函数层将该实数序列归一化得到权重，与原52×52×256的特征图加权融合后输出，后续做矩阵拼接操作；

阶段2，即第27～43层卷积，得到26×26×512的特征图输出之后进入加权模块作为输入，该模块具体为：对该输入做全局平均池化生成1×1×512的实数序列，经过卷积操作将其降维得到1×1×64的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×512的输出，利用Sigmoid函数层将该实数序列归一化得到权重，与原26×26×512的特征图加权融合后输出，后续做矩阵拼接操作；

阶段3，即第44～52层卷积，得到13×13×1024的特征图输出之后进入加权模块作为输入，该模块具体为：对该输入做全局平均池化生成1×1×1024的实数序列，经过卷积操作将其降维得到1×1×128的输出，再经过ReLu激活函数层激活，然后经过卷积操作将其升维为原来的维度得到1×1×1024的输出，利用Sigmoid函数层将该实数序列归一化得到权重，与原13×13×1024的特征图加权融合后进入特征交互层3；

特征交互层3是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512，步长均为1，得到13×13×512的特征图；然后分成两条线路继续进行，第一条线路是2步卷积操作，卷积核的尺寸及个数依次为3×3×1024和1×1×18，得到13×13×18的特征图1；第二条线路是先进行1步卷积操作，卷积核的尺寸及个数为1×1×256，得到13×13×256的特征图之后进行上采样操作放大特征图为原来的两倍，即得到26×26×256的特征图，与阶段2得到的26×26×512的特征图做矩阵拼接，得到26×26×768的特征图，进入特征交互层2；

特征交互层2也是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256，步长均为1，得到26×26×256的特征图；然后再分成两条线路继续进行，第一条线路是2步卷积操作，卷积核的尺寸及个数依次为3×3×512和1×1×18，得到26×26×18的特征图2；第二条线路仍是上采样操作，放大特征图为原来的两倍，得到52×52×128的特征图，与阶段1得到的52×52×256的特征图做矩阵拼接，得到52×52×384的特征图，进入特征交互层1；

特征交互层1是一个卷积模块，包含5步卷积操作，卷积核尺寸及个数依次为1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128，步长均为1，得到52×52×128的特征图；然后是2步卷积操作，卷积核的尺寸及个数依次为3×3×256和1×1×18，得到52×52×18的特征图3；

卷积层：包含三步操作，一是卷积操作，此处的卷积方式是same卷积；卷积核的尺寸决定局部感受野的大小，卷积核的个数决定卷积之后的通道数；二是批量归一化操作，将图片进行卷积之后得到的输出结果通过该层归一化到[0,1]范围内，使其均值为0，方差为1；三是激活操作，将归一化后的结果通过该层激活函数的处理引入非线性元素，增强网络的能力；

以及1个类别信息/>

表示第i个预测框包含目标的概率，类别概率/>

为多维向量，表示第i个预测框的目标是某一类别的概率；需要注意的是，t_xi,t_yi,t_wi,t_hi这四个参数是相对坐标位置，需要转换为最终在原始图片中的实际坐标；转换公式如下：

/>

其中，t_xi,t_yi,t_wi,t_hi是预测框的相对坐标值，σ(·)表示Sigmoid函数，p_w、p_h表示预测框对应锚框的宽度以及高度，c_x、c_y表示预测框相对图片左上角位置坐标的偏移量，

表示预测框中心点的实际坐标，/>

表示预测框的实际宽度以及高度。

5.根据权利要求1所述的一种基于深度神经网络的车牌识别和定位方法，步骤四中利用已建立的车牌数据集对该网络模型进行训练；具体如下：

(1)网络随机初始化权值，使初始化的值服从高斯正态分布；

(2)输入数据经过步骤二中的网络结构向前传播得到输出值为特征图1、特征图2、特征图3，并利用特征图信息得到预测边框的信息

(3)将数据集中标注出的真实框与聚类得到的锚框进行匹配：计算出真实框所在的中心点，筛选出此中心点对应的锚框(共九个)，选取与真实框有最大IOU值的锚框作为目标框，并将该真实框的坐标值信息赋给目标框，即得到目标框的坐标值(x_i,y_i,w_i,h_i)，并将目标框的类别值p_i设置为1，置信度值C_i设置为1，其余未标记的锚框的参数值均设置为0；

(4)利用提出的损失函数求网络预测边框的输出值与真实边界框的目标值之间的误差损失，该损失函数包含位置损失、置信度损失和类别损失，具体如下：

位置损失

中心损失center_loss包含x_loss和y_loss，x_loss和y_loss使用的函数为二值交叉熵函数，尺度损失size_loss使用的函数为平方函数；

cen ter_loss＝x_loss+y_loss

其中，N表示网络预测的边界框的总数，

表示网络预测的第i个边界框的宽度和高度，α用于调整尺度损失在所有损失中所占据的比例；

置信度损失

置信度损失使用的函数为二值交叉熵函数：

confiden ce_loss＝o bj_loss+n o o bj_loss其中，C_i表示目标所在第i个边界框的置信度，

表示网络预测的第i个边界框的置信度；

类别损失

其中，p_i表示目标所在第i个边界框中车牌的概率，

表示网络预测的第i个边界框中车牌的概率；

最终的损失函数loss为：

loss＝center_loss+size_loss+confidence_loss+cls_loss(5)当迭代次数<epoch时，利用Adam优化算法进行权值更新，直到损失值低于设置的阈值；当误差小于阈值或者迭代次数>epoch时，结束训练,epoch根据精度要求设定。

6.根据权利要求1所述的一种基于深度神经网络的车牌识别和定位方法，步骤五中采用IOU＝0.8时的检测准确率作为算法性能的度量指标，对已训练好的模型进行评估测试；具体如下：采用HyperLPR算法和数学形态法作为对比算法，设定该算法对输入图片检测成功与否的判定依据是该算法对输入图片的预测矩形框和该图片的真实矩形框间的交并比是否大于0.8；测试过程中场景的变化因素主要包括光照、车牌区域污染以及天气干扰等；