CN113947766A

CN113947766A - 一种基于卷积神经网络的实时车牌检测方法

Info

Publication number: CN113947766A
Application number: CN202111567665.7A
Authority: CN
Inventors: 徐芬; 曹卫强; 徐晓刚; 王军; 何鹏飞; 虞舒敏
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-01-18
Anticipated expiration: 2041-12-21
Also published as: CN113947766B

Abstract

本发明公开了一种基于卷积神经网络的实时车牌检测方法，包括如下步骤：获取包含车牌的车辆图像，作为训练集，设计keypoint‑Anchor，提取训练集的特征；使用基于深度卷积神经网络的检测模型，作为车牌检测的基线网络架构，并按keypoint‑Anchor方式修改检测模型；使用训练集、目标框坐标及角点坐标对修改后的检测模型进行训练，获得训练好的检测模型；使用训练好的检测模型对待检测的图像进行检测，获得不同角度拍摄图像中车牌的检测结果。本发明实现方法简单，可移植性强，能够实现对摄像头拍摄的公路上、停车场、小区出入口等场所中车牌的精准检测。

Description

一种基于卷积神经网络的实时车牌检测方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于卷积神经网络的实时车牌检测方法。

背景技术

汽车给人们出行带来方便的同时也产生了城市交通拥挤的问题，这种现象给人们的生活带来极大地不便，迫切需要相应有效的手段去解决。车牌作为汽车的标志具有唯一性，获取了车牌号码，车辆的所有信息(如车种、车主等)便一目了然。其中，精确的定位车牌位置是这项技术的关键之一。

近些年来，利用数字图像处理和计算机视觉等相关技术，自动识别出车牌号码，并存放到系统数据库中，作为安全管理和收费管理的辅助工具，加强停车场的安全管理，有效杜绝漏收、误收等现象的发生。开发了很多基于车牌自动检测识别的小区车辆管理系统。自动车牌检测的方法众多，但大多数现有方法都把注意力放在特定车牌区域，并且数据集一般是车辆正面车牌比较清晰的区域，环境适应性差，无法满足复杂场景倾斜车牌检测需求。

YOLO神经网络架构，采用了YOLO算法，其全称是You Only Look Once: Unified,Real-Time Object Detection，You Only Look Once表示只需要一次CNN运算，Unified表明这是一个统一的框架，提供end-to-end的预测，而Real-Time体现是Yolo算法速度快，Object Detection表示目标检测。传统的采用YOLO神经网络进行的车牌检测，仅采用目标框、置信度参与损失计算，这对车牌包络特征的识别存在一定的局限性。

Wing-loss通常用于人脸关键点回归任务，旨在提高深度网络训练过程中应对小范围和中等范围内的误差的能力。每个关键点的回归难度不一样，在训练初期，所有的点误差都很大，即large error，训练到中后期时，大部分点都已经基本准确，但是还不够准，此时是small error，乳戏王回归得更准确，就必须放大损失，这是wing loss中采用对数损失的意义。在训练的后期，仍然可能出现一两个关键点的损失是large loss，即离群点，此时其他点的损失都很小，如果用原始的损失函数，在这一次的反向传播中，离群点的损失占据了主导，这对其他点的回归是一种损害，应该要让离群点的损失减小一些，这是wing loss中分段函数的意义。

发明内容

本公开解决的技术问题是提供一种基于卷积神经网络的实时车牌检测方法，以至少部分地解决现有技术中目标区域识别效率低的技术问题。此外，还提供一种基于卷积神经网络的实时车牌检测装置。

为解决现有技术的不足，实现车牌识别精度高，识别速度快的目的，本发明采用如下的技术方案：

一种基于卷积神经网络的实时车牌检测方法，包括如下步骤：

S1，获取包含车牌的车辆图像，通过关键点锚框联合锚定keypoint-Anchor，将锚框与对应的一组关键点共同标注车牌，将标注的车辆图像作为训练集，并提取图像特征；所述锚框为包含车牌的矩形框，通过矩形框左上角TU（x_lu,y_lu）和右下角TD（x_rd,y_rd）的对角坐标确定位置。所述关键点的位置，为车牌四个角点A（x₁,y₁）,B（x₂,y₂）,C（x₃,y₃）,D（x₄,y₄）的坐标。

S2，构建车辆检测模型，将基于深度卷积神经网络的检测模型，作为车牌检测的基线网络架构，所述深度卷积神经网络采用YOLO网络架构，包括输入层、骨干网、输出层，输出层包括一组YOLO层，分别用于预测不同尺度大小的物体，每个YOLO层设有一组候选框。所述骨干网包括卷积层、残差单元、最大池化和批归一化。根据关键点与锚框联合锚定的方式修改检测模型，包括如下步骤：

S21，修改模型输出层的张量，根据输出层特征图上的每个点，生成一组候选框，对应输出层的张量包括候选框信息、关键点信息、置信度；

所述关键点信息，为关键点个数和关键点的位置；所述S22中的关键点损失，通过预测的关键点位置与输入图像的关键点位置真值计算损失得到。

所述关键点损失，采用Wing-loss计算：

其中

，是一个常数，用于平滑的连接分段的线性和非线性部分，

=10，将非线性部分的范围限制在

区间内，

=2，用于约束非线性区域的曲率；

其中

表示神经网络预测的第i个关键点位置，

表示第i个输入图像的关键点位置真值。

所述候选框信息，为候选框的个数和候选框的位置；所述S22中的目标框损失，通过预测的候选框位置与输入图像的锚框位置真值计算损失得到。所述候选框的位置，是候选框中心点坐标及候选框的宽、高。

所述置信度包括目标置信度和目标类别置信度，目标置信度表示预测的位置是否包含目标，目标类别置信度表示目标的类别是否为车牌；所述S22中的置信度损失包括目标置信度损失和目标类别置信度损失，目标置信度损失通过预测是否有目标与目标真值计算损失得到，目标类别置信度损失通过预测目标是否为车牌与车牌真值计算损失得到。

S22，修改模型的损失计算，损失计算包括目标框损失、置信度损失、关键点损失，并通过权重因子计算联合损失；通过关键点信息新增关键点损失计算，并计入联合损失，相较于水平框，能够得到更符合车牌的包括特征；

S3，将提取的图像特征输入车辆检测模型进行训练；

S4，通过训练好的车辆检测模型，对待检测的车辆图像进行检测，得到车牌检测结果。

本发明的优势和有益效果在于：

本发明对训练集进行特征提取，获得目标坐标避免了人为手工设计特征。

本发明使用基于深度卷积神经网络的检测模型，作为车牌检测的基线网络架构，并按keypoint-Anchor方式修改检测模型，设计了一种基于任意方向检测框的单阶段检测网络架构，与传统的基于水平框的检测框架相比，检测速度相当，保持了单阶段检测网络检测速度快的优势；并且，可以更好地修正车牌检测区域，检测结果更符合车牌的包络特征，检测效果优于传统的水平框检测网络。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的方法流程图。

图2为本发明中数据集标注示意图。

图3为本发明中车牌检测结果示意图。

图4是本发明一种基于卷积神经网络的实时车牌检测装置的结构图。

具体实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，一种基于卷积神经网络的实时车牌检测方法，包括以下步骤：

步骤S1，获取包含车牌的汽车图像，通过关键点锚框联合锚定keypoint-Anchor将锚框与对应的一组关键点共同标注车牌，将标注的车辆图像作为训练集，并提取图像特征；

具体地，采集停车场、公路上等各场所中，带有车牌的汽车作为训练集素材，选取符合条件的图像，对图像中汽车车牌进行标注，得到标注车牌的汽车图像作为训练集；

设计keypoint-Anchor，其由车牌包围框和车牌四个角点组成，包含（TU，TD，A，B，C,D）六个坐标信息，如图2所示；图片大小为720×1160，其中车牌包围框，由左上角TU（243，504）和右下角TD（459，678）的坐标确定，车牌四个角点由A（253，504）,B（459，590）,C（449，678）,D（243，592）四个角点的坐标确定；本实例中检测目标车牌通过四个角点即可确定目标包络，所以目标角点选取四个，若检测目标不规则，需要多个角点确定目标包络，本发明可拓宽到多个角点。

步骤S2，构建车辆检测模型，将基于深度卷积神经网络的检测模型，作为车牌检测的基线网络架构，并根据关键点与锚框联合锚定的方式修改检测模型；

所述深度卷积神经网络采用YOLO网络架构，包括输入层、骨干网、输出层，输出层包括一组YOLO层，每个YOLO层设有一组候选框。

具体地，因为YOLOv5是目前深度卷积神经网络检测架构中，精度与速度权衡最优的模型，本实施例选择YOLOv5深度卷积神经网络作为车牌检测的基线网络架构，按keypoint-Anchor方式修改检测模型；YOLOv5网络架构是YOLO系列架构中最新的架构模型，包含依次连接的输入层，骨干网，颈项网和预测输出层四个部分；Yolov5的输入层与其他目标检测网络一样，输入图片的特征；Yolov5的骨干网除了借鉴残差网络结构外，还采用了聚焦结构并借鉴了跨级部分网络结构，其中聚焦结构在之前的YOLO系列中并没有这个结构，其中比较关键是切片操作。比如将4*4*3的图像切片后变成2*2*12的特征图。以Yolov5s的结构为例，原始608*608*3的图像输入聚焦结构，采用切片操作，先变成304*304*12的特征图，再经过一次32个卷积核的卷积操作，最终变成304*304*32的特征图。需要注意的是：Yolov5s的聚焦结构最后使用了32个卷积核，而其他三种结构（指Yolov5m，Yolov5l，Yolov5xl），使用的数量有所增加，这样Yolov5通过骨干网提取出的特征将更丰富；Yolov5的颈项网采用特征金字塔与金字塔注意网络结合的网络结构，Yolov5的颈项网除了采用普通的卷积操作外，还借鉴跨级部分网络结构，加强网络特征融合的能力；Yolov5的输出层包含三个输出，分别用于预测不同尺度大小的物体，每个输出除了包含一个卷积层外，还各自包含一个YOLO层，用于输出预测目标的概率和位置信息等。

按keypoint-Anchor方式更新模型是本发明的核心；其中主要修改YOLOv5深度卷积神经网络中YOLO层的张量输出深度和损失计算两个部分，具体过程如下：

步骤S21，修改模型输出层的张量，根据输出层特征图上的每个点，生成一组候选框，对应输出层的张量包括候选框信息、关键点信息、置信度；

所述S21中的关键点信息，为关键点个数和关键点的位置；所述关键点的位置，为车牌角点的坐标；所述S21中的候选框信息，为候选框的个数和候选框的位置；所述S21中的置信度包括目标置信度和目标类别置信度，目标置信度表示预测的位置是否包含目标，目标类别置信度表示目标的类别是否为车牌。使keypoint-Anchor确定的框紧紧地贴着车牌边缘，达到分割的效果，更符合车牌的包络特征。

修改YOLOv5深度卷积神经网络中YOLO层的张量输出深度；

本发明中每个YOLO层设计了3个锚框（Anchor），例如：输入640*640的图像数据，通过YOLO层，分别进行32、16、8降采样，得到20*20、40*40、80*80的特征图，对特征图上每个点（每个像素点，如20*20=400）将生成3个边框（Bounding box），对应到YOLO层输出张量深度为3×(4+1+8+N)，其中N为类别个数，本实施例只检测车牌一个类别，则N=1；3表示在特征图上每个点处的对应的Bounding box数量；每个Bounding box包含的信息：1）每个框的位置（4个参数，包括中心点坐标，框的宽高；2）目标的置信度（1个参数）；3）四个角点的坐标（8个参数）；4）N个类别的置信度（N个参数）；这样设计的YOLO层张量信息与输出一一对应。

步骤S22，修改模型的损失计算，损失计算包括目标框损失、置信度损失、关键点损失，并通过权重因子计算联合损失；

所述S22中的关键点损失，通过预测的关键点位置与输入图像的关键点位置真值计算损失得到；所述S22中的目标框损失，通过预测的候选框位置与输入图像的锚框位置真值计算损失得到；所述S22中的置信度损失包括目标置信度损失和目标类别置信度损失，目标置信度损失通过预测是否有目标与目标真值计算损失得到，目标类别置信度损失通过预测目标是否为车牌与车牌真值计算损失得到。使keypoint-Anchor确定的框紧紧地贴着车牌边缘，达到分割的效果，更符合车牌的包络特征。

修改YOLOv5 深度卷积神经网络中损失计算；

损失函数是用来衡量预测与实际数据的差距程度的，它是一个非负实函数；损失函数越小，模型的鲁棒性就越好；本发明中损失函数由目标框损失、置信度损失、目标角点损失和目标类别损失四部分组成；

其中，

代表总损失函数；

表示目标框损失，根据神经网络预测的候选框与输入图像中TU、TD构成的锚框计算损失，

表示置信度损失，根据神经网络预测的目标置信度（即预测位置是否有目标）与输入图像的目标真值计算损失，

表示目标类别置信度损失，根据神经网络预测的目标类别置信度（目标是否为车牌）与输入图像的车牌真值计算损失，与YOLOv5架构中的损失计算方式保持一致，本发明不做任何修改；

代表目标角点损失，是本发明新增损失，采用Wing-loss计算方式；

代表各损失的权重因子，分别设置为0.05，1.0，0.5，0.005。判断预测是否为目标是最重要的，因此置信度损失的权重因子β 应该是所有值中最大的，我们设置为1.0；其次目标类别是次重要的，因此目标类别置信度损失的权重因子γ是所有值中次大的，我们设置为0.5；本发明的目标角点的预测是依赖水平目标框的，故而水平目标框的重要性要大于目标角点，所以我们将目标框损失的权重因子ɑ设置为0.05，将目标角点损失的权重因子δ设置为0.005。

Wing-loss计算公式为：

其中

，是一个常数，用于平滑的连接分段的线性和非线性部分，

=10，将非线性部分的范围限制在

区间内，

=2，用于约束非线性区域的曲率；

其中

表示神经网络预测的第i个角点，即关键点，

表示第i个输入图像关键点的真值（ground truth）。步骤S3，将提取的图像特征输入车辆检测模型进行训练；

将所述keypoint-Anchor特征信息输入修改后的检测模型进行训练，预设训练次数；当达到预设训练次数或者网络模型收敛时，结束训练，得到训练好的检测模型。

训练阶段，将通过不同拍摄设备，随机采集的不同车辆，不同时间，不同光照，不同拍照角度，不同天气的34865张有效图片及其标注信息组成的车牌检测数据集输入修改后的检测模型进行训练，此外训练时的测试集包含与训练集相同采集条件的8185张图片及其标注信息；训练时，图片输入尺寸为800×800，数据集的标注信息为keypoint-Anchor特征信息，包含车牌水平包围框坐标和车牌四个角点坐标信息；设置训练批处理大小为16，训练迭代次数为250个周期；初始模型采用YOLOv5官网提供的预训练模型yolov5s.pt；训练第一个周期，目标框损失为0.043，置信度损失为0.008，目标框类别损失为0，目标角点损失为0.038，总损失为0.089，mAP@.5为0.253；训练期间，各损失逐渐下降，待训练240个周期后，损失趋于平稳，无下降趋势；训练第250个周期，目标框损失为0.015，置信度损失为0.002，目标框类别损失为0，目标角点损失为0.004，总损失为0.021，mAP@.5为0.997；判定此时网络已收敛，结束训练，得到训练好的检测模型。

步骤S4，通过训练好的检测模型，对待检测的车辆图像进行检测，得到车牌检测结果。

输入测试图像，通过训练好的检测模型推理得到车牌的检测结果如图3所示，相对于水平框来说，通过keypoint-Anchor确定的框更符合车牌的包络特征。

推理阶段，我们设置目标概率阈值为0.3，即当预测目标概率大于等于0.3时，我们认为此预测为目标，进行输出，当预测目标概率小于0.3时，我们认为此预测为非目标，进行滤除，不输出；我们设置交并比阈值为0.5，即当预测目标水平框间交并比值小于等于0.5时，我们认为此预测框为目标，进行输出，当预测目标目标水平框间交并比值大于0.5时，我们认为此预测框为重复框，进行滤除，不输出；然后，输入待检测图像，通过训练好的检测模型推理得到车牌的检测结果如图3所示，从图3中可以看出，水平框除车牌外，还包含车牌周围大量的背景信息，而通过keypoint-Anchor确定的框紧紧地贴着车牌边缘，达到分割的效果，更符合车牌的包络特征。通过本发明检测出的包络框对于下流应用，如车牌识别，将更好，所包含的无效干扰信息将更少。

与前述基于卷积神经网络的实时车牌检测方法的实施例相对应，本发明还提供了基于卷积神经网络的实时车牌检测装置的实施例。

参见图4，本发明实施例提供的一种基于卷积神经网络的实时车牌检测装置，包括一个或多个处理器，用于实现上述实施例中的基于卷积神经网络的实时车牌检测方法。

本发明基于卷积神经网络的实时车牌检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于卷积神经网络的实时车牌检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于卷积神经网络的实时车牌检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于卷积神经网络的实时车牌检测方法，其特征在于包括如下步骤：

S1，获取包含车牌的车辆图像，通过关键点锚框联合锚定keypoint-Anchor，将锚框与对应的一组关键点共同标注车牌，将标注的车辆图像作为训练集，并提取图像特征；

S2，构建车辆检测模型，将基于深度卷积神经网络的检测模型，作为车牌检测的基线网络架构，并根据关键点与锚框联合锚定的方式修改检测模型，包括如下步骤：

S22，修改模型的损失计算，损失计算包括目标框损失、置信度损失、关键点损失，并通过权重因子计算联合损失；

S3，将提取的图像特征输入车辆检测模型进行训练；

2.根据权利要求1所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述S21中的关键点信息，为关键点个数和关键点的位置；所述S22中的关键点损失，通过预测的关键点位置与输入图像的关键点位置真值计算损失得到。

3.根据权利要求2所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述关键点损失，采用Wing-loss计算：

其中

，是一个常数，用于平滑的连接分段的线性和非线性部分，

将非线性部分的范围限制在

区间内，

用于约束非线性区域的曲率；

其中

表示神经网络预测的第i个关键点位置，

表示第i个输入图像的关键点位置真值。

4.根据权利要求2所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述关键点的位置，为车牌角点的坐标。

5.根据权利要求1所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述深度卷积神经网络采用YOLO网络架构，包括输入层、骨干网、输出层，输出层包括一组YOLO层，每个YOLO层设有一组候选框。

6.根据权利要求5所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述骨干网包括卷积层、残差单元、最大池化和批归一化。

7.根据权利要求1所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述S1中的锚框，为包含车牌的矩形框，通过矩形框的对角坐标确定位置。

8.根据权利要求1所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述S21中的候选框信息，为候选框的个数和候选框的位置；所述S22中的目标框损失，通过预测的候选框位置与输入图像的锚框位置真值计算损失得到。

9.根据权利要求8所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述候选框的位置，是候选框中心点坐标及候选框的宽、高。

10.根据权利要求1所述的一种基于卷积神经网络的实时车牌检测方法，其特征在于所述S21中的置信度包括目标置信度和目标类别置信度，目标置信度表示预测的位置是否包含目标，目标类别置信度表示目标的类别是否为车牌；所述S22中的置信度损失包括目标置信度损失和目标类别置信度损失，目标置信度损失通过预测是否有目标与目标真值计算损失得到，目标类别置信度损失通过预测目标是否为车牌与车牌真值计算损失得到。