CN115424243A

CN115424243A - 基于yolov5-shufflenetv2的车位号码识别方法、设备和介质

Info

Publication number: CN115424243A
Application number: CN202211055766.0A
Authority: CN
Inventors: 方柱; 吴锐; 谢乐成; 单玉梅
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-02

Abstract

本发明涉及交车位号识别技术领域，为基于yolov5‑shufflenetv2的车位号码识别方法、设备和介质。该方法包括改进yolov5目标检测网络结构，将yolov5原始模型的主干网络更换为CNN网络shufflenetv2得到车位号码识别模；采集制作车位号的数据集，根据车位号的数据集处理为车位号训练集，使用车位号训练集对车位号码识别模型进行训练；将输入车位号图片输入训练后的车位号码识别模型进行车位号码识别，输出车位号结果。本发明可以在停车位号有限文字类别的情况下，提高了停车位号识别的准确度和速度。

Description

基于yolov5-shufflenetv2的车位号码识别方法、设备和介质

技术领域

本发明涉及交车位号识别，具体涉及基于yolov5-shufflenetv2的车位号码识别方法、设备和介质。

背景技术

车位号识别是OCR(Optical Character Recognition)技术的一种，OCR是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。根据识别场景，可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR，停车位号识别是特定场景的OCR识别。进行车位号识别的车载终端没有gpu只能使用cpu来运行算法，所以，对于模型的运算速度有很严格的需求，而且在一张图片中有多个停车位号需要识别，更需要极快的速度。

为了克服现有技术ocr识别的不足，因为现有ocr技术很难在保证识别精度的情况下降低到能在实车上进行实时检测，离索要达到的识别速度相差甚远。并且由于停车位号的数量较多，每一个停车位号都需要单独的识别，会导致ocr识别速度翻倍增长，所以更需要速度极快的算法，而常规使用的轻量ocr算法对文字的角度有很高的要求性，仅仅能够识别角度没有任何偏转的文字，停车位号有着过于复杂的角度，轻量ocr算法完全无法识别出来。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于yolov5-shufflenetv2的车位号码识别方法、设备和介质，通过将yolov5s算法backbone结构更换为shufflenetv2并进行车位及车位号检测，在停车位号有限文字类别的情况下，提高了停车位号识别的准确度和速度。

本发明的第一个目的在于提供基于yolov5-shufflenetv2的车位号码识别方法。

本发明的第二个目的在于提供一种计算机设备。

本发明的第三个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

基于yolov5-shufflenetv2的车位号码识别方法，所述方法包括：

改进yolov5目标检测网络结构，将yolov5原始模型的主干网络更换为CNN网络shufflenetv2得到车位号码识别模型；

采集制作车位号的数据集，根据车位号的数据集处理为车位号训练集，使用车位号训练集对车位号码识别模型进行训练；

将输入车位号图片输入训练后的车位号码识别模型进行车位号码识别，输出车位号结果。

优选的技术方案中，所述的基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，改进yolov5目标检测网络结构，将yolov5原始模型的主干网络更换为CNN网络shufflenetv2车位号码识别模型包括：

将yolov5s的Focus头模块更换为stem模块，输入特征图进行卷积核大小为为3×3的卷积操作；

添加6个invertedResidual模块，invertedResidual模块用于将输入的特征图分成两个分支，两个分支的输出在通道上对特征图进行相叠加；

将所添加的模块名称全部加入import列表，并且在后续的模块调用代码中添加所使用的模块名称。

本发明的第二个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的基于yolov5-shufflenetv2的车位号码识别。

本发明的第三个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的基于yolov5-shufflenetv2的车位号码识别。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提供了基于yolov5-shufflenetv2的车位号码识别方法、设备和介质，通过将yolov5s算法backbone结构更换为shufflenetv2并进行车位及车位号检测，在停车位号有限文字类别的情况下，提高了停车位号识别的准确度和速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例中的车位号码识别方法流程示意图；

图2是本发明实施例中的模型输出图片结果示意图。

具体实施方式

下面将结合附图和实施例，对本发明技术方案做进一步详细描述，显然所描述的实施例是本发明一部分实施例，而不是全部的实施例，本发明的实施方式并不限于此。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，车位号码识别方法流程示意图，本发明所述的基于yolov5-shufflenetv2的车位号码识别方法，包括以下步骤：

S1、改进yolov5目标检测网络结构，将yolov5原始模型的主干网络更换为CNN网络shufflenetv2，得到车位号码识别模型；

深度CNN网络如ResNet和DenseNet，可以极大地提高了backbone网络的准确度。但是除了准确度外，计算复杂度也是CNN网络要考虑的重要指标，过复杂的网络速度很慢，为了满足部署在车载嵌入式设备上模型的速度和精度，本发明采用ShuffleNetv2替换了yolov5原始的backbone主干网络，在同等复杂度下，ShuffleNetv2比ShuffleNet和MobileNetv2更准确，能够做到实时的车位号检测。

Yolov5网络由backbone，neck和head三个部分组成，neck网络利用FPN(FeaturePyramid Networks)层自顶向下传达强语义特征，PAN(PyramidAttention Network)自底向上传达强定位特征，来提取精确的图像的整体特征用于检测。

将yolov5原始模型的backbone更换为轻量级CNN网络shufflenetv2，具体包括：

S11、将yolov5模型的yaml文件中的原始backbone更换为shufflenetv2。其中原始backbone代码包括:

基于shufflenetv2的backbone包括:

S12、将yolov5s的Focus模块更换为stem模块，修改models/common.py文件，添加的每个模块都定义成新的类，将所需模块代码添加进common.py文件。

Focus模块在v5中用于图片进入backbone前，对图片进行切片操作，减少图片大小，通道数变大四倍，将得到的新图片再经过卷积操作。用Stem模块替代网络中原有的Focus模块，输入特征图进行卷积核大小为为3×3的卷积操作，其主要的目的是改变特征图的通道数。然后网络结构分为两个支路，特征图也分为两部分，一部分特征图进行最大值池化，另一部分特征图先进行1×1的卷积降低一半的通道数，之后再进行3×3，步长为2的卷积实现第二次下采样。两个分支的输出结果按通道这一维度进行拼接，最后再进行一次1×1的卷积还原通道的数量。Stem模块提高了网络的泛化能力，降低了计算复杂度，同时性能也没有下降。

S13、添加6个invertedResidual模块，invertedResidual模块用于将输入的特征图分成两个分支，相当于已经分成两组，两个分支的输出不再是Add元素，两个分支的输出在通道上对特征图进行相叠加，即两个分支的输出concat操作在一起，紧接着是对两个分支concat结果进行通道洗牌channleshuffle，以保证两个分支信息交流。通道洗牌channleshuffle就是打乱原特征图通道顺序,根据所给组数，然后将通道分组后作为输入(input)，输出还是组的形式，再将其拼接就是和原来输入一样shape的特征图了。

优选地，invertedResidual模块包括深度可分类卷积DepthwiseConvolution，该卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的featuremap通道数和输入的通道数完全一样，SeparableConvolution的计算量是常规卷积的约1/3，会大大提升模型速度。

shufflenetv2网络输出8倍，16倍，32倍下采样后的特征图，后接yolov5s原始模块。

S14、将所添加的模块名称全部加入import列表，并且在后续的模块调用代码中添加所使用的模块名称。

S2、采集制作车位号的数据集，根据车位号的数据集划分为车位号训练集和测试，使用车位号训练集对车位号码识别模型进行训练。

由于车位号角度多变，车位号字型种类繁杂，对模型的训练会造成很大困扰，且车位开源数据集在网上较少，少量的数据集也无法满足本专利的需求，需要采集不同停车场的停车位号数据集。

S21、通过摄像头在停车场进行车位及车位号数据采集，将视频数据进行抽帧处理，得到车位图片，再通过深度学习算法，将车位号图片裁剪出来，人工筛选并进行标注，得到标注的车位号数据集。

通过摄像头在停车场进行车位及车位号数据采集，将视频数据进行抽帧处理，得到车位图片，再通过深度学习算法，将车位号图片裁剪出来，人工筛选并进行标注，得到车位号的数据集。

采集不同停车场的停车位数据集后，通过已经训练好的精度高但运行速度慢的深度学习网络对车位数据集进行停车位号识别，得到一部分停车位号图片，进行人工筛选标注，停车位号种类分为数字[0-9]、英文字母[A-Z]、中文字符[ceng,nvshi,jiayou]。车位号的数据集可以根据具体使用场景进行label的增添，来增加更多的使用场景。

S22、将标注好的车位号数据集生成包含停车位号标注信息的xml文件，通过python进行数据处理成模型可输入的coco数据集格式，然后转换为tensorflow的cache文件，得到yolov5模型的车位号数据集。

车位号训练集标注格式：category(0，1，2，3，…)rx ry w h；其中，rx，ry为检测框中心，wh为宽高。

设置模型型训练超参数，mosaic图像数据增强，使用k-means+遗传进化算法选择出与数据集更匹配的anchors框。

为了扩充数据集和增强模型的鲁棒性，能够适应更多不同的场景，本发明采用了mosaic图像数据增强，利用了四张图片，对四张图片进行拼接，每一张图片都有其对应的框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框。

分别对四张图片进行数据增广操作，并分别粘贴至与最终输出图像大小相等掩模的对应位置。进行数据增广操作包括：对原始图片进行左右的翻转，对原始图片进行大小的缩放；对原始图片的明亮度、饱和度、色调进行改变等操作，经过该操作后在进行拼接。

S23、根据车位号的数据集划分为车位号训练集和测试，使用车位号训练集对车位号码识别模型进行训练，车位号码识别模型根据车位号码识别模型初步训练情况，对数据集及车位号码识别模型超参数进行优化。

对车位号码识别模型超参数进行优化包括：

图片分辨率修，改将输入图片分辨率设置为128*256(因为车位号图像的长宽比近似于1：2)，保证模型的精度和速度。

对车位号数字的锚框anchor进行了重新聚类，采用k-means算法确定出最优的anchor系数，聚类anchor步骤：

首先将聚类个数k设置为9，聚类出9个锚框anchor，得到数据的分布图；根据数据分布图，设置不同的像素层级界限，层数为3层，每层有3个anchor；在分层后的像素范围内进行聚类，获得3层，每层3个anchor共9个anchor。

对数据集进行优化包括：

对数据集添加更多的正样本，增大数据量，在使用已训练好的较差效果模型对数据进行推理，将模型认为正确的负样本的label设置为其他类别，将该负样本加入训练。

anchor是目标检测中用于预测样本与真实样本进行匹配的一个基准框，使用k-means+遗传进化算法选择出与数据集更匹配的anchors框，可以大大提高模型对不同比例尺的目标检测召回率，召回率是预测样本占真实样本的比例。

k-means算法是输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。k-means算法接受输入量k，然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足，同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。

根据模型训练得到的结果，调整学习率、batchnorm的滑动平均动量等超参数，学习率决定着目标函数能否收敛到局部最小值以及何时收敛到最小值，batchnorm可以归一化数据的分布。

为了进一步优化损失函数的下降速率，加快函数的收敛速度，优化器选用adam(adaptive moment estimation)，它能够对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。

S24、对车位号码识别模型进行迭代训练

同时根据模型的评测精确率和召回率，对模型当中正负样本的阈值进行调整，迭代训练，最后导出最后的模型pt文件，pt文件为torch默认保存的模型参数文件格式。

S3、将车位号图片输入训练后的车位号码识别模型进行车位号码识别，输出车位号结果。

将pt模型进行量化生成tflite格式，量化后的模型参数由32位转换成了16位，参数之间的运算量大大减少，速度增快2倍，将其部署在车载安卓环境中。将车位号图片输入训练后的车位号码识别模型进行车位号码识别，输出车位号结果。如图2所示，是本发明实施例中的模型输出图片结果示意图，使用训练后模型对输入车位号图片进行推理得到的结果。

实施例2：

本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，其包括通过系统总线连接的处理器、存储器、输入装置、显示器和网络接口，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统、计算机程序和数据库，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器执行存储器存储的计算机程序时，实现上述实施例1的基于yolov5-shufflenetv2的车位号码识别方法，包括步骤：

所述采集制作车位号的数据集，根据车位号的数据集处理为车位号训练集，使用车位号训练集对车位号码识别模型进行训练，包括：

通过摄像头在停车场进行车位及车位号数据采集，将视频数据进行抽帧处理，得到车位图片，再通过深度学习算法，将车位号图片裁剪出来，人工筛选并进行标注，到标注的车位号数据集；

将标注好的车位号数据集生成包含停车位号标注信息的xml文件，通过python进行数据处理成模型可输入的coco数据集格式，然后转换为tensorflow的cache文件，得到yolov5模型的车位号数据集；

根据车位号的数据集划分为车位号训练集和测试，使用车位号训练集对车位号码识别模型进行训练，车位号码识别模型根据车位号码识别模型初步训练情况，对数据集及车位号码识别模型超参数进行优化；

对车位号码识别模型进行迭代训练。

实施例3：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的基于yolov5-shufflenetv2的车位号码识别方法，，包括步骤：

对车位号码识别模型进行迭代训练。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，改进yolov5目标检测网络结构，将yolov5原始模型的主干网络更换为CNN网络shufflenetv2车位号码识别模型包括：

3.根据权利要求2所述的基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，所述invertedResidual模块包括深度可分类卷积，深度可分类卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。

4.根据权利要求1所述的基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，所述采集制作车位号的数据集，根据车位号的数据集处理为车位号训练集，使用车位号训练集对车位号码识别模型进行训练，包括：

对车位号码识别模型进行迭代训练。

5.根据权利要求4所述的基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，对车位号码识别模型超参数进行优化包括：

将输入车位号图片分辨率设置为128*256；

对车位号数字的锚框anchor进行重新聚类，采用k-means算法确定出最优的anchor系数；

对车位号数字的锚框anchor进行重新聚类，包括：

将聚类个数k设置为9，聚类出9个锚框anchor，得到数据的分布图；

根据数据分布图，设置不同的像素层级界限，层数为3层，每层有3个锚框anchor；在分层后的像素范围内进行聚类。

6.根据权利要求4所述的基于改进Yolov5-shufflenetv2的车位号码识别方法，其特征在于，对数据集进行优化包括：

7.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-6任一项所述的基于yolov5-shufflenetv2的车位号码识别方法。

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6任一项所述的基于yolov5-shufflenetv2的车位号码识别方法。