CN117392659A

CN117392659A - 一种基于无参数注意力机制优化的车辆车牌定位方法

Info

Publication number: CN117392659A
Application number: CN202311694304.8A
Authority: CN
Inventors: 黎木平; 许建荣; 张枭勇; 刘宇鸣; 陈振武
Original assignee: Shenzhen Urban Transport Planning Center Co Ltd
Current assignee: Shenzhen Urban Transport Planning Center Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-01-12

Abstract

本发明提出一种基于无参数注意力机制优化的车辆车牌定位方法，属于智能交通技术领域。包括以下步骤：S1.获取车辆行驶数据，在车辆行驶数据中获得车辆图像，并标注车辆车牌位置；S2.对车辆图像进行分辨率统一处理，形成训练数据集；S3.构建定位模型网络结构，并对模型训练；S4.将车辆图像数据输入至定位模型中，输出车牌的位置。解决现有技术中存在输出精度差和效率低的技术问题。本发明引入了SimAM无参数注意力机制模块，有助于提供强大的推理性能，同时保持识别精度。通过该措施，保证了模型在进行优化精简的时候，没有出现显著地性能下降，既保证了模型的推理速度，又保证了模型的推理性能。

Description

一种基于无参数注意力机制优化的车辆车牌定位方法

技术领域

本发明涉及车辆车牌定位方法，尤其涉及一种基于无参数注意力机制优化的车辆车牌定位方法，属于智能交通技术领域。

背景技术

车牌识别主要集中在车牌检测与字符提取上，一种是通过先验知识的传统车牌检测；另一种是基于深度学习的车牌检测方法。基于深度学习的车牌检测方法集中在计算机视觉领域，为解决车辆车牌定位和颜色识别任务提供了新的途径。深度学习模型如卷积神经网络（Convolutional Neural Networks，CNNs）和目标检测算法已在目标识别和分类任务中取得显著的成绩；

有研发人员提出公开号为CN 113326893A的一种车牌识别模型的训练方法，包括获取样本图像集以及获取样本图像集中各个样本图像对应的标签，所述标签包括样本图像的图像质量以及目标车牌的字符，所述图像质量包括类别和等级；将样本图像输入车牌识别模型中，得到样本图像的预测结果，所述预测结果包括预测图像质量以及预测目标车牌；基于预测结果以及所述标签，更新车牌识别模型的参数，以确定目标车牌识别模型。该方法虽然可以识别目标车牌，但该方法的模型采用传统的模型，传统模型在处理这一任务时需要大量的计算资源，导致模型推理成本高、结果输出的精度和效率都不高。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在输出精度差和效率低的技术问题，本发明提供一种基于无参数注意力机制优化的车辆车牌定位方法。

方案一、一种基于无参数注意力机制优化的车辆车牌定位方法，包括以下步骤：

S1.获取车辆行驶数据，在车辆行驶数据中获得车辆图像，并标注车辆车牌位置；

S2.对车辆图像进行分辨率统一处理，形成训练数据集；

S3.构建定位模型网络结构，并对模型训练；

所述定位模型网络结构包括CBS模块、C3模块、SlimAM模块、Upsample模块和Concat模块；

CBS模块包括卷积层、批量归一化层和SiLU激活函数；其中，卷积层的卷积核大小为3x3；

C3模块包括第一分支和第二分支，第一分支和第二分支进行Concat操作后输出；

所述第一分支包括CSP、CBS模块，CBS模块的卷积核大小为1x1，步长为1；

所述第二分支为CBS模块，卷积核大小为1x1，步长为1；

所述CSP包括两个CBS模块；其中，一个CBS模块的卷积核大小为1x1，步长为1，另一个CBS模块的卷积核大小为3x3，步长为1；

S4.将车辆图像数据输入至定位模型中，输出车牌的位置。

优选的，SiLU激活函数的表达式为：

；

其中，表示激活函数的输入数据，/>表示关于/>的负指数e，用于/>构成关于x的非线性映射。

优选的，SlimAM模块通过能量函数计算神经元的能量值，能量函数的表达式为：

；

其中，表示好似神经元的重要性，重要性越高，/>的值越小，目标神经元/>与其他的神经元的区别越大，/>表示神经元的均值，/>表示神经元的方差，/>表示能量函数的超参数。

优选的，对模型训练时采用k-means重新生成锚定框，具体步骤如下：

S31.数据准备，从训练集数据中获取标注数据信息；

S32.选定个的聚类中心数量；

S33.将图像中标注目标框的宽度和高度除以图像的宽度和高度，使图像的宽度和高度归一化到0到1之间的范围；

S34.初始化个锚框，根据预设的超参数/>，进行随机选择/>初始化锚框；

S35.聚类生成锚定框，设定聚类迭代次数的超参数；

S36.输出结果，将计算结果的K个最终的锚定框尺寸配置到定位模型配置中，生成锚定框时。

优选的，聚类生成锚定框，设定聚类迭代次数的超参数的方法是：

S351.分配数据样本到最近的聚类中心，计算数据集中样本标准框与聚类中心锚定框的IoU值，并将样本标准框分配给最匹配的锚定框；

S352.更新锚框尺寸，对于每个的锚定框族，计算每个族群里面的边界框的平均高度与宽度，并将边界框作为新的锚定框的质心进行聚类；

S353.迭代优化，重复S351与S352，直到迭代次数停止。

方案二、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。

方案三、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种基于无参数注意力机制优化的车辆车牌定位方法。

本发明的有益效果如下：本发明引入了SimAM无参数注意力机制模块，有助于提供强大的推理性能，同时保持识别精度。通过该措施，保证了模型在进行优化精简的时候，没有出现显著地性能下降，既保证了模型的推理速度，又保证了模型的推理性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为一种基于无参数注意力机制优化的车辆车牌定位方法的流程图；

图2为C3模块结构示意图；

图3为CSP模块结构示意图；

图4为模型网络结构示意图。

具体实施方式

为了使本发明实施例中的技术方案及优点更加清楚明白，以下结合附图对本发明的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本发明的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：参照图1-图4说明本实施方式，一种基于无参数注意力机制优化的车辆车牌定位方法，包括以下步骤：

采集不同时间片段、不同监控视角下的车辆行驶数据，并在车辆行驶数据中裁剪出车辆的图像数据；

标注车辆车牌位置可以人工标注也可以自动标注，自动标注可以采用CVAT自动标注工具；

S2.对车辆图像进行分辨率统一处理，形成训练数据集；

对车辆图像进行分辨率统一处理的方法是，将包含有车辆车牌标注框的图像分辨率统一伸缩为224x224；

S3.构建定位模型网络结构，并对模型训练；本发明定位模型有效减少特征图的切片操作，有利于模型的导出和处理；

定位模型网络结构包括CBS模块、C3模块、SlimAM模块、Upsample模块和Concat模块；

CBS模块包括卷积层、批量归一化层和SiLU激活函数；其中，卷积层的卷积核大小为3x3，卷积操作的步长为2；

SiLU激活函数的表达式为：

；

其中，表示Sigmoid函数，其数学公式如下：

；

将其代入SiLU函数的公式中，得到：

；

SiLU激活函数的输出范围在0到1之间，且在数值接近0时具有更加平滑的曲线；此外，SiLU 函数是连续可导的。因此，使用 SiLU 激活函数时，模型的训练过程中不会出现梯度消失或梯度爆炸的问题，并有助于模型的更快收敛。

C3模块，最大通道数量为128，以降低模型的复杂度，保留了中间输出分辨率的检测头，平衡性能与识别精度，以更好地适应车辆车牌的尺寸特征；

第一分支包括CSP模块和CBS模块，CBS模块的卷积核大小为1x1，步长为1；

第二分支为CBS模块，卷积核大小为1x1，步长为1；

CSP模块包括两个CBS模块；其中，一个CBS模块的卷积核大小为1x1，步长为1，另一个CBS模块的卷积核大小为3x3，步长为1；

本发明在骨干网络与检测头之间引入SlimAM模块，避免模型优化过程中的性能损失，提供卓越的推理性能和精确的识别结果，现有的注意力机制通常分为通道注意力机制（Channel Attention）和空域注意力机制（Spatial Attention）；这两种注意力机制通常在通道维度（1-D，1 di-mension）和空间维度（2-D，2 dimension）上进行操作，生成一维或二维的权值，然后对通道维度或空间维度上的神经元进行平均处理。

这种平均处理方式限制神经元之间的关联关系，具体来说：

通道注意力机制通常关注不同通道之间的重要性关系，从而在通道之间获取重要信息。这种方法的缺点是忽略了特征图中像素之间的关系，从而导致空间信息的提取不足。

空域注意力机制通常关注特征图中不同位置的像素，有利于在空间维度上获取信息，如获取物体的形状和位置等信息；这种方法难以捕捉通道之间的关系，也难以区分通道的重要性。

本发明采用SimAM模块，该模块为三维注意力机制，本发明的SimAM模块同时考虑了通道、空间和时间的关系，从而能够捕捉到不同通道和空间位置之间的关联，提高了模型对时空信息的建模能力。

SimAM模块是一种基于神经元的能量评估的注意力机制，通过能量函数计算神经元的能量值的高低，从而挖掘每个神经元的重要性。模拟了信息丰富神经元对周围神经元的放电模式；当神经元被激活时，会抑制周围的神经元，产生空域抑制效应；

神经元的重要性通过空域抑制效应进行评估，空域效应越显著的神经元应该被赋予更高的重要性，本发明通过度量神经元之间的线性可分性评估能量函数，能量函数的表达式为：

；

其中，，/>表示输入特征/>的目标神经元，/>在输入特征/>的其他的神经元；输入特征/>表示特征信息集合/>构成，其中，/>为通道、/>为高度、为宽度；/>表示神经元的权重，/>表示神经元的偏差；采用/>表示在 />通道上的所有神经元的个数；当/>等于 /> 且/>等于/>时，公式满足最小值。

为了寻找最小关系，将上述公式转化为线性可分求解，引入二进制标签（如1，-1）对代替和 />，即 />；此外，添加正则项/>；简化为：

；

理论上，每个通道都有能量函数，通过 SGD（Stochastic Gradient Descent，随机梯度下降）进行求解，将公式进行如下解析：

；

其中，满足、/>，分别表示在该通道上出了/>之外的所有神经元的均值与方差；由于/>与/>通过单一通道上的神经元进行求解，因此，假设在该通道上的神经元都满足相同的分布规律；基于该假设，推理得出剩下其他通道上的神经元也满足该分布规律，从而计算出它们的均值与方差；最小化能量表示为：

；

上述公式表示，神经元的重要性通过最小化实现，重要性越高，/>的值越小，目标神经元/>与其他的神经元的区别越大，其中，/>表示神经元的均值，/>表示神经元的方差，/>表示能量函数的超参数。

最后，添加伸缩处理操作实现整个阶段的处理，该公式表示为：

；

其中，表示所有/>在所有通道与空域上能量值，/> 操作对 /> 进行非线性映射并限制其大小。

定位模型网络结构对特征图进行下采样，减小特征图的尺寸的过程为：

将224x224的图像输入至CBS模块，输出224x224x3的特征图；将224x224x3的特征图再次输入至CBS模块，输出112x112x16的特征图；

将112x112x16的特征图输入至C3模块，输出112x112x16的特征图；将112x112x16的特征图输入至CBS模块，输出56x56x3的特征图；

将56x56x3的特征图输入至C3模块，输出56x56x3的特征图；将56x56x3特征图输入至CBS模块，输出28x28x64的特征图；

将28x28x64的特征图输入至C3模块，输出28x28x64的特征图；将28x28x64特征图输入至CBS模块，输出14x14x64的特征图；

将14x14x64的特征图输入至C3模块，输出14x14x64的特征图；将14x14x64的特征图输入至SPPF模块，SPPF模块将14x14x64的特征图进行融合，将融合后的特征图输入至SimAM模块中，获取不同通道和空间位置之间的关联，将具有通道和空间关联的特征图输入至CBS模块输出7x7x64的特征图；

将7x7x64的特征图依次输入至Upsample模块、Concat模块和C3模块，输出14x14x128的特征图。

对模型训练时采用k-means重新生成锚定框，以提高模型训练的优化效率和收敛速度，具体步骤如下：

S31.数据准备，包含目标的类别和位置等信息；

S32.选定个的聚类中心数量；

S35.聚类生成锚定框，设定聚类迭代次数的超参数；

S351.分配数据样本到最近的聚类中心，计算数据集中样本标准框与聚类中心锚定框的IoU值，并将样本标准框分配给最匹配的锚定框。

S353.迭代优化，重复S351与S352，直到迭代次数n停止。

S36.输出结果，将计算结果的K个最终的锚定框尺寸配置到定位模型配置中，生成锚定框时，将超参数K设置为3，将超参数n设置为30，最终生成3组锚定框，分别为(29,12)、(35,15)和(41,18)；

S4.将车辆图像数据输入至定位模型中，输出车牌的位置。

将本申请与传统模型进行对比，参照表1不同模型在车辆车牌定位结果对比表；

经过对比可见，本发明的相较于其他算法无论是在准确率、召回率、参数量还是模型大小上都有优异的表现，因此，本发明在网络的骨干部分更小、更薄的情况下，减少特征图的切片操作，提高了模型导出和处理的效率。

实施例2：本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例3：计算机可读存储介质实施例。

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于无参数注意力机制优化的车辆车牌定位方法，其特征在于，包括以下步骤：

S2.对车辆图像进行分辨率统一处理，形成训练数据集；

S3.构建定位模型网络结构，并对模型训练；

所述第二分支为CBS模块，卷积核大小为1x1，步长为1；

S4.将车辆图像数据输入至定位模型中，输出车牌的位置。

2.根据权利要求1所述的一种基于无参数注意力机制优化的车辆车牌定位方法，其特征在于，SiLU激活函数的表达式为：

；

3.根据权利要求2所述的一种基于无参数注意力机制优化的车辆车牌定位方法，其特征在于，SlimAM模块通过能量函数计算神经元的能量值，能量函数的表达式为：

；

4.根据权利要求3所述的一种基于无参数注意力机制优化的车辆车牌定位方法，其特征在于，对模型训练时采用k-means重新生成锚定框，具体步骤如下：

S31.数据准备，从训练集数据中获取标注数据信息；

S32.选定个的聚类中心数量；

S35.聚类生成锚定框，设定聚类迭代次数的超参数；

5.根据权利要求4所述的一种基于无参数注意力机制优化的车辆车牌定位方法，其特征在于，聚类生成锚定框，设定聚类迭代次数的超参数的方法是：

S351.分配数据样本到最近的聚类中心，计算数据集中样本标准框与聚类中心/>锚定框的IoU值，并将样本标准框分配给最匹配的锚定框；

S353.迭代优化，重复S351与S352，直到迭代次数停止。

6.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种基于无参数注意力机制优化的车辆车牌定位方法。