CN117392659A - 一种基于无参数注意力机制优化的车辆车牌定位方法 - Google Patents
一种基于无参数注意力机制优化的车辆车牌定位方法 Download PDFInfo
- Publication number
- CN117392659A CN117392659A CN202311694304.8A CN202311694304A CN117392659A CN 117392659 A CN117392659 A CN 117392659A CN 202311694304 A CN202311694304 A CN 202311694304A CN 117392659 A CN117392659 A CN 117392659A
- Authority
- CN
- China
- Prior art keywords
- license plate
- module
- vehicle
- model
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 title claims abstract description 28
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 16
- 210000002569 neuron Anatomy 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 230000004807 localization Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000002856 peripheral neuron Anatomy 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于无参数注意力机制优化的车辆车牌定位方法,属于智能交通技术领域。包括以下步骤:S1.获取车辆行驶数据,在车辆行驶数据中获得车辆图像,并标注车辆车牌位置;S2.对车辆图像进行分辨率统一处理,形成训练数据集;S3.构建定位模型网络结构,并对模型训练;S4.将车辆图像数据输入至定位模型中,输出车牌的位置。解决现有技术中存在输出精度差和效率低的技术问题。本发明引入了SimAM无参数注意力机制模块,有助于提供强大的推理性能,同时保持识别精度。通过该措施,保证了模型在进行优化精简的时候,没有出现显著地性能下降,既保证了模型的推理速度,又保证了模型的推理性能。
Description
技术领域
本发明涉及车辆车牌定位方法,尤其涉及一种基于无参数注意力机制优化的车辆车牌定位方法,属于智能交通技术领域。
背景技术
车牌识别主要集中在车牌检测与字符提取上,一种是通过先验知识的传统车牌检测;另一种是基于深度学习的车牌检测方法。基于深度学习的车牌检测方法集中在计算机视觉领域,为解决车辆车牌定位和颜色识别任务提供了新的途径。深度学习模型如卷积神经网络(Convolutional Neural Networks,CNNs)和目标检测算法已在目标识别和分类任务中取得显著的成绩;
有研发人员提出公开号为CN 113326893A的一种车牌识别模型的训练方法,包括获取样本图像集以及获取样本图像集中各个样本图像对应的标签,所述标签包括样本图像的图像质量以及目标车牌的字符,所述图像质量包括类别和等级;将样本图像输入车牌识别模型中,得到样本图像的预测结果,所述预测结果包括预测图像质量以及预测目标车牌;基于预测结果以及所述标签,更新车牌识别模型的参数,以确定目标车牌识别模型。该方法虽然可以识别目标车牌,但该方法的模型采用传统的模型,传统模型在处理这一任务时需要大量的计算资源,导致模型推理成本高、结果输出的精度和效率都不高。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在输出精度差和效率低的技术问题,本发明提供一种基于无参数注意力机制优化的车辆车牌定位方法。
方案一、一种基于无参数注意力机制优化的车辆车牌定位方法,包括以下步骤:
S1.获取车辆行驶数据,在车辆行驶数据中获得车辆图像,并标注车辆车牌位置;
S2.对车辆图像进行分辨率统一处理,形成训练数据集;
S3.构建定位模型网络结构,并对模型训练;
所述定位模型网络结构包括CBS模块、C3模块、SlimAM模块、Upsample模块和Concat模块;
CBS模块包括卷积层、批量归一化层和SiLU激活函数;其中,卷积层的卷积核大小为3x3;
C3模块包括第一分支和第二分支,第一分支和第二分支进行Concat操作后输出;
所述第一分支包括CSP、CBS模块,CBS模块的卷积核大小为1x1,步长为1;
所述第二分支为CBS模块,卷积核大小为1x1,步长为1;
所述CSP包括两个CBS模块;其中,一个CBS模块的卷积核大小为1x1,步长为1,另一个CBS模块的卷积核大小为3x3,步长为1;
S4.将车辆图像数据输入至定位模型中,输出车牌的位置。
优选的,SiLU激活函数的表达式为:
;
其中,表示激活函数的输入数据,/>表示关于/>的负指数e,用于/>构成关于x的非线性映射。
优选的,SlimAM模块通过能量函数计算神经元的能量值,能量函数的表达式为:
;
其中,表示好似神经元的重要性,重要性越高,/>的值越小,目标神经元/>与其他的神经元的区别越大,/>表示神经元的均值,/>表示神经元的方差,/>表示能量函数的超参数。
优选的,对模型训练时采用k-means重新生成锚定框,具体步骤如下:
S31.数据准备,从训练集数据中获取标注数据信息;
S32.选定个的聚类中心数量;
S33.将图像中标注目标框的宽度和高度除以图像的宽度和高度,使图像的宽度和高度归一化到0到1之间的范围;
S34.初始化个锚框,根据预设的超参数/>,进行随机选择/>初始化锚框;
S35.聚类生成锚定框,设定聚类迭代次数的超参数;
S36.输出结果,将计算结果的K个最终的锚定框尺寸配置到定位模型配置中,生成锚定框时。
优选的,聚类生成锚定框,设定聚类迭代次数的超参数的方法是:
S351.分配数据样本到最近的聚类中心,计算数据集中样本标准框与聚类中心锚定框的IoU值,并将样本标准框分配给最匹配的锚定框;
S352.更新锚框尺寸,对于每个的锚定框族,计算每个族群里面的边界框的平均高度与宽度,并将边界框作为新的锚定框的质心进行聚类;
S353.迭代优化,重复S351与S352,直到迭代次数停止。
方案二、一种电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。
方案三、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于无参数注意力机制优化的车辆车牌定位方法。
本发明的有益效果如下:本发明引入了SimAM无参数注意力机制模块,有助于提供强大的推理性能,同时保持识别精度。通过该措施,保证了模型在进行优化精简的时候,没有出现显著地性能下降,既保证了模型的推理速度,又保证了模型的推理性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为一种基于无参数注意力机制优化的车辆车牌定位方法的流程图;
图2为C3模块结构示意图;
图3为CSP模块结构示意图;
图4为模型网络结构示意图。
具体实施方式
为了使本发明实施例中的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:参照图1-图4说明本实施方式,一种基于无参数注意力机制优化的车辆车牌定位方法,包括以下步骤:
S1.获取车辆行驶数据,在车辆行驶数据中获得车辆图像,并标注车辆车牌位置;
采集不同时间片段、不同监控视角下的车辆行驶数据,并在车辆行驶数据中裁剪出车辆的图像数据;
标注车辆车牌位置可以人工标注也可以自动标注,自动标注可以采用CVAT自动标注工具;
S2.对车辆图像进行分辨率统一处理,形成训练数据集;
对车辆图像进行分辨率统一处理的方法是,将包含有车辆车牌标注框的图像分辨率统一伸缩为224x224;
S3.构建定位模型网络结构,并对模型训练;本发明定位模型有效减少特征图的切片操作,有利于模型的导出和处理;
定位模型网络结构包括CBS模块、C3模块、SlimAM模块、Upsample模块和Concat模块;
CBS模块包括卷积层、批量归一化层和SiLU激活函数;其中,卷积层的卷积核大小为3x3,卷积操作的步长为2;
SiLU激活函数的表达式为:
;
其中,表示Sigmoid函数,其数学公式如下:
;
将其代入SiLU函数的公式中,得到:
;
其中,表示激活函数的输入数据,/>表示关于/>的负指数e,用于/>构成关于x的非线性映射。
SiLU激活函数的输出范围在0到1之间,且在数值接近0时具有更加平滑的曲线;此外,SiLU 函数是连续可导的。因此,使用 SiLU 激活函数时,模型的训练过程中不会出现梯度消失或梯度爆炸的问题,并有助于模型的更快收敛。
C3模块,最大通道数量为128,以降低模型的复杂度,保留了中间输出分辨率的检测头,平衡性能与识别精度,以更好地适应车辆车牌的尺寸特征;
C3模块包括第一分支和第二分支,第一分支和第二分支进行Concat操作后输出;
第一分支包括CSP模块和CBS模块,CBS模块的卷积核大小为1x1,步长为1;
第二分支为CBS模块,卷积核大小为1x1,步长为1;
CSP模块包括两个CBS模块;其中,一个CBS模块的卷积核大小为1x1,步长为1,另一个CBS模块的卷积核大小为3x3,步长为1;
本发明在骨干网络与检测头之间引入SlimAM模块,避免模型优化过程中的性能损失,提供卓越的推理性能和精确的识别结果,现有的注意力机制通常分为通道注意力机制(Channel Attention)和空域注意力机制(Spatial Attention);这两种注意力机制通常在通道维度(1-D,1 di-mension)和空间维度(2-D,2 dimension)上进行操作,生成一维或二维的权值,然后对通道维度或空间维度上的神经元进行平均处理。
这种平均处理方式限制神经元之间的关联关系,具体来说:
通道注意力机制通常关注不同通道之间的重要性关系,从而在通道之间获取重要信息。这种方法的缺点是忽略了特征图中像素之间的关系,从而导致空间信息的提取不足。
空域注意力机制通常关注特征图中不同位置的像素,有利于在空间维度上获取信息,如获取物体的形状和位置等信息;这种方法难以捕捉通道之间的关系,也难以区分通道的重要性。
本发明采用SimAM模块,该模块为三维注意力机制,本发明的SimAM模块同时考虑了通道、空间和时间的关系,从而能够捕捉到不同通道和空间位置之间的关联,提高了模型对时空信息的建模能力。
SimAM模块是一种基于神经元的能量评估的注意力机制,通过能量函数计算神经元的能量值的高低,从而挖掘每个神经元的重要性。模拟了信息丰富神经元对周围神经元的放电模式;当神经元被激活时,会抑制周围的神经元,产生空域抑制效应;
神经元的重要性通过空域抑制效应进行评估,空域效应越显著的神经元应该被赋予更高的重要性,本发明通过度量神经元之间的线性可分性评估能量函数,能量函数的表达式为:
;
其中, ,/>表示输入特征/>的目标神经元,/>在输入特征/>的其他的神经元;输入特征/>表示特征信息集合/>构成,其中,/>为通道、/>为高度、为宽度;/>表示神经元的权重,/>表示神经元的偏差;采用/>表示在 />通道上的所有神经元的个数;当/>等于 /> 且/>等于/>时,公式满足最小值。
为了寻找最小关系,将上述公式转化为线性可分求解,引入二进制标签(如1,-1)对代替 和 />,即 />;此外,添加正则项/>;简化为:
;
理论上,每个通道都有能量函数,通过 SGD(Stochastic Gradient Descent,随机梯度下降)进行求解,将公式进行如下解析:
;
;
其中,满足、/>,分别表示在该通道上出了/>之外的所有神经元的均值与方差;由于/>与/>通过单一通道上的神经元进行求解,因此,假设在该通道上的神经元都满足相同的分布规律;基于该假设,推理得出剩下其他通道上的神经元也满足该分布规律,从而计算出它们的均值与方差;最小化能量表示为:
;
上述公式表示,神经元的重要性通过最小化实现,重要性越高,/>的值越小,目标神经元/>与其他的神经元的区别越大,其中,/>表示神经元的均值,/>表示神经元的方差,/>表示能量函数的超参数。
最后,添加伸缩处理操作实现整个阶段的处理,该公式表示为:
;
其中, 表示所有/>在所有通道与空域上能量值,/> 操作对 /> 进行非线性映射并限制其大小。
定位模型网络结构对特征图进行下采样,减小特征图的尺寸的过程为:
将224x224的图像输入至CBS模块,输出224x224x3的特征图;将224x224x3的特征图再次输入至CBS模块,输出112x112x16的特征图;
将112x112x16的特征图输入至C3模块,输出112x112x16的特征图;将112x112x16的特征图输入至CBS模块,输出56x56x3的特征图;
将56x56x3的特征图输入至C3模块,输出56x56x3的特征图;将56x56x3特征图输入至CBS模块,输出28x28x64的特征图;
将28x28x64的特征图输入至C3模块,输出28x28x64的特征图;将28x28x64特征图输入至CBS模块,输出14x14x64的特征图;
将14x14x64的特征图输入至C3模块,输出14x14x64的特征图;将14x14x64的特征图输入至SPPF模块,SPPF模块将14x14x64的特征图进行融合,将融合后的特征图输入至SimAM模块中,获取不同通道和空间位置之间的关联,将具有通道和空间关联的特征图输入至CBS模块输出7x7x64的特征图;
将7x7x64的特征图依次输入至Upsample模块、Concat模块和C3模块,输出14x14x128的特征图。
对模型训练时采用k-means重新生成锚定框,以提高模型训练的优化效率和收敛速度,具体步骤如下:
S31.数据准备,包含目标的类别和位置等信息;
S32.选定个的聚类中心数量;
S33.将图像中标注目标框的宽度和高度除以图像的宽度和高度,使图像的宽度和高度归一化到0到1之间的范围;
S34.初始化个锚框,根据预设的超参数/>,进行随机选择/>初始化锚框;
S35.聚类生成锚定框,设定聚类迭代次数的超参数;
S351.分配数据样本到最近的聚类中心,计算数据集中样本标准框与聚类中心锚定框的IoU值,并将样本标准框分配给最匹配的锚定框。
S352.更新锚框尺寸,对于每个的锚定框族,计算每个族群里面的边界框的平均高度与宽度,并将边界框作为新的锚定框的质心进行聚类;
S353.迭代优化,重复S351与S352,直到迭代次数n停止。
S36.输出结果,将计算结果的K个最终的锚定框尺寸配置到定位模型配置中,生成锚定框时,将超参数K设置为3,将超参数n设置为30,最终生成3组锚定框,分别为(29,12)、(35,15)和(41,18);
S4.将车辆图像数据输入至定位模型中,输出车牌的位置。
将本申请与传统模型进行对比,参照表1不同模型在车辆车牌定位结果对比表;
经过对比可见,本发明的相较于其他算法无论是在准确率、召回率、参数量还是模型大小上都有优异的表现,因此,本发明在网络的骨干部分更小、更薄的情况下,减少特征图的切片操作,提高了模型导出和处理的效率。
实施例2:本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例3:计算机可读存储介质实施例。
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (7)
1.一种基于无参数注意力机制优化的车辆车牌定位方法,其特征在于,包括以下步骤:
S1.获取车辆行驶数据,在车辆行驶数据中获得车辆图像,并标注车辆车牌位置;
S2.对车辆图像进行分辨率统一处理,形成训练数据集;
S3.构建定位模型网络结构,并对模型训练;
所述定位模型网络结构包括CBS模块、C3模块、SlimAM模块、Upsample模块和Concat模块;
CBS模块包括卷积层、批量归一化层和SiLU激活函数;其中,卷积层的卷积核大小为3x3;
C3模块包括第一分支和第二分支,第一分支和第二分支进行Concat操作后输出;
所述第一分支包括CSP、CBS模块,CBS模块的卷积核大小为1x1,步长为1;
所述第二分支为CBS模块,卷积核大小为1x1,步长为1;
所述CSP包括两个CBS模块;其中,一个CBS模块的卷积核大小为1x1,步长为1,另一个CBS模块的卷积核大小为3x3,步长为1;
S4.将车辆图像数据输入至定位模型中,输出车牌的位置。
2.根据权利要求1所述的一种基于无参数注意力机制优化的车辆车牌定位方法,其特征在于,SiLU激活函数的表达式为:
;
其中,表示激活函数的输入数据,/>表示关于/>的负指数e,用于/>构成关于x的非线性映射。
3.根据权利要求2所述的一种基于无参数注意力机制优化的车辆车牌定位方法,其特征在于,SlimAM模块通过能量函数计算神经元的能量值,能量函数的表达式为:
;
其中,表示好似神经元的重要性,重要性越高,/>的值越小,目标神经元/>与其他的神经元的区别越大,/>表示神经元的均值,/>表示神经元的方差,/>表示能量函数的超参数。
4.根据权利要求3所述的一种基于无参数注意力机制优化的车辆车牌定位方法,其特征在于,对模型训练时采用k-means重新生成锚定框,具体步骤如下:
S31.数据准备,从训练集数据中获取标注数据信息;
S32.选定个的聚类中心数量;
S33.将图像中标注目标框的宽度和高度除以图像的宽度和高度,使图像的宽度和高度归一化到0到1之间的范围;
S34.初始化个锚框,根据预设的超参数/>,进行随机选择/>初始化锚框;
S35.聚类生成锚定框,设定聚类迭代次数的超参数;
S36.输出结果,将计算结果的K个最终的锚定框尺寸配置到定位模型配置中,生成锚定框时。
5.根据权利要求4所述的一种基于无参数注意力机制优化的车辆车牌定位方法,其特征在于,聚类生成锚定框,设定聚类迭代次数的超参数的方法是:
S351.分配数据样本到最近的聚类中心,计算数据集中样本标准框与聚类中心/>锚定框的IoU值,并将样本标准框分配给最匹配的锚定框;
S352.更新锚框尺寸,对于每个的锚定框族,计算每个族群里面的边界框的平均高度与宽度,并将边界框作为新的锚定框的质心进行聚类;
S353.迭代优化,重复S351与S352,直到迭代次数停止。
6.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-5任一项所述的一种基于无参数注意力机制优化的车辆车牌定位方法的步骤。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种基于无参数注意力机制优化的车辆车牌定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694304.8A CN117392659A (zh) | 2023-12-12 | 2023-12-12 | 一种基于无参数注意力机制优化的车辆车牌定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311694304.8A CN117392659A (zh) | 2023-12-12 | 2023-12-12 | 一种基于无参数注意力机制优化的车辆车牌定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392659A true CN117392659A (zh) | 2024-01-12 |
Family
ID=89470646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311694304.8A Pending CN117392659A (zh) | 2023-12-12 | 2023-12-12 | 一种基于无参数注意力机制优化的车辆车牌定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392659A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392658A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于注意力机制优化的轻量化车辆车牌颜色识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190378347A1 (en) * | 2018-06-11 | 2019-12-12 | Raytheon Company | Architectures for vehicle tolling |
CN114119562A (zh) * | 2021-11-29 | 2022-03-01 | 青岛理工大学 | 一种基于深度学习的刹车盘外表面缺陷检测方法及系统 |
CN115050021A (zh) * | 2022-05-05 | 2022-09-13 | 江苏大学 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
CN115908255A (zh) * | 2022-10-18 | 2023-04-04 | 贵州大学 | 面向目标检测的改进轻量型YOLOX-nano模型及检测方法 |
CN115953744A (zh) * | 2022-12-28 | 2023-04-11 | 之江实验室 | 一种基于深度学习的车辆识别追踪方法 |
CN116189191A (zh) * | 2023-03-09 | 2023-05-30 | 华南农业大学 | 一种基于yolov5的可变长车牌识别方法 |
-
2023
- 2023-12-12 CN CN202311694304.8A patent/CN117392659A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190378347A1 (en) * | 2018-06-11 | 2019-12-12 | Raytheon Company | Architectures for vehicle tolling |
CN114119562A (zh) * | 2021-11-29 | 2022-03-01 | 青岛理工大学 | 一种基于深度学习的刹车盘外表面缺陷检测方法及系统 |
CN115050021A (zh) * | 2022-05-05 | 2022-09-13 | 江苏大学 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
CN115908255A (zh) * | 2022-10-18 | 2023-04-04 | 贵州大学 | 面向目标检测的改进轻量型YOLOX-nano模型及检测方法 |
CN115953744A (zh) * | 2022-12-28 | 2023-04-11 | 之江实验室 | 一种基于深度学习的车辆识别追踪方法 |
CN116189191A (zh) * | 2023-03-09 | 2023-05-30 | 华南农业大学 | 一种基于yolov5的可变长车牌识别方法 |
Non-Patent Citations (3)
Title |
---|
罗文杰: "基于深度学习的手语识别研究与应用", 《万方数据库》, 28 November 2023 (2023-11-28), pages 27 - 39 * |
谷雨润一麦: "论文解读系列三十:无参数的注意力模块SimAm论文解读", pages 1 - 8, Retrieved from the Internet <URL:https://bbs.huaweicloud.com/blogs/312763> * |
黄达: "航道多视频的目标搜索方法研究与应用", 《万方数据》, 1 November 2023 (2023-11-01), pages 21 - 38 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392658A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于注意力机制优化的轻量化车辆车牌颜色识别方法 |
CN117392658B (zh) * | 2023-12-12 | 2024-06-18 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于注意力机制优化的轻量化车辆车牌颜色识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Research on image text recognition based on canny edge detection algorithm and k-means algorithm | |
Liu et al. | Image and texture segmentation using local spectral histograms | |
CN109740668B (zh) | 深度模型训练方法及装置、电子设备及存储介质 | |
CN110991533B (zh) | 图像识别方法、识别装置、终端设备及可读存储介质 | |
CN108491850B (zh) | 三维牙齿网格模型的特征点自动提取方法及装置 | |
WO2013106984A1 (en) | Learning painting styles for painterly rendering | |
CN117392659A (zh) | 一种基于无参数注意力机制优化的车辆车牌定位方法 | |
CN111080654A (zh) | 图像的病变区域分割方法、装置及服务器 | |
KR20240140057A (ko) | 얼굴 인식 방법 및 장치 | |
CN112634246A (zh) | 一种口腔图像识别方法及相关设备 | |
CN116862913A (zh) | 基于机器视觉的复合镍铜散热底板缺陷检测方法及系统 | |
CN108615006A (zh) | 用于输出信息的方法和装置 | |
CN108960246B (zh) | 一种用于图像识别的二值化处理装置及方法 | |
US20240135679A1 (en) | Method for classifying images and electronic device | |
CN111488811A (zh) | 人脸识别方法、装置、终端设备及计算机可读介质 | |
CN114565964B (zh) | 情绪识别模型的生成方法、识别方法、装置、介质和设备 | |
CN117392658B (zh) | 基于注意力机制优化的轻量化车辆车牌颜色识别方法 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN113313124A (zh) | 基于图像分割算法识别车牌号码的方法、装置和终端设备 | |
CN112613415A (zh) | 脸部鼻型识别方法、装置、电子设备和介质 | |
CN114445679A (zh) | 模型训练方法及相关装置、设备和存储介质 | |
CN115578400A (zh) | 图像处理方法、图像分割网络的训练方法及装置 | |
CN111401432A (zh) | 一种对数字图像的身份伪造识别方法、装置、设备及存储介质 | |
CN110781812A (zh) | 一种基于机器学习的安检仪自动识别目标物体的方法 | |
CN110689960B (zh) | 一种乳腺癌的智能判别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |