CN116311213A - 基于全局信息整合的车牌识别方法、装置、设备及介质 - Google Patents
基于全局信息整合的车牌识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116311213A CN116311213A CN202310560589.XA CN202310560589A CN116311213A CN 116311213 A CN116311213 A CN 116311213A CN 202310560589 A CN202310560589 A CN 202310560589A CN 116311213 A CN116311213 A CN 116311213A
- Authority
- CN
- China
- Prior art keywords
- license plate
- feature
- plate recognition
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000010354 integration Effects 0.000 title claims abstract description 25
- 230000008447 perception Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 abstract description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 25
- 238000010606 normalization Methods 0.000 description 17
- 238000011176 pooling Methods 0.000 description 13
- 230000004913 activation Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
Abstract
本发明适用人工智能与计算机视觉领域,提供了一种基于全局信息整合的车牌识别方法、装置、设备及介质,该方法包括:当接收到车牌识别请求时,获取待识别的车牌图像,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到该车牌图像中的车牌号,其中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,从而提高了规则和不规则车牌识别的性能,提升了识别精度和准确率。
Description
技术领域
本发明属于人工智能与计算机视觉领域,尤其涉及一种基于全局信息整合的车牌识别方法、装置、设备及介质。
背景技术
车牌识别技术利用计算机视觉和图像处理技术,能够自动识别和提取出车辆的牌照信息,是一项在现代交通领域应用广泛的技术,它可以被用于交通管理、道路安全、停车场管理、车辆安防、智能交通系统等多个领域,为人们的生活和工作带来了便利和效率提升,对维护交通安全和城市安全具有实际意义。
计算机视觉领域中的车牌识别方法以裁剪后的车牌图片作为输入,以车牌号码作为输出,在现实场景中,由于拍摄角度和车牌样式的不同,车牌往往是不规则的排列,如任意方向、严重的透视变形、多行字符布局等,因此,要准确识别不规则车牌仍是一个挑战。近年来,随着深度学习技术的发展,越来越多的研究者开始探索将深度学习应用于车牌识别领域。
现有基于深度学习的车牌识别方法可以分为两类:基于分割和无分割的方法,基于分割的方法是先分割或检测车牌字符再识别每个字符,由于字符的分割和检测不受其排列方式的影响,一些方法提出直接检测字符来识别不规则车牌,但获取字符级注释的成本很高,因此,大多数的方法都集中在无分割的方法上,无分割方法将车牌识别视为一个序列识别任务,避免了字符的分割,考虑到字符的排列,不规则车牌包括多方向和多行车牌,为了解决多方向车牌的识别问题,一些方法在识别前利用空间变换网络(SpatialTransformer Networks,STN)或者仿射变换这类校正模块,将扭曲的车牌图像校正为水平,然而,校正过程消耗大量的计算资源,非常耗时,难以训练,并且对于多行样式的车牌不适用。另外,由于不规则车牌的字符排列在二维空间,许多研究者利用二维注意力模块,从二维视觉特征中选择每个字符的代表性特征,然而,以往的基于注意力的无分割方法缺少全局信息建模,影响识别性能:一是缺少全局信息来感知车牌字符布局导致注意力偏离相应字符的位置,从而造成错误的预测;二是缺乏对字符完整结构的感知从而误识相似字形的字符,例如,“J”被错误地识别为“O”,因为“J”和“O”都有一个类似的弧线。综上所述,对于不规则车牌的识别,需要引入足够的全局信息以提升识别精度。
发明内容
本发明的目的在于提供一种基于全局信息整合的车牌识别方法、装置、设备及介质,旨在解决由于现有技术无法提供一种有效的车牌识别方法,导致不规则车牌识别的性能低且准确率低的问题。
一方面,本发明提供了一种基于全局信息整合的车牌识别方法,所述方法包括下述步骤:
当接收到车牌识别请求时,获取待识别的车牌图像;
通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别,得到所述车牌图像中的车牌号,其中,所述车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器。
优选地,所述通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别的步骤,包括:
通过所述编码器对所述车牌图像进行特征提取,得到第一特征;
通过所述全局感知模块对所述第一特征进行处理,得到第二特征;
通过所述可变形空间注意模块对所述第二特征进行处理,得到第三特征;
根据所述第三特征,通过所述预测器对所述车牌图像中的每个字符进行并行预测,得到所述车牌号。
优选地,所述通过所述可变形空间注意模块对所述第二特征进行处理的步骤,包括:
根据所述第二特征,通过所述可变形空间注意模块中的可变形卷积子模块对注意力权重进行计算;
将计算得到的所述注意力权重和所述第二特征进行聚合,得到所述第三特征。
优选地,所述通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别的步骤之前,所述方法还包括:
根据预设的损失函数,对所述车牌识别模型进行训练。
另一方面,本发明提供了一种基于全局信息整合的车牌识别装置,所述装置包括:
图像获取单元,用于当接收到车牌识别请求时,获取待识别的车牌图像;以及
车牌识别单元,用于通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别,得到所述车牌图像中的车牌号,其中,所述车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器。
优选地,所述车牌识别单元包括:
第一特征获得单元,用于通过所述编码器对所述车牌图像进行特征提取,得到第一特征;
第二特征获得单元,用于通过所述全局感知模块对所述第一特征进行处理,得到第二特征;
第三特征获得单元,用于通过所述可变形空间注意模块对所述第二特征进行处理,得到第三特征;以及
车牌号获得单元,用于根据所述第三特征,通过所述预测器对所述车牌图像中的每个字符进行并行预测,得到所述车牌号。
优选地,所述第三特征获得单元包括:
权重计算单元,用于根据所述第二特征,通过所述可变形空间注意模块中的可变形卷积子模块对注意力权重进行计算;以及
特征聚合单元,用于将计算得到的所述注意力权重和所述第二特征进行聚合,得到所述第三特征。
优选地,所述装置还包括:
模型训练单元,用于根据预设的损失函数,对所述车牌识别模型进行训练。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述基于全局信息整合的车牌识别方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于全局信息整合的车牌识别方法所述的步骤。
本发明当接收到车牌识别请求时,获取待识别的车牌图像,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到该车牌图像中的车牌号,其中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,从而提高了规则和不规则车牌识别的性能,提升了识别精度和准确率。
附图说明
图1是本发明实施例一提供的基于全局信息整合的车牌识别方法的实现流程图;
图2是本发明实施例二提供的基于全局信息整合的车牌识别方法的实现流程图;
图3是本发明实施例二提供的基于全局信息整合的车牌识别方法中可变形卷积子模块的结构示意图;
图4是本发明实施例三提供的基于全局信息整合的车牌识别装置的结构示意图;
图5是本发明实施例四提供的基于全局信息整合的车牌识别装置的结构示意图;
图6是本发明实施例五提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的基于全局信息整合的车牌识别方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,当接收到车牌识别请求时,获取待识别的车牌图像。
本发明实施例适用于计算设备,例如,个人计算机、服务器等。在本发明实施例中,待识别的车牌图像可以是规则车牌图像,也可以是不规则车牌图像,规则车牌图像中的字符是清晰的、横向排列,且是单行字符布局的,而不规则车牌图像中的字符排列是不规则的,如字符严重透视、失真、变形和/或多行字符布局等。
在步骤S102中,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到车牌图像中的车牌号。
在本发明实施例中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,其中,编码器用于提取车牌图像中车牌的特征,例如车牌的形状、颜色和字体等,全局感知模块用于向特征中引入全局信息,可变形空间注意模块具有全局布局的感知能力,计算注意力以提取特征图中每个字符最具代表性的特征,预测器对车牌图像中每个字符进行并行预测。
在通过预先训练好的车牌识别模型对车牌图像进行车牌识别之前,优选地,根据预设的损失函数,对车牌识别模型进行训练。
在本发明实施例中,将中国城市车牌数据集(Chinese City Parking Dataset,
CCPD)、RodoSol-ALPR数据集以及应用导向的车牌数据集(Application-oriented License
Plate,AOLP)作为训练数据集,并根据训练数据集的四个顶点标注信息对整个图像进行裁
剪,同时采用了透视变换和像素变换(随机噪声、亮度对比度变换、均衡化、锐化等)进行数
据增强,得到尺寸固定为96×32像素的样本车牌图像,采用交叉熵损失作为损失函数,并使用适应性矩估计(Adaptive Moment Estimation,
ADAM)优化器对车牌识别模型进行预设迭代次数(例如128次)的训练,在训练过程中,采用
StepLR策略来调整学习率,初始学习率被设定为1e-3,每50个epochs乘以0.8,从而避免训
练过程中的振荡,提高了训练速度和训练效果。由于不同类型的车牌有不同数量的字符,对
于少于T个字符的样本车牌图像,在训练阶段将多个空白字符填充在真值(Ground Truth,
GT)的末端,以达到T的长度。其中,表示在解码步t时输出为的预测概率,
表示真值(Ground Truth,GT)在第t解码步对应的字符,X表示输入的样本车牌图像,T表示
样本车牌图像的最大解码长度。
在本发明实施例中,对车牌图像进行车牌识别的过程详见下述方法实施例,在此不再赘述。
在本发明实施例中,当接收到车牌识别请求时,获取待识别的车牌图像,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到该车牌图像中的车牌号,其中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,从而提高了规则和不规则车牌识别的性能,提升了识别精度和准确率。
实施例二:
图2示出了本发明实施例二提供的基于全局信息整合的车牌识别方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
通过下述步骤实现实施例一的步骤S102中对车牌图像进行车牌识别:
在步骤S201中,通过编码器对车牌图像进行特征提取,得到第一特征。
在本发明实施例中,采用一个轻量级的卷积神经网络(Convolutional NeuralNetworks,CNNs)作为编码器的主干网络来对车牌图像进行视觉特征提取,其中,卷积神经网络包含多个卷积层和多个池化层,池化层是穿插在卷积层之间的,输入编码器的车牌图像的宽度和高度(W,H)被固定为(96,32)。
在对车牌图像进行视觉特征提取时,具体地,通过预设的下采样率,通过交替使用
卷积层和池化层结构对上一层提取到的特征图进行下采样,最终得到第一特征,即视觉特
征,其中,C表示特征通道数,R为实数域,r为下采样率,例如,根据经验设置了
6个卷积层,并穿插2个池化层,形成一个下采样率为4的主干网络,利用该主干网络对车牌
图像进行视觉特征提取。
在步骤S202中,通过全局感知模块对第一特征进行处理,得到第二特征。
在本发明实施例中,全局感知模块可以提取车牌图像的全局视觉信息,并能够将全局视觉信息与车牌图像中每个字符的信息进行匹配和整合,得到完整的字符信息。为了对视觉特征F进行全局感知,在全局感知模块中总共设置了两个串联的机器翻译模型(Transformer)的编码器层,每个编码器层有两个子层:
第一个子层是一个多头自注意力机制(MultiHead Self-Attention),在这个子层
中,视觉特征F首先被映射到查询空间、键空间以及值空间,表示为,然后,多头注意力机制以不同的可学习权重将查询(Query)、键
(Key)和值(Value)投影次,使全局感知模块能够从不同的表示子空间收集信息,具体表
示为:,其中,,自注意输出矩阵根据公式计算得到,,,,是可学习的参数矩阵,是
值的维度,是查询和键的维度,是输入的视觉特征F的特征序列和位置编码的维
度,是注意力头的索引编号,本发明采用个并行的注意力头,对于每个头,采用;
第二个子层是一个全连接前馈网络(Feed Forward Network,FFN),应用于视觉特
征的特征图上的每个位置,它包括两个带有ReLU激活和层归一化的卷积操作,其输入输出
维度都是,内层维度是。
在通过全局感知模块对第一特征进行处理时,具体地,通过下述步骤实现对第一特征的处理:
(1)根据位置编码的计算公式,使用不同频率
的正弦和余弦函数来编码输入的第一特征的特征序列在两个方向上的二维空间位置,并将
得到的位置编码(Positional Encoding,PE)加入到第一特征的特征序列中,使得全局感知
模块能够利用序列的顺序,其中,是车牌图像中字符的位置;
(2)通过Transformer编码器层对加入了位置编码的第一特征进行处理,得到处理后的特征;
上述步骤(1)~(3)的过程可表示为,
其中,是层归一化算子,是指Transformer编码器层,从而实现了特征的全局交
互,使含有完整字符特征的全局视觉信息能够有效地整合到键值对(Key-Value)中,增强了
字符特征的完整性,以使得其与其他部分相似字形的字符区分开来。
在步骤S203中,通过可变形空间注意模块对第二特征进行处理,得到第三特征。
在本发明实施例中,可变形空间注意模块包含可变形卷积子模块,采用可变形卷积子模块来生成二维空间可变形空间注意模块的查询,通过这种方式,网络学习了一个偏移量,以适应性地调整卷积核的位置和形状,使得卷积层的采样区域更符合车牌图像中字符的布局,因此,可变形空间注意模块有一个更大的感受野,更多的全局信息将被用来计算注意力权重。
可变形卷积子模块包括第一卷积结构、第二卷积结构、第三卷积结构、可变形卷积结构、第一反卷积结构、第二反卷积结构,在第一卷积结构、第二卷积结构以及可变形卷积结构之间分别穿插一个最大池化层,在可变形卷积结构和第一反卷积结构之间穿插2个全连接层,在第一反卷积结构和第二反卷积结构之间穿插一个批量归一化层,其中,第三卷积结构的输入为经过池化后的第一卷积结构的输出,第一反卷积结构的输入为经过2个全连接层之后的可变形卷积结构的输出,第一反卷积结构的输出和第三卷积结构的输出会进行元素级相加操作,再进行归一化处理,最后输入第二反卷积结构,第一卷积结构为三个带有ReLU激活和层归一化、维度为256的3×3卷积操作,第二卷积结构为三个带有ReLU激活和层归一化、维度为128的3×3卷积操作,第三卷积结构为一个维度为64的1×1卷积操作,可变形卷积结构为二个带有ReLU激活和层归一化、维度为128的3×3可变形卷积操作,第一反卷积结构为一个带有ReLU激活、维度为64的3×3反卷积操作,第二反卷积结构为一个带有Sigmoid激活、维度为8的3×3反卷积操作,具体地,图3示出了可变形卷积子模块的详细网络结构。
在通过可变形空间注意模块对第二特征进行处理时,优选地,通过下述步骤实现对第二特征的处理:
(1)根据第二特征,通过可变形空间注意模块中的可变形卷积子模块对注意力权重进行计算。
具体地,可变形卷积子模块对接收到的依次经过卷积(Conv)、池化(Pool)、
可变形卷积(Deform)和全连接(Full Connection,FC)处理,然后被送到反卷积层(Deconv)
恢复到原始尺寸,最后,在进行Sigmoid激活()后输出注意力权重,具体
过程表示为,其中,T
表示车牌图像的最大解码长度,注意力权重A的第t个通道对应于第t个字符,表示为。
(2)将计算得到的注意力权重和第二特征进行聚合,得到第三特征。
通过上述步骤(1)~(2)实现对第二特征的处理,从而避免了提取多余的甚至是不正确的特征,提高了生成的注意力权重的准确性。
在步骤S204中,根据第三特征,通过预测器对车牌图像中的每个字符进行并行预测,得到车牌号。
在本发明实施例中,采用一个FC层作为预测器,首先,将A和在空间维度上
展平成一个维度,即从到,从到
,以并行计算所有字符的注意力特征,然后,通过和的矩阵乘法来并行计算所有字
符的注意力特征,其中,表示求矩阵的转置矩阵,最后将每
个字符的特征串联起来,发送到预测器进行并行预测,得到车牌号。
在本发明实施例中,通过编码器对车牌图像进行特征提取,得到第一特征,通过全局感知模块对第一特征进行处理,得到第二特征,通过可变形空间注意模块对第二特征进行处理,得到第三特征,根据第三特征,通过预测器对车牌图像中的每个字符进行并行预测,得到车牌号,从而通过全局感知模块、可变形空间注意模块分别将全局视觉信息和全局布局信息整合到查询和键值对的计算中,增强了字符特征的完整性,缓解了字符的错误识别,并提高了注意力的准确度,进而提高不规则和规则车牌的识别性能。
实施例三:
图4示出了本发明实施例三提供的基于全局信息整合的车牌识别装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
图像获取单元41,用于当接收到车牌识别请求时,获取待识别的车牌图像。
本发明实施例适用于计算设备,例如,个人计算机、服务器等。在本发明实施例中,待识别的车牌图像可以是规则车牌图像,也可以是不规则车牌图像,规则车牌图像中的字符是清晰的、横向排列,且是单行字符布局的,而不规则车牌图像中的字符排列是不规则的,如字符严重透视、失真、变形和/或多行字符布局等。
车牌识别单元42,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到车牌图像中的车牌号。
在本发明实施例中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,其中,编码器用于提取车牌图像中车牌的特征,例如车牌的形状、颜色和字体等,全局感知模块用于向特征中引入全局信息,可变形空间注意模块具有全局布局的感知能力,计算注意力以提取特征图中每个字符最具代表性的特征,预测器对车牌图像中每个字符进行并行预测。
在本发明实施例中,基于全局信息整合的车牌识别装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例四:
图5示出了本发明实施例四提供的基于全局信息整合的车牌识别装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
模型训练单元51,用于根据预设的损失函数,对车牌识别模型进行训练。
在本发明实施例中,将中国城市车牌数据集(Chinese City Parking Dataset,
CCPD)、RodoSol-ALPR数据集以及应用导向的车牌数据集(Application-oriented License
Plate,AOLP)作为训练数据集,并根据训练数据集的四个顶点标注信息对整个图像进行裁
剪,同时采用了透视变换和像素变换(随机噪声、亮度对比度变换、均衡化、锐化等)进行数
据增强,得到尺寸固定为96×32像素的样本车牌图像,采用交叉熵损失作为损失函数,并使用适应性矩估计(Adaptive Moment Estimation,ADAM)
优化器对车牌识别模型进行预设迭代次数(例如128次)的训练,在训练过程中,采用StepLR
策略来调整学习率,初始学习率被设定为1e-3,每50个epochs乘以0.8,从而避免训练过程
中的振荡,提高了训练速度和训练效果。由于不同类型的车牌有不同数量的字符,对于少于
T个字符的样本车牌图像,在训练阶段将多个空白字符填充在真值(Ground Truth,GT)的末
端,以达到T的长度。其中,表示在解码步t时输出为的预测概率,表示真值
(Ground Truth,GT)在第t解码步对应的字符,X表示输入的样本车牌图像,T表示样本车牌
图像的最大解码长度。
图像获取单元52,用于当接收到车牌识别请求时,获取待识别的车牌图像。
在本发明实施例中,待识别的车牌图像可以是规则车牌图像,也可以是不规则车牌图像,规则车牌图像中的字符是清晰的、横向排列,且是单行字符布局的,而不规则车牌图像中的字符排列是不规则的,如字符严重透视、失真、变形和/或多行字符布局等。
车牌识别单元53,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到车牌图像中的车牌号。
在本发明实施例中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,其中,编码器用于提取车牌图像中车牌的特征,例如车牌的形状、颜色和字体等,全局感知模块用于向特征中引入全局信息,可变形空间注意模块具有全局布局的感知能力,计算注意力以提取特征图中每个字符最具代表性的特征,预测器对车牌图像中每个字符进行并行预测。
优选地,车牌识别单元53包括:
第一特征获得单元531,用于通过编码器对车牌图像进行特征提取,得到第一特征。
在本发明实施例中,采用一个轻量级的卷积神经网络(Convolutional NeuralNetworks,CNNs)作为编码器的主干网络来对车牌图像进行视觉特征提取,其中,卷积神经网络包含多个卷积层和多个池化层,池化层是穿插在卷积层之间的,输入编码器的车牌图像的宽度和高度(W,H)被固定为(96,32)。
在对车牌图像进行视觉特征提取时,具体地,通过预设的下采样率,通过交替使用
卷积层和池化层结构对上一层提取到的特征图进行下采样,最终得到第一特征,即视觉特
征,其中,C表示特征通道数,R为实数域,r为下采样率,例如,根据经验设置了6
个卷积层,并穿插2个池化层,形成一个下采样率为4的主干网络,利用该主干网络对车牌图
像进行视觉特征提取。
第二特征获得单元532,用于通过全局感知模块对第一特征进行处理,得到第二特征。
在本发明实施例中,全局感知模块可以提取车牌图像的全局视觉信息,并能够将全局视觉信息与车牌图像中每个字符的信息进行匹配和整合,得到完整的字符信息。为了对视觉特征F进行全局感知,在全局感知模块中总共设置了两个串联的机器翻译模型(Transformer)的编码器层,每个编码器层有两个子层:
第一个子层是一个多头自注意力机制(MultiHead Self-Attention),在这个子层
中,视觉特征F首先被映射到查询空间、键空间以及值空间,表示为,
然后,多头注意力机制以不同的可学习权重将查询(Query)、键(Key)和值(Value)投影
次,使全局感知模块能够从不同的表示子空间收集信息,具体表示为:,其中,,自注意输出矩阵根据公式计算得到,,,,是可学习的参数矩阵,是值的维度,是查询
和键的维度,是输入的视觉特征F的特征序列和位置编码的维度,是注意力头的索
引编号,本发明采用个并行的注意力头,对于每个头,采用;
第二个子层是一个全连接前馈网络(Feed Forward Network,FFN),应用于视觉特
征的特征图上的每个位置,它包括两个带有ReLU激活和层归一化的卷积操作,其输入输出
维度都是,内层维度是。
在通过全局感知模块对第一特征进行处理时,具体地,通过下述步骤实现对第一特征的处理:
(1)根据位置编码的计算公式,使用不同频率的正弦和
余弦函数来编码输入的第一特征的特征序列在两个方向上的二维空间位置,并将得到的位
置编码(Positional Encoding,PE)加入到第一特征的特征序列中,使得全局感知模块能够
利用序列的顺序,其中,是车牌图像中字符的位置;
(2)通过Transformer编码器层对加入了位置编码的第一特征进行处理,得到处理后的特征;
上述步骤(1)~(3)的过程可表示为,其中,是
层归一化算子,是指Transformer编码器层,从而实现了特征的全局交互,使含有完整
字符特征的全局视觉信息能够有效地整合到键值对(Key-Value)中,增强了字符特征的完
整性,以使得其与其他部分相似字形的字符区分开来。
第三特征获得单元533,用于通过可变形空间注意模块对第二特征进行处理,得到第三特征。
在本发明实施例中,可变形空间注意模块包含可变形卷积子模块,采用可变形卷积子模块来生成二维空间可变形空间注意模块的查询,通过这种方式,网络学习了一个偏移量,以适应性地调整卷积核的位置和形状,使得卷积层的采样区域更符合车牌图像中字符的布局,因此,可变形空间注意模块有一个更大的感受野,更多的全局信息将被用来计算注意力权重。
可变形卷积子模块包括第一卷积结构、第二卷积结构、第三卷积结构、可变形卷积结构、第一反卷积结构、第二反卷积结构,在第一卷积结构、第二卷积结构以及可变形卷积结构之间分别穿插一个最大池化层,在可变形卷积结构和第一反卷积结构之间穿插2个全连接层,在第一反卷积结构和第二反卷积结构之间穿插一个批量归一化层,其中,第三卷积结构的输入为经过池化后的第一卷积结构的输出,第一反卷积结构的输入为经过2个全连接层之后的可变形卷积结构的输出,第一反卷积结构的输出和第三卷积结构的输出会进行元素级相加操作,再进行归一化处理,最后输入第二反卷积结构,第一卷积结构为三个带有ReLU激活和层归一化、维度为256的3×3卷积操作,第二卷积结构为三个带有ReLU激活和层归一化、维度为128的3×3卷积操作,第三卷积结构为一个维度为64的1×1卷积操作,可变形卷积结构为二个带有ReLU激活和层归一化、维度为128的3×3可变形卷积操作,第一反卷积结构为一个带有ReLU激活、维度为64的3×3反卷积操作,第二反卷积结构为一个带有Sigmoid激活、维度为8的3×3反卷积操作。
进一步优选地,第三特征获得单元533包括:
权重计算单元5331,用于根据第二特征,通过可变形空间注意模块中的可变形卷积子模块对注意力权重进行计算。
具体地,可变形卷积子模块对接收到的依次经过卷积(Conv)、池化(Pool)、
可变形卷积(Deform)和全连接(Full Connection,FC)处理,然后被送到反卷积层(Deconv)
恢复到原始尺寸,最后,在进行Sigmoid激活()后输出注意力权重,具体过
程表示为,其中,T表示车牌图像的最
大解码长度,注意力权重A的第t个通道对应于第t个字符,表示为。
特征聚合单元5332,用于将计算得到的注意力权重和第二特征进行聚合,得到第三特征。
车牌号获得单元534,用于根据第三特征,通过预测器对车牌图像中的每个字符进行并行预测,得到车牌号。
在本发明实施例中,采用一个FC层作为预测器,首先,将A和在空间维度上
展平成一个维度,即从到,从到,以
并行计算所有字符的注意力特征,然后,通过和的矩阵乘法来并行计算所有字符
的注意力特征,其中,表示求矩阵的转置矩阵,最后将每个
字符的特征串联起来,发送到预测器进行并行预测,得到车牌号。
在本发明实施例中,基于全局信息整合的车牌识别装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例五:
图6示出了本发明实施例五提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备6包括处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62。该处理器60执行计算机程序62时实现上述基于全局信息整合的车牌识别方法实施例中的步骤,例如图1所示的步骤S101至S102。或者,处理器60执行计算机程序62时实现上述各装置实施例中各单元的功能,例如图4所示单元41至42的功能。
在本发明实施例中,当接收到车牌识别请求时,获取待识别的车牌图像,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到该车牌图像中的车牌号,其中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,从而提高了规则和不规则车牌识别的性能,提升了识别精度和准确率。
本发明实施例的计算设备可以为个人计算机、服务器。该计算设备6中处理器60执行计算机程序62时实现基于全局信息整合的车牌识别方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例六:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述基于全局信息整合的车牌识别方法实施例中的步骤,例如,图1所示的步骤S101至S102。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图4所示单元41至42的功能。
在本发明实施例中,当接收到车牌识别请求时,获取待识别的车牌图像,通过预先训练好的车牌识别模型对车牌图像进行车牌识别,得到该车牌图像中的车牌号,其中,车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器,从而提高了规则和不规则车牌识别的性能,提升了识别精度和准确率。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于全局信息整合的车牌识别方法,其特征在于,所述方法包括下述步骤:
当接收到车牌识别请求时,获取待识别的车牌图像;
通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别,得到所述车牌图像中的车牌号,其中,所述车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器。
2.如权利要求1所述的方法,其特征在于,所述通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别的步骤,包括:
通过所述编码器对所述车牌图像进行特征提取,得到第一特征;
通过所述全局感知模块对所述第一特征进行处理,得到第二特征;
通过所述可变形空间注意模块对所述第二特征进行处理,得到第三特征;
根据所述第三特征,通过所述预测器对所述车牌图像中的每个字符进行并行预测,得到所述车牌号。
3.如权利要求2所述的方法,其特征在于,所述通过所述可变形空间注意模块对所述第二特征进行处理的步骤,包括:
根据所述第二特征,通过所述可变形空间注意模块中的可变形卷积子模块对注意力权重进行计算;
将计算得到的所述注意力权重和所述第二特征进行聚合,得到所述第三特征。
4.如权利要求1所述的方法,其特征在于,所述通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别的步骤之前,所述方法还包括:
根据预设的损失函数,对所述车牌识别模型进行训练。
5.一种基于全局信息整合的车牌识别装置,其特征在于,所述装置包括:
图像获取单元,用于当接收到车牌识别请求时,获取待识别的车牌图像;以及
车牌识别单元,用于通过预先训练好的车牌识别模型对所述车牌图像进行车牌识别,得到所述车牌图像中的车牌号,其中,所述车牌识别模型包括编码器、全局感知模块、可变形空间注意模块以及预测器。
6.如权利要求5所述的装置,其特征在于,所述车牌识别单元包括:
第一特征获得单元,用于通过所述编码器对所述车牌图像进行特征提取,得到第一特征;
第二特征获得单元,用于通过所述全局感知模块对所述第一特征进行处理,得到第二特征;
第三特征获得单元,用于通过所述可变形空间注意模块对所述第二特征进行处理,得到第三特征;以及
车牌号获得单元,用于根据所述第三特征,通过所述预测器对所述车牌图像中的每个字符进行并行预测,得到所述车牌号。
7.如权利要求6所述的装置,其特征在于,所述第三特征获得单元包括:
权重计算单元,用于根据所述第二特征,通过所述可变形空间注意模块中的可变形卷积子模块对注意力权重进行计算;以及
特征聚合单元,用于将计算得到的所述注意力权重和所述第二特征进行聚合,得到所述第三特征。
8.如权利要求5所述的装置,其特征在于,所述装置还包括:
模型训练单元,用于根据预设的损失函数,对所述车牌识别模型进行训练。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310560589.XA CN116311213B (zh) | 2023-05-18 | 2023-05-18 | 基于全局信息整合的车牌识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310560589.XA CN116311213B (zh) | 2023-05-18 | 2023-05-18 | 基于全局信息整合的车牌识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311213A true CN116311213A (zh) | 2023-06-23 |
CN116311213B CN116311213B (zh) | 2023-08-22 |
Family
ID=86830886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310560589.XA Active CN116311213B (zh) | 2023-05-18 | 2023-05-18 | 基于全局信息整合的车牌识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311213B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935373A (zh) * | 2023-09-18 | 2023-10-24 | 珠海亿智电子科技有限公司 | 多类型车牌识别模型的训练方法、装置、设备及存储介质 |
CN117173686A (zh) * | 2023-07-07 | 2023-12-05 | 深圳市美通视讯科技有限公司 | 一种新型机动车号牌检测识别方法、系统和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446383A (zh) * | 2020-11-30 | 2021-03-05 | 展讯通信(上海)有限公司 | 车牌识别方法及装置、存储介质、终端 |
CN112508018A (zh) * | 2020-12-14 | 2021-03-16 | 北京澎思科技有限公司 | 车牌识别方法、装置及存储介质 |
CN113920494A (zh) * | 2021-09-27 | 2022-01-11 | 安徽清新互联信息科技有限公司 | 一种基于transformer的车牌字符识别方法 |
CN115147731A (zh) * | 2022-07-28 | 2022-10-04 | 北京航空航天大学 | 一种基于全空间编码注意力模块的sar图像目标检测方法 |
-
2023
- 2023-05-18 CN CN202310560589.XA patent/CN116311213B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446383A (zh) * | 2020-11-30 | 2021-03-05 | 展讯通信(上海)有限公司 | 车牌识别方法及装置、存储介质、终端 |
CN112508018A (zh) * | 2020-12-14 | 2021-03-16 | 北京澎思科技有限公司 | 车牌识别方法、装置及存储介质 |
CN113920494A (zh) * | 2021-09-27 | 2022-01-11 | 安徽清新互联信息科技有限公司 | 一种基于transformer的车牌字符识别方法 |
CN115147731A (zh) * | 2022-07-28 | 2022-10-04 | 北京航空航天大学 | 一种基于全空间编码注意力模块的sar图像目标检测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173686A (zh) * | 2023-07-07 | 2023-12-05 | 深圳市美通视讯科技有限公司 | 一种新型机动车号牌检测识别方法、系统和可读存储介质 |
CN116935373A (zh) * | 2023-09-18 | 2023-10-24 | 珠海亿智电子科技有限公司 | 多类型车牌识别模型的训练方法、装置、设备及存储介质 |
CN116935373B (zh) * | 2023-09-18 | 2024-03-12 | 珠海亿智电子科技有限公司 | 多类型车牌识别模型的训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116311213B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116311213B (zh) | 基于全局信息整合的车牌识别方法、装置、设备及介质 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN110443883B (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN112819080B (zh) | 一种高精度通用的三维点云识别方法 | |
CN112686134B (zh) | 手写识别方法、装置、电子设备和存储介质 | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN115222750A (zh) | 基于多尺度融合注意力的遥感图像分割方法及系统 | |
CN113240585B (zh) | 基于生成对抗网络的图像处理方法、装置及存储介质 | |
CN114202747A (zh) | 一种实时车道线分割方法、装置、终端及存储介质 | |
CN117079276B (zh) | 一种基于知识蒸馏的语义分割方法、系统、设备及介质 | |
CN116954113B (zh) | 智能机器人驱动传感智能控制系统及其方法 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN116912296A (zh) | 一种基于位置增强注意力机制的点云配准方法 | |
CN116229584A (zh) | 一种人工智能领域的文本分割识别方法、系统、设备及介质 | |
GONG et al. | Non-segmented Chinese license plate recognition algorithm based on deep neural networks | |
Feng et al. | SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection | |
CN114841983B (zh) | 一种基于决策分数的图像对抗样本检测方法和系统 | |
CN116883960B (zh) | 目标检测方法、设备、驾驶设备和介质 | |
CN117274723B (zh) | 一种用于输电巡检的目标识别方法、系统、介质及设备 | |
CN117058437B (zh) | 一种基于知识蒸馏的花卉分类方法、系统、设备及介质 | |
EP4390871A1 (en) | Video anonymization method and apparatus, electronic device, and storage medium | |
CN116503618A (zh) | 一种基于多模态多级特征聚合的显著目标检测方法及装置 | |
CN118230010A (zh) | 一种融合边缘信息的多尺度对比图像聚类方法 | |
CN116386022A (zh) | 一种车牌识别方法、系统及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |