CN113610088A - 一种基于自注意力的车牌字符识别方法 - Google Patents

一种基于自注意力的车牌字符识别方法 Download PDF

Info

Publication number
CN113610088A
CN113610088A CN202110802244.1A CN202110802244A CN113610088A CN 113610088 A CN113610088 A CN 113610088A CN 202110802244 A CN202110802244 A CN 202110802244A CN 113610088 A CN113610088 A CN 113610088A
Authority
CN
China
Prior art keywords
license plate
layer
feature map
output
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110802244.1A
Other languages
English (en)
Inventor
张卡
何佳
戴亮亮
尼秀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Qingxin Internet Information Technology Co ltd
Original Assignee
Anhui Qingxin Internet Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Qingxin Internet Information Technology Co ltd filed Critical Anhui Qingxin Internet Information Technology Co ltd
Priority to CN202110802244.1A priority Critical patent/CN113610088A/zh
Publication of CN113610088A publication Critical patent/CN113610088A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于自注意力的车牌字符识别方法,属于车牌识别技术领域,包括:获取待识别车牌图像,根据待识别车牌图像检测出包含车牌所在位置的局部车牌图像;将局部车牌图像输入至车牌字符识别模型中;特征提取网络提取所述局部车牌图像的高层特征图;自注意力网络采用自注意力机制,对高层特征图进行处理,生成标准车牌位置特征图;字符识别网络基于标准车牌位置特征图,识别出车牌字符。本发明利用具有自注意力机制的深度神经网络模型,直接完成车牌字符识别,进而输出最佳车牌识别结果。

Description

一种基于自注意力的车牌字符识别方法
技术领域
本发明涉及技术领域,特别涉及一种基于自注意力的车牌字符识别方法。
背景技术
车牌识别是智能交通的核心技术,包含了两个大部分:车牌位置检测,车牌字符识别。其中,车牌字符识别是整个技术最重要的一部分,车牌字符识别引擎的质量,直接决定车牌识别技术的整体性能。
车牌字符识别是指在一幅已知车牌位置的图像中,准确无遗漏的识别出该车牌上的所有汉字、字符和数字,具体包括以下技术步骤:车牌位置校正、车牌字符分割、车牌字符识别等。
车牌位置校正是指对位置不理想的初检测车牌进行空间变换,使之成为理想位置的车牌,方便后续进行精确的字符分割,空间变换包括平移变换、旋转变换、缩放变换、错切变换、透视变换等,常用的校正方法有以下几类:
(1)基于直线检测的方法,代表方法有“基于hough直线检测的校正方法”和“基于radon直线检测的校正方法”,其原理是直接检测车牌上的直线,根据直线的倾斜角度进行车牌位置校正。
(2)基于遍历查找的方法,代表方法有“基于旋转投影的校正方法”。其原理是首先将车牌旋转到每一个允许的角度位置,然后进行投影获取相应的特征值,通过比较获取最佳的特征值,此时对应的角度就是最佳的车牌倾斜角度。
(3)基于特征分析的方法,代表方法有“基于主元分析的校正方法”基于最小二乘法的校正方法",该类方法直接对灰度图像或者二值化图像进行整体的分析,获取整体意义上的最优校正参数。
字符分割是指在一幅已知车牌位置的图像中,精确分割出每个单一字符,主要有以下几类方法:
(1)基于垂直投影的方法,该方法通过获取车牌字符的垂直投影曲线,依据曲线的波峰波谷位置,获取每个字符的边缘位置。
(2)基于连通区域分析的方法,该方法首先进行车牌图像二值化,利用单个字符都是单连通区域的特征进行分析,最终获取字符的位置。
(3)基于机器学习的方法,如“一种基于支持向量机的车牌字符分割方法”,该类方法通过获取车牌的布局规律特征,借助分类器进行训练学习,最终完成车牌字符的分割。
车牌字符识别是指对于已经精确分割的单个字符,识别出其真实的字母意义,常用的方法有以下几类:
(1)全局特征,该类特征采用全局变换来获取字符的整体特征,使用有序的整体特征或者子集特征来构成特征向量,常见的特征有GABOR变换特征、矩特征、投影特征、笔划密度特征、HARR特征、HOG特征等。这些特征的优点是对局部变化不敏感,抗干扰能力强;其缺点是容易忽略某些重要的局部特征,无法区分相似的字符。
(2)局部特征,该类特征是在字符的多个局部区域内,计算相应的特征,使用串联的有序局部特征构成最终的特征向量,主要特征包括局部灰度直方图特征、LBP特征、穿线特征、SIFT特征等。该类特征的优点是区分字符的能力强;其缺点是过分关注字符的局部特征,往往会错误区分具有噪声干扰的字符。
以上技术对于清晰的车牌图像,均可以达到很不错的效果。然而,实际环境中采集的车牌图像,往往存在分辨率较低、部分字符变浅或缺失、边缘模糊、字符倾斜等特点,使得准确地进行车牌位置校正、车牌字符分割、车牌字符识别变得很困难,甚至出现失效的情况,严重影响了车牌识别的整体性能。因此,如何准确鲁棒的识别车牌字符,依然是国内车牌识别系统的难点。
近年来,深度学习技术凭借着可以模拟人类大脑神经网络,能够进行精确的非线性预测,在各个领域都得到了广泛的关注和应用,但该技术的缺点是模型消耗内存很大,运算量很大,因此需要消耗大量的内存和运算能力。
发明内容
本发明的目的在于克服现有技术存在的缺陷,提高车牌识别结果的准确性。
为实现以上目的,一方面,本发明采用一种基于自注意力的车牌字符识别方法,包括:
获取待识别车牌图像,并根据待识别车牌图像检测出包含车牌所在位置的局部车牌图像;
将局部车牌图像输入至车牌字符识别模型中,所述车牌字符识别模型包括特征提取网络、自注意力网络和字符识别网络;
特征提取网络提取所述局部车牌图像的高层特征图;
自注意力网络采用自注意力机制,对高层特征图进行处理,生成标准车牌位置特征图;
字符识别网络基于标准车牌位置特征图,识别出车牌字符。
进一步地,所述特征提取网络包括卷积层conv0、最大值池化层maxpool0以及残差网络基础结构体block0、rblock1、rblock2;卷积层conv0的输入为所述待识别车牌图像、输出连接最大值池化层maxpool0,最大值池化层maxpool0输出依次连接残差网络基础结构体block0、rblock1、rblock2,残差网络基础结构体rblock2输出为所述高层特征图。
进一步地,所述残差网络基础结构体block0、rblock1均包括卷积层rconv0、rconv1、rconv2、rconv3和rconv4,以及合并层eltsum0层和eltsum1层;
残差网络基础结构体block0中卷积层rconv0和rconv2的输入均为所述最大值池化层maxpool0所输出的特征图,残差网络基础结构体block1中卷积层rconv0和rconv2的输入均为所述残差网络基础结构体block0输出的特征图;卷积层rconv0的输出与卷积层rconv1的输入连接,卷积层rconv2的输出和卷积层rconv1的输出均与合并层eltsum0层的输入连接,合并层eltsum0层的输出经卷积层rconv3与卷积层rconv4的输入连接,卷积层rconv4的输出及合并层eltsum0层的输出均与合并层eltsum1层的输入连接,合并层eltsum1层输出特征图。
进一步地,所述残差网络基础结构体block2包括卷积层rconv0、rconv1和rconv2以及合并层eltsum0层;卷积层rconv0和rconv2的输入均为所述残差网络基础结构体block1输出的特征图,卷积层rconv0的输出与卷积层rconv1连接,卷积层rconv1和卷积层rconv2的输出均与合并层eltsum0层连接,合并层eltsum0层输出为所述高层特征图。
进一步地,所述自注意力网络包括特征图相加层sum0、特征图尺寸变换层reshape0和reshape1以及encoder模块;特征图相加层sum0的输入为所述高层特征图、位置编码特征图、类型编码特征图和形状编码特征图,特征图相加层sum0的输出经特征图尺寸变换层reshape0与encoder模块连接,encoder模块的输出与特征图尺寸变换层reshape1连接,特征图尺寸变换层reshape1输出为所述标准车牌位置特征图;首次执行时,encoder模块的输入为特征图尺寸变换层reshape0输出的特征图,并将encoder模块输出的特征图作为下次执行时encoder模块的输入。
进一步地,所述encoder模块包括特征图相加层sum1和sum2,归一化层laryernorm0和laryernorm1,全连接层fc2和自注意力模块attention;
归一化层laryernorm0的输入为特征图尺寸变换层reshape0输出的特征图或encoder模块输出的特征图,归一化层laryernorm0的输出与自注意力模块attention连接,所述特征图尺寸变换层reshape0的输出及自注意力模块attention的输出均与特征图相加层sum1连接;特征图相加层sum1输出分别与归一化层laryernorm1及特征图相加层sum2连接,归一化层laryernorm1经全连接层fc2与特征图相加层sum2连接,特征图相加层sum2输出与所述特征图尺寸变换层reshape1连接。
进一步地,所述自注意力模块attention包括加权矩阵相乘层mul_qk、自注意力图特征值调整层softmax以及矩阵相乘层mul_v;加权矩阵相乘层mul_qk的输入为所述归一化层laryernorm0输出的特征图、输出经自注意力图特征值调整层softmax与矩阵相乘层mul_v连接,矩阵相乘层mul_v与加权矩阵相乘层mul_qk连接,矩阵相乘层mul_v输出为具有自注意力机制的特征图。
进一步地,所述字符识别网络包括卷积层rrconv0、特征图尺寸变换层rrshape0、全连接层rrfc0以及特征图尺寸变换层ctc0,
卷积层rrconv0的输入为所述标准车牌位置特征图、输出与特征图尺寸变换层rrshape0连接,特征图尺寸变换层rrshape0经全连接层rrfc0与特征图尺寸变换层ctc0连接,特征图尺寸变换层ctc0输出为所述车牌字符识别结果;
进一步地,所述字符识别网络的目标函数采用ctc损失函数。
进一步地,在所述将待识别车牌图像输入至车牌字符识别模型之前,还包括:
收集车牌图像;
从收集的车牌图像中检测并提取出包含有车牌所在位置的局部车牌图像;
基于车牌的真实字符信息,对所述局部车牌图像进行车牌信息标注,得到标注好的局部车牌图像并组成样本集合;
利用样本集合对所述车牌字符识别模型进行训练。
与现有技术相比,本发明存在以下技术效果:本发明利用一个具有自注意力机制的深度神经网络模型,直接完成车牌类型判断、车牌位置校正、车牌字符分割、车牌字符识别等工作,输出整体最优的字符识别结果。各种类型的车牌字符识别可以基于一个通用的深度神经网络模型来完成,通用性强,识别速度更快,误差来源更少,识别结果更加准确,对于污损、粘连、字符缺失、定位不够精确的低质量车牌图像,鲁棒性更强。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于自注意力的车牌字符识别方法的流程图;
图2是车牌字符识别模型总体结构图;
图3是特征提取网络结构图;
图4是残差网络基础结构体block0、rblock1结构图;
图5是残差网络基础结构体block2结构图;
图6是自注意力网络结构图;
图7是自注意力模块结构图;
图8是字符识别网络模块结构图;
其中,每一个神经网络结构层图形左侧的标识,表示该网络结构的输出特征图尺寸:特征图宽度×特征图高度×特征图通道数。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于自注意力的车牌字符识别方法,包括如下步骤S1至S5:
S1、获取待识别车牌图像,并根据待识别车牌图像检测出包含车牌所在位置的局部车牌图像;
需要说明的是,本实施例通过在整幅图像中,检测出车牌所在的位置,通过裁剪操作把局部车牌图像从整幅图中提取出来,并进行图像尺寸归一化,得到归一化后的局部车牌图像,然后将归一化后的局部车牌图像输入至车牌字符识别模型中。
S2、将局部车牌图像输入至车牌字符识别模型中,所述车牌字符识别模型包括特征提取网络、自注意力网络和字符识别网络;
S3、特征提取网络提取所述局部车牌图像的高层特征图;
S4、自注意力网络采用自注意力机制,对高层特征图进行处理,生成标准车牌位置特征图;
S5、字符识别网络基于标准车牌位置特征图,识别出车牌字符。
需要说明的是,在上述步骤S1之前,还包括设计深度神经网络模型作为车牌字符识别模型和训练车牌字符识别模型,本发明设计的深度神经网络模型,其主要作用是借助一个具有自注意力机制的深度神经网络模型,直接完成车牌类型判断、车牌位置校正、车牌字符分割、车牌字符识别等步骤的工作,输出整体字符识别结果。由于不再刻意区分车牌类型判断、车牌位置校正、车牌字符分割、车牌字符识别等步骤,使得整个车牌字符识别速度更快,误差来源更少,识别精度更高。
本发明采用的是卷积神经网络(CNN),为了方便叙述本发明,定义一些术语:特征图分辨率指的是特征图高度×特征图宽度,特征图尺寸指的是特征图宽度×特征图高度×特征图通道数,核尺寸指的是核宽度×核高度,跨度指的是宽度方向跨度×高度方向跨度,另外,每一个卷积层后面均带有批量归一化层和非线性激活层。本发明所处理的对象是车牌字符,这是一种很特殊的图像处理对象:首先图像上的车牌具有特定的长宽比例,其次车牌字符具有明确的位置排列规则,不同字符之间具有一定的相关性。
(1)设计车牌字符识别模型:
如图2所示,本发明设计的深度神经网络模型包含三部分:特征提取网络featuremodule、自注意力网络attention module、字符识别网络recognition module。
1-1)设计特征提取网络
具体来说,如图3所示,所述特征提取网络包括卷积层conv0、最大值池化层maxpool0以及残差网络基础结构体block0、rblock1、rblock2;卷积层conv0的输入为所述待识别车牌图像、输出连接最大值池化层maxpool0,最大值池化层maxpool0输出依次连接残差网络基础结构体block0、rblock1、rblock2,残差网络基础结构体rblock2输出为所述高层特征图。
本实施例中特征提取网络主要用于获取输入车牌图像的具有高度抽象和丰富表达能力的高层特征,高层特征提取的质量直接影响后续字符识别的性能。本发明采用改进的ResNet经典网络作为特征提取网络,该特征提取网络的输入图像是一幅图像分辨率为192×64的3通道RGB图像,conv0是核尺寸为3x3,跨度为2x2的卷积层,maxpool0是核尺寸为2x2,跨度为2x2的最大值池化层,block0、rblock1、rblock2是3个残差网络基础结构体,其中,block0和block1两个残差网络基础结构体的具体网络结构如图4,rconv2是核尺寸为1x1,跨度为2x2的卷积层,rconv1、rconv4是核尺寸为1x1,跨度为1x1的卷积层,rconv0是核尺寸为3x3,跨度为2x2的卷积层,rconv3是核尺寸为3x3,跨度为1x1的卷积层,eltsum0层和eltsum1层均是合并层,其作用是把多个输入特征图按对应元素相加合并成一个输出特征图;block2的残差网络基础结构体的具体网络结构如图5,rconv2是核尺寸为1x1,跨度为1x1的卷积层,rconv0是核尺寸为3x3,跨度为1x1的卷积层,rconv1是核尺寸为1x1,跨度为1x1的卷积层,eltsum0层是合并层,其作用是把多个输入特征图按对应元素相加合并成一个输出特征图;该特征提取网络的输出就是高层特征图feature map。
1-2)设计自注意力网络:
如图6所示,所述自注意力网络包括特征图相加层sum0、特征图尺寸变换层reshape0和reshape1以及encoder模块;特征图相加层sum0的输入为所述高层特征图、位置编码特征图、类型编码特征图和形状编码特征图,特征图相加层sum0的输出经特征图尺寸变换层reshape0与encoder模块连接,encoder模块的输出与特征图尺寸变换层reshape1连接,特征图尺寸变换层reshape1输出为所述标准车牌位置特征图;首次执行时,encoder模块的输入为特征图尺寸变换层reshape0输出的特征图,并将encoder模块输出的特征图作为下次执行时encoder模块的输入。
所述encoder模块包括特征图相加层sum1和sum2,归一化层laryernorm0和laryernorm1,全连接层fc2和自注意力模块attention;
归一化层laryernorm0的输入为特征图尺寸变换层reshape0输出的特征图或encoder模块输出的特征图,归一化层laryernorm0的输出与自注意力模块attention连接,所述特征图尺寸变换层reshape0的输出及自注意力模块attention的输出均与特征图相加层sum1连接;特征图相加层sum1输出分别与归一化层laryernorm1及特征图相加层sum2连接,归一化层laryernorm1经全连接层fc2与特征图相加层sum2连接,特征图相加层sum2输出与所述特征图尺寸变换层reshape1连接。
具体地,本实施例中自注意力网络主要是在特征提取网络输出的特征图的基础上,采用自注意力机制,引导神经网络生成标准车牌特征图,提升后续的字符识别性能,其中,标准车牌特征图是指车牌类型已知、车牌位置畸变已校正后的理想位置的车牌特征图。本发明基于transformer(Attention Is All You Need)框架,进行自注意力网络优化设计,具体网络结构如图6所示,pos-emb是位置编码特征图,用来表示输入车牌特征图中各个像素的位置;type-emb是类型编码特征图,用来表示输入车牌的类型信息,车牌类型包括国内常见的各种单层车牌,如蓝牌、黄牌、学牌、警牌、新能源车牌等;shape-emb是形状编码特征图,用来表示输入车牌的形状信息,车牌形状信息是指车牌的各种位置畸变信息,如:缩放、倾斜、错切、透视变换等信息。其中,位置编码特征图、类型编码特征图、形状编码特征图这三个特征图的尺寸和特征提取网络输出的特征图尺寸相同;位置编码特征图、类型编码特征图、形状编码特征图这三个特征图的相关参数均通过训练深度神经网络模型时学习得到;sum0、sum1、sum2均是特征图相加层,主要实现多个输入特征图逐像素相加合成一个输出特征图;laryernorm0、laryernorm1均是层归一化层(layer normalization),主要是对批输入特征图中的每一个输入特征图进行标准化处理;reshape0、reshape1均是特征图尺寸变换层,其作用是把输入特征图尺寸变换到指定的尺寸格式;fc2是全连接层;attention是自注意力模块,用来获取输入特征图的自注意力关系。其中,laryernorm0、attention、sum1、laryernorm1、fc2、sum2等特征层共同组成encoder模块,该模块会被重复执行多次,第一次执行时,encoder模块的输入特征图来源于sum0层,后续重复执行时,encoder模块的输入特征图均来源于上一次执行的输出特征图,如图6中虚线箭头所示,N表示重复执行的次数。
其中,attention模块的具体网络结构如图7所示,mul_qk是加权矩阵相乘层,用来获取输入特征图的自相关性,即自注意力图,具体运算方法是,首先输入特征图矩阵乘以输入特征图矩阵的转置矩阵,然后所得计算矩阵的每个元素再除以特征图通道数的平方根;softmax是自注意力图特征值调整层,基于softmax理论归一化自注意力图的特征值,使其范围在0-1之间;mul_v是矩阵相乘层,基于自注意力图对输入特征图进行加权,获取具有自注意力机制的输入特征图,具体运算方法是,softmax层的输出特征图矩阵乘以输入特征图矩阵。该自注意力网络的输出就是标准车牌位置特征图correct feature map。
1-3)设计字符识别网络:
如图8所示,所述字符识别网络包括卷积层rrconv0、特征图尺寸变换层rrshape0、全连接层rrfc0以及特征图尺寸变换层ctc0,
卷积层rrconv0的输入为所述标准车牌位置特征图、输出与特征图尺寸变换层rrshape0连接,特征图尺寸变换层rrshape0经全连接层rrfc0与特征图尺寸变换层ctc0连接,特征图尺寸变换层ctc0输出为所述车牌字符识别结果。
具体来说,本实施例中字符识别网络模块主要是基于标准车牌位置特征图,整体识别出车牌字符的真实意义,进而输出整个车牌字符识别结果。本发明设计的字符识别网络如图8所示,rrconv0是核尺寸为3x3,跨度为1x1的卷积层;rrshape0是特征图尺寸变换层,其作用是把输入特征图尺寸变换到指的的尺寸格式;rrfc0是全连接层,主要用于预测车牌每个字符的真实意义;ctc0是特征图尺寸变换层,主要作用是把输入特征图尺寸变换到符合ctc loss要求的输入特征图尺寸。
进一步地,所述字符识别网络的目标函数采用ctc损失函数(ctc loss),ctc loss是识别具有上下文信息关系的语言句子的最有效的训练损失函数。
(2)训练车牌字符识别模型
2-1)收集车牌图像:
需要说明的是,主要是收集各种场景,各种光线、各种角度下的车牌图像。
2-2)从收集的车牌图像中检测并提取出包含有车牌所在位置的局部车牌图像;
具体是指在整幅图像中,检测出车牌所在的位置,通过裁剪操作把局部车牌图像从整幅图中提取出来并保存。
2-3)基于车牌的真实字符信息,对所述局部车牌图像进行车牌信息标注,得到标注好的局部车牌图像并组成样本集合;
主要方法是使用现有的车牌字符分割识别技术获取车牌的真实字符信息,然后人工进行审核,对于错误的车牌信息进行校正。
2-4)利用样本集合对所述车牌字符识别模型进行训练。
具体指把整理好的车牌图像集合送入定义好的深度神经网络模型,学习相关的模型参数。
(3)使用深度神经网络模型:
具体指在实际环境中进行模型使用,对于任意给出的一幅车牌图像,送入训练好的深度神经网络模型,输出车牌字符识别结果。
在车牌字符识别领域,由于车牌字符具有明确的位置排列规则,同时车牌字符彼此之间具有一定的相关性,因此本发明提出了一种基于自注意力的车牌字符识别方法,不再严格意义上区分车牌位置校正、车牌字符分割、车牌字符识别等步骤,借助一个具有自注意力机制的深度神经网络模型,直接完成车牌字符识别,进而输出最佳车牌识别结果。
需要说明的是,本实施例方案适用于国内所有的单层车牌,该单层车牌有7个或8个字符,并且车牌字符之间存在规则的排列顺序,对于双层车牌,本发明同样适用。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自注意力的车牌字符识别方法,其特征在于,包括:
获取待识别车牌图像,并根据待识别车牌图像检测出包含车牌所在位置的局部车牌图像;
将局部车牌图像输入至车牌字符识别模型中,所述车牌字符识别模型包括特征提取网络、自注意力网络和字符识别网络;
特征提取网络提取所述局部车牌图像的高层特征图;
自注意力网络采用自注意力机制,对高层特征图进行处理,生成标准车牌位置特征图;
字符识别网络基于标准车牌位置特征图,识别出车牌字符。
2.如权利要求1所述的基于自注意力的车牌字符识别方法,其特征在于,所述特征提取网络包括卷积层conv0、最大值池化层maxpool0以及残差网络基础结构体block0、rblock1、rblock2;卷积层conv0的输入为所述待识别车牌图像、输出连接最大值池化层maxpool0,最大值池化层maxpool0输出依次连接残差网络基础结构体block0、rblock1、rblock2,残差网络基础结构体rblock2输出为所述高层特征图。
3.如权利要求2所述的基于自注意力的车牌字符识别方法,其特征在于,所述残差网络基础结构体block0、rblock1均包括卷积层rconv0、rconv1、rconv2、rconv3和rconv4,以及合并层eltsum0层和eltsum1层;
残差网络基础结构体block0中卷积层rconv0和rconv2的输入均为所述最大值池化层maxpool0所输出的特征图,残差网络基础结构体block1中卷积层rconv0和rconv2的输入均为所述残差网络基础结构体block0输出的特征图;卷积层rconv0的输出与卷积层rconv1的输入连接,卷积层rconv2的输出和卷积层rconv1的输出均与合并层eltsum0层的输入连接,合并层eltsum0层的输出经卷积层rconv3与卷积层rconv4的输入连接,卷积层rconv4的输出及合并层eltsum0层的输出均与合并层eltsum1层的输入连接,合并层eltsum1层输出特征图。
4.如权利要求2所述的基于自注意力的车牌字符识别方法,其特征在于,所述残差网络基础结构体block2包括卷积层rconv0、rconv1和rconv2以及合并层eltsum0层;卷积层rconv0和rconv2的输入均为所述残差网络基础结构体block1输出的特征图,卷积层rconv0的输出与卷积层rconv1连接,卷积层rconv1和卷积层rconv2的输出均与合并层eltsum0层连接,合并层eltsum0层输出为所述高层特征图。
5.如权利要求1所述的基于自注意力的车牌字符识别方法,其特征在于,所述自注意力网络包括特征图相加层sum0、特征图尺寸变换层reshape0和reshape1以及encoder模块;特征图相加层sum0的输入为所述高层特征图、位置编码特征图、类型编码特征图和形状编码特征图,特征图相加层sum0的输出经特征图尺寸变换层reshape0与encoder模块连接,encoder模块的输出与特征图尺寸变换层reshape1连接,特征图尺寸变换层reshape1输出为所述标准车牌位置特征图;首次执行时,encoder模块的输入为特征图尺寸变换层reshape0输出的特征图,并将encoder模块输出的特征图作为下次执行时encoder模块的输入。
6.如权利要求5所述的基于自注意力的车牌字符识别方法,其特征在于,所述encoder模块包括特征图相加层sum1和sum2,归一化层laryernorm0和laryernorm1,全连接层fc2和自注意力模块attention;
归一化层laryernorm0的输入为特征图尺寸变换层reshape0输出的特征图或encoder模块输出的特征图,归一化层laryernorm0的输出与自注意力模块attention连接,所述特征图尺寸变换层reshape0的输出及自注意力模块attention的输出均与特征图相加层sum1连接;特征图相加层sum1输出分别与归一化层laryernorm1及特征图相加层sum2连接,归一化层laryernorm1经全连接层fc2与特征图相加层sum2连接,特征图相加层sum2输出与所述特征图尺寸变换层reshape1连接。
7.如权利要求6所述的基于自注意力的车牌字符识别方法,其特征在于,所述自注意力模块attention包括加权矩阵相乘层mul_qk、自注意力图特征值调整层softmax以及矩阵相乘层mul_v;加权矩阵相乘层mul_qk的输入为所述归一化层laryernorm0输出的特征图、输出经自注意力图特征值调整层softmax与矩阵相乘层mul_v连接,矩阵相乘层mul_v与加权矩阵相乘层mul_qk连接,矩阵相乘层mul_v输出为具有自注意力机制的特征图。
8.如权利要求1所述的基于自注意力的车牌字符识别方法,其特征在于,所述字符识别网络包括卷积层rrconv0、特征图尺寸变换层rrshape0、全连接层rrfc0以及特征图尺寸变换层ctc0,
卷积层rrconv0的输入为所述标准车牌位置特征图、输出与特征图尺寸变换层rrshape0连接,特征图尺寸变换层rrshape0经全连接层rrfc0与特征图尺寸变换层ctc0连接,特征图尺寸变换层ctc0输出为所述车牌字符识别结果。
9.如权利要求8所述的基于自注意力的车牌字符识别方法,其特征在于,所述字符识别网络的目标函数采用ctc损失函数。
10.如权利要求1-9任一项所述的基于自注意力的车牌字符识别方法,其特征在于,在所述将待识别车牌图像输入至车牌字符识别模型之前,还包括:
收集车牌图像;
从收集的车牌图像中检测并提取出包含有车牌所在位置的局部车牌图像;
基于车牌的真实字符信息,对所述局部车牌图像进行车牌信息标注,得到标注好的局部车牌图像并组成样本集合;
利用样本集合对所述车牌字符识别模型进行训练。
CN202110802244.1A 2021-07-15 2021-07-15 一种基于自注意力的车牌字符识别方法 Withdrawn CN113610088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110802244.1A CN113610088A (zh) 2021-07-15 2021-07-15 一种基于自注意力的车牌字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110802244.1A CN113610088A (zh) 2021-07-15 2021-07-15 一种基于自注意力的车牌字符识别方法

Publications (1)

Publication Number Publication Date
CN113610088A true CN113610088A (zh) 2021-11-05

Family

ID=78304720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110802244.1A Withdrawn CN113610088A (zh) 2021-07-15 2021-07-15 一种基于自注意力的车牌字符识别方法

Country Status (1)

Country Link
CN (1) CN113610088A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661807A (zh) * 2022-12-28 2023-01-31 成都西物信安智能系统有限公司 一种获取车牌信息的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661807A (zh) * 2022-12-28 2023-01-31 成都西物信安智能系统有限公司 一种获取车牌信息的方法

Similar Documents

Publication Publication Date Title
CN109840521B (zh) 一种基于深度学习的一体化车牌识别方法
CN109815956B (zh) 一种基于自适应位置分割的车牌字符识别方法
CN109753914B (zh) 一种基于深度学习的车牌字符识别方法
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN103761531B (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN108154102B (zh) 一种道路交通标志识别方法
CN102509091B (zh) 一种飞机尾号识别方法
CN110555475A (zh) 一种基于语义信息融合的少样本目标检测方法
CN109190626A (zh) 一种基于深度学习的多路径特征融合的语义分割方法
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN113052200B (zh) 一种基于yolov3网络的声呐图像目标检测方法
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN113920494A (zh) 一种基于transformer的车牌字符识别方法
CN112418207B (zh) 一种基于自注意力蒸馏的弱监督文字检测方法
CN113610088A (zh) 一种基于自注意力的车牌字符识别方法
CN114037666A (zh) 一种数据集扩充和阴影图像分类辅助的阴影检测方法
CN113591863A (zh) 一种具有自校正意识的车牌字符识别方法
CN116863293A (zh) 一种基于改进YOLOv7算法的可见光下海上目标检测方法
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法
Zhang et al. Yolo-infrared: Enhancing Yolox for infrared scene
CN117132997B (zh) 一种基于多头注意力机制和知识图谱的手写表格识别方法
Yang et al. Identification of Layout elements in Chinese academic papers based on Mask R-CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211105

WW01 Invention patent application withdrawn after publication