CN111008633A - 一种基于注意力机制的车牌字符分割方法 - Google Patents
一种基于注意力机制的车牌字符分割方法 Download PDFInfo
- Publication number
- CN111008633A CN111008633A CN201910990074.7A CN201910990074A CN111008633A CN 111008633 A CN111008633 A CN 111008633A CN 201910990074 A CN201910990074 A CN 201910990074A CN 111008633 A CN111008633 A CN 111008633A
- Authority
- CN
- China
- Prior art keywords
- license plate
- layer
- character
- feature map
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 title claims abstract description 46
- 230000007246 mechanism Effects 0.000 title claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 23
- 238000010586 diagram Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
一种基于注意力机制的车牌字符分割方法,可解决当前技术对低质量车牌图像进行字符分割,不够精确的技术问题。包括以下步骤:S1、建立深度神经网络模型;S2、通过标注好的训练样本数据,优化所述深度神经网络模型参数,得到最优深度神经网络模型;S3、读取车牌图像信息,经过最优深度神经网络模型前向运算后,输出的特征图就是车牌上每个字符的分割位置;本发明采用深度学习技术预测车牌字符位置,采用高效的基干网络,减少了模型内存消耗,极大提升了系统的运行速度,采用无anchor训练机制,降低了模型训练的难度,同时使得训练模型的收敛速度更快,利用注意力机制,针对车牌的不同字符位置,能够自适应的调整注意力权值分布,车牌字符分割结果更加准确。
Description
技术领域
本发明涉及车牌识别技术领域,具体涉及一种基于注意力机制的车牌字符分割方法。
背景技术
车牌识别是智能交通的核心技术,包含了三个部分:车牌定位,字符分割,字符识别。其中,字符分割是整个技术最重要的一部分,字符分割的好坏,直接影响后续的字符识别,进而影响整体的识别性能。
字符分割是指在一幅已知车牌准确位置的图像中,精确分割出每个单一字符。对于清晰的车牌图像,已有很多成熟方法,可以获得较好的分割结果,然而,实际环境中,由于光线变化、拍摄角度、车牌污损等各种复杂场景的存在,会造成车牌字符的模糊、缺失、粘连等缺陷的出现,当前的成熟方法很难进行精确分割,造成最终的车牌识别失败。因此,如何有效的对低质量车牌图像进行精确字符分割,仍然是当前限制车牌识别技术的难题。
目前,车牌字符分割主要有以下几类方法:
(1)基于垂直投影的方法,该方法通过获取车牌字符的垂直投影曲线,依据曲线的波峰波谷位置,获取每个字符的边缘位置。该类方法的优点是算法简单,速度快,对于清晰车牌,分割效果较佳,其缺点是对于一些污损、粘连、定位不够精确的低质量车牌,分割效果会明显下降,甚至失效。
(2)基于连通区域分析的方法,该方法首先进行车牌图像二值化,利用单个字符都是单连通区域的特征进行分析,最终获取字符的位置。该类方法的优点是对低图像质量的车牌适应性较好,速度较快,然而,它对于缺失、粘连的字符,却无能为力。
(3)基于机器学习的方法,如“一种基于支持向量机的车牌字符分割方法”,该类方法通过获取车牌的布局规律特征,借助分类器进行训练学习,最终完成车牌字符的分割。其优点是对于清晰车牌,识别效果较佳,对于低质量图像也有一定的抵抗性,其缺点是合适的布局规律特征较难选取,部分变形车牌不满足布局规律,计算特征的过程,相对较复杂。
(4)基于深度学习的方法,近年来,深度学习技术凭借着可以模拟人类大脑神经网络,能够进行精确的非线性预测,各个领域都得到了广泛的关注和应用,出现了一批经典的目标位置检测网络框架,如fasterrcnn,ssd,yolo等,这些经典网络框架通过迁移学习,可以很好地检测车牌字符位置,但该类技术的缺点是模型消耗内存很大,运算量很大,基于anchorbox的模型训练参数很复杂,不易收敛,这些缺点严重的限制了深度学习算法在车牌字符分割领域的应用。
注意力机制是人类视觉系统特有的特征,当人们注意到某个目标或某个场景时,分布在该目标内部以及该场景内每一处位置上的注意力是不一样的,一般地,对于图片而言,特别显眼的局部区域会率先吸引住注意力,那是因为脑袋中对这类东西很敏感,当人们辨认两个相似目标的时候,往往也是把注意力放在最具分辨力的局部区域。因此,把注意力机制融合到车牌字符分割的应用场景,可以获得更加令人满意的效果。
发明内容
本发明提出的一种基于注意力机制的车牌字符分割方法,可解决当前技术对低质量车牌图像进行字符分割,不够精确的技术问题。
为实现上述目的,本发明采用了以下技术方案:
一种基于注意力机制的车牌字符分割方法,包括:
S1、建立深度神经网络模型;
S2、通过标注好的训练样本数据,优化所述深度神经网络模型参数,得到最优深度神经网络模型;
S3、读取车牌图像信息,经过最优深度神经网络模型前向运算后,输出的特征图就是车牌上每个字符的分割位置;
其中,
所述S1、建立深度神经网络模型;具体包括:
S11、设计深度神经网络模型的输入图像;
S12、设计基干网络,所述基干网络包括卷积层conv0、残差网络基础结构体、卷积层conv2;
卷积层conv0的核尺寸是7×7,跨度是4×4;
卷积层conv2是一个核尺寸是3×3,跨度是2×2的卷积层;
所述残差网络基础结构体包括三个,resnetblock0、resnetblock1、和resnetblock2,所述残差网络基础结构体又包括最大值下采样层maxpool0、卷积层convresnet1_0、卷积层convresnet1_1、卷积层convresnet1_2、合并层eltsum、卷积层conv1;
最大值下采样层maxpool0的核尺寸是2×2,跨度是2×2;
卷积层convresnet1_0的核尺寸是1×1,跨度是1×1;
卷积层convresnet1_1的核尺寸是3×3,跨度是2×2;
卷积层convresnet1_2的核尺寸是1×1,跨度是1×1;
eltsum是两个输入特征图进行逐像素相加的合并层,conv1是一个核尺寸是3×3,跨度是1×1的卷积层,其作用是进行合并特征融合;
S13、设计注意力模型网络,所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面;
S14、设计字符预测网络,所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上,进一步提升特征网络的表达能力,最终预测出车牌各个字符的准确位置。
进一步的,所述S13、设计注意力模型网络,所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面;
其中,所述注意力模型网络包括:
avepool0是一个均值下采样层,fc0和fc1是两个全连接层;sigmod是激活函数层,其作用是获取每个通道的归一化权值;
scale是输入特征图加权层,其作用是对输入特征图的各个通道特征图进行加权,加权计算过程如公式(1);
avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体;
eltsum1是两个输入特征图进行逐像素相加的合并层,conv3是一个核尺寸是3×3,跨度是1×1的卷积层,其作用是进行合并特征融合,resnetblock3是残差网络基础结构体;
其中,所述残差网络基础结构体包括,conv4一个核尺寸是3×3,跨度是2×2的卷积层,其作用是生成注意力模型特征图;
Fscalec(xi,yj)=Sc*F(xi,yj) (1)
其中,Fscalec(xi,yj)表示输出加权特征图的第c个通道第(xi,yj)位置处的数值,Sc表示第c个通道的权重值,F(xi,yj)表示输入特征图的第c个通道第(xi,yj)位置处的数值。
进一步的,所述S14、设计字符预测网络,所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上,进一步提升特征网络的表达能力,最终预测出车牌各个字符的准确位置;
其中所述字符预测网络具体包括:
weightedconcat层是一个加权合并层,其作用是把注意力模型特征图融合到车牌字符的高维特征图中,使得高维特征图能够根据车牌的不同位置字符,自适应的调整相应的特征图权值,使得车牌字符位置预测更加准确;
conv5是一个核尺寸是3×3,跨度是2×2的卷积层,fc3是一个全连接层,其输出特征图尺寸是1×1×28,28表示字符预测网络的回归值数目。
进一步的,所述weightedconcat层的获取方法如下:
首先把注意力模型特征图中的每一个通道特征图,分别和高维特征图中每一通道特征图进行逐像素相乘运算,然后集合所有的运算后的高维特征图,按照特征图通道维度进行拼接,拼接后的输出特征图就是加权合并层特征图。
进一步的,所述字符预测网络的回归值数目28,该数值的设定方法如下:字符预测网络需要预测车牌的7个字符的分割位置,而对于车牌每一个字符的位置,使用该字符的最小外接矩形的左上角点和右下角点表示,每一个角点需要使用2个坐标来表示。
进一步的,所述S2、通过标注好的训练样本数据,优化所述深度神经网络模型参数,得到最优深度神经网络模型;
具体包括:
S21、获取训练样本图像,收集各种场景,各种光线、各种角度下的车牌图像,使用现有的车牌检测方法获取车牌局部区域图像,然后标注车牌字符的位置信息;
S22、设计深度神经网络模型的目标损失函数;
S23、训练深度神经网络模型,是把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型,学习相应的模型参数。
进一步的,所述S21中标注车牌字符的位置信息,具体标注方法如下:
首先获取车牌上单个字符的最小外接矩形,然后获取最小外接矩形边框的左上角坐标和右下角坐标,最后,按照每个字符左上角坐标和右下角坐标的顺序,串联车牌上所有字符的位置坐标,作为车牌字符的标注值。
由上述技术方案可知,本发明的基于注意力机制的车牌字符分割方法具有以下有益效果:
本发明采用深度学习技术直接预测车牌字符位置,采用高效的基干网络,减少了模型内存消耗,极大地提升了系统的运行速度,采用无anchor训练机制,降低了模型训练的难度,同时使得训练模型的收敛速度更快,利用注意力机制,针对车牌的不同字符位置,能够自适应的调整注意力权值分布,车牌字符分割结果更加准确,对于污损、粘连、字符缺失、字符模糊的低质量车牌图像,鲁棒性更强。
附图说明
图1是本发明深度神经网络模型总体结构图;
图2是基础网络结构图;
图3是残差网络基础机构体结构图;
图4是注意力模型网络结构图;
其中,每一个神经网络结构层图形旁边的标识,表示该网络结构的输出特征层尺寸:特征层宽度×特征层高度×特征层通道数;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例所述的基于注意力机制的车牌字符分割方法,包括:
S1、建立深度神经网络模型;
S2、通过标注好的训练样本数据,优化所述深度神经网络模型参数,得到最优深度神经网络模型;
S3、读取车牌图像信息,经过最优深度神经网络模型前向运算后,输出的特征图就是车牌上每个字符的分割位置。
以下针对上述步骤具体说明本发明实施例:
S1、设计深度神经网络模型,本发明设计的深度神经网络模型,其主要作用是借助一个深度神经网络模型,提取车牌字符的高维信息特征,通过融合注意力机制模型,使得获取的高维信息特征对于不同的车牌字符位置,给予不一样的分布权值,即不同位置的车牌字符,获取的注意力也不同,进而借助一个较简单的预测网络,可以精确的获取车牌每一个字符的位置。本发明采用的深度神经网络模型如图2所示,该深度神经网络模型包含基干网络、注意力模型网络、字符预测网络等。本发明采用的是卷积神经网络(CNN),特征图尺寸指的是特征图宽度×特征图高度×特征图通道数,核尺寸指的是核宽度×核高度,跨度指的是宽度方向跨度×高度方向跨度,另外,每一个卷积层后面均带有批量归一化层batchnorm和非线性激活层PRelu或者Relu。该深度神经网络模型的具体设计步骤如下:
S11、设计深度神经网络模型的输入图像,本发明所采用的输入图像是尺寸为256×128的RGB图像。
S12、设计基干网络,基干网络主要用于获取输入图像的具有高度抽象和丰富表达能力的高层特征,高层特征提取的好坏直接影响后续字符分割的准确度,同时,基干网络也是整个深度神经网络模型中运算量最大的部分,由步骤S11可知,本发明采用的输入图像尺寸较大,需要较多的存储内存和运算开销,因此,需要一种能够提取输入图像特征的高效网络,快速去除较大输入图像尺寸带来的运算量影响。本发明采用的基干网络如图2所示,conv0是一个核尺寸是7×7,跨度是4×4的卷积层,这种大核尺寸大跨度卷积操作的好处是,可以快速降低特征图尺寸,大大降低后续操作的运算量,同时保留更多图像细节;resnetblock0,resnetblock1,resnetblock2是三个残差网络基础结构体,该残差网络基础结构体如图3所示,maxpool0是一个核尺寸是2×2,跨度是2×2的最大值下采样层,convresnet1_0是一个核尺寸是1×1,跨度是1×1的卷积层,该卷积层的作用是降低特征图通道数,减少后续卷积层的运算量,convresnet1_1是一个核尺寸是3×3,跨度是2×2的卷积层,convresnet1_2是一个核尺寸是1×1,跨度是1×1的卷积层,该卷积层的作用是提升特征图通道数,增加特征丰富度,eltsum是两个输入特征图进行逐像素相加的合并层,conv1是一个核尺寸是3×3,跨度是1×1的卷积层,其作用是进行合并特征融合。conv2是一个核尺寸是3×3,跨度是2×2的卷积层。
S13、设计注意力模型网络,本发明中的车牌字符分割不同于通用的目标位置检测应用,所有的车牌字符位置之间存在相同的规则排列,精确的分割车牌字符,不仅要注意车牌字符的整体特征,还要注意车牌字符之间的局部特征。本发明采用了一种新颖的注意力模型网络,可以根据车牌不同字符的位置预测,自适应的调整注意力,对有利于预测字符位置的关键区域,分配更多的注意力权值。注意力模型网络接入到步骤S12中的结构体resnetblock1后面,其输入特征图尺寸是16×8×128,具体网络结构如图4所示,avepool0是一个均值下采样层,fc0和fc1是两个全连接层,sigmod是激活函数层,其作用是获取每个通道的归一化权值,scale是输入特征图加权层,其作用是对输入特征图的各个通道特征图进行加权,加权计算过程如公式(1);avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体,这是Squeeze-and-ExcitationNetworks的精髓;eltsum1是两个输入特征图进行逐像素相加的合并层,conv3是一个核尺寸是3×3,跨度是1×1的卷积层,其作用是进行合并特征融合,resnetblock3是残差网络基础结构体,该残差网络基础结构体如图3所示,conv4一个核尺寸是3×3,跨度是2×2的卷积层,其作用是生成注意力模型特征图。
Fscalec(xi,yj)=Sc*F(xi,yj)(1)
其中,Fscalec(xi,yj)表示输出加权特征图的第c个通道第(xi,yj)位置处的数值,Sc表示第c个通道的权重值,F(xi,yj)表示输入特征图的第c个通道第(xi,yj)位置处的数值。
S14、设计字符预测网络,字符预测网络主要是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上,进一步提升特征网络的表达能力,最终预测出车牌各个字符的准确位置。字符预测网络如图2所示,weightedconcat层是一个加权合并层,其主要作用是,把注意力模型特征图融合到车牌字符的高维特征图中,使得高维特征图能够根据车牌的不同位置字符,自适应的调整相应的特征图权值,使得车牌字符位置预测更加准确,该加权合并层的获取方法如下:首先把注意力模型特征图中的每一个通道特征图,分别和高维特征图中每一通道特征图进行逐像素相乘运算,然后集合所有的运算后的高维特征图,按照特征图通道维度进行拼接,拼接后的输出特征图就是加权合并层特征图。conv5是一个核尺寸是3×3,跨度是2×2的卷积层,fc3是一个全连接层,其输出特征图尺寸是1×1×28,28表示字符预测网络的回归值数目,该数值的设定方法如下:字符预测网络需要预测车牌的7个字符的分割位置,而对于车牌每一个字符的位置,使用该字符的最小外接矩形的左上角点和右下角点表示,每一个角点需要使用2个坐标来表示;
S2、训练深度神经网络模型,主要是通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型车牌字符分割性能最优,具体的步骤如下:
S21、获取训练样本图像,主要是收集各种场景,各种光线、各种角度下的车牌图像,使用现有的车牌检测方法获取车牌局部区域图像,然后标注车牌字符的位置信息。具体标注方法如下:首先获取车牌上单个字符的最小外接矩形,然后获取最小外接矩形边框的左上角坐标和右下角坐标,最后,按照每个字符左上角坐标和右下角坐标的顺序,串联车牌上所有字符的位置坐标,作为车牌字符的标注值。
S22、设计深度神经网络模型的目标损失函数,目标损失函数采用的是均方差损失函数。
S23、训练深度神经网络模型,主要是把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型,学习相关的模型参数;
S3、使用深度神经网络模型,训练完深度神经网络模型后,接下来就是在实际环境中进行模型使用,对于任意给出的一个车牌局部图像,经过深度神经网络模型前向运算后,输出的特征图就是车牌上每个字符的分割位置。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于注意力机制的车牌字符分割方法,其特征在于:包括以下步骤:
S1、建立深度神经网络模型;
S2、通过标注好的训练样本数据,优化所述深度神经网络模型参数,得到最优深度神经网络模型;
S3、读取车牌图像信息,经过最优深度神经网络模型前向运算后,输出的特征图就是车牌上每个字符的分割位置;
其中,
所述S1、建立深度神经网络模型;具体包括:
S11、设计深度神经网络模型的输入图像;
S12、设计基干网络,所述基干网络包括卷积层conv0、三个残差网络基础结构体:resnetblock0、resnetblock1、resnetblock2,卷积层conv2;
卷积层conv0的核尺寸是7×7,跨度是4×4;
卷积层conv2是一个核尺寸是3×3,跨度是2×2的卷积层;
每个残差网络基础结构体包括最大值下采样层maxpool0、卷积层convresnet1_0、卷积层convresnet1_1、卷积层convresnet1_2、合并层eltsum、卷积层conv1;
最大值下采样层maxpool0的核尺寸是2×2,跨度是2×2;
卷积层convresnet1_0的核尺寸是1×1,跨度是1×1;
卷积层convresnet1_1的核尺寸是3×3,跨度是2×2;
卷积层convresnet1_2的核尺寸是1×1,跨度是1×1;
eltsum是两个输入特征图进行逐像素相加的合并层,conv1是一个核尺寸是3×3,跨度是1×1的卷积层,其作用是进行合并特征融合;
S13、设计注意力模型网络,所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面;
S14、设计字符预测网络,所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上,进一步提升特征网络的表达能力,最终预测出车牌各个字符的准确位置。
2.根据权利要求1所述的基于注意力机制的车牌字符分割方法,其特征在于:所述S13、设计注意力模型网络,所述注意力模型网络接入到步骤S12中的结构体resnetblock1后面;
其中,所述注意力模型网络包括:
avepool0是一个均值下采样层,fc0和fc1是两个全连接层;sigmod是激活函数层,其作用是获取每个通道的归一化权值;
scale是输入特征图加权层,其作用是对输入特征图的各个通道特征图进行加权,加权计算过程如公式(1);
avepool0层、fc0层、fc1层、sigmod层、scale层共同组成了一个SENet结构体;
eltsum1是两个输入特征图进行逐像素相加的合并层,conv3是一个核尺寸是3×3,跨度是1×1的卷积层,其作用是进行合并特征融合,resnetblock3是残差网络基础结构体;
其中,conv4一个核尺寸是3×3,跨度是2×2的卷积层,其作用是生成注意力模型特征图;
Fscalec(xi,yj)=Sc*F(xi,yj) (1)
其中,Fscalec(xi,yj)表示输出加权特征图的第c个通道第(xi,yj)位置处的数值,Sc表示第c个通道的权重值,F(xi,yj)表示输入特征图的第c个通道第(xi,yj)位置处的数值。
3.根据权利要求2所述的基于注意力机制的车牌字符分割方法,其特征在于:所述S14、设计字符预测网络,所述字符预测网络是在步骤S12获取的高维特征图和步骤S13获取的注意力模型特征图的基础上,进一步提升特征网络的表达能力,最终预测出车牌各个字符的准确位置;
其中所述字符预测网络具体包括:
weightedconcat层是一个加权合并层,其作用是把注意力模型特征图融合到车牌字符的高维特征图中,使得高维特征图能够根据车牌的不同位置字符,自适应的调整相应的特征图权值,使得车牌字符位置预测更加准确;
conv5是一个核尺寸是3×3,跨度是2×2的卷积层,fc3是一个全连接层,其输出特征图尺寸是1×1×28,28表示字符预测网络的回归值数目。
4.根据权利要求3所述的基于注意力机制的车牌字符分割方法,其特征在于:所述weightedconcat层的获取方法如下:
首先把注意力模型特征图中的每一个通道特征图,分别和高维特征图中每一通道特征图进行逐像素相乘运算,然后集合所有的运算后的高维特征图,按照特征图通道维度进行拼接,拼接后的输出特征图就是加权合并层特征图。
5.根据权利要求3所述的基于注意力机制的车牌字符分割方法,其特征在于:
所述字符预测网络的回归值数目28,该数值的设定方法如下:字符预测网络需要预测车牌的7个字符的分割位置,而对于车牌每一个字符的位置,使用该字符的最小外接矩形的左上角点和右下角点表示,每一个角点需要使用2个坐标来表示。
6.根据权利要求1所述的基于注意力机制的车牌字符分割方法,其特征在于:
所述S2、通过标注好的训练样本数据,优化所述深度神经网络模型参数,得到最优深度神经网络模型;
具体包括:
S21、获取训练样本图像,收集各种场景,各种光线、各种角度下的车牌图像,使用现有的车牌检测方法获取车牌局部区域图像,然后标注车牌字符的位置信息;
S22、设计深度神经网络模型的目标损失函数;
S23、训练深度神经网络模型,是把标注好的车牌字符样本图像集合送入定义好的深度神经网络模型,学习相应的模型参数。
7.根据权利要求6所述的基于注意力机制的车牌字符分割方法,其特征在于:
所述S21中标注车牌字符的位置信息,具体标注方法如下:
首先获取车牌上单个字符的最小外接矩形,然后获取最小外接矩形边框的左上角坐标和右下角坐标,最后,按照每个字符左上角坐标和右下角坐标的顺序,串联车牌上所有字符的位置坐标,作为车牌字符的标注值。
8.根据权利要求1所述的基于注意力机制的车牌字符分割方法,其特征在于:
所述S11中所采用的输入图像是尺寸为256×128的RGB图像。
9.根据权利要求1所述的基于注意力机制的车牌字符分割方法,其特征在于:
所述注意力模型网络其输入特征图尺寸是16×8×128。
10.根据权利要求6所述的基于注意力机制的车牌字符分割方法,其特征在于:
所述S22中目标损失函数采用的是均方差损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910990074.7A CN111008633B (zh) | 2019-10-17 | 2019-10-17 | 一种基于注意力机制的车牌字符分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910990074.7A CN111008633B (zh) | 2019-10-17 | 2019-10-17 | 一种基于注意力机制的车牌字符分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008633A true CN111008633A (zh) | 2020-04-14 |
CN111008633B CN111008633B (zh) | 2023-03-10 |
Family
ID=70111821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910990074.7A Active CN111008633B (zh) | 2019-10-17 | 2019-10-17 | 一种基于注意力机制的车牌字符分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008633B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523539A (zh) * | 2020-04-15 | 2020-08-11 | 北京三快在线科技有限公司 | 一种文字检测方法及装置 |
CN111681259A (zh) * | 2020-05-17 | 2020-09-18 | 天津理工大学 | 基于无Anchor机制检测网络的车辆跟踪模型建立方法 |
CN111881914A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于自学习阈值的车牌字符分割方法及系统 |
CN112232237A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 车辆流量的监控方法、系统、计算机设备和存储介质 |
CN112419333A (zh) * | 2020-11-17 | 2021-02-26 | 武汉大学 | 一种遥感影像自适应特征选择分割方法及系统 |
CN112509046A (zh) * | 2020-12-10 | 2021-03-16 | 电子科技大学 | 一种弱监督的卷积神经网络图像目标定位方法 |
CN113554030A (zh) * | 2021-07-27 | 2021-10-26 | 上海大学 | 基于单字符注意力的多类型车牌识别方法及系统 |
CN113642583A (zh) * | 2021-08-13 | 2021-11-12 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564088A (zh) * | 2018-04-17 | 2018-09-21 | 广东工业大学 | 车牌识别方法、装置、设备及可读存储介质 |
US20190095730A1 (en) * | 2017-09-25 | 2019-03-28 | Beijing University Of Posts And Telecommunications | End-To-End Lightweight Method And Apparatus For License Plate Recognition |
CN109753914A (zh) * | 2018-12-28 | 2019-05-14 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的车牌字符识别方法 |
CN110070085A (zh) * | 2019-04-30 | 2019-07-30 | 北京百度网讯科技有限公司 | 车牌识别方法和装置 |
-
2019
- 2019-10-17 CN CN201910990074.7A patent/CN111008633B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190095730A1 (en) * | 2017-09-25 | 2019-03-28 | Beijing University Of Posts And Telecommunications | End-To-End Lightweight Method And Apparatus For License Plate Recognition |
CN108564088A (zh) * | 2018-04-17 | 2018-09-21 | 广东工业大学 | 车牌识别方法、装置、设备及可读存储介质 |
CN109753914A (zh) * | 2018-12-28 | 2019-05-14 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的车牌字符识别方法 |
CN110070085A (zh) * | 2019-04-30 | 2019-07-30 | 北京百度网讯科技有限公司 | 车牌识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
刘建国等: "基于卷积神经网络的车牌识别技术", 《物流技术》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523539A (zh) * | 2020-04-15 | 2020-08-11 | 北京三快在线科技有限公司 | 一种文字检测方法及装置 |
CN111681259B (zh) * | 2020-05-17 | 2023-05-05 | 天津理工大学 | 基于无Anchor机制检测网络的车辆跟踪模型建立方法 |
CN111681259A (zh) * | 2020-05-17 | 2020-09-18 | 天津理工大学 | 基于无Anchor机制检测网络的车辆跟踪模型建立方法 |
CN111881914A (zh) * | 2020-06-23 | 2020-11-03 | 安徽清新互联信息科技有限公司 | 一种基于自学习阈值的车牌字符分割方法及系统 |
CN111881914B (zh) * | 2020-06-23 | 2024-02-13 | 安徽清新互联信息科技有限公司 | 一种基于自学习阈值的车牌字符分割方法及系统 |
CN112232237A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 车辆流量的监控方法、系统、计算机设备和存储介质 |
CN112232237B (zh) * | 2020-10-20 | 2024-03-12 | 城云科技(中国)有限公司 | 车辆流量的监控方法、系统、计算机设备和存储介质 |
CN112419333A (zh) * | 2020-11-17 | 2021-02-26 | 武汉大学 | 一种遥感影像自适应特征选择分割方法及系统 |
CN112419333B (zh) * | 2020-11-17 | 2022-04-29 | 武汉大学 | 一种遥感影像自适应特征选择分割方法及系统 |
CN112509046A (zh) * | 2020-12-10 | 2021-03-16 | 电子科技大学 | 一种弱监督的卷积神经网络图像目标定位方法 |
CN113554030A (zh) * | 2021-07-27 | 2021-10-26 | 上海大学 | 基于单字符注意力的多类型车牌识别方法及系统 |
CN113554030B (zh) * | 2021-07-27 | 2022-08-16 | 上海大学 | 基于单字符注意力的多类型车牌识别方法及系统 |
CN113642583B (zh) * | 2021-08-13 | 2022-06-28 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
CN113642583A (zh) * | 2021-08-13 | 2021-11-12 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111008633B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008633B (zh) | 一种基于注意力机制的车牌字符分割方法 | |
JP7246104B2 (ja) | テキスト行識別に基づくナンバープレート識別方法 | |
CN111027539B (zh) | 一种基于空间位置信息的车牌字符分割方法 | |
CN111008632B (zh) | 一种基于深度学习的车牌字符分割方法 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN109766805B (zh) | 一种基于深度学习的双层车牌字符识别方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112434586B (zh) | 一种基于域自适应学习的多复杂场景目标检测方法 | |
CN112395951B (zh) | 一种面向复杂场景的域适应交通目标检测与识别方法 | |
CN113920468B (zh) | 一种基于跨尺度特征增强的多分支行人检测方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN111310593B (zh) | 一种基于结构感知的超快速车道线检测方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN111209858A (zh) | 一种基于深度卷积神经网络的实时车牌检测方法 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及系统 | |
CN114418840A (zh) | 一种基于注意力机制的图像拼接定位检测方法 | |
CN111199255A (zh) | 基于darknet53网络的小目标检测网络模型及检测方法 | |
CN111008639A (zh) | 一种基于注意力机制的车牌字符识别方法 | |
CN115294548B (zh) | 一种基于行方向上位置选择和分类方法的车道线检测方法 | |
Muthalagu et al. | Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks | |
CN113361467A (zh) | 基于领域适应的车牌识别方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN114943888A (zh) | 基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质 | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN116994068A (zh) | 一种基于知识蒸馏的目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |