CN111310862B - 复杂环境下基于图像增强的深度神经网络车牌定位方法 - Google Patents
复杂环境下基于图像增强的深度神经网络车牌定位方法 Download PDFInfo
- Publication number
- CN111310862B CN111310862B CN202010225652.0A CN202010225652A CN111310862B CN 111310862 B CN111310862 B CN 111310862B CN 202010225652 A CN202010225652 A CN 202010225652A CN 111310862 B CN111310862 B CN 111310862B
- Authority
- CN
- China
- Prior art keywords
- license plate
- frame
- prediction
- loss
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 97
- 238000012360 testing method Methods 0.000 claims abstract description 57
- 238000005286 illumination Methods 0.000 claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 54
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 230000007613 environmental effect Effects 0.000 claims abstract description 24
- 238000005516 engineering process Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 73
- 238000010586 diagram Methods 0.000 claims description 21
- 238000011084 recovery Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000001939 inductive effect Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000011895 specific detection Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000010998 test method Methods 0.000 claims 1
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 238000004140 cleaning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000009193 crawling Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
复杂环境下基于图像增强的深度神经网络车牌定位方法,以神经网络深度学习为技术背景,用各种环境背景下的车牌照片数据集,利用构建的深度神经网络模型进行大量学习训练,得到网络模型的权重文件及其它参数文件;并在系统的检测阶段引入图像增强技术,对测试集照片中的低照度、有雾、模糊照片进行图像增强,实现了复杂环境下车牌的精准定位;同时,图像增强技术的引进,大大增强了本发明车牌定位方法对复杂环境的兼容性,很好地解决了现有车牌定位算法对环境因素敏感、对图像质量要求高、车牌可定位场景单一的问题;本发明提出的车牌定位方法使用的是神经网络深度学习技术,该神经网络模型的迁移学习能力和泛化性强。
Description
技术领域
本发明属于图像识别领域,尤其涉及一种复杂环境下基于图像增强的深度神经网络车牌定位方法。
背景技术
近年来,经济与科技的繁荣进步,促使城镇车辆连年增加,汽车保有量屡创新高,人们出行更为便利,但随之而来的各类交通安全、交通拥塞问题也成为社会矛盾的焦点。基于这样的现实背景,许多学者专家提出智能交通系统(Intelligent TransportationSystem,ITS),其利用电子信息化平台,在一定的空间范围内,构建自动化、智能化的交通管理体系,被视为未来交通的发展方向。车牌定位作为其中重要的组成部分之一,是公路交通自动化领域的关键技术,在公共安全、交通管理以及海关、军事等部门有重要的应用价值,已经成为人们的研究热点。
现有的车牌定位算法,对环境中的干扰因素非常敏感。如光线、拍摄背景、天气、拍摄照片的质量等因素的极小变化便会导致定位的失败,此类算法对环境要求严苛,算法鲁棒性差。故其仅应用于停车场之类的拍摄角度固定的简单场景中,无法进行复杂环境下的实时定位。
针对现有算法的不足,本发明提出复杂环境下基于图像增强的深度神经网络车牌定位方法。该方法以神经网络深度学习为技术背景,用各种环境背景下的车牌照片数据对搭建的车牌定位模型进行大量学习训练,得到网络模型的权重文件以及其它参数文件,并在系统的检测阶段引入图像增强技术,实现复杂环境下车牌的精准定位。鉴于车牌识别定位技术在实际生活中的应用环境,本发明提出的复杂环境车牌定位技术是包括正常光照清晰条件、低照度条件、有雾条件、照片模糊条件四类综合环境下的车牌定位技术。本发明方法检测准确率高,模型泛化能力强,同时对各类环境因素具有很好的鲁棒性。
发明内容
本发明的目的是提供一种复杂环境下基于图像增强的深度神经网络车牌定位方法。
为了实现上述目的,本发明采取如下的技术解决方案:
复杂环境下基于图像增强的深度神经网络车牌定位方法,以神经网络深度学习为技术背景,用各种环境背景下的车牌照片数据对搭建的车牌定位模型进行大量学习训练,得到网络模型的权重文件以及其它参数文件。并在系统的检测阶段引入图像增强技术,对测试集中的低照度、有雾、模糊照片进行图像增强,实现了复杂环境下车牌的精准定位,很好地解决了现有车牌定位算法对环境因素敏感、对图像质量要求高、车牌可定位场景单一的问题。车牌定位技术方案具体流程图见附图说明图1。
复杂环境下基于图像增强的深度神经网络车牌定位方法步骤如下:
步骤一、车牌照片数据集的建立。该部分包括车牌照片数据集的收集、清洗、增强、标注,最后形成训练车牌定位神经网络的车牌照片数据集。其中,在车牌照片训练集的标注部分,选用labelImg软件,对数据集中的训练集进行车牌类别人工标注,生成该车牌的真实框并得到真实框所包含的信息。用labelImg软件对训练集车牌照片中的真实车牌进行标注,首先,框出照片中所有车牌的位置,然后输入物体类别为“License”,至此,一张车牌照片的车牌类别人工标注完成,保存标注信息,生成该车牌照片的xml文件。从车牌照片标注后生成的xml文件中,可以得到该车牌照片中任何一个车牌标注后生成的真实框的中心位置坐标(x,y)以及宽度w和高度h。
步骤二、车牌定位神经网络框架的建立。在该部分搭建一个具有提取车牌数据特征和检测功能并回归物体位置、类别信息功能的车牌定位神经网络框架。该网络框架是一个多尺度检测的模型,其采用全卷积网络,使用步长为2的卷积核降采样,在网络中大量使用残差网络跳层连接,保证在网络结构加深的情况下,训练仍能收敛。同时,在网络中采用上采样和张量拼接操作,上采样可使网络提取的深层特征图尺寸变大;张量拼接,可将网络提取的浅层特征图与上采样后尺寸变大的深层特征图拼接在一块,然后将拼接后的特征图用于低倍降采样检测,使网络同时学习深层和浅层特征,定位效果更好。最后,分别在32倍降采样、16倍降采样以及8倍降采样下进行3次检测,多尺度下预测输出。
本发明搭建的车牌定位神经网络框架共由1个输入层、26个卷积块层、5个残差网络层、2个上采样操作层、2个张量拼接操作层、3个卷积操作层、3个预测输出层组成。具体车牌定位神经网络框架图见附图说明图2。
步骤三、车牌定位神经网络模型的锚框生成。在该部分主要是对本发明车牌定位神经网络模型训练时所需要的锚框进行生成,锚框在神经网络训练中的主要作用是较大幅度提升模型的检测精度。通过对训练集标注好的车牌真实框进行聚类,进而发现训练集中车牌真实框的统计规律,最后根据这些统计规律去生成锚框,方便后续训练。
锚框的生成方法如下:选用K均值聚类算法,以步骤一中标注完成的训练集车牌照片为聚类样本,对训练集标注好的车牌真实框进行聚类,生成锚框。在这种方法中,聚类中心个数k等于数据集对应的锚框数,在本发明中,选择k=9,生成9个符合本文数据集的锚框,锚框分为3个不同尺度,每个尺度各有3个,分别给出锚框的宽度pw和高度ph。
步骤四、车牌定位神经网络模型训练的损失函数。本发明的车牌定位神经网络模型的损失函数共有3部分构成,具体如下:
(1)位置损失
位置损失由2部分构成,分别为中心损失center_loss和尺度损失size_loss。中心损失用于评估网络预测的预测框的中心和实际车牌的真实框的中心间的误差;尺度损失则用于评估网络预测的预测框的高度与宽度和实际车牌真实框的高度与宽度间的误差。中心损失x_loss和y_loss使用的函数为二值交叉熵函数,尺度损失size_loss使用的函数为平方函数;
(2)置信度损失
置信度损失confidence_loss用于评估网络预测的预测框对应的置信度和实际车牌的真实框对应的置信度之间的误差。置信度损失使用的函数为二值交叉熵函数;
(3)类别损失
类别损失cls_loss用于评估网络预测的预测框对应的类别和实际车牌的真实框对应的类别之间的误差;
步骤五、车牌定位神经网络模型的训练。在该部分主要是对搭建的车牌定位神经网络模型进行训练,生成网络模型的权重文件以及其他参数文件。训练集为步骤一中标注生成的车牌照片xml文件。
步骤六、车牌定位神经网络模型的测试。在该部分将步骤五训练得到的权重文件以及模型参数导入车牌定位神经网络模型,用未参与训练的测试集对搭建的模型进行测试并统计结果分析。在该部分对搭建的车牌定位神经网络模型进行测试,分为以下几步进行:
(1)将测试集的车牌照片保存在指定文件夹,并将该文件的绝对路径导入模型,等待检测。
(2)将步骤五训练得到的权重文件以及模型参数导入车牌定位神经网络模型。
(3)运行车牌定位神经网络模型对测试集文件夹里的车牌照片依次进行检测,模型测试过程如下:
首先,把测试集车牌照片调整为416×416像素尺寸,3颜色通道的RGB图,然后输入到步骤二搭建的车牌定位神经网络模型中,模型会对这一输入信息按照附图说明图2的流程依次经过多个卷积块层、残差网络层并进行上采样、张量拼接操作,最后在3个预测输出层进行多尺度预测输出,3个预测输出层的输出分别为52×52×18、26×26×18、13×13×18的特征图,这些特征图便包含了预测框的中心位置坐标、宽高及其所属的类别等信息。同时,车牌定位模型测试时共预测
52×52×3+26×26×3+13×13×3=10647
10647个预测框,然后通过模型设定的置信度阈值,过滤掉低分预测框,然后对剩下的预测框执行非极大值抑制处理,得到网络的最终车牌定位检测结果。
(4)模型性能评估
测试集的车牌照片包含了各种环境背景。因此,本发明对模型的测试评估分为以下几步:
(a)将测试集1000张包含各种环境背景的测试集车牌照片导入训练好的模型,进行检测,统计准确定位车牌照片数目,计算准确率。
(b)将测试集1000张照片中正常光照清晰条件、低照度条件、有雾天气条件、照片模糊条件的车牌照片各自归纳为一组,分别依次导入模型统计各自特定背景下的准确定位车牌照片数目,分别计算准确率。
经实验检测发现,模型对正常光照清晰条件的车牌照片定位准确率非常高;而在天气条件比较恶劣,诸如低照度条件比如凌晨、黄昏;有雾天气;或者低质模糊图片,对它们进行车牌定位时,发现本发明车牌检测算法的准确率会下降,这是由于天气环境导致场景图质量不好造成的。这就需要在车牌检测算法中引入针对该类图像的图像增强技术,改善天气条件恶劣环境下场景图的质量,提高其可用性以及车牌定位准确率。
步骤七、待检照片的图像增强。在该部分运用图像增强技术,对测试集中的低照度、有雾、模糊的待检车牌照片进行图像增强,使其更加清晰便于检测,提高车牌定位准确率。
本发明的待检车牌照片图像增强步骤如下:
(1)用OpenCV软件得到待检照片的RGB3个颜色通道的原始图像;
(2)用高斯函数与3个颜色通道的原始图像分别进行卷积估计得到3个颜色通道的照度图像;
(3)调整高斯函数中高斯核的尺度,重复第(2)步,求出不同高斯核尺度下的3个颜色通道的照度图像;
(4)再由原始图像、照度图像以及反射图像三者之间的关系,分别求出不同高斯核尺度下的3个颜色通道的反射图像;
(5)对求得的不同高斯核尺度的3个颜色通道的反射图像,按同一颜色通道分别进行尺度加权求和,得到多尺度加权求和后的3个颜色通道的反射图像;
(6)将多尺度加权求和后的3个颜色通道的反射图像分别进行颜色恢复处理,并合并其RGB 3个颜色通道,得到最后所需要的增强图像。
步骤八、待检照片图像增强后的车牌实时定位检测。车牌定位检测算法的模型性能评估,分为以下几步:
(1)将测试集1000张包含各种环境背景的进行了图像增强的测试集车牌照片导入模型,进行检测,并统计准确定位照片数目,计算准确率。
(2)将图像增强后的1000张测试集照片中正常光照清晰条件、低照度条件、有雾天气条件、照片模糊条件的车牌照片各自归纳为一组,分别导入模型统计特定背景下的准确定位照片的数目,计算准确率。
(3)将1000张经过图像增强的测试集照片用传统车牌定位算法进行定位处理,统计其准确定位照片的数目,计算准确率。
统计完成后发现,本发明训练的车牌定位方法对进行了图像增强后的低照度条件、有雾天气条件、模糊条件的车牌照片定位准确率大幅提升;与传统车牌定位算法相比,本发明方法定位准确率也大大提升,尤其是对低照度、有雾、模糊条件下的车牌定位,传统算法表现很差,而本发明方法表现优异,性能很好。
在上述各步骤中出现的符号i表示车牌定位检测的第i个车牌预测框,i=1,2,3,..,10647;符号g表示图像R,G,B三个颜色通道,g=1,2,3;符号n表示高斯函数中的高斯核取不同尺度的尺度数,n=1,2,3。
发明优点
复杂环境下基于图像增强的深度神经网络车牌定位方法,很好地解决了现有车牌定位算法对环境因素敏感、对图像质量要求高、车牌可定位场景单一的问题。同时,本发明提出的车牌定位方法结合神经网络深度学习技术,使得本发明方法构建的模型迁移学习能力强,图像增强方法的引入也使本发明的车牌定位方法在抗环境因素干扰方面具有强大的鲁棒性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明描述中需要使用的附图做简单介绍,以便更好地了解本发明的发明内容。
图1为本发明的车牌定位技术方案具体流程图;
图2为本发明的车牌定位神经网络框架图;
图3为本发明车牌定位神经网络框架中卷积块的执行步骤图;
图4为本发明车牌定位神经网络框架中残差网络层的执行步骤图;
图5为本发明车牌定位神经网络框架中卷积系列操作执行步骤图;
图6为本发明的车牌定位神经网络单个网格输出参数框图;
图7(a)为低照度条件下的原始图像;
图7(b)为本发明的低照度条件图像增强处理后图像;
图8(a)为有雾条件下的原始图像;
图8(b)为本发明的有雾条件图像增强处理后图像;
图9为传统车牌定位算法对低照度条件下的车牌照片的定位检测图;
图10为传统车牌定位算法对有雾条件下的车牌照片的定位检测图;
图11为本发明车牌定位方法对低照度条件下的车牌照片的定位检测图;
图12为本发明的车牌定位方法对有雾条件的车牌照片的定位检测图;
具体实施方式
复杂环境下基于图像增强的深度神经网络车牌定位方法具体实施步骤如下:
步骤一、车牌照片数据集的建立。该部分包括车牌照片数据集的收集、车牌照片数据集的清洗、增强、标注,最后形成训练车牌定位神经网络的车牌照片数据集。
(一)车牌照片数据集的收集
在该部分采用手持摄像机实地拍摄、网页爬取以及整理网上小规模车牌照片数据库,三种手段来进行车牌照片的收集。利用手持摄像机拍摄实地车牌获取车牌图像,这部分车牌图像包括了白天、黑夜、阴天、雨天、倾斜、有雾等多种环境背景。由于拍摄过程中针对同一车牌会在同样的情况下拍摄3到4张照片,故而后续可以从这些照片中挑选出质量较好的照片。因而这部分车牌数据的质量非常高。第二,从网页爬取。从指定网页中爬取可能存在的车牌图片,并将下载好的图片存入指定文件夹。第三,整合一些从互联网上搜索到的小规模车牌数据集。网页爬取得到的车牌照片良莠不齐,质量难以和手动拍摄的数据相媲美。而数据集质量的高低将决定网络模型最终性能的优劣。数据分布过于杂乱,质量过低等情况都会严重降低最终网络模型的性能。故而必须要对收集到的数据集进行筛选,过滤掉无法使用的图片即数据集的清洗。
(二)车牌照片数据集的清洗
对于数据集中第一部分通过手动采集的图片。针对这部分数据集的清洗,主要集中在去除拍摄时出现不完整以及重复的图片;针对数据集中第二部分从网页爬取的车牌图片。经过观察,这部分车牌数据在清晰度、光照、背景、车牌图像完整度、车牌图像可辨识度等方面存在诸多问题,数据质量差别非常大。针对这部分数据的清洗主要集中在去除严重污损的图片、车牌被严重遮挡的图片、水印过于严重的图片、部分重复图片以及残缺、破损的图片以及无关图片;针对数据集中第三部分整合互联网上小规模数据集得到的车牌图片,因为前期上传者已经对这些数据进行过处理,因而这部分筛选较为简单,只需要查看数据集中图片是否包含车牌以及图片是否重复即可。经过清洗的车牌数据集质量高,包含各种环境背景,利于训练。
(三)车牌照片数据集的增强
数据增强是深度学习中常用的一种技术,它是对原始数据进行一系列操作进而达到扩充数据集目的的一种方法。经过清洗后获得了一个较大规模的车牌数据集,然而事实上其数据量对于训练一个性能优良的神经网络模型来说依然略显不足。数据集规模的不足很可能导致网络模型在训练过程出现过拟合。过拟合的出现意味着模型训练失败。本发明决定对获得的车牌数据集执行数据增强操作,在使用数据增强技术时,有一个非常重要的原则就是必须确保不增加不相关的数据。本发明采用的数据增强方法如下:
(1)旋转变换。图像旋转变换需要将数据集中的车牌图片以一定的角度进行旋转,以此增加数据集规模。
(2)平移变换。图像平移变换需要将图片中的内容平移一定的像素值,具体移动方向和移动像素值可以采用随机生成或者人为预先设定的方式确定。
(3)加入噪声扰动。加入噪声扰动是对图片中的每个像素分别在其R、G、B加一个小范围随机值进行随机扰动。这样的操作等同于是在原始图片上引入一些噪声。
经过数据增强后扩大了原有数据集的规模,同时增加了车牌数据库的多样性和复杂性。这有助于避免网络模型在训练过程中发生过拟合,同时还可以提升网络模型最终的性能并增强其泛化能力。
车牌照片数据集经过清洗、增强得到了一个规模较大、质量较高的数据库,对数据库中的车牌照片进行挑选,我们按照如下比例,正常光照清晰条件车牌照片:低照度条件车牌照片:有雾条件车牌照片:模糊条件车牌照片=2:1:1:1。共计12000张照片,从收集到的车牌照片数据库中进行挑选。
(四)车牌照片数据集的标注
对数据集进行标注,利用labelImg软件对挑选而出的12000张车牌照片中的10000张车牌照片即训练集进行车牌类别人工标注,生成该车牌的真实框并得到真实框所包含的信息。用labelImg软件对训练集车牌照片中的车牌进行标注,首先,框出照片中所有车牌的位置,然后输入物体类别为“License”,至此,一张车牌照片的车牌类别人工标注完成,保存标注信息,生成该车牌照片的xml文件。从车牌照片标注后生成的xml文件中,可以得到该车牌照片中任何一个车牌标注后生成的真实框的中心位置坐标(x,y)以及宽度w和高度h。标注的10000张照片其类型比例为,正常光照清晰条件车牌照片:低照度条件车牌照片:有雾条件车牌照片:模糊条件车牌照片=2:1:1:1。剩余的2000张分别作为验证集和测试集,验证集和测试集各1000张,比例同上不标注。
步骤二、车牌定位神经网络框架的建立。在该部分搭建一个具有提取车牌数据特征和检测并回归物体位置、类别信息功能的车牌定位神经网络框架。该网络框架采用全卷积网络,使用步长为2的卷积核降采样,在网络中大量使用残差网络跳层连接,保证在网络结构加深的情况下,训练仍能收敛,在网络中采用上采样和张量拼接操作,上采样可使网络提取的深层特征图尺寸变大;张量拼接,可将网络提取的浅层特征图与上采样后尺寸变大的深层特征图拼接在一块,然后将拼接后的特征图用于低倍降采样检测,使网络同时学习深层和浅层特征,定位效果更好。最后,在多个尺度下进行预测输出。
本发明的车牌定位神经网络框架共由1个输入层、26个卷积块层、5个残差网络层、2个上采样操作层、2个张量拼接操作层、3个卷积操作层、3个预测输出层组成。具体车牌定位神经网络框架图见说明书附图图2。对车牌定位神经网络框架的详细叙述如下:
车牌定位神经网络框架中的1个输入层为416×416×3的数据输入。其中416×416为步骤一数据集中的车牌照片的像素尺寸,3表示车牌照片的RGB,3个颜色通道。
车牌定位神经网络框架中的26个卷积块层,遍布在网络框图的各个部分,同时神经网络框图中的卷积系列操作中的5个卷积块也包含在这一部分,卷积系列操作具体执行步骤参看附图说明图5。每个卷积块层包含三个执行步骤,分别为1次卷积操作、1次批归一化操作、1次LeakyRelu激活函数激活操作。卷积操作主要用于提取数据特征,其中卷积核的尺寸、步长已经在框图中详细写出,如附图说明图2中“3×3/2”表示卷积操作中卷积核的尺寸为3×3,步长为2。批归一化操作,是一种神经网络模型训练常见处理方法,通过一定的规范化手段,把每层神经网络任意神经元的输入值分布强行拉回到均值为0方差为1的标准正态分布,这样做有利于训练梯度变大,使深度神经网络模型加快收敛,降低训练代价。LeakyRelu激活函数激活操作,则主要是给网络模型引入非线性因素,提高模型解决复杂问题的能力,也是一种很常见处理方法。卷积块的具体组成部分以及执行步骤参看附图说明图3。
车牌定位神经网络框架中的5个残差网络层,主要是在确保网络模型优异性能的前提下,进一步加深神经网络模型的深度。一般来说,网络结构越深,表达的特征便越好,分类和检测的效果都会随之提升,但模型结构加深往往会导致模型出现退化,训练无法收敛的问题。残差网络的引进,则正好解决了这一问题,使模型具有更好的性能。残差网络层的具体执行步骤如附图说明图4所示,共有2条传递路径,其中一条路径上面有二个卷积块层,旨在增加网络模型的深度,而另一条路径则直接越过二个卷积块层与后面网络层进行快捷连接。本发明的车牌定位神经网络框架共引入5个残差网络层,分布情况如附图说明图2所示,其中框架图上的“残差网络×1”表示将附图说明图4的执行步骤,在此重复一次,后续的残差网络层同此原理。
车牌定位神经网络框架图中的2个上采样操作层、2个张量拼接操作层。其原理如下:上采样操作的引入主要是网络模型检测想要使用深层特征,网络越深层的特征表达效果越好。因此,神经网络框架图中采用二次上采样操作对深层的特征图进行尺寸放大,并与浅层特征进行张量拼接,使网络模型同时学习深层和浅层特征,增强定位检测效果。举例如下,附图说明图2中预测1的输出特征图像素尺寸为13×13,相对于416×416的输入像素尺寸,为32倍降采样下的深层特征,表达效果好。而图2中经过第二次“残差网络×8”操作后的特征图像素尺寸为26×26,为16倍降采样下的浅层特征,为了使16倍降采样下的预测输出同样使用深层特征,先对13×13的特征图进行上采样操作,变为26×26像素尺寸的深层特征图,然后用张量拼接操作将其与浅层的26×26像素尺寸的特征图拼接在一块,然后预测输出得到16倍降采样下的预测输出2。8倍降采样下的预测输出2同理。
车牌定位神经网络框架中的剩余部分为3个卷积操作层、3个预测输出层,原理比较简单。3个预测输出层分别为32倍、16倍、8倍降采样后的预测输出,输出的像素尺寸分别为13×13、26×26、52×52,3个预测输出层前的3次卷积操作为单纯地卷积操作与卷积块的操作不同。
本发明的车牌定位神经网络框架是端到端的技术,利用整张车牌照片作为网络的输入,直接在输出层回归预测框的位置及其所属的类别。
步骤三、车牌定位神经网络模型的锚框生成。在该部分主要是对本发明车牌定位神经网络模型训练时所需要的锚框进行生成,锚框在神经网络训练中的主要作用是较大幅度提升模型的检测精度。通过对训练集标注好的车牌真实框进行聚类,进而发现训练集中车牌真实框的统计规律,最后根据这些统计规律去生成锚框,方便后续训练。
锚框的生成方法为:选用K均值聚类算法,以步骤一中标注完成的训练集车牌照片为聚类样本,对训练集标注好的车牌真实框进行聚类,生成锚框。在这种方法中,聚类中心个数k等于数据集对应的锚框数,在本发明中,选择k=9,生成9个符合本发明数据集的锚框,锚框分为3个不同的尺度,每个尺度各有3个,分别给出锚框的宽度pw和高度ph。另外在这个聚类任务中,如果使用传统的欧式距离进行聚类,会导致大尺度锚框的位置误差远大于小尺度锚框的位置误差。而最终希望的是通过聚类得到的锚框和车牌照片训练集中标注的车牌真实框有尽可能大的交并比值,故而本发明采用如下的距离d度量:
d(box,centroid)=1-IOU(box,centroid)
其中,box表示车牌照片训练集中标注的车牌真实框,centroid表示聚类中心对应的边界框,IOU(box,centroid)表示聚类中心对应的边界框和车牌照片训练集中标注的车牌真实框的交并比,IOU表示交并比。
步骤四、车牌定位神经网络模型训练的损失函数。在该部分主要是对本发明车牌定位神经网络模型训练所用的损失函数进行详细介绍,本发明的车牌定位神经网络模型的损失函数共有3部分构成,具体如下:
(1)位置损失
位置损失由2部分构成,分别为中心损失center_loss和尺度损失size_loss。中心损失用于评估网络预测的预测框的中心和实际车牌的真实框的中心间的误差;尺度损失则用于评估网络预测的预测框的高度与宽度和实际车牌真实框的高度与宽度间的误差。中心损失x_loss和y_loss使用的函数为二值交叉熵函数,尺度损失size_loss使用的函数为平方函数,具体公式如下:
center_loss=x_loss+y_loss
其中,N表示网络预测的预测框的总数,表示第i个预测的车牌预测框中是否存在目标,(xi,yi)表示第i个车牌所在真实框的中心位置,/>表示网络预测的第i个车牌预测框的中心位置,wi、hi表示第i个车牌所在的真实框的宽度和高度,/>表示网络预测的第i个车牌预测框的宽度和高度,α用于调整尺度损失在所有损失中所占据的比例。
(2)置信度损失
置信度损失confidence_loss用于评估网络预测的预测框对应的置信度和实际车牌的真实框对应的置信度之间的误差。置信度损失使用的函数为二值交叉熵函数,具体如下:
confidence_loss=obj_loss+noobj_loss
其中,N表示网络预测的预测框的总数,表示第i个预测的车牌预测框中是否存在目标,Ci表示第i个车牌真实框的置信度,/>表示网络预测的第i个车牌预测框的置信度。
(3)类别损失
类别损失cls_loss用于评估网络预测的预测框对应的类别和实际车牌的真实框对应的类别之间的误差,具体如下所示:
其中,N表示网络预测的预测框的总数,表示第i个预测的车牌预测框中是否存在目标,pi表示第i个车牌所在真实框中物体的类别,/>表示网络预测的第i个车牌预测框中物体的类别。
最终,本发明车牌定位神经网络模型的损失函数loss为:
loss=center_loss+size_loss+confidence_loss+cls_loss
步骤五、车牌定位神经网络模型的训练。在该部分主要是对搭建的车牌定位神经网络模型进行训练,生成网络模型的权重文件以及其他参数文件。训练集为步骤一中标注生成的车牌照片xml文件。具体训练算法步骤如下:
(1)车牌定位神经网络模型先随机初始化模型各处权值,使初始化的权值服从高斯正态分布。
(2)输入一张任意大小的车牌照片,保持其长宽比例不变的情况下,调整车牌照片像素尺寸为416×416。将像素尺寸为416×416,3颜色通道的RGB图作为网络模型的输入,从标注生成的车牌照片xml文件中可以得到这一输入信息。
(3)运行网络检测。把416×416像素尺寸,3颜色通道的RGB图输入到步骤二搭建的车牌定位神经网络模型中,模型会对这一输入信息按照附图说明图2的流程依次经过多个卷积块层、残差网络层并进行上采样、张量拼接操作,最后在3个预测输出层进行多尺度预测输出,3个预测输出层的输出分别为52×52×18、26×26×18、13×13×18的特征图,这些特征图便包含了所有预测框的中心位置、宽高及其所属的置信度、类别信息
对于网络检测这一部分,取“52×52×18”这个特征图为例进行详细分析,该尺度下的车牌定位预测,将一张照片分成52×52个网格,每个网格输出一个18维的向量。该18维的向量包含3个预测框,每个预测框的预测信息包括4个修正参数txi、tyi、twi、thi和1个置信度以及1个类别信息/>其中,txi、tyi是预测框的中心坐标相对值,twi、thi是预测框的宽、高的相对值,置信度/>表示该预测框包含物体的置信分数,类别信息/>表示预测框中物体为车牌类别的概率。而后通过下式计算出最终的预测框的真实中心位置以及宽高。车牌定位神经网络单个网格输出参数框图见图6。
其中Cxi、Cyi表示第i个预测框相对图片左上角位置坐标的偏移量,Pw、Ph表示预测框对应锚框的宽度以及高度,σ为sigmoid函数。 表示第i个最终车牌预测框的中心坐标以及宽、高。
(4)将车牌照片训练集中标注出的真实框与聚类得到的锚框进行匹配,得到目标框。具体方法如下:首先计算出车牌真实框所在中心点的位置坐标,筛选出此中心点对应的九个锚框,选取与真实框有最大IOU值的锚框作为目标框,并将该真实框的坐标值信息赋给目标框,即得到目标框的坐标值(xi,yi,wi,hi),并将目标框的类别值Pi设置为1,置信度值Ci设置为1,其余未标记的锚框的参数值均设置为0,由此,得到目标框的中心位置、宽高、置信度、类别信息(xi,yi,wi,hi,Ci,pi)。
(5)损失函数估计损失更新模型参量
本发明的车牌定位神经网络模型训练时,一张车牌照片通过整个神经网络模型的检测,最后共预测出52×52×3+26×26×3+13×13×3=10647个预测框,每个预测框的中心位置、宽高以及置信度、类别信息都包含在一个6维的向量中,然后根据损失函数计算预测框的中心位置、宽高以及置信度、所属类别信息与目标框的中心位置、宽高以及置信度、所属类别信息(xi,yi,wi,hi,Ci,pi)之间的位置损失、置信度损失、类别损失,然后再反向运算更新参量,完成一次数据训练。
在模型训练中,将10000张标注的车牌照片训练集导入模型依次进行训练。每训练完一个epoch后,就用验证集对模型进行一次评估,而后根据评估结果相应地调整学习率和迭代次数,还可以根据评估结果判断训练过程中是否出现了过拟合等情况。同时,本发明采取Adam算法作为优化算法,对模型的训练分二个阶段。第一阶段学习率设置为0.001,batch设置为32,训练2000次后进入第二阶段的训练过程;第二阶段训练过程中,将学习率更改为0.0001,同时减小batch到8,该阶段总共训练20000次。在第二阶段训练中,每隔5000个batch学习率衰减为原来的十分之一。
按照如上步骤进行训练,得到所需要的车牌定位权重文件及其他参数文件,并保存在指定文件夹下。
步骤六、车牌定位神经网络模型的测试。在该部分将步骤五训练得到的权重文件以及模型参数导入车牌定位神经网络模型,用未参与训练的测试集对搭建的模型进行测试并统计结果分析。在该部分对搭建的车牌定位神经网络模型进行测试,分为以下几步进行:
(1)将测试集的车牌照片保存在指定文件夹,并将该文件的绝对路径导入模型,等待检测。
(2)将步骤五训练得到权重文件以及模型参数导入车牌定位神经网络模型。
(3)运行车牌定位神经网络模型对测试集文件夹里的车牌照片依次进行检测,模型测试过程如下:
首先,把测试集车牌照片调整为416×416像素尺寸,3颜色通道的RGB图,然后输入到步骤二搭建的车牌定位神经网络模型中,模型会对这一输入信息按照附图说明图2的流程依次经过多个卷积块层、残差网络层并进行上采样、张量拼接操作,最后在3个预测输出层进行多尺度预测输出,3个预测输出层的输出分别为52×52×18、26×26×18、13×13×18的特征图,这些特征图便包含了预测框的中心坐标位置、宽高及其所属的类别等信息。同时,车牌定位模型测试时共预测
52×52×3+26×26×3+13×13×3=10647
10647个预测框,然后通过模型设定的置信度阈值,过滤掉低分预测框,然后对剩下的预测框执行非极大值抑制处理,得到网络的最终车牌定位检测结果。
(4)模型性能评估
测试集的车牌照片包含了各种环境背景。因此,本发明对模型的测试评估分为以下几步:
(a)将测试集1000张包含各种环境背景的测试集车牌照片导入训练好的模型,进行检测,统计准确定位车牌照片数目,计算准确率。
(b)将测试集1000张照片中正常光照清晰条件、低照度条件、有雾天气条件、照片模糊条件的车牌照片各自归纳为一组,分别依次导入模型统计各自特定背景下的准确定位车牌照片数目,分别计算准确率。
经实验检测发现,模型对正常光照条件的车牌照片定位准确率非常高;而在天气条件比较恶劣,如低照度条件比如凌晨、黄昏;有雾天气;或者低质模糊图片,对它们进行车牌定位时,发现本发明车牌检测算法的准确率会下降,这是由于天气环境导致场景图质量不好造成的。这就需要在车牌检测算法中引入针对该类图像的图像增强技术,改善天气条件恶劣环境下场景图的质量,提高其可用性以及车牌定位准确率。
步骤七、待检照片的图像增强。在该部分运用图像增强技术,对测试集中的低照度、有雾、模糊的待检车牌照片进行图像增强,使其更加清晰便于检测,提高车牌定位准确率。
本发明的待检车牌照片图像增强步骤如下:
(1)用OpenCV软件得到待检照片的RGB3个颜色通道的原始图像;
(2)用高斯函数与3个颜色通道的原始图像分别进行卷积估计得到3个颜色通道的照度图像;
(3)调整高斯函数中高斯核的尺度,重复第(2)步,求出不同高斯核尺度下的3个颜色通道的照度图像;
(4)再由原始图像、照度图像以及反射图像三者之间的关系,分别求出不同高斯核尺度下的3个颜色通道的反射图像;
(5)对求得的不同高斯核尺度的3个颜色通道的反射图像,按同一颜色通道分别进行尺度加权求和,得到多尺度加权求和后的3个颜色通道的反射图像;
(6)将多尺度加权求和后的3个颜色通道的反射图像分别进行颜色恢复处理,并合并其RGB 3个颜色通道,得到最后所需要的增强图像。
具体图像增强原理以及实施步骤如下:
理论表明,人眼所看到的图像即原始图像可以看做反射图像与照度图像的乘积,公式如下:
I(x,y)=R(x,y)×L(x,y)
其中,I(x,y)表示原始图像,R(x,y)表示反射图像,L(x,y)表示照度图像。R(x,y)反射图像表示物体的本质信息。因此本发明的图像增强方法主要在于反射图像的求取。方法步骤如下:
(a)估计照度图像L(x,y)
高斯函数F(x,y,c)与原始图像I(x,y)卷积得到照度图像L(x,y)。计算公式如下:
Lg,n(x,y)=Fn(x,y,cn)*Ig(x,y)
∫∫Fn(x,y,cn)dxdy=1
其中,Ig(x,y)表示原始图像第g个颜色通道的图像,Lg,n(x,y)表示照度图像在高斯核尺度为cn下的第g个颜色通道的图像,“*”表示卷积运算,Fn(x,y,cn)表示高斯核尺度为cn的高斯函数,K0表示归一化因子,由高斯函数归一化公式决定,cn为尺度为n的高斯核。
因此,用OpenCV软件得到待检照片的RGB三个颜色通道的原始图像Ig(x,y),然后取高斯函数中的高斯核cn为15,用这个高斯函数与3个颜色通道的原始图像分别进行卷积,得到高斯核尺度为15的3个颜色通道的照度图像。然后,调整高斯核尺度为80,得到一个新的高斯函数,用这个高斯函数与3个颜色通道的原始图像分别进行卷积,得到高斯核尺度为80的3个颜色通道的照度图像。再调整高斯核尺度为250,又得到一个新的高斯函数,用这个高斯函数与3个颜色通道的原始图像分别进行卷积,得到高斯核尺度为250的3个颜色通道的照度图像。
(b)求取多尺度3个颜色通道反射图像
求解不同高斯核尺度下的单尺度3个颜色通道反射图像Rg,n(x,y),并进行尺度加权求和得到多尺度下的3个颜色通道反射图像Rg,MORE(x,y)。求解公式如下:
Rg,n(x,y)=logIg(x,y)-log[Lg,n(x,y)]
其中Rg,MORE(x,y)表示多尺度加权求和后的颜色通道为g的反射图像,wn表示相应尺度数为n的权重系数,取权重
(c)引入颜色恢复函数Cg(x,y)
颜色恢复函数Cg(x,y)可以对反射图像R、G、B的比例进行调整,使图像更加清晰保真。用颜色恢复函数对得到的多尺度加权求和后的3个颜色通道反射图像Rg,MORE(x,y)进行颜色保真处理得到Rg,COLOR(x,y),合并其RGB三个颜色通道,得到最后所需要的增强图像。计算公式如下:
Rg,COLOR(x,y)=Cg(x,y)×Rg,MORE(x,y)
其中Cg(x,y)为颜色恢复函数,常数a=125,Rg,COLOR(x,y)为经过颜色恢复函数处理的多尺度加权求和后的颜色通道为g的反射图像。将测试集中的1000张低照度、有雾、模糊的车牌照片,依次按照如上步骤处理,分别得到各自的增强图像。取个别图像增强处理结果展示见附图说明图7、图8。
步骤八、待检照片图像增强后的车牌实时定位检测。在该部分主要是对步骤七中进行了图像增强的测试集,导入本发明车牌定位检测算法进行定位检测评估。具体检测流程如步骤六所述,但在该部分对本发明车牌定位检测算法的模型性能评估,分为以下几步:
(1)将测试集1000张包含各种环境背景的进行了图像增强的测试集车牌照片导入模型,进行检测,并统计准确定位照片数目,计算准确率。
(2)将图像增强后的1000张测试集照片中正常光照清晰条件、低照度条件、有雾天气条件、照片模糊条件的车牌照片各自归纳为一组,分别导入模型统计特定背景下的准确定位照片的数目,计算准确率。
(3)将1000张经过图像增强的测试集照片用传统车牌定位算法进行定位处理,统计其准确定位照片的数目,计算准确率。
统计完成后发现,本发明训练的车牌定位方法对进行了图像增强后的低照度条件、有雾天气条件、模糊条件的车牌照片定位准确率大幅提升;与传统车牌定位算法相比,本发明方法定位准确率也大大提升,尤其是对低照度、有雾、模糊条件下的车牌定位,传统算法表现很差,而本发明方法表现优异,性能很好。取部分传统车牌定位算法对复杂环境下的车牌照片定位检测图展示见图9、图10。取部分本发明车牌定位方法对复杂环境下的车牌照片定位检测图展示见图11、图12,本发明很好地解决了现有车牌定位算法对环境因素敏感、对图像质量要求高、可定位场景单一的问题,实现了复杂环境下的实时车牌定位。
在上述各步骤中出现的符号i表示车牌定位检测的第i个车牌预测框,i=1,2,3,..,10647;符号g表示图像R,G,B三个颜色通道,g=1,2,3;符号n表示高斯函数中的高斯核取不同尺度的尺度数,n=1,2,3。
以上所述,仅是本发明的较佳实施例而已,并非对本发明做任何形式上的限制,虽然本发明已以较佳实施例阐述如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
发明优点
本发明以神经网络深度学习为技术背景,收集大量复杂环境的车牌照片数据对搭建的网络模型进行数据训练,得到车牌定位权重文件以及其他参数文件;然后对测试集中的大量存在环境干扰的车牌照片进行图像增强,导入本发明的算法模型,经实验验证,本发明的车牌定位算法实现了复杂环境下车牌精准定位。很好地解决了现有车牌定位算法对环境因素敏感、对图像质量要求高、车牌可定位场景单一的问题。
Claims (1)
1.一种复杂环境下基于图像增强的深度神经网络车牌定位方法,该方法包括:
复杂环境下基于图像增强的深度神经网络车牌定位方法,以神经网络深度学习为技术背景,用各种环境背景下的车牌照片数据对搭建的车牌定位模型进行大量学习训练,得到网络模型的权重文件以及其它参数文件;并在系统的检测阶段引入图像增强技术,对测试集中的低照度、有雾、模糊照片进行图像增强,实现了复杂环境下车牌的精准定位,很好地解决了现有车牌定位算法对环境因素敏感、对图像质量要求高、车牌可定位场景单一的问题;
复杂环境下基于图像增强的深度神经网络车牌定位方法步骤如下:
步骤一、车牌照片数据集的建立;该部分包括车牌照片数据集的收集、清洗、增强、标注,最后形成训练车牌定位神经网络的车牌照片数据集;其中,在车牌照片训练集的标注部分,选用labelImg软件,对数据集中的训练集进行车牌类别人工标注,生成该车牌的真实框并得到真实框所包含的信息;用labelImg软件对训练集车牌照片中的真实车牌进行标注,首先,框出照片中所有车牌的位置,然后输入物体类别为“License”,至此,一张车牌照片的车牌类别人工标注完成,保存标注信息,生成该车牌照片的xml文件;从车牌照片标注后生成的xml文件中,可以得到该车牌照片中任何一个车牌标注后生成的真实框的中心位置坐标(x,y)以及宽度w和高度h;
步骤二、车牌定位神经网络框架的建立;在该部分搭建一个具有提取车牌数据特征和检测并回归物体位置、类别信息功能的车牌定位神经网络框架;该网络框架是一个多尺度检测的模型,其采用全卷积网络,使用步长为2的卷积核降采样,在网络中大量使用残差网络跳层连接,保证在网络结构加深的情况下,训练仍能收敛;同时,在网络中采用上采样和张量拼接操作,上采样可使网络提取的深层特征图尺寸变大;张量拼接,可将网络提取的浅层特征图与上采样后尺寸变大的深层特征图拼接在一块,然后将拼接后的特征图用于低倍降采样检测,使网络同时学习深层和浅层特征,定位效果更好;最后,分别在32倍降采样、16倍降采样以及8倍降采样下进行3次检测,多尺度下预测输出;
搭建的车牌定位神经网络框架共由1个输入层、26个卷积块层、5个残差网络层、2个上采样操作层、2个张量拼接操作层、3个卷积操作层、3个预测输出层组成;
步骤三、车牌定位神经网络模型的锚框生成;在该部分主要是对车牌定位神经网络模型训练时所需要的锚框进行生成,锚框在神经网络训练中的主要作用是较大幅度提升模型的检测精度;通过对训练集标注好的车牌真实框进行聚类,进而发现训练集中车牌真实框的统计规律,最后根据这些统计规律去生成锚框,方便后续训练;
锚框的生成方法如下:选用K均值聚类算法,以步骤一中标注完成的训练集车牌照片为聚类样本,对训练集标注好的车牌真实框进行聚类,生成锚框;在这种方法中,聚类中心个数k等于数据集对应的锚框数,选择k=9,生成9个符合数据集的锚框,锚框分为3个不同尺度,每个尺度各有3个,分别给出锚框的宽度pw和高度ph;另外在这个聚类任务中,如果使用传统的欧式距离进行聚类,会导致大尺度锚框的位置误差远大于小尺度锚框的位置误差;而最终希望的是通过聚类得到的锚框和车牌照片训练集中标注的车牌真实框有尽可能大的交并比值,故而采用如下的距离d度量:
d(box,centroid)=1-IOU(box,centroid)
其中,box表示车牌照片训练集中标注的车牌真实框,centroid表示聚类中心对应的边界框,IOU(box,centroid)表示聚类中心对应的边界框和车牌照片训练集中标注的车牌真实框的交并比,IOU表示交并比;
步骤四、车牌定位神经网络模型训练的损失函数;在该部分主要是对车牌定位神经网络模型训练所用的损失函数进行详细介绍,车牌定位神经网络模型的损失函数共有3部分构成,具体如下:
(1)位置损失
位置损失由2部分构成,分别为中心损失center_loss和尺度损失size_loss;中心损失用于评估网络预测的预测框的中心和实际车牌的真实框的中心间的误差;尺度损失则用于评估网络预测的预测框的高度与宽度和实际车牌真实框的高度与宽度间的误差;中心损失x_loss和y_loss使用的函数为二值交叉熵函数,尺度损失size_loss使用的函数为平方函数,具体公式如下:
center_loss=x_loss+y_loss
上式中,N表示网络预测的预测框的总数,表示第i个预测的车牌预测框中是否存在目标,(xi,yi)表示第i个车牌所在真实框的中心位置,/>表示网络预测的第i个车牌预测框的中心位置,wi、hi表示第i个车牌所在的真实框的宽度和高度,/>表示网络预测的第i个车牌预测框的宽度和高度,α用于调整尺度损失在所有损失中所占据的比例;
(2)置信度损失
置信度损失confidence_loss用于评估网络预测的预测框对应的置信度和实际车牌的真实框对应的置信度之间的误差;置信度损失使用的函数为二值交叉熵函数,具体如下:
confidence_loss=obj_loss+noobj_loss
其中,N表示网络预测的预测框的总数,表示第i个预测的车牌预测框中是否存在目标,Ci表示第i个车牌真实框的置信度,/>表示网络预测的第i个车牌预测框的置信度;
(3)类别损失
类别损失cls_loss用于评估网络预测的预测框对应的类别和实际车牌的真实框对应的类别之间的误差,具体如下所示:
其中,N表示网络预测的预测框的总数,表示第i个预测的车牌预测框中是否存在目标,pi表示第i个车牌所在真实框中物体的类别,/>表示网络预测的第i个车牌预测框中物体的类别;
最终,车牌定位神经网络模型的损失函数loss为:
loss=center_loss+size_loss+confidence_loss+cls_loss
步骤五、车牌定位神经网络模型的训练;在该部分主要是对搭建的车牌定位神经网络模型进行训练,生成网络模型的权重文件以及其他参数文件;训练集为步骤一中标注生成的车牌照片xml文件;具体训练算法步骤如下:
(1)车牌定位神经网络模型先随机初始化模型各处权值,使初始化的权值服从高斯正态分布;
(2)输入一张任意大小的车牌照片,保持其长宽比例不变的情况下,调整车牌照片像素尺寸为416×416;将像素尺寸为416×416,3颜色通道的RGB图作为网络模型的输入,从标注生成的车牌照片xml文件中可以得到这一输入信息;
(3)运行网络检测;把416×416像素尺寸,3颜色通道的RGB图输入到步骤二搭建的车牌定位神经网络模型中,模型会对这一输入信息按照附图说明图2的流程依次经过多个卷积块层、残差网络层并进行上采样、张量拼接操作,最后在3个预测输出层进行多尺度预测输出,3个预测输出层的输出分别为52×52×18、26×26×18、13×13×18的特征图,这些特征图便包含了所有预测框的中心位置、宽高及其所属的置信度、类别信息对于网络检测这一部分,取“52×52×18”这个特征图为例进行详细分析,该尺度下的车牌定位预测,将一张照片分成52×52个网格,每个网格输出一个18维的向量;该18维的向量包含3个预测框,每个预测框的预测信息包括4个修正参数txi、tyi、twi、thi和1个置信度/>以及1个类别信息/>其中,txi、tyi是预测框的中心坐标相对值,twi、thi是预测框的宽、高的相对值,置信度/>表示该预测框包含物体的置信分数,类别信息/>表示预测框中物体为车牌类别的概率;而后通过下式计算出最终的预测框的真实中心位置以及宽、高;
其中Cxi、Cyi表示第i个预测框相对图片左上角位置坐标的偏移量,Pw、Ph表示预测框对应锚框的宽度以及高度,σ为sigmoid函数; 表示第i个最终车牌预测框的中心坐标以及宽、高;
(4)将车牌照片训练集中标注出的真实框与聚类得到的锚框进行匹配,得到目标框;具体方法如下:首先计算出车牌真实框所在中心点的位置坐标,筛选出此中心点对应的九个锚框,选取与真实框有最大IOU值的锚框作为目标框,并将该真实框的坐标值信息赋给目标框,即得到目标框的坐标值(xi,yi,wi,hi),并将目标框的类别值Pi设置为1,置信度值Ci设置为1,其余未标记的锚框的参数值均设置为0,由此,得到目标框的中心位置、宽高、置信度、类别信息(xi,yi,wi,hi,Ci,pi);
(5)损失函数估计损失更新模型参量
车牌定位神经网络模型训练时,一张车牌照片通过整个神经网络模型的检测,最后共预测出52×52×3+26×26×3+13×13×3=10647个预测框,每个预测框的中心位置、宽高、置信度、类别信息都包含在一个6维的向量中,然后根据损失函数计算预测框的中心位置、宽高及其置信度、所属的类别信息与目标框的中心位置、宽高及其置信度、所属的类别信息(xi,yi,wi,hi,Ci,pi)之间的位置损失、置信度损失、类别损失,然后再反向运算更新参量,完成一次数据训练;
在模型训练中,将10000张标注的车牌照片训练集导入模型依次进行训练;每训练完一个epoch后,就用验证集对模型进行一次评估,而后根据评估结果相应地调整学习率和迭代次数,还可以根据评估结果判断训练过程中是否出现了过拟合的情况;同时,采取Adam算法作为优化算法,对模型的训练分二个阶段;第一阶段学习率设置为0.001,batch设置为32,训练2000次后进入第二阶段的训练过程;第二阶段训练过程中,将学习率更改为0.0001,同时减小batch到8,该阶段总共训练20000次;在第二阶段训练中,每隔5000个batch学习率衰减为原来的十分之一;
按照如上步骤进行训练,得到所需要的车牌定位权重文件及其他参数文件,并保存在指定文件夹下;
步骤六、车牌定位神经网络模型的测试;在该部分将步骤五得到的权重文件以及模型参数导入车牌定位神经网络模型,用未参与训练的测试集对搭建的模型进行测试并统计结果分析;在该部分对搭建的车牌定位神经网络模型进行测试,分为以下几步进行:
(1)将测试集的车牌照片保存在指定文件夹,并将该文件的绝对路径导入模型,等待检测;
(2)将步骤五得到权重文件以及模型参数导入车牌定位神经网络模型;
(3)运行车牌定位神经网络模型,对测试集文件夹里的车牌照片依次进行检测;模型测试过程如下:
首先,把测试集车牌照片调整为416×416像素尺寸,3颜色通道的RGB图,然后输入到步骤二搭建的车牌定位神经网络模型中,模型会对这一输入信息按照附图说明图2的流程依次经过多个卷积块层、残差网络层并进行上采样、张量拼接操作,最后在3个预测输出层进行多尺度预测输出,3个预测输出层的输出分别为52×52×18、26×26×18、13×13×18的特征图,这些特征图便包含了预测框的中心位置坐标、宽高及其所属的类别信息;同时,车牌定位模型测试时共预测
52×52×3+26×26×3+13×13×3=10647
10647个预测框,然后通过模型设定的置信度阈值,过滤掉低分预测框,然后对剩下的预测框进行非极大值抑制处理,得到网络的最终车牌定位检测结果;
(4)模型性能评估;
测试集的车牌照片包含了各种环境背景;因此,对模型的测试评估分为以下几步:
(a)将测试集1000张包含各种环境背景的测试集车牌照片导入训练好的模型,进行检测,统计准确定位车牌照片数目,计算准确率;
(b)将测试集1000张照片中正常光照清晰条件、低照度条件、有雾天气条件、照片模糊条件的车牌照片各自归纳为一组,分别依次导入模型统计各自特定背景下的准确定位车牌照片数目,分别计算准确率;
经实验检测发现,模型对正常光照条件的车牌照片定位准确率非常高;而在天气条件比较恶劣,如低照度条件比如凌晨、黄昏;有雾天气;或者低质模糊图片,对它们进行车牌定位时,发现车牌检测算法的准确率会下降,这是由于天气环境导致场景图质量不好造成的;这就需要在车牌检测算法中引入针对该类图像的图像增强技术,改善天气条件恶劣环境下场景图的质量,提高其可用性以及车牌定位准确率;
步骤七、待检照片的图像增强;在该部分运用图像增强技术,对测试集中的低照度、有雾、模糊的待检车牌照片进行图像增强,使其更加清晰便于检测,提高车牌定位准确率;
待检车牌照片图像增强步骤如下:
(1)用OpenCV软件得到待检照片的RGB三个颜色通道的原始图像;
(2)用高斯函数与3个颜色通道的原始图像分别进行卷积估计得到3个颜色通道的照度图像;
(3)调整高斯函数中高斯核的尺度,重复第(2)步,求出不同高斯核尺度下的3个颜色通道的照度图像;
(4)再由原始图像、照度图像以及反射图像三者之间的关系,分别求出不同高斯核尺度下的3个颜色通道的反射图像;
(5)对求得的不同高斯核尺度的3个颜色通道的反射图像,按同一颜色通道分别进行尺度加权求和,得到多尺度加权求和后的3个颜色通道的反射图像;
(6)将多尺度加权求和后的3个颜色通道的反射图像分别进行颜色恢复处理,并合并其RGB三个颜色通道,得到最后所需要的增强图像;
图像增强过程如下:
原始图像可以看作反射图像与照度图像的乘积,公式如下:
I(x,y)=R(x,y)×L(x,y)
其中,I(x,y)表示原始图像,R(x,y)是反射图像表示物体的本质信息,L(x,y)表示照度图像;反射图像的求取步骤为:
(a)估计照度图像L(x,y)
高斯函数F(x,y,c)与原始图像I(x,y)卷积可得到照度图像L(x,y),计算公式:
Lg,n(x,y)=Fn(x,y,cn)*Ig(x,y)
∫∫Fn(x,y,cn)dxdy=1
其中,Ig(x,y)表示原始图像第g个颜色通道的图像,Lg,n(x,y)表示照度图像在高斯核尺度为cn下的第g个颜色通道的图像,“*”表示卷积运算,Fn(x,y,cn)表示高斯核尺度为cn的高斯函数,K0表示归一化因子,由高斯函数归一化公式决定,cn为尺度为n的高斯核;
因此,用OpenCV软件得到待检照片的RGB三个颜色通道的原始图像Ig(x,y),然后取高斯函数中的高斯核cn为15,用这个高斯函数与3个颜色通道的原始图像分别进行卷积,得到高斯核尺度为15的3个颜色通道的照度图像;然后,调整高斯核尺度为80,得到一个新的高斯函数,用这个高斯函数与3个颜色通道的原始图像分别进行卷积,得到高斯核尺度为80的3个颜色通道的照度图像;再调整高斯核尺度为250,又得到一个新的高斯函数,用这个高斯函数与3个颜色通道的原始图像分别进行卷积,得到高斯核尺度为250的3个颜色通道的照度图像;
(b)求取多尺度3个颜色通道反射图像
求解不同高斯核尺度下的单尺度3个颜色通道反射图像Rg,n(x,y),并进行尺度加权求和得到多尺度下的3个颜色通道反射图像Rg,MORE(x,y),求解公式为:
Rg,n(x,y)=logIg(x,y)-log[Lg,n(x,y)]
其中Rg,MORE(x,y)表示多尺度加权求和后的颜色通道为g的反射图像,wn表示相应尺度数为n的权重系数,取权重
(c)引入颜色恢复函数Cg(x,y)
颜色恢复函数Cg(x,y)可以对反射图像R、G、B的比例进行调整,使图像更加清晰保真;用颜色恢复函数对得到的多尺度加权求和后的3个颜色通道反射图像Rg,MORE(x,y)进行颜色保真处理得到Rg,COLOR(x,y),合并其RGB三个颜色通道,得到最后所需要的增强图像,计算公式为:
Rg,COLOR(x,y)=Cg(x,y)×Rg,MORE(x,y)
其中Cg(x,y)为颜色恢复函数,色彩恢复常数a取值为125,Rg,COLOR(x,y)为经过颜色恢复函数处理的多尺度加权求和后的颜色通道为g的反射图像;
将测试集中的1000张低照度、有雾、模糊的车牌照片,依次按照如上步骤处理,分别得到各自的增强图像;
步骤八、待检照片图像增强后的车牌实时定位检测;在该部分主要是对步骤七中进行了图像增强的测试集,导入车牌定位检测算法进行定位检测评估;具体检测流程如步骤六所述,但在该部分对车牌定位检测算法的模型性能评估,分为以下几步:
(1)将测试集1000张包含各种环境背景的进行了图像增强的测试集车牌照片导入模型,进行检测,并统计准确定位照片数目,计算准确率;
(2)将图像增强后的1000张测试集中正常光照清晰条件、低照度条件、有雾天气条件、照片模糊条件的车牌照片各自归纳为一组,分别导入模型统计特定背景下的准确定位照片的数目,计算准确率;
(3)将1000张经过图像增强的测试集用传统车牌定位算法进行定位处理,统计其准确定位照片的数目,计算准确率;
统计完成后发现,训练的车牌定位算法对进行了图像增强后的低照度条件、有雾天气条件、模糊条件的车牌照片定位准确率大幅提升;与传统车牌定位算法相比,所述方法定位准确率也大大提升,尤其是对低照度、有雾、模糊条件下的车牌定位,传统算法表现很差,而所述方法表现优异,性能很好;
在上述各步骤中出现的符号i表示车牌定位检测的第i个车牌预测框,i=1,2,3,..,10647;符号g表示图像R,G,B 3个颜色通道,g=1,2,3;符号n表示高斯函数中的高斯核取不同尺度的尺度数,n=1,2,3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010225652.0A CN111310862B (zh) | 2020-03-27 | 2020-03-27 | 复杂环境下基于图像增强的深度神经网络车牌定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010225652.0A CN111310862B (zh) | 2020-03-27 | 2020-03-27 | 复杂环境下基于图像增强的深度神经网络车牌定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310862A CN111310862A (zh) | 2020-06-19 |
CN111310862B true CN111310862B (zh) | 2024-02-09 |
Family
ID=71146103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010225652.0A Active CN111310862B (zh) | 2020-03-27 | 2020-03-27 | 复杂环境下基于图像增强的深度神经网络车牌定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310862B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797829A (zh) * | 2020-06-24 | 2020-10-20 | 浙江大华技术股份有限公司 | 一种车牌检测方法、装置、电子设备和存储介质 |
CN112116533B (zh) * | 2020-08-06 | 2022-10-21 | 南京理工大学 | 一种雾霾天气下的车标检测方法 |
CN112149661B (zh) * | 2020-08-07 | 2024-06-21 | 珠海欧比特宇航科技股份有限公司 | 车牌识别方法、装置及介质 |
CN111931857B (zh) * | 2020-08-14 | 2022-09-02 | 桂林电子科技大学 | 一种基于mscff的低照度目标检测方法 |
CN112132780A (zh) * | 2020-08-17 | 2020-12-25 | 珠海市卓轩科技有限公司 | 基于深度神经网络的钢筋数量检测方法及系统 |
CN112132222B (zh) * | 2020-09-27 | 2023-02-10 | 上海高德威智能交通系统有限公司 | 车牌的类别识别方法、装置及存储介质 |
US11553139B2 (en) | 2020-09-29 | 2023-01-10 | International Business Machines Corporation | Video frame synthesis using tensor neural networks |
CN112529839B (zh) * | 2020-11-05 | 2023-05-02 | 西安交通大学 | 一种核磁共振图像中颈动脉血管中心线的提取方法及系统 |
CN112464806A (zh) * | 2020-11-27 | 2021-03-09 | 山东交通学院 | 一种基于人工智能的低照度车辆检测识别方法与系统 |
CN112446839B (zh) * | 2020-11-30 | 2023-11-07 | 平安科技(深圳)有限公司 | 图像增强方法、装置、电子设备及计算机可读存储介质 |
CN112365740A (zh) * | 2020-11-30 | 2021-02-12 | 北京停简单信息技术有限公司 | 告警展示方法和装置 |
CN112949452B (zh) * | 2021-02-25 | 2022-05-31 | 山西大学 | 一种基于多任务共享网络的机器人弱光环境抓取检测方法 |
CN113128500A (zh) * | 2021-04-08 | 2021-07-16 | 浙江工业大学 | 一种基于Mask-RCNN的非机动车车牌识别方法及系统 |
CN113191977A (zh) * | 2021-04-30 | 2021-07-30 | 南京慧链和信数字信息科技研究院有限公司 | 一种用于恶劣环境条件下目标检测识别的图像增强系统 |
CN113177552B (zh) * | 2021-05-27 | 2024-04-26 | 的卢技术有限公司 | 一种基于深度学习的车牌识别方法 |
CN113537211B (zh) * | 2021-06-21 | 2023-06-02 | 电子科技大学 | 一种基于非对称iou的深度学习车牌框定位方法 |
CN113449634A (zh) * | 2021-06-28 | 2021-09-28 | 上海翰声信息技术有限公司 | 一种用于处理强光环境下的视频检测方法及装置 |
CN113361467A (zh) * | 2021-06-30 | 2021-09-07 | 电子科技大学 | 基于领域适应的车牌识别方法 |
CN113705111B (zh) * | 2021-09-22 | 2024-04-26 | 百安居网络技术(上海)有限公司 | 一种基于深度学习的装修家具自动布局方法及系统 |
CN113945569B (zh) * | 2021-09-30 | 2023-12-26 | 河北建投新能源有限公司 | 离子膜的故障检测方法及装置 |
CN113947766B (zh) * | 2021-12-21 | 2022-04-22 | 之江实验室 | 一种基于卷积神经网络的实时车牌检测方法 |
CN114898352A (zh) * | 2022-06-29 | 2022-08-12 | 松立控股集团股份有限公司 | 一种同时实现图像去雾与车牌检测的方法 |
CN115879008B (zh) * | 2023-03-02 | 2023-05-26 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种数据融合模型训练方法、装置、设备及存储介质 |
CN116310390B (zh) * | 2023-05-17 | 2023-08-18 | 上海仙工智能科技有限公司 | 一种空心目标的视觉检测方法及系统、库位管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035149A (zh) * | 2018-03-13 | 2018-12-18 | 杭州电子科技大学 | 一种基于深度学习的车牌图像去运动模糊方法 |
CN109886147A (zh) * | 2019-01-29 | 2019-06-14 | 电子科技大学 | 一种基于单网络多任务学习的车辆多属性检测方法 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN110399800A (zh) * | 2019-06-28 | 2019-11-01 | 智慧眼科技股份有限公司 | 基于深度学习vgg16框架的车牌检测方法及系统、存储介质 |
-
2020
- 2020-03-27 CN CN202010225652.0A patent/CN111310862B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN109035149A (zh) * | 2018-03-13 | 2018-12-18 | 杭州电子科技大学 | 一种基于深度学习的车牌图像去运动模糊方法 |
CN109886147A (zh) * | 2019-01-29 | 2019-06-14 | 电子科技大学 | 一种基于单网络多任务学习的车辆多属性检测方法 |
CN110399800A (zh) * | 2019-06-28 | 2019-11-01 | 智慧眼科技股份有限公司 | 基于深度学习vgg16框架的车牌检测方法及系统、存储介质 |
Non-Patent Citations (3)
Title |
---|
吴睿曦 ; 肖秦琨 ; .基于深度网络和数据增强的多物体图像识别.国外电子测量技术.2019,(第05期),全文. * |
曹正凤 ; 李少丁 ; 王栋梁 ; 徐建波 ; 刘晗 ; 卓晴 ; .基于深度学习的端到端车牌检测识别系统.中国交通信息化.2018,(第09期),全文. * |
贾文其 ; 李明 ; 朱美强 ; 王军 ; .基于栈式降噪自编码神经网络的车牌字符识别.计算机工程与设计.2016,(第03期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111310862A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310862B (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
EP3614308B1 (en) | Joint deep learning for land cover and land use classification | |
CN109800736B (zh) | 一种基于遥感影像和深度学习的道路提取方法 | |
CN111583229B (zh) | 一种基于卷积神经网络路面故障检测方法 | |
US20200065968A1 (en) | Joint Deep Learning for Land Cover and Land Use Classification | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
Mathur et al. | Crosspooled FishNet: transfer learning based fish species classification model | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN107133943A (zh) | 一种防震锤缺陷检测的视觉检测方法 | |
CN107229929A (zh) | 一种基于r‑cnn的车牌定位方法 | |
CN109871875B (zh) | 一种基于深度学习的建筑物变化检测方法 | |
CN114663346A (zh) | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN111260687A (zh) | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 | |
CN114663769B (zh) | 一种基于YOLO v5的水果识别方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN114596316A (zh) | 一种基于语义分割的道路图像细节抓取方法 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
CN112084897A (zh) | 一种gs-ssd的交通大场景车辆目标快速检测方法 | |
CN113283320B (zh) | 一种基于通道特征聚合的行人重识别方法 | |
CN110910497A (zh) | 实现增强现实地图的方法和系统 | |
CN113378642B (zh) | 一种对农村违法占地建筑物进行检测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |