CN112464750B - 一种基于深度学习的车牌特征点检测方法 - Google Patents
一种基于深度学习的车牌特征点检测方法 Download PDFInfo
- Publication number
- CN112464750B CN112464750B CN202011253290.2A CN202011253290A CN112464750B CN 112464750 B CN112464750 B CN 112464750B CN 202011253290 A CN202011253290 A CN 202011253290A CN 112464750 B CN112464750 B CN 112464750B
- Authority
- CN
- China
- Prior art keywords
- license plate
- feature
- representing
- network
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的车牌特征点检测方法,旨在解决现有技术中车牌特征点检测精度低的技术问题。其包括:获取道路视频,并将道路视频转换成道路图像数据;利用预先训练好的车牌特征点检测模型处理道路图像数据,通过模型前向推理获得车牌特征点检测结果;利用OpenCV工具将车牌特征点检测结果以标签的形式添加到道路图像数据中,并将带有标签的道路图像数据恢复成带有标签的道路视频,获得道路视频的车牌特征点检测结果;其中,所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型。本发明方法能够高效、准确的进行车牌特征点检测。
Description
技术领域
本发明涉及一种基于深度学习的车牌特征点检测方法,属于车辆智能驾驶技术领域。
背景技术
车辆检测是计算机视觉的重要任务之一,也是无人驾驶领域最为重要的路况感知手段,其中,车牌特征点检测时车辆检测的主要任务。目前常用的基于视频的车辆前车车牌特征点检测方法主要有两种:第一种为传统的边缘检测、角点检测方法;第二种是基于深度学习的以卷积神经网络为主的特征点检测方法。
在以深度学习为主的特征点检测方法中,目前存在三种提升特征点检测精度的方法:第一种是针对网络损失函数进行专项改进,以此来使损失函数更加契合检测任务,如加权欧氏距离损失函数;第二种方法是在方法层面进行的优化,如借助视频前N帧的图像预测结果作为先验知识,不断迭代的进行训练与预测,使网络具有上下文信息,从而更好地检测特征点;第三种优化方法是针对网络层面的优化,如借助每个阶段的梯度激活值作为网络特征图的权重进行特征融合,以此来提高特征点检测精度。现有检测方法基于下采样倍数很高的骨干网络进行特征点的检测,并且采用了多种特征任何技术,可以更好地适应特征变化,但是骨干网络中本质的低分辨率检测精度低的问题并未得到有效的解决,无法保留图像高分辨率特征,检测效果不佳。
发明内容
为了解决现有技术中车牌特征点检测精度低的问题,本发明提出了一种基于深度学习的车牌特征点检测方法,采用多路并行的网络结构,令网络始终保持高分辨率的特征信息,同时融入注意力机制,进行特征融合,本发明能够高效、准确的检测道路图像中的车牌特征信息。
为解决上述技术问题,本发明采用了如下技术手段:
本发明提出了一种基于深度学习的车牌特征点检测方法,包括以下步骤:
获取道路视频,并将道路视频转换成道路图像数据;
利用预先训练好的车牌特征点检测模型处理道路图像数据,通过模型前向推理获得车牌特征点检测结果;
利用OpenCV工具将车牌特征点检测结果以标签的形式添加到道路图像数据中,并将带有标签的道路图像数据恢复成带有标签的道路视频,获得道路视频的车牌特征点检测结果;
其中,所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型。
进一步的,所述高分辨率并行网络模型由依次连接的网络结构头部、网络骨干和网络检测头部组成;所述网络结构头部包括一个下采样卷积;所述网络骨干包括多个融合注意力机制的高分辨率并行网络模块,每个高分辨率并行网络模块之间通过一个1*1的逐点卷积连接;所述网络检测头部包括分类头、回归头和特征点检测头,所述分类头用于检测网络骨干输出的特征图中的物体类别,所述回归头用于检测特征图中的车辆回归框,所述特征点检测头用于检测特征图中的车牌特征点。
进一步的,所述高分辨率并行网络模块的构建方法如下:
利用下采样卷积为一条高分辨率的网络通路连接多条并行的低分辨率的网络通路,生成并行网络结构;
利用跳跃连接对并行网络结构中的每一条网络通路中对称位置的特征图进行跨层特征融合;
基于注意力机制,利用特征连接权重和权重阈值对并行网络结构中的多条相邻的网络通路进行多分辨率特征融合,获得高分辨率并行网络模块。
进一步的,设高分辨率并行网络模块中第p+1条网络通路中第q+1个卷积层的特征图为Feature(p+1)(q+1),其中,p=1,2,…,R,q=1,2,…,Qp,R为高分辨率并行网络模块中网络通路的总条数,Qp为第p条网络通路中卷积层的总个数,则Feature(p+1)(q+1)的多分辨率特征融合的具体操作如下:
获取特征图Featurepq、Featurep(q+1)和Featurep(q+2),并获取与特征图对应的特征连接权重Wpq、Wp(q+1)和Wp(q+2),其中,Featurepq表示高分辨率并行网络模块中第p条网络通路中第q个卷积层的特征图,Featurep(q+1)表示第p条网络通路中第q+1个卷积层的特征图,Featurep(q+2)表示第p条网络通路中第q+2个卷积层的特征图,Wpq表示Featurepq对应的特征连接权重,Wp(q+1)表示Featurep(q+1)对应的特征连接权重,Wp(q+2)表示Featurep(q+2)对应的特征连接权重;
依次将特征连接权重Wpq、Wp(q+1)、Wp(q+2)与权重阈值K比较,获得连接活性参数,具体如下:
其中,表示特征连接权重Wpq的连接活性参数;
根据连接活性参数进行多分辨率特征融合:
进一步的,检测车牌特征点的具体操作如下:
获取网络骨干输出的特征图,设特征图中共有N个车辆,每个车辆有一个车牌,每个车牌有4个车牌特征点,其中,N为整数;
基于高斯函数为特征图中每一个车辆的每个车牌特征点生成一幅热图;
基于响应最大化原则从热图中检测车牌特征点,获得车牌特征点位置:
Si,j=maxB(Si,j(B)) (3)
其中,Si,j表示特征图中第i个车辆的第j个车牌特征点位置,Si,j(B)表示第i个车辆的第j个车牌特征点的热图中像素点B的响应值,i=1,2,…,N,j∈[1,4]。
进一步的,训练高分辨率并行网络模型的具体操作如下:
获取道路图像数据集,并对道路图像数据集中的每幅道路图像进行标注;
按照预设比例将标注后的道路图像数据集划分为训练样本集和测试样本集;
初始化高分辨率并行网络模型的网络参数,并将训练样本集输入高分辨率并行网络模型,获取训练样本集中每个训练样本的车牌特征点初始检测结果;
根据车牌特征点初始检测结果计算模型损失,并通过损失反向传输对高分辨率并行网络模型的网络参数进行迭代更新,获得更新后的高分辨率并行网络模型;
利用测试样本集测试更新后的高分辨率并行网络模型,获得测试指标;
当测试指标满足迭代终止条件时,结束迭代更新,获得训练好的高分辨率并行网络模型。
进一步的,其特征在于,所述高分辨率并行网络模型的网络参数包括特征连接权重。
进一步的,所述标注包括物体类别标注、车辆回归框标注和车牌特征点标注;所述车牌特征点初始检测结果包括物体分类独热向量、车辆回归框位置矩阵和车牌特征点位置。
进一步的,模型损失的计算过程如下:
根据物体分类独热向量和物体类别标注计算分类损失,计算公式如下:
其中,Losscls表示分类损失,表示标注的第m个物体的类别,ym表示检测的第m个物体的分类独热向量,M表示训练样本中的物体总数;
根据车辆回归框位置矩阵和车辆回归框标注计算回归框偏移量,计算公式如下:
其中,Δti表示车辆回归框位置矩阵中第i个车辆回归框的回归框偏移量,表示标注的第i个车辆回归框中心点横坐标的偏移量,/>表示标注的第i个车辆回归框中心点纵坐标的偏移量,/>表示标注的第i个车辆回归框宽度的偏移量,/>表示标注的第i个车辆回归框高度的偏移量,tix表示车辆回归框位置矩阵中第i个车辆回归框中心点横坐标的偏移量,tiy表示车辆回归框位置矩阵中第i个车辆回归框中心点纵坐标的偏移量,tiw表示车辆回归框位置矩阵中第i个车辆回归框宽度的偏移量,tih表示车辆回归框位置矩阵中第i个车辆回归框高度的偏移量,i=1,2,…,N,N为车辆总数;
根据回归框偏移量计算回归框损失,计算公式如下:
其中,LossBbox表示回归框损失;
根据车牌特征点标注生成标注热图,并计算每个车辆的每个车牌特征点的标注热图中像素点B的标注响应值;
根据车牌特征点位置生成热图,并计算每个车辆的每个车牌特征点的热图中像素点B的响应值;
根据标注响应值和响应值计算特征点损失,计算公式如下:
其中,LossKp表示特征点损失,表示第i个车辆的第j个车牌特征点标注热图中像素点B的标注响应值,Si,j(B)表示检测的第i个车辆的第j个车牌特征点的热图中像素点B的响应值;
根据分类损失、回归框损失和特征点损失计算模型损失,计算公式如下:
Losstotal=Losscls+LossBbox+LossKp (8)
其中,Losstotal表示模型损失。
采用以上技术手段后可以获得以下优势:
本发明提出了一种基于深度学习的车牌特征点检测方法,利用融合注意力机制的高分辨率并行网络模型作为车牌特征点检测模型,进行车牌特征点检测,从而在保持图像高分辨路特征的同时更好地适应特征变化,有效提高车辆车牌特征点检测的精确度。
本发明在HRNet的基础上进行改进,在保证图像高分辨率信息的同时不断融合低分辨率的信息,形成并行的高分辨率骨干网络结构,这种网络结构可以避免普通网络由于下采样倍数变大而丢失图像小物体的特征的问题,能够有效地保留车牌特征点的特征信息,高效快速的定位车牌特征点。本发明还融入了注意力机制,给网络模型中各个特征图连接设置了一个可学习的特征连接权重,特征连接权重越大,对应特征图包含的目标信息越丰富,按照特征连接权重进行特征融合可以令网络信息交换更加高效准确。此外,本发明还融入了跳跃连接操作,使得网络在传递过程中可以融合上下文特征,进行更好的训练,保证了损失无损传播,令网络更好的收敛。
附图说明
图1为本发明一种基于深度学习的车牌特征点检测方法的步骤流程图。
图2为本发明实施例中车牌特征点检测的流程图。
图3为本发明实施例中高分辨率并行网络模型的结构示意图。
图4为本发明实施例中高分辨率并行网络模块的结构示意图。
图5为本发明实施例中多分辨率特征融合的示意图。
图6为本发明实施例中高分辨率并行网络模型训练的流程图。
图中,1是网络结构头部,2是网络骨干,3是网络检测头部。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
本发明提出了一种基于深度学习的车牌特征点检测方法,如图1、2所示,具体包括以下步骤:
获取道路视频,并将道路视频转换成道路图像数据;
利用预先训练好的车牌特征点检测模型处理道路图像数据,通过模型前向推理获得车牌特征点检测结果;
利用OpenCV工具将车牌特征点检测结果以标签的形式添加到道路图像数据中,并将带有标签的道路图像数据恢复成带有标签的道路视频,获得道路视频的车牌特征点检测结果;
其中,所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型。
为了提高车牌特征点检测精度,本发明给出了一个融合注意力机制的高分辨率并行网络模型,如图3所示,高分辨率并行网络模型由依次连接的网络结构头部1、网络骨干2和网络检测头部3组成,网络结构头部用于将待处理的图像传输到网络骨干中,其包括一个下采样卷积;网络骨干用于处理图像,获得对应的特征图;网络检测头部用于接收网络骨干输出的特征图,对特征图进行处理后输出车牌特征点检测结果。
本发明在HRNet(High Resolution Network,高分辨率网络)基础上进行改进,保留了图像高分辨率特征信息的并行网络结构,然后网络模块以倒三角结构进行重构,删掉了结构中参数冗余的部分,同时对结构进行量化,形成即插即用的高分辨率并行网络模块,其结构如图4所示。网络骨干由多个融合注意力机制的高分辨率并行网络模块叠加而成,每个高分辨率并行网络模块之间通过一个1*1的逐点卷积连接,高分辨率并行网络模块的数量为超参数,通常是人为设定,可根据图像分辨率以及数据集大小自适应调整网络深度。
高分辨率并行网络模块的构建方法具体如下:
利用下采样卷积为一条高分辨率的网络通路连接多条并行的低分辨率的网络通路,生成并行网络结构。在保留图像原始分辨率分支(即高分辨率分支)的同时不断向下衍生出下采样倍数为2、4、6、8的低分辨率分支进行并行化前向传递,在保证图像高分辨率信息的同时不断融合低分辨率的信息,达到高效检测特征点的目的。
借鉴残差网络的优势,利用跳跃连接对并行网络结构中的每一条网络通路中对称位置的特征图进行跨层特征融合,使得网络在向前传播时可以融合上下文信息,并且在损失方向传播时可以进行无损传播,加速网络收敛。
基于注意力机制,在网络特征融合连接处利用特征连接权重和权重阈值对并行网络结构中的多条相邻的网络通路进行多分辨率特征融合,获得高分辨率并行网络模块。权重阈值为超参数,特征连接权重为可学习的权重参数,在网络模型训练过程中,特征连接权重可以依据反向传输的损失进行自适应的学习来表达当前特征图对网络的影响程度,即重要性。
如图5所示,设高分辨率并行网络模块中第p+1条网络通路中第q+1个卷积层的特征图为Feature(p+1)(q+1),其中,p=1,2,…,R,q=1,2,…,Qp,R为高分辨率并行网络模块中网络通路的总条数,Qp为第p条网络通路中卷积层的总个数,则Feature(p+1)(q+1)的多分辨率特征融合的具体操作如下:
获取特征图Featurepq、Featurep(q+1)和Featurep(q+2),并获取与特征图对应的特征连接权重Wpq、Wp(q+1)和Wp(q+2),其中,Featurepq表示高分辨率并行网络模块中第p条网络通路中第q个卷积层的特征图,Featurep(q+1)表示第p条网络通路中第q+1个卷积层的特征图,Featurep(q+2)表示第p条网络通路中第q+2个卷积层的特征图Wpq表示Featurepq对应的特征连接权重,Wp(q+1)表示Featurep(q+1)对应的特征连接权重,Wp(q+2)表示Featurep(q+2)对应的特征连接权重。
依次将特征连接权重Wpq、Wp(q+1)、Wp(q+2)与权重阈值K比较,获得连接活性参数,以特征连接权重Wpq的连接活性参数为例:
根据连接活性参数进行多分辨率特征融合:
当某个特征连接权重低于权重阈值,则该特征连接权重对应的特征图连接失活,在后续的多分辨率特征融合中不需要融合连接失活的特征图。通过特征连接权重和权重阈值可以达到DropOut的效果,减少过拟合现象。
本发明的高分辨率并行网络模型中的卷积(网络结构头部的下采样卷积、高分辨率并行网络模块中的卷积)均为3*3的深度可分离卷积核,在保证精度的条件下极大地降低了参数量。
本发明实施例中的网络检测头部包括分类头、回归头和特征点检测头,其中,分类头用于检测特征图中的物体类别,由于本发明网络模型处理的是道路图像,所以图像中可能存在车辆、行人、建筑等物体,分类头可以识别不同物体的类别,以便回归头和特征点检测头对车辆进行后续检测;回归头用于检测特征图中的车辆回归框,一个车辆对应一个车辆回归框,当特征图中存在多个车辆时,回归头输出车辆回归框矩阵;特征点检测头用于检测特征图中的车牌特征点,具体的,检测车辆车牌的四个角点。
回归头检测车牌特征点的具体操作如下:
获取网络骨干输出的特征图,设特征图中共有N个车辆,每个车辆有一个车牌,每个车牌有4个车牌特征点,其中,N为整数。
基于高斯函数为特征图中每一个车辆的每个车牌特征点生成一幅热图,热图总数为4N。
基于响应最大化原则从热图中检测车牌特征点,获得车牌特征点位置,对每一幅热图进行如下运算:
Si,j=maxB(Si,j(B)) (11)
其中,Si,j表示特征图中第i个车辆的第j个车牌特征点位置,Si,j(B)表示第i个车辆的第j个车牌特征点的热图中像素点B的响应值,i=1,2,…,N,j∈[1,4]。
本发明实施例中网络模型训练和特征点检测的流程如图6所示,其中,训练高分辨率并行网络模型的具体操作如下:
获取道路图像数据集,并对道路图像数据集中的每幅道路图像进行标注,标注操作主要包括物体类别标注、车辆回归框标注和车牌特征点标注,其中车辆回归框标注分为标注回归框和给定锚定框两个步骤。道路图像数据集可以通过摄像装置采集,也可以直接从网络上采集。
按照预设比例将标注后的道路图像数据集划分为训练样本集和测试样本集,为了提高训练样本数量,保证训练效果,可以对训练样本集中的训练样本进行数据增强处理,比如图像翻转、拉伸、仿射变换等操作。
初始化高分辨率并行网络模型的网络参数,此处的网络参数主要包括特征连接权重和模型中每一层的滤波器中的初始化参数,特征连接权重的初始化数值为1。将训练样本集输入高分辨率并行网络模型,获取训练样本集中每个训练样本的车牌特征点初始检测结果,车牌特征点初始检测结果包括物体分类独热向量、车辆回归框位置矩阵和车牌特征点位置。
根据车牌特征点初始检测结果计算模型损失,并通过损失反向传输对高分辨率并行网络模型的网络参数进行迭代更新,获得更新后的高分辨率并行网络模型。
利用测试样本测试更新后的高分辨率并行网络模型,获得测试指标,比如mAP指标。
当测试指标满足迭代终止条件时,结束迭代更新,获得训练好的高分辨率并行网络模型。迭代终止条件是通过大量实验研究获得的,不同的指标对应不同的要求,可根据实际需求设置。
模型损失由分类损失、回归框损失和特征点损失组成,具体计算过程如下:
根据物体分类独热向量和物体类别标注计算分类损失,计算公式如下:
其中,Losscls表示分类损失,表示标注的第m个物体的类别,ym表示检测的第m个物体的分类独热向量,M表示训练样本中的物体总数。
根据车辆回归框位置矩阵和车辆回归框标注计算回归框偏移量,计算公式如下:
其中,Δti表示车辆回归框位置矩阵中第i个车辆回归框的回归框偏移量,表示标注的第i个车辆回归框中心点横坐标的偏移量,/>表示标注的第i个车辆回归框中心点纵坐标的偏移量,/>表示标注的第i个车辆回归框宽度的偏移量,/>表示标注的第i个车辆回归框高度的偏移量,tix表示车辆回归框位置矩阵中第i个车辆回归框中心点横坐标的偏移量,tiy表示车辆回归框位置矩阵中第i个车辆回归框中心点纵坐标的偏移量,tiw表示车辆回归框位置矩阵中第i个车辆回归框宽度的偏移量,tih表示车辆回归框位置矩阵中第i个车辆回归框高度的偏移量,i=1,2,…,N,N为车辆总数。
各个偏移量的计算公式如下:
tix=(Pix-Aix)/Aiw (15)
tiy=(Piy-Aiy)/Aih (17)
tiw=log(Piw/Aiw) (19)
tih=log(Gih/Aih) (21)
其中,Gix表示标注的第i个车辆回归框中心点的横坐标,Giy表示标注的第i个车辆回归框中心点的纵坐标,Giw表示标注的第i个车辆回归框的宽度,Gih表示标注的第i个车辆回归框的高度,Pix表示车辆回归框位置矩阵中第i个车辆回归框中心点的横坐标,Piy表示车辆回归框位置矩阵中第i个车辆回归框中心点的纵坐标,Piw表示车辆回归框位置矩阵中第i个车辆回归框的宽度,Pih表示车辆回归框位置矩阵中第i个车辆回归框的高度,Aix表示锚定框中心点的横坐标,Aiy表示锚定框中心点的纵坐标,Aiw表示锚定框的宽度,Aih表示锚定框的高度。
根据回归框偏移量计算回归框损失,计算公式如下:
其中,LossBbox表示回归框损失。
根据车牌特征点标注生成标注热图,并计算每个车辆的每个车牌特征点的标注热图中像素点B的标注响应值,即标注热图中每个像素相对于标注的特征点的响应值,计算公式如下:
其中,表示第i个车辆的第j个车牌特征点标注热图中像素点B的标注响应值,表示标注的第i个车辆的第j个车牌特征点坐标,σ为超参数,用来控制公式(23)峰的扩展,即控制响应变化程度。
根据车牌特征点位置生成热图,并利用与标注响应值类似的方法计算每个车辆的每个车牌特征点的热图中像素点B相对于检测的特征点的响应值Si,j(B)。
根据标注响应值和响应值计算特征点损失,计算公式如下:
其中,LossKp表示特征点损失。
根据分类损失、回归框损失和特征点损失计算模型损失,计算公式如下:
Losstotal=Losscls+LossBbox+LossKp (25)
其中,Losstotal表示模型损失。
本发明采用了保持网络高分辨率信息的并行化网络结构,同时对网络冗余部分进行改进,得到了更加高效与轻量化的高分辨率并行网络模块,此外,本发明的网络结构中还融入了注意力机制和跳跃连接操作,使得网络在学习过程中可以进行更加有效的特征融合。本发明方法能够高效、准确的进行车牌特征点检测。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于深度学习的车牌特征点检测方法,其特征在于,包括以下步骤:
获取道路视频,并将道路视频转换成道路图像数据;
利用预先训练好的车牌特征点检测模型处理道路图像数据,通过模型前向推理获得车牌特征点检测结果;
利用OpenCV工具将车牌特征点检测结果以标签的形式添加到道路图像数据中,并将带有标签的道路图像数据恢复成带有标签的道路视频,获得道路视频的车牌特征点检测结果;
其中,所述车牌特征点检测模型采用融合注意力机制的高分辨率并行网络模型;
所述高分辨率并行网络模型由依次连接的网络结构头部、网络骨干和网络检测头部组成;所述网络结构头部包括一个下采样卷积;所述网络骨干包括多个融合注意力机制的高分辨率并行网络模块,每个高分辨率并行网络模块之间通过一个1*1的逐点卷积连接;所述网络检测头部包括分类头、回归头和特征点检测头,所述分类头用于检测网络骨干输出的特征图中的物体类别,所述回归头用于检测特征图中的车辆回归框,所述特征点检测头用于检测特征图中的车牌特征点;
所述高分辨率并行网络模块的构建方法如下:
利用下采样卷积为一条高分辨率的网络通路连接多条并行的低分辨率的网络通路,生成并行网络结构;
利用跳跃连接对并行网络结构中的每一条网络通路中对称位置的特征图进行跨层特征融合;
基于注意力机制,利用特征连接权重和权重阈值对并行网络结构中的多条相邻的网络通路进行多分辨率特征融合,获得高分辨率并行网络模块;
设高分辨率并行网络模块中第p+1条网络通路中第q+1个卷积层的特征图为Feature(p+1)(q+1),其中,p=1,2,…,R,q=1,2,…,Qp,R为高分辨率并行网络模块中网络通路的总条数,Qp为第p条网络通路中卷积层的总个数,则Feature(p+1)(q+1)的多分辨率特征融合的具体操作如下:
获取特征图Featurepq、Featurep(q+1)和Featurep(q+2),并获取与特征图对应的特征连接权重Wpq、Wp(q+1)和Wp(q+2),其中,Featurepq表示高分辨率并行网络模块中第p条网络通路中第q个卷积层的特征图,Featurep(q+1)表示第p条网络通路中第q+1个卷积层的特征图,Featurep(q+2)表示第p条网络通路中第q+2个卷积层的特征图,Wpq表示Featurepq对应的特征连接权重,Wp(q+1)表示Featurep(q+1)对应的特征连接权重,Wp(q+2)表示Featurep(q+2)对应的特征连接权重;
依次将特征连接权重Wpq、Wp(q+1)、Wp(q+2)与权重阈值K比较,获得连接活性参数,具体如下:
其中,表示特征连接权重Wpq的连接活性参数;
根据连接活性参数进行多分辨率特征融合:
2.根据权利要求1所述的一种基于深度学习的车牌特征点检测方法,其特征在于,检测车牌特征点的具体操作如下:
获取网络骨干输出的特征图,设特征图中共有N个车辆,每个车辆有一个车牌,每个车牌有4个车牌特征点,其中,N为整数;
基于高斯函数为特征图中每一个车辆的每个车牌特征点生成一幅热图;
基于响应最大化原则从热图中检测车牌特征点,获得车牌特征点位置:
Si,j=maxB(Si,j(B))
其中,Si,j表示特征图中第i个车辆的第j个车牌特征点位置,Si,j(B)表示第i个车辆的第j个车牌特征点的热图中像素点B的响应值,i=1,2,…,N,j∈[1,4]。
3.根据权利要求1所述的一种基于深度学习的车牌特征点检测方法,其特征在于,高分辨率并行网络模型的训练过程如下:
获取道路图像数据集,并对道路图像数据集中的每幅道路图像进行标注;
按照预设比例将标注后的道路图像数据集划分为训练样本集和测试样本集;
初始化高分辨率并行网络模型的网络参数,并将训练样本集输入高分辨率并行网络模型,获取训练样本集中每个训练样本的车牌特征点初始检测结果;
根据车牌特征点初始检测结果计算模型损失,并通过损失反向传输对高分辨率并行网络模型的网络参数进行迭代更新,获得更新后的高分辨率并行网络模型;
利用测试样本集测试更新后的高分辨率并行网络模型,获得测试指标;
当测试指标满足迭代终止条件时,结束迭代更新,获得训练好的高分辨率并行网络模型。
4.根据权利要求3所述的一种基于深度学习的车牌特征点检测方法,其特征在于,所述高分辨率并行网络模型的网络参数包括特征连接权重。
5.根据权利要求3所述的一种基于深度学习的车牌特征点检测方法,其特征在于,所述标注包括物体类别标注、车辆回归框标注和车牌特征点标注;所述车牌特征点初始检测结果包括物体分类独热向量、车辆回归框位置矩阵和车牌特征点位置。
6.根据权利要求5所述的一种基于深度学习的车牌特征点检测方法,其特征在于,模型损失的计算过程如下:
根据物体分类独热向量和物体类别标注计算分类损失,计算公式如下:
其中,Losscls表示分类损失,表示标注的第m个物体的类别,ym表示检测的第m个物体的分类独热向量,M表示训练样本中的物体总数;
根据车辆回归框位置矩阵和车辆回归框标注计算回归框偏移量,计算公式如下:
其中,Δti表示车辆回归框位置矩阵中第i个车辆回归框的回归框偏移量,表示标注的第i个车辆回归框中心点横坐标的偏移量,/>表示标注的第i个车辆回归框中心点纵坐标的偏移量,/>表示标注的第i个车辆回归框宽度的偏移量,/>表示标注的第i个车辆回归框高度的偏移量,tix表示车辆回归框位置矩阵中第i个车辆回归框中心点横坐标的偏移量,tiy表示车辆回归框位置矩阵中第i个车辆回归框中心点纵坐标的偏移量,tiw表示车辆回归框位置矩阵中第i个车辆回归框宽度的偏移量,tih表示车辆回归框位置矩阵中第i个车辆回归框高度的偏移量,i=1,2,…,N,N为车辆总数;
根据回归框偏移量计算回归框损失,计算公式如下:
其中,LossBbox表示回归框损失;
根据车牌特征点标注生成标注热图,并计算每个车辆的每个车牌特征点的标注热图中像素点B的标注响应值;
根据车牌特征点位置生成热图,并计算每个车辆的每个车牌特征点的热图中像素点B的响应值;
根据标注响应值和响应值计算特征点损失,计算公式如下:
其中,LossKp表示特征点损失,表示第i个车辆的第j个车牌特征点标注热图中像素点B的标注响应值,Si,j(B)表示检测的第i个车辆的第j个车牌特征点的热图中像素点B的响应值;
根据分类损失、回归框损失和特征点损失计算模型损失,计算公式如下:
Losstotal=Losscls+LossBbox+LossKp
其中,Losstotal表示模型损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011253290.2A CN112464750B (zh) | 2020-11-11 | 2020-11-11 | 一种基于深度学习的车牌特征点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011253290.2A CN112464750B (zh) | 2020-11-11 | 2020-11-11 | 一种基于深度学习的车牌特征点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464750A CN112464750A (zh) | 2021-03-09 |
CN112464750B true CN112464750B (zh) | 2023-11-14 |
Family
ID=74826578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011253290.2A Active CN112464750B (zh) | 2020-11-11 | 2020-11-11 | 一种基于深度学习的车牌特征点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464750B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326753B (zh) * | 2021-05-20 | 2022-04-19 | 同济大学 | 一种针对重叠问题的x射线安检违禁品检测方法 |
CN114973321A (zh) * | 2022-05-18 | 2022-08-30 | 东南大学 | 一种生猪体尺视觉测量的特征点选取及测量方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481188A (zh) * | 2017-06-23 | 2017-12-15 | 珠海经济特区远宏科技有限公司 | 一种图像超分辨率重构方法 |
CN110020651A (zh) * | 2019-04-19 | 2019-07-16 | 福州大学 | 基于深度学习网络的车牌检测定位方法 |
CN111209921A (zh) * | 2020-01-07 | 2020-05-29 | 南京邮电大学 | 基于改进的YOLOv3网络的车牌检测模型及构建方法 |
CN111695448A (zh) * | 2020-05-27 | 2020-09-22 | 东南大学 | 一种基于视觉传感器的路侧车辆识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824862B2 (en) * | 2017-11-14 | 2020-11-03 | Nuro, Inc. | Three-dimensional object detection for autonomous robotic systems using image proposals |
-
2020
- 2020-11-11 CN CN202011253290.2A patent/CN112464750B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481188A (zh) * | 2017-06-23 | 2017-12-15 | 珠海经济特区远宏科技有限公司 | 一种图像超分辨率重构方法 |
CN110020651A (zh) * | 2019-04-19 | 2019-07-16 | 福州大学 | 基于深度学习网络的车牌检测定位方法 |
CN111209921A (zh) * | 2020-01-07 | 2020-05-29 | 南京邮电大学 | 基于改进的YOLOv3网络的车牌检测模型及构建方法 |
CN111695448A (zh) * | 2020-05-27 | 2020-09-22 | 东南大学 | 一种基于视觉传感器的路侧车辆识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112464750A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
Shi et al. | License plate recognition system based on improved YOLOv5 and GRU | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
KR102224253B1 (ko) | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 | |
CN109341703B (zh) | 一种全周期采用CNNs特征检测的视觉SLAM算法 | |
EP3690741A2 (en) | Method for automatically evaluating labeling reliability of training images for use in deep learning network to analyze images, and reliability-evaluating device using the same | |
CN110163069B (zh) | 用于辅助驾驶的车道线检测方法 | |
CN106682696A (zh) | 基于在线示例分类器精化的多示例检测网络及其训练方法 | |
CN110781262A (zh) | 基于视觉slam的语义地图的构建方法 | |
KR102320985B1 (ko) | 멀티 카메라 시스템 내의 더블 임베딩 구성을 이용하여 도로 이용자 이벤트를 검출하기 위해 이용될 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
CN104517103A (zh) | 一种基于深度神经网络的交通标志分类方法 | |
CN112464750B (zh) | 一种基于深度学习的车牌特征点检测方法 | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN108038515A (zh) | 无监督多目标检测跟踪方法及其存储装置与摄像装置 | |
CN107545263A (zh) | 一种物体检测方法及装置 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN113569650A (zh) | 一种基于电力杆塔标牌识别的无人机自主巡检定位方法 | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
CN114187506B (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN109919215B (zh) | 基于聚类算法改进特征金字塔网络的目标检测方法 | |
Pais et al. | Omnidrl: Robust pedestrian detection using deep reinforcement learning on omnidirectional cameras | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
CN113269038B (zh) | 一种基于多尺度的行人检测方法 | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |