CN115359487A - 一种快速轨道车号识别方法、设备及存储介质 - Google Patents

一种快速轨道车号识别方法、设备及存储介质 Download PDF

Info

Publication number
CN115359487A
CN115359487A CN202210915197.6A CN202210915197A CN115359487A CN 115359487 A CN115359487 A CN 115359487A CN 202210915197 A CN202210915197 A CN 202210915197A CN 115359487 A CN115359487 A CN 115359487A
Authority
CN
China
Prior art keywords
train
image
car
images
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210915197.6A
Other languages
English (en)
Inventor
占栋
赵杰超
张金鑫
周蕾
向文剑
伍义阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tangyuan Intelligent Control Technology Co ltd
Original Assignee
Chengdu Tangyuan Intelligent Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tangyuan Intelligent Control Technology Co ltd filed Critical Chengdu Tangyuan Intelligent Control Technology Co ltd
Priority to CN202210915197.6A priority Critical patent/CN115359487A/zh
Publication of CN115359487A publication Critical patent/CN115359487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/141Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种快速轨道车号识别方法、设备及存储介质,涉及车号识别技术领域,包括以下步骤:采集列车的待识别车号图像,形成待识别车号图像数据集;利用峰值信噪比算法,在待识别车号图像数据集中寻找车头和/或车尾的图像;使用深度学习算法模型定位车头和/或车尾图像中的车号区域;提取定位到的车号区域,并在提取的车号区域上,使用深度学习算法模型定位车号字符区域;提取定位到的车号字符区域,并在提取的车号字符区域上,使用深度学习算法进行字符识别,再将所有识别结果拼接起来输出,形成当前列车的车号识别结果。本发明提供的快速轨道车号识别方法,受光照因素的影响小,无需过多考虑车号区域特征,且识别率相对较高。

Description

一种快速轨道车号识别方法、设备及存储介质
技术领域
本发明涉及车号识别技术领域,更具体地说涉及一种快速轨道车号识别方法、设备及存储介质。
背景技术
铁路交通运输是目前交通运输主要方式之一,其对经济的持续发展起着重要的支撑作用。而列车车号作为列车身份信息的唯一标识,在对列车进行计划安排、调度以及列车相关检测时,这些检测都需要与列车车号关联在一起,因此,列车车号的准确识别在铁路交通运输中起着至关重要的作用。
现有技术中,公开号为CN109840523A的专利,公开了一种基于图像处理的城轨列车车号识别算法。该算法步骤如下:由相机获取到原始图像,对原始图像进行平滑处理;根据车号字符所在区域的背景颜色,突出车号字符所在区域,并对图像进行二值化;对得到的二值图像进行形态学处理;根据车号字符所在区域的连通域的特点,定位车号字符所在区域;对定位出来的车号字符区域图像进行取反操作,并对取反之后图像的连通域进行分析,根据车号字符自身的连通域特点,分割出单个字符;对分割出来的单个字符进行归一化处理,并进行二值化处理;采用人工神经网络ANN进行车号识别。本发明提高了车号信息采集的准确性,降低了车号采集系统的成本,具有实时性好、车号识别准确率高的优点。
上述专利公开的车号识别算法,会训练相应的文字识别模型以实现车号识别,但是其泛化能力不强,导致在不同光照强度下的识别率相差较大,识别率和误报率均不理想。
发明内容
为了克服上述现有技术中存在的缺陷,本发明公开了一种快速轨道车号识别方法、设备及存储介质,本发明的目的是解决现有技术中的车号识别算法,会训练相应的文字识别模型以实现车号识别,其泛化能力不强,导致在不同光照强度下的识别率相差较大,识别率和误报率均不理想的问题。本发明通过利用数据采集设备采集图像,利用峰值信噪比以及深度学习算法对图像进行处理,得到当前列车的车号识别结果,受光照因素的影响小,无需过多考虑车号区域特征,且识别率相对较高。
为了实现以上目的,本发明采用的技术方案:
第一方面,本发明提供了一种快速轨道车号识别方法,包括以下步骤:
S1、采集列车的待识别车号图像,形成待识别车号图像数据集;
优先的,所述S1步骤中,利用数据采集设备采集列车的待识别车号图像,数据采集设备采集待识别车号图像时,根据现场光照情况进行光照补偿。
本发明中,数据采集设备可为常规的相机,利用相机拍摄列车的图像,相机带有光照补偿功能。由于数据采集设备带有光照补偿功能,因此对于每一帧图像,数据采集设备会根据现场光照情况进行光照补偿,故无需过多关注光照因素,仅需保证图像中列车的完整性和高还原性,可通过雷达测速仪控制相机快门速率实现。换言之,完整性的意思是拍摄的多张图像拼接后可以得到一张整趟列车的全景图,高还原性的意思是拼接后的全景图中列车的形变控制在±1%以内,包括拉伸和/或压缩。
S2、利用峰值信噪比算法,在待识别车号图像数据集中寻找车头和/或车尾的图像;
对于列车而言,其车号一般是设置在车头和/或车尾上,一趟列车至少有一个车号,至多有两个车号。本发明中,当找到车头图像和车尾图像中的一个图像,或者找到车头图像和车尾图像两个图像,均可通过后续的处理识别车号。
优选的,所述峰值信噪比为:
Figure 977637DEST_PATH_IMAGE001
其中,n为每个像素的比特数,MSE为输入的两张图像之间的像素值均方误差,其具体为:
Figure 788598DEST_PATH_IMAGE002
其中,col为输入图像的宽度,row为输入图像的高度,I为第一张输入图像,K为第二张输入图像,(i, j)为两张图像中对应像素的坐标。
本发明中,峰值信噪比的作用是对比前后两张图像,通过峰值信噪比值判断当前两张图像中是否包含车头或车尾。
具体的,当峰值信噪比值为40及以上时,则可判断出当前两张图像中包含车头或车尾。
本发明中,利用峰值信噪比判断当前两张图像中是否包含车头或车尾,相对于传统的结构相似度(SSIM)判别方法,其优点在于在保证判别精度的同时将判别速率提升了3倍左右。
S3、使用深度学习算法模型定位车头和/或车尾图像中的车号区域;
优选的,所述S3步骤中,分别从找到的车头和/或车尾图像开始遍历,对图像进行拼接操作,再使用深度学习算法模型定位拼接图像中的车号区域。
在拍摄时,由于数据采集设备与列车的相对距离,以及拍摄时间的不同,可能拍摄的图像中,只拍到了车头和/或车尾的端部,没有拍到其前端/后端的车号区域,此时就需要将车头和/或车尾附件的图像进行拼接,以将车号区域与车头和/或车尾连接在一起,以便于后续的识别。同时,为了保证图像中列车的完整性和高还原性,也需要将图像进行拼接。
本发明中,图像拼接采用ORB(Oriented Fast and Rotated Brief) 方法。
S4、提取定位到的车号区域,并在提取的车号区域上,使用深度学习算法模型定位车号字符区域;
优选的,所述S3步骤和S4步骤中,所述定位车号区域和定位车号字符区域的深度学习算法模型均为YOLOv3算法模型。
YOLOv3算法模型作用是定位输入图像数据中的车号区域和字符区域,为后续字符识别和字符识别结果拼接提供图像数据基础和拼接验证依据。相较于现有技术中使用的传统图像处理算法,其优势在于监测速率更快、监测精度更高。
优选的,所述YOLOv3算法模型中,融入COSFORMER 算法,使用Leaky ReLU结合三角函数距离替换原始YOLOv3算法中的softmax激活函数。
本发明中,对YOLOv3算法模型的改进:在YOLOv3算法模型中融入COSFORMER 算法,主要思想是使用Leaky ReLU结合三角函数距离替换原始YOLOv3算法中的softmax激活函数,增强YOLOv3的泛化能力。
COSFORMER的本质是一种新型激活函数,它是一种非线性重重加权方案,可以凝聚注意力矩阵分布,放大局部相关性和下游泛化能力。
Softmax激活函数公式:
Figure 168764DEST_PATH_IMAGE003
其中,zi和zc分别是预判的第i / c个类别的置信度值,C是类别总数,softmax的值在[0,1]之间。
Leaky ReLU的公式如下式所示:
Figure 74272DEST_PATH_IMAGE004
其中,ai
Figure 731649DEST_PATH_IMAGE005
区间内的固定参数。
融入了COSFORMER后的YOLOv3算法模型的激活函数为:
Figure 572566DEST_PATH_IMAGE006
其中,Q是输入的原始车号图像,K是原始车号图像对应的特征图,S是一个可线性分解以测量Q和K之间相似性的函数,也就是从输入的原始车号图像得到特征图的过程描述,i是某一个特征在原始车号图像Q中的索引,j是在原始车号图像中索引为i的特征在原始车号特征图中的索引,M是所有特征的集合,T是矩阵转置符号,
Figure 299083DEST_PATH_IMAGE007
是激活函数。
S5、提取定位到的车号字符区域,并在提取的车号字符区域上,使用深度学习算法进行字符识别,再将所有识别结果拼接起来输出,形成当前列车的车号识别结果。
优选的,所述字符识别和拼接输出均采用基于CNN卷积神经网络实现。
卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。本发明中,卷积神经网络作用是识别每个字符区域中的字符,并将字符拼接起来组成车号识别的最终结果。
第二方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,执行所述快速轨道车号识别方法中的步骤。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述快速轨道车号识别方法中的步骤。
本发明的有益效果:
1、本发明提供的快速轨道车号识别方法,受光照因素的影响小,无需过多考虑车号区域特征,且识别率相对较高。
受光照因素的影响小:一方面有光照补偿,从输入端减少光照影响,因此受光照因素的影响小;另一方面,通过改进的YOLOv3,增强了算法的泛化能力,对多种情况下的车号图像兼容性较强,因此受光照因素的影响小。
无需过多考虑车号区域特征:通过改进的YOLOv3,增强了算法的泛化能力,所以对多种情况下的车号图像兼容性较强,无需过多考虑车号区域特征。
识别率相对较高:通过YOLOv3算法模型和CNN卷积神经网络,前者识别车号区域和字符区域,后者将字符识别、拼接并输出。改进后的YOLOv3网络定位车号区域和字符区域准确率较高,后者卷积神经网络做字符识别的技术较成熟,识别率高。
2、本发明提供的快速轨道车号识别方法,利用峰值信噪比算法,在待识别车号图像数据集中寻找车头和/或车尾的图像,利用峰值信噪比判断当前两张图像中是否包含车头或车尾,缩短了车号识别耗时、减少硬件性能消耗。
3、本发明提供的快速轨道车号识别方法,利用深度学习算法模型定位车号区域和车号字符区域,深度学习算法模型具体为YOLOv3算法模型,为后续字符识别和字符识别结果拼接提供图像数据基础和拼接验证依据。相较于现有技术中使用的传统图像处理算法,其监测速率更快、监测精度更高。
4、本发明提供的快速轨道车号识别方法,将定位到的字符区域提取出来,并使用深度学习算法进行字符识别,再将所有识别结果拼接起来输出即为当前列车的车号识别结果,字符识别采用基于CNN卷积神经网络实现,精度和速度较高。
5、本发明提供的快速轨道车号识别方法,不受外界光照变化的干扰,仅和当前图像中目标车号区域与其他区域的对比度有关,因为数据采集设备带有光照补偿功能,因此对于每一帧图像,数据采集设备会根据现场光照情况进行光照补偿,故无需过多关注光照因素,仅需保证图像中列车的完整性和高还原性。
附图说明
图1为本发明快速轨道车号识别方法的示意图;
图2为本发明原始输入的图像;
图3为本发明原始输入图像整理合并后的图像;
图4为本发明车头图像;
图5为本发明车尾图像;
图6为本发明车头/车尾图像拼接结果;
图7为本发明车号区域一级定位;
图8为本发明字符区域二级定位;
图9为本发明YOLOv3网络结构示意图;
图10为本发明CNN卷积神经网络结构示意图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、特征和效果。
实施例1
一种快速轨道车号识别方法,如图1所示,包括以下步骤:
S1、采集列车的待识别车号图像,形成待识别车号图像数据集;
S2、利用峰值信噪比算法,在待识别车号图像数据集中寻找车头和/或车尾的图像;
S3、使用深度学习算法模型定位车头和/或车尾图像中的车号区域;
S4、提取定位到的车号区域,并在提取的车号区域上,使用深度学习算法模型定位车号字符区域;
S5、提取定位到的车号字符区域,并在提取的车号字符区域上,使用深度学习算法进行字符识别,再将所有识别结果拼接起来输出,形成当前列车的车号识别结果。
实施例2
本实施例在实施例1的基础上,对S1步骤作进一步的阐述。所述S1步骤中,利用数据采集设备采集列车的待识别车号图像,数据采集设备采集待识别车号图像时,根据现场光照情况进行光照补偿。
本实施例中,数据采集设备可为常规的相机,利用相机拍摄列车的图像,相机带有光照补偿功能。由于数据采集设备带有光照补偿功能,因此对于每一帧图像,数据采集设备会根据现场光照情况进行光照补偿,故无需过多关注光照因素,仅需保证图像中列车的完整性和高还原性,可通过雷达测速仪控制相机快门速率实现,换言之,完整性的意思是拍摄的多张图像拼接后可以得到一张整趟列车的全景图,高还原性的意思是拼接后的全景图中列车的形变控制在±1%以内,即包括拉伸和/或压缩控制在±1%以内。
如图2所示,其为数据采集设备采集到的一系列图像,图2中,右侧的两个图像相似,可先将其合并成一个,形成图3中所示的待识别车号图像数据集。
实施例3
本实施例在实施例2的基础上,对S2步骤作进一步的阐述。对于列车而言,其车号一般是设置在车头和/或车尾上,一趟列车至少有一个车号,至多有两个车号。本实施例中,当找到车头图像和车尾图像中的一个图像,或者找到车头图像和车尾图像两个图像,均可通过后续的处理识别车号,以满足现场实际需求。
所述峰值信噪比为:
Figure 149227DEST_PATH_IMAGE008
其中,n为每个采样值的比特数,在本实施例中n代表每个像素的比特数,优选n=8,MSE为输入的两张图像之间的像素值均方误差,其具体为:
Figure 395532DEST_PATH_IMAGE009
其中,col为输入图像的宽度,row为输入图像的高度,I为第一张输入图像,K为第二张输入图像,(i, j)为两张图像中对应像素的坐标。
本实施例中,峰值信噪比的作用是对比前后两张图像,通过峰值信噪比值判断当前两张图像中是否包含车头或车尾。
具体的,当峰值信噪比值为40及以时,则可判断出当前两张图像中包含车头或车尾。
本实施例中,利用峰值信噪比判断当前两张图像中是否包含车头或车尾,相对于传统的结构相似度(SSIM)判别方法,其优点在于在保证判别精度的同时将判别速率提升了3倍左右。
如图4所示,其为通过峰值信噪比算法找到的车头图像;如图5所示,其为通过峰值信噪比算法找到的车尾图像。
实施例4
本实施例在实施例3的基础上,对S3和S4步骤作进一步的阐述。所述S3步骤中,分别从找到的车头和/或车尾图像开始遍历,对图像进行拼接操作,再使用深度学习算法模型定位拼接图像中的车号区域。
在拍摄时,由于数据采集设备与列车的相对距离,以及拍摄时间的不同,可能拍摄的图像中,只拍到了车头和/或车尾的端部,没有拍到其前端/后端的车号区域,此时就需要将车头和/或车尾附件的图像进行拼接,以将车号区域与车头和/或车尾连接在一起,以便于后续的识别。同时,为了保证图像中列车的完整性和高还原性,也需要将图像进行拼接。本实施例中,图像拼接采用ORB(Oriented Fast and Rotated Brief)方法,拼接后的图像如图6所示。
S3步骤和S4步骤中,所述定位车号区域和定位车号字符区域的深度学习算法模型均为YOLOv3算法模型。如图7所示,其为YOLOv3算法模型定位到的车号区域;如图8所示,其为YOLOv3算法模型定位到的车号字符区域。
YOLOv3算法模型作用是定位输入图像数据中的车号区域和字符区域,为后续字符识别和字符识别结果拼接提供图像数据基础和拼接验证依据。相较于现有技术中使用的传统图像处理算法,其优势在于监测速率更快、监测精度更高。
YOLOv3算法模型的网络结构图如图9所示。
YOLOv3卷积模型结构为:输入的图像数据要求为416*416*3,其中416*416是指输入图像数据的长和宽,3指输入图像数据的通道数。模型最后会输出3个尺寸不同的张量y1,y2,y3,尺寸分别为13*13*255,26*26*255,52*52*255。YOLOv3主要包含5各模块,分别为:
(1)DBL模块:为YOLOv3卷积模型的基本组件,其组成结构为:Conv2d+BN+LeakyReLU。BN和Leaky ReLU是YOLOv3卷积模型结构中的卷积层(除最后一层外)的不可分割的部分,并且一起组成了YOLOv3的最小组件。
(2)res_unit模块:为YOLOv3卷积模型结构里的残差网络模块,其组成结构为:DBL模块+DBL模块+add。其中的add只是直接相加,不会改变张量的维度。
(3)resn(n=1,2,…)模块:为YOLOv3卷积模型结构里的大组件,其组成结构为:zero padding+DBL模块+n个res_unit模块。
(4)concat:其目的是为了将darknet中间层的输出张量与后面中某一层的上采样结果进行张量拼接,以此来扩充张量的维度。
(5)输出层:YOLOv3卷积模型的输出层输出三个尺寸不同的张量y1,y2,y3,尺寸分别为13*13*255,26*26*255,52*52*255。
Yolo_v3使用了darknet-53的前面的52层(没有全连接层),yolo_v3这个网络是一个全卷积网络,大量使用残差的跳层连接,并且为了降低池化带来的梯度负面效果,本实施例直接摒弃了POOLing,用conv的stride来实现降采样。在这个网络结构中,使用的是步长为2的卷积来进行降采样。为了加强算法对小目标检测的精确度,YOLO v3中采用类似FPN的upsample和融合做法(最后融合了3个scale,其他两个scale的大小分别是26×26和52×52),在多个scale的feature map上做检测。
YOLOv3在3条预测支路采用的也是全卷积的结构,其中最后一个卷积层的卷积核个数是255,是针对COCO数据集的80类(在本专利中是1类):3*(80+4+1)=255,3表示一个grid cell包含3个bounding box,4表示框的4个坐标信息,1表示objectness score。
YOLO v3的Bounding Box采用了对图像中的object采用k-means聚类。featuremap中的每一个cell都会预测3个边界框(bounding box) ,每个bounding box都会预测三个东西:(1)每个框的位置(4个值,中心坐标tx和ty,框的高度bh和宽度bw),(2)一个objectness prediction ,(3)N个类别,coco数据集80类,voc20类。三次检测,每次对应的感受野不同,32倍降采样的感受野最大,适合检测大的目标,所以在输入为416×416时,每个cell的三个anchor box为(116 ,90);(156 ,198);(373 ,326)。16倍适合一般大小的物体,anchor box为(30,61); (62,45); (59,119)。8倍的感受野最小,适合检测小目标,因此anchor box为(10,13); (16,30); (33,23)。所以当输入为416×416时,实际总共有(52×52+26×26+13×13)×3=10647个proposal box。
优选的,所述YOLOv3算法模型中,融入COSFORMER 算法,使用Leaky ReLU结合三角函数距离替换原始YOLOv3算法中的softmax激活函数。
本实施例中,对YOLOv3算法模型的改进:在YOLOv3算法模型中融入COSFORMER 算法,主要思想是使用Leaky ReLU结合三角函数距离替换原始YOLOv3算法中的softmax激活函数,增强YOLOv3的泛化能力。
COSFORMER的本质是一种新型激活函数,它是一种非线性重重加权方案,可以凝聚注意力矩阵分布,放大局部相关性和下游泛化能力。
Softmax激活函数公式:
Figure 407350DEST_PATH_IMAGE003
其中,zi和zc分别是预判的第i / c个类别的置信度值,C是类别总数,softmax的值在[0,1]之间。
Leaky ReLU的公式如下式所示:
Figure 355583DEST_PATH_IMAGE004
其中,ai
Figure 884785DEST_PATH_IMAGE005
区间内的固定参数。
融入了COSFORMER后的YOLOv3算法模型的激活函数为:
Figure 110230DEST_PATH_IMAGE006
其中,Q是输入的原始车号图像,K是原始车号图像对应的特征图,S是一个可线性分解以测量Q和K之间相似性的函数,也就是从输入的原始车号图像得到特征图的过程描述,i是某一个特征在原始车号图像Q中的索引,j是在原始车号图像中索引为i的特征在原始车号特征图中的索引,M是所有特征的集合,T是矩阵转置符号,
Figure 417583DEST_PATH_IMAGE007
是激活函数。
实施例5
本实施例在实施例4的基础上,对S5步骤作进一步的阐述。所述字符识别和拼接输出均采用基于CNN卷积神经网络实现,CNN卷积神经网络的网络结构图如图10所示。
卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野,并缩减图像的尺寸。CNN是一种层次模型,输入的是原始的像素数据。CNN通过卷积(convolution)、池化(pooling)、非线性激活函数(non-linear activation function)和全连接层(fully connected layer)构成。
LeNet网络结构是非常经典的字符识别模型。两个卷积层,两个池化层,两个全连接层组成。卷积核都是5×5,stride=1,池化层使用最大池化。通过多次卷积和池化,CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不同类别的概率输出,然后计算真实标签与CNN模型的预测结果的差异,并通过反向传播更新每层的参数,并在更新完成后再次前向传播,如此反复直到训练完成。与传统机器学习模型相比,CNN具有一种端到端(End to End)的思路。在CNN训练的过程中是直接从图像像素到最终的输出,并不涉及到具体的特征提取和构建模型的过程,也不需要人工的参与。
CNN卷积网络在本实施例中的作用是识别每个字符区域中的字符,并将字符拼接起来组成车号识别的最终结果。
实施例6
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,执行上述实施例1-5任意一项所述快速轨道车号识别方法中的步骤。
在本实施例中处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选择包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例1-5中任意一项的方法。
实施例7
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1-5任意一项所述的快速轨道车号识别方法中的步骤。
以上对本发明的实施方式进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种等同变型或替换,这些等同或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种快速轨道车号识别方法,其特征在于,包括以下步骤:
采集列车的待识别车号图像,形成待识别车号图像数据集;
利用峰值信噪比算法,在待识别车号图像数据集中寻找车头和/或车尾的图像;
使用深度学习算法模型定位车头和/或车尾图像中的车号区域;
提取定位到的车号区域,并在提取的车号区域上,使用深度学习算法模型定位车号字符区域;
提取定位到的车号字符区域,并在提取的车号字符区域上,使用深度学习算法进行字符识别,再将所有识别结果拼接起来输出,形成当前列车的车号识别结果。
2.如权利要求1所述的快速轨道车号识别方法,其特征在于,所述采集列车的待识别车号图像,形成待识别车号图像数据集步骤中,利用数据采集设备采集列车的待识别车号图像,数据采集设备采集待识别车号图像时,根据现场光照情况进行光照补偿。
3.如权利要求1所述的快速轨道车号识别方法,其特征在于,所述峰值信噪比为:
Figure 619595DEST_PATH_IMAGE001
其中,n为每个像素的比特数,MSE为输入的两张图像之间的像素值均方误差,其具体为:
Figure 192527DEST_PATH_IMAGE002
其中,col为输入图像的宽度,row为输入图像的高度,I为第一张输入图像,K为第二张输入图像,(i, j)为两张图像中对应像素的坐标。
4.如权利要求1所述的快速轨道车号识别方法,其特征在于,所述使用深度学习算法模型定位车头和/或车尾图像中的车号区域步骤中,分别从找到的车头和/或车尾图像开始遍历,对图像进行拼接操作,再使用深度学习算法模型定位拼接图像中的车号区域。
5.如权利要求1所述的快速轨道车号识别方法,其特征在于,定位车号区域和定位车号字符区域的深度学习算法模型均为结合COSFORMER 算法的YOLOv3算法模型。
6.如权利要求5所述的快速轨道车号识别方法,其特征在于,所述结合COSFORMER 算法的YOLOv3算法模型,使用Leaky ReLU结合三角函数距离替换原始YOLOv3算法中的softmax激活函数。
7.如权利要求6所述的快速轨道车号识别方法,其特征在于,YOLOv3算法模型中替换后的激活函数为:
Figure 503423DEST_PATH_IMAGE003
其中,Q是输入的原始车号图像,K是原始车号图像对应的特征图,S是一个可线性分解以测量Q和K之间相似性的函数,i是某一个特征在原始车号图像Q中的索引,j是在原始车号图像中索引为i的特征在原始车号特征图中的索引,M是所有特征的集合,T是矩阵转置符号,
Figure 570736DEST_PATH_IMAGE004
是激活函数。
8.如权利要求1所述的快速轨道车号识别方法,其特征在于,所述字符识别和拼接输出均采用基于CNN卷积神经网络实现。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,执行上述权利要求1-8任意一项所述快速轨道车号识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述权利要求1-8任意一项所述快速轨道车号识别方法中的步骤。
CN202210915197.6A 2022-08-01 2022-08-01 一种快速轨道车号识别方法、设备及存储介质 Pending CN115359487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210915197.6A CN115359487A (zh) 2022-08-01 2022-08-01 一种快速轨道车号识别方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210915197.6A CN115359487A (zh) 2022-08-01 2022-08-01 一种快速轨道车号识别方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115359487A true CN115359487A (zh) 2022-11-18

Family

ID=84031548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210915197.6A Pending CN115359487A (zh) 2022-08-01 2022-08-01 一种快速轨道车号识别方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115359487A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116866501A (zh) * 2023-09-04 2023-10-10 天亿纵横智能科技(天津)有限公司 一种用于动车底部检测的车厢底部大图图像合成系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116866501A (zh) * 2023-09-04 2023-10-10 天亿纵横智能科技(天津)有限公司 一种用于动车底部检测的车厢底部大图图像合成系统
CN116866501B (zh) * 2023-09-04 2023-11-14 天亿纵横智能科技(天津)有限公司 一种用于动车底部检测的车厢底部大图图像合成系统

Similar Documents

Publication Publication Date Title
Pereira et al. A deep learning-based approach for road pothole detection in timor leste
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
Lin et al. An efficient license plate recognition system using convolution neural networks
Xie et al. Detecting trees in street images via deep learning with attention module
CN111104903B (zh) 一种深度感知交通场景多目标检测方法和系统
CN109670405B (zh) 一种基于深度学习的复杂背景行人检测方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN111767927A (zh) 一种基于全卷积网络的轻量级车牌识别方法及系统
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN114049572A (zh) 识别小目标的检测方法
CN115187844A (zh) 基于神经网络模型的图像识别方法、装置及终端设备
CN112861840A (zh) 基于多特征融合卷积网络的复杂场景字符识别方法及系统
Ghilardi et al. Real-time detection of pedestrian traffic lights for visually-impaired people
CN115620090A (zh) 模型训练方法、低照度目标重识别方法和装置、终端设备
Ren et al. Infrared small target detection via region super resolution generative adversarial network
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN115359487A (zh) 一种快速轨道车号识别方法、设备及存储介质
Li et al. Object detection for uav images based on improved yolov6
Wang et al. CDFF: a fast and highly accurate method for recognizing traffic signs
CN116229406B (zh) 车道线检测方法、系统、电子设备及存储介质
Li et al. Incremental learning of infrared vehicle detection method based on SSD
Wang et al. Summary of object detection based on convolutional neural network
CN117132910A (zh) 一种用于无人机的车辆检测方法、装置及存储介质
CN115861861A (zh) 一种基于无人机配电线路巡检的轻量级验收方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination