CN110532937A - 基于识别模型与分类模型进行列车前向目标精准识别的方法 - Google Patents

基于识别模型与分类模型进行列车前向目标精准识别的方法 Download PDF

Info

Publication number
CN110532937A
CN110532937A CN201910789757.6A CN201910789757A CN110532937A CN 110532937 A CN110532937 A CN 110532937A CN 201910789757 A CN201910789757 A CN 201910789757A CN 110532937 A CN110532937 A CN 110532937A
Authority
CN
China
Prior art keywords
image
rsp
frame
train
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910789757.6A
Other languages
English (en)
Other versions
CN110532937B (zh
Inventor
徐国艳
熊绎维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201910789757.6A priority Critical patent/CN110532937B/zh
Publication of CN110532937A publication Critical patent/CN110532937A/zh
Application granted granted Critical
Publication of CN110532937B publication Critical patent/CN110532937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于识别模型与分类模型进行列车前向目标精准识别的方法,包括有:由长、短焦距摄像头采集前向列车视频数据的步骤;对视频数据进行先识别后分类的模型处理步骤;最后将目标图像输出至无人驾驶操控系统。经本发明方法处理后能够对前方列车和其他影响行车安全的障碍物进行有效识别,以提供制动防护控制,或为司机提供可靠的制动预警信息,从而有效避免因设备故障或人为失误造成的追尾、侧冲或闯信号等运行事故。

Description

基于识别模型与分类模型进行列车前向目标精准识别的方法
技术领域
本发明涉及无人驾驶系统的图像识别技术领域,具体地,本发明涉及一种基于视觉的、基于识别模型与分类模型进行列车前向目标精准识别的方法。
背景技术
随着现代化建设快速发展,城市轨道交通技术也越趋成熟。现已发展出基于信号控制的城市轨道交通无人驾驶系统。在系统正常运行的情况下,即便是无人驾驶也可保证列车行驶的稳定安全。但若在信号系统故障等应急场景下,仍旧需要人工介入处理,因此异常场景也是无人驾驶系统列车运行事故的高发点。由于无人驾驶系统在异常场景下的安全性、可靠性、可用性以及无人化水平尚存在很大的提升空间,目前急需一种技术手段增强列车对复杂周边运行环境的自主识别能力,使在信号系统故障时,仍能在照明不良、视距受限的隧道、弯道、坡道等运行环境下,对前方列车和其他影响行车安全的障碍物进行有效识别,以提供制动防护控制,或为司机提供可靠的制动预警信息,从而有效避免因设备故障或人为失误造成的追尾、侧冲或闯信号等运行事故。
为提高无人驾驶系统中列车对环境的自主识别能力,可在列车前方增设摄像头或雷达等设备,以获取列车的前向环境信息,参考图1所示。但由于列车运行场景较为特殊,多数情况下会在隧道或是封闭环境内运行,利用激光雷达或毫米波雷达难以识别列车的前向目标。因此选用视觉作为列车的前向目标识别手段是最为切实可行的方法。
传统的视觉处理手段十分有限,难以完成列车前向目标的精确识别,在实际应用中会大大降低列车运行效率,使得列车防撞预警或控制信息不够安全可靠。
发明内容
本发明提出了一种基于视觉的、采用识别模型与分类模型进行列车前向目标精准识别的方法。本发明方法通过将识别模型与分类模型相融合,可最大程度降低误识别率,实现列车前向目标的精准识别。在列车信息系统失效的情况下,依然能为列车的防撞预警和决策控制提供有效可靠的信息,提高列车行驶安全。
本发明的基于识别模型与分类模型的列车前向目标精准识别的方法,该方法包括有下列步骤:
步骤一:在轨道列车头部上分别安装多个长焦摄像头和短焦摄像头,在列车实际运行时获取其前向环境的视频数据;执行步骤二;
在本发明中,安装在列车头部上的长焦摄像头和短焦摄像头至少为2个以上。采集的视频数据是按照采集的时间先后保存在工控机中的。
步骤二:处理列车前向环境的视频数据,截取视频中含有目标信息的图像,得到框选图像并保存;执行步骤三;
在本发明中,框选图像以行向尺寸、列向尺寸进行框。
步骤三:将框选图像在识别模型RMD中处理,得到识别图像;模型执行步骤四;
步骤四:将识别图像在分类模型CMD中处理,得到目标图像并保存,最后将目标图像输出给无人驾驶操控系统。
本发明基于识别模型与分类模型进行列车前向目标精准识别的方法的优点在于:
①本发明方法与传统方法相比,传统的视觉处理手段十分有限,难以完成列车前向目标的精确识别。为将此类方法应用在实际运行场景中,必须提高其识别的准确度和稳定性。因此需要利用深度学习中的卷积神经网络,以完成该识别任务。但即使是当前精度最高的卷积神经网络目标识别算法,也存在大量误识别情况,这样提供的列车防撞预警或控制信息不够安全可靠,在实际应用中会大大降低列车运行效率。
②本发明采用列车前方视觉的目标精准识别,利用计算机视觉,基于卷积神经网路可以精准识别出列车的前向目标。在信号系统失效时,可为列车防撞预警和决策控制提供有效可靠的信息。
③本发明方法,在原有的深度学习目标识别算法的基础上融合了多分类网络。这样可以有效去除误识别情况,大大提高了前向目标的识别准确度,使之提供的感知信息更加稳定可靠。
④本发明方法,其识别网络采用多特征图的方框预测,因此可识别多尺度的目标,有效增加了目标识别的适用范围,提高了识别精度。
⑤本发明方法,其分类网络采用轻量化处理,有效减少了计算参数和计算负荷,便于移植进移动硬件设备。为将卷积神经网络应用在实际场景提供可能。
⑥本发明方法,采集并处理了一套完整的列车行驶前向目标数据集,可为城市轨道交通的其他工作提供样本支持。
附图说明
图1为列车图像采集结构框图。
图2为本发明的一种基于识别模型与分类模型进行列车前向目标精准识别的方法流程示意图。
图3为视频图像的第一种框选示意图。
图4为视频图像的第二种框选示意图。
图5为视频图像的第三种框选示意图。
图6为视频图像的第四种框选示意图。
1.列车头 2.长焦距摄像头 3.短焦距摄像头
具体实施方式
下面将结合附图对本发明做进一步的详细说明。
参见图1、图3~图6所示的列车图像采集系统中,列车运行时,长焦距摄像头2和短焦距摄像头3同时实时采集列车前向的视频数据,然后将采集到的所述视频数据传输至工控机,经工控机处理后传输至无人驾驶操控系统,经无人驾驶操控系统输出制动预警信息。
参见图2所示,是在列车的工控机中完成了本发明的基于识别模型与分类模型的列车前向目标精准识别的方法,该方法包括有下列步骤:
步骤一:在轨道列车头部上分别安装多个长焦摄像头和短焦摄像头,在列车实际运行时获取其前向环境的视频数据;执行步骤二;
在本发明中,安装在列车头部上的长焦摄像头和短焦摄像头至少为2个以上。采集的视频数据是按照采集的时间先后保存在工控机中的。
步骤二:处理列车前向环境的视频数据,截取视频中含有目标信息的图像,得到框选图像并保存;执行步骤三;
在本发明中,框选图像以行向尺寸、列向尺寸进行框。
步骤三:将框选图像在识别模型RMD中处理,得到识别图像;模型执行步骤四;
步骤四:将识别图像在分类模型CMD中处理,得到目标图像并保存,最后将目标图像输出给无人驾驶操控系统。
识别模型RMD的处理
在本发明中的步骤三中,识别模型RMD是基于卷积神经网络方法的,因此,采用卷积神经网络方法的识别模型的步骤有:
识别模型的步骤A:获取轨道列车前向视频图像;
长焦距摄像头2的识别距离远,短焦距摄像头3的识别范围宽,两者结合可获取更丰富的列车前向图像信息(图3~图6)。因此在轨道列车上分别安装多个长焦距摄像头和短焦距摄像头,在列车实际运行时获取视频数据,并将视频数据文件保存到与摄像头相连的工控机上成为视频图像。
在本发明中,对轨道列车的工控机上保存的所有视频图像进行编号,记为视频图像集SP={sp1,sp2,…,spa,…,spA};其中:
sp1表示第一幅视频图像;
sp2表示第二幅视频图像;
spa表示第a幅视频图像;
spA表示最后一幅视频图像,a为视频图像的标识号,A为视频图像的总数,a∈A。为了方便说明,spa也称为任意一幅视频图像。
在本发明中,每一个保存在工控机上的视频图像的尺寸,记为p×q像素,简称为原图尺寸,p为行向尺寸,q为列向尺寸。如480×360像素
识别模型的步骤B:截取视频图像中存在目标信息的帧数;
在本发明中,针对视频图像中的识别目标分为五类,具体包括有列车(train)、红灯(red light)、绿灯(green light)、行人(people)和背景(backdrop)。为了方便说明,将识别目标采用集合形式表示为DT={train,red_light,green_light,people,backdrop}。对于背景(backdrop)在进行框选时背景不选取,是将以选取的列车(train)、红灯(redlight)、绿灯(green light)、行人(people)以外,其余都保存在背景中。
首先采用图像标注软件将视频图像集SP={sp1,sp2,…,spa,…,spA}中含有识别目标DT={train,red_light,green_light,people,backdrop}的帧数进行框选截取,得到框选图像集然后对所述进行文件为xml格式的保存,得到框选文件信息FP={fp1,fp2,…,fpa,…,fpA}。
在本发明中,所述框选图像集中:
表示含有识别目标DT的第一框选图像,且表示属于第一幅视频图像sp1中的列车框选,表示属于第一幅视频图像sp1中的红灯框选,表示属于第一幅视频图像sp1中的绿灯框选,表示属于第一幅视频图像sp1中的行人框选。
表示含有识别目标DT的第二框选图像,且表示属于第二幅视频图像sp2中的列车框选,表示属于第二幅视频图像sp2中的红灯框选,表示属于第二幅视频图像sp2中的绿灯框选,表示属于第二幅视频图像sp2中的行人框选。
表示含有识别目标DT的第a框选图像;,且表示属于第a幅视频图像spa中的列车框选,表示属于第a幅视频图像spa中的红灯框选,表示属于第a幅视频图像spa中的绿灯框选,表示属于第a幅视频图像spa中的行人框选。
表示含有识别目标DT的最后一框选图像,且表示属于最后一幅视频图像spA中的列车框选,表示属于最后一幅视频图像spA中的红灯框选,表示属于最后一幅视频图像spA中的绿灯框选,表示属于最后一幅视频图像spA中的行人框选。
在本发明中,所述框选文件信息FP={fp1,fp2,…,fpa,…,fpA}中:
fp1表示第一幅框选图像的文件信息;
fp2表示在第二幅框选图像的文件信息;
fpa表示在第A幅框选图像的文件信息;
fpA表示在最后一幅框选图像的文件信息。
在本发明中,图像标注软件可以是labelImg软件。
识别模型的步骤C:采用卷积神经网络方法对框选图像进行处理,得到识别图像;
将框选图像集和框选文件信息FP={fp1,fp2,…,fpa,…,fpA}生成为mdb格式文件,将该文件作为输入层输入至卷积神经网络中进行训练。所述的卷积神经网络为VGG16架构,并将其初始特征层修改为w×l×h中,w表示矩阵行数,l表示矩阵列数,h表示矩阵深度。如w×l×h=300×300×3的矩阵。上述的所述的卷积神经网络在VGG16架构的基础上,利用SSD(Single Shot MultiBox Detector)算法进行方框预测,并将全连接层输出定义为5,以对应上述所需的五个类别。对上述的卷积神经网络进行多次前、反向传播进行参数更新,完成识别模型RMD的图像识别。
在本发明中,运用的“VGG16架构”是包含13个卷积层,3个全连接层以及5个池化层。运用“SSD算法”能够将所提取出的特征层拆分为大小相同的n×m个网格,n表示行向网络数,m表示列向网络数,每个网格设定多个默认方框,并对每一个默认方框预测其位置偏移和类别置信度。选择与实际方框交并比最高的默认方框作为预测方框,并根据给出预测方框与实际方框类别和位置信息差值,计算出损失函数。运用“卷积神经网络(convolutional neural network,CNN)”是将前后帖的框选图像作为输入向量,并将其通过隐藏层转换,而每个隐层由一组图像分类信息的神经元组成,其中每个神经元和前一层神经元完全连接,在单层的神经元的功能完全独立并且不共享任何连接。
分类模型CMD的处理
在本发明的步骤四中,分类模型CMD的处理步骤有:
分类模型的步骤Ⅰ:感兴趣区域获取;
将识别模型RMD输出的识别图像和视频图像集SP={sp1,sp2,…,spa,…,spA}中的图像都在工控机中的图像处理软件进行对比。
采用预测方框大小x×y对输入的存在有识别目标DT的图像SP进行尺寸判断,得到感兴趣区域RSP={rsp1,rsp2,…,rspa,…,rspA}。
在本发明中,由于预测方框大小x×y常有超过输入的所述SP={sp1,sp2,…,spa,…,spA}的图像尺寸的现象,若所述SP={sp1,sp2,…,spa,…,spA}中存在有识别目标DT的情况,需要对预测方框大小x×y与原图尺寸p×q进行判断;
x为预测方框的行向尺寸。
y为预测方框的列向尺寸。
p为视频图像的行向尺寸。
q为视频图像的列向尺寸。
若x×y≤p×q,则保留预测方框内图像为感兴趣区域;即预测方框大小x×y是在输入图像的原图尺寸p×q之内。
若x×y>p×q,则进行尺寸调整后得到感兴趣区域;所述尺寸调整是指若x超尺寸且y不超尺寸,则将x更新为0或480,y不变;若x不超尺寸且y超尺寸,则x不变,将y更新为0或360;若x与y超尺寸,则将x更新为0或480,将y更新为0或360。
例如,预测方框大小x×y小于等于sp1图像的原图尺寸p×q(即x×y≤p×q),则将保留预测方框内图像rsp1;所述预测方框内图像rsp1的长记为l_rsp1、宽记为w_rsp1
例如,预测方框大小x×y中的x大于sp2图像的原图尺寸p×q中的p(即x×y>p×q),则调整x=p,然后保留预测方框内图像rsp2;所述预测方框内图像rsp2的长记为l_rsp2、宽记为w_rsp2
例如,预测方框大小x×y小于等于sp2图像的原图尺寸p×q(即x×y≤p×q),则将保留预测方框内图像rsp2;所述预测方框内图像rsp2的长记为l_rsp2、宽记为w_rsp2
例如,预测方框大小x×y小于等于spa图像的原图尺寸p×q(即x×y≤p×q),则将保留预测方框内图像rspa;所述预测方框内图像rspa的长记为l_rspa、宽记为w_rspa
例如,预测方框大小x×y小于等于spA图像的原图尺寸p×q(即x×y≤p×q),则将保留预测方框内图像rspA;所述预测方框内图像rspA的长记为l_rspA、宽记为w_rspA
在本发明中,输出预测方框的左上(记为tl)和右下(记为br)角坐标,若其x坐标在0~480之间,则保持不变,若超出范围,则更新为0或480;若其y坐标在0~360之间,则保持不变,若超出范围,则更新为0或360。判别方法的程序为:
tl.x=max(tl.x,0);
tl.x=min(tl.x,480);
tl.y=max(tl.y,0);
tl.y=min(tl.y,360);
br.x=min(br.x,480);
br.x=max(br.x,0);
br.y=min(br.y,360);
br.y=max(br.y,0)。
分类模型的步骤Ⅱ:重复样本的相似度处理;
由于在列车实际运行时,经常出现感兴趣区域内的图像前后帧极其相似情况。如列车停车时,可能会在数百帧内识别同一个目标,这几百张相似的图像作为后续的分类样本数据集,代表性并不强。因此为减少分类样本重复度,需要作相似度判断。
步骤a,对感兴趣区域RSP={rsp1,rsp2,…,rspa,…,rspA}中连续的两幅图像进行长或宽尺寸的差值比较,若长大于6或宽大于6,保留后一张预测方框内图像;若长小于等于6或宽小于等于6,则执行步骤b;
在本发明中,预测方框内图像rsp1与预测方框内图像rsp2的长或宽尺寸比较,若|l_rsp1-l_rsp2|≤6或|w_rsp1-w_rsp2|≤6,则认为rsp1与rsp2的尺寸相近的连续图像,执行步骤b;
若|l_rsp1-l_rsp2|>6或|w_rsp1-w_rsp2|>6,则保留rsp2。即认为前后帧图像并不相似且具有代表性,输出感兴趣区域内图像并保存。
在本发明中,预测方框内图像rspa-1与预测方框内图像rspa的长或宽尺寸比较,若|l_rspa-1-l_rspa|≤6或|w_rspa-1-w_rspa|≤6,则认为rspa-1与rspa的尺寸相近的连续图像,执行步骤b;
若|l_rspa-1-l_rspa|>6或|w_rspa-1-w_rspa|>6,则保留rspa。rspa-1为位于rspa之前的预测方框内图像。即认为前后帧图像并不相似且具有代表性,输出感兴趣区域内图像并保存。
在本发明中,预测方框内图像rspa与预测方框内图像rspa+1的长或宽尺寸比较,若|l_rspa-l_rspa+1|≤6或|w_rspa-w_rspa+1|≤6,则认为rspa与rspa+1的尺寸相近的连续图像,执行步骤b;
若|l_rspa-l_rspa+1|>6或|w_rspa-w_rspa+1|>6,则保留rspa+1。rspa+1为位于rspa之后的预测方框内图像。即认为前后帧图像并不相似且具有代表性,输出感兴趣区域内图像并保存。
步骤b,将感兴趣区域RSP={rsp1,rsp2,…,rspa,…,rspA}中的图像尺寸统一调整为50×50,得到RRSP={rrsp1,rrsp2,…,rrspa,…,rrspA}并将原有的RGB颜色模型转换为HSV颜色模型;分别计算连续的前后两帧图像的直方图Ha,Ha+1,并将其归一化到相同的尺度空间,利用巴氏距离法比较两者直方图的相似度,比较感兴趣区域函数d(Ha,Ha+1)如下:
其中,N为直方图中bin的个数,I为bin的排序数。
上式中,若前后帧图像完全不相似,则d(Ha,Ha+1)值为1,若完全相似则为0。本专利设置相似度的阈值为0.25。即若d(Ha,Ha+1)>0.25,则认为前后帧图像并不相似。输出感兴趣区域内图像并保存到本地,以作为后续的分类模型数据集Op={Op1,Op2,…,Opn,…,OpN}。否则不保存图像。
例如,可获取的第一帧感兴趣区域图像为rsp1,第二帧感兴趣区域图像为rsp2。将rsp1和rsp2的尺寸统一调整为50×50,分别得到rrsp1和rrsp2。分别计算rrsp1和rrsp2的直方图为H1和H2。利用上述公式计算出d(H1,H2)大小,若d(H1,H2)>0.25,则认为rsp1和rsp2并不相似,即rsp2具有较强代表性,输出并保存rsp2到本地,作为后续的分类模型数据集,若d(H1,H2)<=0.25。则认为rsp1和rsp2相似,不保存rsp2
例如,可获取的第二帧感兴趣区域图像为rsp2,第三帧感兴趣区域图像为rsp3。将rsp2和rsp3的尺寸统一调整为50×50,分别得到rrsp2和rrsp3。分别计算rrsp2和rrsp3的直方图为H2和H3。利用上述公式计算出d(H2,H3)大小,若d(H2,H3)>0.25,则认为rsp2和rsp3并不相似,即rsp3具有较强代表性,输出并保存rsp3到本地,作为后续的分类模型数据集,若d(H2,H3)<=0.25。则认为rsp2和rsp3相似,不保存rsp3
例如,可获取的第a帧感兴趣区域图像为rspa,第a+1帧感兴趣区域图像为rspa+1。将rspa和rspa+1的尺寸统一调整为50×50,分别得到rrspa和rrspa+1。分别计算rrspa和rrspa+1的直方图为Ha和Ha+1。利用上述公式计算出d(Ha,Ha+1)大小,若d(Ha,Ha+1)>0.25,则认为rspa和rspa+1并不相似,即rspa+1具有较强代表性,输出并保存rspa+1到本地,作为后续的分类模型数据集,若d(Ha,Ha+1)<=0.25。则认为rspa和rspa+1相似,不保存rspa+1
分类模型的步骤Ⅲ:图像分类处理;
将步骤b中的输出图像数据集Op={Op1,Op2,…,Opn,…,OpN}整理为5个label类别:背景、列车、红灯、绿灯和行人。将Op={Op1,Op2,…,Opn,…,OpN}数据集以及其中每张图片对应的label作为输入层输入到分类网络中进行训练。并将该分类网络的全连接层输出为5,以对应上述五类图像。通过最后的softmax层,分别输出数据集中图片。
在本发明中,softmax层的输出对应的各类label的置信度,取置信度最高的一类为该图片的预测类别。通过将预测类别和实际类别比对来计算损失。多次梯度下降之后可完成图像信息的分类。
在本发明中,“分类网络”是将各个卷积层分为多个组,并利用1×1卷积核分别对各组进行卷积操作,这样可以减少网络整体计算量。在完成上述卷积操作完成后,该网络将各组特征信息打乱,并重新分组构成新的特征层。这样可以增加各组之间的信息交流,以提高识别精确度。
本发明是一种基于识别模型与分类模型进行列车前向目标精准识别的方法,所要解决的是如何提高列车对前向环境的自主识别能力的技术问题,该方法通过利用深度学习中的卷积神经网络,以完成该识别任务;然后利用分类模型将感兴趣区域图像分类为背景、列车、红灯、绿灯或是行人。若分类为背景,则识别结果不输出;若分类为其他类别,则正常输出识别结果。这样可以有效减少将背景误识别为其他目标的现象,以提高识别准确率。在列车信息系统失效的情况下,依然能为列车的防撞预警和决策控制提供有效可靠的信息,提高列车行驶安全。

Claims (5)

1.一种基于识别模型与分类模型进行列车前向目标精准识别的方法,其特征在于是在列车工控机中完成的,具体步骤有:
步骤一:在轨道列车头部上分别安装多个长焦摄像头和短焦摄像头,在列车实际运行时获取其前向环境的视频数据;执行步骤二;
安装在列车头部上的长焦摄像头和短焦摄像头至少为2个以上;
采集的视频数据是按照采集的时间先后保存在工控机中的;
步骤二:处理列车前向环境的视频数据,截取视频中含有目标信息的图像,得到框选图像并保存;执行步骤三;
框选图像以行向尺寸、列向尺寸进行框;
步骤三:将框选图像在识别模型RMD中处理,得到识别图像;模型执行步骤四;
识别模型的步骤A:获取轨道列车前向视频图像;
对轨道列车的工控机上保存的所有视频图像进行编号,记为视频图像集SP={sp1,sp2,…,spa,…,spA};其中:
sp1表示第一幅视频图像;
sp2表示第二幅视频图像;
spa表示第a幅视频图像;a为视频图像的标识号;
spA表示最后一幅视频图像,A为视频图像的总数,a∈A;
每一个保存在工控机上的视频图像的原图尺寸,记为p×q像素;
识别模型的步骤B:截取视频图像中存在目标信息的帧数;
首先采用图像标注软件将视频图像集SP={sp1,sp2,…,spa,…,spA}中含有识别目标DT={train,red_light,green_light,people,backdrop}的帧数进行框选截取,得到框选图像集然后对所述进行文件为xml格式的保存,得到框选文件信息FP={fp1,fp2,…,fpa,…,fpA};
所述DT={train,red_light,green_light,people,backdrop}中train为列车,red_light为红灯,green_light为绿灯,people为人,backdrop为背景;
所述框选图像集中:
表示含有识别目标DT的第一框选图像,且 表示属于第一幅视频图像sp1中的列车框选,表示属于第一幅视频图像sp1中的红灯框选,表示属于第一幅视频图像sp1中的绿灯框选,表示属于第一幅视频图像sp1中的行人框选;
表示含有识别目标DT的第二框选图像,且 表示属于第二幅视频图像sp2中的列车框选,表示属于第二幅视频图像sp2中的红灯框选,表示属于第二幅视频图像sp2中的绿灯框选,表示属于第二幅视频图像sp2中的行人框选;
表示含有识别目标DT的第a框选图像;,且 表示属于第a幅视频图像spa中的列车框选,表示属于第a幅视频图像spa中的红灯框选,表示属于第a幅视频图像spa中的绿灯框选,表示属于第a幅视频图像spa中的行人框选;
表示含有识别目标DT的最后一框选图像,且 表示属于最后一幅视频图像spA中的列车框选,表示属于最后一幅视频图像spA中的红灯框选,表示属于最后一幅视频图像spA中的绿灯框选,表示属于最后一幅视频图像spA中的行人框选;
所述框选文件信息FP={fp1,fp2,…,fpa,…,fpA}中:
fp1表示第一幅框选图像的文件信息;
fp2表示在第二幅框选图像的文件信息;
fpa表示在第A幅框选图像的文件信息;
fpA表示在最后一幅框选图像的文件信息;
识别模型的步骤C:采用卷积神经网络方法对框选图像进行处理,得到识别图像;
将框选图像集和框选文件信息FP={fp1,fp2,…,fpa,…,fpA}生成为mdb格式文件,将该文件作为输入层输入至卷积神经网络中进行训练;所述的卷积神经网络为VGG16架构,并将其初始特征层修改为w×l×h中,w表示矩阵行数,l表示矩阵列数,h表示矩阵深度;如w×l×h=300×300×3的矩阵;上述的所述的卷积神经网络在VGG16架构的基础上,利用SSD(Single Shot MultiBox Detector)算法进行方框预测,并将全连接层输出定义为5,以对应上述所需的五个类别;对上述的卷积神经网络进行多次前、反向传播进行参数更新,完成识别模型RMD的图像识别;
步骤四:将识别图像在分类模型CMD中处理,得到目标图像并保存,最后将目标图像输出给无人驾驶操控系统;
分类模型的步骤Ⅰ:感兴趣区域获取;
将识别模型RMD输出的识别图像和视频图像集SP={sp1,sp2,…,spa,…,spA}中的图像都在工控机中的图像处理软件进行对比;
采用预测方框大小x×y对输入的存在有识别目标DT的图像SP进行尺寸判断,得到感兴趣区域RSP={rsp1,rsp2,…,rspa,…,rspA};
由于预测方框大小x×y常有超过输入的所述SP={sp1,sp2,…,spa,…,spA}的图像尺寸的现象,若所述SP={sp1,sp2,…,spa,…,spA}中存在有识别目标DT的情况,需要对预测方框大小x×y与原图尺寸p×q进行判断;
x为预测方框的行向尺寸;
y为预测方框的列向尺寸;
p为视频图像的行向尺寸;
q为视频图像的列向尺寸;
若x×y≤p×q,则保留预测方框内图像为感兴趣区域;即预测方框大小x×y是在输入图像的原图尺寸p×q之内;
若x×y>p×q,则进行尺寸调整后得到感兴趣区域;所述尺寸调整是指若x超尺寸且y不超尺寸,则将x更新为0或480,y不变;若x不超尺寸且y超尺寸,则x不变,将y更新为0或360;若x与y超尺寸,则将x更新为0或480,将y更新为0或360;
分类模型的步骤Ⅱ:
步骤a,对感兴趣区域RSP={rsp1,rsp2,…,rspa,…,rspA}中连续的两幅图像进行长或宽尺寸的差值比较,若长大于6或宽大于6,保留后一张预测方框内图像;若长小于等于6或宽小于等于6,则执行步骤b;
预测方框内图像rspa-1与预测方框内图像rspa的长或宽尺寸比较,若|l_rspa-1-l_rspa|≤6或|w_rspa-1-w_rspa|≤6,则认为rspa-1与rspa的尺寸相近的连续图像,执行步骤b;
若|l_rspa-1-l_rspa|>6或|w_rspa-1-w_rspa|>6,则保留rspa;即认为前后帧图像并不相似且具有代表性,输出感兴趣区域内图像并保存;rspa-1为位于rspa之前的预测方框内图像;
步骤b,将感兴趣区域RSP={rsp1,rsp2,…,rspa,…,rspA}中的图像尺寸统一调整为50×50,得到RRSP={rrsp1,rrsp2,…,rrspa,…,rrspA}并将原有的RGB颜色模型转换为HSV颜色模型;分别计算连续的前后两帧图像的直方图Ha,Ha+1,并将其归一化到相同的尺度空间,利用巴氏距离法比较两者直方图的相似度,比较感兴趣区域函数d(Ha,Ha+1)如下:
其中,Ha为前帧图像的直方图,Ha+1为后帧图像的直方图,N为直方图中bin的个数,I为bin的排序数;
上式中,若前后帧图像完全不相似,则d(Ha,Ha+1)值为1,若完全相似则为0;设置相似度的阈值为0.25;即若d(Ha,Ha+1)>0.25,则认为前后帧图像并不相似;输出感兴趣区域内图像并保存到本地,以作为后续的分类模型数据集Op={Op1,Op2,…,Opn,…,OpN};否则不保存图像;
可获取的第a帧感兴趣区域图像为rspa,第a+1帧感兴趣区域图像为rspa+1;将rspa和rspa+1的尺寸统一调整为50×50,分别得到rrspa和rrspa+1;分别计算rrspa和rrspa+1的直方图为Ha和Ha+1;利用上述公式计算出d(Ha,Ha+1)大小,若d(Ha,Ha+1)>0.25,则认为rspa和rspa+1并不相似,即rspa+1具有较强代表性,输出并保存rspa+1到本地,作为后续的分类模型数据集,若d(Ha,Ha+1)<=0.25;则认为rspa和rspa+1相似,不保存rspa+1
分类模型的步骤Ⅲ:
将步骤b中的输出图像数据集Op={Op1,Op2,…,Opn,…,OpN}整理为5个label类别:背景、列车、红灯、绿灯和行人;将Op={Op1,Op2,…,Opn,…,OpN}数据集以及其中每张图片对应的label作为输入层输入到分类网络中;并将该分类网络的全连接层输出为5,以对应上述五类图像;通过最后的softmax层,分别输出分类图像。
2.根据权利要求1所述的基于识别模型与分类模型进行列车前向目标精准识别的方法,其特征在于:在步骤一中,长焦距摄像头(2)的识别距离远,短焦距摄像头(3)的识别范围宽,两者采集的是在列车实际运行时的视频数据,并将视频数据文件保存到与摄像头相连的工控机上成为视频图像。
3.根据权利要求1所述的基于识别模型与分类模型进行列车前向目标精准识别的方法,其特征在于:图像标注软件可以是labelImg软件。
4.根据权利要求1所述的基于识别模型与分类模型进行列车前向目标精准识别的方法,其特征在于:运用的“VGG16架构”是包含13个卷积层,3个全连接层以及5个池化层;运用“SSD算法”能够将所提取出的特征层拆分为大小相同的n×m个网格,n表示行向网络数,m表示列向网络数,每个网格设定多个默认方框,并对每一个默认方框预测其位置偏移和类别置信度;选择与实际方框交并比最高的默认方框作为预测方框,并根据给出预测方框与实际方框类别和位置信息差值,计算出损失函数;运用“卷积神经网络(convolutionalneural network,CNN)”是将前后帖的框选图像作为输入向量,并将其通过隐藏层转换,而每个隐层由一组图像分类信息的神经元组成,其中每个神经元和前一层神经元完全连接,在单层的神经元的功能完全独立并且不共享任何连接。
5.根据权利要求1所述的基于识别模型与分类模型进行列车前向目标精准识别的方法,其特征在于:输出预测方框的左上记为tl和右下记为br角坐标,若其x坐标在0~480之间,则保持不变,若超出范围,则更新为0或480;若其y坐标在0~360之间,则保持不变,若超出范围,则更新为0或360;判别方法的程序为:
tl.x=max(tl.x,0);
tl.x=min(tl.x,480);
tl.y=max(tl.y,0);
tl.y=min(tl.y,360);
br.x=min(br.x,480);
br.x=max(br.x,0);
br.y=min(br.y,360);
br.y=max(br.y,0)。
CN201910789757.6A 2019-08-26 2019-08-26 基于识别模型与分类模型进行列车前向目标精准识别的方法 Active CN110532937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910789757.6A CN110532937B (zh) 2019-08-26 2019-08-26 基于识别模型与分类模型进行列车前向目标精准识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910789757.6A CN110532937B (zh) 2019-08-26 2019-08-26 基于识别模型与分类模型进行列车前向目标精准识别的方法

Publications (2)

Publication Number Publication Date
CN110532937A true CN110532937A (zh) 2019-12-03
CN110532937B CN110532937B (zh) 2022-03-08

Family

ID=68662861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910789757.6A Active CN110532937B (zh) 2019-08-26 2019-08-26 基于识别模型与分类模型进行列车前向目标精准识别的方法

Country Status (1)

Country Link
CN (1) CN110532937B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832410A (zh) * 2020-06-09 2020-10-27 北京航空航天大学 一种基于视觉与激光雷达融合的前向列车检测方法
CN112257568A (zh) * 2020-10-21 2021-01-22 中国人民解放军国防科技大学 一种单兵队列动作智能实时监督纠错系统及方法
CN112364793A (zh) * 2020-11-17 2021-02-12 重庆邮电大学 基于长短焦多相机车辆环境下的目标检测和融合方法
CN112633176A (zh) * 2020-12-24 2021-04-09 广西大学 一种基于深度学习的轨道交通障碍物检测方法
CN113281660A (zh) * 2021-05-21 2021-08-20 张家港清研检测技术有限公司 一种检测退役动力电池包中不合格电芯的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880864A (zh) * 2012-04-28 2013-01-16 王浩 一种从流媒体文件中抓拍人脸的方法
CN107657237A (zh) * 2017-09-28 2018-02-02 东南大学 基于深度学习的汽车碰撞检测方法及系统
CN108960079A (zh) * 2018-06-14 2018-12-07 多伦科技股份有限公司 一种图像识别方法及装置
US20180373943A1 (en) * 2017-06-23 2018-12-27 Panasonic Intellectual Property Corporation Of America Computer implemented detecting method, computer implemented learning method, detecting apparatus, learning apparatus, detecting system, and recording medium
CN109685066A (zh) * 2018-12-24 2019-04-26 中国矿业大学(北京) 一种基于深度卷积神经网络的矿井目标检测与识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880864A (zh) * 2012-04-28 2013-01-16 王浩 一种从流媒体文件中抓拍人脸的方法
US20180373943A1 (en) * 2017-06-23 2018-12-27 Panasonic Intellectual Property Corporation Of America Computer implemented detecting method, computer implemented learning method, detecting apparatus, learning apparatus, detecting system, and recording medium
CN107657237A (zh) * 2017-09-28 2018-02-02 东南大学 基于深度学习的汽车碰撞检测方法及系统
CN108960079A (zh) * 2018-06-14 2018-12-07 多伦科技股份有限公司 一种图像识别方法及装置
CN109685066A (zh) * 2018-12-24 2019-04-26 中国矿业大学(北京) 一种基于深度卷积神经网络的矿井目标检测与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭继舜: "面向自动驾驶的语义分割和目标检测技术", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832410A (zh) * 2020-06-09 2020-10-27 北京航空航天大学 一种基于视觉与激光雷达融合的前向列车检测方法
CN111832410B (zh) * 2020-06-09 2022-09-20 北京航空航天大学 一种基于视觉与激光雷达融合的前向列车检测方法
CN112257568A (zh) * 2020-10-21 2021-01-22 中国人民解放军国防科技大学 一种单兵队列动作智能实时监督纠错系统及方法
CN112257568B (zh) * 2020-10-21 2022-09-20 中国人民解放军国防科技大学 一种单兵队列动作智能实时监督纠错系统及方法
CN112364793A (zh) * 2020-11-17 2021-02-12 重庆邮电大学 基于长短焦多相机车辆环境下的目标检测和融合方法
CN112633176A (zh) * 2020-12-24 2021-04-09 广西大学 一种基于深度学习的轨道交通障碍物检测方法
CN112633176B (zh) * 2020-12-24 2023-03-14 广西大学 一种基于深度学习的轨道交通障碍物检测方法
CN113281660A (zh) * 2021-05-21 2021-08-20 张家港清研检测技术有限公司 一种检测退役动力电池包中不合格电芯的方法

Also Published As

Publication number Publication date
CN110532937B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110532937A (zh) 基于识别模型与分类模型进行列车前向目标精准识别的方法
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
CN113449680B (zh) 一种基于知识蒸馏的多模小目标检测方法
CN112101221B (zh) 一种用于交通信号灯实时检测与识别的方法
CN112561966B (zh) 一种融合时空信息的稀疏点云多目标跟踪方法
Yao et al. Inspection of exterior substance on high-speed train bottom based on improved deep learning method
Wang et al. YOLOv3-MT: A YOLOv3 using multi-target tracking for vehicle visual detection
Han et al. Yolopv2: Better, faster, stronger for panoptic driving perception
CN111461221B (zh) 一种面向自动驾驶的多源传感器融合目标检测方法和系统
Guan et al. A lightweight framework for obstacle detection in the railway image based on fast region proposal and improved YOLO-tiny network
CN115861383B (zh) 一种拥挤空间下多信息融合的行人轨迹预测装置及方法
CN111414807A (zh) 一种基于yolo技术的潮水识别与危机预警方法
CN112131929A (zh) 一种基于区块链的跨摄像机行人跟踪系统及方法
CN114241053A (zh) 基于改进的注意力机制FairMOT多类别跟踪方法
CN114387265A (zh) 一种基于添加注意力模块的无锚框检测、跟踪统一方法
Dewangan et al. Towards the design of vision-based intelligent vehicle system: methodologies and challenges
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
CN114863228A (zh) 一种基于机器视觉的机场特种车辆避障方法
Liu et al. Multi-scale personnel deep feature detection algorithm based on Extended-YOLOv3
CN117437382B (zh) 一种数据中心部件的更新方法及系统
Mitzel et al. Real-Time Multi-Person Tracking with Time-Constrained Detection.
Xie et al. Automatic parking space detection system based on improved YOLO algorithm
CN116977935A (zh) 一种融合语义信息行人流量计数方法
Yao et al. Substation object detection based on enhance RCNN model
Zheng et al. A method of detect traffic police in complex scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant