CN113724293A - 一种基于视觉的智能网联公交场景下目标跟踪方法及系统 - Google Patents

一种基于视觉的智能网联公交场景下目标跟踪方法及系统 Download PDF

Info

Publication number
CN113724293A
CN113724293A CN202110966187.0A CN202110966187A CN113724293A CN 113724293 A CN113724293 A CN 113724293A CN 202110966187 A CN202110966187 A CN 202110966187A CN 113724293 A CN113724293 A CN 113724293A
Authority
CN
China
Prior art keywords
detection
target tracking
target
frames
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110966187.0A
Other languages
English (en)
Inventor
张泽晨
张培志
张飞
颜英
王晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Intelligent New Energy Vehicle Technology Innovation Platform Co ltd
Shanghai Seari Intelligent System Co Ltd
Original Assignee
Shanghai Intelligent New Energy Vehicle Technology Innovation Platform Co ltd
Shanghai Seari Intelligent System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Intelligent New Energy Vehicle Technology Innovation Platform Co ltd, Shanghai Seari Intelligent System Co Ltd filed Critical Shanghai Intelligent New Energy Vehicle Technology Innovation Platform Co ltd
Priority to CN202110966187.0A priority Critical patent/CN113724293A/zh
Publication of CN113724293A publication Critical patent/CN113724293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于视觉的智能网联公交场景下目标跟踪方法及系统,其中目标跟踪方法包括:步骤1:获取智能网联公交场景下训练图像集合;步骤2:分别构建基于CenterNet的目标检测模型和基于DeepSORT的目标追踪模型;步骤3:使用训练图像集合对目标检测模型和目标追踪模型进行端到端训练;步骤4:获取智能网联公交场景下的实时图像,实现目标跟踪。与现有技术相比,本发明具有精度高、速度快等优点。

Description

一种基于视觉的智能网联公交场景下目标跟踪方法及系统
技术领域
本发明涉及目标追踪技术领域,尤其是涉及一种基于视觉的智能网联公交场景下目标跟踪方法及系统。
背景技术
随着5G、人工智能、应用物联网等前沿技术的快速发展,基于车路云协同的智能网联公交可以为相关城市廊道的发展规划提供可靠、高效、便捷的公共交通智能出行方案。其中,可利用基于5G的车路协同超视距全息感知与边缘云计算技术来保障车辆运行的安全可靠性,而超视距的全息感知则必须依赖于对于道路交通参与者准确的目标跟踪。
多目标跟踪(MOT)是计算机视觉领域的重要任务,在智能监控系统、无人驾驶、人机交互,智慧交通等领域有着广泛的应用。是利用一个视频或图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标的运动状态进行预测并标定目标位置的一种技术。多目标跟踪顾名思义就是跟踪视频画面中的多个目标,得到这些目标中的运动轨迹,其核心在于目标检测和数据关联,即在每一帧进行目标检测,再利用目标检测的结果来进行目标跟踪,后面一步一般称之为数据关联,数据关联更多依赖于手工特征提取(外观特征、运动特征、形状特征等)。
公共交通的载客率大,资源利用率高,是城市交通系统中的重要组成部分,智能网联公交作为现阶段网联公交发展的最理想方向,在其运行过程中需要对车辆所在道路上的各类目标进行追踪,避免其与网联公交相碰撞,对追踪方法的精度和速度要求较高,现有技术中还未有一种针对智能网联公交的目标追踪方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、速度快的基于视觉的智能网联公交场景下目标跟踪方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种基于视觉的智能网联公交场景下目标跟踪方法,所述的智能网联公交车场景下目标跟踪方法包括:
步骤1:获取智能网联公交场景下训练图像集合;
步骤2:分别构建基于CenterNet的目标检测模型和基于DeepSORT的目标追踪模型;
步骤3:使用训练图像集合对目标检测模型和目标追踪模型进行端到端训练;
步骤4:获取智能网联公交场景下的实时图像,实现目标跟踪。
优选地,所述的目标检测模型包括:
主干特征提取网络,采用ResNet-34为主干网络,并使用深层聚合算子DLA对ResNet-34主干网络进行改进;主干特征提取网络的输入为图像,输出为四个高分辨率特征图,其中三个特征图输入物体检测分支,一个特征图输入ID嵌入分支;
物体检测分支,使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset;
Re-ID检测分支,用于生成可以区分不同对象的Re-ID特征。
更加优选地,所述的Heatmap Head损失函数具体为:
对于图像中心的每个GT框
Figure BDA0003224051760000021
计算物体中心
Figure BDA0003224051760000022
Figure BDA0003224051760000023
Figure BDA0003224051760000024
然后在特征图上的位置由除以步长得到,即
Figure BDA0003224051760000025
然后在位置(x,y)的热图响应计算为:
Figure BDA0003224051760000026
其中,N表示图像中物体的数量,σc为标准差;
Heatmap Head损失函数定义为具有focal loss的像素级逻辑回归:
Figure BDA0003224051760000027
这里的
Figure BDA0003224051760000031
是预测的heatmap特征图;M是heatmap的ground-truth;α和β为参数。
更加优选地,所述的Box Size Head和Center Offset Head的损失函数具体为:
将Box Size Head和Center Offset Head的输出表示为
Figure BDA0003224051760000032
Figure BDA0003224051760000033
对于图像中的每一个GT box,
Figure BDA0003224051760000034
设置L1损失函数:
Figure BDA0003224051760000035
其中,N为一幅图像中物体总数量;
Figure BDA0003224051760000036
Figure BDA0003224051760000037
分别为Center Offset Head预测特征图和Box Size Head预测特征图;
ground-truth特征图分别设置如下:
Figure BDA0003224051760000038
Figure BDA0003224051760000039
其中,(x1,y1)为物体的左上角坐标;(x2,y2)为物体的右下角坐标;(cx,cy)为物体的中心坐标。
更加优选地,所述的Re-ID检测分支的损失函数具体为:
Figure BDA00032240517600000310
其中,p(k)为第k个物体的预测类别,即ID编号的可能性分布;L(k)为第k个物体真实的onehot编码。
优选地,所述的基于DeepSORT的目标追踪模型具体为:
首先,根据目标检测模型检测到的Bbox数据生成当前帧检测框detections;
其次,使用卡尔曼滤波预测前一帧中的跟踪框tracks在当前帧的状态;
随后,计算跟踪框tracks和检测框detections的代价矩阵,根据代价矩阵进行匹配,获得当前帧的所有匹配对、未匹配的跟踪框tracks以及未匹配的detections;
最后,对于每个匹配成功的跟踪框track,用其对应的检测框detection进行更新,并处理未匹配的跟踪框tracks和检测框detections。
更加优选地,所述的代价矩阵的计算方法为:通过外观信息、马氏距离或者IOU来计算代价矩阵。
更加优选地,所述的根据代价矩阵进行匹配的方法为:计算出代价矩阵后相继进行级联匹配和IOU匹配。
一种用于上述任一项所述目标跟踪方法的基于视觉的智能网联公交场景下目标跟踪系统,所述的目标跟踪系统包括:
道路图像获取设备,安装在智能网联公交车上,用于获取车辆所在的道路图像,并将图像传输至处理器;
处理器,内嵌有目标检测模型和目标追踪模型,目标检测模型的输出端与目标追踪模型的输入端相连,用于实现目标追踪;
可视化设备,与处理器相连,用于实现目标检测和目标追踪结果的可视化。
优选地,所述的目标检测模型具体为:
主干特征提取网络,采用ResNet-34为主干网络,并使用深层聚合算子DLA对ResNet-34主干网络进行改进;主干特征提取网络的输入为图像,输出为四个高分辨率特征图,其中三个特征图输入物体检测分支,一个特征图输入ID嵌入分支;
物体检测分支,使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset;
Re-ID检测分支,用于生成可以区分不同对象的Re-ID特征;
所述的目标追踪模型具体为:
首先,根据目标检测模型检测到的Bbox数据生成当前帧检测框detections;
其次,使用卡尔曼滤波预测前一帧中的跟踪框tracks在当前帧的状态;
随后,计算跟踪框tracks和检测框detections的代价矩阵,根据代价矩阵进行匹配,获得当前帧的所有匹配对、未匹配的跟踪框tracks以及未匹配的detections;
最后,对于每个匹配成功的跟踪框track,用其对应的检测框detection进行更新,并处理未匹配的跟踪框tracks和检测框detections。
与现有技术相比,本发明具有以下有益效果:
精度高、速度快:本发明中的目标跟踪方法及系统采用基于CenterNet的目标检测模型以及基于DeepSORT的目标追踪模型,同时在CenterNet网络上采用DLA算子,使用卡尔曼滤波加匈牙利算法来实现对检测目标框的追踪,物体的检测精度和追踪速度较高,满足智能网联公交车场景的使用需求。
附图说明
图1为本发明中目标跟踪方法的流程示意图;
图2为本发明中目标检测模型的结构示意图;
图3为本发明中目标检测模型主干特征提取网络的结构示意图;
图4为本发明中目标检测模型物体检测分支的结构示意图;
图5为本发明中目标检测模型Re-ID检测分支的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种基于视觉的智能网联公交场景下目标跟踪方法,其流程如图1所示,包括:
步骤1:获取智能网联公交场景下训练图像集合;
步骤2:分别构建基于CenterNet的目标检测模型和基于DeepSORT的目标追踪模型;
步骤3:使用训练图像集合对目标检测模型和目标追踪模型进行端到端训练;
步骤4:获取智能网联公交场景下的实时图像,实现目标跟踪。
下面对模型部分进行详细介绍:
1、目标跟踪算法整体架构
本实施例采用的是检测加跟踪的思路,检测采用的是CenterNet网络,跟踪采用的是DeepSORT,同时将这两个任务进行了端到端训练。
首先将输入图像送入编码器-解码器网络,以提取高分辨率特征图(stride=4);然后添加两个简单的并行head,分别预测边界框和Re-ID特征;最后提取预测目标中心处的特征进行边界框的时序联结。
首先,采用Anchor-free目标检测方法,估计高分辨率特征图上的目标中心。去掉锚点这一操作可以缓解歧义问题,使用高分辨率特征图可以帮助Re-ID特征与目标中心更好的对齐。
然后,添加并行分支来估计像素级Re-ID特征,这类特征用于预测目标的ID。具体而言,学习既能减少计算时间又能提升特征匹配稳健性的低维Re-ID特征。在这一步中,本算法用深层聚合算子(Deep Layer Aggregation,DLA)来改进主干网络ResNet-34,从而融合来自多个层的特征,处理不同尺度的目标。
最后,对检测到的目标框使用标准的在线跟踪算法来实现框的链接。根据第一帧中的估计框初始化了一些轨迹,在接下来的帧中,根据Re-ID特征和IoU所测量的轨迹距离,将方框与现有轨迹链接起来。使用卡尔曼滤波来预测在当前帧中的位置。如果距离链接检测太远,则将相应的代价设为无穷大,可以有效地阻止大运动的链接检测。在每个时间步中更新跟踪器的外观特征,以处理外观变化。
2、目标检测模型
目标检测模型的结构如图2所示,包括:
主干特征提取网络,采用ResNet-34为主干网络,并使用深层聚合算子DLA对ResNet-34主干网络进行改进;主干特征提取网络的输入为图像,输出为四个高分辨率特征图,其中三个特征图输入物体检测分支,一个特征图输入ID嵌入分支;
物体检测分支,使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset;
Re-ID检测分支,用于生成可以区分不同对象的Re-ID特征。
(1)主干特征提取网络
考虑到目前的Anchor-Based方法不适用于JDE跟踪模式,因此本实施例使用Anchor-Free目标检测范式来代替,最常见的Anchor-Free目标检测范式有CornerNet、CenterNet等等。Anchor-Free的方法就是一种基于关键点检测的方法,本实施例使用基于中心点检测的Anchor-Free方法CenterNet来构建主干特征提取网络。采用ResNet-34来作为主干网络,以便在准确性和速度之间取得良好的平衡。为了适应不同规模的对象,并使用深层聚合算子DLA(Deep Layer Aggregation)的一种变体来对主干网络进行改进,从而融合来自多个层的特征,处理不同尺度的目标。这个网络最大的特点就是多层融合,因为Re-ID信息不能仅仅包含高层网络中的语义信息,也要适度包含低层网络中的颜色、纹理等信息,所以多层特征融合是非常有必要的。
如图3所示,由于采用的是基于Anchor-Free的关键点检测方法,因此需要较高的分辨率(一般stride=4)的输出特征图,来确保不会产生较大的中心点偏移,主干特征提取网络的结构如图2所示。这种DLA特征提取网络形似Encoder-decoder,其提取的高分辨率特征图(stride=4)将被作为接下来四个分支的特征图。
(2)物体检测分支
物体检测分支的模型结构如图4所示,本实施例将目标检测视为高分辨率特征图上基于中心的包围盒回归任务。特别是,将三个并行回归头(regression heads)附加到主干网络以分别估计热图heatmap、对象中心偏移center offset和边界框大小box size。通过对主干网络的输出特征图应用3*3卷积(具有256个通道)来实现每个回归头head,然后通过1*1卷积层生成最终目标。
一、Heatmap Head
这个head负责估计对象中心的位置。这里采用基于热图的表示法,它是关键点预测任务的实际标准。heatmap的尺寸为1×H×W,如果热图中的某个位置与标签物体中心坍塌,则该位置的响应预计将是一致的。随着热图中位置和物体中心之间的距离,响应呈指数衰减。
损失函数:
按照高斯分布将物体的中心映射到heatmap上,然后使用变形的focal loss进行预测heatmap和实际heatmap损失函数的求解。
对于图像中心的每个GT框
Figure BDA0003224051760000071
计算物体中心
Figure BDA0003224051760000072
Figure BDA0003224051760000073
Figure BDA0003224051760000074
然后在特征图上的位置由除以步长得到,即
Figure BDA0003224051760000075
然后在位置(x,y)的热图响应计算为:
Figure BDA0003224051760000076
其中,N表示图像中物体的数量,σc为标准差;
Heatmap Head损失函数定义为具有focal loss的像素级逻辑回归:
Figure BDA0003224051760000077
这里的
Figure BDA0003224051760000078
是预测的heatmap特征图;M是heatmap的ground-truth;α和β为参数。
二、Center Offset Head
该head负责更精确地定位对象。Feature Map的步长为4,这将引入不可忽略的量化误差。注意,这对目标检测性能的好处可能是边际的,但是这对跟踪是至关重要的,因为Re-ID特征需要根据准确的目标中心提取。Re-ID功能与对象中心的对齐精准度对于性能至关重要。
三、Box Size Head
该部分负责估计每个锚点位置的目标边界框的高度和宽度,与Re-ID功能没有直接关系,但是定位精度将影响对象检测性能的评估。
Box Size Head和Center Offset Head的损失函数具体为:
将Box Size Head和Center Offset Head的输出表示为
Figure BDA0003224051760000081
Figure BDA0003224051760000082
对于图像中的每一个GT box,
Figure BDA0003224051760000083
设置L1损失函数:
Figure BDA0003224051760000084
其中,N为一幅图像中物体总数量;
Figure BDA0003224051760000085
Figure BDA0003224051760000086
分别为Center Offset Head预测特征图和Box Size Head预测特征图;
ground-truth特征图分别设置如下:
Figure BDA0003224051760000087
Figure BDA0003224051760000088
其中,(x1,y1)为物体的左上角坐标;(x2,y2)为物体的右下角坐标;(cx,cy)为物体的中心坐标。
(3)Re-ID检测分支
Re-ID检测分支的模型结构如图5所示,目标是生成可以区分不同对象的特征。理想情况下,不同对象之间的距离应大于同一对象之间的距离。为了实现该目标,本算法在主干特征图之上应用了具有128个内核的卷积层,以提取每个位置的身份嵌入特征,得到128×W×H的Feature Map,一个(x,y)上的Re-ID特征向量就是来自这个Feature Map。
Re-ID检测分支的损失函数具体为:
Figure BDA0003224051760000089
其中,p(k)为第k个物体的预测类别,即ID编号的可能性分布;L(k)为第k个物体真实的onehot编码。
以上的每个分支都被称为一个head分支。每个head除了最后输出通道维度的不同,其他组成都类似,也就是每个head由一个3*3卷积层后面接一个1*1卷积层实现的。
目标检测模型的输出:
Heatmap:形状为(1,H,W),和其他anchor-free方法输出的featmap不同,这里只有一个通道,而其他方法有类别数个通道(比如Coco数据集的80个类别),因为这种方法在设计之初是为了进行行人的检测跟踪,因此只有一个类别;
Center offset:形状为(2,H,W),和centerNet中的offset一样,弥补由于下采样产生的轻微的offset;
Box size:形状为(2,H,W),仅仅知道中心点位置还不行,还需要用这个特征图来计算中心点对应检测框的宽高;
Re-ID检测分支:形状为(128,H,W),也就是每个物体用一个128特征向量表示。
3、目标追踪模型
目前主流的目标跟踪算法都是基于Tracking-by-Detection策略,即基于目标检测的结果来进行目标跟踪。本实施例所使用的DeepSORT运用的就是这个策略,其主要使用的算法包括卡尔曼滤波和匈牙利算法。其中:匈牙利算法可以确定当前帧的某个目标是否与前一帧的某个目标相同;卡尔曼滤波可以基于目标前一时刻的位置,来判断当前时刻的位置,并且可以比传感器(在目标跟踪中即目标检测器,如YOLO等)更准确的估计目标的位置。
在DeepSORT中,匈牙利算法用来将前一帧中的跟踪框tracks与当前帧中的检测框detections进行关联,通过外观信息(appearance information)、马氏距离(Mahalanobisdistance)或者IOU来计算代价矩阵。
DeepSORT对每一帧的处理流程如下:
检测器得到Bbox→生成detections→卡尔曼滤波预测→使用匈牙利算法将预测后的tracks和当前帧中的detections进行匹配(级联匹配或IOU匹配)→卡尔曼滤波更新,举例如下:
Frame 0:检测器检测到了3个detections,当前没有任何tracks,将这3个detections初始化为tracks;
Frame 1:检测器又检测到了3个detections,对于Frame 0中的tracks,先使用卡尔曼滤波进行预测得到新的tracks,然后使用匈牙利算法将预测的新tracks与detections进行匹配,得到(track,detection)匹配对,最后用每对中的detection更新对应的track;
其中的匹配阶段,首先基于外观信息的马氏距离计算tracks和detections的代价矩阵,然后相继进行级联匹配和IOU匹配,最后得到当前帧的所有匹配对、未匹配的tracks以及未匹配的detections;
目标追踪模型的数据处理流程具体为:
检测:使用CenterNet+DLA作为检测器,检测当前帧中的bbox;
生成detections:将检测到的bbox转换成detections;
卡尔曼滤波预测阶段:使用卡尔曼滤波预测前一帧中的tracks在当前帧的状态;
匹配:首先对基于外观信息的马氏距离计算tracks和detections的代价矩阵,然后相继进行级联匹配和IOU匹配,最后得到当前帧的所有匹配对、未匹配的tracks以及未匹配的detections;
卡尔曼滤波更新阶段:对于每个匹配成功的track,用其对应的detection进行更新,并处理未匹配tracks和detections。
本实施例还涉及一种基于视觉的智能网联公交场景下目标跟踪系统,包括:
道路图像获取设备,安装在智能网联公交车上,用于获取车辆所在的道路图像,并将图像传输至处理器;
处理器,内嵌有目标检测模型和目标追踪模型,目标检测模型的输出端与目标追踪模型的输入端相连,用于实现目标追踪;
可视化设备,与处理器相连,用于实现目标检测和目标追踪结果的可视化。
目标检测模型具体为:
主干特征提取网络,采用ResNet-34为主干网络,并使用深层聚合算子DLA对ResNet-34主干网络进行改进;主干特征提取网络的输入为图像,输出为四个高分辨率特征图,其中三个特征图输入物体检测分支,一个特征图输入ID嵌入分支;
物体检测分支,使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset;
Re-ID检测分支,用于生成可以区分不同对象的Re-ID特征;
目标追踪模型具体为:
首先,根据目标检测模型检测到的Bbox数据生成当前帧检测框detections;
其次,使用卡尔曼滤波预测前一帧中的跟踪框tracks在当前帧的状态;
随后,计算跟踪框tracks和检测框detections的代价矩阵,根据代价矩阵进行匹配,获得当前帧的所有匹配对、未匹配的跟踪框tracks以及未匹配的detections;
最后,对于每个匹配成功的跟踪框track,用其对应的检测框detection进行更新,并处理未匹配的跟踪框tracks和检测框detections。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的智能网联公交车场景下目标跟踪方法包括:
步骤1:获取智能网联公交场景下训练图像集合;
步骤2:分别构建基于CenterNet的目标检测模型和基于DeepSORT的目标追踪模型;
步骤3:使用训练图像集合对目标检测模型和目标追踪模型进行端到端训练;
步骤4:获取智能网联公交场景下的实时图像,实现目标跟踪。
2.根据权利要求1所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的目标检测模型包括:
主干特征提取网络,采用ResNet-34为主干网络,并使用深层聚合算子DLA对ResNet-34主干网络进行改进;主干特征提取网络的输入为图像,输出为四个高分辨率特征图,其中三个特征图输入物体检测分支,一个特征图输入ID嵌入分支;
物体检测分支,使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset;
Re-ID检测分支,用于生成可以区分不同对象的Re-ID特征。
3.根据权利要求2所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的Heatmap Head损失函数具体为:
对于图像中心的每个GT框
Figure FDA0003224051750000011
计算物体中心
Figure FDA0003224051750000012
Figure FDA0003224051750000013
Figure FDA0003224051750000014
然后在特征图上的位置由除以步长得到,即
Figure FDA0003224051750000015
然后在位置(x,y)的热图响应计算为:
Figure FDA0003224051750000016
其中,N表示图像中物体的数量,σc为标准差;
Heatmap Head损失函数定义为具有focal loss的像素级逻辑回归:
Figure FDA0003224051750000021
这里的
Figure FDA0003224051750000022
是预测的heatmap特征图;M是heatmap的ground-truth;α和β为参数。
4.根据权利要求2所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的Box Size Head和Center Offset Head的损失函数具体为:
将Box Size Head和Center Offset Head的输出表示为
Figure FDA0003224051750000023
Figure FDA0003224051750000024
对于图像中的每一个GT box,
Figure FDA0003224051750000025
设置L1损失函数:
Figure FDA0003224051750000026
其中,N为一幅图像中物体总数量;
Figure FDA0003224051750000027
Figure FDA0003224051750000028
分别为Center Offset Head预测特征图和BoxSize Head预测特征图;
ground-truth特征图分别设置如下:
Figure FDA0003224051750000029
Figure FDA00032240517500000210
其中,(x1,y1)为物体的左上角坐标;(x2,y2)为物体的右下角坐标;(cx,cy)为物体的中心坐标。
5.根据权利要求2所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的Re-ID检测分支的损失函数具体为:
Figure FDA00032240517500000211
其中,p(k)为第k个物体的预测类别,即ID编号的可能性分布;L(k)为第k个物体真实的onehot编码。
6.根据权利要求1所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的基于DeepSORT的目标追踪模型具体为:
首先,根据目标检测模型检测到的Bbox数据生成当前帧检测框detections;
其次,使用卡尔曼滤波预测前一帧中的跟踪框tracks在当前帧的状态;
随后,计算跟踪框tracks和检测框detections的代价矩阵,根据代价矩阵进行匹配,获得当前帧的所有匹配对、未匹配的跟踪框tracks以及未匹配的detections;
最后,对于每个匹配成功的跟踪框track,用其对应的检测框detection进行更新,并处理未匹配的跟踪框tracks和检测框detections。
7.根据权利要求6所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的代价矩阵的计算方法为:通过外观信息、马氏距离或者IOU来计算代价矩阵。
8.根据权利要求6所述的一种基于视觉的智能网联公交场景下目标跟踪方法,其特征在于,所述的根据代价矩阵进行匹配的方法为:计算出代价矩阵后相继进行级联匹配和IOU匹配。
9.一种用于如权利要求1~8中任一项所述目标跟踪方法的基于视觉的智能网联公交场景下目标跟踪系统,其特征在于,所述的目标跟踪系统包括:
道路图像获取设备,安装在智能网联公交车上,用于获取车辆所在的道路图像,并将图像传输至处理器;
处理器,内嵌有目标检测模型和目标追踪模型,目标检测模型的输出端与目标追踪模型的输入端相连,用于实现目标追踪;
可视化设备,与处理器相连,用于实现目标检测和目标追踪结果的可视化。
10.根据权利要求6所述的一种基于视觉的智能网联公交场景下目标跟踪系统,其特征在于,所述的目标检测模型具体为:
主干特征提取网络,采用ResNet-34为主干网络,并使用深层聚合算子DLA对ResNet-34主干网络进行改进;主干特征提取网络的输入为图像,输出为四个高分辨率特征图,其中三个特征图输入物体检测分支,一个特征图输入ID嵌入分支;
物体检测分支,使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset;
Re-ID检测分支,用于生成可以区分不同对象的Re-ID特征;
所述的目标追踪模型具体为:
首先,根据目标检测模型检测到的Bbox数据生成当前帧检测框detections;
其次,使用卡尔曼滤波预测前一帧中的跟踪框tracks在当前帧的状态;
随后,计算跟踪框tracks和检测框detections的代价矩阵,根据代价矩阵进行匹配,获得当前帧的所有匹配对、未匹配的跟踪框tracks以及未匹配的detections;
最后,对于每个匹配成功的跟踪框track,用其对应的检测框detection进行更新,并处理未匹配的跟踪框tracks和检测框detections。
CN202110966187.0A 2021-08-23 2021-08-23 一种基于视觉的智能网联公交场景下目标跟踪方法及系统 Pending CN113724293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110966187.0A CN113724293A (zh) 2021-08-23 2021-08-23 一种基于视觉的智能网联公交场景下目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110966187.0A CN113724293A (zh) 2021-08-23 2021-08-23 一种基于视觉的智能网联公交场景下目标跟踪方法及系统

Publications (1)

Publication Number Publication Date
CN113724293A true CN113724293A (zh) 2021-11-30

Family

ID=78677212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110966187.0A Pending CN113724293A (zh) 2021-08-23 2021-08-23 一种基于视觉的智能网联公交场景下目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN113724293A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820699A (zh) * 2022-03-29 2022-07-29 小米汽车科技有限公司 多目标跟踪方法、装置、设备及介质
CN115690545A (zh) * 2021-12-03 2023-02-03 北京百度网讯科技有限公司 训练目标跟踪模型和目标跟踪的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN113034545A (zh) * 2021-03-26 2021-06-25 河海大学 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
CN113034548A (zh) * 2021-04-25 2021-06-25 安徽科大擎天科技有限公司 一种适用于嵌入式终端的多目标跟踪方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN113034545A (zh) * 2021-03-26 2021-06-25 河海大学 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
CN113034548A (zh) * 2021-04-25 2021-06-25 安徽科大擎天科技有限公司 一种适用于嵌入式终端的多目标跟踪方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIFU ZHANG等: "A Simple Baseline for Multi-Object Tracking", 《COMPUTER SCIENCE》,ARXIV.ORG, 4 April 2020 (2020-04-04), pages 2 - 3 *
邱博 等: "一种轻量化的多目标实时检测模型", 《北京航空航天大学学报》, vol. 46, no. 9, 30 September 2020 (2020-09-30) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690545A (zh) * 2021-12-03 2023-02-03 北京百度网讯科技有限公司 训练目标跟踪模型和目标跟踪的方法和装置
CN115690545B (zh) * 2021-12-03 2024-06-11 北京百度网讯科技有限公司 训练目标跟踪模型和目标跟踪的方法和装置
CN114820699A (zh) * 2022-03-29 2022-07-29 小米汽车科技有限公司 多目标跟踪方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
CN111429514B (zh) 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN111488795A (zh) 应用于无人驾驶车辆的实时行人跟踪方法
US8620026B2 (en) Video-based detection of multiple object types under varying poses
Piccoli et al. Fussi-net: Fusion of spatio-temporal skeletons for intention prediction network
Ji et al. RGB-D SLAM using vanishing point and door plate information in corridor environment
CN113888754B (zh) 一种基于雷达视觉融合的车辆多属性识别方法
CN113724293A (zh) 一种基于视觉的智能网联公交场景下目标跟踪方法及系统
CN111259796A (zh) 一种基于图像几何特征的车道线检测方法
CN114913206A (zh) 一种基于多模态融合的多目标跟踪的方法和系统
CN104517289A (zh) 一种基于混合摄像机的室内场景定位方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN111666860A (zh) 一种车牌信息与车辆特征融合的车辆轨迹跟踪方法
CN111931571B (zh) 基于在线增强检测的视频文字目标追踪方法与电子设备
CN112507845A (zh) 基于CenterNet与深度关联矩阵的行人多目标跟踪方法
Wei et al. GMSK-SLAM: a new RGB-D SLAM method with dynamic areas detection towards dynamic environments
CN115410162A (zh) 一种复杂城市道路环境下的多目标检测与跟踪算法
CN115311617A (zh) 城轨车站区域客流信息获取方法及系统
CN114820765A (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
CN116434150B (zh) 面向拥挤场景的多目标检测跟踪方法、系统及存储介质
CN117232545A (zh) 一种基于深度学习道路环境感知的路径规划方法
CN117036484A (zh) 一种基于几何和语义的视觉定位与建图方法、系统、设备及介质
CN115100565B (zh) 一种基于空间相关性与光流配准的多目标跟踪方法
CN114820931B (zh) 基于虚拟现实的智慧城市cim可视化实时成像方法
CN116245913A (zh) 基于层次化上下文引导的多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination