CN113724293A

CN113724293A - 一种基于视觉的智能网联公交场景下目标跟踪方法及系统

Info

Publication number: CN113724293A
Application number: CN202110966187.0A
Authority: CN
Inventors: 张泽晨; 张培志; 张飞; 颜英; 王晓
Original assignee: Shanghai Intelligent New Energy Vehicle Technology Innovation Platform Co ltd; Shanghai Seari Intelligent System Co Ltd
Current assignee: Shanghai Intelligent New Energy Vehicle Technology Innovation Platform Co ltd; Shanghai Seari Intelligent System Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-30

Abstract

本发明涉及一种基于视觉的智能网联公交场景下目标跟踪方法及系统，其中目标跟踪方法包括：步骤1：获取智能网联公交场景下训练图像集合；步骤2：分别构建基于CenterNet的目标检测模型和基于DeepSORT的目标追踪模型；步骤3：使用训练图像集合对目标检测模型和目标追踪模型进行端到端训练；步骤4：获取智能网联公交场景下的实时图像，实现目标跟踪。与现有技术相比，本发明具有精度高、速度快等优点。

Description

一种基于视觉的智能网联公交场景下目标跟踪方法及系统

技术领域

本发明涉及目标追踪技术领域，尤其是涉及一种基于视觉的智能网联公交场景下目标跟踪方法及系统。

背景技术

随着5G、人工智能、应用物联网等前沿技术的快速发展，基于车路云协同的智能网联公交可以为相关城市廊道的发展规划提供可靠、高效、便捷的公共交通智能出行方案。其中，可利用基于5G的车路协同超视距全息感知与边缘云计算技术来保障车辆运行的安全可靠性，而超视距的全息感知则必须依赖于对于道路交通参与者准确的目标跟踪。

多目标跟踪(MOT)是计算机视觉领域的重要任务，在智能监控系统、无人驾驶、人机交互，智慧交通等领域有着广泛的应用。是利用一个视频或图像序列的上下文信息，对目标的外观和运动信息进行建模，从而对目标的运动状态进行预测并标定目标位置的一种技术。多目标跟踪顾名思义就是跟踪视频画面中的多个目标，得到这些目标中的运动轨迹，其核心在于目标检测和数据关联，即在每一帧进行目标检测，再利用目标检测的结果来进行目标跟踪，后面一步一般称之为数据关联，数据关联更多依赖于手工特征提取(外观特征、运动特征、形状特征等)。

公共交通的载客率大，资源利用率高，是城市交通系统中的重要组成部分，智能网联公交作为现阶段网联公交发展的最理想方向，在其运行过程中需要对车辆所在道路上的各类目标进行追踪，避免其与网联公交相碰撞，对追踪方法的精度和速度要求较高，现有技术中还未有一种针对智能网联公交的目标追踪方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、速度快的基于视觉的智能网联公交场景下目标跟踪方法及系统。

本发明的目的可以通过以下技术方案来实现：

一种基于视觉的智能网联公交场景下目标跟踪方法，所述的智能网联公交车场景下目标跟踪方法包括：

步骤1：获取智能网联公交场景下训练图像集合；

步骤2：分别构建基于CenterNet的目标检测模型和基于DeepSORT的目标追踪模型；

步骤3：使用训练图像集合对目标检测模型和目标追踪模型进行端到端训练；

步骤4：获取智能网联公交场景下的实时图像，实现目标跟踪。

优选地，所述的目标检测模型包括：

主干特征提取网络，采用ResNet-34为主干网络，并使用深层聚合算子DLA对ResNet-34主干网络进行改进；主干特征提取网络的输入为图像，输出为四个高分辨率特征图，其中三个特征图输入物体检测分支，一个特征图输入ID嵌入分支；

物体检测分支，使用Heatmap Head、Box Size Head和Center Offset Head三个并行回归头附加到主干特征提取网络用于分别估计热图Heat map、边界框大小Box size和对象中心偏移Center offset；

Re-ID检测分支，用于生成可以区分不同对象的Re-ID特征。

更加优选地，所述的Heatmap Head损失函数具体为：

对于图像中心的每个GT框

计算物体中心

为

和

然后在特征图上的位置由除以步长得到，即

然后在位置(x,y)的热图响应计算为：

其中，N表示图像中物体的数量，σ_c为标准差；

Heatmap Head损失函数定义为具有focal loss的像素级逻辑回归：

这里的

是预测的heatmap特征图；M是heatmap的ground-truth；α和β为参数。

更加优选地，所述的Box Size Head和Center Offset Head的损失函数具体为：

将Box Size Head和Center Offset Head的输出表示为

和

对于图像中的每一个GT box，

设置L₁损失函数：

其中，N为一幅图像中物体总数量；

和

分别为Center Offset Head预测特征图和Box Size Head预测特征图；

ground-truth特征图分别设置如下：

其中，(x₁,y₁)为物体的左上角坐标；(x₂,y₂)为物体的右下角坐标；(c_x,c_y)为物体的中心坐标。

更加优选地，所述的Re-ID检测分支的损失函数具体为：

其中，p(k)为第k个物体的预测类别，即ID编号的可能性分布；L(k)为第k个物体真实的onehot编码。

优选地，所述的基于DeepSORT的目标追踪模型具体为：

首先，根据目标检测模型检测到的Bbox数据生成当前帧检测框detections；

其次，使用卡尔曼滤波预测前一帧中的跟踪框tracks在当前帧的状态；

随后，计算跟踪框tracks和检测框detections的代价矩阵，根据代价矩阵进行匹配，获得当前帧的所有匹配对、未匹配的跟踪框tracks以及未匹配的detections；

最后，对于每个匹配成功的跟踪框track，用其对应的检测框detection进行更新，并处理未匹配的跟踪框tracks和检测框detections。

更加优选地，所述的代价矩阵的计算方法为：通过外观信息、马氏距离或者IOU来计算代价矩阵。

更加优选地，所述的根据代价矩阵进行匹配的方法为：计算出代价矩阵后相继进行级联匹配和IOU匹配。

一种用于上述任一项所述目标跟踪方法的基于视觉的智能网联公交场景下目标跟踪系统，所述的目标跟踪系统包括：

道路图像获取设备，安装在智能网联公交车上，用于获取车辆所在的道路图像，并将图像传输至处理器；

处理器，内嵌有目标检测模型和目标追踪模型，目标检测模型的输出端与目标追踪模型的输入端相连，用于实现目标追踪；

可视化设备，与处理器相连，用于实现目标检测和目标追踪结果的可视化。

优选地，所述的目标检测模型具体为：

Re-ID检测分支，用于生成可以区分不同对象的Re-ID特征；

所述的目标追踪模型具体为：

与现有技术相比，本发明具有以下有益效果：

精度高、速度快：本发明中的目标跟踪方法及系统采用基于CenterNet的目标检测模型以及基于DeepSORT的目标追踪模型，同时在CenterNet网络上采用DLA算子，使用卡尔曼滤波加匈牙利算法来实现对检测目标框的追踪，物体的检测精度和追踪速度较高，满足智能网联公交车场景的使用需求。

附图说明

图1为本发明中目标跟踪方法的流程示意图；

图2为本发明中目标检测模型的结构示意图；

图3为本发明中目标检测模型主干特征提取网络的结构示意图；

图4为本发明中目标检测模型物体检测分支的结构示意图；

图5为本发明中目标检测模型Re-ID检测分支的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于视觉的智能网联公交场景下目标跟踪方法，其流程如图1所示，包括：

步骤1：获取智能网联公交场景下训练图像集合；

下面对模型部分进行详细介绍：

1、目标跟踪算法整体架构

本实施例采用的是检测加跟踪的思路，检测采用的是CenterNet网络，跟踪采用的是DeepSORT，同时将这两个任务进行了端到端训练。

首先将输入图像送入编码器-解码器网络，以提取高分辨率特征图(stride＝4)；然后添加两个简单的并行head，分别预测边界框和Re-ID特征；最后提取预测目标中心处的特征进行边界框的时序联结。

首先，采用Anchor-free目标检测方法，估计高分辨率特征图上的目标中心。去掉锚点这一操作可以缓解歧义问题，使用高分辨率特征图可以帮助Re-ID特征与目标中心更好的对齐。

然后，添加并行分支来估计像素级Re-ID特征，这类特征用于预测目标的ID。具体而言，学习既能减少计算时间又能提升特征匹配稳健性的低维Re-ID特征。在这一步中，本算法用深层聚合算子(Deep Layer Aggregation，DLA)来改进主干网络ResNet-34，从而融合来自多个层的特征，处理不同尺度的目标。

最后，对检测到的目标框使用标准的在线跟踪算法来实现框的链接。根据第一帧中的估计框初始化了一些轨迹，在接下来的帧中，根据Re-ID特征和IoU所测量的轨迹距离，将方框与现有轨迹链接起来。使用卡尔曼滤波来预测在当前帧中的位置。如果距离链接检测太远，则将相应的代价设为无穷大，可以有效地阻止大运动的链接检测。在每个时间步中更新跟踪器的外观特征，以处理外观变化。

2、目标检测模型

目标检测模型的结构如图2所示，包括：

Re-ID检测分支，用于生成可以区分不同对象的Re-ID特征。

(1)主干特征提取网络

考虑到目前的Anchor-Based方法不适用于JDE跟踪模式，因此本实施例使用Anchor-Free目标检测范式来代替，最常见的Anchor-Free目标检测范式有CornerNet、CenterNet等等。Anchor-Free的方法就是一种基于关键点检测的方法，本实施例使用基于中心点检测的Anchor-Free方法CenterNet来构建主干特征提取网络。采用ResNet-34来作为主干网络，以便在准确性和速度之间取得良好的平衡。为了适应不同规模的对象，并使用深层聚合算子DLA(Deep Layer Aggregation)的一种变体来对主干网络进行改进，从而融合来自多个层的特征，处理不同尺度的目标。这个网络最大的特点就是多层融合，因为Re-ID信息不能仅仅包含高层网络中的语义信息，也要适度包含低层网络中的颜色、纹理等信息，所以多层特征融合是非常有必要的。

如图3所示，由于采用的是基于Anchor-Free的关键点检测方法，因此需要较高的分辨率(一般stride＝4)的输出特征图，来确保不会产生较大的中心点偏移，主干特征提取网络的结构如图2所示。这种DLA特征提取网络形似Encoder-decoder，其提取的高分辨率特征图(stride＝4)将被作为接下来四个分支的特征图。

(2)物体检测分支

物体检测分支的模型结构如图4所示，本实施例将目标检测视为高分辨率特征图上基于中心的包围盒回归任务。特别是，将三个并行回归头(regression heads)附加到主干网络以分别估计热图heatmap、对象中心偏移center offset和边界框大小box size。通过对主干网络的输出特征图应用3*3卷积(具有256个通道)来实现每个回归头head，然后通过1*1卷积层生成最终目标。

一、Heatmap Head

这个head负责估计对象中心的位置。这里采用基于热图的表示法，它是关键点预测任务的实际标准。heatmap的尺寸为1×H×W，如果热图中的某个位置与标签物体中心坍塌，则该位置的响应预计将是一致的。随着热图中位置和物体中心之间的距离，响应呈指数衰减。

损失函数：

按照高斯分布将物体的中心映射到heatmap上，然后使用变形的focal loss进行预测heatmap和实际heatmap损失函数的求解。

对于图像中心的每个GT框

计算物体中心

为

和

然后在特征图上的位置由除以步长得到，即

然后在位置(x,y)的热图响应计算为：

其中，N表示图像中物体的数量，σ_c为标准差；

Heatmap Head损失函数定义为具有focal loss的像素级逻辑回归：

这里的

是预测的heatmap特征图；M是heatmap的ground-truth；α和β为参数。

二、Center Offset Head

该head负责更精确地定位对象。Feature Map的步长为4，这将引入不可忽略的量化误差。注意，这对目标检测性能的好处可能是边际的，但是这对跟踪是至关重要的，因为Re-ID特征需要根据准确的目标中心提取。Re-ID功能与对象中心的对齐精准度对于性能至关重要。

三、Box Size Head

该部分负责估计每个锚点位置的目标边界框的高度和宽度，与Re-ID功能没有直接关系，但是定位精度将影响对象检测性能的评估。

Box Size Head和Center Offset Head的损失函数具体为：

将Box Size Head和Center Offset Head的输出表示为

和

对于图像中的每一个GT box，

设置L₁损失函数：

其中，N为一幅图像中物体总数量；

和

分别为Center Offset Head预测特征图和Box Size Head预测特征图；

ground-truth特征图分别设置如下：

(3)Re-ID检测分支

Re-ID检测分支的模型结构如图5所示，目标是生成可以区分不同对象的特征。理想情况下，不同对象之间的距离应大于同一对象之间的距离。为了实现该目标，本算法在主干特征图之上应用了具有128个内核的卷积层，以提取每个位置的身份嵌入特征，得到128×W×H的Feature Map，一个(x,y)上的Re-ID特征向量就是来自这个Feature Map。

Re-ID检测分支的损失函数具体为：

以上的每个分支都被称为一个head分支。每个head除了最后输出通道维度的不同，其他组成都类似，也就是每个head由一个3*3卷积层后面接一个1*1卷积层实现的。

目标检测模型的输出：

Heatmap：形状为(1,H,W)，和其他anchor-free方法输出的featmap不同，这里只有一个通道，而其他方法有类别数个通道(比如Coco数据集的80个类别)，因为这种方法在设计之初是为了进行行人的检测跟踪，因此只有一个类别；

Center offset：形状为(2,H,W)，和centerNet中的offset一样，弥补由于下采样产生的轻微的offset；

Box size：形状为(2,H,W)，仅仅知道中心点位置还不行，还需要用这个特征图来计算中心点对应检测框的宽高；

Re-ID检测分支：形状为(128,H,W)，也就是每个物体用一个128特征向量表示。

3、目标追踪模型

目前主流的目标跟踪算法都是基于Tracking-by-Detection策略，即基于目标检测的结果来进行目标跟踪。本实施例所使用的DeepSORT运用的就是这个策略，其主要使用的算法包括卡尔曼滤波和匈牙利算法。其中：匈牙利算法可以确定当前帧的某个目标是否与前一帧的某个目标相同；卡尔曼滤波可以基于目标前一时刻的位置，来判断当前时刻的位置，并且可以比传感器(在目标跟踪中即目标检测器，如YOLO等)更准确的估计目标的位置。

在DeepSORT中，匈牙利算法用来将前一帧中的跟踪框tracks与当前帧中的检测框detections进行关联，通过外观信息(appearance information)、马氏距离(Mahalanobisdistance)或者IOU来计算代价矩阵。

DeepSORT对每一帧的处理流程如下：

检测器得到Bbox→生成detections→卡尔曼滤波预测→使用匈牙利算法将预测后的tracks和当前帧中的detections进行匹配(级联匹配或IOU匹配)→卡尔曼滤波更新，举例如下：

Frame 0：检测器检测到了3个detections，当前没有任何tracks，将这3个detections初始化为tracks；

Frame 1：检测器又检测到了3个detections，对于Frame 0中的tracks，先使用卡尔曼滤波进行预测得到新的tracks，然后使用匈牙利算法将预测的新tracks与detections进行匹配，得到(track，detection)匹配对，最后用每对中的detection更新对应的track；

其中的匹配阶段，首先基于外观信息的马氏距离计算tracks和detections的代价矩阵，然后相继进行级联匹配和IOU匹配，最后得到当前帧的所有匹配对、未匹配的tracks以及未匹配的detections；

目标追踪模型的数据处理流程具体为：

检测：使用CenterNet+DLA作为检测器，检测当前帧中的bbox；

生成detections：将检测到的bbox转换成detections；

卡尔曼滤波预测阶段：使用卡尔曼滤波预测前一帧中的tracks在当前帧的状态；

匹配：首先对基于外观信息的马氏距离计算tracks和detections的代价矩阵，然后相继进行级联匹配和IOU匹配，最后得到当前帧的所有匹配对、未匹配的tracks以及未匹配的detections；

卡尔曼滤波更新阶段：对于每个匹配成功的track，用其对应的detection进行更新，并处理未匹配tracks和detections。

本实施例还涉及一种基于视觉的智能网联公交场景下目标跟踪系统，包括：

目标检测模型具体为：

Re-ID检测分支，用于生成可以区分不同对象的Re-ID特征；

目标追踪模型具体为：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。