CN113034545A

CN113034545A - 一种基于CenterNet多目标跟踪算法的车辆跟踪方法

Info

Publication number: CN113034545A
Application number: CN202110326193.XA
Authority: CN
Inventors: 卢新彪; 唐紫婷; 刘雅童; 杭帆; 李亦秦; 李芳�
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-25

Abstract

本发明公开了一种基于CenterNet多目标跟踪算法的车辆跟踪方法，包括以下步骤：S1：拍摄车辆图片并标注得到车辆数据集；S2：将车辆数据集转换得到标签文档，将该文档及拍摄的图片作为新数据集，划分训练集和测试集；S3：基于FairMOT框架，采用HRnet网络作为目标检测CenterNet的主干网络，引入注意力机制ECA‑Net，构建FairMOT的目标检测和重识别网络；S4：将目标检测和重识别网络得到的检测结果送入FairMOT的跟踪网络，并使用训练集对整体网络进行训练，在训练时采用Lookahead和Adam结合的方法进行优化，网络参数收敛后得到训练完成的目标跟踪模型；S5：使用测试集对训练好的目标跟踪模型进行测试，输出目标车辆跟踪结果。本发明有效地降低了损失，提高了精度。

Description

一种基于CenterNet多目标跟踪算法的车辆跟踪方法

技术领域

本发明涉及计算机视觉相关技术领域，具体是一种基于CenterNet多目标跟踪算法的车辆跟踪方法。

背景技术

多目标跟踪已经成为计算机视觉领域的一个研究热点，在动作识别，公共安全，运动视频分析，老人护理和人机交互等方面有着广泛的应用。近年来，目标跟踪的方法大多基于深度学习，根据学习特征进行跟踪，如表观特征的深度学习、相似性度量的深度学习、高阶特征匹配的深度学习等。这些方法虽然可以准确跟踪目标，提高算法的准确性，但模型的过度复杂会导致跟踪算法无法满足实时性。

多目标跟踪主要是估计视频中多个感兴趣对象的轨迹，现有方法通常通过两个单独的模型解决该问题：检测模型首先通过每一帧的bbox来定位感兴趣物体，常见的算法有RCNN系列、yolo系列和CenterNet等，然后关联模型为每个边界框提取重识别特征，常见的算法有sort、deepsort和KCF等。近年来，分别在目标检测和重识别上取得了显著进步，这又提高了跟踪性能。但是，因为两个网络不共享特征并且在视频中需要为每一个bbox提供重识别模型，所以这些方法无法在有大量物体的时候实时执行推理。

随着多任务学习的成熟，联合检测和重识别的一键式(one-shot)方法开始引起人们的更多关注。Voigtlaender等人提出在Mask R-CNN顶部添加re-ID分支来获得使用ROI-Align得到的proposals的re-ID特征，为re-ID网络重新使用backbone特征减少了推理时间。然而，与两阶段相比，跟踪准确率显著下降。特别地，ID变换大大增加。主要有两个方面的原因：1、锚造成的不公平：级联模型先从检测框中收集特征，这使得重识别特征质量依赖于先前的任务。基于锚的方法通常使用ROI-Pool或ROI-Align来采样特征，但是大多数采样位置可能属于其他干扰实例或背景。所以最好的采样位置是在对象的中心。2、特征造成的不公平：对于单网络追踪器而言，大多数特征在目标识别和重检测任务之间共享。然而，这两个任务对特征的要求大相径庭，目标检测需要深层的抽象特征来取得最好的效果，而重标记任务需要的是浅层的外观特征以区分不同的实体。多层特征聚合是解决这一矛盾的有效方法，它允许两个任务(网络分支)从多层聚合的特征中提取出它们需要的任何特征。

对于上述问题的解决，许多学者研究已经做了很多较好的研究成果，FairMOT(ASimple Baseline for Multi-Object Tracking)在无锚目标检测方法的基础上，引进了一个框架来平衡检测和重识别任务，同时提出一种自监督学习方法在大规模检测数据集上训练FairMOT来提高泛化能力。虽然实施效果很好，但是，其仍然存在着一些问题，比如损失值偏高同时损失值下降的速度慢，对车辆的跟踪可能存在漏帧等情况。

发明内容

本发明的目的是为了解决FairMOT训练过程中损失值偏高同时下降的速度慢，及车辆的跟踪可能存在漏帧的问题，对CenterNet的主干网络HRnet进行改进，增加注意力机制ECA-Net来进一步提取出网络的深层特征，同时对优化器进行改进，使用了Lookahead和Adam结合的方法来进行优化，提高网络的训练速度和精度，降低了损失。

本发明为实现上述目的，采用如下技术方案：一种基于CenterNet多目标跟踪算法的车辆跟踪方法，包括以下步骤：

S1：拍摄不同场景、角度和距离的车辆图片，并在图片上标注车辆的名称，车辆id，左上角坐标和右下角坐标，得到标注的车辆数据集；

S2：将S1得到的车辆数据集进行转换，得到包括车辆id，中心点坐标和长宽的文档，将该文档及拍摄的图片作为新的数据集，并划分训练集和测试集；

S3：基于FairMOT框架，采用HRnet网络作为目标检测CenterNet的主干网络，引入注意力机制ECA-Net对该网络进行改进，构建FairMOT的目标检测和重识别网络；

S4：将目标检测和重识别网络得到的检测结果输入FairMOT的跟踪网络，使用训练集对整体网络进行训练，在训练时采用Lookahead和Adam结合的方法进行优化，网络参数收敛后得到训练完成的目标跟踪模型；

S5：使用测试集对训练好的目标跟踪模型进行测试，输出目标车辆跟踪结果。

进一步的，步骤S3中，构建目标检测网络，方法如下：

HRnet网络的输入为车辆图片和相应文档，读取图片的像素，同时将文档信息转化为热力图；HRnet网络输出高分辨率特征图；HRnet网络包括三个模块：基本模块、高分辨率模块和整合模块；基本模块包括BasicBlock和Bottleneck；

在BasicBlock中，每个卷积块后面进行归一化，同时在残差连接前的3×3卷积之后接入归一化，不使用ReLU，当模块输入和残差支路的通道数一致时，直接相加；当两者通道不一致时，对模块输入特征使用1×1卷积进行升/降维，之后再进行归一化；

在Bottleneck中，使用1×1卷积先降维，再使用3×3卷积进行特征提取，最后再使用1×1卷积将维度回升；每个卷积块后面进行归一化，同时在残差连接前的3×3卷积之后接入归一化，不使用ReLU，当模块输入和残差支路的通道数一致时，直接相加；当两者通道不一致时，对模块输入特征使用1×1卷积进行升/降维，之后再进行归一化；

在HRnet的残差网络中引入注意力机制ECA-Net，读取输入特征图的通道数和卷积核的大小；ECA-Net在每次残差相加前进行操作，通过不降维的局部跨信道交互策略和自适应选择一维卷积核大小的方法，避免特征维度的缩减和增加通道信息间的交互；在ECA-Net中，利用矩阵W_k来学习通道注意力，W_k表示如下：

式中w^i,j表示i通道与j通道之间的信息传递矩阵，c为通道数，k为卷积核，下标odd表示最近的奇数，γ＝2,b＝1；通过全局最大池化得到1*1*c的向量，然后通过一维卷积来实现跨通道间的信息交互，其中一维卷积核的大小通过矩阵W_k自适应。

进一步的，步骤S4中，改变训练时的优化器，使用Lookahead和Adam结合的方法进行优化，Adam算法基于训练数据迭代地更新神经网络权重；Lookahead算法迭代地更新两组权重，通过提前观察Adam优化器生成的权重序列，来选择搜索方向；两组权重具体如下：

(1)fast weights快权重，由内循环优化器生成k次序列权重，内循环优化器即Adam优化器，给定优化器A，目标函数L，当前训练的小批次样本d，更新规则为：

θ_t,i+1＝θ_t,i+A(L,θ_t,i-1,d),i＝1,2,…,k

式中θ_t,i为t时刻第i步的快权重的输入，将该轮循环的k次权重用序列保存下来；

(2)slow weights慢权重，在每轮内循环结束后，根据本轮的i次权重，采用指数移动平均得到slow weights，计算公式如下：

其中

为t时刻慢权重的输入，

为慢权重的步长。

有益效果：与现有技术相比，本发明改进的HRnet网络对于深度特征提取效果更佳，由于自制数据集的数量有限，采用了数据增强的方法，进一步提高了模型的精确度；使用Lookahead结合Adam优化器实现更快的收敛、更好的泛化性能，且模型对超参数改变的鲁棒性更强，训练时的loss从原来的2.4％降至1.5％，有效地降低了损失，提高了精度。

附图说明

图1是本发明方法的总流程图；

图2是HRnet基本模块流程图；

图3是跟踪算法流程图；

图4是训练原算法和修改优化器后的训练效果对比图；

图5是训练原算法和修改优化器以及加入注意力机制后的训练效果对比图；

图6是本发明方法在单摄像头的场景下对单辆智能车跟踪效果图；

图7是本发明方法在单摄像头的场景下对两辆智能车跟踪效果图；

图8是本发明方法在单摄像头的场景下对三辆智能车跟踪效果图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

本发明所述的基于CenterNet多目标跟踪算法的车辆跟踪方法，包括以下步骤：

S1：拍摄不同场景、角度和距离的车辆图片，并在图片上标注车辆的名称，车辆id，左上角坐标和右下角坐标，得到标注的车辆数据集。

目标检测和重识别的效果与数据集息息相关，因此，数据集必须足够充分。在数据集制作的过程中，需要考虑到智能车在场景中可能出现的所有情况。

本实施例中采用的数据集为实验室自制智能小车数据集，目标跟踪对象是一辆或者多辆小车。从不同的角度、距离、场景拍摄小车图片，得到包含小车的560张图片和50个视频，将视频剪成帧后共2790张图片。每个图像或视频中包含的小车数量、大小、角度都不同，最后用数据集标注软件，标注图片中的小车，得到每个图片对应的标签文件，获得标注的车辆数据集。

S2：将S1得到的车辆数据集进行转换，得到包括车辆id，中心点坐标和长宽的文档，将该文档及拍摄的图片作为新的数据集，用于目标检测和重识别；数据集中取90％作为训练集，再取最后的10％作为测试集。

S3：基于FairMOT框架，采用HRnet网络作为目标检测CenterNet算法中的主干网络，引入注意力机制ECA-Net对该主干网络进行改进，通过考虑每个通道及其近邻来实现跨通道交互，构建FairMOT的目标检测和重识别网络。

HRnet着重于输出可靠的高分辨率表征，能在整个过程中都保持着高分辨率的表征。从高分辨率子网络作为第一阶段开始，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接，进行多次多尺度融合，使得每个高分辨率到低分辨率的表征都可从其他并行中反复接受信息，从而得到丰富的高分辨率表征，所以将其用在目标检测和重识别网络中，用其提取到的高分辨率特征图来进行检测和重识别。然后，本发明在HRnet的Resnet(残差)块中引入了ECA-Net，只用读取输入特征图的通道数和卷积核的大小便可以达到两个目的：1、避免特征维度的缩减；2、增加通道间信息的交互，在降低复杂度的同时保持良好的性能。

HRnet网络的输入为车辆图片和含有车辆id，中心点坐标和长宽信息的文档，读取图片的像素，同时将文档信息转化为热力图；HRnet网络输出高分辨率特征图；HRnet网络包括三个模块：基本模块、高分辨率模块和整合模块；改进的模块在基本模块，基本模块包括BasicBlock和Bottleneck；

在BasicBlock中，如图2(a)所示，每个卷积块后面进行归一化，同时在残差连接前的3×3卷积之后接入归一化，不使用ReLU，避免加和之后的特征皆为正，保持特征的多样；当模块输入和残差支路的通道数一致时，直接相加；当两者通道不一致时，对模块输入特征使用1×1卷积进行升/降维，之后再进行归一化；

在Bottleneck中，如图2(b)所示，使用1×1卷积先降维，再使用3×3卷积进行特征提取，最后再使用1×1卷积将维度回升；与BasicBlock相似，每个卷积块后面进行归一化，同时在残差连接前的3×3卷积之后接入归一化，不使用ReLU，避免加和之后的特征皆为正，保持特征的多样；当模块输入和残差支路的通道数一致时，直接相加；当两者通道不一致时，对模块输入特征使用1×1卷积进行升/降维，之后再进行归一化；

在HRnet的残差网络中引入注意力机制ECA-Net，读取输入特征图的通道数和卷积核的大小；ECA-Net在每次残差相加前进行操作，通过不降维的局部跨信道交互策略(ECA模块)和自适应选择一维卷积核大小的方法，避免特征维度的缩减和增加通道信息间的交互；在ECA-Net中，利用矩阵W_k来学习通道注意力，W_k表示如下：

式中w^i,j表示i通道与j通道之间的信息传递矩阵，c为通道数，k为卷积核，下标odd表示最近的奇数，γ＝2,b＝1；通过全局最大池化得到1*1*c的向量，然后通过一维卷积来实现跨通道间的信息交互，其中一维卷积核的大小通过矩阵W_k自适应，使得通道数较大的层可以更多地进行跨通道间的交互。

S4：将目标检测和重识别网络得到的检测结果输入FairMOT的跟踪网络，使用训练集对整体网络进行训练，在训练时采用Lookahead和Adam结合的方法进行优化，网络参数收敛后得到训练完成的目标跟踪模型。

改变训练时的优化器，使用Lookahead和Adam结合的方法进行优化，实现更快的收敛、更好的泛化性能，且模型对超参数改变的鲁棒性更强。Adam优化算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它基于训练数据迭代地更新神经网络权重；Lookahead算法迭代地更新两组权重，通过提前观察Adam优化器生成的权重序列来选择搜索方向，能够提升学习稳定性，不仅降低了调参需要的时间，同时还提升收敛速度与效果；两组权重具体如下：

θ_t,i+1＝θ_t,i+A(L,θ_t,i-1,d),i＝1,2,…,k

其中

为t时刻慢权重的输入，

为慢权重的步长。

Lookahead算法与Adam算法相结合对内部循环优化器、fast weight更新次数以及slow weights学习率的改变具备鲁棒性。fast weights和slow weights的结合改进了高曲率方向上的学习，降低了方差，并且使得Lookahead可以实现更快的收敛。

跟踪算法流程如图3所示，本发明采用的FairMOT框架包括目标检测和重识别网络及跟踪网络，检测框架采用CenterNet。输入智能车图片和含有智能车id，中心点坐标和长宽信息的文本文件确定得到初始帧，然后同时进行目标检测和重识别，目标检测会得到热力图、中心点偏移量和检测框的大小。将目标检测得到的特征值输入重识别中进行特征提取，判断目标属于哪一类。将目标检测和重识别网络得到的目标框输入跟踪网络，跟踪网络包括卡尔曼滤波、距离代价函数和匈牙利匹配。用卡尔曼滤波预测新位置，卡尔曼滤波可以在含有不确定信息的动态系统中对下一步的走向做出有根据的预测，但只是粗糙的预测；距离代价函数包括余弦距离矩阵和马氏距离矩阵，首先计算跟踪框和检测框的余弦距离矩阵，计算第i个物体跟踪的所有特征向量和第j个物体检测的之间的最小余弦距离。如果距离小于指定的阈值，那么这个关联就是成功的。阈值是从训练集训练里得到的数值。计算马氏距离矩阵，看追踪和检测的状态向量的前四维度的接近程度。由于上下帧之间移动距离不会相差太远，所以坐标越接近就越可能是同一个目标。接着进行匈牙利匹配，解决分配问题，找到一个最优分配，使得完成所有任务的代价最小。即，在卡尔曼滤波的基础上使用匈牙利算法将卡尔曼滤波预测的值与物体检测的值进行匹配，选择合适的检测框作为下一时刻物体跟踪的框。最后，更新追踪系统，确定最终的目标位置。

本实施例记录改进前后的网络训练时间以及loss值，如图4和图5，本发明使用自制数据集训练原算法和修改优化器Lookahead+Adam后的训练效果对比以及使用自制数据集训练原算法和修改优化器Lookahead+Adam以及主干网络加入注意力机制ECA-Net后的训练效果对比，可以看出优化后的算法收敛速度更快且loss值更低，说明优化后的算法具有更快的收敛速度且损失值降低。通过在测试集上的测试可得，原算法的准确率为0.9837，而改进后的算法的准确率为0.9892，准确率得到了一定的提高。最后通过对拍摄的智能车视频进行跟踪，发现改进后的算法不存在漏帧的情况，且能实现对一辆或者多辆智能车的跟踪。本实施例采用本发明改进的方法在单摄像头的场景下对单辆和多辆智能车跟踪效果分别如图6～图8所示，随机截取了两帧的结果来显示出跟踪的效果，图6(a)和6(b)分别是第17帧和31帧的跟踪效果，图7(a)和7(b)分别是第12帧和32帧的跟踪效果，图8(a)和8(b)分别是第10帧和36帧的跟踪效果。

本发明的工作原理是：首先，通过拍摄各个角度智能车照片，并在照片上标注，得到小车的数据集；然后将标注得到的智能车数据集进行转换，得到包括id，中心点坐标和长宽的文档，并将该文档用于目标检测和重识别；再对于目标检测CenterNet中的主干网络HRnet网络进行改进，引入了注意力机制ECA-Net，增加通道间信息的交互，在降低复杂度的同时保持良好的性能；同时优化训练时的优化器，使用了Lookahead和Adam结合的方法来进行优化，实现更快的收敛、更好的泛化性能，且模型对超参数改变的鲁棒性更强；最后记录改进前后的网络训练时间以及loss值，收敛速度更快且loss值更低，准确率得到了一定的提高。通过对拍摄的智能车视频进行跟踪，发现改进后的算法不存在漏帧的情况，且能实现对一辆或者多辆智能车的跟踪。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CenterNet多目标跟踪算法的车辆跟踪方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于CenterNet多目标跟踪算法的车辆跟踪方法，其特征在于：步骤S3中，构建目标检测网络，方法如下：

c＝2^(γ*k-b)，

3.根据权利要求1或2所述的基于CenterNet多目标跟踪算法的车辆跟踪方法，其特征在于：步骤S4中，改变训练时的优化器，使用Lookahead和Adam结合的方法进行优化，Adam算法基于训练数据迭代地更新神经网络权重；Lookahead算法迭代地更新两组权重，通过提前观察Adam优化器生成的权重序列，来选择搜索方向；两组权重具体如下：

θ_t,i+1＝θ_t,i+A(L,θ_t,i-1,d),i＝1,2,…,k

其中

为t时刻慢权重的输入，

为慢权重的步长。