CN113313736B

CN113313736B - 统一目标运动感知和重识别网络的在线多目标跟踪方法

Info

Publication number: CN113313736B
Application number: CN202110649381.6A
Authority: CN
Inventors: 王菡子; 王英
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-05-17
Anticipated expiration: 2041-06-10
Also published as: CN113313736A

Abstract

统一目标运动感知和重识别网络的在线多目标跟踪方法，涉及计算机视觉技术。A.将当前帧图像与前一帧图像输入到骨干网络，获得两帧图像的特征图；B.将前一帧图像的热力图与步骤A两个特征图送入检测与跟踪分支，得计算当前帧检测结果及目标跟踪偏移量；C.将步骤A两帧图像的特征图送入重识别分支，得嵌入特征向量，存储于重识别特征向量池中；D.根据跟踪偏移量，对步骤B获得的检测结果进行第一次匹配，为已匹配的检测分配对应目标的身份识别；E.对步骤D获得的未匹配检测结果进行第二次匹配，将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算，根据设定的阈值，为不同检测结果分配身份识别，即得当前帧最终的跟踪结果。

Description

统一目标运动感知和重识别网络的在线多目标跟踪方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及一种统一目标运动感知和重识别网络的在线多目标跟踪方法。

背景技术

视觉系统是人类获取外界信息十分重要的途径，能够为人类提供丰富的资源信息，多目标跟踪作为计算机视觉领域的一个基本任务，旨在估计序列中特定类别的运动轨迹。近年来，对于多目标跟踪算法的研究已受到越来越多的关注。但是，在密集人群或低帧率视频中，目标容易发生较大运动偏移和相互遮挡、重叠等情况，导致跟踪性能受限。因此，研究目标运动信息、构建简单而有效的重识别网络对在线多目标跟踪方法具有重要意义。

现有的多目标跟踪方法主要可以分为先检测后跟踪和联合检测跟踪两类。第一类方法属于双阶段跟踪方法，主要利用一个单独的检测器检测出每帧图像的目标，然后再使用数据关联算法进行跟踪。Alex Bewley等人(Alex Bewley,Zongyuan Ge,Lionel Ott,Fabio Ramos,andBen Upcroft.2016.Simple online and realtime tracking.InProceedings of theIEEE International Conference on Image Processing(2016),3464-3468)提出Sort方法，利用Faster-RCNN(Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun.2017.Faster R-CNN:Towards real-time object detection with regionproposal networks.IEEE Transactions on Pattern Analysis and MachineIntelligence39,6(2017),1137-1149)检测出当前图像的目标边界框，然后使用卡尔曼滤波预测出另一组目标边界框，通过IoU分数将两组边界框进行匹配，从而完成多目标跟踪。Nicolai Wojke等人(Nicolai Wojke,Alex Bewley,and DietrichPaulus.2017.Simpleonline and realtime tracking with a deep associationmetric.In Proceedings of theIEEE International Conference on Image Processing(2017),3645-3649)在Sort方法的基础上训练一个重识别网络用于表观特征提取，同时，使用级联匹配策略进一步对目标边界框进行匹配。GuillemBraso等人(GuillemBraso andLaura Leal-Taixe.2020.Learning a neural solver for multiple objecttracking.In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(2020),6247-6257)把每个检测结果看成一个图节点，从而将数据关联问题转化为图网络的优化问题。这类方法将检测和跟踪网络分开处理，导致无法实现端到端优化。第二类方法将检测和跟踪放在同一个框架下，有效地提升跟踪效率。PhilippBergmann等人(Philipp Bergmann,Tim Meinhardt,and Laura Leal-Taixe.2019.Tracking without bells and whistles.InProceedings of the IEEE/CVFInternational Conference on Computer Vision(2019),941-951)利用检测器的回归头部直接实现目标边界框在时间上的修正。Jinlong Peng等人(Jinlong Peng,ChanganWang,Fangbin Wan,Yang Wu,Yabiao Wang and et al.2020.Chained-tracker:Chainingpaired attentive regression results for end-to-end joint multiple-objectdetection and tracking.InProceedings of theEuropean Conference onComputer Vision(2020),145-161)把相邻帧对作为网络输入，在单个回归模型中执行联合检测和跟踪算法，能够进行端到端的检测优化、特征提取。Xingyi Zhou等人(Xingyi Zhou,VladlenKoltun,and Philipp

2020.Tracking objects as points.InProceedings of theEuropean Conference on Computer Vision(2020),474-490)将CenterNet(Xingyi Zhou,Dequan Wang,and Philipp

2019.Objects aspoints.arXiv preprint arXiv:1904.07850)作为基本的检测网络，预测当前帧与前一帧的中心点偏移量以实现多目标跟踪。这类方法无法关联上已被中断的轨迹，导致身份识别频繁转换。

发明内容

本发明的目的在于提供更准确地学习目标中心点位置偏移，缓解身份标识频繁转换等问题，能够应对密集人群及低帧率视频所带来的目标大幅运动、相互遮挡，提升多目标跟踪性能的统一目标运动感知和重识别网络的在线多目标跟踪方法。

所述统一目标运动感知和重识别网络的在线多目标跟踪方法包括以下步骤：

A.将当前帧图像与前一帧图像输入到骨干网络，获得两帧图像的特征图；

B.将前一帧图像的热力图与步骤A提取的两帧图像的特征图同时送入检测与跟踪分支，获得计算当前帧检测结果的热力图和长宽，以及目标的跟踪偏移量；

C.将步骤A获得的两帧图像的特征图送入重识别分支，获得嵌入特征向量，存储于重识别特征向量池中；

D.根据跟踪偏移量，使用数据关联算法对步骤B获得的检测结果进行第一次匹配，将检测结果分为已匹配的检测和未匹配的检测，为已匹配的检测分配对应目标的身份识别；

E.对步骤D获得的未匹配检测结果进行第二次匹配，将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算，根据设定的阈值δ，为不同检测结果分配身份识别，即可获得当前帧最终的跟踪结果。

在步骤A中，所述骨干网络采用DLA-34网络进行改造；DLA-34网络由迭代深度聚合模块和层次深度聚合模块组成；将DLA-34网络的上采样模块中所有普通卷积层换成可形变卷积层，根据不同尺度的目标动态调整感受野；同时，在DLA-34网络的下采样模块中插入目标运动感知模块，使网络更加关注目标偏移信息；所述目标运动感知模块基于自注意力机制，首先，分别使用核为H×1和1×W的平均池化层编码水平和垂直方向上的输入特征，将两个方向上的特征拼接，送入一个1×1的二维卷积层和Sigmoid激活层提取特征，然后拆分该特征，对拆分后的特征使用另外两个1×1的二维卷积层和Sigmoid激活层，提取水平和垂直方向上的特征，最后，将两个方向上的特征作为权重向量作用于原输入特征，经过下采样后得到输出特征。

在步骤B中，所述获得计算当前帧检测结果所需的热力图和长宽，以及目标的跟踪偏移量，具体方法包括以下子步骤：

B1.设当前帧为第t帧，将第t帧图像和第t-1帧图像、热力图输入检测与跟踪分支，基于无锚点的检测网络CenterNet预测第t帧目标中心点位置

和长宽

通过损失L_center回归中心点位置，所述损失L_center计算方式如下：

其中，

分别表示第t帧第i个目标的预测和真实中心点位置，N为当前序列中的目标总数。使用类似的smooth L1损失L_size来回归目标边界框长宽；

B2.基于完全交并比损失，使用损失L_bbox拟合边界框长宽比，进一步约束边界框重叠区域面积和中心点距离；所述损失L_bbox计算方式如下：

其中，φ为预测和真实边界框之间的交并比，d(·)表示两个中心点之间的欧氏距离，σ表示可覆盖两个边界框的最小矩形的对角线长度，系数α和υ用来平衡预测框长宽比与真实框长宽比的一致性；

B3.对第t帧中的每个目标，预测对应中心点的二维跟踪偏移量

所述跟踪偏移量计算方式如下：

B4.通过类似目标中心点和长宽的损失L_offset学习跟踪偏移量，所述损失L_offset计算方式如下：

在网络训练阶段，所述输入图像为视频序列第一帧或图像序列时，可不输入前一帧的图像和热力图，同时，方法允许输入与当前帧间隔τ帧的前序帧，所述τ∈[0,5]。

在步骤C中，所述重识别分支由一个二维卷积层与一个批归一化层组成，用于为每个目标提取一个128维的嵌入特征向量；在重识别网络训练阶段，将嵌入特征向量的学习看成一个二分类问题，划分所有具有相同身份标识的目标为同一类别，使用位置在目标中心点的嵌入特征向量训练；网络学习提取目标的嵌入特征向量E_p，并将该向量映射到一个类别分布向量P＝{ρ(k),k∈[1,K]}中，损失函数L_id定义为：

其中，L_i(k)表示第i个目标的真实类别标签的one-hot编码，K表示类别总数；

在推理阶段，重识别网络从图像中提取每个目标的嵌入特征向量，并存储于重识别特征向量池。

在步骤D中，所述第一次匹配的具体方法如下：

每帧图像经过检测与跟踪分支得到检测结果，根据当前帧预测的跟踪偏移量，使用贪婪匹配算法建立对应目标的帧间关系；在当前帧中，对于成功建立帧间关系的目标，则认为是已匹配的检测，给该检测分配对应的身份识别；反之，则认为是未匹配的检测。

在步骤E中，所述第二次匹配的具体方法如下：

对于第一次未匹配的检测，提取对应的嵌入特征向量，再逐一计算其与重识别特征向量池中的嵌入特征向量的余弦相似度；设定阈值δ，若大于δ，则认为两个特征向量来自同一个目标，进行身份标识重启，为对应的检测分配相同的身份标识，并更新该目标的嵌入特征向量，更新机制为：

其中，

表示第j个未匹配检测中心点处的嵌入特征向量；所述β＝0.1；

若小于δ，则认为两个特征向量来自不同目标，为对应的检测分配新的身份标识，并往重识别特征向量池中增加该特征向量；所述阈值δ＝0.3。

本发明使用统一框架进行目标检测、重识别、关联匹配；在骨干网络中插入目标运动感知模块，增强网络捕获目标位置运动信息的能力，使网络集中于学习更准确地定位感兴趣目标的中心点位置；同时，增加重识别分支，通过简单而有效的重识别网络及二次匹配策略，在不影响检测性能的情况下，增强跟踪器应对密集人群的抗遮挡能力，从而提高多目标跟踪性能。

附图说明

图1为本发明实施例的整体流程图。

图2为本发明实施例的骨干网络图

图3为本发明实施例的目标位置感知模块图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明，本实施例在以本发明技术方案为前提下进行实施，给出实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例的实施方式包括以下步骤：

A.将当前帧图像与前一帧图像输入到骨干网络，获得两帧图像的特征图。

如图2所示，骨干网络采用DLA-34网络进行改造；DLA-34网络由迭代深度聚合模块和层次深度聚合模块组成；将DLA-34网络的上采样模块中所有普通卷积层换成可形变卷积层，根据不同尺度的目标动态调整感受野；如图3所示，在DLA-34网络的下采样模块中插入目标运动感知模块，使网络更加关注目标偏移信息；所述目标运动感知模块基于自注意力机制，首先，分别使用核为H×1和1×W的平均池化层编码水平和垂直方向上的输入特征，将两个方向上的特征拼接，送入一个1×1的二维卷积层和Sigmoid激活层提取特征，然后拆分该特征，对拆分后的特征使用另外两个1×1的二维卷积层和Sigmoid激活层，提取水平和垂直方向上的特征，最后，将两个方向上的特征作为权重向量作用于原输入特征，经过下采样后得到输出特征。

B.将前一帧图像的热力图与步骤A提取的两个特征图同时送入检测与跟踪分支，获得计算当前帧检测结果的热力图和长宽，以及目标的跟踪偏移量。

和长宽

其中，

B3.对第t帧中的每个目标，预测对应中心点的二维跟踪偏移量

所述跟踪偏移量计算方式如下：

C.将步骤A获得的两帧图像的特征图送入重识别分支，获得嵌入特征向量，存储于重识别特征向量池中。

重识别分支由一个二维卷积层与一个批归一化层组成，用于为每个目标提取一个128维的嵌入特征向量；在重识别网络训练阶段，将嵌入特征向量的学习看成一个二分类问题，划分所有具有相同身份标识的目标为同一类别，使用位置在目标中心点的嵌入特征向量训练；网络学习提取目标的嵌入特征向量E_p，并将该向量映射到一个类别分布向量P＝{ρ(k),k∈[1,K]}中，损失函数L_id定义为：

在重识别网络推理阶段，从图像中提取每个目标的嵌入特征向量，并存储于重识别特征向量池。

D.根据跟踪偏移量，使用数据关联算法对步骤B获得的检测结果进行第一次匹配，将检测结果分为已匹配的检测和未匹配的检测，为已匹配的检测分配对应目标的身份识别。

其中，

表1为本发明与其他几种多目标跟踪方法在MOT2017数据集上的比对。表1中加粗结果为各指标的最优结果。其中，TubeTK和MPNTrack为离线方法，DAN、Tracktor、C-Tracker和CenterTrack为在线方法。

从表1的实验结果可以看出，本发明能够准确估计目标的运动，有效缓解身份识别频繁转换问题，从而提升跟踪精度。

表1

TubeTK对应Bo Pang等人提出的方法(Bo Pang,Yizhuo Li,Yifan Zhang,MuchenLi,Cewu Lu.2020.Tubetk:Adopting tubes to track multi-object in a one-steptraining model.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition(2020),6308-6318)；

MPNTrack对应GuillemBraso等人提出的方法(GuillemBraso and Laura Leal-Taixe.2020.Learning a neural solver for multiple object tracking.InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition(2020),6247-6257)；

DAN对应Shijie Sun等人提出的方法(Shijie Sun,Naveed Akhtar,HuanShengSong,Ajmal SMian,and Mubarak Shah.2019.Deep affinity network for multipleobjecttracking.IEEE Transactions on Pattern Analysis and Machine Intelligence43,1(2019),104-119)；

Tracktor对应等人提出的方法(Philipp Bergmann,Tim Meinhardt,and LauraLeal-Taixe.2019.Tracking without bells and whistles.In Proceedings of theIEEE/CVF International Conference on Computer Vision(2019),941-951)；

C-Tracker对应等人提出的方法(Jinlong Peng,Changan Wang,Fangbin Wan,Yang Wu,Yabiao Wang and et al.2020.Chained-tracker:Chaining paired attentiveregression results for end-to-end joint multiple-object detection andtracking.In Proceedings of the European Conference on Computer Vision(2020),145-161)；

CenterTrack对应等人提出的方法(Xingyi Zhou,VladlenKoltun,and Philipp

2020.Tracking objects as points.In Proceedings of the EuropeanConference on Computer Vision(2020),474-490)；

由对比可见，本发明将目标检测、重识别、关联匹配任务结合到统一框架，将目标运动感知模块插入骨干网络中捕获目标位置移动信息，学习目标偏移和尺度变化，更准确地学习目标中心点位置偏移，为后续跟踪偏移量的学习提供鲁棒特征；再通过重识别分支学习并提取目标的嵌入特征向量，采用二次匹配策略缓解身份标识频繁转换的问题。本发明能够应对密集人群及低帧率视频所带来的目标大幅运动、相互遮挡等问题，从而提升多目标跟踪的性能。

Claims

1.统一目标运动感知和重识别网络的在线多目标跟踪方法，其特征在于包括以下步骤：

B.将前一帧图像的热力图与步骤A提取的两个特征图同时送入检测与跟踪分支，获得计算当前帧检测结果所需的热力图和长宽，以及目标的跟踪偏移量；

所述获得计算当前帧检测结果所需的热力图和长宽，以及目标的跟踪偏移量进一步包括以下子步骤：

和长宽

其中，

分别表示第t帧第i个目标的预测和真实中心点位置，N为当前序列中的目标总数；使用smooth L1通过损失L_size来回归目标边界框长宽；

其中，φ为预测和真实边界框之间的交并比，d(·)表示两个中心点之间的欧氏距离，σ表示覆盖两个边界框的最小矩形的对角线长度，系数α和υ用来平衡预测框长宽比与真实框长宽比的一致性；

B3.对第t帧中的每个目标，预测对应中心点的二维跟踪偏移量

所述跟踪偏移量计算方式如下：

B4.通过目标中心点和长宽的损失L_offset学习跟踪偏移量，所述损失L_offset计算方式如下：

在网络训练阶段，输入图像为视频序列第一帧或图像序列时，可不输入前一帧的图像和热力图，同时，方法允许输入与当前帧间隔τ帧的前序帧，所述τ∈[0,5]；

E.对步骤D获得的未匹配检测结果进行第二次匹配，将未匹配检测结果与步骤C获得的嵌入特征向量逐一进行相似性计算，根据设定的阈值δ，为不同检测结果分配身份识别，即获得当前帧最终的跟踪结果。

2.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法，其特征在于在步骤A中，所述骨干网络采用DLA-34网络进行改造；DLA-34网络由迭代深度聚合模块和层次深度聚合模块组成；将DLA-34网络的上采样模块中所有普通卷积层换成可形变卷积层，根据不同尺度的目标动态调整感受野；同时，在DLA-34网络的下采样模块中插入目标运动感知模块，使网络更加关注目标偏移信息；所述目标运动感知模块基于自注意力机制，首先，分别使用核为H×1和1×W的平均池化层编码水平和垂直方向上的输入特征，将两个方向上的特征拼接，送入一个1×1的二维卷积层和Sigmoid激活层提取特征，然后拆分该特征，对拆分后的特征使用另外两个1×1的二维卷积层和Sigmoid激活层，提取水平和垂直方向上的特征，最后，将两个方向上的特征作为权重向量作用于原输入特征，经过下采样后得到输出特征。

3.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法，其特征在于在步骤C中，所述重识别分支由一个二维卷积层与一个批归一化层组成，用于为每个目标提取一个128维的嵌入特征向量；在重识别网络训练阶段，将嵌入特征向量的学习看成一个二分类问题，划分所有具有相同身份标识的目标为同一类别，使用位置在目标中心点的嵌入特征向量训练；网络学习提取目标的嵌入特征向量E_p，并将该向量映射到一个类别分布向量P＝{ρ(k),k∈[1,K]}中，损失函数L_id定义为：

4.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法，其特征在于在步骤D中，所述第一次匹配的具体方法如下：

5.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法，其特征在于在步骤E中，所述第二次匹配的具体方法如下：

其中，

6.如权利要求1所述统一目标运动感知和重识别网络的在线多目标跟踪方法，其特征在于使用统一框架进行目标检测、重识别、关联匹配；在骨干网络中插入目标运动感知模块，增强网络捕获目标位置运动信息的能力，使网络集中于学习更准确地定位感兴趣目标的中心点位置；同时，增加重识别分支，通过简单而有效的重识别网络及二次匹配策略，在不影响检测性能的情况下，增强跟踪器应对密集人群的抗遮挡能力，从而提高多目标跟踪性能。