CN113971688B - 一种增强id重识别的无锚多目标跟踪方法 - Google Patents
一种增强id重识别的无锚多目标跟踪方法 Download PDFInfo
- Publication number
- CN113971688B CN113971688B CN202111299711.XA CN202111299711A CN113971688B CN 113971688 B CN113971688 B CN 113971688B CN 202111299711 A CN202111299711 A CN 202111299711A CN 113971688 B CN113971688 B CN 113971688B
- Authority
- CN
- China
- Prior art keywords
- target
- center point
- tracking
- detection
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种增强ID重识别的无锚多目标跟踪方法,属于目标跟踪领域。本发明通过预测目标中心点热力图来检测目标位置,并设计检测偏差损失加强对预测热力图响应值的约束,以提高检测精度,缓解因定位不准确导致的Re‑ID特征模糊问题。其次,为增强Re‑ID鲁棒性,提出Re‑ID可学习特征动态扩充策略。该策略通过自适应增加目标中心的Re‑ID可学习特征来提高特征质量,并减小Re‑ID对中心点检测精度的依赖。最后在MOT16和MOT17测试集上进行验证,结果表明,算法能有效提升检测和Re‑ID性能,与主流算法相比具有更好的跟踪效果,且兼顾了实时性,达到25.6FPS。
Description
技术领域
本发明属于目标跟踪领域,具体涉及增强ID重识别的无锚多目标跟踪方法。
背景技术
多目标跟踪(Multi Object Tracking,MOT)是计算机视觉领域中的重要任务之一。其目的是同时识别与跟踪视频中的多个目标,并为每个目标分配唯一且长时间有效的ID编号,以获得目标的运动轨迹。根据使用视频序列的方式,可将多目标跟踪分为在线多目标跟踪和离线多目标跟踪两类。前者在跟踪时仅使用视频过去和当前的图像信息,与人眼实时跟踪目标的过程类似。后者则需要使用一段完整的视频及其检测信息,根据全局信息对目标进行匹配关联,获得运动轨迹。虽然离线跟踪能利用全局信息获得较好的跟踪效果,但在线跟踪更符合现实应用场景,也是目前多目标跟踪的热门研究方向。但由于目标尺度变换和频繁遮挡等问题,在线多目标跟踪中仍存在一些难点。
随着深度学习在图像领域的快速发展,目标检测算法的精度不断提高,很多学者选择基于检测的跟踪策略(Tracking by Detection,TBD)。TBD将跟踪任务分为两步:首先进行目标检测并初始化轨迹,再利用Re-ID算法和匹配算法把后续检测结果与现有轨迹连接,最终得到目标的完整运动轨迹。得益于高精度检测器与Re-ID算法的结合,TBD方法获得了不错的跟踪性能。但这种two-step方法的检测和IDembedding(Re-ID特征)提取过程是分离的(Separate Detection and Embedding,SDE),需要在检测和匹配过程分别对图像进行特征提取,比较耗时,达不到实时效果。为提高跟踪效率,一种采用共享特征提取网络的JDE(Joint Detectionand Embedding)范式被广泛使用。JDE方法将目标检测和Re-ID中的embedding提取模块集成到单一网络中,使用多任务训练,能并行输出目标检测信息和Re-ID特征,完成跟踪任务。此类one-shot方法通过单一网络的共享学习,避免了特征重复提取的冗余计算,达到接近实时的跟踪效果。但one-shot方法需要在单一网络中提取检测和表观两种不同的特征,很难使两个任务同时达到最好的效果,因此其跟踪精度往往低于two-step方法。FairMOT【ZHANG Y,WANG C,WANG X,et al.Fairmot:On the fairness ofdetection and re-identification in multiple object tracking[J].arXiv preprintarXiv:2004.01888,2020.】指出anchor-based检测器存在回归检测框歧义等问题,不适于JDE方法,并提出使用基于无锚检测的CenterNet作为检测器,减小Re-ID特征的模糊性,进一步提升了跟踪精度,并达到实时要求。
但由于FairMOT是基于中心点的跟踪算法,仅在目标中心位置设置Re-ID可学习特征,导致特征质量不高,在目标尺度变换或被遮挡时容易发生ID切换和漏跟。同时Re-ID任务过分依赖于检测精度,若检测器未准确命中目标中心点,则会影响ID识别效果,跟踪的鲁棒性不强。针对此问题,本发明提出基于热力图的Re-ID可学习特征动态分布方法,如图1所示。该方法能够根据目标真实热力图对Re-ID可学习特征的分布做自适应调整,减小Re-ID对检测任务的依赖。其次,虽然CenterNet将目标热力图响应值设置为高斯分布缓解了正负样本不均衡问题,但使检测任务变为两个高斯分布的逼近,容易使预测中心点发生偏移。本发明通过设计中心点检测偏差损失,增加预测点到目标真值位置的距离约束,使预测热力图高响应值向目标真值位置逼近,提升了检测效果和Re-ID可学习特征的命中率。最后算法在MOT16和MOT17数据集上测试,在保持较高跟踪速度的情况下获得了更高的跟踪精度。
发明内容
本发明提供一种增强ID重识别的无锚多目标跟踪方法采用one-shot方法,使用CenterNet作为检测器,并增强基于中心点的检测和Re-ID性能,在几乎不增加在线跟踪计算成本的情况下,获得了更好的跟踪效果。
本发明的技术方案:
一种增强ID重识别的无锚多目标跟踪方法,步骤如下:
步骤1、使用opencv读取视频为图片;
步骤2、对图像进行尺寸调整,统一调整为同样大小;优选的为大小1088*608;
步骤3、对调整大小后的图像使用增强DLA34网络进行特征提取,得到特征图;
步骤4、对特征图进行目标检测及目标ID重识别
(1)使用heatmap预测头得到目标中心点热力图并估计目标中心点位置;
(2)使用box预测头估计目标中心点到检测框四条边的距离;
(3)使用offset预测头估计目标中心点的偏移补偿;
(4)使用Re-ID预测头对每个特征点提取128维身份特征向量,再利用heatmap的定位信息获得目标中心点对应的特征向量,用于ID重识别;
步骤5、对目标进行跟踪。
所述的步骤3具体为:(1)使用卷积神经网络对图像进行下采样,得到图像下采样倍数为4、8、16、32的多尺度特征图;(2)使用多层跳跃连接对下采样后的多尺度特征图进行跳跃连接,对图像特征进行融合,得到融合特征;在进行多层跳跃连接的过程中需要:先使用可变形卷积网络处理多尺度特征图,自适应调整多尺度特征图的目标感受野;然后使用反卷积神经网络对调整后的多尺度特征图进行上采样,上采样的结果与下采样结果中相同倍数的特征图进行融合;再使用可变形卷积网络处理融合特征,自适应调整融合特征的目标感受野。
所述的步骤4中的(1)具体如下:
heatmap预测头的输出大小为272×152的热力图,用于估计目标中心点位置;其中每个响应值代表当前位置为目标中心点的概率值,范围为[0,1];概率值越逼近1,则该位置为目标中心点的概率越大;
每个目标的真值GT由heatmap定义为以目标中心点为中心的高斯分布,中心点处响应值为1,其余位置响应值随其距中心点距离呈指数衰减;设图像上第i个目标的中心坐标为(xi,yi),则目标在heatmap上的坐标为:
heatmap任意点(x,y)处的响应值计算为:
其中,N为图像中目标个数,σc为标准差;
Heatmap预测损失定义为预测响应值与GT响应值误差;使用focal loss来减小样本不均匀的影响,损失计算定义如下:
其中为heatmap预测响应值,α和β为focalloss预设参数;
Heatmap检测偏差:
将预测位置到对应GT位置的距离定义为距离偏差,采用就近原则为每个预测位置选择对应的GT目标来计算损失;具体为:对预测heatmap上每个高响应位置选择最近的GT位置,即响应值为1的坐标位置,并计算两者之间的L2距离作为距离偏差损失;设置响应阈值λ=0.5,用于筛选高响应值,保证对检测偏差的有效约束,损失计算定义如下:
其中M为预测响应值大于λ的数量,为预测目标位置,/>为GT位置坐标集合;同时,对偏差损失添加线性增强系数,以保证在达到好的检测效果时逐步增加约束;最终heatmap loss定义如下:
其中μ=0.1用于平衡损失;
所述的步骤4中的(2)和(3)具体如下:
Box head用于估计目标中心点到检测框四条边的距离;Offsethead用于估计目标中心点的偏移补偿;所述的偏移补偿是式(1)取整时产生的精度损失:
损失函数使用L1距离,定义如下:
其中,oi和li分别是中心点偏移补偿和四条边距真值,和/>为预测值;
所述的步骤4中的(4)中,Re-ID预测头:以GT位置为中心设置3×3的方格作为Re-ID可学习特征的可扩充范围,取Re-ID阈值θ=0.5,将可扩充范围内响应值大于阈值的位置设为可学习特征;可学习特征的扩充范围应根据数据集的目标大小设置;Re-ID损失:为在连续视频图像中准确识别同一目标,通过Re-ID预测头提取特征图F∈R128×272×152,并以目标中心处特征向量Fx,y∈R128的相似度来区分目标;因此将Re-ID作为分类任务进行训练,数据集中ID相同的目标视为同一类;损失计算仅使用ID真值处的分类结果,将真值处目标特征向量Fx,y经过一个线性分类层,得到其对每个ID分类的概率值P={p(k),k∈[1,K]},其中K为类别个数,即ID总数;Re-ID损失计算如下:
其中Yi(k)表示第i个目标的真实ID概率分布;
所述的步骤5具体过程为:在目标中心点热力图中,使用检测阈值获取预测目标中心点位置集合及该位置是目标中心点的概率值;使用非极大值抑制对预测目标中心点位置及该位置是目标中心点的概率值进行筛选,得到最终的预测目标中心点位置;利用最终的预测目标中心点位置获得目标位置掩膜;使用目标位置掩膜配对检测信息,获得目标检测框;使用第一帧图像的目标检测框初始化跟踪轨迹;对当前帧和轨迹中每对目标使用Re-ID特征向量的余弦距离计算代价矩阵;使用卡尔曼滤波器将运动模型加入代价矩阵;利用代价矩阵和跟踪阈值获得与轨迹匹配的目标,更新轨迹;利用当前图像目标和上一帧目标检测框交并比获得新的匹配,更新轨迹;为新检测的目标建立新轨迹;利用时间阈值抛弃长时间未更新的轨迹;更新轨迹状态并重复跟踪过程,直到视频结束。
本发明的有益效果:视频多目标跟踪是计算机视觉领域中一个重要的研究领域,具有智能监视、人机交互、行为识别、机器人导航和自动驾驶等多种应用。本发明提高了实时跟踪效果,促进了视频多目标跟踪应用的发展。
附图说明
图1为模型结构;
图2为DLA34网络特征提取示意图;
图3为预测热力图;
图4为Re-ID可学习特征自适应扩充;
图5为跟踪效果对比图。
具体实施方式
以下根据附图及实施例对本发明的技术方案进行进一步的说明。
1、相关工作
目前在线多目标跟踪方法主要分为two-step和one-shot两种类型。其中two-step为两步式,即先检测后跟踪,使用高性能目标检测器检测目标位置,再利用匹配算法对检测到的目标进行关联,获得目标轨迹。例如Sort算法使用Faster R-CNN作为检测器,结合卡尔曼滤波算法与匈牙利算法进行数据关联,高质量的检测结果使跟踪性能大幅提高。DeepSort算法使用YOLOv3作为检测器,在Sort的基础上引入Re-ID外观模型和运动模型,提高了跟踪鲁棒性。Re-ID模型利用卷积神经网络提取检测框内目标128维外观特征,并计算不同外观特征间的余弦距离作为相似度参考,使匹配算法更加鲁棒。运动模型利用马氏距离计算卡尔曼滤波器的追踪分布与检测框之间的不确定度,可以排除关联性较差的目标。由于two-step方法可以对检测算法和匹配算法单独训练,两个任务可以分别得到最优模型,使算法有较高的跟踪精度。但跟踪过程需要两个模型依次处理,难以达到实时效果。
随着多任务学习的快速发展,更多学者开始关注one-shot多目标跟踪。其目的是在一个单一网络中并行输出目标的检测结果和Re-IDembedding特征,以端到端的方式提取视频序列中的跟踪信息,提高跟踪效率。一个实现one-shot MOT的简单有效方法是在检测器顶端添加与检测头并行的Re-ID模块,使其与检测器共享特征提取网络。现有one-shot算法大多采用上述方法,例如Track-RCNN在MaskR-CNN检测器顶端添加全连接层,可以同时为每个提议回归检测框和Re-ID特征,但MaskR-CNN是两阶段目标检测器,仍达不到实时效果。JDE在单阶段检测器YOLOv3上添加Re-ID模块,不仅达到领先two-step方法的跟踪精度,而且有接近实时的跟踪效果。FairMOT采用基于anchor-free的CenterNet,超越了two-step方法的跟踪精度,并实现了真正的实时跟踪。
2、模型
本发明同样采用上述one-shot方法,使用CenterNet作为检测器,并添加与检测头并行的增强Re-ID模块,使其与检测器共享特征提取网络,如图1所示。其中EnhancedRe-ID通过扩大Re-ID可学习特征范围来提高特征向量质量,从而增强Re-ID效果。同时模型对预测heatmap响应值进行约束,以提高中心点检测精度,从而更准确的命中可学习特征位置,增强Re-ID效果。
2.1骨干网络
检测任务需要深层的抽象特征进行目标定位,而Re-ID任务需要浅层的表观特征以区分不同实体,在单个网络中两种任务对特征提取的需求存在矛盾。因此,本发明骨干网络采用增强特征融合的DLA34模型,通过多个低维特征与高维特征的跳跃连接,获得多层融合特征,缓解上述矛盾。输入图像大小统一为1088×608,输出大小为64×272×152的特征图。
2.2检测模块
检测模块由Heatmaphead、Offsethead和Box head三个预测头组成,每个预测头包含一个3×3的卷积层和一个1×1的卷积层,分别对目标中心点、中心点偏移补偿和中心点到box边框的距离进行预测,得到检测结果。
2.2.1Heatmaphead
Heatmaphead输出大小为272×152的热力图,用于估计目标中心点位置。其中每个响应值代表当前位置为目标中心点的预测概率,范围为[0,1]。预测值越逼近1,则该位置为目标中心点的概率越大。每个目标的真值(ground-truth,GT)heatmap定义为以目标中心点为中心的高斯分布,中心点处响应值为1,其余位置响应值随其距中心点距离呈指数衰减。设图像上第i个目标的中心坐标为(xi,yi),则目标在heatmap上的坐标为,
heatmap任意点(x,y)处的响应值计算为,
其中N为图像中目标个数,σc为标准差。
Heatmap预测损失定义为预测响应值与GT响应值误差。由于heatmap正负样本数量相差较大,使用focal loss来减小样本不均匀的影响,损失计算定义如下:
其中为heatmap预测响应值,α和β为focalloss预设参数,分别取2和4。
2.2.2Heatmap检测偏差
通过heatmap预测目标中心点容易出现预测位置偏移,无法准确命中目标GT位置的情况。图3为一目标的预测热力图,其中数字为预测响应值,第三行第4列标记为目标GT位置(响应值为1),阴影(第一行第3、4、5列,第二行第3、5、6列,第三行第3、5列)标记为大于检测阈值0.3的响应位置,第二行第4列标记为最高响应值。可以看出大于0.8的高响应值都未在GT位置,存在偏差。这样不仅影响检测精度,同样影响ID识别效果。为解决该问题,本发明将预测位置到对应GT位置的距离定义为距离偏差,并以高响应值的平均距离偏差构建损失函数,来抑制非GT位置的预测响应值大小,使预测位置更接近GT,进一步提高检测精度,如图1中Improvedheatmap所示。
考虑到heatmap通过预测响应值来检测目标位置,无需保证预测位置与GT目标的对应关系,因此采用就近原则为每个预测位置选择对应的GT目标来计算损失。具体为,对预测heatmap上每个高响应位置选择最近的GT位置(响应值为1的坐标位置),并计算两者之间的L2距离作为距离偏差损失。设置响应阈值λ=0.5,用于筛选高响应值,保证对检测偏差的有效约束,损失计算定义如下:
其中M为预测响应值大于λ的数量,为预测目标位置,/>为GT位置坐标集合。同时,考虑到检测偏差损失是对高响应值的约束,而训练初期预测heatmap效果较差,此时进行约束会导致Lp无法快速收敛,影响检测效果。因此,对偏差损失添加线性增强系数,以保证在达到较好的检测效果时逐步增加约束。最终heatmap loss定义如下:
其中μ=0.1用于平衡损失。从上式可以看出当Lp较大时,系数较小,因此Ld对Lhm几乎无影响。但随着Lp不断减小,检测偏差损失会逐渐增加约束力度,使约束过程更加平滑,获得更好的效果。
2.2.3 Offsethead和Boxhead
Box head用于估计目标中心点到检测框四条边的距离。Offsethead用于估计目标中心点的偏移补偿。这里的偏移补偿是在求目标中心点坐标时,取整操作产生的精度损失:
损失函数使用L1距离,定义如下:
其中oi和li分别是中心点偏移补偿和四条边距真值,和/>为预测值。
2.3 Re-ID模块
Re-IDhead为每个特征点输出一个128维的特征向量,再利用heatmap的定位信息获得目标中心点对应的特征向量,用于ID重识别。如图1中EnhancedRe-ID所示,本发明通过扩大Re-ID可学习特征范围来提高IDembedding特征向量质量,进而增强重识别效果。
2.3.1Re-ID可学习特征扩充
由于中心点检测存在检测偏差,仅在GT处设置Re-ID可学习特征进行训练会增大Re-ID对检测精度的依赖,若未命中可学习特征将直接影响跟踪效果。如图3中第二行第4列标记的最高响应并未命中GT处的Re-ID特征,这种定位信息的微小偏差也会降低Re-ID特征质量,影响ID重识别效果。显然,扩大目标Re-ID可学习特征范围可以缓解上述问题,提高命中机率。考虑到检测偏差仅在GT位置附近,范围较小,且可学习特征增加需对多尺度目标自适应,因此本发明提出一种Re-ID可学习特征基于GT热力图的自适应扩充方法。具体如下,以GT位置为中心设置3×3的方格作为可扩充范围,取Re-ID阈值θ=0.5,将可扩充范围内响应值大于阈值的位置设为可学习特征,如图4所示。其中左图阴影标记为3×3的可扩充范围,右图阴影标记为Re-ID可学习特征。
可学习特征的扩充范围应根据数据集的目标大小设置,MOT17训练集有76.5%的目标可扩充范围在3×3以内。因此将该范围设置为3×3可以满足大部分目标,若继续增大范围,则容易产生相近目标的ID歧义,即特征向量对不同目标的归属问题。经过可学习特征扩充,可以提高Re-ID对检测偏差的容忍度,保证Re-ID特征质量,使ID重识别更具鲁棒性。
2.3.2Re-ID损失
为在连续视频图像中准确识别同一目标,Re-ID模块通过Re-ID head提取特征图F∈R128×272×152,并以目标中心处特征向量Fx,y∈R128的相似度来区分目标。因此将Re-ID作为分类任务进行训练,数据集中ID相同的目标视为同一类。损失计算仅使用ID真值处的分类结果,将真值处目标特征向量Fx,y经过一个线性分类层,得到其对每个ID分类的概率值P={p(k),k∈[1,K]},其中K为类别个数,即ID总数。Re-ID损失计算如下:
其中Yi(k)表示第i个目标的真实ID概率分布。
2.4多任务训练
为同时训练检测任务和Re-ID任务,使用不确定性损失动态平衡两个任务,计算如下:
Ldet=Lhm+Lbox (17)
其中ω1和ω2为可学习参数,用于平衡任务。
2.5在线跟踪
在线跟踪过程是在初始化轨迹后,利用连续帧目标Re-ID特征相似度和目标检测框重叠信息等,将后续检测到的目标关联到现有轨迹,完成对视频流中每个目标的轨迹检测。具体如下,网络输入大小为1088×608的视频流,并输出每一帧图像的检测结果和目标Re-ID特征。首先根据第一帧图像的检测框初始化轨迹,然后计算现有轨迹与后续目标的Re-ID特征余弦距离和目标检测框交并比,再利用匈牙利算法完成匹配。此外还利用卡尔曼滤波器预测现有轨迹在当前帧中的位置,提高匹配精度。若当前轨迹与匹配目标相隔距离超出阈值,则放弃对此目标的连接。当现有轨迹未连接新目标的时间超过一定阈值,则视该轨迹结束,不再对其更新。
3、实施例
3.1数据集和评估指标
3.1.1数据集
实验使用MOT17训练集进行训练,使用MOT16训练集验证算法有效性,并在MOT16和MOT17测试集上评估算法性能。所有测试集评估结果均来自MOT Challenge官方评估网站。
3.1.2评估指标
使用MOT Challenge Benchmark的评价算法进行评估,所采用的评价指标如下:
多目标跟踪准确度(Multiple Object Tracking Accuracy,MOTA),同时参考误检、漏检和ID切换等指标,能够直观的衡量算法检测并保持目标轨迹的性能;
识别F1值(Identification F1 Score,IDF1),用于衡量ID识别准确率与召回率之间的平衡性,评估跟踪器的ID识别性能;
命中轨迹比(Mostly Tracked Targets,MT),定义为跟踪轨迹占真实轨迹长度80%以上的轨迹数与轨迹总数之比;
丢失轨迹比(Mostly Lost Targets,ML),定义为跟踪轨迹占真实轨迹长度20%以下的轨迹数与轨迹总数之比;
目标ID切换总数(Identity Switches,IDs);
帧率(FPS)。
3.2实验环境及训练细节
实验硬件环境为搭载Intel Xeon CPU E5-2650 v4、2.2GHz处理器和Tesla K80显卡的深度学习服务器。在单个NVIDIA RTX 2080Ti GPU上测试运行帧率。软件环境为64位Centos7操作系统下的Pytorch深度学习框架。
实验使用CenterNet在COCO数据集上的目标检测模型参数初始化算法模型。采用Adam优化器,在MOT17数据集训练35个epoch,batch size设置为12,初始学习率设置为e-4,在第25个epoch衰减为e-5。输入图像大小统一为1088×608,并使用旋转、缩放和颜色抖动等标准数据增强技术进行预处理。
3.3实验结果
首先对检测偏差损失的响应阈值λ和Re-ID阈值θ的选取进行探讨,并通过实验分析选取不同阈值对跟踪效果的影响。阈值λ用于对非GT位置的高响应值进行约束,若选取过高,则对检测偏差的约束力度较小,检测效果提升不明显。相反,若阈值λ较低,则会过早对中心点偏差进行约束,影响检测任务的初期训练,且对低响应位置约束的意义不大。阈值θ用于判断Re-ID可学习特征的扩充范围,过高则会使特征扩充偏向于大目标,无法提升小目标的重识别效果。而目标经过四倍下采样后的特征图可能小于九个特征点,若θ较小,扩充范围过大则会给Re-ID特征带来噪声,影响ID重识别效果。为研究不同阈值对跟踪效果的影响,实验选择0.5作为阈值,上下波动0.1进行对比,结果如表1和表2所示,其中阈值1为原始效果。
表1热力图响应阈值对比
由表1可知,热力图响应阈值选择0.5时有最好的跟踪效果,虽然检测能力的提升带来更多的ID切换,但提高了目标中心Re-ID可学习特征的命中概率,有更好的跟踪效果。响应阈值减小会使整体跟踪效果下降,因为小阈值不仅会影响初期检测训练,而且增大了约束范围。这使模型将重心放在对中小响应值的约束上,缺少对高响应值的关注,没有实现高响应值向GT位置靠拢。因此阈值选择0.4时MOTA没有明显提升,反而识别效果受到影响,导致IDF1下降。阈值选择0.6时与检测相关的MOTA有一些提升,IDF1也随之升高,但提升效果不如阈值0.5。因为增大阈值会对高响应值有更好的约束,但小目标的预测响应值较小,高阈值容易忽略对小目标的约束,使跟踪效果变差。因此热力图响应阈值选择0.5。
表2 Re-ID阈值对比
由表2可知,Re-ID阈值选择0.5时有最高的身份识别F1值和轨迹命中率,同时也有较高的跟踪准确度,综合跟踪效果最好。减小阈值会增大Re-ID可学习特征扩充幅度,不仅给小目标的Re-ID特征带来周围环境噪声,降低身份识别效果,而且会影响检测特征质量,使跟检测果变差。因此阈值选择0.4时,虽然Re-ID效果有提升,但MOTA降低。相反,增大阈值容易忽略小目标的可学习特征扩充,ID重识别能力提升不够全面,所以阈值0.6的ID重识别效果提升不如阈值0.5。
同时,由于视频序列中经常存在目标由远及近或由近及远的尺度变换和频繁遮挡等场景,若算法ID重识别能力不强,容易发生目标跟丢的情况,导致轨迹命中率较低。如表2中阈值0.5和0.6的对比,阈值取0.6时对大目标有更好的跟踪效果,因此预测轨迹小于20%的情况较少,轨迹丢失率ML较低。但当发生上述尺度变换或遮挡时,目标ID无法长久保持,使预测轨迹大于80%的轨迹数变少,轨迹命中率不高。因此综合考虑,Re-ID可学习特征阈值同样选择0.5。
因主流算法测试所用数据集不同,为充分验证本发明算法性能,分别在MOT16和MOT17测试集上与相应算法对比,如表3和表4所示。其中星号标记为one-shot方法,其余为two-step方法,MOT17标注为仅使用MOT17训练集进行训练,未使用额外数据。表中引用数据均直接引自相应文献,所有测试结果均来自MOT Challenge官方评估网站。
可以看出,two-step方法不仅有较高的跟踪精度,且得益于Re-ID模块的单独训练,有更少的ID切换,但Fps很低,达不到实时跟踪。与two-step相比,One-shot方法的跟踪速度有明显提高,同时有领先two-step方法的跟踪效果。本发明算法与不同two-step和one-shot算法对比,都有较高的跟踪精度和ID识别效果。虽然ID切换次数较多,但有较高的轨迹命中率MT和更低的轨迹丢失率ML。其中CenterTrack和FairMOT都是基于中心点检测的无锚多目标跟踪算法,本发明针对中心点检测在MOT中存在的检测偏差和Re-ID可学习特征不充足等问题进行改善,获得了更好的跟踪效果。由于FairMOT未提供使用MOT17训练的完整测试结果,缺少MT和ML,为充分对比测试效果,在表4中增加了复现结果。复现数据相比引用数据有一些浮动,但整体效果相似,结果表明本发明算法依然有更好的跟踪效果。同时因提出算法仅针对训练过程进行优化,未增加在线跟踪过程的计算成本,所以仍有较高的跟踪速度,兼顾了实时性与准确性。
表3不同算法在MOT16测试集上的对比
表4不同算法在MOT17测试集上的对比
为验证算法增强ID重识别的有效性,在MOT16数据集上做增强前后的可视化对比分析。如图5所示,增强前每组目标在经过尺度变化或多次遮挡后发生ID切换,使目标轨迹无法长久保持,导致跟踪效果下降。通过Re-ID可学习特征动态扩充和中心点检测偏差约束增强后,每组目标均能继续保持轨迹,证明提出算法有效改善了尺度变化和频繁遮挡等对目标识别的影响,提高了跟踪鲁棒性。
本发明提出一种增强ID重识别的无锚多目标跟踪算法。该算法以CenterNet为检测器,使用中心点检测偏差构建损失函数,实现对预测热力图响应值的平滑约束,缓解了检测中心点偏移情况,从而增加Re-ID可学习特征的命中率,提升Re-ID效果。此外,采用基于热力图动态扩充的方法增加Re-ID可学习特征,通过提高特征质量来降低尺度变换和频繁遮挡等对ID识别的影响,同时减轻Re-ID对检测性能的依赖,增强鲁棒性。最后实验结果和可视化分析表明,提出算法能有效提高Re-ID性能,具有更好的跟踪效果,且达到实时性要求。
Claims (4)
1.一种增强ID重识别的无锚多目标跟踪方法,其特征在于,步骤如下:
步骤1、使用opencv读取视频为图片;
步骤2、对图像进行尺寸调整,统一调整为同样大小;
步骤3、对调整大小后的图像使用增强DLA34网络进行特征提取,得到特征图;
步骤4、对特征图进行目标检测及目标ID重识别
(1)使用heatmap预测头得到目标中心点热力图并估计目标中心点位置;
(2)使用box预测头估计目标中心点到检测框四条边的距离;
(3)使用offset预测头估计目标中心点的偏移补偿;
(4)使用Re-ID预测头对每个特征点提取128维身份特征向量,再利用heatmap的定位信息获得目标中心点对应的特征向量,用于ID重识别;
步骤5、对目标进行跟踪;
所述的步骤4中的(1)具体如下:
heatmap预测头的输出大小为272×152的热力图,用于估计目标中心点位置;其中每个响应值代表当前位置为目标中心点的概率值,范围为[0,1];概率值越逼近1,则该位置为目标中心点的概率越大;
每个目标的真值GT由heatmap定义为以目标中心点为中心的高斯分布,中心点处响应值为1,其余位置响应值随其距中心点距离呈指数衰减;设图像上第i个目标的中心坐标为(xi,yi),则目标在heatmap上的坐标为:
heatmap任意点(x,y)处的响应值计算为:
其中,N为图像中目标个数,σc为标准差;
Heatmap预测损失定义为预测响应值与GT响应值误差;使用focal loss来减小样本不均匀的影响,损失计算定义如下:
其中为heatmap预测响应值,α和β为focalloss预设参数;
Heatmap检测偏差:
将预测位置到对应GT位置的距离定义为距离偏差,采用就近原则为每个预测位置选择对应的GT目标来计算损失;具体为:对预测heatmap上每个高响应位置选择最近的GT位置,即响应值为1的坐标位置,并计算两者之间的L2距离作为距离偏差损失;设置响应阈值λ=0.5,用于筛选高响应值,保证对检测偏差的有效约束,损失计算定义如下:
其中M为预测响应值大于λ的数量,为预测目标位置,/>为GT位置坐标集合;同时,对偏差损失添加线性增强系数,以保证在达到好的检测效果时逐步增加约束;最终heatmap loss定义如下:
其中μ=0.1用于平衡损失;
所述的步骤4中的(4)中,Re-ID预测头:以GT位置为中心设置3×3的方格作为Re-ID可学习特征的可扩充范围,取Re-ID阈值θ=0.5,将可扩充范围内响应值大于阈值的位置设为可学习特征;可学习特征的扩充范围应根据数据集的目标大小设置;Re-ID损失:为在连续视频图像中准确识别同一目标,通过Re-ID预测头提取特征图F∈R128×272×152,并以目标中心处特征向量Fx,y∈R128的相似度来区分目标;因此将Re-ID作为分类任务进行训练,数据集中ID相同的目标视为同一类;损失计算仅使用ID真值处的分类结果,将真值处目标特征向量Fx,y经过一个线性分类层,得到其对每个ID分类的概率值P={p(k),k∈[1,K]},其中K为类别个数,即ID总数;Re-ID损失计算如下:
其中Yi(k)表示第i个目标的真实ID概率分布。
2.根据权利要求1所述的一种增强ID重识别的无锚多目标跟踪方法,其特征在于,所述的步骤3具体为:(1)使用卷积神经网络对图像进行下采样,得到图像下采样倍数为4、8、16、32的多尺度特征图;(2)使用多层跳跃连接对下采样后的多尺度特征图进行跳跃连接,对图像特征进行融合,得到融合特征;在进行多层跳跃连接的过程中需要:先使用可变形卷积网络处理多尺度特征图,自适应调整多尺度特征图的目标感受野;然后使用反卷积神经网络对调整后的多尺度特征图进行上采样,上采样的结果与下采样结果中相同倍数的特征图进行融合;再使用可变形卷积网络处理融合特征,自适应调整融合特征的目标感受野。
3.根据权利要求1所述的一种增强ID重识别的无锚多目标跟踪方法,其特征在于,所述的步骤4中的(2)和(3)具体如下:
Box head用于估计目标中心点到检测框四条边的距离;Offsethead用于估计目标中心点的偏移补偿;所述的偏移补偿是式(1)取整时产生的精度损失:
损失函数使用L1距离,定义如下:
其中,oi和li分别是中心点偏移补偿和四条边距真值,和/>为预测值。
4.根据权利要求1所述的一种增强ID重识别的无锚多目标跟踪方法,其特征在于,所述的步骤5具体过程为:在目标中心点热力图中,使用检测阈值获取预测目标中心点位置集合及该位置是目标中心点的概率值;使用非极大值抑制对预测目标中心点位置及该位置是目标中心点的概率值进行筛选,得到最终的预测目标中心点位置;利用最终的预测目标中心点位置获得目标位置掩膜;使用目标位置掩膜配对检测信息,获得目标检测框;使用第一帧图像的目标检测框初始化跟踪轨迹;对当前帧和轨迹中每对目标使用Re-ID特征向量的余弦距离计算代价矩阵;使用卡尔曼滤波器将运动模型加入代价矩阵;利用代价矩阵和跟踪阈值获得与轨迹匹配的目标,更新轨迹;利用当前图像目标和上一帧目标检测框交并比获得新的匹配,更新轨迹;为新检测的目标建立新轨迹;利用时间阈值抛弃长时间未更新的轨迹;更新轨迹状态并重复跟踪过程,直到视频结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299711.XA CN113971688B (zh) | 2021-11-04 | 2021-11-04 | 一种增强id重识别的无锚多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111299711.XA CN113971688B (zh) | 2021-11-04 | 2021-11-04 | 一种增强id重识别的无锚多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113971688A CN113971688A (zh) | 2022-01-25 |
CN113971688B true CN113971688B (zh) | 2023-09-26 |
Family
ID=79589870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111299711.XA Active CN113971688B (zh) | 2021-11-04 | 2021-11-04 | 一种增强id重识别的无锚多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971688B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
CN112417988A (zh) * | 2020-10-30 | 2021-02-26 | 深圳点猫科技有限公司 | 一种基于深度学习的视频多目标跟踪方法、装置及设备 |
CN112465854A (zh) * | 2020-12-17 | 2021-03-09 | 北京三川未维科技有限公司 | 基于无锚点检测算法的无人机跟踪方法 |
CN112507845A (zh) * | 2020-12-02 | 2021-03-16 | 余姚市浙江大学机器人研究中心 | 基于CenterNet与深度关联矩阵的行人多目标跟踪方法 |
CN112785627A (zh) * | 2021-02-02 | 2021-05-11 | 电子科技大学 | 一种基于重识别技术的多目标跟踪方法 |
CN112906590A (zh) * | 2021-03-02 | 2021-06-04 | 东北农业大学 | 一种基于FairMOT的多目标跟踪人流量监测方法 |
CN113139620A (zh) * | 2021-05-14 | 2021-07-20 | 重庆理工大学 | 基于目标关联学习的端到端多目标检测与跟踪联合方法 |
CN113313736A (zh) * | 2021-06-10 | 2021-08-27 | 厦门大学 | 统一目标运动感知和重识别网络的在线多目标跟踪方法 |
-
2021
- 2021-11-04 CN CN202111299711.XA patent/CN113971688B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914664A (zh) * | 2020-07-06 | 2020-11-10 | 同济大学 | 基于重识别的车辆多目标检测和轨迹跟踪方法 |
CN112417988A (zh) * | 2020-10-30 | 2021-02-26 | 深圳点猫科技有限公司 | 一种基于深度学习的视频多目标跟踪方法、装置及设备 |
CN112507845A (zh) * | 2020-12-02 | 2021-03-16 | 余姚市浙江大学机器人研究中心 | 基于CenterNet与深度关联矩阵的行人多目标跟踪方法 |
CN112465854A (zh) * | 2020-12-17 | 2021-03-09 | 北京三川未维科技有限公司 | 基于无锚点检测算法的无人机跟踪方法 |
CN112785627A (zh) * | 2021-02-02 | 2021-05-11 | 电子科技大学 | 一种基于重识别技术的多目标跟踪方法 |
CN112906590A (zh) * | 2021-03-02 | 2021-06-04 | 东北农业大学 | 一种基于FairMOT的多目标跟踪人流量监测方法 |
CN113139620A (zh) * | 2021-05-14 | 2021-07-20 | 重庆理工大学 | 基于目标关联学习的端到端多目标检测与跟踪联合方法 |
CN113313736A (zh) * | 2021-06-10 | 2021-08-27 | 厦门大学 | 统一目标运动感知和重识别网络的在线多目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking;Yifu Zhang等;《http://arxiv.org/pdf/2004.01888》;正文1-16页及图1-2 * |
基于视频的行人再识别技术设计与实现;江运衡;《中国优秀硕士学位论文全文数据库 信息科技辑》;正文第17-52页及图3-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN113971688A (zh) | 2022-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111882580B (zh) | 一种视频多目标跟踪方法及系统 | |
CN109344725B (zh) | 一种基于时空关注度机制的多行人在线跟踪方法 | |
CN111401201B (zh) | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 | |
CN110276783B (zh) | 一种多目标跟踪方法、装置及计算机系统 | |
CN110555387B (zh) | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 | |
CN112257569B (zh) | 一种基于实时视频流的目标检测和识别方法 | |
CN111862145B (zh) | 一种基于多尺度行人检测的目标跟踪方法 | |
CN108520203B (zh) | 基于融合自适应多外围框与十字池化特征的多目标特征提取方法 | |
CN112288773A (zh) | 基于Soft-NMS的多尺度人体跟踪方法及装置 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN112991391A (zh) | 一种基于雷达信号和视觉融合的车辆检测与跟踪方法 | |
CN103886325A (zh) | 一种分块的循环矩阵视频跟踪方法 | |
CN112541424A (zh) | 复杂环境下行人跌倒的实时检测方法 | |
CN115205339A (zh) | 基于改进yolox的移动机器人目标跟随方法 | |
CN108664918B (zh) | 基于背景感知相关滤波器的智能车辆前方行人跟踪方法 | |
CN113971688B (zh) | 一种增强id重识别的无锚多目标跟踪方法 | |
CN113781521B (zh) | 一种基于改进YOLO-DeepSort的仿生机器鱼检测跟踪方法 | |
CN116563345A (zh) | 一种基于点-面匹配关联的多目标跟踪方法 | |
CN110675430A (zh) | 一种基于运动和表观适应融合的无人机多目标跟踪方法 | |
CN116381672A (zh) | 基于孪生网络雷达x波段多扩展目标自适应跟踪方法 | |
CN113298850B (zh) | 一种基于注意力机制与特征融合的目标跟踪方法及系统 | |
CN114820723A (zh) | 一种基于联合检测和关联的在线多目标跟踪方法 | |
Cui et al. | Mobile Big Data Analytics for Human Behavior Recognition in Wireless Sensor Network Based on Transfer Learning | |
CN113658218B (zh) | 一种双模板密集孪生网络跟踪方法、装置及存储介质 | |
Maharani et al. | Real-time human tracking system using histogram intersection distance in firefly optimization based particle filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 1603-12, No. 8, Financial Second Street, Wuxi Economic Development Zone, Jiangsu Province, 214000 Applicant after: Uni-Entropy Intelligent Technology (Wuxi) Co.,Ltd. Address before: 214072 room 1603-12, No. 8, financial Second Street, economic development zone, Wuxi City, Jiangsu Province Applicant before: Yunentropy Education Technology (Wuxi) Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |