CN116758110A - 复杂运动场景下的鲁棒多目标跟踪方法 - Google Patents
复杂运动场景下的鲁棒多目标跟踪方法 Download PDFInfo
- Publication number
- CN116758110A CN116758110A CN202311024165.8A CN202311024165A CN116758110A CN 116758110 A CN116758110 A CN 116758110A CN 202311024165 A CN202311024165 A CN 202311024165A CN 116758110 A CN116758110 A CN 116758110A
- Authority
- CN
- China
- Prior art keywords
- track
- embedding
- detection
- frame
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 183
- 230000004913 activation Effects 0.000 claims abstract description 52
- 230000003321 amplification Effects 0.000 claims abstract description 17
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 17
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 68
- 230000004069 differentiation Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 230000007774 longterm Effects 0.000 description 5
- 238000011084 recovery Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种复杂运动场景下的鲁棒多目标跟踪方法,包括S1、检测输入视频流中每帧图像的目标,给出目标检测框的位置信息和检测置信度;S2、使用卡尔曼滤波预测轨迹集中现有轨迹在当前帧的位置,将现有轨迹划分为激活状态轨迹和非激活状态轨迹;S3、激活状态轨迹与高分目标检测框使用IoU‑ReID融合法进行匹配;S4、非激活状态轨迹和与激活轨迹未匹配的检测使用IoU‑ReID融合法进行匹配;S5、使用观测放大法对轨迹进行恢复;S6、进行轨迹集管理;S7、结束当前帧跟踪下一帧,重复S1‑S6。本发明综合IoU‑ReID融合法、观测放大法和以观测为中心的性质提高在遮挡和非线性运动等复杂运动场景下跟踪器性能的鲁棒性和有效性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种复杂运动场景下的鲁棒多目标跟踪方法。
背景技术
随着自动驾驶技术的快速发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。多目标跟踪任务不仅要求跟踪器能够准确定位目标,还要具备保持目标身份一致性的能力。但是,多目标的应用场景一般是比较复杂拥挤的,往往伴随着背景的切换,并且目标之间的运动复杂多样不规则,这就会导致目标的模糊、目标之间的遮挡以及目标频繁的消失和重现。
目前,国内外对行人多目标跟踪的工作主要分为检测后跟踪、联合检测跟踪、注意力后跟踪三种多目标跟踪范式。其中,最常用的多目标跟踪为检测后跟踪,它将多目标跟踪任务分为了(i)在每一帧检测对象和 (ii) 对每一帧上的目标检测框和轨迹预测框执行数据关联,属于同一个物体的目标检测框应该赋予相同的身份信息。但是,目前的基于检测后跟踪的数据关联算法是一种启发式的算法,在物体长时间遮挡时难以建模物体的空间和外观变化,因此对长期遮挡模糊等问题不够鲁棒。
目标外观特征是区别不同目标的重要线索,成为了多目标跟踪领域提升跟踪性能的利器。昂贵的检测器和行人重识别特征提取分离,使得模型存在大量的信息冗余。为了解决这一问题,联合检测跟踪将检测网络和外观嵌入网络集成到统一的框架中,只需要在目前的一些检测器的基础上,添加一个预测分支或者嵌入分支,就能够取得与检测后跟踪的多目标算法相当甚至更好地跟踪性能,且速度更快。但是不同组件之间存在竞争且训练数据有限,这限制了联合检测跟踪方法的跟踪性能上限且在复杂环境中容易跟踪失败。
同时,近年来Transformer模型在计算机视觉领域取得了巨大的成就,从而引出了Tracking-by-Attention方法的多目标跟踪范式,这使得跟踪器能够在建立全局时空关联的基础上实现检测与现有轨迹片段之间的匹配,能够解决因遮挡导致长期关联失效的问题。但是基于Transformer模型的多目标跟踪模型参数量比较大,推理时间长,加上需要使用高性能的检测器才能实现高性能,这更增加了整个流程的推理时间,使得模型很难实现实时跟踪。
由上可以看出,现有的方法影响了跟踪性能的上限,同时,多目标的应用场景一般是比较复杂拥挤的,往往伴随着背景的切换,并且目标之间的运动复杂多样不规则,这就会导致目标的模糊、目标之间的遮挡以及目标频繁的消失和重现。因此,如何提供一种复杂运动场景下的鲁棒多目标跟踪方法是本领域技术人员亟需解决的问题。
发明内容
本发明的目的在于提出一种复杂运动场景下的鲁棒多目标跟踪方法,综合IoU-ReID融合方法、观测放大法和以观测为中心的性质提高了在遮挡和非线性运动等复杂运动场景下跟踪性能的鲁棒性和有效性。
根据本发明实施例的一种复杂运动场景下的鲁棒多目标跟踪方法,包括如下步骤:
S1、输入视频流,检测输入视频流中的每帧图像的目标,记录目标检测框两对角点的坐标位置及检测置信度;
输入视频流的轨迹集初始为第一帧中的高分目标检测框,当每帧上的目标检测框与轨迹集使用历史信息得到的预测框匹配时,使用当前帧的目标检测框更新轨迹集中对应匹配轨迹的信息;
S2、使用卡尔曼滤波预测轨迹集中现有轨迹的在当前帧的位置,并将现有轨迹划分为激活状态轨迹和非激活状态轨迹,当新的目标检测框与轨迹集中的所有轨迹都匹配失败后,在现有轨迹集中新建轨迹,使用当前新的检测结果表示新轨迹;
S3、将现有轨迹集中的激活状态轨迹与高分目标检测框使用IoU-ReID融合方法进行匹配,匹配结果为:
将激活状态轨迹根据匹配结果分为成功匹配的激活轨迹和未成功匹配的激活轨迹,将现有高分目标检测框根据匹配结果分为与激活轨迹匹配的检测和与激活轨迹未匹配的检测;
S4、将现有轨迹集中的非激活状态轨迹和与激活轨迹未匹配的检测使用IoU-ReID融合方法进行匹配,匹配结果为:
将未激活轨迹根据匹配结果分为成功匹配的未激活轨迹和未成功匹配的未激活轨迹,将现有的高分目标检测框根据匹配结果分为与未激活轨迹匹配的检测和与未激活轨迹未匹配的检测;
S5、使用观测放大法对轨迹进行恢复,放大轨迹集中未成功匹配的激活轨迹预测框的宽度和高度,同时放大与未激活轨迹未成功匹配的检测位置的宽度和高度,计算放大宽度和高度后的目标检测框和轨迹预测框的IoU距离矩阵和外观嵌入矩阵,从而恢复没有成功匹配的激活轨迹;
S6、进行轨迹集管理;
S7、结束当前帧的跟踪,跟踪下一帧,重复S1-S6。
可选的,所述S1中目标检测框的检测置信度大于设定阈值时为高分目标检测框。
可选的,所述S2中新轨迹在建立时均处于非激活状态轨迹,当连续三帧匹配到目标检测框后的新轨迹转化为激活状态轨迹。
可选的,所述S6中轨迹集管理包括新轨迹生成、丢失轨迹的更新与删除、更新卡尔曼滤波器参数、更新轨迹嵌入、删除未激活轨迹和激活新轨迹。
可选的,所述更新卡尔曼滤波器参数包括将成功匹配的激活轨迹、与激活轨迹匹配的检测、成功匹配的未激活轨迹和与未激活轨迹匹配的检测用于更新卡尔曼滤波参数,将未成功匹配的激活轨迹冻结该轨迹的卡尔曼滤波参数,再次匹配到检测后重新更新卡尔曼滤波参数。
可选的,所述更新轨迹嵌入包括将成功匹配的激活轨迹和与激活轨迹匹配的检测使用轨迹嵌入模块更新轨迹嵌入。
可选的,所述更新轨迹嵌入具体包括通过检测器分数与轨迹嵌入分数进行比较自适应地得到的值,当检测器分数大于轨迹嵌入分数时,给予检测外观更大的置信度,减小/>的值:
;
其中,表示在更新轨迹嵌入的过程中,相信历史外观嵌入的最小置信度。/>表示第t帧的第j个检测的检测置信度分数,/>表示第i个轨迹在t-1帧时候的轨迹嵌入分数,检测器分数分数越高/>越小,当检测分数高于轨迹嵌入分数时的/>小于检测器分数低于轨迹嵌入分数时的/>;
检测器分数为目标检测框的置信度,轨迹嵌入分数初始设置为当前目标检测框的置信度,轨迹嵌入分数匹配到新的目标检测框时使用当前轨迹嵌入分数和目标检测框置信度更新轨迹嵌入分数;
轨迹嵌入分数表达为:
。
可选的,所述IoU-ReID融合方法具体包括:
根据外观嵌入的区别性自适应加权外观嵌入矩阵和IOU距离矩阵到代价矩阵中中:
;
其中,:目标检测框与现有轨迹集的IOU距离矩阵,根据外观嵌入的区
别性自适应加权到IOU距离矩阵中形成代价矩阵,使用匈牙利算法线性分配和最小化代
价矩阵以实现目标检测框与现有轨迹集的关联,⊙为Hadamard运算,为外
观嵌入矩阵,为当将外观嵌入矩阵加权到代价矩阵时的权
重,为外观嵌入矩阵加入到代价矩阵的最小权重,为根据外观嵌
入矩阵在不同轨迹和不同检测间的相似性,赋予区分度较大的匹配检测轨迹
对更大的权重,帮助轨迹关联。
可选的,所述中的每个元素/>表示对应检测和轨迹的相似性在不同轨迹和检测间的区分度:
;
其中,对应检测和轨迹的相似性在不同检测间的区分度测量外观嵌入矩阵的第i列的第一个和第二个相似性之间的差,通过最高相似性与次高相似性之间的差异来衡量区别性,进而判断这个外观特征是否真正有区分性,/>是对第j行的相同操作;
具体的定义如下:
;
其中,表示的是第i个轨迹的轨迹嵌入与所有检测外观的相似性即为/>的第i行,/>和/>分别表示第i个轨迹的轨迹嵌入与所有检测外观的相似性中最大值和次大值,/>表示与/>差值的阈值;
具体的定义如下:
;
其中,表示的是第j个检测外观与所有轨迹嵌入的相似性即为的第j列,/>和/>分别表示第j个检测外观与所有轨迹嵌入的相似性中的最大值和次大值,/>表示与/>差值的阈值。
可选的,所述观测放大法包括:
通过扩大正确匹配的目标检测框和最后一次匹配轨迹的目标检测框进而帮助轨迹与检测进行匹配:
;
其中,原来的观测中心点坐标是(x,y),观测的宽度和高度分别为w和h,根据放大因子b和观测置信度分数s,使用观测放大技术,在观测的基础上左边和右边宽度分别增长了bsw,上边和下边高度分别增长了了bsh;
为了防止放大的其他检测和轨迹对匹配造成干扰,把外观嵌入矩阵自适应加入IOU距离矩阵形成代价矩阵,舍弃外观相似性小于阈值的匹配对进而对未匹配的轨迹进行恢复,代价矩阵/>的定义为:
;
其中,表示的是未匹配的激活轨迹和未匹配的检测在放大观测之后的EIoU距离矩阵,EIoU就是放大观测后轨迹与检测间的IoU距离矩阵,
表示未匹配的激活轨迹与未匹配的检测之间的外观嵌入矩阵,为当将外观嵌入矩阵/>加权到代价矩阵/>时的权重,/>为外观嵌入矩阵/>加入到代价矩阵/>的最小权重,/>为根据外观嵌入矩阵在不同轨迹和不同检测间的相似性,赋予区分度较大的匹配检测轨迹对更大的权重,帮助轨迹关联。
本发明的有益效果是:
本发明通过IoU-ReID融合模块减少了方向快速变化带来的干扰并充分利用有鉴别性的外观特征帮助轨迹长期关联,轨迹嵌入模块和观测放大模块分别为了防止轨道嵌入被检测噪声所污染和解决长期缺乏观测的情况下观测值之间的重叠较小的问题,激活状态模块为目标关联提供鉴别性的轨迹,综合IoU-ReID融合方法、轨迹嵌入模块、观测放大法和以观测为中心的性质提高了在遮挡和非线性运动等复杂运动场景下跟踪性能的鲁棒性和有效性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种复杂运动场景下的鲁棒多目标跟踪方法的整体流程图;
图2为本发明提出的一种复杂运动场景下的鲁棒多目标跟踪方法中观测放大法的示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种复杂运动场景下的鲁棒多目标跟踪方法,包括如下步骤:
S1、输入视频流,检测输入视频流中的每帧图像的目标,记录目标检测框两对角点的坐标位置及检测置信度;
输入视频流的轨迹集初始为第一帧中的高分目标检测框,当每帧上的目标检测框与轨迹集使用历史信息得到的预测框匹配时,使用当前帧的目标检测框更新轨迹集中对应匹配轨迹的信息;
本实施方式中目标检测框的检测置信度大于设定阈值时为高分目标检测框。
S2、使用卡尔曼滤波预测轨迹集中现有轨迹在当前帧的位置,并将现有轨迹划分为激活状态轨迹和非激活状态轨迹,当新的目标检测框与轨迹集中的所有轨迹都匹配失败后,在现有轨迹集中新建轨迹,使用当前新的检测结果表示新轨迹;
本实施方式中针对拥有比较固定人数的视频序列,很多高分目标检测框因为复杂场景中的问题匹配失败而新建轨迹,这些轨迹因为表示相同对象,相似轨迹的出现导致频繁的ID交换。针对这种的情况,我们提出了轨迹的激活状态,当高分目标检测框没有匹配时,我们首先将轨迹定义为非激活状态轨迹,如果连续三帧与检测匹配则转化为激活状态轨迹,否则直接将其删除,减少相似轨迹的干扰。
S3、将现有轨迹集中的激活状态轨迹与高分目标检测框使用IoU-ReID融合方法进行匹配,匹配结果为:
将激活状态轨迹根据匹配结果分为成功匹配的激活轨迹和未成功匹配的激活轨迹,将现有高分目标检测框根据匹配结果分为与激活轨迹匹配的检测和与激活轨迹未匹配的检测;
本实施方式中与激活轨迹匹配的检测和成功匹配的激活轨迹用于后续轨迹更新,与激活轨迹未匹配的检测用于与未激活轨迹再匹配,未成功匹配的激活轨迹用于后续的轨迹恢复;
S4、将现有轨迹集中的非激活状态轨迹和与激活轨迹未匹配的检测使用IoU-ReID融合方法进行匹配,匹配结果为:
将未激活轨迹根据匹配结果分为成功匹配的未激活轨迹和未成功匹配的未激活轨迹,将现有的高分目标检测框根据匹配结果分为与未激活轨迹匹配的检测和与未激活轨迹未匹配的检测;
本实施方式中成功匹配的未激活轨迹和与未激活轨迹匹配的检测用于后续轨迹更新,与未激活轨迹未匹配的检测用于后续的轨迹恢复,未成功匹配的未激活轨迹直接删除,减少对后续帧轨迹匹配的干扰。
本实施方式中S3-S4中的IoU-ReID融合方法具体包括:
在复杂运动场景中,目标之间的遮挡、目标快速移动导致的模糊、外观相似性等都会导致外观特征存在失效的危险。本发明提出一种运动线索和外观线索加权的方法,过滤掉那些不可置信的外观,充分利用有效外观,有取舍地使用外观特征以提高跟踪性能;
根据外观嵌入的区别性自适应加权外观嵌入矩阵和IOU距离矩阵到代价矩阵中中:
;
其中,:目标检测框与现有轨迹集的IOU距离矩阵,根据外观嵌入的区别性自适应加权到IOU距离矩阵中形成代价矩阵/>,使用匈牙利算法线性分配和最小化代价矩阵/>以实现目标检测框与现有轨迹集的关联,⊙为Hadamard运算,/>为外观嵌入矩阵,/>为当将外观嵌入矩阵/>加权到代价矩阵/>时的权重,/>为外观嵌入矩阵/>加入到代价矩阵/>的最小权重,/>为根据外观嵌入矩阵/>在不同轨迹和不同检测间的相似性,赋予区分度较大的匹配检测轨迹对更大的权重,帮助轨迹关联。
本实施方式中的每个元素/>表示对应检测和轨迹的相似性在不同轨迹和检测间的区分度:
;
其中,对应检测和轨迹的相似性在不同检测间的区分度测量外观嵌入矩阵的第i列的第一个和第二个相似性之间的差,通过最高相似性与次高相似性之间的差异来衡量区别性,进而判断这个外观特征是否真正有区分性,/>是对第j行的相同操作;
具体的定义如下:
;
其中,表示的是第i个轨迹的轨迹嵌入与所有检测外观的相似性即为/>的第i行,/>和/>分别表示第i个轨迹的轨迹嵌入与所有检测外观的相似性中最大值和次大值,/>表示和/>差值的阈值,防止差值太大,匹配检测和轨迹的时候,过分依赖外观特征;
具体的定义如下:
;
其中,表示的是第j个检测外观与所有轨迹嵌入的相似性即为的第j列,/>和/>分别表示第j个检测外观与所有轨迹嵌入的相似性中最大值和次大值,/>表示与/>差值的阈值。
S5、使用观测放大法对轨迹进行恢复,放大轨迹集中未成功匹配的激活轨迹预测框的宽度和高度,同时放大与未激活轨迹未成功匹配的检测位置的宽度和高度,计算放大宽度和高度后的目标检测框和轨迹预测框的IoU距离矩阵和外观嵌入矩阵,从而恢复没有成功匹配的激活轨迹;
遮挡导致目标检测框的宽度和高度发生剧烈变化,非线性运动使得卡尔曼滤波很难准确捕获目标的运动信息,这都会导致卡尔曼滤波估计的轨迹位置与真实位置存在偏差。这会使得预测位置与观测位置重合度不大,很容造成轨迹关联错误匹配或者失效。
当预测位置与观测位置重合度很小时,由于IOU阈值的限制,目前的做法时舍弃这些匈牙利匹配的结果,但这就造成了轨迹容易碎片化。本实施方式中观测放大法来解决预测和观测位置之间的小范围重叠问题,帮助轨迹与检测进行匹配,包括:
通过扩大正确匹配的目标检测框和最后一次匹配轨迹的目标检测框进而帮助轨迹与检测进行匹配:
;
其中,原来的观测中心点坐标是(x,y),观测的宽度和高度分别为w和h,根据放大因子b和观测置信度分数s,使用观测放大技术,在观测的基础上左边和右边宽度分别增长了bsw,上边和下边高度分别增长了bsh;
具体来说,参考图2中的轨迹1在很长时间内因为遮挡没能匹配到观测。当它再次被检测器检测到时,因为卡尔曼滤波已经不能准确定位,它与预测框之间的重叠没有超过阈值,导致匹配失败。在轨迹恢复阶段我们使用观测放大法扩展目标检测框和最后一次匹配轨迹的目标检测框,成功将丢失的轨迹恢复。
观测放大法在扩大正确匹配的目标检测框和最后一次匹配轨迹的目标检测框的同时,也会放大一些其他的检测和轨迹,给轨迹恢复带来干扰。为了防止放大的其他检测和轨迹对匹配造成干扰,把外观嵌入矩阵自适应加入IOU距离矩阵形成代价矩阵,舍弃外观相似性小于阈值的匹配对进而对未匹配的激活轨迹进行恢复。/>的定义如下:
;
其中,表示的是未匹配的激活轨迹和未匹配的检测在放大观测之后的EIoU距离矩阵,EIoU就是放大观测后轨迹与检测间的IoU距离矩阵,
表示未匹配的激活轨迹与未匹配的检测之间的外观嵌入矩阵,为当将外观嵌入矩阵/>加权到代价矩阵/>时的权重,/>为外观嵌入矩阵/>加入到代价矩阵/>的最小权重,/>为根据外观嵌入矩阵在不同轨迹和不同检测间的相似性,赋予区分度较大的匹配检测轨迹对更大的权重,帮助轨迹关联。
S6、进行轨迹集管理;
本实施方式中S6中轨迹集管理包括新轨迹生成、丢失轨迹的更新与删除、更新卡尔曼滤波器参数、更新轨迹嵌入、删除未激活轨迹和激活新轨迹。更新卡尔曼滤波器参数包括将成功匹配的激活轨迹、与激活轨迹匹配的检测、成功匹配的未激活轨迹和与未激活轨迹匹配的检测用于更新卡尔曼滤波参数,将未成功匹配的激活轨迹冻结卡尔曼滤波参数,再次匹配后重新更新卡尔曼滤波参数,更新轨迹嵌入包括将成功匹配的激活轨迹和与激活轨迹匹配的检测使用轨迹嵌入模块更新轨迹嵌入。
之前的工作使用指数移动平均来更新轨迹嵌入,标准EMA中的参数表示在更新轨迹嵌入的过程中相信轨迹嵌入的置信度, 表示在更新轨迹嵌入的过程中相信外观特征的置信度。固定的不能适应外观变化,尤其是在遮挡情况下外观容易被检测噪声污染。已有研究证明检测噪声与检测分数正相关,因此我们可以使用检测分数帮助我们自适应修正的值,增强轨迹嵌入对遮挡的鲁棒性。本实施方式中更新轨迹嵌入具体包括通过检测器分数与轨迹嵌入分数进行比较自适应地得到/>的值,当检测器分数大于轨迹嵌入分数时,给予检测外观更大的置信度,/>减小的值:
;
其中,表示在更新轨迹嵌入的过程中,相信历史外观嵌入的最小置信度。/>表示第t帧的第j个检测的检测置信度分数,/>表示第i个轨迹在t-1帧时候的轨迹嵌入分数,检测器分数分数越高/>越小,当检测分数高于轨迹嵌入分数时的/>小于检测器分数低于轨迹嵌入分数时的/>;
检测器分数为目标检测框的置信度,轨迹嵌入分数初始设置为当前目标检测框的置信度,轨迹嵌入分数匹配到新的目标检测框时使用当前轨迹嵌入分数和目标检测框置信度更新轨迹嵌入分数;
轨迹嵌入分数表达为:
;
每当此轨迹匹配到一个新的轨迹就使用当前检测置信度得分和上一帧的轨迹嵌入分数更新当前帧的轨迹嵌入分数,表示高分检测置信度阈值。
S7、结束当前帧的跟踪,跟踪下一帧,重复S1-S6。
实施例1中,参考下表1,为了评估我们提出的跟踪器在非线性运动和遮挡上的鲁棒性,本发明报告了本发明提出的方法与state-of-the-art跟踪器在DanceTrack的性能对比。本发明提出的方法在所有没有使用额外数据训练的跟踪器中排序第一,所有跟踪指标都达到了最高。它的关联指标HOTA、IDF1比目前最新的工作C-BIOU分别增长了2.8和3.9,说明了我们的模型在复杂运动场景中也有着良好的关联性能。我们方法的跟踪性能比OC-SORT高出一大截,有8.3HOTA和10.9IDF1的增长,这表明了我们方法的有效性,表1:
为了更好地对比本发明提出的方法与OC-SORT的跟踪效果,展示了两者在极端非线性情况下的可视化结果。DanceTrack上的结果为我们跟踪器能够应对非线性和遮挡问题提供了强有力的证据。当本发明提出的方法成功匹配时,OC-SORT由于遮挡或快速非线性运动而轨迹遭受碎片化和ID切换的样本。
由上述表1的数据的实施例1可以看出,本发明通过IoU-ReID融合模块减少了方向快速变化带来的干扰并充分利用有鉴别性的外观特征帮助轨迹长期关联,轨迹嵌入和观测放大模块分别为了防止轨道嵌入被检测噪声所污染和解决长期缺乏观测的情况下观测值之间的重叠较小的问题,激活状态模块为目标关联提供鉴别性的轨迹,综合IoU-ReID融合模块、轨迹嵌入模块、观测放大模块和以观测为中心的性质提高了在遮挡和非线性运动等复杂运动场景下跟踪性能的鲁棒性和有效性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,包括如下步骤:
S1、输入视频流,检测输入视频流中每帧图像检测目标,记录目标检测框两对角点的坐标位置及检测置信度;
输入视频流的轨迹集初始为第一帧中的高分目标检测框,当每帧上的目标检测框与轨迹集使用历史信息得到的预测框匹配时,使用当前帧的目标检测框更新轨迹集中对应匹配轨迹的信息;
S2、使用卡尔曼滤波预测轨迹集中现有轨迹在当前帧的位置,并将现有轨迹划分为激活状态轨迹和非激活状态轨迹;
S3、将现有轨迹集中的激活状态轨迹与高分目标检测框使用IoU-ReID融合方法进行匹配,匹配结果为:
将激活状态轨迹根据匹配结果分为成功匹配的激活轨迹和未成功匹配的激活轨迹,将现有高分目标检测框根据匹配结果分为与激活轨迹匹配的检测和与激活轨迹未匹配的检测;
S4、将现有轨迹集中的非激活状态轨迹和与激活轨迹未匹配的检测使用IoU-ReID融合方法进行匹配,匹配结果为:
将未激活轨迹根据匹配结果分为成功匹配的未激活轨迹和未成功匹配的未激活轨迹,将现有的高分目标检测框根据匹配结果分为与未激活轨迹匹配的检测和与未激活轨迹未匹配的检测;
S5、使用观测放大法对轨迹进行恢复,放大轨迹集中未成功匹配的激活轨迹预测框的宽度和高度,同时放大与未激活轨迹未成功匹配的检测位置的宽度和高度,计算放大宽度和高度后的目标检测框和轨迹预测框的IoU距离矩阵和外观嵌入矩阵,从而恢复没有成功匹配的激活轨迹;
S6、进行轨迹集管理;
S7、结束当前帧的跟踪,跟踪下一帧,重复S1-S6。
2.根据权利要求1所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述S1中目标检测框的检测置信度大于设定阈值时为高分目标检测框。
3.根据权利要求1所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述S2中新轨迹在建立时均处于非激活状态轨迹,当连续三帧匹配到目标检测框后的新轨迹转化为激活状态轨迹。
4.根据权利要求1所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述S6中轨迹集管理包括新轨迹生成、丢失轨迹的更新与删除、更新卡尔曼滤波器参数、更新轨迹嵌入、删除未激活轨迹和激活新轨迹。
5.根据权利要求4所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述更新卡尔曼滤波器参数包括将成功匹配的激活轨迹、与激活轨迹匹配的检测、成功匹配的未激活轨迹和与未激活轨迹匹配的检测用于更新卡尔曼滤波参数,将未成功匹配的激活轨迹冻结该轨迹的卡尔曼滤波参数,再次匹配到检测后重新更新卡尔曼滤波参数。
6.根据权利要求4所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述更新轨迹嵌入包括将成功匹配的激活轨迹和与激活轨迹匹配的检测使用轨迹嵌入模块更新轨迹嵌入。
7.根据权利要求6所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述更新轨迹嵌入具体包括通过检测器分数与轨迹嵌入分数进行比较自适应地得到的值,当检测器分数大于轨迹嵌入分数时,给予检测外观更大的置信度,减小/>的值:
;
其中,表示在更新轨迹嵌入的过程中,相信历史外观嵌入的最小置信度,/>表示高分检测置信度阈值,/>表示第t帧的第j个检测的检测置信度分数,/>表示第i个轨迹在t-1帧时候的轨迹嵌入分数,检测器分数越高/>越小,当检测分数高于轨迹嵌入分数时的小于检测器分数低于轨迹嵌入分数时的/>;
检测器分数为目标检测框的置信度,轨迹嵌入分数初始设置为当前目标检测框的置信度,轨迹嵌入分数匹配到新的目标检测框时使用当前轨迹嵌入分数和目标检测框置信度更新轨迹嵌入分数;
轨迹嵌入分数表达为:
。
8.根据权利要求1所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述IoU-ReID融合方法具体包括:
根据外观嵌入的区别性自适应加权外观嵌入矩阵和IOU距离矩阵到代价矩阵中:
;
其中,:目标检测框与现有轨迹集的IOU距离矩阵,/>为外观嵌入矩阵,根据外观嵌入的区别性自适应加权到IOU距离矩阵中形成代价矩阵/>,使用匈牙利算法线性分配和最小化代价矩阵/>以实现目标检测框与现有轨迹集的关联,⊙为Hadamard运算,/>为当将外观嵌入矩阵/>加权到代价矩阵/>时的权重,/>为外观嵌入矩阵/>加入到代价矩阵/>的最小权重,/>为根据外观嵌入矩阵/>在不同轨迹和不同检测间的相似性,赋予区分度较大的匹配检测轨迹对更大的权重帮助轨迹关联。
9.根据权利要求8所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述中的每个元素/>表示对应检测和轨迹的相似性在不同轨迹和检测间的区分度:
;
其中,对应检测和轨迹的相似性在不同检测间的区分度测量外观嵌入矩阵的第i列的第一个和第二个相似性之间的差,通过最高相似性与次高相似性之间的差异来衡量区别性,进而判断这个外观特征是否真正有区分性,/>是对第j行的相同操作;
具体的定义如下:
;
其中,表示的是第i个轨迹的轨迹嵌入与所有检测外观的相似性,即为/>的第i行,/>和/>分别表示第i个轨迹的轨迹嵌入与所有检测外观的相似性中最大值和次大值,/>表示与/>差值的阈值;
具体的定义如下:
;
其中,表示的是第j个检测外观与所有轨迹嵌入的相似性,即为的第j列,/>和/>分别表示第j个检测外观与所有轨迹嵌入的相似性中最大值和次大值,/>表示与/>差值的阈值。
10.根据权利要求1所述的一种复杂运动场景下的鲁棒多目标跟踪方法,其特征在于,所述观测放大法包括:
通过扩大正确匹配的目标检测框和最后一次匹配轨迹的目标检测框进而帮助轨迹与检测进行匹配:
;
其中,原来的观测中心点坐标是(x,y),观测的宽度和高度分别为w和h,根据放大因子b和观测置信度分数s,使用观测放大技术,在观测的基础上左边和右边宽度分别增长了bsw,上边和下边高度分别增长了bsh;
为了防止放大的其他检测和轨迹对匹配造成干扰,把外观嵌入矩阵自适应加入IOU距离矩阵形成代价矩阵,舍弃外观相似性小于阈值的匹配对进而对匹配的轨迹进行恢复,代价矩阵/>为:
;
其中,表示的是未匹配的激活轨迹和未匹配的检测在放大观测之后的EIoU距离矩阵,EIoU就是放大观测后轨迹与检测间的IoU距离矩阵,/>表示未匹配的激活轨迹与未匹配的检测之间的外观嵌入矩阵,/>为当将外观嵌入矩阵/>加权到代价矩阵/>时的权重,/>为外观嵌入矩阵/>加入到代价矩阵/>的最小权重,/>为根据外观嵌入矩阵/>在不同轨迹和不同检测间的相似性,赋予区分度较大的匹配检测轨迹对更大的权重,帮助轨迹关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311024165.8A CN116758110B (zh) | 2023-08-15 | 2023-08-15 | 复杂运动场景下的鲁棒多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311024165.8A CN116758110B (zh) | 2023-08-15 | 2023-08-15 | 复杂运动场景下的鲁棒多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116758110A true CN116758110A (zh) | 2023-09-15 |
CN116758110B CN116758110B (zh) | 2023-11-17 |
Family
ID=87948126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311024165.8A Active CN116758110B (zh) | 2023-08-15 | 2023-08-15 | 复杂运动场景下的鲁棒多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116758110B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173221A (zh) * | 2023-09-19 | 2023-12-05 | 浙江大学 | 一种基于真实性分级与遮挡恢复的多目标跟踪方法 |
CN117522924A (zh) * | 2023-11-22 | 2024-02-06 | 重庆大学 | 基于检测定位置信度指导的深度关联多目标跟踪方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007292553A (ja) * | 2006-04-24 | 2007-11-08 | Mitsubishi Electric Corp | 多目標追尾装置 |
GB201620736D0 (en) * | 2016-12-06 | 2017-01-18 | Canon Kk | Methods, devices and computer programs for distance metric generation, error detection and correction in trajectories for mono-camera tracking |
US20200126241A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Multi-Object Tracking using Online Metric Learning with Long Short-Term Memory |
CN111739053A (zh) * | 2019-03-21 | 2020-10-02 | 四川大学 | 一种复杂场景下的在线多行人检测跟踪方法 |
CN113269098A (zh) * | 2021-05-27 | 2021-08-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于无人机的多目标跟踪定位与运动状态估计方法 |
CN113793365A (zh) * | 2021-11-17 | 2021-12-14 | 第六镜科技(成都)有限公司 | 目标跟踪方法、装置、计算机设备及可读存储介质 |
CN114119660A (zh) * | 2021-11-20 | 2022-03-01 | 富通昭和线缆(杭州)有限公司 | 一种工厂车间跨摄像机行人轨迹跟踪方法 |
CN114280611A (zh) * | 2021-11-08 | 2022-04-05 | 上海智能网联汽车技术中心有限公司 | 一种融合毫米波雷达与摄像头的路侧感知方法 |
WO2022217840A1 (zh) * | 2021-04-15 | 2022-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN116152292A (zh) * | 2023-02-13 | 2023-05-23 | 东南大学 | 一种基于三次匹配的多类别多目标跟踪方法 |
CN116363171A (zh) * | 2023-02-27 | 2023-06-30 | 长春理工大学 | 一种融合点云与图像信息的三维多目标跟踪方法 |
-
2023
- 2023-08-15 CN CN202311024165.8A patent/CN116758110B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007292553A (ja) * | 2006-04-24 | 2007-11-08 | Mitsubishi Electric Corp | 多目標追尾装置 |
GB201620736D0 (en) * | 2016-12-06 | 2017-01-18 | Canon Kk | Methods, devices and computer programs for distance metric generation, error detection and correction in trajectories for mono-camera tracking |
US20200126241A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Multi-Object Tracking using Online Metric Learning with Long Short-Term Memory |
CN111739053A (zh) * | 2019-03-21 | 2020-10-02 | 四川大学 | 一种复杂场景下的在线多行人检测跟踪方法 |
WO2022217840A1 (zh) * | 2021-04-15 | 2022-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN113269098A (zh) * | 2021-05-27 | 2021-08-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于无人机的多目标跟踪定位与运动状态估计方法 |
CN114280611A (zh) * | 2021-11-08 | 2022-04-05 | 上海智能网联汽车技术中心有限公司 | 一种融合毫米波雷达与摄像头的路侧感知方法 |
CN113793365A (zh) * | 2021-11-17 | 2021-12-14 | 第六镜科技(成都)有限公司 | 目标跟踪方法、装置、计算机设备及可读存储介质 |
CN114119660A (zh) * | 2021-11-20 | 2022-03-01 | 富通昭和线缆(杭州)有限公司 | 一种工厂车间跨摄像机行人轨迹跟踪方法 |
CN116152292A (zh) * | 2023-02-13 | 2023-05-23 | 东南大学 | 一种基于三次匹配的多类别多目标跟踪方法 |
CN116363171A (zh) * | 2023-02-27 | 2023-06-30 | 长春理工大学 | 一种融合点云与图像信息的三维多目标跟踪方法 |
Non-Patent Citations (3)
Title |
---|
ZHUANGZHUANG GAO,ZHANGJIN HUANG: "Global-View Re-identification Tracking with Transformer", CICAI 2022 * |
ZHUANGZHUANG GAO,ZHANGJIN HUANG: "Global-View Re-identification Tracking with Transformer.", CICAI 2022 * |
季露;陈志;岳文静;: "基于模型融合和特征关联的视频目标跟踪算法", 计算机技术与发展, no. 06 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173221A (zh) * | 2023-09-19 | 2023-12-05 | 浙江大学 | 一种基于真实性分级与遮挡恢复的多目标跟踪方法 |
CN117173221B (zh) * | 2023-09-19 | 2024-04-19 | 浙江大学 | 一种基于真实性分级与遮挡恢复的多目标跟踪方法 |
CN117522924A (zh) * | 2023-11-22 | 2024-02-06 | 重庆大学 | 基于检测定位置信度指导的深度关联多目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116758110B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116758110B (zh) | 复杂运动场景下的鲁棒多目标跟踪方法 | |
JP6759474B2 (ja) | 深層学習ネットワーク及び平均シフトに基づく船舶自動追跡方法及びシステム | |
US7864980B2 (en) | Video motion anomaly detector | |
Park et al. | Continuous localization of construction workers via integration of detection and tracking | |
Yang et al. | Real-time multiple objects tracking with occlusion handling in dynamic scenes | |
Fuentes et al. | People tracking in surveillance applications | |
CN103246896B (zh) | 一种鲁棒性车辆实时检测与跟踪方法 | |
CN113011367B (zh) | 一种基于目标轨迹的异常行为分析方法 | |
EP1844443B1 (en) | Classifying an object in a video frame | |
CN106023244A (zh) | 基于最小二乘法轨迹预测及智能避障模型的行人跟踪方法 | |
CN107491749B (zh) | 一种人群场景中全局和局部异常行为检测方法 | |
CN108537829B (zh) | 一种监控视频人员状态识别方法 | |
CN111445501A (zh) | 多目标跟踪方法、装置和存储介质 | |
CN113763427B (zh) | 一种基于从粗到精遮挡处理的多目标跟踪方法 | |
CN115830075A (zh) | 一种面向行人多目标跟踪的分级关联匹配方法 | |
CN112614159A (zh) | 一种面向仓库场景的跨摄像头多目标跟踪方法 | |
CN112507859A (zh) | 一种用于移动机器人的视觉跟踪方法 | |
CN111815682B (zh) | 一种基于多轨迹融合的多目标跟踪方法 | |
CN110363791B (zh) | 一种融合单目标跟踪结果的在线多目标跟踪方法 | |
CN111986231A (zh) | 一种多目标跟踪方法及系统 | |
CN111310689A (zh) | 潜在信息融合的家庭安防系统中的人体行为识别的方法 | |
CN105809719A (zh) | 一种基于像素多编码表匹配的对象跟踪方法 | |
EP1529268B1 (en) | Video motion anomaly detector | |
Tran et al. | Depth-aided tracking multiple objects under occlusion | |
CN115511920A (zh) | 一种基于DeepSort和DeepEMD的检测跟踪方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |