CN115527143A - 一种多目标跟踪方法、装置、设备及存储介质 - Google Patents
一种多目标跟踪方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115527143A CN115527143A CN202211137075.5A CN202211137075A CN115527143A CN 115527143 A CN115527143 A CN 115527143A CN 202211137075 A CN202211137075 A CN 202211137075A CN 115527143 A CN115527143 A CN 115527143A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- tracking
- detection
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多目标跟踪方法、装置、设备及存储介质,将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;在预先建立的特征库中查询上一时刻目标的跟踪特征和跟踪位置;根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。实现实时目标检测追踪的同时,保证优异的特征提取能力和鲁棒性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种多目标跟踪方法、装置、设备及存储介质。
背景技术
由于在自动驾驶、交通流量监测、监控、机器人、人机交互、医疗诊断系统和活动识别等应用中的广泛应用,目标跟踪受到关注。其具体任务是在已知目标的初始位置的情况下在后续视频帧中确定目标的位置。
现有的基于深度学习的多目标跟踪方案主要有两种,一种是SDE(SeparateDetecting and Embedding,两阶段跟踪方案),将目标的检测和跟踪任务分开进行,先通过目标检测算法对图像中的目标位置进行检测,再对检测出的目标进行特征提取,并与现有的轨迹进行匹配和链接;另一种是JDE(Joint Detection and Embedding,单阶段跟踪方案),在进行目标检测的同时,获取目标的特征向量,再根据相关匹配逻辑,从而确定当前目标的轨迹信息。
两阶段跟踪方案有助于处理对象的比例变化,跟踪效果也很好,但是速度很慢,难以对视频进行实时推理。单阶段跟踪方案可以大幅减少推理时间,单阶段跟踪方案精度较差,并且面临分辨率低、视角变化、姿态变化、光线变化以及遮挡等严重影响精度的诸多挑战,单阶段跟踪方案的难以具备较强的特征提取能力和鲁棒性。
发明内容
为了解决上述问题,本发明提出一种多目标跟踪方法、装置、设备及存储介质,实时目标检测追踪的同时,保证优异的特征提取能力和鲁棒性。
本发明实施例提供一种多目标跟踪方法,所述方法包括:
将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;
基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;
采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;
在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;
根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
优选地,所述基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置,具体包括:
采用编码器对所述当前特征图进行编码;
将编码后的当前特征图输入到译码器中,利用目标检测模型对编码后的当前特征图进行查询,得到所述当前特征图的检测特征;
通过前向操作获取所述检测特征在所述当前特征图的检测框的坐标,作为所述目标位置。
利用目标检测模型对编码后的当前特征图进行查询作为一种优选方案,所述采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征,具体包括:
将所述当前特征图的检测特征Ft与全局特征St进行逐通道的互相关操作,计算两者的相关性;
再通过卷积操作,预测出密集的位置特征图Pt;
其中,对齐的检测框的左上角坐标和右下角坐标分别为(Xl+Δx1,Yl+Δy1)和(X2+Δx2,Y2+Δy2),(Xl,Yl)和(X2,Y2)分别为检测特征Ft的左上角和右下角的坐标,用于标记检测特征Ft的坐标位置,Δx1和Δy1为检测框左上角对齐的偏移量,Δx2和Δy2为检测框右下角对齐的偏移量。
优选地,所述从预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置,具体包括:
根据待跟踪目标的ID在所述特征库中查询该目标上一时刻的上一特征图,从所述上一特征图中查询得到对应目标的跟踪特征和跟踪位置。
优选地,所述根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,具体包括:
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于预设阈值时,输出跟踪结果为待跟踪目标匹配正常;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到相似目标;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于所述阈值时,输出跟踪结果为待检测目标被遮挡;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到新目标。
进一步地,所述特征库的更新过程具体包括:
当输出的跟踪结果为待跟踪目标匹配正常时,采用所述当前特征图更新所述特征库中的上一特征图,并采用所述目标特征和目标位置更新所述特征库中待跟踪目标的ID对应的跟踪特征和跟踪位置;
当输出的跟踪结果为检测到相似目标时,在所述特征库中生成相似目标的新建ID,将所述目标特征和目标位置存储为所述特征库中所述新建ID的跟踪特征和跟踪位置;
当输出的跟踪结果为待检测目标被遮挡,不更新所述待检测目标在所述特征库中的上一特征图,采用所述目标位置更新所述特征库中待跟踪目标的ID对应的跟踪位置;
当输出的跟踪结果为检测到新目标,在所述特征库中生成新目标的新目标ID,将所述目标特征和目标位置存储为所述特征库中所述新目标ID的跟踪特征和跟踪位置。
作为一种优选方案,所述主干网络采用Yolo-v5模型进行特征提取。
本发明实施例还提供一种多目标跟踪装置所述装置包括:
特征提取模块,用于将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;
特征确定模块,用于基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;
对齐模块,用于采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;
跟踪模块,用于在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
匹配模块,用于根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;
结果输出模块,用于根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
作为一种优选方案,所述特征确定模块具体用于:
采用编码器对所述当前特征图进行编码;
将编码后的当前特征图输入到译码器中,利用目标检测模型对编码后的当前特征图进行查询,得到所述当前特征图的检测特征;
通过前向操作获取所述检测特征在所述当前特征图的检测框的坐标,作为所述目标位置。
利用目标检测模型对编码后的当前特征图进行查询作为一种优选方案,所述对齐模块具体用于:
将所述当前特征图的检测特征Ft与全局特征St进行逐通道的互相关操作,计算两者的相关性;
再通过卷积操作,预测出密集的位置特征图Pt;
对所述检测特征Ft的坐标的偏移量进行编码,确定对齐的检测框的坐标,并根据对齐的检测框得到准确匹配后的目标特征;
其中,对齐的检测框的左上角坐标和右下角坐标分别为(Xl+Δx1,Yl+Δy1)和(X2+Δx2,Y2+Δy2),(Xl,Yl)和(X2,Y2)分别为检测特征Ft的左上角和右下角的坐标,用于标记检测特征Ft的坐标位置,Δx1和Δy1为检测框左上角对齐的偏移量,Δx2和Δy2为检测框右下角对齐的偏移量。
作为一种优选方案,所述跟踪模块具体用于:
根据待跟踪目标的ID在所述特征库中查询该目标上一时刻的上一特征图,从所述上一特征图中查询得到对应目标的跟踪特征和跟踪位置。
作为一种优选方案,所述结果输出模块具体用于:
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于预设阈值时,输出跟踪结果为待跟踪目标匹配正常;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到相似目标;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于所述阈值时,输出跟踪结果为待检测目标被遮挡;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到新目标。
作为一种优选方案,所述结果输出模块还用于:
当输出的跟踪结果为待跟踪目标匹配正常时,采用所述当前特征图更新所述特征库中的上一特征图,并采用所述目标特征和目标位置更新所述特征库中待跟踪目标的ID对应的跟踪特征和跟踪位置;
当输出的跟踪结果为检测到相似目标时,在所述特征库中生成相似目标的新建ID,将所述目标特征和目标位置存储为所述特征库中所述新建ID的跟踪特征和跟踪位置;
当输出的跟踪结果为待检测目标被遮挡,不更新所述待检测目标在所述特征库中的上一特征图采用所述目标位置更新所述特征库中待跟踪目标的ID对应的跟踪位置;
当输出的跟踪结果为检测到新目标,在所述特征库中生成新目标的新目标ID,将所述目标特征和目标位置存储为所述特征库中所述新目标ID的跟踪特征和跟踪位置。
优选地,所述主干网络采用Yolo-v5模型进行特征提取。
本发明实施例还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的一种多目标跟踪方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项实施例所述的一种多目标跟踪方法。
本发明提供一种多目标跟踪方法、装置、设备及存储介质,通过将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。利用逐通道的互相关操作,实现了细粒度的目标特征位置预测,解决了在单阶段多目标跟踪框架的特征难对齐问题,提升了特征提取的精度;提出的融合目标特征和目标位置的匹配逻辑,较好地解决了开放场景中多目标跟踪时容易出现的遮挡等问题,降抵了ID切换的频次。能够保证多目标跟踪的时效性同时,大大提高跟踪的准确性和鲁棒性。
附图说明
图1是本发明实施例提供的一种多目标跟踪方法的流程示意图;
图2是本发明另一实施例提供的多目标跟踪方法的流程示意图;
图3是本发明实施例提供的目标特征再对齐的流程示意图;
图4是本发明实施例提供的特征匹配的流程示意图;
图5是本发明实施例提供的一种多目标跟踪装置的结构示意图;
图6是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例提供的一种多目标跟踪方法的流程示意图,所述方法包括步骤S1~S6;
S1,将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;
S2,基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;
S3,采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;
S4,在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
S5,根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;
S6,根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
在本实施例具体实施时,首先将安装在待监控区域的监控设备获取的当前时刻的图像帧输入到预先构建的主干网络中进行分析,提取图像帧的当前特征图;当前特征图中包含主干网络提取出的特征信息,特征信息包含图像中去除背景外的所有物体的特征,因此在对每一待跟踪目标进行跟踪时,需要单独提取出该待跟踪目标的特征;
对所述当前特征图进行查询,匹配所述当前特征图中的检测特征,以及包含所述检测特征的检测框的坐标,即所述检测特征在所述当前特征图中的位置,将其作为所述目标位置。
目前在目标检测网络中常用的多尺度特征融合对行人重识别是不合适的,因为在低层的特征图上,步长为1/8,目标特征的检测框中心可能无法与根据粗糙锚点位置提取的特征进行对齐,随着跟踪的进行,这种误差会逐渐累积,最终导致跟踪失败。
针对上述问题,在现有单阶段多目标跟踪框架上进行行人重识别特征对齐,采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的检测框的目标特征;优化融合目标框与特征图联合匹配逻辑,在此基础上进一步简化主干网络,降低总体耗时,提高跟踪精度,实现针对视频的多目标连续长时准确跟踪。
在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
当前的单阶段多目标跟踪算法,没有过多关注如何将目标特征和目标位置进行融合匹配的问题,无法充分发挥模型的性能。
在本实施例中,采用目标特征和目标位置融合进行匹配;根据所述检测框的目标特征和目标位置以及跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测,确定目标跟踪结果;
根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
本实施例利用逐通道的互相关操作,实现了细粒度的目标特征位置预测,解决了在单阶段多目标跟踪框架的特征难对齐问题,提升了特征提取的精度;提出的融合目标特征和目标位置的匹配逻辑,较好地解决了开放场景中多目标跟踪时容易出现的遮挡等问题,降抵了ID切换的频次。能够保证多目标跟踪的时效性同时,大大提高跟踪的准确性和鲁棒性。
在本发明提供的又一实施例中,所述步骤S2,具体包括:
采用编码器对所述当前特征图进行编码;
将编码后的当前特征图输入到译码器中,利用目标检测模型对编码后的当前特征图进行查询,得到所述当前特征图的检测特征;
通过前向操作获取所述检测特征在所述当前特征图的检测框的坐标,作为所述目标位置。
利用目标检测模型对编码后的当前特征图进行查询在本实施例具体实施时,参见图2,是本发明另一实施例提供的多目标跟踪方法的流程示意图;
首先将监控设备获取的当前时刻t的图像帧Xt输入到预先构建的轻量化的主干网络中进行分析,提取图像帧的当前特征图,将当前的特征图作为供查询的key,将其输入到编码器Encoder中进行编码操作;
将通过目标检测模型获取的对象向量F0和编码后的当前特征图输入到译码器Decoder中,利用目标检测模型对编码后的当前特征图进行查询,对象向量F0代表一种可学习的表示向量,它能逐渐学会从key中查询到目标的位置从而完成检测,得到所述当前特征图的检测特征Ft,通过前向操作获取到所述检测特征在所述当前特征图的检测框的坐标,作为所述目标特征。
采用同时检测目标和学习行人多重识别的目标特征的跟踪算法,特征图在目标检测与ReID之间共享,可以大幅减少推理时间。
在本发明提供的又一实施例中,所述步骤S3具体包括:
将所述当前特征图的检测特征Ft与全局特征St进行逐通道的互相关操作,计算两者的相关性;
再通过卷积操作,预测出密集的位置特征图Pt;
对所述检测特征Ft的坐标的偏移量进行编码,确定对齐的检测框的坐标,并根据对齐的检测框得到准确匹配后的目标特征;
其中,对齐的检测框的左上角坐标和右下角坐标分别为(Xl+Δx1,Yl+Δy1)和(X2+Δx2,Y2+Δy2),(Xl,Yl)和(X2,Y2)分别为检测特征Ft的左上角和右下角的坐标,用于标记检测特征Ft的坐标位置,Δx1和Δy1为检测框左上角对齐的偏移量,Δx2和Δy2为检测框右下角对齐的偏移量。
在本实施例具体实施时,参见图3,是本发明实施例提供的目标特征再对齐的流程示意图;目标检测模型检测出的当前特征图的检测框较为粗糙,从检测框获取多重行人识别的目标特征时,目标可能无法与粗糙的锚点位置对齐。
计算出检测特征Ft与全局特征St的相关性Rt,再通过卷积conv操作,从而预测出密集的位置特征图Pt,用以对目标特征的左上角坐标和右下角坐标的偏移量进行编码,计算得到Δx1和Δy1为对检测框左上角对齐的偏移量,Δx2和Δy2为对检测框右下角对齐的偏移量;因此对齐后的检测框的左上角坐标和右下角坐标分别为(Xl+Δx1,Yl+Δy1)和(X2+Δx2,Y2+Δy2),根据对齐的检测框得到准确匹配后的目标特征。
基于这种互相关的运动预测对目标特征进行再对齐,弥补主干网络深度降低引发的特征图粗糙而导致的特征难对齐问题,以获取和当前检测框准确匹配的目标特征,缓解了因未对齐导致的特征累计误差,提升了目标跟踪的精度。
在本发明提供的又一实施例中,所述步骤S4具体包括:
根据待跟踪目标的ID在所述特征库中查询该目标上一时刻的上一特征图,从所述上一特征图中查询得到对应目标的跟踪特征和跟踪位置。
在本实施例具体实施时,首先从特征库中获取的当前时刻的上一时刻t-1的图像帧F1,对上一特征图进行查询,得到上一特征图的跟踪特征Ft-1和跟踪特征在上一特征图的检测框的坐标,作为跟踪位置。
然后通过匹配模块对目标特征和跟踪特征,以及目标位置和跟踪位置进行匹配matching,确定跟踪结果。
在本发明提供的又一实施例中,所述根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,具体包括:
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于预设阈值时,输出跟踪结果为待跟踪目标匹配正常;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到相似目标;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于所述阈值时,输出跟踪结果为待检测目标被遮挡;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到新目标。
在本实施例具体实施时,参见图4,是本发明实施例提供的特征匹配的流程示意图;
将当前特征图Ft的目标特征和上一特征图Ft-1的跟踪进行特征匹配判断,判断跟踪特征和目标特征是否匹配,即两帧图像中待跟踪目标是否相同,得到特征匹配检测结果;
将当前特征图Ft的检测框的目标位置和上一特征图Ft-1的跟踪框的跟踪位置进行IOU匹配判断,判断跟踪位置和目标位置是否匹配,即两帧图像中待跟踪目标位置是否发生较大变化,得到IOU匹配检测结果;IOU(Intersection Over Union,交并比)是指跟踪框和检测框的交集和并集的比值,即待跟踪目标的Bounding Box与Ground Truth的重叠度,IOU的定义是为了衡量物体定位精度的一种标准。
当所述目标特征和所述跟踪特征匹配,且所述目标位置和所述跟踪位置的重叠度不小于预设阈值时,目标特征、目标位置均匹配成功,说明待跟踪目标与当前图像帧检测的目标完全匹配,输出的跟踪结果为待跟踪目标匹配正常;
需要说明的是,所述预设阈值可设定为0.7,在跟踪框和检测框出现较大距离是,判定为不同目标。
当所述目标特征和所述跟踪特征匹配,且所述目标位置和所述跟踪位置的重叠度小于所述阈值时,目标特征匹配成功,目标位置未匹配成功,说明当前特征图和上一特征图中出现了位置距离较远但特征相似的两个目标,则判断为不同目标,输出的跟踪结果为检测到相似目标;
当所述目标特征和所述跟踪特征不匹配,且所述目标位置和所述跟踪位置的重叠度不小于所述阈值时,目标特征未匹配成功,目标位置匹配成功,说明待跟踪目标被遮挡,但是检测模型仍然能给出预测框,输出的跟踪结果为待检测目标被遮挡;
当所述目标特征和所述跟踪特征不匹配,且所述目标位置和所述跟踪位置的重叠度小于所述阈值时,目标特征和目标位置均未匹配成功,则判断为新进入视野的目标,输出的跟踪结果为检测到新目标。
基于目标特征和目标位置的优化匹配逻辑,融合了重对齐的ReID特征和目标框位置匹配,较好地解决了目前单阶段多目标跟踪框架中目标被遮挡或短暂消失再出现等情形下的ID切换问题,提升了多目标跟踪的精度。
在本发明提供的又一实施例中,所述特征库的更新过程具体包括:
当输出的跟踪结果为待跟踪目标匹配正常时,采用所述当前特征图更新所述特征库中的上一特征图,并采用所述目标特征和目标位置更新所述特征库中待跟踪目标的ID对应的跟踪特征和跟踪位置;
当输出的跟踪结果为检测到相似目标时,在所述特征库中生成相似目标的新建ID,将所述目标特征和目标位置存储为所述特征库中所述新建ID的跟踪特征和跟踪位置;
当输出的跟踪结果为待检测目标被遮挡,不更新所述待检测目标在所述特征库中的上一特征图,采用所述目标位置更新所述特征库中待跟踪目标的ID对应的跟踪位置;
当输出的跟踪结果为检测到新目标,在所述特征库中生成新目标的新目标ID,将所述目标特征和目标位置存储为所述特征库中所述新目标ID的跟踪特征和跟踪位置。
在本实施例具体实施时,当所述目标特征和所述跟踪特征匹配,且所述目标位置和所述跟踪位置的重叠度不小于预设阈值时,输出的跟踪结果为待跟踪目标匹配正常,采用所述当前特征图更新所述特征库中的上一特征图,并采用所述目标特征和目标位置更新所述特征库中待跟踪目标的ID对应的跟踪特征和跟踪位置,对所述特征库进行更新。
当所述目标特征和所述跟踪特征匹配,且所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出的跟踪结果为检测到相似目标,在所述特征库中生成相似目标的新建ID,将所述目标特征和目标位置存储为所述特征库中所述新建ID的跟踪特征和跟踪位置,对所述特征库进行更新。
当所述目标特征和所述跟踪特征不匹配,且所述目标位置和所述跟踪位置的重叠度不小于所述阈值时,输出的跟踪结果为待检测目标被遮挡,不更新所述待检测目标在所述特征库中的上一特征图,采用所述目标位置更新所述特征库中待跟踪目标的ID对应的跟踪位置,对所述特征库进行更新。
当所述目标特征和所述跟踪特征不匹配,且所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出的跟踪结果为检测到新目标,在所述特征库中生成新目标的新目标ID,将所述目标特征和目标位置存储为所述特征库中所述新目标ID的跟踪特征和跟踪位置,更新所述特征库。
通过更新特征库中目标的跟踪特征和跟踪位置,根据更新的特征库能够实时完成目标跟踪。
在本发明提供的又一实施例中,所述主干网络采用Yolo-v5模型进行特征提取。
在本实施例具体实施时,现有的单阶段目标检测算法的主干网络一般采用ResNet50或ResNet100,具有较强的特征提取能力,但是推理耗时多。
本实施例选择Yolo-v5的主干网络进行特征提取,Yolo系列模型以快速检测著称,其主干网络兼顾了推理速度和特征提取两个方面的能力,满足单阶段多目标跟踪算法对主干网络的要求,在实际应用时还可以根据场景的复杂程度选择Yolo-v5对应的复杂程度不同的主干模型,以兼顾跟踪性能和实时性。
在本发明提供的又一实施例中,参见图5,是本发明实施例提供的一种多目标跟踪装置的结构示意图,所述装置包括:图像获取模块、视频序列集获取、输入特征计算模块、视觉特征计算模块和概率计算模块;
特征提取模块,用于将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;
特征确定模块,用于基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;
对齐模块,用于采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;
跟踪模块,用于在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
匹配模块,用于根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;
结果输出模块,用于根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
本实施例提供的多目标跟踪装置,能够执行上述任一实施例提供的多目标跟踪方法的所有步骤与功能,在此对该装置的具体功能不作赘述。
参见图6,是本发明实施例提供的一种终端设备的结构示意图。所述终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如一种多目标跟踪程序。所述处理器执行所述计算机程序时实现上述各个一种多目标跟踪方法实施例中的步骤,例如图1所示的步骤S1~S6。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述一种多目标跟踪装置中的执行过程。例如,所述计算机程序可以被分割成各个模块,各模块具体功能在上述任一实施例提供的一种多目标跟踪方法中已作详细说明,在此对该装置的具体功能不作赘述。
所述一种多目标跟踪装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述一种多目标跟踪装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是一种多目标跟踪装置的示例,并不构成对一种多目标跟踪装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种多目标跟踪装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种多目标跟踪装置的控制中心,利用各种接口和线路连接整个一种多目标跟踪装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种多目标跟踪装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述一种多目标跟踪装置集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种多目标跟踪方法,其特征在于,所述方法包括:
将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;
基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;
采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;
在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;
根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
2.根据权利要求1所述的多目标跟踪方法,其特征在于,所述基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置,具体包括:
采用编码器对所述当前特征图进行编码;
将编码后的当前特征图输入到译码器中,利用目标检测模型对编码后的当前特征图进行查询,得到所述当前特征图的检测特征;
通过前向操作获取所述检测特征在所述当前特征图的检测框的坐标,作为所述目标位置。
3.根据权利要求1所述的多目标跟踪方法,其特征在于,所述采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征,具体包括:
将所述当前特征图的检测特征Ft与全局特征St进行逐通道的互相关操作,计算两者的相关性;
再通过卷积操作,预测出密集的位置特征图Pt;
对所述检测特征Ft的坐标的偏移量进行编码,确定对齐的检测框的坐标,并根据对齐的检测框得到准确匹配后的目标特征;
其中,对齐的检测框的左上角坐标和右下角坐标分别为(Xl+Δx1,Yl+Δy1)和(X2+Δx2,Y2+Δy2),(Xl,Yl)和(X2,Y2)分别为检测特征Ft的左上角和右下角的坐标,用于标记检测特征Ft的坐标位置,Δx1和Δy1为检测框左上角对齐的偏移量,Δx2和Δy2为检测框右下角对齐的偏移量。
4.根据权利要求1所述的多目标跟踪方法,其特征在于,所述从预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置,具体包括:
根据待跟踪目标的ID在所述特征库中查询该目标上一时刻的上一特征图,从所述上一特征图中查询得到对应目标的跟踪特征和跟踪位置。
5.根据权利要求1所述的多目标跟踪方法,其特征在于,所述根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,具体包括:
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于预设阈值时,输出跟踪结果为待跟踪目标匹配正常;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到相似目标;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度不小于所述阈值时,输出跟踪结果为待检测目标被遮挡;
当所述特征匹配检测结果为所述目标特征和所述跟踪特征不匹配,且所述IOU匹配检测结果为所述目标位置和所述跟踪位置的重叠度小于所述阈值时,输出跟踪结果为检测到新目标。
6.根据权利要求5所述的多目标跟踪方法,其特征在于,所述特征库的更新过程具体包括:
当输出的跟踪结果为待跟踪目标匹配正常时,采用所述当前特征图更新所述特征库中的上一特征图,并采用所述目标特征和目标位置更新所述特征库中待跟踪目标的ID对应的跟踪特征和跟踪位置;
当输出的跟踪结果为检测到相似目标时,在所述特征库中生成相似目标的新建ID,将所述目标特征和目标位置存储为所述特征库中所述新建ID的跟踪特征和跟踪位置;
当输出的跟踪结果为待检测目标被遮挡,不更新所述待检测目标在所述特征库中的上一特征图,采用所述目标位置更新所述特征库中待跟踪目标的ID对应的跟踪位置;
当输出的跟踪结果为检测到新目标,在所述特征库中生成新目标的新目标ID,将所述目标特征和目标位置存储为所述特征库中所述新目标ID的跟踪特征和跟踪位置。
7.根据权利要求1所述的多目标跟踪方法,其特征在于,所述主干网络采用Yolo-v5模型进行特征提取。
8.一种多目标跟踪装置,其特征在于,所述装置包括:
特征提取模块,用于将实时获取的图像帧输入到主干网络进行特征提取,得到当前图像帧的当前特征图;
特征确定模块,用于基于提取的当前特征图进行目标检测,确定所述当前特征图的检测特征和检测框的目标位置;
对齐模块,用于采用互相关的运动预测对检测特征进行再对齐,获得与所述检测框准确匹配的目标特征;
跟踪模块,用于在预先建立的特征库中查询当前已检测出的所有目标的上一时刻的特征,获取上一时刻目标的跟踪特征和跟踪位置;
匹配模块,用于根据所述检测框的目标特征和目标位置,以及所述跟踪特征和跟踪位置,进行特征匹配检测和IOU匹配检测;
结果输出模块,用于根据特征匹配检测结果和IOU匹配检测结果输出对当前图像帧的跟踪结果,并更新所述特征库。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的多目标跟踪方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的多目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211137075.5A CN115527143A (zh) | 2022-09-19 | 2022-09-19 | 一种多目标跟踪方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211137075.5A CN115527143A (zh) | 2022-09-19 | 2022-09-19 | 一种多目标跟踪方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527143A true CN115527143A (zh) | 2022-12-27 |
Family
ID=84696880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211137075.5A Pending CN115527143A (zh) | 2022-09-19 | 2022-09-19 | 一种多目标跟踪方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527143A (zh) |
-
2022
- 2022-09-19 CN CN202211137075.5A patent/CN115527143A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3627180B1 (en) | Sensor calibration method and device, computer device, medium, and vehicle | |
US11002840B2 (en) | Multi-sensor calibration method, multi-sensor calibration device, computer device, medium and vehicle | |
CN108027877B (zh) | 用于非障碍区检测的系统和方法 | |
CN109635861B (zh) | 一种数据融合方法、装置、电子设备及存储介质 | |
CN115063454B (zh) | 多目标跟踪匹配方法、装置、终端及存储介质 | |
CN111382637A (zh) | 行人检测跟踪方法、装置、终端设备及介质 | |
CN112966654A (zh) | 唇动检测方法、装置、终端设备及计算机可读存储介质 | |
He et al. | Fast online multi-pedestrian tracking via integrating motion model and deep appearance model | |
CN116563376A (zh) | 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置 | |
Qing et al. | A novel particle filter implementation for a multiple-vehicle detection and tracking system using tail light segmentation | |
CN112967316B (zh) | 一种面向3d多目标追踪的运动补偿优化方法及系统 | |
Li et al. | High-precision motion detection and tracking based on point cloud registration and radius search | |
CN115908498B (zh) | 一种基于类别最优匹配的多目标跟踪方法及装置 | |
Chen et al. | Fast vehicle detection using a disparity projection method | |
Lim et al. | Integrated position and motion tracking method for online multi-vehicle tracking-by-detection | |
CN115953434B (zh) | 轨迹匹配方法、装置、电子设备和存储介质 | |
Jin et al. | 3D multi-object tracking with boosting data association and improved trajectory management mechanism | |
Cai et al. | 3D vehicle detection based on LiDAR and camera fusion | |
CN115527143A (zh) | 一种多目标跟踪方法、装置、设备及存储介质 | |
WO2022252482A1 (zh) | 机器人及其环境地图构建方法和装置 | |
CN115100565A (zh) | 一种基于空间相关性与光流配准的多目标跟踪方法 | |
Zhang et al. | IQ-VIO: adaptive visual inertial odometry via interference quantization under dynamic environments | |
CN116630764B (zh) | 水面目标融合辨识方法、系统、存储介质、计算机设备及终端 | |
CN117593650B (zh) | 基于4d毫米波雷达与sam图像分割的动点滤除视觉slam方法 | |
US20240230842A9 (en) | Method and apparatus of filtering dynamic objects in radar-based ego-emotion estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |