CN116434150A - 面向拥挤场景的多目标检测跟踪方法、系统及存储介质 - Google Patents

面向拥挤场景的多目标检测跟踪方法、系统及存储介质 Download PDF

Info

Publication number
CN116434150A
CN116434150A CN202310703363.0A CN202310703363A CN116434150A CN 116434150 A CN116434150 A CN 116434150A CN 202310703363 A CN202310703363 A CN 202310703363A CN 116434150 A CN116434150 A CN 116434150A
Authority
CN
China
Prior art keywords
frame
target
representing
appearance
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310703363.0A
Other languages
English (en)
Other versions
CN116434150B (zh
Inventor
任卫红
许兴隆
刘洪海
姜渭博
高宇
董潜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202310703363.0A priority Critical patent/CN116434150B/zh
Publication of CN116434150A publication Critical patent/CN116434150A/zh
Application granted granted Critical
Publication of CN116434150B publication Critical patent/CN116434150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种面向拥挤场景的多目标检测跟踪方法、系统及存储介质,多目标检测跟踪方法包括如下步骤:步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框,利用头部框和偏移对初始身体框进行补充得到身体框;步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征。本发明的有益效果是:本发明提高了检测精度,提高了拥挤场景中移动目标运动估计的准确性。

Description

面向拥挤场景的多目标检测跟踪方法、系统及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及面向拥挤场景的多目标检测跟踪方法、系统及存储介质。
背景技术
多目标跟踪一直是计算机视觉中的长期目标,目标是估计视频中呈现的感兴趣对象的轨迹,其应用包括视频监控、智能视频分析、人类活动识别、智能交通、自动驾驶、无人机航拍等领域。例如,在视频监控中,多目标跟踪技术可以帮助安保人员实时追踪并监控多个可疑目标;在自动驾驶领域,多目标跟踪技术可以实现对周围车辆、行人等交通元素的实时感知和预测,以保证自动驾驶汽车的安全性和稳定性。
目前的多目标跟踪方法分为两大类:基于检测进行跟踪的两阶段方法与联合检测和跟踪的一阶段方法。其中,基于检测进行跟踪的两阶段方法即首先通过目标检测算法对当前帧中目标进行检测,再将检测结果输入ReID网络提取外观特征,充分利用了目标检测算法的检测精度以及ReID网络的外观特征提取能力,缺点是不能共享网络参数导致的计算量过大,尤其在拥挤场景中,难以完成实时跟踪的任务;联合检测和跟踪的一阶段方法即通过单一网络同时完成目标检测和外观特征提取,计算量较小,在拥挤场景中能够实现实时跟踪,缺点是难以对目标物体选用表现更好的ReID网络,且存在检测和跟踪任务在训练过程中的冲突。
在拥挤场景中,遮挡情况大量存在,现有两类方法因只检测身体框,在拥挤场景中极易出现漏检或位置不准确的情况,故检测效果不佳。
在提取运动特征过程中,现有方法构建的运动模型仅线性近似个体运动,忽略了拥挤场景中小范围群体行为的相似性,导致运动估计不准确。
在提取外观特征过程中,现有一阶段方法仅对单帧检测结果进行简单分类,难以利用历史信息;现有两阶段方法使用单独网络训练ReID分支,比较耗时,且现有两类方法在拥挤场景中提取得到的外观特征(ReID)包含太多干扰信息,不利于目标长时跟踪,一些研究工作提出了基于历史帧动态更新外观特征中心向量,一定程度上提高了外观特征的鲁棒性,但是对于如何有效的提取外观特征向量并没有给出有效的解决方案,导致外观模型的关联能力受限。
同时,目前的ReID模型或分支均是基于已有的标注数据进行训练,对于新的场景或数据,难以进行自动域适应,对目标长时跟踪任务产生不利影响。
发明内容
本发明提供了一种面向拥挤场景的多目标检测跟踪方法,包括如下步骤:
步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框,利用头部框和偏移对初始身体框进行补充得到身体框;
步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征;
步骤3:根据运动特征及外观特征,在当前帧检测与存活轨迹间构建代价矩阵,利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接,从而更新多目标移动跟踪结果。
本发明还提供了一种面向拥挤场景的多目标检测跟踪系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述多目标检测跟踪方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的多目标检测跟踪方法的步骤。
本发明的有益效果是:1.本发明利用身体-头部-偏移量(头部到身体的二维位置坐标差)联合检测的算法,通过头部检测与偏移量预测得到的身体框,对直接预测的身体框进行补充操作,有效解决了由于遮挡或模糊造成的漏检问题,提高了检测精度。2.本发明通过基于群体行为约束的目标运动估计模型,解决了传统运动估计模型仅单一考虑个体行为,忽略群体关联的问题,提高了拥挤场景中移动目标运动估计的准确性。3.本发明利用基于头部——身体联合外观向量的时序外观特征(ReID)模型,通过提取头部的外观特征对身体的外观特征进行补充,并对每一轨迹历史帧的外观特征向量进行时序建模,解决了由于遮挡或背景信息干扰造成的长期关联鲁棒性差的问题。4.本发明利用基于K-means聚类算法的ReID网络自动域适应算法,采用在线学习策略在推理阶段动态调整模型参数,解决传统ReID模型对于新的场景或数据难以进行自动域适应,对目标长时跟踪任务产生不利影响的问题。
附图说明
图1是本发明的流程图;
图2是本发明的整体网络结构示意图;
图3是群体行为约束运动估计模型示意图;
图4是历史轨迹信息库功能示意图。
具体实施方式
如图1所示,本发明公开了一种面向拥挤场景的多目标检测跟踪方法,包括如下步骤:
步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框;利用头部框和偏移对初始身体框进行补充得到身体框,避免因遮挡或模糊造成的漏检问题。
步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征。
步骤3:根据运动特征及外观特征,在当前帧检测与存活轨迹间构建代价矩阵,利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接,从而更新多目标移动跟踪结果。
所述目标检测器由YoloX作为backbone,YoloX是实时目标检测网络,backbone是骨干网络,YoloX输出有两个分支,分别为目标检测分支模块和二维偏移分支模块,目标检测分支模块包括regress分支、object分支和class分支,loss(损失)如下:
regress分支:
Figure SMS_1
,/>
Figure SMS_2
表示交并比损失,网络对特定行人的预测框与该行人的身体框(数据集标签)的IOU损失。/>
Figure SMS_3
表示交并比,也就是网络对特定行人的预测框与该行人的身体框的交集/它们的并集。A表示预测框,B表示身体框。
object分支:
Figure SMS_4
class 分支:
Figure SMS_5
Bcewithlogits是二元交叉熵损失,是用于二元分类的损失函数;y是目标的标签,取值为0,1;p是预测的相应类别的概率,范围是0到1,且两类的概率和为1。在object分支中,0代表背景、1代表前景;在class分支中,0代表身体,1代表头部。
二维偏移分支模块采用SmoothL1损失:
Figure SMS_6
用于预测偏移量与真实偏移量的损失函数;X是预测值和真实值之间的差异,用于预测的x,y方向上的差值与真实的差值之间的差;
Otherwise表示否则,即不满足x绝对值<1这个条件时。
总损失为:
Figure SMS_7
,其中,
Figure SMS_8
均为超参数,此处取值依次为5.0、1.0、1.0、1.0。Lregress表示regress分支的损失,Lobject表示object分支的损失,Lclass表示class分支的损失,Loffset表示二维偏移分支的损失,Loffset是头部中心到身体中心的二维坐标偏移量,在这里,头部检测和身体检测两个分支因为都包含regress、object、class三个分支,所以合并了。
regress表示回归,regress分支用于得到检测框的中心点坐标以及对应的宽和高。object表示物体,object分支用于分辨当前检测框里面是否存在物体,或者全是背景。class表示类别,class分支用于判断当前检测框是头部还是身体,也就是对包含物体的检测框进行物体类别的判断。
本发明采用YoloX提出的SimOTA标签匹配策略得到正负样本,正样本即能与标签进行匹配的anchor(anchor表示网络输出的所有预测框),分别将头部anchor、身体anchor与相应的头部标签、身体标签进行匹配。并依据设计Loss对其求损失。对于二维偏移分支的匹配,将匹配到头部标签的头部anchor(即为正样本),加上与该anchor在特征图上相同坐标的二维偏移量,与头部标签对应的身体标签中心求损失。
SimOT A是Yolox网络应用的一种标签分配策略,即将网络输出的所有预测框与数据集标注的身体框和头框进行匹配,得到正负样本。
对目标检测器输出的初始身体框进行补框处理,根据头部框
Figure SMS_9
与对应的偏移
Figure SMS_10
相加,得到此途径获得的补充身体框/>
Figure SMS_11
,将/>
Figure SMS_12
与直接预测获得的初始身体框相加,并通过IOU(交并比)去除/>
Figure SMS_13
中与/>
Figure SMS_14
重叠较大的部分,获得身体框/>
Figure SMS_15
,t表示当前第t帧图片。
如图3所示,所述运动特征提取模块包括群体行为约束运动估计模型,所述群体行为约束运动估计模型定义八维状态空间
Figure SMS_16
,/>
Figure SMS_17
依次表示为身体框的横坐标、纵坐标、宽高比、高度以及它们在图像平面中的相应速度,身体框位置S为/>
Figure SMS_18
;定义选中区域为选中目标中心为圆心,2b为半径的区域,其中第i个目标在当前帧的速度表示为/>
Figure SMS_19
,St表示身体框在第t帧的位置,St-1表示身体框在上一帧的位置,选中目标在第t+1帧处的运动预测过程表示如下:
Figure SMS_20
,/>
Figure SMS_21
表示第i个目标(选中区域中除选中目标)在第t-1帧的速度,/>
Figure SMS_22
表示选中目标在第t-1帧的速度;
Figure SMS_23
Figure SMS_24
Figure SMS_25
其中,N为选中区域中除选中目标之外的跟踪目标的数量,
Figure SMS_26
表示根据第i个目标与选中目标之间的运动相似性得到的权重,经过SoftMax操作将其归一化使其和为1,/>
Figure SMS_27
是超参数,表示上一帧周围目标的运动状态对当前帧选中目标的运动状态的影响权重;/>
Figure SMS_28
表示选中目标身体框在当前帧的位置,/>
Figure SMS_29
表示选中目标身体框在当前帧的速度,/>
Figure SMS_30
表示选中目标身体框在下一帧的位置。
所述外观特征提取模块包括ReID网络,ReID网络为外观特征网络,在所述步骤2中,将头部框
Figure SMS_35
与身体框输入ReID网络进行特征提取,将来自同一行人检测框的外观特征/>
Figure SMS_36
与/>
Figure SMS_37
进行拼接得到/>
Figure SMS_38
,/>
Figure SMS_39
表示头部外观特征向量,/>
Figure SMS_40
表示身体外观特征向量,/>
Figure SMS_41
表示行人的外观特征。其中,/>
Figure SMS_31
和/>
Figure SMS_32
均为128维,/>
Figure SMS_33
为256维,通过全连接层和SoftMax操作将其映射到类分布向量/>
Figure SMS_34
,所用损失如下:
Figure SMS_42
其中,
Figure SMS_43
表示数据集中身份标注的one-hot编码形式,即为该身份时,值为1,其余为0,K表示训练数据中所有行人的数量,N表示该帧中出现行人的数量,P表示该行人外观特征/>
Figure SMS_44
属于第k个行人的概率。
在所述步骤3中,计算上一帧身体框
Figure SMS_45
通过群体行为约束运动估计模型预测的其在当前帧的位置/>
Figure SMS_46
与当前帧检测得到身体框位置的IOU,IOU 表示交并比,计算ReID网络输出经拼接后的当前帧的外观特征向量/>
Figure SMS_47
与历史轨迹信息库中外观特征中心向量/>
Figure SMS_48
的相似度,通过IOU与相似度构建代价矩阵:
外观特征距离:
Figure SMS_49
代价矩阵:
Figure SMS_50
其中,
Figure SMS_51
表示当前帧第i个行人的外观特征向量,/>
Figure SMS_52
表示上一帧第j个轨迹的外观特征中心向量,/>
Figure SMS_53
表示当前帧第i个行人身体框与上一帧第j个轨迹在当前帧预测框的交并比,α表示群体行为约束运动估计模型与ReID网络在代价矩阵中的权重。
如图4所示,将成功匹配的当前帧行人检测的外观特征向量
Figure SMS_54
,按照基于指数移动平均(EMA)机制的更新策略更新对应轨迹的外观特征中心向量/>
Figure SMS_55
,得到该轨迹在当前帧的外观特征中心向量,如下式所示:
Figure SMS_56
其中,
Figure SMS_57
是动量项。
当当前帧行人检测的外观特征向量没有匹配到轨迹时,则认为其在过去帧没有出现过,为其新建轨迹,并将其当前外观特征向量存储到历史轨迹信息库中,当轨迹没有匹配到检测时,将其保留设定数量的帧(例如,保留30帧),若仍然没有匹配到检测,则删除该轨迹,并在历史轨迹信息库中清除。
该多目标检测跟踪方法还包括步骤4,在步骤4中,使用K-means聚类算法对ReID网络进行自动域适应调整。根据当前帧目标外观特征和历史帧目标外观特征,通过K-means聚类算法进行实时分组,利用分组结果,对ReID分支的参数进行更新,所用损失如下:
Figure SMS_58
其中,Q表示聚类数目,
Figure SMS_59
表示第i个聚类中包含的数据点,/>
Figure SMS_60
表示第i个聚类的中心。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (12)

1.一种面向拥挤场景的多目标检测跟踪方法,其特征在于,包括如下步骤:
步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框,利用头部框和偏移对初始身体框进行补充得到身体框;
步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征;
步骤3:根据运动特征及外观特征,在当前帧检测与存活轨迹间构建代价矩阵,利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接,从而更新多目标移动跟踪结果。
2.根据权利要求1所述的多目标检测跟踪方法,其特征在于:所述目标检测器由YoloX作为backbone,YoloX是实时目标检测网络,backbone是骨干网络,YoloX输出有两个分支,分别为目标检测分支模块和二维偏移分支模块,目标检测分支模块包括regress分支、object分支和class分支,regress表示回归,object表示物体,class表示类别,loss如下:
regress分支:
Figure QLYQS_1
,/>
Figure QLYQS_2
表示交并比损失,/>
Figure QLYQS_3
表示交并比,A表示预测框,B表示身体框;
object分支:
Figure QLYQS_4
class 分支:
Figure QLYQS_5
Bcewithlogits是二元交叉熵损失,是用于二元分类的损失函数;y是目标的标签,取值为0,1;p是预测的相应类别的概率,范围是0到1,且两类的概率和为1;在object分支中,0代表背景、1代表前景;在class分支中,0代表身体,1代表头部;
二维偏移分支模块采用SmoothL1损失:
Figure QLYQS_6
SmoothL1(X)用于预测偏移量与真实偏移量的损失函数;X是预测值和真实值之间的差异,用于预测的x,y方向上的差值与真实的差值之间的差;
Otherwise表示否则,即不满足x绝对值<1这个条件时;
总损失为:
Figure QLYQS_7
,其中,/>
Figure QLYQS_8
均为超参数,Lregress表示regress分支的损失,Lobject表示object分支的损失,Lclass表示class分支的损失,Loffset表示二维偏移分支的损失,Loffset是头部中心到身体中心的二维坐标偏移量。
3.根据权利要求2所述的多目标检测跟踪方法,其特征在于:
Figure QLYQS_9
的取值为5.0,/>
Figure QLYQS_10
的取值为1.0,/>
Figure QLYQS_11
的取值为1.0,/>
Figure QLYQS_12
的取值为1.0。
4.根据权利要求1所述的多目标检测跟踪方法,其特征在于:在所述步骤1中,对目标检测器输出的初始身体框进行补框处理,将头部框
Figure QLYQS_13
与对应的偏移/>
Figure QLYQS_15
相加,得到此途径获得的补充身体框/>
Figure QLYQS_16
,将补充身体框/>
Figure QLYQS_17
与直接预测获得的初始身体框
Figure QLYQS_18
相加,并通过IOU去除/>
Figure QLYQS_19
中与/>
Figure QLYQS_20
重叠较大的部分,获得身体框
Figure QLYQS_14
,IOU表示交并比,t表示当前第t帧图片。
5.根据权利要求1所述的多目标检测跟踪方法,其特征在于:所述运动特征提取模块包括群体行为约束运动估计模型,在所述步骤2中,所述群体行为约束运动估计模型定义八维状态空间
Figure QLYQS_21
,/>
Figure QLYQS_22
依次表示为身体框的横坐标、纵坐标、宽高比、高度以及它们在图像平面中的相应速度,身体框位置S为/>
Figure QLYQS_23
;定义选中区域为选中目标中心为圆心,2b为半径的区域,其中第i个目标在当前帧的速度表示为
Figure QLYQS_24
,St表示身体框在第t帧的位置,St-1表示身体框在上一帧的位置,选中目标在第t+1帧处的运动预测过程表示如下:
Figure QLYQS_25
,/>
Figure QLYQS_26
表示第i个目标在第t-1帧的速度,/>
Figure QLYQS_27
表示选中目标在第t-1帧的速度;
Figure QLYQS_28
Figure QLYQS_29
Figure QLYQS_30
其中,N为选中区域中除选中目标之外的跟踪目标的数量,
Figure QLYQS_31
表示根据第i个目标与选中目标之间的运动相似性得到的权重,经过SoftMax操作将其归一化使其和为1,/>
Figure QLYQS_32
是超参数,表示上一帧周围目标的运动状态对当前帧选中目标的运动状态的影响权重;/>
Figure QLYQS_33
表示选中目标身体框在当前帧的位置,/>
Figure QLYQS_34
表示选中目标身体框在当前帧的速度,/>
Figure QLYQS_35
表示选中目标身体框在下一帧的位置。
6.根据权利要求1所述的多目标检测跟踪方法,其特征在于:所述外观特征提取模块包括ReID网络,ReID网络为外观特征网络,在所述步骤2中,将头部框与身体框输入ReID网络进行特征提取,将来自同一行人检测框的外观特征
Figure QLYQS_36
与/>
Figure QLYQS_37
进行拼接得到/>
Figure QLYQS_38
,/>
Figure QLYQS_39
表示头部外观特征向量,/>
Figure QLYQS_40
表示身体外观特征向量,/>
Figure QLYQS_41
表示行人的外观特征。
7.根据权利要求6所述的多目标检测跟踪方法,其特征在于:在所述步骤2中,
Figure QLYQS_42
Figure QLYQS_43
均为128维,/>
Figure QLYQS_44
为256维,通过全连接层和SoftMax操作将其映射到类分布向量
Figure QLYQS_45
,所用损失如下:
Figure QLYQS_46
其中,
Figure QLYQS_47
表示数据集中身份标注的one-hot编码形式,即为该身份时,值为1,其余为0,K表示训练数据中所有行人的数量,N表示该帧中出现行人的数量,P表示该行人外观特征
Figure QLYQS_48
属于第k个行人的概率。
8.根据权利要求1所述的多目标检测跟踪方法,其特征在于:在所述步骤3中,计算上一帧身体框
Figure QLYQS_49
通过群体行为约束运动估计模型预测的其在当前帧的位置/>
Figure QLYQS_50
与当前帧检测得到身体框位置的IOU,IOU 表示交并比,计算ReID网络输出经拼接后的当前帧的外观特征向量/>
Figure QLYQS_51
与历史轨迹信息库中外观特征中心向量/>
Figure QLYQS_52
的相似度,通过IOU与相似度构建代价矩阵:
外观特征距离:
Figure QLYQS_53
代价矩阵:
Figure QLYQS_54
其中,
Figure QLYQS_55
表示当前帧第i个行人的外观特征向量,/>
Figure QLYQS_56
表示上一帧第j个轨迹的外观特征中心向量,/>
Figure QLYQS_57
表示当前帧第i个行人身体框与上一帧第j个轨迹在当前帧预测框的交并比,/>
Figure QLYQS_58
表示群体行为约束运动估计模型与ReID网络在代价矩阵中的权重。
9.根据权利要求1所述的多目标检测跟踪方法,其特征在于:在所述步骤3中,将成功匹配的当前帧行人检测的外观特征向量
Figure QLYQS_59
,按照基于指数移动平均机制的更新策略更新对应轨迹的外观特征中心向量/>
Figure QLYQS_60
,得到该轨迹在当前帧的外观特征中心向量,如下式所示:
Figure QLYQS_61
其中,
Figure QLYQS_62
是动量项;
当当前帧行人检测的外观特征向量没有匹配到轨迹时,则认为其在过去帧没有出现过,为其新建轨迹,并将其当前外观特征向量存储到历史轨迹信息库中,当轨迹没有匹配到检测时,将其保留设定数量的帧,若仍然没有匹配到检测,则删除该轨迹,并在历史轨迹信息库中清除。
10.根据权利要求1至9任一项所述的多目标检测跟踪方法,其特征在于:该多目标检测跟踪方法还包括步骤4,在所述步骤4中,使用K-means聚类算法对ReID网络进行自动域适应调整,根据当前帧目标外观特征和历史帧目标外观特征,通过K-means聚类算法进行实时分组,利用分组结果,对ReID分支的参数进行更新,所用损失如下:
Figure QLYQS_63
其中,Q表示聚类数目,
Figure QLYQS_64
表示第i个聚类中包含的数据点,/>
Figure QLYQS_65
表示第i个聚类的中心。
11.一种面向拥挤场景的多目标检测跟踪系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-10中任一项所述多目标检测跟踪方法的步骤。
12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-10中任一项所述的多目标检测跟踪方法的步骤。
CN202310703363.0A 2023-06-14 2023-06-14 面向拥挤场景的多目标检测跟踪方法、系统及存储介质 Active CN116434150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310703363.0A CN116434150B (zh) 2023-06-14 2023-06-14 面向拥挤场景的多目标检测跟踪方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310703363.0A CN116434150B (zh) 2023-06-14 2023-06-14 面向拥挤场景的多目标检测跟踪方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116434150A true CN116434150A (zh) 2023-07-14
CN116434150B CN116434150B (zh) 2023-12-05

Family

ID=87092935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310703363.0A Active CN116434150B (zh) 2023-06-14 2023-06-14 面向拥挤场景的多目标检测跟踪方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116434150B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935446A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 行人重识别方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090296989A1 (en) * 2008-06-03 2009-12-03 Siemens Corporate Research, Inc. Method for Automatic Detection and Tracking of Multiple Objects
US20140169663A1 (en) * 2012-12-19 2014-06-19 Futurewei Technologies, Inc. System and Method for Video Detection and Tracking
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US20160343146A1 (en) * 2015-05-22 2016-11-24 International Business Machines Corporation Real-time object analysis with occlusion handling
CN113723190A (zh) * 2021-07-29 2021-11-30 北京工业大学 一种面向同步移动目标的多目标跟踪方法
CN113822163A (zh) * 2021-08-25 2021-12-21 北京紫岩连合科技有限公司 一种复杂场景下的行人目标跟踪方法及装置
CN114037950A (zh) * 2021-10-26 2022-02-11 武汉大学 一种基于行人和头部检测的多行人跟踪方法及装置
CN114202558A (zh) * 2020-09-16 2022-03-18 北京爱笔科技有限公司 一种目标跟踪方法、装置、设备及存储介质
CN114926859A (zh) * 2022-01-04 2022-08-19 天津理工大学 一种结合头部跟踪的密集场景下行人多目标跟踪方法
CN115841649A (zh) * 2022-11-21 2023-03-24 哈尔滨工程大学 一种用于城市复杂场景的多尺度人数统计方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090296989A1 (en) * 2008-06-03 2009-12-03 Siemens Corporate Research, Inc. Method for Automatic Detection and Tracking of Multiple Objects
US20140169663A1 (en) * 2012-12-19 2014-06-19 Futurewei Technologies, Inc. System and Method for Video Detection and Tracking
US9443320B1 (en) * 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US20160343146A1 (en) * 2015-05-22 2016-11-24 International Business Machines Corporation Real-time object analysis with occlusion handling
CN114202558A (zh) * 2020-09-16 2022-03-18 北京爱笔科技有限公司 一种目标跟踪方法、装置、设备及存储介质
CN113723190A (zh) * 2021-07-29 2021-11-30 北京工业大学 一种面向同步移动目标的多目标跟踪方法
CN113822163A (zh) * 2021-08-25 2021-12-21 北京紫岩连合科技有限公司 一种复杂场景下的行人目标跟踪方法及装置
CN114037950A (zh) * 2021-10-26 2022-02-11 武汉大学 一种基于行人和头部检测的多行人跟踪方法及装置
CN114926859A (zh) * 2022-01-04 2022-08-19 天津理工大学 一种结合头部跟踪的密集场景下行人多目标跟踪方法
CN115841649A (zh) * 2022-11-21 2023-03-24 哈尔滨工程大学 一种用于城市复杂场景的多尺度人数统计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘金文 等: ""融合人群密度的自适应深度多目标跟踪算法"", 《模式识别与人工智能》, vol. 34, no. 5, pages 385 - 397 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935446A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 行人重识别方法、装置、电子设备及存储介质
CN116935446B (zh) * 2023-09-12 2024-02-20 深圳须弥云图空间科技有限公司 行人重识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116434150B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN111488795B (zh) 应用于无人驾驶车辆的实时行人跟踪方法
Wei et al. Enhanced object detection with deep convolutional neural networks for advanced driving assistance
Ke et al. Real-time traffic flow parameter estimation from UAV video based on ensemble classifier and optical flow
Ammar et al. Aerial images processing for car detection using convolutional neural networks: Comparison between faster r-cnn and yolov3
Hausler et al. Multi-process fusion: Visual place recognition using multiple image processing methods
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN112750150B (zh) 基于车辆检测和多目标跟踪的车流量统计方法
Wojek et al. Monocular visual scene understanding: Understanding multi-object traffic scenes
JP2021530048A (ja) 多階層化目標類別方法及び装置、交通標識検出方法及び装置、機器並びに媒体
CN109658442B (zh) 多目标跟踪方法、装置、设备及计算机可读存储介质
CN116434150B (zh) 面向拥挤场景的多目标检测跟踪方法、系统及存储介质
CN104778699A (zh) 一种自适应对象特征的跟踪方法
CN111666860A (zh) 一种车牌信息与车辆特征融合的车辆轨迹跟踪方法
CN114283355A (zh) 一种基于小样本学习的多目标濒危动物跟踪方法
Hammam et al. Real-time multiple spatiotemporal action localization and prediction approach using deep learning
CN104637052A (zh) 基于目标引导显著性检测的对象跟踪方法
Amrouche et al. Vehicle Detection and Tracking in Real-time using YOLOv4-tiny
US11420623B2 (en) Systems for determining object importance in on-road driving scenarios and methods thereof
Arthi et al. Object detection of autonomous vehicles under adverse weather conditions
Mitzel et al. Real-Time Multi-Person Tracking with Time-Constrained Detection.
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
Kumar et al. Improved YOLOv4 approach: a real time occluded vehicle detection
Xingxin et al. Adaptive auxiliary input extraction based on vanishing point detection for distant object detection in high-resolution railway scene
CN116664851A (zh) 一种基于人工智能的自动驾驶数据提取方法
Zhang et al. Boosting the speed of real-time multi-object trackers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant