CN114820723A - 一种基于联合检测和关联的在线多目标跟踪方法 - Google Patents

一种基于联合检测和关联的在线多目标跟踪方法 Download PDF

Info

Publication number
CN114820723A
CN114820723A CN202210430025.XA CN202210430025A CN114820723A CN 114820723 A CN114820723 A CN 114820723A CN 202210430025 A CN202210430025 A CN 202210430025A CN 114820723 A CN114820723 A CN 114820723A
Authority
CN
China
Prior art keywords
frame
representing
matrix
head
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210430025.XA
Other languages
English (en)
Inventor
杨凡
王海东
李智勇
李树涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210430025.XA priority Critical patent/CN114820723A/zh
Publication of CN114820723A publication Critical patent/CN114820723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于联合检测和关联的在线多目标跟踪方法,设计了一个端到端架构来联合处理对象检测和在线MOT任务;将目标检测和关联结合到一个单一的神经网络中,为了解决目标检测子模块的输出与关联子模块的输入之间的边界框不一致问题,提出了联合子模块和合适的训练数据生成方法,直接利用目标表示将不同帧中的对象关联起来,同时设计了一个两阶段的训练方法来训练检测子模块和关联子模块,并完全以端到端模式执行在线MOT过程。本发明结构简单高效。

Description

一种基于联合检测和关联的在线多目标跟踪方法
技术领域
本发明属于图像处理领域,具体涉及一种基于联合检测和关联的在线多目标跟踪方法。
背景技术
随着人工智能的发展,视觉目标跟踪可以运用到很多领域,例如运动校正、无人驾驶和安防监控等;目标检测方法和数据关联方法是在线多目标跟踪(Online Multi-ObjectTracking,MOT)中最重要的两个方法,近年来,关于这两种方法在在线目标跟踪应用中主要有两种技术路径。一是两阶段法,即将这两个分离的模块分别进行处理和优化。但这导致了复杂的模型设计,并需要冗余的模型参数需要学习。二是一阶段法,即将两个子任务整合成一个端到端的模型来优化模型。一阶段方法在单个网络中执行对象检测和对象跟踪,因此,两个子任务可以在目标表示提取中共享模型参数,可显着降低跟踪成本。然而,一阶段法的主要存在以下几种缺点:首先,对象检测和数据关联之间存在模态差异。前者只涉及空间信息的处理,后者涉及时间序列上的数据关联。这些差异使得一阶段法模型的设计更加困难。其次,MOT数据集中现有的检测结果或标签没有相应的检测模型实现。因此,检测网络的输出和关联网络的输入之间的边界框不一致阻止了整个端到端MOT模型中的训练过程。最后,随着检测子模块的持续训练,关联子模块推断的边界框也没有相应的ground truth。这些因素使得难以获得一个端到端模型来实现MOT。
发明内容
本发明的目的在于提供一种基于联合检测和关联的在线多目标跟踪方法,将目标检测和关联结合到一个单一的神经网络中,实现端到端联合处理对象检测与MOT任务。
本发明提供的这种基于联合检测和关联的在线多目标跟踪方法,包括如下步骤:
S1.建立目标检测子模块,通过定位头和表征头获取总检测损失;
S2.进入连接子模块,将当前帧中的对象表示和历史坐标系中的对象表示进行合并;
S3.对历史帧和当前视频帧在视频序列中不连续的数据进行数据增强处理;
S4.进入关联子模块,将扩展的混淆矩阵转换为关联矩阵;
S5.定义方向性损失、非极大值损失和平衡损失,计算总关联损失;
S6.得到当前帧目标和具有相应对象表示的历史帧中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系起来更新轨迹记录器,实现在线跟踪。
所述的步骤S1,包括将单个视频帧F作为输入,
Figure BDA0003609812780000021
Figure BDA0003609812780000022
表示三维矩阵;W为宽度;H为宽度;3表示通道数;获得每个视频帧的对象边界框和相应的数学表示;设置主干网络,并在主干网络中添加预测头和表征头;定位头用于定位目标边界框,表征头用于计算对象表示。
主干网络采用ResNet-34;利用DLA(Deep Layer Aggregation,深度聚集)的一种变体方法作为目标检测子模块的主干;
定位头包括,定位头的输入为主干网络的输出表示;每个定位头具有3×3内核大小和256输出通道,然后1×1卷积以产生定位输出,具体为生成热力图头和尺寸头:
使用热力图头预测对象中心,热力图头具体为,对于第i帧视频帧中的真实边界框
Figure BDA0003609812780000023
Figure BDA0003609812780000024
表示第i帧左上角横坐标值;
Figure BDA0003609812780000025
表示第i帧左上角纵坐标值;
Figure BDA0003609812780000026
表示第i帧右下角横坐标值;
Figure BDA0003609812780000027
表示第i帧右下角纵坐标值;获得第i帧中心位置pi的目标,
Figure BDA0003609812780000028
求第i帧图上的位置qi
Figure BDA0003609812780000029
其中G表示第一下采样因子;当前点位置
Figure BDA00036098127800000210
处的热力图头响应rq定义为
Figure BDA00036098127800000211
其中,
Figure BDA00036098127800000212
表示三维矩阵;qk表示第k个点的位置;σ为高斯核;根据焦点损失形成热力图头损失函数Lh作为训练目标:
Figure BDA00036098127800000213
其中,N表示当前视频帧中的目标数量;
Figure BDA0003609812780000031
表示当前点位置q处的预测热图响应,当前点位置q处的预测热图响应的类号Ch=1;α表示焦点损失第一超参数;β表示焦点损失第二超参数;log(·)表示取对数,用于简便计算;
尺寸头具体为,尺寸头用于预测对象围绕其中心位置的宽度和高度;尺寸头的输出
Figure BDA0003609812780000032
定义为
Figure BDA0003609812780000033
其中尺寸头的输出的类号Cz=2;
Figure BDA0003609812780000034
表示三维矩阵;G表示第一下采样因子;W为宽度;H为宽度;虽然定位精度与对象表示没有直接关系,但会影响检测子任务的性能;对于视频帧中的一个真实框bi,根据
Figure BDA0003609812780000035
得到第i帧框的大小zi,并且第i帧预测的边界框大小定义为
Figure BDA0003609812780000036
Figure BDA0003609812780000037
表示第i帧左上角横坐标值;
Figure BDA0003609812780000038
表示第i帧左上角纵坐标值;
Figure BDA0003609812780000039
表示第i帧右下角横坐标值;
Figure BDA00036098127800000310
表示第i帧右下角纵坐标值;将偏移头的输出表示为
Figure BDA00036098127800000311
其中偏移头输出的类号Cd=2;第i帧图上的真实位移di表示为
Figure BDA00036098127800000312
pi表示第i帧中心位置;将第i帧中心位置位移表示为
Figure BDA00036098127800000313
因此尺寸头和偏移头的类似损失Ls为:
Figure BDA00036098127800000314
其中,N表示当前视频帧中的目标数量;zi表示第i帧框的大小;
Figure BDA00036098127800000315
表示第i帧预测的边界框大小;di表示图上的真实位移;
Figure BDA00036098127800000316
表示中心位置位移;||·||1表示L1范数;
因此,定位头损失Lp为前两个损失的组合:
Lp=Lh+Ls
其中,Lh表示热力图头损失函数;Ls表示尺寸头和偏移头的类似损失;
表征头包括,生成的表示图为
Figure BDA00036098127800000317
其中
Figure BDA00036098127800000318
表示三维矩阵;S表示第二下采样因子;W为宽度;H为宽度;生成的表示图的输出通道Ce=128;通过表征头学习的中心位置p的目标表征
Figure BDA00036098127800000319
Figure BDA00036098127800000320
表示元素个数为C的一维向量;对于第i帧视频帧中的真实边界框bi,获得第i帧热图上的目标中心位置
Figure BDA0003609812780000041
在第i帧某个位置学习一个身份表示
Figure BDA0003609812780000042
并输出到一维分类概率向量v(k),并将第i帧地面实况分类标签表示为ui(j);因此,身份分类损失Lc被构造为:
Figure BDA0003609812780000043
其中,N表示帧的总数;J表示数据集中所有身份的总数;v(j)表示身份的预测值;j表示数据集中身份的计数变量;log(·)表示取对数,用于简便计算;
总检测损失为Ld=Lp+Lc,Lc为身份分类损失;Lp为定位头损失。
所述的步骤S2,包括进入连接子模块SJ,将当前视频帧Ft的表示矩阵Rt沿垂直方向复制到当前帧中的表示张量
Figure BDA0003609812780000044
并将前n帧中的表示矩阵Rt-n沿水平方向复制到前n帧中的表示张量
Figure BDA0003609812780000045
将当前帧中的表示张量Mt和前n帧中的表示张量Mt-n沿着对象表示的通道方向合并到,当前帧和前n帧之间的混淆张量
Figure BDA0003609812780000046
Nm表示每帧的最大目标数;
Figure BDA0003609812780000047
表示三维矩阵;t表示当前时刻。
所述的步骤S3,包括将历史帧Ft-n和当前视频帧Ft由n帧分隔,其中n∈[0,Na-1],Na表示最大历史帧数目;以0.25的概率对每个轨迹上的历史帧Ft-n和当前视频帧Ft进行采样;将视频帧整形为大小W×H×3;W为宽度;H为宽度;对采样视频帧使用概率为0.5的水平翻转,沿着对象表示的方向逐步实现了从256到1的维度压缩,卷积核大小为1×1。
所述的步骤S4,包括进入关联子模块,将扩展的混淆矩阵Mt,tn转换为关联矩阵,通过利用所提出的关联子模块获得帧间关联,并利用每帧的最大目标数Nm预测历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma;沿水平和垂直方向,向历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma中插入零向量用于进行泛化。
所述的步骤S5,包括利用历史帧Ft-n和当前视频帧Ft之间的相似性关联编码;在历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma后附加一列,构建第一扩展矩阵M1
Figure BDA0003609812780000048
Nm表示每帧的最大目标数;
Figure BDA0003609812780000049
表示三维矩阵;Nm表示每帧的最大目标数;
Figure BDA00036098127800000410
表示二维矩阵;最后附加的垂直向量表示从历史帧Ft-n中消失的当前跟踪对象;最后一行中附加的水平向量表示在当前帧Ft中进入视野的新兴目标;第一扩展矩阵M1的第m行将历史帧Ft-n中的第m个对象与当前帧Ft的第Nm+1个对象关联起来;Nm+1表示最大目标数+1;通过执行softmax函数对第一扩展矩阵M1的水平方向上的扩展概率向量进行归一化;输出关联矩阵A1的水平向量表示当前视频帧Ft中所有目标与所有目标之间的关联概率在当前视频帧Ft中,
Figure BDA0003609812780000051
A1表示第一关联矩阵预测值;将总关联损失Ls定义为方向性损失Ld、非极大值损失Lm和平衡损失Lb的总和,Ls=Ld+Lm+Lb
方向性损失Ld为:
Figure BDA0003609812780000052
其中,B1表示Bt-n,t删除最后一个水平向量;B2表示Bt-n,t删除最后一个垂直向量;Bt-n,t表示历史帧与当前帧的关联矩阵真实值;⊙表示Hadamard乘积;log(·)表示取对数,用于简便计算;Nm表示每帧的最大目标数;A2表示第二关联矩阵预测值;
非极大值损失Lm为:
Figure BDA0003609812780000053
其中,Nm表示每帧的最大目标数;B3表示Bt-n,t删除最后一个垂直向量和最后一个水平向量;log(·)表示取对数,用于简便计算;Am表示第三关联矩阵预测值;Am=max(Ac,Ar),max(·)表示取最大值;Ac表示A1删除最后一个垂直向量和最后一个水平向量被裁剪到Nm×Nm的纬度获得的矩阵;Ar表示A2删除最后一个垂直向量和最后一个水平向量被裁剪到Nm×Nm的纬度获得的矩阵;
平衡损失Lb为,
Figure BDA0003609812780000054
其中,Ac表示去除最后列的关联矩阵预测值;Ar表示去除最后行的关联矩阵预测值。
所述的步骤S6,包括得到当前视频帧Ft目标和具有相应对象表示的历史帧Ft-n中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系更新轨迹记录器Tt;在初始时刻,轨迹记录器具有相同数量的轨道,一个帧仅通过检测子模块传输一次,对象表示被重复使用若干次来评估与剩余图像的相似性;基于关联矩阵;通过复制累加器的最后一个垂直向量,将许多轨道分配给累积矩阵中的特定末检测对象列,实现在线跟踪。
本发明提供的这种基于联合检测和关联的在线多目标跟踪方法,设计了一个端到端架构来联合处理对象检测和在线MOT任务;将目标检测和关联结合到一个单一的神经网络中,为了解决目标检测子模块的输出与关联子模块的输入之间的边界框不一致问题,提出了联合子模块和合适的训练数据生成方法,直接利用目标表示将不同帧中的对象关联起来,同时设计了一个两阶段的训练方法来训练检测子模块和关联子模块,并完全以端到端模式执行在线MOT过程。本发明结构简单高效。
附图说明
图1为本发明方法的流程示意图。
图2为本发明实施例的流程示意图。
图3为本发明实施例的关联子模块流程示意图。
具体实施方式
如图1为本发明方法的流程示意图:本发明提供的这种基于联合检测和关联的在线多目标跟踪方法,包括如下步骤:
S1.建立目标检测子模块,通过定位头和表征头获取总检测损失;
S2.进入连接子模块,将当前帧中的对象表示和历史坐标系中的对象表示进行合并;
S3.对历史帧和当前视频帧在视频序列中不连续的数据进行数据增强处理;
S4.进入关联子模块,将扩展的混淆矩阵转换为关联矩阵;
S5.定义方向性损失、非极大值损失和平衡损失,计算总关联损失;
S6.得到当前帧目标和具有相应对象表示的历史帧中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系起来更新轨迹记录器,实现在线跟踪。
所述的步骤S1,包括将单个视频帧F作为输入,
Figure BDA0003609812780000071
Figure BDA0003609812780000072
表示三维矩阵;W为宽度;H为宽度;3表示通道数;获得每个视频帧的对象边界框和相应的数学表示;设置主干网络,并在主干网络中添加预测头和表征头;定位头用于定位目标边界框,表征头用于计算对象表示。
如图2为本发明实施例的流程示意图。主干网络对于MOT任务至关重要,为了同时考虑模型复杂性和精度,采用ResNet-34;利用DLA(Deep Layer Aggregation,深度聚集)的一种变体方法作为目标检测子模块的主干,可适应各种尺度的目标。与原始DLA相比,DLA的变体在低层和高层表示之间有额外的旁路。另外,上采样过程中的所有修改同样有利于缓解对齐问题。
定位头包括,定位头的输入为主干网络的输出表示;每个定位头具有3×3内核大小和256输出通道,然后1×1卷积以产生定位输出,具体为生成一个低分辨率的热力图头和尺寸头:
使用热力图头预测对象中心,当定位头与真正的中心目标位置重叠时,热力图头在某个位置的输出为1,输出值随着到目标中心位置的距离增加而减小。热力图头具体为,对于第i帧视频帧中的真实边界框
Figure BDA0003609812780000073
Figure BDA0003609812780000074
表示第i帧左上角横坐标值;
Figure BDA0003609812780000075
表示第i帧左上角纵坐标值;
Figure BDA0003609812780000076
表示第i帧右下角横坐标值;
Figure BDA0003609812780000077
表示第i帧右下角纵坐标值;获得第i帧中心位置pi的目标,
Figure BDA0003609812780000078
因此,通过将中心位置除以第一下采样因子来计算表示第i帧图上的位置qi
Figure BDA0003609812780000079
其中G表示第一下采样因子,G=4。形式上,当前点位置
Figure BDA00036098127800000710
处的热力图头响应rq定义为
Figure BDA00036098127800000711
其中,
Figure BDA00036098127800000712
表示三维矩阵;qk表示第k个点的位置;σ为高斯核,为目标大小的函数。根据焦点损失形成热力图头损失函数Lh作为训练目标:
Figure BDA00036098127800000713
其中,N表示当前视频帧中的目标数量;
Figure BDA0003609812780000081
表示当前点位置q处的预测热图响应,当前点位置q处的预测热图响应的类号Ch=1;α表示焦点损失第一超参数;β表示焦点损失第二超参数;log(·)表示取对数,用于简便计算;
尺寸头具体为,尺寸头用于预测对象围绕其中心位置的宽度和高度;尺寸头的输出
Figure BDA0003609812780000082
定义为
Figure BDA0003609812780000083
其中尺寸头的输出的类号Cz=2;
Figure BDA0003609812780000084
表示三维矩阵;G表示第一下采样因子;W为宽度;H为宽度;虽然定位精度与对象表示没有直接关系,但会影响检测子任务的性能。对于视频帧中的一个真实框bi,根据
Figure BDA0003609812780000085
得到第i帧框的大小zi,并且第i帧预测的边界框大小定义为
Figure BDA0003609812780000086
Figure BDA0003609812780000087
表示第i帧左上角横坐标值;
Figure BDA0003609812780000088
表示第i帧左上角纵坐标值;
Figure BDA0003609812780000089
表示第i帧右下角横坐标值;
Figure BDA00036098127800000810
表示第i帧右下角纵坐标值。此外,FairMOT表明具有中心位置的细化边界框对于提高MOT精度很重要,主干网络中的第一下采样因子将发挥强大的量化效果。偏移头用于更准确地检测目标,虽然检测精度提升的优势微乎其微,偏移头是MOT数据关联的导人,因为对象表示是基于极其精确的边界框学习的。将偏移头的输出表示为
Figure BDA00036098127800000811
其中偏移头输出的类号Cd=2;第i帧图上的真实位移di表示为
Figure BDA00036098127800000812
pi表示第i帧中心位置;将第i帧中心位置位移表示为
Figure BDA00036098127800000813
因此尺寸头和偏移头的类似损失Ls为:
Figure BDA00036098127800000814
其中,N表示当前视频帧中的目标数量;zi表示第i帧框的大小;
Figure BDA00036098127800000815
表示第i帧预测的边界框大小;di表示图上的真实位移;
Figure BDA00036098127800000816
表示中心位置位移;||·||1表示L1范数;
因此,定位头损失Lp为前两个损失的组合:
Lp=Lh+Ls
其中,Lh表示热力图头损失函数;Ls表示尺寸头和偏移头的类似损失。
表征头包括,表征头的目的为提取可以区分各种跟踪目标的表示。在理想情况下,不同行人之间的差异大于同一行人之间的差异。为了实现这一目标,基于主干网络输出为检测到的目标学习对象表示。生成的表示图为
Figure BDA0003609812780000091
其中
Figure BDA0003609812780000092
表示三维矩阵;S表示第二下采样因子;W为宽度;H为宽度;生成的表示图的输出通道Ce=128;通过表征头学习的中心位置p的目标表征
Figure BDA0003609812780000093
Figure BDA0003609812780000094
表示元素个数为C的一维向量;将跟踪目标识别视为分类问题,训练数据集中所有相同身份的目标都被视为一个标签;对于第i帧视频帧中的真实边界框bi,获得第i帧热图上的目标中心位置
Figure BDA0003609812780000095
在第i帧某个位置学习一个身份表示
Figure BDA0003609812780000096
并输出到一维分类概率向量v(k),并将第i帧地面实况分类标签表示为ui(j);因此,身份分类损失Lc被构造为:
Figure BDA0003609812780000097
其中,N表示帧的总数;J表示数据集中所有身份的总数;v(j)表示身份的预测值;j表示数据集中身份的计数变量;log(·)表示取对数,用于简便计算;
总检测损失为Ld=Lp+Lc,Lc为身份分类损失;Lp为定位头损失。
所述的步骤S2,包括进入连接子模块SJ,将当前视频帧Ft的表示矩阵Rt沿垂直方向复制到当前帧中的表示张量
Figure BDA0003609812780000098
并将前n帧中的表示矩阵Rt-n沿水平方向复制到前n帧中的表示张量
Figure BDA0003609812780000099
将当前帧中的表示张量Mt和前n帧中的表示张量Mt-n沿着对象表示的通道方向合并到,当前帧和前n帧之间的混淆张量
Figure BDA00036098127800000910
Nm表示每帧的最大目标数;
Figure BDA00036098127800000911
表示三维矩阵;t表示当前时刻。
所述的步骤S3,包括历史帧Ft-n和当前视频帧Ft在视频序列中不一定是连续的,将历史帧Ft-n和当前视频帧Ft由n帧分隔,其中n∈[0,Na-1],Na表示最大历史帧数目;使用跳过的视频帧进行训练,有利于在当前帧与一系列历史视频帧之间的数据关联中使用现有的MOT方法。此外,MOT中使用的训练数据始终缺乏捕捉背景变化、相机失真和许多现实效果以保持MOT鲁棒性的能力。在所提出的跟踪方法中,训练数据涉及足够多的不相关跟踪属性,以增强MOT模型的鲁棒性。因此,对MOT训练数据集进行后续的数据增强。以0.25的概率对每个轨迹上的历史帧Ft-n和当前视频帧Ft进行采样。然后,这些视频帧被重新整形为指定的大小W×H×3;对采样视频帧使用概率为0.5的水平翻转,沿着对象表示的方向逐步实现了从256到1的维度压缩,卷积核大小为1×1,同时不会相互影响表示图中的相邻通道。
如图3为本发明实施例的关联子模块流程示意图;所述的步骤S4,包括进入关联子模块,将扩展的混淆矩阵Mt,tn转换为关联矩阵,通过利用所提出的关联子模块获得帧间关联,如图2的后半部分所示,并利用每帧的最大目标数Nm预测历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma;沿水平和垂直方向,向历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma中插入零向量(作为对象占位符)以进行泛化。
所述的步骤S5,包括利用历史帧Ft-n和当前视频帧Ft之间的相似性关联编码来考虑多个目标的消失和出现;考虑到目标消失,在历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma后附加一列,构建第一扩展矩阵M1
Figure BDA0003609812780000101
Nm表示每帧的最大目标数;
Figure BDA0003609812780000102
表示三维矩阵;Nm表示每帧的最大目标数;
Figure BDA0003609812780000103
表示二维矩阵;最后附加的垂直向量表示从历史帧Ft-n中消失的当前跟踪对象。最后一行中附加的水平向量表示在当前帧Ft中进入视野的新兴目标;如图3顶部所示。第一扩展矩阵M1的第m行将历史帧Ft-n中的第m个对象与当前帧Ft的第Nm+1个对象关联起来;Nm+1表示最大目标数+1;通过执行softmax函数对第一扩展矩阵M1的水平方向上的扩展概率向量进行归一化;因此,输出关联矩阵A1的水平向量表示当前视频帧Ft中所有目标与所有目标之间的关联概率在当前视频帧Ft中,包括当前视频帧中末识别的目标。
Figure BDA0003609812780000104
A1表示第一关联矩阵预测值;将总关联损失Ls定义为方向性损失Ld、非极大值损失Lm和平衡损失Lb的总和,Ls=Ld+Lm+Lb
具体来说,使用方向性损失Ld来抑制消失和出现的错误目标关联。
Figure BDA0003609812780000105
其中,B1表示Bt-n,t删除最后一个水平向量;B2表示Bt-n,t删除最后一个垂直向量;Bt-n,t表示历史帧与当前帧的关联矩阵真实值;⊙表示Hadamard乘积;log(·)表示取对数,用于简便计算;Nm表示每帧的最大目标数;A2表示第二关联矩阵预测值;
利用非极大值损失和平衡损失来训练关联子模块;非极大值损失Lm在关联计算的消失和出现中惩罚非最大关联。
Figure BDA0003609812780000111
其中,Nm表示每帧的最大目标数;B3表示Bt-n,t删除最后一个垂直向量和最后一个水平向量;log(·)表示取对数,用于简便计算;Am表示第三关联矩阵预测值;Am=max(Ac,Ar),max(·)表示取最大值;Ac表示A1删除最后一个垂直向量和最后一个水平向量被裁剪到Nm×Nm的纬度获得的矩阵;Ar表示A2删除最后一个垂直向量和最后一个水平向量被裁剪到Nm×Nm的纬度获得的矩阵,如图3所示。
平衡损失Lb惩罚消失和出现之间的任何不平衡。这意味着出现的对象数和消失的对象数相等,
Figure BDA0003609812780000112
其中,Ac表示去除最后列的关联矩阵预测值;Ar表示去除最后行的关联矩阵预测值。
所述的步骤S6,包括得到当前视频帧Ft目标和具有相应对象表示的历史帧Ft-n中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系起来更新轨迹记录器Tt;在初始时刻,即t=0时,轨迹记录器具有相同数量的轨道,一个帧仅通过检测子模块传输一次,但对象表示被重复使用若干次来评估与剩余图像的相似性;基于关联矩阵;通过复制累加器的最后一个垂直向量,可以将许多轨道分配给累积矩阵中的特定末检测对象列,实现在线跟踪。
具体实施例为:
在本实施例中,使用MOT15和MOT17两个不同的MOT基准数据集上广泛测试了所提出方法的总体性能,如表1所示为本发明实施例的测试结果,具体为。
表1
Figure BDA0003609812780000121
其中,JDE为现有一阶段MOT方法。MDP_SubCNN、CDA_DDAL、EAMTT、AP_HWDPL、RAR15、DMAN、MTDF、FAMNet、Tracktor++和SST为现有二阶段MOT方法。本方法(即Joint DetectionAssociation Network,JDAN)与之前多种广泛使用的MOT方法相比,本方法在两个MOT基准数据上获得了最好的IDF1(正确识别的检测结果与真实值和预测检测结果的平均数之比)分数、MT(命中的目标轨迹占ground truth总轨迹的比例)、ML(丢失的目标轨迹占groundtruth总轨迹的比例)、Hz(频率),优于所有二阶段方法的MOTA(标准MOT准确度,最重要的评价指标)分数,ID_Sw(ID切换次数)也获得不错的成绩,获得了接近帧率的跟踪速度,这代表了出色的MOT性能。

Claims (8)

1.一种基于联合检测和关联的在线多目标跟踪方法,其特征在于包括如下步骤:
S1.建立目标检测子模块,通过定位头和表征头获取总检测损失;
S2.进入连接子模块,将当前帧中的对象表示和历史坐标系中的对象表示进行合并;
S3.对历史帧和当前视频帧在视频序列中不连续的数据进行数据增强处理;
S4.进入关联子模块,将扩展的混淆矩阵转换为关联矩阵;
S5.定义方向性损失、非极大值损失和平衡损失,计算总关联损失;
S6.得到当前帧目标和具有相应对象表示的历史帧中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系起来更新轨迹记录器,实现在线跟踪。
2.根据权利要求1所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S1,包括将单个视频帧F作为输入,
Figure FDA0003609812770000011
Figure FDA0003609812770000012
表示三维矩阵;W为宽度;H为宽度;3表示通道数;获得每个视频帧的对象边界框和相应的数学表示;设置主干网络,并在主干网络中添加预测头和表征头;定位头用于定位目标边界框,表征头用于计算对象表示。
3.根据权利要求2所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于主干网络采用ResNet-34;利用DLA的一种变体方法作为目标检测子模块的主干;
定位头包括,定位头的输入为主干网络的输出表示;每个定位头具有3×3内核大小和256输出通道,然后1×1卷积以产生定位输出,具体为生成热力图头和尺寸头:
使用热力图头预测对象中心,热力图头具体为,对于第i帧视频帧中的真实边界框
Figure FDA0003609812770000013
Figure FDA0003609812770000014
表示第i帧左上角横坐标值;
Figure FDA0003609812770000015
表示第i帧左上角纵坐标值;
Figure FDA0003609812770000016
表示第i帧右下角横坐标值;
Figure FDA0003609812770000017
表示第i帧右下角纵坐标值;获得第i帧中心位置pi的目标,
Figure FDA0003609812770000018
求第i帧图上的位置qi
Figure FDA0003609812770000019
其中G表示第一下采样因子;当前点位置
Figure FDA00036098127700000110
处的热力图头响应rq定义为
Figure FDA0003609812770000021
其中,
Figure FDA0003609812770000022
表示三维矩阵;qk表示第k个点的位置;σ为高斯核;根据焦点损失形成热力图头损失函数Lh作为训练目标:
Figure FDA0003609812770000023
其中,N表示当前视频帧中的目标数量;
Figure FDA0003609812770000024
表示当前点位置q处的预测热图响应,当前点位置q处的预测热图响应的类号Ch=1;α表示焦点损失第一超参数;β表示焦点损失第二超参数;log(·)表示取对数,用于简便计算;
尺寸头具体为,尺寸头用于预测对象围绕其中心位置的宽度和高度;尺寸头的输出
Figure FDA0003609812770000025
定义为
Figure FDA0003609812770000026
其中尺寸头的输出的类号Cz=2;
Figure FDA0003609812770000027
表示三维矩阵;G表示第一下采样因子;W为宽度;H为宽度;虽然定位精度与对象表示没有直接关系,但会影响检测子任务的性能;对于视频帧中的一个真实框bi,根据
Figure FDA0003609812770000028
得到第i帧框的大小zi,并且第i帧预测的边界框大小定义为
Figure FDA0003609812770000029
Figure FDA00036098127700000210
表示第i帧左上角横坐标值;
Figure FDA00036098127700000211
表示第i帧左上角纵坐标值;
Figure FDA00036098127700000212
表示第i帧右下角横坐标值;
Figure FDA00036098127700000213
表示第i帧右下角纵坐标值;将偏移头的输出表示为
Figure FDA00036098127700000214
其中偏移头输出的类号Cd=2;第i帧图上的真实位移di表示为
Figure FDA00036098127700000215
pi表示第i帧中心位置;将第i帧中心位置位移表示为
Figure FDA00036098127700000216
因此尺寸头和偏移头的类似损失Ls为:
Figure FDA00036098127700000217
其中,N表示当前视频帧中的目标数量;zi表示第i帧框的大小;
Figure FDA00036098127700000218
表示第i帧预测的边界框大小;di表示图上的真实位移;
Figure FDA00036098127700000219
表示中心位置位移;||·||1表示L1范数;
因此,定位头损失Lp为前两个损失的组合:
Lp=Lh+Ls
其中,Lh表示热力图头损失函数;Ls表示尺寸头和偏移头的类似损失;
表征头包括,生成的表示图为
Figure FDA0003609812770000031
其中
Figure FDA0003609812770000032
表示三维矩阵;S表示第二下采样因子;W为宽度;H为宽度;生成的表示图的输出通道Ce=128;通过表征头学习的中心位置p的目标表征
Figure FDA0003609812770000033
Figure FDA0003609812770000034
表示元素个数为C的一维向量;对于第i帧视频帧中的真实边界框bi,获得第i帧热图上的目标中心位置
Figure FDA0003609812770000035
在第i帧某个位置学习一个身份表示
Figure FDA0003609812770000036
并输出到一维分类概率向量v(k),并将第i帧地面实况分类标签表示为ui(j);因此,身份分类损失Lc被构造为:
Figure FDA0003609812770000037
其中,N表示帧的总数;J表示数据集中所有身份的总数;v(j)表示身份的预测值;j表示数据集中身份的计数变量;log(·)表示取对数,用于简便计算;
总检测损失为Ld=Lp+Lc,Lc为身份分类损失;Lp为定位头损失。
4.根据权利要求3所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S2,包括进入连接子模块SJ,将当前视频帧Ft的表示矩阵Rt沿垂直方向复制到当前帧中的表示张量
Figure FDA0003609812770000038
并将前n帧中的表示矩阵Rt-n沿水平方向复制到前n帧中的表示张量
Figure FDA0003609812770000039
将当前帧中的表示张量Mt和前n帧中的表示张量Mt-n沿着对象表示的通道方向合并到,当前帧和前n帧之间的混淆张量
Figure FDA00036098127700000310
Nm表示每帧的最大目标数;
Figure FDA00036098127700000311
表示三维矩阵;t表示当前时刻。
5.根据权利要求4所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S3,包括将历史帧Ft-n和当前视频帧Ft由n帧分隔,其中n∈[0,Na-1],Na表示最大历史帧数目;以0.25的概率对每个轨迹上的历史帧Ft-n和当前视频帧Ft进行采样;将视频帧整形为大小W×H×3;W为宽度;H为宽度;对采样视频帧使用概率为0.5的水平翻转,沿着对象表示的方向逐步实现了从256到1的维度压缩,卷积核大小为1×1。
6.根据权利要求5所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S4,包括进入关联子模块,将扩展的混淆矩阵Mt,tn转换为关联矩阵,通过利用所提出的关联子模块获得帧间关联,并利用每帧的最大目标数Nm预测历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma;沿水平和垂直方向,向历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma中插入零向量用于进行泛化。
7.根据权利要求6所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S5,包括利用历史帧Ft-n和当前视频帧Ft之间的相似性关联编码;在历史帧Ft-n和当前视频帧Ft之间的对象关联矩阵Ma后附加一列,构建第一扩展矩阵M1
Figure FDA0003609812770000041
Nm表示每帧的最大目标数;
Figure FDA0003609812770000042
表示三维矩阵;Nm表示每帧的最大目标数;
Figure FDA0003609812770000043
表示二维矩阵;最后附加的垂直向量表示从历史帧Ft-n中消失的当前跟踪对象;最后一行中附加的水平向量表示在当前帧Ft中进入视野的新兴目标;第一扩展矩阵M1的第m行将历史帧Ft-n中的第m个对象与当前帧Ft的第Nm+1个对象关联起来;Nm+1表示最大目标数+1;通过执行softmax函数对第一扩展矩阵M1的水平方向上的扩展概率向量进行归一化;输出关联矩阵A1的水平向量表示当前视频帧Ft中所有目标与所有目标之间的关联概率在当前视频帧Ft中,
Figure FDA0003609812770000044
A1表示第一关联矩阵预测值;将总关联损失Ls定义为方向性损失Ld、非极大值损失Lm和平衡损失Lb的总和,Ls=Ld+Lm+Lb
方向性损失Ld为:
Figure FDA0003609812770000045
其中,B1表示Bt-n,t删除最后一个水平向量;B2表示Bt-n,t删除最后一个垂直向量;Bt-n,t表示历史帧与当前帧的关联矩阵真实值;⊙表示Hadamard乘积;log(·)表示取对数,用于简便计算;Nm表示每帧的最大目标数;A2表示第二关联矩阵预测值;
非极大值损失Lm为:
Figure FDA0003609812770000046
其中,Nm表示每帧的最大目标数;B3表示Bt-n,t删除最后一个垂直向量和最后一个水平向量;log(·)表示取对数,用于简便计算;Am表示第三关联矩阵预测值;Am=max(Ac,Ar),max(·)表示取最大值;Ac表示A1删除最后一个垂直向量和最后一个水平向量被裁剪到Nm×Nm的纬度获得的矩阵;Ar表示A2删除最后一个垂直向量和最后一个水平向量被裁剪到Nm×Nm的纬度获得的矩阵;
平衡损失Lb为,
Figure FDA0003609812770000051
其中,Ac表示去除最后列的关联矩阵预测值;Ar表示去除最后行的关联矩阵预测值。
8.根据权利要求7所述的基于联合检测和关联的在线多目标跟踪方法,其特征在于所述的步骤S6,包括得到当前视频帧Ft目标和具有相应对象表示的历史帧Ft-n中的目标之间的关联矩阵后,将当前图像对象与历史图像对象联系更新轨迹记录器Tt;在初始时刻,轨迹记录器具有相同数量的轨道,一个帧仅通过检测子模块传输一次,对象表示被重复使用若干次来评估与剩余图像的相似性;基于关联矩阵;通过复制累加器的最后一个垂直向量,将许多轨道分配给累积矩阵中的特定末检测对象列,实现在线跟踪。
CN202210430025.XA 2022-04-22 2022-04-22 一种基于联合检测和关联的在线多目标跟踪方法 Pending CN114820723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210430025.XA CN114820723A (zh) 2022-04-22 2022-04-22 一种基于联合检测和关联的在线多目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210430025.XA CN114820723A (zh) 2022-04-22 2022-04-22 一种基于联合检测和关联的在线多目标跟踪方法

Publications (1)

Publication Number Publication Date
CN114820723A true CN114820723A (zh) 2022-07-29

Family

ID=82506160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210430025.XA Pending CN114820723A (zh) 2022-04-22 2022-04-22 一种基于联合检测和关联的在线多目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114820723A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187919A (zh) * 2022-09-14 2022-10-14 深圳市万物云科技有限公司 一种基于多目标跟踪的高空抛物检测方法及相关组件

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187919A (zh) * 2022-09-14 2022-10-14 深圳市万物云科技有限公司 一种基于多目标跟踪的高空抛物检测方法及相关组件

Similar Documents

Publication Publication Date Title
Fan et al. Point 4d transformer networks for spatio-temporal modeling in point cloud videos
CN111627045B (zh) 单镜头下的多行人在线跟踪方法、装置、设备及存储介质
CN113506317B (zh) 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
WO2023082882A1 (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN112257569B (zh) 一种基于实时视频流的目标检测和识别方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN110827320B (zh) 基于时序预测的目标跟踪方法和装置
CN111178284A (zh) 基于地图数据的时空联合模型的行人重识别方法及系统
CN111161309B (zh) 一种车载视频动态目标的搜索与定位方法
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
WO2021249114A1 (zh) 目标跟踪方法和目标跟踪装置
WO2022141718A1 (zh) 一种辅助点云目标检测的方法及系统
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN111640138A (zh) 一种目标跟踪方法、装置、设备及存储介质
CN112183450A (zh) 一种多目标跟踪方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN112861808B (zh) 动态手势识别方法、装置、计算机设备及可读存储介质
CN114820723A (zh) 一种基于联合检测和关联的在线多目标跟踪方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN116069801B (zh) 一种交通视频结构化数据生成方法、装置及介质
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN116883457A (zh) 一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法
CN116311353A (zh) 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质
CN113269808B (zh) 视频小目标跟踪方法和装置
CN115100565A (zh) 一种基于空间相关性与光流配准的多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination