CN114419102B

CN114419102B - 一种基于帧差时序运动信息的多目标跟踪检测方法

Info

Publication number: CN114419102B
Application number: CN202210086065.7A
Authority: CN
Inventors: 孔军; 莫恩森; 蒋敏
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-06-06
Anticipated expiration: 2042-01-25
Also published as: CN114419102A

Abstract

本发明涉及一种基于帧差时序运动信息的多目标跟踪检测方法、装置及计算机存储介质。探索了对连续视频帧间差的利用，利用帧间差带来的运动信息，实现弥补单帧输入的模型缺乏时序运动信息的缺点，本发明将骨干网络生成的多尺度特征图分为两类：浅层和深层特征图，并针对这两类特征图，提出了SADP和CADP这两种互补的相邻帧差处理方法，SADP通过从空间角度处理浅层特征图，实现对目标运动区域的信息提取，将运动信息补充在像素级别的特征图上，CADP通过从通道的角度处理深层特征图，实现对运动敏感通道信息的增强。最终本发明通过将这两个模块进行结合，共同处理相邻帧差，实现时序运动信息在空间与通道上的相互补充，增强模型对运动信息的感知与捕获。

Description

一种基于帧差时序运动信息的多目标跟踪检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其是指一种基于帧差时序运动信息的多目标跟踪检测方法、装置及计算机存储介质。

背景技术

现有的技术中，多目标跟踪任务的目的为了将连续视频帧中的目标位置进行关联从而形成目标的轨迹，达到跟踪的目的。随着计算机视觉任务与应用的深入研究，多目标跟踪任务也逐渐变得重要起来。在车辆自动驾驶和无人监督等领域，多目标跟踪算法发挥着重要的作用。当前主流的两种多目标跟踪模型范式为TBD(检测后追踪)和JDT(联合追踪检测)。TBD范式选择先通过检测器执行检测任务，捕获目标位置信息后，通过信息提取网络捕获相应位置目标的外貌特征或者运动特征，从而实现相同目标的追踪关联。而JDT范式通过一个骨干网络处理图像特征后将特征送入不同分支，同时实现位置信息与外貌或运动信息的捕获，直接进行追踪关联。

但是现有的多目标跟踪模型训练时大多没有利用视频级别的数据信息，而是选择帧级别的图像进行处理。TBD范式由于传统检测任务的限制，往往必须单帧进行输入，但是现在的有些模型慢慢也在TBD范式中加入对之前提取的信息的重利用。JDT虽然存在多帧输入的模型，但是效果并不理想。事实上，在多目标跟踪任务中，目标之间的遮挡以及由于运动带来的模糊等困难，单单依靠图像级别的处理很难解决。因此，如何提供一种检测精确，效率高的多目标检测方法是目前待解决的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中多目标跟踪任务检测效果不理想的问题。

为解决上述技术问题，本发明提供了一种基于帧差时序运动信息的多目标跟踪检测方法、装置及计算机存储介质，包括：

将时序视频输入预先构建的多目标跟踪网络模型中，所述多目标跟踪网络模型包括骨干网络、相邻差异处理模块、上采样融合模块以及检测和特征提取分支模块，所述相邻差异处理模块包括浅层空间级别处理模块与深层通道级别处理模块；

获取相邻帧图像，所述相邻帧图像为第t帧与第t-1帧的RGB图像；

利用所述权重共享的骨干网络生成一组第t帧的多尺度特征图与一组第t-1帧的多尺度特征图，所述多尺度特征图包括多张浅层特征图和多张深层特征图；

将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多张空间特征图；

将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图；

对所述多张空间特征图与所述多张通道特征图形成的一组最终多尺度特征图进行上采样融合得到任务级别特征图；

将所述任务级别特征图分别输入所述检测和特征提取分支模块得到第t帧的目标检测信息和外貌特征。

优选地，所述将所述任务级别特征图分别输入所述检测和特征提取分支模块得到第t帧的目标检测信息和外貌特征后包括：

当t≠1时，根据所述目标检测信息和所述外貌特征判断轨迹状态并实现关联；

对处于暂时丢失状态的轨迹利用对应目标保存的卡尔曼滤波进行在线的轨迹修补；

判断所述时序视频是否结束，若未结束则继续处理下一对相邻帧图像直至视频结束。

优选地，所述若t＝1，即获取的所述相邻帧图像为单帧图像，且根据所述目标检测信息获得的目标检测框得分大于阈值，则生成新的轨迹，标记为激活状态，更新对应目标卡尔曼滤波后开始处理下一对所述相邻帧图像。

优选地，所述当t≠1时，根据所述目标的检测信息和所述外貌特征判断轨迹状态并实现关联包括：

首先处理激活状态轨迹，将所述激活状态轨迹对应目标与当前帧检测得到的目标进行匹配；

若匹配成功，则标记为追踪状态，若未匹配成功则标记为暂时丢失状态，若丢失超过阈值时间，则标记为丢弃状态；

其次处理未激活状态轨迹，将所述未激活状态轨迹对应目标与当前帧检测得到的目标进行匹配；

若匹配成功，则标记为激活状态，若未匹配成功则标记为丢弃状态；

将当前帧检测得到的目标中未匹配成功的目标生成新的轨迹，标记为未激活状态。

优选地，所述获取相邻帧图像后包括：

将获取到的第t帧与第t-1帧的RGB图像进行尺度统一和标准化处理。

优选地，所述目标检测信息包括热力图，边界框大小以及中心偏移，所述外貌特征为目标的ID嵌入表示。

优选地，所述将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多张空间特征图包括：

将所述多张浅层特征图分别进行卷积聚合，得到多张聚合浅层特征图；

分别将所述第t帧的多张聚合浅层特征图与所述第t-1帧对应的聚合浅层特征图进行相减，得到多张浅层相邻差异图；

所述多张浅层相邻差异图通过通道压缩生成多张运动幅度图；

将所述多张运动幅度图拷贝生成两份，一份输入浅层局部空间感知分支得到多张浅层局部特征图，另一份输入浅层全局空间感知分支得到多张浅层全局特征图；

将所述浅层局部特征图分别与对应的所述浅层全局特征图进行融合多张融合特征图；

将所述多张融合特征图作为权重与所述第t帧对应的浅层特征图相乘后残差连接得到多张空间特征图。

优选地，所述将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图包括：

将所述多张深层特征图分别进行卷积聚合，得到多张聚合深层特征图；

分别将所述第t帧的多张聚合深层特征图与所述第t-1帧对应的聚合深层特征图进行相减，得到多张深层相邻差异图；

所述多张深层相邻差异图通过通道压缩生成多张注意特征图；

将所述多张注意特征图拷贝生成两份，一份输入深层局部空间感知分支得到多张深层局部特征图，另一份输入深层全局空间感知分支得到多张深层全局特征图；

将所述多张深层局部特征图与对应的所述深层全局特征图进行融合得到多张统一通道感知图；

将所述多张统一通道感知图作为权重分别与所述第t帧对应的深层特征图相乘后残差连接得到多张通道特征图。

本发明还提供了一种多目标跟踪检测装置，包括：

多尺度特征图生成模块，用于利用所述权重共享的骨干网络生成一组第t帧的多尺度特征图与一组第t-1帧的多尺度特征图，所述多尺度特征图包括多张浅层特征图和多张深层特征图；

组合空间相邻差异处理模块，用于将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多张空间特征图；

通道级别相邻差异处理模块，用于将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图；

上采样模块，用于对所述多张空间特征图与所述多张通道特征图形成的一组最终多尺度特征图进行上采样融合得到任务级别特征图；

目标检测模块，用于将所述任务级别特征图分别输入所述检测和特征提取分支模块得到第t帧的目标的检测信息和外貌特征。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种多目标跟踪检测方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的一种多目标跟踪检测方法，包括：将时序视频输入预先构建的多目标跟踪网络模型中，所述多目标跟踪网络模型包括骨干网络、相邻差异处理模块、上采样融合模块以及检测和特征提取分支模块，所述相邻差异处理模块包括浅层空间级别处理模块与深层通道级别处理模块，获取相邻帧图像，所述相邻帧图像为当前帧与上一帧的RGB图像，利用所述权重共享的骨干网络生成一组第t帧的多尺度特征图与一组第t-1帧的多尺度特征图，所述多尺度特征图包括多张浅层特征图和多张深层特征图；本发明利用双帧的输入，通过共享参数的骨干网络提取多尺度特征后，对双帧多尺度特征间的差异信息进行提取，利用提取的差异指导模型对运动信息的学习，从而丰富目标的特征。将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多幅空间特征图，将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图；对于浅层特征图，通过空间级别的处理，充分利用相邻差异提取目标的运动信息，对于深层特征图，通过通道级别的处理，使得相邻差异能够很好的增强运动敏感的通道的信息。对所述多张空间特征图与所述多张通道特征图形成的一组最终多尺度特征图进行上采样融合得到任务级别特征图；将所述任务级别特征图分别输入所述检测和特征提取分支模块得到第t帧的目标检测信息和外貌特征。本发明利用帧间差带来的运动信息，实现弥补单帧输入的模型缺乏时序运动信息的缺点。本发明将骨干网络生成的多尺度特征图分为两类：浅层和深层特征图，并针对这两类特征图，提出了浅层空间级别和深层空间级别两种互补的相邻帧差处理方法，浅层级别相邻差异处理通过从空间角度处理浅层特征图，实现对目标运动区域的信息提取，并将运动信息补充在像素级别的特征图上，深层空间相邻差异处理通过从通道的角度处理深层特征图，实现对运动敏感通道信息的增强，最终本发明通过将这两个模块进行结合，共同处理相邻帧差，实现时序运动信息在空间与通道上的相互补充，增强模型对运动信息的感知与捕获。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明一种多目标跟踪检测方法的实现流程图；

图2为相邻差异空间信息处理具体展示图；

图3为相邻差异的通道信息处理具体展示图；

图4为本发明一种多目标跟踪检测方法的算法流程图；

图5为本发明的算法模型图；

图6为本发明实施例提供的一种多目标跟踪检测装置的结构框图。

具体实施方式

本发明的核心是提供一种基于帧差时序运动信息多目标跟踪检测方法的方法、装置及计算机存储介质，通过连续相邻视频帧的输入训练模式，解决了单帧输入模型的时序运动信息不足的缺陷，本着最大程度的降低视频中由于遮挡以及运动模糊等负面影响带来的模型性能降低问题的目的，提出了引入相邻帧之间差异来让模型学习目标的运动信息，结合原有提取的空间信息，实现目标时空特征的聚合，达到丰富目标的语义信息的目的，以对抗视频噪音带来的负面影响，解决了视频中由于遮挡以及运动模糊等负面影响带来的模型性能降低的问题。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种多目标跟踪检测方法的实现流程图；具体操作步骤如下：

S101:将时序视频输入预先构建的多目标跟踪网络模型中，所述多目标跟踪网络模型包括骨干网络、相邻差异处理模块、上采样融合模块以及检测和特征提取分支模块，所述相邻差异处理模块包括浅层空间级别处理模块与深层通道级别处理模块；

S102:获取相邻帧图像，所述相邻帧图像为第t帧与第t-1帧的RGB图像；

将获取到的第t帧与第t-1帧的RGB图像进行尺度统一和标准化处理生成I^t∈R^H ^×W×3和I^t-1。

所述尺度统一具体方法如下：

由于输入图片的尺寸大小不一，需要对输入图片进行尺度的统一，首先将模型需要图片的宽W和高H确定，对于当前输入图片的宽w和高h，计算得出需要缩放的宽高比例

然后将输入图片尺寸进行变化：h＝round(h*ratio),w＝round(w*ratio)。则宽高的填充像素则为/>

和/>

填充方式采用常量填充的方式，这样的处理能够改变使得输入的图片的尺寸都统一，更利于模型的推理。

所述尺度统一具体方法如下：

为了加快训练网络的收敛性，对图片进行了归一化处理，将所有的像素值除以255，使得原图像服从均值为0，方差为1的正态分布。

S103:利用所述权重共享的骨干网络生成一组第t帧的多尺度特征图F^t与一组第t-1帧的多尺度特征图F^t-1，所述多尺度特征图包括多账浅层特征图和多张深层特征图；

F^t和F^t-1分别由四个不同尺度的特征图组成,

其中/>

和/>

为浅层特征图，/>

和/>

为深层特征图。

S104:将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多张空间特征图；

请参考图2，图2为相邻差异空间信息处理具体展示图；

将

和/>

作为SADP模块的输入，通过利用对应特征图之间计算得到的相邻差异，从全局和局部两个方面对目标的运动状态进行感知，实现对时序运动信息的提取与融合；

将所述第t帧多尺度特征图F^t中

的浅层特征图/>

以/>

为例，与所述第t-1帧多尺度特征图F^t-1中的对应的浅层特征图/>

通过共享参数的卷积层编码后相减，卷积聚合后得到浅层相邻差异图/>

所述多张浅层相邻差异图

通过通道压缩生成多张运动幅度图A，

其中i,j表示相应像素级的下标；

将所述多张运动幅度图A拷贝生成两份，一份输入浅层局部空间感知分支得到多张浅层局部特征图，另一份输入浅层全局空间感知分支得到多张浅层全局特征图；

具体的，局部空间感知分支中，通过一个可变形卷积网络DCN自适应的从当前位置对周围像素点的特征中学习信息。局部分支计算公式为A_L＝DCN(A),其中DCN表示一个DCN网络；

在全局空间感知分支中，通过一个可学习参数α体现全局的运动信息相较于目标局部运动的重要性，实现对当前特征的缩放，生成的全局感知图用于弥补局部信息的不足。公式表示为A_G＝α×A。

将所述多张浅层局部特征图A_L与对应的所述浅层全局特征图A_G进行融合得到多张融合特征图A_U，A_U＝C₁×A_L+C₂×A_G+b，其中C₁、C₂和b为三个可学习参数，C₁、C₂用于压缩空间，b用于微调结果。

将所述多张融合特征图A_U作为权重与所述当前帧多尺度特征图对应的浅层特征图相乘后残差连接得到多张空间特征图

S105:将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图；

请参考图3，图3为相邻差异的通道信息处理具体展示图；

深层特征图通道级别相邻差异处理：将

和/>

作为CADP模块的输入，通过利用对应特征图之间计算得到的相邻差异，从全局和局部两个方面获取特征图对运动的敏感情况，从而增强相应特征图的对运动敏感的通道；

将所述第t帧多尺度特征图中的深层特征图

以/>

为例，与所述第t-1帧多尺度特征图中对应的深层特征图经过共享参数的一个卷积网络变换后相减得到深层相邻差异图/>

所述多张深层相邻差异图

通过通道压缩生成多张注意特征图(注意向量)V，

其中i,j为像素级别的下标，c为通道级别的下标；

将所述多张注意特征图V拷贝生成两份，一份输入深层局部空间感知分支得到多张深层局部特征图，另一份输入深层全局空间感知分支得到多张深层全局特征图；

对于局部通道感知分支，通过传统的一维卷积实现相邻通道之间的信息交流，将相邻通道的数量设置为K，则生成V_L的公式为

T表示相邻帧融合权重；

对于全局通道分支，采用MLP的思想，对于每个通道感知所有通道的信息，生成V_G，其中

M为融合权重，B用于信息微调。

将所述多张深层局部特征图V_L与对应的所述深层全局特征图V_G进行融合得到多张统一通道感知图V_U，

D为融合权重；

将所述多张统一通道感知图作为权重与所述当前帧多尺度特征图对应的深层特征图相乘后残差连接，提取运动信息后融合原有空间信息，输出最终的时空特征，得到多张通道特征图

S106:对所述多张空间特征图与所述多张通道特征图形成的一组最终多尺度特征图

进行上采样融合得到任务级别特征图/>

S107:将所述任务级别特征图分别输入所述检测和特征提取分支模块得到目标的检测信息和外貌特征；

所述目标的检测信息包括热力图，边界框大小以及中心偏移，所述外貌特征为目标的ID嵌入表示。

检测分支为一个卷积网络，输入为一张通道为64的特征图，宽为W，高为H。输出为一张包含目标中心点分布的热力图

一张中心点偏移图/>

以及一个边界框大小图/>

具体网络结构与FairMOT多目标跟踪算法中的检测分支相同；

特征提取分支为一个卷积网络，输入为一张通道为64的特征图，宽为W，高为H。输出为像素级别的外貌嵌入表示图

具体网络结构与FairMOT多目标跟踪算法中的特征提取分支相同。

请参考图4，基于以上实施例，本实施例对以上步骤进一步补充，具体如下：

所述步骤S107后还包括：

当t≠1时，根据所述目标的检测信息和所述外貌特征判断轨迹状态并实现关联；

与FairMOT多目标跟踪算法中的追踪流程相同；

将当前帧检测得到的目标中未匹配成功的目标生成新的轨迹，标记为未激活状态；

对处于暂时丢失状态的轨迹利用对应目标保存的卡尔曼滤波进行在线的轨迹修补。

若t＝1，即获取的所述相邻帧图像为单帧图像，相邻帧设为其本身，I^t-1＝I^t；由于I^t-1＝I^t，因此后续相邻差异处理模块无效了，即不提取运动特征，且根据所述热力图获得的目标检测框得分大于阈值det_thresh，则生成新的轨迹，标记为激活状态，更新对应目标卡尔曼滤波后开始处理下一对所述相邻帧图像。

对于所有的存活时间大于K帧的丢失轨迹，在丢失轨迹未成功匹配之前，对每个轨迹利用卡尔曼滤波对该丢失轨迹进行坐标预测[x1,y1,x2,y2]，代表当前预测边界框的左上角与右下角。并判断该预测轨迹是否出界,即是否为(x1<0，x2>图片宽W，y1<0，y2>图片高H)四种情况中的一种，若是则出界,；如未出界，则更新丢失轨迹坐标，实现修复，如果出界则认为目标超出摄像头视角范围，则删除该轨迹。考虑到运动的不稳定性，对持续处于丢失状态的轨迹最多修复X帧，X帧后如果还没匹配成功，则删除该轨迹。本实施例中K＝7，X＝6。

请参考图5，图5为本发明的算法模型图；

不同于大多数模型的单帧输入，本发明以连续帧的RGB图像为输入，利用连续帧的输入，获得了原有的单帧输入无法获得的时序差异信息。模型包括骨干网络、相邻差异处理模块、上采样融合模块以及检测和特征提取分支模块5个关键部分。其中处理连续帧的骨干网络可以采用通用的任意骨干网络，本实施实例采用DLA-34网络架构。整体检测采用的是CenterNet目标检测网络。对于所有的多尺度特征图进行分类处理，对于不同种类的特征图，结合他们的特点发挥各自的作用，从局部和全局连个方面分别对运动幅度图和运动注意向量进行信息提取，最终将两者进行统一，实现对信息的充分利用。特征提取分支通过执行分类任务来区分目标。对由于各种原因造成的轨迹丢失问题进行了轨迹修复工作，并且考虑到目标的运动的不稳定性以及图片尺寸等情况，设置了相应的阈值对轨迹的修复进行了限制，使得数据集指标上升，维持了目标轨迹的连续性。

基于以上实施例，本实施例为验证本发明的准确性和鲁棒性，在公开的MOT16和MOT17数据集上进行了实验，具体如下：

MOT16和MOT17数据集包含相同场景的7个训练序列和7个测试序列，视频由安装在高密度场景下的固定摄像机拍摄，只有行人会被标注，视频帧率为25-30fps。

MOT数据集不提供正式的验证分割。在消融实验中，将每个训练序列分成两半，前半视频序列用于训练，后半视频序列用于验证，实验中，选择了标准的多目标跟踪指标，如多目标准追踪确度MOTA，ID F1得分IDF1，高阶追踪准确度HOTA，身份切换数目IDS，假正目标数目P，假负目标数目FN。

实验参数设置如表2所示：

表2数据库实验参数设置

数据集

类别数

训练样本数

测试样本数

图片大小

学习率

迭代次数

MTO17

1

7个视频

1088*608

0.0001

30

实验过程中，训练视频序列中图像尺寸大小不同，在训练时，会对图像进行缩放处理，统一图片大小，训练过程中初始学习率为0.0001，最后十轮降低为0.00001。

表3为本发明为了验证充分利用了所有特征图的特点，选择这样的组合的有效性的实验；

表3实验中相邻差异处理组合有效性

其中SADP和CADP分别代表相邻差异的空间信息和通道信息两种处理方法，即对模型中描述的对浅层和深层特征图的处理方法，“-”代表不使用相邻差异提取运动信息。最终实验结果也显示本发明对浅层特征图使用SADP和深层特征图使用CADP的组合，能够最大程度的提升模型对运动信息的提取能力，提升模型的效果。

表5为在MOT16和MOT17上的实验效果：

表5 MOT16和MOT17上的实验效果

数据集	MOTA	IDF1	HOTA	FP	FN	IDS	HZ
								MOT16	74.2	74.9	61.3	49.1％	14.2％	1110	20.2
MOT17	73.7	74.1	60.9	47.9％	15.3％	3486	20.2

本发明公开了基于帧差时序运动信息的多目标跟踪方法ADTracker。该方法探索了对连续视频帧间差的利用，利用帧间差带来的运动信息，实现弥补单帧输入的模型缺乏时序运动信息的缺点。本发明将骨干网络生成的多尺度特征图分为两类：浅层和深层特征图。并针对这两类特征图，提出了SADP和CADP这两种互补的相邻帧差处理方法。SADP通过从空间角度处理浅层特征图，实现对目标运动区域的信息提取，并将运动信息补充在像素级别的特征图上。CADP通过从通道的角度处理深层特征图，实现对运动敏感通道信息的增强。最终本发明通过将这两个模块进行结合，共同处理相邻帧差，实现时序运动信息在空间与通道上的相互补充，增强模型对运动信息的感知与捕获。

请参考图6，图6为本发明实施例提供的一种多目标跟踪检测装置的结构框图；具体装置可以包括：

输入模块100，用于将时序视频输入预先构建的多目标跟踪网络模型中，所述多目标跟踪网络模型包括骨干网络、相邻差异处理模块、上采样融合模块以及检测和特征提取分支模块，所述相邻差异处理模块包括浅层空间级别处理模块与深层通道级别处理模块；

图像获取模块200，用于获取相邻帧图像，所述相邻帧图像为第t帧与第t-1帧的RGB图像；

多尺度特征图生成模块300，用于利用所述权重共享的骨干网络生成一组第t帧的多尺度特征图与一组第t-1帧的多尺度特征图，所述多尺度特征图包括多张浅层特征图和多张深层特征图；

组合空间相邻差异处理模块400，用于将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多张空间特征图；

通道级别相邻差异处理模块500，用于将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图；

上采样模块600，用于对所述多张空间特征图与所述多张通道特征图形成的一组最终多尺度特征图进行上采样融合得到任务级别特征图；

目标检测模块700，用于将所述任务级别特征图分别输入所述检测和特征提取分支模块得到第t帧的目标检测信息和外貌特征。

本实施例的基多目标跟踪检测装置用于实现前述的多目标跟踪检测方法，因此多目标跟踪检测装置中的具体实施方式可见前文多目标跟踪检测方法的实施例部分，例如，输入模块100，图像获取模块200，多尺度特征图生成模块300，组合空间相邻差异处理模块400，通道级别相邻差异处理模块500，上采样模块600，目标检测模块700，分别用于实现上述多目标跟踪检测方法中步骤S101，S102，S103，S104，S105，S106和S107，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种多目标跟踪检测方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种多目标跟踪检测方法，其特征在于，包括：

其中，所述将所述第t帧和所述第t-1帧的多张浅层特征图同时输入所述浅层空间级别处理模块，得到浅层组合空间相邻差异处理后的多张空间特征图包括：

将所述第t帧的多张聚合浅层特征图分别与所述第t-1帧对应的聚合浅层特征图进行相减，得到多张浅层相邻差异图；

将所述多张浅层局部特征图分别与对应的所述浅层全局特征图进行融合得到多张融合特征图；

将所述多张融合特征图作为权重分别与所述第t帧对应的浅层特征图相乘后残差连接得到多张空间特征图；

其中，所述将所述第t帧和所述第t-1帧的多张深层特征图同时输入所述深层通道级别处理模块，得到深层通道级别相邻差异处理后的多张通道特征图包括：

将所述第t帧的多张深层特征图分别与所述第t-1帧对应的深层特征图进行相减，得到多张深层相邻差异图；

将所述多张深层局部特征图分别与对应的所述深层全局特征图进行融合得到多张统一通道感知图；

将所述多张统一通道感知图作为权重分别与所述第t帧对应的深层特征图相乘后残差连接得到多张通道特征图；

2.根据权利要求1所述的多目标跟踪检测方法，其特征在于，所述将所述任务级别特征图分别输入所述检测和特征提取分支模块得到第t帧的目标检测信息和外貌特征后包括：

3.根据权利要求2所述的多目标跟踪检测方法，其特征在于，

若t＝1，即获取的所述相邻帧图像为单帧图像，且根据所述目标检测信息获得的目标检测框得分大于阈值，则生成新的轨迹，标记为激活状态，更新对应目标卡尔曼滤波后开始处理下一对所述相邻帧图像。

4.根据权利要求2所述的多目标跟踪检测方法，其特征在于，所述当t≠1时，根据所述目标的检测信息和所述外貌特征判断轨迹状态并实现关联包括：

5.根据权利要求1所述的多目标跟踪检测方法，其特征在于，所述获取相邻帧图像后包括：

6.根据权利要求1所述的多目标跟踪检测方法，其特征在于，所述目标检测信息包括热力图，边界框大小以及中心偏移，所述外貌特征为目标的ID嵌入表示。

7.一种多目标跟踪检测装置，其特征在于，包括：

输入模块，用于将时序视频输入预先构建的多目标跟踪网络模型中，所述多目标跟踪网络模型包括骨干网络、相邻差异处理模块、上采样融合模块以及检测和特征提取分支模块，所述相邻差异处理模块包括浅层空间级别处理模块与深层通道级别处理模块；

图像获取模块，用于获取相邻帧图像，所述相邻帧图像为第t帧与第t-1帧的RGB图像；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述一种多目标跟踪检测方法的步骤。