CN114529581A

CN114529581A - 基于深度学习及多任务联合训练的多目标跟踪方法

Info

Publication number: CN114529581A
Application number: CN202210107826.2A
Authority: CN
Inventors: 郭雨薇; 范林玉; 高宇鹏; 杜佳勃
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-24

Abstract

本发明公开了一种基于深度学习及多任务联合训练的多目标跟踪方法，主要解决现有基于深度学习的多目标跟踪方法不能在联合训练中充分训练特征提取分支，导致跟踪结果存在大量目标ID错误匹配情况的问题，其实现方案为：构建一个深度神经网络模型；利用多任务联合训练方式对其进行有监督训练；将待跟踪的视频图像输入到训练好的模型输出检测目标及其目标完全特征向量和目标遮挡特征向量；再利用检测目标对应的目标完全特征向量和目标遮挡特征向量拼接成的目标融合特征向量，并将其与轨迹目标的目标融合特征向量进行匹配，实现目标跟踪。本发明降低了跟踪网络错误匹配情况产生次数，提升了跟踪网络整体性能，可用于安防监控、自动驾驶及人机交互。

Description

基于深度学习及多任务联合训练的多目标跟踪方法

技术领域

本发明属于计算机视觉与图像处理技术领域，更进一步涉及一种多目标跟踪方法，可应用于安防监控、自动驾驶及人机交互。

背景技术

目标跟踪是计算机视觉领域重要任务，在安防监控、自动驾驶及人机交互等场景下具有广泛应用。单目标跟踪主要是对视频片段中任一帧中人为选择的一个感兴趣目标，在后续的视频帧中逐帧搜索定位。单目标跟踪一般包括运动建模和外观建模等模块，其中运动建模确定搜索区域，在搜索区域内进行目标检测，对检测到的目标再根据外观模型实现目标定位，即判断检测到的目标是否为待搜索目标。基于检测的多目标跟踪方法与上述单目标跟踪方法类似，在单目标跟踪技术的基础上同时对多个感兴趣目标进行检测跟踪。其难点在于：在单目标跟踪任务中，除了待跟踪目标，视频帧中其他图像部分均被当作背景信息处理，因此外观建模部分相对简单，只需识别出包含待跟踪目标的区域即完成目标定位；而在多目标跟踪任务中，由于多个待跟踪目标可能存在相互遮挡重叠的情况，进而导致检测出的某一待跟踪目标区域中可能存在其他待跟踪目标的部分信息，因此需要设计实现一个具有遮挡重叠鲁棒性的外观模型，使其能够在存在多目标区域重叠时，区分出检测出的各目标真实所属类别。

近年来，在深度学习的背景下，基于检测的跟踪范式被广泛应用于多目标跟踪任务。该范式主要包括三个部分：目标检测、特征提取和数据关联。其中深度卷积网络主要用于目标检测和特征提取两个阶段。Yu等在论文“Poi：Multiple object tracking withhigh performance detection and appearance feature”(European Conference onComputer Vision，2016，pp.36-42.)中提出用深度学习代替传统的人为设计，更简单地实现目标外观特征提取，且深度特征提取网络也更具普适性。但该方法需要分别训练目标检测网络和特征提取网络，所以存在两个问题：1)特征提取网络只能实现对目标的外观建模，而不能有效学习帧间目标关系，不能学习到目标的运动模型；2)跟踪模型不能端到端训练，且目标检测和特征提取两个阶段串行进行的跟踪速度太慢。Wang等在论文“Towards real-time multi-object tracking”(European Conference on Computer Vision，2020，pp.107-122.)中首次将目标检测和特征提取两个模块统一到一个名为联合检测与特征提取的跟踪网络JDE中训练。其设计了一种多任务联合训练方式，即将JDE网络中的检测分支损失函数和特征提取分支损失函数组合形成联合损失函数作为JDE模型的损失函数，使检测分支和特征提取分支在训练时可以同步优化，实现跟踪网络端到端训练。因为JDE模型联合了目标跟踪任务中目标检测和特征提取任务，所以其可以实现接近实时的跟踪速度。但由于JDE模型的特征提取分支设计过于简单，导致特征提取分支不能充分优化，JDE模型不能充分学习到目标的视觉显著性特征，进而使数据关联阶段产生大量目标漂移和错误匹配情况。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于深度学习及多任务联合训练的多目标跟踪方法，以降低跟踪网络错误匹配次数，提升跟踪网络整体性能。

本发明的技术方案是：构建一个具备提取目标强视觉显著性特征能力，且能将目标检测与特征提取两个任务统一在一个网络模型中联合训练的深度神经网络模型；基于该网络模型进行多目标跟踪，具体实现包括如下：

(1)构建由主干特征提取子网络、多目标完全特征提取子网络、多目标遮挡特征提取子网络和多任务联合模块级联构成的深度神经网络模型；

(2)获取第t帧图像F_t∈R^W×H×3及其中目标边界框标签集合B∈R^n×4，对集合B进行归一化处理得到归一化后的目标边界框标签集合B′，其中，R表示实数域符号，W，H分别表示图像的宽，高，n表示F_t中存在的目标个数；

(3)将(2)得到的图像F_t和归一化后的目标边界框标签集合B′输入到(1)中的深度神经网络模型，输出目标检测集合D∈R^n×4和目标完全特征向量集合E_g∈R^n×a与目标遮挡特征向量集合E_p∈R^n×b，其中，a表示目标完全特征向量的向量维度，b表示目标遮挡特征向量的向量维度；

(4)通过拼接融合策略对(3)中的目标完全特征向量集合E_g∈R^n×a和目标遮挡特征向量集合E_p∈R^n×b进行融合，得到目标融合特征向量集合

集合

的n个目标融合特征向量与目标检测集合D的n个目标按照集合下标一一对应，即集合

中的第i个目标融合特征向量属于集合D中的第i个目标，i∈[1，n]；

(5)对目标检测集合D的目标融合特征向量集合

与目标轨迹T的目标融合特征向量集合

计算余弦距离，得到距离矩阵C_n×m，其中，目标轨迹T表示第t-1帧跟踪到的m个目标的集合，目标轨迹T中的每个目标都包含身份属性和目标融合特征向量，

表示目标轨迹T中所有目标的目标融合特征向量组成的集合，

(6)利用距离矩阵C_n×m进行检测目标与轨迹目标的关联匹配，实现多目标跟踪。

本发明与现有技术相比具有如下优点：

第一，本发明由于将跟踪任务中的目标检测子任务和特征提取子任务统一到一个深度神经网络模型中进行多任务联合训练，高效利用了深度神经网络的特征提取能力，使本发明构建的跟踪网络实现了实时的跟踪速度，提升了跟踪网络的整体性能；

第二，由于本发明的特征提取子任务被设计成由目标完全特征提取分支与目标遮挡特征提取分支组成的双分支网络结构，使得深度神经网络模型在联合训练目标检测子任务和特征提取子任务时能够获取更多特征提取子任务的模型损失，从而均衡目标检测和特征提取两个分支任务，解决了以往任务联合目标检测和特征提取的跟踪网络在训练阶段中特征提取分支优化不足的问题，降低了跟踪网络错误匹配次数。

附图说明

图1是本发明的实现总流程图；

图2是本发明中的深度神经网络模型图；

图3是本发明中获取目标检测集合、目标完全特征向量集合与目标遮挡特征向量集合的子流程图；

图4是本发明深度神经网络模型中的特征聚集模块示意图；

图5是本发明深度神经网络模型中的多任务联合模块示意图。

具体实施方式

下面结合附图对本发明实施例作进一步的详细描述。

参照图1，本实施例的实现步骤如下：

步骤1，构建深度神经网络模型。

参照图2，本步骤的实现如下：

1.1)选用基于ResNet34改进的深度聚集网络DLA34模型中level3层之前的网络结构部分作为主干特征提取子网络，其结构为：dla34_base_layer→dla34_layer0→dla34_layerl→dla34_layer2；

1.2)选用由DLA34模型中level3层到level5层的结构组成多目标完全特征提取子网络，其结构为：dla34_layer3→dla34_layer4→dla34_layer5；上述主干特征提取子网络的输出作为该多目标完全特征提取子网络的输入；

1.3)在多目标完全特征提取子网络前增加一层随机遮挡网络层rand_block，组成多目标遮挡特征提取子网络，其结构为：rand_block→dla34_layer3→dla34_layer4→dla34_layer5；

该随机遮挡网络层的输入为主干特征提取子网络输出的响应图和归一化处理后的目标边界框标签集合，其输出为与输入响应图尺寸相同的遮挡响应图，其中，在模型训练阶段，本实施例中随机遮挡网络层的遮挡参数宽高最大遮挡比例w_drop_r和h_drop_r均为0.33，在模型测试阶段，由于测试数据不存在目标边界框数据，因此随机遮挡网络层对输入的响应图不做处理直接输出；

1.4)定义普通预测卷积结构为：第1二维卷积→激活函数层→第2二维卷积，其中第1二维卷积层卷积核尺寸为3x3，第2二维卷积层卷积核尺寸为1x1，两个卷积层卷积步长均为1，激活函数层使用ReLU激活函数；

1.5)构建由热力图预测卷积块、目标中心偏移量预测卷积块和目标边界框宽高预测卷积块组成的目标检测分支，并构建由目标完全特征向量图预测卷积块和目标遮挡特征向量图预测卷积块组成的特征提取分支；并用目标检测分支和特征提取分支组成多任务联合模块；其中：

热力图预测卷积块、目标中心偏移量预测卷积块和目标边界框宽高预测卷积块分别为输出通道数为1、2、2的普通预测卷积结构；

目标完全特征向量图预测卷积块和目标遮挡特征向量图预测卷积块，分别为输出通道数为a和b的普通预测卷积结构，本实施例中a和b分别为128和256；

1.6)将多目标完全特征提取子网络和多目标遮挡特征提取子网络并联组成多目标融合特征提取模块，再将主干特征提取子网络，多目标融合特征提取模块和多任务联合模块级联构成深度神经网络模型。

步骤2，获取待跟踪图像及标签，并将边界框标签归一化处理。

2.1)顺序读取待跟踪视频的第t帧图像F_t∈R^W×H×3及其中目标边界框标签集合B∈R^n×4，其中，R表示实数域符号，W，H分别表示图像的宽和高，3表示RGB通道数，n表示Ft中存在的目标个数；目标边界框记作(x，y，w，h)，其中x∈[0，W]，y∈[0，H]，w∈(0，W]，h∈(0，H)；

2.2)对边界框标签集合B进行如下归一化处理：

归一化后边界框中心点坐标x∈[0，1]，y∈[0，1]和边界框宽高w∈(0，1]，h∈(0，1]，归一化后的目标边界框标签集合记作B′。

步骤3，网络输出目标检测集合、目标完全特征向量集合和目标遮挡特征向量集合。

参照图3，本步骤的实现如下：

3.1)将图像F_t和归一化后的目标边界框标签集合B′输入到主干特征提取子网络，输出响应图X；

3.2)将响应图X输入多目标完全特征提取子网络，得到不同卷积层输出的不同下采样程度的中间特征图X₁、X₂和X₃，该中间特征图X₁、X₂和X₃分别相对于响应图X下采样2、4、8倍；

3.3)将响应图X与3.2)中得到的中间特征图X₁、X₂和X₃进行多层特征图聚集，得到多目标完全特征图X_g；

参照图4，多层特征图聚集步骤如下：

3.3.1)设

为下采样u倍的特征图σ_u与下采样v倍的特征图σ_v的聚集方法的函数，表示，如下：

其中，σ_u表示相对于原始输入图像下采样u倍的特征图，σ_v表示相对于原始输入图像下采样v倍的特征图，且u＞v；τ(·)表示尺度不变卷积；

表示将下采样v倍的特征图上采样为下采样为u倍的特征图，上采样方式为反卷积；

表示尺度相同的特征图按位加法运算；σ′_u表示聚集后的特征图，其尺度与特征图σ_u相同；

3.3.2)对响应图X与中间特征图X₁、X₂和X₃进行聚集：

第1步，将响应图X和中间特征图X₁、X₂和X₃分别记作σ_k、σ_k/2、σ_k/4、σ_k/8；

第2步，将下采样倍数相差2倍的特征图分别通过

函数两两聚集，得到一次聚集结果

和

第3步，对一次聚集结果σ′_k、σ′_k/2、σ′_k/4重复第2步操作，得到二次聚集结果

和

第4步，将二次聚集结果σ″_k和σ″_k/2通过

函数聚集，得三次聚集结果

第5步，将三次聚集结果σ″′_k和二次聚集结果中的σ″_k/2通过

函数聚集，得四次聚集结果

第6步，将四次聚集结果

和一次聚集结果中的σ′_k/2通过

函数聚集，得五次聚集结果

第7步，将五次聚集结果

和第1步的中间特征图X₃，即σ_k/8，通过

函数聚集，得六次聚集结果

该

即为响应图X和中间特征图X₁、X₂和X₃的多层聚集结果X_g，其尺度与特征图X相同；

3.4)将响应图X和归一化后的目标边界框标签集合B′输入到多目标遮挡特征提取子网络的随机遮挡网络层，得到目标遮挡响应图X′，具体步骤如下；

3.4.1)将归一化后的目标边界框标签集合B′中所有边界框中心坐标(x，y)及宽高(w，h)在响应图X尺寸上还原，得到响应图X上的目标边界框集合B_X，还原方式为x＝x×W_X，y＝y×H_X，w＝w×W_X，h＝h×H_X。其中W_X和H_X分别表示响应图X的宽高；

3.4.2)创建一个宽高与响应图X相同的二维矩阵M，并将矩阵M值全填1；对响应图X上的目标边界框集合B_X中每一个边界框，将其在M上映射的区域进行随机遮挡，即随机取边界框内的一块连续区域全填0，该连续区域的选取规则为宽不超过w×w_drop_r，高不超过h×h_drop_r，其中w，h表示边界框的宽高，w_drop_r∈[0，1)，h_drop_r∈[0，1)；将处理后的M作为掩码；

3.4.3)将掩码M与响应图X按位乘，得到目标遮挡响应图X′；

3.5)将目标遮挡响应图X′继续经过多目标遮挡特征提取子网络余下部分处理，得到不同卷积层输出的不同下采样程度的中间特征图X′₁、X′₂和X′₃，这些中间特征图X′₁、X′₂和X′₃分别相对于目标遮挡响应图X′下采样2、4、8倍；

3.6)将目标遮挡响应图X′与3.5)中得到的中间特征图X′₁、X′₂和X′₃进行多层特征图聚集，得到多目标遮挡特征图X_p；

3.7)将多目标完全特征图X_g和多目标遮挡特征图X_p输出到多任务联合模块，输出目标检测分支结果和特征提取分支结果：

参照图5，具体步骤如下：

3.7.1)将多目标完全特征图X_g∈R^C×W×H经过热力图预测卷积变换输出热力图X_ht∈R^1×W×H，经过目标中心偏移量预测卷积变换输出偏移量X_off∈R^2×W×H，经过目标边界框宽高预测卷积变换输出目标边界框宽高X_wh∈R^2×W×H，热力图预测值X_ht、目标中心偏移量预测值X_off和目标边界框宽高预测值X_wh共同作为目标检测分支结果，其中C表示X_g的通道数，W、H表示多目标完全特征图X_g的宽和高；

3.7.2)将多目标完全特征图X_g和多目标遮挡特征图X_p分别经过2维卷积块输出目标完全特征向量图X_ge∈R^a×W×H和目标遮挡特征向量图X_pe∈R^b×W×H，目标完全特征向量图X_ge和目标遮挡特征向量图X_pe共同作为特征提取分支结果，其中a表示目标完全特征向量的向量维度，b表示目标遮挡特征向量的向量维度；

3.8)将热力图X_ht∈R^1×W×H看作尺寸为W×H的二维矩阵A，并将矩阵A第x_i行，第x_j列位置上的值记为

同理将偏移量X_off∈R^2×W×H、目标边界框宽高X_wh∈R^2×W×H、目标完全特征向量图X_ge∈R^a×W×H和目标遮挡特征向量图X_pe∈R^b×W×H也分别看作尺寸为W×H的二维矩阵，并分别记作O、S、G、P，则有

其中

分别表示矩阵O、S、G、P第x_i行，第x_j列位置上的值；

通过矩阵A对尺寸为W×H的二维空间位置进行坐标筛选：

如果

则坐标(x_i，x_j)满足条件，将坐标(x_i，x_j)加入坐标集合L，得到满足条件的坐标集合：L＝{(x_i1，x_j1)，(x_i2，x_j2)，…，(x_in，x_jn)}，其中n为满足坐标筛选条件的位置数，ε为筛选阈值，本实施例中ε＝0.4；

否则，不做处理；

3.9)根据筛选出的坐标集合L，从3.2)中的矩阵O和S对应取出相应位置上的值，得到目标中心偏移量集合O′和目标边界框宽高集合S′：

对坐标集合L和目标中心偏移量集合O′中元素进行向量加法，得到检测到的n个目标边界框的中心坐标集合L′，再由目标边界框的中心坐标集合L′和目标边界框宽高集合S′组成图像F_t上的目标检测集合D；

3.10)根据筛选出的位置L，从3.2)中的矩阵G和P对应取出相应位置上的值，得到目标完全特征向量集合E_g和目标遮挡特征向量集合E_p：

其中，a表示目标完全特征向量的向量维度，b表示目标遮挡特征向量的向量维度。

步骤4，利用多任务联合训练方式对步骤1构建的网络模型进行有监督训练。

4.1)对目标检测集合D，利用目标检测模型CenterNet设计的损失函数计算目标检测分支的损失L_det，其中，通过边界框标签生成热力图标签的方法也遵循CenterNet设计的方法；

4.2)对目标完全特征向量集合E_g中每个向量

经过分类器FC_g计算其分类预测结果

再根据

利用多分类任务的交叉熵损失函数计算目标完全特征向量分类损失L_{id_g}：

其中，n为目标完全特征向量集合E_g中元素个数；将目标的身份属性看作类别，则K为训练数据中目标的全部类别数；

表示目标完全特征向量集合E_g中第i个向量

对应目标类别真实标签是否为类别l，

为向量

经过分类器FC_g输出的预测结果

中的第l个元素值，l∈[1，K]；

4.3)对目标遮挡特征向量集合E_p中每个向量

经过分类器FC_p计算其分类预测结果

再根据

利用多分类任务的交叉熵损失函数计算目标遮挡特征向量分类损失L_{id_p}：

其中，n为目标完全特征向量集合E_p中元素个数；将目标的身份属性看作类别，则K为训练数据中目标的全部类别数；

表示目标遮挡特征向量集合E_p中第i个向量

对应目标类别真实标签是否为类别l，

为向量

经过分类器FC_p输出的预测结果

中的第l个元素值，l∈[1，K]；

4.4)为了实现目标检测任务与特征提取任务的联合训练，需要将深度神经网络中检测分支的损失与特征提取分支的损失融合到整个深度神经网络的损失L_total中，具体设计如下：

L_id＝γL_{id_g}+(1-γ)L_{id_p}

其中，L_det为检测分支损失，L_id为特征提取分支损失，L_{id_g}和L_{id_p}分别为目标完全特征向量的分类损失和目标遮挡特征向量的分类损失，s_α和s_β为网络自学习权重，γ为目标完全特征向量的分类损失L_{id_g}占整个分类损失的比重，本实施例中γ设置为0.5。

步骤5，利用训练完成的网络模型进行视频目标跟踪测试。

5.1)将待跟踪视频第一帧图像F₁输入到深度卷积网络模型，得到目标检测集合D∈R^m×4、目标完全特征向量集合E_g∈R^m×a和目标遮挡特征向量集合E_p∈R^m×b，其中，m为检测到的目标数量，a为目标完全特征向量维度，b为目标遮挡特征向量维度；

5.2)利用第一帧图像得到的目标检测集合D、目标完全特征向量集合E_g和目标遮挡特征向量集合E_p，初始化目标轨迹T：

5.2.1)对目标检测集合中每个目标边界框D_j∈D，以其下标j作为其初始身份ID(D_j)＝j；

5.2.2)通过拼接融合策略将目标完全特征向量集合E_g和目标遮挡特征向量集合E_p进行融合，得到目标融合特征向量集合

5.2.3)将检测到的每个目标的目标边界框D_j与其对应的身份值ID(D_j)、目标融合特征向量

组成目标轨迹元素

进而得到目标轨迹T＝{T₁，T₂，…，T_j…，T_m}；

5.3)深度卷积网络模型读入下一帧图像F_t，得到目标检测集合D∈R^n×4、目标完全特征向量集合E_g∈R^n×a和目标遮挡特征向量集合E_p∈R^n×b，并将目标完全特征向量集合E_g和目标遮挡特征向量集合E_p拼接融合，得到目标融合特征向量集合

5.4)将5.3)得到的目标检测集合D中的每个目标与目标轨迹T中的目标进行关联，确定目标检测集合D中每个目标的身份：

5.4.1)对检测到的每个目标的目标边界框D_i∈D，利用其对应的目标融合特征向量

计算该向量与目标轨迹T中每个目标对应的目标融合特征向量

的余弦距离，得到距离矩阵C_n×m，其中，n为图像F_t上目标检测集合D的元素个数，m为目标轨迹T的元素个数，i∈[1，n]，j∈[1，m]；

5.4.2)对距离矩阵C_m×n运用匈牙利算法，得到目标匹配对集合P∈R^r×2，其中：

P集合中元素为目标检测集合D中元素下标与目标轨迹T中元素下标组成的二元组，r∈[0，min(m，n)]；

5.4.3)根据目标匹配对集合P，设置第t帧图像F_t上目标检测集合D中检测到的目标其所属身份，即设P中任一目标匹配对为(i，j)，则ID(D_i)＝ID(T_j)，实现第t帧检测目标与轨迹目标匹配，其中D_i为目标检测集合D中的第i个目标，T_j为目标轨迹T中第j个目标，ID(·)表示目标·所属身份；

5.5)重复5.3)到5.4)，直至处理完最后一帧图像，完成视频多目标跟踪任务。

本发明的效果可通过以下仿真结果进一步说明：

1.仿真实验条件

本发明所用的硬件平台为：CPU采用八核八线程的Intel Core i7-9700k，其主频为3.6GHz、内存为64GB；GPU采用两块显存为24GB的Nvidia RTX 3090。所用的软件平台为：操作系统采用Ubuntu16.04LTS，深度学习计算框架采用PyTorch 1.4，编程语言采用Python3.6。

本仿真实验采用了多目标跟踪准确度MOTA、识别F值IDF1和ID转变数IDS这三个评价指标。其中：

多目标跟踪准确度MOTA，是测试集上被正确检测和匹配的样本比重，越接近于100表示跟踪器性能越好。

识别F值IDF1，是测试集上所有检测框中目标匹配的F值，其值在0～100％之间，此值越大说明分类效果越好。

ID转变数IDS，是跟踪轨迹中目标ID变换的次数，用于反应跟踪的稳定性，数值越小越好。

2.仿真内容与结果分析

用本发明和现有两种方法JDE和FairMOT在上述仿真条件下对行人多目标跟踪数据集MOT17测试，利用上述三个评价指标对跟踪结果进行评价，结果如表1。

表1现有技术与本发明在MOT17上的跟踪效果对比结果

方法名称\指标	MOTA	IDF1	IDS
				JDE	63.9	57.9	4434
FairMOT	73.2	72.8	2964
				本发明方法	73.9	73.7	2640

从表1可见，本发明的多目标跟踪准确度MOTA、识别F值IDF1和ID转变数IDS均高于现有两种方法，说明本发明的整体跟踪效果和目标识别能力均优于两个现有方法。这是因为本发明通过设计特征提取分支同时提取目标的完全特征和遮挡特征，增强了目标检测和特征提取双任务联合训练中特征提取任务的损失占比，进而模型能够充分训练特征提取分支，使得联合训练模型能够在实现高性能目标检测的同时，还具备强视觉显著性特征提取能力，使跟踪流程中数据关联阶段准确度有效提升，从IDS指标可以看出，本发明显著降低了跟踪过程中错位匹配次数，大幅提高跟踪模型的稳定性。

综合上述，本发明提出的方法能够在不利用单独的视觉显著性特征提取模型情况下，直接在一个跟踪网络下实现目标检测和强特征提取两个任务联合训练，并使得联合训练模型能够在实现高性能目标检测的同时，还具备强视觉显著性特征提取能力。通过强视觉显著性特征提升数据关联准确性，进而提升跟踪模型的整体性能。

Claims

1.一种基于深度学习及多任务联合训练的多目标跟踪方法，其特征在于，包括：

集合

(5)对目标检测集合D的目标融合特征向量集合

与目标轨迹T的目标融合特征向量集合

表示目标轨迹T中所有目标的目标融合特征向量组成的集合，

2.根据权利要求1所述的方法，其特征在于，(2)中目标边界框标签集合B进行归一化处理，公式如下：

其中，

表示图像F_t的宽，高，x，y表示边界框中心像素点位置，图像F_t左上角的像素点位置为(0，0)，w，h表示边界框宽高，

3.根据权利要求1所述的方法，其特征在于，(3)中通过深度神经网络模型输出图像F_t上的目标检测集合D和目标完全特征向量集合E_g与目标遮挡特征向量集合E_p，实现如下：

3a)将图像F_t输入主干特征提取子网络得到响应图X；

3b)通过多目标完全特征提取子网络提取响应图X的多目标完全特征图X_g；

3c)通过多目标遮挡特征提取子网络处理响应图X与归一化后的目标边界框标签集合B′，得到多目标遮挡特征图X_p；

3d)通过多任务联合模块处理多目标完全特征图X_g与多目标遮挡特征图X_p，得到目标检测集合D∈R^n×4和目标完全特征向量集合E_g∈R^n×a与目标遮挡特征向量集合E_p∈R^n×b。

4.根据权利要求3所述的方法，其特征在于，3b)中通过多目标完全特征提取子网络提取响应图X的多目标完全特征图X_g，实现如下：

3b1)将响应图X输入多目标完全特征提取子网络，得到不同卷积层输出的不同下采样程度的中间特征图X₁、X₂和X₃，该中间特征图X₁、X₂和X₃分别相对于响应图X下采样2、4、8倍；

3b2)将响应图X与3b1)中得到的中间特征图X₁、X₂和X₃进行多层特征图聚集，得到多目标完全特征图X_g。

5.根据权利要求4所述的方法，其特征在于，3b2)将响应图X与中间特征图X₁、X₂和X₃进行多层特征图聚集，实现如下：

3b2.1)设

3b2.2)对多层特征图进行聚集：

第2步，将下采样倍数相差2倍的特征图分别通过

函数两两聚集，得到一次聚集结果

和

和

第4步，将二次聚集结果σ″_k和σ″_k/2通过

函数聚集，得三次聚集结果

第5步，将三次聚集结果σ″′_k′和二次聚集结果中的σ″_k/2通过

函数聚集，得四次聚集结果

第6步，将四次聚集结果

和一次聚集结果中的σ′_k/2通过

函数聚集，得五次聚集结果

第7步，将五次聚集结果

和第1步的中间特征图X₃，即σ_k/8，通过

函数聚集，得六次聚集结果

该

即为响应图X和中间特征图X₁、X₂和X₃的多层聚集结果X_g，其尺度与特征图X相同。

6.根据权利要求3所述的方法，其特征在于，3c)中得到多目标遮挡特征图X_p，实现如下：

3c1)将响应图X和归一化后的目标边界框标签集合B′输入到多目标遮挡特征提取子网络的随机遮挡网络层，得到目标遮挡响应图X′；

3c2)将目标遮挡响应图X′继续经过多目标遮挡特征提取子网络余下部分处理，得到不同卷积层输出的不同下采样程度的中间特征图X′₁、X′₂和X′₃，这些中间特征图X′₁、X′₂和X′₃分别相对于目标遮挡响应图X′下采样2、4、8倍；

3c3)将目标遮挡响应图X′与3c4)中得到的中间特征图X′₁、X′₂和X′₃进行多层特征图聚集，得到多目标遮挡特征图X_p。

7.根据权利要求6所述的方法，其特征在于，3c1)中得到目标遮挡响应图X′，实现如下：

3c1.1)将归一化后的目标边界框标签集合B′中所有边界框中心坐标(x，y)及宽高(w，h)在响应图X尺寸上还原，得到响应图X上的目标边界框集合B_X，还原方式为x＝x×W_X，y＝y×H_X，w＝w×W_X，h＝h×H_X。其中W_X和H_X分别表示响应图X的宽高；

3c2)创建一个宽高与响应图X相同的二维矩阵M，并将矩阵M值全填1；对响应图X上的目标边界框集合B_X中每一个边界框，将其在M上映射的区域进行随机遮挡，即随机取边界框内的一块连续区域全填0，该连续区域的选取规则为宽不超过w×w_drop_r，高不超过h×h_drop_r，其中w，h表示边界框的宽高，w_drop_r∈[0，1)，h_drop_r∈[0，1)；将处理后的M作为掩码；

3c3)将掩码M与响应图X按位乘，得到目标遮挡响应图X′。

8.根据权利要求3所述的方法，其特征在于，3d)中通过多任务联合模块处理多目标完全特征图X_g与多目标遮挡特征图X_p，实现如下：

3d1)将多目标完全特征图X_g∈R^C×W×H经过热力图预测卷积变换输出热力图X_ht∈R^1×W×H，经过目标中心偏移量预测卷积变换输出偏移量X_off∈R^2×W×H，经过目标边界框宽高预测卷积变换输出目标边界框宽高X_wh∈R^2×W×H，其中C表示X_g的通道数，W、H表示多目标完全特征图X_g的宽和高；

3d2)将多目标完全特征图X_g∈R^C×W×H经过2维卷积块输出目标完全特征向量图X_ge∈R^a ^×W×H，其中a表示目标完全特征向量的向量维度；

3d3)将多目标遮挡特征图X_p∈R^C×W×H经过2维卷积块输出目标遮挡特征向量图X_pe∈R^b ^×W×H，其中b表示目标遮挡特征向量的向量维度；

3d4)将热力图X_ht∈R^1×W×H看作尺寸为W×H的二维矩阵A，并将矩阵A第x_i行，第x_j列位置上的值记为

其中

分别表示矩阵O、S、G、P第x_i行，第x_j列位置上的值；

通过矩阵A对尺寸为W×H的二维空间位置进行坐标筛选：如果

则坐标(x_i，x_j)满足条件，将坐标(x_i，x_j)加入坐标集合L，得到满足条件的坐标集合：L＝{(x_i1，x_j1)，(x_i2，x_j2)，…，(x_in，x_jn)}，其中n为满足坐标筛选条件的位置数，ε为筛选阈值；

3d5)根据筛选出的坐标集合L，从3d4)中的矩阵O和S对应取出相应位置上的值，得到目标中心偏移量集合O′和目标边界框宽高集合S′，再对坐标集合L和目标中心偏移量集合O′中元素进行向量加法，得到检测到的n个目标边界框的中心坐标集合L′，再由目标边界框的中心坐标集合L′和目标边界框宽高集合S′组合，得到图像F_t上的目标检测集合D；

3d6)根据筛选出的位置L，从3d4)中的矩阵G和P对应取出相应位置上的值，得到目标完全特征向量集合E_g和目标遮挡特征向量集合E_p，其中，

其中a表示目标完全特征向量的向量维度，b表示目标遮挡特征向量的向量维度。

9.根据权利要求1所述的方法，其特征在于，(6)中利用距离矩阵C_n×m进行检测目标与轨迹目标的关联匹配，实现多目标跟踪，实现如下：

6a)对距离矩阵C_m×n运用匈牙利算法，得到目标匹配对集合P∈R^r×2，其中P集合中元素为目标检测集合D中元素下标与目标轨迹T中元素下标组成的二元组，r∈[0，min(m，n)]；

6b)根据目标匹配对集合P，设置目标检测集合D中检测到的目标其所属身份，即设P中任一目标匹配对为(i，j)，则ID(D_i)＝ID(T_j)，其中D_i为目标检测集合D中的第i个目标，T_j为目标跟踪集合T中第j个目标，ID(·)表示目标·所属身份，实现第t帧检测目标与轨迹目标匹配，完成当前帧跟踪任务。