CN114220061A

CN114220061A - 一种基于深度学习的多目标跟踪方法

Info

Publication number: CN114220061A
Application number: CN202111620306.3A
Authority: CN
Inventors: 李辉; 梁孝国; 刘祥; 崔雪红; 赵国伟; 杨浩冉
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-03-22
Anticipated expiration: 2041-12-28
Also published as: CN114220061B

Abstract

本发明公开了一种基于深度学习的多目标跟踪方法，所述方法包括对视频图像序列执行特征提取的过程，所述特征提取的过程包括：将视频图像序列中相邻的两视频帧作为原始输入，获取所述原始输入对应的原始张量，将所述原始张量输入至多特征提取网络，获得多特征图；将所述多特征图输入时空融合网络，获得时空特征增强的时空融合特征图，实现对视频图像序列的特征提取；所述多特征提取网络为残差网络架构，包括有多个多特征提取模块，每个所述多特征提取模块包括通道子模块、动作子模块、特征相关子模块及残差网络的残差块。本发明通过对特征提取骨干网络中的残差块进行改进，提高提取特征的显著性，进而提高目标跟踪的精度。

Description

一种基于深度学习的多目标跟踪方法

技术领域

本发明属于图像处理技术领域，具体地说，是涉及视觉多目标跟踪，更具体地说,是涉及基于深度学习的多目标跟踪方法。

背景技术

多目标跟踪，即在图像序列中定位多个目标并且保持每个目标对应的身份不变，是计算机视觉任务中很重要的一部分，其在行为识别、视频监控、无人驾驶以及人机交互等领域有着重要的研究与应用价值。目前，基于检测跟踪（Tracking-By-Detection）的多目标跟踪算法是现阶段主流方法，其主要包括目标检测和目标关联两个部分。在该类方法中，首先利用目标检测器，对图像序列每一帧中感兴趣的目标进行检测，然后利用关联算法将相邻帧间相同的目标关联起来，以此在时间序列上形成一条目标的线索（即轨迹）。这种方法的跟踪性能很大程度上依赖于前期目标检测的结果，为提高关联模型的鲁棒性及跟踪精度，基于深度学习的多目标跟踪方法成为主流的跟踪策略。

CN201910429444.X的中国专利申请，公开了《一种基于深度学习和数据关联的在线多目标跟踪方法》，该方法的主要特征包括：（1）利用多层卷积网络从目标图像中提取特征，并以深度余弦度量学习模型计算特征向量之间的余弦值来作为目标外观相似性的有效辨识；（2）融合目标多帧历史外观特征，以应对目标外观连续性的动态变化，同时也能缓解检测器的缺陷或目标互相遮挡时对目标匹配精度的影响；（3）提出基于目标状态的两阶段数据关联方法，针对目标的可靠性分析分别设计对应的关联策略，并利用匈牙利算法进行数据关联。采用该方法，至少存在着下述缺点：（1）提取的目标特征信息不够丰富，在拥挤场景及存在目标外观相似的情况下，目标的特征表示不具有判别力。（2）融合目标多帧历史外观特征，会显著增加计算量，减慢运行速度。

CN202011020801.6的中国专利申请，公开了一种《基于深度学习的视频实时多目标检测与跟踪方法和装置》，该方法的主要特征包括：（1）将视频数据样本输入到预先设置的基于密集连接深度卷积网络的多目标检测模型，使用yolo算法提取视频数据样本的浅层特征和深层特征；（2）将yolo算法中预设的损失函数，即视频序列对应的真实边界框和预测边界框的交并比替换为广义交并比（3）利用注意力机制对浅层特征和深层特征进行融合，得到包括预测边界框的视频帧序列；（4）对检测边界框中的视频帧数据进行特征提取，得到对应的外观特征向量；（5）基于检测边界框的位置和对应的外观特征向量，使用Deep sort算法对检测边界框进行帧间关联，得到多目标跟踪结果。采用该方法，至少存在着下述缺点：（1）虽然利用注意力机制对浅层特征和深层特征进行了融合，但是没有考虑卷积神经网络感受野受限的问题，且后期也没有进行全局优化，使得提取的特征信息局限性较强。（2）提取检测框的位置及对应的外观特征时，在遮挡及拥挤场景下，没有考虑抑制干扰因子的特征，使得提取的目标特征信息存在噪声，影响后期帧间关联精度。

此外，现有技术还公开一种引入注意力机制的JDE多目标跟踪方法，该方法的主要特征包括：（1）将视频帧输入到加入残差结构的DarkNet-53网络中，利用该网络输出的最后三个尺度的特征图构建特征金字塔，以应对目标尺度变化的问题；（2）将这三个特征图输入到由通道注意力、空间注意力以及空间金字塔池化模块组成的特征增强模块，以有效的提炼关键特征，同时扩大模型感受野，提高特征提取效率；（3）将经过特征增强模块获取的特征图输入到预测层，预测层中的检测分支用于目标的分类和定位，嵌入分支则用于目标表观特征的提取，并将其用于后续的数据关联中。该方法虽然扩大了模型感受野，但提取的目标特征表示缺乏与周围环境的建模，在拥挤和目标外观相似性较强的情况下，目标特征表示仍不具有区别力。

综上，现有检测跟踪的多目标跟踪技术方案中，普遍存在下述技术问题：（1）检测阶段提取的目标特征信息不够丰富，在拥挤场景和外观相似情况下，提取的特征区别力不够；（2）无法有效应对目标间的遮挡问题，而频繁的遮挡会导致目标身份标识频繁改变，滞后跟踪性能，不利于后续目标关联阶段精度的提升。

发明内容

本发明的目的在于提供一种基于深度学习的多目标跟踪方法，通过对特征提取骨干网络中的残差块进行改进，提高提取特征的显著性，进而提高目标跟踪的精度。

为实现上述发明目的，本发明采用下述技术方案予以实现：

一种基于深度学习的多目标跟踪方法，所述方法包括对视频图像序列执行特征提取的过程，所述特征提取的过程包括：

将视频图像序列中相邻的两视频帧作为原始输入，获取所述原始输入对应的原始张量，将所述原始张量输入至多特征提取网络，获得多特征图；

将所述多特征图输入时空融合网络，将时序信息与空间信息融合，获得时空特征增强的时空融合特征图，实现对视频图像序列的特征提取；

所述多特征提取网络为残差网络架构，包括有多个多特征提取模块，每个所述多特征提取模块包括通道子模块、动作子模块、特征相关子模块及残差网络的残差块；

所述多特征提取网络采用下述方法获得所述多特征图：

所述通道子模块对所述原始张量执行空间平均池化处理、卷积处理和激活处理，生成通道掩码，所述通道掩码与所述原始张量融合，获得与所述原始张量维度相同的通道特征；

所述动作子模块对所述原始张量进行特征提取，获得帧间目标运动变化张量，对所述帧间目标运动变化张量执行空间平均池化处理、卷积处理和激活处理，生成动作掩码，所述动作掩码与所述原始张量融合，获得与所述原始张量维度相同的动作特征；

所述特征相关子模块对所述原始张量执行卷积处理和相关操作处理，获得与所述原始张量维度相同的特征相关特征；

将所述通道特征、所述动作特征、所述特征相关特征及所述原始张量进行融合，获得融合特征，将所述融合特征输入所述残差网络的残差块进行特征提取，再将所述残差网络的残差块提取的特征与所述原始张量进行融合，获得所述多特征图。

在其中一个优选实施例中，所述通道子模块对所述原始张量执行空间平均池化处理、卷积处理和激活处理，生成通道掩码，所述通道掩码与所述原始张量融合，获得与所述原始张量维度相同的通道特征，具体包括：

所述通道子模块对所述原始张量执行空间平均池化处理，获得输入特征的全局空间特征；

利用1*1卷积压缩所述全局空间特征的通道数并重构特征，然后再次利用1*1卷积对通道数进行还原，获得还原后特征张量；

利用激活函数激活所述还原后特征张量，生成所述通道掩码；

将所述通道掩码与所述原始张量进行点积运算的融合，获得所述通道特征。

在其中一个优选实施例中，所述动作子模块对所述原始张量进行特征提取，获得帧间目标运动变化张量，对所述帧间目标运动变化张量执行空间平均池化处理、卷积处理和激活处理，生成动作掩码，所述动作掩码与所述原始张量融合，获得与所述原始张量维度相同的动作特征，具体包括：

所述动作子模块将所述原始张量分离为前一帧图像张量和当前帧图像张量，对所述前一帧图像张量和所述当前帧图像张量分别执行维度信息不变的图像特征提取，将所述当前帧图像张量经特征提取后的结果执行卷积操作，然后与所述前一帧图像张量经特征提取的结果相减，获得所述帧间目标运动变化张量；

对所述帧间目标运动变化张量执行空间平均池化处理，获得目标运动全局空间特征；

利用1*1卷积处理所述目标运动全局空间特征，获得还原后特征张量；

利用激活函数激活所述还原后特征张量，生成所述动作掩码；

将所述动作掩码与所述原始张量进行点积运算的融合，获得所述动作特征。

在其中一个优选实施例中，所述方法还包括：

将所述时空融合特征图输入区域提议网络进行训练，获得目标的分类和边界框的回归，确定回归的目标检测框；

采用注意力模块在所述目标检测框上提取用于数据关联的原始目标特征；

基于所述原始目标特征进行特征聚合，获得聚合目标特征；

基于所述聚合目标特征进行数据关联，获得目标在时序上的轨迹。

在其中一个优选实施例中，采用注意力模块在所述目标检测框上提取用于数据关联的原始目标特征，基于所述原始目标特征进行特征聚合，获得聚合目标特征，具体包括：

所述注意力模块计算指定目标与其他邻近目标之间的IoU值，并与预设IoU阈值进行比较；

若所述指定目标的IoU值大于所述预设IoU阈值，判定所述指定目标被遮挡；否则，判定所述指定目标未被遮挡；

将所述原始目标特征输入特征筛选模块，所述特征筛选模块根据所述指定目标是否被遮挡对所述指定目标的目标特征赋予指定权重系数，并基于所述指定权重系数筛选所述原始目标特征，获得筛选后目标特征；

对所述筛选后目标特征进行特征聚合，获得所述聚合目标特征。

在其中一个优选实施例中，对所述筛选后目标特征进行特征聚合，获得聚合目标特征，具体包括：

对当前视频帧及之前的多帧视频帧中的多个目标的筛选后目标特征进行聚合池化，获得多特征聚合池化后特征；

将所述多特征聚合池化后特征与所述当前视频帧的多个目标的聚合后目标特征进行融合，获得特征增强的聚合目标特征。

在其中一个优选实施例中，在基于所述原始目标特征进行特征聚合的过程中，采用交叉熵损失函数训练同一目标聚合前后特征差异的损失，采用三元组损失函数最大化不同目标间特征的差异以及最小化同一目标的特征差异。

在其中一个优选实施例中，在将所述时空融合特征图输入区域提议网络进行训练，获得目标的分类和边界框的回归，确定回归的目标检测框的过程中，采用交叉熵损失函数学习目标预测类别与真实标签之间的差异，采用Smooth L1损失函数执行目标边界框的回归训练。

与现有技术相比，本发明的优点和积极效果是：

本发明提供的基于深度学习的多目标跟踪方法，在残差网络架构中的残差块的基础上引入通道子模块、动作子模块以及特征相关子模块，在不改变残差块原始的输入输出维度的基础上，利用特征相关子模块建模每一个目标位置与其空间上下文的特征相关性，提升拥挤场景和外观相似性下的目标特征区分力；利用动作子模块和通道子模块分别建模目标动作和通道在时序上的特征相关性，以应对遮挡场景下目标位置信息的预测，从而实现对目标的多特征提取；利用改进的残差块提取到目标显著性的特征表示后，再利用时空融合网络对目标特征进行时序和空间上的特征融合，进而获得经过时空融合增强的时空融合特征图。基于显著性增强的时空融合特征图进行目标跟踪，提高了目标跟踪的精度。

结合附图阅读本发明的具体实施方式后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习的多目标跟踪方法一个实施例的流程示意图；

图2为图1中多特征提取模块的一个结构示意图；

图3为图1中多特征提取模块的另一个结构示意图；

图4为本发明基于深度学习的多目标跟踪方法又一个实施例的流程示意图；

图5为图4中特征聚合一个具体实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实施例，对本发明作进一步详细说明。

首先，简要阐述本发明的技术路线：

视频图像序列的特征提取是实现多目标跟踪的基础，特征提取阶段的重要目的是在提取到目标更加丰富和显著性特征的同时，又不能大幅增加网络的复杂性和计算量，使得获取的特征图能够显著提升目标检测精度，从而提升后续关联阶段的性能。现有多目标跟踪特征提取方法中，通常采用ResNet101网络作为特征提取的骨干网络。本发明在ResNet101网络的基础上，借助该网络易优化且能够通过增加相当的深度来提高准确率的优势，以及残差块的结构，一方面缓解了网络加深时带来的梯度消失问题，另一方面也保护了信息传递时的完整性，因此本发明提出针对残差块作出改进以获取目标丰富的特征表示。

针对残差块进行改进时进行如下考量：（1）考虑到卷积神经网络感受野受限，且大多数特征提取方法基于裁剪后的图像，由此导致提取的目标特征有很大的局限性，在拥挤场景和外观相似性目标存在的情况下，提取的目标特征不具有较强的区别力；（2）考虑在视频图像序列中提取到目标鲁棒的动作特征能够在遮挡时较为精确的预测目标在下一帧中的位置；（3）通道和动作模型之间彼此互补，在视频图像序列建模中十分关键，通过提取通道特征来表征网络的通道相关性，进而获得一个更优的目标特征图。

图1所示为本发明基于深度学习的多目标跟踪方法一个实施例的流程示意图。具体来说，是在多目标跟踪方法中对视频图像序列执行特征提取的一个实施例的流程示意图。

如图1所示，该实施例采用下述过程执行视频图像序列的特征提取。

步骤11：将视频图像序列中相邻的两视频帧作为原始输入，获取原始输入对应的原始张量，将原始张量输入至多特征提取网络，获得多特征图。

将原始视频帧转换为原始张量的方法为现有技术，在此不作具体阐述。

步骤12：将多特征图输入时空融合网络，将时序信息与空间信息融合，获得时空特征增强的时空融合特征图。

图2示出了多特征提取模块的一个结构示意图，图3所示为多特征提取模块的另一个结构示意图。下面结合图2和图3，对图1中多特征提取网络获得多特征图的过程作详细阐述。

多特征提取网络为残差网络架构，包括有多个多特征提取模块。

如图2所示的一个结构示意图，多特征提取模块包括通道子模块②、动作子模块③、特征相关子模块④及残差网络的残差块⑤。其中，残差网络的残差块为原始残差网络中的残差块。

通道子模块②用来建模通道在时序上的特征相关性，以应对遮挡场景下目标位置信息的预测。具体的，通道子模块②对原始张量执行空间平均池化处理、卷积处理和激活处理，生成通道掩码，通道掩码与原始张量融合，获得与原始张量维度相同的通道特征。

动作子模块③用于建模目标动作在时序上的特征相关性，以应对遮挡场景下目标位置信息的预测。具体的，动作子模块③对原始张量进行特征提取，获得帧间目标运动变化张量，对帧间目标运动变化张量执行空间平均池化处理、卷积处理和激活处理，生成动作掩码，动作掩码与原始张量融合，获得与原始张量维度相同的动作特征。

特征相关子模块④用于建模每一个目标位置与其空间上下文的特征相关性，提升拥挤场景和外观相似性下的目标特征区分力。具体的，特征相关子模块④对原始张量执行卷积处理和相关操作处理，获得与原始张量维度相同的特征相关特征。

然后，将上述获取的通道特征、动作特征、特征相关特征再与原始张量①进行融合，获得融合特征。然后，将融合特征输入残差网络的残差块⑤进行特征提取；为了特征提取过程中不造成信息损失，再将残差网络的残差块⑤提取的特征与原始张量①进行融合，最终获得多特征图。

下面结合图3示出的多特征提取模块的另一个结构示意图，对作为残差块输入特征的融合特征的获取过程，再作进一步描述。

如图3所示，在该图中，输入为一个四维张量（B,C,W,H），B表示Batch(批量大小，此处为2，即输入的两张相邻帧图像)，C表示Channel（此处图像为RGB三通道），W和H分别表示图像的宽和高，该输入即为原始张量。接着将原始张量分别送入通道子模块②、动作子模块③、特征相关子模块④，以构建不同维度上的特征信息。

图3中，通道子模块②首先利用空间平均池化（Spatial Pooling）来获取输入特征的全局空间特征，其维度变为（B,C,1,1）。然后，利用1*1卷积压缩全局空间特征的通道数（图中C*为压缩后的通道表示），并重构（Reshape）特征表示为（B,C*）。接着，再将特征张量（B,C*）重新重构为一个四维张量（B,C*,1,1）。随后，再次利用1*1卷积对通道数进行还原，还原后特征张量为（B,C,1,1）。然后，将还原后特征张量利用激活函数Sigmod激活，生成通道掩码。然后，将通道掩码与原始张量①进行点积运算的融合，其维度变为（B,C,W,H），形成通道特征。

动作子模块③是对相邻帧建模动作信息，首先利用1*1卷积对通道进行压缩，然后，将张量分离前一帧图像张量和当前帧图像张量，两图像张量分别执行维度信息不变的图像特征提取。具体的，前一帧图像张量进入图3中的θ(t)模块进行图像特征提取，当前帧图像张量进入图3中的θ(t+1)模块进行图像特征提取。采用θ模块提取图像特征的具体过程为现有技术，在此不作具体阐述。将当前帧图像张量经特征提取后的结果执行卷积核大小为3的卷积操作，然后与前一帧图像张量经特征提取的结果相减，获得帧间目标运动变化张量（B,C*,W,H）。然后，对帧间目标运动变化张量执行空间平均池化（Spatial Pooling）处理，获得目标运动全局空间特征，其维度变为（B,C*,1,1）。然后，利用1*1卷积对通道数进行还原，还原后特征张量为（B,C,1,1）。然后，将还原后特征张量利用激活函数Sigmod激活，生成动作掩码。然后，将动作掩码与原始张量①进行点积运算的融合，其维度变为（B,C,W,H），形成动作特征。

对于特征相关子模块④，结合残差结构，利用1*1*1卷积操作和一个7*7的相关操作对原始张量进行处理，构建目标在空间上的特征相关性表示，获得特征相关特征。

最后，利用三个子模块分别获得的通道特征、动作特征和特征相关特征再与原始张量进行融合，获得融合特征，由此来提取目标的显著性特征表示。

在经步骤11获得了相邻的两视频帧的多特征图之后，输入时空融合网络，将时序信息与空间信息进行融合，以增强目标在时序上的特征表示，进而获取目标特征在时序和空间上相融合的特征表示。时空融合过程的具体实现可采用现有技术，简要描述如下：

计算相邻两视频帧的多特征图上所有对应位置之间的相似性，由此获得目标在相邻两帧空间位置上的注意力矩阵；利用获取的注意力矩阵对两多特征图进行加权操作，分别得到目标在两帧上空间增强的特征表示。最后，将增强后的空间特征表示输入LSTM网络（长短期记忆网络），最终获得时空特征增强的时空融合特征图。

采用上述各实施例的方法提取特征时，通过在残差网络架构中的残差块的基础上引入通道子模块、动作子模块以及特征相关子模块，在不改变残差块原始的输入输出维度的基础上，利用特征相关子模块建模每一个目标位置与其空间上下文的特征相关性，提升拥挤场景和外观相似性下的目标特征区分力；利用动作子模块和通道子模块分别建模目标动作和通道在时序上的特征相关性，以应对遮挡场景下目标位置信息的预测，从而实现对目标的多特征提取；利用改进的残差块提取到目标显著性的特征表示后，再利用时空融合网络对目标特征进行时序和空间上的特征融合，进而获得经过时空融合增强的时空融合特征图。

图4示出了本发明基于深度学习的多目标跟踪方法又一个实施例的流程示意图，具体的，是基于图1实施例获取的时空融合特征图进行多目标跟踪的一个实施例的流程图。

如图4所示，该实施例采用下述过程实现多目标跟踪。

步骤41：将时空融合特征图输入区域提议网络进行训练，获得目标的分类和边界框的回归，确定回归的目标检测框。

其中，时空融合特征图为采用图1实施例的方法获取的特征图。

将时空融合特征输入区域提议网络（RPN）中，得到带有最终区域提议的特征图。然后，利用一个分类头和一个回归头去预测目标类别及边界框的回归，并确定出回归的目标检测框。

在该步骤中，作为优选实施方式，采用交叉熵损失函数学习目标预测类别与真实标签之间的差异，采用Smooth L1损失函数执行目标边界框的回归训练。

该步骤更具体的实现过程可参考现有技术，在此不作具体阐述。

步骤42：采用注意力模块在目标检测框上提取用于数据关联的原始目标特征。

为了增强用于数据关联阶段目标特征提取的专注性，本实施例利用注意力模块来提取目标检测框位置上的目标特征，并定义为原始目标特征。注意力模块提取目标特征的具体实现过程参考现有技术，在此不作具体描述。

步骤43：基于原始目标特征进行特征聚合，获得聚合目标特征。

步骤44：基于聚合目标特征进行数据关联，获得目标在时序上的轨迹。

步骤43及步骤44的具体实现，可以采用现有技术。

在其他一些优选实施例中，为了获取被跟踪目标特征上更多的注意力，还利用目标间的IoU值（两个边界框相交的面积与两个边界框面积和的比值）来判定所提取目标的特征是否属于被跟踪目标的特征。具体的，利用注意力模块计算指定目标与其他邻近目标之间的IoU，并于预设IoU阈值进行比较。若指定目标的IoU值大于预设IoU阈值，判定指定目标被遮挡，此时，对于提取的目标特征要进行一定程度的抑制，确保被跟踪目标特征的一致性，从而可以解决遮挡情况下的目标特征提取不一致问题。若指定目标的IoU值不大于预设IoU阈值，判定指定目标未被遮挡，可正常进行特征聚合。

然后，将注意力模块提取的原始目标特征输入特征筛选模块，特征筛选模块根据指定目标是否被遮挡对指定目标的目标特征赋予指定权重系数，并基于指定权重系数筛选原始目标特征，获得筛选后目标特征。特征筛选模块优选采用卷积门控循环单元（GRU）来实现。利用GRU单元，可以判别输入的原始目标特征是否值得聚合更新。而且，在该GRU单元中，将其中的矩阵乘法操作改为卷积操作，以允许原始目标特征的二维输入及相关操作。

然后对筛选后目标特征进行特征聚合，获得聚合目标特征。

在其他一些优选实施例中，为提高拥挤场景下及存在相似性的目标特征时的数据关联的准确性，对筛选后目标特征进行特征聚合，获得聚合目标特征，采用下述方法来实现：

对当前视频帧及之前的多帧视频帧中的多个目标的筛选后目标特征进行聚合池化，获得多特征聚合池化后特征。具体的，多特征聚合，是将当前视频帧中筛选后的特征与先前多帧经过筛选后并进行聚合的特征再次进行聚合，此处的聚合采用更新函数来实现，具体聚合过程为现有技术。然后将当前帧中的多个聚合特征连接起来并进行池化操作。由此，可在特征匹配时考虑来自同一帧中其他目标的特征，以解决在拥挤场景和相似性外观目标的情况下，对目标进行有效的关联。

然后，再将多特征聚合池化后特征与当前视频帧的多个目标的聚合后目标特征进行融合，获得特征增强的聚合目标特征。由于将当前视频帧的聚合后目标特征再次参与融合，形成最终增强的聚合目标特征，从而达到残差表示的效果，进一步增强了每个目标具有区别力的特征表示，以解决遮挡、外观相似性等问题。

在其他一些优选实施例中，在基于原始目标特征进行特征聚合的过程中，为了使目标特征在聚合前后都具有可区分的特征，使用交叉熵损失函数去训练同一目标聚合前后特征差异的损失，以获取目标一致性的特征表示；还采用三元组损失函数最大化不同目标间特征的差异以及最小化同一目标的特征差异。交叉熵损失函数及三元组损失函数的具体表示及应用，可参考现有技术。

在另外一些优选实施例中，还将特征增强的聚合目标特征作为注意力模块的反馈输入，使得注意力模块能够利用增强的目标特征获取更加精准的目标注意力图，进而引导注意力模块提取更加精准的原始目标特征，进一步优化对目标特征的提取。同时，得到反馈的注意力模块也能对目标位置预测做校正，优化边界框的位置坐标信息，使得对下一帧目标位置的预测更加准确。

图5示出了图4中特征聚合一个具体实施例的结构示意图，对特征聚合的过程作进一步的阐述。

如图5所示，利用RPN确定回归的目标检测框，其中，在一张图片中检测到两个目标，分别为目标1和目标2。利用注意力模块对目标检测框提取原始目标特征，获得提取的特征。从图5中可看出，目标2遮挡了目标1，因此导致后续提取的特征中目标1的特征表示较弱，而目标2的特征表示较强。

为了更好地进行特征聚合，利用GRU对目标特征进行筛选。仍以目标1和目标2为例，假设输入的相邻两视频帧中均包含有目标1和目标2，前一视频帧中的目标间没有遮挡，当前视频帧中目标2遮挡目标1。则在前一视频帧中，目标1和目标2之间的特征表示不受任何影响；但当前视频帧中，由于目标2遮挡目标1，目标1的特征表示较弱，而目标2的特征表示较强。在将前一视频帧的目标1和当前视频帧的目标1的特征送入GRU模块后，基于权重系数进行筛选，舍弃当前视频帧中的目标1的特征，选用前一视频帧中目标1的特征作为聚合模块的输入。

筛选后的目标特征输入特征聚合模块进行聚合。特征聚合模块为立方体结构，从右到左表示的是要聚合的视频帧，从下到上表示的是每一帧中目标的数量，聚合的是视频帧中目标的特征表示。立方体中，最左侧一列表示当前视频帧t+n中聚合后目标特征，是将当前视频帧中筛选后的特征与先前多帧经过筛选后并进行聚合的特征再次进行聚合。此处的聚合采用更新函数来实现，具体聚合过程为现有技术。然后将当前帧中的多个目标的聚合特征连接起来并进行池化操作，获得多特征聚合池化后特征。

然后，再将多特征聚合池化后特征与当前视频帧的多个目标的聚合后目标特征（也即特征聚合模块立方体中最左侧一列的特征）进行融合，获得特征增强的聚合目标特征，也即图中的增强的特征。

将最终得到的增强的特征进行数据关联，利用余弦相似性计算帧间目标特征的相似度，以此来构造代价矩阵，之后利用匈牙利分配算法进行轨迹的生成。

以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims

1.一种基于深度学习的多目标跟踪方法，其特征在于，所述方法包括对视频图像序列执行特征提取的过程，所述特征提取的过程包括：

所述多特征提取网络采用下述方法获得所述多特征图：

2.根据权利要求1所述的基于深度学习的多目标跟踪方法，其特征在于，所述通道子模块对所述原始张量执行空间平均池化处理、卷积处理和激活处理，生成通道掩码，所述通道掩码与所述原始张量融合，获得与所述原始张量维度相同的通道特征，具体包括：

3.根据权利要求1所述的基于深度学习的多目标跟踪方法，其特征在于，所述动作子模块对所述原始张量进行特征提取，获得帧间目标运动变化张量，对所述帧间目标运动变化张量执行空间平均池化处理、卷积处理和激活处理，生成动作掩码，所述动作掩码与所述原始张量融合，获得与所述原始张量维度相同的动作特征，具体包括：

4.根据权利要求1至3中任一项所述的基于深度学习的多目标跟踪方法，其特征在于，所述方法还包括：

基于所述原始目标特征进行特征聚合，获得聚合目标特征；

5.根据权利要求4所述的基于深度学习的多目标跟踪方法，其特征在于，采用注意力模块在所述目标检测框上提取用于数据关联的原始目标特征，基于所述原始目标特征进行特征聚合，获得聚合目标特征，具体包括：

6.根据权利要求5所述的基于深度学习的多目标跟踪方法，其特征在于，对所述筛选后目标特征进行特征聚合，获得聚合目标特征，具体包括：

7.根据权利要求4所述的基于深度学习的多目标跟踪方法，其特征在于，在基于所述原始目标特征进行特征聚合的过程中，采用交叉熵损失函数训练同一目标聚合前后特征差异的损失，采用三元组损失函数最大化不同目标间特征的差异以及最小化同一目标的特征差异。

8.根据权利要求4所述的基于深度学习的多目标跟踪方法，其特征在于，在将所述时空融合特征图输入区域提议网络进行训练，获得目标的分类和边界框的回归，确定回归的目标检测框的过程中，采用交叉熵损失函数学习目标预测类别与真实标签之间的差异，采用Smooth L1损失函数执行目标边界框的回归训练。