CN111860504B

CN111860504B - 基于深度学习的视觉多目标跟踪方法及装置

Info

Publication number: CN111860504B
Application number: CN202010698618.5A
Authority: CN
Inventors: 李辉; 刘亚鹏; 张淑军; 董燕; 王传旭; 徐凌伟
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2024-08-02
Anticipated expiration: 2040-07-20
Also published as: CN111860504A

Abstract

本发明公开了一种基于深度学习的多目标跟踪方法及装置，所述方法包括：将视频帧序列输入到残差网络中;将残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合,输出残差网络融合特征图;获得与当前视频帧相邻的前两视频帧对应的注意力图;利用注意力图对当前视频帧的所述残差网络融合特征图作加权,输出空间增强特征图;将空间增强特征图输入到LSTMs网络中,输出时空增强特征图;将时空增强特征图输入到RPN网络中,输出带有区域建议的特征图;将带有区域建议的特征图分别输入到目标检测器和数据关联头,输出目标检测结果和预测关联矢量;基于目标检测结果和关联矢量进行目标跟踪。应用本发明，能提高目标检测与跟踪的精确度。

Description

基于深度学习的视觉多目标跟踪方法及装置

技术领域

本发明属于图像处理技术领域,具体地说,是涉及视觉多目标跟踪,更具体地说,是涉及基于深度学习的视觉多目标跟踪方法及装置。

背景技术

视觉多目标跟踪是指对视频或图像序列中多个运动物体进行跟踪，得到运动物体在每一帧的位置。多目标跟踪在视频监控、自动驾驶和视频娱乐等领域有广泛的应用。

随着深度学习技术的出现与快速发展，计算机视觉进入了“学习”阶段，数据的积累以及计算能力的提高给这种“学习”提供了实践的基本素材和可以高强度劳作的“体魄”。因此,基于深度学习的视觉多目标跟踪逐渐成为目前的研究热点和主流技术.

在多目标跟踪中,对视频序列的特征提取是非常关键的环节,特征提取的好坏将直接影响到后续目标的检测与跟踪。现有基于深度学习的多目标跟踪技术中，普遍存在着随着特征提取网络深度的增加，会损失许多细节信息，降低了后续的目标检测与跟踪的精度。

发明内容

本发明的目的之一是提出一种基于深度学习的视觉多目标跟踪方法及装置，以提高目标检测与跟踪的精确度。

为实现上述发明目的，本发明采用下述技术方案予以实现：

一种基于深度学习的多目标跟踪方法，包括：

将视频帧序列输入到训练后的残差网络中;

将所述残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合,输出残差网络融合特征图;

将当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量,获得与所述前两视频帧对应的注意力图;

利用所述前两视频帧对应的注意力图对所述当前视频帧的所述残差网络融合特征图作加权处理,输出当前视频帧的空间增强特征图;

将所述当前视频帧的空间增强特征图输入到训练后的LSTM网络中,输出时空增强特征图;

将所述时空增强特征图输入到训练后的RPN网络中,输出带有区域建议的特征图;

将所述带有区域建议的特征图输入到训练后的目标检测器,输出目标检测结果;将所述带有区域建议的特征图输入到训练后的数据关联头,预测关联矢量;

基于所述目标检测结果和所述关联矢量进行目标跟踪。

如上所述的方法，将所述残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合,输出残差网络融合特征图，具体包括：

将所述残差网络第二层的输出特征和第三层的输出特征作为底层的输出特征，与该网络最后一层的输出特征融合，输出残差网络融合特征图。

如上所述的方法，将当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量,获得与所述前两视频帧对应的注意力图;利用所述前两视频帧对应注意力图对所述当前视频帧的所述残差网络融合特征图作加权处理,输出当前视频帧的空间增强特征图，具体包括：

将所述当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图利用匹配网络计算对应位置之间的相似度，得到两个相似度矩阵；

将两个所述相似度矩阵分别转换为指定尺寸的特征图，将所述指定尺寸的特征图经卷积层处理，然后通过softmax分类器分别计算出与所述前两视频帧对应的注意力图；

将所述当前视频帧的所述残差网络融合特征图转换为所述指定尺寸的特征图，利用所述前两视频帧对应的注意力图分别对所述当前视频帧的所述指定尺寸的特征图作加权处理，输出当前视频帧的空间增强特征图。

如上所述的方法，将所述带有区域建议的特征图输入到训练后的目标检测器,输出目标检测结果，具体包括：

将所述带有区域建议的特征图分别输入到训练后的ROI分类器、边界框回归器和分割掩码网络，输出包括有目标分类、分数、预测边界框以及分割掩码的目标检测结果。

如上所述的方法，在训练所述数据关联头的训练过程中，采用下述损失函数L_ta修正预测结果：

；

其中，；batch为批处理图片组，P为目标数量，K为同一个目标对应的不同图片的数量，a为batch中的任一张图片，A为与a具有相同目标的图片集，B为与a不具有相同目标的图片集，p为与a距离最远的正样本，n为与a距离最近的负样本，α为阈值参数，max表示最大值，min表示最小值，nonmax表示非最大值，nonmin表示非最小值。一种基于深度学习的多目标跟踪装置，包括：

残差网络融合特征图获取模块，用于将视频帧序列输入到训练后的残差网络中，并将所述残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合,获取残差网络融合特征图；

空间增强特征图获取模块，用于将当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量,获得与所述前两视频帧对应的注意力图，利用所述前两视频帧对应的注意力图对所述当前视频帧的所述残差网络融合特征图作加权处理,获取当前视频帧的空间增强特征图;

时空增强特征图获取模块，用于将所述当前视频帧的空间增强特征图输入到训练后的LSTM网络中,获取时空增强特征图;

目标检测及跟踪模块，用于将所述时空增强特征图输入到训练后的RPN网络中,输出带有区域建议的特征图;将所述带有区域建议的特征图输入到训练后的目标检测器,输出目标检测结果;将所述带有区域建议的特征图输入到训练后的数据关联头,预测关联矢量;基于所述目标检测结果和所述关联矢量进行目标跟踪。

本发明的另一目的是提供一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时，实现上述的基于深度学习的视觉多目标跟踪方法。

本发明的再一目的是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的基于深度学习的视觉多目标跟踪方法。

与现有技术相比，本发明的优点和积极效果是：本发明提供的基于深度学习的多目标跟踪方法及装置中，利用残差网络提取特征时，将残差网络底层的输出特征与最后一层的输出特征进行融合后获得融合特征图，使得通过残差网络提取的特征在含有丰富语义信息的同时还包含有更多的细节信息；残差网络输出的融合特征图中，基于当前视频帧和相邻的前两帧视频帧的相似性确定前两帧视频帧的注意力图，再根据注意力图对当前视频帧的融合特征图进行加权处理，获得当前视频帧的空间增强的特征图，提高特征图的分辨率；空间增强后的特征图再输入到LSTM网络中，输出含有丰富时空信息的时空增强特征图；时空增强特征图含有更多细节信息、丰富的语义信息以及增强的时空信息，能够提高后续的目标检测与分割的精度，进而有利于提高多目标跟踪的准确度。

结合附图阅读本发明的具体实施方式后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于深度学习的多目标跟踪方法一个实施例的流程图；

图2是实现多目标跟踪方法一个实施例的整体框架图；

图3是基于残差网络输出融合特征图的结构示意图；

图4是本发明基于深度学习的多目标跟踪装置一个实施例的结构示意图；

图5是本发明电子设备一个实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实施例，对本发明作进一步详细说明。

图1示出了本发明基于深度学习的多目标跟踪方法一个实施例的流程图。结合图2实现多目标跟踪方法的整体框架图及图3示出的残差网络输出融合特征图的结构示意图，详述该实施例基于深度学习实现多目标跟踪方法的过程。

在利用深度学习模型进行多目标在线跟踪之前，预先使用训练数据对深度学习模型中所涉及的残差网络、LSTM网络、RPN网络、目标检测器、数据关联头等进行了学习训练，形成具有鲁棒性的深度学习模型。

如图1所示，该实施例采用包括有下述步骤的过程实现多目标跟踪。

步骤101:将视频帧序列输入到训练后的残差网络中。

如图2的框架图所示，将视频帧序列V_t（t=1,2,3，……，n）输入到训练后的残差网络中，实现目标特征提取与加强。而且，作为优选实施方式，残差网络采用平滑网络ResNet_s。具体来说，在平滑网络ResNet_s中，每个涉及到通道数变化的地方均采用平滑的网络层，使得通道数实现平滑变换。譬如，将通道数1024转换为通道数256时，并非仅仅采用一个网络层使得通道数由1024直接变为256，而是采用多个网络层，使通道数按照1024→512→256的平滑过程变换。通过采用对通道数变换进行平滑处理的平滑残差网络，能够使得经过残差网络提取的特征保留更多的细节信息，有助于后期目标的检测、分割与跟踪。

具体到图2的框架图中，一次性将时间上连续的第（t-2）帧V_t-2、第（t-1）V_t-1帧、第t帧V_t共三帧视频帧同时输入到三个共享权重的ResNet_s中，执行特征提取。

步骤102：将残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合,输出残差网络融合特征图。

在该实施例中，不仅仅是利用残差网络最后一层的输出作为提取的特征，而是将残差网络至少一个底层的输出特征与该网络最后一层的输出特征进入融合，获得融合特征图并输出，称之为残差网络融合特征图。采用至少一个底层的输出特征与最后一层的输出特征相融合后的融合特征作为残差网络提取的最终融合特征图，其原因在于：采用残差网络提取特征时，随时网络层的加深，提取特征的语义信息越来越丰富，但是，一些细节信息会丢失，不利于后期目标的检测与分割。而且，残差网络的底层具有更加丰富的细节信息。因而，选取至少一个底层的输出特征，以保留更多的细节信息。然后，具有更多细节信息的底层输出特征与具有丰富的语义信息的最后一层的输出特征进行融合，获得融合特征图，该融合特征图同时包含有更多的细节信息和丰富的语义信息，更有助于后期目标的检测、分割，进而提高目标跟踪的精确度。

对于选取的底层输出特征，考虑到有些细节信息对最终的特征识别并无太大用处，过多的采用底层输出特征进行融合还会增加处理复杂度，降低识别速度，因此，作为优选实施例，选取残差网络第二层的输出特征和第三层的输出特征作为底层的输出特征进行特征融合。

一个更优选的实施例，参见图3的结构示意图所示，残差网络第二层Conv2的输出特征首先输入到Selector1网络中。Selector1网络为1*1卷积网络，目的是为了减少通道数，将256通道变为128通道，从而减少计算量。残差网络第三次Conv3的输出特征首先输入到Selector1网络中。Selector2网络也为1*1卷积网络，目的是为了减少通道数，将512通道变为256通道，从而减少计算量。同样的，残差网络最后一层Conv5的输出特征也首先输入到1*1卷积网络Selector3中，将2048通道变为640通道，以减少计算量。然后，将经过卷积处理后的第二层的输出特征、第三层的输出特征及最后一层的输出特征进行特征融合，获得同时包含有更多细节信息和丰富的语义信息的融合特征图。对于视频帧V_t-2、V_t-1、V_t，对应的融合特征图分别表示为F_t-2、F_t-1、F_t。

步骤103：将当前视频帧的残差网络融合特征图分别与相邻的前两视频帧的残差网络融合特征图进行相似性度量,获得与前两视频帧对应的注意力图。

残差网络输出的融合特征图，输入到时空融合模型中。在时空融合模型中，首先确定空间增强特征图。具体来说，结合图2所示，将当前视频帧V_t对应的残差网络融合特征图F_t与相邻的前两视频帧V_t-2、V_t-1所对应的残差网络融合特征图F_t-2、F_t-1输入到时空融合模型中。其中，F_t分别与F_t-2、F_t-1利用匹配网络计算对应位置之间的相似度，分别获得F_t与F_t-2的相似度矩阵A_t,t-2以及F_t与F_t-1的相似度矩阵A_t,t-1。相似度矩阵的确定方法可以采用现有技术来实现，在此不作具体阐述。

然后，将两个相似度矩阵A_t,t-2、A_t,t-1分别转换为指定尺寸的特征图S_t,t-2、S_t,t-1。譬如，利用形状重定义函数reshape对矩阵进行转换，得到尺寸为7×7×49的特征图S_t,t-2、S_t,t-1。然后，将特征图S_t,t-2、S_t,t-1经卷积层处理，并通过softmax分类器分别计算出两个注意力图a_t,t-2、a_t,t-1，确定为前两视频帧V_t-2、V_t-1所对应的注意力图。

步骤104：利用前两视频帧对应的注意力图对当前视频帧的残差网络融合特征图作加权处理,输出当前视频帧的空间增强特征图。

将当前视频帧V_t所对应的残差网络融合特征图F_t也经过L2归一化成尺寸为7×7×49的特征图S_t。然后，利用注意力图a_t,t-2、a_t,t-1分别对S_t作加权计算处理，具体来说，是将S_t上某一位置的数值与两个注意力图对应位置的权重相乘，从而，使得值得注意的地方的值更大，不值得注意的地方的值更小，得到空间增强特征图。

步骤105：将当前视频帧的空间增强特征图输入到训练后的LSTM网络中,输出时空增强特征图。

步骤104中获得的空间增强特征图经过平均池化层进行池化，使得通道数恢复到1024。然后,输入到训练后的LSTM网络(长短期记忆网络)中,提取时间维度上的信息,最终获得含义丰富时空信息的时空增强特征图,并输出。利用LSTM网络提取特征的原理及方法，采用现有技术来实现。

步骤106：将时空增强特征图输入到训练后的RPN网络中,输出带有区域建议的特征图。

采用RPN网络输出带有区域建议的特征图的具体原理及方法，也采用现有技术来实现。

步骤107：将带有区域建议的特征图输入到训练后的目标检测器,输出目标检测结果;将带有区域建议的特征图输入到训练后的数据关联头,预测关联矢量;基于目标检测结果和关联矢量进行目标跟踪。

参见图2，在一个优选实施例中，RPN网络输出的带有区域建议的特征图分别输入到训练后的ROI分类器、边界框回归器和分割掩码网络，输出包括有目标分类、分数、预测边界框以及分割掩码的目标检测结果。在其他的一些实施例中，目标检测器也还可以是其他能够实现目标检测的模型。

为了实现对目标视频中的目标进行连续跟踪，该实施例设置有数据关联头，主要作用是用来建立帧与帧之间同一对象的关联，确保t帧的目标1在下一帧时不会变成目标2。该数据关联头为一个完全连接层，该层将区域建议作为输入，预测关联矢量，每个关联矢量表示一个跟踪目标。最终，基于目标检测结果和关联矢量进行目标跟踪。

而且，在训练数据关联头的训练过程中，优选采用下述损失函数修正预测结果，实现基于回归的多目标跟踪网络的参数训练：

；

其中，。公式中各参数的含义如下：batch为批处理图片组，P为目标数量，K为同一个目标对应的不同图片的数量，a为batch中的任一张图片，A为与a具有相同目标的图片集，B为与a不具有相同目标的图片集，p为与a距离最远（最不像）的正样本，n为与a距离最近（最像）的负样本，α为已知的阈值参数，max表示最大值，min表示最小值，nonmax表示非最大值，nonmin表示非最小值。

上述损失函数L_ta利用三元组的计算来推开不同目标之间的距离，拉近同一目标之间的距离。而且，在训练数据关联头时，对于每一个训练batch，随机挑选P个ID的行人，每个行人随机挑选K张不同的图片，即一个batch含有P×K张图片。之后对于batch中的每一张图片a，既挑选最难的正样本和最难的负样本组成三元组进行训练，同时也选取一部分非最难样本参与训练，损失函数会计算图片a和所在batch中的每一张图片在特征空间的欧式距离，然后选出三分之二的与a距离最远（最不像）的正样本p和距离最近（最像）的负样本n以及三分之一的其他样本来计算三元组损失。由于训练时挑选最难的正样本和最难的负样本组成三元组进行训练，同时也选取一部分非最难样本参与训练，均衡了各种样本，从而，增强了训练样本的均衡性，使得数据关联头模型的泛化能力更强，实现了数据关联头性能的均衡，针对不同难度的数据均能够更好的拉近同一目标之间的距离，推开不同目标的距离。进而，提高了数据关联时的准确性，最终使得多目标跟踪具有更高的跟踪准确度，提高了多目标跟踪的性能。

图4示出了本发明基于深度学习的多目标跟踪装置一个实施例的结构示意图。该实施例的装置应用与计算机等电子设备，运行相应的计算机程序，实现基于深度学习的多目标跟踪。

如图4所示，该实施例的多目标跟踪装置包括残差网络融合特征图获取模块41、空间增强特征图获取模块42、时空增强特征图获取模块43及目标检测及跟踪模块44。

其中，残差网络融合特征图获取模块41，用于将视频帧序列输入到训练后的残差网络中，并将残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合,获取残差网络融合特征图。

空间增强特征图获取模块42，用于将当前视频帧的残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量,获得与前两视频帧对应的注意力图，利用前两视频帧对应的注意力图对当前视频帧的残差网络融合特征图作加权处理,获取当前视频帧的空间增强特征图。

时空增强特征图获取模块43，用于将当前视频帧的空间增强特征图输入到训练后的LSTM网络中,获取时空增强特征图。

目标检测及跟踪模块44，用于将时空增强特征图输入到训练后的RPN网络中,输出带有区域建议的特征图;将带有区域建议的特征图输入到训练后的目标检测器,输出目标检测结果;将带有区域建议的特征图输入到训练后的数据关联头,预测关联矢量;基于目标检测结果和关联矢量进行目标跟踪。

该装置实现多目标跟踪的更具体的工作原理和过程以及技术效果，参见上述多目标跟踪方法实施例及优选实施例的描述。

上述的多目标跟踪方法还可以应用在一个或者多个电子设备中。电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等设备。电子设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

图5示出了本发明电子设备一个实施例的结构示意图。在该实施例中，电子设备5包括有存储器51和处理器52，存储器51中存储有计算机程序。处理器52能够通过总线读取并运行/执行存储器51中存储的计算机程序。并且，处理器52在执行计算机程序时，实现上述的图1实施例及其他优选实施例的基于深度学习的视觉多目标跟踪方法，实现方法所能产生的技术效果。

上述的多目标跟踪方法还可以以软件产品的形式体现出来，软件产品存储在计算机可读存储介质中。具体来说，本发明还提供一种计算机可读存储介质的实施例，在存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述的图1实施例及其他优选实施例的基于深度学习的视觉多目标跟踪方法，实现方法所能产生的技术效果。对于计算机可读存储介质，包括但不限于U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟、光盘等。

以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims

1.一种基于深度学习的多目标跟踪方法，其特征在于，所述方法包括：

将视频帧序列输入到训练后的残差网络中；

将所述残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合，输出残差网络融合特征图；

将当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量，获得与所述前两视频帧对应的注意力图；

利用所述前两视频帧对应的注意力图对所述当前视频帧的所述残差网络融合特征图作加权处理，具体是将所述残差网络融合特征图上某一位置的数值与所述前两视频帧对应的注意力图的对应位置的权重相乘，输出当前视频帧的空间增强特征图；

将所述当前视频帧的空间增强特征图输入到训练后的LSTMs网络中，输出时空增强特征图；

将所述时空增强特征图输入到训练后的RPN网络中，输出带有区域建议的特征图；

将所述带有区域建议的特征图输入到训练后的目标检测器，输出目标检测结果；将所述带有区域建议的特征图输入到训练后的数据关联头，预测关联矢量；所述数据关联头为一个完全连接层，用来建立帧与帧之间同一对象的关联；

基于所述目标检测结果和所述关联矢量进行目标跟踪。

2.根据权利要求1所述的基于深度学习的多目标跟踪方法，其特征在于，将所述残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合，输出残差网络融合特征图，具体包括：

3.根据权利要求1所述的基于深度学习的多目标跟踪方法，其特征在于，将当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量，获得与所述前两视频帧对应的注意力图；利用所述前两视频帧对应注意力图对所述当前视频帧的所述残差网络融合特征图作加权处理，输出当前视频帧的空间增强特征图，具体包括：

将所述当前视频帧的所述残差网络融合特征图转换为所述指定尺寸的特征图，利用所述前两视频帧对应的注意力图分别对所述当前视频帧的所述指定尺寸的特征图作加权处理，具体是将所述指定尺寸的特征图上某一位置的数值与所述前两视频帧对应的注意力图的对应位置的权重相乘，输出当前视频帧的空间增强特征图。

4.根据权利要求1所述的基于深度学习的视觉多目标跟踪方法，其特征在于，将所述带有区域建议的特征图输入到训练后的目标检测器，输出目标检测结果，具体包括：

5.根据权利要求1所述的基于深度学习的视觉多目标跟踪方法，其特征在于，在训练所述数据关联头的训练过程中，采用下述损失函数L_ta修正预测结果：

其中，batch为批处理图片组，P为目标数量，K为同一个目标对应的不同图片的数量，a为batch中的任一张图片，A为与a具有相同目标的图片集，B为与a不具有相同目标的图片集，p为与a距离最远的正样本，n为与a距离最近的负样本，α为阈值参数，max表示最大值，min表示最小值，nonmax表示非最大值，nonmin表示非最小值。

6.一种基于深度学习的多目标跟踪装置，其特征在于，所述装置包括：

残差网络融合特征图获取模块，用于将视频帧序列输入到训练后的残差网络中，并将所述残差网络至少一个底层的输出特征与该网络最后一层的输出特征融合，获取残差网络融合特征图；

空间增强特征图获取模块，用于将当前视频帧的所述残差网络融合特征图分别与相邻的前两视频帧的所述残差网络融合特征图进行相似性度量，获得与所述前两视频帧对应的注意力图，利用所述前两视频帧对应的注意力图对所述当前视频帧的所述残差网络融合特征图作加权处理，具体是将所述残差网络融合特征图上某一位置的数值与所述前两视频帧对应的注意力图的对应位置的权重相乘，获取当前视频帧的空间增强特征图；

时空增强特征图获取模块，用于将所述当前视频帧的空间增强特征图输入到训练后的LSTM网络中，获取时空增强特征图；

目标检测及跟踪模块，用于将所述时空增强特征图输入到训练后的RP N网络中，输出带有区域建议的特征图；将所述带有区域建议的特征图输入到训练后的目标检测器，输出目标检测结果；将所述带有区域建议的特征图输入到训练后的数据关联头，预测关联矢量；所述数据关联头为一个完全连接层，用来建立帧与帧之间同一对象的关联；基于所述目标检测结果和所述关联矢量进行目标跟踪。

7.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现上述权利要求1至5中任一项所述的基于深度学习的视觉多目标跟踪方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述权利要求1至5中任一项所述的基于深度学习的视觉多目标跟踪方法。