CN117291952B

CN117291952B - 一种基于速度预测和图像重建的多目标跟踪方法及装置

Info

Publication number: CN117291952B
Application number: CN202311421363.8A
Authority: CN
Inventors: 高鑫; 刘鹏; 吴润民; 熊一瑾; 张国英
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-05-17
Anticipated expiration: 2043-10-31
Also published as: CN117291952A

Abstract

本申请提供了一种基于速度预测和图像重建的多目标跟踪方法及装置，涉及智能驾驶技术领域，所述方法包括：利用的第一Tracker网络对当前帧和当前帧之前的连续多帧进行处理，得到第一目标特征图以及当前帧的目标预测框和分割掩膜；利用的LSTM网络对第二目标特征图进行处理，得到当前帧的目标速度；利用的条件自变分编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；利用的卷积神经网络对第一目标特征图和下一帧的预测图像进行处理,得到融合后的特征图；利用的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜。本申请解决了多目标跟踪任务中行人与车辆遮挡以及位移过大导致的跟踪精度下降的问题。

Description

一种基于速度预测和图像重建的多目标跟踪方法及装置

技术领域

本申请涉及无人驾驶技术领域，尤其是涉及一种基于速度预测和图像重建的多目标跟踪方法及装置。

背景技术

在自动驾驶场景下的多目标跟踪任务中,现有的多目标跟踪模型通常受到以下几个问题的干扰:

形态变化带来的干扰：当车辆在拐弯或者超车运动时,会因为相机角度的变化导致下一帧物体相对于上一帧发生较大姿态变化,此时物体的特征以及形状会导致它的特征发生改变,给跟踪目标带来困难。

尺度变化带来的干扰：当目标车辆由远到近或者由近到远运动时,目标的大小尺度发生较大变化,而跟踪框不能及时的改变大小,从而会将背景内容包含在内或者只能检测到目标的一部分，因此进一步导致跟踪目标的特征不准确造成模型精度下降。

遮挡与消失带来的干扰：目标因为运动可能会发生被遮挡甚至在画面中消失的情况；在目标遮挡或消失的情况下，由于缺乏长时间的上下文信息，容易将遮挡物误判为目标或导致目标丢失。遮挡物的特征可能会取代目标的特征，成为后续帧的匹配特征，从而进一步导致对后续帧的误判。

发明内容

有鉴于此，本申请提出了一种基于速度预测和图像重建的多目标跟踪方法及装置，该方法利用视频序列帧预测物体运动速度并融合速度进行图像重建，以解决多目标跟踪任务中行人与车辆遮挡以及位移过大问题的方法。

第一方面，本申请实施例提供了一种基于速度预测和图像重建的多目标跟踪方法，包括：

利用预先训练完成的第一Tracker网络对当前帧和当前帧之前的连续多帧进行处理，得到第一目标特征图以及当前帧的目标预测框和分割掩膜；

将第一目标特征图和当前帧的分割掩膜进行相乘，得到第二目标特征图；

利用预先训练完成的LSTM网络对第二目标特征图进行处理，得到当前帧的目标速度；

利用预先训练完成的条件自变分编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；

利用预先训练完成的卷积神经网络对第一目标特征图和下一帧的预测图像进行处理,得到融合后的特征图；

利用预先训练完成的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜。

进一步地，所述方法还包括：对第一Tracker网络和LSTM网络进行联合训练的步骤。

进一步地，对第一Tracker网络和LSTM网络进行联合训练的步骤，包括：

获取第一训练数据集，包括多帧来自视频样本的连续图像以及每帧图像的目标真实速度；

从多帧来自视频样本的连续图像中获取M帧连续图像样本，将第M帧作为当前样本帧；

利用第一Tracker网络对当前样本帧和当前样本帧之前的连续多帧进行处理，得到第一目标特征图样本以及当前样本帧的目标预测框和分割掩膜；

将第一目标特征图样本和当前样本帧的分割掩膜进行相乘，得到第二目标特征图样本；

利用LSTM网络对第二目标特征图样本进行处理，得到当前样本帧的目标预测速度；

利用当前样本帧的目标预测速度与目标真实速度，计算第一损失函数；

利用第一损失函数更新第一Tracker网络和LSTM网络的参数。

进一步地，所述条件自变分编码器包括编码器和解码器；

利用预先训练完成的编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；包括：

利用预先训练完成的编码器对当前帧、第一目标特征图以及目标速度进行处理，得到一个依靠当前帧信息采样的隐变量；

利用预先训练完成的解码器对隐变量、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像。

进一步地，所述方法还包括：

获取第二训练数据集，包括多帧来自视频样本的连续图像；

从多帧来自视频样本的连续图像中获取M+1帧连续图像样本，将第M帧作为当前样本帧；

利用预先训练完成的第一Tracker网络对当前样本帧和当前样本帧之前的连续多帧进行处理，得到第一目标特征图样本以及当前样本帧的目标预测框和分割掩膜；

利用预先训练完成的LSTM网络对第二目标特征图样本进行处理，得到当前样本帧的目标速度；

利用编码器对当前样本帧、第一目标特征图样本以及当前样本帧的目标速度进行处理，得到一个依靠当前样本帧信息采样的隐变量；

利用解码器对隐变量、第一目标特征图样本以及当前样本帧的目标速度进行处理，得到下一样本帧的预测图像；

利用下一样本帧的预测图像和第M+1帧样本，计算条件自变分编码器的第二损失函数；

利用第二损失函数更新编码器和解码器的参数。

进一步地，所述方法还包括：对卷积神经网络和第二Tracker网络进行联合训练的步骤。

进一步地，对卷积神经网络和第二Tracker网络进行联合训练的步骤，包括：

获取第三训练数据集，包括：多帧来自视频样本的连续图像，每张图像标注了目标真实框、道路边界框、可驾驶区域和车道；

从第三训练数据集中获取M帧连续图像样本，将第M帧作为当前样本帧；

利用预先训练完成的第一Tracker网络对M帧连续图像样本进行处理，得到第一目标特征图样本以及当前样本帧的目标预测框和分割掩膜；

利用预先训练完成的条件自变分编码器对当前样本帧、第一目标特征图样本以及当前样本帧的目标速度进行处理，得到第M+1帧的预测图像；

利用卷积神经网络对第一目标特征图样本和第M+1帧的预测图像进行处理,得到融合后的特征图样本；

利用Tracker网络对融合后的特征图样本进行处理，得到第M+1帧的目标预测框和分割掩膜；

利用第M+1帧的目标预测框和第M+1帧的目标真实框，计算第三损失函数；

利用第三损失函数更新卷积神经网络和第二Tracker网络的参数。

第二方面，本申请实施例提供了一种基于速度预测和图像重建的多目标跟踪装置，包括：

第一跟踪单元，用于利用预先训练完成的第一Tracker网络对当前帧和当前帧之前的连续多帧进行处理，得到第一目标特征图以及当前帧的目标预测框和分割掩膜；

第一处理单元，用于将第一目标特征图和当前帧的分割掩膜进行相乘，得到第二目标特征图；

第二处理单元，用于利用预先训练完成的LSTM网络对第二目标特征图进行处理，得到当前帧的目标速度；

图像重建单元，用于利用预先训练完成的条件自变分编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；

融合单元，用于利用预先训练完成的卷积神经网络对第一目标特征图和下一帧的预测图像进行处理,得到融合后的特征图；

第二跟踪单元，用于利用预先训练完成的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的方法。

本申请解决了多目标跟踪任务中行人与车辆遮挡以及位移过大导致的跟踪精度下降的问题。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法的流程图；

图2为本申请实施例提供的基于速度预测和图像重建的多目标跟踪装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

目前的多目标跟踪方法中,由于目标的遮挡以及位移过大引起的形态尺度变化和遮挡消失问题降低了目标跟踪精度。

为此，本申请提供了一种基于速度预测和图像重建的多目标跟踪方法及装置，该方法利用长时间序列预测当前物体速度，耦合速度信息预测下一帧物体的位置及形变并且重建下一帧的图像；由于融合了多帧的速度信息可以准确地跟踪到由于运动被遮挡以及位移过大导致形态尺度变化较大的物体。此外，本申请通过重建图像的损失训练，可以较好的融合长时间序列的时序信息用于当前帧物体跟踪和分割预测,在遮挡情况以及位移较大的情况下有显著改善。

本申请的方法融合视频多帧信息进行物体速度预测，并且利用条件自变分编码器从预测的速度和分割掩膜重建物体在下一帧位置，由此有效解决在下一帧跟踪时因为物体运动产生的遮挡和位移过大的问题。利用速度预测损失图像重建损失以及目标跟踪和分割损失，对多目标跟踪和分割器进行了端到端的训练，在BDD100k跟踪数据集上的实验表明，本申请的方法显著提高了由于运动被遮挡和位移过大的目标的跟踪精度。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请实施提供一种基于速度预测和图像重建的多目标跟踪方法，包括：

步骤101：利用预先训练完成的第一Tracker网络对当前帧和当前帧之前的连续多帧进行处理，得到第一目标特征图以及当前帧的目标预测框和分割掩膜；

步骤102：将第一目标特征图和当前帧的分割掩膜进行相乘，得到第二目标特征图；

将提取的目标特征与分割掩膜相乘作为输入,使得网络只专注于当前目标忽略图像中其他目标的干扰。然后,利用LSTM网络学习从刚刚得到时序信息中解耦出当前目标的速度；此时解耦的速度用卡尔曼滤波方法得到的速度作为监督产生loss。

步骤103：利用预先训练完成的LSTM网络对第二目标特征图进行处理，得到当前帧的目标速度；

步骤104：利用预先训练完成的条件自变分编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；

变分自动编码器(VAE)是一种有方向的图形生成模型，在图像重建领域已经取得了很好的效果，是目前生成模型的最先进方法之一。它假设数据是由一些随机过程，涉及一个未被注意的连续随机变量z假设生成的z是先验分布p_θ(z)和条件生成数据分布p_θ(X|z)，其中X表示数据，z有时被称为数据X的隐藏表示。

条件自变分编码器(CVAE)也是一个条件有向图模型，其输入观察值调制生成输出的高斯潜在变量的先验。它被训练以最大化条件边际对数似然。CVAE的变分学习目标在随机梯度变分贝叶斯(SGVB)框架中。在实验中，与确定性神经网络的模型相比，CVAE在使用随机推理生成多样化但现实的输出预测方面的有效性。

条件自变分编码器由一个编码器encoder和一个解码器decoder组成。编码器部分试图学习qφ(Z|x)，相当于学习数据的隐藏表示x或者x编码到隐藏的(概率编码器)表示。解码器部分试图学习pθ(X|z)解码隐藏表示输入空间。将条件输入与随机采样得到的隐变量z连接到一起作为解码器decoder的输入,输出结合时序信息和速度预测的下一帧物体位置姿态预测。最后将所有物体在下一帧的预测合并起来得到下一帧整个图像的重建图像；重建图像和真实的下一帧图像的L2距离作为重建图像的loss驱动第一Traker网络和LSTM网络的训练。

保持训练的第一Traker网络和LSTM网络的参数固定不变，将当前帧图像以及通过第一Traker网络和LSTM网络得到的目标特征与速度作为条件自编分编码器的encoder部分输入，encoder输出一个依靠当前帧信息采样的隐变量Z’；计算隐变量Z’的均值方差分布与随机正态采样的z分布之前的KL散度作为Loss_CVAE。

所述条件自变分编码器包括编码器和解码器；利用预先训练完成的编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；包括：

步骤105：利用预先训练完成的卷积神经网络对第一目标特征图和下一帧的预测图像进行处理,得到融合后的特征图；所述融合后的特征图包含了速度预测信息；

步骤106：利用预先训练完成的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜。

所述方法还包括：对第一Tracker网络和LSTM网络进行联合训练的步骤，具体包括：

利用第一损失函数更新第一Tracker网络和LSTM网络的参数。

所述方法还包括：对条件自变分编码器进行训练的步骤，具体包括：

获取第二训练数据集，包括多帧来自视频样本的连续图像；

利用第二损失函数更新编码器和解码器的参数。

所述方法还包括：对卷积神经网络和第二Tracker网络进行联合训练的步骤，具体包括：

其中，第一训练数据集、第二训练数据集和第三训练数据集均来自于BDD100k，BDD100k是一个流行的大规模多变化的道路场景多目标跟踪与分割数据集，在每个视频的第10秒采样一个关键帧，并为这些关键帧提供注释。它们被标记在几个级别：图像标记、道路对象边界框、可驾驶区域、车道标记和全帧实例分割。数据集有154个视频(30,817个图像)用于训练，32个视频(6,475个图像)用于验证，37个视频(7,484图像)进行测试。该数据集提供了8个带注释的类别进行评估，其中跟踪集中的图像以30FPS的帧速率每5FPS进行注释。

BDD100k是一个通用的道路视频跟踪及分割数据集，由100,000个视频组成。每个视频长约40秒、720p和30fps。这些视频还带有手机记录的GPS/IMU信息，以显示驾驶轨迹。Bdd100k数据库涵盖不同的天气条件，包括晴天、阴天和雨天，以及一天中的不同时间，包括白天和夜间。与以前数据集的比较，BDD 100k数据集更大、更多样化。

在进行神经网络训练之前，需要对三通道RGB图像的大小都裁剪为(360,640)的大小，网络的目标输出为(360,640,N),N为目标个数。

设定网络的编码器和解码器的尺寸大小、批处理数量、训练轮次数、各轮的学习率等需要人为定义的超参数之后，开始训练，编码器计算得到中间层的隐向量，再由解码器解码得到图像，根据Loss计算误差，利用反向传播算法更新网络参数，完成第一轮训练，直到完成所有轮的训练。该网络用于200k次，基本学习率设置为0.0001，在第一次100k次迭代后减少了10倍。采用ADAM求解器在2个GPU上优化网络。一个小批量涉及每个GPU一个图像。权重衰减和动量设置为0.0001和0.9。

使用了针对遮挡情况下的模型进行训练与测试，效果十分可观，被遮挡以及形变大的车辆大部分都可以被检测出来。

本申请在原有的多目标跟踪任务指标MOTA以及MOTP的基础上,提出了适应分割任务的MOTSA和MOTSP指标,计算过程如下:

首先计算MOTA(multiple object tracking accuracy)多目标跟踪的准确度,体现在确定目标的个数，以及有关目标的相关属性方面的准确度，用于统计在跟踪中的误差积累情况，包括FP、FN、ID Sw。

m_t:是FP,缺失数(漏检数)，即在第t帧中该目标o_i没有假设位置与其匹配。fp_t:是FN，误判数，即在第t帧中给出的假设位置h_j没有跟踪目标与其匹配。mme_t:是ID Sw，误配数，即在第t帧中跟踪目标发生ID切换的次数，多发生在遮挡情况下。然后将缺失数和误判数的判别阈值由MOT任务中的boundingbox IOU改为MOTS(多目标跟踪与分割)任务中分割maskIOU计算，可以得到对应的MOTSA。

对于MOTSP计算,首先计算多任务分割中MOTP(multiple object trackingprecision)多目标跟踪的精确度，体现在确定目标位置上的精确度，用于衡量目标位置确定的精确程度：

c_t表示第t帧目标o_i和假设h_j的匹配个数；表示第t帧目标o_i与其配对假设位置之间的距离，即匹配误差。然后用分割mask和gt之间IOU计算匹配个数,可以得到多目标跟踪与分割任务对应的指标MOTSP。

基于上述实施例，本申请实施例提供了一种基于速度预测和图像重建的多目标跟踪装置，参阅图2所示，本申请实施例提供的基于速度预测和图像重建的多目标跟踪装置200至少包括：

第一跟踪单元201，用于利用预先训练完成的第一Tracker网络对当前帧和当前帧之前的连续多帧进行处理，得到第一目标特征图以及当前帧的目标预测框和分割掩膜；

第一处理单元202，用于将第一目标特征图和当前帧的分割掩膜进行相乘，得到第二目标特征图；

第二处理单元203，用于利用预先训练完成的LSTM网络对第二目标特征图进行处理，得到当前帧的目标速度；

图像重建单元204，用于利用预先训练完成的条件自变分编码器对当前帧、第一目标特征图以及目标速度进行处理，得到下一帧的预测图像；

融合单元205，用于利用预先训练完成的卷积神经网络对第一目标特征图和下一帧的预测图像进行处理,得到融合后的特征图；

第二跟踪单元206，用于利用预先训练完成的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜。

需要说明的是，本申请实施例提供的基于速度预测和图像重建的多目标跟踪装置200解决技术问题的原理与本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法相似，因此，本申请实施例提供的基于速度预测和图像重建的多目标跟踪装置200的实施可以参见本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法。具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法。

本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于速度预测和图像重建的多目标跟踪方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种基于速度预测和图像重建的多目标跟踪方法，其特征在于，包括：

利用预先训练完成的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜；

所述条件自变分编码器包括编码器和解码器；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对第一Tracker网络和LSTM网络进行联合训练的步骤。

3.根据权利要求2述的方法，其特征在于，对第一Tracker网络和LSTM网络进行联合训练的步骤，包括：

利用第一损失函数更新第一Tracker网络和LSTM网络的参数。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第二训练数据集，包括多帧来自视频样本的连续图像；

利用第二损失函数更新编码器和解码器的参数。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：对卷积神经网络和第二Tracker网络进行联合训练的步骤。

6.根据权利要求5所述的方法，其特征在于，对卷积神经网络和第二Tracker网络进行联合训练的步骤，包括：

7.一种基于速度预测和图像重建的多目标跟踪装置，其特征在于，包括：

第二跟踪单元，用于利用预先训练完成的第二Tracker网络对融合后的特征图进行处理，得到下一帧的目标预测框和分割掩膜；

所述条件自变分编码器包括编码器和解码器；

图像重建单元具体用于：

8.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-6任一项所述的方法。