CN113837977A

CN113837977A - 对象跟踪方法、多目标跟踪模型训练方法及相关设备

Info

Publication number: CN113837977A
Application number: CN202111106143.7A
Authority: CN
Inventors: 赵幸福; 曾定衡; 吴海英; 周迅溢; 蒋宁; 王洪斌
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-24

Abstract

本申请公开了一种对象跟踪方法、多目标跟踪模型训练方法及相关设备。该方法包括：将目标视频的每一图像帧依次输入到多目标跟踪模型，获得每一图像帧对应的目标对象的目标信息；根据连续图像帧之间的目标信息对目标对象进行跟踪；多目标跟踪模型用于对第N个图像帧进行特征提取处理得到第一特征图，对第一特征图进行采样处理得到第二特征图，将第二特征图与目标特征图进行融合得到第三特征图，并对第三特征图进行回归处理得到目标信息；在N为1的情况下，目标特征图为空；在N大于1的情况下，目标特征图为多目标跟踪模型对第N‑1个图像帧处理得到的第三特征图。

Description

对象跟踪方法、多目标跟踪模型训练方法及相关设备

技术领域

本申请属于图像处理技术领域，具体涉及一种对象跟踪方法、多目标跟踪模型训练方法及相关设备。

背景技术

众所周知，多目标跟踪(Multiple-Object Tracking，MOT)技术是计算机视觉领域中一项重要的基础技术，其目的是对视频中所有的感兴趣目标同时跟踪，并得到完整的目标轨迹。MOT在视频分析、智慧城市、智能机器人和自动驾驶等领域都有着广泛的应用。

目前，对于目标跟踪检测算法都是基于先检测后跟踪的框架实现的，该框架下通常包含目标检测、特征提取和目标关联三个模块，由于三个模块相互独立，导致整个跟踪流程耗时较长，且无法进行全局优化。为此，提出了一些联合训练学习模型。传统的联合训练学习模型通常是将当前图像帧、前一帧图像帧和前一帧图像帧的热力图作为模型输入，在模型处理过程中，对当前图像帧、前一帧图像帧和前一帧图像帧的热力图同时进行处理，因此每次需要对当前图像帧、前一个图像帧以及前一个图像帧的热力图进行重复计算，导致模型速度较慢，同时，由于模型对不同输入数据的处理过程是一致的，但由于每个输入数据的作用是不同的，从而导致模型检测精度差的问题。

发明内容

本申请实施例的目的是提供一种对象跟踪方法、多目标跟踪模型训练方法及相关设备，能够解决传统的联合训练学习模型速度过慢，以及检测精度较差的问题。

第一方面，本申请实施例提供了一种对象跟踪方法，包括：

将目标视频的每一图像帧依次输入到预先训练的多目标跟踪模型，获得每一图像帧对应的目标对象的目标信息；

根据连续图像帧之间的所述目标信息对所述目标对象进行跟踪；

其中，所述多目标跟踪模型用于对第N个图像帧进行特征提取处理得到第一特征图，对所述第一特征图进行采样处理得到第二特征图，将所述第二特征图与目标特征图进行融合得到第三特征图，并对所述第三特征图进行回归处理得到所述目标信息；N为正整数，在N为1的情况下，所述目标特征图为空；在N大于1的情况下，目标特征图为所述多目标跟踪模型对第N-1个图像帧处理得到的所述第三特征图。

第二方面，本申请实施例提供了一种多目标跟踪模型训练方法，包括：

将第一样本数据集以单个图像帧作为输入，对待训练多目标跟踪模型进行训练，得到预训练模型；

将第二样本数据集以连续的M个图像帧作为输入，对所述预训练模型进行训练，得到多目标跟踪模型；

其中，M为大于1的整数，所述预训练模型用于对第m个图像帧进行特征提取处理得到第四特征图，对所述第四特征图进行采样处理得到第五特征图，将所述第五特征图与待处理特征图进行融合得到第六特征图，并对所述第六特征图进行回归处理得到目标信息；所述目标信息为用于进行目标对象跟踪的信息，m为小于或等于M的正整数，在m为1的情况下，所述待处理特征图为空；在m大于1的情况下，待处理特征图为所述预训练模型对第m-1个图像帧处理得到的所述第六特征图。

在模型训练过程中，先对当前图像帧(第m个图像帧)进行特征提取及采样处理得到第五特征图后，再将第五特征图融合前一个图像帧的特征图(待处理特征图)，得到目标信息，这样不仅包含之前的图像帧的信息，有效利用时间维度信息，提升了目标对象的检测精度，进而提高模型对目标对象的跟踪精度，且减少了模型输入数据，提高了模型处理速度。

第三方面，本申请实施例提供了一种对象跟踪装置，包括：

输入模块，用于将目标视频的每一图像帧依次输入到预先训练的多目标跟踪模型，获得每一图像帧对应的目标对象的目标信息；

跟踪模块，用于根据连续图像帧之间的所述目标信息对所述目标对象进行跟踪；

第四方面，本申请实施例提供了一种多目标跟踪模型训练装置，包括：

第一训练模块，用于将第一样本数据集以单个图像帧作为输入，对待训练多目标跟踪模型进行训练，得到预训练模型；

第二训练模块，用于将第二样本数据集以连续的M个图像帧作为输入，对所述预训练模型进行训练，得到多目标跟踪模型；

其中，M为大于1的整数，所述预训练模型用于对第m个图像帧进行特征提取处理得到第四特征图，对所述第四特征图进行采样处理得到第五特征图，将所述第五特征图与待处理特征图进行融合得到第六特征图，并对所述第六特征图进行回归处理得到所述目标信息；所述目标信息为用于进行目标对象跟踪的信息，m为小于或等于M的正整数，在m为1的情况下，所述待处理特征图为空；在m大于1的情况下，待处理特征图为所述预训练模型对第m-1个图像帧处理得到的所述第六特征图。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤，或者实现如第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤，或者实现如第二方面所述的方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法，或者实现如第二方面所述的方法的步骤。

本申请实施例通过将目标视频的每一图像帧依次输入到预先训练的多目标跟踪模型，获得每一图像帧对应的目标对象的目标信息；根据连续图像帧之间的所述目标信息对所述目标对象进行跟踪；其中，所述多目标跟踪模型用于对第N个图像帧进行特征提取处理得到第一特征图，对所述第一特征图进行采样处理得到第二特征图，将所述第二特征图与目标特征图进行融合得到第三特征图，并对所述第三特征图进行回归处理得到所述目标信息；N为正整数，在N为1的情况下，所述目标特征图为空；在N大于1的情况下，目标特征图为所述多目标跟踪模型对第N-1个图像帧处理得到的所述第三特征图。在模型处理过程中，先对当前图像帧(第N个图像帧)进行特征提取及采样处理得到第二特征图后，再将第二特征图融合前一个图像帧的特征图(目标特征图)，从而得到目标对象的目标信息，也即，本实施例根据当前图像帧及前一个图像帧对目标对象的不同影响，对当前图像帧及前一个图像帧进行不同的处理，这样，在减少输入数据，减少对输入数据的重复计算量，提高模型运算速度的前提下，在模型处理过程中，包含之前的图像帧的信息，有效地利用时间维度信息，提升了目标对象的检测精度，进而提升目标对象的跟踪效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的对象跟踪方法的流程图；

图2是本申请实施例提供的对象跟踪方法中MOT模型的框架流程图；

图3是本申请实施例提供的MOT模型训练方法的流程图；

图4是本申请实施例提供的对象跟踪装置的结构图；

图5是本申请实施例提供的MOT模型训练装置的结构图；

图6是本申请实施例提供的一种电子设备的结构图；

图7是本申请实施例提供的另一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

近年来，目标检测和Re-ID(行人重识别)在各自的发展中都取得巨大进步，并提升了目标跟踪的性能。通常采用CenterTrack模型实现目标对象的检测和跟踪。CenterTrack模型的输入通常包括当前检测的图像帧、前一个图像帧以及前一个图像帧的热力图(heatmap)，CenterTrack模型对输入的三个数据分别进行特征提取，获得三个特征图，然后将三个特征图按位融合后进行特征采样处理得到采样后的特征图，最后对采样后的特征图进行回归得到当前检测的图像帧的热力图、置信度图、尺寸以及当前图像帧相对于前一个图像帧的位移预测。基于每一图像帧的图像帧的热力图、置信度图、尺寸以及当前图像帧相对于前一个图像帧的位移预测，可以实现多目标对象的跟踪。由于CenterTrack模型的输入包括当前图像帧、前一个图像帧以及前一个图像帧的热力图，因此每次需要对前一个图像帧以及前一个图像帧的热力图进行重复计算，导致速度较慢。此外，由于模型对不同输入数据的处理过程是一致的，但由于每个输入数据的作用是不同的，从而导致模型检测精度差的问题。

而本申请实施例中通过根据输入数据对目标对象的不同影响，对输入数据的当前图像帧及前一个图像帧的处理过程不同，实现提高模型检测精度的效果，且还减少了模型的运算速度。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的对象跟踪方法进行详细地说明。

参见图1，图1是本申请实施例提供的一种对象跟踪方法的流程图，如图1所示，包括以下步骤：

步骤101，将目标视频的每一图像帧依次输入到预先训练的多目标跟踪模型，获得每一图像帧对应的目标对象的目标信息；

步骤102，根据连续图像帧之间的所述目标信息对所述目标对象进行跟踪；

本申请实施例中上述目标视频可以为已经录制或者下载好的视频，也可以为正在录制的视频。例如，在视频录制的过程中，将当前录制的图像帧输入到MOT模型，获得当前图像帧的对应的目标对象的目标信息。所述目标视频中的图像帧是按照时间先后顺序得到的一组图像帧，第N个图像帧与第N-1个图像帧表示的是当前图像帧和前一个图像帧，前一个图像帧是当前图像帧从时间节点的在前一个。也即，上述第N个图像帧为当前图像帧，上述目标特征图为前一个图像帧输入多目标跟踪模型处理后得到的特征图。

可选地，上述目标信息包括：第一信息、第二信息、尺寸和当前图像帧相对于前一个图像帧的位移预测信息。其中，上述目标对象在图像帧中具体可以表示为一个检测框，第一信息用于表示所述目标对象对应的检测框的位置信息，例如可以通过该检测框的中心点的位置信息进行表示，在一些实施例中，该第一信息可以为热力图，即检测框中心位置分布热力图，具体可以通过HeatMap表示；上述第二信息用于表示检测框为待检测的目标对象的概率，在一些实施例中，该第二信息可以通过置信度图表示，即可以理解为相关点为前景中心的置信度图，具体可以通过Confidence表示；上述尺寸可以理解为中心点对应的检测框的宽和高，具体可以通过Height&Width表示；上述位移预测可以理解为检测框中心点在前后帧的位移。

可选地，上述目标对象可以为一个对象或者多个对象，其中，多个对象可以理解为同一类对象中的多个对象，例如可以包括多个人或多个猫，多个对象也可以理解为多类对象，例如可以包括人、猫和狗三类对象。

应理解，在N＝1时，所述目标特征图为空，可以理解为，没有目标特征图的输入或者忽略目标特征图的输入，此时上述第三特征图可以理解为第二特征图，也可以理解为第二特征图经过预设处理后得到的特征图，该预设处理可以为加权处理。

需要说明的是，上述跟踪的处理过程理解为将两个连续帧之间的目标对象对应的检测框的中心点的二维偏移量、结合中心点的距离采用贪婪匹配进行关联，该过程为现有技术，具体可以参照相关技术描述，在此不再赘述。

本申请实施例在模型处理过程中，先对当前图像帧(第N个图像帧)进行特征提取及采样处理得到第二特征图后，再将第二特征图融合前一个图像帧的特征图(目标特征图)，从而得到目标对象的目标信息，也即，本实施例根据当前图像帧及前一个图像帧对目标对象的不同影响，对当前图像帧及前一个图像帧进行不同的处理，这样，在减少输入数据，减少对输入数据的重复计算量，提高模型运算速度的前提下，在模型处理过程中，包含之前的图像帧的信息，有效地利用时间维度信息，提升了目标对象的检测精度，进而提升目标对象的跟踪效果。

应理解，利用上述MOT模型可以实现行人跟踪或车辆跟踪等应用场景。例如输入监控视频，得到视频中的行人标识(id)和运动轨迹，然后在视频中商场入口设置一条或多条线段，根据行人轨迹，使用碰撞线检测是否越过了商场入口，并根据id计数实现客流统计。

可选地，如图2所示，在一些实施例中，所述MOT模型包括卷积网络、特征提取网络、融合网络和跟踪头网络，其中，所述卷积网络用于对当前输入的第N个图像帧进行特征提取获得所述第一特征图，所述特征提取网络用于对所述第一特征图进行下采样和上采样处理得到所述第二特征图，所述融合网络用于将所述第二特征图与所述目标特征图进行融合处理得到所述第三特征图，所述跟踪头网络用于对所述第三特征图进行回归处理得到所述目标信息。

本申请实施例中，上述卷积网络可以根据不同的场景和需求，设置不同的卷积核。可选地，上述卷积网络可以采用卷积核为7*7的卷积网络，假设输入的图像帧为W*H*3的特征图，经过卷积网络进行特征提取处理后得到的第一特征图为W*H*16的特征图，其中16表示第一特征图的通道数。

上述特征提取网络可以理解为卷积神经网络(Convolutional Neural Networks，CNN)，可以采用残差网络(resnet)结构或者分层深度聚合(hierarchical deepaggregation，DLA)结构。

本申请实施例中，特征提取网络仅对当前的第N个图像帧对应的第一特征图进行采样处理，相对于CenterTrack，删除了前一个图像帧以及前一个图像帧的heat map。由于减少了数据的输入，提升了模型的处理速度，并且让特征提取网络专注于当前的第N个图像帧，因此本申请实施例可以达到更好的检测效果。

需要说明的是，上述跟踪头网络可以理解为四个head，即上述第三特征图经过四个head得到对应的目标信息。具体地，通过四个head分别得到第一信息、第二信息、尺寸和当前图像帧相对于前一个图像帧的位移预测信息。

可选地，在一些实施例中，所述融合网络包括残差通道注意力网络(ResidualChannel Attention block，RCAB)和通道注意力网络(channel attention，CA)，其中，所述残差通道注意力网络用于对所述第二特征图进行加权处理；所述通道注意力网络用于对所述目标特征图进行加权处理，并将对所述目标特征图进行加权处理的结果与所述残差通道注意力网络输出的结果进行融合得到所述第三特征图。

应理解，通常的，RCAB对应的加权处理过程中加权值大于1，CA对应的处理过程中加权值小于1。因此，在本申请实施例中，由于当前的第N个图像帧经过RCAB进行加权处理，而前一个图像帧对应的第三特征图基于CA进行加权处理，且在网络模型中具有损失约束。这样前n个图像帧的特征经过多次加权后，特征信息对当前图像帧的特征的影响较小，因此可以保证离当前的图像帧越远的图像帧的特征对当前图像帧的影响越小，从而可以有效利用时间维度信息，提升了MOT的效果精度。

需要说明的是，所述通道注意力网络用于对所述目标特征图进行加权处理后，与所述残差通道注意力网络输出的结果进行融合得到所述第三特征图可以理解为：通道注意力网络用于对所述目标特征图进行加权处理后输出的结果与所述残差通道注意力网络输出的结果进行相加得到所述第三特征图。相加可以理解为相应维度的特征值进行相加计算，相加之后特征的维度不变。

可选地，在一些实施例中，所述特征提取网络包括第一子卷积网络和依次串联的三个第二子卷积网络，其中，所述第一子卷积网络用于对所述第一特征图进行下采样获得第一采样结果，所述三个第二子卷积网络用于对输入的第一采样结果进行上采样处理得到所述第二特征图。

本申请实施例中，上述特征提取网络以姿态残差网络(PoseResNet)为例进行说明。此时，上述第一子卷积网络可以为一个下采样32倍的ResNet，上述第二子卷积网络可以为步长为2的反卷积网络。上述第一特征图经过第一子卷积网络后得到的子特征图的高宽大小为(W/32，H/32)，然后以该子特征图为基础执行三次上采样，最终获得第二特征图的高宽为(W/4，H/4)。

需要说明的是，上述目标信息中的每一个信息都可以理解为一个特征图，或者通过该特征图表示。例如该第二特征图经过融合网络和跟踪头网络后，得到的热力图通过大小为(W/4，H/4，类别数量)的特征图表示，得到的置信度图通过大小为(W/4，H/4，通道数)的特征图表示，得到的尺寸通过大小为(W/4，H/4，2)的特征图表示，得到的位移预测通过大小为(W/4，H/4，2)的特征图表示。

本申请实施例在模型处理过程中，先对当前图像帧(第N个图像帧)进行特征提取及采样处理得到第二特征图后，再将第二特征图融合前一个图像帧的特征图(目标特征图)，从而得到目标对象的目标信息，本申请实施例融合了前一个图像帧的特征图，由于前一个图像帧这样可以包含之前的图像帧的信息，从而可以有效利用时间维度信息，减少中间图像帧目标对象的丢失，提升了目标对象的检测精度，进而提升目标对象的跟踪效果。

进一步的，参照图3，本申请实施例还提供了一种多目标跟踪模型训练方法，包括：

步骤301，将第一样本数据集以单个图像帧作为输入，对待训练多目标跟踪模型进行预训练，得到预训练模型；

步骤302，将第二样本数据集以连续的M个图像帧作为输入，对所述预训练模型进行训练，得到多目标跟踪模型；

应理解，上述M的取值大小可以根据实际需要进行设置，例如，在一些实施例中，M可以为3、4或者5。其中，当M为5时，训练的多目标跟踪模型的跟踪效果最好。即在第二阶段的训练过程中，将第二样本数据集以连续的5个图像帧作为输入，对所述预训练模型进行训练，得到多目标跟踪模型。所述连续的M个图像帧为按照时间顺序连续的M个图像帧，上述第m-1个图像帧为上述第m个图像帧的前一个图像帧。

本申请实施例中，上述第一样本数据集和第二样本数据集可以为相同的样本数据集，也可以为不同的样本数据集，在此不做进一步的限定。在预训练的阶段，待训练多目标跟踪模型对单个图像帧的处理过程与预训练模型对连续的M个图像帧中的第一个图像帧的处理过程相同。即忽略了与待处理特征图的融合。

需要说明的是，本申请实施例中，预训练模型对连续的M个图像帧的处理过程与上述实施例中，MOT模型对每一图像帧的处理过程相同，具体可以参照上述实施例，在此不再赘述。

由于在本申请实施例中，首先通过单个图像帧作为输入，对待训练多目标跟踪模型进行预训练，得到预训练模型，从而可以预先对目标对象的位置检测进行训练，以使部分网络参数得到收敛。由于首先通过单个图像帧进行预训练，然后在部分网络参数得到收敛的情况下，以多个连续的图像帧进行跟踪训练，以使全部的网络参数得到收敛。这样可以降低待训练多目标跟踪模型训练难度。

本申请实施例中，由于在训练的过程中融合了前一个图像帧的特征图，从而可以包含之前的图像帧的信息。这样在利用训练好的MOT模型进行多目标跟踪时，可以有效利用时间维度信息，减少中间图像帧目标对象的丢失，提升了目标对象的检测精度，进而提升目标对象的跟踪效果。

可选地，所述预训练模型包括卷积网络、特征提取网络、融合网络和跟踪头网络，其中，所述卷积网络用于对当前输入的第m个图像帧进行特征提取获得所述第四特征图，所述特征提取网络用于对所述第四特征图进行下采样和上采样处理得到所述第五特征图，所述融合网络用于将所述第五特征图与所述待处理特征图进行融合处理得到所述第六特征图，所述跟踪头网络用于对所述第六特征图进行检测识别得到所述目标信息。

可选地，所述融合网络包括残差通道注意力网络和通道注意力网络，其中，所述残差通道注意力网络用于对所述第五特征图进行加权处理，所述通道注意力网络用于对所述待处理特征图进行加权处理，并将对所述目标特征图进行加权处理的结果与所述残差通道注意力网络输出的结果进行得到所述第六特征图。

可选地，所述特征提取网络包括第一子卷积网络和依次串联的三个第二子卷积网络，其中，所述第一子卷积网络用于对所述第四特征图进行下采样获得采样结果，并将所述采样结果输入到依次串联的三个第二子卷积网络，所述三个第二子卷积网络用于对输入的第一采样结果进行上采样处理得到所述第二特征图，也即所述采样结果经过所述三个第二子卷积网络依次上采样后得到所述第五特征图。

需要说明的是，本申请实施例提供的对象跟踪方法，执行主体可以为对象跟踪装置，或者该对象跟踪装置中的用于执行加载对象跟踪方法的控制模块。本申请实施例中以对象跟踪装置执行加载对象跟踪方法为例，说明本申请实施例提供的对象跟踪方法。

参见图4，图4是本申请实施例提供的对象跟踪装置的结构图，如图4所示，对象跟踪装置400包括：

输入模块401，用于将目标视频的每一图像帧依次输入到预先训练的多目标跟踪MOT模型，获得每一图像帧对应的目标对象的目标信息；

跟踪模块402，用于根据连续图像帧之间的所述目标信息对所述目标对象进行跟踪；

其中，所述MOT模型用于对第N个图像帧进行特征提取处理得到第一特征图，对所述第一特征图进行采样处理得到第二特征图，将所述第二特征图与目标特征图进行融合得到第三特征图，并对所述第三特征图进行回归处理得到所述目标信息；N为正整数，在N为1的情况下，所述目标特征图为空；在N大于1的情况下，目标特征图为所述多目标跟踪模型对第N-1个图像帧处理得到的所述第三特征图。

可选地，所述MOT模型包括卷积网络、特征提取网络、融合网络和跟踪头网络，其中，所述卷积网络用于对当前输入的第N个图像帧进行特征提取获得所述第一特征图，所述特征提取网络用于对所述第一特征图进行下采样和上采样处理得到所述第二特征图，所述融合网络用于将所述第二特征图与所述目标特征图进行融合处理得到所述第三特征图，所述跟踪头网络用于对所述第三特征图进行回归处理得到所述目标信息。

可选地，所述融合网络包括残差通道注意力网络和通道注意力网络，其中，所述残差通道注意力网络用于对所述第二特征图进行加权处理；所述通道注意力网络用于对所述目标特征图进行加权处理，并将对所述目标特征图进行加权处理的结果与所述残差通道注意力网络输出的结果进行融合得到所述第三特征图。

可选地，所述特征提取网络包括第一子卷积网络和依次串联的三个第二子卷积网络，其中，所述第一子卷积网络用于对所述第一特征图进行下采样获得第一采样结果，所述三个第二子卷积网络用于对输入的第一采样结果进行上采样处理得到所述第二特征图。

本申请实施例提供的对象跟踪装置能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。

需要说明的是，本申请实施例提供的MOT模型训练方法，执行主体可以为MOT模型训练装置，或者该MOT模型训练装置中的用于执行加载MOT模型训练方法的控制模块。本申请实施例中以MOT模型训练装置执行加载MOT模型训练方法为例，说明本申请实施例提供的MOT模型训练方法。

参见图5，图5是本申请实施例提供的MOT模型训练装置的结构图，如图5所示，MOT模型训练装置500包括：

第一训练模块501，用于将第一样本数据集以单个图像帧作为输入，对待训练多目标跟踪模型进行训练，得到预训练模型；

第二训练模块502，用于将第二样本数据集以连续的M个图像帧作为输入，对所述预训练模型进行训练，得到多目标跟踪模型；

本申请实施例提供的MOT模型训练装置能够实现图3的方法实施例中的各个过程，为避免重复，这里不再赘述。

本申请实施例中的对象跟踪装置或MOT模型训练装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的对象跟踪装置或MOT模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

可选的，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601，存储器602，存储在存储器602上并可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述对象跟踪方法或MOT模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括移动电子设备和非移动电子设备。

图7为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图x中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器710，用于执行以下操作：

将目标视频的每一图像帧依次输入到预先训练的多目标跟踪MOT模型，获得每一图像帧对应的目标对象的目标信息；

其中，所述MOT模型用于对第N个图像进行特征提取处理得到第一特征图，对所述第一特征图进行采样处理得到第二特征图，将所述第二特征图与目标特征图进行融合得到第三特征图，并对所述第三特征图进行回归处理得到所述目标信息；N为正整数，在N为1的情况下，所述目标特征图为空；在N大于1的情况下，目标特征图为所述多目标跟踪模型对第N-1个图像帧处理得到的所述第三特征图。

或者，处理器710，用于执行以下操作：

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述对象跟踪方法或MOT模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述对象跟踪方法或MOT模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种对象跟踪方法，其特征在于，包括：

其中，所述多目标跟踪模型用于对第N个图像帧进行特征提取处理得到第一特征图，对所述第一特征图进行采样处理得到第二特征图，将所述第二特征图与目标特征图进行融合得到第三特征图，并对所述第三特征图进行回归处理得到所述目标信息；N为正整数，在N为1的情况下，所述目标特征图为空；在N大于1的情况下，所述目标特征图为所述多目标跟踪模型对第N-1个图像帧处理得到的所述第三特征图。

2.根据权利要求1所述的方法，其特征在于，所述多目标跟踪模型包括卷积网络、特征提取网络、融合网络和跟踪头网络，其中，所述卷积网络用于对当前输入的第N个图像帧进行特征提取获得所述第一特征图，所述特征提取网络用于对所述第一特征图进行下采样和上采样处理得到所述第二特征图，所述融合网络用于将所述第二特征图与所述目标特征图进行融合处理得到所述第三特征图，所述跟踪头网络用于对所述第三特征图进行回归处理得到所述目标信息。

3.根据权利要求2所述的方法，其特征在于，所述融合网络包括残差通道注意力网络和通道注意力网络，其中，所述残差通道注意力网络用于对所述第二特征图进行加权处理；所述通道注意力网络用于对所述目标特征图进行加权处理，并将对所述目标特征图进行加权处理的结果与所述残差通道注意力网络输出的结果进行融合得到所述第三特征图。

4.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括第一子卷积网络和依次串联的三个第二子卷积网络，其中，所述第一子卷积网络用于对所述第一特征图进行下采样获得第一采样结果，所述三个第二子卷积网络用于对输入的第一采样结果进行上采样处理得到所述第二特征图。

5.一种多目标跟踪模型训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述预训练模型包括卷积网络、特征提取网络、融合网络和跟踪头网络，其中，所述卷积网络用于对当前输入的第m个图像帧进行特征提取获得所述第四特征图，所述特征提取网络用于对所述第四特征图进行下采样和上采样处理得到所述第五特征图，所述融合网络用于将所述第五特征图与所述待处理特征图进行融合处理得到所述第六特征图，所述跟踪头网络用于对所述第六特征图进行检测识别得到所述目标信息。

7.一种对象跟踪装置，其特征在于，包括：

8.一种多目标跟踪模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至4中任一项所述的对象跟踪方法的步骤，或者实现如权利要求5至6中任一项所述的多目标跟踪模型训练方法的步骤。

10.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至4中任一项所述的对象跟踪方法的步骤，或者实现如权利要求5至6中任一项所述的多目标跟踪模型训练方法的步骤。