CN110838133A

CN110838133A - 多目标跟踪方法及相关设备

Info

Publication number: CN110838133A
Application number: CN201910931119.3A
Authority: CN
Inventors: 丁旭; 胡文泽
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-02-25
Anticipated expiration: 2039-09-27
Also published as: US20220319020A1; CN110838133B; US11551364B2; WO2021057315A1

Abstract

本申请公开了一种多目标跟踪方法及相关设备，应用于电子设备，方法包括：在同一目标视频文件中获取包括N个跟踪目标的第一图像和第二图像，并获取第一图像的N个第一跟踪框，第一图像为第二图像的前预设帧图像，N个第一跟踪框用于框选第一图像中的N个跟踪目标；将第一图像与第二图像进行叠加合成，得到目标图像；将目标图像输入沙漏网络模型进行特征提取，输出目标特征图；将目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集；基于热力图、宽高数值集、细微偏差数值集、特征向量集和N个第一跟踪框，确定N个第二跟踪框，N个第二跟踪框用于框选第二图像中的N个跟踪目标。采用本申请实施例可提高跟踪精确度。

Description

多目标跟踪方法及相关设备

技术领域

本申请涉及电子技术领域，尤其涉及一种多目标跟踪方法及相关设备。

背景技术

目标跟踪是图像处理和视频处理领域的关键技术之一。目标跟踪用于识别视频或图像中的跟踪目标，广泛应用于智慧交通、人机交互及国防侦查等相关领域。目前对目标进行跟踪所使用的模型是CNN(深度学习)模型，而使用CNN模型仅利用第一帧的图像做卷积核，如果跟踪目标发生变化而卷积核不发生变化，会影响后续计算的准确度。

发明内容

本申请实施例提供一种多目标跟踪方法及相关设备，用于提升目标跟踪的准确度。

第一方面，本申请实施例提供一种多目标跟踪方法，应用于电子设备，包括：

在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的N个第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像均包括N个跟踪目标，所述N个第一跟踪框用于框选所述第一图像中的所述N个跟踪目标，所述N为大于1的整数；

将所述第一图像与所述第二图像进行叠加合成，得到目标图像；

将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；

将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集；

基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框，所述N个第二跟踪框用于框选所述第二图像中的所述N个跟踪目标。

第二方面，本申请实施例提供一种多目标跟踪的装置，，应用于电子设备，该装置包括：

信息获取单元，用于在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的N个第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像均包括N个跟踪目标，所述N个第一跟踪框用于框选所述第一图像中的所述N个跟踪目标，所述N为大于1的整数；

图像合成单元，用于将所述第一图像与所述第二图像进行叠加合成，得到目标图像；

特征提取单元，用于将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；

数据确定单元，用于将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集；

跟踪单元，用于基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框，所述N个第二跟踪框用于框选所述第二图像中的所述N个跟踪目标。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面所述的方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，在本申请实施例中，首先将第一图像和第二图像合成一个目标图像，第一图像和第二图像来自同一视频文件，第一图像为第二图像的前预设帧图像，然后将该目标图像输入沙漏网络模型得到目标特征图，再然后将目标特征图输入预测网络，得到热力图、宽高数值集、细微偏差数值集及特征向量集，最后基于热力图、宽高数值集、细微偏差数值集、特征向量集和第一跟踪框，确定第二跟踪框，第一跟踪框用于框选第一图像中的所述N个跟踪目标，第二跟踪框用于框选第二图像中的所述N个跟踪目标。可见，本申请是基于某一图像、该某一图像的前预设帧图像和该前预设帧图像关联的跟踪框联合进行目标跟踪，实现了随跟踪目标变化而变化的跟踪，进而提升目标跟踪的准确度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种多目标跟踪方法的流程示意图；

图1B是本申请实施例提供的一种沙漏网络模型的结构示意图；

图1C是本申请实施例提供的一种热力图的示意图；

图1D是本申请实施例提供的图示特征向量集的示意图。

图2A是本申请实施例提供的另一种多目标跟踪方法的流程示意图；

图2B是本申请实施例提供的一种多目标跟踪方法的示意图；

图3本申请实施例提供的一种电子设备的结构示意图；

图4本申请实施例提供的一种多目标跟踪装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。

电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(UserEquipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

如图1A所示，图1A是本申请实施例提供一种多目标跟踪方法，应用于上述电子设备，具体包括以下步骤：

步骤101：在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的N个第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像均包括N个跟踪目标，所述N个第一跟踪框用于框选所述第一图像中的所述N个跟踪目标，所述N为大于1的整数。

其中，所述获取所述第一图像的N个第一跟踪框，包括：获取所述N个第一跟踪框的第一宽度、所述N个第一跟踪框的第一高度、所述N个第一跟踪框的第一位置、所述N个第一跟踪框的第一中心点的特征向量。

其中，所述第一图像和第二图像的尺寸大小，即宽度和高度相同。第一图像和第二图像均为包括N个跟踪目标的图像，也就是说，第一图像和第二图像均显示有N个跟踪目标。例如，第一图像中显示4个跟踪目标，这4个跟踪目标为1、2、3和4，那么第二图像中同样显示有跟踪目标1、2、3和4。

其中，所述前预设帧图像例如是前一帧图像、前两帧图像、前4帧图像、前5帧图像等等。

其中，所述目标视频文件是对该跟踪目标跟拍的视频文件。该目标视频文件存储在电子设备中，或者该目标视频文件存储在云端等。

步骤102：将所述第一图像与所述第二图像进行叠加合成，得到目标图像。

步骤103：将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图。

其中，所述目标特征图包括N个跟踪目标的M个特征点，所述M为正整数。每个跟踪目标的特征点数量可相同也可不同，每个跟踪目标的特征点可为8个，10个，13个，18个等其他值，所述特征点用于标记所述跟踪目标的不同位置。例如，假设跟踪目标为人，特征点可以是人的关节点。

步骤104：将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集。

步骤105：基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框，所述N个第二跟踪框用于框选所述第二图像中的所述N个跟踪目标。

在本申请的一实现方式中，在步骤205之后，所述方法还包括：电子设备在所述第二图像上显示所述N个第二跟踪框。

其中，第一跟踪框和第二跟踪框的形状相同，第一跟踪框和第二跟踪框的形状可以是长方形，正方形，菱形，圆形等其他形状。

其中，所述第一图像的宽度大于所述N个第一跟踪框的宽度，所述第一图像的高度大于所述N个第一跟踪框的高度；所述第二图像的宽度大于所述N个第二跟踪框的宽度，所述第二图像的高度大于所述N个第二跟踪框的高度。

其中，所述N个第一跟踪框中相邻的两个第一跟踪框可以存在重叠部分，所述N个第二跟踪框中相邻的两个第二跟踪框可以存在重叠部分，。

在本申请的一实现方式中，所述将所述第一图像与所述第二图像进行叠加合成，得到目标图像，包括：

确定所述第一图像的第一颜色通道，以及所述第二图像的第二颜色通道；

通过对所述第一颜色通道和所述第二颜色通道进行叠加，以合成目标图像。

其中，电子设备确定第一颜色通道和第二颜色通道可以是并行确定的，也可以是串行确定的，在此不作限定。

具体地，第一图像和第二图像均是由红色通道、绿色通道和蓝色通道组成的。电子设备对第一图像进行图像处理，以得到第一图像的第一颜色通道(即得到第一图像的红色通道、第一图像的绿色通道和第一图像的蓝色通道)。电子设备对第二图像进行图像处理，以得到第二图像的第二颜色通道(即得到第二图像的红色通道、第二图像的绿色通道和第二图像的蓝色通道)。电子设备将第一图像的红色通道和第二图像的红色通道进行合并，将第一图像的绿色通道和第二图像的绿色通道进行合并，将第一图像的蓝色通道和第二图像的蓝色通道进行合并，得到具有两个红色通道，两个绿色通道和两个蓝色通道的目标图像。

可以看出，在本申请实施例中，通过将两张图像合并为一张多颜色通道的图像，可降低在沙漏模型中的计算量和所需的计算资源，进而提升计算效率。

在本申请的一实现方式中，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

每经过一个所述沙漏网络均进行第一处理，在所述第一处理中：将输入图像通过沙漏网络的多个第一卷积块进行下采样，输出第一特征图；将所述第一特征图通过沙漏网络的多个第二卷积块进行上采样，输出第二特征图；将所述第二特征图与所述输入图像进行叠加，输出第三特征图。

其中，所述第一卷积块为第一卷积神经网络，所述第二卷积块为第二卷积神经网络，所述第一卷积神经网络和所述第二卷积神经网络的作用不同。

其中，沙漏网络模型可以由2个，4个、5个，7个或其他数量的沙漏网络依次排列构成。沙漏网络模型的结构示意图如图1B所示。在沙漏网络模型由2个沙漏网络组成的情况下，一方面可以保证计算的准确性，另一方面可以提高计算的速度。

其中，沙漏网络模型中的第一个沙漏网络的输入图像为所述目标图像，沙漏网络模型中的最后一个沙漏网络输出的特征图为所述目标特征图。

其中，如图1B所示，每个沙漏网络均为一个对称网络，每个沙漏网络能够进行下采样与上采样，下采样在前，上采样在后，每个沙漏网络进行上采样和进行下采样的次数是相同的，如4次，6次，7次等其他值。下采样采用的技术为最近邻插值，用于降低图像分辨率。上采样采用的技术为最大池化或平均池化，用于提升图片分辨率。

在本申请实施例中，沙漏网络a不是在沙漏网络模型中排列的第一个沙漏网络，沙漏网络a第一次进行下采样的输入图像为图像1(图像1是沙漏网络b的输入图像和沙漏网络b的输出图像合成得到的，在沙漏网络模型中，沙漏网络a与沙漏网络b相邻，且位于沙漏网络b之后)，沙漏网络a下一次进行下采样的输入图像为前一次下采样的输出图像，沙漏网络a下一次进行下采样的输出图像的分辨率在该下一次进行下采样的输入图像的分辨率的基础上缩小一倍，沙漏网络a第一次进行上采样的输入图像为沙漏网络a最后一次进行下采样的输出图像，沙漏网络a下一次进行上采样的输入图像为前一次进行上采样的输出图像和对称的下采样的输出图像的叠加合并，沙漏网络a下一次进行上采样的输出图像的分辨率在该下一次进行上采样的输入图像的分辨率基础上扩大一倍。

沙漏网络模型中的第一个沙漏网络第一次进行下采样的输入图像为目标图像，沙漏网络模型中的第一个沙漏网络进行上采样和进行下采样的具体实现方式与沙漏网络a相同，具体详见上述内容，在此不再叙述。

举例来说，假设沙漏网络a的上采样和下采样的次数均为4次，图像1为6*128*128，所述6为通道数，128*128为图像1的分辨率，采用邻近插值法执行第一次下采样后输出分辨率为6*64*64的图像2，对图像2执行第二次下采样后输出分辨率为6*32*32的图像3，对图像3执行第三次下采样后输出分辨率为6*16*16的图像4，对图像4执行第四次下采样后输出分辨率为6*8*8的图像5，当完成4次下采样后，对图像5采用平均池化进行上采样，执行第一次上采样后输出分辨率为6*16*16的图像6，将图像6与第三次下采样输出的图像4合并作为第二次上采样的输入，执行第二次上采样输出分辨率为6*32*32图像7，将图像7与图像3合并作为第三次上采样的输入，执行第三次上采样输出分辨率为6*64*64的图像8，最后将图像8与图像2合并作为第四次上采样的输入，执行第四次上采样输出分辨率为6*128*128的图像9。

可以看出，在本申请实施例中，通过每个沙漏网络均进行多次下采样与多次上采样，这样能提取到目标图像中不同区域的特征，且能保留目标图像中特征点之间的空间关系，可提升识别跟踪目标图像的概率。

在本申请的一实现方式中，所述预测网络包括热力图分支、宽高分支、细微偏差分支和特征向量分支；所述将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集，包括：

将所述目标特征图输入到所述热力图分支，以输出热力图，以及将所述目标特征图输入到所述宽高分支，以输出宽高数值集，以及将所述目标特征图输入到所述细微偏差分支，以输出细微偏差数值集；

将所述热力图和所述细微偏差数值集输入所述特征向量分支，以输出特征向量集。

其中，所述将所述目标特征图输入到所述宽高分支，以输出宽高数值集，包括：将所述目标特征图、所述N个第一跟踪框的第一宽度和所述N个第一跟踪框的第一高度输入到所述宽高分支，以输出宽高数值集。

其中，所述将所述热力图和所述细微偏差数值集输入所述特征向量分支，以输出特征向量集，包括：将所述热力图、所述细微偏差数值集和所述N个第一跟踪框的第一中心点的特征向量输入所述特征向量分支，以输出特征向量集。

其中，电子设备将所述目标特征图输入所述热力图分支，将所述目标特征图输入所述宽高分支及将所述目标特征图输入所述细微偏差分支是并行执行的。

其中，热力图分支是电子设备采用第一公式对第三卷积块训练得到的。

第一公式为：

其中，所述H为目标特征图的高；所述W为目标特征图的宽；所述P_ij为位置在(i,j)的特征点为目标特征点的概率；所述y_ij为所述第一图像中位置(i,j)的特征点的标记值，在计算位置(i,j)处的特征点为目标特征点的概率时，所述标记值用于表示其对应的特征点出现计算误差的可能性，所述标记值越大表示出现计算误差的可能性越大，所述标记值越小表示出现计算误差的可能性越小，该标记值是电子设备在对第三卷积块进行训练时设定的，所述α、所述β是固定值，不同情况下，所述α和所述β的值可以是不同的。

其中，热力图如图1C所示，图1C中的点表示特征点，图1C中的左边的纵坐标表示概率，图1C中的横坐标和右边的纵坐标联合表示特征点的位置。

其中，宽高分支是电子设备采用第二公式对第四卷积块训练得到的。

第二公式为：L₂＝|f(x)-Y|²

所述f(x)和Y均为宽度或高度，L₂为宽度差的平方或高度差的平方。

其中，宽高数值集包括宽度与宽度差的平方的对应关系和高度与高度差的平方的对应关系，具体如表1所示。

表1

其中，细微偏差分支是电子设备采用第三公式对第五卷积块训练得到的。

第三公式：

其中，所述M为所述目标特征图包括的特征点的数量，o_k为偏移量。

其中，所述第三卷积块为第三卷积神经网络，所述第四卷积块为第四卷积神经网络。所述第五卷积块为第五卷积神经网络。所述第三卷积神经网络、所述第四卷积神经网络和第五卷积神经网络的作用互不相同。

其中，细微偏差数值集包括坐标值与偏移量的对应关系，具体如表2所示。

表2

坐标值	偏移量
		01	0.01
02	0.03
		03	0.01
……	……

需要说明的是，在确定目标特征点相对于在目标特征图中的位置在横轴上的偏差时，表2中的坐标值表示横坐标值；在确定目标特征点相对于在目标特征图中的位置在纵轴上的偏差时，表2中的坐标值表示纵坐标值。

其中，特征向量分支包括第一分支、第二分支和第三分支，所述第一分支是电子设备采用第四公式对第六卷积块训练得到的，第二分支是电子设备采用第五公式对第七卷积块训练得到的，第三分支是电子设备采用第六公式训练对第八卷积块训练得到的。

其中，所述第六卷积块为第六卷积神经网络，所述第七卷积块为第七卷积神经网络。所述第八卷积块为第八卷积神经网络。所述第六卷积神经网络、所述第七卷积神经网络和第八卷积神经网络的作用互不相同。

所述第四公式：

其中，所述

为任意一个第一跟踪框的第一中心点的特征向量，所述

为所述任意一个第一跟踪框对应的第二跟踪框的第二中心点的特征向量，所述e_k为所述任意一个第一跟踪框的第一中心点的特征向量与其对应的第二跟踪框的第二中心点的特征向量的均值。

所述第五公式：

其中，所述e_k为所述N个第一跟踪框中其中一个第一跟踪框的第一中心点的特征向量，与所述其中一个第一跟踪框对应的第二跟踪框的第二中心点的特征向量的均值；所述e_j为所述N个第一跟踪框中另一个第一跟踪框的第一中心点的特征向量与所述另一个第一跟踪框对应的第二跟踪框的第二中心点的特征向量的均值。所述Δ＝1。

所述第六公式：

d₁₂＝||x₁-x₂||

所述x₁为第一中心点的特征向量，所述x₂为第二中心点的特征向量。

其中，特征向量集包括N个第二跟踪框的第二中心点的特征向量，具体如表3所示。

表3

第二中心点	特征向量
		(a1,b1)	c1
(a2,b2)	3c2
		(a3,b3)	1.5c3
……	……

其中，第二中心点(a1,b1)对应的特征向量为c1、第二中心点(a2,b2)对应的特征向量为3c2，第二中心点(a3,b3)对应的特征向量为1.5c3，c1，c2及c3均为基础解系，可相同也可不同。

可以看出，在本申请实施例中，由于将目标特征图输入三个分支是并行执行的，降低了卷积操作所需的时间，进而提升计算效率。

在本申请的一实现方式中，所述基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框，包括：

基于所述热力图、所述细微偏差数值集、所述特征向量集和N个第一中心点的第一位置，确定N个第二中心点的第二位置，所述N个第一中心点为所述N个第一跟踪框的中心点，所述N个第二中心点为所述N个第二跟踪框的中心点，所述N个第一位置与N个第二位置一一对应；

基于所述宽高数值集、所述N个第一跟踪框的第一高度和所述N个第一跟踪框的第一宽度，确定所述N个第二跟踪框的第二高度和所述N个第二跟踪框的第二宽度，所述N个第二跟踪框的第二高度和所述N个第一跟踪框的第一高度一一对应，所述N个第二跟踪框的第二宽度和所述N个第一跟踪框的第一宽度一一对应。

具体地，第一高度是已知的，通过表1即可得到第一高度对应的高度差的平方，然后再基于第二公式即可计算得到第二高度。举例来说，假设第一高度为C，第一高度对应的高度差的平方为c，那么

第一宽度是已知的，通过表1即可得到第一宽度对应的宽度差的平方，然后再基于第二公式即可计算得到第二宽度。举例来说，假设第一宽度为D，第一宽度对应的宽度差的平方为d，那么

在本申请的一实现方式中，所述目标特征图包括M个特征点，M为正整数；电子设备基于所述热力图、所述细微偏差数值集、所述特征向量集和N个第一中心点的第一位置，确定N个第二中心点的第二位置，包括：

基于所述热力图确定N个目标特征点在所述目标特征图中的第三位置，以及基于所述细微偏差数值集确定所述N个目标特征点的偏移量，所述N个目标特征点与所述N个第一中心点和所述N个第二中心点一一对应，所述目标特征点为其对应的所述第一中心点与其对应的所述第二中心点连线的中点，所述M个特征点包括所述N个目标特征点，所述偏移量用于表示其对应的所述目标特征点相对于在所述目标特征图中的位置的偏移；

基于所述N个第一位置和确定的N个第三位置确定第一映射关系，所述第一映射关系用于表示每个所述第一中心点对应的至少一个所述目标特征点；

基于所述特征向量集、所述N个第一位置、所述第一映射关系、确定的N个偏移量和所述N个第三位置，确定N个第二中心点的第二位置。

具体地，通过所述热力图，可得到所述M个特征点中每个特征点为目标特征点的概率，然后将M个特征点中前N个概率较大的N个特征点作为目标特征点，进而可得到N个目标特征点的第一位置。例如，如图1C所示，特征点1，特征点2及特征点3是图1C中显示的所有特征点中对应的3个概率较大的特征点，在热力图为图1C的情况下，目标特征点为特征点1、特征点2及特征点3。

通过所述细微偏差数据集，可得到目标特征点相对于在目标特征图中的位置在横轴上的偏移量和目标特征点相对于在目标特征图中的位置在纵轴上的偏移量。例如，假设图1C中的特征点1为目标特征点，假如特征点1在图1C中的坐标为(50,300)，那么通过表2可知，特征点1相对于在目标特征图中的位置在横轴上的偏移量，以及特征点1相对于在目标特征图中的位置在纵轴上的偏移量。

由于将目标特征图转换为热力图之后，目标特征点有细微的偏差，在知道偏移量之后，通过偏移量和目标特征点的第一位置即可得到目标特征点在目标特征图中的具体位置。例如，假设图1C中的特征点1为目标特征点，特征点1在图1C中的坐标为(50,300)，特征点1相对于在目标特征图中的位置在横轴上的偏移量为0.02，特征点1相对于在目标特征图中的位置在纵轴上的偏移量为0.1，那么特征点1在目标特征图中的具体位置为(50.02,300.1)。

通过所述特征向量集，可确定N个第二中心点的位置。例如在图1D中，A1、A2为第一中心点，C1、C2为目标特征点，由于C1、C2之间距离很近，导致不能准确地判断A1、A2分别与C1、C2之间的对应关系，因此会出现如下两种情况：通过A1和C1确定第二中心点B1，通过A2与C2确定第二中心点B2；通过A1和C2确定第二中心点B3，通过A2与C1确定第二中心点B4。假设通过A1和C1确定第二中心点B1，通过A2与C2确定第二中心点B2，首先采用第四公式将A1与B1之间的距离拉近，然后第五公式将A1与B2之间的距离拉远，最后计算A1与B1之间的距离A1B1；假设通过A1和C2确定第二中心点B3，通过A2与C1确定第二中心点B4，首先采用第四公式将A1与B3之间的距离拉近，然后第五公式将A1与B4之间的距离拉远，最后计算A1与B3之间的距离A1B3。随后比较距离A1B1与A1B3，若A1B1<A1B3，确定B1为与A1对应的第二中心点，B2为与A2对应的第二中心点；若A1B1>A1B3，确定B3为与A1对应的第二中心点，B4为与A2对应的第二中心点。

可以看出，在本申请实施例中，通过细微偏差调整目标特征点的位置偏移，可提升跟踪的精确度。

需要说明的是，本申请实施例提供的图1B-图1D仅用于举例，并不构成对本申请实施例的限定。

与所述图1A所示的实施例一致的，请参阅图2A，图2A是本申请实施例提供的另一种多目标跟踪的方法的流程示意图，应用于上述电子设备，具体包括以下步骤：

步骤201：电子设备在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的N个第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像均包括N个跟踪目标，所述N个第一跟踪框用于框选所述第一图像中的所述N个跟踪目标，所述N为大于1的整数。

步骤202：电子设备确定所述第一图像的第一颜色通道，以及所述第二图像的第二颜色通道。

步骤203：电子设备通过对所述第一颜色通道和所述第二颜色通道进行叠加，以合成目标图像。

步骤204：电子设备将所述目标图像输入所述沙漏模型进行特征提取，输出目标特征图，其中，所述目标特征图包括M个特征点，M为正整数。

步骤205：电子设备将所述目标特征图输入到所述热力图分支，以输出热力图，以及将所述目标特征图输入到所述宽高分支，以输出宽高数值集，以及将所述目标特征图输入到所述细微偏差分支，以输出细微偏差数值集。

步骤206：电子设备将所述热力图和所述细微偏差数值集输入特征向量分支，以输出特征向量集。

步骤207：电子设备基于所述热力图确定N个目标特征点在所述目标特征图中的第三位置，以及基于所述细微偏差数值集确定所述N个目标特征点的偏移量，所述N个目标特征点与所述N个第一中心点和所述N个第二中心点一一对应，所述目标特征点为其对应的所述第一中心点与其对应的所述第二中心点连线的中点，所述M个特征点包括所述N个目标特征点，所述偏移量用于表示其对应的所述目标特征点相对于在所述目标特征图中的位置的偏移；

步骤208：电子设备基于所述N个第一位置和确定的N个第三位置确定第一映射关系，所述第一映射关系用于表示每个所述第一中心点对应的至少一个所述目标特征点，其中所述N个第一位置和N个第一中心点一一对应。

步骤209：电子设备基于所述特征向量集、所述N个第一位置、所述第一映射关系、确定的N个偏移量和所述N个第三位置，确定N个第二中心点的第二位置。

步骤210：电子设备基于所述宽高数值集、所述N个第一跟踪框的第一高度和所述N个第一跟踪框的第一宽度，确定所述N个第二跟踪框的第二高度和所述N个第二跟踪框的第二宽度，所述N个第二跟踪框的第二高度和所述N个第一跟踪框的第一高度一一对应，所述N个第二跟踪框的第二宽度和所述N个第一跟踪框的第一宽度一一对应。

举例来说，如图2B所示，将两张包括跟踪目标S和跟踪目标P的图像进行图像合成得到目标图像，然后将目标图像输入沙漏网络模型，通过沙漏网络模型之后输出目标特征图，再然后将目标特征图分别输入预测网络的热力图分支、宽高分支和细微偏差分支，通过这3个分支之后，分别输出热力图、宽高数值集和细微偏数值集，再然后将热力图和细微偏差分支输入特征向量分支，输出特征量量集，再然后基于第一跟踪框、热力图、宽高数值集、细微偏数值集及特征向量集确定第二跟踪框，最后通过第二跟踪框框选跟踪目标S，以实现对目标的跟踪。

需要说明的是，本实施例的具体实现过程可参见上述方法实施例所述的具体实现过程，在此不再叙述。

与上述图1A和图2A所示的实施例一致的，请参阅图3，图3是本申请实施例提供的一种电子设备的结构示意图，如图所示，该电子设备包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

在本申请的一实现方式中，在所述预测网络包括热力图分支、宽高分支和细微偏差分支；在将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集方面，上述程序包括用于执行以下步骤指令：

将所述热力图和所述细微偏差数值集输入特征向量分支，以输出特征向量集。

在本申请的一实现方式中，在基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框方面，上述程序包括用于执行以下步骤指令：

在本申请的一实现方式中，所述目标特征图包括M个特征点，M为正整数；在所述基于所述热力图、所述细微偏差数值集、所述特征向量集和N个第一中心点的第一位置，确定N个第二中心点的第二位置方面，上述程序包括用于执行以下步骤指令：

在本申请的一实现方式中，在将第一图像与第二图像进行叠加合成得到目标图像方面，上述程序包括用于执行以下步骤指令：

请参阅图4，图4是本申请实施例提供的一种多目标跟踪装置，应用于上述电子设备，该装置包括：

信息获取单元401，用于在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的N个第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像均包括N个跟踪目标，所述N个第一跟踪框用于框选所述第一图像中的所述N个跟踪目标，所述N为大于1的整数；

图像合成单元402，用于将所述第一图像与所述第二图像进行叠加合成，得到目标图像；

特征提取单元403，用于将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；

数据确定单元404，用于将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集；

跟踪单元405，用于基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框，所述N个第二跟踪框用于框选所述第二图像中的所述N个跟踪目标。

在本申请的一实现方式中，所述预测网络包括热力图分支、宽高分支和细微偏差分支；在所述将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集方面，所述数据确定单元404具体用于：

在本申请的一实现方式中，在所述基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框方面，所述跟踪单元405具体用于：

在本申请的一实现方式中，所述目标特征图包括M个特征点，M为正整数；在所述基于所述热力图、所述细微偏差数值集、所述特征向量集和N个第一中心点的第一位置，确定N个第二中心点的第二位置方面，所述跟踪单元405具体用于：

在本申请的一实现方式中，在将第一图像与第二图像进行叠加合成，得到目标图像方面，所述图像合成单元401具体用于：

需要说明的是，信息获取单元401、图像合成单元402、特征提取单元403、数据确定单元404和跟踪单元405可通过处理器实现。

本申请实施例还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如上述方法实施例中电子设备所描述的部分或全部步骤。

本申请实施例还提供了一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法中电子设备所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请实施例所描述的方法或者算法的步骤可以以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read OnlyMemory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然，处理器和存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(DigitalVideo Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种多目标跟踪方法，其特征在于，应用于电子设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预测网络包括热力图分支、宽高分支和、细微偏差分支和特征向量分支；所述将所述目标特征图输入到预测网络，以输出热力图、宽高数值集、细微偏差数值集和特征向量集，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述热力图、所述宽高数值集、所述细微偏差数值集、所述特征向量集和所述N个第一跟踪框，确定N个第二跟踪框，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标特征图包括M个特征点，M为正整数；所述基于所述热力图、所述细微偏差数值集、所述特征向量集和N个第一中心点的第一位置，确定N个第二中心点的第二位置，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述第一图像与所述第二图像进行叠加合成，得到目标图像，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

7.一种多目标跟踪装置，其特征在于，应用于电子设备，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理执行如权利要求1-6任意一项所述的方法。