CN110827314B

CN110827314B - 单目标跟踪方法及相关设备

Info

Publication number: CN110827314B
Application number: CN201910932086.4A
Authority: CN
Inventors: 丁旭; 胡文泽
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-10-23
Anticipated expiration: 2039-09-27
Also published as: CN110827314A

Abstract

本申请公开了一种单目标跟踪方法及相关设备，应用于电子设备，方法包括：在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的第一跟踪框，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像包括同一跟踪目标，所述第一跟踪框用于框选所述第一图像中的所述跟踪目标；将所述第一图像与所述第二图像进行叠加合成，得到目标图像；将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标。采用本申请实施例可提升目标跟踪的准确度。

Description

单目标跟踪方法及相关设备

技术领域

本申请涉及电子技术领域，尤其涉及一种单目标跟踪方法及相关设备。

背景技术

目标跟踪是图像处理和视频处理领域的关键技术之一。目标跟踪用于识别视频或图像中的跟踪目标，广泛应用于智慧交通、人机交互及国防侦查等相关领域。目前对目标进行跟踪所使用的模型是CNN(深度学习)模型，而使用CNN模型仅利用第一帧的图像做卷积核，如果跟踪目标发生变化而卷积核不发生变化，会影响后续计算的准确度。

发明内容

本申请实施例提供一种单目标跟踪方法及相关设备，用于提升目标跟踪的准确度。

第一方面，本申请实施例提供一种单目标跟踪方法，应用于电子设备，所述方法包括：

在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像包括同一跟踪目标，所述第一跟踪框用于框选所述第一图像中的所述跟踪目标；

将所述第一图像与所述第二图像进行叠加合成，得到目标图像；

将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；

将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集；

基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标。

第二方面，本申请实施例提供一种单目标跟踪的装置，该装置包括：

信息获取单元，用于在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像包括同一跟踪目标，所述第一跟踪框用于框选所述第一图像中的所述跟踪目标；

图像合成单元，用于将所述第一图像与所述第二图像进行叠加合成，得到目标图像；

特征提取单元，用于将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；

数据确定单元，用于将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集；

跟踪单元，用于基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面所述的方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，在本申请实施例中，首先将第一图像和第二图像合成一个目标图像，第一图像和第二图像来自同一视频文件，第一图像为第二图像的前预设帧图像，然后将该目标图像输入沙漏网络模型得到目标特征图，再然后将目标特征图输入预测网络，得到热力图、宽高数值集和细微偏差数值集，最后基于热力图、宽高数值集、细微偏差数值集和第一跟踪框，确定第二跟踪框，第一跟踪框用于框选第一图像中的所述跟踪目标，第二跟踪框用于框选第二图像中的所述跟踪目标。可见，本申请是基于某一图像、该某一图像的前预设帧图像和该前预设帧图像关联的跟踪框联合进行目标跟踪，实现了随跟踪目标变化而变化的跟踪，进而提升目标跟踪的准确度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的结构示意图；

图2A是本申请实施例提供的一种单目标跟踪方法的流程示意图；

图2B是本申请实施例提供的一种沙漏网络模型的结构示意图；

图2C是本申请实施例提供的一种热力图的示意图；

图3A是本申请实施例提供的另一种单目标跟踪方法的流程示意图；

图3B是本申请实施例提供的一种单目标跟踪方法的示意图；

图4本申请实施例提供的另一种电子设备的结构示意图；

图5本申请实施例提供的一种单目标跟踪装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

以下分别进行详细说明。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(UserEquipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

如图1所示，图1是本申请实施例提供的一种电子设备的结构示意图。该电子设备包括处理器、存储器、显示屏、随机存取存储器(Random Access Memory，RAM)和摄像头。其中，存储器、显示屏、RAM和摄像头均与处理器连接。

进一步地，电子设备还包括信号通信接口、信号处理器、扬声器、麦克风和传感器，信号处理器、扬声器、麦克风和传感器均与处理器连接，通信接口与信号处理器连接。

其中，显示屏可以是液晶显示器(Liquid Crystal Display，LCD)、有机或无机发光二极管(Organic Light-Emitting Diode，OLED)、有源矩阵有机发光二极体面板(ActiveMatrix/Organic Light Emitting Diode，AMOLED)等。

其中，该摄像头可以是普通摄像头、也可以是红外摄像，在此不作限定。该摄像头可以是前置摄像头或后置摄像头，在此不作限定。

其中，传感器包括以下至少一种：光感传感器、陀螺仪、红外接近传感器、指纹传感器、压力传感器等等。其中，光感传感器，也称为环境光传感器，用于检测环境光亮度。光线传感器可以包括光敏元件和模数转换器。其中，光敏元件用于将采集的光信号转换为电信号，模数转换器用于将上述电信号转换为数字信号。可选的，光线传感器还可以包括信号放大器，信号放大器可以将光敏元件转换的电信号进行放大后输出至模数转换器。上述光敏元件可以包括光电二极管、光电三极管、光敏电阻、硅光电池中的至少一种。

其中，处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器内的软体程序和/或模块，以及调用存储在存储器内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

其中，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

其中，存储器用于存储软体程序和/或模块，处理器通过运行存储在存储器的软件程序和/或模块，从而执行电子设备的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的软体程序等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

下面对本申请实施例进行详细介绍。

如图2A所示，图2A是本申请实施例提供一种单目标跟踪方法，应用于上述电子设备，具体包括以下步骤：

步骤201：电子设备在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像包括同一跟踪目标，所述第一跟踪框用于框选所述第一图像中的所述跟踪目标。

其中，所述获取所述第一图像的第一跟踪框，包括：获取所述第一跟踪框的第一宽度、所述第一跟踪框的第一高度和所述N个第一跟踪框的第一位置。

其中，所述第一图像和第二图像的尺寸大小，即宽度和高度相同。第一图像和第二图像均为包括跟踪目标的图像，也就是说，第一图像和第二图像均显示有跟踪目标。

其中，所述前预设帧图像例如是前一帧图像、前两帧图像、前4帧图像、前5帧图像等等。

其中，所述目标视频文件是对该跟踪目标跟拍的视频文件。该目标视频文件存储在电子设备中，或者该目标视频文件存储中云端等。

步骤202：电子设备将所述第一图像与所述第二图像进行叠加合成，得到目标图像。

步骤203：电子设备将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图。

其中，所述目标特征图包括跟踪目标的M个特征点，所述M为正整数，所述特征点用于标识所述跟踪目标的不同位置。例如，假设跟踪目标为人，M个特征点可以是人的多个关节点。又例如，假设跟踪目标为植物，M个特征点可以是植物上不同位置的点。

步骤204：电子设备将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集。

步骤205:电子设备基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标。

在本申请的一实现方式中，在步骤205之后，所述方法还包括：电子设备在所述第二图像上显示所述第二跟踪框。

其中，第一跟踪框和第二跟踪框的形状相同，第一跟踪框和第二跟踪框的形状例如可以是长方形、正方形、圆形、椭圆形或是其他形状。

其中，所述第一图像的宽度大于所述第一跟踪框的宽度，所述第一图像的高度大于所述第一跟踪框的高度；所述第二图像的宽度大于所述第二跟踪框的宽度，所述第二图像的高度大于所述第二跟踪框的高度。

在本申请的一实现方式中，电子设备将所述第一图像与所述第二图像进行叠加合成，得到目标图像，包括：

电子设备确定所述第一图像的第一颜色通道，以及所述第二图像的第二颜色通道；电子设备通过对所述第一颜色通道和所述第二颜色通道进行叠加，以合成目标图像。

其中，电子设备确定第一颜色通道和第二颜色通道可以是并行确定的，也可以是串行确定的，在此不作限定。

具体地，第一图像和第二图像均是由红色通道、绿色通道和蓝色通道组成的。电子设备对第一图像进行图像处理，以得到第一图像的第一颜色通道(即得到第一图像的红色通道、第一图像的绿色通道和第一图像的蓝色通道)。电子设备对第二图像进行图像处理，以得到第二图像的第二颜色通道(即得到第二图像的红色通道、第二图像的绿色通道和第二图像的蓝色通道)。电子设备将第一图像的红色通道和第二图像的红色通道进行合并，将第一图像的绿色通道和第二图像的绿色通道进行合并，将第一图像的蓝色通道和第二图像的蓝色通道进行合并，得到具有两个红色通道，两个绿色通道和两个蓝色通道的目标图像。

可以看出，在本申请实施例中，通过将两张图像合并为一张多颜色通道的图像，可降低在沙漏模型中的计算量和所需的计算资源，进而提升计算效率。

在本申请的一实现方式中，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

每经过一个所述沙漏网络均进行第一处理，在所述第一处理中：将输入图像通过沙漏网络的多个第一卷积块进行下采样，输出第一特征图；将所述第一特征图通过沙漏网络的多个第二卷积块进行上采样，输出第二特征图；将所述第二特征图与所述输入图像进行叠加，输出第三特征图。

其中，所述第一卷积块为第一卷积神经网络，所述第二卷积块为第二卷积神经网络，所述第一卷积神经网络和所述第二卷积神经网络的作用不同。

其中，沙漏网络模型可以由2个，4个、5个，7个或其他数量的沙漏网络依次排列构成。沙漏网络模型的结构示意图如图2B所示。在沙漏网络模型由2个沙漏网络组成的情况下，一方面可以保证计算的准确性，另一方面可以提高计算的速度。

其中，沙漏网络模型中的第一个沙漏网络的输入图像为所述目标图像，沙漏网络模型中的最后一个沙漏网络输出的特征图为所述目标特征图。

其中，如图2B所示，每个沙漏网络均为一个对称网络，每个沙漏网络能够进行下采样与上采样，下采样在前，上采样在后，每个沙漏网络进行上采样和进行下采样的次数是相同的，如4次，6次，7次等其他值。下采样采用的技术为最近邻插值，用于降低图像分辨率。上采样采用的技术为最大池化或平均池化，用于提升图片分辨率。

在本申请实施例中，沙漏网络a不是在沙漏网络模型中排列的第一个沙漏网络，沙漏网络a第一次进行下采样的输入图像为图像1(图像1是沙漏网络b的输入图像和沙漏网络b的输出图像合成得到的，在沙漏网络模型中，沙漏网络a与沙漏网络b相邻，且位于沙漏网络b之后)，沙漏网络a下一次进行下采样的输入图像为前一次下采样的输出图像，沙漏网络a下一次进行下采样的输出图像的分辨率在该下一次进行下采样的输入图像的分辨率的基础上缩小一倍，沙漏网络a第一次进行上采样的输入图像为沙漏网络a最后一次进行下采样的输出图像，沙漏网络a下一次进行上采样的输入图像为前一次进行上采样的输出图像和对称的下采样的输出图像的叠加合并，沙漏网络a下一次进行上采样的输出图像的分辨率在该下一次进行上采样的输入图像的分辨率基础上扩大一倍。

沙漏网络模型中的第一个沙漏网络第一次进行下采样的输入图像为目标图像，沙漏网络模型中的第一个沙漏网络进行上采样和进行下采样的具体实现方式与沙漏网络a相同，具体详见上述内容，在此不再叙述。

举例来说，假设沙漏网络a的上采样和下采样的次数均为4次，图像1为6*128*128，所述6为通道数，128*128为图像1的分辨率，采用邻近插值法执行第一次下采样后输出分辨率为6*64*64的图像2，对图像2执行第二次下采样后输出分辨率为6*32*32的图像3，对图像3执行第三次下采样后输出分辨率为6*16*16的图像4，对图像4执行第四次下采样后输出分辨率为6*8*8的图像5，当完成4次下采样后，对图像5采用平均池化进行上采样，执行第一次上采样后输出分辨率为6*16*16的图像6，将图像6与第三次下采样输出的图像4合并作为第二次上采样的输入，执行第二次上采样输出分辨率为6*32*32图像7，将图像7与图像3合并作为第三次上采样的输入，执行第三次上采样输出分辨率为6*64*64的图像8，最后将图像8与图像2合并作为第四次上采样的输入，执行第四次上采样输出分辨率为6*128*128的图像9。

可以看出，在本申请实施例中，通过每个沙漏网络均进行多次下采样与多次上采样，这样能提取到目标图像中不同区域的特征，且能保留目标图像中特征点之间的空间关系，可提升识别跟踪目标图像的概率。

在本申请的一实现方式中，所述预测网络包括热力图分支、宽高分支和细微偏差分支，电子设备将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集，包括：

电子设备将所述目标特征图输入到所述热力图分支，以输出热力图，以及将所述目标特征图输入到所述宽高分支，以输出宽高数值集，以及将所述目标特征图输入到所述细微偏差分支，以输出细微偏差数值集。

其中，所述将所述目标特征图输入到所述宽高分支，以输出宽高数值集，包括：将所述目标特征图、所述第一跟踪框的第一宽度和所述第一跟踪框的第一高度输入到所述宽高分支，以输出宽高数值集。

其中，电子设备将所述目标特征图输入所述热力图分支，将所述目标特征图输入所述宽高分支及将所述目标特征图输入所述细微偏差分支是并行执行的。

其中，热力图分支是电子设备采用第一公式对第三卷积块训练得到的。

第一公式为：

其中，所述H为目标特征图的高；所述W为目标特征图的宽；所述P_ij为位置在(i,j)的特征点为目标特征点的概率；所述y_ij为所述第一图像中位置(i,j)的特征点的标记值，在计算位置(i,j)处的特征点为目标特征点的概率时，所述标记值用于表示其对应的特征点出现计算误差的可能性，所述标记值越大表示出现计算误差的可能性越大，所述标记值越小表示出现计算误差的可能性越小，该标记值是电子设备在对第三卷积块进行训练时设定的，所述α、所述β是固定值，不同情况下，所述α和所述β的值可以是不同的。

其中，热力图如图2C所示，图2C中的点表示特征点，图2C中的左边的纵坐标表示概率，图2C中的横坐标和右边的纵坐标联合表示特征点的位置。

其中，宽高分支是电子设备采用第二公式对第四卷积块训练得到的。

第二公式为：L₂＝|f(x)-Y|²

所述f(x)和Y均为宽度或高度，L₂为宽度差的平方或高度差的平方。

其中，宽高数值集包括宽度与宽度差的平方的对应关系和高度与高度差的平方的对应关系，具体如表1所示。

表1

高度(mm)	高度差的平方(mm<sup>2</sup>)	宽度(mm)	宽度差的平方(mm<sup>2</sup>)
				h1	H1	k1	K1
h2	H2	k2	k2
				……	……	……	……

其中，细微偏差分支是电子设备采用第三公式对第五卷积块训练得到的。

第三公式：

其中，所述M为所述目标特征图包括的特征点的数量，o_k为偏移量。

其中，所述第三卷积块为第三卷积神经网络，所述第四卷积块为第四卷积神经网络。所述第五卷积块为第五卷积神经网络。所述第三卷积神经网络、所述第四卷积神经网络和第五卷积神经网络的作用互不相同。

其中，细微偏差数值集包括坐标值与偏移量的对应关系，具体如表2所示。

表2

坐标值	偏移量
		01	0.01
02	0.03
		03	0.01
……	……

需要说明的是，在确定目标特征点相对于在目标特征图中的位置在横轴上的偏差时，表2中的坐标值表示横坐标值；在确定目标特征点相对于在目标特征图中的位置在纵轴上的偏差时，表2中的坐标值表示纵坐标值。

可以看出，在本申请实施例中，由于将目标特征图输入三个分支是并行执行的，降低了卷积操作所需的时间，进而提升计算效率。

在本申请的一实现方式中，电子设备基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，包括：

电子设备基于所述热力图、所述细微偏差数值集和所述第一跟踪框的第一中心点的第一位置，确定第二跟踪框的第二中心点的第二位置；

电子设备基于所述宽高数值集、所述第一跟踪框的第一高度和所述第一跟踪框的第一宽度，确定所述第二跟踪框的第二高度和所述第二跟踪框的第二宽度。

具体地，第一高度是已知的，通过表1即可得到第一高度对应的高度差的平方，然后再基于第二公式即可计算得到第二高度。举例来说，假设第一高度为C，第一高度对应的高度差的平方为c，那么

第一宽度是已知的，通过表1即可得到第一宽度对应的宽度差的平方，然后再基于第二公式即可计算得到第二宽度。举例来说，假设第一宽度为D，第一宽度对应的宽度差的平方为d，那么

在本申请的一实现方式中，所述目标特征图包括M个特征点，M为正整数；电子设备基于所述热力图、所述细微偏差数值集和所述第一跟踪框的第一中心点的第一位置，确定第二跟踪框的第二中心点的第二位置，包括：

电子设备基于所述热力图，确定目标特征点在所述目标特征图中的第三位置，以及基于所述细微偏数值集确定所述目标特征点的偏移量，所述目标特征点为所述第一中心点与所述第二中心点连线的中点，所述M个特征点包括所述目标特征点，所述偏移量用于表示所述目标特征点相对于在所述目标特征图中的位置的偏移；

电子设备基于所述第一位置、所述第三位置和所述偏移量，确定所述第二位置。

具体地，通过所述热力图，可得到所述M个特征点中每个特征点为目标特征点的概率，然后将概率最大的特征点作为目标特征点，进而可得到目标特征点的第一位置。例如，如图2C所示，特征点1是图2C中显示的所有特征点中对应的概率最大的特征点，在热力图为图2C的情况下，目标特征点为特征点1。

通过所述细微偏差数据集，可得到目标特征点相对于在目标特征图中的位置在横轴上的偏移量和目标特征点相对于在目标特征图中的位置在纵轴上的偏移量。例如，假设图2C中的特征点1为目标特征点，假如特征点1在图2C中的坐标为(50,300)，那么通过表2可知，特征点1相对于在目标特征图中的位置在横轴上的偏移量，以及特征点1相对于在目标特征图中的位置在纵轴上的偏移量。

由于将目标特征图转换为热力图之后，特征点为有细微的偏差，在知道偏移量之后，通过偏移量和目标特征点的第一位置即可得到目标特征点在目标特征图中的具体位置。例如，假设图2C中的特征点1为目标特征点，特征点1在图2C中的坐标为(50,300)，特征点1相对于在目标特征图中的位置在横轴上的偏移量为0.02，特征点1相对于在目标特征图中的位置在纵轴上的偏移量为0.1，那么特征点1在目标特征图中的具体位置为(50.02,300.1)。

由于目标特征点为第一中心点与第二中心点连线的中点，知道了第一中心点的第一位置和目标特征点的第三位置，即可确定第二中心点的第二位置。

可以看出，在本申请实施例中，通过细微偏差调整目标特征点的位置偏移，可提升跟踪的精确度。

需要说明的是，本申请实施例提供的图2B和图2C仅用于举例，并不构成对本申请实施例的限定。

与所述图2A所示的实施例一致的，请参阅图3A，图3A是本申请实施例提供的另一种单目标跟踪的方法的流程示意图，应用于上述电子设备，具体包括以下步骤：

步骤301：电子设备在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像包括同一跟踪目标，所述第一跟踪框用于框选所述第一图像中的所述跟踪目标。

步骤302：电子设备确定所述第一图像的第一颜色通道，以及所述第二图像的第二颜色通道。

步骤303：电子设备通过对所述第一颜色通道和所述第二颜色通道进行叠加，以合成目标图像。

步骤304：电子设备将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图，所述目标特征图包括M个特征点，M为正整数。

步骤305：电子设备将所述目标特征图输入到预测网络的热力图分支，以输出热力图，以及将所述目标特征图输入到所述预测网络的宽高分支，以输出宽高数值集，以及将所述目标特征图输入到所述预测网络的细微偏差分支，以输出细微偏差数值集。

步骤306：电子设备基于所述热力图，确定目标特征点在所述目标特征图中的第三位置，以及基于所述细微偏数值集确定所述目标特征点的偏移量。

其中，所述目标特征点为所述第一中心点与所述第二中心点连线的中点，所述M个特征点包括所述目标特征点，所述偏移量用于表示所述目标特征点相对于在所述目标特征图中的位置的偏移。

步骤307：电子设备基于所述第一位置、所述第三位置和所述偏移量，确定第二跟踪框的第二中心点的第二位置。

步骤308：电子设备基于所述宽高数值集、所述第一跟踪框的第一高度和所述第一跟踪框的第一宽度，确定所述第二跟踪框的第二高度和所述第二跟踪框的第二宽度。

举例来说，如图3B所示，将两张包括跟踪目标S的图像进行图像合成得到目标图像，然后将目标图像输入沙漏网络模型，通过沙漏网络模型之后输出目标特征图，再然后将目标特征图分别输入预测网络的热力图分支、宽高分支和细微偏差分支，通过这3个分支之后，分别输出热力图、宽高数值集和细微偏数值集，再然后基于第一跟踪框、热力图、宽高数值集和细微偏数值集确定第二跟踪框，最后通过第二跟踪框框选跟踪目标S，以实现对目标的跟踪。

需要说明的是，本实施例的具体实现过程可参见上述方法实施例所述的具体实现过程，在此不再叙述。

与上述图2A和图3A所示的实施例一致的，请参阅图4，图4是本申请实施例提供的一种电子设备的结构示意图，如图所示，该电子设备包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

在本申请的一实现方式中，在将将所述第一图像与所述第二图像进行叠加合成，得到目标图像方面，上述程序包括具体用于执行以下步骤指令：

确定所述第一图像的第一颜色通道，以及所述第二图像的第二颜色通道；

通过对所述第一颜色通道和所述第二颜色通道进行叠加，以合成目标图像。

每经过一个所述沙漏网络均进行第一处理，在所述第一处理中：将输入图像通过沙漏网络的多个第一卷积块进行下采样，输出第一特征图；将所述第一特征图通过沙漏网络的多个第二卷积块进行上采样，输出第二特征图；将所述第二特征图与所述输入图像进行叠加，输出第三特征图

在本申请的一实现方式中，所述预测网络包括热力图分支、宽高分支和细微偏差分支，在将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集方面，上述程序具体用于执行以下步骤的指令：

将所述目标特征图输入到所述热力图分支，以输出热力图，以及将所述目标特征图输入到所述宽高分支，以输出宽高数值集，以及将所述目标特征图输入到所述细微偏差分支，以输出细微偏差数值集。

在本申请的一实现方式中，在所述基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框方面，上述程序包括具体用于执行以下步骤的指令：

基于所述热力图、所述细微偏差数值集和所述第一跟踪框的第一中心点的第一位置，确定第二跟踪框的第二中心点的第二位置；

基于所述宽高数值集、所述第一跟踪框的第一高度和所述第一跟踪框的第一宽度，确定所述第二跟踪框的第二高度和所述第二跟踪框的第二宽度。

在本申请的一实现方式中，所述目标特征图包括M个特征点，M为正整数；在所述基于所述热力图、所述细微偏差数值集和所述第一跟踪框的第一中心点的第一位置，确定第二跟踪框的第二中心点的第二位置方面，上述程序具体用于执行以下步骤的指令：

基于所述热力图，确定目标特征点在所述目标特征图中的第三位置，以及基于所述细微偏差数值集确定所述目标特征点的偏移量，所述目标特征点为所述第一中心点与所述第二中心点连线的中点，所述M个特征点包括所述目标特征点，所述偏移量用于表示所述目标特征点相对于在所述目标特征图中的位置的偏移；

基于所述第一位置、所述第三位置和所述偏移量，确定所述第二位置。

请参阅图5，图5是本申请实施例提供的一种跟踪目标装置，应用于电子设备，该装置包括：

信息获取单元501，用于在同一目标视频文件中获取第一图像和第二图像，并获取所述第一图像的第一跟踪框，其中，所述第一图像为所述第二图像的前预设帧图像，所述第一图像和所述第二图像包括同一跟踪目标，所述第一跟踪框用于框选所述第一图像中的所述跟踪目标；

图像合成单元502，用于将所述第一图像与所述第二图像进行叠加合成，得到目标图像；

特征提取单元503，用于将所述目标图像输入沙漏网络模型进行特征提取，输出目标特征图；

数据确定单元504，用于将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集；

跟踪单元505，用于基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标。

在申请的一实现方式中，在将所述第一图像与所述第二图像进行叠加合成，得到目标图像，所述图像合成单元502具体用于：

在申请的一实现方式中，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

在本申请的一实现方式中，所述预测网络包括热力图分支、宽高分支和细微偏差分支，在将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集方面，所述数据确定单元504具体用于：

在本申请的一实现方式中，在基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述跟踪单元505具体用于：

在本申请的一实现方式中，所述目标特征图包括M个特征点，M为正整数；在基于所述热力图、所述细微偏差数值集和所述第一跟踪框的第一中心点的第一位置，确定第二跟踪框的第二中心点的第二位置方面，所述数据确定单元504具体用于：

需要说明的是，信息获取单元501、图像合成单元502、特征提取单元503、数据确定单元504及跟踪单元505可通过处理器实现。

本申请实施例还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如上述方法实施例中电子设备所描述的部分或全部步骤。

本申请实施例还提供了一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法中电子设备所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请实施例所描述的方法或者算法的步骤可以以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read OnlyMemory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然，处理器和存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(DigitalVideo Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种单目标跟踪方法，其特征在于，应用于电子设备，所述方法包括：

基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标；

所述预测网络包括热力图分支、宽高分支和细微偏差分支，所述将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集，包括：

将所述目标特征图输入到所述热力图分支，以输出热力图，以及将所述目标特征图输入到所述宽高分支，以输出宽高数值集，以及将所述目标特征图输入到所述细微偏差分支，以输出细微偏差数值集；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一图像与所述第二图像进行叠加合成，得到目标图像，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

4.根据权利要求1或2所述的方法，其特征在于，所述基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标特征图包括M个特征点，M为正整数；所述基于所述热力图、所述细微偏差数值集和所述第一跟踪框的第一中心点的第一位置，确定第二跟踪框的第二中心点的第二位置，包括：

6.一种单目标跟踪装置，其特征在于,应用于电子设备，所述装置包括：

跟踪单元，用于基于所述热力图、所述宽高数值集、所述细微偏差数值集和所述第一跟踪框，确定第二跟踪框，所述第二跟踪框用于框选所述第二图像中的所述跟踪目标；

所述预测网络包括热力图分支、宽高分支和细微偏差分支，在将所述目标特征图输入到预测网络，以输出热力图、宽高数值集和细微偏差数值集方面，所述数据确定单元具体用于：

其中，在将所述目标特征图输入到所述宽高分支，以输出宽高数值集方面，所述数据确定单元具体用于：将所述目标特征图、所述第一跟踪框的第一宽度和所述第一跟踪框的第一高度输入到所述宽高分支，以输出宽高数值集。

7.根据权利要求6所述的装置，其特征在于，所述沙漏网络模型由i个沙漏网络依次排列构成，第i个沙漏网络的输入图像为第i-1个沙漏网络的输入图像与输出图像合成得到的图像，所述i为大于或等于2的整数；

8.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理执行如权利要求1-5任意一项所述的方法。