CN113763415A

CN113763415A - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN113763415A
Application number: CN202010500810.9A
Authority: CN
Inventors: 李强; 秦泽奎
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2021-12-07
Anticipated expiration: 2040-06-04
Also published as: CN113763415B

Abstract

本公开关于一种目标跟踪方法、装置、电子设备及存储介质，该目标跟踪方法包括：获取目标视频序列中的模板图像以及搜索图像，模板图像包括第一跟踪目标，搜索图像为目标视频序列中的待预测第一跟踪目标的位置的图像；将模板图像以及搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图；将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测热力图，其中，第一预测网络包括串行的M个关键点预测单元；根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。本公开实施例的目标跟踪方法不需要确定锚点框选取方案，算法调试难度比较低而且适用性更好。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理领域，尤其涉及目标跟踪方法、装置、电子设备及存储介质。

背景技术

在计算机视觉领域，视觉目标跟踪(Visual Object Tracking，VOT)是一项非常重要且富有挑战性的课题。视觉目标跟踪的主要任务是，给定任意跟踪目标在视频序列的第一帧模板图像上的位置，预测其在整个视频序列中的外包框位置。

与其他计算机视觉任务类似，视觉目标跟踪也面临外观变化的诸多难点，比如目标形变、角度、尺度、遮挡、光照等。除此之外，视觉目标跟踪还面临背景混乱、相似干扰物等难点。

在相关技术中，可以使用区域提案网络(Region Proposal Network，RPN)进行视觉目标跟踪。RPN主要是通过锚点(anchor)机制，在视频序列的搜索图像(搜索图像为除第一帧的模板图像之外的图像)上选取可能包括跟踪目标的多个锚点框(anchor boxes，又称作候选框)，然后在多个锚点框中筛选出包括跟踪目标的框。由此，得到跟踪目标在搜索图像上的位置。如此，实现了使用RPN对视频序列进行视觉目标跟踪。

RPN主要依赖于优质的锚点框选取方案，然而在一些场景下，锚点尤其是优质锚点很难选取，由此限制了利用RPN进行视觉目标跟踪的方案的应用场景，导致RPN进行视觉目标跟踪的方案适用性较差。另外，锚点框的选取算法比较复杂，导致调试时难度比较高。

发明内容

本公开提供一种目标跟踪方法、装置、电子设备及存储介质，以至少解决相关技术中的视觉目标跟踪的方案适用性较差以及调试难度高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种目标跟踪方法，包括：

获取目标视频序列中的模板图像以及搜索图像，模板图像包括第一跟踪目标，搜索图像为目标视频序列中的待预测第一跟踪目标的位置的图像；

将模板图像以及搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图；

将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测网络对应的第一预测热力图，其中，第一预测网络包括串行的M个关键点预测单元，第一预测热力图用于指示第一跟踪目标在搜索图像上的预测位置，M为大于1的整数；

根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。

可选地，第一预测网络的数量为N个，N为正整数；

将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测网络对应的第一预测热力图，包括：

将第一特征图以及第二特征图输入至每个第一预测网络，以得到每个第一预测网络分别对应的第一预测热力图；

根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置，包括：

对至少两个第一预测网络分别对应的第一预测热力图进行相加运算，得到第一目标预测热力图；

根据第一目标预测热力图，在搜索图像上标注第一跟踪目标的位置。

可选地，将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测网络对应的第一预测热力图，包括：

利用第一预测网络中的关键点预测单元对输入数据进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图，响应图用于指示第一跟踪目标在搜索图像上的预测关键点；

对第M个关键点预测单元得到的响应图分别进行降低通道数量的运算，得到第一预测热力图。

可选地，利用第一预测网络中的关键点预测单元对输入数据进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图，包括：

利用第一预测网络的第一关键点预测单元的第一卷积运算单元对第一目标图进行卷积运算，得到模板图像的第三特征图；

利用第一关键点预测单元的第二卷积运算单元对第二目标图进行卷积运算，得到搜索图像的第四特征图；

利用第一关键点预测单元中的互相关运算单元，对第三特征图和第四特征图进行互相关运算，得到响应图；

其中，第一关键点预测单元为第一预测网络的第s个关键点预测单元，s∈{1,2，…M}，在s＝1的情况下，第一目标图为第一特征图，第二目标图为第二特征图；在s≠1的情况下，第一目标图为输入至第一关键点预测单元的响应图，第二目标图为输入至第一关键点预测单元的第三特征图。

可选地，利用第一关键点预测单元中的互相关运算单元，对第三特征图和第四特征图进行互相关运算，得到响应图之前，方法还包括：

利用第一卷积运算单元将第三特征图输入至第一关键点预测单元中的第三卷积运算单元；

利用第三卷积运算单元调整第三特征图的数据尺寸，并使调整后的第三特征图的数据尺寸与第四特征图的数据尺寸之间的比例在预定范围内；

将数据尺寸调整后的第三特征图输入至互相关运算单元。

可选地，获取目标视频序列中的模板图像以及搜索图像之前，目标跟踪方法还包括：

获取视频序列样本中的模板图像样本以及搜索图像样本，模板图像样本包括第二跟踪目标，搜索图像样本为视频序列样本中的待预测第二跟踪目标的位置的图像；

将模板图像样本以及搜索图像样本输入至第二目标跟踪模型，得到第二预测热力图；

根据第二预测热力图以及预设的标签热力图，调节第二目标跟踪模型的参数，直到满足预定的停止训练条件为止，得到第一目标跟踪模型；

其中，标签热力图标用于指示第二跟踪目标在搜索图像样本上的位置范围。

可选地，第二目标跟踪模型包括N个第二预测网络，单个的第二预测网络包括串行的M个关键点预测单元；

将模板图像样本以及搜索图像样本输入至第二目标跟踪模型，得到第二预测热力图，包括：

将模板图像样本以及搜索图像样本输入至第二目标跟踪模型，得到每个第二预测网络中的每个关键点预测单元的响应图；

对每个关键点预测单元的响应图进行降低通道数量的运算，得到每个关键点预测单元分别对应的第二预测热力图。

可选地，根据第二预测热力图以及预设的标签热力图，调节第二目标跟踪模型的参数，包括：

将各个第二预测网络中的第i个关键点预测单元分别对应的第二预测热力图进行相加运算，得到第二目标热力图，i∈{1,2，…M}；

根据M个第二目标热力图、同一第二预测网络的M个关键点预测单元分别对应的标签热力图以及损失函数，调节第二目标跟踪模型的参数。

根据本公开实施例的第二方面，提供一种目标跟踪装置，包括：

图像获取模块，被配置为获取目标视频序列中的模板图像以及搜索图像，模板图像包括第一跟踪目标，搜索图像为目标视频序列中的待预测第一跟踪目标的位置的图像；

特征提取模块，被配置为将模板图像以及搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图；

预测模块，被配置为将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测热力图，其中，第一预测网络包括串行的M个关键点预测单元，第一预测热力图用于指示第一跟踪目标在搜索图像上的预测位置，M为大于1的整数；

位置标注模块，被配置为根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。

可选地，第一预测网络的数量为N个，N为正整数；

预测模块，具体被配置为将第一特征图以及第二特征图输入至每个第一预测网络，以得到每个第一预测网络分别对应的第一预测热力图；

位置标注模块包括：

第一相加运算单元，被配置为对至少两个第一预测网络分别对应的第一预测热力图进行相加运算，得到第一目标预测热力图；

位置标注单元，被配置为根据第一目标预测热力图，在搜索图像上标注第一跟踪目标的位置。

可选地，预测模块包括：

数据处理单元，被配置为利用第一预测网络中的关键点预测单元对输入数据进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图，响应图用于指示第一跟踪目标在搜索图像上的预测关键点；

第一降通道运算单元，被配置为对第M个关键点预测单元得到的响应图分别进行降低通道数量的运算，得到第一预测热力图。

可选地，数据处理单元包括：

第一处理单元，被配置为利用第一预测网络的第一关键点预测单元的第一卷积运算单元对第一目标图进行卷积运算，得到模板图像的第三特征图；

第二处理单元，被配置为利用第一关键点预测单元的第二卷积运算单元对第二目标图进行卷积运算，得到搜索图像的第四特征图；

第三处理单元，被配置为利用第一关键点预测单元中的互相关运算单元，对第三特征图和第四特征图进行互相关运算，得到响应图；

可选地，数据处理单元还包括：

第四处理单元，被配置为利用第一卷积运算单元将第三特征图输入至第一关键点预测单元中的第三卷积运算单元；

尺寸调整单元，被配置为利用第三卷积运算单元调整第三特征图的数据尺寸，并使调整后的第三特征图的数据尺寸与第四特征图的数据尺寸之间的比例在预定范围内；

特征图输入单元，被配置为将数据尺寸调整后的第三特征图输入至互相关运算单元。

可选地，目标跟踪装置还包括：

样本获取模块，被配置为获取视频序列样本中的模板图像样本以及搜索图像样本，模板图像样本包括第二跟踪目标，搜索图像样本为视频序列样本中的待预测第二跟踪目标的位置的图像；

样本预测模块，被配置为将模板图像样本以及搜索图像样本输入至第二目标跟踪模型，得到第二预测热力图；

参数调节模块，被配置为根据第二预测热力图以及预设的标签热力图，调节第二目标跟踪模型的参数，直到满足预定的停止训练条件为止，得到第一目标跟踪模型；

样本预测模块包括：

样本响应单元，被配置为将模板图像样本以及搜索图像样本输入至第二目标跟踪模型，得到每个第二预测网络中的每个关键点预测单元的响应图；

第二降通道运算单元，被配置为对每个关键点预测单元的响应图进行降低通道数量的运算，得到每个关键点预测单元分别对应的第二预测热力图。

可选地，参数调节模块包括：

第二相加运算单元，被配置为将各个第二预测网络中的第i个关键点预测单元分别对应的第二预测热力图进行相加运算，得到第二目标热力图，i∈{1,2，…M}；

参数调节单元，被配置为根据M个第二目标热力图、同一第二预测网络的M个关键点预测单元分别对应的标签热力图以及损失函数，调节第二目标跟踪模型的参数。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现第一方面的目标跟踪方法。

根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面的目标跟踪方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面的目标跟踪方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

首先，将包括第一跟踪目标的模板图像以及待预测第一跟踪目标位置的搜索图像输入至第一目标跟踪模型中的特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图，并将第一特征图和第二特征图输入至第一目标跟踪模型的第一预测网络，得到第一预测热力图。根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。由此实现了在搜索图像上对跟踪目标进行跟踪。由于本公开实施例采用一种新的目标跟踪方法，不需要依赖于锚点框选取方案。因此，面对不同场景，不需要确定不同的锚点框选取方案。可见，本公开实施例的目标跟踪方法的适用性更好。另外，本公开实施例不需要采用复杂的算法来选取锚点，因此，算法调试的难度比较低。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是相关技术中的孪生区域提案网络的原理框图。

图2是根据一示例性实施例示出的一种第一目标跟踪模型的结构示意图。

图3是根据一示例性实施例示出的一种目标跟踪方法的流程示意图。

图4是根据一示例性实施例示出的一种目标跟踪方法的原理示意图。

图5是根据一示例性实施例示出的另一种目标跟踪方法的原理示意图。

图6是根据一示例性实施例示出的又一种目标跟踪方法的原理示意图。

图7是根据一示例性实施例示出的一种关键点预测单元的结构示意图。

图8是根据一示例性实施例示出的一种关键点预测单元和降通道运算单元的结构示意图。

图9是根据一示例性实施例示出的再一种目标跟踪方法的原理示意图。

图10是根据一示例性实施例示出的另一种目标跟踪方法的流程示意图。

图11是根据一示例性实施例示出的一种训练第二目标跟踪模型的原理示意图。

图12是根据一示例性实施例示出的另一种训练第二目标跟踪模型的原理示意图。

图13是根据一示例性实施例示出的又一种训练第二目标跟踪模型的原理示意图。

图14是根据一示例性实施例示出的再一种训练第二目标跟踪模型的原理示意图。

图15是根据一示例性实施例示出的一种目标跟踪装置的结构示意图。

图16是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中的VOT技术主要有两大类：相关滤波和深度学习。

(1)相关滤波又称判别相关滤波，主要是通过循环矩阵的方式实现特征提取和分类器学习的有效统一，从而实现实时目标跟踪。其中，误差最小平方和滤波器(MinimumOutput Sum of Squared Error filter，MOSSE)和核相关滤波器(Kernel CorrelationFilter，KCF)分别是相关滤波算法的初始版本和核函数化的变种。

(2)基于深度学习的VOT技术，主要是在卷积神经网络的架构下实现特征提取和位置预测，在GPU加持下也可以达到实时目标跟踪。基于深度学习的目标跟踪方法又细分为三个子类：特征提取跟踪、端到端跟踪和孪生跟踪。

A、特征提取跟踪

此类方法使用深度网络实现特征提取，然后依赖传统方法实现位置预测。一些代表方法有卷积神经网络-支持向量机(Convolutional Neural Network-Support VectorMachine，CNN-SVM)，分层卷积特征的视觉跟踪(Hierarchical Convolutional Featuresfor visiual Tracking，HCFT)算法，用于跟踪的连续卷积算子(Continuous ConvolutionOperators for Tracking，C-COT)，有效卷积算子(Efficient Convolution Operators，ECO)和UPDT等。

B、端到端跟踪

此类方法一般学一个联合网络来实现特征提取和位置预测。比如，深度跟踪(DeepTrack)，多域网络(Multi-Domain Network，MDNet)，用于跟踪的全卷积网络(FullyConvolutional Networks for Tracking，FCNT)，用于跟踪的顺序训练跟踪卷积网络(Sequentially Training Convolutional Networks for Tracking，STCT)，卷积残差跟踪(Convolutional Residual Tracking，CREST)，重叠最大化精确跟踪(Accurate Trackingby Overlap Maximization，ATOM)等。

C、孪生跟踪

此类方法主要是使用孪生学习的范式，这样目标跟踪和搜索图共用一个深度学习网络。比如孪生实例搜索跟踪(Siamese Instance Search for Tracking，SINT)，残差注意力孪生网络(Residual Attentional Siamese Network，RASNet)主要在网络主干(backbone)的提取特征层面做改进，但是位置预测层面则比较简单，因而性能也相应受限。

相较而言，SiamRPN主要是将RPN引入孪生跟踪框架下，改进了位置预测方面。下面对SiamRPN进行说明。

图1是相关技术中的孪生区域提案网络(Siamese Region Proposal Network，SiamRPN)的原理框图。从图1可以看出，SiamRPN由孪生网络(Siamese Network)和RPN两部分组成。孪生网络用于提取特征，RPN用于产生锚点框。其中，RPN包括两个分支，一个是用于区分跟踪目标和背景的分类分支，另外一个是用于微调候选锚点框的回归分支。整个网络实现了端到端的训练。

但是，RPN主要依赖于优质的锚点框选取方案，然而在一些场景下，锚点尤其是优质锚点很难选取，由此限制了利用RPN进行视觉目标跟踪的方案的应用场景，导致RPN进行视觉目标跟踪的方案适用性较差。另外，锚点框的选取算法比较复杂，导致调试时难度比较高。

为了解决上述技术问题，本公开实施例提供一种第一目标跟踪模型。图2是根据一示例性实施例示出的一种第一目标跟踪模型的结构示意图。

如图2所示，第一目标跟踪模型包括第一特征提取网络和第一预测网络。第一预测网络包括串行的M个关键点预测单元，M为大于1的整数。

其中，由于第一预测网络中的关键点预测单元数量越多，第一目标跟踪模型的目标跟踪效果越好。但是，第一预测网络中的关键点预测单元数量越少，第一目标跟踪模型的运算速度越快。因此，第一预测网络中的关键点预测单元数量在一个合理的范围内是比较重要的。为了保证第一目标跟踪模型的目标跟踪效果，同时保证第一目标跟踪模型的运算速度，在一个或多个实施例中，可选地，M可以为2、3或4。当然，此处并不限定M的数值。

基于如图2所示的第一目标跟踪模型，本公开实施例提供一种使用第一目标跟踪模型进行的目标跟踪方法。如图3所示，目标跟踪方法包括：

S102，获取目标视频序列中的模板图像以及搜索图像，模板图像包括第一跟踪目标，搜索图像为目标视频序列中的待预测第一跟踪目标的位置的图像；

S104，将模板图像以及搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图；

S106，将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测网络对应的第一预测热力图，其中，第一预测网络包括串行的M个关键点预测单元，第一预测热力图用于指示第一跟踪目标在搜索图像上的预测位置，M为大于1的整数；

S108，根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。

在本公开实施例中，首先，将包括第一跟踪目标的模板图像以及待预测第一跟踪目标位置的搜索图像输入至第一目标跟踪模型中的特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图，并将第一特征图和第二特征图输入至第一目标跟踪模型的第一预测网络，得到第一预测热力图。根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。由此实现了在搜索图像上对跟踪目标进行跟踪。由于本公开实施例采用一种新的目标跟踪方法，不需要依赖于锚点框选取方案。因此，面对不同场景，不需要确定不同的锚点框选取方案。可见，本公开实施例的目标跟踪方法的适用性更好。另外，本公开实施例不需要采用复杂的算法来选取锚点，因此，算法调试的难度比较低。

下面对本公开实施例的各个步骤进行说明。

可选地，在步骤S102中，先从预定存储位置获取目标视频序列，然后获取目标视频序列中的模板图像以及搜索图像。比如，模板图像为目标视频序列中的已知第一跟踪目标位置的第一帧图像。搜索图像为目标视频序列中的除第一帧图像之外的图像。

可选地，步骤S104中的第一特征提取网络包括第一特征图提取子网络和第二特征图提取子网络。第一特征图提取子网络和第二特征图提取子网络为孪生网络。其中，第一特征图提取子网络和第二特征图提取子网络的参数相同。

可选地，第一特征图提取子网络和第二特征图提取子网络分别为残差网络(Residual Network，ResdentNet)-50。

需要说明的是，在将模板图像输入至第一特征提取网络中之前，可以从模板图像中截取包括第一跟踪目标的局部区域图像，然后，将模板图像中包括第一跟踪目标的局部区域图像输入至第一特征提取网络。

可选地，第一目标跟踪模型中的第一预测网络的数量为N个，N为正整数。

在此情况下，步骤S104可以包括：将第一特征图以及第二特征图输入至每个第一预测网络，得到每个第一预测网络分别对应的第一预测热力图。

步骤S108可以包括：对至少两个第一预测网络分别对应的第一预测热力图进行相加运算，得到第一目标预测热力图；根据第一目标预测热力图，在搜索图像上标注第一跟踪目标的位置。

本公开实施例中第一预测网络的数量可以为一个或多个，在第一预测网络的数量为多个的情况下，多个第一预测网络形成了具有多个分支的预测网络。多个第一预测网络可以通过简单的重复堆砌形成，从而使得第一目标跟踪模型的结构比较简单。

下面以N＝3为例，并结合图4说明本公开实施例。

如图4所示，将模板图像输入至第一特征提取子网络，得到模板图像的三个第一特征图，将搜索图像输入至第二特征提取子网络，得到搜索图像的三个第二特征图。

将三个第一特征图分别输入至三个第一预测网络，将三个第二特征图分别输入至三个第一预测网络，得到每个第一预测网络分别对应的第一预测热力图。由于共有三个第一预测网络，因此，共得到三个第一预测热力图。

然后，利用相加运算单元116对三个第一预测热力图进行相加运算，得到第一目标预测热力图。

再然后，根据第一目标预测热力图，在搜索图像上标注第一跟踪目标的位置。

可选地，步骤S106可以包括：

利用第一预测网络中的每个关键点预测单元对输入数据进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图，其中，第l+1个关键点预测单元的输入数据为第l个关键点预测单元得到的响应图以及第三特征图，l∈{1,2，…M}，响应图用于指示第一跟踪目标在搜索图像上的预测关键点；

其中，利用降通道运算单元对响应图进行降低通道数量的运算，得到第一预测热力图。

比如，响应图有512个通道，通过降通道运算单元对512个通道的响应图进行降低通道数量的运算，得到有5个通道的第一预测热力图。通过进行降低通道数量的运算，得到通道数量较少的第一预测热力图。由此，可以根据第一预测热力图得到第一跟踪目标在搜索图像上的位置。

上述已经说明了降通道运算单元执行的步骤，下面说明降通道运算单元的具体内部结构。

可选地，单个的降通道运算单元包括P个卷积运算单元，P为正整数。

利用降通道运算单元对响应图进行降低通道数量的运算，得到第一预测热力图，可以包括：利用P个卷积运算单元对响应图进行P次降低通道数量的卷积运算，得到预测热力图。其中，预测热力图的通道数量可以等于在训练第一目标跟踪模型时使用的标签热力图的通道数量。

下面结合图5说明本公开实施例的目标跟踪方法。

图5是根据一示例性实施例示出的另一种目标跟踪方法的原理示意图。如图5所示，已知第一跟踪目标在模板图像中的位置，在此情况下，为了标注第一跟踪目标在搜索图像中的位置，则首先利用第一特征提取网络提取模板图像的第一特征图以及搜索图像的第二特征图。

然后，第一特征提取网络将第一特征图以及第二特征图输入至第1个关键点预测单元。第1个关键点预测单元对第一特征图以及第二特征图进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图。

再然后，第1个关键点预测单元将第三特征图以及响应图输入至第2个关键点预测单元。第2个关键点预测单元对输入数据进行与第1个关键点预测单元类似的处理，得到更新后的第三特征图以及更新后的响应图。

第2个关键点预测单元将更新后的第三特征图以及更新后的响应图输入至第3个关键点预测单元，以此类推，直到第M个关键点预测单元得到更新后的第三特征图以及更新后的响应图。其中，第M个关键点预测单元输出更新后的响应图。

由此，每个关键点预测单元分别得到搜索图像对应的响应图。其中，从第1个关键点预测单元至第M个关键点预测单元，各关键点预测单元得到的响应图指示的跟踪目标在搜索图像上的预测关键点越来越准确。

再然后，可以根据第M个关键点预测单元的响应图，得到第一预测热力图。基于该第一预测热力图在搜索图像上标注第一跟踪目标的位置。

在上述实施例中，预测网络包括串行的M个关键点预测单元，第1个关键点预测单元用于对第一特征图进行处理，以挖掘更加复杂的特征，得到模板图像的第三特征图。另外，第1个关键点预测单元还用于得到用于指示第一跟踪目标在搜索图像上的关键点的响应图。第一个关键点预测单元在得到第三特征图和响应图之后，将这两者输入至下一个关键点预测单元。同理，下一个关键点预测单元进行与第一个关键点预测单元类似的处理。如此，从第一个关键点预测单元至第M个关键点预测单元，第三特征图越来越复杂，而且响应图指示的跟踪目标的关键点也越来越准确。基于此，第M个关键点预测单元得到的第一预测热力图可以比较准确地反映第一跟踪目标在搜索图像上的位置。

下面以N＝3为例，并结合图6说明本公开的另一个实施例。

如图6所示，第一预测网络的数量为3，在得到模板图像的第一特征图以及搜索图像的第二特征图之后，将第一特征图以及第二特征图输入至每个第一预测网络。利用每个第一预测网络中的每个关键点预测单元对输入数据进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图。

在每个第一预测网络中的第M个关键点预测单元得到响应图之后，利用降通道运算单元对各个第M个关键点预测单元得到的响应图进行降低通道数量的运算，得到三个第一预测力图。

然后，利用相加运算单元116对三个第一预测热力图进行相加运算，得到第一目标预测热力图。再然后，根据第一目标预测热力图，在搜索图像上标注第一跟踪目标的位置。

其中，第一关键点预测单元为任意一个第一预测网络的第s个关键点预测单元，s∈{1,2，…M}，在s＝1的情况下，第一目标图为第一特征图，第二目标图为第二特征图；在s≠1的情况下，第一目标图为输入至第一关键点预测单元的响应图，第二目标图为输入至第一关键点预测单元的第三特征图。

在本公开实施例中，通过第一卷积运算单元挖掘模板图像样本的特征，通过第二卷积运算单元挖掘搜索图像样本的特征。其中，越在后面的关键点预测单元，其中的第一卷积运算单元和第二卷积运算单元可以挖掘出越复杂的特征，使得关键点预测单元得到的响应图越准确。

可选地，利用第一关键点预测单元中的互相关运算单元，对第三特征图和第四特征图进行互相关运算，得到响应图之前，目标跟踪方法还包括：

将数据尺寸调整后的第三特征图输入至互相关运算单元。

其中，第三特征图的数据尺寸与第四特征图的数据尺寸可以包括长度尺寸以及宽度尺寸。

在本公开实施例中，通过第三卷积运算单元调整第三特征图的数据尺寸，比如，调整前第三特征图的数据尺寸为15×15，第四特征图的数据尺寸为31×31。基于此，调整后第三特征图的数据尺寸为7×7。由此，使得第三特征图在响应图上进行互相关运算时，第三特征图和响应图的数据尺寸更加合适。

需要说明的是，第一关键点预测单元可以为第一预测网络中的任意一个关键点预测单元。

下面结合图7说明本公开实施例中的关键点预测单元。

图7是根据一示例性实施例示出的一种关键点预测单元的结构示意图。如图7所示，一个关键点预测单元包括第一卷积运算单元、第二卷积运算单元、第三卷积运算单元和互相关运算单元。基于上述结构的关键点预测单元可以得到第三特征图以及响应图。

比如，可以通过如下公式计算得到第三特征图以及响应图：

其中，

表示同一个预测网络中的第s个关键点预测单元输出的响应图，Corr表示互相关(cross-correlation)运算，Conv表示卷积(convolution)运算。

表示利用关键点预测单元的第一卷积运算单元对输入数据进行卷积运算得到的第三特征图，x^(s-1)表示输入至第一卷积运算单元的第一目标图，需要说明的是，在s＝1的情况下，第一目标图为第一特征图；在s≠1的情况下，第一目标图为输入的第三特征图。

表示第一卷积运算单元的参数。

表示利用关键点预测单元的第二卷积运算单元对输入数据进行卷积运算得到的第四特征图，

表示输入至第二卷积运算单元的第二目标图，需要说明的是，在s＝1的情况下，第二目标图为第二特征图；在s≠1的情况下，第二目标图为输入的响应图。

表示第二卷积运算单元的参数。

表示第三卷积运算单元的参数。

以上已经分别说明了降通道运算单元以及关键点预测单元的内部结构，下面结合图8说明关键点预测单元与降通道运算单元之间的关系。

图8是根据一示例性实施例示出的一种关键点预测单元和降通道运算单元的结构示意图。如图8所示，关键点预测单元将得到的响应图输入至降通道运算单元。由于上述已经对关键点预测单元进行了说明，在此不再针对关键点预测单元进行重复赘述。下面主要说明降通道运算单元。

降通道运算单元包括第四卷积运算单元和第五卷积运算单元。第四卷积运算单元用于对响应图进行降低通道数量的卷积运算，得到卷积运算结果。第四卷积运算单元将其卷积运算结果输入至第五卷积运算单元。第五卷积运算单元对输入的数据进行降低通道数量的卷积运算，得到第一预测热力图。

比如，输入至第四卷积运算单元的响应图有512个通道，通过第四卷积运算单元将512个通道的响应图降为128个通道的响应图，然后通过第五卷积运算单元将128个通道的响应图降为5个通道的响应图。

以上是对本公开实施例提供的目标跟踪方法的各个步骤的说明。下面以M＝3，N＝3为例，并结合图9说明本公开实施例的目标跟踪方法。

图9是根据一示例性实施例示出的再一种目标跟踪方法的原理示意图。如图9所示，第一特征提取网络包括第一特征图提取子网络202和第二特征图提取子网络204。利用第一特征图提取子网络202提取模板图像的第一特征图，利用第二特征图提取子网络204提取搜索图像的第二特征图。第一特征图提取子网络202将提取的三个第一特征图分别输入至三个分支的第一预测网络，第二特征图提取子网络204将提取的三个第二特征图分别输入至该三个分支的第一预测网络。其中，每个分支的第一预测网络包括串行的3个关键点预测单元。

三个分支的第一预测网络按照从上到下的顺序排列时，利用第一个分支的第一预测网络中的第1个关键点预测单元进行如下处理：对第一特征图进行卷积处理，以更新模板图像的特征图，得到模板图像的更新后的第三特征图。以及对输入的第二特征图进行卷积处理，得到搜索图像更新后的第四特征图。然后，利用互相关运算单元对更新后的第四特征图和第三特征图进行互相关运算，得到响应图。

第二个分支的第一预测网络中的第1个关键点预测单元以及第三个分支的第一预测网络中的第1个关键点预测单元也是进行同样的处理，在此不再赘述。

另外，每个分支的第一预测网络中的第3个关键点预测单元将得到的响应图输入至降通道运算单元，利用关键点预测单元对应的降通道运算单元对响应图进行降低通道数量的运算，得到第一预测热力图。

其中，每个分支的第一预测网络分别得到一个第一预测热力图，对三个分支的第一预测网络得到的第一预测热力图进行相加运算，得到第一目标预测热力图。

然后，根据第一目标预测热力图，在搜索图像上标注跟踪目标的位置。

以上是使用第一目标跟踪模型进行目标跟踪的实施例。在使用第一目标跟踪模型进行目标跟踪之前，需要先训练第二目标跟踪模型，将训练好的第二目标跟踪模型作为上述的第一目标跟踪模型。下面说明如何训练第二目标跟踪模型。

图10是根据一示例性实施例示出的另一种目标跟踪方法的流程示意图。如图10所示，在S102之前，目标跟踪方法还包括：

S110，获取视频序列样本中的模板图像样本以及搜索图像样本，模板图像样本包括第二跟踪目标，搜索图像样本为视频序列样本中的待预测第二跟踪目标的位置的图像；

S112，将模板图像样本以及搜索图像样本输入至第二目标跟踪模型，得到第二预测热力图；

S114，根据第二预测热力图以及预设的标签热力图，调节第二目标跟踪模型的参数，直到满足预定的停止训练条件为止，得到第一目标跟踪模型；其中，标签热力图标用于指示第二跟踪目标在搜索图像样本上的位置范围。

下面对上述各个步骤进行说明。

可选地，在S110之前，先从视频序列样本集合中获取视频序列样本。然后，在S110中，获取视频序列样本中的模板图像样本以及搜索图像样本。比如，模板图像样本为视频序列样本中的已知第二跟踪目标位置的第一帧图像。搜索图像为视频序列样本中的除第一帧图像之外的图像。

另外，第二目标跟踪模型可以包括第二特征提取网络和第二预测网络，其中，第二预测网络包括串行的关键点预测单元。

S112可以包括：将模板图像样本的特征图以及搜索图像样本的特征图输入至第二特征提取网络，得到模板图像样本的特征图以及搜索图像样本的特征图；将模板图像样本的特征图以及搜索图像样本的特征图输入至第二预测网络，得到第二预测热力图。

可选地，第二特征提取网络包括第三特征图提取子网络和第四特征图提取子网络。其中，将模板图像样本的特征图输入至第三特征图提取子网络，得到模板图像样本的特征图。将搜索图像样本的特征图输入至第四特征图提取子网络，得到搜索图像样本的特征图。

第三特征图提取子网络和第四特征图提取子网络可以为孪生网络。其中，第三特征图提取子网络和第四特征图提取子网络的参数相同。

可选地，第三特征图提取子网络和第四特征图提取子网络分别为ResdentNet-50。

需要说明的是，在将模板图像样本输入至第三特征提取子网络中之前，可以从模板图像样本中截取包括第二跟踪目标的局部区域图像，然后，将模板图像样本中的包括第二跟踪目标的局部区域图像输入至第三特征提取子网络。

可选地，第二目标跟踪模型中的第二预测网络可以包括串行的M个关键点预测单元。下面结合图11说明本公开实施例。

图11是根据一示例性实施例示出的一种训练第二目标跟踪模型的原理示意图。如图11所示，已知第二跟踪目标在模板图像样本中的位置，在此情况下，为了标注第二跟踪目标在搜索图像样本中的位置，则首先将模板图像样本和搜索图像样本输入至第二特征提取网络，得到模板图像样本的特征图以及搜索图像样本的特征图。

然后，将模板图像样本的特征图以及搜索图像样本的特征图输入至第二预测网络的第1个关键点预测单元。第1个关键点预测单元对模板图像样本的特征图以及搜索图像样本的特征图进行处理，得到更新后的模板图像的特征图以及搜索图像对应的响应图。

再然后，第1个关键点预测单元将更新后的模板图像的特征图以及响应图输入至第2个关键点预测单元。第2个关键点预测单元对输入数据进行与第1个关键点预测单元类似的处理，得到更新后的模板图像的特征图以及更新后的响应图。

第2个关键点预测单元将处理结果(特征图和响应图)输入至第3个关键点预测单元，以此类推，直到第M个关键点预测单元得到更新后的模板图像的特征图以及更新后的响应图。其中，第M个关键点预测单元输出更新后的响应图。

由此，各个关键点预测单元分别得到响应图。其中，从第1个关键点预测单元至第M个关键点预测单元，各关键点预测单元得到的响应图指示的跟踪目标在搜索图像上的预测关键点越来越准确。

再然后，可以根据各个关键点预测单元的响应图，得到第二预测热力图。需要说明的是，由于得到第二预测热力图与得到第一预测热力图的方式类似，而上述已经说明了如何得到第一预测热力图，在此不再对如何得到第二预测热力图进行类似说明。

基于各个关键点预测单元分别对应的第二预测热力图和各关键点预测单元分别对应的标签热力图，调节第二目标跟踪模型的参数。其中，调节第二目标跟踪模型的参数，具体包括：

利用损失函数，计算M个关键点预测单元分别对应的第二预测热力图与标签热力图之间的损失值。其中，损失函数可以为如下公式(4)的欧式距离的计算函数：

其中，A_m表示第m个关键点预测单元对应的第二预测热力图，B_m表示第m个关键点预测单元对应的标签热力图，f(A，B)表示M个关键点预测单元分别对应的第二预测热力图与标签热力图之间的损失值。

在计算得到损失值之后，基于该损失值调节第二目标跟踪模型的参数。其中，调节的第二目标跟踪模型的参数可以包括第二预测网络的参数和第二特征提取网络的参数。然后，进行迭代训练，从而不断调节第二目标跟踪模型的参数，直到满足预定的停止训练条件为止，得到上述的第一目标跟踪模型。预定的停止训练条件可以包括迭代训练的次数大于或等于预定次数，损失值在预定范围内。

其中，按照M个关键点预测单元的串行顺序，从第1个关键点预测单元至第M个关键点预测单元，各关键点预测单元分别对应的标签热力图中的位置范围118依次减小。

可选地，第二目标跟踪模型中的第二预测网络的数量为N个，N为正整数。

在此情况下，步骤112可以包括：

可选地，步骤S114可以包括：

将N个第二预测网络中的第i个关键点预测单元分别对应的第二预测热力图进行相加运算，得到第二目标热力图，i∈{1,2，…M}；

下面以N＝3为例，并结合图12说明本公开实施例。

图12是根据一示例性实施例示出的另一种训练第二目标跟踪模型的原理示意图。如图12所示，在第二特征提取网络得到模板图像样本的三个特征图以及搜索图像样本的三个特征图之后，将模板图像样本的三个特征图分别输入至三个第二预测网络的第1个关键点预测单元，将搜索图像样本的三个特征图分别输入至三个第二预测网络的第1个关键点预测单元。

然后，每个关键点预测单元对输入数据进行处理，得到每个关键点预测单元输出的特征图和响应图。利用降通道运算单元对每个关键点预测单元输出的响应图进行降低通道数量的运算，得到每个关键点预测单元对应的第二预测热力图。利用相加运算单元对三个第二预测网络中的第1个关键点预测单元的第二预测热力图进行相加运算，得到第二目标预测热力图。利用相加运算单元对三个第二预测网络中的第2个关键点预测单元的第二预测热力图进行相加运算，得到第二目标预测热力图。以此类推，得到M个第二目标预测热力图。

计算M个第二目标预测热力图与标签热力图之间的损失值。其中，损失函数可以为如下公式(5)的欧式距离的计算函数：

其中，C_i表示第i个关键点预测单元对应的第二目标预测热力图，D_i表示第i个关键点预测单元对应的标签热力图，f(C，D)表示M个第二目标预测热力图与标签热力图之间的损失值。

在计算得到损失值之后，基于该损失值调节第二目标跟踪模型的参数。

可选地，按照同一第二预测网络的M个关键点预测单元的串行顺序，从第1个关键点预测单元至第M个关键点预测单元，各关键点预测单元分别对应的标签热力图中的位置范围依次减小。

继续参考图12，每个标签热力图包括位置范围118，该位置范围118为第二跟踪目标在搜索图像样本上的位置范围。按照同一第二预测网络的M个关键点预测单元的串行顺序，从第1个关键点预测单元至第M个关键点预测单元，各关键点预测单元分别对应的标签热力图中的位置范围118依次减小。

在本公开实施例中，由于标签热力图中的位置范围依次减小，即监督信号由弱变强。因此，在基于如上的标签热力图进行训练的情况下，按照关键点预测单元的串行顺序，串行在后的关键点预测单元输出的响应图越来越准确地反映出跟踪目标在搜索图像上的位置。

可选地，标签热力图为高斯标签热力图。高斯标签热力图可以定义成如下的公式：

其中，(i,j)是高斯标签热力图中像素的坐标，(i_c,j_c)是高斯标签热力图的目标中心位置的坐标，ρ是(0,1]的一个数，ρ用于控制衰减强度，σ为固定的系数。

下面以M＝3，N＝3为例，并结合图13说明本公开实施例的训练第二目标跟踪模型的原理。

图13是根据一示例性实施例示出的又一种训练第二目标跟踪模型的原理示意图。如图13所示，第二特征提取网络包括第三特征图提取子网络302和第四特征图提取子网络304。将模板图像样本输入至第三特征图提取子网络302，得到模板图像样本的三个第五特征图。将搜索图像样本输入至第四特征图提取子网络304，得到搜索图像样本的三个第六特征图。

将三个第五特征图分别输入三个关键点预测单元，将三个第六特征图分别输入该三个关键点预测单元，每个关键点预测单元对输入数据进行处理得到模板图像样本更新后的第七特征图以及搜索图像样本对应的响应图，并将第七特征图和响应图输入至串行的下一个关键点预测单元，下一个关键点预测单元进行类似处理。由此，每个关键点预测单元分别得到响应图。

另外，一个关键点预测单元对应一个降通道运算单元。在关键点预测单元得到响应图之后，利用关键点预测单元对应的降通道运算单元对响应图进行降低通道数量的运算，得到第二预测热力图。需要说明的是，由于需要训练的第二目标跟踪模型与训练好的第一目标跟踪模型之间的关键点预测单元以及降通道运算单元的内部结构相同，而在第一目标跟踪模型的相关内容中已经说明了关键点预测单元和降通道运算单元的内部结构，在此不再重复赘述。

然后，利用相加运算单元306对三个第二预测网络中的第1个关键点预测单元进行相加运算，得到第二目标预测热力图。利用相加运算单元308对三个第二预测网络中的第2个关键点预测单元进行相加运算，得到第二目标预测热力图。利用相加运算单元310对三个第二预测网络的第3个关键点预测单元进行相加运算，得到第二目标预测热力图。

然后，根据第二目标预测热力图和标签热力图，调整目标跟踪模型的参数，直到满足预定的停止训练条件为止。

需要说明的是，在训练好第二目标跟踪模型之后，可以保留第二目标跟踪模型中的所有降通道运算单元。将训练好的第二目标跟踪模型作为上述的第一目标跟踪模型，即图14所示的模型。在使用图14所示的模型进行目标跟踪时，输出三个第一目标预测热力图，可以使用第一目标预测热力图3来预测跟踪模型的位置。

或者，由于在使用训练好的第二目标跟踪模型进行目标跟踪时，需要用到其中一个第一目标预测热力图来预测跟踪模型的位置，而不需要其他的第一目标预测热力图。因此，可以删掉训练好的第二目标跟踪模型中的部分降通道运算单元，保留最后一个关键点预测单元对应的降通道运算单元，得到上述图9所示的第一目标跟踪模型，从而减少第一目标跟踪模型的运算量。

与本公开实施例提供的目标跟踪方法相应地，本公开实施例提供一种目标跟踪装置。图15是根据一示例性实施例示出的一种目标跟踪装置的结构示意图。如图15所示，目标跟踪装置包括：

图像获取模块402，被配置为获取目标视频序列中的模板图像以及搜索图像，模板图像包括第一跟踪目标，搜索图像为目标视频序列中的待预测第一跟踪目标的位置的图像；

特征提取模块404，被配置为将模板图像以及搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到模板图像的第一特征图以及搜索图像的第二特征图；

预测模块406，被配置为将第一特征图以及第二特征图输入至第一目标跟踪模型中的第一预测网络，得到第一预测网络对应的第一预测热力图，其中，第一预测网络包括串行的M个关键点预测单元，第一预测热力图用于指示第一跟踪目标在搜索图像上的预测位置，M为大于1的整数；

位置标注模块408，被配置为根据第一预测热力图，在搜索图像上标注第一跟踪目标的位置。

可选地，第一预测网络的数量为N个，N为正整数；

预测模块406，具体被配置为将第一特征图以及第二特征图输入至每个第一预测网络，以得到每个第一预测网络分别对应的第一预测热力图；

位置标注模块408包括：

第一相加运算单元，被配置为对至少两个第一预测网络对应的第一预测热力图进行相加运算，得到第一目标预测热力图；

可选地，预测模块406包括：

数据处理单元，被配置为利用第一预测网络中的关键点预测单元对输入数据进行处理，得到模板图像的第三特征图以及搜索图像对应的响应图，其中，第l+1个关键点预测单元的输入数据为第l个关键点预测单元得到的响应图以及第三特征图，l∈{1,2，…M}，响应图用于指示第一跟踪目标在搜索图像上的预测关键点；

可选地，数据处理单元包括：

可选地，数据处理单元还包括：

可选地，目标跟踪装置还包括：

样本预测模块包括：

可选地，参数调节模块包括：

第二相加运算单元，被配置为将N个第二预测网络中的第i个关键点预测单元分别对应的第二预测热力图进行相加运算，得到第二目标热力图，i∈{1,2，…M}；

本公开实施例提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述任一项的目标跟踪方法。

图16是根据一示例性实施例示出的一种电子设备500的框图。例如，电子设备500可以被提供为一服务器。参照图16，电子设备500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述目标跟踪方法。

电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理，一个有线或无线网络接口550被配置为将电子设备500连接到网络，和一个输入输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本公开实施例提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的目标跟踪方法。

本公开实施例提供一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上的目标跟踪方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取目标视频序列中的模板图像以及搜索图像，所述模板图像包括第一跟踪目标，所述搜索图像为所述目标视频序列中的待预测所述第一跟踪目标的位置的图像；

将所述模板图像以及所述搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到所述模板图像的第一特征图以及所述搜索图像的第二特征图；

将所述第一特征图以及所述第二特征图输入至所述第一目标跟踪模型中的第一预测网络，得到所述第一预测网络对应的第一预测热力图，其中，所述第一预测网络包括串行的M个关键点预测单元，所述第一预测热力图用于指示所述第一跟踪目标在所述搜索图像上的预测位置，M为大于1的整数；

根据所述第一预测热力图，在所述搜索图像上标注所述第一跟踪目标的位置。

2.根据权利要求1所述的方法，其特征在于，所述第一预测网络的数量为N个，N为正整数；

所述将所述第一特征图以及所述第二特征图输入至所述第一目标跟踪模型中的第一预测网络，得到所述第一预测网络对应的第一预测热力图，包括：

将所述第一特征图以及所述第二特征图输入至每个所述第一预测网络，得到每个所述第一预测网络分别对应的所述第一预测热力图；

所述根据所述第一预测热力图，在所述搜索图像上标注所述第一跟踪目标的位置，包括：

对至少两个所述第一预测网络分别对应的所述第一预测热力图进行相加运算，得到第一目标预测热力图；

根据所述第一目标预测热力图，在所述搜索图像上标注所述第一跟踪目标的位置。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一特征图以及所述第二特征图输入至所述第一目标跟踪模型中的第一预测网络，得到所述第一预测网络对应的第一预测热力图，包括：

利用所述第一预测网络中的每个关键点预测单元对输入数据进行处理，得到所述模板图像的第三特征图以及所述搜索图像对应的响应图，其中，第l+1个关键点预测单元的输入数据为第l个关键点预测单元得到的所述响应图以及所述第三特征图，l∈{1,2，…M}，所述响应图用于指示所述第一跟踪目标在所述搜索图像上的预测关键点；

对第M个关键点预测单元得到的响应图分别进行降低通道数量的运算，得到所述第一预测热力图。

4.根据权利要求3所述的方法，其特征在于，所述利用所述第一预测网络中的关键点预测单元对输入数据进行处理，得到所述模板图像的第三特征图以及所述搜索图像对应的响应图，包括：

利用所述第一预测网络的第一关键点预测单元的第一卷积运算单元对第一目标图进行卷积运算，得到所述模板图像的第三特征图；

利用所述第一关键点预测单元的第二卷积运算单元对第二目标图进行卷积运算，得到所述搜索图像的第四特征图；

利用所述第一关键点预测单元中的互相关运算单元，对所述第三特征图和所述第四特征图进行互相关运算，得到响应图；

其中，所述第一关键点预测单元为所述第一预测网络的第s个关键点预测单元，s∈{1,2，…M}，在s＝1的情况下，所述第一目标图为所述第一特征图，所述第二目标图为所述第二特征图；在s≠1的情况下，所述第一目标图为输入至所述第一关键点预测单元的响应图，所述第二目标图为输入至所述第一关键点预测单元的第三特征图。

5.根据权利要求4所述的方法，其特征在于，所述利用所述第一关键点预测单元中的互相关运算单元，对所述第三特征图和所述第四特征图进行互相关运算，得到响应图之前，所述方法还包括：

利用所述第一卷积运算单元将所述第三特征图输入至所述第一关键点预测单元中的第三卷积运算单元；

利用所述第三卷积运算单元调整所述第三特征图的数据尺寸，并使调整后的第三特征图的数据尺寸与所述第四特征图的数据尺寸之间的比例在预定范围内；

将数据尺寸调整后的第三特征图输入至所述互相关运算单元。

6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述获取目标视频序列中的模板图像以及搜索图像之前，所述方法还包括：

获取视频序列样本中的模板图像样本以及搜索图像样本，所述模板图像样本包括第二跟踪目标，所述搜索图像样本为所述视频序列样本中的待预测所述第二跟踪目标的位置的图像；

将所述模板图像样本以及所述搜索图像样本输入至第二目标跟踪模型，得到第二预测热力图；

根据所述第二预测热力图以及预设的标签热力图，调节所述第二目标跟踪模型的参数，直到满足预定的停止训练条件为止，得到所述第一目标跟踪模型；

其中，所述标签热力图标用于指示所述第二跟踪目标在所述搜索图像样本上的位置范围。

7.根据权利要求6所述的方法，其特征在于，所述第二目标跟踪模型包括N个第二预测网络，单个的第二预测网络包括串行的M个关键点预测单元；

所述将所述模板图像样本以及所述搜索图像样本输入至第二目标跟踪模型，得到第二预测热力图，包括：

将所述模板图像样本以及所述搜索图像样本输入至所述第二目标跟踪模型，得到每个所述第二预测网络中的每个关键点预测单元的响应图；

对每个关键点预测单元的响应图进行降低通道数量的运算，得到每个关键点预测单元分别对应的所述第二预测热力图。

8.一种目标跟踪装置，其特征在于，包括：

图像获取模块，被配置为获取目标视频序列中的模板图像以及搜索图像，所述模板图像包括第一跟踪目标，所述搜索图像为所述目标视频序列中的待预测所述第一跟踪目标的位置的图像；

特征提取模块，被配置为将所述模板图像以及所述搜索图像输入至第一目标跟踪模型中的第一特征提取网络中，得到所述模板图像的第一特征图以及所述搜索图像的第二特征图；

预测模块，被配置为将所述第一特征图以及所述第二特征图输入至所述第一目标跟踪模型中的第一预测网络，得到所述第一预测网络对应的第一预测热力图，其中，所述第一预测网络包括串行的M个关键点预测单元，所述第一预测热力图用于指示所述第一跟踪目标在所述搜索图像上的预测位置，M为大于1的整数；

位置标注模块，被配置为根据所述第一预测热力图，在所述搜索图像上标注所述第一跟踪目标的位置。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的目标跟踪方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的目标跟踪方法。