CN110992404B

CN110992404B - 目标跟踪方法、装置和系统及存储介质

Info

Publication number: CN110992404B
Application number: CN201911334843.4A
Authority: CN
Inventors: 于立冬; 李健宁
Original assignee: Uisee Technology Zhejiang Co Ltd
Current assignee: Uisee Technology Zhejiang Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-09-19
Anticipated expiration: 2039-12-23
Also published as: CN110992404A

Abstract

本发明实施例提供一种目标跟踪方法、装置和系统以及存储介质。方法包括：获取目标模板图像和目标搜索图像；将目标模板图像和目标搜索图像分别输入特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征；将第一初始特征输入第一上下文感知网络，以获得融合显式上下文的第一融合特征，第一融合特征的大小是1×1×c；将第二初始特征输入第二上下文感知网络，以获得融合显式上下文的第二融合特征，第二上下文感知网络与第一上下文感知网络共享权重；将第一融合特征和第二融合特征输入位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置。融合特征更具备通用表征性，可以有效提高目标跟踪的精度。

Description

目标跟踪方法、装置和系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地涉及一种目标跟踪方法、装置和系统及存储介质。

背景技术

目标跟踪技术是计算机视觉领域的一个比较重要的研究方向。目标跟踪技术可以应用在很多方面，例如视频监控、人机交互、无人驾驶等。现有的一些目标跟踪技术采用基于孪生神经网络模型的跟踪算法，其方法是将初始给定的目标(模板图像中的物体)作为模板，从后续视频帧中提取搜索区域(或称候选区域)，获得搜索图像，利用预训练网络模型提取模板图像的特征及搜索图像的特征，随后通过相似性学习的方法计算模板图像中的目标与搜索区域中各物体的相似度，进而判断目标的位置。

现有的目标跟踪算法通常将第一个视频帧中的目标作为模板，在后续帧的跟踪过程中不再更新模板。然而，特征提取网络并没有提取到通用表征性能强的特征，致使当目标出现较大变化时，特征提取网络提取出的模板目标特征和搜索区域中的目标特征不具备一定的相似性，因此通过计算特征间相关性响应结果不能准确地搜索到目标位置。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种目标跟踪方法、装置和系统以及存储介质。

本发明一方面，提供了一种目标跟踪方法。目标跟踪方法包括：获取目标模板图像和目标搜索图像；将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征；将第一初始特征输入目标跟踪网络中的第一上下文感知网络，以获得目标模板图像的融合显式上下文的第一融合特征，其中，第一融合特征的大小是1×1×c，c是通道数；将第二初始特征输入目标跟踪网络中的第二上下文感知网络，以获得目标搜索图像的融合显式上下文的第二融合特征，其中，第二上下文感知网络与第一上下文感知网络共享权重；以及将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置；其中，在第一上下文感知网络和第二上下文感知网络中，执行以下融合操作：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与第一初始特征中的特征图的大小一致。

本发明的另一方面，提供了一种目标跟踪装置。目标跟踪装置包括：第一获取模块，用于获取目标模板图像和目标搜索图像；特征提取模块，用于将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征；第一融合模块，用于将第一初始特征输入目标跟踪网络中的第一上下文感知网络，以获得目标模板图像的融合显式上下文的第一融合特征，其中，第一融合特征的大小是1×1×c，c是通道数；第二融合模块，用于将第二初始特征输入目标跟踪网络中的第二上下文感知网络，以获得目标搜索图像的融合显式上下文的第二融合特征，其中，第二上下文感知网络与第一上下文感知网络共享权重；以及位置确定模块，用于将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置；其中，在第一上下文感知网络和第二上下文感知网络中，执行以下融合操作：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与第一初始特征中的特征图的大小一致。

本发明的另一方面，提供了一种目标跟踪系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述目标跟踪方法。

本发明的另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述目标跟踪方法。

本发明实施例的目标跟踪方法、装置和系统以及存储介质，将特征提取网络提取出的带有空间信息的初始特征转变为融合显式上下文的特征，随后基于融合特征进行位置预测。与特征提取网络提取出的初始特征相比，这种融合显式上下文的特征可以有效去除空间信息，因此其更具备通用表征性，基于该融合显式上下文的特征而非初始特征进行后续的位置预测，可以更好地应对目标出现变化的情况，进而可以有效提高目标跟踪的精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本发明一个实施例的目标跟踪方法的示意性流程图；

图2示出根据本发明一个实施例的目标跟踪网络的网络结构的示意图；

图3a示出根据本发明一个实施例的带有空间信息的初始特征的示意图；

图3b示出根据本发明一个实施例的融合显式上下文的融合特征的示意图；

图4示出根据本发明一个实施例的在第一上下文感知网络中计算第一融合特征的流程示意图；

图5示出根据本发明一个实施例的采用现有技术与本发明提供的目标跟踪网络进行目标跟踪的OPE成功率对比图；

图6示出根据本发明一个实施例的目标跟踪装置的示意性框图；以及

图7示出根据本发明一个实施例的目标跟踪系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

为了解决上述问题，本发明提出了一种目标跟踪方法。在该目标跟踪方法中，获取目标模板图像和目标搜索图像的融合显式上下文的特征，并利用该融合特征进行位置预测，进而获得目标跟踪结果。与特征提取网络提取出的初始特征相比，这种融合显式上下文的特征可以有效去除空间信息，因此其更具备通用表征性，基于该融合显式上下文的特征而非初始特征进行后续的位置预测，可以更好地应对目标出现变化的情况，进而可以有效提高目标跟踪的精度。本发明实施例提供的目标跟踪方法可以应用于任何需要目标跟踪技术的领域。

图1示出根据本发明一个实施例的目标跟踪方法100的示意性流程图。如图1所示，目标跟踪方法100包括步骤S110-S150。

在步骤S110，获取目标模板图像和目标搜索图像。

在本文中，模板图像是指已用初始框标注好目标所在位置的图像。搜索图像是指需要确定与模板图像匹配的目标位置的图像。

在本文的描述中，目标模板图像中可以包含待跟踪目标，该目标可以是任意类型的物体，包括但不限于人或人体的一部分(例如人脸等)、动物、车辆、建筑物等等。

可选地，目标搜索图像可以是从目标模板图像之后的视频帧中提取出的可能包含目标的图像块。可选地，目标模板图像和目标搜索图像可以是经过归一化处理的图像，例如目标模板图像可以是大小为127×127×3(3为通道数)的图像，目标搜索图像可以是大小为255×255×3(3为通道数)的图像。

目标模板图像和目标搜索图像可以采用常规的目标跟踪算法中的预处理模块进行预处理后获得，本领域技术人员可以理解二者的获得方式，本文不再赘述。

在步骤S120，将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征。

可以利用目标跟踪网络对目标在目标搜索图像中的位置进行检测，所述目标是目标模板图像中的目标，以获得所述目标在目标搜索图像中的目标跟踪结果。目标跟踪网络的输入是目标模板图像和目标搜索图像，其输出可以是位置信息(即目标跟踪结果)，所述位置信息用于指示目标在目标搜索图像中的位置。在一个示例中，目标跟踪结果可以包括用于指示目标所在位置的候选框的坐标以及候选框的分类结果，所述分类结果可以包括对应候选框属于前景(即目标)和背景的概率。在另一个示例中，目标跟踪结果可以包括目标的中心点的坐标。

图2示出根据本发明一个实施例的目标跟踪网络的网络结构的示意图。如图2所示，目标跟踪网络可以包括特征提取网络M1。图2所示的网络结构仅是示例而非对本发明的限制。

可选地，特征提取网络M1可以包括任意合适数目的卷积层、池化层等。可选地，特征提取网络M1可以包括第一特征提取网络和第二特征提取网络，二者可以共享网络权重。可以将目标模板图像和目标搜索图像分别输入第一特征提取网络和第二特征提取网络，以分别独立地提取各自的初始特征。示例性地，特征提取网络M1可以采用任何合适的能够提取图像特征的网络结构实现，例如其可以采用诸如Alexnet的卷积神经网络实现。如图2所示，通过特征提取网络，可以提取目标模板图像的6×6×256大小的特征，作为第一初始特征，并可以提取目标搜索图像的22×22×256大小的特征，作为第二初始特征。本领域技术人员可以理解，神经网络提取的大小为w×h×c的特征可以包括c个特征图(feature map)，每个特征图的大小为w×h。

在步骤S130，将第一初始特征输入目标跟踪网络中的第一上下文感知网络，以获得目标模板图像的融合显式上下文的第一融合特征，其中，第一融合特征的大小是1×1×c，c是通道数。通道数c的大小可以是任意的，本发明不对此进行限制。

现有的目标跟踪算法大多数都是通过预训练好的特征提取网络提取目标的携带空间信息的特征，直接用于特征匹配来搜索目标，但是提取到的目标特征会因带有特定的空间信息而通用表征性不强，影响目标跟踪的精度。根据本发明实施例，为了提高特征(主要是目标模板图像的特征)的表征能力，可以在获取目标模板图像和目标搜索图像的初始特征后，通过融合显式上下文的方式来减少空间信息。

融合特征F_C(x′，y′)可以用以下公式表示：

F_C(x′，y′)＝P(F_C，F_S)×F_S(x，y)；

其中，P(F_C，F_S)表示携带空间信息的初始特征F_S(x，y)与融合显式上下文的融合特征F_C(x′，y′)之间的相似度。F_C(x′，y′)是待求量，无法直接计算P(F_C，F_S)。但是初始特征的特征值(特征值可以理解为特征图上的元素)与特征均值间的相似性可以作为显式上下文来表示初始特征与融合特征之间的相似性。因此，可以用特征值F_S(x，y)与特征均值之间的相似度/>表示P(F_C，F_S)，可以获得：

可见，显式上下文可以通过特征值分布关系来确定，所述特征值分布关系可以理解为特征值与特征均值之间的相似度。也就是说，可以用特征值与特征均值之间的相似度代表显式上下文。通过常规的卷积方式来融合上下文的方法可以理解为隐式上下文融合方法，基于特征值与特征均值之间的相似度来融合上下文的方法可以理解为显式上下文融合方法。

可以理解，目标模板图像的特征具备通用表征性，这样在跟踪过程中，同一目标发生变化时，目标模板图像的特征与目标搜索图像的特征仍然可以比较好地匹配上。在融合第一初始特征的上下文信息时，可以将第一初始特征中的每个w×h大小的特征图融合成1×1大小的特征图，这样可以比较好地去除特征中的空间信息。由于第二上下文感知网络与第一上下文感知网络共享权重，因此目标搜索图像在提取融合特征时经历与目标模板图像类似的操作，但是在第二初始特征的特征图大于第一初始特征的特征图的情况下，第二融合特征的特征图会比1×1大。

参见图2，示出目标跟踪网络中的第一上下文感知网络M2。如图2所示，通过第一上下文感知网络M2，可以将6×6×256大小的第一初始特征转变为1×1×256大小的第一融合特征。第一初始特征是带有空间信息的特征，通用表征性不强，第一融合特征是融合显式上下文的、去除空间信息的特征，更具备通用表征性。

在步骤S140，将第二初始特征输入目标跟踪网络中的第二上下文感知网络，以获得目标搜索图像的融合显式上下文的第二融合特征，其中，第二上下文感知网络与第一上下文感知网络共享权重。

根据本发明实施例，在第一上下文感知网络和第二上下文感知网络中，可以执行以下融合操作：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与第一初始特征中的特征图的大小一致。可以理解，对于第一上下文感知网络来说，所述输入的初始特征是指第一初始特征，所获得的对应的融合特征是指第一融合特征，而对于第二上下文来说，所述输入的初始特征是指第二初始特征，所获得的对应的融合特征是指第二融合特征。

由于每个窗口的大小与第一初始特征中的特征图的大小一致，因此第一初始特征中的每个特征图可以视为是一个窗口，即，在第一上下文感知网络中，是针对每个特征图进行特征融合。而一般目标搜索图像比目标模板图像的面积大，从目标搜索图像中提取的第二初始特征的特征图也会比目标模板图像中提取的第一初始特征的特征图大。因此，在第二初始特征中，每个特征图可以包含多个窗口，窗口与窗口之间可以重叠。在进行融合时，针对第二初始特征中的每个特征图可能包含的所有窗口分别进行融合，例如22×22大小的特征图可以包含17×17个大小为6×6的窗口，分别计算获得17×17个特征均值，进而融合获得17×17个特征值(第二融合特征中的每个特征图的特征值)。

由于直接针对第一初始特征的每个特征图进行融合，所以第一初始特征可以无需进行额外处理，直接输入第一上下文感知网络进行融合。而对于第二初始特征来说，为了方便融合，可以可选地对特征进行展开(unfold)，相当于将不同窗口的特征值分离出来，每个窗口各自形成单独的小一些的特征图，再针对每个窗口形成的特征图进行与第一初始特征的每个特征图类似的融合操作。对第二初始特征进行展开的实现方案将在下文描述。展开后的特征可以视为第二初始特征的另一种表达形式。

第二初始特征输入第二上下文感知网络，该网络与第一上下文感知网络共享权重，因此，第二初始特征经历与第一初始特征类似的处理。参见图2，示出目标跟踪网络中的第二上下文感知网络M3。如图2所示，通过第二上下文感知网络M3，可以将22×22×256大小的第二初始特征转变为17×17×256大小的第二融合特征。

根据本发明实施例，对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合可以包括：对于输入的初始特征中的每个特征图上的每个窗口，对该窗口中的所有特征值求平均，以计算该窗口的特征均值；计算该窗口中的每个特征值与该窗口的特征均值之间的相似度；将该窗口中的每个特征值所对应的相似度作为对应特征值的权重，对该窗口中的所有特征值进行加权求和，以获得对应的融合特征。

可以通过对任一窗口的所有特征值求平均来计算该窗口的特征均值随后，可以计算窗口中的各特征值F_S(x，y)与特征均值/>之间的相似度/>可以将该相似度视为显式上下文。随后，可以将任一特征值与特征均值之间的相似度作为该特征值的权重，对特征值进行加权求和，以得到融合显式上下文的融合特征。

假设第一初始特征大小为6×6×256，则第一初始特征的每个特征图可以包含36个特征值，可以计算任一特征图，例如特征图X的36个特征值的平均值，以获得该特征图X对应的特征均值a。随后，可以计算特征图X的36个特征值与特征均值a之间的相似度，以获得36个相似度值。随后，可以将特征图X的36个特征值分别以各自对应的相似度值作为权重，对这36个特征值进行加权求和，最终获得特征图X对应的融合特征图。

假设第二初始特征大小为22×22×256，可以以每6×6大小的区域为一个窗口，窗口之间具有重叠(类似卷积的滑动窗)，这样第二初始特征的每个特征图有17×17个窗口。可以针对每个特征图上的每个窗口计算特征均值，并计算每个窗口的每个特征值与对应特征均值之间的相似度。随后，可以针对每个特征图上的每个窗口进行特征值的加权求和，最终获得融合特征。融合特征的大小是17×17×256。

对带有空间信息的初始特征的显式上下文的建模方式如图3a和3b所示，图3a示出根据本发明一个实施例的带有空间信息的初始特征的示意图，图3b示出根据本发明一个实施例的融合显式上下文的融合特征的示意图。对位于图3b中深色位置处的融合特征F_C(x′，y′)的融合显式上下文的方式是确定对应的带有空间信息的特征值及邻接特征值分布关系。在图3a和3b中，按照3×3的窗口进行特征融合，初始的6×6大小的特征图将融合得到4×4大小的特征图。

根据本发明实施例，对于输入的初始特征中的每个特征图上的每个窗口，计算该窗口中的每个特征值与该窗口的特征均值之间的相似度包括：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口的特征均值生成均值特征图以获得均值特征，均值特征包括与输入的初始特征的所有窗口一一对应的均值特征图，每个均值特征图与对应窗口的大小一致，且每个均值特征图中的所有特征值均取值为对应窗口的特征均值；以及将输入的初始特征和均值特征拼接在一起，并将拼接后的特征输入用于计算相似度的卷积网络结构，以获得卷积网络结构输出的相似度结果，相似度结果用于指示输入的初始特征所对应的每个窗口中的每个特征值与该窗口的特征均值之间的相似度，其中，卷积网络结构包括至少一个卷积核大小为1×1的卷积层。

示例性地，相似度结果也可以用特征图的形式表示，例如，相似度结果可以包括与初始特征的所有窗口一一对应的相似度特征图，每个相似度特征图与窗口的大小一致，每个相似度特征图中的每个特征值可以表示对应窗口中的对应特征值与该窗口的特征均值之间的相似度。

示例性地，可以采用卷积核大小为1×1的卷积网络来计算F_S(x，y)和间的相似度，确保相似度仅被特征值及特征均值的数值关系影响。卷积网络结构可以包括任意合适数目的卷积层，例如，可以包括5个卷积层，这些卷积层的卷积核大小均为1×1。在一个示例中，卷积网络结构还可以包括在所述至少一个卷积层之后的激活函数层。该激活函数层可以是例如softmax层，在该层中可以利用softmax函数计算相似度的概率值(可以理解为相似度的另一种表示方式)，并将该概率值作为相似度结果输出。激活函数层是可选的，卷积层计算获得的相似度可以作为相似度结果直接输出。

图4示出根据本发明一个实施例的在第一上下文感知网络中计算第一融合特征的流程示意图。如图4所示，可以首先基于第一初始特征计算每个特征图的特征均值。假设第一初始特征的大小是6×6×256，则每个6×6大小的特征图计算获得一个特征均值。基于每个特征均值可以生成一个均值特征图。每个均值特征图与第一初始特征的特征图的大小，即长和宽，是一致的。每个均值特征图中的各个特征值是一样的，都是特征均值，相当于将特征均值复制多份(例如上述示例为复制6×6份)，以生成均值特征图。这样，可以获得与第一初始特征的w、h、c均一致的均值特征。随后，可以将第一初始特征和均值特征拼接在一起。随后，可以将拼接后的特征输入后续的相似度计算模块，例如卷积网络结构，该相似度计算模块可以计算第一初始特征与均值特征之间的相似度。随后，可以将计算的相似度作为权重进行特征值的融合，获得融合特征。

对于目标搜索图像的第二初始特征来说，第二初始特征假设大小是22×22×256，则可以在输入第二上下文感知网络之前，对第二初始特征进行展开，将其由三维张量的形式展开成6×6×17×17×256的五维张量形式。第二初始特征相当于展开成17×17个6×6×256(即第一初始特征)的特征。17×17个特征中的每一个可以视为第一初始特征，在第二上下文感知网络中针对17×17个特征中的每一个执行第一上下文感知网络对第一初始特征的操作。

示例性地，对于输入的初始特征中的每个特征图上的每个窗口，计算该窗口中的每个特征值与该窗口的特征均值之间的相似度包括：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口的特征均值生成均值特征图以获得均值特征，均值特征包括与输入的初始特征的所有窗口一一对应的均值特征图，每个均值特征图与对应窗口的大小一致，且每个均值特征图中的所有特征值均取值为对应窗口的特征均值；以及计算输入的初始特征和均值特征之间的向量内积、均方差和余弦距离中的至少一个值，以获得相似度结果，相似度结果用于指示输入的初始特征所对应的每个窗口中的每个特征值与该窗口的特征均值之间的相似度。

计算均值特征的方式可以参考上文描述。可选地，可以采用任意合适的方式来计算特征之间的相似度。通过向量内积、均方差和余弦距离中的至少一个值计算特征之间的相似度，这种方案实现简单，占用计算资源少，运行速度快。通过这种算法计算初始特征与均值特征之间的相似度可以实现高效的目标跟踪。

在步骤S150，将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置。

参见图2，示出目标跟踪网络中的位置预测模块M4。需注意，虽然图2所示的位置预测模块是区域候选网络(RPN)，但是位置预测模块M4也可以选用RPN以外的其他网络结构实现。

示例性地，位置预测模块可以采用现有或将来可能出现的能够基于第一融合特征和第二融合特征进行特征匹配进而确定目标在目标搜索图像中的位置的网络结构实现。例如，位置预测模块可以是相关性计算模块，此时可以通过直接计算第一融合特征和第二融合特征之间的相关性(或说相似度)来获得目标跟踪结果。又例如，位置预测模块可以是RPN，此时可以基于第一融合特征和第二融合特征提取目标模板图像和目标搜索图像各自的分类特征和回归特征，并进一步通过计算目标模板图像的分类特征和目标搜索图像的分类特征之间的相关性以及目标模板图像的回归特征和目标搜索图像的回归特征之间的相关性来获得目标跟踪结果。

根据本发明实施例的目标跟踪方法，将特征提取网络提取出的带有空间信息的初始特征转变为融合显式上下文的特征，随后基于融合特征进行位置预测。与特征提取网络提取出的初始特征相比，这种融合显式上下文的特征可以有效去除空间信息，因此其更具备通用表征性，基于该融合显式上下文的特征而非初始特征进行后续的位置预测，可以更好地应对目标出现变化的情况，进而可以有效提高目标跟踪的精度。

根据本发明实施例，在将第二初始特征输入目标跟踪网络中的第二上下文感知网络之前，目标跟踪方法100还可以包括：将用三维张量w×h×c表示的第二初始特征展开为五维张量a×b×l×k×c，其中，a×b表示每个窗口的大小，l×k表示所述第二初始特征中的每个特征图所包含的窗口的数目。

上文已经结合示例描述了第二初始特征的展开方式，此处不再赘述。可以理解，第二初始特征整体包含l×k×c个a×b大小的窗口。

根据本发明实施例，位置预测模块是区域候选网络，其中，将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置可以包括：将第一融合特征和第二融合特征分别输入区域候选网络中的分类分支，以获得目标模板图像的第一分类特征和目标搜索图像的第二分类特征；将第一融合特征和第二融合特征分别输入区域候选网络中的回归分支，以获得目标模板图像的第一回归特征和目标搜索图像的第二回归特征；对第一分类特征和第二分类特征进行相关性计算，以获得关于目标搜索图像中的候选框是否属于目标的分类结果；对第一回归特征和第二回归特征进行相关性计算，以获得关于目标搜索图像中的候选框的坐标的回归结果。

RPN的分类分支可以包括第一分类网络(如图2所示的M41)和第二分类网络(如图2所示的M42)，分别用于对第一融合特征和第二融合特征进行处理，以获得各自对应的分类特征，其中，第一分类网络和第二分类网络可以共享权重。RPN的回归分支可以包括第一回归网络(如图2所示的M43)和第二回归网络(如图2所示的M43)，分别用于对第一融合特征和第二融合特征进行处理，以获得各自对应的回归特征，其中，第一回归网络和第二回归网络可以共享权重。

返回参考图2，可以将第一融合特征输入第一分类网络M41，获得大小为1×1×2k×256的第一分类特征，将第二融合特征输入第二分类网络M42，获得大小为17×17×2k×256的第二分类特征。同时，可以将第一融合特征输入第一回归网络，获得大小为1×1×4k×246的第一回归特征，将第二融合特征输入第二回归网络，获得大小为17×17×4k×256的第二回归特征。

随后，可以计算第一分类特征和第二分类特征之间的相关性，例如，将第一分类特征作为卷积核对第二分类特征进行卷积，进而获得大小为17×17×2k的分类结果。类似地，可以计算第一回归特征和第二回归特征之间的相关性，例如，将第一回归特征作为卷积核对第二回归特征进行卷积，进而获得大小为17×17×4k的回归结果。

在上文描述中，k表示锚点(anchor)的数量，本领域技术人员可以理解RPN中的分类分支和回归分支的结构、算法原理以及输入输出的数据形式，本文不做赘述。

通过RPN实现位置预测模块的方式可以比较准确地定位目标的位置和大小。

根据本发明实施例，位置预测模块是相关性计算模块，将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置包括：在相关性计算模块中，对第一融合特征和第二融合特征进行相关性计算，以获得目标在目标搜索图像中的位置信息。

在获得第一融合特征和第二融合特征之后，可以直接对二者进行相关性计算，例如以第一融合特征作为卷积核对第二融合特征进行卷积，获得的结果即为所需的目标跟踪结果。这种方案可以确定目标在目标搜索图像上的中心位置。而上述采用RPN的方案可以进一步确定目标所在位置处的候选框(bounding box)的坐标。

直接进行相关性计算的方案实现简单，计算量小，可以较好地应用于计算受限的平台(例如移动终端)。

根据本发明实施例，方法100还可以包括：获取样本模板图像和样本搜索图像以及标注数据，标注数据用于指示样本模板图像中的样本目标在样本搜索图像中的位置；将样本模板图像和样本搜索图像输入目标跟踪网络，以获得样本跟踪结果；基于样本跟踪结果和标注数据计算损失函数；利用损失函数对目标跟踪网络中的参数进行迭代训练。

在实际执行目标跟踪任务之前，即在步骤S110之前，可以执行目标跟踪网络的训练步骤。为了区分，本文将用于训练目标跟踪网络的模板图像和搜索图像称为样本模板图像和样本搜索图像，将实际执行目标跟踪任务所涉及的模板图像和搜索图像称为目标模板图像和目标搜索图像。

样本目标图像和样本搜索图像可以预先准备好，并预先标注好样本目标在样本搜索图像中的位置。样本模板图像和样本搜索图像分别与上述目标模板图像和模板搜索图像大小一致，并在目标跟踪网络中分别经历与目标模板图像和目标搜索图像类似的处理，最终获得样本跟踪结果。随后，可以计算损失函数，并通过随机梯度下降优化算法最小化损失函数。通过对网络参数的迭代训练，最终可以获得满足要求的目标跟踪网络。本领域技术人员可以理解利用样本模板图像、样本搜索图像以及标注数据对目标跟踪网络进行训练的方式，本文不做赘述。

采用上述目标跟踪方法100，可以有效提升目标跟踪的精度。在评估目标跟踪方法100的精度时，采用的评估数据库是OTB2015，其包含从常用跟踪序列中收集的100个序列。评估通常基于两个指标：精度图和成功图(即图5所示的OPE成功率绘图)，其中，成功图显示重叠阈值从0变为1时成功帧的比率，成功帧是指其中检测到的目标与正确目标的重叠量大于给定的重叠阈值的帧。成功曲线的曲线下面积(AUC)用于排序跟踪算法。

在基于OTB2015各项影响因素下，上述目标跟踪方法100都较现有技术的目标跟踪算法有着稳定的性能提升。从算法总体精度上看，在采用相同的特征提取网络时，添加上下文感知网络的改进算法较现有的目标跟踪算法有14.5％的性能精度提升，结果如图5所示。图5示出根据本发明一个实施例的采用现有技术(siamrpn_alex)与本发明提供的目标跟踪网络(commonsense)进行目标跟踪的OPE成功率对比图。图5中虚线表示现有技术，实线表示本发明提供的目标跟踪网络。参见图5，可知本发明提供的目标跟踪网络相对现有技术具有较大的性能提升。

根据本发明另一方面，提供一种目标跟踪装置。图6示出了根据本发明一个实施例的目标跟踪装置600的示意性框图。

如图6所示，根据本发明实施例的目标跟踪装置600包括第一获取模块610、特征提取模块620、第一融合模块630、第二融合模块640和位置确定模块650。所述各个模块可分别执行上文中结合图1-5描述的目标跟踪方法的各个步骤/功能。以下仅对该目标跟踪装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

第一获取模块610用于获取目标模板图像和目标搜索图像。

特征提取模块620用于将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征。

第一融合模块630用于将第一初始特征输入目标跟踪网络中的第一上下文感知网络，以获得目标模板图像的融合显式上下文的第一融合特征，其中，第一融合特征的大小是1×1×c，c是通道数；

第二融合模块640用于将第二初始特征输入目标跟踪网络中的第二上下文感知网络，以获得目标搜索图像的融合显式上下文的第二融合特征，其中，第二上下文感知网络与第一上下文感知网络共享权重，其中，在第一上下文感知网络和第二上下文感知网络中，执行以下融合操作：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与第一初始特征中的特征图的大小一致。

位置确定模块650用于将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置。

示例性地，对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合包括：对于输入的初始特征中的每个特征图上的每个窗口，对该窗口中的所有特征值求平均，以计算该窗口的特征均值；计算该窗口中的每个特征值与该窗口的特征均值之间的相似度；将该窗口中的每个特征值所对应的相似度作为对应特征值的权重，对该窗口中的所有特征值进行加权求和，以获得对应的融合特征。

示例性地，对于输入的初始特征中的每个特征图上的每个窗口，计算该窗口中的每个特征值与该窗口的特征均值之间的相似度包括：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口的特征均值生成均值特征图以获得均值特征，均值特征包括与输入的初始特征的所有窗口一一对应的均值特征图，每个均值特征图与对应窗口的大小一致，且每个均值特征图中的所有特征值均取值为对应窗口的特征均值；以及将输入的初始特征和均值特征拼接在一起，并将拼接后的特征输入用于计算相似度的卷积网络结构，以获得卷积网络结构输出的相似度结果，相似度结果用于指示输入的初始特征所对应的每个窗口中的每个特征值与该窗口的特征均值之间的相似度，其中，卷积网络结构包括至少一个卷积核大小为1×1的卷积层。

示例性地，目标跟踪装置600还包括：展开模块，用于在第二融合模块540将第二初始特征输入目标跟踪网络中的第二上下文感知网络之前，将用三维张量w×h×c表示的第二初始特征展开为五维张量a×b×l×k×c，其中，a×b表示每个窗口的大小，l×k表示第二初始特征中的每个特征图所包含的窗口的数目。

示例性地，位置预测模块是区域候选网络，其中，位置确定模块包括：分类子模块，用于将第一融合特征和第二融合特征分别输入区域候选网络中的分类分支，以获得目标模板图像的第一分类特征和目标搜索图像的第二分类特征；回归子模块，用于将第一融合特征和第二融合特征分别输入区域候选网络中的回归分支，以获得目标模板图像的第一回归特征和目标搜索图像的第二回归特征；第一计算子模块，用于对第一分类特征和第二分类特征进行相关性计算，以获得关于目标搜索图像中的候选框是否属于目标的分类结果；第二计算子模块，用于对第一回归特征和第二回归特征进行相关性计算，以获得关于目标搜索图像中的候选框的坐标的回归结果。

示例性地，位置预测模块是相关性计算模块，位置确定模块包括：第三计算子模块，用于在相关性计算模块中，对第一融合特征和第二融合特征进行相关性计算，以获得目标在目标搜索图像中的位置信息。

示例性地，目标跟踪装置600还包括：第二获取模块，用于获取样本模板图像和样本搜索图像以及标注数据，标注数据用于指示样本模板图像中的样本目标在样本搜索图像中的位置；输入模块，用于将样本模板图像和样本搜索图像输入目标跟踪网络，以获得样本跟踪结果；损失计算模块，用于基于样本跟踪结果和标注数据计算损失函数；训练模块，用于利用损失函数对目标跟踪网络中的参数进行迭代训练。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图7示出了根据本发明一个实施例的目标跟踪系统700的示意性框图。目标跟踪系统700包括存储器710以及处理器720。

所述存储器710存储用于实现根据本发明实施例的目标跟踪方法中的相应步骤的计算机程序指令。

所述处理器720用于运行所述存储器710中存储的计算机程序指令，以执行根据本发明实施例的目标跟踪方法的相应步骤。

在一个实施例中，计算机程序指令被处理器720运行时用于执行以下步骤：获取目标模板图像和目标搜索图像；将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征；将第一初始特征输入目标跟踪网络中的第一上下文感知网络，以获得目标模板图像的融合显式上下文的第一融合特征，其中，第一融合特征的大小是1×1×c，c是通道数；将第二初始特征输入目标跟踪网络中的第二上下文感知网络，以获得目标搜索图像的融合显式上下文的第二融合特征，其中，第二上下文感知网络与第一上下文感知网络共享权重；以及将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置；其中，在第一上下文感知网络和第二上下文感知网络中，执行以下融合操作：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与第一初始特征中的特征图的大小一致。

示例性地，在计算机程序指令被处理器720运行时所用于执行的将第二初始特征输入目标跟踪网络中的第二上下文感知网络的步骤之前，计算机程序指令被处理器720运行时还用于执行：将用三维张量w×h×c表示的第二初始特征展开为五维张量a×b×l×k×c，其中，a×b表示每个窗口的大小，l×k表示第二初始特征中的每个特征图所包含的窗口的数目。

示例性地，位置预测模块是区域候选网络，其中，计算机程序指令被处理器720运行时所用于执行的将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置的步骤包括：将第一融合特征和第二融合特征分别输入区域候选网络中的分类分支，以获得目标模板图像的第一分类特征和目标搜索图像的第二分类特征；将第一融合特征和第二融合特征分别输入区域候选网络中的回归分支，以获得目标模板图像的第一回归特征和目标搜索图像的第二回归特征；对第一分类特征和第二分类特征进行相关性计算，以获得关于目标搜索图像中的候选框是否属于目标的分类结果；对第一回归特征和第二回归特征进行相关性计算，以获得关于目标搜索图像中的候选框的坐标的回归结果。

示例性地，位置预测模块是相关性计算模块，计算机程序指令被处理器720运行时所用于执行的将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置的步骤包括：在相关性计算模块中，对第一融合特征和第二融合特征进行相关性计算，以获得目标在目标搜索图像中的位置信息。

示例性地，计算机程序指令被处理器720运行时还用于执行：获取样本模板图像和样本搜索图像以及标注数据，标注数据用于指示样本模板图像中的样本目标在样本搜索图像中的位置；将样本模板图像和样本搜索图像输入目标跟踪网络，以获得样本跟踪结果；基于样本跟踪结果和标注数据计算损失函数；利用损失函数对目标跟踪网络中的参数进行迭代训练。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的目标跟踪方法的相应步骤，并且用于实现根据本发明实施例的目标跟踪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的目标跟踪装置的各个功能模块，并和/或者可以执行根据本发明实施例的目标跟踪方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取目标模板图像和目标搜索图像；将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征；将第一初始特征输入目标跟踪网络中的第一上下文感知网络，以获得目标模板图像的融合显式上下文的第一融合特征，其中，第一融合特征的大小是1×1×c，c是通道数；将第二初始特征输入目标跟踪网络中的第二上下文感知网络，以获得目标搜索图像的融合显式上下文的第二融合特征，其中，第二上下文感知网络与第一上下文感知网络共享权重；以及将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置；其中，在第一上下文感知网络和第二上下文感知网络中，执行以下融合操作：对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与第一初始特征中的特征图的大小一致。

示例性地，在程序指令在运行时所用于执行的将第二初始特征输入目标跟踪网络中的第二上下文感知网络的步骤之前，程序指令在运行时还用于执行：将用三维张量w×h×c表示的第二初始特征展开为五维张量a×b×l×k×c，其中，a×b表示每个窗口的大小，l×k表示第二初始特征中的每个特征图所包含的窗口的数目。

示例性地，位置预测模块是区域候选网络，其中，程序指令在运行时所用于执行的将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置的步骤包括：将第一融合特征和第二融合特征分别输入区域候选网络中的分类分支，以获得目标模板图像的第一分类特征和目标搜索图像的第二分类特征；将第一融合特征和第二融合特征分别输入区域候选网络中的回归分支，以获得目标模板图像的第一回归特征和目标搜索图像的第二回归特征；对第一分类特征和第二分类特征进行相关性计算，以获得关于目标搜索图像中的候选框是否属于目标的分类结果；对第一回归特征和第二回归特征进行相关性计算，以获得关于目标搜索图像中的候选框的坐标的回归结果。

示例性地，位置预测模块是相关性计算模块，程序指令在运行时所用于执行的将第一融合特征和第二融合特征输入目标跟踪网络中的位置预测模块，以确定目标模板图像中的目标在目标搜索图像中的位置的步骤包括：在相关性计算模块中，对第一融合特征和第二融合特征进行相关性计算，以获得目标在目标搜索图像中的位置信息。

示例性地，程序指令在运行时还用于执行：获取样本模板图像和样本搜索图像以及标注数据，标注数据用于指示样本模板图像中的样本目标在样本搜索图像中的位置；将样本模板图像和样本搜索图像输入目标跟踪网络，以获得样本跟踪结果；基于样本跟踪结果和标注数据计算损失函数；利用损失函数对目标跟踪网络中的参数进行迭代训练。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同系统来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的系统解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，包括：

获取目标模板图像和目标搜索图像；

将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；

将所述第一初始特征输入所述目标跟踪网络中的第一上下文感知网络，以获得所述目标模板图像的融合显式上下文的第一融合特征，其中，所述第一融合特征的大小是1×1×c，c是通道数；

将所述第二初始特征输入所述目标跟踪网络中的第二上下文感知网络，以获得所述目标搜索图像的融合显式上下文的第二融合特征，其中，所述第二上下文感知网络与所述第一上下文感知网络共享权重；以及

将所述第一融合特征和所述第二融合特征输入所述目标跟踪网络中的位置预测模块，以确定所述目标模板图像中的目标在所述目标搜索图像中的位置；

其中，在所述第一上下文感知网络和所述第二上下文感知网络中，执行以下融合操作：

对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合，以获得对应的融合特征，其中，每个窗口的大小与所述第一初始特征中的特征图的大小一致。

2.如权利要求1所述的方法，其中，所述对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口中的各特征值与该窗口的特征均值之间的相似度对该窗口中的各特征值进行融合包括：

对于输入的初始特征中的每个特征图上的每个窗口，对该窗口中的所有特征值求平均，以计算该窗口的特征均值；

计算该窗口中的每个特征值与该窗口的特征均值之间的相似度；

将该窗口中的每个特征值所对应的相似度作为对应特征值的权重，对该窗口中的所有特征值进行加权求和，以获得对应的融合特征。

3.如权利要求2所述的方法，其中，所述对于输入的初始特征中的每个特征图上的每个窗口，计算该窗口中的每个特征值与该窗口的特征均值之间的相似度包括：

对于输入的初始特征中的每个特征图上的每个窗口，基于该窗口的特征均值生成均值特征图以获得均值特征，所述均值特征包括与输入的初始特征的所有窗口一一对应的均值特征图，每个均值特征图与对应窗口的大小一致，且每个均值特征图中的所有特征值均取值为对应窗口的特征均值；以及

将输入的初始特征和所述均值特征拼接在一起，并将拼接后的特征输入用于计算相似度的卷积网络结构，以获得所述卷积网络结构输出的相似度结果，所述相似度结果用于指示输入的初始特征所对应的每个窗口中的每个特征值与该窗口的特征均值之间的相似度，其中，所述卷积网络结构包括至少一个卷积核大小为1×1的卷积层。

4.如权利要求2所述的方法，其中，所述对于输入的初始特征中的每个特征图上的每个窗口，计算该窗口中的每个特征值与该窗口的特征均值之间的相似度包括：

计算输入的初始特征和所述均值特征之间的向量内积、均方差和余弦距离中的至少一个值，以获得相似度结果，所述相似度结果用于指示输入的初始特征所对应的每个窗口中的每个特征值与该窗口的特征均值之间的相似度。

5.如权利要求1至4任一项所述的方法，其中，在所述将所述第二初始特征输入所述目标跟踪网络中的第二上下文感知网络之前，所述目标跟踪方法还包括：

将用三维张量w×h×c表示的所述第二初始特征展开为五维张量a×b×l×k×c，其中，a×b表示每个窗口的大小，l×k表示所述第二初始特征中的每个特征图所包含的窗口的数目。

6.如权利要求1至4任一项所述的方法，其中，所述位置预测模块是区域候选网络，其中，所述将所述第一融合特征和所述第二融合特征输入所述目标跟踪网络中的位置预测模块，以确定所述目标模板图像中的目标在所述目标搜索图像中的位置包括：

将所述第一融合特征和所述第二融合特征分别输入所述区域候选网络中的分类分支，以获得所述目标模板图像的第一分类特征和所述目标搜索图像的第二分类特征；

将所述第一融合特征和所述第二融合特征分别输入所述区域候选网络中的回归分支，以获得所述目标模板图像的第一回归特征和所述目标搜索图像的第二回归特征；

对所述第一分类特征和所述第二分类特征进行相关性计算，以获得关于所述目标搜索图像中的候选框是否属于所述目标的分类结果；

对所述第一回归特征和所述第二回归特征进行相关性计算，以获得关于所述目标搜索图像中的候选框的坐标的回归结果。

7.如权利要求1至4任一项所述的方法，其中，所述位置预测模块是相关性计算模块，所述将所述第一融合特征和所述第二融合特征输入所述目标跟踪网络中的位置预测模块，以确定所述目标模板图像中的目标在所述目标搜索图像中的位置包括：

在所述相关性计算模块中，对所述第一融合特征和所述第二融合特征进行相关性计算，以获得所述目标在所述目标搜索图像中的位置信息。

8.如权利要求1至4任一项所述的方法，其中，所述方法还包括：

获取样本模板图像和样本搜索图像以及标注数据，所述标注数据用于指示所述样本模板图像中的样本目标在所述样本搜索图像中的位置；

将所述样本模板图像和所述样本搜索图像输入所述目标跟踪网络，以获得样本跟踪结果；

基于所述样本跟踪结果和所述标注数据计算损失函数；

利用所述损失函数对所述目标跟踪网络中的参数进行迭代训练。

9.一种目标跟踪装置，包括：

第一获取模块，用于获取目标模板图像和目标搜索图像；

特征提取模块，用于将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；

第一融合模块，用于将所述第一初始特征输入所述目标跟踪网络中的第一上下文感知网络，以获得所述目标模板图像的融合显式上下文的第一融合特征，其中，所述第一融合特征的大小是1×1×c，c是通道数；

第二融合模块，用于将所述第二初始特征输入所述目标跟踪网络中的第二上下文感知网络，以获得所述目标搜索图像的融合显式上下文的第二融合特征，其中，所述第二上下文感知网络与所述第一上下文感知网络共享权重；以及

位置确定模块，用于将所述第一融合特征和所述第二融合特征输入所述目标跟踪网络中的位置预测模块，以确定所述目标模板图像中的目标在所述目标搜索图像中的位置；

10.一种目标跟踪系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至8任一项所述的目标跟踪方法。

11.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在被处理器执行时用于实现如权利要求1至8任一项所述的目标跟踪方法。