CN111008992A

CN111008992A - 目标跟踪方法、装置和系统及存储介质

Info

Publication number: CN111008992A
Application number: CN201911194289.4A
Authority: CN
Inventors: 李健宁; 于立冬
Original assignee: Yushi Technology Nanjing Co Ltd
Current assignee: Uisee Technology Zhejiang Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-14
Anticipated expiration: 2039-11-28
Also published as: CN111008992B

Abstract

本发明实施例提供一种目标跟踪方法、装置和系统以及存储介质。方法包括：获取目标模板图像和目标搜索图像；将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征；将第一初始特征输入目标跟踪网络中的第一前景背景分离网络，以获得第一前景特征；将第二初始特征输入目标跟踪网络中的第二前景背景分离网络，以获得第二前景特征，第二前景背景分离网络与第一前景背景分离网络共享权重；对第一前景特征与第二前景特征进行相关性计算，以获得第一相关性响应结果；基于第一相关性响应结果进行位置预测，以获得目标跟踪结果。可以有效提高目标跟踪精度。

Description

目标跟踪方法、装置和系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地涉及一种目标跟踪方法、装置和系统及存储介质。

背景技术

目标跟踪技术是计算机视觉领域的一个比较重要的研究方向。目标跟踪技术可以应用在很多方面，例如视频监控、人机交互、无人驾驶等。现有的一些目标跟踪技术采用基于孪生神经网络模型的跟踪算法，其方法是将初始给定的目标(模板图像中的物体)作为模板，从后续视频帧中提取搜索区域(或称候选区域)，获得搜索图像，利用预训练网络模型提取模板图像的特征及搜索图像的特征，随后通过相似性学习的方法计算模板图像中的目标与搜索区域中各物体的相似度，进而判断目标的位置。

在单目标跟踪任务下，对于输入的视频帧，前景及背景的定义并非绝对的，而是依赖于在第一个视频帧(即模板图像)中选定的目标，即将模板图像上用初始框标注的目标定义为前景，其余图像信息均定义为背景，是一个相对二分类问题。现有的目标跟踪算法，在跟踪目标的过程中，选定第一个视频帧作为模板图像，并且固定该模板不再更新，这样做虽然一定程度上可以避免更新模板带来的误差累计及计算量问题，但是由于真实驾驶场景或制导武器飞行过程中，无论视觉场景较为单一还是发生较大变化时，使用这样携带着大量背景信息的特征来搜索匹配目标都会带来严重的偏差。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种目标跟踪方法、装置和系统以及存储介质。

本发明一方面，提供了一种目标跟踪方法。目标跟踪方法包括：获取目标模板图像和目标搜索图像；将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征；将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重；对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果；基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

本发明的另一方面，提供了一种目标跟踪装置，包括：第一获取模块，用于获取目标模板图像和目标搜索图像；特征提取模块，用于将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；第一分离模块，用于将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征；第二分离模块，用于将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重；第一相关性计算模块，用于对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果；预测模块，用于基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

本发明另一方面，提供了一种目标跟踪系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述目标跟踪方法。

本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述目标跟踪方法。

本发明实施例的目标跟踪方法、装置和系统以及存储介质，分离提取目标模板图像和目标搜索图像的前景特征，基于提取出的前景特征进行相关性计算，进而预测目标在目标搜索图像中的位置。这种方案可以有效利用前景特征的使用价值，由于前景背景分离，因此匹配效果更好，可以有效提高目标跟踪精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本发明一个实施例的目标跟踪方法的示意性流程图；

图2示出根据本发明一个实施例的目标跟踪网络的网络结构的示意图；

图3示出根据本发明一个实施例的采用现有技术与本发明提供的目标跟踪网络进行目标跟踪的OPE成功率对比图；

图4示出根据本发明一个实施例的目标跟踪装置的示意性框图；以及

图5示出根据本发明一个实施例的目标跟踪系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

为了解决上述问题，本发明提出了一种目标跟踪方法。在该目标跟踪方法中，分离提取目标模板图像和目标搜索图像的前景特征，并至少基于提取出的前景特征进行目标位置的预测，这样做可以有效提高目标跟踪的精度。本发明实施例提供的目标跟踪方法可以应用于任何需要目标跟踪技术的领域。

图1示出根据本发明一个实施例的目标跟踪方法100的示意性流程图。如图1所示，目标跟踪方法100包括步骤S110-S160。

在步骤S110，获取目标模板图像和目标搜索图像。

在本实施例中，模板图像是指已用初始框标注好目标所在位置的图像。搜索图像是指需要从中确定与模板图像匹配的目标所在位置的图像。为了区分，本文将用于训练目标跟踪网络的模板图像和搜索图像称为样本模板图像和样本搜索图像，将实际执行目标跟踪任务所涉及的模板图像和搜索图像称为目标模板图像和目标搜索图像。

在本文的描述中，目标模板图像中可以包含待跟踪目标，该目标可以是任意类型的物体，包括但不限于人或人体的一部分(例如人脸等)、动物、车辆、建筑物等等。

可选地，目标搜索图像可以是从目标模板图像之后的视频帧中提取出的任一可能包含目标的图像块。可选地，目标模板图像和目标搜索图像可以是经过归一化处理的图像，例如目标模板图像可以是大小为127×127×3(3为通道数)的图像，目标搜索图像可以是大小为255×255×3(3为通道数)的图像。

目标模板图像和目标搜索图像可以采用常规的目标跟踪算法中的预处理模块进行预处理后获得，本领域技术人员可以理解二者的获得方式，本文不做赘述。

在步骤S120，将目标模板图像和目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取目标模板图像的第一初始特征和目标搜索图像的第二初始特征。

可以利用目标跟踪网络对目标模板图像中的目标在目标搜索图像中的位置进行检测，以获得所述目标在目标搜索图像中的目标跟踪结果。目标跟踪网络的输入是目标模板图像和目标搜索图像，其输出可以是用于指示目标在目标搜索图像中的位置的位置信息(即目标跟踪结果)。在一个示例中，目标跟踪结果可以包括用于指示目标所在位置的候选框(bounding box)的坐标以及候选框的分类结果，所述分类结果可以包括对应候选框属于前景(即目标)和背景的概率。在另一个示例中，目标跟踪结果可以包括目标的中心点的坐标。

图2示出根据本发明一个实施例的目标跟踪网络的网络结构的示意图。如图2所示，目标跟踪网络可以包括特征提取网络M1、第一前景背景分离网络M2、第二前景背景分离网络M3、相关性计算模块M4、融合模块M5和位置预测网络M6。图2所示的网络结构仅是示例而非对本发明的限制。例如，融合模块M5是可选的，其可以没有。又例如，图2示出位置预测网络M6为区域候选网络(RPN)，但是位置预测网络M6也可以选用RPN以外的其他网络结构实现。又例如，图2示出第一前景背景分离网络M2包括两部分网络结构，即用于提取第一前景特征的第一前景分离网络CONV_fg和用于提取第一背景特征的第一背景分离网络CONV_bg，但是第一前景背景分离网络M2也可以仅包含用于提取第一前景特征的网络结构。第二前景背景分离网络M3与第一前景背景分离网络M2类似，不再赘述。

可选地，特征提取网络M1可以包括任意合适数目的卷积层、池化层等。可选地，特征提取网络M1可以包括第一特征提取网络和第二特征提取网络，二者可以共享网络权重。可以将目标模板图像和目标搜索图像分别输入第一特征提取网络和第二特征提取网络，以分别独立地提取各自的初始特征。示例性地，特征提取网络M1可以采用任何合适的能够提取图像特征的网络结构实现，例如其可以采用诸如Alexnet的卷积神经网络实现。如图2所示，通过特征提取网络，可以提取目标模板图像的6×6×256大小的特征，作为第一初始特征，并可以提取目标搜索图像的22×22×256大小的特征，作为第二初始特征。

在步骤S130，将第一初始特征输入目标跟踪网络中的第一前景背景分离网络，以获得目标模板图像的第一前景特征。

可选地，第一前景背景分离网络可以包括任意合适数目的卷积层、池化层等。第一前景背景分离网络可以仅提取目标模板图像的前景特征，也可以同时提取目标模板图像的前景特征和背景特征。

示例性地，第一前景背景分离网络可以包括第一前景分离网络和第一背景分离网络，第二前景背景分离网络可以包括第二前景分离网络和第二背景分离网络，其中，第一前景分离网络和第二前景分离网络可以共享权重，第一背景分离网络和第二背景分离网络可以共享权重。如图2所示，可以将第一初始特征分别输入第一前景分离网络CONV_fg和第一背景分离网络CONV_bg，分别获得第一前景特征k_fg和第一背景特征k_bg。

在步骤S140，将第二初始特征输入目标跟踪网络中的第二前景背景分离网络，以获得目标搜索图像的第二前景特征，第二前景背景分离网络与第一前景背景分离网络共享权重。

与第一前景背景分离网络类似地，第二前景背景分离网络可以包括任意合适数目的卷积层、池化层等。第二前景背景分离网络可以仅提取目标搜索图像的前景特征，也可以同时提取目标搜索图像的前景特征和背景特征。

如图2所示，可以将第二初始特征分别输入第二前景分离网络CONV_fg和第二背景分离网络CONV_bg，分别获得第二前景特征s_fg和第二背景特征s_bg。

在步骤S150，对第一前景特征与第二前景特征进行相关性计算，以获得第一相关性响应结果。

在该步骤中，可以将第一前景特征k_fg和第二前景特征s_fg输入相关性计算模块M4进行相关性计算。在图2中，示出相关性计算模块M4包括四个子模块，分别计算四组特征之间的相关性，这仅是示例，相关性计算模块M4可以仅计算第一前景特征k_fg和第二前景特征s_fg之间的相关性。当然，相关性计算模块M4还可以计算剩余三组特征中的任意一组或多组的相关性。

相关性计算可以理解为是对相似度的计算。例如，可以将第一前景特征作为卷积核对第二前景特征进行卷积，以获得二者的相关性响应结果。

在步骤S160，基于第一相关性响应结果进行位置预测，以获得目标跟踪结果。

步骤S160可以包括：基于第一相关性响应结果获得总的相关性响应结果，将该总的相关性响应结果输入位置预测网络M6，以获得目标跟踪结果。相关性响应结果(包括各相关性响应结果以及总的相关性响应结果)的表达形式与图像的特征图(feature map)是一致的，因此，可以将相关性响应结果输入位置预测网络进行处理。

在一个示例中，仅计算第一相关性响应结果，此时可以将第一相关性响应结果作为总的相关性响应结果直接输入位置预测网络。在另一个示例中，可以计算多种相关性响应结果(例如第一相关性响应结果以及下述第二相关性响应结果等)，此时可以对多种相关性响应结果进行融合，将经融合的相关性响应结果作为总的相关性响应结果输入位置预测网络。

位置预测网络可以采用任何合适的能够基于相关性响应结果确定目标位置的网络结构实现。例如，位置预测网络可以是RPN，其划分为分类分支和回归分支，这两个分支可以分别基于总的相关性响应结果确定目标所在的回归框的坐标以及回归框属于前景(目标)和背景的概率。本领域技术人员可以理解RPN中的分类分支和回归分支的结构、算法原理以及输入输出的数据形式，本文不做赘述。

根据本发明实施例，分离提取目标模板图像和目标搜索图像的前景特征，基于提取出的前景特征进行相关性计算，进而预测目标在目标搜索图像中的位置。这种方案可以有效利用前景特征的使用价值，由于前景背景分离，因此匹配效果更好，可以有效提高目标跟踪精度。

根据本发明实施例，第一前景背景分离网络还输出目标模板图像的第一背景特征和/或第二前景背景分离网络还输出目标搜索图像的第二背景特征，其中，在基于第一相关性响应结果进行位置预测(步骤S160)之前，方法100还可以包括以下一种或多种相关性计算：对第一前景特征与第二背景特征进行相关性计算，以获得第二相关性响应结果；对第一背景特征与第二前景特征进行相关性计算，以获得第三相关性响应结果；对第一背景特征与第二背景特征进行相关性计算，以获得第四相关性响应结果。基于第一相关性响应结果进行位置预测，以获得目标跟踪结果(步骤S160)可以包括：对计算获得的各相关性响应结果进行融合；以及将经融合的相关性响应结果输入位置预测网络，以获得目标跟踪结果。

示例性地，可以基于以下公式对计算获得的各相关性响应结果进行融合：

S_sum＝λ₁F_TFt*F_SFt+λ₂F_TFt*F_SBt+λ₃F_TBt*F_SFt+λ₄F_TBt*F_SBt，

其中，S_sum是经融合的相关性响应结果，λ_i是第i相关性响应结果的权重，F_TFt是第一前景特征，F_TBt是第一背景特征，F_SFt是第二前景特征，F_SBt是第二背景特征。

可选地，各相关性响应结果的权重可以是固定设置的，在目标跟踪过程中不变的。可选地，各相关性响应结果的权重也可以是可调整的，在目标跟踪过程中可以调整。无论是否调整，均可以将各相关性响应结果的权重限定在一定范围内。

例如，λ₁不为0，λ₂、λ₃、λ₄中任意一项均可以为0。比较可取的是，λ₄尽量不为0。

虽然目标跟踪任务更关注前景特征，但是背景特征之间的相关性也可以一定程度上辅助对目标的识别。例如，当背景变化不大的情况下，目标模板图像的背景特征应与目标搜索图像的背景特征具有较大的相关性；当背景变化较大的情况下，两者的背景特征应具有较小的相关性。因此，可以将目标模板图像和目标搜索图像的背景特征的相关性纳入考虑，这有助于进一步提高目标跟踪的精度。

此外，目标与背景之间通常有较大的外观差异，因此前景特征与背景特征之间应具有较小的相关性，因此可以进一步将目标模板图像的前景特征与目标搜索图像的背景特征之间的相关性和/或目标模板图像的背景特征与目标搜索图像的前景特征之间的相关性纳入考虑，这样也有助于进一步提高目标跟踪的精度。

根据本发明实施例，λ₁和λ₄为正值，λ₂和λ₃为负值，λ₄小于λ₁。例如，λ₁可以取值为1，λ₄的取值范围可以是0.4～0.6，λ₂和λ₃的取值范围可以是-0.4～-0.6。

由于目标跟踪任务更关注前景特征，因此，在对各相关性响应结果进行加权融合时，前景特征间的相关性响应结果可以赋予较大的正值权重，背景特征间的相关性响应结果可以赋予较小的正值权重，而前景特征与背景特征间的相关性响应结果可以赋予负值权重。这种权重设置方案是一种比较合理的方案，有助于更好地检测目标。

根据本发明实施例，方法100还可以包括：当第一相关性响应结果指示第一前景特征与第二前景特征的相关性减小时，降低第一相关性响应结果的权重，当第一相关性响应结果指示第一前景特征与第二前景特征的相关性增大时，提高第一相关性响应结果的权重；和/或当第四相关性响应结果指示第一背景特征与第二背景特征的相关性减小时，降低第四相关性响应结果的权重，当第四相关性响应结果指示第一背景特征与第二背景特征的相关性增大时，提高第四相关性响应结果的权重。

如上所述，在目标跟踪过程中，可以适时调整相关性响应结果的权重。前景特征之间的相关性减小时，该前景特征的相关性的重要性将变小，此时可以选择将其权重λ₁降低。比较可取的是，可以为第一相关性响应结果的权重λ₁设置最低限，即该权重最多可以降低到最低限为止。反之，前景特征之间的相关性增大时，该前景特征的相关性的重要性将增大，此时可以选择将其权重λ₁提高。比较可取的是，可以为第一相关性响应结果的权重λ₁设置最高限，即该权重最多可以降低到最高限为止。第四相关性响应结果的权重λ₄的调整原理类似，不再赘述。调整权重之后，可以重新执行上述步骤S110-S160。通过适时调整相关性响应结果的权重，可以不断优化当前获得的目标跟踪结果的准确度。

根据本发明实施例，基于第一相关性响应结果进行位置预测，以获得目标跟踪结果(步骤S160)可以包括：将第一相关性响应结果输入位置预测网络，以获得目标跟踪结果。

上文已经描述了，可以仅计算第一相关性响应结果并直接将第一相关性响应结果输入位置预测网络，此处不再赘述。这种方案网络结构简单，计算量小。

根据本发明实施例，位置预测网络可以包括卷积网络层或区域候选网络，卷积网络层包括一个或多个卷积层，卷积网络层用于输出位置信息作为目标跟踪结果，所述位置信息用于指示目标模板图像中的目标在目标搜索图像中的位置。

卷积网络层可以对总的相关性响应结果(上述经融合的相关性响应结果或第一相关性响应结果)进行卷积，获得一个通道数为1的特征图，作为最终的目标跟踪结果。该特征图可以表示用于指示目标模板图像中的目标在目标搜索图像中的位置的位置信息。

根据本发明实施例，目标跟踪方法100还可以包括：获取样本模板图像和样本搜索图像以及标注数据，标注数据用于指示样本模板图像中的样本目标在样本搜索图像中的位置；将样本模板图像和样本搜索图像输入目标跟踪网络，以获得样本跟踪结果；对第一前景背景分离网络输出的样本模板图像的第三前景特征和第三背景特征进行相关性计算，以获得第五相关性响应结果；对第二前景背景分离网络输出的样本搜索图像的第四前景特征和第四背景特征进行相关性计算，以获得第六相关性响应结果；基于样本跟踪结果、标注数据、第五相关性响应结果和第六相关性响应结果计算损失函数；利用损失函数对目标跟踪网络中的参数进行迭代训练。

将样本模板图像和样本搜索图像输入目标跟踪网络，以获得样本跟踪结果可以包括：将样本模板图像和样本搜索图像分别输入特征提取网络，以分别提取样本模板图像的第三初始特征和样本搜索图像的第四初始特征；将第三初始特征输入第一前景背景分离网络，以获得样本模板图像的第三前景特征和第三背景特征；将第四初始特征输入第二前景背景分离网络，以获得样本搜索图像的第四前景特征和第四背景特征；对第三前景特征与第四前景特征进行相关性计算，以获得第七相关性响应结果；基于第七相关性响应结果进行位置预测，以获得样本跟踪结果。

在实际执行目标跟踪任务之前，即在步骤S110之前，可以执行目标跟踪网络的训练步骤。在目标跟踪网络的训练过程中，第一前景背景分离网络可以同时输出样本模板图像的前景特征和背景特征，第二前景背景分离网络可以同时输出样本搜索图像的前景特征和背景特征，以便于后续将前景特征和背景特征之间的相关性加入损失函数的计算。

如上所述，目标与背景间通常有较大的外观差异，前景特征与背景特征间应有较小的相关性。因此，在目标跟踪网络的训练过程中，可以将样本模板图像的前景和背景的相关性以及样本搜索图像的前景和背景的相关性考虑到损失函数的计算中，这样通过迭代训练，不断地最小化损失函数，可以确保目标跟踪网络能够将输入的图像(包括模板图像和对应的搜索图像)的前景与背景更好地分离。

根据本发明实施例，基于样本跟踪结果、标注数据、第五相关性响应结果和第六相关性响应结果计算损失函数包括：

基于以下公式计算损失函数：

Loss＝Loss_orignal+S_TFBt+S_SFBt，

其中，Loss_orignal是样本跟踪结果相对于标注数据的损失，S_TFBt是第五相关性响应结果，S_SFBt是第六相关性响应结果。

Loss_orignal是目标跟踪网络的常规损失项，其基于样本跟踪结果和标注数据计算，本领域技术人员能够理解其计算方式，本文不做赘述。S_TFBt和S_SFBt是扩展的损失项。例如，在位置预测网络是RPN的情况下，Loss_orignal＝Loss_cls+Loss_reg，其中，Loss_cls是分类损失，Loss_reg是回归损失，本领域技术人员能够理解RPN的分类损失和回归损失的含义以及计算方式，本文不做赘述。

根据本发明实施例，相关性计算可以包括：计算参与相关性计算的两个特征的向量内积、均方差(MSE)和余弦距离中的至少一个值。

可选地，可以采用任意合适的方式来计算特征之间的相关性。通过向量内积、均方差和余弦距离中的至少一个值计算特征之间的相关性，这种方案实现简单，占用计算资源少，运行速度快。

实验表明，根据本发明实施例的目标跟踪方法可以有效实现前景特征与背景特征的分离提取，及特定场景下的算法性能提升，如图3所示。图3示出根据本发明一个实施例的采用现有技术(siamrpn_alex)与本发明提供的目标跟踪网络(disentangle)进行目标跟踪的OPE成功率对比图。图3中虚线表示现有技术，实线表示本发明提供的目标跟踪网络。参见图3，可知本发明提供的目标跟踪网络相对现有技术具有较大的性能提升。

根据本发明另一方面，提供一种目标跟踪装置。图4示出了根据本发明一个实施例的目标跟踪装置400的示意性框图。

如图4所示，根据本发明实施例的目标跟踪装置400包括第一获取模块410、特征提取模块420、第一分离模块430、第二分离模块440、第一相关性计算模块450和预测模块460。所述各个模块可分别执行上文中结合图1-3描述的目标跟踪方法的各个步骤/功能。以下仅对该目标跟踪装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

第一获取模块410用于获取目标模板图像和目标搜索图像。

特征提取模块420用于将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征。

第一分离模块430用于将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征。

第二分离模块440用于将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重。

第一相关性计算模块450用于对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果。

预测模块460用于基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

示例性地，所述第一前景背景分离网络还输出所述目标模板图像的第一背景特征和/或所述第二前景背景分离网络还输出所述目标搜索图像的第二背景特征，其中，

所述目标跟踪装置400还包括以下一种或多种相关性计算模块：

第二相关性计算模块，用于对所述第一前景特征与所述第二背景特征进行相关性计算，以获得第二相关性响应结果；

第三相关性计算模块，用于对所述第一背景特征与所述第二前景特征进行相关性计算，以获得第三相关性响应结果；

第四相关性计算模块，用于对所述第一背景特征与所述第二背景特征进行相关性计算，以获得第四相关性响应结果；

所述预测模块460包括：融合子模块，用于对计算获得的各相关性响应结果进行融合；输入子模块，用于将经融合的相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

示例性地，融合子模块具体用于基于以下公式对计算获得的各相关性响应结果进行融合：

S_sum＝λ₁F_TFt*F_sFt+λ₂F_TFt*F_SBt+λ₃F_TBt*F_SFt+λ₄F_TBt*F_sBt，

其中，S_sum是经融合的相关性响应结果，λ_i是第i相关性响应结果的权重，F_TFt是所述第一前景特征，F_TBt是所述第一背景特征，F_SFt是所述第二前景特征，F_SBt是所述第二背景特征。

示例性地，λ₁和λ₄为正值，λ₂和λ₃为负值，λ₄小于λ₁。

示例性地，所述目标跟踪装置400还包括：第一权重调整模块，用于当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性减小时，降低所述第一相关性响应结果的权重，当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性增大时，提高所述第一相关性响应结果的权重；和/或第二权重调整模块，用于当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性减小时，降低所述第四相关性响应结果的权重，当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性增大时，提高所述第四相关性响应结果的权重。

示例性地，所述预测模块460包括：输入子模块，用于将所述第一相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

示例性地，所述位置预测网络包括卷积网络层或区域候选网络，所述卷积网络层包括一个或多个卷积层，所述卷积网络层用于输出位置信息作为所述目标跟踪结果，所述位置信息用于指示所述目标模板图像中的目标在所述目标搜索图像中的位置。

示例性地，所述目标跟踪装置400还包括：第二获取模块，用于获取样本模板图像和样本搜索图像以及标注数据，所述标注数据用于指示所述样本模板图像中的样本目标在所述样本搜索图像中的位置；输入模块，用于将所述样本模板图像和所述样本搜索图像输入所述目标跟踪网络，以获得样本跟踪结果；第五相关性计算模块，用于对所述第一前景背景分离网络输出的所述样本模板图像的第三前景特征和第三背景特征进行相关性计算，以获得第五相关性响应结果；第六相关性计算模块，用于对所述第二前景背景分离网络输出的所述样本搜索图像的第四前景特征和第四背景特征进行相关性计算，以获得第六相关性响应结果；计算模块，用于基于所述样本跟踪结果、所述标注数据、所述第五相关性响应结果和所述第六相关性响应结果计算损失函数；训练模块，用于利用所述损失函数对所述目标跟踪网络中的参数进行迭代训练。

示例性地，所述计算模块包括：

计算子模块，用于基于以下公式计算所述损失函数：

Loss＝Loss_orignal+S_TFBt+S_SFBt，

其中，Loss_orignal是所述样本跟踪结果相对于所述标注数据的损失，S_TFBt是所述第五相关性响应结果，S_SFBt是所述第六相关性响应结果。

示例性地，所述第一相关性计算模块包括：计算子模块，用于计算参与所述相关性计算的两个特征的向量内积、均方差和余弦距离中的至少一个值。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图5示出了根据本发明一个实施例的目标跟踪系统500的示意性框图。目标跟踪系统500包括存储器510以及处理器520。

所述存储器510存储用于实现根据本发明实施例的目标跟踪方法中的相应步骤的计算机程序指令。

所述处理器520用于运行所述存储器510中存储的计算机程序指令，以执行根据本发明实施例的目标跟踪方法的相应步骤。

在一个实施例中，计算机程序指令被处理器520运行时用于执行以下步骤：获取目标模板图像和目标搜索图像；将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征；将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重；对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果；基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

示例性地，所述第一前景背景分离网络还输出所述目标模板图像的第一背景特征和/或所述第二前景背景分离网络还输出所述目标搜索图像的第二背景特征，其中，在所述计算机程序指令被处理器520运行时所用于执行的基于所述第一相关性响应结果进行位置预测的步骤之前，所述计算机程序指令被处理器520运行时还用于执行以下一种或多种相关性计算：对所述第一前景特征与所述第二背景特征进行相关性计算，以获得第二相关性响应结果；对所述第一背景特征与所述第二前景特征进行相关性计算，以获得第三相关性响应结果；对所述第一背景特征与所述第二背景特征进行相关性计算，以获得第四相关性响应结果；

所述计算机程序指令被处理器520运行时所用于执行的基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果的步骤包括：对计算获得的各相关性响应结果进行融合；将经融合的相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

示例性地，所述计算机程序指令被处理器520运行时所用于执行的对计算获得的各相关性响应结果进行融合的步骤包括：

基于以下公式对各相关性响应结果进行融合：

S_sum＝λ₁F_TFt*F_SFt+λ₂F_TFt*F_SBt+λ₃F_TBt*F_SFt+λ₄F_TBt*F_SBt，

其中，S_sum是经融合的相关性响应结果，λ_i是第i相关性响应结果的权重，F_TFt是所述第一前景特征，F_TBt是所述第一背景特征，F_SFt是所述第二前景特征，F_SBt是所述第二背景特征。示例性地，λ₁和λ₄为正值，λ₂和λ₃为负值，λ₄小于λ₁。

示例性地，所述计算机程序指令被处理器520运行时还用于执行：当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性减小时，降低所述第一相关性响应结果的权重，当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性增大时，提高所述第一相关性响应结果的权重；和/或当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性减小时，降低所述第四相关性响应结果的权重，当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性增大时，提高所述第四相关性响应结果的权重。

示例性地，所述计算机程序指令被处理器520运行时所用于执行的基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果的步骤包括：将所述第一相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

示例性地，所述计算机程序指令被处理器520运行时还用于执行：获取样本模板图像和样本搜索图像以及标注数据，所述标注数据用于指示所述样本模板图像中的样本目标在所述样本搜索图像中的位置；将所述样本模板图像和所述样本搜索图像输入所述目标跟踪网络，以获得样本跟踪结果；对所述第一前景背景分离网络输出的所述样本模板图像的第三前景特征和第三背景特征进行相关性计算，以获得第五相关性响应结果；对所述第二前景背景分离网络输出的所述样本搜索图像的第四前景特征和第四背景特征进行相关性计算，以获得第六相关性响应结果；基于所述样本跟踪结果、所述标注数据、所述第五相关性响应结果和所述第六相关性响应结果计算损失函数；利用所述损失函数对所述目标跟踪网络中的参数进行迭代训练。

示例性地，所述计算机程序指令被处理器520运行时所用于执行的基于所述样本跟踪结果、所述标注数据、所述第五相关性响应结果和所述第六相关性响应结果计算损失函数的步骤包括：

基于以下公式计算所述损失函数：

Loss＝Loss_orignal+S_TFBt+S_SFBt，

示例性地，所述相关性计算包括：计算参与所述相关性计算的两个特征的向量内积、均方差和余弦距离中的至少一个值。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的目标跟踪方法的相应步骤，并且用于实现根据本发明实施例的目标跟踪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的目标跟踪装置的各个功能模块，并和/或者可以执行根据本发明实施例的目标跟踪方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取目标模板图像和目标搜索图像；将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征；将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重；对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果；基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

示例性地，所述第一前景背景分离网络还输出所述目标模板图像的第一背景特征和/或所述第二前景背景分离网络还输出所述目标搜索图像的第二背景特征，其中，在所述程序指令在运行时所用于执行的基于所述第一相关性响应结果进行位置预测的步骤之前，所述程序指令在运行时还用于执行以下一种或多种相关性计算：对所述第一前景特征与所述第二背景特征进行相关性计算，以获得第二相关性响应结果；对所述第一背景特征与所述第二前景特征进行相关性计算，以获得第三相关性响应结果；对所述第一背景特征与所述第二背景特征进行相关性计算，以获得第四相关性响应结果；

所述程序指令在运行时所用于执行的基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果的步骤包括：对计算获得的各相关性响应结果进行融合；将经融合的相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

基于以下公式对各相关性响应结果进行融合：

S_sum＝λ₁F_TFt*F_sFt+λ₂F_TFt*F_SBt+λ₃F_TBt*F_SFt+λ₄F_TBt*F_SBt，

示例性地，所述程序指令在运行时还用于执行：当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性减小时，降低所述第一相关性响应结果的权重，当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性增大时，提高所述第一相关性响应结果的权重；和/或当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性减小时，降低所述第四相关性响应结果的权重，当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性增大时，提高所述第四相关性响应结果的权重。

示例性地，所述程序指令在运行时所用于执行的基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果的步骤包括：将所述第一相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

示例性地，所述程序指令在运行时还用于执行：获取样本模板图像和样本搜索图像以及标注数据，所述标注数据用于指示所述样本模板图像中的样本目标在所述样本搜索图像中的位置；将所述样本模板图像和所述样本搜索图像输入所述目标跟踪网络，以获得样本跟踪结果；对所述第一前景背景分离网络输出的所述样本模板图像的第三前景特征和第三背景特征进行相关性计算，以获得第五相关性响应结果；对所述第二前景背景分离网络输出的所述样本搜索图像的第四前景特征和第四背景特征进行相关性计算，以获得第六相关性响应结果；基于所述样本跟踪结果、所述标注数据、所述第五相关性响应结果和所述第六相关性响应结果计算损失函数；利用所述损失函数对所述目标跟踪网络中的参数进行迭代训练。

示例性地，所述程序指令在运行时所用于执行的基于所述样本跟踪结果、所述标注数据、所述第五相关性响应结果和所述第六相关性响应结果计算损失函数的步骤包括：

基于以下公式计算所述损失函数：

Loss＝Loss_orignal+S_TFBt+S_SFBt，

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同系统来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的系统解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，包括：

获取目标模板图像和目标搜索图像；

将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；

将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征；

将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重；

对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果；

基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

2.如权利要求1所述的方法，其中，所述第一前景背景分离网络还输出所述目标模板图像的第一背景特征和/或所述第二前景背景分离网络还输出所述目标搜索图像的第二背景特征，其中，

在所述基于所述第一相关性响应结果进行位置预测之前，所述方法还包括以下一种或多种相关性计算：

对所述第一前景特征与所述第二背景特征进行相关性计算，以获得第二相关性响应结果；

对所述第一背景特征与所述第二前景特征进行相关性计算，以获得第三相关性响应结果；

对所述第一背景特征与所述第二背景特征进行相关性计算，以获得第四相关性响应结果；

所述基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果包括：

对计算获得的各相关性响应结果进行融合；

将经融合的相关性响应结果输入位置预测网络，以获得所述目标跟踪结果。

3.如权利要求2所述的方法，其中，所述对计算获得的各相关性响应结果进行融合包括：

基于以下公式对各相关性响应结果进行融合：

S_sum＝λ₁F_TFt*F_SFt+λ₂F_TFt*F_SBt+λ₃F_TBt*F_sFt+λ₄F_TBt*F_SBt，

4.如权利要求3所述的方法，其中，λ₁和λ₄为正值，λ₂和λ₃为负值，λ₄小于λ₁。

5.如权利要求3所述的方法，其中，所述方法还包括：

当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性减小时，降低所述第一相关性响应结果的权重，当所述第一相关性响应结果指示所述第一前景特征与所述第二前景特征的相关性增大时，提高所述第一相关性响应结果的权重；和/或

当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性减小时，降低所述第四相关性响应结果的权重，当所述第四相关性响应结果指示所述第一背景特征与所述第二背景特征的相关性增大时，提高所述第四相关性响应结果的权重。

6.如权利要求2至5任一项所述的方法，其中，所述位置预测网络包括卷积网络层或区域候选网络，所述卷积网络层包括一个或多个卷积层，所述卷积网络层用于输出位置信息作为所述目标跟踪结果，所述位置信息用于指示所述目标模板图像中的目标在所述目标搜索图像中的位置。

7.如权利要求1至5任一项所述的方法，其中，所述目标跟踪方法还包括：

获取样本模板图像和样本搜索图像以及标注数据，所述标注数据用于指示所述样本模板图像中的样本目标在所述样本搜索图像中的位置；

将所述样本模板图像和所述样本搜索图像输入所述目标跟踪网络，以获得样本跟踪结果；

对所述第一前景背景分离网络输出的所述样本模板图像的第三前景特征和第三背景特征进行相关性计算，以获得第五相关性响应结果；

对所述第二前景背景分离网络输出的所述样本搜索图像的第四前景特征和第四背景特征进行相关性计算，以获得第六相关性响应结果；

基于所述样本跟踪结果、所述标注数据、所述第五相关性响应结果和所述第六相关性响应结果计算损失函数；

利用所述损失函数对所述目标跟踪网络中的参数进行迭代训练。

8.一种目标跟踪装置，包括：

第一获取模块，用于获取目标模板图像和目标搜索图像；

特征提取模块，用于将所述目标模板图像和所述目标搜索图像分别输入目标跟踪网络中的特征提取网络，以分别提取所述目标模板图像的第一初始特征和所述目标搜索图像的第二初始特征；

第一分离模块，用于将所述第一初始特征输入所述目标跟踪网络中的第一前景背景分离网络，以获得所述目标模板图像的第一前景特征；

第二分离模块，用于将所述第二初始特征输入所述目标跟踪网络中的第二前景背景分离网络，以获得所述目标搜索图像的第二前景特征，所述第二前景背景分离网络与所述第一前景背景分离网络共享权重；

第一相关性计算模块，用于对所述第一前景特征与所述第二前景特征进行相关性计算，以获得第一相关性响应结果；

预测模块，用于基于所述第一相关性响应结果进行位置预测，以获得目标跟踪结果。

9.一种目标跟踪系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的目标跟踪方法。

10.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至7任一项所述的目标跟踪方法。