CN110956131A

CN110956131A - 单目标追踪方法、装置及系统

Info

Publication number: CN110956131A
Application number: CN201911196504.4A
Authority: CN
Inventors: 吴晶晶; 邱熙
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-03
Anticipated expiration: 2039-11-27
Also published as: CN110956131B

Abstract

本发明提供了一种单目标追踪方法、装置及系统，涉及计算机视觉技术领域，该方法应用于配置有追踪网络的设备；追踪网络包括主干网络、STN和相似性度量层；该方法包括：获取待追踪的帧图像和包含有目标对象的模板图像；通过主干网络提取模板图像的模板特征图和帧图像的第一特征图；通过STN对第一特征图进行特征偏移，得到第二特征图；通过相似性度量层计算模板特征图和第二特征图之间的第一相似性得分图，并基于第一相似性得分图在帧图像中确定目标对象的回归框。本发明能够有效提升目标对象的回归框的准确性和目标追踪的准确性。

Description

单目标追踪方法、装置及系统

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种单目标追踪方法、装置及系统。

背景技术

单目标跟踪任务为根据给定视频序列的第一帧中目标对象的回归框，预测视频序列后续帧中该目标对象的回归框。目前主要是通过Siamese网络评估后续帧中特征与第一帧中特征的相似度，预测后续帧中该目标对象的回归框以实现单目标跟踪。然而，相比于第一帧中的目标对象，后续帧中的目标对象往往存在较大的形变，致使基于Siamese网络预测的回归框准确性较差，直接影响了单目标跟踪的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种单目标追踪方法、装置及系统，能够有效提升目标对象的回归框的准确性和目标追踪的准确性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种单目标追踪方法，所述方法应用于配置有追踪网络的设备；其中，所述追踪网络包括主干网络、空间变换网络STN和相似性度量层；所述方法包括：获取待追踪的帧图像和包含有目标对象的模板图像；其中，所述模板图像和所述帧图像属于同一视频流；将所述模板图像、所述帧图像输入所述主干网络，通过所述主干网络提取所述模板图像的模板特征图和所述帧图像的第一特征图；通过所述STN对所述第一特征图进行特征偏移，得到第二特征图；通过所述相似性度量层计算所述模板特征图和所述第二特征图之间的第一相似性得分图，并基于所述第一相似性得分图在所述帧图像中确定所述目标对象的回归框。

进一步，所述追踪网络的训练过程包括：向当前训练的追踪网络输入具有目标对象标注信息的训练样本对；其中，所述训练样本对包括模板训练图像和待追踪训练图像；通过当前训练的追踪网络提取所述模板训练图像的特征图和所述待追踪训练图像的初始特征图；对所述初始特征图进行特征偏移，得到所述待追踪训练图像的目标特征图；计算所述模板训练图像的特征图和所述待追踪训练图像的目标特征图之间的第二相似性得分图；基于交叉二进制损失函数计算所述第二相似性得分图的损失函数值；根据所述损失函数值，通过反向传播算法对所述当前训练的追踪网络的参数进行调整，直至所述损失函数值收敛至预设值时结束训练。

进一步，所述基于交叉二进制损失函数计算所述第二相似性得分图的损失函数值的步骤，包括：

其中，S1表示所述第二相似性得分图，S1[u]表示所述第二相似性得分图中位置u的响应值，Y[u]表示预设的标签，当所述待追踪训练图像中目标对象的回归框与所述模板训练图像中目标对象的回归框相距在预设距离值之内时，Y[u]＝1，当所述待追踪训练图像中目标对象的回归框与所述模板训练图像中目标对象的回归框相距在预设距离值之外时，Y[u]＝-1。

进一步，所述方法还包括：从具有所述目标对象标注信息的视频数据集中获取初始模板训练图像和初始待追踪训练图像；其中，所述初始模板训练图像和初始待追踪训练图像在所述视频数据集中的相隔帧数小于预设帧数值；采用背景填充的方式对所述初始模板训练图像和所述初始待追踪训练图像进行归一化；将归一化后的模板训练图像和待追踪训练图像确定为所述训练样本对。

进一步，所述通过所述STN对所述第一特征图进行特征偏移，得到第二特征图的步骤，包括：通过所述STN对所述第一特征图进行卷积操作，得到第一特征图中各个位置对应的偏移量；根据各个所述位置对应的偏移量确定偏移后的各个新位置；基于插值算法、所述第一特征图和各个所述新位置生成第二特征图。

进一步，所述插值算法包括双线性插值算法；所述基于插值算法、所述第一特征图和各个所述新位置生成第二特征图的步骤，包括：根据以下表达式生成第二特征图：

FT_X(p_n2)＝∑_qG(q,p′_n)×T_X(q)

其中，n表示得到第二特征图的所述帧图像的编号，p_n2表示第二特征图中的位置，FT_X(p_n2)表示第二特征图中p_n2处的特征，q表示所述第一特征图中的位置，p′_n表示偏移后的新位置，T_X(q)表示所述第一特征图中q处的特征值，G表示插值函数。

进一步，基于所述第一相似性得分图在所述帧图像中确定所述目标对象的回归框的步骤，包括：在所述第一相似性得分图中查找最大响应值；将查找到的最大响应值对应的位置映射至所述帧图像，得到所述帧图像中所述目标对象的回归框。

进一步，获取包含有目标对象的模板图像的步骤，包括：从所述视频流中获取具有目标对象标注信息的目标帧图像；基于所述目标对象标注信息从所述目标帧图像中抠取图像，并将抠取的图像确定为模板图像。

第二方面，本发明实施例还提供一种单目标追踪装置，所述装置应用于配置有追踪网络的设备；其中，所述追踪网络包括主干网络、空间变换网络STN和相似性度量层；所述装置包括：图像获取模块，用于获取待追踪的帧图像和包含有目标对象的模板图像；其中，所述模板图像和所述帧图像属于同一视频流；特征提取模块，用于将所述模板图像、所述帧图像输入所述主干网络，通过所述主干网络提取所述模板图像的模板特征图和所述帧图像的第一特征图；特征偏移模块，用于通过所述STN对所述第一特征图进行特征偏移，得到第二特征图；回归框确定模块，用于通过所述相似性度量层计算所述模板特征图和所述第二特征图之间的第一相似性得分图，并基于所述第一相似性得分图在所述帧图像中确定所述目标对象的回归框。

第三方面，本发明实施例提供了一种单目标追踪系统，所述系统包括：图像采集装置、处理器和存储装置；所述图像采集装置，用于采集待追踪的帧图像和包含有目标对象的模板图像；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供的单目标追踪方法、装置及系统，该方法应用于配置有追踪网络的设备；追踪网络包括主干网络、STN和相似性度量层；该方法通过主干网络提取模板图像的模板特征图和帧图像的第一特征图；通过STN对第一特征图进行特征偏移，得到第二特征图；通过相似性度量层计算模板特征图和第二特征图之间的第一相似性得分图，并基于第一相似性得分图在帧图像中确定目标对象的回归框。上述方式通过对第一特征图进行特征偏移，使得第二特征图和模板特征图能够映射具有不同大小偏移的目标对象的回归框，也即该回归框可以为任意的大小和尺度，以更好地回归目标对象，从而获得更准确的追踪结果。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种单目标追踪方法流程图；

图3示出了本发明实施例所提供的一种追踪网络的结构示意图；

图4示出了本发明实施例所提供的一种第一特征图与第二特征图的映射关系示意图；

图5示出了本发明实施例所提供的一种追踪网络的训练方法流程图；

图6示出了本发明实施例所提供的一种单目标追踪装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人在研究过程中发现，现有单目标跟踪任务中，基于Siamese网络预测的图像中目标对象的回归框大小是固定的。然而，相比于第一帧中的目标对象，后续帧中的目标对象往往存在较大的形变，导致在实际应用中，基于Siamese网络预测的回归框并不能够准确的回归目标对象，影响单目标跟踪的准确性。基于此，为改善以上问题至少之一，本发明实施例提供了一种单目标追踪方法、装置及系统，该技术不仅可以应用于视频监控，实现的目标对象的跟踪，还可以应用于安防系统、军事制造、机器人视觉导航、人机交互以及医疗诊断等诸多场景中。为便于理解，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的单目标追踪方法、装置及系统的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图1示出的部分组件，也可以具有图1未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的一种单目标追踪方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机和摄像头等智能终端上。

实施例二：

参照图2所示的一种单目标追踪方法的流程图，该方法应用于配置有追踪网络的设备；其中，追踪网络包括主干网络、STN(Spatial Transformer Network，空间变换网络)和相似性度量层。

参照图2，该方法具体包括如下步骤S202至步骤S208：

步骤S202，获取待追踪的帧图像和包含有目标对象的模板图像；其中，模板图像和帧图像属于同一视频流。

在实际应用中，目标对象可以为人、车辆和动物等任意需要进行追踪的对象。待追踪的帧图像为视频流中包含有目标对象和目标对象的周围环境(如背景、前景)的图像。模板图像通常为视频流中预先定义的仅包含目标对象的图像，其获取方式诸如为：

首先从视频流中获取具有目标对象标注信息的目标帧图像；其中，目标对象标注信息可以为与各帧图像具有对应关系的txt文件，且txt文件中存储有用于确定帧图像中目标对象的回归框的位置参数(该位置参数如左下角坐标值和右上角坐标值)。然后再基于目标对象标注信息从目标帧图像中抠取图像，并将抠取的图像确定为模板图像；在具体实现时，可以从目标帧图像中抠取位置参数确定的图像，以得到包含有目标对象的模板图像。可以理解的是，用于抠取模板图像的目标帧图像可以为视频流的初始帧(第一帧)图像，也可以为视频流中位于待追踪的帧图像前的图像。为便于描述，本实施例将用于抠取模板图像的目标帧图像也称为模板图像。当模板图像为待追踪的帧图像前的图像时，模板图像与待追踪的帧图像之间相隔帧数应当小于预设帧数值(如5帧)，以避免引起追踪误差；同时，对于通过追踪确定了目标对象的回归框的帧图像，可以获取目标对象的回归框的位置参数，并基于此将该帧图像用于作为视频流后续帧图像的模板图像，以预测后续帧图像中该目标对象的回归框。

步骤S204，将模板图像、帧图像输入主干网络，通过主干网络提取模板图像的模板特征图和帧图像的第一特征图。其中，主干网络可以为共享权重的特征提取器，在此情况下，追踪网络能够在提取模板图像的特征和提取帧图像的特征的过程中较好地平衡特征提取的准确性和速度。上述特征提取器可以为诸如Baseline Alexnet网络、BaselineResnet50网络和Siamese architecture等深度卷积神经网络，以对任意大小尺寸的图像均能够进行处理。

主干网络分别与STN和相似性度量层相连，将提取到的模板特征图输入至相似性度量层，以及将提取到的第一特征图输入至STN，基于此执行如下步骤S206和步骤S208。

步骤S206，通过STN对第一特征图进行特征偏移，得到第二特征图。STN与相似性度量层相连，将得到的第二特征图输入至相似性度量层。

步骤S208，通过相似性度量层计算模板特征图和第二特征图之间的第一相似性得分图，并基于第一相似性得分图在帧图像中确定目标对象的回归框。相似性度量层用于评估模板特征图和第二特征图之间的距离或相似度；在实际应用中，该相似性度量层可以采用卷积层实现。

本实施例中的追踪网络是一种基于深度卷积网络和STN构建的网络。现有用于单目标追踪的卷积神经网络(如Siamese)，仅基于模板图像的特征与待追踪的帧图像的特征映射目标对象在帧图像中的回归框。通常卷积神经网络对形变具有有限性，基于模板图像的特征与帧图像的特征映射目标对象的回归框时，只能映射为固定大小和尺度的回归框。而本实施例提供的追踪网络，通过对帧图像的特征进行特征偏移，相当于对第一特征图进行了特征偏移处理，使得特征偏移后的第二特征图和模板特征图能够映射具有不同大小偏移的目标对象的回归框，也即由此映射到的回归框可以为任意的大小和尺度，从而获得更准确的追踪结果。

本发明实施例提供的单目标追踪方法，应用于配置有追踪网络的设备；能够通过追踪网络中的主干网络提取模板图像的模板特征图和帧图像的第一特征图；通过STN对第一特征图进行特征偏移，得到第二特征图；通过相似性度量层计算模板特征图和第二特征图之间的第一相似性得分图，并基于第一相似性得分图在帧图像中确定目标对象的回归框。上述方式通过对第一特征图进行特征偏移，使得第二特征图和模板特征图能够映射具有不同大小偏移的目标对象的回归框，也即该回归框可以为任意的大小和尺度，以更好地回归目标对象，从而获得更准确的追踪结果。

为了便于理解追踪网络，可参照如图3所示的追踪网络的结构示意图，对上述实施例中的追踪网络的结构的具体介绍如下：该追踪网络包括主干网络、均与主干网络相连接的STN和相似性度量层，且STN与相似性度量层相连接。主干网络的输入为模板图像和帧图像，主干网络的输出为模板特征图和第一特征图；STN的输入为第一特征图，STN的输出为第二特征图；相似性度量层的输入为模板特征图和第二特征图，相似性度量层的输出为帧图像中目标对象的回归框。

基于上述结构的追踪网络，本实施例针对上述单目标追踪方法展开描述，参照如下所示：

关于上述步骤S204中通过主干网络提取模板图像的模板特征图的方式。为便于理解，给出该模板图像的一种示例为Z∈R^127×127×3，通过主干网络对模板图像Z进行特征提取，得到模板特征图，该模板特征图可表示为T_Z∈R^6×6×c，其中，c为特征的通道，诸如，在Baseline Alexnet网络中c等于256，在Baseline Resnet50网络中c等于1024。主干网络将提取到的模板特征图输入至相似性度量层。

关于上述步骤S204中通过主干网络提取帧图像的第一特征图的方式。该帧图像的示例可以表示为X∈R^255×255×3，通过主干网络对帧图像X进行特征提取，得到第一特征图，该第一特征图可表示为T_X∈R^22×22×c。主干网络将第一特征图输入至STN。

关于上述步骤S206中通过STN对第一特征图进行特征偏移的方式。在本实施例中，可以参照如下步骤(一)至步骤(三)得到第二特征图；

(一)通过所述STN对所述第一特征图T_X进行卷积操作，得到第一特征图中各个位置对应的偏移量(Offsets)。其中，STN可以基于卷积层(Conv)实现，且卷积层的参数可以设置为：卷积核ks×ks大小为1×1、步长为1。本实施例可以将第一特征图T_X中位置p_n1对应的偏移量表示为Δp_n，偏移量Δp_n＝[Δx,Δy]，Δx和Δy分别表示p_n1在水平方向和竖直方向的位置偏移大小。

(二)根据各个所述位置对应的偏移量确定偏移后的各个新位置。以位置p_n1为例，其对应的偏移后的新位置为p′_n＝p_n1+Δp_n。

考虑到偏移后的新位置p_n′的坐标值可能为小数，无法在第一特征图上直接索引得到新位置p′_n处的特征，因此可以按照如下步骤(三)以在第一特征图中映射得到新位置p′_n处的特征，也即得到第二特征图。在本实施例中，各位置处对应的特征诸如可以为像素值。

(三)基于插值算法、所述第一特征图和各个所述新位置生成第二特征图。该插值算法诸如为双线性插值算法、最近邻插值算法和4x4像素邻域的双三次插值算法等。以双线性插值算法为例，可以根据以下表达式(1)生成第二特征图：

FT_X(p_n2)＝∑_qG(q,p′_n)×T_X(q) (1)

其中，n表示得到第二特征图的帧图像的编号，p_n2表示第二特征图中的位置，FT_X(p_n2)表示第二特征图中p_n2处的特征，q表示所述第一特征图中的各个位置，上述的p_n1属于q，p′_n表示偏移后的新位置，且p′_n＝p_n1+Δp_n，T_X(q)表示所述第一特征图中q处的特征，G表示插值函数。

第一特征图与第二特征图的尺度是相同的，在此情况下，p_n1在第一特征图中的位置与p_n2在第二特征图中的位置是相同的。基于此，本实施例将第一特征图中位置p_n1对应的新位置p′_n处的特征映射至第二特征图中的位置p_n2处，以得到第二特征图中的位置p_n2的特征。该通过特征偏移得到的第二特征图的方式，能够在第二特征图映射回帧图像时不再是固定大小的位置，而是任意形状的位置。

上述插值函数G可参照如下公式(2)至(4)进行计算：

G(q,p′_n)＝g(q_x,p′_x)×g(q_y,p′_y) (2)

g(q_x,p′_x)＝max(0,1-|q_x-p′_x|) (3)

g(q_y,p′_y)＝max(0,1-|q_y-p′_y|) (4)

其中，p′_x表示新位置p′_n在水平方向的坐标值，p′_y表示新位置p′_n在竖直方向的坐标值，q_x表示第一特征图中位置q在水平方向的坐标值，q_y表示第一特征图中位置q在竖直方向的坐标值。

以第二特征图中位置p_n2＝[1，1]，且Δp_n＝0.5为例，参照上述公式(1)可以得到如下公式(5)：

FT_X([1,1])＝∑_qG(q,[1.5,1.5])×T_X(q) (5)

其中，q∈{[1,1],[1,2]，……，[1,22],[2,1],[2,2]，……，[22,1],[22,2]，……，[22,22]}；结合上述公式(2)至(4)确定：

FT_X([1,1])＝0.25T_X([1,1])+0.25T_X([1,2])+0.25T_X([2,1])+0.25T_X([2,2]) (6)。

通过第二特征图中位置p_n2＝[1，1]处的特征FT_X([1,1])可以看出，第二特征图中位置p_n2＝[1，1]对应于第一特征图中偏移后的新位置p′_n＝[1.5，1.5]，由于无法在第一特征图上直接索引得到新位置p′_n＝[1.5，1.5]处的特征，故基于插值算法融合第一特征图中新位置p′_n＝[1.5，1.5]周围位置的特征，以得到第二特征图中的特征FT_X([1,1])。为了进一步理解第一特征图与第二特征图中各位置的特征之间的映射关系，可参照如图4所示的第一特征图与第二特征图的映射关系示意图，其中示例性的给出了第一特征图T_X与第二特征图FT_X中四个位置的映射关系。

关于上述步骤S208，在通过相似性度量层计算得到第一相似性得分图之后，可以在第一相似性得分图中查找最大响应值；将查找到的最大响应值对应的位置映射至帧图像，得到帧图像中目标对象的回归框。

在第一特征图T_X中，q所表示的位置是对应于帧图像的固定大小和位置，而第二特征图FT_X中每个位置的特征是多个不同的位置q对应的原始特征通过插值得到的，因此其映射于帧图像的位置是任意的大小和形状的。这使得在该步骤S208中，根据模板特征图T_Z与第二特征图FT_X进行计算时，找到的与模板特征图T_Z最相似的第二特征图FT_X中的位置，该位置映射回帧图像时不再是固定大小的位置，而是任意形状的位置，从而单目标跟踪可以实现更准确和灵活的定位。

为了使追踪网络可以直接应用于单目标追踪，需要事先训练该追踪网络，追踪网络的参数需要经过训练得到，对追踪网络进行训练的目的，是最终确定可满足要求的参数。利用已训练得到的参数，追踪网络能够得到预期的单目标追踪效果。参照图5，本实施例给出了一种追踪网络的训练方法，包括如下六个步骤：

步骤S502、向当前训练的追踪网络输入具有目标对象标注信息的训练样本对；其中，训练样本对包括模板训练图像和待追踪训练图像，且训练样本为预先获取的，其获取方式可参照如下内容：

首先，从具有目标对象标注信息的视频数据集中获取初始模板训练图像和初始待追踪训练图像；其中，初始模板训练图像和初始待追踪训练图像在视频数据集中的相隔帧数小于预设帧数值(如5帧)。然后，采用背景填充的方式对初始模板训练图像和初始待追踪训练图像进行归一化。最后，将归一化后的模板训练图像和待追踪训练图像确定为训练样本对。

步骤S504、通过当前训练的追踪网络提取模板训练图像的特征图和待追踪训练图像的初始特征图。

步骤S506、对初始特征图进行特征偏移，得到待追踪训练图像的目标特征图。

步骤S508、计算模板训练图像的特征图和待追踪训练图像的目标特征图之间的第二相似性得分图。

步骤S510、基于交叉二进制损失函数计算第二相似性得分图的损失函数值。其中，交叉二进制损失函数如公式(5)所示：

其中，S1表示第二相似性得分图，S1[u]表示第二相似性得分图中位置u的响应值，Y[u]表示预设的标签，可参照如下公式(6)所示：

当待追踪训练图像中目标对象的回归框与模板训练图像中目标对象的回归框相距在预设距离值R之内时(即k||u-c||≤R)时，取值为Y[u]＝1；当待追踪训练图像中目标对象的回归框与模板训练图像中目标对象的回归框相距在预设距离值R之外时，取值为Y[u]＝-1。

步骤S512、根据损失函数值，通过反向传播算法对当前训练的追踪网络的参数进行调整，直至损失函数值收敛至预设值时结束训练。

上述追踪网络是以端(即训练样本的输入端)到端(即第二相似性得分图的输出端)的形式训练出来的，采用该方式训练得到的追踪网络中的主干网络所提取的特征更适合做卷积操作以获得相似度得分图，从而在实际应用中有助于更好地回归目标对象，提升追踪效果。

根据上述实施例所提供的单目标追踪方法，本实施例提供一种应用单目标追踪方法的实际测试示例。如表1所示，在现有单目标跟踪任务的数据集OTB2015上，分别采用如下两种追踪网络执行单目标追踪方法：一种为Baseline Alexnet网络与STN构建的追踪网络，一种为Baseline Resnet50网络与STN构建的追踪网络。相对于现有仅采用深度卷积网络执行单目标追踪方法所得到的回归框，本实施例基于包含有STN的追踪网络所得到的回归框，在准确度方面实现了较好的提升；诸如，基于Baseline Alexnet得到的回归框的准确性为0.52，而基于Baseline Alexnet+STN(即本实施例中的追踪网络)得到的回归框的准确性为0.60。可见，通过实际测试示例，验证了上述实施例所提供的基于追踪网络的单目标追踪方法在提升目标对象的回归框准确性方面效果明显，获得更准确的追踪结果。

表1

实施例三：

基于上述实施例所提供的单目标追踪方法，本实施例提供一种单目标追踪装置。该装置应用于配置有追踪网络的设备；其中，追踪网络包括主干网络、STN和相似性度量层。参见图6所示的一种单目标追踪装置的结构框图，该装置包括：

图像获取模块602，用于获取待追踪的帧图像和包含有目标对象的模板图像；其中，模板图像和帧图像属于同一视频流；

特征提取模块604，用于将模板图像、帧图像输入主干网络，通过主干网络提取模板图像的模板特征图和帧图像的第一特征图；

特征偏移模块606，用于通过STN对第一特征图进行特征偏移，得到第二特征图；

回归框确定模块608，用于通过相似性度量层计算模板特征图和第二特征图之间的第一相似性得分图，并基于第一相似性得分图在帧图像中确定目标对象的回归框。

本发明实施例提供的单目标追踪装置，应用于配置有追踪网络的设备；能够通过追踪网络中的主干网络提取包含有目标对象的模板图像的模板特征图和帧图像的第一特征图；通过STN对第一特征图进行特征偏移，得到第二特征图；通过相似性度量层计算模板特征图和第二特征图之间的第一相似性得分图，并基于第一相似性得分图在帧图像中确定目标对象的回归框。上述方式通过对第一特征图进行特征偏移，使得第二特征图和模板特征图能够映射具有不同大小偏移的目标对象的回归框，也即该回归框可以为任意的大小和尺度，以更好地回归目标对象，从而获得更准确的追踪结果。

在一种实施例中，上述单目标追踪装置还包括网络训练模块(图中未示出)，该网络训练模块用于：向当前训练的追踪网络输入具有目标对象标注信息的训练样本对；其中，训练样本对包括模板训练图像和待追踪训练图像；通过当前训练的追踪网络提取模板训练图像的特征图和待追踪训练图像的初始特征图；对初始特征图进行特征偏移，得到待追踪训练图像的目标特征图；计算模板训练图像的特征图和待追踪训练图像的目标特征图之间的第二相似性得分图；基于交叉二进制损失函数计算第二相似性得分图的损失函数值；根据损失函数值，通过反向传播算法对当前训练的追踪网络的参数进行调整，直至损失函数值收敛至预设值时结束训练。

在一种实施例中，上述网络训练模块进一步用于：从具有目标对象标注信息的视频数据集中获取初始模板训练图像和初始待追踪训练图像；其中，初始模板训练图像和初始待追踪训练图像在视频数据集中的相隔帧数小于预设帧数值；采用背景填充的方式对初始模板训练图像和初始待追踪训练图像进行归一化；将归一化后的模板训练图像和待追踪训练图像确定为训练样本对。

在一种实施例中，上述特征偏移模块606进一步用于：通过所述STN对所述第一特征图进行卷积操作，得到第一特征图中各个位置对应的偏移量；根据各个所述位置对应的偏移量确定偏移后的各个新位置；基于插值算法、所述第一特征图和各个所述新位置生成第二特征图。

在一种实施例中，上述回归框确定模块608进一步用于：在第一相似性得分图中查找最大响应值；将查找到的最大响应值对应的位置映射至帧图像，得到帧图像中目标对象的回归框。

在一种实施例中，上述图像获取模块602进一步用于：从视频流中获取具有目标对象标注信息的目标帧图像；基于目标对象标注信息从目标帧图像中抠取图像，并将抠取的图像确定为模板图像。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例二相同，为简要描述，本实施例部分未提及之处，可参考前述实施例二中相应内容。

实施例四：

基于前述实施例，本实施例给出了一种单目标追踪系统，该系统包括：图像采集设备、处理器和存储设备；其中，图像采集设备用于采集待追踪的帧图像和包含有目标对象的模板图像；存储设备上存储有计算机程序，计算机程序在被处理器运行时执行如实施例二所提供的任一项单目标追踪方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述实施例二提供的任一项单目标追踪方法的步骤。

本发明实施例所提供的一种单目标追踪方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种单目标追踪方法，其特征在于，所述方法应用于配置有追踪网络的设备；其中，所述追踪网络包括主干网络、空间变换网络STN和相似性度量层；所述方法包括：

获取待追踪的帧图像和包含有目标对象的模板图像；其中，所述模板图像和所述帧图像属于同一视频流；

将所述模板图像、所述帧图像输入所述主干网络，通过所述主干网络提取所述模板图像的模板特征图和所述帧图像的第一特征图；

通过所述STN对所述第一特征图进行特征偏移，得到第二特征图；

通过所述相似性度量层计算所述模板特征图和所述第二特征图之间的第一相似性得分图，并基于所述第一相似性得分图在所述帧图像中确定所述目标对象的回归框。

2.根据权利要求1所述的方法，其特征在于，所述追踪网络的训练过程包括：

向当前训练的追踪网络输入具有目标对象标注信息的训练样本对；其中，所述训练样本对包括模板训练图像和待追踪训练图像；

通过当前训练的追踪网络提取所述模板训练图像的特征图和所述待追踪训练图像的初始特征图；

对所述初始特征图进行特征偏移，得到所述待追踪训练图像的目标特征图；

计算所述模板训练图像的特征图和所述待追踪训练图像的目标特征图之间的第二相似性得分图；

基于交叉二进制损失函数计算所述第二相似性得分图的损失函数值；

根据所述损失函数值，通过反向传播算法对所述当前训练的追踪网络的参数进行调整，直至所述损失函数值收敛至预设值时结束训练。

3.根据权利要求2所述的方法，其特征在于，所述基于交叉二进制损失函数计算所述第二相似性得分图的损失函数值的步骤，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

从具有所述目标对象标注信息的视频数据集中获取初始模板训练图像和初始待追踪训练图像；其中，所述初始模板训练图像和初始待追踪训练图像在所述视频数据集中的相隔帧数小于预设帧数值；

采用背景填充的方式对所述初始模板训练图像和所述初始待追踪训练图像进行归一化；

将归一化后的模板训练图像和待追踪训练图像确定为所述训练样本对。

5.根据权利要求1所述的方法，其特征在于，所述通过所述STN对所述第一特征图进行特征偏移，得到第二特征图的步骤，包括：

通过所述STN对所述第一特征图进行卷积操作，得到第一特征图中各个位置对应的偏移量；

根据各个所述位置对应的偏移量确定偏移后的各个新位置；

基于插值算法、所述第一特征图和各个所述新位置生成第二特征图。

6.根据权利要求5所述的方法，其特征在于，所述插值算法包括双线性插值算法；所述基于插值算法、所述第一特征图和各个所述新位置生成第二特征图的步骤，包括：

根据以下表达式生成第二特征图：

FT_X(p_n2)＝∑_qG(q,p′_n)×T_X(q)

7.根据权利要求1所述的方法，其特征在于，基于所述第一相似性得分图在所述帧图像中确定所述目标对象的回归框的步骤，包括：

在所述第一相似性得分图中查找最大响应值；

将查找到的最大响应值对应的位置映射至所述帧图像，得到所述帧图像中所述目标对象的回归框。

8.根据权利要求1所述的方法，其特征在于，获取包含有目标对象的模板图像的步骤，包括：

从所述视频流中获取具有目标对象标注信息的目标帧图像；

基于所述目标对象标注信息从所述目标帧图像中抠取图像，并将抠取的图像确定为模板图像。

9.一种单目标追踪装置，其特征在于，所述装置应用于配置有追踪网络的设备；其中，所述追踪网络包括主干网络、空间变换网络STN和相似性度量层；所述装置包括：

图像获取模块，用于获取待追踪的帧图像和包含有目标对象的模板图像；其中，所述模板图像和所述帧图像属于同一视频流；

特征提取模块，用于将所述模板图像、所述帧图像输入所述主干网络，通过所述主干网络提取所述模板图像的模板特征图和所述帧图像的第一特征图；

特征偏移模块，用于通过所述STN对所述第一特征图进行特征偏移，得到第二特征图；

回归框确定模块，用于通过所述相似性度量层计算所述模板特征图和所述第二特征图之间的第一相似性得分图，并基于所述第一相似性得分图在所述帧图像中确定所述目标对象的回归框。

10.一种单目标追踪系统，其特征在于，所述系统包括：图像采集装置、处理器和存储装置；

所述图像采集装置，用于采集待追踪的帧图像和包含有目标对象的模板图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤。