CN110555405A

CN110555405A - 目标跟踪方法及装置、存储介质和电子设备

Info

Publication number: CN110555405A
Application number: CN201910818911.8A
Authority: CN
Inventors: 王维钊; 李作新
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Maigewei Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-10
Anticipated expiration: 2039-08-30
Also published as: CN110555405B

Abstract

本发明公开了一种目标跟踪方法、目标跟踪装置、存储介质和电子设备，涉及计算机视觉技术领域。该目标跟踪方法包括：提取目标区域图像的全局特征；其中，目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像；利用初始区域图像的全局特征对目标区域图像的全局特征进行注意力校准，并将校准后的特征作为上一帧图像的目标校准特征；结合上一帧图像的目标校准特征，确定出当前帧图像的目标判断特征；确定当前帧图像的全局特征，从当前帧图像的全局特征中确定与目标判断特征匹配的特征部分，并将特征部分对应的图像区域确定为当前帧图像中预测出的包含目标对象的区域，以实现对目标对象的跟踪。本公开可以提高目标跟踪的准确度。

Description

目标跟踪方法及装置、存储介质和电子设备

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种目标跟踪方法、目标跟踪装置、存储介质和电子设备。

背景技术

视觉目标跟踪(Visual Object Tracking，VOT)作为计算机视觉领域中一个重要研究方向，可以被广泛应用到视频监控、人机交互、无人驾驶、无人机等领域。

目前，在确定当前帧图像中目标对象的位置时，往往仅用第一帧图像进行比对。可以认为，第一帧图像即是用于跟踪的模版，然而，第一帧图像并没有明显的说明目标对象位置，只是把目标对象放在图片的中心位置。如果模版中包含了非目标物体，而非目标物体恰好也出现在中心位置，那么在目标跟踪过程中，预测结果可能会转移到非目标物体上，进而导致跟踪结果不准确。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种目标跟踪方法、目标跟踪装置、存储介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的目标对象跟踪结果不准确的问题。

根据本公开的一个方面，提供一种目标跟踪方法，包括：提取目标区域图像的全局特征；其中，所述目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像；利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，其中，所述初始区域图像中仅包含所述目标对象；结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征；确定所述当前帧图像的全局特征，从所述当前帧图像的全局特征中确定与所述目标判断特征匹配的特征部分，并将所述特征部分对应的图像区域确定为所述当前帧图像中预测出的包含所述目标对象的区域，以实现对所述目标对象的跟踪。

可选地，利用第一卷积神经网络提取所述目标区域图像的全局特征；利用第二卷积神经网络提取所述初始区域图像的全局特征；利用第三卷积神经网络提取所述当前帧图像的全局特征；其中，所述第一卷积神经网络、所述第二卷积神经网络以及所述第三卷积神经网络权值共享。

可选地，利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，包括：利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；将所述目标区域图像的全局特征与所述第一特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

可选地，利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，包括：利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；将所述目标区域图像的全局特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

可选地，利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，包括：利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；将所述目标区域图像的全局特征与所述第一特征权重相乘，得到中间特征；将所述中间特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

可选地，结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征，包括：获取包括所述上一帧图像在内的所有历史帧图像的目标校准特征；对所述所有历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

可选地，结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征，包括：获取包括所述上一帧图像在内的距当前预定时间段内多个历史帧图像的目标校准特征；对所述距当前预定时间段内多个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

可选地，结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征，包括：获取包括所述上一帧图像在内的预定数量个历史帧图像的目标校准特征；对所述预定数量个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

可选地，从所述当前帧图像的全局特征中确定与所述当前帧图像的目标判断特征匹配的特征部分，包括：以滑窗比对的方式从所述当前帧图像的全局特征中确定各候选特征部分与所述目标判断特征之间的相似度；将相似度最大的候选特征部分确定为与所述目标判断特征匹配的特征部分。

可选地，所述目标跟踪方法还包括：获取样本图像集，所述样本图像集包括上一帧样本图像的经预处理的目标区域图像、当前帧样本图像以及初始样本区域图像；其中，所述预处理包括对所述上一帧样本图像中包含目标对象的区域位置进行偏移处理，得到处理后的目标区域图像；利用所述样本图像集对所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络、所述通道注意力模型、所述空间注意力模型中的一个或多个进行训练。

可选地，目标跟踪方法还包括：确定目标跟踪任务开启时的视频帧图像为初始帧图像；从所述初始帧图像中提取初始区域图像。

根据本公开的一个方面，提供一种目标跟踪装置，包括特征提取模块、注意力校准模块、判断特征确定模块和目标跟踪模块。

具体的，特征提取模块用于提取目标区域图像的全局特征；其中，所述目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像；注意力校准模块用于利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，其中，所述初始区域图像中仅包含所述目标对象；判断特征确定模块用于结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征；目标跟踪模块用于确定所述当前帧图像的全局特征，从所述当前帧图像的全局特征中确定与所述目标判断特征匹配的特征部分，并将所述特征部分对应的图像区域确定为所述当前帧图像中预测出的包含所述目标对象的区域，以实现对所述目标对象的跟踪。

可选地，特征提取模块被配置为执行：利用第一卷积神经网络提取所述目标区域图像的全局特征；利用第二卷积神经网络提取所述初始区域图像的全局特征；利用第三卷积神经网络提取所述当前帧图像的全局特征；其中，所述第一卷积神经网络、所述第二卷积神经网络以及所述第三卷积神经网络权值共享。

可选地，注意力校准模块包括第一注意力校准单元。

具体的，第一注意力校准单元被配置为执行：利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；将所述目标区域图像的全局特征与所述第一特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

可选地，注意力校准模块包括第二注意力校准单元。

具体的，第二注意力校准单元被配置为执行：利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；将所述目标区域图像的全局特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

可选地，注意力校准模块包括第三注意力校准单元。

具体的，第三注意力校准单元被配置为执行：利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；将所述目标区域图像的全局特征与所述第一特征权重相乘，得到中间特征；将所述中间特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

可选地，判断特征确定模块包括第一判断特征确定单元。

具体的，第一判断特征确定单元被配置为执行：获取包括所述上一帧图像在内的所有历史帧图像的目标校准特征；对所述所有历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

可选地，判断特征确定模块包括第二判断特征确定单元。

具体的，第二判断特征确定单元被配置为执行：获取包括所述上一帧图像在内的距当前预定时间段内多个历史帧图像的目标校准特征；对所述距当前预定时间段内多个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

可选地，判断特征确定模块包括第三判断特征确定单元。

具体的，第三判断特征确定单元被配置为执行：获取包括所述上一帧图像在内的预定数量个历史帧图像的目标校准特征；对所述预定数量个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

可选地，目标跟踪模块被配置为执行：以滑窗比对的方式从所述当前帧图像的全局特征中确定各候选特征部分与所述目标判断特征之间的相似度；将相似度最大的候选特征部分确定为与所述目标判断特征匹配的特征部分。

可选地，目标跟踪装置还包括模型训练模块。

具体的，模型训练模块被配置为执行：获取样本图像集，所述样本图像集包括上一帧样本图像的经预处理的目标区域图像、当前帧样本图像以及初始样本区域图像；其中，所述预处理包括对所述上一帧样本图像中包含目标对象的区域位置进行偏移处理，得到处理后的目标区域图像；利用所述样本图像集对所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络、所述通道注意力模型、所述空间注意力模型中的一个或多个进行训练。

可选地，目标跟踪装置还包括初始区域图像确定模块。

具体的，初始区域图像确定模块被配置为执行：确定目标跟踪任务开启时的视频帧图像为初始帧图像；从所述初始帧图像中提取初始区域图像。

根据本公开的第三方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种所述的目标跟踪方法。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一种所述的目标跟踪方法。

在本公开的一些实施例所提供的技术方案中，提取上一帧图像中预测出的目标区域图像的全局特征，利用初始区域图像的全局特征对该目标区域图像的全局特征进行注意力校准，得到上一帧图像的目标校准特征，结合该目标校准特征确定当前帧图像的目标判断特征，并利用该目标判断特征以及当前帧图像的全局特征，预测出当前帧图像中包含目标对象的区域，以实现目标跟踪。一方面，考虑到相邻帧之间图像相关性较强，利用上一帧图像的预测结果来实现当前帧图像的目标跟踪，可以得到准确的跟踪结果；另一方面，在目标跟踪技术中，鉴于仅包含目标对象的初始区域图像中的目标对象信息准确，采用注意力机制，并利用初始区域图像的全局特征来指导上一帧图像的预测结果，进而确定出当前帧图像中目标对象的位置，通过引入注意力机制，进一步提高了跟踪结果的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的示例性实施方式的目标跟踪方法的流程图；

图2示意性示出了根据本公开的一个实施例的确定上一帧图像的目标校准特征的流程图；

图3示出了本公开示例性实施方式的目标跟踪方法的处理过程的示意图；

图4示意性示出了根据本公开的示例性实施方式的目标跟踪装置的方框图；

图5示意性示出了根据本公开的示例性实施方式的注意力校准模块的方框图；

图6示意性示出了根据本公开的另一示例性实施方式的注意力校准模块的方框图；

图7示意性示出了根据本公开的又一示例性实施方式的注意力校准模块的方框图；

图8示意性示出了根据本公开的示例性实施方式的判断特征确定模块的方框图；

图9示意性示出了根据本公开的另一示例性实施方式的判断特征确定模块的方框图；

图10示意性示出了根据本公开的又一示例性实施方式的判断特征确定模块的方框图；

图11示意性示出了根据本公开的另一示例性实施方式的目标跟踪装置的方框图；

图12示意性示出了根据本公开的又一示例性实施方式的目标跟踪装置的方框图；

图13示意性示出了根据本公开的示例性实施方式的电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。术语“第一”、“第二”、“第三”仅是为了区分的目的，不应作为本公开内容的限制。

本公开提供了一种基于注意力机制的目标跟踪方法，通过提取预先给定的包含目标对象的初始区域图像的全局特征，结合注意力机制，优化上一帧图像中预测出的目标区域图像的全局特征，以便生成用于预测当前帧图像中目标对象位置的模板特征，在提取当前帧图像全局特征的情况下，利用该模板特征与当前帧图像全局特征的比对结果，确定目标对象在当前帧图像中的位置，由此，实现了当前帧图像的目标跟踪，进而，在连续视频帧的场景中，可以实现目标对象的连续跟踪过程。

下面所述的目标跟踪方法可以由一服务器来实现，也就是说，该服务器可以执行本公开示例性实施方式的目标跟踪方法的各个步骤，在这种情况下，下述目标跟踪装置可以配置在该服务器内。

然而，还可以利用一终端设备来执行本公开示例性实施方式的目标跟踪方法的各个步骤，在这种情况下，下述目标跟踪装置可以配置在该终端设备内。其中，该终端设备可以例如为手机、平板电脑、个人计算机、智能可穿戴设备等。

图1示意性示出了本公开的示例性实施方式的目标跟踪方法的流程图。参考图1，所述目标跟踪方法可以包括以下步骤：

S12.提取目标区域图像的全局特征；其中，所述目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像。

在连续视频帧图像中，当前帧图像与上一帧图像可以是时间序列上相邻的两帧图像。在本公开的示例性实施方式中，可以借助于上一帧图像的跟踪预测结果来指导当前帧图像的跟踪预测过程，需要注意的是，在确定出当前帧图像的跟踪预测结果时，可以利用当前帧图像的跟踪预测结果来指导下一帧图像的跟踪预测过程。因此，可以不断循环本公开示例性实施方式的目标跟踪方法来实现连续视频帧图像的目标跟踪。

而对于开始执行跟踪任务的第1帧图像，待跟踪的目标对象的位置可以人为确定，或者，可以通过图像检测算法从该第1帧图像中检测出目标对象的位置。

本公开对目标对象的具体类型不做限定，例如，目标对象可以是人、手掌、动物、汽车、足球等任意对象。

另外，本公开所述的目标对象的位置可以是包围目标对象的位置框，该位置框的形状可以为矩形、圆形等。应当理解的是，该位置框是仅能够包围目标对象的位置框，也就是说，位置框内尽可能少包含除了目标对象之外的其他对象。

在本公开示例性实施方式中，将上一帧图像中预测出的包含目标对象的区域图像称为目标区域图像，以便利用该目标区域图像的特征从当前帧图像中确定出目标对象的位置。

以服务器执行本公开的目标跟踪方法为例，服务器可以利用第一卷积神经网络来提取目标区域图像的全局特征。其中，全局特征可以是表征目标区域图像全部信息的特征，其可以包含目标对象的上下文信息。

根据本公开的一些实施例，第一卷积神经网络可以是Alexnet。示例性地，Alexnet可以由5个卷积层和3个全连接层组成，一共8个权重层(由于池化层没有参数，故不属于权重层)，其中线性整流函数(Rectified Linear Unit，ReLU)作用在每个卷积层和全连接层上，在第一个卷积层和第二个卷积层后面连接一个局部响应规范化层，最大池化层作用在第一个卷积层、第二个卷积层和第五个卷积层的输出上。

然而，作为用于特征提取的网络，第一卷积神经网络还可以是残差神经网络(Residual Neural Network，ResNet)、视觉集合群网络(Visual Geometry Group，VGG)、密集连通卷积网络(Densely Connected Convolutional Networks，DenseNet)等，本公开对第一卷积神经网络的具体类型不做特殊限制。

S14.利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征；其中，所述初始区域图像中仅包含所述目标对象。

在本公开的示例性实施方式中，初始区域图像为初始帧图像中仅包含目标对象的区域图像，也就是说，初始区域图像中不包含除目标对象之外的其他对象。具体的，可以对初始区域图像中目标对象的背景部分进行均值填充，进一步确保后续目标对象跟踪的准确性。其中，可以将目标跟踪任务开启时的视频帧图像作为初始帧图像。在连续视频帧图像的目标跟踪任务中，通常可以将第1帧图像确定为初始帧图像。

初始区域图像可以人为从初始帧图像中提取出，可以利用例如抠图工具从初始帧图像中抠取出初始区域图像。或者，可以通过针对目标对象的图像检测算法确定出该初始区域图像，并进行提取。

服务器可以利用第二卷积神经网络来提取初始区域图像的全局特征。

在本公开的示例性实施方式中，第二卷积神经网络也可以是Alexnet，且可以是与第一卷积神经网络权值共享的孪生网络。然而，应当理解的是，作为用于提取特征的网络，第二卷积神经网络还可以是与第一卷积神经网络不同的网络模型，本示例性实施方式中对此不做限定。

在连续视频帧图像的目标跟踪过程中，初始区域图像的全局特征可以仅计算一次，并进行存储，以便在需要时直接调用。

在确定出初始区域图像的全局特征后，结合注意力机制，可以对步骤S12中提取的目标区域图像的全局特征进行注意力校准。

根据本公开的一个实施例，首先，服务器可以利用通道注意力模型对初始图像的全局特征进行空间维度压缩，得到第一特征权重。

具体的，在初始区域图像的全局特征被表示为H×W×C的情况下，其中，H、W分别表示特征图的尺寸(即高和宽)，C表示特征图的维度。利用通道注意力模型将空间维度进行压缩后，得到的是深度为C的注意力向量，该注意力向量被记为第一特征权重。

接下来，将目标区域图像的全局特征与第一特征权重相乘，并将相乘后的特征确定为上一帧图像的目标校准特征，以便应用于后续从当前帧图像中确定目标对象位置的过程。

通过基于通道注意力模型的注意力机制，使得能够更好地针对目标对象进行跟踪，而非其他对象，确保了跟踪的准确性。

根据本公开的另一个实施例，首先，服务器可以利用空间注意力模型对初始图像的全局特征进行通道维度压缩，得到第二特征权重。

具体的，在初始图像的全局特征被表示为H×W×C的情况下，利用空间注意力模型将通道维度进行压缩后，得到的是H×W的注意力矩阵，该注意力矩阵被记为第二特征权重。

接下来，将目标区域图像的全局特征与第二特征权重相乘，并将相乘后的特征确定为上一帧图像的目标校准特征，以便应用于后续从当前帧图像中确定目标对象位置的过程。

通过基于空间注意力模型的注意力机制，使得预测出的目标对象的位置更加准确。

根据本公开的又一个实施例，参考图2，在步骤S202中，利用空间注意力模型对初始图像的全局特征进行通道维度压缩，得到第一特征权重；在步骤S204中，利用通道注意力模型对初始图像的全局特征进行空间维度压缩，得到第二特征权重；在步骤S206中，将目标区域图像的全局特征与第一特征权重相乘，得到一中间特征；在步骤S208中，将中间特征与第二特征权重相乘，并将相乘后的特征确定为上一帧图像的目标校准特征。

另外，应当理解的是，上述步骤S204和步骤S206可以互换顺序。

通过结合通道注意力模型和空间注意力模型的注意力机制，无论是目标对象识别方面，还是目标对象位置方面，均能得到准确的预测结果。

S16.结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征。

根据本公开的一些实施例，基于步骤S14中确定上一帧图像的目标校准特征的过程，在历史帧图像的跟踪过程中，已确定并存储有各历史帧图像的目标校准特征。

由此，首先，可以获取包括上一帧图像在内的所有历史帧图像的目标校准特征；接下来，可以对所有历史帧图像的目标校准特征进行融合处理，以确定出当前帧图像的目标判断特征。其中，目标判断特征用于从当前帧图像中确定出目标对象的位置。

可以采用EMA(Exponential Moving Average，指数滑动平均)的方式实现各历史帧图像的目标校准特征的融合处理。采用EMA的方式，基于迭代的原理，去除噪声，可以得到准确的且能够用于实现目标跟踪的目标判断特征。

具体的，可以采用下述公式1和公式2确定出当前帧图像的目标判断特征：

其中，φ(T_t)表示经融合处理后得到的第t帧图像(t为大于1的正整数)的目标判断特征，表示滑动平均的中间结果，表示针对第t-1帧预测出的包含目标对象的区域图像特征，也就是说，表示第t-1帧跟踪结果的图像区域特征，表示经融合处理后得到的第t-1帧图像的目标判断特征，λ_S和λ_U分别为由人为确定出的滑动平均参数。另外，公式2中的score为第t-1帧图像预测结果的评分。

根据本公开的另一些实施例，考虑到距当前较远的历史帧图像的参考意义不大。因此，首先，可以获取包括上一帧图像在内的距当前预定时间段内多个历史帧图像的目标校准特征；接下来，对距当前预定时间段内多个历史帧图像的目标校准特征进行融合处理，以确定出当前帧图像的目标判断特征。融合处理的过程与上述采用EMA的处理过程类似，不再赘述。另外，本公开对预定时间段的具体取值不做特殊限制，例如，3秒、5秒、10秒等。

根据本公开的又一些实施例，可以获取包括上一帧图像在内的预定数量个历史帧图像的目标校准特征，并对该预定数量个历史帧图像的目标校准特征进行融合处理，以确定出当前帧图像的目标判断特征。融合处理的过程与上述采用EMA的处理过程类似，不再赘述。本公开对预定数量不做限制，例如，预定数量被配置为100个、1000个等。另外，容易理解的是，在历史帧图像较多的情况下，可以确定出数值较大的预定数量；在历史帧图像较少的情况下，对应可以确定出数值较小的预定数量，本公开对此不进行特殊限制。

如果只用第一帧的特征在当前帧进行比对检索，当物体在跟踪过程中出现变化(如形变、遮挡、暗光等)，会导致比对失败而丢失目标。本申请实施例通过结合多个历史帧图像的目标校准特征来确定当前帧图像的目标判断特征，进一步提高了目标对象跟踪结果的准确度，避免了可能出现的跟踪丢失的问题。

此外，在预测准确度要求不高或处理资源有限的场景下，还可以直接将上一帧图像的目标校准特征确定为当前帧图像的目标判断特征。

S18.确定所述当前帧图像的全局特征，从所述当前帧图像的全局特征中确定与所述目标判断特征匹配的特征部分，并将所述特征部分对应的图像区域确定为所述当前帧图像中预测出的包含所述目标对象的区域，以实现对所述目标对象的跟踪。

服务器可以利用第三卷积神经网络来提取当前帧图像的全局特征。

在本公开的示例性实施方式中，第三卷积神经网络也可以是Alexnet，且第一卷积神经网络、第二卷积神经网络、第三卷积神经网络权值共享。然而，应当理解的是，作为用于提取特征的网络，第三卷积神经网络还可以是与第一卷积神经网络或第二卷积神经网络不同的网络模型，本示例性实施方式中对此不做特殊限定。

在确定出当前帧图像的全局特征以及当前帧图像的目标判断特征的情况下，可以通过滑窗比对的方式从全局特征中确定各候选特征部分与目标判断特征之间的相似度，并将相似度最大的候选特征部分确定为目标判断特征匹配的特征部分。其中，本公开对滑窗的滑动方式不作特殊限制，例如可以逐行或逐列进行滑动，以确定各候选特征部分，并计算各候选特征部分与目标判断特征的相似度。

另外，如果比较出各候选特征部分与目标判断特征的相似度均小于一预设相似度阈值，则可以发出告警，以提示可能出现目标对象丢失的问题。

在从当前帧图像的全局特征中确定与目标判断特征匹配的特征部分后，服务器可以确定出该特征部分对应的图像区域，并将该图像区域确定为从当前帧图像中预测出的包含目标对象的区域，以实现对目标对象的跟踪过程。

此外，本公开的示例性实施方式还包括对上述涉及的模型进行训练的方案。

首先，获取样本图像集。应当理解的是，样本图像集可以包括多组训练样本，每一组训练样本均可以包括三张图像，即，上一帧样本图像的目标区域图像、初始样本区域图像、当前帧样本图像。其中，可以人为对当前帧样本图像的跟踪结果进行标注，以便与模型输出的结果进行比对，进而实现对模型的训练。

鉴于实际测试时，预测出的位置可能存在偏差。因此，可以预先对上一帧样本图像的目标区域图像进行预处理，以实现训练与测试的行为一致性。

具体的，可以对上一帧样本图像中包含目标对象的区域位置进行偏移处理，也就是说，使包含目标对象的位置框偏移一距离，得到预处理后的目标区域图像。其中，偏移的方向及距离均可以基于拉普拉斯分布而确定出。

接下来，可以利用样本图像集对上述涉及的第一卷积神经网络、第二卷积神经网络、第三卷积神经网络、通道注意力模型、空间注意力模型中的一个或多个进行训练。

应当注意的是，执行模型训练过程的服务器可以与上述执行步骤S12至步骤S18的服务器不同。也就是说，训练过程与测试过程可以由不同的电子设备执行。

下面参考图3对本公开示例性实施方式的目标跟踪方法的处理过程进行示例性说明。

利用第一卷积神经网络31对第t-1帧图像的目标区域图像进行特征提取，得到第t-1帧图像的目标区域图像的全局特征；利用第二卷积神经网络32对第1帧图像中的初始区域图像进行特征提取，得到初始区域图像的全局特征；利用第三卷积神经网络33对第t帧图像进行特征提取，得到第t帧图像的全局特征。其中，第一卷积神经网络31、第二卷积神经网络32、第三卷积神经网络33权值共享。

针对由第二卷积神经网络32输出的初始区域图像的全局特征，分别利用通道注意力模型34和空间注意力模型35进行处理，将通道注意力模型34输出的结果与第t-1帧图像的目标区域图像的全局特征相乘，并将相乘的结果再与空间注意力模型35输出的结果进行相乘，得到第t-1帧图像的目标校准特征。

另外，也可以先将空间注意力模型35输出的结果与第t-1帧图像的目标区域图像的全局特征相乘，然后再进行与通道注意力模型34输出的结果的运算过程。

针对特征融合模块36的处理过程，可以利用EMA方法对所有历史帧图像的目标校准特征进行融合处理，以得到用于预测当前帧图像中目标对象位置的目标判断特征。

利用目标判断特征和由第三卷积神经网络33输出的当前帧图像的全局特征，并通过滑窗比对的方式，预测出当前帧图像中目标对象的位置，并得到预测结果的评分。

综上所述，利用本公开示例性实施方式的目标跟踪方法，一方面，考虑到相邻帧之间图像相关性较强，利用上一帧图像的预测结果来实现当前帧图像的目标跟踪，可以得到准确的跟踪结果；另一方面，在目标跟踪技术中，鉴于仅包含目标对象的初始区域图像中的目标对象信息准确，采用注意力机制，并利用初始区域图像的全局特征来指导上一帧图像的预测结果，进而确定出当前帧图像中目标对象的位置，通过引入注意力机制，进一步提高了跟踪结果的准确度。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种目标跟踪装置。

图4示意性示出了本公开的示例性实施方式的目标跟踪装置的方框图。参考图4，根据本公开的示例性实施方式的目标跟踪装置4可以包括特征提取模块41、注意力校准模块43、判断特征确定模块45和目标跟踪模块47。

具体的，特征提取模块41可以用于提取目标区域图像的全局特征；其中，所述目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像；注意力校准模块43可以用于利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，其中，所述初始区域图像中仅包含所述目标对象；判断特征确定模块45可以用于结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征；目标跟踪模块47可以用于确定所述当前帧图像的全局特征，从所述当前帧图像的全局特征中确定与所述目标判断特征匹配的特征部分，并将所述特征部分对应的图像区域确定为所述当前帧图像中预测出的包含所述目标对象的区域，以实现对所述目标对象的跟踪。

基于本公开的示例性实施方式的目标跟踪装置，一方面，考虑到相邻帧之间图像相关性较强，利用上一帧图像的预测结果来实现当前帧图像的目标跟踪，可以得到准确的跟踪结果；另一方面，在目标跟踪技术中，鉴于仅包含目标对象的初始区域图像中的目标对象信息准确，采用注意力机制，并利用初始区域图像的全局特征来指导上一帧图像的预测结果，进而确定出当前帧图像中目标对象的位置，通过引入注意力机制，进一步提高了跟踪结果的准确度。

根据本公开的示例性实施例，特征提取模块41可以被配置为执行：利用第一卷积神经网络提取所述目标区域图像的全局特征；利用第二卷积神经网络提取所述初始区域图像的全局特征；利用第三卷积神经网络提取所述当前帧图像的全局特征；其中，所述第一卷积神经网络、所述第二卷积神经网络以及所述第三卷积神经网络权值共享。

根据本公开的示例性实施例，参考图5，注意力校准模块43可以包括第一注意力校准单元501。

具体的，第一注意力校准单元501可以被配置为执行：利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；将所述目标区域图像的全局特征与所述第一特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

根据本公开的示例性实施例，参考图6，注意力校准模块43可以包括第二注意力校准单元601。

具体的，第二注意力校准单元601可以被配置为执行：利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；将所述目标区域图像的全局特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

根据本公开的示例性实施例，参考图7，注意力校准模块43可以包括第三注意力校准单元701。

具体的，第三注意力校准单元701可以被配置为执行：利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；将所述目标区域图像的全局特征与所述第一特征权重相乘，得到中间特征；将所述中间特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

根据本公开的示例性实施例，参考图8，判断特征确定模块45可以包括第一判断特征确定单元801。

具体的，第一判断特征确定单元801可以被配置为执行：获取包括所述上一帧图像在内的所有历史帧图像的目标校准特征；对所述所有历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

根据本公开的示例性实施例，参考图9，判断特征确定模块45可以包括第二判断特征确定单元901。

具体的，第二判断特征确定单元901可以被配置为执行：获取包括所述上一帧图像在内的距当前预定时间段内多个历史帧图像的目标校准特征；对所述距当前预定时间段内多个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

根据本公开的示例性实施例，参考图10，判断特征确定模块45可以包括第三判断特征确定单元101。

具体的，第三判断特征确定单元101可以被配置为执行：获取包括所述上一帧图像在内的预定数量个历史帧图像的目标校准特征；对所述预定数量个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

根据本公开的示例性实施例，目标跟踪模块47可以被配置为执行：以滑窗比对的方式从所述当前帧图像的全局特征中确定各候选特征部分与所述目标判断特征之间的相似度；将相似度最大的候选特征部分确定为与所述目标判断特征匹配的特征部分。

根据本公开的示例性实施例，参考图11，目标跟踪装置11相比于目标跟踪装置4，还可以包括模型训练模块111。

具体的，模型训练模块111可以被配置为执行：获取样本图像集，所述样本图像集包括上一帧样本图像的经预处理的目标区域图像；其中，所述预处理包括对所述上一帧样本图像中包含目标对象的位置进行偏移处理，得到处理后的目标区域图像；利用所述样本图像集对所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络、所述通道注意力模型、所述空间注意力模型中的一个或多个进行训练。

根据本公开的示例性实施例，参考图12，目标跟踪装置12相比于目标跟踪装置4，还可以包括初始区域图像确定模块121。

具体的，初始区域图像确定模块121可以被配置为执行：确定目标跟踪任务开启时的视频帧图像为初始帧图像；从所述初始帧图像中提取初始区域图像。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图13来描述根据本发明的这种实施方式的电子设备1300。图13显示的电子设备1300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于：上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1310执行，使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1310可以执行如图1中所示的步骤S12至步骤S18。

存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202，还可以进一步包括只读存储单元(ROM)13203。

存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204，这样的程序模块13205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种目标跟踪方法，其特征在于，包括：

提取目标区域图像的全局特征；其中，所述目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像；

利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征；其中，所述初始区域图像中仅包含所述目标对象；

结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征；

确定所述当前帧图像的全局特征，从所述当前帧图像的全局特征中确定与所述目标判断特征匹配的特征部分，并将所述特征部分对应的图像区域确定为所述当前帧图像中预测出的包含所述目标对象的区域，以实现对所述目标对象的跟踪。

2.根据权利要求1所述的目标跟踪方法，其特征在于，利用第一卷积神经网络提取所述目标区域图像的全局特征；

利用第二卷积神经网络提取所述初始区域图像的全局特征；

利用第三卷积神经网络提取所述当前帧图像的全局特征；

其中，所述第一卷积神经网络、所述第二卷积神经网络以及所述第三卷积神经网络权值共享。

3.根据权利要求2所述的目标跟踪方法，其特征在于，利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，包括：

利用一通道注意力模型对所述初始图像的全局特征进行空间维度压缩，得到第一特征权重；

将所述目标区域图像的全局特征与所述第一特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

4.根据权利要求2所述的目标跟踪方法，其特征在于，利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，包括：

利用一空间注意力模型对所述初始图像的全局特征进行通道维度压缩，得到第二特征权重；

将所述目标区域图像的全局特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

5.根据权利要求2所述的目标跟踪方法，其特征在于，利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征，包括：

将所述目标区域图像的全局特征与所述第一特征权重相乘，得到中间特征；

将所述中间特征与所述第二特征权重相乘，并将相乘后的特征确定为所述上一帧图像的目标校准特征。

6.根据权利要求1至5中任一项所述的目标跟踪方法，其特征在于，结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征，包括：

获取包括所述上一帧图像在内的所有历史帧图像的目标校准特征；

对所述所有历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

7.根据权利要求1至5中任一项所述的目标跟踪方法，其特征在于，结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征，包括：

获取包括所述上一帧图像在内的距当前预定时间段内多个历史帧图像的目标校准特征；

对所述距当前预定时间段内多个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

8.根据权利要求1至5中任一项所述的目标跟踪方法，其特征在于，结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征，包括：

获取包括所述上一帧图像在内的预定数量个历史帧图像的目标校准特征；

对所述预定数量个历史帧图像的目标校准特征进行融合处理，以确定出所述当前帧图像的目标判断特征。

9.根据权利要求1至5中任一项所述的目标跟踪方法，其特征在于，从所述当前帧图像的全局特征中确定与所述当前帧图像的目标判断特征匹配的特征部分，包括：

以滑窗比对的方式从所述当前帧图像的全局特征中确定各候选特征部分与所述目标判断特征之间的相似度；

将相似度最大的候选特征部分确定为与所述目标判断特征匹配的特征部分。

10.根据权利要求5所述的目标跟踪方法，其特征在于，所述目标跟踪方法还包括：

获取样本图像集，所述样本图像集包括上一帧样本图像的经预处理的目标区域图像、当前帧样本图像以及初始样本区域图像；其中，所述预处理包括对所述上一帧样本图像中包含目标对象的区域位置进行偏移处理，得到处理后的目标区域图像；

利用所述样本图像集对所述第一卷积神经网络、所述第二卷积神经网络、所述第三卷积神经网络、所述通道注意力模型、所述空间注意力模型中的一个或多个进行训练。

11.根据权利要求1所述的目标跟踪方法，其特征在于，目标跟踪方法还包括：

确定目标跟踪任务开启时的视频帧图像为初始帧图像；

从所述初始帧图像中提取初始区域图像。

12.一种目标跟踪装置，其特征在于，包括：

特征提取模块，用于提取目标区域图像的全局特征；其中，所述目标区域图像为当前帧图像的上一帧图像中预测出的包含目标对象的区域图像；

注意力校准模块，用于利用初始区域图像的全局特征，对所述目标区域图像的全局特征进行注意力校准，并将校准后的特征作为所述上一帧图像的目标校准特征；其中，所述初始区域图像中仅包含所述目标对象；

判断特征确定模块，用于结合所述上一帧图像的目标校准特征，确定出所述当前帧图像的目标判断特征；

目标跟踪模块，用于确定所述当前帧图像的全局特征，从所述当前帧图像的全局特征中确定与所述目标判断特征匹配的特征部分，并将所述特征部分对应的图像区域确定为所述当前帧图像中预测出的包含所述目标对象的区域，以实现对所述目标对象的跟踪。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的目标跟踪方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任一项所述的目标跟踪方法。