CN109242882A

CN109242882A - 视觉跟踪方法、装置、介质及设备

Info

Publication number: CN109242882A
Application number: CN201810885811.2A
Authority: CN
Inventors: 钟钊; 杨子琛; 胡扬阳; 武伟
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-18
Anticipated expiration: 2038-08-06
Also published as: CN109242882B

Abstract

本申请的实施方式公开了一种视觉跟踪方法、装置、电子设备、计算机可读存储介质及计算机程序，其中的视觉跟踪方法包括：针对图像序列中的当前图像，获取目标对象的图像块；将所述图像块输入至跟踪控制网络，获取所述目标对象的跟踪策略信息；根据所述跟踪策略信息对所述目标对象进行跟踪处理；其中，所述跟踪控制网络是利用设置有目标对象位置标注信息的样本图像序列，采用强化学习方式训练获得的。

Description

视觉跟踪方法、装置、介质及设备

技术领域

本申请涉及计算机视觉技术，尤其是涉及一种视觉跟踪方法、视觉跟踪装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

视觉跟踪通常是指对图像序列中的目标对象进行检测、提取以及跟踪，从而可以获得图像序列中的目标对象的位置变化、运动速度、加速度以及运动轨迹等运动参数。通过对目标对象的运动参数进行进一步的处理和分析，可以对目标对象的行为进行更为充分的理解，从而有利于完成其他视觉任务。

在视觉跟踪过程中，跟踪决策往往需要人为设计。人为设计有很多局限性，实用性和鲁棒性较低。

发明内容

本申请实施方式提供一种视觉跟踪的技术方案。

根据本申请实施方式其中一方面，提供一种视觉跟踪方法，包括：针对图像序列中的当前图像，获取目标对象的图像块；将所述图像块输入至跟踪控制网络，获取所述目标对象的跟踪策略信息；根据所述跟踪策略信息对所述目标对象进行跟踪处理；其中，所述跟踪控制网络是利用设置有目标对象位置标注信息的样本图像序列，采用强化学习方式训练获得的。

在本申请一实施方式中，所述将所述图像块输入至跟踪控制网络包括：获取所述图像块的特征图或者热力图，并将所述特征图或者热力图输入至跟踪控制网络。

在本申请又一实施方式中，针对多目标跟踪应用场景，所述跟踪策略信息包括：预先设置的至少两种不同的跟踪策略分别对应的概率。

在本申请再一实施方式中，针对多目标跟踪应用场景，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理包括：根据所述概率从预先设置的至少两种不同的跟踪策略中选择对应的跟踪策略；其中，所述至少两种不同的跟踪策略包括：由跟踪器对目标对象继续跟踪，和/或，针对当前图像全局检测所述目标对象。

在本申请再一实施方式中，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理还包括：在所述选择的跟踪策略为由跟踪器对目标对象继续跟踪的情况下，将所述当前图像的下一个图像作为当前图像并提供给所述跟踪器，由所述跟踪器对所述目标对象继续跟踪。

在本申请再一实施方式中，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理还包括：在所述选择的跟踪策略为针对当前图像全局检测所述目标对象的情况下，将所述当前图像提供给全局检测器，由所述全局检测器对所述当前图像进行目标对象检测。

在本申请再一实施方式中，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理还包括：根据全局检测器输出的目标对象位置信息，对跟踪器进行初始化设置；将所述当前图像的下一个图像作为当前图像，提供给跟踪器，以由跟踪器对所述目标对象继续跟踪。

在本申请再一实施方式中，针对单目标跟踪应用场景，所述跟踪策略信息包括：跟踪器采用的跟踪策略的置信度。

在本申请再一实施方式中，针对单目标跟踪应用场景，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理包括：根据不同跟踪器各自对应的置信度以及不同跟踪器采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象位置融合处理；其中，所述融合处理后的目标对象的位置被作为跟踪处理最终获得的目标对象的位置。

在本申请再一实施方式中，针对多目标跟踪应用场景，训练所述跟踪控制网络的过程包括：针对样本图像序列中的当前图像样本，获取目标对象的图像块；将所述图像块提供给待训练的跟踪控制网络，获取所述待训练的跟踪控制网络输出的目标对象的跟踪策略信息；根据所述待训练的跟踪控制网络输出的跟踪策略信息，基于随机分布方式，确定最终跟踪策略信息；根据所述最终跟踪策略信息对所述目标对象进行跟踪处理；根据跟踪处理获得的多个图像样本的目标对象的位置信息与相应的图像样本的目标对象位置标注信息所对应的位置之间的面积重叠情况，确定所述样本图像序列的决策评价值，根据所述样本图像序列的决策评价值，采用强化学习方式，调整所述待训练的跟踪控制网络的网络参数。

在本申请再一实施方式中，在所述面积重叠情况符合预定要求的情况下，所述待训练的跟踪控制网络训练成功。

在本申请再一实施方式中，针对单目标跟踪应用场景，训练所述跟踪控制网络的过程包括：针对样本图像序列中的当前图像样本，获取不同跟踪器采用不同跟踪策略而获得的目标对象的不同图像块；将不同图像块分别提供给待训练的跟踪控制网络，获取所述不同跟踪器各自对应的置信度；根据不同跟踪器各自对应的置信度以及采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象的位置融合处理；根据融合处理后的目标对象的位置初始化相应的跟踪器，并根据跟踪器输出的图像块位置与当前图像样本的目标对象位置标注信息所对应的位置，确定两位置之间的面积重叠情况，并根据面积重叠情况确定所述样本图像序列的决策评价值，根据所述样本图像序列的决策评价值，采用强化学习方式，调整所述待训练的跟踪控制网络的网络参数。

在本申请再一实施方式中，所述跟踪控制网络包括：至少一卷积层、至少一全连接层以及至少一决策层。

根据本申请实施方式其中一方面，提供一种视觉跟踪装置，包括：获取图像块模块，用于针对图像序列中的当前图像，获取目标对象的图像块；获取跟踪策略模块，用于将所述图像块输入至跟踪控制网络，获取所述目标对象的跟踪策略信息；跟踪处理模块，用于根据所述跟踪策略信息对所述目标对象进行跟踪处理；其中，所述跟踪控制网络是利用设置有目标对象位置标注信息的样本图像序列，采用强化学习方式训练获得的。

在本申请又一实施方式中，所述获取跟踪策略模块进一步用于：获取所述图像块的特征图或者热力图，并将所述特征图或者热力图输入至跟踪控制网络。

在本申请再一实施方式中，针对多目标跟踪应用场景，所述跟踪策略信息包括：预先设置的至少两种不同的跟踪策略分别对应的概率。

在本申请再一实施方式中，针对多目标跟踪应用场景，所述跟踪处理模块包括：选择模块，用于根据所述概率从预先设置的至少两种不同的跟踪策略中选择对应的跟踪策略；其中，所述至少两种不同的跟踪策略包括：由跟踪器对目标对象继续跟踪，和/或，针对当前图像全局检测所述目标对象。

在本申请再一实施方式中，所述跟踪处理模块还包括：第一提供图像模块，用于在所述选择模块所选择的跟踪策略为由跟踪器对目标对象继续跟踪的情况下，将所述当前图像的下一个图像作为当前图像并提供给所述跟踪器，由所述跟踪器对所述目标对象继续跟踪。

在本申请再一实施方式中，所述跟踪处理模块还包括：第二提供图像模块，用于在所述选择模块所选择的跟踪策略为针对当前图像全局检测所述目标对象的情况下，将所述当前图像提供给全局检测器，由所述全局检测器对所述当前图像进行目标对象检测。

在本申请再一实施方式中，所述跟踪处理模块还包括：初始化模块，用于根据全局检测器输出的目标对象位置信息，对跟踪器进行初始化设置；第三提供图像模块，用于将所述当前图像的下一个图像作为当前图像，提供给跟踪器，以由跟踪器对所述目标对象继续跟踪。

在本申请再一实施方式中，针对单目标跟踪应用场景，所述跟踪处理模块包括：融合模块，用于根据不同的跟踪策略分别对应的概率以及采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象位置融合处理；其中，所述融合处理后的目标对象的位置被作为跟踪处理最终获得的目标对象的位置。

在本申请再一实施方式中，针对多目标跟踪应用场景，所述装置还包括：第一训练模块，用于：针对样本图像序列中的当前图像样本，获取目标对象的图像块；将所述图像块提供给待训练的跟踪控制网络，获取所述待训练的跟踪控制网络输出的目标对象的跟踪策略信息；根据所述待训练的跟踪控制网络输出的跟踪策略信息，基于随机分布方式，确定最终跟踪策略信息；根据所述最终跟踪策略信息对所述目标对象进行跟踪处理；根据跟踪处理获得的多个图像样本的目标对象的位置信息与相应的图像样本的目标对象位置标注信息所对应的位置之间的面积重叠情况，确定所述样本图像序列的决策评价值，根据所述样本图像序列的决策评价值，采用强化学习方式，调整所述待训练的跟踪控制网络的网络参数。

在本申请再一实施方式中，在所述面积重叠情况符合预定要求的情况下，所述第一训练模块确定所述待训练的跟踪控制网络训练成功。

在本申请再一实施方式中，针对单目标跟踪应用场景，所述装置还包括：第二训练模块，用于：针对样本图像序列中的当前图像样本，获取不同跟踪器采用不同跟踪策略而获得的目标对象的不同图像块；将不同图像块分别提供给待训练的跟踪控制网络，获取所述不同跟踪器各自对应的置信度；根据不同跟踪器各自对应的置信度以及采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象的位置融合处理；根据融合处理后的目标对象的位置初始化相应的跟踪器，并根据跟踪器输出的图像块位置与当前图像样本的目标对象位置标注信息所对应的位置，确定两位置之间的面积重叠情况，并根据面积重叠情况确定所述样本图像序列的决策评价值，根据所述样本图像序列的决策评价值，采用强化学习方式，调整所述待训练的跟踪控制网络的网络参数。

根据本申请实施方式再一方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本申请任一方法实施方式。

根据本申请实施方式再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本申请任一方法实施方式。

根据本申请实施方式的再一个方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本申请任一方法实施方式。

基于本申请提供的视觉跟踪方法、视觉跟踪装置、神经网络训练方法、神经网络训练装置、电子设备、计算机可读存储介质及计算机程序，本申请通过利用跟踪控制网络来获得跟踪策略信息，并根据该跟踪策略信息对目标对象进行跟踪处理，可以避免通过人为设计跟踪策略来实现跟踪处理的现象，从而本申请有利于及时的执行跟踪处理的操作，有利于提高跟踪处理操作的执行准确性。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请的视觉跟踪方法一个实施方式的流程图；

图2为本申请的视觉跟踪方法一个实施方式的示意图；

图3为本申请的神经网络的训练方法一个实施方式的流程图；

图4为本申请的神经网络的训练方法另一个实施方式的流程图；

图5为本申请的视觉跟踪装置一个实施方式的结构示意图；

图6为实现本申请实施方式的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

图1为本申请视觉跟踪方法一个实施例的流程图。如图1所示，该实施例方法包括：步骤S100、步骤S110以及步骤S120。下面对图1中的各步骤进行详细说明。

S100、针对图像序列中的当前图像，获取目标对象的图像块。

在一个可选示例中，本申请中的图像序列通常包括：多个具有时序关系的图像。图像序列通常为包含有多个具有时序关系的视频帧序列。视频帧序列中的具有时序关系的各视频帧可以具体为一段视频中连续排列的各视频帧，也可以具体为针对一段视频进行抽帧处理，基于抽帧处理的结果而获得的多个连续抽取出的视频帧。本申请不限制图像序列的具体表现形式。

在一个可选示例中，本申请中的当前图像通常是指当前正在进行跟踪处理的图像，当前图像也可以称为当前跟踪图像或者当前处理图像等。本申请中的目标对象也可以称为跟踪对象，目标对象可以具体为人(如行人或者乘客或者运动员等)、车辆、猫、狗或者特定物品等，本申请不限制目标对象的具体表现形式。

在一个可选示例中，本申请中的目标对象的图像块通常为对当前图像进行切分处理而获得的图像块，即目标对象的图像块通常为包含有当前图像的局部内容的图像块。当然，本申请中的目标对象的图像块也可以为整个当前图像，即目标对象的图像块为包含有当前图像的完整内容的图像块。另外，本申请中的目标对象的图像块还可以为通过针对从当前图像切分出的图像块进行处理，而得到的图像块。需要特别说明的是，本申请中的目标对象的图像块通常包含有完整的目标对象或者目标对象的局部区域，当然，该目标对象的图像块也可能并未包含有目标对象。例如，在跟踪器跟踪不准确或者跟踪丢失等情况下，可能会导致目标对象的图像块中并未包含有目标对象。本申请不限制目标对象的图像块的具体表现形式。

在一个可选示例中，本申请可以通过对当前图像进行目标对象跟踪处理(例如，利用跟踪器对当前图像进行目标对象跟踪处理)，从而获得目标对象跟踪处理结果，进而根据目标对象跟踪处理结果，对当前图像进行切分处理，获得目标对象的图像块。在当前图像中包含有多个目标对象的情况下，本申请可以从当前图像中切分出多个目标对象的图像块，从而有利于实现多目标对象的视觉跟踪。本申请中的目标对象跟踪处理结果通常为目标对象位置信息(例如，跟踪器输出的目标对象位置信息)，目标对象位置信息可以具体为目标对象外接框位置信息，例如，位于目标对象外接框一对角线上的两个顶点坐标等。本申请不限制获得目标对象的图像块的具体实现方式。

在一个可选示例中，本申请中的目标对象的图像块的大小通常与神经网络对输入图像的大小尺寸要求相关，例如，目标对象的图像块的大小可以为256×256等。本申请中的神经网络即用于确定目标对象的跟踪策略的神经网络。本申请中的神经网络可以称为跟踪控制器或者策略控制神经网络等。为了获得具有预定大小的目标对象的图像块，本申请可以先根据目标对象外接框位置信息，对当前图像进行缩放处理，然后，根据目标对象外接框位置信息从缩放处理后的当前图像中切分出相应的目标对象的图像块，该切分出的目标对象的图像块即为具有预定大小的图像块。在针对当前图像的跟踪处理结果包括多个目标对象外接框位置信息的情况下，本申请可以针对每一个目标对象外接框位置信息，分别对该当前图像进行相应的缩放处理，从而使基于该当前图像而获得的每一个目标对象的图像块分别具有预定大小。另外，本申请也可以先根据目标对象外接框位置信息对当前图像进行切分处理，再对切分出的图像块进行缩放处理。本申请对目标对象的图像块的大小以及缩放处理的具体实现方式不作限制。

S110、将图像块输入至跟踪控制网络，获取目标对象的跟踪策略信息。

在一个可选示例中，本申请可以将图像块直接输入至跟踪控制网络，也可以先对图像块进行相应的处理，然后，将处理结果输入至跟踪控制网络，如本申请可以先获得图像块的特征图或者热力图，然后，将获取到的特征图或者热力图输入至跟踪控制网络。在下述描述中，以将图像块直接输入至跟踪控制网络为例进行描述，然而，应当获知，将图像块的特征图或者热力图输入至跟踪控制网络也是完全可行的。

在一个可选示例中，本申请中的跟踪控制网络通常包括：至少一卷积层(如三层卷积层等)、至少一全连接层以及至少一决策层。本申请中的决策层可以为用于分类的层，例如，softmax层等。该跟踪控制网络是一种神经网络，该神经网络的网络结构可以根据实际需求灵活设计。该跟踪控制网络所包含的层数越多，则网络越深。例如，本申请的跟踪控制网络的网络结构可以采用，但不限于ALexNet、深度残差网络(Deep Residual Network，ResNet)或者VGGnet(Visual Geometry Group Network，视觉几何组网络)等神经网络各自所采用的网络结构。本申请实施例并不限制该跟踪控制网络的具体网络结构。

在一个可选示例中，本申请中的跟踪控制网络是利用带有目标对象位置标注信息的样本图像序列，采用强化学习方式训练获得的，样本图像序列中的每一个图像样本的目标对象位置标注信息可以具体为：目标对象外接框位置标注信息(例如，位于目标对象外接框一对角线上的两个顶点坐标等)。该神经网络的训练过程可以参见下述针对图3和图4的描述，在此不再重复说明。

在一个可选示例中，本申请将目标对象的图像块输入至跟踪控制网络，由该跟踪控制网络，针对该目标对象的图像块，进行跟踪策略处理，并输出相应的跟踪策略处理结果，跟踪策略处理结果即跟踪策略信息。

在一个可选示例中，对于多目标跟踪应用场景而言，本申请所获得的跟踪策略信息通常包括：预先设置的至少两种不同的跟踪策略分别对应的概率。例如，跟踪控制网络针对输入的目标对象的图像块，为预先设置的所有跟踪策略分别给出一个概率，且所有概率之和为1。

在一个可选示例中，对于单目标跟踪应用场景而言，本申请所获得的跟踪策略信息通常包括：跟踪器采用的跟踪策略的置信度。例如，预先设置有至少两种不同的跟踪策略和至少两个跟踪器，第一跟踪器采用第一跟踪策略，第二跟踪器采用第二跟踪策略，基于第一跟踪器而形成的第一图像块被输入跟踪控制网络，基于第二跟踪器而形成的第二图像块被输入跟踪控制网络，跟踪控制网络针对第一图像块给出第一置信度，跟踪控制网络针对第二图像块给出第二置信度。可选的，第一置信度和第二置信度之和可以为1。

在一个可选示例中，本申请中的预先设置的至少两种不同的跟踪策略可以包括：由跟踪器对目标对象继续跟踪以及针对当前图像全局检测目标对象中的至少一个。本申请中的由跟踪器对目标对象继续跟踪通常是指，本次不利用目标对象位置信息(如目标对象外接框位置信息)对跟踪器进行初始化处理，而是由跟踪器继续按照当前设置的参数对目标对象进行跟踪处理。本申请中的针对当前图像全局检测目标对象通常是指，从当前图像的完整图像内容中搜索目标对象，如确定当前图像中的目标对象位置信息。本申请中预先设置的每一种跟踪策略通常各自对应一种跟踪方式，不同的跟踪策略通常对应不同的跟踪方式。本申请可以根据实际需求预先设置跟踪策略的数量以及每一种跟踪策略对应的跟踪方式，本申请不限制预先设置的跟踪策略的数量以及跟踪策略对应的跟踪方式。

S120、根据跟踪策略信息对目标对象进行跟踪处理。

在一个可选示例中，在多目标跟踪应用场景中，本申请中的根据跟踪策略信息对目标对象进行跟踪处理可以具体为：从跟踪控制网络所输出的所有概率中，选取出最高概率，并将该最高概率所对应的跟踪策略作为选择出的跟踪策略。例如，如果跟踪控制网络输出的第一跟踪策略(即由跟踪器对目标对象继续跟踪)对应的概率为0.6，第二跟踪策略(即针对当前图像全局检测目标对象)对应的概率为0.4，则将第一跟踪策略作为选择出的跟踪策略。

在一个可选示例中，在多目标跟踪应用场景中，在选择出的跟踪策略为由跟踪器对目标对象继续跟踪的情况下，本申请可以将当前图像的下一个图像作为当前图像并提供给跟踪器，由跟踪器对目标对象继续跟踪。也就是说，跟踪器继续基于当前的设置参数，对更新后的当前图像进行目标对象跟踪，从而跟踪器可以输出当前图像的跟踪处理结果，如跟踪器输出更新后的当前图像的目标对象外接框位置信息。本申请可以根据跟踪器输出的跟踪处理结果，再次形成目标对象的图像块，该目标对象的图像块再次被提供给跟踪控制网络。

在一个可选示例中，在多目标跟踪应用场景中，在选择出的跟踪策略为针对当前图像全局检测目标对象的情况下，本申请可以将当前图像提供给全局检测器，由全局检测器对当前图像进行目标对象检测，即全局检测器从当前图像的完整图像内容中搜索目标对象；全局检测器输出目标对象的位置信息，如全局检测器输出目标对象外接框位置信息。之后，本申请可以根据全局检测器输出的目标对象的位置信息(如目标对象外接框位置信息)，对跟踪器进行初始化处理；跟踪器在被初始化处理后，其设置参数通常会发生变化；然后，本申请可以将当前图像的下一个图像作为当前图像，提供给跟踪器，由跟踪器针对当前图像进行目标对象的跟踪，即跟踪器基于更新后的参数设置，对当前图像进行目标对象的跟踪处理，输出当前图像的跟踪处理结果，如跟踪器输出当前图像的目标对象外接框位置信息。本申请可以根据跟踪器输出的跟踪处理结果，再次形成目标对象的图像块，该目标对象的图像块再次被提供给神经网络。

在一个可选示例中，在单目标跟踪应用场景中，通常会针对预先设置的每一种跟踪策略，设置一个跟踪器，这样，对于当前图像而言，不同的跟踪器会采用不同的跟踪策略来获得目标对象的位置，从而每一个跟踪器均会针对当前图像，输出目标对象的位置信息。本申请中的根据跟踪策略信息对目标对象进行跟踪处理可以具体为：根据跟踪控制网络所输出的不同的跟踪策略分别对应的置信度以及不同跟踪器采用不同跟踪策略所形成的目标对象的位置信息(如目标对象外接框位置)，进行目标对象的位置融合处理(如目标对象外接框位置融合处理)；本申请可以将融合处理后的目标对象的位置信息(如融合处理后的目标对象外接框位置)作为本次针对当前图像进行跟踪处理而最终获得的跟踪结果。例如，如果跟踪控制网络输出的第一跟踪策略(如由跟踪器对目标对象继续跟踪)对应的置信度为0.6，第二跟踪策略(如针对当前图像全局检测目标对象)对应的置信度为0.4，则本申请可以将0.6作为采用第一跟踪策略的第一跟踪器所输出的外接框的至少两个顶点坐标的权值，并将0.4作为采用第二跟踪策略的第二跟踪器所输出的外接框的至少两个顶点坐标的权值，从而，对两个外接框的位置进行融合处理，融合处理所形成的外接框即为最终获得的跟踪结果。

在一个可选示例中，无论是在多目标跟踪应用场景中，还是在单目标跟踪应用场景中，本申请中的跟踪器均可以基于光流场信息等，确定目标对象的位置信息(如目标对象外接框位置信息等)。本申请不限制跟踪器对目标对象进行跟踪处理的具体实现方式，也不限制跟踪器的具体结构。

在一个可选示例中，本申请在利用上述步骤S100至S120，针对图像序列中的每一个图像进行相应处理后，可以获得图像序列中的每一个图像中的目标对象外接框位置信息，通过对每一个图像中的目标对象外接框位置信息进行分析，可以获得目标对象的位置变化、运动速度、加速度以及运动轨迹等运动参数。通过对目标对象的运动参数进行进一步的处理和分析，可以对目标对象的行为进行更为充分的理解，从而有利于完成其他视觉任务。

在一个可选示例中，如果人为设计跟踪策略，则往往会由于目标对象运动以及具体场景的多样性等因素，而存在跟踪策略不能准确全面的应对图像序列中的目标对象的具体情况的现象，跟踪策略的设计具有一定的局限性。本申请通过利用跟踪控制网络来获得跟踪策略信息，并根据该跟踪策略信息对目标对象进行跟踪处理，可以避免通过人为设计跟踪策略来实现跟踪处理的现象，从而本申请有利于及时的执行跟踪处理的操作，有利于提高跟踪处理操作的执行准确性。

图2为本申请视觉跟踪方法一个实施例的示意图。该实施例的视觉跟踪方法应用于多目标跟踪应用场景。

如图2所示，跟踪器(即多目标跟踪器)、全局检测器以及跟踪控制器(神经网络)是实现该实施例方法的三个主要部分。下面对本实施例的方法进行说明。

步骤1、将图像序列中的第一个图像作为当前图像。到步骤2。

步骤2、将当前图像提供给全局检测器，由全局检测器对当前图像进行搜索处理，以确定出当前图像中的目标对象外接框位置信息。全局检测器输出目标对象外接框位置信息。到步骤3。

步骤3，根据全局检测器输出的目标对象外接框位置信息对当前图像进行切分处理，以获得目标对象的图像块。利用该目标对象的图像块对跟踪器进行初始化处理。到步骤4。需要特别说明的是，在切分处理过程中，可以通过缩放处理，获得具有预定大小的图像块。

步骤4、将当前图像的下一个图像作为当前图像，提供给跟踪器，由跟踪器根据当前图像进行跟踪处理，从而跟踪器针对当前图像，输出目标对象外接框位置信息。到步骤5。

步骤5、根据跟踪器输出的目标对象外接框位置信息对当前图像进行切分处理，以获得目标对象的图像块。到步骤6。需要特别说明的是，在切分处理过程中，可以通过缩放处理，获得具有预定大小的图像块。

步骤6、将上述步骤5获得的目标对象的图像块提供给跟踪控制器。到步骤7。

步骤7、跟踪控制器根据输入的目标对象的图像块进行跟踪策略处理，并输出跟踪策略处理结果，例如，由跟踪器对目标对象继续跟踪对应的概率值以及针对当前图像全局检测目标对象对应的概率值。根据跟踪策略处理结果选取跟踪策略，例如，选取概率值大的跟踪策略。在选取的跟踪策略为跟踪器对目标对象继续跟踪的情况下，返回步骤4。在选取的跟踪策略为全局检测目标对象的情况下，返回上述步骤2。

在利用上述步骤确定出图像序列中的最后一个图像中的目标对象位置信息的情况下，本申请的视觉跟踪方法结束。在该视觉跟踪方法结束时，跟踪器和全局检测器所确定出的图像序列的所有图像中的目标对象位置信息，即为该图像序列的目标对象的跟踪结果。

图3为本申请的训练跟踪控制网络的一个实施例的流程图。

如图3所示，该实施例方法包括：步骤S300、步骤S310、步骤S320、步骤S330以及步骤S340。下面对图3中的各步骤进行详细说明。

S300、针对样本图像序列中的当前图像样本，获取目标对象的图像块。

在一个可选示例中，本申请中的样本图像序列通常包括：多个具有时序关系的图像样本。每一个图像样本均设置有目标对象位置标注信息，如每一个图像样本均设置有位于目标对象外接框一对角线上的两个顶点标注坐标。本申请中的样本图像序列通常为包含有多个具有时序关系的视频帧的视频帧样本序列。视频帧样本序列中的具有时序关系的各视频帧可以具体为一段视频样本中连续排列的各视频帧，也可以具体为针对一段视频样本进行抽帧处理，基于抽帧处理的结果而获得的多个连续抽取出的视频帧。本申请不限制样本图像序列的具体表现形式。

在一个可选示例中，本申请中的当前图像样本通常是指当前正在进行跟踪处理的图像样本，当前图像样本也可以称为当前跟踪图像样本或者当前处理图像样本等。本申请中的目标对象也可以称为跟踪对象，目标对象可以具体为人(如行人或者乘客或者运动员等)、车辆、猫、狗或者特定物品等，本申请不限制目标对象的具体表现形式。

在一个可选示例中，本申请中的目标对象的图像块通常为对当前图像样本进行切分处理而获得的图像块，即目标对象的图像块通常为包含有当前图像样本的局部内容的图像块(也可以称为样本图像块)。当然，本申请中的目标对象的图像块也可以为整个当前图像样本，即目标对象的图像块为包含有当前图像样本的完整内容的图像块。另外，本申请中的目标对象的图像块还可以为通过针对从当前图像样本切分出的图像块进行处理，而得到的图像块。

需要特别说明的是，本申请中的目标对象的图像块通常包含有完整的目标对象或者目标对象的局部区域，当然，该目标对象的图像块也可能并未包含有目标对象，例如，在跟踪器跟踪不准确或者跟踪丢失等情况下，可能会导致目标对象的图像块中并未包含有目标对象。本申请不限制目标对象的图像块的具体表现形式。

在一个可选示例中，本申请可以通过对当前图像样本进行目标对象跟踪处理(例如，利用跟踪器对当前图像样本进行目标对象跟踪处理)，获得目标对象跟踪处理结果，进而根据目标对象跟踪处理结果，对当前图像样本进行切分处理，获得目标对象的图像块。在当前图像样本中包含有多个目标对象的情况下，本申请可以从当前图像样本中切分出多个目标对象的图像块。本申请中的目标对象跟踪处理结果通常为目标对象位置信息(例如，跟踪器输出的目标对象位置信息)，目标对象位置信息可以为目标对象外接框位置信息，如位于目标对象外接框一对角线上的两个顶点坐标等。本申请不限制获得目标对象的图像块的具体实现方式。

在一个可选示例中，本申请中的目标对象的图像块的大小通常与待训练的跟踪控制网络对输入图像的大小尺寸要求相关，例如，目标对象的图像块的大小可以为256×256等。为了获得具有预定大小的目标对象的图像块，本申请可以先根据目标对象外接框位置信息，对当前图像样本进行缩放处理，然后，根据目标对象外接框位置信息从缩放处理后的当前图像样本中切分出相应的目标对象的图像块，该切分出的目标对象的图像块即为具有预定大小的图像块。在针对当前图像样本的跟踪处理结果包括多个目标对象外接框位置信息的情况下，本申请可以针对每一个目标对象外接框位置信息，分别对该当前图像样本进行相应的缩放处理，从而使基于该当前图像样本而获得的每一个目标对象的图像块分别具有预定大小。另外，本申请也可以先根据目标对象外接框位置信息对当前图像样本进行切分处理，再对切分出的图像块进行缩放处理。本申请对目标对象的图像块的大小以及缩放处理的具体实现方式不作限制。

S310、将图像块提供给待训练的跟踪控制网络，获取待训练的跟踪控制网络输出的目标对象的跟踪策略信息。

在一个可选示例中，本申请可以将目标对象的图像块直接输入至待训练的跟踪控制网络，也可以先对图像块进行相应的处理，然后，将处理结果输入至待训练的跟踪控制网络，如本申请可以先获得图像块的特征图或者热力图，然后，将获取到的特征图或者热力图输入至待训练的跟踪控制网络。

在一个可选示例中，待训练的跟踪控制网络针对该目标对象的图像块进行跟踪策略处理，并输出相应的跟踪策略处理结果。该跟踪策略处理结果通常包括：预先设置的至少两种不同的跟踪策略分别对应的概率。一个可选例子，待训练的跟踪控制网络针对输入的目标对象的图像块，为预先设置的所有跟踪策略分别给出一个概率，且所有概率之和为1。

在一个可选示例中，本申请中的预先设置的至少两种不同的跟踪策略可以包括：由跟踪器对目标对象继续跟踪以及针对当前图像全局检测目标对象中的至少一个。本申请中的由跟踪器对目标对象继续跟踪通常是指，本次不利用目标对象位置信息(如目标对象外接框位置信息)对跟踪器进行初始化处理，而是由跟踪器继续按照当前设置的参数对目标对象进行跟踪处理。本申请中的针对当前图像全局检测目标对象通常是指，从当前图像的完整图像内容中搜索目标对象，如确定当前图像中的目标对象位置信息。本申请中预先设置的每一种跟踪策略通常各自对应一种跟踪方式，不同的跟踪策略通常对应不同的跟踪方式。

S320、根据待训练的跟踪控制网络输出的跟踪策略信息，基于随机分布方式，确定最终跟踪策略信息。

在一个可选示例中，本申请通常是基于随机分布方式，从待训练的跟踪控制网络所输出的所有概率中，选取一概率，作为最终跟踪策略信息。例如，待训练的跟踪控制网络输出的两个概率分别为0.9和0.1，在基于随机分布方式从这两个概率中选取一概率时，选取出的概率并不一定必然是0.9，而有可能是0.1。然而，在待训练的跟踪控制网络训练成功后，如果跟踪控制网络输出的两个概率分别为0.9和0.1，则选取出的概率一定是0.9，而不可能是0.1。

S330、根据最终跟踪策略信息对目标对象进行跟踪处理。

在一个可选示例中，在本申请的最终跟踪策略信息所对应的跟踪策略为跟踪器对目标对象继续跟踪的情况下，本申请可以将当前图像样本的下一个图像样本作为当前图像样本，提供给跟踪器，以便于由跟踪器，针对当前图像样本对目标对象进行跟踪处理，即跟踪器继续基于当前的设置参数，对更新后的当前图像样本进行目标对象跟踪，从而跟踪器输出当前图像样本的跟踪处理结果(如跟踪器输出当前图像样本的目标对象外接框位置信息等)。本申请可以根据跟踪器输出的跟踪处理结果，再次形成目标对象的图像块，该目标对象的图像块再次被提供给待训练的跟踪控制网络。

在一个可选示例中，在本申请的最终跟踪策略信息所对应的跟踪策略为全局检测目标对象的情况下，本申请可以将当前图像样本提供给全局检测器，由全局检测器对当前图像样本进行目标对象检测，例如，全局检测器从当前图像样本的完整内容中搜索目标对象。全局检测器输出目标对象外接框位置信息。本申请可以利用全局检测器输出的目标对象外接框位置信息来对跟踪器进行初始化处理，从而跟踪器在被初始化处理后，其设置参数通常会发生变化。之后，本申请可以将当前图像样本的下一个图像样本作为当前图像样本，提供给跟踪器，由跟踪器针对当前图像样本进行目标对象的跟踪处理，即跟踪器基于更新后的参数设置，对当前图像样本进行目标对象的跟踪处理，输出当前图像样本的跟踪处理结果，如跟踪器输出当前图像样本的目标对象外接框位置信息等。本申请可以根据跟踪器输出的跟踪处理结果，再次形成目标对象的图像块，该目标对象的图像块再次被提供给待训练的跟踪控制网络。

在一个可选示例中，本申请在利用上述步骤S300至S330，针对样本图像序列中的每一个图像样本进行相应处理后，可以获得样本图像序列中的每一个图像样本中的目标对象外接框位置信息。

S340、根据跟踪处理获得的多个图像样本的目标对象的位置信息与相应的图像样本的目标对象位置标注信息所对应的位置之间的面积重叠情况，确定样本图像序列的决策评价值，根据样本图像序列的决策评价值，采用强化学习方式，调整待训练的跟踪控制网络的网络参数。

在一个可选示例中，本申请中的面积重叠情况可以使用交并比来体现。针对样本图像序列中的任一图像样本而言，本申请可以根据上述获得的该图像样本中的目标对象外接框位置信息以及该图像样本的目标对象位置标注信息，进行相交面积以及相并面积的计算，之后，根据计算出的相交面积和相并面积计算该图像样本对应的交并比，进而，本申请可以根据该交并比为该图像样本设置一决策评价值(如reward)，例如，本申请可以采用下述公式(1)来确定一图像样本的决策评价值：

IoU表示根据跟踪器所获得的目标对象外接框位置信息以及图像样本的目标对象位置标注信息，进行计算从而获得的交并比；tracking表示最终跟踪策略信息为由跟踪器对目标对象继续跟踪；switching表示最终跟踪策略信息为针对当前图像全局检测目标对象，interruption表示由于跟踪器跟踪丢失等原因而导致的跟踪中断。需要特别说明的是，上述公式(1)中的-10只是一个具体例子，本申请并不排除-10为其他数值的可能性。

通过上述方式，本申请可以为样本图像序列中的每一个图像样本分别设置一决策评价值，本申请可以根据样本图像序列中的部分图像样本(如多个图像样本)或者所有图像样本的决策评价值，确定出该样本图像序列的决策评价值。例如，将多个图像样本或者所有图像样本的决策评价值的平均值作为该样本图像序列的决策评价值。再例如，将多个图像样本或者所有图像样本的决策评价值的加权平均值作为该样本图像序列的决策评价值。另外，本申请也可以采用其他方式来体现面积重叠情况，例如，相交面积与总面积的比值等。本申请不限制确定样本图像序列的决策评价值的具体实现方式以及面积重叠情况的具体体现方式。

本申请可以采用现有的强化学习方式(例如，基于策略梯度算法的强化学习方式)，根据样本图像序列的决策评价值，来调整待训练的跟踪控制网络的网络参数。利用基于策略梯度算法的强化学习方式调整待训练的跟踪控制网络的网络参数的具体实现过程，在此不再详细说明。

在一个可选示例中，在针对待训练的跟踪控制网络的训练达到预定迭代条件时，本次训练过程结束。本申请中的预定迭代条件可以包括：用于训练神经网络的样本图像序列的面积重叠情况满足预定要求。在用于训练神经网络的样本图像序列的面积重叠情况满足预定要求的情况下，本次对待训练的跟踪控制网络成功训练完成。本申请中的预定迭代条件也可以包括：对该待训练的跟踪控制网络进行训练，所使用的样本图像序列所包含的图像样本的数量达到预定数量要求等。在使用的样本图像序列所包含的图像样本的数量达到预定数量要求，然而，用于训练神经网络的样本图像序列的面积重叠情况并未满足预定要求的情况下，本次对待训练的跟踪控制网络并未训练成功。成功训练完成的神经网络可以用于视觉跟踪处理。

利用上述图3所示的实施例训练出的跟踪控制网络，通常适用于多目标跟踪应用场景中。

图4为本申请的训练跟踪控制网络的一个实施例的流程图。

如图4所示，该实施例方法包括：步骤S400、步骤S410、步骤S420以及步骤S430。下面对图4中的各步骤进行详细说明。

S400、针对样本图像序列中的当前图像样本，获取不同跟踪器采用不同跟踪策略而获得的目标对象的不同图像块。

在一个可选示例中，设定预先设置了两个跟踪器，每个跟踪器采用一种跟踪策略，不同跟踪器采用不同的跟踪策略。每一个跟踪器针对当前图像样本会输出目标对象的位置信息，根据不同的跟踪器所输出的位置信息分别对当前图像样本进行切分处理，从而会获得两个图像块。

S410、将不同图像块分别提供给待训练的跟踪控制网络，获取不同跟踪器各自对应的置信度。

在一个可选示例中，本申请可以将目标对象的两个图像块直接输入至待训练的跟踪控制网络，也可以先对两个图像块分别进行相应的处理，然后，将处理结果输入至待训练的跟踪控制网络，如本申请可以先获得两个图像块的特征图或者热力图等，然后，将获取到的两个特征图或者两个热力图输入至待训练的跟踪控制网络。

在一个可选示例中，待训练的跟踪控制网络针对该目标对象的两个图像块分别进行跟踪策略处理，并输出相应的跟踪策略处理结果。该跟踪策略处理结果通常包括：预先设置的至少两种不同的跟踪策略分别对应的置信度。一个可选例子，待训练的跟踪控制网络针对第一跟踪器所形成的目标对象的图像块进行跟踪策略处理，输出第一置信度，待训练的跟踪控制网络针对第二跟踪器所形成的目标对象的图像块进行跟踪策略处理，输出第二置信度。第一置信度和第二置信度之和可以为1。

S420、根据不同跟踪器各自对应的置信度以及采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象的位置融合处理。

在一个可选示例中，对于当前图像样本而言，两个跟踪器采用不同的跟踪策略进行目标对象的跟踪处理，从而每一个跟踪器均会针对当前图像样本，输出目标对象的位置信息。本申请可以根据跟踪控制网络针对每一个图像块所输出的置信度以及不同跟踪器采用不同跟踪策略所形成的目标对象的位置信息(如目标对象外接框位置)，进行目标对象的位置融合处理(如目标对象外接框位置融合处理)；本申请可以将融合处理后的目标对象的位置信息(如融合处理后的目标对象外接框位置)作为本次针对当前图像样本进行跟踪处理而最终获得的跟踪结果。

S430、根据融合处理后的目标对象的位置初始化相应跟踪器，并根据跟踪器输出的图像块位置与当前图像样本的目标对象位置标注信息所对应的位置，确定两位置之间的面积重叠情况，并根据面积重叠情况确定样本图像序列的决策评价值，根据样本图像序列的决策评价值，采用强化学习方式，调整待训练的跟踪控制网络的网络参数。

在一个可选示例中，本申请中的根据融合处理后的目标对象的位置初始化相应跟踪器可以认为是：将上述最终获得跟踪结果作为目标对象的初始化位置提供采用相应跟踪策略(如采用针对当前图像全局检测目标对象)的跟踪器，以便于相应跟踪器根据该初始化位置执行初始化操作。本申请中的面积重叠情况可以使用交并比来体现。例如，针对样本图像序列中的任一图像样本而言，本申请可以根据每一个跟踪器所形成的目标对象外接框位置信息以及图像样本的目标对象位置标注信息，分别执行相交面积以及相并面积的计算操作，之后，根据计算出的相交面积和相并面积计算图像样本对应的多个交并比(如两个交并比)，进而，本申请可以根据计算出的多个交并比为图像样本设置一决策评价值(如reward)，如本申请可以采用下述公式(2)来确定一图像样本的决策评价值：

在上述公式(2)中，IoU_chosen表示跟踪控制网络输出的两个置信度(如概率值)中高置信度所对应的跟踪器所输出的目标对象的位置信息与相应图像样本的目标对象位置标注信息所对应的位置之间的交并比，IoU_discard表示跟踪控制网络输出的两个置信度中低置信度所对应的跟踪器所输出的目标对象的位置信息与相应图像样本的目标对象位置标注信息所对应的位置之间的交并比。需要特别说明的是，上述公式(2)中的-10只是一个具体例子，本申请并不排除-10为其他数值的可能性。

通过该方式，本申请可以为样本图像序列中的每一个图像样本分别设置一决策评价值，本申请可以根据样本图像序列中的部分图像样本(如多个图像样本)或者所有图像样本的决策评价值，确定出该样本图像序列的决策评价值。例如，将多个图像样本或者所有图像样本的决策评价值的平均值作为该样本图像序列的决策评价值。再例如，将多个图像样本或者所有图像样本的决策评价值的加权平均值作为该样本图像序列的决策评价值。另外，本申请也可以采用其他方式来体现面积重叠情况，例如，相交面积与总面积的比值等。本申请不限制确定样本图像序列的决策评价值的具体实现方式以及面积重叠情况的具体体现方式。

在一个可选示例中，在针对待训练的跟踪控制网络的训练达到预定迭代条件时，本次训练过程结束。本申请中的预定迭代条件可以包括：用于训练神经网络的样本图像序列的融合处理后的各目标对象的位置与相应的图像样本的目标对象的位置之间的面积重叠情况，满足预定要求。在该面积重叠情况满足预定要求的情况下，本次对待训练的跟踪控制网络成功训练完成。本申请中的预定迭代条件也可以包括：对该待训练的跟踪控制网络进行训练，所使用的样本图像序列所包含的图像样本的数量达到预定数量要求等。在使用的样本图像序列所包含的图像样本的数量达到预定数量要求，然而，上述面积重叠情况并未满足预定要求的情况下，本次对待训练的跟踪控制网络并未训练成功。成功训练完成的神经网络可以用于视觉跟踪处理。

利用上述图4所示的实施例训练出的跟踪控制网络，通常适用于单目标跟踪应用场景中。

图5为本申请的视觉跟踪装置一个实施例的结构示意图。如图5所示，该实施例的装置主要包括：获取图像块模块500、获取跟踪策略模块510、跟踪控制网络520以及跟踪处理模块530。可选的，该装置还可以包括：第一训练模块540或者第二训练模块550。本申请中的跟踪控制网络520可以包括：至少一卷积层、至少一全连接层以及至少一决策层(如至少一用于分类的层)。

获取图像块模块500用于针对图像序列中的当前图像，获取目标对象的图像块。

获取跟踪策略模块510用于将图像块输入至跟踪控制网络520，获取目标对象的跟踪策略信息。

在一个可选示例中，获取跟踪策略模块510可以直接将图像块输入至跟踪控制网络520，也可以先对图像块进行处理，然后，将处理后的结果输入至跟踪控制网络520，例如，获取跟踪策略模块510获取图像块的特征图或者热力图，并将获取到的特征图或者热力图输入至跟踪控制网络520。

在一个可选示例中，针对多目标跟踪应用场景，本申请中的跟踪策略信息可以包括：预先设置的至少两种不同的跟踪策略分别对应的概率。例如，至少两种不同的跟踪策略可以包括：由跟踪器对目标对象继续跟踪以及针对当前图像全局检测目标对象。针对单目标跟踪应用场景，本申请中的跟踪策略信息可以包括：跟踪器采用的跟踪策略的置信度。例如，跟踪器采用的跟踪策略可以包括：由跟踪器对目标对象继续跟踪、以及针对当前图像全局检测目标对象。

跟踪处理模块530用于根据跟踪策略信息对目标对象进行跟踪处理。

在一个可选示例中，针对多目标跟踪应用场景，本申请中的跟踪处理模块530可以包括：选择模块、第一提供图像模块、第二提供图像模块、初始化模块以及第三提供图像模块。

选择模块用于根据跟踪控制网络输出的概率从预先设置的至少两种不同的跟踪策略中选择对应的跟踪策略。

第一提供图像模块用于在选择模块所选择的跟踪策略为由跟踪器对目标对象继续跟踪的情况下，将当前图像的下一个图像作为当前图像并提供给跟踪器，由跟踪器对目标对象继续跟踪。

第二提供图像模块用于在选择模块所选择的跟踪策略为针对当前图像全局检测所述目标对象的情况下，将当前图像提供给全局检测器，由全局检测器对当前图像进行目标对象检测。

初始化模块用于根据全局检测器输出的目标对象位置信息，对跟踪器进行初始化设置。

第三提供图像模块用于将当前图像的下一个图像作为当前图像，提供给跟踪器，以由跟踪器对目标对象继续跟踪。

在一个可选示例中，针对单目标跟踪应用场景，本申请中的跟踪处理模块530可以包括：融合模块。

融合模块用于根据不同的跟踪策略分别对应的概率以及采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象位置融合处理；其中，融合处理后的目标对象的位置被作为跟踪处理最终获得的目标对象的位置。

在多目标跟踪应用场景中，第一训练模块540用于先针对样本图像序列中的当前图像样本，获取目标对象的图像块。然后，第一训练模块540将图像块提供给待训练的跟踪控制网络，获取待训练的跟踪控制网络输出的目标对象的跟踪策略信息。再后，第一训练模块540根据待训练的跟踪控制网络输出的跟踪策略信息，基于随机分布方式，确定最终跟踪策略信息。之后，第一训练模块540根据最终跟踪策略信息对目标对象进行跟踪处理。最后，第一训练模块540根据跟踪处理获得的多个图像样本的目标对象的位置信息与相应的图像样本的目标对象位置标注信息所对应的位置之间的面积重叠情况，确定样本图像序列的决策评价值，第一训练模块540根据样本图像序列的决策评价值，采用强化学习方式，调整待训练的跟踪控制网络的网络参数。

在单目标跟踪应用场景中，第二训练模块550用于针对样本图像序列中的当前图像样本，先获取不同跟踪器采用不同跟踪策略而获得的目标对象的不同图像块。然后，第二训练模块550将不同图像块分别提供给待训练的跟踪控制网络，获取不同跟踪器各自对应的置信度。再后，第二训练模块550根据不同跟踪器各自对应的置信度以及采用不同跟踪策略所形成的目标对象的位置信息，进行目标对象的位置融合处理。之后，第二训练模块550根据融合处理后的目标对象的位置初始化相应的跟踪器，第二训练模块550根据跟踪器输出的图像块位置与当前图像样本的目标对象位置标注信息所对应的位置，确定两位置之间的面积重叠情况，第二训练模块550根据该面积重叠情况确定样本图像序列的决策评价值，第二训练模块550根据样本图像序列的决策评价值，采用强化学习方式，调整待训练的跟踪控制网络的网络参数。

获取图像块模块500、获取跟踪策略模块510、跟踪控制网络520、跟踪处理模块530、第一训练模块540、第二训练模块550选择模块、第一提供图像模块、第二提供图像模块、初始化模块、第三提供图像模块以及融合模块等所执行的具体操作，可以参见上述方法实施方式中的描述。在此不再重复说明。

示例性设备

图6示出了适于实现本申请的示例性设备600，设备600可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图6中，设备600包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)601，和/或，一个或者多个利用神经网络进行视觉跟踪的图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器602和/或随机访问存储器603中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。此外，在RAM 603中，还可以存储有装置操作所需的各种程序以及数据。CPU601、ROM602以及RAM603通过总线604彼此相连。

在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使中央处理单元601执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装在存储部分608中。

需要特别说明的是，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU613和CPU601可分离设置，再如理，可将GPU613集成在CPU601上，通信部可分离设置，也可集成设置在CPU601或GPU613上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载及安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请中记载的实现上述相应步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意实施例中所述的视觉跟踪方法或者神经网络的训练方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种视觉跟踪方法和神经网络的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中的方法包括：第一装置向第二装置发送视觉跟踪指示或者训练神经网络指示，该指示使得第二装置执行上述任一可能的实施例中的视觉跟踪方法或者训练神经网络方法；第一装置接收第二装置发送的视觉跟踪结果或者神经网络训练结果。

在一些实施例中，该视觉跟踪指示或者训练神经网络指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行视觉跟踪操作或者训练神经网络操作，相应地，响应于接收到调用指令，第二装置可以执行上述视觉跟踪方法或者训练神经网络的方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述，是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用，并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种视觉跟踪方法，其特征在于，包括：

针对图像序列中的当前图像，获取目标对象的图像块；

将所述图像块输入至跟踪控制网络，获取所述目标对象的跟踪策略信息；

根据所述跟踪策略信息对所述目标对象进行跟踪处理；其中，所述跟踪控制网络是利用设置有目标对象位置标注信息的样本图像序列，采用强化学习方式训练获得的。

2.根据权利要求1所述的方法，其特征在于，所述将所述图像块输入至跟踪控制网络包括：

获取所述图像块的特征图或者热力图，并将所述特征图或者热力图输入至跟踪控制网络。

3.根据权利要求1或2所述的方法，其特征在于，针对多目标跟踪应用场景，所述跟踪策略信息包括：预先设置的至少两种不同的跟踪策略分别对应的概率。

4.根据权利要求3所述的方法，其特征在于，针对多目标跟踪应用场景，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理包括：

根据所述概率从预先设置的至少两种不同的跟踪策略中选择对应的跟踪策略；

其中，所述至少两种不同的跟踪策略包括：由跟踪器对目标对象继续跟踪，和/或，针对当前图像全局检测所述目标对象。

5.根据权利要求4所述的方法，其特征在于，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理还包括：

在所述选择的跟踪策略为由跟踪器对目标对象继续跟踪的情况下，将所述当前图像的下一个图像作为当前图像并提供给所述跟踪器，由所述跟踪器对所述目标对象继续跟踪。

6.根据权利要求4所述的方法，其特征在于，所述根据所述跟踪策略信息对所述目标对象进行跟踪处理还包括：

在所述选择的跟踪策略为针对当前图像全局检测所述目标对象的情况下，将所述当前图像提供给全局检测器，由所述全局检测器对所述当前图像进行目标对象检测。

7.一种视觉跟踪装置，其特征在于，包括：

获取图像块模块，用于针对图像序列中的当前图像，获取目标对象的图像块；

获取跟踪策略模块，用于将所述图像块输入至跟踪控制网络，获取所述目标对象的跟踪策略信息；

跟踪处理模块，用于根据所述跟踪策略信息对所述目标对象进行跟踪处理；

其中，所述跟踪控制网络是利用设置有目标对象位置标注信息的样本图像序列，采用强化学习方式训练获得的。

8.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-6中任一项所述的方法。

10.一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-6中任一项所述的方法。