CN109214245B

CN109214245B - 一种目标跟踪方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109214245B
Application number: CN201710533678.XA
Authority: CN
Inventors: 王千
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2022-02-18
Anticipated expiration: 2037-07-03
Also published as: CN109214245A

Abstract

本发明提供了一种目标跟踪方法、装置、设备及计算机可读存储介质，本发明利用底层光流图像，通过训练卷积神经网络来预测目标在图像上的位移和尺度变化。通过长短时神经网络和卷积神经网络来分别约束目标运动方向的连贯性和感知可能的瞬时变化，并分别采用不同卷积层特征图作为长短时神经网络和卷积神经网络的输入，使网络分别学习到特定类的运动模式和特定目标的运动模式，进而获取粗定位结果，用于后续的精定位的目标验证，从而可以预测目标的运动方向，缩小目标的搜索空间，提高目标跟踪的效率。

Description

一种目标跟踪方法、装置、设备及计算机可读存储介质

技术领域

本发明总体上涉及图像和视频处理领域。更具体地，本发明涉及一种目标跟踪方法、装置、设备及计算机可读存储介质。

背景技术

近些年来，深度学习无论是在学术界还是工业界都取得了巨大的成功。其中，在计算机视觉领域，如图像的语义分割，人的行为识别，物体的跟踪定位等方面也都取得了有目共睹的成果。

对于基于视觉的目标跟踪，这一问题可以描述为：给定目标在初始帧的定位框(如外接矩形框)，从下一帧开始准确地获得该目标在每一帧的外接矩形框。一般说来，目标跟踪主要包括两个组成部分：描述该目标的外观模型和描述其运动模式的动态模型，其中动态模型作为一种搜索策略，用于产生目标在下一帧可能出现的候选框，并将其作为外观模型的输入来判断目标在新一帧存在于此的可信度。当前基于深度学习的目标跟踪方法，大多数的工作重在探讨如何将卷积神经网络提取的特征用于目标跟踪领域。

例如，2015年王立君等人2015年的论文“Visual Tracking with FullyConvolutional Networks”中分析了不同卷积层输出的特征图的特性，以及充分利用这些特性将其用于目标跟踪上。

2016年Hyeonseob Nam等人2016年的会议论文“Learning Multi-DomainConvolutional Neural Networks for Visual Tracking”中，设计了一个只包含三个卷积层和三个全连接层的卷积神经网络，通过使用大量训练样本离线训练网络中的卷积层和前两个全连接层来学习视频中目标的共有特性，比如光照变化、运动模糊、尺度变化等，达到防止因为跟踪过程中目标正负样本少，网络训练容易过拟合的问题。其中，在线跟踪阶段，收集少量样本，微调网络，为每个目标训练一个特定的卷积神经网络分类器。

发明内容

本发明实施例要解决的技术问题是提供一种目标跟踪方法、装置、设备及计算机可读存储介质，从动态模型出发，通过长短时神经网络和卷积神经网络来分别约束目标运动方向的连贯性和感知可能的瞬时变化，可以预测目标的运动方向，缩小目标的搜索空间，提高目标跟踪的效率。

为解决上述技术问题，本发明实施例提供的目标跟踪方法，其特征在于，包括：

根据第t-1帧图像和第t帧图像计算光流图像；

将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果；

利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

具体的，上述方法中，所述长时位移尺度预测子结构和短时位移尺度预测子结构的输出均为目标的位移和尺度变化；所述根据两个子结构的输出，分别获得目标该第t帧图像上的粗定位结果的步骤，包括：

根据所述长时位移尺度预测子结构和短时位移尺度预测子结构各自输出的目标的位移和尺度变化，分别获得目标在第t帧图像中的定位框。

具体的，上述方法中，所述利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果的步骤，包括：

根据目标该第t帧图像上的粗定位结果，获得第t帧图像中对应的彩色图像块，将所述彩色图像块作为表观卷积神经网络模型的输入，获得表观卷积神经网络模型输出的热度图；

将热度图中的最大值的像素点，作为目标中心所在的位置，并根据所述中心位置，更新目标的定位框；

分别计算更新后的各定位框中热度图的平均值，选择出所述平均值最大的定位框作为目标的精定位结果。

具体的，上述方法中，在获得目标的精定位结果之后，所述方法还包括：还包括：

根据第t帧图像的目标定位结果，更新目标的长时位移尺度预测子结构和短时位移尺度预测子结构的训练样本。

具体的，上述方法中，所述更新长时位移尺度预测子结构和短时位移尺度预测子结构的训练样本，包括：

在所述精定位结果的置信度大于第一阈值时，将所述精定位结果及其对应的样本标签和第一样本数据作为训练样本，加入至所述短时位移尺度预测子结构的训练集中，其中，所述样本标签包括第t-1帧和第t帧间的目标定位结果的位移及尺度变化值，所述第一样本数据为所述光流图像中对应于第t帧图像的目标定位结果的光流图块；以及，

将第t帧图像的训练样本图片加入至训练样本序列中，并在所述训练样本序列的长度达到预定值时，将所述训练样本序列加入至所述长时位移尺度预测子结构的训练集中，其中，所述训练样本图片包括第二样本数据和第t-1帧和第t帧间的目标定位结果的位移及尺度变化值，在所述精定位结果的置信度大于第二阈值时，所述第二样本数据为所述第一样本数据，而在所述精定位结果的置信度不大于第二阈值时，所述第二样本数据为利用二值化图对第一样本数据进行掩模操作所得到的光流图块，所述二值化图为对表观卷积神经网络模型给出的精定位结果的热度图做二值化操作所获得的。

具体的，上述方法中，在所述根据第t-1帧图像和第t帧图像计算光流图像的步骤之前，所述方法还包括：

针对每个待跟踪的目标，分别初始化一个与该目标对应的目标跟踪器，所述目标跟踪器包括表观卷积神经网络模型和位移尺度预测神经网络模型；

其中，所述位移尺度预测神经网络模型包括长时位移尺度预测子结构和短时位移尺度预测子结构，所述长时位移尺度预测子结构和所述短时位移尺度预测子结构分别以位移尺度预测神经网络模型中不同的卷积层提取的特征作为输入，且所述长时位移尺度预测子结构对应的卷积层，高于所述短时位移尺度预测子结构对应的卷积层。

具体的，上述方法中，还包括：

利用目标的短时位移尺度预测子结构的训练样本，对该目标的短时位移尺度预测子结构进行在线同步更新；

利用同一类目标的长时位移尺度预测子结构的训练样本，对该同一类目标中的各个目标的长时位移尺度预测子结构进行在线同步更新。

具体的，上述方法中，按照第一周期，进行目标的短时位移尺度预测子结构进行在线同步更新，以及，按照第二周期，进行目标的长时位移尺度预测子结构进行在线同步更新；其中，所述第一周期小于第二周期。

本发明实施例还提供了一种目标跟踪装置，包括：

光流计算单元，用于根据第t-1帧图像和第t帧图像计算光流图像；

粗定位单元，用于将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果；

精定位单元，用于利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

本发明实施例还提供了一种目标跟踪设备，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

根据第t-1帧图像和第t帧图像计算光流图像；

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行以下步骤：

根据第t-1帧图像和第t帧图像计算光流图像；

与现有技术相比，本发明实施例提供的目标跟踪方法、装置、设备及计算机可读存储介质，利用底层光流图像，通过训练卷积神经网络来预测目标在图像上的位移和尺度变化。通过长短时神经网络和卷积神经网络来分别约束目标运动方向的连贯性和感知可能的瞬时变化，并分别采用不同卷积层特征图作为长短时网络和卷积神经网络的输入，使网络分别学习到特定类的运动模式和特定目标的运动模式，进而获取粗定位结果，用于后续的精定位的目标验证，从而可以预测目标的运动方向，缩小目标的搜索空间，提高目标跟踪的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一个实施例的解释TSPNN网络的输入输出，以及如何和表观卷积神经网络结合对目标跟踪的流程示意图；

图2是根据本发明一个实施例的解释TSPNN网络中长时和短时位移和尺度子结构的示意图；

图3是根据本发明一个实施例的解释TSPNN网络中RNN_long和CNN_short子结构分别采用不同训练样本的示意图；

图4是根据本发明一个实施例的目标跟踪方法的流程示意图；

图5是根据本发明另一个实施例的目标跟踪方法的流程示意图；

图6是根据本发明一个实施例的解释利用TSPNN网络建模目标的运动，获得目标在新一帧图像中大致位置的示意图；

图7是根据本发明一个实施例的解释利用训练好的表观CNN模型做目标验证以及做进一步精细定位的示意图；

图8是根据本发明一个实施例的解释分别对3个目标的表观CNN模型和TSPNN模型做在线同步更新的示意图；

图9是根据本发明一个实施例的目标跟踪装置的结构示意图；

图10是根据本发明另一个实施例的目标跟踪装置的结构示意图；

图11是根据本发明又一个实施例的目标跟踪装置的结构示意图；

图12是根据本发明一个实施例的目标跟踪设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供了一种目标跟踪方法，从动态模型出发，提出了一种基于卷积神经网络的位移和尺度预测网络(Transition Scale Prediction Neural Network，TSPNN)，利用底层光流图像，通过训练卷积神经网络来预测目标在不同帧图像中的位移，以及目标在不同帧图像中的尺度大小的变化(即尺度变化)。具体的，TSPNN中分别通过长、短时神经网络来约束目标运动方向的连贯性和感知可能的瞬时变化，并分别采用不同卷积层特征图作为长、短时神经网络的输入，使其分别学习到特定类的运动模式和特定目标的运动模式。

为了更好的理解本发明实施例，首先介绍本发明实施例中的位移和尺度预测网络(即位移尺度预测神经网络模型)。

如背景技术中描述的，目标跟踪主要包括用于判定目标和非目标的外观模型和描述目标运动模式的动态模型，本发明实施例针对所述动态模型，提成了一种基于卷积神经网络的位移和尺度预测网络(TSPNN)，TSPNN学习目标运动的潜在模式，用于预测目标的运动方向，缩小目标的搜索空间，提高目标跟踪的效率。

图1是根据本发明一个实施例，给出了TSPNN网络的输入输出，以及如何和表观卷积神经网络结合对目标跟踪的流程示意图，如图1所示，其中TSPNN的输入为由两帧图像计算得到的稠密的光流图块，输出为目标的位移和尺度变化。然后，基于预测的位移和尺度变化，可以获得目标在当前帧的大致外接矩形框。基于TSPNN网络的输出，利用表观卷积神经网络(表观CNN模型)获得目标响应图，进一步获得更加精确的定位结果。

在本发明实施例中，为了约束目标运动中存在的轨迹连续性和学习可能的急刹、突然转向等突发变化，TSPNN网络中包括了两个子结构：学习轨迹连续性约束的神经网络(RNN_long)和学习运动突发性的卷积神经网络(CNN_short)。如图2所示，这里的RNN_long本质上是一个递归神经网络。递归神经网络一般用于对数据的时间依赖性建模。因此，这里采用RNN_long来约束目标运动的平滑性和连续性。而CNN_short作为一个卷积神经网络来学习从底层光流图像到目标位移和尺度变化的映射。每个子结构分别输出目标跟踪的粗定位结果。其中，Δx_long、Δy_long分别表示RNN_long子结构获得的目标在x方向和y方向的位移，Δs_long表示RNN_long子结构获得的目标的尺度变化；Δx_short、Δy_short分别表示CNN_short子结构获得的目标在x方向和y方向的位移，Δs_short表示CNN_short子结构获得的目标的尺度变化。

为了学习同一类目标运动的长时模式和每个目标个体的特有运动，本发明实施例可以分别给TSPNN中两个子结构输入不同卷积层上的特征图。其中RNN_long子结构的输入为TSPNN中的高层特征图，高层特征图能更好地表达抽象的语义信息，反映一类目标的运动模式。因此，在多目标跟踪过程中同一类目标的训练样本均可用于该类目标的每一个跟踪器RNN_long子结构的训练，即同类型跟踪器TSPNN网络中的RNN_long子结构的训练样本可以共享。相反，CNN_short子结构接收底层特征图作为输入。位于网络底层的特征图能更好地保留原始输入的细节特征，保留特定目标的独有信息，因此能更加精确地反映特定目标的运动。

图3示出了一个同时对同一类的3个目标跟踪的示例。图3的中间位置的训练样本为3个目标跟踪器共同收集到的，用于训练每个跟踪器TSPNN网络中的RNN_long子结构，而每个跟踪器还会维持一个分别用于训练其CNN_short子结构的训练集。

需要说明的是，RNN_long子结构的输入为TSPNN中的高层特征图，例如所有卷积层中的最高层或次高层所提取的特征。CNN_short子结构的输入是TSPNN中的底层特征图，例如,中间层以下的卷积层所提取的特征。RNN_long子结构和CNN_short子结构具体采用哪一层的特征作为输入，可以根据实验结果进行选择，例如分别使用不同层的特征作为输入，获得预测得到的的目标跟踪结果，并根据期望的目标跟踪结果与预测得到的的目标跟踪结果之间的差异，选择出适合的卷积层的特征作为对应子结构的输入。

请参照图4，本发明实施例提供的一种基于卷积神经网络的目标跟踪方法，如图4所示，该方法包括：

步骤41，根据第t-1帧图像和第t帧图像计算光流图像。

这里，第t-1帧图像和第t帧图像可以是相邻的两帧图像，根据第t-1帧图像和第t帧图像，可以计算得两帧图像时间间隔的稠密光流图像，作为第t帧图像的光流图像。在计算稠密光流图像时，可以全局或局部的计算该时间间隔的稠密光流图像。

步骤42，将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果。

这里，位移尺度预测神经网络模型(TSPNN)包括长时位移尺度预测子结构和短时位移尺度预测子结构，所述长时位移尺度预测子结构和所述短时位移尺度预测子结构分别以位移尺度预测神经网络模型中不同的卷积层提取的特征作为输入，且所述长时位移尺度预测子结构对应的卷积层，高于所述短时位移尺度预测子结构对应的卷积层。

在步骤42中，根据第t-1帧图像的目标定位结果，获得该目标定位结果在步骤41中的光流图像中的光流图块，将该光流图块作为TSPNN的输入，获得TSPNN的两个子结构的输出，具体可以是目标在第t帧图像上的位移及尺度变化，从而可以根据所述长时位移尺度预测子结构和短时位移尺度预测子结构各自输出的目标的位移和尺度变化，分别获得目标在第t帧图像中的定位框，作为目标第t帧图像上的粗定位结果。

步骤43，利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

这里，通过表观卷积神经网络模型，对TSPNN获得的粗定位结果进行目标验证和位置微调，获得最终的目标定位结果并输出。具体的，可以根据目标该第t帧图像上的粗定位结果，获得第t帧图像中对应的彩色图像块，将所述彩色图像块作为表观卷积神经网络模型的输入，获得表观卷积神经网络模型输出的热度图；然后，将热度图中的最大值的像素点，作为目标中心所在的位置，并根据所述中心位置，更新目标的定位框；分别计算更新后的各定位框中热度图的平均值，选择出所述平均值最大的定位框作为目标的精定位结果。

从以上步骤可以看出，本发明实施例利用底层光流图像，通过训练卷积神经网络来预测目标在图像上的位移和尺度变化。通过两个子结构的长短时神经网络和卷积神经网络，分别约束目标运动方向的连贯性和感知可能的瞬时变化，并分别采用不同卷积层特征图作为长短时神经网络和卷积神经网络的输入，使网络分别学习到特定类的运动模式和特定目标的运动模式，进而获取粗定位结果，用于后续的精定位的目标验证，从而可以预测目标的运动方向，缩小目标的搜索空间，提高目标跟踪的效率。

请参照图5，本发明实施例提供的另一目标跟踪方法，该方法包括：

步骤50，针对每个待跟踪的目标，分别初始化一个与该目标对应的目标跟踪器，所述目标跟踪器包括表观卷积神经网络模型和位移尺度预测神经网络模型。

这里，所述位移尺度预测神经网络模型包括长时位移尺度预测子结构和短时位移尺度预测子结构，所述长时位移尺度预测子结构和所述短时位移尺度预测子结构分别以位移尺度预测神经网络模型中不同的卷积层提取的特征作为输入，且所述长时位移尺度预测子结构对应的卷积层，高于所述短时位移尺度预测子结构对应的卷积层。

步骤51，接收待处理视频的第t帧图像，根据第t-1帧图像和第t帧图像计算光流图像。

这里，本发明实施例每接收到一帧图像(如第t帧图像)后，分别与前一帧图像(如第t-1帧图像)进行光流图像的计算，进而通过后续步骤实现对目标的持续跟踪，获得目标在每帧图像中的定位结果。

步骤52，将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果。

步骤53，利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

上述步骤51～53的具体实现可以参照步骤41～43，这里不再赘述。

步骤54，根据第t帧图像的目标定位结果，更新目标的长时位移尺度预测子结构和短时位移尺度预测子结构的训练样本。

这里，在所述精定位结果的置信度大于第一阈值时，将所述精定位结果及其对应的样本标签和第一样本数据作为训练样本，加入至所述短时位移尺度预测子结构的训练集中，其中，所述样本标签包括第t-1帧和第t帧间的目标定位结果的位移及尺度变化值，所述第一样本数据为所述光流图像中对应于第t帧图像的目标定位结果的光流图块；以及，

步骤55，判断待处理视频的图像帧是否已处理完毕，若处理完毕，则结束流程，否则返回步骤51中以接收待处理视频的下一帧图像并执行步骤52～54，获得目标在下一帧图像中的定位结果并更新训练样本。

在本发明实施例中，还需要对表观CNN模型和位移尺度预测神经网络模型进行在线更新。其中，对于位移尺度预测神经网络模型，其更新可以包括：利用目标的短时位移尺度预测子结构的训练样本，对该目标的短时位移尺度预测子结构进行在线同步更新；以及，利用同一类目标的长时位移尺度预测子结构的训练样本，对该同一类目标中的各个目标的长时位移尺度预测子结构进行在线同步更新。

在实际应用中，通常可以按照第一周期，进行目标的短时位移尺度预测子结构进行在线同步更新，以及，按照第二周期，进行目标的长时位移尺度预测子结构进行在线同步更新，这里，所述第一周期小于第二周期。

下面进一步结合若干附图对本发明实施例的以上步骤进行更为细致的描述。

图6是根据本发明一个实施例，利用TSPNN网络建模目标的运动，获得目标在新一帧图像中大致位置的示意图。如图6所示，在给定第t-1帧图像61和第t帧图像62，以及第t-1帧图像中目标的跟踪结果框60(假设目标位置及其尺度分别为Xt、Yt和St)时，首先全局地或者局部地计算第t-1帧和第t帧之间的时间间隔的稠密光流图像，并将稠密光流图像中位于第t-1帧的跟踪结果框60内的光流图块，作为目标跟踪器TSPNN网络的输入，分别由其RNN_long子结构和CNN_short子结构获得该目标在该时间间隔内的长时位移和尺度变换的预测值(Δx_long、Δy_long和Δs_long)和短时位移和尺度变换的预测值(Δx_short、Δy_short和Δs_short)。基于该预测值，可以得到该目标在第t帧图像上的大致位置，如图6中虚线框65和66所示，虚线框65对应的目标位置和尺度分别为Xt+Δx_long、Yt+Δy_long和St+Δs_long，虚线框66对应的目标位置和尺度分别为Xt+Δx_lshort、Yt+Δy_short和St+Δs_lshort。将目标在第t帧图像上的大致位置作为下一步精定位的“种子点”。需要指出的是，在图像中，由于目标的尺度变化与其运动的方向以及大小有着密切的关系，因此可以很好地以原始光流图块作为输入，通过卷积神经网络来学习目标运动与尺度变化的映射关系。

图7是根据本发明一个实施例，利用训练好的表观CNN模型67做目标验证以及做进一步精细定位的示意图。这里可以采用两种方式做目标的精细定位：基于采样的方式以及基于热度图的方式。这里以基于热度图的方式为例加以说明。

在图6中，由TSPNN的长时和短时子结构，根据光流图像获得了目标在第t帧的大致位置后，将上述大致位置在彩色图像上对应的图块作为表观CNN模型的输入，该模型的输出为热度图。在该热度图上，像素点的值代表目标中心出现在该位置的可能性。因此，本发明实施例可以将该热度图上具有最大值的点(如图中的星形所示)作为目标精定位的结果(即目标中心所在的位置点)，还可以根据目标尺度及目标中心所在的位置点，更新目标的定位框65和66，分别得到更新后的定位框68和69。而对于图7中长短时网络给出的两个精定位结果，可以分别计算每个定位框65和66中热度图的平均值，选择平均值较大的热度图的精定位结果，作为该目标在第t帧图像中的最终定位结果。上述过程可用如下公式(1)表示：

以上公式中，BB`short和BB`short分别表示更新后的定位框68和69，area(*)表示面积，H_long(i)和H_short(i)分别表示定位框68和69中的像素点的热度值，Argmax_Conf则表示在给定Conf_long和Conf_short的情况下，求解使conf具有最大值的位置。

在目标跟踪过程中，目标的外观可能会逐渐发生改变。为了解决这一问题，TSPNN以及表观CNN模型可以周期性的做更新，因此样本集也要做相应的更新。本发明实施例对子结构CNN_short和子结构RNN_long分别采用不同的样本更新策略。

对于第i个目标的跟踪器的CNN_short子结构，如果根据公式(1)给出的最终定位结构的置信度值大于一个给定的第一阈值，则将当前的目标定位结果加入到第i个跟踪器CNN_short子结构的训练集中。对于该训练集的训练样本，样本的标签为第t-1帧和第t帧间精定位结果的位移和尺度变化值，将其记为

样本数据为第t-1帧和第t帧的光流图像中对应于第t帧图像的目标定位结果的光流图块。若最终定位结构的置信度值不大于阈值θ，不将该样本加入到此跟踪器CNN_short子结构的训练集中。其中，

分别表示精定位结果在x、y方向的位移和尺度变化值。

对于RNNlong的训练样本，它们可由所有同一类型的跟踪器所共享，如行人跟踪器。具体地，由于RNNlong本质上是一个递归神经网络，当公式(1)给出的精定位的置信度高于一第二阈值时，将训练样本图片

加入到训练样本序列中，记为

其中，optical flowpatch表示样本数据，具体为所述光流图像中对应于第t帧图像的目标定位结果的光流图块。如果该训练样本序列的长度达到了既定值L(一个事先设定的阈值)，则将该训练样本序列加入到RNN_long训练集中。如果精定位的置信度小于或等于第二阈值，则对表观CNN模型给出的热度图做二值化操作，并用该二值化图对光流图块做掩模操作，得到二值化后的光流图，并将该二值化后的光流图作为训练样本的数据部分(即optical flow patch)，其余后续操作同大于第二阈值分支操作相同。对于表观CNN模型的样本更新，可以采用王立君等人2015年的论文“Visual Tracking with Fully Convolutional Networks”中相同的方式，本文对此不再赘述。

图8是根据本发明一个实施例，分别对3个目标的表观CNN模型和TSPNN模型做在线同步更新的示意图。对于网络模型的在线更新，通常包括3个部分。对CNN_short子结构，每个跟踪器每隔Tshort帧更新一次，这里Tshort为一个既定的时间周期。第i个跟踪器的训练样本D_i可以记为：

这里可以利用回归方式作为损失函数L({SReg_i})：

这里，optical flow patch_ij表示第i个跟踪器的训练样本D_i中的第j个样本数据，SReg_ij为CNN_short子结构基于光流图块获得的网络预测值，而N表示该目标跟踪器CNN_short子结构当前训练样本集的大小。

另一方面，对于每个跟踪器的RNN_long子结构，可以每隔Tlong帧更新一次，这里Tlong为一个既定的时间周期，且Tlong大于Tshort。另外，同一类目标的所有跟踪器可以共享RNN_long子结构的训练集，定义其损失函数为回归函数，表示为：

这里，LReg_ij表示RNN_long子结构基于原始光流图块的网络预测值，而N表示当前训练样本集的大小。训练方式可以采用随时间反向传播(Back Propagation Through Time，BPTT)的方式来训练。

最后，对于每个跟踪器的表观CNN模型的更新，可以采用王立君等人2015年的论文“Visual Tracking with Fully Convolutional Networks”中相同的方法。

需要说明的是，本发明实施例以上各网络模型的在线训练，可以参考现有技术的各种实现，本发明实施例对此不做具体限定。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例中的目标跟踪方法中的步骤。

例如，所述计算机程序被处理器执行时，可以实现以下步骤：根据第t-1帧图像和第t帧图像计算光流图像；

基于以上实施例提供的目标跟踪方法，本发明实施例还提供了一种目标跟踪装置，请参照图9，本发明实施例提供的目标跟踪装置90包括：

光流计算单元91，用于根据第t-1帧图像和第t帧图像计算光流图像；

粗定位单元92，用于将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果；

精定位单元93，用于利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

这里，所述长时位移尺度预测子结构和短时位移尺度预测子结构的输出均为目标的位移和尺度变化。如图10所示，本发明实施例提供的另一目标跟踪装置100，包括：

光流计算单元101，用于根据第t-1帧图像和第t帧图像计算光流图像；

粗定位单元102，用于将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果；

精定位单元103，用于利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

其中，所述粗定位单元102包括：

第一定位处理单元1021，用于根据所述长时位移尺度预测子结构输出的目标的位移和尺度变化，获得目标在第t帧图像中的定位框；

第二定位处理单元1022，用于根据所述短时位移尺度预测子结构输出的目标的位移和尺度变化，获得目标在第t帧图像中的定位框。

所述精定位单元103包括：

粗定位输入单元1031，用于根据目标该第t帧图像上的粗定位结果，获得第t帧图像中对应的彩色图像块，将所述彩色图像块作为表观卷积神经网络模型的输入，获得表观卷积神经网络模型输出的热度图；

精定位输出单元1032，用于将热度图中的最大值的像素点，作为目标中心所在的位置，并根据所述中心位置，更新目标的定位框；分别计算更新后的各定位框中热度图的平均值，选择出所述平均值最大的定位框作为目标的精定位结。

请参照图11，本发明实施例提供的又一目标跟踪装置110，包括：

初始化单元111，用于针对每个待跟踪的目标，分别初始化一个与该目标对应的目标跟踪器，所述目标跟踪器包括表观卷积神经网络模型和位移尺度预测神经网络模型；其中，所述位移尺度预测神经网络模型包括长时位移尺度预测子结构和短时位移尺度预测子结构，所述长时位移尺度预测子结构和所述短时位移尺度预测子结构分别以位移尺度预测神经网络模型中不同的卷积层提取的特征作为输入，且所述长时位移尺度预测子结构对应的卷积层，高于所述短时位移尺度预测子结构对应的卷积层。

光流计算单元112，用于根据第t-1帧图像和第t帧图像计算光流图像；

粗定位单元113，用于将所述光流图像中对应于第t-1帧图像的目标定位结果的光流图块，作为位移尺度预测神经网络模型中目标的长时位移尺度预测子结构和短时位移尺度预测子结构的输入，并根据两个子结构的输出，分别获得目标在第t帧图像上的粗定位结果；

精定位单元114，用于利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果。

样本更新单元115，用于根据第t帧图像的目标定位结果，更新目标的长时位移尺度预测子结构和短时位移尺度预测子结构的训练样本。

第一在线同步单元116，用于利用目标的短时位移尺度预测子结构的训练样本，对该目标的短时位移尺度预测子结构进行在线同步更新；

第二在线同步单元117，用于利用同一类目标的长时位移尺度预测子结构的训练样本，对该同一类目标中的各个目标的长时位移尺度预测子结构进行在线同步更新。

这里，所述第一在线同步单元116，可以按照第一周期，进行目标的短时位移尺度预测子结构进行在线同步更新，以及，所述第二在线同步单元117，可以按照第二周期，进行目标的长时位移尺度预测子结构进行在线同步更新；其中，所述第一周期小于第二周期。

这里，所述样本更新单元115可以包括：

第一样本更新单元1151，用于在所述精定位结果的置信度大于第一阈值时，将所述精定位结果及其对应的样本标签和第一样本数据作为训练样本，加入至所述短时位移尺度预测子结构的训练集中，其中，所述样本标签包括第t-1帧和第t帧间的目标定位结果的位移及尺度变化值，所述第一样本数据为所述光流图像中对应于第t帧图像的目标定位结果的光流图块；以及，

第二样本更新单元1152，用于将第t帧图像的训练样本图片加入至训练样本序列中，并在所述训练样本序列的长度达到预定值时，将所述训练样本序列加入至所述长时位移尺度预测子结构的训练集中，其中，所述训练样本图片包括第二样本数据和第t-1帧和第t帧间的目标定位结果的位移及尺度变化值，在所述精定位结果的置信度大于第二阈值时，所述第二样本数据为所述第一样本数据，而在所述精定位结果的置信度不大于第二阈值时，所述第二样本数据为利用二值化图对第一样本数据进行掩模操作所得到的光流图块，所述二值化图为对表观卷积神经网络模型给出的精定位结果的热度图做二值化操作所获得的。

最后，本发明实施例还提供了一种目标跟踪设备，如图12所示，该目标跟踪设备120包括：

处理器122；和

存储器124，在所述存储器124中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器122执行以下步骤：

根据第t-1帧图像和第t帧图像计算光流图像；

进一步地，如图12所示，该物品抓取设备120还包括网络接口121、输入设备123、硬盘125、和显示设备126。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器122代表的一个或者多个中央处理器(CPU)，以及由存储器124代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口121，可以连接至网络(如因特网、局域网等)，从网络中接收操作人员输入的控制命令，执行对应的抓取操作，并可以将抓取操作的历史记录保存在硬盘125中。

所述输入设备123，可以接收操作人员输入的各种指令，并发送给处理器122以供执行。所述输入设备123可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备126，可以将处理器122执行指令获得的结果进行显示，例如显示当前已抓取目标的数量等。

所述存储器124，用于存储操作系统运行所必须的程序和数据，以及处理器122计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器124可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器124存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统1241和应用程序1242。

其中，操作系统1241，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1242，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1242中。

本发明上述实施例揭示的方法可以应用于处理器122中，或者由处理器122实现。处理器122可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器122中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器122可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器124，处理器122读取存储器124中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器122可以根据所述长时位移尺度预测子结构和短时位移尺度预测子结构各自输出的目标的位移和尺度变化，分别获得目标在第t帧图像中的定位框。

具体地，处理器122可以根据目标该第t帧图像上的粗定位结果，获得第t帧图像中对应的彩色图像块，将所述彩色图像块作为表观卷积神经网络模型的输入，获得表观卷积神经网络模型输出的热度图；将热度图中的最大值的像素点，作为目标中心所在的位置，并根据所述中心位置，更新目标的定位框；分别计算更新后的各定位框中热度图的平均值，选择出所述平均值最大的定位框作为目标的精定位结果。

具体地，处理器122可以在获得目标的精定位结果之后，根据第t帧图像的目标定位结果，更新目标的长时位移尺度预测子结构和短时位移尺度预测子结构的训练样本。

具体地，处理器122可以在所述精定位结果的置信度大于第一阈值时，将所述精定位结果及其对应的样本标签和第一样本数据作为训练样本，加入至所述短时位移尺度预测子结构的训练集中，其中，所述样本标签包括第t-1帧和第t帧间的目标定位结果的位移及尺度变化值，所述第一样本数据为所述光流图像中对应于第t帧图像的目标定位结果的光流图块；以及，

具体地，处理器122可以在根据第t-1帧图像和第t帧图像计算光流图像的步骤之前，针对每个待跟踪的目标，分别初始化一个与该目标对应的目标跟踪器，所述目标跟踪器包括表观卷积神经网络模型和位移尺度预测神经网络模型；其中，所述位移尺度预测神经网络模型包括长时位移尺度预测子结构和短时位移尺度预测子结构，所述长时位移尺度预测子结构和所述短时位移尺度预测子结构分别以位移尺度预测神经网络模型中不同的卷积层提取的特征作为输入，且所述长时位移尺度预测子结构对应的卷积层，高于所述短时位移尺度预测子结构对应的卷积层。

具体地，处理器122可以利用目标的短时位移尺度预测子结构的训练样本，对该目标的短时位移尺度预测子结构进行在线同步更新；利用同一类目标的长时位移尺度预测子结构的训练样本，对该同一类目标中的各个目标的长时位移尺度预测子结构进行在线同步更新。

具体地，处理器122可以按照第一周期，进行目标的短时位移尺度预测子结构进行在线同步更新，以及，按照第二周期，进行目标的长时位移尺度预测子结构进行在线同步更新；其中，所述第一周期小于第二周期。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，其特征在于，包括：

根据第t-1帧图像和第t帧图像计算光流图像；

2.根据权利要求1所述的方法，其特征在于，所述长时位移尺度预测子结构和短时位移尺度预测子结构的输出均为目标的位移和尺度变化；所述根据两个子结构的输出，分别获得目标该第t帧图像上的粗定位结果的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用表观卷积神经网络模型，对所述粗定位结果进行目标验证和目标位置微调，获得目标的精定位结果，作为第t帧图像的目标定位结果的步骤，包括：

将热度图中的最大值的像素点，作为目标中心所在的位置，并根据所述目标中心所在的位置，更新目标的定位框；

4.根据权利要求1所述的方法，其特征在于，在获得目标的精定位结果之后，所述方法还包括：还包括：

5.根据权利要求4所述的方法，其特征在于，所述更新目标的长时位移尺度预测子结构和短时位移尺度预测子结构的训练样本，包括：

6.根据权利要求1所述的方法，其特征在于，在所述根据第t-1帧图像和第t帧图像计算光流图像的步骤之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

按照第一周期，进行目标的短时位移尺度预测子结构进行在线同步更新，以及，按照第二周期，进行目标的长时位移尺度预测子结构进行在线同步更新；

其中，所述第一周期小于第二周期。

9.一种目标跟踪装置，其特征在于，包括：

10.一种目标跟踪设备，其特征在于，包括：

处理器；和

存储器，在所述存储器中存储有计算机程序指令，

根据第t-1帧图像和第t帧图像计算光流图像；

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，使得所述处理器执行以下步骤：

根据第t-1帧图像和第t帧图像计算光流图像；