CN107146237A

CN107146237A - 一种基于在线状态学习与估计的目标跟踪方法

Info

Publication number: CN107146237A
Application number: CN201710269951.2A
Authority: CN
Inventors: 权伟; 高仕斌; 陈小川; 王牣; 陈德明; 熊列彬; 韩正庆; 林国松
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-09-08
Anticipated expiration: 2037-04-24
Also published as: CN107146237B

Abstract

本发明提供了一种基于在线状态学习与估计的目标跟踪方法，涉及计算机视觉，计算机图形图像技术领域。首先构建一个目标定位与状态估计网络，该网络由特征提取网络和回归网络两部分组成，特征提取网络为预训练网络AlexNet，回归网络为递归神经网络(RNN网络)。在初始网络训练过程中，使用初始训练集和随机梯度下降法对目标定位与状态估计网络进行训练，训练完成后网络获得了对目标进行定位和状态估计的初始能力。在跟踪过程中，目标定位与状态估计网络对输入图像进行正向处理，网络将直接输出该图像对应的目标相关信息，其中获得的目标概率和状态信息决定网络是否进行在线学习，而目标位置和大小信息实现对目标的定位，从而实现对目标对象的跟踪。

Description

一种基于在线状态学习与估计的目标跟踪方法

技术领域

本发明涉及计算机视觉，计算机图形图像技术领域。

背景技术

视觉目标跟踪是计算机视觉领域的重要研究课题，其主要任务是获取目标连续的位置、外观和运动等信息，进而为进一步的语义层分析(如行为识别、场景理解等)提供基础。目标跟踪研究被广泛应用于智能监控、人机交互、自动控制系统等领域，具有很强的实用价值。目前，目标跟踪方法主要包括经典目标跟踪方法和深度学习目标跟踪方法。

经典的目标跟踪方法主要分为生成式方法(Generative Methods)和判别式方法(Discriminative Methods)两类。生成式方法假设目标可以通过某种生成过程或者模型进行表达，如主成分分析(PCA)，稀疏编码(Sparse Coding)等，然后将跟踪问题视为在感兴趣的区域中寻找最可能的候选项。这些方法旨在设计一种利于鲁棒目标跟踪的图像表示方法。不同于生成式方法，判别式方法将跟踪视为一个分类或者一种连续的对象检测问题，其任务是将目标从图像背景中分辨出来。这类方法同时利用目标和背景信息，是目前主要研究的一类方法。判别式方法通常包含两个主要的步骤，第一步是通过选择能够辨别目标和背景的视觉特征训练得到一个分类器及其决策规则，第二步是在跟踪过程中将该分类器用于对视场内的每一个位置进行评价并确定最有可能的目标位置。随后将目标框移动到该位置并重复这样的过程，进而实现跟踪，该框架被用于设计出各种形式的跟踪算法。总体来看，经典跟踪方法的主要优势在于运行速度和对辅助数据较少的依赖，同时它们也需要在跟踪的准确性与实时性之间做出权衡。

深度学习(Deep Learning)是近年来机器学习研究的热点，由于其强大的特征表达能力和不断发展的数据集和硬件支持，深度学习已在许多方面取得了惊人的成功，例如语音识别、图像识别、目标检测、视频分类等。深度学习目标跟踪研究发展也十分迅速，但由于目标跟踪中先验知识的缺乏和实时性的要求，使得需要大量训练数据和参数计算为基础的深度学习技术在这方面难以得到充分的施展，具有很大的探索空间。从目前的研究成果来看，深度学习跟踪方法主要应用了自编码器网络和卷积神经网络，其研究主要有两种思路，一种是对网络进行迁移学习再进行在线微调，另一种是改造深度网络的结构以适应跟踪的要求。自编码器网络(AE)是典型的非监督深度学习网络,因其特征学习能力和抗噪声性能被首先应用到目标跟踪中。综合来看,自编码器网络比较直观且体量适中，是一种优秀的非监督深度学习模型，在跟踪中最先得以应用并取得了较好的效果。与自编码器网络不同，卷积神经网络(CNN)是一种监督型的前馈神经网络，它包含多个循环交替进行的卷积、非线性变换和降采样操作，在模式识别特别是计算机视觉任务中体现出非常强大的性能。总体来看，深度学习相比于经典方法具有更强大的特征表达能力，其跟踪方法中有关训练集的选取，网络的选择与结构的改进，算法的实时性，以及应用递归神经网络等方面仍需要进一步的研究。

为了能够适应目标的变化，跟踪方法通常都需要在线更新相应的模型，然而目标外观的变化状态会极大地影响模型学习的准确性，即便在准确定位了目标位置的情况下，如果模型对目标外观状态未加辨别的学习将会因不断累积的学习错误而造成跟踪漂移。

鉴于此，本发明提出一种基于在线状态学习与估计的目标跟踪方法。

发明内容

本发明的目的是提供一种基于在线状态学习与估计的目标跟踪方法，它能有效地解决目标外观变化时的模型学习和跟踪漂移问题，实现实时稳定的目标跟踪。

该方法首先构建一个目标定位与状态估计网络，该网络由特征提取网络和回归网络两部分组成，特征提取网络为预训练网络AlexNet，回归网络为递归神经网络(RNN网络)。在初始网络训练过程中，使用初始训练集和随机梯度下降法对目标定位与状态估计网络进行训练，训练完成后网络获得了对目标进行定位和状态估计的初始能力。在跟踪过程中，目标定位与状态估计网络对输入图像进行正向处理，网络将直接输出该图像对应的目标相关信息，其中获得的目标概率和状态信息决定网络是否进行在线学习，而目标位置和大小信息实现对目标的定位，从而实现对目标对象的跟踪。

本发明的目的是通过以下技术方案来实现的，具体包括如下步骤：

步骤一、目标选取：

从初始图像中选择并确定要跟踪的目标对象。目标选取过程可以通过运动目标检测方法自动提取，也可以通过人机交互方法手动指定。

步骤二、构建目标定位与状态估计网络：

目标定位与状态估计网络将图像规则化为一个统一的大小后作为其输入，该网络包括两个部分构成，前部分为特征提取网络，后部分为回归网络。这里特征提取网络采用可公开获得的预训练网络AlexNet，该网络共有25层，是在包含120万个训练图像的大规模数据集ImageNet上训练获得的深度网络。而回归网络采用递归神经网络(RNN网络)对目标进行位置回归和状态估计。这里将目标可能的外观状态划分为自变化状态和干扰状态两大类，自变化状态包含由目标自身的运动引起的外观变化状态，如旋转、扭曲等，干扰状态包括由背景干扰或者场景变化引起的目标外观变化状态，如遮挡、光照变化等。因此将RNN网络的输出设计为包含目标的概率，位置，大小和状态信息，具体有七个节点，这些节点分别对应目标的概率p_o，目标的中心点横坐标x_o，目标的中心点纵坐标y_o，目标的宽度w_o，目标的高度h_o，目标的自变化状态s₁，以及目标的干扰状态s₂。

步骤三、初始训练集生成与网络训练：

初始训练集的生成包括两个部分，一个部分为目前可公开获得的有标注视频数据集或者图像序列集，另一个部分则是根据初始图像来人工合成跟踪序列，具体包括两个方面的工作，一方面将初始图像中的目标对象进行变换，包括平移、旋转、扭曲和遮挡(遮挡物在背景中选取)等操作，另一方面对整个场景进行循环移动，由此可获得大量模拟的跟踪序列。初始训练集中包含的所有图像均标记其对应的目标概率，位置，大小和状态信息，与目标定位与状态估计网络的各输出节点对应。然后，使用初始训练集对目标定位与状态估计网络进行训练，训练过程中特征提取网络的参数保持不变，只训练回归网络的参数，训练方法采用目前已广泛使用的深度网络训练方法，即随机梯度下降法(SGD)。训练完成后网络将获得对目标进行定位和状态估计的初始能力。

步骤四、图像输入：

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已采集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像。如果输入图像为空，则整个流程中止。

步骤五、目标定位与状态估计：

将输入图像规则化为目标定位与状态估计网络输入端所需的大小，然后输入该网络，网络经过正向处理后将直接输出该图像对应的目标概率，目标的位置，大小和状态，即目标的概率，目标的中心点横坐标，目标的中心点纵坐标，目标的宽度，目标的高度，目标的自变化状态，以及目标的干扰状态。由此得到目标的位置和大小，完成对目标的定位，跟踪完成。如果网络输出的目标概率p_o>θ_p(θ_p＝0.8)，并且目标的自变化状态s₁>θ_s1(θ_s1＝0.8)，目标的干扰状态s₂<θ_s2(θ_s2＝0.5)，则跳转到步骤六，否则跳转到步骤四。

步骤六、网络在线学习：

将目标的概率p_o调整为p_o＝1，将目标的自变化状态s₁调整为s₁＝1，将目标的干扰状态s₂调整为s₂＝0，然后用当前图像对目标定位与状态估计网络进行训练，训练方法与步骤三相同，由此网络获得更新，实现网络的在线学习。

本发明方法的技术流程图如图1所示。在初始网络训练过程中，使用初始训练集和随机梯度下降法对目标定位与状态估计网络进行训练，训练完成后网络获得了对目标进行定位和状态估计的初始能力。在跟踪过程中，目标定位与状态估计网络对输入图像进行正向处理，网络将直接输出该图像对应的目标相关信息，其中获得的目标概率和状态信息决定网络是否进行在线学习，而目标位置和大小信息实现对目标的定位，从而实现对目标对象的跟踪。

本发明的优点和积极效果：提出一种基于在线状态学习与估计的目标跟踪方法。该方法首先构建一个目标定位与状态估计网络，该网络由特征提取网络和回归网络两部分组成，特征提取网络为预训练网络AlexNet，回归网络为递归神经网络(RNN网络)。在初始网络训练过程中，使用初始训练集和随机梯度下降法对目标定位与状态估计网络进行训练，训练完成后网络获得了对目标进行定位和状态估计的初始能力。在跟踪过程中，目标定位与状态估计网络对输入图像进行正向处理，网络将直接输出该图像对应的目标相关信息，其中获得的目标概率和状态信息决定网络是否进行在线学习，而目标位置和大小信息实现对目标的定位，从而实现对目标对象的跟踪。由于利用了深度学习其强大的特征学习能力，本发明能够处理复杂的跟踪场景，实现准确的目标跟踪，同时基于回归的方法避免了大量的位置搜索，目标定位的速度得到很大的提高，可以实现实时的目标跟踪。此外，本发明方法不仅可以用于单目标跟踪，通过对网络进行相应的改进(如输出端)，还可以扩展用于多目标的跟踪。

附图说明

图1为本发明方法的技术流程图

图2为目标定位与状态估计网络示意图

具体实施方式

本发明的方法可用于目标跟踪的各种场合，如智能视频分析，自动人机交互，交通视频监控，无人车辆驾驶，生物群体分析，以及流体表面测速等。

以智能视频分析为例：智能视频分析包含许多重要的自动分析任务，如行为分析，异常报警，视频压缩等，而这些工作的基础则是能够进行稳定的目标跟踪。可以采用本发明提出的跟踪方法实现，具体来说，首先建立一个目标定位与状态估计网络，如图2所示，然后在初始网络训练过程中，使用初始训练集和随机梯度下降法对目标定位与状态估计网络进行训练，训练完成后网络即可获得对目标进行定位和状态估计的初始能力。在跟踪过程中，目标定位与状态估计网络对输入图像进行正向处理，网络将直接输出该图像对应的目标相关信息，其中获得的目标概率和状态信息决定网络是否进行在线学习，而目标位置和大小信息实现对目标的定位，从而实现对目标对象的跟踪。由于利用了深度学习其强大的特征学习能力，本发明能够处理复杂的跟踪场景，实现准确的目标跟踪，同时基于回归的方法避免了大量的位置搜索，目标定位的速度得到很大的提高，可以实现实时的目标跟踪。此外，本发明方法不仅可以用于单目标跟踪，通过对网络进行相应的改进(如输出端)，还可以扩展用于多目标的跟踪。

本发明方法可通过任何计算机程序设计语言(如C语言)编程实现，基于本方法的跟踪系统软件可在任何PC或者嵌入式系统中实现实时目标跟踪应用。

Claims

1.一种基于在线状态学习与估计的目标跟踪方法，包括如下步骤：

步骤一、目标选取：

从初始图像中选择并确定要跟踪的目标对象；目标选取过程可以通过运动目标检测方法自动提取，也可以通过人机交互方法手动指定；

步骤二、构建目标定位与状态估计网络：

目标定位与状态估计网络将图像规则化为一个统一的大小后作为其输入，该网络包括两个部分，前部分为特征提取网络，后部分为回归网络；这里特征提取网络采用可公开获得的预训练网络AlexNet，该网络共有25层，是在包含120万个训练图像的大规模数据集ImageNet上训练获得的深度网络；而回归网络采用递归神经网络RNN对目标进行位置回归和状态估计；这里将目标可能的外观状态划分为自变化状态和干扰状态两大类，自变化状态包含由目标自身的运动引起的外观变化状态，干扰状态包含由背景干扰或者场景变化引起的目标外观变化状态，因此将RNN网络的输出设计为包含目标的概率，位置，大小和状态信息，具体有七个节点，这些节点分别对应目标的概率p_o，目标的中心点横坐标x_o，目标的中心点纵坐标y_o，目标的宽度w_o，目标的高度h_o，目标的自变化状态s₁，以及目标的干扰状态s₂；

步骤三、初始训练集生成与网络训练：

初始训练集的生成包括两个部分，一个部分为目前可公开获得的有标注视频数据集或者图像序列集，另一个部分则是根据初始图像来人工合成跟踪序列，具体为两个方面的工作，一方面将初始图像中的目标对象进行变换，包括平移、旋转、扭曲和遮挡等操作，另一方面对整个场景进行循环移动，由此可获得大量模拟的跟踪序列；初始训练集中包括的所有图像均标记其对应的目标概率，位置，大小和状态信息，与目标定位与状态估计网络的各输出节点对应；然后，使用初始训练集对目标定位与状态估计网络进行训练，训练过程中特征提取网络的参数保持不变，只训练回归网络的参数，训练方法采用目前已广泛使用的深度网络训练方法，即随机梯度下降法SGD；训练完成后网络将获得对目标进行定位和状态估计的初始能力；

步骤四、图像输入：

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已采集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像；如果输入图像为空，则整个流程中止；

步骤五、目标定位与状态估计：

将输入图像规则化为目标定位与状态估计网络输入端所需的大小，然后输入该网络，网络经过正向处理后将直接输出该图像对应的目标概率，目标的位置，大小和状态，即目标的概率p_o，目标的中心点横坐标x_o，目标的中心点纵坐标y_o，目标的宽度w_o，目标的高度h_o，目标的自变化状态s₁，以及目标的干扰状态s₂；由此得到目标的位置和大小，完成对目标的定位，跟踪完成；如果网络输出的目标概率>0.8，并且目标的自变化状态>0.8，目标的干扰状态<0.5，则跳转到步骤六，否则跳转到步骤四；

步骤六、网络在线学习：