CN109800689A

CN109800689A - 一种基于时空特征融合学习的目标跟踪方法

Info

Publication number: CN109800689A
Application number: CN201910007818.9A
Authority: CN
Inventors: 卢学民; 权伟; 刘跃平; 王晔; 张桂萍; 江永全; 何武; 陈锦雄
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-24
Anticipated expiration: 2039-01-04
Also published as: CN109800689B

Abstract

本发明公开了一种基于时空特征融合学习的目标跟踪方法，涉及计算机视觉及模式识别技术领域。首先构建时空特征融合学习网络，时空特征包括时序特征和空间特征，其中时序特征通过采用Alexnet与时间递归神经网络相结合的方式提取；空间特征又分为目标对象空间变换特征和背景空间特征，分别采用YOLOv3和Alexnet提取。在网络初始训练过程中，使用训练数据集和随机梯度下降法对时空特征融合学习网络进行训练，训练完成后网络即可获得对目标对象进行定位的初始能力。将要跟踪的图像序列输入网络中进行正向处理，网络将输出目标对象包围盒的位置和置信度，其中置信度决定网络是否进行在线学习，而包围盒的位置实现对目标对象的定位，从而实现对目标对象的跟踪。

Description

一种基于时空特征融合学习的目标跟踪方法

技术领域

本发明涉及计算机视觉及模式识别技术领域。

背景技术

视觉目标跟踪是计算机视觉领域的重要硏究课题，其研究内容是根据给定的一段视频片段自动识别出随后视频序列中要跟踪的目标对象，获取目标连续的位置、外观和运动等信息。目标跟踪广泛应用于军事与民用的智能监控、人机交互、自动控制系统等领域，具有很强的实用价值。但在现实情况下，目标对象的外观容易受到形变、遮挡、光照变化等因素的影响，使得视觉目标跟踪成为一项非常具有挑战性的问题。目前，目标跟踪方法主要包括经典目标跟踪方法和深度学习目标跟踪方法。

经典目标跟踪方法主要分为生成式方法(Generative methods)和判别式(Discriminative methods)两类。生成式方法是通过建立一个区分目标和背景的模型，将目标对象从背景中有效的区分，其本质是将跟踪问题视为在感兴趣的区域中寻找最可能的候选项。而判别式方法将跟踪问题视为一个分类或者一种连续的对象检测问题，其任务是将目标从图像背景中分辨出来，这类方法同时利用目标和背景信息，是目前目标跟踪主要研究的一类方法。判别式方法通常包含两个主要的步骤，第一步是通过选择能够辨别目标和背景的视觉特征训练得到一个分类器及其决策规则，第二步是在跟踪过程中将该分类器用于对视场内的每一个位置进行评价并确定最有可能的目标位置。随后将目标框移动到该位置并重复这样的过程，进而实现跟踪，该框架被用于设计岀各种形式的跟踪算法。而这两种方法使用的特征通常都是手工提取，这些手工提取特征对解决目标发生形变、遮挡、运动突变以及光照变化等问题鲁棒性较低。

深度学习(Deep learning)是近年来机器学习研究的热点，由于其强大的特征表达能力和强大的数据集和软硬件支持，深度学习已在许多方面取得了惊人的成功，例如语音识别、图像识别、目标检测、视频分类等。深度学习在目标跟踪中的硏究发展也十分迅速，但由于目标跟踪先验知识的缺乏和实时性的要求，使得需要大量训练数据和参数计算为基础的深度学习技术在这方面难以得到充分的施展，仍具有很大的探索空间。相比于传统的手动提取特征，深度学习的一个重要特点是具有更深层次的语义特征和更强大的表征能力，对于解决目标跟踪问题更准确、可靠。在目标跟踪领域，目前有一些待解决的问题，如图像视频序列中目标对象发生形变、遮挡、运动突变以及光照变化等而引起的跟踪困难甚至丢失，因此充分利用图像的时空特征等信息进行准确、快速的目标跟踪还有待研究。

鉴于此，本发明提出一种基于时空特征融合学习的目标跟踪方法

发明内容

本发明的目的是提供一种基于时空特征融合学习的目标跟踪方法，它能有效地解决目标对象发生形变、遮挡时的跟踪困难甚至丢失问题，实现长时间实时准确的目标跟踪。

本发明的目的是通过以下技术方案来实现的：

该方法构建了一个时空特征融合学习网络，该网络由时空特征提取网络和回归网络构成，时空特征包括时序特征和空间特征，其中时序特征通过采用Alexnet与时间递归神经网络(LSTM，Long Short-Term Memory)相结合的方式提取；空间特征又分为目标对象空间变换特征和背景空间特征，分别采用YOLOv3和Alexnet提取，有效结合了帧图像的局部与全局特征。在网络初始训练过程中，使用训练数据集和随机梯度下降法对时空特征融合学习网络进行训练，训练完成后网络即可获得对目标对象进行定位的初始能力，在跟踪过程中，将要跟踪的图像序列输入网络中进行正向处理，网络将输出目标对象包围盒的位置(目标对象的最小外接矩形位置)和置信度(样本估计值属于真实值的概率)，其中置信度决定网络是否进行在线学习，而包围盒的位置实现对目标对象的定位，从而实现对目标对象的跟踪。其实现过程为：

步骤一、目标选取:

从初始图像中选择并确定要跟踪的目标对象，目标选取过程通过运动目标检测方法自动提取或者人机交互方法手动指定；

步骤二、数据集生成:

初始数据集的生成包括两个部分，一个部分为目前公开获得的有标注视频数据集或图像序列集，另一个部分是根据初始图像来人工合成的跟踪序列；人工合成的跟踪序列具体包括两个方面的工作，一方面对初始图像中的目标对象进行图像变换，包括平面内旋转、平面外旋转或者尺度变化，另一方面对目标对象在整个场景中进行按行或列循环移动，由此获得大量模拟的跟踪序列数据集；具体操作如下：：首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪，对被裁剪的区域位置进行邻域像素填充，得到场景图像，然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换，其中，平面内旋转范围为0°～360°，单次旋转角度为30°，平面外旋转采用仿射变换,设置仿射变换矩阵中透射变换因子权重值变换范围为0.5～1，单次变换单位为0.1，尺度变换比例范围为0.8-1.2倍，单次变换比例为0.1，得到410种目标对象增强数据集；设置步长为10像素，并分别将这些410种目标对象增强数据集在场景图像中按行循环移动，最终得到41763张图片增强数据集，图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置坐标信息；

步骤三、时空特征融合学习网络的构建与初始化:

时空特征融合学习网络模型包括三个子网络，分别为目标空间特征提取网络，背景空间特征提取网络和时序特征提取网络；

目标空间特征提取网络采用YOLOv3网络，该网络特征提取层为Darknet-53结构，共有53个卷积层，其余为残差层；其中卷积层包括1x1卷积层和3x3卷积层，这里采用Darknet-53的第53层全连接层输出的1000维神经元提取目标的空间特征；

背景空间特征提取网络采用Alexnet网络模型，该网络模型结构是由8层网络组成，包括5层卷积层和3层全连接层，这里采用第7层全连接层输出的4096维神经元组成的特征提取背景空间特征；

时序特征提取网络采用Alexnet网络和LSTM相结合的方式提取，先经过Alexnet网络第7层全连接层输出的4096维神经元提取图像背景的全局特征，然后经过LSTM提取图像序列中的时序特征；

构建网络模型后，采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化，该网络模型参数包含神经元之间的连接权重值、偏置值，并采用训练数据集对网络进行训练；网络训练具体步骤是，先训练空间特征提取网络，再训练时序特征提取网络；当训练空间特征网络时，需要固定时序特征网络的权重；空间特征提取网络训练流程是先进行目标特征提取网络的训练，在YOLOv3后添加一层LSTM，训练规则是输入2组图像序列，图像尺寸归一化为224x224像素，第一组序列为{It-1、It-2、It-3、It-4}，第二组序列为{It-2、It-3、It-4、It-5}，其中It-1、It-2、It-3、It-4、It-5分别代表t-1、t-2、t-3、t-4、t-5时刻的帧图像，5<t<41764，依次按序将第一组图像提取的特征对第二组序列特征进行相减运算，经过800批次训练得到目标对象的空间变换特征；之后训练背景特征提取网络，固定目标特征提取网络模型参数不变，在Alexnet后添加一层LSTM，训练规则是将41763张图片输入Alexnet网络中进行训练，经过500批次训练得到背景特征；训练时序特征网络时，需要固定空间特征网络的权重，输入规则与目标特征提取网络相同，经过800批次训练得到图像序列的时序特征；最后，对整个时空特征融合学习网络进行训练，训练方式采用随机梯度下降法，损失函数设置为均方误差，定义为其中n为每批量的训练数据的数量，y_p为输出目标对象包围盒的位置坐标值，y_g为目标对象包围盒的位置真实坐标值，||·||为欧几里得范数，经过500批次的迭代训练，网络将逐渐收敛，最终获得对目标对象进行定位的初始能力，能够定位目标对象，包含目标对象包围盒的位置和置信度，表示为[x,y,w,h,p]，其中x是包围盒左上角横坐标，y是包围盒左上角纵坐标，w是包围盒宽度，h是包围盒高度，p是包围盒置信度；

步骤四、图像输入：

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已釆集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像，如果输入图像为空，则整个流程中止；

步骤五、目标定位：

网络训练完毕后，将输入图像尺寸归一化为网络输入端所需的尺寸224x224像素，然后经过网络的正向处理后能得到目标对象包围盒的位置和置信度p，并将置信度p和阈值进行比较，如果该得分p小于预先设置的阈值0.8，则认为目标跟踪失败，表示目标不可信，跳转到步骤四，否则，则认为目标跟踪正确，并将对应的目标对象包围盒的位置坐标保存在跟踪结果中，从而得到跟踪的结果，目标定位完成，跳转到步骤六；

步骤六、网络在线学习：

成功确定跟踪的结果之后，再以该目标对象包围盒的真实位置为中心，在周围提取一定数量的正样本和负样本，这些样本的提取规则是：当提取的图像块与包围盒的真实位置的重合率IOU大于0.8的时候，定义为正样本，当重合率小于0.2的时候，则定义为负样本；在线学习微调网络模型参数时，将这些提取的正、负训练样本数据集依次输入网络中，固定网络模型的卷积层参数不动，只对网络的全连接层的参数进行微调，目的是使该网络模型能够适应当前跟踪的视频序列，即能够区分当前视频序列中的目标和背景。

在初始网络训练过程中，使用训练数据集和随机梯度下降法对时空特征融合学习网络进行训练，训练完成后网络即可获得对目标对象进行定位的初始能力，在线跟踪过程中，将要跟踪的图像序列输入网络中进行正向处理，网络将输出目标对象包围盒的位置(目标对象的最小外接矩形位置)和置信度(样本估计值属于真实值的概率)，其中置信度决定网络是否进行在线学习，而包围盒的位置实现对目标对象的定位，从而实现对目标对象的跟踪。

本发明的优点和积极效果：该方法使用训练数据集离线训练了一个时空特征融合学习网络模型，一方面该模型的训练数据通过数据增强的方式模拟了目标对象在背景图像中大量的随机出现情况，另一方面该网络模型充分结合历史图像帧中目标对象的空间特征与图像序列的时序特征，并有效结合了帧图像的局部与全局空间特征。同时在网络在线学习过程中，通过跟踪收集到的正负样本微调网络模型，从而使网络模型能够更好的适应当前跟踪的图像序列，并解决由于目标发生遮挡、漂移等而引起跟踪困难甚至丢失的问题，提高了目标跟踪的速度和准确度。此外，本发明方法不仅可以用于单目标跟踪，还可用于复杂场景下的多目标跟踪。

附图说明

图1为本发明时空特征融合学习网络结构示意图

图2为本发明的流程图

具体实施方式

本发明的方法可用于视觉目标跟踪的各种场合，包括军事和民用等领域，军事领域如无人飞行器、精确制导、空中预警等，民用领域如移动机器人、牵引变电所智能视频监控、智能交通系统、人机交互、虚拟现实等。

以牵引变电所智能视频监控为例：牵引变电所智能视频监控包含许多重要的自动分析任务，如入侵检测、行为分析，异常报警等，而这些工作都要能够实现稳定的目标跟踪。可以采用本发明提出的跟踪方法实现，具体来说，首先需要构建一个时空特征融合学习神经网络模型，如图1所示，然后使用训练数据集和随机梯度下降法对该网络进行训练，由于三个网络的互相影响，优化比较困难，所以采用分阶段训练方式进行时空特征融合学习的网络训练，即将空间特征网络和时序特征网络分别独立训练，有效保证整个时空特征融合学习网络的收敛性。训练完成后网络即可获得对目标对象进行定位的初始能力。在跟踪过程中，将要跟踪的图像序列输入网络中进行正向处理，网络将输出目标对象包围盒的位置信息和置信度，其中置信度决定网络是否进行在线学习，而目标对象包围盒的位置实现对目标的定位，从而实现对目标对象的跟踪。由于该网络包含时序特征提取网络和空间特征提取网络，充分结合了历史图像帧中目标对象的空间变换特征与图像序列的时序特征，并有效结合了帧图像的局部与全局空间特征。本发明能够处理复杂的跟踪场景，实现长时间实时准确的目标跟踪，解决跟踪过程中目标发生遮挡、漂移等问题。此外，本发明方法不仅可以用于单目标跟踪，还可以用于复杂场景下的多目标跟踪。

本发明方法可通过任何计算机程序设计语言(如C语言)编程实现，基于本方法的跟踪系统软件可在任何PC或者嵌入式系统中实现实时目标跟踪应用。

Claims

1.一种基于时空特征融合学习的目标跟踪方法，包含如下步骤：

步骤一、目标选取：

步骤二、数据集生成：

初始数据集的生成包括两个部分，一个部分为目前公开获得的有标注视频数据集或图像序列集，另一个部分是根据初始图像来人工合成的跟踪序列；人工合成的跟踪序列具体包括两个方面的工作，一方面对初始图像中的目标对象进行图像变换，包括平面内旋转、平面外旋转或者尺度变化，另一方面对目标对象在整个场景中进行按行或列循环移动，由此获得大量模拟的跟踪序列数据集；具体操作如下：

首先是根据图像序列第一帧目标对象包围盒的真实坐标值将目标对象从背景中裁剪，对被裁剪的区域位置进行邻域像素填充，得到场景图像，然后对目标对象分别进行平面内旋转、平面外旋转或者尺度变换，其中，平面内旋转范围为0°～360°，单次旋转角度为30°，平面外旋转采用仿射变换，设置仿射变换矩阵中透射变换因子权重值变换范围为0.5～1，单次变换单位为0.1，尺度变换比例范围为0.8～1.2倍，单次变换比例为0.1，得到410种目标对象增强数据集；设置步长为10像素，并分别将这410种目标对象增强数据集在场景图像中按行循环移动，最终得到41763张图片增强数据集，图片增强数据集中包含的所有图像均标记其对应的目标对象包围盒的位置信息；

步骤三、时空特征融合学习网络的构建与初始化：

时空特征融合学习网络模型包括三个子网络，分别为目标空间特征提取网络、背景空间特征提取网络和时序特征提取网络；

构建网络模型后，采用在ImageNet数据集上预先训练好的网络模型参数对所需训练网络进行参数初始化，该网络模型参数包含神经元之间的连接权重值、偏置值，并采用训练数据集对网络进行训练；网络训练具体步骤是，先训练空间特征提取网络，再训练时序特征提取网络；当训练空间特征网络时，需要固定时序特征网络的权重；空间特征提取网络训练流程是先进行目标特征提取网络的训练，再在YOLOv3后添加一层LSTM，训练规则是输入2组图像序列，图像尺寸归一化为224x224像素，第一组序列为{It-1、It-2、It-3、It-4}，第二组序列为{It-2、It-3、It-4、It-5}，其中It-1、It-2、It-3、It-4、It-5分别代表t-1、t-2、t-3、t-4、t-5时刻的帧图像，5<t<41764，依次按序将第一组图像提取的特征对第二组序列特征进行相减运算，经过800批次训练得到目标对象的空间变换特征；之后训练背景特征提取网络，固定目标特征提取网络模型参数不变，在Alexnet后添加一层LSTM，训练规则是将41763张图片输入Alexnet网络中进行训练，经过500批次训练得到背景特征；训练时序特征网络时，需要固定空间特征网络的权重，输入规则与目标特征提取网络相同，经过800批次训练得到图像序列的时序特征；最后，对整个时空特征融合学习网络进行训练，训练方式采用随机梯度下降法，损失函数设置为均方误差，定义为其中n为每批量的训练数据的数量，y_p为输出目标对象包围盒的位置坐标值，y_g为目标对象包围盒的位置真实坐标值，||·||为欧几里得范数，经过500批次的迭代训练，网络将逐渐收敛，最终获得对目标对象进行定位的初始能力，能够定位目标对象，包含目标对象包围盒的位置和置信度，表示为[x,y,w,h,p]，其中x是包围盒左上角横坐标，y是包围盒左上角纵坐标，w是包围盒宽度，h是包围盒高度，p是包围盒的置信度；

步骤四、图像输入：

步骤五、目标定位:

步骤六、网络在线学习：

成功确定跟踪的结果之后，再以该目标对象包围盒的真实位置为中心，在周围提取所需数量的正样本和负样本，这些样本的提取规则是：当提取的图像块与包围盒的真实位置的重合率IOU大于0.8的时候，定义为正样本，当重合率小于0.2的时候，则定义为负样本；在线学习微调网络模型参数时，将这些提取的正、负训练样本数据集依次输入网络中，固定网络模型的卷积层参数不动，只对网络的全连接层的参数进行微调，目的是使该网络模型能够适应当前跟踪的视频序列，即能够区分当前视频序列中的目标和背景。