CN110378938A

CN110378938A - 一种基于残差回归网络的单目标跟踪方法

Info

Publication number: CN110378938A
Application number: CN201910548289.3A
Authority: CN
Inventors: 颜成钢; 杨洪楠; 王瑞海; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-25

Abstract

本发明公开了一种基于残差回归网络的单目标跟踪方法。本发明包括如下步骤：步骤1、对原始训练数据进行预处理；步骤2、将预处理后的数据输入残差回归网络模型，进行参数训练，并确定好网络参数；步骤3、确定好网络参数后，将待跟踪视频序列按照与步骤1相同的方式进行预处理；步骤4、将待跟踪视频序列的预处理结果输入到残差回归网络模型中，得到跟踪结果。本发明提高了速度，并允许实时跟踪对象。并与残差网络相结合，有效解决梯度弥散和网络精度问题，同时对于精度下降的问题有效的进行了遏制，降低了深度网络的训练难度，极大的提高了单目标跟踪的精度，为之后的单目标跟踪领域提供了一个新的解决问题的方向和思路。

Description

一种基于残差回归网络的单目标跟踪方法

技术领域

本发明涉及深度学习、单目标跟踪、尤其涉及一种基于残差回归网络的单目标跟踪方法。

背景技术

目标跟踪技术从上世纪末开始繁荣发展到现在，已经趋于成熟且在无人驾驶、信息安全、人机交互、人工智能等领域得到广泛应用。在某一视频中，随着周围环境的各种变化，通过事先写好的算法使计算机自动识别并跟踪目标物体的过程就是目标跟踪的主要任务。随着社会日新月异的发展，目标跟踪也越来越被各行各业所需要，应用的前景也越来越好。也正是因为如此，目标跟踪在计算机视觉领域变得炙手可热成为主流。目标跟踪可以理解为，在某段视频的图片流中，给定图片流第一帧图片中被跟踪目标的形状和方位，经过目标跟踪算法的计算，在接下来的每一帧图片中都对被跟踪目标的运动轨迹进行精准的预测。现在围绕目标跟踪的算法层出不穷，也在各个领域的应用中得到了良好的反馈。但是在实际应用中由于多种因素的制约和干扰，目标跟踪算法的效果并没有理想中那么好，主要是因为在视频中出现的许多无法抗拒和预测的环境因素，其中包括：物体在视频中从初始帧到当前帧，光照情况发生了激烈的变化；部分区域或全部区域被遮挡；大小和形状发生刚性或者非刚性的变化；与周围环境的色彩高度相似等。

在实际应用中还会出现各种各样的影响目标跟踪的准确度的情况，如今大部分跟踪算法一般采用深度学习和传统的相关滤波结合的方法，以克服各种不必要的制约因素带来的对跟踪效果的干扰。虽然在性能上得到了提升，但深度学习的架构优势并未得到充分的利用。一些给予深度学习的目标跟踪算法，是将目标跟踪的问题按照检测目标和识别目标进行处理的。但是这样处理后，这种网络模型在没有样本集做训练的情况下，其准确度比不上基于相关滤波的算法。不同于在目标检测和识别等领域取得的丰硕成果，深度学习在目标跟踪领域进展相对缓慢，很大原因是缺乏数据。如果只将图片流中第一帧图片的目标物体的位置和大小信息作为训练数据，其训练效果不够好，精度也远远达不到我们想要的结果。现有的基于深度学习的目标跟踪算法，从多个不同的角度来提出解决上述问题的方法，但在目标跟踪的速度和精度方面仍然有着很大的改善空间。

发明内容

本发明的目的是提供一种基于残差回归网络的单目标跟踪方法，大多数以前的神经网络跟踪器都是在线训练的；然而，神经网络的训练是一个缓慢的过程，导致跟踪速度缓慢。相比之下，我们的跟踪器是训练离线来学习外观和运动之间的一般关系，所以不需要在线训练。其次，大多数跟踪器采用的是基于经典的方法，对许多图像块进行分类以找到目标对象。相反，我们的跟踪器使用一种基于回归的方法，只需要通过网络的一个前馈通道就可以直接回归到目标对象的位置。离线训练和单次回归相结合，与以前的方法相比，显著提高了速度，并允许我们实时跟踪对象。并且本方法与残差网络相结合，有效解决梯度弥散和网络精度问题，同时对于精度下降的问题有效的进行了遏制，降低了深度网络的训练难度，极大的提高了单目标跟踪的精度，为之后的单目标跟踪领域提供了一个新的解决问题的方向和思路。

为达上述目的，本发明所采用的技术方案为：

一种基于残差回归网络的单目标跟踪方法，其步骤包括：

步骤1、对原始训练数据进行预处理；

步骤2、将上述预处理后的数据输入到我们的残差回归网络模型，进行参数的训练，并确定好参数；

步骤3、确定好网络参数后，将待跟踪视频序列按照与步骤(1)相同的方式进行预处理；

步骤4、将步骤(3)中的预处理结果输入到残差回归网络模型中，得到跟踪结果。

进一步地，所述原始训练数据是指使用视频和静态图像的组合来训练我们的网络。

进一步地，所述预处理是指，如果视频中有多个对象，网络必须接收到视频中被跟踪对象的一些信息。为此，我们将目标对象的图像输入到网络中。我们裁剪并缩放前一帧，使其以目标对象为中心，并以此目标为跟踪对象，在当前帧中进行跟踪。

更进一步地，步骤(2)中所述的残差回归网络模型包括：输入层、初始卷积层、多个残差模块、全连接层和输出层

所述初始卷积层用于对输入的原始训练数据进行卷积；

所述多个残差模块用于提取上述卷积后的数据的卷积特征；

所述全连接层包括多个节点，用于将上述卷积特征进行分类。

更进一步地，所述每个残差模块在一开始分为一条主径和一条捷径，并在结束时重新叠加整合。

更进一步地，在第一个残差模块前存在一个max-pooling(最大池化)操作，用于压缩维度，减小卷积层数误差造成估计均值的偏移，更多的保留纹理信息，提高模型的泛化能力；在所述全连接层之后存在一mean-Pooling(平均池化)操作，以降低邻域大小受限造成的估计值方差增大所造成的的影响。

与现有技术相比，本发明具有以下特点：

本发明使用的是一种回归网络的目标跟踪，因此具有很强的适用性以及广泛性。

大多数以前的神经网络跟踪器都是在线训练的；然而，神经网络的训练是一个缓慢的过程，导致跟踪速度缓慢。相比之下，我们训练了一个神经网络来进行完全离线的跟踪。在测试时，当跟踪新对象时，网络的权值被冻结，不需要进行在线的微调。其次，大多数跟踪器采用的是基于经典的方法，对许多图像块进行分类以找到目标对象。相反，我们的跟踪器使用一种基于回归的方法，只需要通过网络的一个前馈通道就可以直接回归到目标对象的位置。离线训练和单次回归相结合，与以前的方法相比，显著提高了速度，故极大的提高了跟踪速率，为实时单目标跟踪提供了可能。

一般来说，随着网络层数的增加，所得到的识别模型的精确度也越高，但随着网络层数的增加，梯度消失或者弥散的问题也随着而来，这导致训练难以熟练。同时，随着网络深度的增加，网络精度达到饱和之后，会产生迅速下滑的现象，然而这并不是过拟合所导致的。本发明的网络模型在提高跟踪速率的同时，结合了残差网络，有效解决梯度弥散和网络精度问题，同时对于精度下降的问题有效的进行了遏制，降低了深度网络的训练难度，极大的提高了单目标跟踪的精度。

附图说明

图1是本发明基于残差回归网络单目标跟踪方法的总览流程图。

图2是网络的输入输出及跟踪流程。

图3是本发明深度残差网络的总体结构图。

其中卷积层和残差模块括号内三个数字分别表示输入维数，卷积核大小，步长；Max-pooling和Mean-pooling括号内数字为卷积核大小和步长。

图4是本发明一实施例的残差模块内部结构示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种基于残差回归网络的手势识别方法，如图1所示，该方法包括训练阶段和测试跟踪阶段；所述训练阶段包括如下步骤：

第一步，获取原始训练数据。我们用于训练的视频来自ALOV300++，一个包含314个视频序列的集合。我们删除了与测试集重叠的7个视频，剩下307个视频用于训练模型。在这个数据集中，大约每5帧视频都被标记了被跟踪对象的位置。这些视频一般都很短，从几秒到几分钟不等。我们将这些视频分成251个用于训练模型，56个用于验证/超参数调优。

第二步，对上述原始数据进行预处理操作。如果视频中有多个对象，网络必须接收到视频中被跟踪对象的一些信息。为此，我们将目标对象的图像输入到网络中。我们裁剪并缩放前一帧，使其以目标对象为中心，如图2所示。这个输入允许我们的网络跟踪以前没有见过的新对象；网络将跟踪输入的裁剪图中的任何对象。我们对这个裁剪图进行填充，以便网络能够接收到关于目标对象周围环境的一些上下文信息。详细地，假设在t-1帧,我们的追踪器先前预测的目标被限定在一个以c＝(c_x,c_y)为中心宽度(w)和高度(h)的边界框内。在时刻t,我们分别把t-1帧做一个,以(c_x,c_y)为中心的宽度和高度k₁w和k₁h的裁剪。这种裁剪告诉网络哪个对象正在被跟踪。k₁的值决定了网络将从前一帧中接收到多少关于目标对象的环境信息。

第三步，如何跟踪。为了在当前帧中找到目标对象，跟踪器应该知道该对象之前位于何处。由于对象倾向于在空间中平稳地移动，所以该对象先前的位置将提供一个很好的猜测，即网络当前应该期望在哪里找到该对象。我们通过在当前帧中根据对象的先前位置选择一个搜索区域来实现这一点。我们使用搜索区域裁剪当前帧并将这个裁剪输入到我们的网络中，如图2所示。网络的目标是返回到搜索区域内目标对象的位置。更详细地说，当前帧t的裁剪以c′＝(c′_x,c′_y)为中心；，其中c′为目标对象的期望平均位置。我们设置c′＝c，这相当于一个恒定的位置运动模型，虽然也可以使用更复杂的运动模型。当前帧的裁剪宽度和高度分别为k₂w和k₂h，其中w和h分别为前一帧预测框的宽度和高度，k₂定义了我们对目标对象的搜索半径。实际上，我们用k₁＝k₂＝2。只要目标对象不被遮挡并且移动得不太快，目标就会位于这个区域内。

为了使运动平稳性的概念具体化，我们相对于前一帧的边界框的中心(c_x，c_y)，制定当前帧的中心(c′_x,c′_y)如下：

c′_x＝c_x+w*Δx (1)

c′_y＝c_y+h*Δy (2)

其中w和h分别为前一帧边框的宽度和高度。Δx和Δy是随机变量，它们捕获边界框相对于其尺寸的变化。在我们的训练集里，我们发现物体改变了它们的位置，这样Δx和Δy就可以以一个0的拉普拉斯分布来建模。这种分布在较小的运动中比较大的运动中具有更高的概率。同样，我们对大小变化进行建模：

w′＝w*γ_w (3)

h′＝h*γ_h (4)

其中w′和h′为当前边界框的宽度和高度，而w和h是前一个边界框的宽度和高度。w和h是随机变量，它们捕获边界框的大小变化。我们发现在我们的训练集中w和h是用均值为1的拉普拉斯分布来建模的。这样的分布使边界框的大小与前一帧的大小保持一致的可能性更大。

为了教会我们的网络喜欢小的运动而不是大的运动，我们使用从上面描述的拉普拉斯分布中提取的随机裁剪来增加我们的训练集。因为这些训练样本是从拉普拉斯分布中取样的，所以小的运动将会被取样，而不是大的运动，因此我们的网络将学会喜欢小的运动，而不是大的运动，其他的都是相等的。我们选择拉普拉斯分布的标度参数为b_x＝1/5(表示边界框中心的运动)，b_s＝1/15(表示边界框大小的变化)。我们限制随机裁剪，使其必须在每个维度中包含至少一半的目标对象。我们也限制尺寸的变化，比如γ_w,γ_h∈(0.6；1.4)，以避免过度拉伸或收缩边框，这将是网络学习的权宜之计。

第四步，我们通过视频训练我们的网络。训练过程如下所述，我们训练网络在预测的边界框和ground-truth边界框之间有L1损失。在这个模型中，我们将目标对象和搜索区域分别输入到一个残差网络序列中。这些残差网络的输出是一组特征，它们捕获图像的高级表示。这些卷积层的输出然后通过一些完全连接的层进行输入。完全连接层的作用是将目标对象的特性与当前框架中的特性进行比较，以找到目标对象的移动位置。在这些框架之间，物体可能经历了平移、旋转、照明改变、遮挡或变形。因此，全连通层所学习的函数是一个复杂的特征比较，它通过许多例子学习，在输出被跟踪对象的相对运动的同时，对这些不同的因素具有鲁棒性。在训练期间，我们将这一对帧送入网络，并试图预测对象如何从第一帧移动到第二帧。我们还使用我们的运动模型来增加这些训练示例。详细地，将上述训练数据输入深度残差网络中训练网络参数。所述深度残差网络结构如图3所示，整个网络有152层，图3画出的只是其中的一部分。在初始卷积层之后，分为50个残差模块。每个残差模块在一开始分为一条主径和一条捷径，其中主径上分为3个小模块，前两个模块包含Convolution、Batch Normalization、Scale和ReLu 4层结构，而在最后模块中只存在Convolution、Batch Normalization和Scale 3层结构，且3个模块用于提取手势的各类深层特征同时归类；捷径上只存在一个模块(只包含Convolution、Batch Normalization和Scale3层结构)或者可以不存在模块，以方便训练时残差向上传播。其中Convolution实现高维到低维的降维功能；Batch Normalization使提取后的特征均值为0，方差为1；Scale为处理偏置项和缩放因子；ReLu提取样本特征。主径和捷径得到的特征在每个残差模块结束时重新经过Eltwise和ReLu叠加整合，进入下一个阶段。最后，我们将最后一个完全连接的层连接到一个包含4个节点的输出层，这些节点表示输出边界框。

请参考图4，该图为本发明一实施例的残差模块内部结构示意图。在输入特征层数为a，特征长度为b的情况下，首先经过步长为2的max-pooling层，得到特征层数为a，特征长度为b/2的输入层。之后残差模块分为两条路径，其中主径为3层卷积层，且卷积核大小分别为1*1、3*3、1*1，之后得到的特征层数为4a，特征长度为b/2；捷径为1层卷积层，卷积核大小为1*1，之后得到的特征层数为4a，特征长度为b/2。将主径得到的结果和捷径得到的结果经过融合层，得到的特征层数为4a，特征长度为b/2。

在第一个残差模块前存在一个max-pooling的操作，用于压缩维度，减小卷积层数误差造成估计均值的偏移，更多的保留纹理信息，提高模型的泛化能力；在全连接层之后存在一mean-Pooling操作，以降低邻域大小受限造成的估计值方差增大所造成的的影响。

在每个残差模块中的每个卷积层和池化层之后存在Batch Normaliztion，使得提取后的特征均值为0，方差为1，用于加速训练和优化结果。

训练深度残差网络时采用自下上升的监督学习方式，即先用预处理的图片和数据作为输入训练第一隐含层(即将其输入到初始卷积层)，训练时先学习第一隐含层的参数；进一步，由于网络的限制、稀疏性约束以及先验条件的约束，使网络结构得到比数据本身更有表征能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；对于本实施例采用152层隐含层的深度残差网络，即将学习得到的前一隐含层的输出作为下一隐含层的输入，依次完成152层训练，以分别得到各隐含层的相应参数。

第五步，保存调整后的参数，得到目标跟踪模型。

请继续参考图3，所述识别阶段包括如下步骤：

第一步，获取测试集数据。我们的测试集由来自VOT 2014追踪挑战的25个视频组成。视频的每一帧都有很多属性:遮挡、光照变化、运动变化、大小变化和摄像机运动。

第二步，对测试集数据做如上所述的预处理操作进行裁剪。

第三步，将预处理后的数据输入到我们的网络模型中，得到跟踪结果。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于残差回归网络的单目标跟踪方法，其特征在于包括如下步骤：

步骤1、对原始训练数据进行预处理；

步骤2、将预处理后的数据输入残差回归网络模型，进行参数训练，并确定好网络参数；

步骤3、确定好网络参数后，将待跟踪视频序列按照与步骤1相同的方式进行预处理；

步骤4、将待跟踪视频序列的预处理结果输入到残差回归网络模型中，得到跟踪结果。

2.根据权利要求1所述的一种基于残差回归网络的单目标跟踪方法，其特征在于所述原始训练数据是指使用视频和静态图像的组合来训练残差回归网络模型；

所述预处理是指如果视频中有多个对象，网络必须接收到视频中被跟踪对象的一些信息；将目标对象的图像输入到网络中；裁剪并缩放前一帧，使其以目标对象为中心，并以此目标为跟踪对象，在当前帧中进行跟踪。

3.根据权利要求2所述的一种基于残差回归网络的单目标跟踪方法，其特征在于步骤(2)中所述的残差回归网络模型包括：输入层、初始卷积层、多个残差模块、全连接层和输出层；

所述初始卷积层用于对输入的原始训练数据进行卷积；

所述多个残差模块用于提取上述卷积后的数据的卷积特征；

4.根据权利要求3所述的一种基于残差回归网络的单目标跟踪方法，其特征在于所述每个残差模块在一开始分为一条主径和一条捷径，并在结束时重新叠加整合。

5.根据权利要求4所述的一种基于残差回归网络的单目标跟踪方法，其特征在于在第一个残差模块前存在一个max-pooling(最大池化)操作，用于压缩维度，减小卷积层数误差造成估计均值的偏移；在所述全连接层之后存在一mean-Pooling(平均池化)操作。

6.根据权利要求2所述的一种基于残差回归网络的单目标跟踪方法，其特征在于用于训练的视频来自ALOV300++，一个包含314个视频序列的集合；删除与测试集重叠的7个视频，剩下307个视频用于训练模型；在这个数据集中，每5帧视频都被标记被跟踪对象的位置；将这些视频分成251个用于训练模型，56个用于验证/超参数调优。

7.根据权利要求6所述的一种基于残差回归网络的单目标跟踪方法，其特征在于

对裁剪图进行填充，以便网络能够接收到关于目标对象周围环境的一些上下文信息；设在t-1帧,追踪器先前预测的目标被限定在一个以c＝(c_x,c_y)为中心宽度(w)和高度(h)的边界框内；在时刻t,我们分别把t-1帧做一个,以(c_x,c_y)为中心的宽度和高度k₁w和k₁h的裁剪；根据该裁剪，网络能够知道哪个对象正在被跟踪；k₁的值决定了网络将从前一帧中接收到多少关于目标对象的环境信息。

8.根据权利要求5或6或7所述的一种基于残差回归网络的单目标跟踪方法，其特征在于所述的跟踪具体实现如下：

在当前帧中根据对象的先前位置选择一个搜索区域；使用搜索区域裁剪当前帧并将这个裁剪输入到网络中；网络的目标是返回到搜索区域内目标对象的位置；设当前帧t的裁剪以c′＝(c′_x,c′_y)为中心；，其中c′为目标对象的期望平均位置；则设置c′＝c，这相当于一个恒定的位置运动模型；当前帧的裁剪宽度和高度分别为k₂w和k₂h，其中w和h分别为前一帧预测框的宽度和高度，k₂定义了对目标对象的搜索半径，只要目标对象不被遮挡并且移动得不太快，目标就会位于这个区域内；

相对于前一帧的边界框的中心(c_x，c_y)，制定当前帧的中心(c′_x,c′_y)如下：

c′_x＝c_x+w*Δx (1)

c′_y＝c_y+h*Δy (2)

其中w和h分别为前一帧边框的宽度和高度；Δx和Δy是随机变量，它们捕获边界框相对于其尺寸的变化；在训练集里，能够发现物体改变了Δx和Δy的位置，这样Δx和Δy就能够以一个0的拉普拉斯分布来建模；这种分布在较小的运动中比较大的运动中具有更高的概率；同样，对大小变化进行建模：

w′＝w*γ_w (3)

h′＝h*γ_h (4)

其中w′和h′为当前边界框的宽度和高度，而w和h是前一个边界框的宽度和高度；w和h是随机变量，它们捕获边界框的大小变化；在训练集中w和h是用均值为1的拉普拉斯分布来建模的。