CN112184752A

CN112184752A - 一种基于金字塔卷积的视频目标跟踪方法

Info

Publication number: CN112184752A
Application number: CN202010932565.9A
Authority: CN
Inventors: 张斌; 安宁; 徐雪丽; 邓米克; 肖创柏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2021-01-05

Abstract

本发明公开了一种基于金字塔卷积的视频目标跟踪方法，包括以下步骤：根据图像中跟踪目标的位置和大小，裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像；构建基于金字塔卷积的全卷积孪生网络；利用所述构建好的图像序列训练集，训练所述的基于金字塔卷积的全卷积孪生网络，获得训练好的全卷积孪生网络；使用训练好的基于金字塔卷积的全卷积孪生网络进行单目标跟踪。本发明在跟踪目标的过程中，通过在传统全卷积孪生网络的基础上加入金字塔卷积，使用不同尺度与深度的卷积核进行多尺度特征的提取和融合，提取到场景中不同层次的细节信息，进而提升跟踪系统的鲁棒性和准确性。

Description

一种基于金字塔卷积的视频目标跟踪方法

技术领域

本发明属于数字图像处理、深度学习以及图像识别的交叉领域，更具体地说，涉及一种基于金字塔卷积的视频目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域基础性研究课题中的一个研究方向，其广泛应用于智能监控、人机交互、智能交通和无人驾驶等领域，相关的研究工作一直是计算机视觉领域的研究热点。视频目标跟踪的任务是对视频中的每一帧图像的跟踪目标都进行正确的识别和定位，同时保证目标跟踪的一致性。由于自然场景的复杂性，目标对光照变化的敏感性，跟踪对于实时性和鲁棒性的要求，以及遮挡、姿态变化和尺度变化等诸多因素的存在，使得在实际应用中目标跟踪仍是一件极具挑战性的任务。

根据目标跟踪技术的发展进程，可以将目标跟踪相关算法分为传统的跟踪算法、基于相关滤波的高速跟踪算法和基于深度学习的高精度跟踪算法。

传统的目标跟踪算法的关键思想是通过检测目标出现的位置来模拟跟踪的过程，其主要算法过程结合了目标检测中的相关算法，以及其它优化策略对跟踪模型进行优化。这类方法根据目标表征方式，主要分为两类，一是基于生成式的跟踪模型，二是基于判别式的跟踪模型。生成式跟踪算法主要通过提取目标对象的特征，构建出能够表征目标外观的模型，利用模型在搜索图像内进行匹配，匹配度最高的区域即为目标在搜索图像中的位置。常见的基于生成式的目标跟踪算法有meanshift、粒子滤波、卡尔曼滤波和基于特征点的光流算法等。然而基于生成式的目标跟踪模型主要没有考虑到与目标相关的背景信息等关键因素，不能有效解决目标跟踪过程中出现的背景与目标外观相似的情况，因此仅仅通过生成式跟踪模型对跟踪目标进行建模并不能很好地满足目标跟踪的需求。判别式跟踪算法主要把跟踪问题视作二分类问题，通过利用第一帧模板图像中的背景信息构建模型来划分目标与背景的决策边界，最大化地将目标与背景区域划分开。基于判别式的跟踪算法主要有TLD和Struck等，相比于基于生成式的目标跟踪算法，此类算法更能适应背景变化复杂的跟踪场景。

基于相关滤波的目标跟踪算法通过当前帧的信息和之前帧的信息训练出一个相关滤波器，然后将相关滤波器与新输入的视频帧进行相关性计算，得到的响应图中得分最高的点或者块就是最可能的跟踪结果。在整个跟踪过程中，相关滤波器不是固定不变的，而是随着整个目标跟踪进程不断地更新。基于相关滤波的跟踪算法主要有CF、KCF、CSK、DSST、C-COT等，相比于传统的目标跟踪算法，此类算法利用快速傅里叶变换(Fast FourierTransform,FFT)将滤波过程从时域转到频域进行计算，极大地加快了目标跟踪的速度。越来越多的优化模型都是在相关滤波框架的基础上使用更多的特征、充分利用目标信息，解决跟踪过程中出现的遮挡、运动模糊和光照变化等问题，进而提升跟踪器的鲁棒性。

基于深度学习的跟踪模型在近些年得到了大量的研究和广泛的应用。深度学习模型因其强大的特征表达能力能够提取到跟踪目标的鲁棒特征，极大地提高了在复杂背景下目标跟踪算法的精度。将深度学习模型应用到目标跟踪领域的优势是跟踪模型经过大量数据的训练，可以得到更加有效的语义特征表达，进而提高目标跟踪方法的性能。但是将深度学习应用到目标跟踪领域面临着两个难题：(1)仅利用跟踪视频序列初始帧获得的目标大小和位置等先验知识，远不能满足深度学习模型对于数据量的要求；(2)跟踪过程中在线更新模型会导致模型计算的复杂性增加，不能很好地满足目标跟踪的实时性要求。针对上述难题，研究人员通过使用适用于图像分类的大型数据集(例如ILSRVC2015数据集)预训练跟踪模型，解决了数据量不足的问题；通过使用离线预训练、在线微调的策略，缓解了在线更新模型造成的耗时问题，提高了跟踪模型的实时性。通过将不同的优化策略应用到深度模型与目标跟踪算法的结合方式中，基于深度学习的目标跟踪算法，逐步往端到端模型或框架进行发展，获得了比传统跟踪算法更好的精度和速度。

目前比较流行的目标跟踪算法是建立在孪生网络的架构上。基于孪生网络的目标跟踪方法将目标跟踪视为一个相似性度量问题，利用孪生网络得到一张衡量目标模板图像与搜索区域图像之间相似性的响应得分图，得分图中分数最高点对应的位置即为预测的跟踪目标位置。SiamFC等基于孪生网络的方法虽然可以在高性能运算设备上满足实时性的要求，但是由于此类方法在训练和跟踪过程中只提取到了跟踪目标的单尺度信息，当目标发生较大的尺度和姿势变化时，不能有效获取变化后的尺度信息，进而导致跟踪飘移和目标丢失等问题，降低了跟踪算法的精度。

发明内容

本发明的目的在于，针对现有技术存在的不足，提出了一种基于金字塔卷积的视频目标跟踪方法。该方法通过在现有的基于全卷积孪生网络的跟踪模型基础上，通过结合金字塔卷积模块提取到跟踪目标的多尺度信息，进而解决现有技术因尺度变化导致的目标飘移和目标丢失的技术问题。

为了解决上述问题，本发明提供如下的技术方案：

一种基于金字塔卷积的视频目标跟踪方法，该方法包括以下步骤：

(1)选择视觉目标跟踪训练集，根据图像中跟踪目标的位置和大小，裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像，将目标模板图像和搜索区域图像组成的图像对构成训练数据集；

(2)搭建基于金字塔卷积的全卷积孪生网络。所述基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络，分别是提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络，两个分支网络都是基于金字塔卷积的卷积神经网络，将提取到的目标模板图像的特征图与搜索区域图像的特征图做互相关运算，得到对应的得分响应图；

(3)使用构建好的训练数据集，训练基于金字塔卷积的全卷积孪生网络，获得训练好的基于金字塔卷积的全卷积孪生网络；

(4)使用训练好的基于金字塔卷积的全卷积孪生网络计算待测图像序列中图像的得分图，基于得分图进行目标跟踪定位。

进一步，所述步骤(1)中，为了与其他跟踪器进行公平的比较，本发明只使用官方网站提供的特定训练集进行训练，常见的用于训练的数据集有：COCO、ImageNet DET、ImageNet VID或者YouTube-BB。本发明使用的是ILSVRC2015数据集。

更进一步，所述步骤(2)中，全卷积孪生网络包括两个分支网络，分别是：a)以目标模板图像Z做为输入的目标分支网络；b)以搜索区域图像X做为输入的搜索分支网络。两个分支的主干网络结构相同、参数共享，使用Φ(Z)和Φ(X)分别表示目标分支和搜索分支输出的特征图，将Φ(Z)做为卷积核在Φ(X)上进行互相关运算，得到嵌有两个分支信息的得分响应图R。两个分支都是将基于金字塔卷积的AlexNet网络做为主干网络。目标模板图像Z输入主干网络后，通过Conv1得到第一层的特征图，接着通过Pool1、金字塔卷积模块得到第二层的特征图，最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图Φ(Z)；同理，搜索区域图像X输入主干网络后，通过Conv1得到第一层的特征图，接着通过Pool1、金字塔卷积模块得到第二层的特征图，最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图Φ(X)。

金字塔卷积(Pyramidal Convolution,PyConv)可以在多个卷积核尺度上对输入信息进行处理，它包含一个核金字塔，每一层包含不同类型的卷积核，由于卷积核的大小和深度都是可以变化的，所以可以提取到不同尺度的细节信息。除了上述提到的可以提取到多尺度信息外，金字塔卷积为尽可能降低计算量，在内部还进行了分组卷积，相比于标准卷积，金字塔卷积具有与标准卷积相近的参数量和计算复杂度，并且可以通过并行的方式进行计算，因此计算高效。本发明中使用的金字塔卷积模块由两层不同尺寸的卷积核构成，并且每一层的卷积核包含不同的空间尺寸，随着卷积核尺寸的增加而逐渐减低卷积核的深度。第一层卷积核的尺寸为3×3，对应卷积核的深度为192，划分为2组进行卷积；第二层卷积核的尺寸为5×5，对应卷积核的深度是64，划分为2组进行卷积。

更进一步，所述步骤(3)中构建的损失函数计算公式如下：

l(y[u],v[u])＝log(1+exp(-y[u]×v[u]))

其中，L(y,v)为得分响应图的损失函数，l(y,v)为得分响应图中每个点对应的损失函数，D表示得分响应图中所有点的集合，u为得分响应图中的样本点，c为得分响应图的中心位置，R为得分响应图对应的半径值，y∈{+1,-1}为样本点对应的真值标签，当样本点u位于以c为中心的半径R范围内时，y的值为+1，否则y的值为+1。v[u]为得分响应图中u点对应的得分值。

更进一步，所述步骤(4)的过程如下：

1)根据待测图像序列初始帧中目标的位置和大小，裁剪出初始帧图像的目标模板图像，图像尺寸为127×127，将初始帧图像的目标模板图像输入到训练好的基于金字塔卷积的全卷积孪生网络的目标分支网络中，获得初始帧图像的目标模板图像的特征图。此时，t＝2；

2)根据待测图像序列第t-1帧中目标的位置和大小，裁剪出第t帧图像的搜索区域图像，图像尺寸为255×255，将第t帧图像的搜索区域图像输入到训练好的基于金字塔卷积的全卷积孪生网络的搜索分支网络中，获得第t帧搜索区域图像的特征图；

3)将第t-1帧图像的目标模板特征图与第t帧图像的搜索区域图像特征图进行互相关运算，得到第t帧的得分响应图R；

4)根据第t帧的得分响应图计算出目标在第t帧图像中的位置；

5)令t＝t+1，重复执行步骤2)到步骤5)，直到结束待测图像序列的目标跟踪过程，即t＝N。其中，N为待测视频序列的总帧数。

本发明与其他现有算法模型相比，具有以下显著的优势：

(1)框架简单。所提出的是一种基于金字塔卷积的全卷积孪生网络结构的目标跟踪方法，这种方法结构简单，性能良好；

(2)在跟踪目标的过程中，通过金字塔模块提取不同尺度的特征信息，可以更好地解决跟踪过程中尺度变化的问题，防止跟踪过程中产生的跟踪飘移和目标丢失等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图作一下简单的介绍。显而易见，下面描述的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图和表。

图1为本发明实施例提供的基于金字塔卷积的视频目标跟踪方法流程图；

图2为本发明实施例提供的基于金字塔卷积的全卷积孪生网络结构示意图；

图3为本发明实施例提供的金字塔卷积模块示意图；

图4(a)为本发明实施例提供的跟踪结果在OTB100数据集上的准确率曲线图；

图4(b)为本发明实施例提供的跟踪结果在OTB100数据集上的成功率曲线图；

图5(a)、图5(b)、图5(c)为本发明实施例提供的使用本发明方法和SiamFC方法对Basketball视频序列进行目标跟踪的第31帧、第60帧、第109帧图像；

图6(a)、图6(b)、图6(c)为本发明实施例提供的使用本发明方法和SiamFC方法对CarScale视频序列进行目标跟踪的第124帧、第159帧、第173帧图像；

图7(a)、图7(b)、图7(c)为本发明实施例提供的使用本发明方法和SiamFC方法对Suv视频序列进行目标跟踪的第49帧、第498帧、第838帧图像。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面结合实验使用的数据集、模型、框架、附图中的模型流程图以及实验结果做进一步的说明。在实验中，使用ILSVRC2015数据集做为训练数据集，OTB100数据集做为测试数据集，将基于金字塔卷积的全卷积孪生网络模型做为本发明方法的模型，采用Pytorch框架编程实现本发明的方法，通过实验将本发明的方法与baseline算法SiamFC在OTB100数据集上进行准确率和成功率的比较。

图1为本发明实施例提供的基于金字塔卷积的视频目标跟踪方法流程图。如图1所示，该方法包括以下步骤：

本实施例中，目标模板图像的裁剪方法为：将目标模板原始图像的中心位置作为边界框bounding box的中心位置，在边界框的四条边分别扩充p个像素作为上下文附加边界，若扩充后的区域超出原始图像的边界，则缺失的部分用图像的平均像素填充，最后将裁剪后的目标图像区域缩放到127×127的大小；搜索区域图像的裁剪方法为：将搜索区域原始图像的中心位置作为边界框bounding box的中心位置，在边界框的四条边分别扩充2p个像素作为上下文附加边界，若扩充后的区域超出原始图像的边界，则缺失的部分用图像的平均像素填充，最后将裁剪后的目标图像区域缩放到255×255的大小；其中，p＝(w+h)/4，w为目标边界框bounding box的宽度，h为目标边界框bounding box的高度。

图2为本发明实施例提供的基于金字塔卷积的全卷积孪生网络结构示意图。如图2所示，基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络，分别是提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络。

两个分支网络都是基于金字塔卷积的卷积神经网络，网络结构和参数完全相同，均包含依次连接的第一卷积层Conv1、第一池化层Pool1、金字塔卷积模块PyConv、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第五卷积层Conv5。具体参数为：Conv1的卷积核大小为11×11，步长为2，输出通道数为96；Pool1的卷积核大小为3×3，步长为2，输出通道数为96；PyConv模块由两种不同的卷积核构成，对应的卷积核大小分别为3×3和5×5，步长均为1，输出通道数之和为256；Pool2的卷积核大小为3×3，步长为2，输出通道数为256；Conv3和Conv4的卷积核大小均为3×3，步长均为1，输出通道数均为192；Conv5的卷积和大小为3×3，步长为1，输出通道数为128。

图3为本发明实施例提供的金字塔卷积模块示意图。由图可知，金字塔卷积模块包含一个核金字塔，由多层卷积核组成，每一层的卷积核类型不同，随着卷积核尺寸的增加，卷积核的深度即通道数逐渐减少，正是由于卷积核的大小和深度可以变化，所以金字塔卷积可以提取到不同尺寸的细节信息。除了上述提到的可以提取到多尺度信息外，金字塔卷积为尽可能降低计算量，在内部还进行了分组卷积，相比于标准卷积，金字塔卷积具有与标准卷积相近的参数量和计算复杂度，并且可以通过并行的方式进行计算，因此计算高效。本发明中使用的金字塔卷积模块由两层不同尺寸的卷积核构成，并且每一层的卷积核包含不同的空间尺寸，随着卷积核尺寸的增加而逐渐减低卷积核的深度。第一层卷积核的尺寸为3×3，对应卷积核的深度为192，划分为2组进行卷积；第二层卷积核的尺寸为5×5，对应卷积核的深度是64，划分为2组进行卷积。

目标模板图像Z和搜索区域图像X分别输入到本网络的目标分支和搜索分支，得到目标模板图像的特征图和搜索区域图像的特征图，分别使用Φ(Z)和Φ(X)表示目标分支和搜索分支输出的特征图，将Φ(Z)做为卷积核在Φ(X)上进行互相关运算，得到嵌有两个分支信息的得分响应图R。

基于所述训练数据集，训练基于金字塔卷积的全卷积孪生网络时，对于训练得到的得分图中的每一个样本点，都对应着一个真值标签y∈{+1,-1}。当样本点位于以得分图中心位置为圆点，半径为R的范围内时，样本点为正样本，真值标签y的取值为+1，否则样本点为负样本，真值标签y的取值为-1。对应的公式如下：

其中，c为得分图的中点，k为步长的取值。

本发明实施例使用logistic loss做为训练时每个样本点的损失函数，对于得分图R的整体损失，采用得分图中全部样本点损失值的均值。本发明构建的损失函数L(y,v)为：

l(y[u],v[u])＝log(1+exp(-y[u]×v[u]))

其中，L(y,v)为得分响应图的损失函数，l(y,v)为得分响应图中每个点对应的损失函数，D表示得分响应图中所有点的集合，u为得分响应图中的样本点。

本发明实施例采用随机梯度下降算法最小化损失函数L(y,v)，通过多次迭代训练得到训练好的基于金字塔卷积的全卷积孪生网络模型。

本发明实施例共训练50个epoch，每个epoch迭代6650次，每次迭代使用8对裁剪好的图像进行训练。在网络训练的过程中，随着迭代过程的进行，网络的学习率从10^-2逐渐缩小到10^-5。

使用训练好的基于金字塔卷积的全卷积孪生网络测试本跟踪方法的性能时，使用OTB100数据集做为待测图像序列。OTB100数据集包括100个完全标注的序列，每个序列中的目标各不相同，且受到光照变化、尺度变化、遮挡、目标丢失等一种或多种因素的影响，从而增加了跟踪的难度。

本发明实施例在OTB100数据集上对本发明提出的方法进行性能评估，使用准确率和成功率两个评价指标进行评价。图4(a)和图4(b)分别为本发明实施例提供的跟踪结果在OTB100数据集上的准确率曲线图和成功率曲线图。从图4(a)可以看出，本发明提出的方法在准确率上比SiamFC有所提高，跟踪精度上取得了不错的效果；从图4(b)可以看出，本方法提出的方法在成功率上也比SiamFC有所提高。

图5(a)为本发明实施例提供的使用本发明方法对Basketball序列进行目标跟踪的第31帧图像；图5(b)为本发明实施例提供的使用本发明方法对Basketball序列进行目标跟踪的第60帧图像；图5(c)为本发明实施例提供的使用本发明方法对Basketball序列进行目标跟踪的第109帧图像。可以得出，本发明提出的跟踪方法可以有效跟踪到有姿态变化和相似背景干扰的目标。

图6(a)为本发明实施例提供的使用本发明方法对CarScale序列进行目标跟踪的第124帧图像；图6(b)为本发明实施例提供的使用本发明方法对CarScale序列进行目标跟踪的第159帧图像；图6(c)为本发明实施例提供的使用本发明方法对CarScale序列进行目标跟踪的第173帧图像。可以得出，本发明提出的跟踪方法可以有效跟踪到有姿态变化和遮挡的目标。

图7(a)为本发明实施例提供的使用本发明方法对Suv序列进行目标跟踪的第49帧图像；图7(b)为本发明实施例提供的使用本发明方法对Suv序列进行目标跟踪的第498帧图像；图7(c)为本发明实施例提供的使用本发明方法对Suv序列进行目标跟踪的第838帧图像。可以得出，本发明提出的跟踪方法可以有效跟踪到遮挡和相似背景干扰的目标。

Claims

1.一种基于金字塔卷积的视频目标跟踪方法，其特征在于，所述方法包括以下步骤：

步骤S1，选择视觉目标跟踪训练集，根据图像中跟踪目标的位置和大小，裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像，将目标模板图像和搜索区域图像组成的图像对构成训练数据集；

步骤S2，搭建基于金字塔卷积的全卷积孪生网络，所述基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络，分别提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络，两个分支网络都是基于金字塔卷积的卷积神经网络，将提取到的目标模板图像的特征图与搜索区域图像的特征图做互相关运算，得到对应的得分响应图；

步骤S3，使用构建好的训练数据集，训练基于金字塔卷积的全卷积孪生网络，获得训练好的基于金字塔卷积的全卷积孪生网络；

步骤S4，使用训练好的基于金字塔卷积的全卷积孪生网络计算待测图像序列中图像的得分图，基于得分图进行目标跟踪定位。

2.如权利要求1所述的一种基于金字塔卷积的视频目标跟踪方法，其特征在于，所述步骤S1中，使用ILSVRC2015数据集。

3.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法，其特征在于，所述步骤(2)中，全卷积孪生网络包括两个分支网络，分别是：a)以目标模板图像Z做为输入的目标分支网络；b)以搜索区域图像X做为输入的搜索分支网络，两个分支的主干网络结构相同、参数共享，使用Φ(Z)和Φ(X)分别表示目标分支和搜索分支输出的特征图，将Φ(Z)做为卷积核在Φ(X)上进行互相关运算，得到嵌有两个分支信息的得分响应图R，两个分支都是将基于金字塔卷积的AlexNet网络做为主干网络，目标模板图像Z输入主干网络后，通过Conv1得到第一层的特征图，接着通过Pool1、金字塔卷积模块得到第二层的特征图，最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图；搜索区域图像X输入主干网络后，通过Conv1得到第一层的特征图，接着通过Pool1、金字塔卷积模块得到第二层的特征图，最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图。

4.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法，其特征在于，所述步骤S2中，金字塔卷积模块在多个卷积核尺度上对输入信息进行处理，包含一个核金字塔，每一层包含不同类型的卷积核，提取到不同尺度的细节信息。

5.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法，其特征在于，所述步骤(3)中，构建的损失函数计算公式如下：

l(y[u],v[u])＝log(1+exp(-y[u]×v[u]))

其中，L(y,v)为得分响应图的损失函数，l(y,v)为得分响应图中每个点对应的损失函数，D表示得分响应图中所有点的集合；u为得分响应图中的样本点；c为得分响应图的中心位置；R为得分响应图对应的半径值；y∈{+1,-1}为样本点对应的真值标签，当样本点u位于以c为中心的半径R范围内时，y的值为+1，否则y的值为+1；v[u]为得分响应图中u点对应的得分值。

6.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法，其特征在于，所述步骤S4的过程如下：

1)根据待测图像序列初始帧中目标的位置和大小，裁剪出初始帧图像的目标模板图像，图像尺寸为127×127，将初始帧图像的目标模板图像输入到训练好的基于金字塔卷积的全卷积孪生网络的目标分支网络中，获得初始帧图像的目标模板图像的特征图，t＝2；

4)根据第t帧的得分响应图计算出目标在第t帧图像中的位置；

5)令t＝t+1，重复执行步骤2)到步骤5)，直到结束待测图像序列的目标跟踪过程，即t＝N，其中，N为待测视频序列的总帧数。