CN111797716A

CN111797716A - 一种基于Siamese网络的单目标跟踪方法

Info

Publication number: CN111797716A
Application number: CN202010550201.4A
Authority: CN
Inventors: 饶云波; 程奕茗; 郭毅; 薛俊民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-20
Anticipated expiration: 2040-06-16
Also published as: CN111797716B

Abstract

本发明公开了一种基于Siamese网络的单目标跟踪方法，属于目标跟踪技术领域。本发明首先构建Siamese网络的神经网络部分并训练Siamese卷积神经网络权重，在训练过程中基于嵌入式损失函数的神经网络模型进行，同时将各层特征进行融合，并使用随机梯度下降算法进行损失优化，然后通过RPN得到分类与回归的结果，最后针对分类与回归的结果进行后续帧的跟踪。本发明能够更好的检测定位到跟踪目标，能够有效融合图像检测上的方法到目标跟踪上，使用图像帧的方式代替视频，减少了训练成本和计算开销。从而提升跟踪处理效率，并对相似物体区分上效果更为明显。

Description

一种基于Siamese网络的单目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种基于Siamese网络预测技术的单目标跟踪技术。

背景技术

随着硬件、软件及人工智能多个领域的迅速发展，目标跟踪成为计算机视觉研究领域的热点之一，并得到广泛应用。相机的跟踪对焦、无人机的自动目标跟踪等都需要用到目标跟踪技术。另外还有特定物体的跟踪，比如人体跟踪，交通监控系统中的车辆跟踪，人脸跟踪和智能交互系统中的手势跟踪等。简单来说，目标跟踪就是在连续的视频序列中，建立所要跟踪物体的位置关系，得到物体完整的运动轨迹。给定图像第一帧的目标坐标位置，计算在下一帧图像中目标的确切位置。在运动的过程中，目标可能会呈现一些图像上的变化，比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。

目前的单目标跟踪技术主要有：

(1)经典目标跟踪方法：2010年以前，目标跟踪领域大部分采用经典的跟踪方法，比如Meanshift方法、基于特征点的光流跟踪算法等。Meanshift方法是一种基于概率密度分布的跟踪方法，使目标的搜索一直沿着概率梯度上升的方向，迭代收敛到概率密度分布的局部峰值上。基于特征点的光流跟踪算法，首先进行目标特征点提取，然后计算下一帧特征点的光流匹配点，最后统计以得到目标位置。

(2)基于相关滤波的跟踪算法：如：Particle Filter和Kalman Filter等，2012年P.Martins提出基于循环矩阵的核跟踪方法(Circulant Structure of Tracking-by-Detection with Kernels,CSK)，从数学上完美解决了密集采样(Dense Sampling)的问题，利用傅立叶变换快速实现了检测的过程。在训练分类器时，一般认为离目标位置较近的是正样本，而离目标较远的认为是负样本。该框架采用密集采样，能够学习到一个区域内所有图像块的特征。而长效跟踪方法(Tracking-Learning-Detection，TLD)仅在每一帧中随机地挑选一些块进行训练，学习到的特征是这些随机子窗口的特征。

3)基于深度学习的跟踪方法：最近几年深度学习技术成功应用在计算机视觉的各个应用领域，跟踪也不例外。在大数据背景下，利用深度学习训练网络模型，得到的卷积特征输出表达能力更强。在目标跟踪上，初期的应用方式是把网络学习到的特征，直接应用到相关滤波或Struck的跟踪框架里面，从而得到更好的跟踪结果。本质上卷积输出得到的特征表达，更优于直方图特征或颜色属性特征，但也带来了计算量的增加。

此外，基于Siamese网络的深度学习成为了近几年的热门，比较流行的SiamRPN不仅在跟踪速度上相比于传统网络有所提高，跟踪精度也比之前的跟踪网络要高出很多。SiamRPN网络由Siamese网络和区域推荐网络(Region Proposal Network，RPN)两部分组成，前者用来提取特征，后者用来产生候选区域。其中，RPN子网络由两个分支组成，一个是用来区分目标和背景的分类分支，另外一个是微调候选区域的回归分支。整个网络实现了端到端的训练。但SiamRPN网络由于修改参数导致结果差异大，容错性较低。

目标跟踪主要是解决形态变化、尺度变化、遮挡与消失、图像模糊等相关问题，提取目标语义信息的精准度直接影响着跟踪效果。传统方法主要存在如下限制：

(1)缺乏必要的模板更新；

(2)跟踪过程中由于窗口宽度大小保持不变，当目标尺度有所变化时，跟踪就会失败；

(3)当目标速度较快时，跟踪效果不好；

(4)直方图特征在目标颜色特征描述方面略显匮乏，缺少空间信息。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于Siamese网络的单目标跟踪方法。

本发明结合深层卷积神经网络(Deep Layer Convolutional Neural Network，DLCNN)与区域推荐网络实现目标语义特征提取以及目标的检测与回归。通过将数据输入到端到端训练网络后，并进行前景-背景分类和候选框回归操作得到训练权重，实现对单目标的精准追踪。

本发明的基于Siamese网络的单目标跟踪方法包括下列步骤：

步骤一、构建跟踪器模型的网络结构并进行网络参数的训练；

(1)构建跟踪器模型的网络结构：

所述跟踪器模型包括模板分支与搜索分支；

其中，模板分支包括特征提取网络、分类层和回归层；模板分支的特征提取网络的输出分别输入到其分类层和回归层；

搜索分支包括特征提取网络、分类层和回归层；搜索分支的特征提取网络的输出分别输入到其分类层和回归层；

模板分支的特征提取网络与搜索分支的特征提取网络的网络结构相同；

且搜索分支的分类层的输出与模板分支的分类层的输出的卷积结果作为跟踪器模型的分类输出；搜索分支的回归层的输出与模板分支的回归层的输出的卷积结果作为跟踪器模型的回归输出；

所述特征提取网络包括初始层、层Layer1～Layer4；

其中，初始层包括1个卷积层和1个池化层；

Layer1、Layer2和Layer4分别包括3个卷积层；Layer3包括6个卷积层；

并将Layer1、Layer2和Layer3的卷积输出与Layer2、Layer3和Layer4的卷积输出的上采样特征进行特征融合，从而得到特征提取网络的特征输出；

(2)跟踪器模型的网络参数训练：

设置训练数据，包括模板图像和检测图像；

将模板分支和搜索分支的特征提取网络的特征输出分别记为特征图

和

根据

获取模板分支和搜索分支的互相关操作得分s(z，x)，其中*表示互相关操作，

表示偏置值；

并在搜索分支中跟踪目标周围生成k个与跟踪目标相同大小的锚箱，将每个锚箱区域d_i对应的特征图信息记为

根据

计算跟踪目标与所有锚箱对象的正分数σ_inst(s)；其中，

并根据公式

计算嵌入式损失函数

将模板分支的分类层和回归层的输出分别记为特征图[φ(z)]_cls和[φ(z)]_reg；以及将搜索分支的分类层和回归层的输出分别记为特征图[φ(x)]_cls和[φ(x)]_reg；

根据

得到维度为w×h×2k的分类分数

根据

得到维度为w×h×4k的回归分数

其中，★表示卷积运算，w、h表示跟踪检测框的宽和高；

根据损失函数

对跟踪器模型的网络参数进行端到端训练；

其中，

表示分类损失函数，

表示回归损失函数，λ和α表示对应损失函数的权重；进一步的，为了减少训练工作量，特征提取网络的初始网络参数可以利用深度残差网络ResNet50的通用网络的预训练网络参数。

即，本发明的特征提取网络可以基于ResNet50的通用网络进行设置，通过调整ResNet50的参数提高网络性能，设置比RPN网络小10倍的ResNet50的学习速率，可以使特征表示更适合于跟踪任务。

步骤二、单目标跟踪处理：

将待跟踪的视频分割成图像帧，得到搜索图像帧序列；

将搜索图像帧序列的初始帧输入模板分支，并将模板分支的分类层、回归层的输出分别作为模板帧分类特征图、模板帧回归特征图；即将模板分支的分类层和回归层的输出作为权重，用于后续帧的跟踪检测；

并从搜索图像帧序列的第二帧开始，按序输入搜索分支；并基于搜索分支的分类层、回归层的输出分别作为检测帧分类特征图、检测帧回归特征图；

将检测帧分类特征图以模板分类特征图为卷积核进行卷积处理，得到当前帧的目标检测分类结果；以及将检测帧回归特征图以模板回归特征图为卷积核进行卷积处理，得到当前帧的目标检测的回归输出；从而基于各帧的目标检测信息得到搜索图像帧序列的目标跟踪结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：能够更好的检测定位到跟踪目标，能够有效融合图像检测上的方法到目标跟踪上，使用图像帧的方式代替视频，减少了训练成本和计算开销。从而提升跟踪处理效率，并对相似物体区分上效果更为明显。

附图说明

图1为做数据增强后的处理结果示意图；

图2为本具体实施方式中，构建的Siamese网络模型；

图3为采用特征金字塔的网络模型；

图4为COCO数据集展示；

图5为OTB2015实验结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的基于Siamese网络的单目标跟踪方法，首先构建Siamese网络的神经网络部分并训练Siamese卷积神经网络权重，在训练过程中基于嵌入式损失函数的神经网络模型进行，同时将各层特征进行融合，并使用随机梯度下降算法(Stochastic gradientdescent，SGD)进行损失优化，然后通过RPN得到分类与回归的结果，最后针对分类与回归的结果进行后续帧的跟踪。具体由以下步骤构成：

步骤1.数据集获取及预处理。

选取训练数据集(训练的图像数据集)，并对训练数据集中的各图像数据进行尺寸归一化处理及图像增强处理。

本具体实施方式中，选取当前目标跟踪领域中最常用的数据集ILVSRC2015以及目标检测中常用的COCO(Common Objects in Context)数据集作为网络的训练数据集。

其中，尺寸归一化和图像增强处理具体为：

S1.1.根据模板图像第一帧的真实值得到目标的矩形框(x_min，y_min，w，h)，其中，x_min，y_min表示矩形框的左下角顶点位置坐标，w，h分别表示矩形框的宽和高；并根据公式

生成模板图像大小，其中，A表示预置的图像大小，本具体实施方式中设置为127²，p表示填充值，

是对图像的一种变换，即图像尺寸变换函数。将包含上下文信息的图片扩展，然后调整大小，生成127×127的模板图像。

S1.2.当模板图像和搜索图像不够裁剪时(即模板图像、搜索图像小于预置的裁剪尺寸时)，将不足的像素按照RGB通道的均值进行填充，并生成多种大小的图像，如图1所示，其中Z行对应模板图像，X行对应搜索图像。

步骤2.搭建Siamese卷积神经网络模型，如图2所示。

S2.1.使用图像分类领域的深度残差网络ResNet50的通用网络作为构建Siamese卷积神经网络的骨架。

参见图2，Siamese的卷积神经网络包括两路结构相同的Siamese子网络(Siamese特征提取子网络)，即Siamese子网络的模板分支与搜索分支；其中模板分支用于输入模板图像，例如127×127×3的模板图像，其中，127×127为模板图像大小，3为图像的颜色通道；而搜索分支用于输入搜索图像，例如图2中所示的256×256×3的搜索图像。

本发明的Siamese子网络包括：初始层，以及第1～第4层，记为Layer1～Layer4；

其中，初始层包括1个卷积层和1个池化层，记为conv1和pool1；

Layer1、Layer2和Layer5分别包括3个卷积层，分别记为conv2_1～conv2_3，conv3_1～conv3_3，conv5_1～conv5_3；并分别将Layer1、Layer2和Layer5的3个卷积层称为卷积块conv2、conv3和conv5；

Layer3包括6个卷积层，记为conv4_1～conv4_6，并将Layer3的6个卷积层称为卷积块conv4。

S2.2.通过修改Siamese卷积神经网络中Layer3的卷积块conv4和Layer4的卷积块conv5，获得单位空间步长(即将conv4和conv5的步长修改为1)；从而将最后两个卷积块的有效步幅从16个像素和32个像素减少到8个像素，从而通过扩大卷积增加其感受野范围。

S2.3.分别将模板分支和搜索分支中Layerl、Layer2、Layer3的卷积块conv2、3、4的输出与Layer2、Layer3、Layer4中的conv3、4、5的上采样的特征进行特征融合，从而得到两个分支的最终的特征输出；即conv2的输出与conv3的上采样的特征进行特征融合、conv3的输出与conv4的上采样的特征进行特征融合、conv4的输出与conv5的上采样的特征进行特征融合；

在特征融合处理中，首先将conv2、3、4的输出通过卷积核为1*1的卷积层，从而将通道减少到256，如图3所示。

S2.4.通过调整ResNet50的参数提高网络性能，设置比RPN网络小10倍的ResNet50的学习速率，可以使特征表示更适合于跟踪任务。

步骤3.为了更好的区分相似物体，本发明提出了一个基于嵌入式损失函数，将Siamese子网输出的模版分支z与搜索分支x进行互相关操作得到一个得分，用s(p，x)表示，即定义p表示目标的模板分支

其中，

和

为卷积后的特征图，即

表示模板分支得到的最终特征图(，

表示搜索分支的最终特征图；*是互相关操作，

为偏置值。

由于在搜索分支中会有除跟踪目标以外的其他物体，因而通过在搜索分支上生成m个锚箱(anchor)对其他目标进行框定。即在搜索分支中跟踪目标周围生成m个与物体相同大小的anchor(即跟踪目标所在的矩形框的近邻矩形检测框)，计算所有anchor区域与搜索区域的得分，记为

其中，

d_i表示不同的anchor区域，则

表示锚箱对应的图像特征信息；并将输出特征送入用于二进制分类的Softmax函数，其确定跟踪目标与周围物体的分类，公式如下：

其中，σinst(·)用于比较跟踪目标与所有产生anchor对象的正分数。对于批次为N的所有数据中，提出了如下判别实例嵌入的损失：

从而实现跟踪目标的独特特征嵌入，并能够有效区分可能出现在跟踪目标周围的类似对象。

步骤4.利用步骤3中的损失函数，使用随机梯度下降算法(Stochastic gradientdescent，SGD)作为优化器来对网络进行端到端训练，并在训练回归分支时采用数据增强，包括放射变换，并且设置在一个训练对中最多有16个负样本和总共有64个样本。

步骤5.在构建完Siamese卷积神经网络骨架后，采用深度互相关RPN来获取分类和回归两个通道，对于k个锚点，网络需要输出2k个通道进行分类，4k个通道进行回归。具体过程如下：

S5.1.通过将搜索区域z中的通道增加到两个分支[φ(z)]_cls和[φ(z)]_reg，与模版图像x增加的两个分支[φ(x)]_cls和[φ(x)]_reg对应做卷积运算：

得到维度为w×h×2k的分类分数

和维度为w×h×4k的回归分数

其中，回归分数即每个样本的位置回归值，即检测框的位置回归值，包括中心点位置坐标以及检测框的宽和高。

S5.2.对于分类损失函数，采用交叉熵损失函数

用{A_x，A_y，A_w，A_h}表示锚箱的中心点和形状，即(A_x，A_y)表示中心点位置，A_w，A_h分别表示锚箱的宽和高，通过归一化得到{δ[0]，δ[1]，δ[2]，δ[3]}，其中{T_x，T_y，T_w，T_h}为真实值的中心点和形状。

S5.3.使用多个锚点训练网络时，采用平滑的L1损失和回归的归一化坐标，由如下所示：

其中，σ表示超参数。

优化损失函数为：

其中λ，α是超参数，用以平衡三部分，其中

为：

步骤6.将单次检测视为目标跟踪中的判别任务。其目的是学习一个参数W使得预测函数φ(x；W)的平均损失

最小，给定n个样本x_i和相应标签l_i，其对应的表达式为：

一次性学习目的是在从感兴趣的类的单个模板z中学习W，歧视性一次性学习是为了找到一种机制，将类别信息纳入学习，即学习如何学习。为了解决该问题，本具体实施方式中采用一种使用元学习过程从单个模板z学习预测器(跟踪器)的参数W的方法，即将(z；W′)映射到W的前馈函数ω。定义z_i表示模板帧，即模板样本，上述表达式可以转换为：

用z_i表示模板帧，x_i表示检测帧，函数

表示Siamese子网络所提取的图像特征，ζ为RPN网络，则一次性检测任务可以表示为：

步骤7.设置跟踪器模型并进行单目标跟踪处理。

跟踪器模型的网络结构包括模板分支与搜索分支，其中，模板分支包括特征提取网络、分类层和回归层；模板分支的特征提取网络的输出分别输入到其分类层和回归层；搜索分支包括特征提取网络、分类层和回归层；搜索分支征提取网络的输出分别输入到其分类层和回归层；且搜索分支的分类层的输出与模板分支的分类层的输出的卷积结果作为跟踪器模型的分类输出；搜索分支的回归层的输出与模板分支的回归层的输出的卷积结果作为跟踪器模型的回归输出。

将需要跟踪的视频分割成每一帧的图像集，将步骤4中训练的权重传入跟踪器模型中，得到模板分支、搜索分支的特征提取网络的权重，即网络参数；

将模板分支的输出(分类层和回归层的输出)作为权重，用于后续帧的跟踪，即将第一帧(初始帧)图像信息输入到模板分支，将模板分支的分类层、回归层的输出分别作为模板帧分类特征图、模板帧回归特征图；搜索分支将当前输入的检测帧所获取的搜索分支的分类层、回归层的输出分别作为检测帧分类特征图、检测帧回归特征图；

检测帧分类特征图用模板分类特征图作为卷积核进行卷积处理，得到对应的分类结果；检测帧回归特征图用模板回归特征图作为卷积核进行卷积处理，得到对应的回归输出。

即模板分支中产生的两个内核都在初始帧上预先计算出来，并在整个跟踪期间固定，然后在检测帧中以前向传播获取分类和回归输出，并且产生多个候选框，同时使用正弦窗口和比例变化惩罚来重新排列候选框的得分来获得最佳得分。在丢失异常值后，添加余弦窗口抑制较大位移，并增加时间惩罚项(penalty)来控制大小和比例变化：

其中k为超参数，x表示候选框的高度和宽度比例，x′表示最后一帧的比率。s和s′代表候选框和最后一帧的总体规模，计算如下：

其中，w和h代表目标的宽度和高度，p为填充，是(w+h)/2。在此之后，将分类得分乘以时间惩罚(penalty)，对前k个候选框进行重新排序，之后进行非极大抑制(Non-MaximumSuppression，NMS)以获得最终跟踪边界框。选择最终边界框后，通过线性插值更新目标尺寸来保持平滑变化。

实施例

COCO数据集为640×480的RGB图像，从该数据集中随机筛选了100幅图像作为训练数据，所筛选的图像数据如图4所示；然后将筛选的图像裁剪为511×511后送入训练网络。

在COCO数据集上实验，以改进的ResNet50为骨架网络进行训练，设置不同的参数和网络结构。用0TB2015作为评估数据集，具体的实验结果如图5所示，其中，Tracnker name表示训练的不同批次的模型参数权重，Success表示跟踪的成功率，Prectision表示跟踪的准确度。

本实施例中，将Siamese特征提取子网络在ImageNet上预先训练后，在COCO数据集的训练集上训练网络，训练集大小超过20GB。在训练和测试中，使用具有127像素的单比例图像表示模板，255像素用于搜索区域。在使用Imagenet预先训练Siamese特征提取子网络后，使用随机梯度下降算法(SGD)端到端训练网络。

通过注意两个相邻帧中的相同对象不会发生太大变化，在跟踪任务中选择的锚点少于检测任务。因此，只采用不同比例锚的一个尺度，并采用锚固比为[0.33，0.5，1，2，3]。

选择正负训练样本的策略在本发明提出的网络框架中很重要。本实施例中采用对象检测任务中使用的标准，使用交并比IoU和两个阈值th_hi和th_lo作为度量。正样本定义为具有IoU＞th_hi及其相应的基本事实的锚。负数被定义为满足IoU＜th_1o的锚。将th_lo设置为0.3，将th_hi设置为0.6。并且设置了一个训练对中最多16个负样本和总共64个样本。

基于图5所给出的跟踪实验结果可以得出，本发明提出的单目标跟踪方法具有良好的实现效果，本发明通过顶层编码更多的语义特征并用作类别检测器，而较低层包含更多的判别信息，并且可以更好地将目标与具有相似外观的干扰项分开，从而使网络更具有鲁棒性，达到更好的性能。

本发明相比于现有的Siamese跟踪器在跟踪精度上提高了9％，且速度有一定提高，在相似物体区分上效果更为明显。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。