CN111179307A

CN111179307A - 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法

Info

Publication number: CN111179307A
Application number: CN201911292419.8A
Authority: CN
Inventors: 郭东岩; 邵燕燕; 王俊; 崔滢; 王振华; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-19

Abstract

一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，包括以下步骤：(1)根据图像中目标的所在位置，在原始训练集中裁剪出目标模板图像和搜索区域图像，裁剪出的图像对构成了训练数据集；(2)搭建全卷积孪生网络提取图像特征；(3)搭建分类回归网络；(4)响应图上的每个像素点都有对应的前景得分和预测的包围框，结合前景得分和包围框的信息，计算每个像素点的总得分，总得分最高的像素点是跟踪目标的中心；(5)使用训练数据集，训练全卷积孪生网络和分类回归网络，获得训练好的全卷积孪生网络和分类回归网络，使用训练好的网络计算待测图像序列中目标的得分图，基于得分图进行目标定位。本发明提升了跟踪的精度和速度。

Description

一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法

技术领域

本方法涉及视觉目标跟踪领域，更具体地，涉及一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法。

背景技术

视觉目标跟踪是机器视觉领域的基础研究问题，其广泛应用于智能监控、人机交互和无人驾驶等领域。尽管目标跟踪的研究已经有了很大的进展，然而，在实际应用中目标跟踪仍是一项极具挑战性的任务。因为在实际应用中，被跟踪目标难以避免的会遭遇光照变化、尺度变化、背景干扰、目标遮挡和目标形变。

传统的目标跟踪方法可以分为两种：基于生成式的跟踪和基于判别式的跟踪。生成式跟踪算法通过提取目标对象的特征，构建出能够表征目标外观的模型。利用模型在搜索图像内进行匹配，最匹配的区域即为目标。常见的基于生成式的跟踪算法有meanshift、粒子滤波、卡尔曼滤波以及基于特征点的光流算法。而在目标跟踪过程中，经常会出现背景与目标外观相似的情况。因此仅仅对跟踪目标进行建模，并不能满足目标跟踪的需求。基于判别式的目标跟踪算法充分利用了第一帧模板图像中的背景信息。这类算法将跟踪问题归结为一个二分类问题，主要研究如何区分目标和背景。检测器通过在线或者离线训练，获得区分目标和背景的能力，进而在搜索区域图像上找到目标位置。基于判别式的目标跟踪算法有Struck和TLD等，相比生成式的方法，这类方法更能适应背景变化复杂的情况。

基于相关滤波的目标跟踪算法用第一帧中的目标训练滤波器，滤波器在搜索图像上进行搜索，根据响应值判断目标的位置。整个过程中滤波器不是固定的，而是随着跟踪过程经历不断地更新。相比于传统的跟踪算法，基于相关滤波的目标跟踪算法利用快速傅里叶变换将滤波过程从时域转到频域进行计算，极大地加快了跟踪速度。基于相关滤波的目标跟踪算法有CF，KCF，DSST，CCOT等。

深度学习模型因其强大的特征表达能力，极大地提高了复杂环境下目标跟踪的算法精度。它最大的优势是模型经过大量数据的训练，可以得到有效的语义特征，而特征的有效性决定了目标跟踪方法性能的好坏。深度学习应用于目标跟踪领域面临两个难题：(1)仅利用视频第一帧获得的先验知识，远达不到训练深度模型对数据量的要求；(2)在线更新模型导致计算的复杂度增加，损害了跟踪过程的实时性。

针对数据量不足这个问题，研究人员提出使用图像分类的大型数据集(例如ImageNet)预训练跟踪模型。而针对实时性问题，研究人员采取离线训练、在线微调的策略，缓解了深度模型造成的耗时。通过不断优化深度模型与目标跟踪算法的结合方式，基于深度学习的目标跟踪算法已经获得了比传统算法更好的精度和速度。目标跟踪算法使用的深度学习框架主要有3种，分别是：堆栈自编码器、卷积神经网络和孪生网络。

目前很多流行的目标跟踪方法是建立在孪生网络的架构上。这些方法把目标跟踪视为一个目标匹配问题，利用孪生网络得到一张目标模板图像和搜索区域图像之间相似性的映射图。由于单一的相似性映射图通常包含有限的空间信息，所以SiamFC提出了一种改进方法：在搜索区域图像上进行多个尺度的相似性匹配，用多个相似性映射图确定目标的位置。虽然这种方法借助多次相似性匹配提高了目标跟踪的精度，但是损害了跟踪的速度。SiamRPN中提出的另一种改进方法是：在孪生网络的后面加上一个区域提案网络，通过分类分支网络和回归分支网络最终实现目标跟踪。这种方法有效的避免了多尺度相似性匹配的耗时问题，但是当出现干扰物，特别是干扰物与目标对象的外观相似时，跟踪的成功率会受到很大的影响。为了提高跟踪器辨别干扰物的能力，DaSiamRPN在训练模型的阶段增加了负样本训练数据，通过数据增强的方式，提高了跟踪器的辨别干扰物的能力。以上提及的几种跟踪方法都把AlexNet作为主干网络进行图像特征提取，SimaRPN++方法中把ResNet深度残差网络作为主干网络，获得了更深层次的特征，进而提高了跟踪的精度。

基于区域提案网络的跟踪方法，使用锚框进行区域提案，这种做法虽然能够有效利用深层特征信息，避免了重复计算造成的耗时，但锚框数量、尺寸和宽高比等参数的设置，对最终的跟踪效果影响很大。另外，正因为锚框的尺寸和宽高比等参数在跟踪时是保持固定的，所以基于区域提案的跟踪方法无法成功跟踪形变较大的目标。

发明内容

针对现有方法存在的不足，本发明提供了一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，在速度和精度方面都取得了良好的结果。

为了解决上述问题，本发明提供如下的技术方案：

一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，包括以下步骤：

(1)选择视觉目标跟踪训练集，根据图像中目标的所在位置，在原始训练集中裁剪出目标模板图像和搜索区域图像，裁剪出的图像对构成了训练数据集；

(2)搭建全卷积孪生网络提取图像特征，所述全卷积孪生网络包含两个架构完全相同的分支网络，分别是提取目标模板图像特征的分支网络和提取搜索区域图像特征的分支网络，这两个分支网络的输出层做深度互相关运算得到一张响应图，响应图降维后作为分类回归网络的输入；

(3)搭建分类回归网络，全卷积孪生网络生成的响应图作为分类回归网络的输入，分类回归网络包含两个分支，分别是进行分类分支网络和回归分支网络，分类分支网络输出相应像素点属于目标区域的概率，回归分支网络输出四条包围框与对应像素点间的距离；

(4)全卷积孪生网络产生的响应图在经过分类回归网络后，响应图上的每个像素点都有对应的前景得分和预测的包围框，结合前景得分和包围框的信息，计算每个像素点的总得分，总得分最高的像素点是跟踪目标的中心；

(5)使用训练数据集，训练全卷积孪生网络和分类回归网络，获得训练好的全卷积孪生网络和分类回归网络，使用训练好的网络计算待测图像序列中目标的得分图，基于得分图进行目标定位。

进一步，所述步骤(1)中，为了与其他跟踪器进行公平的比较，本发明只使用官方网站提供的特定训练集进行训练，用于训练的数据集有：COCO，ImageNet DET，ImageNetVID或者YouTube-BB。

更进一步，所述步骤(2)中，全卷积孪生网络包括两个分支，分别是：a)以目标模板图像Z作为输入的目标分支；b)以搜索区域图像X作为输入的搜索分支。这两个分支的主干网络结构相同、共享参数，两个分支输出的特征图分别表示为

和

在

上执行以

为核的深层互相关运算，得到嵌有两个分支信息的响应图R。降维后的响应图R*作为分类回归子网络的输入。

更进一步，所述步骤(3)中，响应图R*上的位置(i,j)能在输入的搜索区域中映射为(x,y)，对搜索区域上的像素进行前景、背景分类并回归出目标包围框，用端到端的全卷积操作完成相关的训练，所述任务被拆解成两个子任务：a)分类分支网络，用于计算响应图R*上每个像素点属于前景、背景的概率；b)回归分支网络，用于计算响应图R*上每个像素对应的目标包围框。

更进一步，所述步骤(4)中，在分类回归网络的基础上对响应图R*上的每个位置计算总得分，在跟踪过程中，相邻帧之间包围框的大小和宽高比只有微小的变化，引入了尺寸变化惩罚p_i,j，结合p_i,j对分类分支的得分重新进行排序，把总得分最高的像素位置记做目标中心，按得分排序在目标中心附近取k个像素点，把目标中心像素和k个像素点的包围框进行加权平均运算，计算结果是最终的目标包围框。

更进一步，所述步骤(5)的过程如下：

5.1)在待测图像序列中，根据第一帧给定目标所在位置，剪裁出目标模板图像，将第一帧的目标模板图像输入到训练好的全卷积孪生网络的目标模板分支网络中，得到目标模板图像的特征图M₁。此时，t＝2；

5.2)根据待测图像序列的第t-1帧图像的目标框所在位置，剪裁出第t帧图像的搜索区域图像，将第t帧的搜索区域图像输入到训练好的全卷积孪生网络的搜索区域分支中，获得第t帧图像的搜索区域图像特征图；

5.3)将第t-1帧的目标模板特征图和第t帧的搜索区域图像特征图对应层进行深度互相关运算，得到响应图R*，响应图R*输入到分类回归网络中，计算出目标在第t帧的搜索区域图像内的得分图；

5.4)根据第t帧的最终得分图计算目标在第t帧图像中的目标位置；

5.5)令t＝t+1，重复执行步骤5.2)-5.5)，直至待测图像序列目标跟踪结束，即t＝N，其中，N为待测图像序列的总帧数。

本发明的有益效果主要表现在：

(1)框架简单，性能强大。所述提出了一种全卷积分类及回归孪生网络结构的目标跟踪方法，这种方法的网络结构简单，性能良好；

(2)减少了网络的参数量。所述方法不需要锚框和区域提案识别跟踪目标，大大减少了网络的参数量。此外，所述方法不需要进行复杂的调参，大大简化了训练过程。

(3)跟踪的精度和速度都得到了提升。所述方法没有使用复杂的跟踪框架，却取得了良好的跟踪精度。而且正因为使用的网络结构简单，所以在提高精度的同时不需要牺牲跟踪的速度。

附图说明

图1为本发明的网络框架结构示意图；

图2为本发明的跟踪流程示意图。

具体实施方式

为使本发明更容易理解、优势更加清楚，下面结合附图和具体实施例，对本发明实施例中的技术方案作详细说明。

参照给图1和图2，一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，包括以下步骤：

本实施例中，目标模板图像的剪裁方法为：把目标框的中心点作为裁剪矩形框的中心点，目标框宽和高分别延长p个像素点，作为裁剪矩形框的宽和高。如果裁剪矩形框超出了图像边界，用图像的均值像素填充超出部分，最后将裁剪的图像缩放至127*127大小；搜索区域图像的裁剪方法为：把目标框的中心点作为裁剪矩形框的中心点，目标框的宽和高分别延长2p个像素点，作为裁剪矩形框的宽和高。如果裁剪矩形框超出了图像边界，用图像的均值像素填充超出部分，最后将裁剪的图像缩放至255*255大小。其中，p＝(w+h)/2，w是目标位置宽像素，h是目标位置高像素。

图1为本发明的网络框架结构示意图，左侧是用于提取目标模板图片和搜索区域图片的全卷积孪生子网络，右侧是预测目标中心和包围框的分类回归子网络，下面将对这两个子网络做具体说明：

2.1)全卷积孪生子网络中包含两个架构完全相同的分支网络，图1中左上方是目标模板图像分支网络，左下方是搜索区域图像分支网络。这两个分支网络都把ResNet-50作为主干网络，与AlexNet相比，ResNet-50能获得到更深层次的图像特征。剪裁好的目标模板图像和搜索区域图像被分别缩放至127*127和255*255大小，经过深度卷积网络后得到形状为7*7*n和31*31*n的特征图，特征图分别表示为

和

其中，

是目标模板图像的特征图，

是搜索区域图像的特征图。

浅层次的特征，如边缘、角点、颜色和形状，在目标定位上是不可缺少的。深层次特征包含的语义信息在区分对象时起着至关重要的作用。本发明把主干网络ResNet-50中最后三个残差块提取的特征组合起来，实现了更好的识别和区分效果。这三个残差块提取的特征分别用F₃(X)，F₄(X)，F₅(X)表示，组合成一个整体：

F₃(X)，F₄(X)，F₅(X)各有256个通道数，因此

包含了的通道数是3*256。

经过互相关运算得到响应图R。由于在后续网络中需要对响应图R进行解码以获得目标的位置和规模等信息，所以R中必须保留丰富的特征信息。不同特征通道包含了不同的语义信息，而互相关层只能生成单通道压缩响应图，这样一来丢失了重要的特征和跟踪信息。所以，本发明对特征图

进行深度互相关运算，生成了多个语义相似图。生成的响应图R通道数与

的通道数一样，R中包含大量的特征信息有助于后续的分类和回归操作。

响应图R有3*256个通道数，减少R的通道数能极大的减少后续网络的参数量，从而加快跟踪的速度。所以本发明对R进行了降维，具体操作是响应图R与1*1的核进行卷积，得到的R*只有256个通道。降维操作能够极大的减少参数的数量，提高了后续步骤的计算速度。

2.2)分类回归子网络包含两个分支，图1中右上方是分类分支网络，右下方是回归分支网络。分类分支网络中又包含两个并列的分支，分别是分类分支和中心度分支。分类分支输出响应图R*中像素点是前景或者背景的得分，中心度分支输出响应图R*中像素点是目标中心的得分。回归分支网络输出响应图R*上每个像素点对应的包围框四边与该点的距离。

响应图R*输入到分类分支网络中，先经过一个卷积神经网络，这个卷积神经网络有4个卷积层。这4个卷积层的结构相同，每一层的输入通道和输出通道都是25，卷积核是3，步长是1，填充是1。这个卷积神经网络后面是并列的分类分支和中心度分支，这两个分支都只有一个卷积层。分类分支的卷积层输入通道是255，输出通道是2，卷积核是3，步长是1，填充是1，它输出25*25*2的响应图A^cls _w×h×2。其中，w和h分别表示响应图的宽和高。A^cls _w×h×2中的每个像素点(i,j,:)都对应一个2维向量，它表示该点被分类成前景和背景的得分。中心度分支的卷积层输入通道是255，输出通道是1，卷积核是3，步长是1，填充是1。它输出25*25*1的响应图A^cen _w×h×1，A^cen _w×h×1是每个像素点中心度的得分。

回归分支网络在搜索区域图像上逐像素预测目标包围框。响应图R*输入到回归分支网络中，也会经过一个卷积神经网络，这个卷积神经网络与分类分支网络中的卷积神经网络结构相同、参数不同。随后再经过一个卷积层，这个卷积层的输入通道是255，输出通道是4，卷积核是3，步长是1，填充是1，它输出25*25*4的响应图A^reg _w×h×4。A^reg _w×h×4上的每个像素点(i,j,:)都对应一个4维向量t(i,j)＝(j,t,r,b)，这个4维向量表示该点到包围框四边的像素距离。

因为在输入搜索区域中的目标和背景占据的区域之比并不大，所以不存在样本不平衡的问题。我们只需要分别采用交叉熵损失、交并比损失计算分类网络的损失和回归网络的损失。

用(x₀,y₀)和(x₁,y₁)代表真实边界框左上角和右下角的坐标，(x,y)代表点(i,j)的相应位置。处于位置A^reg _w×h×4(i,j,:)的回归目标

能通过下面的公式计算出来：

真实边界框和预测包围框的交并比也能通过

计算出来，回归网络的损失表示为：

其中，L_IOU是交并比损失，Ⅱ(·)是指示函数，被定义为

观察发现，远离目标中心的位置往往会产生低质量的预测包围框，从而降低了跟踪系统的性能。所以本发明中增加了一个与分类分支并列的的中心分支，它的作用是移除离群点。这个分支的输出一张中心特征响应图A^cen _w×h×1，响应图中每一个值是对应位置是否处于中心的得分情况。处于位置A^cen _w×h×1(i,j)的得分C(i,j)的定义是：

其中C(i,j)与搜索区域中相应位置(x,y)与目标中心之间的距离成正比。如果(x,y)处于背景区域，那么C(i,j)的值被置为0。中心分支网络的损失被定义为：

总的损失函数为：L＝L_cls+λ₁L_cen+λ₂L_reg。其中，L_cls表示分类的交叉熵损失，常数λ₁和λ₂表示中心损失和回归损失的权重。在模型训练过程中，权重设置成λ₁＝1，λ₂＝2。

图2是本发明进行目标跟踪的流程示意图，下面结合图2介绍跟踪的具体流程。图2中的子图A显示的是一对输入图片，处于上方的是目标模板图像，下方是搜索区域图像。子图B显示的是子图A中的图像依次经过全卷积孪生网络和分类回归网络后得到的特征图，cls是前景得分图，cen是中心度得分图，l,t,r,b是像素点到包围框四边的距离。子图C显示的是得分最高的像素点和该点邻域的k个像素点预测出来的包围框。子图D显示的是(k+1)个包围框取平均值得到最终的包围框。

对位置(i,j)来说，所述框架能产生一个6维的向量T_ij＝(cls,cen,l,t,r,b)，其中cls代表分类的前景得分，cen代表中心度得分，l+r和t+b分别代表当前帧预测包围框的宽和高。在跟踪过程中，相邻帧之间包围框的大小和宽高比只有微小的变化。因此，本发明引入了尺寸变化惩罚p_i,j，对分类得分cls进行重新排序，更新过后的6维向量表示成PT_ij＝(cls_ij×p_ij,cen,l,t,r,b)。跟踪过程就是寻找总得分最大的像素作为目标像素，用公式可以表示成：q＝argmax_i,j{(1-λ_d)cls_ij×p_ij+λ_dH}。其中H是余弦窗，λ_d是平衡权重。

因为所述模型用逐像素的方式进行目标定位，所以每个像素都有对应的预测边界框。在实际跟踪中，如果使用q唯一的边界框作为目标框，则在相邻帧之间会产生抖动。在实验中观察到q附近的像素点也有可能是目标像素，因此根据cls_ij×p_ij的值，从q的n个邻域中选择前k点个像素点，最终的预测结果是所选k个回归框的加权平均值。其中当n＝1和k＝5时，跟踪结果最稳定。

训练模型和测试模型的细节介绍。在训练过程中，批处理的大小为96，总共训练20个回合。随机梯度下降的初始学习率是0.001。在前10个回合当中，当训练分类回归子网络时，全卷积孪生子网络的参数是被冻结的。在后10个回合当中，ResNet-50的后3个残差块解冻，和分类回归子网络一起训练。总训练时间约42个小时。

测试时，本发明采取离线跟踪策略。只有初始帧的对象被当成模板，预先计算全卷积孪生网络的目标模板分支，并这个分支在跟踪过程中保持固定。当前帧中的搜索区域图像作为搜索区域分支的输入。利用分类回归子网络的输出，找到总得分最高的位置q。计算出q的邻域得分最高的3个像素点对应的回归框，这几个回归框的加权平均值是预测的目标包围框。

本发明跟踪的效果。表1是本发明与其他方法的跟踪器在GOT-10K数据集上的结果对比。其中，AO代表预测的包围框和真实包围框的重叠率，SR_0.5代表重叠率在50％以上的比例，SR_0.75代表重叠率在75％以上的比例。从表1中可以看出本发明在跟踪的精度和速度与其他跟踪器相比，都有明显的优势。表1为GOT-10K数据集测试结果对比。

Tracker	AO	SR0.5	SR0.75	FPS
					KCF	0.203	0.177	0.065	94.66
fDSST	0.206	0.187	0.075	30.43
					SRDCF	0.236	0.227	0.094	5.58
Staple	0.246	0.239	0.089	28.87
					SAMF	0.246	0.241	0.084	7.43
DSST	0.247	0.223	0.081	18.25
					DAT	0.251	0.242	0.048	45.52
MEEM	0.253	0.235	0.068	20.59
					BACF	0.260	0.262	0.101	14.44
ECO-HC	0.286	0.276	0.096	44.55
					CFnet	0.293	0.265	0.087	35.62
MDnet	0.299	0.303	0.099	1.52
					ECO	0.316	0.309	0.111	2.62
CCOT	0.325	0.328	0.107	0.68
					SiamFC	0.374	0.404	0.144	25.81
THOR	0.447	0.538	0.204	1.00
					SiamRPN R18	0.483	0.581	0.270	97.55
SPM	0.513	0.593	0.359	72.30
					SiamRPN++	0.517	0.616	0.325	49.83
Ours	0.569	0.670	0.415	52.27

表1。

Claims

1.一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，其特征在于，所述步骤(1)中，用于训练的数据集有：COCO，ImageNet DET，ImageNet VID或者YouTube-BB。

3.如权利要求1或2所述的一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，其特征在于，所述步骤(2)中，全卷积孪生网络包括两个分支，分别是：a)以目标模板图像Z作为输入的目标分支；b)以搜索区域图像X作为输入的搜索分支，这两个分支的主干网络结构相同、共享参数，两个分支输出的特征图分别表示为

和

在

上执行以

为核的深层互相关运算，得到嵌有两个分支信息的响应图R，降维后的响应图R*作为分类回归子网络的输入。

4.如权利要求1或2所述的一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，其特征在于，所述步骤(3)中，响应图R*上的位置(i,j)能在输入的搜索区域中映射为(x,y)，对搜索区域上的像素进行前景、背景分类并回归出目标包围框，用端到端的全卷积操作完成相关的训练，所述任务被拆解成两个子任务：a)分类分支网络，用于计算响应图R*上每个像素点属于前景、背景的概率；b)回归分支网络，用于计算响应图R*上每个像素对应的目标包围框。

5.如权利要求1或2所述的一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，其特征在于，所述步骤(4)中，在分类回归网络的基础上对响应图R*上的每个位置计算总得分，在跟踪过程中，相邻帧之间包围框的大小和宽高比只有微小的变化，引入了尺寸变化惩罚p_i,j，结合p_i,j对分类分支的得分重新进行排序，把总得分最高的像素位置记做目标中心，按得分排序在目标中心附近取k个像素点，把目标中心像素和k个像素点的包围框进行加权平均运算，计算结果是最终的目标包围框。

6.如权利要求1或2所述的一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法，其特征在于，所述步骤(5)的过程如下：

5.1)在待测图像序列中，根据第一帧给定目标所在位置，剪裁出目标模板图像，将第一帧的目标模板图像输入到训练好的全卷积孪生网络的目标模板分支网络中，得到目标模板图像的特征图M₁，此时，t＝2；