CN113436227A

CN113436227A - 一种基于倒残差的孪生网络目标跟踪方法

Info

Publication number: CN113436227A
Application number: CN202110636732.XA
Authority: CN
Inventors: 钱小燕; 张峰; 申艺; 杨镇源
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-24

Abstract

本发明公开了一种基于倒残差的孪生网络目标跟踪方法，包括如下步骤：建立一个倒残差结构的目标跟踪算法模型；基于大规模图像数据集，剪裁制作成训练数据集，采用SGD算法对整个网络进行端对端的训练；跟踪过程中，将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板；后续帧中，将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作，在分类分支得到每个锚框的前景和背景的分类得分图，在回归分支中对每个锚框做精细化回归；对三个区域推荐网络的输出结果做平均化融合，给出最终目标预测框，在新一帧中重复上述操作直至视频结束。本发明能够对目标进行持续跟踪，复杂场景中仍能对目标持续鲁棒跟踪。

Description

一种基于倒残差的孪生网络目标跟踪方法

技术领域

本发明涉及深度学习目标跟踪技术领域，尤其是一种基于倒残差的孪生网络目标跟踪方法。

背景技术

随着图像处理技术的不断发展，视频目标跟踪已经成为计算机视觉领域的一个前沿研究热点。其主要任务就是获取视频图像序列中感兴趣的目标的位置，为进一步的语义层分析提供基础。视频目标跟踪研究在智能视频监控、人机交互、医学诊断等领域有广泛应用，具有很强的实用价值，在日常生活中起着重要的作用。

目前视频目标跟踪主要分为两大类：相关滤波器方法和深度学习方法。基于相关滤波的方法把目标跟踪的过程近似地看成对搜索区域图像进行相关滤波的过程。首个相关滤波算法是方法平方误差最小滤波器(Minimum Output Sum of Squared Error，MOSSE)，2010年基于循环稠密采样的算法CSK(Circulant Structure with Kernels)解决了MOSSE中的样本不足问题。2014年KCF(Kernelized Correlation Filter)引入了核函数。此后还利用颜色特征、HOG特征等多特征融合，并加上自适应尺度变化的DSST(DiscriminativeScale Space Tracker)，还有有效解决了相关滤波循环采样过程中边界效应问题的STRCF(Spatial-Temporal Regularized Correlation Filters)。基于深度学习类的算法又可以分为基于预训练网络加相关滤波的方法，比较有代表性的有，基于多层卷积特征的视觉跟踪算法HCFT(Hierarchical Convolutional Features for visual Tracking)，通过学习一组滤波器产生目标的连续域置信图的C-COT(Continuous Convolution Operators forVisual Tracking)，以及针对C-COT实时性改进的ECO(Efficient ConvolutionOperators)。基于孪生网络的方法的开创方法SiamFC(Fully Convolutional SiameseNetworks)，主要思想是利用第一帧的目标学习，训练一个相似度匹配函数，后续帧通过模型与第一帧计算相似度来寻找目标的最大响应位置。优点是不需在线更新，运行速度很快。在此基础上有引入了区域推荐网络RPN(Region Proposal Network)的SiamRPN(SiameseRegion Proposal Network)有了更高的精度更好的尺度适应性。还有利用更深层的深度网络框架，提高孪生网络模型的鲁棒性和泛化能力的SiamDW(Deeper and Wider SiameseNetworks)。

基于相关滤波的算法具有速度快模型简单的优点，在引入了深度特征的C-COT、ECO后有很高的精度，但是在速度方面有很大的牺牲，也无法很好地利用大数据离线训练的优势，而基于深度网络的方法在一些如非刚性物体变形的复杂的情况下，效果往往不会太好。

发明内容

本发明所要解决的技术问题在于，提供一种基于倒残差的孪生网络目标跟踪方法，能够对目标进行持续跟踪，还能够处理在视频中出现的光线变化、相似目标、遮挡等情况，在比较复杂的场景中仍能对目标持续鲁棒跟踪。

为解决上述技术问题，本发明提供一种基于倒残差的孪生网络目标跟踪方法，包括如下步骤：

(1)建立一个倒残差结构的孪生倒残差主干网络、横向连接网络和区域推荐网络的目标跟踪算法模型；

(2)基于VID、DET大规模图像数据集，剪裁制作成训练数据集，对每个周期动态调整学习率，采用SGD算法对整个网络进行端对端的训练；

(3)跟踪过程中，在视频第一帧时进行初始化，将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板；

(4)后续帧中，以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域，将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图；基于多锚框方法，将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作，在分类分支得到每个锚框的前景和背景的分类得分图，在回归分支中对每个锚框做精细化回归；

(5)对三个区域推荐网络的输出结果做平均化融合，添加系数惩罚，选出正样本得分最大的锚框，根据回归分支参数对锚框进行精细化回归，给出最终目标预测框，在新一帧中重复上述操作直至视频结束。

优选的，步骤(1)中，建立的基于倒残差的孪生网络，横向连接网络和区域推荐网络的目标跟踪算法模型具体包括如下步骤：

(11)孪生倒残差主干网络，由一个普通卷积层和17个倒残差模块组成，每个模块先经过1×1卷积升维并添加ReLU6激活函数激活，再通过3×3深度可分离卷积来提取特征并增大感受野，同时添加ReLU6激活函数激活，后经过1×1卷积降维直接通过线性瓶颈单元连接到下一层；

(12)将从孪生倒残差主干网络中第6、13、17个倒残差模块的输出提取出，送入横向连接网络，先将深层特征图通过1×1卷积降维，然后将其与次级特征图对位相加之后通过一3×3卷积去除混叠效应，最终得到三个融合后特征图；

(13)将经过横向连接网络特征融合的三个特征图，送入到区域推荐网络中，先通过3×3卷积映射到分类分支和回归分支两个不同空间，再将融合过后的模版帧特征图与搜索区域特征图做相关操作得出分类得分特征图和回归参数特征图。

优选的，步骤(2)中，基于VID、DET大规模图像数据集，剪裁制作成训练数据集，对每个周期动态调整学习率，采用SGD算法对整个网络进行端对端的训练具体包括如下步骤：

(21)选择训练数据集包括DET数据集、视频目标检测VID数据集、目标检测COCO数据集和Youtube-bb数据集，在预处理时将每一张图像都分别裁剪成127×127和255×255的图像，对尺寸不足的目标使用图像的三通道均值填充，裁剪时以均匀分布的采样方式让目标在中心点附近进行偏移；

(22)准备好的图像对训练时用于孪生网络两支的输入，并进行仿射变换，灰度变换等方式进行数据增强，加载在ImageNet分类数据集上预训练的孪生主干网络模型进行迁移学习，在分类分支计算交叉熵损失，在回归分支计算SmoothL1损失，最后将两分支损失融合，采用SGD反传梯度更新参数。

优选的，步骤(3)中，跟踪过程中，在视频第一帧时进行初始化，将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板具体包括如下步骤：

(31)在跟踪过程中，首先根据待跟踪目标标注对视频的第一帧图像进行裁剪获得跟踪目标，并按比例增添部分背景作为模板，将整体尺寸控制为127×127，宽高不足的采用图像的RGB三通道均值进行补充；

(32)将裁减好的图像送入到轻量级孪生倒残差主干网络中，提取编号6、13、17的三层倒残差模块输出特征图，通过横向连接网络对多层输出图进行特征级融合并，完成新视频对整个跟踪模型的初始化过程。

优选的，步骤(4)中，后续帧中，以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域，将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图；基于多锚框方法，将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作，在分类分支得到每个锚框的前景和背景的分类得分图，在回归分支中对每个锚框做精细化回归具体包括如下步骤：

(41)在视频序列到达后续视频帧时，以上一帧目标中心为中心，选择上一帧目标框二倍大小区域，增添部分背景，作为搜索区域，并将尺寸调整为255×255，宽高不足的采用图像的RGB三通道均值进行补充；

(42)将搜索区域图像同样送入到孪生倒残差主干网络当中提取特征并通过横向连接网络进行特征级融合；

(43)将之前保存好的融合后的模板帧特征图与当前帧融合后的特征图送入到区域推荐网络当中，在区域推荐网络中分为分类分支和回归分支两支；

(44)在分类分支，首先将两特征图分别送入不同卷积层并控制通道数相同，之后以模板特征图为卷积核在当前帧特征图上做滑窗相关操作；在做相关操作时，采用类似深度可分离卷积的方式，及同一通道的两特征图做相关操作；之后通过1×1卷积来控制通道数为2k倍，代表每个锚框的前景和背景分类分数；

(45)同理在回归分支也做类似操作，仅在最后1×1卷积来控制通道数为4k倍，代表在每个锚框上对最终目标框精细回归的四个参数：δ_x，δ_y，δ_w，δ_h；

(46)对提取出的浅中深三层分别计算得到，分类得分张量和参数回归张量，将三者平均得到最终结果。

优选的，步骤(5)中，对三个区域推荐网络的输出结果做平均化融合，添加系数惩罚，选出正样本得分最大的锚框，根据回归分支参数对锚框进行精细化回归，给出最终目标预测框，在新一帧中重复上述操作直至视频结束具体为：对提取的浅中深三层输出结果做平均，在分类得分图的基础上添加尺度惩罚、长宽比惩罚和窗函数对偏移量较大的锚框加以惩罚，选出最终正样本得分最大的锚框，根据回归分支参数对锚框进行精细化回归，给出最终目标预测框，在新一帧中重复上述步骤直至视频结束。

本发明的有益效果为：对给定的任意一个视频，在仅知道第一帧给定的目标位置，没有其他任何信息的条件下能够对目标进行持续跟踪，还能够处理在视频中出现光线变化、相似目标、遮挡等情况，在比较复杂的场景中仍能对目标持续鲁棒跟踪。

附图说明

图1为本发明的总体网络结构示意图。

图2为本发明的孪生倒残差主干网络中的倒残差模块示意图。

图3为本发明横向连接网络示意图。

图4为本发明在VOT2016数据集上实时实验结果排名示意图。

图5为本发明在VOT2018数据集上实时实验结果排名示意图。

图6为本发明在UAV123数据集上准确率得分结果排名示意图。

图7为本发明在UAV123数据集上成功率得分结果排名示意图。

具体实施方式

如图1所示，本发明提供一种基于孪生网络的目标跟踪方法，其设计原理为：构建一个基于倒残差的孪生网络，横向连接网络和区域推荐网络的目标跟踪算法模型，采用SGD方法离线训练一个稳定的网络模型。在跟踪过程中，将第一帧模板信息送入主干网络和横向连接网络提取特征，进行初始化。处理下一帧图像时根据上一帧目标框信息扩大两倍作为搜索区域，将搜索区域图像同样送入主干网络和横向连接网络提取特征。将模板特征与当前帧特征通过不同卷积层映射，分别做相关操作，在预设锚框基础上得到分类得分图和边框回归信息。在得分图添加尺度惩罚，和长宽比惩罚并添加余弦窗函数，根据正样本分类得分最大位置以及其所对应的框回归信息得到最终目标框。

本实施例中基于倒残差的孪生网络目标跟踪方法的详细步骤如下：

步骤一、建立一个由主干网络，横向连接网络和区域推荐网络的目标跟踪算法模型。

(1.1)本发明算法主要由，主干网络，横向连接网络，区域推荐网络三部分组成，总体网络如图1所示。用于提取特征的主干网络采用由若干倒残差块组成的轻量级网络，为更适应跟踪任务，将主干网络的总步长由32调整为8。主干网络由一个普通卷积层和17个倒残差结构组成。倒残差结构细节如图2所示。在倒残差结构内部，先采用1×1卷积升维，再进行3×3的深度可分离卷积卷积，完成之后再用1×1卷积降维。倒残差结构中特征图维度增加了但是计算量却减少了，这是因为中间3×3卷积由普通卷积换成深度可分离卷积有效地减少了计算量。而深度可分离卷积由DW卷积和PW卷积两部分组成。其中DW卷积的，卷积核的通道数为1，输出特征张量的通道数等于卷积核个数也等于输出特征张量通道数。PW卷积为卷积核大小为1的普通卷积，大大减少了计算量。再者在主干网络中的激活函数都改为了ReLU6激活函数，使输出的最大值限制到6。实验证明ReLU6激活函数：f(x)＝min(max(x,0),6)，可以让模型更早地学到稀疏特征，并且保证在低精度下有更强的鲁棒性。由于主干网络足够深，可以从主干网络中分别提取浅层和深层特征，同时提取第6，13，17个倒残差模块的输出，对于模板图像特征图的大小分别为，15×15×32，15×15×96，15×15×320。对于搜索区域图像特征图的大小分别为，31×31×32，31×31×96，31×31×320。

(1.2)将从主干网络提取的特征图送入到横向连接网络当中，横向连接网络具体结构如图3所示。先将深层特征通过1×1卷积将通道数改变成与下一层特征通道数相同，建立横向连接将深层特征和浅一层特征叠加起来，之后通过3×3卷积去除混叠效应，使包含纹理颜色等信息，空间分辨率高适合精准定位的浅层特征和包含高层语义特征，对旋转外形变化都具有很好的不变性强的深层特征进行特征级融合得到最终使用的特征图。跟踪过程中，将模板帧跟踪目标送入主干网络和横向连接网络保存其特征图，后续帧在上一帧中心点取两倍大小做搜索区域，同样将搜索区域图像送入到主干网络和横向连接网络。

(1.3)将融合后的特征图送入到区域推荐网络中，先通过3×3卷积映射到分类分支和回归分支两个不同空间，再将融合过后的模版帧特征图与搜索区域特征图做相关操作得出分类得分特征图和回归参数特征图。

步骤二，下载VID，DET等大规模图像数据集，并剪裁制作成训练数据集。对每个周期动态调整学习率，采用SGD算法对整个网络进行端对端的训练。

(2.1)制作训练集，将原始图片，根据标注文件将检测目标裁剪出来并通过三通道均值补充图片大小扩展到127×127，作为模板图像。同样根据标注文件以检测目标为中心，将目标框二倍大小区域裁剪出来并通过三通道均值补充图片大小扩展到255×255，作为模板图像。训练时20％概率将图片转为灰度图，以适应各种复杂情况。制作训练标签时，首先根据主干网络总体步长为8，以及最终输出特征图宽高大小为17×17。将最终特征图映射到原图大小，每个像素点取5个长款比不同的锚框。最终在搜索区域图像上生成若干锚框，分别计算各个锚框与真实目标框的IoU分数。

其中锚框的IoU分数大于0.6为正样本和重叠区域小于0.3为负样本，单张图片中正样本数和负样本总数控制为64个。

(2.2)训练时对于模板图像输入大小为127×127×3，在经过主干网络所有处理后输出大小为15×15×320的特征图。提取第6，13，17倒残差模块输出的，15×15×32，15×15×96，15×15×320，三个不同级别的特征图。将第17模块输出的高维特征先通过1×1卷积把320通道降到96通道，然后与第13模块输出的对位像素想加，之后通过一3×3卷积去除混叠效应。同理将叠加后96通道的特征图通过1×1卷积将通道数降到通道32，与第6模块输出的对位像素想加，之后通过一3×3卷积去除混叠效应，得到融合信息后尺寸为15×15×32，15×15×96，15×15×320的三个特征图。搜索区域图片经过同样操作得到三个尺寸为31×31×32，31×31×96，31×31×320的三个特征图。将三个输出对应送入到区域推荐网络(RPN)中，分别得到大小为17×17×(k×2)的分类得分图，和17×17×(k×4)的边框回归参数。训练时的损失函数为：

Loss＝Loss_cls+μLoss_reg

其中Loss_cls为分类损失，Loss_reg回归损失，μ为平衡两个部分权重系数超参数，具体的分类分支时候交叉熵损失函数：

式中

预测为正样本的概率分数，y为样本标签，正样本时y＝1，负样本时y＝0。回归分支采用smoothL1损失函数：

式中σ为权重系数，

其中A₅，A_y，A_w，A_h，为锚框的中心坐标和宽高尺寸，T_x，T_y，T_w，T_h为中心坐标和框的宽高尺寸。，基于pytorch框架采用SGD方法设置动量为0.9，权重衰减系数为0.0005加L2正则化防止过拟合。小批量batch设置为64，训练50个周期，前10周期冻结全部主干网络参数，只训练横向连接网络，和区域推荐网络(RPN)，之后逐步释放主干网络参数参与训练。初始学习率设置为0.001并随周期衰减直到0.0001。

步骤三，跟踪过程中第一帧初始化具体实施细节。

(3.1)在跟踪过程中，首先根据待跟踪目标标注对视频的第一帧图像进行裁剪，扣取跟踪目标并按比例增添部分背景整体作为模板，并将整体尺寸控制为127×127，宽高不足的采用图像的RGB三通道均值进行补充。

(3.2)将裁减好的图像送入到轻量级主干网络中，提取编号6，13，17的倒残差结构输出特征图，通过横向连接网络对深浅特征图进行特征级融合并将最终各个深层浅层特征图保存。

步骤四，跟踪后续帧时的具体实施细节。

(4.1)在视频序列到达后续视频帧时，以上一帧目标中心为中心，扣取上一帧目标框而被二倍大小区域，同样增添部分背景，整体做为搜索区域，并将尺寸调整为255×255，宽高不足的采用图像的RGB三通道均值进行补充。将搜索区域图像同样送入到主干网络当中提取特征并通过横向连接网络进行特征级融合。

(4.2)将之前保存好的模板帧特征图与当前帧特征图送入到区域推荐网络(RPN)当中。在RPN中分为分类分支和回归分支两支。在分类分支，首先将两特征图分别送入不同卷积层映射到不同空间并控制通道数相同，之后以模板特征图为卷积核在当前帧特征图上做滑窗相关操作。在做相关操作时，采用类似深度可分离卷积的方式，同一通道的两特征图做相关操作，之后通过1×1卷积来控制通道数为2k倍，代表每个锚框的前景和背景分类分数。同理在回归分支也做类似操作，仅在最后1×1卷积来控制通道数为4k倍，代表在每个锚框上对最终目标框精细回归的四个参数：δ_x，δ_y，δ_w，δ_h。对提取出的浅中深三层分别计算得到，分类得分张量和参数回归张量，将三者平均得到最终结果。

步骤五，计算最终目标跟踪框具体实施细节。

将最终分类结果得分图，添加尺度惩罚，若新一帧较前一帧尺度变化越大则尺度惩罚越大。添加长宽比惩罚，对长宽比例变化较大做惩罚。并添加余弦窗函数对离目标中心较远的框进行惩罚。选取最终正样本分类得分最大位置，根据其所对应的框回归信息得到最终目标框。

为了验证本发明的效果，为了验证本发明的效果，分别在三个具有挑战性的视频跟踪基准数据集VOT2016、VOT2018和UAV123上进行了测试跟踪实验，同时多种算法进行比较。

对VOT基准的评估由官方工具包执行。采用期望平均重叠(EAO)作为指标来比较不同跟踪器。VOT2016的EAO分数排名图如图4所示，本发明的EAO得分为0.380要优于其他四十余个算法。

在VOT2018数据集上的EAO分数排名图如图5所示，本发明的EAO得分为0.342，要优于其他六十余个算法。

本发明与UAV123上排名靠前的几个实时跟踪器进行比较，准确率排名如下图6所示，成功率排名如下图7所示。UAV123数据集包含123个序列，平均长度为915帧。与之比较的跟踪器包括最近的跟踪器，如ECO、SiamRPN、ECO-HC和SiamDW。我们的跟踪器优于所有其他跟踪器在这两个指标。可以看出本发明的成功率得分为0.591，要优于SiamRPN(0.529)和SiamDW(0.522)方法。

经过上述三个常用跟踪数据集上的测试，并与现有主流跟踪算法进行比较，在具有挑战的跟踪环境下，都能保持很好的跟踪精度和跟踪成功率，可以说明本发明进行实时跟踪时可以现出了良好的跟踪效果。

Claims

1.一种基于倒残差的孪生网络目标跟踪方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法，其特征在于，步骤(1)中，建立一个倒残差结构的孪生倒残差主干网络、横向连接网络和区域推荐网络的目标跟踪算法模型具体包括如下步骤：

3.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法，其特征在于，步骤(2)中，基于VID、DET大规模图像数据集，剪裁制作成训练数据集，对每个周期动态调整学习率，采用SGD算法对整个网络进行端对端的训练具体包括如下步骤：

4.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法，其特征在于，步骤(3)中，跟踪过程中，在视频第一帧时进行初始化，将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板具体包括如下步骤：

5.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法，其特征在于，步骤(4)中，后续帧中，以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域，将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图；基于多锚框方法，将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作，在分类分支得到每个锚框的前景和背景的分类得分图，在回归分支中对每个锚框做精细化回归具体包括如下步骤：

(44)在分类分支，首先将两特征图分别送入不同卷积层并控制通道数相同，之后以模板特征图为卷积核在当前帧特征图上做滑窗相关操作；在做相关操作时，采用深度可分离卷积的方式及同一通道的两特征图做相关操作；之后通过1×1卷积来控制通道数为2k倍，代表每个锚框的前景和背景分类分数；

6.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法，其特征在于，步骤(5)中，对三个区域推荐网络的输出结果做平均化融合，添加系数惩罚，选出正样本得分最大的锚框，根据回归分支参数对锚框进行精细化回归，给出最终目标预测框，在新一帧中重复上述操作直至视频结束具体为：对提取的浅中深三层输出结果做平均，在分类得分图的基础上添加尺度惩罚、长宽比惩罚和窗函数对偏移量较大的锚框加以惩罚，选出最终正样本得分最大的锚框，根据回归分支参数对锚框进行精细化回归，给出最终目标预测框，在新一帧中重复上述步骤直至视频结束。