CN111681263B

CN111681263B - 基于三值量化的多尺度对抗性目标跟踪算法

Info

Publication number: CN111681263B
Application number: CN202010451026.3A
Authority: CN
Inventors: 曲延云; 张玉鑫
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2022-05-03
Anticipated expiration: 2040-05-25
Also published as: CN111681263A

Abstract

基于三值量化的多尺度对抗性目标跟踪算法，涉及图像处理。通过对对抗性目标跟踪算法VITAL进行改进，对预训练的卷积神经网络进行修改，增加其深度的同时对其进行三值量化处理，通过反向传播训练进行微调，在跟踪过程中，采用多尺度投票方式，将多尺度跟踪结果进行融合，进而实现在保证跟踪精度的同时极大压缩模型大小并加快跟踪速度的新型高效跟踪框架；在保证跟踪效果的同时，极大压缩了追踪器模型大小与计算速度，解决了目标追踪不能较好的迁移到移动设备上的痛点；有效解决了目标跟踪任务中的尺度变换问题，使得追踪结果更具有鲁棒性与准确性；在达到与现有的其他目标跟踪方法相当的跟踪性能的基础上，可以达到移动设备的负载要求。

Description

基于三值量化的多尺度对抗性目标跟踪算法

技术领域

本发明涉及图像处理，尤其是涉及可用于智能监控系统、无人机系统、虚拟现实应用、机器人视觉、增强现实等的基于三值量化的多尺度对抗性目标跟踪算法；

背景技术

视觉目标跟踪是计算机视觉领域一个极具挑战性的任务，旨在视频帧序列中逐帧确定运动目标的位置，具有非常广泛的应用领域，例如智慧城市、无人机系统、机器视觉、增强现实等；

目标跟踪是一个极具挑战性的任务，对于运动目标而言，目标本身的形变、尺度变换，以及由于背景变化造成的遮挡、背景杂斑、光照因素等，使得在复杂场景中跟踪变换目标成为一个挑战性的任务；

近年来，目标跟踪的主要工作一般被分为相关滤波和深度学习两类，相关滤波方法基于信号处理领域，旨在通过训练一个滤波模板，对下一帧的图片，与该滤波模板进行卷积操作，生成的特征图中响应最大的区域就是目标位置，相关滤波方法的优点在于速度快，模型小，但是在实际跟踪环境中，相关滤波方法在面临尺度变换、遮挡等问题时会出现跟丢等现象，无法达到鲁棒性和准确性的要求；

基于深度学习的目标跟踪方法近年来逐渐超越了传统算法，深度学习对目标具有强大的表征能力，在计算机视觉的多个领域都占据着主导地位，在目标跟踪方向，研究人员一般选择将在图像分类中预训练的模型迁移到目标跟踪上，近几年，应用深度学习的目标跟踪主流算法，包括基于端到端神经网络的目标跟踪以及基于CNN特征与相关滤波的目标跟踪；通过使用卷积神经网络来建立端到端的跟踪框架，以达到对视频中目标状态预测的目的,其中对抗性目标跟踪(VITAL)的方法，在跟踪速率不降低的前提下鲁棒性更优、准确率更高，使其以优于DCF方法的准确率和端到端训练的优势，成为了当前目标跟踪新的研究方向；VITAL 作为基于MDnet跟踪器和GAN思想的目标跟踪算法，通过生成器来增强正样本，从而解决目标跟踪任务中正负样本严重不平衡的问题，但VITAL存在模型大，速度慢等问题，且因为提取的是同一层的图像特征，在面临尺度变换的问题时，也无法达到相应的鲁棒性和准确性要求；

上述方法虽然能够在目标跟踪领域取得一定的成果，但在准确度，实时性，鲁棒性等指标上或多或少都仍有一定的提升空间，且卷积层的高度复杂的浮点运算以及高内存存储严重阻碍深度学习模型迁移到小型移动设备例如无人机上；

神经网络量化是新兴的一种神经网络加速与压缩算法，主要的核心思想是用较低的位 (bit)代替初始全精度的权值，以达到大幅度加速和压缩卷积神经网络的目的，从BNN、XNOR 等量化权值和激活值为+1、-1的基本方法，到BWN、XNOR-net等引入尺度因子的方法，网络量化方法在速度和模型压缩上得到了巨大的提升，但在压缩和加速深度网络如Resnet，VGG 时，分类精度还是会大大降低，为了减少精度的损失，三元权重网络(ternaryweight networks， TWN)引入基于统计得到的的三元权值(W，0，-W)来对网络进行量化，在达到较大压缩和加速比率的情况下同时仅带来较小的误差下降；

发明内容

本发明的目的在于针对现有跟踪方法存在的上述不足，提供一种基于三值量化的多尺度对抗性目标跟踪算法，用于在复杂的背景下准确实时地对运动目标进行追踪。

本发明包括如下步骤：

1)模型量化阶段，对VITAL跟踪器的卷积部分进行修改，增加卷积神经网络深度，然后进行三值量化；

2)模型训练阶段，基于量化后的卷积神经网络，通过反向传播对量化模型进行训练，通过对抗性训练得到最终的跟踪模型；

3)目标跟踪阶段，将待检测的视频帧序列以及第一帧中目标的实际位置输入上述跟踪模型，即得到跟踪结果；

在步骤1)中，所述对VITAL跟踪器的卷积部分进行修改，增加卷积神经网络深度，然后进行三值量化的具体步骤可为：

(1a)修改VITAL跟踪器的特征提取卷积神经网络，增加网络深度到五层，即使用VGG-M 中的所有卷积层，得到FAST_VITAL的网络结构；

(1b)引入三元权重网络(TWN)来对跟踪器前部分卷积神经网络和对抗特征生成器进行量化，将权重限制为三值：+1，0和-1，并最小化初始的权重与三值化的权重的欧式距离。

在步骤(1b)中，对对抗特征生成器进行量化的具体步骤可为：

(1b1)记卷积层中的全精度权重为W，量化目标为三值权重W^t∈{-1,0,1}，对每一层的权重进行如下量化处理：

其中，i＝1,2,...,n，n是第i层卷积核的向量大小，Δ是一个大于0的阈值，为了最小化全精度权重与三值化权重的二阶欧氏距离，Δ的值被设置为：

其中I_Δ＝{i||W_i|＞Δ}，|I_Δ|是I_Δ的一范式，表示I_Δ中的元素数量；

(1b2)在进行三值量化后，计算一个缩放因子α乘到量化的三值上，以进一步增加网络的表现力：

(1b3)在实际运算时，记Z为某一层的输出，通过以下运算变形将α的缩放移到卷积前面，以减少运算量，达到通过XNOR和Bitcount运算进行卷积，极大加速神经网络运行速度的目的：

其中，X代表输入，W代表卷积核向量，

代表内积或无乘法的卷积运算。

在步骤2)中，所述基于量化后的卷积神经网络，通过反向传播对量化模型进行训练，通过对抗性训练得到最终的跟踪模型的具体步骤可为：

(2a)从网络上下载VOT2014、VOT2015、OTB等数据集并进行预处理得到相同格式的数据；

(2b)基于多尺度的特征图投票，使用随机梯度下降(SGD)优化算法对量化后的神经网络进行训练；

(2c)在梯度更新阶段，仍然使用全精度的权重，只在前向传播和反向传播时使用三值权重；

(2d)模型训练结束后，只保留量化后的精度以实现加速目的。

在步骤(2b)中，所述基于多尺度的特征图投票的具体步骤可为：

(2b1)对VGG-M的第1、3、5层分别提取输出，输入到全连接层中；

(2b2)将三个输出即置信分数记为score₁、score₂、score₃，最终得到的置信分数为：

score＝max(score₁，score₂,score₃)

可提取不同尺度的特征图信息，用于让跟踪器能够自适应地跟踪不同大小的目标。

在步骤(2c)中，所述前向传播和反向传播的具体步骤可为：

(2c1)使用随机梯度下降方法(SGD)对参数进行更新，其中只有在前向传播和反向梯度更新的时候使用三值权重，而在权重更新的时候使用全精度的权重；

(2c2)在反向传播梯度计算时，由于量化函数的梯度几乎处处为0，采用直通估计器 (straight-through-estimator)的方法来模拟梯度，具体的实现方法为：

已知三值化操作为：

在反向传播过程中，对该函数进行松弛处理，求导过程如下：

其中，1_|r|≤1的计算公式为Htanh：

H tanh(x)＝clip(x,-1,1)＝max(-1,min(1,x))。

在步骤3)中，所述将待检测的视频帧序列以及第一帧中目标的实际位置输入上述跟踪模型的具体方法可为：

(3a)输入一组包含需要跟踪的目标的视频帧序列以及第一帧；

(3b)对于第二帧图片，在第一帧的目标周围进行采样，将采样出的图片区域输入卷积神经网络，基于多尺度特征图投票结果，得到分类结果，得到的具有最大分数的采样就是跟踪结果；

(3c)对不同采样区得出的分数进行反向传播，在线更新网络；

(3d)基于上一帧的跟踪结果，继续进行接下来的视频帧序列的跟踪。

与现有的目标跟踪技术相比，本发明具有以下突出优点：

1.本发明利用三值量化方法，对原有VITAL追踪器的卷积层神经网络进行量化处理，在保证跟踪效果的同时，极大压缩了追踪器模型大小与计算速度，解决了目标追踪不能较好的迁移到移动设备上的痛点；

2.本发明采用多尺度输出投票得出候选框最高分数的方式，利用神经网络中不同深度的卷积层输出具有不同感受野的特性，有效解决了目标跟踪任务中的尺度变换问题，使得追踪结果更具有鲁棒性与准确性；

3.本发明与现有的其他目标跟踪方法相比，在VOT2016数据集上的准确率较高，与原始的VITAL追踪器相比，准确率虽下降，但跟踪速度理论可以达到FPS，模型大小理论压缩10倍；在达到与现有的其他目标跟踪方法相当的跟踪性能的基础上，可以达到移动设备的负载要求，具有非常好的应用前景。

附图说明

图1是本发明实施例的总体流程图；

图2是本发明实施例在VOT2015上的部分跟踪效果图；

图3是本发明实施例在OTB100上的部分跟踪效果图。

具体实施方式

以下结合附图对本发明的实施示例及效果做详细描述。

参见图1，本发明的实施步骤如下：

步骤1，修改VITAL跟踪器的网络结构，得到适合不同尺度以及尺度变换的FAST_VITAL 网络结构，具体而言，增加网络深度到五层，即使用VGG-M中的所有卷积层，以提取更深层次的特征，增加神经网络的表征能力；

步骤2，引入三元权重网络(TWN)来对跟踪器前部分卷积神经网络和对抗特征生成器进行量化，如图1下半部分，具体过程为：

(2a)记卷积层中的全精度权重为W，量化目标为三值权重W^t∈{-1,0,1}，对每一层的权重进行如下量化处理：

(2b)在进行三值量化后，计算一个缩放因子α乘到量化的三值上，以进一步增加网络的表现力：

(2c)在实际运算时，记Z为某一层的输出，通过以下运算变形将α的缩放移到卷积前面，以减少运算量，达到通过XNOR和Bitcount运算进行卷积，极大加速神经网络运行速度的目的：

其中，X代表输入，W代表卷积核向量，

代表内积或无乘法的卷积运算；

步骤3，对模型进行训练，具体过程为：

(3a)从网上下载VOT、OTB等数据集，本发明可以使用这些数据集的组合或手工制作的数据集；

(3b)基于多尺度的特征图投票，对跟踪器神经网络进行前向传播，对VGG-M的第1、3、5层分别提取输出，输入到全连接层中，将三个输出即置信分数记为score₁、score₂、score₃，最终得到的置信分数为：score＝max(score₁，score₂,score₃)，如图1上半部分；

(3c)使用随机梯度下降方法(SGD)对参数进行更新，其中只有在前向传播和反向梯度更新的时候使用三值权重，而在权重更新的时候使用全精度的权重；在反向传播梯度计算时，由于量化函数的梯度几乎处处为0，采用直通估计器(straight-through-estimator)的方法来模拟梯度，具体的实现方法为：

已知三值化操作为：

其中，1_|r|≤1的计算公式为Htanh：

H tanh(x)＝clip(x,-1,1)＝max(-1,min(1,x))

步骤4，获得一组需要跟踪目标的视频帧序列，可以从网络上下载或者生活中拍摄得到，给出需要跟踪的目标在第一帧序列中的位置；

步骤5，对于第二帧图片，在第一帧的目标周围进行采样，将采样出的图片区域输入卷积神经网络，基于多尺度特征图投票结果，得到分类结果，得到的具有最大分数的采样就是跟踪结果；

步骤6，对不同采样区得出的分数进行反向传播，在线更新网络；

步骤7，基于上一帧的跟踪结果，继续进行接下来的视频帧序列的跟踪。

本发明的效果可通过以下实验进行优点和有效性的证明；

(1)仿真条件

本发明的实验是在CPU为Intel(R)Core(TM)i7-6800K CPU@3.40GHz，GPU为GeForce GTX 1080，内核为4.4.0-71-generic，操作系统为Ubuntu 16.04，深度学习框架为Pytorch上进行，编程语言是Python；

仿真实验中，将本发明的方法与现有最新的跟踪器VITAL、MDNet、ECO、CCOT的方法在VOT2016数据集上进行对比分析，其中：

VITAL的对应参考文献为Song,Yibing,et al.Vital:Visual tracking viaadversarial learning.Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2018.

Staple对应的参考文献为L.Bertinetto,J.Valmadre,S.Golodetz,O.Miksik,andP.H.Torr.Staple: Complementary learners for real-time tracking.In IEEEConference on Computer Vision and Pattern Recognition,2016.

MDNet的对应参考文献为H.Nam and B.Han.Learning multi-domainconvolutional neural networks for visual tracking.In IEEE Conference onComputer Vision and Pattern Recognition, 2016.

ECO的对应参考文献为M.Danelljan,G.Bhat,F.S.Khan,and M.Felsberg.Eco:Efficient convolution operators for tracking.In IEEE Conference on ComputerVision and Pattern Recognition,2017.

CCOT的对应参考文献为M.Danelljan,A.Robinson,F.S.Khan,andM.Felsberg.Beyond correlation filters:Learning continuous convolutionoperators for visual tracking.In European Conference on Computer Vision,2016.

(2)仿真内容

用本发明的方法与上述目前最新最好的方法在VOT2016数据集上进行对比，表1是对比结果；

表1

	ECO	CCOT	Staple	MDNet	VITAL	本发明
							EAO	0.374	0.331	0.295	0.257	0.323	0.315
Ar	1.55	1.63	1.65	1.63	1.63	1.65
							Rr	1.57	1.70	2.67	2.4	2.17	2.20

从表1可以看出，本发明的方法的准确率与目前的主流跟踪方法相当，甚至能超过Staple、 MDNet等方法，但是本发明的模型大小得到了极大的压缩，可以很好地部署到移动设备上，所以综合来说，本发明的方法与现有方法相比，性能最好，且具有非常好的应用前景。

图2给出本发明实施例在VOT2015上的部分跟踪效果图，从图2中可以看出，本发明实施的跟踪器可以在有遮挡物的场景下有效追踪行人，在实现加速的同时保证了模型的性能；图3给出本发明实施例在OTB100上的部分跟踪效果图。从图3中可以看出，本发明实施的跟踪器同样在检测大型运动目标时表现出了良好的鲁棒性。

综上，本发明提出一种基于VITAL的目标跟踪框架，旨在通过对跟踪器进行增加深度和低bit量化来在保证跟踪效果的基础上压缩模型并引入多尺度跟踪，以加速跟踪速度，解决原有跟踪模型速度慢、模型大、无法迁移到移动设备例如无人机、手机上的问题；该方法通过对VITAL跟踪器中的卷积神经网络部分进行修改，增加网络深度，并引入三个不同尺度的输出层，然后对神经网络低比特量化后得到权重值，通过反向传播训练神经网络，得到量化后的跟踪器，使得跟踪任务在保持鲁棒性的基础下实现较大加速，并能较方便的迁移到移动设备上；其主要实现步骤为：1)获取网络上开源的目标跟踪数据集如OBT、VOT等，并对数据集进行预处理；2)对VITAL跟踪器的卷积部分进行修改，增加神经网络深度，然后进行三值量化，得到压缩后的跟踪模型；3)进行基于量化神经网络设计的反向传播，对量化模型进行训练；5)将待检测的视频帧序列以及第一帧中目标的实际位置输入上述模型，得到跟踪结果；本发明可用于智能监控系统、无人机系统、虚拟现实应用、机器人视觉等。