CN110555870B

CN110555870B - 基于神经网络的dcf跟踪置信度评价与分类器更新方法

Info

Publication number: CN110555870B
Application number: CN201910856724.9A
Authority: CN
Inventors: 宋勇; 杨昕; 赵宇飞; 王枫宁; 郭拯坤
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2021-07-27
Anticipated expiration: 2039-09-09
Also published as: CN110555870A

Abstract

本发明涉及一种基于神经网络的DCF跟踪置信度评价与分类器更新方法，属于计算机视觉技术领域。首先设计并训练响应图分析网络的小规模卷积神经网络。在相关滤波跟踪中，当分类器与搜索区域的特征进行卷积后，将产生的响应图输入到此网络中，并将输出作为这一帧分类器的跟踪置信度评分。当得分低于预设的低置信阈值时，认为目标受到了剧烈干扰，停止更新，以防止目标模型受污染，并且使更新的学习率与时间间隔受置信分数自适应调整，当分类器连续多帧都取得较高的置信分数时，认为目标外观处于高度相似状态，提高更新的间隔以缓解过拟合现象。本发明方法能够显著增强相关滤波跟踪对光照变化、遮挡、出视野等干扰因素的适应能力，提高空间与时间效率。

Description

基于神经网络的DCF跟踪置信度评价与分类器更新方法

技术领域

本发明涉及一种基于神经网络的DCF(Discrimitive Correlation Filters，判别相关滤波)跟踪置信度评价与分类器更新方法，具体涉及一种基于响应图分析卷积神经网络的DCF跟踪置信度评价与分类器更新的方法，属于计算机视觉技术领域。

背景技术

运动目标跟踪技术是计算机视觉的重要研究领域之一，在自动驾驶、人机交互、安全监控等领域得到了广泛应用。

目前，运动目标跟踪技术面临的挑战是：在背景光照条件变化、遮挡、快速运动、出视野、姿态形状变化和尺寸变化等复杂干扰因素的影响下，如何保持精确、实时的跟踪。

在现有技术中，运动目标跟踪技术主要包括生成式跟踪方法与判别式跟踪方法，具体包括：基于核的结构化输出(Structured output tracking with kernel,Struck)跟踪方法、多样本学习(MultipleInstance Learning,MIL)跟踪方法、跟踪-学习-检测(Tracking-Learning-Detection,TLD)跟踪方法等。此类方法的原理是：首先，分别以目标与背景作为正负样本，训练一个分类器；之后，在搜索区域上据此分类器进行检测，将最大响应值位置作为目标中心位置的估计，从而实现跟踪。通常，此类方法通过稀疏采样的方式得到训练样本，即，在目标周围取若干大小相等的窗口，但计算量也会随样本数量的增大而增大，导致跟踪方法的实时性下降。

相关滤波跟踪方法，通过构造循环矩阵形式的样本，较好地处理了判别式跟踪方法训练样本不足和计算量大的问题。Henriques等提出的KCF方法(Henriques J F,Rui C,Martins P,et al.“High-Speed Tracking with Kernelized Correlation Filters”.IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,37(3):583-596)，根据循环矩阵在经过傅里叶变换后成为对角矩阵的性质，将单个样本进行移位循环，通过基于核的岭回归运算，从而在傅里叶域实现了分类器的快速检测与训练。该方法不仅具有较高的跟踪精度，而且保持了实时性。

但是，一般的相关滤波方法中，均缺少跟踪失败检测或计算跟踪置信度的过程，无法对目标的状态变化进行判断，且通常以固定的间隔与学习率对分类器进行更新。当目标受到遮挡等干扰时，持续更新会使其外观模型受到污染，从而导致跟踪结果发生漂移，跟踪误差不断积累，最终导致目标丢失。而当目标外观连续多帧都处于高度相似的状态时，这样的更新方式的效率较低，并且容易造成过拟合现象。

一些研究人员意识到了这一点，并采取了一定措施。如ECO方法(Danelljan,Martin,et al."ECO:efficient convolution operators for tracking."Proceedingsof the IEEE conference on computer vision and pattern recognition.2017.)，为了降低过拟合的风险，增大了更新的间隔，由每帧都更新分类器变为每6帧更新一次，从而使速度与精度都得到了一定程度的提高。HCF方法(Ma,Chao,et al."When correlationfilters meet convolutional neural networks for visual tracking."IEEE SignalProcessing Letters 23.10(2016):1454-1458.)将分类器检测时产生的响应图上的最大响应值f_max作为置信度判断的依据，当此值低于设定的阈值时，认为目标受到了较大的干扰，不再进行更新，从而保护目标外观模型。MOSSE方法(Bolme,David S.,et al."Visualobject tracking using adaptive correlation filters."2010IEEE Computer SocietyConference on Computer Vision and Pattern Recognition.IEEE,2010.)提出利用峰值旁瓣比PSR作为跟踪置信度的指标。LMCF方法(Wang,Mengmeng,Yong Liu,and ZeyiHuang."Large margin object tracking with circulant feature maps."Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2017.)用平均峰值相关能量APCE(average peak-to correlation energy)反映响应图的波动程度和检测目标的置信水平。但是，这些方法只考虑了响应图上最大响应值与其他响应值的数值关系，没有利用到响应值之间的相对位置关系与响应峰的形状信息。

发明内容

本发明的目的是为了解决计算机视觉领域中，现有的相关滤波跟踪方法由于缺乏跟踪置信度评价措施，在处理运动目标跟踪任务时，面临干扰度大、效率低，影响识别精度和实时性的技术问题，提出一种基于神经网络的DCF跟踪置信度评价与分类器更新方法。

本发明方法的技术原理是：利用卷积神经网络对相关滤波跟踪方法中分类器产生的响应图进行分析，获得跟踪置信度评分，并对分类器的更新参数进行自适应调整。首先，设计并训练了一个称为响应图分析网络的小规模卷积神经网络。在相关滤波跟踪中，当分类器与搜索区域的特征进行卷积后，将产生的响应图输入到此网络中，并将输出作为这一帧分类器的跟踪置信度评分。当得分低于预设的低置信阈值时，认为目标受到了剧烈干扰，停止更新，以防止目标模型受污染；并且，使更新的学习率与时间间隔受置信分数自适应调整，当分类器连续多帧都取得较高的置信分数时，认为目标外观处于高度相似状态，提高更新的间隔以缓解过拟合现象。

为实现上述目的，本发明采取下述技术手段。

一种基于神经网络的DCF跟踪置信度评价与分类器更新方法，包括以下步骤：

首先，对进行跟踪置信度评价的卷积神经网络进行设计与训练。利用现有的相关滤波跟踪方法，建立分类器响应图的数据集。然后，对网络结构进行设计。最后，利用数据集对所提出的网络进行训练与验证。该网络称为响应图分析网络，用

进行表示。

网络训练完毕之后，利用该网络对相关滤波跟踪的跟踪置信度进行评价，对分类器更新的频率与学习率进行调整，实现高置信度、自适应的更新，从而提高跟踪精度与效率。具体包括如下步骤：

步骤1：初始化相关滤波跟踪方法

在第一帧时，依据给出的目标位置与大小信息，建立训练区域并提取特征，利用此特征初始化分类器。由于第一帧的目标位置已知，因此无需计算跟踪置信度。

步骤2：建立搜索区域，提取特征

假设第t-1帧时，得到目标位置与大小信息

其中

为目标估计位置的中心坐标，a和b为所估计目标的宽与高(在相关滤波跟踪中，a与b的值在第一帧确定后就不再变化)。以此为中心向外扩展，在第t帧图像上建立搜索区域

其中ρ为尺寸扩展的系数。

之后，在此位置上，提取目标的特征，可以为颜色直方图、方向梯度直方图HOG(Histogram of oriented gradient)、分层的深度卷积特征等。用x_t表示此特征，其尺寸为M×N×D×L，其中M、N、D、L分别代表特征的宽、高、通道数与层数。则x_t[d,l]代表第t帧时，搜索区域的第l层第d通道的特征图，其中d∈{1,...,D}，l∈{1,...,L}。

步骤3：检测分类器，生成响应图

用w_t-1代表第t帧前学习到的分类器参数，其与搜索区域特征图具有相同的尺寸，则w_t-1[d,l]为与x_t[d,l]相对应的第l层第d通道的分类器参数。特征与分类器参数进行傅里叶变换后，使每一层中每个通道上对应的元素互相点乘，再将所有通道的结果依次求和，然后经过傅里叶反变换回到时域，得到每一层的子响应图f_t[l]。最后所有子响应图按照对应的系数γ_l进行加权融合，得到第t帧时总体的响应图f_t：

其中，大写字母W与X表示分类器w与特征x对应的傅里叶变换形式，

代表傅里叶反变换操作。

将响应图f_t上最大响应值的位置索引视为第t帧时目标的估计位置

如果此时t等于总的帧数frames，说明相关滤波跟踪已经处理完了整个视频序列，无需再进行跟踪置信度的评价与分类器的更新。

步骤4：基于卷积神经网络的相关滤波跟踪置信度评价

将所生成的响应图f_t输入到训练好的卷积神经网络中，得到其对应的跟踪置信分数

设置τ_l和τ_s两个长、短时间阈值与

和

两个高、低跟踪置信分数阈值，其中τ_l>τ_s，

根据τ_l帧内置信分数的变化情况确定分类器更新频率：

(1)长期高置信度更新模式：在τ_l帧这一长时间段内，所有的置信分数

都大于高置信度阈值

即对任意的τ∈[0,1,...,τ_l-1]，都有

时，认为目标处于长期高跟踪置信度。每3帧才更新一次分类器，更新的学习率的放大倍率α＝α₃；

(2)短期高置信度更新模式：虽然在τ_l帧内，不是所有的置信分数

都大于高置信阈值

但满足对任意的τ∈[0,1,...,τ_s-1]，都有

时，认为目标在τ_s帧这一短时间段内，处于短期高置信度。每2帧更新一次分类器，学习率的放大倍率α＝α₂；

(3)如果不满足(1)和(2)中的条件，但如果此时的置信分数仍大于低置信阈值

即

认为目标受到了一定干扰，但是对定位精度影响不大，目标与分类器仍然可以较好地匹配。此时每帧更新一次分类器，放大倍率α＝α₁；

(4)当第t帧的置信分数不超过低置信度阈值

即

时，分类器处于低置信度状态，认为目标可能发生了光照变化、形变、严重遮挡等剧烈干扰，分类器与目标的匹配程度下降，跟踪结果不再可靠。此时不再更新分类器，跳过更新步骤5，直接读入下一帧图像，来到步骤2。

更新的学习率根据下式自适应求得：

其中，C为偏置的常数。

步骤5：基于跟踪置信分数，更新自适应分类器

在步骤4中，根据跟踪置信度的变化情况确定这一帧进行分类器更新后，以第t帧的估计位置

为中心，在图像上扩展出训练区域

然后提取其特征图x_t'。通过最小化下式得到每一层的第t帧的分类器参数w_t'[l]：

其中，λ为

正则化参数，y为高斯函数生成的软标签：

其中σ为高斯带宽，此标签的形状是一个峰值位于中心处的二维高斯函数。

该最小化问题的闭式解表示为：

其中，Y为软标签y的傅里叶变换形式，*代表矩阵的复共轭，分子分母进行的是按元素点除操作。

新分类器参数，由前t-1帧的分类器和第t帧的分类器的分子与分母进行滑动平均得到:

A_t[d，l]＝(1-η)A_t-1[d，l]+ηY*⊙X_t′[d，l] (8)

有益效果

本发明方法，对比现有的其他相关滤波的跟踪置信度评价与分类器更新方法，能够显著增强相关滤波跟踪对光照变化、遮挡、出视野等干扰因素的适应能力，提高空间与时间效率。

(1)跟踪置信度评价更加准确。该方法将分类器与图像特征卷积后得到的响应图输入到一个小规模的卷积神经网络中，将输出值作为这一帧分类器的置信分数。一般的跟踪置信度评价方法只考虑了响应图上响应峰值与其他响应值的相对数值关系，忽视了响应图上响应值之间的相对位置信息与响应峰的形状信息。而卷积神经网络作为一种具有强大的泛化与拟合能力的非线性模型，在图像分类任务上取得了巨大的成功，可以全面地学习到响应图上的各种信息，更为准确地对相关滤波方法的跟踪置信度进行评价，从而提升目标跟踪处理的精确度。

(2)鲁棒性强。该方法依据响应图输入卷积神经网络后得到的跟踪置信分数，对分类器的更新过程进行调整，从而提高分类器对目标变化的适应能力得到的提升，避免污染与过拟合现象。一方面，使分类器更新的学习率与置信分数呈正相关变化，跟踪结果的置信分数越低，说明目标受到的干扰越大，因此学习率也越低。而当置信分数低于低置信度阈值时，认为目标受到了严重的干扰，令学习率等于0，即此时不再对分类器进行更新，以保护其不受背景污染。而另一方面，当置信分数连续多帧都处于高置信度水平时，认为这几帧内目标处于高度相似或者缓慢变化状态，连续地更新会造成过拟合，因此会降低更新的频率。

(3)跟踪速度快。该方法响应图输入卷积神经网络后输出的跟踪置信分数，对分类器更新的频率进行调整，从而提升了相关滤波的时间与空间效率。一般的相关滤波跟踪，在每一帧的检测与更新时需各提取一次特征，并且要计算新的分类器参数。而当利用的是深度卷积特征时，提取特征的时间往往占处理时间的80％以上。一方面，当置信分数低于置信阈值时，将跳过更新步骤；另一方面，当置信分数连续多帧处于高水平时，又会降低更新的频率。从而可以在不更新时节省近一半的时间，并且大大减少了计算的开销，极大提升目标跟踪处理的实时性。

附图说明

图1为本发明方法的原理示意图；

图2为本发明方法的流程图；

图3为本发明方法中用于评价跟踪置信度的响应图分析卷积神经网络的结构图；

图4为本发明方法与常规相关滤波方法的跟踪结果对比；

图5为本发明方法中提出的置信分数在Jogging1图像序列中随目标外观变化的曲线图；

图6为本发明方法中提出的置信分数在Bird1图像序列中随目标外观变化的曲线图；

图7为本发明方法中与其他评价DCF跟踪置信度的指标在Jogging1图像序列中的对比曲线图。

图8为本发明方法中与其他评价DCF跟踪置信度的指标在Bird1图像序列中的对比曲线图。

具体实施方式

下面结合附图和实施例，对本发明作进一步详细说明。

实施例

一种基于神经网络的DCF跟踪置信度评价与分类器更新方法，首先对评价跟踪置信度的响应图分析卷积神经网络进行设计和训练。网络训练完成之后，再用于对相关滤波的跟踪置信度进行评价以及自适应更新。

首先，根据普通的相关滤波方法产生的响应图建立训练数据集，当估计位置与目标实际中心位置的距离小于目标对角线长度的1/5，且形状接近于理想的二维高斯函数的响应图作为正类；估计位置与目标实际中心位置的距离大于目标对角线长度的1/3，且形状非常粗糙、不规则的响应图作为正类。从常规相关滤波方法在Visual Tracker Benchmark数据集上产生的接近6万幅响应图中，挑选了447张作为样本，正负两类样本的数据的比例约为0.6:0.4，训练集与测试集之比为0.8:0.2。建立好数据集后，对网络的结构进行设计，如附图3所示。使用学习率衰减的Adam随机梯度下降法对模型预测的交叉熵损失进行优化，batch大小为256，训练40轮之后开始收敛，100轮之后训练结束，在测试集上的准确率为86.7％。

将训练好的小规模二分类卷积神经网络用于相关滤波方法的跟踪置信度评价，每一帧中分类器产生的响应图会输入此网络，将所输出的该响应图为正类的概率作为置信分数。其整体过程如附图2所示，具体包括如下步骤：

步骤1：初始化相关滤波跟踪。

在第一帧时，依据给出的目标位置与大小信息，建立训练区域并提取特征，利用此特征初始化分类器。因为第一帧的目标位置已知，因此无需计算跟踪置信度。

步骤2：搜索区域的建立与特征提取

假设第t-1帧时，得到了目标位置与大小信息

其中

为目标估计位置的中心坐标，a和b为所估计目标的宽与高(在相关滤波跟踪方法中，a与b的值在第一帧确定后就不再变化)。以此为中心向外扩展，取尺寸扩展系数ρ＝1.8，在第t帧图像上建立搜索区域

之后，在此位置上，提取目标的特征，用x_t表示，则其尺寸为M×N×D×L，其中M、N、D、L分别代表特征的宽、高、通道数与层数。则x_t[d,l]代表第t帧时，搜索区域的第l层第d通道的特征图，其中d∈{1,...,D}，l∈{1,...,L}。

本发明方法利用在ImageNet数据集上预训练好的VGG-19卷积神经网络提取搜索区域的分层卷积特征。将该区域图像输入到卷积网络后，选取19个卷积层中的Conv3-4，Conv4-4和Conv5-4的输出作为卷积特征，则有M＝ρa，N＝ρb，D分别为256，256，512，L等于3。

步骤3：分类器检测与响应图的产生。

代表傅里叶反变换操作。三层卷积特征对应的响应图的融合系数γ分别为1，0.5，0.25。

步骤4：基于卷积神经网络的相关滤波方法的跟踪置信度评价。

设置τ_l和τ_s两个长、短时间阈值与

和

两个高、低跟踪置信分数阈值，其中τ_l>τ_s，

根据τ_l帧内置信分数的变化情况确定分类器更新频率：

都大于高置信度阈值

即对任意的τ∈[0,1,...,τ_l-1]，都有

时，认为目标处于长期高跟踪置信度。每3帧才更新一次分类器，更新的学习率的放大倍率α＝α₃＝2.5；

都大于高置信阈值

但满足对任意的τ∈[0,1,...,τ_s-1]，都有

时，认为目标在τ_s帧这一短时间段内，处于短期高置信度。每2帧更新一次分类器，学习率的放大倍率α＝α₂＝1.8；

即

认为目标受到了一定干扰，但是对定位精度影响不大，目标与分类器仍然可以较好地匹配。此时每帧更新一次分类器，放大倍率α＝α₁＝1；

(4)当第t帧的置信分数不超过低置信度阈值

即

更新的学习率根据下式自适应求得：

其中，C＝0.35为偏置的常数。

取长时间阈值τ_l为8帧，短时间阈值τ_s为4帧，高置信度阈值

低置信度阈值

步骤5：基于跟踪置信分数的自适应分类器更新。

当在步骤4中根据跟踪置信分数变化情况确定此帧进行更新后，以第t帧的估计位置

为中心，在图像上扩展出训练区域

其中，λ为

正则化参数，取值为10^-4，y为二维高斯函数生成的软标签：

其中σ为高斯带宽，值为0.1。

该最小化问题的闭式解表示为：

新的分类器参数由前t-1帧的分类器和第t帧的分类器的分子与分母进行滑动平均得到:

A_t[d，l]＝(1-η)A_t-1[d，l]+ηY*⊙X_t′[d，l] (8)

本发明的仿真效果可以通过下述仿真实验说明：

1.仿真条件：

本发明在Intel(R)Core(TM)i7-7820X CPU 3.40GHz,RAM 32.00G,TITAN XP GPU的PC上，使用MATLAB 2018b平台，对Visual Tracker Benchmark视频测试集中的视频序列完成仿真实验。

2.仿真结果：

附图4是本发明方法与常规相关滤波方法在精度、重合率和速度三个方面的跟踪结果对比。精度指的是序列中，估计位置与目标实际中心位置的距离在20像素以内的帧数的百分比；重合率指的是整个序列中，估计的目标框与实际标注的目标框的重合面积占二者总面积的平均比例；速度指的是每秒钟跟踪方法处理的帧数，单位为fps。一般的方法在对原有方法进行改进时，通常会增加算法的计算复杂度，降低算法的效率。而本发明方法在常规相关滤波方法的基础上，将三种指标分别提升了1.6％，1.4％和2.78fps，算法的跟踪精度与计算效率同时得到了改善。从附图4可以看出，本发明提出的相关滤波方法的跟踪置信度评价与自适应更新方法有效改善了相关滤波方法的性能，增强了分类器对目标变化的适应能力，提高了方法的时间与空间效率。

附图5是本发明方法中提出的置信分数随目标外观变化的曲线。为了验证所提出的响应图分析卷积神经网络能有效评价相关滤波方法的跟踪置信度，我们观察了常规相关滤波方法的置信度随目标外观变化的情况。图中，虚线框为常规相关滤波方法估计的目标框，实线框为真实的目标框。在Jogging1序列中，目标在64帧开始受到遮挡，在第71帧完全消失，而置信分数也在这几帧内迅速从高置信度阈值之上降低到低置信度阈值之下。同样的，在Bird1序列中的125到130帧之间也发生了类似的情况。附图6说明本发明方法可以准确地评价相关滤波方法的跟踪置信度，反映目标外观变化的情况与位置估计的可靠性，并且在置信分数低于低置信阈值，即目标受到较大干扰时停止更新可以保护分类器模型免受背景污染。

附图7是本发明方法与其他评价相关滤波方法对于跟踪置信度指标的对比。为了验证所提出的响应图分析卷积神经网络比起其他跟踪置信度评价方法，能更为准确地计算相关滤波方法的置信分数，实施例观察了本发明提出的置信分数、APCE、PSR三种跟踪置信度指标随目标定位误差变化的情况。为了方便进行观察，附图中本发明提出的置信分数的值被放大了25倍，而APCE的值缩小为原来的0.25倍。在定位误差较低且轻微波动时，本发明提出的置信分数更为稳定，变化幅度比较小，而其他评价指标的变化则比较剧烈；在目标定位误差迅速增大时，本发明提出的置信分数也以相同的速度迅速下降到低置信度阈值以下，而其他置信度评价指标则经过了较长时间的连续下降才达到较低的水平。附图8说明本发明方法提出的卷积神经网络比起其他的相关滤波的跟踪置信度评价方法，能够同时具有对目标轻微扰动的鲁棒性以及对目标剧烈变化的敏感性。因此，可以更可靠、更有效地反映目标变化的情况。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的DCF跟踪置信度评价与分类器更新方法，其特征在于，包括以下步骤：

首先，对进行跟踪置信度评价的卷积神经网络进行设计与训练，该网络称为响应图分析网络，用

进行表示；

网络训练完毕之后，利用该网络对相关滤波跟踪的跟踪置信度进行评价，对分类器更新的频率与学习率进行调整，包括以下步骤：

步骤1：初始化相关滤波跟踪方法

在第一帧时，依据给出的目标位置与大小信息，建立训练区域并提取特征，利用此特征初始化分类器；

步骤2：建立搜索区域，提取特征

在第t-1帧时，得到目标位置与大小信息

其中

为目标估计位置的中心坐标，a和b为所估计目标的宽与高，以此为中心向外扩展，在第t帧图像上建立搜索区域

其中ρ为尺寸扩展的系数；

之后，在此位置上，提取目标的特征，包括颜色直方图、方向梯度直方图HOG、分层的深度卷积特征；用x_t表示此特征，其尺寸为M×N×D×L，其中M、N、D、L分别代表特征的宽、高、通道数与层数，则x_t[d,l]代表第t帧时，搜索区域的第l层第d通道的特征图，其中d∈{1,...,D}，l∈{1,...,L}；

步骤3：检测分类器，生成响应图

用w_t-1代表第t帧前学习到的分类器参数，其与搜索区域特征图具有相同的尺寸，则w_t-1[d,l]为与x_t[d,l]相对应的第l层第d通道的分类器参数；特征与分类器参数进行傅里叶变换后，使每一层中每个通道上对应的元素互相点乘，再将所有通道的结果依次求和，然后经过傅里叶反变换回到时域，得到每一层的子响应图f_t[l]；最后，所有子响应图按照对应的系数γ_l进行加权融合，得到第t帧时总体的响应图f_t：