CN112150509B

CN112150509B - 基于多层深度特征的分块跟踪方法

Info

Publication number: CN112150509B
Application number: CN202011052803.3A
Authority: CN
Inventors: 王暐; 孔祥通; 王维强; 李嘉; 陆永安; 张波; 刘传玲; 周铁军; 张华�; 付飞亚; 张乐; 计宇
Original assignee: Pla 63875 Unit
Current assignee: Pla 63875 Unit
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-05-03
Anticipated expiration: 2040-09-29
Also published as: CN112150509A

Abstract

本发明提供了一种基于多层深度特征的分块跟踪算法，采用深度卷积网络VGG‑19提取目标的卷积特征，在核相关滤波跟踪框架进行跟踪；采用DPM进行目标状态的估计，对高层表观模型和低层表观模型进行加权组合，根据分块方案对两类表观模型采用不同的更新策略。本发明采用可变形分块模型实现抗遮挡的分块跟踪，具有很好的跟踪精度和鲁棒性，充分利用了深度卷积特征的表达能力，跟踪性能优异，可变形分块模型有效提高了算法的抗遮挡性能。

Description

基于多层深度特征的分块跟踪方法

技术领域

本发明涉及视觉跟踪领域，特别涉及一种分块跟踪算法。

背景技术

近年来，深度学习在图像分类、目标检测领域取得巨大的成功，研究者希望利用深度学习优秀的特征提取和目标表达能力提高目标跟踪算法的性能。Wang Naiyan等人(AlexKrizhevsky,Ilya Sutskever,Geoffrey E.Hinton.2012.Annual Conference on NeuralInformation Processing Systems,Lake Tahoe,Nevada,1106.)提出用大量的辅助数据采用无监督方式训练一个栈式去噪自编码器，在跟踪过程中用自编码器的编码部分提取特征。DeepTrack(H.Li,Y.Li,F.Porikli.2014.British Machine Vision Conference,Nottingham,UK,1.)算法将目标跟踪看做前背景分类问题，采用三层卷积神经网络构建分类器，以完全在线的方式学习目标特征。利用预训练CNN得到目标显著图，通过在线学习支持向量机得到跟踪结果(Lijun Wang,Wanli Ouyang,Xiaogang Wang,HuchuanLu.2015.International Conference on Computer Vision,Santiago,Chile,3119.)，此方法利用多层CNN提取目标特征，有效提高了跟踪的精度和鲁棒性，但均采用在线学习网络或支持向量机，需要大量的训练样本和运算时间。Ma Chao等人(MA C,HUANG J B,YANG XK.2015.International Conference on Computer Vision,Santiago,Chile,3038.)指出已有基于深度学习的跟踪算法仅利用深度网络的最后一层表达目标，无法充分挖掘CNN对目标的多语义层次表达能力，提出提取预训练的多层CNN的卷积特征，结合核相关滤波框架进行跟踪。对深度网络的多层次语义表达能力进行挖掘，在多层CNN的后面增加了两个并行的浅层网络，通过在线更新浅层网络进行特征选择，有效避免噪声和过拟合问题。

局部遮挡是跟踪算法面临的主要挑战性难点之一。在出现局部遮挡或者目标局部变形时，可能出现跟踪不准确的情况，极大地限制了该技术的广泛应用。

发明内容

为了克服现有技术的不足，本发明提供一种基于多层深度特征的跟踪算法，采用可变形分块模型实现抗遮挡的分块跟踪。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1，采用深度卷积网络VGG-19提取目标的卷积特征，在核相关滤波跟踪框架进行跟踪；

步骤2，采用DPM进行目标状态的估计，对高层表观模型和低层表观模型进行加权组合，根据分块方案对两类表观模型采用不同的更新策略。

所述的核相关滤波跟踪框架包括目标位置估计和表观模型训练；第一帧中目标状态由人工给定，据此提取目标特征，训练目标的判别式表观模型(α₁,x₁)，α₁为滤波器系数，x₁为目标的特征表示；第二帧图像到来时，利用上一帧的表观模型计算滤波响应图，图中最大值处即为目标位置，然后对表观模型进行更新，开始下一帧的跟踪，如此迭代。

所述的采用DPM进行目标状态的估计，利用VGG-19的conv3-4、conv4-4和conv5-4三个卷积层提取特征，建立多个尺度上的目标表观模型；将目标在行和列方向上规则地划分为n个矩形块，则DPM由n+1个元素{F,P₁,...,P_n}组成，F＝{(α_t,x_t)^c4,(α_t,x_t)^c5}为根节点滤波器表观模型，包含了由conv4-4层、conv5-4层卷积特征训练的两个KCF表观模型；P_i＝{(α_t,x_t)^c3_i,r_i,d_i}为第i个分块的模型，(α_t,x_t)^c3_i表示该分块的conv3-4层卷积特征训练的KCF表观模型，r_i为2维向量，表示第i个分块的中心相对于目标中心的坐标，称为锚点位置，d_i为4维向量，定义了在检测阶段，第i个分块相对锚点位置产生偏移量时所引起的目标变形损失值；给定第t帧的某个候选目标状态O_t＝(u_t,v_t,h_t,w_t)，记为O＝(u,v,h,w)，其中四个参数分别为目标坐标与高宽，每个分块状态O_i＝(u_i,v_i,h_i,w_i)；DPM对该目标状态与各分块状态的组合进行评分的公式为其中，C^root和C^part_i分别表示输入状态与根节点表观模型F和分块i表观模型P_i的相似度，即步骤1计算的滤波响应图；(du_i,dv_i)＝(u_i,v_i)-((u,v)+r_i)，表示分块i的位置与锚点位置的距离；

d_i＝(0,0,1,1)，则/>相当于利用分块的位置差度量其变形损失；第t帧跟踪的目标状态估计阶段，计算所有可能的候选状态的得分，选择其中得分最高的状态/>将该组合状态中的O^*作为当前帧估计的目标状态。

所述的加权组合将响应图的峰值旁瓣比作为分块的权重，某个组合状态的评分/>其中，p为响应图的最大值，将最大值周围c×r大小的区域定义为旁瓣，μ和σ分别为旁瓣区域的均值和标准差。

所述的更新策略采用PSR判断根节点KCF跟踪的可靠程度，根节点的更新策略为其中，threshold为给定阈值，当PSR大于该阈值时，说明跟踪结果可靠，对表观模型进行更新；对分块的表观模型采用的更新策略为/>其中，threshold1为预设的阈值，如果PSR_t大于阈值，说明分块跟踪结果结果可靠度，这个区域没有发生遮挡，对表观模型进行更新，丢弃之前的表观模型，直接用当前帧的分块内容训练表观模型；当小于阈值时，说明当前区域不可靠，则不更新该分块的表观模型。

本发明的有益效果是：采用可变形分块模型实现抗遮挡的分块跟踪，具有很好的跟踪精度和鲁棒性，充分利用了深度卷积特征的表达能力，跟踪性能优异，可变形分块模型有效提高了算法的抗遮挡性能。

附图说明

图1是MPT算法流程图，其中，(a)是第t帧的表观模型训练阶段流程，(b)是第t帧的目标定位阶段流程。

图2采用深度卷积网络VGG-19网络提取的卷积特征的可视化结果示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明根据跟踪算法面临的主要挑战性难点之一的局部遮挡问题，提出一种基于多层深度特征的跟踪算法，采用可变形分块模型实现抗遮挡的分块跟踪。

本发明的技术方案包括以下步骤：

步骤1，采用深度卷积网络VGG-19网络提取目标的卷积特征，在核相关滤波跟踪框架进行跟踪，充分利用了深度卷积特征的特征提取和目标表达能力，使得跟踪算法更具判别力；

步骤2，采用DPM进行目标状态的估计，对高层表观模型和低层表观模型进行加权组合，根据实际的分块方案对两类表观模型采用不同的更新策略，提高跟踪算法的鲁棒性。

本发明在每一帧的跟踪流程如图1所示，具体实施步骤如下：

步骤1：采用深度卷积网络VGG-19网络提取目标的卷积特征，在核相关滤波跟踪框架进行跟踪。

图2为采用深度卷积网络VGG-19网络提取的卷积特征的可视化结果还意示意图。图中conv3-4层的特征具有较高的空间分辨率，有利于精确跟踪，该层的卷积核对图像中的大量结构信息进行响应，特征图展现出了较为细腻的纹理。conv3-4层的卷积特征没有目标或物体的概念，对图像中大量区域进行响应，因此在复杂环境下容易被干扰，特征判别力较差。随着网络层数的增加，conv4-4和conv5-4卷积特征图的响应越来越稀疏，仅在特定的目标处进行响应。

核相关滤波跟踪框架包括：目标位置估计和表观模型训练(更新)。第一帧中目标状态由人工给定，据此提取目标特征，训练目标的判别式表观模型(α₁,x₁)，α₁为滤波器系数，x₁为目标的特征表示，下标1表示第一帧。第二帧图像到来时，利用上一帧的表观模型计算滤波响应图，也称为目标置信图，图中最大值处即为目标位置，然后对表观模型进行更新，开始下一帧的跟踪，如此迭代。

步骤2：采用DPM的目标状态估计

本发明提出的基于多层深度特征的分块跟踪算法利用VGG-19的conv3-4、conv4-4和conv5-4三个卷积层提取特征，建立多个尺度上的目标表观模型。由于高层的特征经过多次池化，特征在空间上的分辨率较低(conv4-4经过了3次池化，其对224×224的目标图像提取的特征空间大小仅为28×28，而conv5-4的卷积特征空间分辨率仅为14×14)，无法进一步分块。因此，仅对conv3-4层的卷积特征分块。由于跟踪的目标是任意物体，无法预先确定目标物体的类别，因此将目标在行和列方向上规则地划分为n个矩形块。

则DPM由n+1个元素{F,P₁,...,P_n}组成，其中：F＝{(α_t,x_t)^c4,(α_t,x_t)^c5}，为根节点滤波器表观模型，包含了由高层(conv4-4层、conv5-4层)卷积特征训练的两个KCF表观模型；

P_i＝{(α_t,x_t)^c3_i,r_i,d_i}，为第i个分块的模型

(α_t,x_t)^c3_i表示该分块的低层(conv3-4层)卷积特征训练的KCF表观模型，ri为2维向量，表示第i个分块的中心相对于目标中心的坐标，称为“锚点”(anchor)位置，d_i为4维向量，定义了在检测阶段，第i个分块相对锚点位置产生偏移量时，所引起的目标变形损失值。

d_i的引入相当于对目标的变形进行了量化。

给定第t帧的某个候选目标状态O_t＝(u_t,v_t,h_t,w_t)，为表达简便，此处忽略帧信息，记为O＝(u,v,h,w)

其中四个参数分别为目标坐标与高宽。

每个分块状态O_i＝(u_i,v_i,h_i,w_i)

DPM对该目标状态与各分块状态的组合进行评分的公式为：

其中，C^root和C^part_i分别表示输入状态与根节点表观模型F和分块i表观模型P_i的相似度，也就是KCF跟踪算法得出的滤波置信图；

(du_i,dv_i)＝(u_i,v_i)-((u,v)+r_i)，表示分块i的位置与锚点位置的距离，该距离越大说明在该分块处，目标形变越大，

为减少计算复杂度，本发明取d_i＝(0,0,1,1)，则相当于利用分块的位置差度量其变形损失。

由式(1)可知，DPM对某个状态(O,O₁,...,O_n)从两个方面进行评分：首先是表观相似度方面，根节点F从全局角度评估(式(1)右侧第一项)，各分块表观模型从局部评估(式(1)右侧第二项)；目标形变方面，考虑该状态下分块与锚点的相对位置关系(式(1)右侧第三项)。第t帧跟踪的目标状态估计阶段，用式(1)计算所有可能的候选状态的得分，选择其中得分最高的状态，

将该组合状态中的O^*作为当前帧估计的目标状态。

式(1)中各分块采用相同的权重(均为1)计算得分，未考虑各分块相似度的可靠性，这将会影响最终的跟踪结果。这是由于，跟踪中的部分遮挡、形变对分块的跟踪具有非常大的影响，不可靠的分块跟踪置信图将使总体的跟踪性能下降。为了实现稳定、鲁棒的跟踪，需要评估分块跟踪结果的可靠度，给跟踪更可靠的分块更大的权重，减少可靠度低的分块对跟踪结果的影响。

对于KCF跟踪，滤波响应图的形状能够有效反映跟踪质量。当目标被遮挡或跟踪出现偏差时，滤波的响应峰值较小，当背景复杂或存在干扰物体时，在滤波响应图的峰值附近会产生伪峰值，这两种情况均使得目标相对于背景的响应值不够突出。利用滤波响应图的这种性质，引入响应图的峰值旁瓣比(Peak to Sidelobe Ratio，PSR)对跟踪结果进行评价，PSR的计算方法如下，

其中，p为响应图的最大值(峰值)，将峰值周围的区域定义为旁瓣，μ和σ分别为旁瓣区域的均值和标准差。实验中，旁瓣区域定义为峰值周围c×r大小的像素区域，以避免较远的背景区域对PSR值计算的干扰。PSR越大，表明跟踪结果越可靠，因此将其作为分块的权重，式(1)改写为，

即某个组合状态的评分，等于表观相似度加权求和，再减去变形损失。

DPM框架中仅包含一层根节点，而为了利用深度卷积网络对目标的表达能力，所提MPT算法在conv4-4和conv5-4两层上均对目标进行了全局建模，因此需要将这两层的响应进行综合，得到唯一的根节点响应。conv5-4层较conv4-4层多一层池化层，所以conv5-4的特征分辨率仅为后者的1/2。采用双线性插值将conv5-4的特征上采样一倍，使得conv5-4和conv4-4层对应的置信图具有相同的分辨率，两者直接相加作为DPM的根节点相似度，

C^root＝C^c4+C^c5 (5)

跟踪过程中目标及背景动态变化，目标表观会随着时间发生改变，跟踪算法需要设计有效的表观模型更新策略以应对表观变化和错误跟踪。传统KCF中表观模型通过线性插值的方式更新，

(α_t,x_t)＝(1-γ)(α_t-1,x_t-1)+γ(α,x) (6)

其中，(α_t,x_t)为跟踪算法第t帧输出的表观模型，(α,x)为利用当帧目标信息训练的表观模型，γ为给定的参数，控制更新的程度，能够保留目标在之前帧的滤波器模型，同时将最新的表观及时引入模型。固定的参数γ意味着不论当前帧是否存在遮挡、跟踪失败等，表观模型都会以固定的比例更新。当跟踪发生偏差，或者目标被遮挡时，将错误的目标表观信息引入模型，并将进一步导致跟踪误差增大，在后续帧中引入更大的误差，产生所谓的漂移，最终导致跟踪失败。为了避免将误差较大的表观信息引入模型，需要设计自适应的表观模型更新策略。

本发明提出的基于多层深度特征的分块跟踪算法对根节点和分块采用了不同的更新策略。

采用PSR判断根节点KCF跟踪的可靠程度，根节点的更新策略为：

其中，threshold为给定阈值，当PSR大于该阈值时，说明跟踪结果可靠，对表观模型进行更新。

对分块的表观模型采用如下的更新策略：

其中，threshold1为预设的阈值，如果PSR_t大于阈值，说明分块跟踪结果结果可靠度，这个区域没有发生遮挡，对表观模型进行更新，丢弃之前的表观模型，直接用当前帧的分块内容训练表观模型；当小于阈值时，说明当前区域不可靠，则不更新该分块的表观模型。

Claims

1.一种基于多层深度特征的分块跟踪方法，其特征在于包括以下步骤：

所述的核相关滤波跟踪框架包括目标位置估计和表观模型训练；第一帧中目标状态由人工给定，据此提取目标特征，训练目标的判别式表观模型(α₁,x₁)，α₁为滤波器系数，x₁为目标的特征表示；第二帧图像到来时，利用上一帧的表观模型计算滤波响应图，图中最大值处即为目标位置，然后对表观模型进行更新，开始下一帧的跟踪，如此迭代；

步骤2，采用DPM进行目标状态的估计，对高层表观模型和低层表观模型进行加权组合，根据分块方案对两类表观模型采用不同的更新策略；

所述的采用DPM进行目标状态的估计，利用VGG-19的conv3-4、conv4-4和conv5-4三个卷积层提取特征，建立多个尺度上的目标表观模型；将目标在行和列方向上规则地划分为n个矩形块，则DPM由n+1个元素{F,P₁,...,P_n}组成，F＝{(α_t,x_t)^c4,(α_t,x_t)^c5}为根节点滤波器表观模型，包含了由conv4-4层、conv5-4层卷积特征训练的两个KCF表观模型；P_i＝{(α_t,x_t)^c3_i,r_i,d_i}为第i个分块的模型，(α_t,x_t)^c3_i表示该分块的conv3-4层卷积特征训练的KCF表观模型，r_i为2维向量，表示第i个分块的中心相对于目标中心的坐标，称为锚点位置，d_i为4维向量，定义了在检测阶段，第i个分块相对锚点位置产生偏移量时所引起的目标变形损失值；给定第t帧的某个候选目标状态O_t＝(u_t,v_t,h_t,w_t)，记为O＝(u,v,h,w)，其中四个参数分别为目标坐标与高宽，每个分块状态O_i＝(u_i,v_i,h_i,w_i)；DPM对该目标状态与各分块状态的组合进行评分的公式为其中，C^root和C^part_i分别表示输入状态与根节点表观模型F和分块i表观模型P_i的相似度；(du_i,dv_i)＝(u_i,v_i)-((u,v)+r_i)，表示分块i的位置与锚点位置的距离；d_i＝(0,0,1,1)，则/>相当于利用分块的位置差度量其变形损失；第t帧跟踪的目标状态估计阶段，计算所有可能的候选状态的得分，选择其中得分最高的状态/>将该组合状态中的O^*作为当前帧估计的目标状态；

所述的更新策略采用峰值旁瓣比判断根节点KCF跟踪的可靠程度，根节点的更新策略为/>其中，threshold为给定阈值，当PSR大于该阈值时，说明跟踪结果可靠，对表观模型进行更新；对分块的表观模型采用的更新策略为/>其中，threshold1为预设的阈值，如果PSR_t大于阈值，说明分块跟踪结果可靠，这个区域没有发生遮挡，对表观模型进行更新，丢弃之前的表观模型，直接用当前帧的分块内容训练表观模型；当小于阈值时，说明当前区域不可靠，则不更新该分块的表观模型。

2.根据权利要求1所述的基于多层深度特征的分块跟踪方法，其特征在于：所述的加权组合将响应图的峰值旁瓣比作为分块的权重，某个组合状态的评分其中，p为响应图的最大值，将最大值周围c×r大小的区域定义为旁瓣，μ和σ分别为旁瓣区域的均值和标准差。