CN113989331A

CN113989331A - 基于上下文多线索信息和自适应响应的长时目标跟踪方法

Info

Publication number: CN113989331A
Application number: CN202111340975.5A
Authority: CN
Inventors: 王国刚; 刘一博; 梁美彦
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-01-28

Abstract

本发明属于计算机视觉领域，具体涉及基于上下文多线索信息和自适应响应的长时目标跟踪方法。本发明解决跟踪算法仅使用单一特征训练相关滤波器，目标表征能力不足和单个滤波器跟踪鲁棒性差的问题，改进后算法使用多种特征训练多个包含上下文感知信息的滤波器模型，提高了跟踪准确性；解决滤波器在目标受到遮挡或丢失的情况下后续跟踪失败的问题，改进后算法根据跟踪结果的可靠性对目标进行重检测，提高了跟踪精确度；解决不可靠跟踪结果更新模型造成的模型漂移问题，改进后算法通过更新判断机制，有效避免了模型漂移问题。

Description

基于上下文多线索信息和自适应响应的长时目标跟踪方法

技术领域

本发明属于计算机视觉领域，具体涉及基于上下文多线索信息和自适应响应的长时目标跟踪方法。

背景技术

目标跟踪作为高层视觉分析的基础技术，在视频监控、智能交通检测、医学图像分析、行为识别等诸多领域得到了广泛的应用，并逐渐成为计算机视觉领域中最热门的研究课题之一。在实际应用中，目标跟踪算法面临很多挑战因素，如遮挡、光照变化、背景噪声、运动模糊、目标姿态变化等，这些都会对跟踪结果产生很大影响，虽然已有不少优秀的跟踪算法在处理其中某些问题时能够获得较好的结果，但为了能够应对更多复杂场景，越来越多更加先进的方法和技术不断被提出。

近年来，对视觉跟踪算法的研究主要体现在深度学习和相关滤波两个方面。基于深度学习的视觉跟踪算法，利用神经网络提取目标特征，在大规模数据集上训练跟踪模型，能够实现精准跟踪。但该类算法，计算复杂，无法实现实时跟踪。因此，兼备跟踪实时性和精度的相关滤波(Correlation Filter,CF)算法成为目标跟踪领域研究的热点。Bolme等首次将相关滤波的概念引入跟踪领域，提出MOSSE跟踪算法，其核心思想是求图像中的二维信号间的相似性。Henriques等在MOSSE的基础上引入循环结构构建大量样本，并使用核技巧将不可分样本信息转入高维可分，提出CSK算法，相较于MOSSE算法性能得到了较大的提升，之后引入多通道特征，使用HOG特征代替原CSK算法中的灰度特征提出KCF算法。Danelijian等在CSK算法的基础上引入颜色特征提出了CN算法，将RGB空间的图像映射到11维颜色空间，并分别对每一维进行计算，进一步提高了跟踪算法的精度。此外，Danelijian等为了解决跟踪算法中尺度自适应问题，提出了DSST算法，使用一个一维尺度滤波器和一个二维的位置滤波器相互独立处理目标信息，使得跟踪结果更加可靠。

这些新发展起来的跟踪算法的性能虽然得到了极大提升，但仍然存在如下问题：

a)使用单一特征训练相关滤波器，对目标的表征能力不足，且单一的相关滤波器跟踪鲁棒性也较差。

b)相关滤波器在目标受到遮挡或丢失的情况下，会造成后续跟踪持续失败。

c)上述跟踪算法未考虑滤波器跟踪结果的可靠性，在每一帧均对滤波器进行更新，使用不可靠的跟踪结果更新模型将导致模型漂移。

发明内容

针对上述技术问题，本发明提出一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，a)解决跟踪算法仅使用单一特征训练相关滤波器，目标表征能力不足和单个滤波器跟踪鲁棒性差的问题，改进后算法使用多种特征训练多个包含上下文感知信息的滤波器模型，提高了跟踪准确性；b)解决滤波器在目标受到遮挡或丢失的情况下后续跟踪失败的问题，改进后算法根据跟踪结果的可靠性对目标进行重检测，提高了跟踪精确度；c)解决不可靠跟踪结果更新模型造成的模型漂移问题，改进后算法通过更新判断机制，有效避免了模型漂移问题。

为了达到上述目的，本发明采用了下列技术方案：

一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，包括以下步骤：

S1：输入第t-1帧视频图像，判断跟踪框分辨率并对跟踪目标进行调整；

S2：提取目标区域的颜色信息训练颜色直方图分类器，提取目标区域和周围图像块的HOG、MBLBP和CN特征，使用HOG特征训练尺度滤波器，利用三种特征组合训练多个包含上下文感知信息的并行相关滤波器；

S3：输入第t帧视频图像，以第t-1帧目标区域的位置为中心构建候选区域，分别计算直方图分类器和相关滤波器的目标响应；

S4：评估相关滤波器最优响应并与颜色直方图分类器响应进行自适应融合确定目标位置信息；

S5：判断目标位置信息可靠性，不可靠则激活重检测模块，训练在线SVM分类器重新检测目标；

S6：在目标最终位置使用尺度滤波器确定当前帧目标最佳尺度；

S7：最后在跟踪结果满足准确性的条件下对颜色直方图分类器、相关滤波器和尺度滤波器模型进行更新；

S8：重复步骤S1～S7，至全部视频序列处理完成。

进一步，所述S1中判断跟踪框分辨率并对跟踪目标进行调整的具体步骤为：

计算大小为M×N的跟踪框所包含的像素个数，当M×N≥100×100时，利用双立方插值将跟踪目标大小缩放为原来的0.5倍，padding设置为1.2；当M×N≤40×40时，利用双立方插值将跟踪目标大小缩放为原来的2倍，padding设置为2；其余情况，跟踪目标大小保持不变，padding设置为1.5。

进一步，所述S2中训练颜色直方图分类器具体步骤为：

给定输入图像I，

分别表示前景区域和背景区域的颜色直方图，

表示ψ∈I上的颜色直方图H在第b个区间的统计个数，其中ψ∈{F,B}，由贝叶斯分类器得像素x的目标似然概率为：

其中，前景先验概率

背景先验概率

所述训练尺度滤波器的具体步骤为：

提取目标区域HOG特征，建模为如下最小二乘问题：

其中，h表示尺度滤波器，h^l表示每个特征维度的尺度滤波器，f表示目标样本，f^l为f的第l个特征通道，d表示特征维数，λ表示正则化参数，★和g分别表示循环相关和期望输出；

所述训练多个包含上下文感知信息的并行相关滤波器的具体步骤为：

提取目标区域和其周围k个图像块的HOG、MBLBP和CN特征信息，建模为如下约束最优化问题：

其中，w表示相关滤波器，y表示回归目标，λ₁和λ₂表示正则化参数，A₀表示目标区域特征信息，A_i表示第i个图像块特征信息。

进一步，所述S3中计算直方图分类器和相关滤波器的目标响应，具体步骤为：

在第t帧，以t-1帧确定的目标区域z为中心，经过循环移位构建待测样本集Z，直方图分类器通过计算目标似然概率积分图，可得目标区域的响应：

相关滤波器的目标响应计算为：

其中，r_p表示响应值，⊙表示矩阵元素点乘，∧表示傅里叶变换，*表示共轭，

表示约束最优化问题的闭式解，即训练所得相关滤波器，公式如下：

其中，

表示傅里叶域中目标区域特征信息，

表示傅里叶域中第i个图像块特征信息，

表示傅里叶域中回归目标，λ₁,λ₂表示参数，*表示共轭。

进一步，所述S4中评估相关滤波器最优响应并与直方图分类器响应进行自适应融合确定目标位置信息具体步骤为：

通过成对评估和自我评估从多个相关滤波器响应中筛选出当前帧滤波器的最佳结果，所述成对评估计算公式为：

其中，ζ表示小常数，避免分母为零；

表示重叠率得分均值，表示第i个相关滤波器与其它相关滤波器之间的一致性；

表示重叠率得分方差，表示短时间Δt内相关滤波器之间重叠率的稳定性；W_τ表示在序列W中第(τ-t+Δt)个元素，

表示归一化因子，τ∈[t-Δt+1,t]表示时间指数；

所述自我评估计算公式为：

其中，

表示第i个相关滤波器轨迹的波动程度；

所述成对评估和自我评估线性加权计算相关滤波器的鲁棒性得分R^t(T_i)，计算公式为：

其中，μ为权重参数，R^t(T_i)最大的相关滤波器响应即为所选最佳结果，也就是最优响应；

最终利用相对峰值能量置信度调节融合系数α_t，将相关滤波器最佳结果与颜色直方图分类器响应结果进行自适应融合，确定当前帧目标最终预测位置，计算公式为：

f(x)＝(1-α_t)f_cf(x)+α_tf_hist(x)

其中，f_cf(x)表示相关滤波器最佳响应结果，f_hist(x)表示颜色直方图分类器响应结果，

表示第t帧时的融合系数，ρ为影响因子，α为常数系数，r_t表示相对峰值能量置信度，公式如下：

其中，E_{APEC_cf}为相关滤波器的平均峰值相关能量APEC，E_{APEC_hist}为颜色直方图分类器的平均峰值相关能量APEC。

进一步，所述S5中判断目标位置信息可靠性具体步骤为：

当目标跟踪失败或受到遮挡的情况下，步骤S4的跟踪结果不一定可靠，利用最大值响应F_max和平均峰值相关能量APCE衡量预测位置的置信度水平，当置信度大于设定阈值Tr时，跟踪结果可靠，使用该结果继续预测下一帧目标，并更新SVM分类器；当置信度小于设定阈值Tr时，利用SVM分类器进行重检测，并重新评估重检测结果置信度水平，大于阈值Tr，则将重检测结果作为跟踪预测位置，否则不更新SVM分类器，并继续预测下一帧目标。

进一步，所述S6中在目标最终位置使用尺度滤波器确定当前帧目标最佳尺度具体步骤为：

以第t-1帧确定的目标预测位置为中心，构建具有S个不同大小尺度框的尺度金字塔，设目标跟踪框大小为W×H，尺度框构建原则为：

其中,a表示比例因子，J_n表示第n个尺度框；

提取尺度框的HOG特征，计算尺度滤波器与尺度金字塔的的最大响应得分：

y_t＝F^-1(H^l⊙Z^l)

其中，y_t表示第t帧尺度框响应得分，F^-1表示逆傅里叶变换，H^l表示尺度滤波器(H^l为傅里叶域中的尺度滤波器表达形式，h为时域中的尺度滤波器表达形式)，Z^l表示待测样本，y_t最大对应的尺度框即为第t帧目标的最佳尺度。

进一步，所述S7中对颜色直方图分类器、相关滤波器和尺度滤波器模型进行更新具体步骤为：

为避免模型漂移，颜色直方图分类器、相关滤波器和尺度滤波器只在当前帧响应最大值F_max大于等于θ₁和平均峰值相关能量APCE与其各自历史均值的比值大于等于θ₂时，认为跟踪可靠，并更新颜色直方图分类器、相关滤波器和尺度滤波器模型，否则不更新；

所诉相关滤波器和尺度滤波器模型更新策略为：

其中，

和

分别表示第t帧和前t-1帧迭代训练的滤波器，

和

分别表示第t帧和前t-1帧迭代训练的尺度滤波器，η表示学习率；

所述直方图分类器模型更新策略分别对前景区域和背景区域直方图进行更新：

其中，

和

分别表示第t帧和第t-1帧前景区域直方图，

和

分别表示第t帧和第t-1帧背景区域直方图，η表示学习率。

与现有技术相比本发明具有以下优点：

a)本发明在跟踪初始化时，对不同分辨率视频跟踪目标大小和特征提取区域作相应预处理，可增强对目标的表征能力或减少目标特征的冗余信息，进而提高目标跟踪性能，并保证跟踪实时性。

b)使用目标和目标周围图像块多种特征，训练多个包含上下文感知信息的相关滤波器，有效提高相关滤波器的判别能力，减少边界效应；从多个相关滤波器筛选最优结果，增强了跟踪鲁棒性。

c)对颜色直方图分类器跟踪结果和相关滤波器跟踪结果进行自适应融合，确定目标最终预测位置，提升了跟踪精度；采用响应最大值和平均峰值相关能量APCE对跟踪结果进行可靠性判断，在结果不可靠时进行重检测，减少因目标丢失所造成的后续帧跟踪失败的情况，提高了跟踪准确性和成功率。

d)在模型更新阶段，采用F_max和APCE作为判断模型是否更新的指标，防止了在遮挡或跟踪结果不佳的情况下更新滤波器带来的模型污染，避免了模型漂移。

附图说明

图1是本发明实施的整体流程图。

具体实施方式

为了更加清晰全面的了解本发明的技术方案、目的和有益效果，下面将结合附图及实施例对本发明作进一步的详细说明，本领域技术人员根据说明书可轻易了解本发明的目的和优点。应当注意，本实施例仅是本发明的一部分实例，本发明还可以根据不同实施方式和具体场景加以应用，在没有作出创造性工作的前提下，其它实施例均属于本发明的保护范围。

以下描述实施列仅用以解释本发明，并不用于限定本发明的范围。

参阅图1，本发明的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，包括以下步骤：

计算大小为M×N的跟踪框所包含的像素个数，当M×N≥100×100时，利用双立方插值将跟踪目标大小缩放为原来的0.5倍，padding设置为1.2；当M×N≤40×40时，利用双立方插值将跟踪目标大小缩放为原来的2倍，padding设置为2；其余情况，跟踪目标大小保持不变，padding设置为1.5。此时的目标特征提取区域为size*(1+padding)。

所述训练颜色直方图分类器的具体步骤为：

给定输入图像I，

分别表示前景区域和背景区域的颜色直方图，

其中，前景先验概率

背景先验概率

所述训练尺度滤波器的具体步骤为：

提取目标区域HOG特征，建模为如下最小二乘问题：

提取目标区域和其周围k个图像块的HOG、CN和MBLBP三种特征信息，对特征进行三种线性组合：HOG+CN、CN+MBLBP、HOG+CN+MBLBP，训练三个包含上下文感知信息的相关滤波器，建模为如下约束最优化问题：

相关滤波器的目标响应计算为：

其中，r_p表示响应值，⊙表示矩阵元素点乘，∧表示傅里叶变换，

其中，

表示傅里叶域中目标区域特征信息，

表示傅里叶域中第i个图像块特征信息，

表示傅里叶域中回归目标，λ₁,λ₂表示参数，*表示共轭。

经过步骤S2得到三种使用不同特征训练的包含上下文感知信息的相关滤波器，在后续视频帧中并行跟踪目标，每一帧得到三个相关滤波器的跟踪响应，通过成对评估和自我评估从多个相关滤波器响应中筛选出当前帧滤波器的最佳结果，所述成对评估计算公式为：

其中，ζ表示小常数，避免分母为零；

表示归一化因子，τ∈[t-Δt+1,t]表示时间指数；

所述自我评估计算公式为：

其中，

表示第i个相关滤波器轨迹的波动程度；

f(x)＝(1-α_t)f_cf(x)+α_tf_hist(x)

表示第t帧时的融合系数，ρ为影响因子，ρ越大，相对峰值能量置信度对融合系数的影响越大，α为常数系数，r_t表示相对峰值能量置信度，公式如下：

平均相关峰值能量APCE计算公式为：

其中，F_max表示响应图峰值，F_min表示响应图最低值，F_w,h表示坐标(w,h)处的响应值，mean(·)表示求均值。E_APCE反映了响应图的震荡程度。

以第t-1帧确定的目标预测位置为中心，构建具有S个不同大小尺度框的尺度金字塔，这里S取值33，尺度金字塔构建方式为：

设目标跟踪框大小为W×H，尺度框构建原则为：

其中,a＝1.02表示比例因子，J_n表示第n个尺度框。

y_t＝F^-1(H^l⊙Z^l)

其中，y_t表示第t帧尺度框响应得分，F^-1表示逆傅里叶变换，H^l表示尺度滤波器，Z^l表示待测样本。y_t最大对应的尺度框即为第t帧目标的最佳尺度。

为避免模型漂移，滤波器(滤波器包括相关滤波器和尺度滤波器)和分类器只在当前帧响应最大值F_max和平均峰值相关能量APCE与其各自历史均值的比值分别大于等于θ₁和θ₂时，认为跟踪结果可靠，判断条件为：

满足上述判断条件后，对滤波器模型和分类器模型进行更新，否则不更新。

相关滤波器和尺度滤波器模型更新策略为：

其中，

和

分别表示第t帧和前t-1帧迭代训练的相关滤波器，

和

分别表示第t帧和前t-1帧迭代训练的尺度滤波器，η表示学习率。

直方图分类器模型更新策略分别对前景区域和背景区域直方图进行更新：

其中，

和

分别表示第t帧和第t-1帧前景区域直方图，

和

分别表示第t帧和第t-1帧背景区域直方图，η表示学习率。

S8：重复步骤S1～S7，至全部视频序列处理完成。

应当理解，以上所述仅是结合实施例和技术方案流程图对本发明进行了详细说明，而非限制本发明的保护范围。任何领域的研究人员在不脱离本发明技术方案的宗旨和思想的前提下，对本发明的技术方案进行修改或替换，仍然属于本发明的权力要求保护范围之内。

Claims

1.一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，包括以下步骤：

S8：重复步骤S1～S7，至全部视频序列处理完成。

2.根据权利要求1所述的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，所述S1中判断跟踪框分辨率并对跟踪目标进行调整的具体步骤为：

3.根据权利要求1所述的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，所述S2中训练颜色直方图分类器的具体步骤为：

给定输入图像I，

分别表示前景区域和背景区域的颜色直方图，

其中，前景先验概率

背景先验概率

所述训练尺度滤波器的具体步骤为：

提取目标区域HOG特征，建模为如下最小二乘问题：

4.根据权利要求1所述的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，所述S3中计算直方图分类器和相关滤波器的目标响应，具体步骤为：

相关滤波器的目标响应计算为：

其中，

表示傅里叶域中目标区域特征信息，

表示傅里叶域中第i个图像块特征信息，

表示傅里叶域中回归目标，λ₁,λ₂表示参数，*表示共轭。

5.根据权利要求1所述的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，所述S4中评估相关滤波器最优响应并与直方图分类器响应进行自适应融合确定目标位置信息具体步骤为：

其中，ζ表示小常数，避免分母为零；

表示归一化因子，τ∈[t-Δt+1,t]表示时间指数；

所述自我评估计算公式为：

其中，

表示第i个相关滤波器轨迹的波动程度；

f(x)＝(1-α_t)f_cf(x)+α_tf_hist(x)

表示第t帧时的融合系数，ρ为影响因子，α为为常数系数，r_t表示相对峰值能量置信度，公式如下：

6.根据权利要求1所述的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，所述S5中判断目标位置信息可靠性具体步骤为：

利用最大值响应F_max和平均峰值相关能量APCE衡量预测位置的置信度水平，当置信度大于设定阈值Tr时，跟踪结果可靠，使用该结果继续预测下一帧目标，并更新SVM分类器；当置信度小于设定阈值Tr时，利用SVM分类器进行重检测，并重新评估重检测结果置信度水平，大于阈值Tr，则将重检测结果作为跟踪预测位置，否则不更新SVM分类器，并继续预测下一帧目标。

7.根据权利要求1所述的一种基于上下文多线索信息和自适应响应的长时目标跟踪方法，其特征在于，所述S6中在目标最终位置使用尺度滤波器确定当前帧目标最佳尺度具体步骤为：