CN110689559B

CN110689559B - 一种基于密集卷积网络特征的视觉目标跟踪方法

Info

Publication number: CN110689559B
Application number: CN201910947630.2A
Authority: CN
Inventors: 马素刚; 侯志强; 惠飞; 赵祥模; 孙韩林; 王忠民
Original assignee: Changan University; Xian University of Posts and Telecommunications
Current assignee: Changan University; Xian University of Posts and Telecommunications
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-08-12
Anticipated expiration: 2039-09-30
Also published as: CN110689559A

Abstract

本发明属于目标跟踪技术领域，具体涉及一种基于密集卷积网络特征的视觉目标跟踪方法。本发明提供的技术方案，包括以下五个步骤：步骤一、构建初始位置滤波器；步骤二、构建初始尺度滤波器；步骤三、目标定位；步骤四、尺度估计；步骤五、模型更新。通过深度密集卷积网络的不同层提取目标特征，基于APCE(Average Peak‑to‑Correlation Energy)值自适应地选择最佳响应图，然后确定目标中心位置。在此基础上，进一步对目标尺度进行估计，能够适应目标尺度变化，准确确定目标的大小，选择性地对模型进行在线更新。算法精确度和成功率较高，实现了目标的鲁棒跟踪，易于在实际场景中推广应用。

Description

一种基于密集卷积网络特征的视觉目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种基于密集卷积网络特征的视觉目标跟踪方法。

背景技术

计算机视觉作为人工智能的一个重要研究领域，其目的是让机器拥有与人类类似的视觉。计算机视觉是以图像(视频)为输入，研究图像信息组织、物体和场景识别等内容，进而对事件给予解释，从而实现对环境的表达和理解。计算机视觉领域包括诸多不同的研究方向，如物体检测、语义分割、目标跟踪、三维重建、行为识别等。

目标跟踪作为计算机视觉领域的基础问题之一，一直是该领域的研究热点。目标跟踪是指对图像序列中运动目标进行检测、提取和识别，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而对运动目标的行为进行理解，以完成更高一级的任务。近年来，目标跟踪算法得到了飞速发展，在国际计算机视觉会议(ICCV)、国际计算机视觉和模式识别会议(CVPR)、欧洲计算机视觉会议(ECCV)等国际顶级会议上提出了大量先进的目标跟踪算法。但是，现实应用环境中，出现了尺度变化、目标遮挡等复杂场景，而且当跟踪算法投入实际应用时，实时性问题也非常重要。正是由于这些问题的存在，使得视觉目标跟踪算法的研究仍然充满着难点和挑战。由于目前跟踪算法精度和速度的限制，制约着跟踪算法在视频监控、智能交通、人机交互等实际场景中的广泛应用。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于密集卷积网络特征的视觉目标跟踪方法。

为解决上述技术问题，本发明采用的技术方案是：一种基于密集卷积网络特征的视觉目标跟踪方法，包括以下步骤：

步骤一、构建初始位置滤波器

1、在经过手工标注的首帧图像中，明确目标区域的位置和尺寸；

2、在密集卷积网络中，选取多层，对首帧图像的目标区域进行特征提取，得到多个不同的特征；

3、利用得到的多个特征，分别构建多个核相关滤波器，根据公式

构建初始位置滤波器α，其中，

为y的傅里叶变换，

||·||表示2-范数，F^-1为傅里叶逆变换，x*为x的共轭，⊙为点乘运算，σ和λ_p为常数；

步骤二、构建初始尺度滤波器

1、在经过手工标注的首帧图像中，在已经明确的目标区域的基础上，通过尺度金字塔方法对目标进行采样，获得S种不同大小的候选目标样本；

2、在密集卷积网络中，选取用于对S种不同目标样本进行特征提取的层，进行特征提取后得到S个不同特征；

3、根据公式

构建初始尺度滤波器H^l，其中，l表示特征向量的维数，且l＝1,2,...,L，G为通过高斯函数构建的特征响应值g的傅里叶变换，G*为G的共轭，F^k为第k维特征的傅里叶变换，λ_s为常数；

步骤三、目标定位

1、利用密集卷积网络的多层对输入图像进行特征提取，得到多个不同的特征。

2、利用位置滤波器对多个不同特征分别进行位置滤波，获得多个不同的响应图；

3、分别计算多个响应图的APCE值，计算方法为：

其中F_max表示响应图中最大值，F_min表示响应图中最小值，F_w,h表示响应图中第w行、第h列的取值,mean表示取均值。选择APCE值最大的响应图作为最佳响应图，该响应图中最大值位置对应目标的中心位置；

步骤四、尺度估计：

1、依据已经确定的目标区域的位置和上一帧中估计的目标尺度，通过尺度金字塔方法对目标进行采样，获得S种不同尺度的候选目标样本；

3、利用尺度滤波器对S个目标特征进行尺度滤波，得到响应图，该响应图中响应值最大的点即对应当前输入图像中目标的精确尺度；

步骤五、模型更新：

1、位置滤波器模型更新

确定第t帧图像中目标区域的位置和尺度后，在第t+1帧跟踪前对位置滤波器和尺度滤波器分别进行更新：

计算对第t帧图像跟踪时响应图的APCE值，如果该值大于预先设定的阈值APCE₀，即APCE_t＞APCE₀，则对位置滤波器进行更新，否则不更新，对位置滤波器的更新方法为：α_t＝(1-η_p)α_t-1+η_pα(t)，其中α_t-1表示对第t帧图像跟踪前求得的滤波器模板，α(t)表示根据第t帧图像求得的滤波器模板，η_p为位置滤波器的学习率；

2、尺度滤波器模型更新

尺度滤波器的分子项、部分分母项可以分别用A、B表示，即

对第t帧图像跟踪后，对尺度滤波器进行更新，尺度滤波器的更新方法为：

其中η_s为尺度滤波器的学习率。

本发明与现有技术相比，具有以下优点：

1、该方法利用密集卷积网络(DenseNet)对图像特征进行提取，由于DenseNet网络层数较多，无论是浅层的位置信息还是深层的语义信息均能够有效提取。DenseNet网络较强的特征表示能力，将其与本发明的算法结合后，使得该算法具有了更高的跟踪精确度。

2、该方法针对不同属性的图像，依据响应图中APCE的值，自适应选择用于特征提取的DenseNet网络层，即自适应选择最佳的尺度滤波器，使得该算法具有较好的跟踪效果。

3、该方法采用多尺度采样技术，在跟踪过程中，能够适应目标尺度变化，实现对目标尺度的精确估计，因此该方法更具有实用性，便于推广使用。

4、该方法的模型更新策略中，并不是在每一帧跟踪后均对位置滤波器执行更新操作，而是根据APCE的取值自适应选择需要更新的帧，从而减少遮挡等场景下跟踪结果对模型的污染，使得跟踪算法具有更好的鲁棒性。

综上所述，本发明通过深度密集卷积网络的不同层提取目标特征，基于APCE(Average Peak-to-Correlation Energy)值自适应地选择最佳响应图，然后确定目标中心位置。在此基础上，进一步对目标尺度进行估计，能够适应目标尺度变化，准确确定目标的大小，选择性地对模型进行在线更新。算法精确度和成功率较高，实现了目标的鲁棒跟踪，易于在实际场景中推广应用。

附图说明：

图1为本发明方法的流程框图。

具体实施方式：

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

如图1所示，本发明提供的一种基于密集卷积网络特征的视觉目标跟踪方法，包括以下步骤：

步骤一、构建初始位置滤波器：

1、在经过手工标注的首帧图像中，已经明确了目标的中心位置和尺寸。根据目标位置，选取合适的ROI区域(Region of Interest,感兴趣区域)。

2、在密集卷积网络(DenseNet)中，选取五层，对首帧图像的ROI区域进行特征提取，得到五个不同的特征：

选定的五层的名称分别为：'conv1|relu'、'conv2_block6_concat'、'conv3_block12_concat'、'conv4_block48_concat'和'conv5_block32_concat'。

3、利用得到的五个特征，分别构建五个核相关滤波器(KCF₁～KCF₅)。通过高斯函数构建特征x的响应值y，根据公式

构建初始位置滤波器α，其中，

为y的傅里叶变换，

||·||表示2-范数，F^-1为傅里叶逆变换，x*为x的共轭，⊙为点乘运算，σ和λ_p为常数。

本发明中位置滤波器采用核相关滤波器(KCF)，可以判别被跟踪区域是目标还是背景，核函数的本质就是通过映射关系将特征从低维空间映射到高维空间，从而将低维空间中的线性不可分变为高维空间中的线性可分。核相关滤波器还引入循环矩阵实现了密集采样，同时利用矩阵循环矩阵在傅立叶空间可对角化等性质简化计算，显著提高跟踪速度。

步骤二、构建初始尺度滤波器：

1、在经过手工标注的首帧图像中，在已经标注的目标位置和大小基础上，通过尺度金字塔方法对目标进行采样，获得S种不同大小的候选目标样本，本实施例中S＝33。

2、在密集卷积网络(DenseNet)中，选取名称为pool4_Relu的DenseNet网络层，用于对S种不同目标样本进行特征提取，得到S个不同特征。

3、利用目标样本特征构建尺度滤波器。根据公式

构建初始尺度滤波器H^l，其中，l表示特征向量的维数，且l＝1,2,...,L，G为通过高斯函数构建的特征响应值g的傅里叶变换，G^*为G的共轭，F^k为第k维特征的傅里叶变换，λ_s为常数。

需要说明的是，通过首帧输入图像构建初始尺度滤波器，采用多尺度采样技术，跟踪过程中能够适应目标尺度变化，从而实现对目标尺度的精确估计。

步骤三、目标定位：

1、利用密集卷积网络(DenseNet)的五层对输入图像进行特征提取，得到五个不同的特征。

2、利用位置滤波器对五个不同特征分别进行位置滤波，获得五个不同的响应图。响应图的大小均为s×t，s为位置滤波响应图的行向像素数，t为位置滤波响应图的列向像素数。

3、分别计算五个响应图的APCE值(APCE₁～APCE₅)。APCE值的计算方法为：

其中F_max表示响应图中最大值，F_min表示响应图中最小值，F_w,h表示响应图中第w行、第h列的取值,mean表示取均值。选择APCE值最大的响应图作为最佳响应图。在最佳响应图中，最大值位置对应目标的中心位置。

需要说明的是，不同视频可能具有不同的属性，包括SV(尺度变化)、IV(光照变化)、OCC(目标遮挡)、DEF(目标形变)、MB(运动模糊)、FM(快速运动)、IPR(平面内旋转)、OPR(平面外旋转)、OV(目标超出视野)、BC(背景杂波)和LR(低分辨率)等。因此，针对不同视频应该在DenseNet网络中选取不同的层进行特征提取，这样才能保证每个视频的跟踪效果均为最好。分别计算五个响应图的APCE值，依据APCE值大小选择最佳响应图并确定目标中心位置。实现了DenseNet网络特征层的自适应选择，显著提高了跟踪精确度。

步骤四、尺度估计：

1、依据已经确定的目标位置和上一帧中估计的目标尺度，通过尺度金字塔方法对目标进行采样，获得S种不同尺度的候选目标样本。这里S＝33。

2、在密集卷积网络(DenseNet)中，选取DenseNet网络层的名称为pool4_Relu，对S种不同目标样本进行特征提取，得到S个不同特征。

3、利用尺度滤波器对S个目标特征进行尺度滤波，得到响应图。该响应图中响应值最大的点即对应当前输入图像中目标的精确尺度，实现当前输入图像的尺度估计。

步骤五、模型更新：

1、位置滤波器模型更新：

确定第t帧图像中目标的位置和尺度后，为了使得跟踪算法更加鲁棒，需要在第t+1帧跟踪前对位置滤波器和尺度滤波器分别进行更新。计算对第t帧图像跟踪时响应图的APCE值，如果该值大于预先设定的阈值APCE₀，即APCE_t＞APCE₀，则对位置滤波器进行更新，否则不更新。对位置滤波器的更新方法为：α_t＝(1-η_p)α_t-1+η_pα(t)，其中α_t-1表示对第t帧图像跟踪前求得的滤波器模板，α(t)表示根据第t帧图像求得的滤波器模板，η_p为位置滤波器的学习率。这里，APCE₀＝20，0<η_p<1。

2、尺度滤波器模型更新：

尺度滤波器的分子项、部分分母项可以分别用A、B表示，即

对第t帧图像跟踪后，需要对尺度滤波器进行更新，尺度滤波器的更新方法为：

其中η_s为尺度滤波器的学习率。这里，0<η_s<1。

Claims

1.一种基于密集卷积网络特征的视觉目标跟踪方法，其特征在于，包括以下步骤：

步骤一、构建初始位置滤波器

2、在密集卷积网络中，选取多层，对首帧图像的目标区域进行特征提取，得到多个不同的特征；利用密集卷积网络DenseNet对图像特征进行提取，无论是浅层的位置信息还是深层的语义信息均能够提取；

构建初始位置滤波器α，其中，

为y的傅里叶变换，

，

||·||表示2-范数，F^-1为傅里叶逆变换，x^*为x的共轭，⊙为点乘运算，σ和λ_p 为常数；

步骤二、构建初始尺度滤波器

3、根据公式

构建初始尺度滤波器H^l，其中，l表示特征向量的维数，且l＝1,2,...,L，

G为通过高斯函数构建的特征响应值g的傅里叶变换，G^*为G的共轭，F^k为第k维特征的傅里叶变换，λ_s为常数；

步骤三、目标定位

1、利用密集卷积网络的多层对输入图像进行特征提取，得到多个不同的特征；

3、分别计算多个响应图的APCE值，计算方法为：

其中F_max表示响应图中最大值，F_min表示响应图中最小值，F_w,h表示响应图中第w行、第h列的取值，mean表示取均值；选择APCE值最大的响应图作为最佳响应图，该响应图中最大值位置对应目标的中心位置；依据响应图中APCE的值，自适应选择用于特征提取的DenseNet网络层，即自适应选择最佳的尺度滤波器；

步骤四、尺度估计：

步骤五、模型更新：

1、位置滤波器模型更新

计算对第t帧图像跟踪时响应图的APCE值，如果该值大于预先设定的阈值APCE₀，即APCE_t＞APCE₀，则对位置滤波器进行更新，否则不更新，对位置滤波器的更新方法为：α_t ＝(1-η_p)α_t-1+η_pα(t)，其中α_t-1表示对第t帧图像跟踪前求得的滤波器模板，α(t)表示根据第t帧图像求得的滤波器模板，η_p为位置滤波器的学习率；

2、尺度滤波器模型更新

尺度滤波器的分子项、部分分母项可以分别用A、B表示，即A^l＝G^*⊙F^l、

，

、

，

其中η_s为尺度滤波器的学习率；

并且，

步骤四中，

在密集卷积网络DenseNet中，选取DenseNet网络层的名称为pool4_Relu，对S种不同目标样本进行特征提取，得到S个不同特征。