CN113177970A

CN113177970A - 基于自适应特征融合的多尺度滤波目标跟踪方法

Info

Publication number: CN113177970A
Application number: CN202110489264.8A
Authority: CN
Inventors: 张立国; 杨曼; 李枫; 金梅; 周思恩; 刘强; 李媛媛; 马子荐; 张淑清
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-27
Anticipated expiration: 2041-04-29
Also published as: CN113177970B

Abstract

本发明提供一种基于自适应特征融合的多尺度滤波目标跟踪方法，涉及目标跟踪技术领域。所述方法包括以下步骤：初始化网络模型，读取视频获取多个图像帧；目标位置预测，首先选取目标周围图像块，提取VGG‑19网络层特征与CN特征，将CN特征广播后与VGG‑19网络conv2‑2层特征直接串联融合，三层特征分别通过分类器进行分类，滤波模型输出响应，最后由粗到细利用经验权重加权融合响应评估目标位置，更新目标滤波器参数。本发明利用VGG19网络的分层特征结合颜色属性CN特征，进行滤波分别输出响应，以最大响应为基准，由粗到细加权融合响应评估目标位置。OPE检测结果表明，在目标变形、光照变化、运动模糊、平面旋转几个方面，方法可靠，精度高。

Description

基于自适应特征融合的多尺度滤波目标跟踪方法

技术领域

本发明涉及人工智能领域中的目标跟踪，特别是涉及一种基于自适应特征融合的多尺度滤波目标跟踪方法。

背景技术

随着人工智能技术的快速发展，现实生活中目标跟踪技术在视频监控、人机交互、运动分析、活动识别等方面的应用越来越广泛。同时也面临目标快速运动、目标遮挡、背景复杂变化、形态变化、噪声干扰等问题。

常见目标跟踪算法主要分为两大类，一类是基于深度特征的目标跟踪算法，一类是是基于相关滤波的目标跟踪算法，基于深度特征的目标跟踪算法，深度特征可以提取很好的图像特征，但是训练的数据集很大，需要很强的GPU计算能力，训练过程中很容易出现过拟合的现象，而且速度不高，在实际应用中，深度方法的泛化能力不强；而基于相关滤波的目标跟踪算法，速度很快。

目前相关滤波的目标跟踪算法中，Danelljan M等人提出的基于自适应颜色名跟踪(Color Name Tracking,CNT)，将颜色名称(Color Name,CN)特征应用于相关滤波框架中，CN算法引入了降维自适应颜色特征，提出了一个改进自适应低维颜色属性；而基于多特征相关滤波的红外目标跟踪方法，代码实现简单、能够快速有效的解决部分遮挡问题；而基于高速核相关滤波KCF(high-speed tracking with Kernelized Correlation Filters)跟踪算法最为经典，它具有快速训练、快速检测等特性。

CN、红外目标跟踪、KCF以上算法都是基于相关滤波框架基础上进行的改进，虽然改进的算法相比原来的算法有很大的进步，但是仍具有很多缺陷。CN算法敏感度增加了但是准确率就下降了；红外目标跟踪在仅采用灰度特征对背景变化明显场景跟踪效果较差；而KCF算法针对被遮挡、光照强度变化、颜色变化的问题，效果不是很佳。

发明内容

本发明的目的是为了解决KCF目标跟踪算法在目标变形、旋转、运动模糊等跟踪中存在的问题，提高KCF跟踪算法在目标跟踪中的精确度和成功率。提出了一种基于自适应特征融合的多尺度相关滤波跟踪算法。所述方法的基本内容包括以下步骤：

步骤1、读取视频并处理

首先初始化网络模块，然后读取网络视频，获取所述视频的视频流中Q个图像帧，并作相应处理。

步骤2、提取目标特征并融合

选取目标周围的n×n大小的图像块x，提取VGG-19网络层特征conv2-2、conv3-4、conv5-4层特征。同时提取CN特征，将CN特征广播后与conv2-2层特征直接串联融合得到conv2-2-CN。

步骤3、获取相关滤波响应图并推断目标位置

将步骤2中的各个特征循环移位图像块x_i(i∈{0,…,n-1}×{0,…,n-1})写成矩阵形式为：

然后用来训练分类器分类

并且经过相关滤波模型训练，得到各自对应的响应。根据最大响应，线性插值的方法进行缩放得到新的响应，由粗到细利用经验权重加权融合响应评估目标位置。

步骤4、尺度估计

在被测目标周围采集一系列尺度不同的图像块x_sl，提取m维HOG特征，利用这些图像块训练岭回归分类器，并在线性空间进行求解，获得一维的尺度相关滤波器，最后，相关滤波器的最大输出响应即为新的一帧中目标的尺度。

步骤5、判断结束条件

视频帧Q-1,判断视频帧Q是否等于0，如果是，则结束跟踪过程，否则跳转到下一帧的目标跟踪过程中，重复步骤2～步骤4。

本发明基于KCF滤波器跟踪框架，利用VGG19网络的分层特征以及底层结合颜色属性CN特征，分别代替HOG单特征进行滤波学习得到输出响应，并将响应图进行加权融合进而预测目标位置，并在尺度方面引入多尺度跟踪器。与现有技术相比，本发明具有以下有益效果：

实验表明，该方法不仅保证了相关滤波KCF跟踪速度快的特点，而且也提高了基于相关滤波KCF跟踪框架的跟踪精度，在运动模糊、尺度变化、离开视野、遮挡、背景杂乱、快速运动、低分辨率、变形、平面内旋转及平面外旋转情景中，精确度和成功率相比KCF跟踪算法均有所提高。并且，多模态的处理视频图像帧，可以增强网络的精度和准确性，使得模型的输入不再是单一的图像特征。

附图说明

图1是基于自适应特征融合的多尺度滤波目标跟踪方法的总体流程示意图；

图2是VGG19网络层结构图；

图3a是OPE结果的一遍过评测成功率图；

图3b是OPE结果的一遍过评测精度图；

图3c是OPE结果的目标变形成功率图；

图3d是OPE结果的目标变形精度图；

图3e是OPE结果的光照变化成功率图；

图3f是OPE结果的光照变化精度图；

图3g是OPE结果的运动模糊成功率图；

图3h是OPE结果的运动模糊精度图；

图3i是OPE结果的平面旋转成功率图；

图3j是OPE结果的平面旋转精度图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。

如图1所示本发明所述方法包括以下步骤：

步骤1、读取视频并处理：

首先初始化网络模块，然后读取网络视频，获取视频流中的Q个图像帧，将RGB图象做灰度变换并提取红外特征、深度特征构成三通道多模态图象作为模板。并以前一帧中的估计位置为中心裁剪大小为n×n的搜索窗口。

步骤2、提取特征并融合具体步骤如下：

步骤2.1采用在ImageNet上训练的，图2所示VGG19进行特征提取。在给定的大小为n×n的搜索窗口的图像帧上，设定一个空间大小为

用来调整每个卷积层的特征大小。首先删除全连接层，并用conv2-2、conv3-4、conv5-4卷积的输出作为特征。

步骤2.2同时，提取CN特征。将RGB空间转化成了11维的颜色特征空间，并利用主成分分析法(PCA)将11维颜色特征降为2维颜色特征，经过广播与conv2-2层特征向量格式一样，再与conv2-2层特征直接串联融合。具体提取颜色特征为：

利用最小化公式(2)可以得到当前t帧的合适的降维图：

其中，

是仅取决于当前帧的数据项；

是与权重α₁,…,α_t有关的平滑项。

D1维学习的外观特征

在标准正交D1×D2基础上寻找投影矩阵B_t，新的D2维学习的外观特征

可以根据线性映射得到，如式(3)所示。

针对大小为M×N的目标区域，数据项

如式(4)所示，包含当前外观特征的重构误差，式(4)的最小化即为当前外观特征上的PCA降维。

为了获得更加鲁棒的投影矩阵，将平滑项加入式(2)中，可以得到新投影矩阵B_t和先前投影矩阵B_j之间的平滑误差，计算公式如式(5)所示。

其中，B_i中每个基本向量

的权重

满足：

联合数据项(4)式和平滑项(5)式，并在约束条件

下，将损失函数最小化，即可求出响应分数

如式(6)所示。

其中，F^-1表示傅里叶逆变换，

表示卷积，A表示分类器的系数，

表示在线学习的目标外观特征，F(.)表示离散傅里叶变换(DFT)算子，k(x，x)是核函数。。

然后将CN特征广播成与conv2-2层特征格式一致的矩阵进行相加，最后得到conv5-4层特征、conv3-4层特征、conv2-2-CN特征的矩阵形式。

步骤3、获取相关滤波响应图并推断目标位置，具体步骤如下：

步骤3.1获取循环样本矩阵。KCF算法的核心思想是循环移位跟踪目标区域,并以此构造大量的样本来训练分类器。选取目标周围n×n大小的图像块x，然后用来训练分类器

循环移位图像块x_i(i∈{0,…,n-1}×{0,…,n-1})写成矩阵形式为：

利用循环矩阵扩大样本数量，提高分类器的训练效果。循环矩阵经离散傅里叶变换(Discrete Fourier Transform,DFT)对角化为：

X＝F^Hdiag(F_x)F (7)

其中，F^H是F的埃尔米特变换，F为离散傅里叶变换矩阵。

步骤3.2训练分类器。此问题可以转化为正则化最小二乘问题，对于所有训练样本X和预期输出Y，分类器权重ω由优化目标函数(8)求解。

其中，x_i是通过循环移位获得的训练样本；y_i是x_i高斯标签；λ是正则化参数；φ是核k诱导的高维特征空间的映射。因此，式(8)的解可以表示为:

其中ω是线性低维空间权重系数，α是从核函数映射到非线性高维空间系数。

对于在原始空间不能进行分类的样本，引入核函数的相关概念，核函数的思想就是将低维的线性不可分问题映射到高维空间，使问题在高维空间线性可分。假设H是某种特征空间；如果存在某个映射φ(x):x→H，则核函数k(x,x)满足的内积如下:

k(x,x′)＝φ^T(x)φ(x′) (10)

联立式(8)、(9)和(10)可以将分类器权重ω的求解转化为求解分类器系数A为：

其中F(.)是离散傅里叶变换(DFT)算子，k(x，x)是核函数。

步骤3.3目标检测。检测样本是下一帧中相同位置的图像块z，分类器响应输出:

其中

表示卷积运算；F^-1表示傅里叶逆变换；

表示在线学习的目标外观模型。根据式(12)获得所有测试样品响应向量

对物体预测位置的最大响应的位置。

将三个层的特征按步骤3.1至3.3的方法，训练出三个独立的目标位置相关滤波器模型

并计算相应的滤波输出响应

和

以最大输出响应为基准，即以conv2-2-CN特征的滤波输出响应为基准，利用线性三次样条插值的方法进行缩放，得到相应的调整后的滤波输出响应

和

步骤3.4然后对三个层的输出响应值利用经验权重加权融合。因为最后一个卷积层的响应图对外观变化鲁棒性强，所以，根据经验将权重参数从第l层减少一半到第(l-1)层，即l层的权重ε_l满足式(13)：

ε_l＝2^l-5 (13)

但是，conv2-2层加入CN特征，对光照变化敏感，所以，conv2-2层特征的权重选择与conv3-4层一样，假设加权融合后响应值最大的位置是(m,n)处。则根据公式(14)进行目标位置P(m,n)的预测：

步骤3.5参数更新。一般通过线性插值法更新目标表观模型

和分类器系数A。更新公式为式(15)：

其中，γ为学习率；

为第t帧的目标表观模型；

为第t帧的分类器系数。

步骤4尺度估计。在被测目标周围采集一系列尺度不同的图像块x_sl，用图像块x_sl训练岭回归分类器，可以得到尺度相关滤波器的目标外观模板

和分类器系数

线性三样差值发求解更新目标表观模型

和分类器系数A。更新公式为式(16):

然后，尺度相关滤波器的输出响应为：

寻找

的最大值，即为新一帧中目标的尺度。

步骤5视频帧Q-1,判断视频帧Q是否等于0，如果是，则结束跟踪过程，否则跳转到下一帧的目标跟踪过程中，重复步骤2～步骤4。

基于标准目标跟踪数据集OTB(Object Tracking Benchmark)100，分别将本发明算法与近年的几个跟踪算法进行全部视频序列的测试，并使用一次通过评估(OPE，one-pass evaluation)模式，计算精确度(precision)和成功率(success)。OPE检测结果表明，在目标变形、光照变化、运动模糊、平面旋转几个方面，本发明算法优于KCF、HCF、SRDCF、Siamfc3s、DCFNet、LCT、CNNSVM、DLSSVM跟踪算法。尤其是，本发明是基于KCF滤波器进行改进的算法，相比于KCF滤波器跟踪算法，一遍过评精度提高13.6％，成功率提高11.8％。

具体的如图3a-图3j所示本发明与其他几种当前流行算法的比较的实验结果：

如图3a-图3b所示本文算法相比于KCF滤波器跟踪算法，一遍成功率提高11.8％，一遍过评精度提高13.6％、相比于SRDCF算法，一遍过评测成功率提高0.3％，一遍过评精度提高2.4％、相比于Siamfc3s算法，一遍过评测成功率提高1.7％，一遍过评精度提高6.8％、相比于DCFNet算法，一遍过评测成功率提高1.9％，一遍过评精度提高8.6％、相比于HCF算法，一遍过评测成功率提高3.8％，一遍过评精度提高0.2％、相比于LCT算法，一遍过评测成功率提高3.9％，一遍过评精度提高7.8％、相比于CNNSVM算法，一遍过评测成功率提高4.5％，一遍过评精度提高2.4％、相比于DLSSVM算法，一遍过评测成功率提高6.3％，一遍过评精度提高7.8％；

如图3c-图3d所示在目标变形方面：本文算法相比于KCF滤波器跟踪算法，一遍成功率提高11.8％，一遍过评精度提高16.6％、相比于CNNSVM算法，一遍过评测成功率提高1.8％,一遍过评精度提高0.2％、相比于SRDCF算法，一遍过评测成功率提高2.4％，一遍过评精度提高6.9％、相比于HCF算法，一遍过评测成功率提高3.6％、一遍过评精度提高0.9％、相比于DLSSVM算法，一遍过评测成功率提高5.6％，一遍过评精度提高7.6％、相比于Siamfc3s算法，一遍过评测成功率提高5.9％、一遍过评精度提高10.8％、相比于DCFNet算法，一遍过评测成功率提高6.6％、一遍过评精度提高12.3％、相比于LCT算法，一遍过评测成功率提高6.8％，一遍过评精度提高11.2％；

如图3e-图3f所示在光照变化方面：本文算法相比于KCF滤波器跟踪算法，一遍成功率提高11.8％，一遍过评精度提高10.3％、相比于HCF算法，一遍过评测成功率提高7.1％，一遍过评精度提高2.6％、相比于CNNSVM算法，一遍过评测成功率提高7.3％，一遍过评精度提高4.2％、相比于SRDCF算法，一遍过评测成功率与之相当，一遍过评精度提高5.4％、相比于LCT算法，一遍过评测成功率提高4.7％，一遍过评精度提高9.8％、相比于Siamfc3s算法，一遍过评测成功率提高4.2％，一遍过评精度提高10.5％、相比于DCFNet算法，一遍过评测成功率提高2.8％、一遍过评精度提高11.4％、相比于DLSSVM算法，一遍过评测成功率提高9.2％，一遍过评精度提高12.2％；

如图3g-图3h所示在运动模糊方面：本文算法相比于KCF滤波器跟踪算法，一遍成功率提高14.6％，一遍过评精度提高17.7％、相比于HCF算法，一遍过评测成功率提高3.9％,一遍过评精度与之相当、相比于SRDCF算法，一遍过评测成功率提高3.2％、一遍过评精度提高4.3％、相比于CNNSVM算法，一遍过评测成功率提高4.5％、一遍过评精度提高4.6％、相比于DLSSVM算法，一遍过评测成功率提高5.5％，一遍过评精度提高7.8％、相比于Siamfc3s算法，一遍过评测成功率提高7.2％，一遍过评精度提高9.5％、相比于DCFNet算法，一遍过评测成功率提高7.6％，一遍过评精度提高13.2％、相比于LCT算法，一遍过评测成功率提高9.2％，一遍过评精度提高13.8％；

如图3i-图3j所示在平面旋转方面：本文算法相比于KCF滤波器跟踪算法，一遍成功率提高11.3％，一遍过评精度提高15.5％、相比于HCF算法，一遍过评测成功率提高3.3％，一遍过评精度提高1.8％、相比于CNNSVM算法，一遍过评测成功率提高4.5％，一遍过评精度提高4.6％、本文算法相比于LCT算法，一遍过评测成功率提高3.7％，一遍过评精度提高9.1％、相比于DLSSVM算法，一遍过评测成功率提高6.1％，一遍过评精度提高9.8％、相比于Siamfc3s算法，一遍过评测成功率提高3.5％，一遍过评精度提高12.8％、相比于DCFNet算法，一遍过评测成功率提高3.3％，一遍过评精度提高12.9％、相比于SRDCF算法，一遍过评测成功率提高5.1％，一遍过评精度提高13％。

本发明结合前述描述，提出基于VGG网络及CN特征融合的KCF跟踪方法，在目标位置检测部分，利用VGG-19网络中的conv2-2、conv3-4、conv5-4层的特征，并在conv2-2层直接相加CN特征，并将三层的输出响应线性三样插值后由粗到细利用经验权重加权融合，并相应的在线更新参数；在尺度检测部分，在目标检测出后，在目标周围提取一系列不同尺度的图像块，进行HOG特征提取，并训练岭回归分类器，经KCF滤波并寻找使输出响应最大的值，作为目标尺度。在目标变形、光照变化、运动模糊、平面旋转几个方面，本发明有效的提高了目标跟踪的准确性，证明了本发明的实际意义以及其创新价值。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：包括如下步骤：

S1：读取视频并处理，具体包括初始化网络模型，读取网络视频，获取所述视频的视频流中Q个图像帧，裁剪图像大小；

S2：调整VGG19网络每个卷积层的特征大小，删除全连接层，选取VGG19网络中包含高层语义特征和浅层网络所代表的空间特征的conv2-2层特征、conv3-4层特征和conv5-4层特征；

S3：提取CN特征，包括将RGB空间转化成了11维的颜色特征空间，并利用主成分分析法(PCA)将11维颜色特征降为2维颜色特征；

S4：形成新的conv2-2-CN层特征，包括将CN特征广播成与conv2-2层特征格式一致的矩阵，并与所述conv2-2层特征串联融合形成conv2-2-CN层特征；

S5：得到conv5-4层特征、conv3-4层特征、conv2-2-CN层特征的矩阵形式；

S6：根据各层特征获取循环样本矩阵，训练分类器

训练出三个独立的目标位置相关滤波器模型，计算相应的滤波输出响应；

S7：以最大输出响应为基准，用线性三次插值的方法对三个层的输出响应进行缩放调整，对调整后三个层的输出响应值进行加权融合；

S8：更新目标滤波器参数；

S9：目标尺度估计

在被测目标周围采集一系列尺度不同的图像块x_sl，提取m维HOG特征，利用这些图像块训练岭回归分类器，并在线性空间进行求解，获得一维的尺度相关滤波器，将一维的尺度相关滤波器的最大输出响应作为新的一帧中目标的尺度，更新尺度滤波器参数；

S10：Q-1后,判断Q是否等于0，如果是则结束跟踪过程，否则跳转到下一帧的目标跟踪过程中，重复S2～S9。

2.根据权利要求1所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：获取视频流中的Q个图像帧，将RGB图象做灰度变换并提取红外特征、深度特征构成三通道多模态图象作为模板。

3.根据权利要求2所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：裁剪图像大小，是以前一图像帧的估计位置为中心裁剪图像帧大小为n×n的搜索窗口。

4.根据权利要求3所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：调整VGG19网络每个卷积层的特征大小，是在在给定的大小为n×n的搜索窗口的图像帧上，设定一个空间大小为

5.根据权利要求4所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：提取CN特征具体步骤如下：

S1：利用最小化公式(2)可以得到当前t帧的合适的降维图：

其中，

是仅取决于当前帧的数据项；

是与权重α₁,...,α_t有关的平滑项；

S2：D1维学习的外观特征

可以根据线性映射得到，如式(3)所示；

针对大小为M×N的目标区域，数据项

如式(4)所示，包含当前外观特征的重构误差，式(4)的最小化即为当前外观特征上的PCA降维；

S3：为了获得更加鲁棒的投影矩阵，将平滑项加入式(2)中，可以得到新投影矩阵B_t和先前投影矩阵B_j之间的平滑误差，计算公式如式(5)所示；

其中，B_i中每个基本向量

的权重

满足：

联合数据项(4)式和平滑项(5)式，并在约束条件

下，将损失函数最小化，即可求出响应分数

如式(6)所示；

其中，F^-1表示傅里叶逆变换，

表示卷积，A表示分类器的系数，

表示在线学习的目标外观特征，F(.)表示离散傅里叶变换(DFT)算子，k(x，x)是核函数。

6.根据权利要求5所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：根据各层特征获取循环样本矩阵，训练分类器

训练出三个独立的目标位置相关滤波器模型具体步骤如下：

S1:根据各层特征获取循环样本矩阵，循环移位图像块,x_i(i∈{0,…,n-1}×{0,…,n-1})写成特征循环移位矩阵(1)形式为：

循环矩阵经离散傅里叶变换(Discrete Fourier Transform,DFT)对角化为：

X＝F^Hdiag(F_x)F (7)

其中，F^H是F的埃尔米特变换，F为离散傅里叶变换矩阵；

S2:训练分类器

对于所有训练样本X和预期输出Y，分类器权重ω由优化目标函数(8)求解；

x_i是通过循环移位获得的训练样本；y_i是x_i高斯标签；λ是正则化参数；φ是核k诱导的高维特征空间的映射，因此，式(8)的解可以表示为:

其中ω是线性低维空间权重系数，α是从核函数映射到非线性高维空间系数；

对于在原始空间不能进行分类的样本，引入核函数的相关概念，核函数的思想就是将低维的线性不可分问题映射到高维空间，使问题在高维空间线性可分，假设H是某种特征空间；如果存在某个映射φ(x):x→H，则核函数k(x,x)满足的内积如下:

k(x,x′)＝φ^T(x)φ(x′) (10)

其中F(.)是离散傅里叶变换(DFT)算子，k(x，x)是核函数；

S3:分类器响应输出:

其中

表示卷积运算；F^-1表示傅里叶逆变换；

表示在线学习的目标外观模型，根据式(12)获得所有测试样品响应向量

对物体预测位置的最大响应的位置。

7.根据权利要求6所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：对调整后三个层的输出响应值进行加权融合，具体步骤如下：

S1:根据经验将权重参数从第l层减少一半到第(l-1)层，即l层的权重ε_l满足式(13)：

ε_l＝2^l-5 (13)

S2:conv2-2-CN层特征的权重选择与conv3-4层一样，假设加权融合后响应值最大的位置是(m,n)处，则根据公式(14)进行目标位置P(m,n)的预测：

8.根据权利要求7所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：线性三次插值更新目标滤波器参数,更新目标表观模型

和分类器系数A，更新公式为式(15)：

其中，γ为学习率；

为第t帧的目标表观模型；

为第t帧的分类器系数。

9.根据权利要求1所述基于自适应特征融合的多尺度滤波目标跟踪方法，其特征在于：线性三次插值更新尺度滤波器参数,更新目标表观模型

和分类器系数A，更新公式为式(16)：