CN110246154B

CN110246154B - 一种基于ica-r多特征融合与自适应更新的视觉目标跟踪方法

Info

Publication number: CN110246154B
Application number: CN201910376926.3A
Authority: CN
Inventors: 罗元; 汪杰; 张毅; 陈顺; 李丹
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2022-12-27
Anticipated expiration: 2039-05-07
Also published as: CN110246154A

Abstract

本发明请求保护一种基于ICA‑R多特征融合与自适应更新的视觉目标跟踪方法，该方法首先利用微调后的VGG‑m网络得到深度调整，并结合参考独立成分分析的方法(Independent Component Analysis with Reference,ICA‑R)，将其与传统手工特征信息融合，得到更具判别性的特征。其次，在模型更新阶段，提出一种基于图像块中心移位欧式距离的自适应更新策略。最后在OTB‑2015，VOT‑2016两个标准跟踪数据集上进行测试，实验结果表明，利用深度特征与传统手工特征融合的方法能够很好地区分背景与目标，提出的视觉目标跟踪算法在应对目标超出视野、运动模糊、遮挡等因素的干扰下均表现出很好的鲁棒性与准确性，其中在OTB‑2015中的成功率达到65.2％,准确率达到86.3％，在VOT‑2016中的准确率排在第一。

Description

一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法。

背景技术

视觉目标跟踪(Visual Object Tracking)要求在一段视频序列中给定跟踪目标初始状态的情况下，预估目标的运动轨迹并自动跟踪。其往往通过时间和空间上的相关性，确定其在每一帧图像中的位置，并记录下运动轨迹，从而获得目标的运动情况。视觉目标跟踪技术在视频监控、视频分析、无人驾驶、无人机及人机交互等众多领域有着十分广泛的应用。近年来，特别是在人机交互方面，视觉目标跟踪作为一种方式来辅助其它指令，并持续稳定地跟踪选定的目标，从而实现了智能港口、无人驾驶等，受到学术界的广泛关注。国内外对视觉目标跟踪的研究主要是针对视频序列，例如对一段视频序列中的某个物体进行持续地跟踪，可以直观的看到跟踪目标的位置及形态的变化，从而解放了人眼，不需要时刻去关注着跟踪的目标。而目前投入实际应用的场景都还是一些干扰物较少，比较单一的场景，随着人工智能的发展，基于视觉目标跟踪的技术将逐步提高，在一些干扰较大的场景中依旧能实现稳定且快速的跟踪，而实现目标的自动跟踪，这也是现在以及将来人工智能的一个发展趋势。因此，视觉目标跟踪不仅有很深的理论价值，也具有广阔的应用前景。

对于背景干扰物较多、跟踪目标变化复杂等因素影响时，当前的视觉目标跟踪算法依旧会丢失跟踪目标，存在准确率较低，鲁棒性较差的问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种可以获得较高准确率与成功率，面对遮挡、形变、光照等变化时具有较好鲁棒性的基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法。本发明的技术方案如下：

一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其包括以下步骤：

S1，跟踪目标初始化，选定需要跟踪的目标，并采用高斯滤波将视频序列进行预处理，将预处理后的视频序列通过二维仿射变换得到多视角的信息，用k 表示其中的一个视角；

S2，选定深度卷积神经网络(VGG-m)网络模型提取目标的深度特征，采用梯度直方图特征(HOG)提取目标的形状特征，采用颜色特征(CN)提取目标的颜色特征，通过VGG-m网络模型中的第一个卷积层Conv1和最后一个卷积层Conv5分别提取深度特征

和

HOG提取形状特征F_H，CN提取颜色特征F_C，并进行初步融合得到初步融合后的单一视角特征为

S3，将S2中单一视角的融合特征

作为本一步中的混合信号，

作为参考信号，利用一单元快速参考独立成分分析(Independent Component Analysis withReference,ICA-R)算法将深度特征

和

和S2中单一视角融合后的特征

进行再次融合得到期望信号

S4，利用拉格朗日数乘法将多个视角融合得到特征图谱

其中V_k表示第k个视角中融合后得到的期望信号；

S5，采用相关核滤波(Kernel Correlation Filter，KCF)跟踪框架进行模型训练，得到当前帧的训练模型为：

其中z 为与F_final大小相同的候选图像块，

表示相关核，α表示正负样本移位过程中产生的样本，

表示样本α的傅里叶变换，F_final是S4中融合多个视角后得到的特征图谱；

S6，利用训练得到的目标表观模型对当前帧中的目标进行定位并跟踪；

S7，预估当前帧中跟踪目标的位置，输出当前帧中跟踪目标的位置。

进一步的，所述步骤S2预处理后的视频序列通过二维仿射变换得到多视角的信息，所述具体步骤包括：

S21:通过高斯滤波将原始视频序列中的图片降噪，增强图片的表示，便于后续中的特征提取；

S22：通过仿射变换，将降噪后的视频序列由单一视角变为多个视角，并用k 表示其中的一个视角；

进一步的，所述步骤S2通过VGG-m网络提取第一层Conv1和最后一层 Conv5的深度特征，并分别与HOG特征、CN特征进行初步融合，所述具体步骤包括：

S31:通过VGG-m网络分别提取目标的第一层(Conv1)和最后一层(Conv5) 的深度特征

和

然后利用HOG提取目标的形状特征F_H，CN提取目标的颜色特征F_C；

S32:通过二维仿射变换，将原始的二维信息扩展到三维信息，并用

表示其中的一个视角；

S33:利用步骤S21中的三种特征，在S22的单一视角中，利用计算元素点积的方法将这三种特征进行初步融合，公式如下：

其中，⊙表示元素之间的点积，k表示仿射变换后的一个视角。

进一步的，所述步骤S3利用一单元快速ICA-R算法将特征再次融合得到期望信号

具体包括：

S41:将

作为混合后的信号，

作为参考信号，利用ICA-R进行进一步特征融合；

S42:计算负熵J(s)，使得其最大，公式如下：

s.t.

其中，ρ是一个正的常数项，

表示线性激励函数，μ是一个均值为0的高斯变量，ε(·)是一个范数函数，

表示x的期望，相似性测量

被定义用来得到它的最小值，ξ是一个阈值；

S43：根据S32中计算得到的最大负熵，得出分别将

和

作为参考信号的特征为

和

S44:根据S32中得到的

和

计算单一视角中融合后的特征，公式如下：

进一步的，所述S5模型训练步骤包括：

S51：基于KCF的跟踪框架将跟踪问题看作分类问题，则优化问题可看作如下公式：

其中<·>表示内积，

表示表示映射到核空间，x_p,q表示负样本x通过循环移位得到的样本，y(p,q)表示回归目标，λ是正则化参数，用于控制过拟合，λ≥0，w表示正则化项，用于控制过拟合；

S52：将问题转化到傅里叶域，则S51中的优化问题变为如下公式：

ω＝∑α(p,q)φ(p,q)，α(p,q)表示正负样本移位过程中产生的样本，φ(p,q)表示傅里叶域的回归目标，ω表示映射到傅里叶域的目标函数；

S53：根据得到的特征F_final，得到当前帧的训练模型为：

进一步的，所述步骤S6训练得到的目标表观模型对当前帧中的目标进行定位并自适应更新跟踪，自适应更新步骤包括:

S61：计算前N_s帧中心块移位的欧式距离的平均值：

其中

表示第i帧与第i+1帧中心块移位的欧式距离，n表示总帧数，欧式距离的计算方式为

C_j表示当前帧中目标的中心位置，j表示第 j帧；

S62：后续视频序列中的N_s根据计算得到的中心块移位的欧式距离来判断，公式如下：

其中θ₁和θ₂表示提前设定好的阈值，得到N_s后，在后续的视频序列中每隔 N_s进行一次模型更新。

本发明的优点及有益效果如下：

本发明针对部分遮挡，完全遮挡，目标形变等较强的环境干扰时，提出了一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法。首先，在预处理阶段引入仿射变换来增加多视角，扩充原始图像的三维信息。其次，利用参考独立成分分析的方法(IndependentComponent Analysis with Reference,ICA-R) 将微调后VGG-m网络得到图像的深度特征、HOG提取的梯度特征和CN得到的颜色特征进行融合，得到更具判别性的表观特征。最后，本文提出一种基于图像块中心移位欧式距离的自适应更新策略，建立一个自适应更新池，根据不同的场景自动选择不同帧数进行更新，在减少计算量的同时降低了过拟合的风险。

附图说明

图1是本发明提供优选实施例基于ICA-R多特征融合与自适应更新的视觉目标跟踪流程图；

图2为ICA-R多特征融合的流程图；

图3为自适应更新的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1-3所示，一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，利用ICA-R将多种特征融合来获得更具判别性的表观模型，利用一种自适应更新策略来对模型进行在线自适应更新，其包括以下步骤:

S1，跟踪目标初始化，选定需要跟踪的目标，并采用基本的图像增强方式将视频序列进行预处理。将预处理后的视频序列通过二维仿射变换得到多视角的信息，用

表示其中的一个视角。

S2，选定VGG-m网络模型，HOG，CN来分别提取目标的深度特征，形状特征和颜色特征。通过VGG-m网络模型中的第一个卷积层(Conv1)和最后一个卷积层(Conv5)分别提取深度特征

和

HOG提取形状特征F_H，CN提取颜色特征F_C。

在单一视角中，将单层深度特征分别与HOG特征，CN特征进行简单的特征融合，得到

⊙表示元素之间的点积， k表示仿射变换后的一个视角。

S3，将

作为混合后的信号，

作为参考信号，利用一单元快速ICA-R 算法得到期望信号

利用

使得负熵J(s)最大，其中

约束条件为s.t.

其中，ρ是一个正的常数项，μ是一个均值为0的高斯变量，ε(·)是一个范数函数，

表示x的期望，相似性测量

被定义用来得到它的最小值，ξ是一个阈值。随后，将得到的

和

进行卷积操作得到期望信号，

表示将

作为参考信号得到的期望信号，

表示将

作为参考信号得到的期望信号，V_k是通过将

与

卷积得到的期望信号。

S4，利用拉格朗日数乘法得到最后包含多个视角的特征图谱

S5，采用KCF跟踪框架进行模型训练，得到当前帧的训练模型为：

其中z为与F_final大小相同的候选图像块，

表示相关核，F_final是学习到的目标表观模型。

S6，利用得到的目标表观模型对当前帧中的目标进行定位并跟踪。

S7，在一段视频序列中，预先设定一个初始值N_s，每隔N_s帧进行一次模型更新。

S8，计算前N_s帧中心块移位的欧式距离的平均值：

其中

表示第i帧与第i+1帧中心块移位的欧式距离。欧式距离的计算方式为

C_j表示当前帧中目标的中心位置，j表示第j帧。

S9，后续视频序列中的N_s根据计算得到的中心块移位的欧式距离来判断，公式如下：

其中θ₁和θ₂表示提前设定好的阈值。得到N_s后，在后续的视频序列中每隔N_s进行一次模型更新，循环往复便得到了连续的跟踪。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其特征在于，包括以下步骤：

S1，跟踪目标初始化，选定需要跟踪的目标，并采用高斯滤波将视频序列进行预处理，将预处理后的视频序列通过二维仿射变换得到多视角的信息，用k表示其中的一个视角；

S2，选定深度卷积神经网络VGG-m网络模型提取目标的深度特征，采用梯度直方图特征HOG提取目标的形状特征，采用颜色特征提取目标的颜色特征，通过VGG-m网络模型中的第一个卷积层Conv1和最后一个卷积层Conv5分别提取深度特征

和

S3，将S2中单一视角的融合特征

作为本一步中的混合信号，

作为参考信号，利用一单元快速参考独立成分分析ICA-R算法将深度特征

和

和S2中单一视角融合后的特征

进行再次融合得到期望信号

S4，利用拉格朗日数乘法将多个视角融合得到特征图谱

其中V_k表示第k个视角中融合后得到的期望信号；

S5，采用相关核滤波KCF跟踪框架进行模型训练，得到当前帧的训练模型为：

其中z为与F_final大小相同的候选图像块，

表示相关核，α表示正负样本移位过程中产生的样本，

2.根据权利要求1所述的一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其特征在于，所述步骤S2预处理后的视频序列通过二维仿射变换得到多视角的信息，具体步骤包括：

S22：通过仿射变换，将降噪后的视频序列由单一视角变为多个视角，并用k表示其中的一个视角。

3.根据权利要求1所述的一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其特征在于，所述步骤S2通过VGG-m网络提取第一层Conv1和最后一层Conv5的深度特征，并分别与HOG特征、CN特征进行初步融合，具体步骤包括：

S31:通过VGG-m网络分别提取目标的第一层(Conv1)和最后一层(Conv5)的深度特征

和

表示其中的一个视角；

4.根据权利要求3所述的一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其特征在于，所述步骤S3利用一单元快速ICA-R算法将特征再次融合得到期望信号

具体包括：

S41:将

作为混合后的信号，

作为参考信号，利用ICA-R进行进一步特征融合；

S42:计算负熵J(s)，使得其最大，公式如下：

其中，ρ是一个正的常数项，

表示x的期望，相似性测量

被定义用来得到它的最小值，ξ是一个阈值；

S43：根据S32中计算得到的最大负熵，得出分别将

和

作为参考信号的特征为

和

S44:根据S32中得到的

和

计算单一视角中融合后的特征，公式如下：

5.根据权利要求4所述的一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其特征在于，所述S5模型训练步骤包括：

其中<·>表示内积，

表示映射到核空间，x_p,q表示负样本x通过循环移位得到的样本，y(p,q)表示回归目标，λ是正则化参数，用于控制过拟合，λ≥0，w表示正则化项，用于控制过拟合；

S53：根据得到的特征F_final，得到当前帧的训练模型为：

6.根据权利要求5所述的一种基于ICA-R多特征融合与自适应更新的视觉目标跟踪方法，其特征在于，所述步骤S6训练得到的目标表观模型对当前帧中的目标进行定位并自适应更新跟踪，自适应更新步骤包括:

S61：计算前N_s帧中心块移位的欧式距离的平均值：

其中

C_j表示当前帧中目标的中心位置，j表示第j帧；

其中θ₁和θ₂表示提前设定好的阈值，得到N_s后，在后续的视频序列中每隔N_s进行一次模型更新。