CN113838088A

CN113838088A - 一种基于深度张量的高光谱视频目标跟踪方法

Info

Publication number: CN113838088A
Application number: CN202111003981.1A
Authority: CN
Inventors: 谷延锋; 牛昊晨; 高国明
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-24

Abstract

本发明提出一种基于深度张量的高光谱视频目标跟踪方法，从待跟踪的高光谱视频的初始帧中随机采样出张量样本集；对采集出的张量样本集进行基于张量表示的张量主成分分析获取投影矩阵；用投影矩阵将待跟踪高光谱视频帧映射到张量子空间；将投影后视频帧的候选区输入VGG‑M网络提取空间特征，候选区由上一帧目标区域按比例扩大得到；选取网络的浅层及深层输出作为特征图；将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪；本发明能够较好地实现针对高光谱视频的目标跟踪任务，打破RGB视频目标跟踪在感知目标材料性质方面的局限性。

Description

一种基于深度张量的高光谱视频目标跟踪方法

技术领域

本发明属于高光谱视频图像处理领域，涉及高光谱图像的特征提取及模板匹配，具体地，涉及一种基于深度张量的高光谱视频目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域的研究热点，是进一步分析理解图像深层信息，完成姿态估计等高级计算机视觉任务的前提和基础。在军事应用、交通控制、人机交互、增强现实、智能安防、车辆导航、视频字幕等诸多方面，目标跟踪都展现出了现实应用价值以及广泛的发展前景和空间。然而，灰度或彩色视频中的跟踪在描述目标的物理特性，特别是材料反射特性方面有其内在的局限性。在真实场景的目标跟踪任务中，存在局部遮挡、光照变化、目标变形、旋转、快速运动、背景杂波等诸多复杂因素，这些对于目标跟踪系统都是极大的限制和挑战。

高光谱数据作为“图谱合一”的图像立方体，其数据同时包含了空间和光谱信息，充分利用空谱联合信息进行物体分类和识别等计算机视觉领域的任务已经体现出了一定的优势。随着高光谱成像技术的发展，高光谱视频相机的研发与实现使得其能够应用在一些动态的场景，利用高光谱视频进行目标跟踪，使计算机视觉系统除了物体的形状、纹理和语义关系外，还可以有效地感知物体的材料，对于打破现有RGB目标跟踪技术限制、提升观测场景目标跟踪及理解能力，有着重要的研究价值和科学意义。

为此，本发明提出一种基于深度张量的高光谱视频目标跟踪方法针对近距高光谱视频完成目标跟踪任务。

发明内容

本发明提出了一种基于深度张量的高光谱视频目标跟踪方法，以相关滤波算法为基础，从基于张量表示的张量主成分分析和卷积神经网络的角度出发进行高光谱数据特征提取，并通过核函数映射的方式与相关滤波算法融合，对高光谱视频中的目标进行跟踪。本发明的目的是尽可能的利用高光谱数据所能提供的空谱信息，从而实现比现有RGB视频目标跟踪性能更优的高光谱视频目标跟踪。

本发明是通过以下方案实现的：

一种基于深度张量的高光谱视频目标跟踪方法：

步骤一：从待跟踪的高光谱视频的初始帧中随机采样出张量样本集；

步骤二：对采集出的张量样本集进行基于张量表示的张量主成分分析获取投影矩阵；

步骤三：用投影矩阵将待跟踪高光谱视频帧对应的张量块X映射到张量子空间；

步骤四：将投影后视频帧的候选区输入VGG-M网络提取空间特征，所述候选区由上一帧目标区域按比例扩大得到；

步骤五：选取网络的浅层及深层输出作为特征图；所述浅层为第一层卷积层，深层为第五层卷积层；

步骤六：将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪。

进一步地，在步骤一中，

在待跟踪的高光谱视频的初始帧所给出的目标区域及背景区域，分别取3×3×I₃大小的张量块各M/2个，组成3阶张量样本集

其中I₁、I₂、I₃分别为高光谱视频的空间维和光谱维的尺寸。

进一步地，在步骤二中，

所述张量主成分分析是将步骤1得到张量样本集

用三个维度上的投影矩阵

进行映射，映射后得到张量子空间的样本集

使得张量子空间样本集离散度最大，其中Pn代表第n维降维后的尺寸，取P₁＝I₁，P₂＝I₂，P₃＝3，

所述投影矩阵的求解过程如下：

首先定义Φ⁽ⁿ⁾如公式(1)所示：

其中，X_m(n)代表张量样本X_m的n-模展开矩阵，

代表张量样本均值

的n-模展开矩阵，

由公式(2)计算：

其中，投影矩阵

应由Φ⁽ⁿ⁾降序排列的前P_n个特征值所对应的特征向量组成，首先将三个投影矩阵按单位阵进行初始化，然后固定

则可以对

进行更新；再固定

可以对

进行更新，重复这个迭代过程，即可完成对三个投影矩阵

的计算。

进一步地，在步骤三中，

通过公式(3)将待跟踪帧对应的张量块X利用下式将其投影到张量子空间，得到投影后的视频帧Y：

进一步地，在步骤四中，

VGG-M网络的参数由ILSVRC-2012数据集上预训练得到，将上一帧目标的跟踪框扩大一定比例获得候选区，从投影后的视频帧Y中截取出对应的候选区，将其空间维缩放至224*224，减去数据集图像的均值，然后输入VGG-M网络。

进一步地，在步骤五中，

取VGG-M网络第一层卷积层和第五层卷积层的输出的均值作为候选区的特征图x_i，i＝1，2。

进一步地，在步骤六中，

通过相关滤波算法完成后续的匹配及跟踪任务；通过公式(4)得到滤波器：

其中，

为与候选区尺寸相同的理想高斯函数y的傅里叶变换；

λ为正则化系数，为常数；

为线性核函数矩阵的傅里叶变换，

融合多个特征图的线性核函数矩阵k^xx计算公式如下：

其中，F^-1表示傅里叶逆变换，⊙表示点积，^*表示共轭，^表示傅里叶变换；

从第二帧开始，需要对目标进行定位，响应response的计算公式如下：

其中,

表示历史帧的特征图的傅里叶变换；响应最大的位置即为当前帧的目标位置；

最后需要用当前帧的特征图以及滤波器对历史帧的特征图以及滤波器进行加权融合更新，公式如下：

其中t表示当前帧，t-1表示上一帧，β为权重常数。当t＝1，即初始帧时，β取0。

本发明有益效果

(1)本发明实现了利用高光谱视频进行目标跟踪的方法。该方法首先利用基于张量表示的张量主成分分析提取空谱特征，然后利用卷积神经网络VGG-M提取空间特征，接着通过核函数映射的方式将特征图融合，最后结合基于相关滤波的跟踪模型实现高光谱视频目标跟踪。对比现有的RGB视频目标跟踪方法，由于有效利用了高光谱数据所提供的丰富的空谱信息，该方法在降低算法复杂度，提高算法执行效率，实现实时跟踪的同时，在精度指标上也取得了很好的结果；

(2)为了验证本发明所提出方法的性能，针对一个高光谱视频数据集进行验证。数据来源于“Hyperspectral Object Tracking Challenge”大赛官方，包括40组训练集视频和35组测试集视频，每组视频内包括一个16波段(470-620nm)的高光谱视频，和一个以相同角度、距离、分辨率拍摄的RGB视频，每个视频约为500帧，视频帧数为25FPS，待跟踪目标在初始帧以其被包围的最小矩形框的顶点及长和宽的形式给出，目标涵盖车辆、人体、书籍、硬币等诸多类型，均为普通近距图像，非遥感图像。实验结果表明了本发明提出的基于深度张量的高光谱视频目标跟踪方法能够实现对高光谱视频中的目标实时、准确的跟踪。

附图说明

图1是本发明的实现流程图；

图2是视频组“face”的初始帧融合得到的假彩色图像；

图3是视频组“face”经张量主成分分析投影后的三个通道图像；

图4是VGG-M网络的结构图，方框表示VGG-M的网络层，每个方框分别标注的该层的类型及卷积核的大小、数目；圆角框表示输入X0及各网络层的输出Xi，并标注了每一层输出的尺寸；

图5是视频组“face”经VGG-M网络提取出的特征图，分别为浅层输出和深层输出；(a)为浅层输出，即第一层卷积层输出；(b)为深层输出，即第五层卷积层输出；

图6是在图5选取的特征图的基础上实现跟踪的结果图，其中待跟踪目标由灰色框标出。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1至图6，

一种基于深度张量的高光谱视频目标跟踪方法：

步骤六：将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪；

在步骤一中，如图2所示

在待跟踪的高光谱视频的初始帧所给出的目标区域(即图中浅灰色框内部分)及背景区域(即图中深灰色框内浅灰色框外部分)，分别取3×3×I₃大小的张量块各M/2个，组成3阶张量样本集

在步骤二中，

所述张量主成分分析是将步骤1得到张量样本集

用三个维度上的投影矩阵

进行映射，映射后得到张量子空间的样本集

所述投影矩阵的求解过程如下：

首先定义Φ⁽ⁿ⁾如公式(1)所示：

其中，X_m(n)代表张量样本X_m的n-模展开矩阵，

代表张量样本均值

的n-模展开矩阵，

由公式(2)计算：

其中，投影矩阵

则可以对

进行更新；再固定

可以对

进行更新，重复这个迭代过程，即可完成对三个投影矩阵

的计算。本发明的实验中进行了6次迭代。

在步骤三中，

投影后样本的三个通道如图3所示。

在步骤四中，

如图4，VGG-M网络的参数由ILSVRC-2012数据集上预训练得到，将上一帧目标的跟踪框扩大一定比例获得候选区，本发明实验取4.5倍，从投影后的视频帧Y中截取出对应的候选区，将其空间维缩放至224*224，减去数据集图像的均值，然后输入VGG-M网络。

在步骤五中，

取VGG-M网络第一层卷积层和第五层卷积层的输出的均值作为候选区的特征图x_i，i＝1，2。其输出的可视化效果图如图5所示。

在步骤六中，

其中，

为与候选区尺寸相同的理想高斯函数y的傅里叶变换；

λ为正则化系数，为常数；

为线性核函数矩阵的傅里叶变换，

融合多个特征图的线性核函数矩阵k^xx计算公式如下：

其中,

跟踪结果如图6所示。

本实验所用的数据由“Hyperspectral Object Tracking Challenge”大赛提供，每组视频内包括一个16波段(470-620nm)的高光谱视频作为待跟踪的视频，和一个以相同角度、距离、分辨率拍摄的RGB视频用于与现有RGB视频目标跟踪方法进行比较，每个视频约为500帧，视频帧数为25FPS，待跟踪目标在初始帧以其被包围的最小矩形框的顶点及长和宽的形式给出，目标涵盖车辆、人体、书籍、硬币等诸多类型，均为普通近距图像，非遥感图像；图2是视频组“face”初始帧；图3是视频组“face”的待跟踪帧经张量主成分分析投影后的三个通道图像；图4为VGG-M网络的结构图，方框表示VGG-M的网络层，每个方框分别标注的该层的类型及卷积核的大小、数目，圆角框表示输入X0及各网络层的输出Xi，并标注了每一层输出的尺寸；图5为投影后图像的候选区域(即由上一帧绿色框标注的目标区扩大得到的红色框标注区域)输入VGG-M网络提取出的特征图可视化结果，分别为浅层输出均值和深层输出均值；图6是利用本发明的方法对视频组“face”中高光谱视频的跟踪结果，从中截取了部分视频帧(#2、#49、#100、#140、#210)。从结果图可以看到，视频中的目标面部出现位移、旋转、模糊等情况时，本发明所提出的基于深度张量的高光谱视频目标跟踪方法都实现了良好的跟踪性能，同时在运行时也能达到实时的跟踪速率。

以上对本发明所提出的一种基于深度张量的高光谱视频目标跟踪方法，进行了详细介绍，对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。