CN113838088A - 一种基于深度张量的高光谱视频目标跟踪方法 - Google Patents

一种基于深度张量的高光谱视频目标跟踪方法 Download PDF

Info

Publication number
CN113838088A
CN113838088A CN202111003981.1A CN202111003981A CN113838088A CN 113838088 A CN113838088 A CN 113838088A CN 202111003981 A CN202111003981 A CN 202111003981A CN 113838088 A CN113838088 A CN 113838088A
Authority
CN
China
Prior art keywords
tensor
frame
video
target
hyperspectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111003981.1A
Other languages
English (en)
Inventor
谷延锋
牛昊晨
高国明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111003981.1A priority Critical patent/CN113838088A/zh
Publication of CN113838088A publication Critical patent/CN113838088A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于深度张量的高光谱视频目标跟踪方法,从待跟踪的高光谱视频的初始帧中随机采样出张量样本集;对采集出的张量样本集进行基于张量表示的张量主成分分析获取投影矩阵;用投影矩阵将待跟踪高光谱视频帧映射到张量子空间;将投影后视频帧的候选区输入VGG‑M网络提取空间特征,候选区由上一帧目标区域按比例扩大得到;选取网络的浅层及深层输出作为特征图;将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪;本发明能够较好地实现针对高光谱视频的目标跟踪任务,打破RGB视频目标跟踪在感知目标材料性质方面的局限性。

Description

一种基于深度张量的高光谱视频目标跟踪方法
技术领域
本发明属于高光谱视频图像处理领域,涉及高光谱图像的特征提取及模板匹配,具体地,涉及一种基于深度张量的高光谱视频目标跟踪方法。
背景技术
目标跟踪是计算机视觉领域的研究热点,是进一步分析理解图像深层信息,完成姿态估计等高级计算机视觉任务的前提和基础。在军事应用、交通控制、人机交互、增强现实、智能安防、车辆导航、视频字幕等诸多方面,目标跟踪都展现出了现实应用价值以及广泛的发展前景和空间。然而,灰度或彩色视频中的跟踪在描述目标的物理特性,特别是材料反射特性方面有其内在的局限性。在真实场景的目标跟踪任务中,存在局部遮挡、光照变化、目标变形、旋转、快速运动、背景杂波等诸多复杂因素,这些对于目标跟踪系统都是极大的限制和挑战。
高光谱数据作为“图谱合一”的图像立方体,其数据同时包含了空间和光谱信息,充分利用空谱联合信息进行物体分类和识别等计算机视觉领域的任务已经体现出了一定的优势。随着高光谱成像技术的发展,高光谱视频相机的研发与实现使得其能够应用在一些动态的场景,利用高光谱视频进行目标跟踪,使计算机视觉系统除了物体的形状、纹理和语义关系外,还可以有效地感知物体的材料,对于打破现有RGB目标跟踪技术限制、提升观测场景目标跟踪及理解能力,有着重要的研究价值和科学意义。
为此,本发明提出一种基于深度张量的高光谱视频目标跟踪方法针对近距高光谱视频完成目标跟踪任务。
发明内容
本发明提出了一种基于深度张量的高光谱视频目标跟踪方法,以相关滤波算法为基础,从基于张量表示的张量主成分分析和卷积神经网络的角度出发进行高光谱数据特征提取,并通过核函数映射的方式与相关滤波算法融合,对高光谱视频中的目标进行跟踪。本发明的目的是尽可能的利用高光谱数据所能提供的空谱信息,从而实现比现有RGB视频目标跟踪性能更优的高光谱视频目标跟踪。
本发明是通过以下方案实现的:
一种基于深度张量的高光谱视频目标跟踪方法:
步骤一:从待跟踪的高光谱视频的初始帧中随机采样出张量样本集;
步骤二:对采集出的张量样本集进行基于张量表示的张量主成分分析获取投影矩阵;
步骤三:用投影矩阵将待跟踪高光谱视频帧对应的张量块X映射到张量子空间;
步骤四:将投影后视频帧的候选区输入VGG-M网络提取空间特征,所述候选区由上一帧目标区域按比例扩大得到;
步骤五:选取网络的浅层及深层输出作为特征图;所述浅层为第一层卷积层,深层为第五层卷积层;
步骤六:将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪。
进一步地,在步骤一中,
在待跟踪的高光谱视频的初始帧所给出的目标区域及背景区域,分别取3×3×I3大小的张量块各M/2个,组成3阶张量样本集
Figure BDA0003236519720000021
其中I1、I2、I3分别为高光谱视频的空间维和光谱维的尺寸。
进一步地,在步骤二中,
所述张量主成分分析是将步骤1得到张量样本集
Figure BDA0003236519720000022
用三个维度上的投影矩阵
Figure BDA0003236519720000023
进行映射,映射后得到张量子空间的样本集
Figure BDA0003236519720000024
使得张量子空间样本集离散度最大,其中Pn代表第n维降维后的尺寸,取P1=I1,P2=I2,P3=3,
所述投影矩阵的求解过程如下:
首先定义Φ(n)如公式(1)所示:
Figure BDA0003236519720000025
其中,Xm(n)代表张量样本Xm的n-模展开矩阵,
Figure BDA0003236519720000026
代表张量样本均值
Figure BDA0003236519720000027
的n-模展开矩阵,
Figure BDA0003236519720000028
由公式(2)计算:
Figure BDA0003236519720000029
其中,投影矩阵
Figure BDA00032365197200000210
应由Φ(n)降序排列的前Pn个特征值所对应的特征向量组成,首先将三个投影矩阵按单位阵进行初始化,然后固定
Figure BDA0003236519720000031
则可以对
Figure BDA0003236519720000032
进行更新;再固定
Figure BDA0003236519720000033
可以对
Figure BDA0003236519720000034
进行更新,重复这个迭代过程,即可完成对三个投影矩阵
Figure BDA0003236519720000035
的计算。
进一步地,在步骤三中,
通过公式(3)将待跟踪帧对应的张量块X利用下式将其投影到张量子空间,得到投影后的视频帧Y:
Figure BDA0003236519720000036
进一步地,在步骤四中,
VGG-M网络的参数由ILSVRC-2012数据集上预训练得到,将上一帧目标的跟踪框扩大一定比例获得候选区,从投影后的视频帧Y中截取出对应的候选区,将其空间维缩放至224*224,减去数据集图像的均值,然后输入VGG-M网络。
进一步地,在步骤五中,
取VGG-M网络第一层卷积层和第五层卷积层的输出的均值作为候选区的特征图xi,i=1,2。
进一步地,在步骤六中,
通过相关滤波算法完成后续的匹配及跟踪任务;通过公式(4)得到滤波器:
Figure BDA0003236519720000037
其中,
Figure BDA0003236519720000038
为与候选区尺寸相同的理想高斯函数y的傅里叶变换;
λ为正则化系数,为常数;
Figure BDA0003236519720000039
为线性核函数矩阵的傅里叶变换,
融合多个特征图的线性核函数矩阵kxx计算公式如下:
Figure BDA00032365197200000310
其中,F-1表示傅里叶逆变换,⊙表示点积,*表示共轭,^表示傅里叶变换;
从第二帧开始,需要对目标进行定位,响应response的计算公式如下:
Figure BDA0003236519720000041
其中,
Figure BDA0003236519720000042
表示历史帧的特征图的傅里叶变换;响应最大的位置即为当前帧的目标位置;
最后需要用当前帧的特征图以及滤波器对历史帧的特征图以及滤波器进行加权融合更新,公式如下:
Figure BDA0003236519720000043
其中t表示当前帧,t-1表示上一帧,β为权重常数。当t=1,即初始帧时,β取0。
本发明有益效果
(1)本发明实现了利用高光谱视频进行目标跟踪的方法。该方法首先利用基于张量表示的张量主成分分析提取空谱特征,然后利用卷积神经网络VGG-M提取空间特征,接着通过核函数映射的方式将特征图融合,最后结合基于相关滤波的跟踪模型实现高光谱视频目标跟踪。对比现有的RGB视频目标跟踪方法,由于有效利用了高光谱数据所提供的丰富的空谱信息,该方法在降低算法复杂度,提高算法执行效率,实现实时跟踪的同时,在精度指标上也取得了很好的结果;
(2)为了验证本发明所提出方法的性能,针对一个高光谱视频数据集进行验证。数据来源于“Hyperspectral Object Tracking Challenge”大赛官方,包括40组训练集视频和35组测试集视频,每组视频内包括一个16波段(470-620nm)的高光谱视频,和一个以相同角度、距离、分辨率拍摄的RGB视频,每个视频约为500帧,视频帧数为25FPS,待跟踪目标在初始帧以其被包围的最小矩形框的顶点及长和宽的形式给出,目标涵盖车辆、人体、书籍、硬币等诸多类型,均为普通近距图像,非遥感图像。实验结果表明了本发明提出的基于深度张量的高光谱视频目标跟踪方法能够实现对高光谱视频中的目标实时、准确的跟踪。
附图说明
图1是本发明的实现流程图;
图2是视频组“face”的初始帧融合得到的假彩色图像;
图3是视频组“face”经张量主成分分析投影后的三个通道图像;
图4是VGG-M网络的结构图,方框表示VGG-M的网络层,每个方框分别标注的该层的类型及卷积核的大小、数目;圆角框表示输入X0及各网络层的输出Xi,并标注了每一层输出的尺寸;
图5是视频组“face”经VGG-M网络提取出的特征图,分别为浅层输出和深层输出;(a)为浅层输出,即第一层卷积层输出;(b)为深层输出,即第五层卷积层输出;
图6是在图5选取的特征图的基础上实现跟踪的结果图,其中待跟踪目标由灰色框标出。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1至图6,
一种基于深度张量的高光谱视频目标跟踪方法:
步骤一:从待跟踪的高光谱视频的初始帧中随机采样出张量样本集;
步骤二:对采集出的张量样本集进行基于张量表示的张量主成分分析获取投影矩阵;
步骤三:用投影矩阵将待跟踪高光谱视频帧对应的张量块X映射到张量子空间;
步骤四:将投影后视频帧的候选区输入VGG-M网络提取空间特征,所述候选区由上一帧目标区域按比例扩大得到;
步骤五:选取网络的浅层及深层输出作为特征图;所述浅层为第一层卷积层,深层为第五层卷积层;
步骤六:将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪;
在步骤一中,如图2所示
在待跟踪的高光谱视频的初始帧所给出的目标区域(即图中浅灰色框内部分)及背景区域(即图中深灰色框内浅灰色框外部分),分别取3×3×I3大小的张量块各M/2个,组成3阶张量样本集
Figure BDA0003236519720000051
其中I1、I2、I3分别为高光谱视频的空间维和光谱维的尺寸。
在步骤二中,
所述张量主成分分析是将步骤1得到张量样本集
Figure BDA0003236519720000052
用三个维度上的投影矩阵
Figure BDA0003236519720000053
进行映射,映射后得到张量子空间的样本集
Figure BDA0003236519720000061
使得张量子空间样本集离散度最大,其中Pn代表第n维降维后的尺寸,取P1=I1,P2=I2,P3=3,
所述投影矩阵的求解过程如下:
首先定义Φ(n)如公式(1)所示:
Figure BDA0003236519720000062
其中,Xm(n)代表张量样本Xm的n-模展开矩阵,
Figure BDA0003236519720000063
代表张量样本均值
Figure BDA0003236519720000064
的n-模展开矩阵,
Figure BDA0003236519720000065
由公式(2)计算:
Figure BDA0003236519720000066
其中,投影矩阵
Figure BDA0003236519720000067
应由Φ(n)降序排列的前Pn个特征值所对应的特征向量组成,首先将三个投影矩阵按单位阵进行初始化,然后固定
Figure BDA0003236519720000068
则可以对
Figure BDA0003236519720000069
进行更新;再固定
Figure BDA00032365197200000610
可以对
Figure BDA00032365197200000611
进行更新,重复这个迭代过程,即可完成对三个投影矩阵
Figure BDA00032365197200000612
的计算。本发明的实验中进行了6次迭代。
在步骤三中,
通过公式(3)将待跟踪帧对应的张量块X利用下式将其投影到张量子空间,得到投影后的视频帧Y:
Figure BDA00032365197200000613
投影后样本的三个通道如图3所示。
在步骤四中,
如图4,VGG-M网络的参数由ILSVRC-2012数据集上预训练得到,将上一帧目标的跟踪框扩大一定比例获得候选区,本发明实验取4.5倍,从投影后的视频帧Y中截取出对应的候选区,将其空间维缩放至224*224,减去数据集图像的均值,然后输入VGG-M网络。
在步骤五中,
取VGG-M网络第一层卷积层和第五层卷积层的输出的均值作为候选区的特征图xi,i=1,2。其输出的可视化效果图如图5所示。
在步骤六中,
通过相关滤波算法完成后续的匹配及跟踪任务;通过公式(4)得到滤波器:
Figure BDA0003236519720000071
其中,
Figure BDA0003236519720000072
为与候选区尺寸相同的理想高斯函数y的傅里叶变换;
λ为正则化系数,为常数;
Figure BDA0003236519720000073
为线性核函数矩阵的傅里叶变换,
融合多个特征图的线性核函数矩阵kxx计算公式如下:
Figure BDA0003236519720000074
其中,F-1表示傅里叶逆变换,⊙表示点积,*表示共轭,^表示傅里叶变换;
从第二帧开始,需要对目标进行定位,响应response的计算公式如下:
Figure BDA0003236519720000075
其中,
Figure BDA0003236519720000076
表示历史帧的特征图的傅里叶变换;响应最大的位置即为当前帧的目标位置;
最后需要用当前帧的特征图以及滤波器对历史帧的特征图以及滤波器进行加权融合更新,公式如下:
Figure BDA0003236519720000077
其中t表示当前帧,t-1表示上一帧,β为权重常数。当t=1,即初始帧时,β取0。
跟踪结果如图6所示。
本实验所用的数据由“Hyperspectral Object Tracking Challenge”大赛提供,每组视频内包括一个16波段(470-620nm)的高光谱视频作为待跟踪的视频,和一个以相同角度、距离、分辨率拍摄的RGB视频用于与现有RGB视频目标跟踪方法进行比较,每个视频约为500帧,视频帧数为25FPS,待跟踪目标在初始帧以其被包围的最小矩形框的顶点及长和宽的形式给出,目标涵盖车辆、人体、书籍、硬币等诸多类型,均为普通近距图像,非遥感图像;图2是视频组“face”初始帧;图3是视频组“face”的待跟踪帧经张量主成分分析投影后的三个通道图像;图4为VGG-M网络的结构图,方框表示VGG-M的网络层,每个方框分别标注的该层的类型及卷积核的大小、数目,圆角框表示输入X0及各网络层的输出Xi,并标注了每一层输出的尺寸;图5为投影后图像的候选区域(即由上一帧绿色框标注的目标区扩大得到的红色框标注区域)输入VGG-M网络提取出的特征图可视化结果,分别为浅层输出均值和深层输出均值;图6是利用本发明的方法对视频组“face”中高光谱视频的跟踪结果,从中截取了部分视频帧(#2、#49、#100、#140、#210)。从结果图可以看到,视频中的目标面部出现位移、旋转、模糊等情况时,本发明所提出的基于深度张量的高光谱视频目标跟踪方法都实现了良好的跟踪性能,同时在运行时也能达到实时的跟踪速率。
以上对本发明所提出的一种基于深度张量的高光谱视频目标跟踪方法,进行了详细介绍,对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种基于深度张量的高光谱视频目标跟踪方法,其特征在于:
步骤一:从待跟踪的高光谱视频的初始帧中随机采样出张量样本集;
步骤二:对采集出的张量样本集进行基于张量表示的张量主成分分析获取投影矩阵;
步骤三:用投影矩阵将待跟踪高光谱视频帧对应的张量块X映射到张量子空间;
步骤四:将投影后视频帧的候选区输入VGG-M网络提取空间特征,所述候选区由上一帧目标区域按比例扩大得到;
步骤五:选取网络的浅层及深层输出作为特征图;所述浅层为第一层卷积层,深层为第五层卷积层;
步骤六:将特征图通过核函数映射的方式融入基于相关滤波的目标跟踪模型实现跟踪。
2.根据权利要求1所述方法,其特征在于:在步骤一中,
在待跟踪的高光谱视频的初始帧所给出的目标区域及背景区域,分别取3×3×I3大小的张量块各M/2个,组成3阶张量样本集
Figure FDA0003236519710000011
其中I1、I2、I3分别为高光谱视频的空间维和光谱维的尺寸。
3.根据权利要求1所述方法,其特征在于:在步骤二中,
所述张量主成分分析是将步骤1得到张量样本集
Figure FDA0003236519710000012
用三个维度上的投影矩阵
Figure FDA0003236519710000013
进行映射,映射后得到张量子空间的样本集
Figure FDA0003236519710000014
使得张量子空间样本集离散度最大,其中Pn代表第n维降维后的尺寸,取P1=I1,P2=I2,P3=3,
所述投影矩阵的求解过程如下:
首先定义Φ(n)如公式(1)所示:
Figure FDA0003236519710000015
其中,Xm(n)代表张量样本Xm的n-模展开矩阵,
Figure FDA0003236519710000016
代表张量样本均值
Figure FDA0003236519710000017
的n-模展开矩阵,
Figure FDA0003236519710000018
由公式(2)计算:
Figure FDA0003236519710000021
其中,投影矩阵
Figure FDA0003236519710000022
应由Φ(n)降序排列的前Pn个特征值所对应的特征向量组成,首先将三个投影矩阵按单位阵进行初始化,然后固定
Figure FDA0003236519710000023
则可以对
Figure FDA0003236519710000024
进行更新;再固定
Figure FDA0003236519710000025
可以对
Figure FDA0003236519710000026
进行更新,重复这个迭代过程,即可完成对三个投影矩阵
Figure FDA0003236519710000027
的计算。
4.根据权利要求1所述方法,其特征在于:在步骤三中,
通过公式(3)将待跟踪帧对应的张量块X利用下式将其投影到张量子空间,得到投影后的视频帧Y:
Figure FDA0003236519710000028
5.根据权利要求1所述方法,其特征在于:在步骤四中,
VGG-M网络的参数由ILSVRC-2012数据集上预训练得到,将上一帧目标的跟踪框扩大一定比例获得候选区,从投影后的视频帧Y中截取出对应的候选区,将其空间维缩放至224*224,减去数据集图像的均值,然后输入VGG-M网络。
6.根据权利要求1所述方法,其特征在于:在步骤五中,
取VGG-M网络第一层卷积层和第五层卷积层的输出的均值作为候选区的特征图xi,i=1,2。
7.根据权利要求1所述方法,其特征在于:在步骤六中,
通过相关滤波算法完成后续的匹配及跟踪任务;通过公式(4)得到滤波器:
Figure FDA0003236519710000029
其中,
Figure FDA00032365197100000210
为与候选区尺寸相同的理想高斯函数y的傅里叶变换;
λ为正则化系数,为常数;
Figure FDA00032365197100000211
为线性核函数矩阵的傅里叶变换,
融合多个特征图的线性核函数矩阵kxx计算公式如下:
Figure FDA0003236519710000031
其中,F-1表示傅里叶逆变换,⊙表示点积,*表示共轭,^表示傅里叶变换;
从第二帧开始,需要对目标进行定位,响应response的计算公式如下:
Figure FDA0003236519710000032
其中,
Figure FDA0003236519710000033
表示历史帧的特征图的傅里叶变换;响应最大的位置即为当前帧的目标位置;
最后需要用当前帧的特征图以及滤波器对历史帧的特征图以及滤波器进行加权融合更新,公式如下:
Figure FDA0003236519710000034
其中t表示当前帧,t-1表示上一帧,β为权重常数。当t=1,即初始帧时,β取0。
CN202111003981.1A 2021-08-30 2021-08-30 一种基于深度张量的高光谱视频目标跟踪方法 Pending CN113838088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111003981.1A CN113838088A (zh) 2021-08-30 2021-08-30 一种基于深度张量的高光谱视频目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111003981.1A CN113838088A (zh) 2021-08-30 2021-08-30 一种基于深度张量的高光谱视频目标跟踪方法

Publications (1)

Publication Number Publication Date
CN113838088A true CN113838088A (zh) 2021-12-24

Family

ID=78961585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111003981.1A Pending CN113838088A (zh) 2021-08-30 2021-08-30 一种基于深度张量的高光谱视频目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113838088A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051896A (zh) * 2023-01-28 2023-05-02 西南交通大学 一种轻量化混合张量神经网络的高光谱图像分类方法
CN117893574A (zh) * 2024-03-14 2024-04-16 大连理工大学 基于相关滤波卷积神经网络的红外无人机目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051896A (zh) * 2023-01-28 2023-05-02 西南交通大学 一种轻量化混合张量神经网络的高光谱图像分类方法
CN117893574A (zh) * 2024-03-14 2024-04-16 大连理工大学 基于相关滤波卷积神经网络的红外无人机目标跟踪方法

Similar Documents

Publication Publication Date Title
Mayer et al. What makes good synthetic training data for learning disparity and optical flow estimation?
Rozantsev et al. On rendering synthetic images for training an object detector
Jin et al. A survey of infrared and visual image fusion methods
Yuan et al. Hyperspectral image superresolution by transfer learning
CN106469316B (zh) 基于超像素级信息融合的高光谱图像的分类方法及系统
CN110188705B (zh) 一种适用于车载系统的远距离交通标志检测识别方法
CN110363215B (zh) 基于生成式对抗网络的sar图像转化为光学图像的方法
CN108491849B (zh) 基于三维稠密连接卷积神经网络的高光谱图像分类方法
Fei et al. Visual tracking based on improved foreground detection and perceptual hashing
Bongsoo Choy et al. Enriching object detection with 2d-3d registration and continuous viewpoint estimation
CN107203745B (zh) 一种基于跨域学习的跨视角动作识别方法
CN112084868A (zh) 一种基于注意力机制的遥感图像中目标计数方法
Kniaz et al. Thermalnet: a deep convolutional network for synthetic thermal image generation
CN111027372A (zh) 一种基于单目视觉与深度学习的行人目标检测识别方法
Cai et al. MHA-Net: Multipath Hybrid Attention Network for building footprint extraction from high-resolution remote sensing imagery
CN113838088A (zh) 一种基于深度张量的高光谱视频目标跟踪方法
CN107609571B (zh) 一种基于lark特征的自适应目标跟踪方法
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN109344818B (zh) 一种基于深度卷积网络的光场显著目标检测方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN111680579B (zh) 一种自适应权重多视角度量学习的遥感图像分类方法
Hou et al. Spatial–spectral weighted and regularized tensor sparse correlation filter for object tracking in hyperspectral videos
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN116883588A (zh) 一种大场景下的三维点云快速稠密重建方法及系统
Jaffe et al. Remote sensor design for visual recognition with convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination