CN112816474B

CN112816474B - 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法

Info

Publication number: CN112816474B
Application number: CN202110017726.6A
Authority: CN
Inventors: 刘桢杞; 王心宇; 钟燕飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2022-02-01
Anticipated expiration: 2041-01-07
Also published as: CN112816474A

Abstract

本发明涉及一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法。本发明设计了基于目标感知的深度孪生网络高光谱目标跟踪框架，相比于现有高光谱目标跟踪模型，本发明提升了算法处理速度以及精度。本发明设计了高光谱目标感知模型用以提取高光谱目标的语义特征，增加了网络对高光谱视频目标的表征能力。设计了自适应边界框预测模块，可以直接预测出目标的边界框。本发明可以解决用于深度学习模型训练的高光谱训练样本少的问题，相比于现有高光谱目标跟踪模型，本发明提升了算法处理速度以及精度。

Description

一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法

技术领域

本发明基于计算视觉技术处理领域，特别涉及一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法。

背景技术

视频目标跟踪由于其拥有广泛的应用一直是广大学者研究的热点。由于RGB视频目标跟踪对于与环境相似的目标不敏感，导致基于RGB视频的目标跟踪算法跟踪这类目标时容易失败。而高光谱视频拥有丰富的光谱信息，即使目标与环境相似(BackgroundClutters)，只要目标材质与环境不同，那么也能通过光谱信息来区分目标与环境，从而获得更好的跟踪结果。因此，高光谱视频在目标与其周围环境难以区分的情况下能够发挥重要的作用。在此基础上，高光谱视频目标跟踪也吸引了越来越多研究学者的关注。

与此同时，高光谱视频目标跟踪是一项艰巨的任务。其一，目前高光谱视频目标跟踪算法都是使用传统手工特征表征目标的特征，难以适应高时间-高空间-高光谱这种高维非线性三高影像。其二，现有的高光谱深度学习目标跟踪器都是基于伪彩色的跟踪器，没有使用高光谱的语义特征，难以表征出高光谱目标的特性。上述两类情况都会导致算法计算量大，处理速度慢。其三，现有的高光谱高算法多使用多尺度搜索或者生成多个候选区域的方法进行预测，这使得网络计算量进一步加大。由于上述几个问题存在，导致目前高光谱视频目标跟踪算法表现较差。

发明内容

本发明的目的在于提出一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法。

本发明所提供的这种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，具有以下三个显著特点。一是设计了基于深度孪生网络的高光谱视频目标跟踪框架。二是设计了高光谱目标感知模块，利用高光谱语义特征表征高光谱目标，获取更有判别性的特征。三是设计自适应边界框预测模块，在不需要多尺度搜索与多个候选区域预测的情况下直接预测目标的尺度和位置，相比基于手工特征的高光谱跟踪器与基于伪彩色的跟踪器处理速度提升数十倍。

本发明提供基于目标感知的深度孪生网络高光谱视频目标跟踪方法，实现步骤如下：

步骤1，高光谱视频数据预处理；

步骤2，载入基于孪生网络的自适应边界框的RGB模型；

将高光谱视频帧中的任意三个波段提取出来组成伪彩色视频帧Y_{i_rgb}输入RGB模型，得到RGB模型的最终输出(clsmap_rgb，locmap_rgb)，其中clsmap_rgb为分类特征图，locmap_rgb为最终的回归特征图，所述RGB模型由孪生网络构成，包括结构相同的模板分支1和搜索分支1，其具体结构包括骨干网络和多组自适应边界框预测模块，自适应边界框预测模块包括分类分支和回归分支；

步骤3，使用高光谱目标感知模块预测高光谱目标类别；

将高光谱视频帧输入高光谱目标感知模块，得到高光谱目标感知模块最终输出的分类特征图clsmap；所述高光谱目标感知模块由孪生网络构成，包括结构相同的模板分支2和搜索分支2，其具体结构包括骨干网络和多组高光谱目标感知预测模块，高光谱目标感知预测模块的结构与RGB模型的自适应边界框预测模块的分类分支的网络结构相同；

步骤4，将高光谱目标感知模块输出的clsmap与RGB模型输出的clsmap_rgb进行加权融合得到最终的clsmap_f；

步骤5，将得到clsmap_f输入到交叉熵损失函数中，输出loss值，反向传播loss值更新网络模型参数，最终得到优化后的网络模型f_network(·)；

步骤6，将包含待跟踪目标的高光谱视频帧Xi输入到网络模型f_network(·)中的模板分支，包括RGB模型的模板分支1以及高光谱目标感知模块的模板分支2，将后续帧X_i+1，X_i+2，X_i+3…X_i+n依次输入到网络模型f_network(·)的搜索分支，包括RGB模型的搜索分支2以及高光谱目标感知模块的搜索分支2，得到locmap_rgb与clsmap_f，通过clsmap_f预测出目标类别，通过locmap_rgb预测出目标的边界框，最终得到目标的跟踪结果。

进一步的，所述步骤1的实现方式如下，

步骤1.1，将高光谱视频数据转化为一帧帧连续的图像X_i；

步骤1.2，将含有目标的高光谱视频图像帧X_i全部resize成511×511×C大小的高光谱视频图像帧Y_i，C为高光谱视频帧的通道数。

进一步的，RGB模型和高光谱目标感知模块中的骨干网络均为resnet50。

进一步的，所述步骤2的实现方式如下，

步骤2.1，将高光谱视频帧Y_i中的任意三个波段提取出来组成伪彩色视频帧Y_{i_rgb}输入RGB模型，RGB模型由孪生网络构成，模板帧Y_{i_rgb_t}输入RGB孪生网络的模板分支1，模板帧Y_{i_rgb_t}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_rgb_t，feature3_rgb_t，feature2_rgb_t；搜索帧Y_{i+n_rgb_s}输入RGB孪生网络的搜索分支1，搜索帧Y_{i+n_rgb_s}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_rgb_s，feature3_rgb_s，feature2_rgb_s；

步骤2.2，将(feature2_rgb_t，feature2_rgb_s)，(feature3_rgb_t，feature3_rgb_s)，(feature4_rgb_t，feature4_rgb_s)分成3组分别通过3个自适应边界框预测模块输出3组结果(clsmap_rgb_2，locmap_rgb_2)，(clsmap_rgb_3，locmap_rgb_3)，(clsmap_rgb_4，locmap_rgb_4)；将三组结果分别加权融合得到RGB模型最终输出的(clsmap_rgb，locmap_rgb)。所述自适应边界框预测模块包含分类预测模块与回归预测模块，将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-分类预测头”得到分类特征图，将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-回归预测头”得到回归特征图。

其中，α_i与β_i是权重系数，clsmap_rgb是自适应边界框预测模块中加权融合后负责区分前景与背景的分类特征图，locmap_rgb是自适应边界框预测模块中加权融合后负责预测目标边界框的回归特征图。

进一步的，所述步骤3的实现方式如下，

步骤3.1，将高光谱视频帧Y_i输入高光谱目标感知模块，高光谱目标感知模块由孪生网络构成，模板帧Y_{i_t}输入高光谱目标感知模块的模板分支2，模板帧Y_{i__t}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_t，feature3_t，feature2_t；搜索帧Y_{i+n_s}输入高光谱目标感知模块的搜索分支2，搜索帧Y_{i+n_s}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_s，feature3_s，feature2_s；

步骤3.2，将(feature2_t，feature2_s)，(feature3_t，feature3_s)，(feature4_t，feature4_s)分成3组分别通过3个高光谱目标感知预测模块，输出3个结果clsmap_2，clsmap_3，clsmap_4；将三组结果分别加权融合得到高光谱目标感知模块最终输出的clsmap；

其中，λ_i是权重系数，clsmap是高光谱目标感知预测模块中加权融合后负责区分前景与背景的分类特征图。

进一步的，步骤4中clsmap_f的获取方式如下，

clsmap_f＝aclsmap+bclsmap_rgb

其中，a与b是权重参数。

本发明方法具有以下显著效果：(1)设计了基于目标感知的深度孪生网络高光谱视频目标跟踪模型，相比之前的基于手工特的高光谱视频跟踪算法以及基于伪彩色的高光谱视频跟踪算法推理速度提升数十倍；(2)设计高光谱目标感知模块提取高光谱语义信息，提升了模型对高光谱目标的判别性；(3)设计了基于自适应边界框的预测目标状态的方法，无需多尺度搜索以及多区域预测，减小了计算量，加快了推理速度。

附图说明

图1是本发明实施例1的步骤2中基于孪生网络的自适应边界框的RGB目标跟踪器示意图

图2是本发明实施例1的步骤3中的高光谱目标感知模块示意图。

图3是本发明实施例1的步骤2中自适应边界框预测模块示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：

本发明提供一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，包括以下步骤：

步骤1，高光谱视频数据预处理，本步骤进一步包括：

步骤1.1，将高视频数据转化为一帧帧连续的图像X_i。

步骤1.2，将含有目标的高视频图像帧X_i全部resize成511×511×C(C为高光谱视频的通道数)大小的高视频图像帧Y_i。

步骤2，载入基于深度孪生网络的自适应边界框的RGB模型，本步骤进一步包括：

步骤2.1，将海量的RGB视频数据集构成训练集，载入RGB模型后，固定RGB模型参数，不参与梯度回传。将高光谱视频帧Y_i中的任意三个波段提取出来组成伪彩色视频帧Y_{i_rgb}输入RGB模型。RGB模型由孪生网络构成，模板帧Y_{i_rgb_t}(假设Y_{i_rgb}为模板帧，以跟踪目标A为中心裁剪出包含整个目标A的区域的Y_{i_rgb_t，}大小为127×127×3)输入RGB孪生网络的模板分支1，模板帧Y_{i_rgb_t}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_rgb_t，feature3_rgb_t，feature2_rgb_t。搜索帧Y_{i+n_rgb_s}(以Y_{i+n_rgb}为搜索帧，n>0，在Y_{i+n_rgb}上搜索要跟踪的目标A，并以A为中心裁剪出包含整个目标A的区域Y_{i+n_rgb_s}，大小为255×255×3)输入RGB孪生网络的搜索分支1，搜索帧Y_{i+n_rgb_s}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_rgb_s，feature3_rgb_s，feature2_rgb_s。

步骤2.2，将(feature2_rgb_t，feature2_rgb_s)，(feature3_rgb_t，feature3_rgb_s)，(feature4_rgb_t，feature4_rgb_s)分成3组分别通过3个自适应边界框预测模块输出3组结果(clsmap_rgb_2，locmap_rgb_2)，(clsmap_rgb_3，locmap_rgb_3)，(clsmap_rgb_4，locmap_rgb_4)。如图3所示，所述自适应边界框预测模块包含分类预测模块与回归预测模块，将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-分类预测头”得到分类特征图，将模板帧特征与搜索帧特征分依次输入“卷积层-深度互相关卷积-回归预测头”得到回归特征图。将三组结果分别加权融合得到RGB模型最终输出的(clsmap_rgb，locmap_rgb)。

步骤3，使用高光谱目标感知模块预测高光谱目标类别，本步骤进一步包括：

步骤3.1，将高光谱视频帧Y_i输入高光谱目标感知模块。高光谱目标感知模块的前半部分由孪生网络构成，模板帧Y_{i_t}(假设Y_i为模板帧，以跟踪目标A为中心裁剪出包含整个目标A的区域的Y_{i_t，}大小为127×127×C)输入高光谱目标感知模块的模板分支2，模板帧Y_{i_t}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_t，feature3_t，feature2_t。搜索帧Y_{i+n_s}(以Y_i+n为搜索帧，n>0，在Y_i+n上搜索要跟踪的目标A，并以A为中心裁剪出包含整个目标A的区域Y_{i+n_s}，大小为255×255×C)输入高光谱目标感知模块的搜索分支2，搜索帧Y_{i+n_s}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_s，feature3_s，feature2_s。

步骤3.2，将(feature2_t，feature2_s)，(feature3_t，feature3_s)，(feature4_t，feature4_s)分成3组分别通过3个高光谱目标感知预测模块，所述高光谱目标感知预测模块包括“卷积层-深度互相关卷积-分类预测头”，输出3个分类特征图分别为clsmap_2，clsmap_3，clsmap_4。将三组结果分别加权融合得到高光谱目标感知模块最终输出的clsmap。

步骤4，将高光谱目标感知模块输出的clsmap与RGB模型输出的clsmap_rgb进行加权融合得到最终的clsmap_f，本步骤进一步包括：

clsmap_f＝aclsmap+bclsmap_rgb

其中，a与b是权重参数。

步骤5，将得到clsmap_f输入到交叉熵损失函数中，输出loss值，反向传播loss值更新网络模型参数，最终得到优化后的网络模型f_network(·)。

步骤6，将包含待跟踪目标的高光谱视频帧X_i输入到网络模型f_network(·)中模板分支(包括RGB模型的模板分支1以及高光谱目标感知模块的模板分支2)，将后续帧X_i+1，X_i+2，X_i+3…X_i+n依次输入到网络模型f_network(·)的搜索分支(包括RGB模型的搜索分支1以及高光谱目标感知模块的搜索分支2)得到clsmap_f与locmap_rgb。通过clsmap_f预测出目标类别，通过locmap_rgb预测出目标的边界框，最终得到目标得跟踪结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于，包括以下步骤：

步骤1，高光谱视频数据预处理；

步骤2，载入基于孪生网络的自适应边界框的RGB模型；

将高光谱视频帧中的任意三个波段提取出来组成伪彩色视频帧Y_{i_rgb}输入RGB模型，得到RGB模型的最终输出(clsmap_rgb，locmap_rgb)，其中clsmap_rgb为分类特征图，locmap_rgb为最终的回归特征图，所述RGB模型由孪生网络构成，RGB模型包括结构相同的模板分支1和搜索分支1，RGB模型的具体结构包括骨干网络和多组自适应边界框预测模块，自适应边界框预测模块包括分类分支和回归分支；

步骤3，使用高光谱目标感知模块预测高光谱目标类别；

将高光谱视频帧输入高光谱目标感知模块，得到高光谱目标感知模块最终输出的分类特征图clsmap；所述高光谱目标感知模块由孪生网络构成，高光谱目标感知模块包括结构相同的模板分支2和搜索分支2，高光谱目标感知模块的具体结构包括骨干网络和多组高光谱目标感知预测模块，高光谱目标感知预测模块的结构与分类分支的网络结构相同；

步骤4，将高光谱目标感知模块输出的clsmap与RGB模型输出的clsmap_rgb进行加权融合得到最终的特征clsmap_f；

步骤5，将得到的clsmap_f输入到交叉熵损失函数中，输出损失值loss，反向传播损失值loss更新网络模型参数，最终得到优化后的网络模型f_network(·)；

步骤6，将包含待跟踪目标的高光谱视频帧X_i输入到网络模型f_network(·)中的模板分支，包括RGB模型的模板分支1以及高光谱目标感知模块的模板分支2，将后续帧X_i+1，X_i+2，X_i+3…X_i+n依次输入到网络模型f_network(·)的搜索分支，包括RGB模型的搜索分支2以及高光谱目标感知模块的搜索分支2，得到locmap_rgb与clsmap_f，通过clsmap_f预测出目标类别，通过locmap_rgb预测出目标的边界框，最终得到目标的跟踪结果。

2.如权利要求1所述的一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于：所述步骤1的实现方式如下，

步骤1.1，将高光谱视频数据转化为一帧帧连续的图像X_i；

步骤1.2，将含有目标的高光谱视频图像帧X_i全部调整成511×511×C大小的高光谱视频图像帧Y_i，C为高光谱视频帧的通道数。

3.如权利要求1所述的一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于：RGB模型和高光谱目标感知模块中的骨干网络均为resnet50。

4.如权利要求1所述的一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于：所述自适应边界框预测模块包含分类预测模块与回归预测模块，将模板帧特征与搜索帧特征同时输入“卷积层-深度互相关卷积-分类预测头”得到分类特征图，将模板帧特征与搜索帧特征同时输入“卷积层-深度互相关卷积-回归预测头”得到回归特征图。

5.如权利要求4所述的一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于：所述步骤2的实现方式如下，

步骤2.1，将高光谱视频帧Y_i中的任意三个波段提取出来组成伪彩色视频帧Y_{i_rgb}输入RGB模型，RGB模型由孪生网络构成，模板帧Y_{i_rgb_t}输入RGB孪生网络的模板分支1，模板帧Y_{i_rgb_t}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_rgb_t，feature3_rgb_t，feature4_rgb_t；搜索帧Y_{i+n_rgb_s}输入RGB孪生网络的搜索分支1，搜索帧Y_{i+n_rgb_s}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_rgb_s，feature3_rgb_s，feature4_rgb_s；

步骤2.2，将(feature2_rgb_t，feature2_rgb_s)，(feature3_rgb_t，feature3_rgb_s)，(feature4_rgb_t，feature4_rgb_s)分成3组分别通过3个自适应边界框预测模块输出3组结果(clsmap_rgb_2，locmap_rgb_2)，(clsmap_rgb_3，locmap_rgb_3)，(clsmap_rgb_4，locmap_rgb_4)；将三组结果分别加权融合得到RGB模型最终输出的(clsmap_rgb，locmap_rgb)；

6.如权利要求4所述的一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于：所述步骤3的实现方式如下，

步骤3.1，将高光谱视频帧Y_i输入高光谱目标感知模块，高光谱目标感知模块由孪生网络构成，模板帧Y_{i_t}输入高光谱目标感知模块的模板分支2，模板帧Y_{i_t}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_t，feature3_t，feature4_t；搜索帧Y_{i+n_s}输入高光谱目标感知模块的搜索分支2，搜索帧Y_{i+n_s}通过由resnet50构成的backbone，分别从backbone的layer2，layer3，layer4输出特征feature2_s，feature3_s，feature4_s；

7.如权利要求1所述的一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法，其特征在于：步骤4中clsmap_f的获取方式如下，

clsmap_f＝aclsmap+bclsmap_rgb

其中，a与b是权重参数。