CN113920171B

CN113920171B - 基于特征级和决策级融合的双模态目标跟踪方法

Info

Publication number: CN113920171B
Application number: CN202111499743.4A
Authority: CN
Inventors: 何丰郴; 柏连发; 陈霄宇; 韩静; 张权; 魏驰恒; 张靖远
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-10-25
Anticipated expiration: 2041-12-09
Also published as: CN113920171A

Abstract

发明涉及一种基于特征级和决策级融合的双模态目标跟踪算法，包括构建SiamDL双级融合注意网络结构；获取模板图像；获取搜索区域图像；提取图像深度特征；对多域的深度特征进行交互；对交互后的特征进行分类约束；对分类结果进行调制；特征融合；调制融合特征；分类回归。本发明通过引入双层融合注意机制，提出了一种双级平衡模块，它可以利用决策级和特征级的信息更合理地平衡两种模式的权重比；引入跨域孪生注意机制，提出一个多域感知模块，能够自适应地更新模板特征，利用模式域和时域丰富的上下文信息，提高网络的特征表示能力，实现了高速运转和优异的跟踪结果，提升了跟踪器应对复杂场景的能力。

Description

基于特征级和决策级融合的双模态目标跟踪方法

技术领域

本发明涉及一种基于特征级和决策级融合的双模态目标跟踪方法，属于目标跟踪技术领域。

背景技术

目标跟踪给定初始目标模板，在后续帧中估计其位置和大小，是计算机视觉领域的一项重要任务。随着相关滤波和深度学习的出现，可见光目标跟踪实现了长足的发展。但可见光模态特征不足以揭露目标信息的时候，如暗光、曝光或淹没在背景当中时，可见光跟踪效果将大大降低。

大多数时候，红外模态富含目标的结构信息，可见光模态富含目标的结构、纹理信息。增加红外模态信息对于一个跟踪器而言，可见光可以对红外模态信息进行补充，红外模态信息在一定程度上又弥补可见光跟踪的缺陷。

由于缺乏大规模成对RGBT数据集，一些研究使用灰度图像代替红外图像进行预训练，然后在RGB-T数据集上进行微调。灰度图像是由可见光图像生成的，因此网络对可见光图像有很强的依赖性。

许多工作直接使用特征级融合策略来计算融合特征的信道权重比，这不可避免地包含大量的背景信息，极大地影响了该权重比的计算。

因此，本文提出一种基于特征级和决策级融合的双模态目标跟踪方法。

发明内容

为了解决上述技术问题，本发明提供一种基于特征级和决策级融合的双模态目标跟踪方法，其具体技术方案如下：

一种基于特征级和决策级融合的双模态目标跟踪方法，包括以下步骤：

步骤1：构建SiamDL双级融合注意网络结构：引入双层融合注意机制和跨域孪生注意机制，所述双层融合注意机制通过在SiamBAN网络基础上增加双级平衡模块实现，所述双级平衡模块包括两个paddingconv模块和一个双级融合注意平衡模块，所述跨域孪生注意机制通过在SiamBAN网络基础上增加多域感知模块实现，所述多域感知模块包括一个跨域孪生注意模块和两个分类头，所述跨域孪生注意模块由通道注意模块和空间注意模块组成，所述多域包括模态域和时域，所述模态域包括可见光模态分支和红外模态分支，所述时域包括模板分支和图像分支；

步骤2：获取模板图像：利用可见光相机和红外相机获取图像序列，对裁剪目标周围方形区域z，作为模板图像，提取模板特征；

步骤3：获取搜索区域图像：利用每帧的目标跟踪结果，在当前图像序列的结果周围裁剪方形区域x作为搜索区域图像，x的边长约为z边长的两倍，提取搜索区域特征；对于首帧图像，选取原始模板代替目标跟踪结果；

步骤4：提取图像深度特征：把resnet50当作主干提取网络，将第三和第四层网络的输出结果一起送入后续网络参与计算，以获取不同感受野下的特征，记

，

，

，

依次为可见光模板，红外模板，可见光搜索图像和红外搜索图像经过特征提取网络得到的特征；

步骤5：对多域的深度特征进行交互，将特征提取网络得到的特征输入，利用空间注意模块和通道注意模块对其调制，交互多域的上下文相关信息；将空间注意力调制用

描述，通道注意力调制用

描述，其中Y代表被调制的对象，X代表调制特征的来源，则有

（1），

其中

，

，

，

依次代表经过特征增强网络后的可见光模板，红外模板，可见光搜索图像和红外搜索图像特征，属于特征级信息；

步骤6：对交互后的特征进行分类约束，将

送入可见光分类模块

，得到可见光分类结果

，将

送入红外分类模块

，得到红外分类结果

；

步骤7：对分类结果进行调制：通过paddingconv模块对分类结果进行调制，得到可见光关键信息

和红外关键信息

，属于决策级信息；

步骤8：特征融合，通过concat操作将特征级信息和决策级信息进行融合，使

和

生成

，使

和

生成

，使

和

生成

；

步骤9：利用决策级信息和特征级信息调制融合特征，权重配比通过注意力机制实现，将空间注意力调制用

描述，通道注意力调制用

描述，Y代表被调制的对象，X代表调制特征的来源，则有

（2），

其中，

和

代表经过双级平衡网络后的模板特征和搜索图像特征；

步骤10：分类回归：参考SiamBAN，对互相关的结果构建分类与回归头，依照分类与回归结果得到当前搜索区域中的目标所在位置与紧致的目标框，所述目标框即为分类结果，下一帧可见光与红外图像输入后，转到步骤3继续执行。

进一步的，所述主干网络的前两层参数设置为在所有域中共享，所有参数在时域中共享。

进一步的，所述特征提取网络包括上采样操作和下采样操作，所述第四层网络的下采样操作以atrous卷积操作代替。

进一步的，所述paddingconv模块由两个带有填充操作的卷积层和一个激活层组成，所述paddingconv自适应地扩展分类结果。

进一步的，所述步骤7的具体过程为：

步骤7.1：将分类结果

和

喂入paddingconv模块，生成

和

掩膜，将分类结果的尺寸对齐搜索区域特征的尺寸；

步骤7.2：提取搜图区域图像特征中的目标自身信息和目标与背景的差异程度信息；

步骤7.3：得到决策级信息中的可见光关键信息

和红外关键信息

，

（3）。

进一步的，所述对交互后的特征进行分类约束，对各自模态的模板特征和搜索区域特征采用深度自相关。

进一步的，所述回归采用anchor-free的方式，避免anchor-base锚框的超参数调教。

进一步的，所述空间注意力调制和通道注意力调制的实现方式采用自注意力方式。

本发明的有益效果是：本发明通过引入双层融合注意机制，提出了一种双级平衡模块，它可以利用决策级和特征级的信息更合理地平衡两种模式的权重比；引入跨域孪生注意机制，提出一个多域感知模块，能够自适应地更新模板特征，利用模式域和时域丰富的上下文信息，提高网络的特征表示能力，实现了高速运转和优异的跟踪结果，提升了跟踪器应对复杂场景的能力。

附图说明

图1是本发明的流程图，

图2是本发明的跨域孪生注意模块示意图，

图3是本发明的双级融合注意模块示意图，

图4是本发明SiamDL的框架图，

图5是本发明与各种跟踪器在GTOT上的速度和PR比较图，

图6是本发明与各种跟踪器在GTOT上的速度和SR比较图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的基于特征级和决策级融合的双模态目标跟踪方法，包括以下步骤：

步骤1：构建SiamDL双级融合注意网络结构：引入双层融合注意机制和跨域孪生注意机制，双层融合注意机制通过在SiamBAN网络基础上增加双级平衡模块实现，双级平衡模块包括两个paddingconv模块和一个双级融合注意平衡模块， paddingconv模块由两个带有填充操作的卷积层和一个激活层组成，所述paddingconv自适应地扩展分类结果，如图2所示，跨域孪生注意机制通过在SiamBAN网络基础上增加多域感知模块实现，多域感知模块包括一个跨域孪生注意模块和两个分类头，跨域孪生注意模块由通道注意模块和空间注意模块组成，多域包括模态域和时域，模态域包括可见光模态分支和红外模态分支，时域包括模板分支和图像分支；

步骤4：提取图像深度特征：把resnet50当作主干提取网络，将第三和第四层网络的输出结果一起送入后续网络参与计算，以获取不同感受野下的特征，第四层网络的下采样操作以atrous卷积操作代替，记

，

，

，

主干网络的前两层参数设置为在所有域中共享，所有参数在时域中共享。

描述，通道注意力调制用

（1），

其中

，

，

，

依次代表经过特征增强网络后的可见光模板，红外模板，可见光搜索图像和红外搜索图像特征，属于特征级信息，其中空间注意力调制和通道注意力调制的实现方式采用自注意力方式；

步骤6：对交互后的特征进行分类约束，对各自模态的模板特征和搜索区域特征采用深度自相关，将

送入可见光分类模块

，得到可见光分类结果

，将

送入红外分类模块

，得到红外分类结果

；

和红外关键信息

，属于决策级信息；

步骤7.1：将分类结果

和

喂入paddingconv模块，生成

和

掩膜，将分类结果的尺寸对齐搜索区域特征的尺寸；

步骤7.3：得到决策级信息中的可见光关键信息

和红外关键信息

，

（3）；

和

生成

，使

和

生成

，使

和

生成

；

描述，通道注意力调制用

描述，Y代表被调制的对象，X代表调制特征的来源，则有

（2），

其中，

和

代表经过双级平衡网络后的模板特征和搜索图像特征；

步骤10：分类回归：参考SiamBAN，对互相关的结果构建分类与回归头，依照分类与回归结果得到当前搜索区域中的目标所在位置与紧致的目标框，目标框即为分类结果，回归采用anchor-free的方式，避免anchor-base锚框的超参数调教。

在下一帧可见光与红外图像输入后，转到步骤3继续执行。

如图4所示SiamDL的框架图，将resnet50中第3层和第4层的特征输入到多域感知模块中，以增强每个模态特征，然后对每个模态特征进行分类以获得决策级信息，双级平衡模块调制决策级和特征级信息以获得融合特征，最后，将融合特征输入分类回归头。

如图3所示，双级平衡模块由两个paddingconv模块和一个双级融合注意平衡模块组成。

对目标跟踪模型进行训练，模板图像大小为127×127，搜索区域图像大小为255×255。我们的模型使用Adam进行20个阶段的训练，小批量16对，权重衰减设置为0.0001，我们在前5个epoch使用0.001到0.005的热身学习率，在最后15个epoch使用从0.005到0.00005的指数衰减学习率。我们的主干网络由ImageNet上预先训练的权重初始化，交替降低两种模式的图像质量，这有助于提高跟踪器的性能。

采用GOT10K和LaSOT预训练网络，用灰度图像代替红外图像进行端到端训练，在测试GTOT时，我们使用准确率PR和成功率SR作为评估指标，其中PR是输出位置和地面真值位置之间的距离在阈值内的帧的百分比，我们将该阈值设置为5像素，SR是输出边界框和地面真实边界框之间的重叠率大于重叠阈值的帧百分比，我们将曲线下面积AUC计算作为SR分数，如表1所示为各网络跟踪器对GTOT数据集的测试结果，包括SiamDL、SiamBAN+RGBT、MANet、DAFNet、DAPNet、MACNet、SGT、M5L和FANet。

表1

如图5和图6所示为GTOT上各种跟踪器在GTOT上的速度比较图，我们的SiamDL跟踪器的PR为0.921，SR为0.756。此前，性能最好的跟踪器是MANet，图5中得到其PR为0.894，图6中得到SR为0.724；与之相比，我们的跟踪器超过了2.7%的PR和3.2%的SR，我们的FPS也超过了它；与基准SiamBAN+RGBT相比，我们的跟踪器的PR超过了6.1%，SR超过了5%。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于特征级和决策级融合的双模态目标跟踪方法，其特征在于：包括以下步骤：

步骤1：构建SiamDL双级融合注意网络结构：在特征提取网络后引入双级融合注意机制和跨域孪生注意机制，所述特征提取网络包括上采样操作和下采样操作，第四层网络的下采样操作以atrous卷积操作代替，所述双级融合注意机制通过在SiamBAN网络基础上增加双级平衡模块实现，所述双级平衡模块包括两个paddingconv模块和一个双级融合注意平衡模块，所述paddingconv模块由两个带有填充操作的卷积层和一个激活层组成，paddingconv自适应地扩展分类结果，所述跨域孪生注意机制通过在SiamBAN网络基础上增加多域感知模块实现，所述多域感知模块包括一个跨域孪生注意模块和两个分类头，所述跨域孪生注意模块由通道注意模块和空间注意模块组成，所述多域包括模态域和时域，所述模态域包括可见光模态分支和红外模态分支，所述时域包括模板分支和图像分支；

步骤3：获取搜索区域图像：利用每帧的目标跟踪结果，在当前图像序列的结果周围裁剪方形区域x作为搜索区域图像，x的边长为z边长的两倍，提取搜索区域特征；对于首帧图像，选取原始模板代替目标跟踪结果；

步骤4：提取图像深度特征：把resnet50当作主干提取网络，所述主干提取网络的前两层参数设置为在所有域中共享，所有参数在时域中共享，将第三和第四层网络的输出结果一起送入后续网络参与计算，以获取不同感受野下的特征，记