CN115205337A

CN115205337A - 一种基于模态差异补偿的rgbt目标跟踪方法

Info

Publication number: CN115205337A
Application number: CN202210904342.0A
Authority: CN
Inventors: 张强; 刘雪茹; 金国强; 张天路
Original assignee: Xidian University; Xian Thermal Power Research Institute Co Ltd
Current assignee: Xidian University; Xian Thermal Power Research Institute Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-18

Abstract

本发明公开了一种基于模态差异补偿的RGBT目标跟踪方法，包括：(1)一个用于单模态图像特征提取的双流CNN主干网络，其中一个流用于RGB图像，另一个流用于红外图像；(2)一个模态差异补偿模块，用于补偿单模态RGB和红外图像的差异信息，以及多模态RGB‑T图像的跨模态特征的融合；(3)基于注意机制的特征选择模块用于为RGB‑T跟踪选择高辨别特征；(4)一组由判别模型预测跟踪网络和基于边界定位的二次回归网络组成的预测头，用于预测准确的目标框。本发明充分利用可见光和红外图像信息之间的差异性，设计模态差异补偿模块以获得鲁棒的跨模态特征，并通过同时考虑跨模态特征和单模态(RGB和红外)特性进行RGB‑T跟踪，以提高RGB‑T跟踪性能。

Description

一种基于模态差异补偿的RGBT目标跟踪方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于模态差异补偿的RGBT目标跟踪方法。

背景技术

目标跟踪是指在第一帧图像中指定感兴趣目标后，在后续的视频序列中逐帧地标记出目标位置和尺度信息，一般以矩形框进行标定。作为计算机视觉研究领域中的一个重要任务和研究分支，目标跟踪技术在无人驾驶、社区安防、环境监测、智能交通监控等民用领域以及战场动态分析、军事武器精确制导、无人机侦察、反导系统等军事领域具有十分重要的作用和价值。

随着深度神经网络的快速发展，基于可见光的目标跟踪技术已经取得了重要突破。可见光图像可以捕获丰富的目标信息，如颜色、纹理、边界等内容。但是由于成像原理的限制，可见光图像很容易受到环境的影响，以至于基于可见光的目标跟踪方法在可见度低、光照复杂、恶劣天气等场景下鲁棒性较低。

近年来，为了提高复杂场景下的目标跟踪性能，一些研究人员尝试应用多模态数据进行目标跟踪，如配准的可见光-红外(RGB-T)图像和可见光-深度(RGB-D)图像。其中，红外图像是根据物体的热辐射而成像，虽然缺乏目标颜色、纹理和形状信息且存在热交叉等专属挑战因素，但是对光照变化不敏感，具有较强的穿透雾霾的能力，与可见光图像形成了强烈的互补优势。因此，RGBT目标跟踪受到越来越多的关注。

与RGB跟踪相比，RGBT跟踪器能够在具有挑战性的环境中实现强大的跟踪性能。到目前为止，研究员们已经提出了许多RGBT跟踪器。早期的RGBT跟踪器都是基于手工特征而提出的。这些方法不能很好地适应具有挑战性的环境，如剧烈的外观变化、杂乱的背景、目标的快速运动和遮挡。受卷积神经网络(CNN)在RGB跟踪中成功应用的启发，最近几年的工作都趋向于使用CNN来提高RGBT跟踪器的性能。由于深度CNN具有强大的特征提取和表示能力，这些最新的RGB-T跟踪器通常明显优于传统的跟踪器。最新的RGB-T跟踪器通常使用双流网络结构来学习每个模态的特征并通过一些级联、像素级相加和模态权重等融合策略对可见光特征和红外特征进行融合以获得更鲁棒的目标表示。另外也有一些跟踪器通过通用适配器、模态适配器和实例适配器等三种适配器来提取不同的特征表示以充分利用RGB和红外模态的互补优势。

虽然这些算法在RGBT跟踪取得了巨大的成功，但是这些算法忽略了由于不同成像机制导致的RGB和红外图像之间的模态差异，这将导致跨模态互补信息利用不足，从而影响后续的跟踪性能。此外，这些跟踪方法通常利用融合后的RGBT跨模态特征来预测最终结果。由于RGB和红外数据具有很强的互补优势，因此融合的跨模态特征通常可以比单模态特征(如RGB特征或红外特征)推断出更好的预测。然而，在热交叉或强光照等极端条件下，融合的跨模态特征可能不如单模态特征可靠。

发明内容

针对可见光与红外图像的目标跟踪中跨模态信息利用问题，本发明提供了一种基于模态差异补偿的RGBT目标跟踪方法，利用模态间的差异信息实现模态间互补信息的交互与融合以充分利用两种模态的互补优势，并且同时结合单模态特征以提高目标跟踪算法的精确性和鲁棒性。

本发明采用如下技术方案来实现的：

一种基于模态差异补偿的RGBT目标跟踪方法，包括如下步骤：

步骤1：构建双流CNN主干网络；

步骤2：构建模态差异补偿模块；

步骤2.1：模态差异补偿模块采用补偿再融合的策略，首先分别补偿两种模态的差异信息，然后通过元素求和的方式融合补偿后的RGB和补偿后的红外特征；

步骤2.2：分别以差异特征F_r-t和F_t-r作为输入，采用两个结构相同的权值生成网络生成差异特征权重W_r-t和W_t-r，权值生成网络同时使用空间权值图和通道权值图来获取更多的补偿信息；

步骤2.3：在获得差异特征权重图W_r-t(W_t-r)之后，补偿后的RGB特征

和补偿后的红外特征

通过跨模态残差连接获得，即：

补偿后的RGB特征

除了原始的单模态RGB特征F_rgb外，还包含红外模态特有特征；同样的，如公式(7)所示，补偿后的红外特征

包含RGB模态特有特征以及原始的单模态红外特性F_t；通过对补偿后的RGB特征

和补偿后的红外特征

进行相加融合，得到最终融合的跨模态RGBT特征F_rgbt∈R^C×H×W，即：

步骤3：构建特征选择模块；

基于注意机制的特征选择模块进一步自适应地选择高鉴别性的跨模态和单模态特征以提高RGBT跟踪性能；特征选择模块通过三个步骤充分选择所有模态特征的高鉴别性特征，模态特征包括跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征；

步骤3.1：所有模态特征融合，目的是从跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征中获取更多的信息；

步骤3.2：通道级的特征选择，旨在增强与目标相关的类别的特征，抑制无用的特征；

步骤3.3：空间级特征选择，旨在增强目标空间位置的权重，抑制远离目标的位置；步骤4：构建判别模型预测跟踪网络；

判别模型预测跟踪网络分别以模板图像特征和待检测图像特征为输入，并进行多任务输出：分类得分图，IoU预测；其中，分类得分图是通过待检测图像特征和滤波器f相计算而获得，滤波器f包括由一个卷积层以及一个精确的ROI池化组成的模型初始化器和通过最速下降求解最终模型的模型优化器，模型滤波器f是通过在模型初始化器使用初始训练集中的多个样本来求解，IoU预测是预测图像的深度特征和候选边界框特征之间的IoU，然后通过最大化IoU预测来进行边界框估计；

步骤5：构建基于边界定位的二次回归网络：

基于边界定位的二次回归网络目的是对步骤4得到的IoU预测结果进行二次回归以获得更精确的目标框，基于边界定位的二次回归网络能够有效地细化IoUNet预测器的初始估计，并显著提高跟踪性能；

基于边界定位的二次回归网络使用以下两个步骤来进一步提高目标跟踪性能；

步骤5.1：基于边界定位的二次回归网络利用目标特征表示与搜索特征表示之间的互相关对边界框估计中心进行重新调整，得到目标在中心的重新调整边界框估计；

步骤5.2：对于步骤5.1得到的搜索特征F_p采用边界定位方案提高定位精度，分别对每一条边界使用分类器进行定位同时使用回归器预测目标边界位置与真值之间的偏移；

步骤6：两阶段训练；

步骤6.1：在训练数据集上，对步骤4中的判别模型预测跟踪网络，采用监督学习机制，分别通过最小化鉴别学习损失函数和均方误差损失函数，完成算法网络训练，得到判别模型预测跟踪网络模型参数；

步骤6.2：加载所述步骤6.1中的网络参数并进行冻结，在训练数据集上单独对步骤5中的基于边界定位的二次回归网络进行监督学习，通过最小化均方误差损失函数，获得训练好的网络；

步骤7：目标跟踪：将所述网络集成为在线跟踪器，对可见光与红外视频数据进行跟踪；

步骤7.1：给定带有注释的第一帧，通过平移、旋转和模糊对第一帧进行数据增强，得到一个包含15个样本的初始训练集；

步骤7.2：以初始训练集图像和下一帧图像为输入，利用步骤1的双流CNN主干网络、步骤2的模态差异补偿模块和步骤3的特征选择模块分别获得模板融合特征和待检测融合特征；

步骤7.3：以模板融合特征和待检测融合特征为输入，通过步骤4的判别模型预测跟踪网络获得初始框；

步骤7.4：以模板融合特征、待检测融合特征以及扩展的初始框为输入，通过步骤5的基于边界定位的二次回归网络对初始框进行二次回归以获得更精确的目标矩形边框；

步骤7.5：重复步骤7.2-7.4，逐帧迭代计算图像中目标位置以及边框，实现RGBT目标连续跟踪；

步骤7.6：每20帧后进行初始训练集更新，获得新的模板特征，然后继续步骤7.5。

本发明进一步的改进在于，步骤1中，双流CNN主干网络采用两个结构相同但参数不同的ResNet50，两个ResNet50主干网络分别输入RGB图像和红外图像，分别输出RGB单模态特征F^rgb和红外单模态特征F^t，双流CNN主干网络采用孪生结构分别提取模板图像双流特征

和待检测图像的双流特征

本发明进一步的改进在于，步骤2.1中，模态差异补偿模块通过单模态RGB特征F_rgb∈R^C×H×W减去单模态红外特征F_t∈R^C×H×W以获得差异特征F_r-t∈R^C×H×W，同时通过单模态红外特征F_t∈R^C×H×W减去单模态RGB特征F_rgb∈R^C×G×W以获得差异特征F_t-r∈R^C×H×W，即:

F_r-t＝(F_rgb-F_t) (1)

F_t-r＝(F_t-F_rgb) (2)

其中，差异特征F_r-t∈R^C×H×W表示RGB模态特异性特征表示；差异特征F_t-r∈R^c×H×W表示红外模态特异性特征表示。

本发明进一步的改进在于，步骤2.2中，空间权重图S_r-t∈R^1×H×W是通过卷积层和一个sigmoid函数生成以反映RGB和红外模态在空间位置上的差异信息；这里的卷积层是由一个卷积核为3×3的卷积操作、批归一化层、ReLu激活函数组成；空间权重图S_r-t∈R^1×H×W和S_t-r∈R^1×H×W分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置，同时，通道权重图C_r-t∈R^C×1×1(C_t-r∈R^C×1×1)是通过由全局平均池化和全局最大池化组成的池化层和一个sigmoid函数生成以反映RGB和红外模态在目标类别上的差异信息通道权重图C_r-t和C_t-r分别反映RGB模态特异性特征和红外模态特异性特征的目标类别；最终，通过空间权重图S_r-t(S_t-r)和通道权值图C_r-t(C_t-r)之间的元素乘法生成差异特征权重图W_r-t(W_t-r)；差异特征权重图W_r-t的权重生成过程表述为：

S_r-t＝σ(conv(F_r-t)) (3)

C_r-t＝σ(GAP(F_r-t)+GMP(F_r-t)) (4)

其中，conv(*)表示由卷积核大小为3×3的卷积操作，批归一化层BatchNorm和ReLu激活函数组成的卷积层，σ(*)表示sigmoid函数，GAP(*)表示全局平均池化操作，GMP(*)表示全局最大池化操作，

表示元素乘法操作；差异特征权重图W_r-t和W_t-r分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置和目标类别。

本发明进一步的改进在于，步骤3.1中，通过对跨模态RGBT特征F_rgbt、原始单模态RGB特征F_rgb和原始单模态红外特征F_t进行级联和卷积运算得到融合特征F_c∈R^2C×H×W，即：

F_c＝conv(cat(F_rgbt，F_rgb，F_t)) (9)

其中，cat(*)表示级联操作，contv(*)表示卷积核大小为1×1的卷积操作。

本发明进一步的改进在于，步骤3.2中，给定融合特征F_c∈R^2C×H×W作为输入，首先同时使用全局平均池化和全局最大池化以获得包含每个通道全局信息的更精细的特征描述符；然后，通过执行卷积核大小为3的快速一维卷积和sigmoid函数生成通道权值W_c∈R^2C ^×1×1；通道注意力的计算方法为：

W_c＝σ(CID(GAP(F_c)+GMP(F_c))) (10)

其中，CID(*)表示一维卷积，在获得通道权值W_c后，通过将融合特征F_c与权值W_c相乘，得到通道级特征选择输出F_cc∈R^2C×H×W，即：

本发明进一步的改进在于，步骤3.3中，在获得通道级特征选择输出F_cc∈R^2C×H×W后，沿通道应用平均池化和最大池化操作以生成一个有效的特征描述符；然后通过级联、卷积和sigmoid函数生成空间注意图W_s∈R^1×H×W；空间注意力的计算方法为：

W_s＝σ(conv(cat(Avgpool(F_cc)+Maxpool(F_cc)))) (12)

其中，Avgpool(*)表示沿通道的平均池化操作，Maxpool(*)表示沿通道的最大池化操作；获得空间权值W_s后，将通道级特征选择输出F_cc与空间权值W_s相乘，得到空间特征选择输出F_cs∈R^2C×H×W，即：

本发明进一步的改进在于，步骤5.1中，首先使用参考分支和测试分支分别提取目标特征表示和搜索特征表示；参考分支输入特征为

和目标边界框注释B₀，其中

表示特征选择模块输出的参考帧特征，返回RoI目标特征为

这个分支由一个卷积层和PrPool组成；测试分支通过从特征选择模块输出的待检测帧特征

和边界框估计B＝(c_x，c_y，(λw)，(λh))，提取RoI搜索特征

其中(c_x，c_y)表示边界框的中心坐标，w和h表示边界框估计的宽度和高度，λ是用以扩大候选区域边界以覆盖整个目标的比例因子，且λ＞1；在获得ROI目标特征

和ROI搜索特性

后，基于边界定位的二次回归网络采用互相关以调整边界框估计B；互相关输入ROI目标特征

和ROI搜索特性

并返回一个得分图以反映目标特征与搜索特征的相似性；以得分最大的二维位置为中心，结合边界框估计B的宽度和高度，重新调整边界框B₁被生成；然后，将重新调整边界框B₁和经过两层卷积的搜索特征输入PrPool获得新的搜索特征F_p∈R^256×7×7；；新的搜索特征F_p包含目标特征并且目标位于F_p中心。

本发明进一步的改进在于，步骤5.2中，首先对特征F_p分别沿x轴和y轴聚合并通过1×3和3×1卷积层进一步细化，提取水平和垂直特征F_x∈R^1×7和F_y∈R^7×1；然后，分别将水平和垂直特征F_x∈R^1×7和F_y∈R^7×1上采样后平均划分为两部分，得到边界特征F_l∈R^1×7、F_r∈R¹ ^×7、F_t∈R^7×1和F_d∈R^7×1；对于每个边界特征，同时使用一个分类器和回归器，分类器以边界特征作为输入，输出每个边界响应位置的置信图，回归器以每个边界特征作为输入，输出目标边界位置与真值之间的偏移以细化边界框位置预测。

本发明公开的一种基于模态差异补偿的RGBT目标跟踪方法与现有技术相比，具有如下有益效果：

1)本发明充分利用可见光和红外图像信息之间的差异性，设计模态差异补偿模块以获得鲁棒的跨模态特征，并通过同时考虑跨模态特征和单模态(RGB和红外)特性进行RGBT跟踪，以提高RGBT跟踪性能。大量的实验结果表明，本发明跟踪方法与现有的跟踪方法相比，取得了优异的性能。

2)本发明提出了一种模态差异补偿模块，通过补偿再融合策略从RGB和红外图像中有效捕获跨模态信息。

3)本发明基于通道和空间注意机制，设计了特征选择模块，通过自适应选择辨别力强的跨模态和单模态特征进行更精确的跟踪。

4)本发明提出了一种简单而有效的基于边界定位的二次回归模块，通过在重新调整初始框以确保目标在初始框中心后，对边界框的每一条边分别用一个专用的网络分支来进行边界框定位。通过此模块，跟踪器可以获得更精确的框估计，并可以处理第一阶段回归的部分跟踪故障。

附图说明

图1为本发明公开的基于模态差异补偿的RGBT目标跟踪方法的网络整体框架；

图2为本发明公开的跟踪方法中的模态差异补偿模块示意图；

图3为本发明公开的跟踪方法中的特征选择模块示意图；

图4为本发明公开的跟踪方法中的基于边界定位的二次回归网络示意图；

图5为本发明公开的跟踪方法的定性跟踪结果示意图。

具体实施方式

下面结合附图详细描述本发明的技术方案。

参照本发明框架图和各模块示意图(图1、图2、图3、图4)，一种基于模态差异补偿的RGBT目标跟踪方法，包括如下步骤：

步骤1：构建双流CNN主干网络：

主干网络的目的通常是为后续模型提取深度特征表示。这里的双流CNN主干网络采用结构相同但参数不同的ResNet50。两个ResNet50主干网络分别输入RGB图像和红外图像，分别输出RGB单模态特征Frg^b和红外单模态特征F^t。双流CNN主干网络采用孪生结构分别提取模板图像双流特征

和待检测图像的双流特征

步骤2：构建模态差异补偿模块：

如图3所示，模态差异补偿模块采用补偿再融合的策略，首先分别补偿两种模态的差异信息，然后通过元素求和的方式融合补偿后的RGB和补偿后的红外特征。具体来说，模态差异补偿模块通过单模态RGB特征F_rgb∈R^C×H×W减去单模态红外特征F_t∈R^C×H×W以获得差异特征F_r-t∈R^C×H×W，同时通过单模态红外特征F_t∈R^C×H×W减去单模态RGB特征F_rgb∈R^C×H×W以获得差异特征F_t-r∈R^C×H×W，即：

F_r-t＝(F_rgb-F_t) (1)

F_t-r＝(F_t-F_rgb) (2)

然后，分别以差异特征F_r-t和F_t-r作为输入，采用两个结构相同的权值生成网络生成差异特征权重W_r-t和W_t-r。与之前只使用空间权值图或通道权值图的权重生成方法不同，权值生成网络同时使用空间权值图和通道权值图来获取更多的补偿信息。具体来说，空间权重图S_r-t∈R^1×H×W是通过卷积层和一个sigmoid函数生成以反映RGB和红外模态在空间位置上的差异信息。这里的卷积层是由一个卷积核为3×3的卷积操作、批归一化层、ReLu激活函数组成。与差异特征F_r-t和F_t-r相似，空间权重图S_r-t∈R^1×H×W和S_t-r∈R^1×H×W分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置。同时，通道权重图C_r-t∈R^C×1×1(C_t-r∈R^C×1×1)是通过由全局平均池化和全局最大池化组成的池化层和一个sigmoid函数生成以反映RGB和红外模态在目标类别上的差异信息。同样，通道权重图C_r-t和C_t-r分别反映RGB模态特异性特征和红外模态特异性特征的目标类别。最终，通过空间权重图S_r-t(S_t-r)和通道权值图C_r-t(C_t-r)之间的元素乘法生成差异特征权重图W_r-t(W_t-r)。以差异特征权重图W_r-t为例，权重生成过程可以表述为：

S_r-t＝σ(conv(F_r-t)) (3)

C_r-t＝σ(GAP(F_r-t)+GMP(F_r-t)) (4)

表示元素乘法操作。差异特征权重图W_r-t和W_t-r分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置和目标类别。

在获得差异特征权重图W_r-t(W_t-r)之后，补偿后的RGB特征

和补偿后的红外特征

通过跨模态残差连接获得，即：

如公式(6)所示，补偿后的RGB特征

除了原始的单模态RGB特征F_rgb外，还包含红外模态特有特征。同样的，如公式(7)所示，补偿后的红外特征

包含RGB模态特有特征以及原始的单模态红外特性F_t。通过对补偿后的RGB特征

和补偿后的红外特征

进行简单的相加融合，可以得到最终融合的跨模态RGBT特征F_rgbt∈R^C×H×W，即：

如公式(8)所示，通过补偿特征而不是原来的单模态特征获得最终的融合特征将提高后续中RGBT跟踪的识别能力。

步骤3：构建特征选择模块：

基于注意机制的特征选择模块进一步自适应地选择高鉴别性的跨模态和单模态特征以提高RGBT跟踪性能。如图4所示，特征选择模块通过三个步骤充分选择所有模态特征(跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征)的高鉴别性特征。

步骤3.1：所有模态特征融合，目的是从跨模态RGBT特征、原始单模态RGB特征和原始单模态红外特征中获取更多的信息。具体来说，通过对跨模态RGBT特征F_rgbt、原始单模态RGB特征F_rgb和原始单模态红外特征F_t进行级联和卷积运算得到融合特征F_c∈R^2C×H×W，即：

F_c＝conv(cat(F_rgbt，F_rgb，F_t)) (9)

其中，cat(*)表示级联操作，conv(*)表示卷积核大小为1×1的卷积操作。

步骤3.2：通道级的特征选择，旨在增强与目标相关的类别的特征，抑制无用的特征。具体来说，给定融合特征F_c∈R^2C×H×W作为输入，首先同时使用全局平均池化和全局最大池化以获得包含每个通道全局信息的更精细的特征描述符。然后，通过执行卷积核大小为3的快速一维卷积和sigmoid函数生成通道权值W_c∈R^2C×1×1。简而言之，通道注意力的计算方法为：

W_c＝σ(CID(GAP(F_c)+GMP(F_c))) (10)

其中，CID(*)表示一维卷积。在获得通道权值W_c后，通过将融合特征F_c与权值W_c相乘，得到通道级特征选择输出F_cc∈R^2C×H×W，即：

步骤3.3：空间级特征选择，旨在增强目标空间位置的权重，抑制远离目标的位置。具体来说，在获得通道级特征选择输出F_cc∈R^2C×H×W后，沿通道应用平均池化和最大池化操作以生成一个有效的特征描述符。然后通过级联、卷积和sigmoid函数生成空间注意图W_s∈R^1×H×W。简而言之，空间注意力的计算方法为：

W_s＝σ(conv(cat(Avgpool(F_cc)+Maxpool(F_cc)))) (12)

其中，Avgpool(*)表示沿通道的平均池化操作，Maxpool(*)表示沿通道的最大池化操作。获得空间权值W_s后，将通道级特征选择输出F_cc与空间权值W_s相乘，得到空间特征选择输出F_cs∈R^2C×H×W，即：

通过上述三个步骤，特征选择模块同时利用融合的跨模态RGBT特征和单模态(RGB和红外)特征，在空间和通道维度上自适应地选择具有高鉴别性的特征。

步骤4：构建判别模型预测跟踪网络：

判别模型预测跟踪网络分别以模板图像特征和待检测图像特征为输入，并进行多任务输出：分类得分图，IoU预测。其中，分类得分图是通过待检测图像特征和滤波器f相计算而获得。滤波器f包括由一个卷积层以及一个精确的ROI池化组成的模型初始化器和通过最速下降(SD)求解最终模型的模型优化器。模型滤波器f是通过在模型初始化器使用初始训练集中的多个样本来求解。IoU预测是预测图像的深度特征和候选边界框特征之间的IoU，然后通过最大化IoU预测来进行边界框估计。

步骤5：构建基于边界定位的二次回归网络：

基于边界定位的二次回归网络目的是对步骤(4)得到的IoU预测结果进行二次回归以获得更精确的目标框。基于边界定位的二次回归网络能够有效地细化IoUNet预测器的初始估计，并显著提高跟踪性能。如图5所示，基于边界定位的二次回归网络使用了两个步骤来进一步提高目标跟踪性能。

步骤5.1：基于边界定位的二次回归网络利用目标特征表示与搜索特征表示之间的互相关对边界框估计中心进行重新调整，得到目标在中心的重新调整边界框估计。具体来说，首先使用参考分支和测试分支分别提取目标特征表示和搜索特征表示。参考分支输入特征为

和目标边界框注释B₀，其中

表示特征选择模块输出的参考帧特征，返回RoI目标特征为

这个分支由一个卷积层和PrPool组成。测试分支通过从特征选择模块输出的待检测帧特征

和边界框估计B＝(c_x，c_y，(λw)，(λh))，提取RoI搜索特征

其中(c_x，c_y)表示边界框的中心坐标，w和h表示边界框估计的宽度和高度，λ(λ＞1)是用以扩大候选区域边界以覆盖整个目标的比例因子。由于测试分支是提取边界预测的特征，这构成了更复杂的任务，因此，与参考分支相比，测试分支使用了更多的层和更高的池化分辨率。在获得ROI目标特征

和ROI搜索特性

后，基于边界定位的二次回归网络采用互相关以调整边界框估计B。互相关输入ROI目标特征

和ROI搜索特性

并返回一个得分图以反映目标特征与搜索特征的相似性。以得分最大的二维位置为中心，结合边界框估计B的宽度和高度，重新调整边界框B₁被生成。然后，将重新调整边界框B₁和经过两层卷积的搜索特征输入PrPool获得新的搜索特征F_p∈R^256×7×7。新的搜索特征F_p包含目标特征并且目标位于F_p中心。

步骤5.2：对于步骤5.1得到的搜索特征F_p采用边界定位方案提高定位精度。该方案分别对每一条边界使用简单的分类器进行定位同时使用简单的回归器预测目标边界位置与真值之间的偏移。具体来说，首先对特征F_p分别沿x轴和y轴聚合并通过1×3和3×1卷积层进一步细化，提取水平和垂直特征F_x∈R^1×7和F_y∈R^7×1。然后，分别将水平和垂直特征F_x∈R^1×7和F_y∈R^7×1上采样后平均划分为两部分，得到边界特征F_l∈R^1×7、F_r∈R^1×7、F_t∈R^7×1和F_d∈R^7×1。对于每个边界特征，同时使用一个简单的分类器和回归器。分类器以边界特征作为输入，输出每个边界响应位置的置信图，回归器以每个边界特征作为输入，输出目标边界位置与真值之间的偏移以细化边界框位置预测。

步骤6：两阶段训练：

步骤6.1：在训练数据集上，对步骤(4)中的判别模型预测跟踪网络，采用监督学习机制，分别通过最小化鉴别学习损失函数和均方误差损失函数，完成算法网络训练，得到判别模型预测跟踪网络模型参数。

步骤6.2：加载所述步骤6.1中的网络参数并进行冻结，在训练数据集上单独对步骤(5)中的基于边界定位的二次回归网络进行监督学习，通过最小化均方误差损失函数，获得训练好的网络；

步骤7：目标跟踪：将所述网络集成为在线跟踪器，对可见光与红外视频数据进行跟踪。

步骤7.1：给定带有注释的第一帧，通过平移、旋转和模糊对第一帧进行数据增强，得到一个包含15个样本的初始训练集。

步骤7.2：以初始训练集图像和下一帧图像为输入，利用步骤(1)的双流CNN主干网络、步骤(2)的模态差异补偿模块和步骤(3)的特征选择模块分别获得模板融合特征和待检测融合特征。

步骤7.3：以模板融合特征和待检测融合特征为输入，通过步骤(4)的判别模型预测跟踪网络获得初始框。

步骤7.4：以模板融合特征、待检测融合特征以及扩展的初始框为输入，通过步骤(5)的基于边界定位的二次回归网络对初始框进行二次回归以获得更精确的目标矩形边框。

步骤7.5：重复步骤7.2-7.4，逐帧迭代计算图像中目标位置以及边框，实现RGBT目标连续跟踪。

以下结合仿真实验，对本发明的技术效果作进一步说明：

1.仿真条件：所有仿真实验均在操作系统为Ubuntu 16.04.5，硬件环境为GPUNvidia GeForce GTX1080Ti，采用PyTorch深度学习框架实现。

2.仿真内容及结果分析

根据上述实施方案所述，在RGBT目标跟踪数据集RGBT234上测试模型的客观指标与性能，并与其他9个跟踪算法进行对比，其属性和总体的准确率与成功率指标的量化对比如表1所示。其中：

SR表示目标跟踪的成功率；PR表示目标跟踪的精准度；无遮挡(NO)、部分遮挡(PO)、重遮挡(HO)、低照明(LI)、低分辨率(LR)、热交叉(TC)、变形(Def)、快速运动(FM)、尺度变化(SV)、运动模糊(MB)、摄像机移动(CM)和背景杂波(BC)是RGBT234数据集的挑战属性。表中红色、绿色和蓝色的数字分别表示最好、第二和第三的跟踪结果。

表1在测试数据集RGBT234上的定量跟踪结果以及与其他先进跟踪器的对比结果

从表1中可以看到，在RGBT234数据集上，与最先进的跟踪器(包括RGB和RGBT跟踪器)相比，本发明在大多数情况下的性能明显优于其他跟踪器，总体实现了最好的跟踪性能。这表明本发明可以充分利用两种模式之间的互补信息来处理各种复杂的情况。其主观对比结果如图5所示，在序列child1中，与其他方法相比，本发明能够准确定位目标，在遮挡和运动模糊挑战上表现更好；来自序列dog1，可以发现本发明可以更好地处理遮挡和背景杂波的挑战；来自序列kite2，可以发现本发明充分抑制了摄像机移动挑战的干扰，从而确保了更具鲁棒性的目标位置；在序列elecbikewithlight1中，可以看出，RGB模态的初始目标包含强照明信息，这使得大多数算法都由这些信息主导。因此，当照明变得正常时，大多数算法都是模型漂移和失去目标。然而，本发明可以很好地抑制这些噪声信息，从而确保了更准确的目标定位。这表明，本发明可以充分挖掘模态差异和单模态特征的潜力。总的来说，通过上述比较，本发明能够更好地部署两种模态的信息来处理复杂的挑战。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，包括如下步骤：

步骤1：构建双流CNN主干网络；

步骤2：构建模态差异补偿模块；

步骤2.3：在获得差异特征权重图W_v-t(W_t-r)之后，补偿后的RGB特征

和补偿后的红外特征

通过跨模态残差连接获得，即：

补偿后的RGB特征

和补偿后的红外特征

步骤3：构建特征选择模块；

步骤5：构建基于边界定位的二次回归网络：

步骤6：两阶段训练；

2.根据权利要求1所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤1中，双流CNNNN主干网络采用两个结构相同但参数不同的ResNet50，两个ResNet50主干网络分别输入RGB图像和红外图像，分别输出RGB单模态特征F^rgb和红外单模态特征F^t，双流CNN主干网络采用孪生结构分别提取模板图像双流特征

和待检测图像的双流特征

3.根据权利要求2所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤2.1中，模态差异补偿模块通过单模态RGB特征F_rgb∈R^C×H×W减去单模态红外特征F_t∈R^C ^×H×W以获得差异特征F_r-t∈R^C×H×W，同时通过单模态红外特征F_t∈R^C×H×W减去单模态RGB特征F_rgb∈R^C×H×W以获得差异特征F_t-r∈R^C×H×W，即：

F_r-t＝(F_rgb-F_t) (1)

F_t-r＝(F_t-F_rgb) (2)

4.根据权利要求3所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤2.2中，空间权重图S_r-t∈R^1×H×W是通过卷积层和一个sigmoid函数生成以反映RGB和红外模态在空间位置上的差异信息；这里的卷积层是由一个卷积核为3×3的卷积操作、批归一化层、ReLu激活函数组成；空间权重图S_r-t∈R^1×H×W和S_t-r∈R^1×H×W分别反映了RGB模态特异性特征和红外模态特异性特征的空间位置，同时，通道权重图C_r-t∈R^C×1×1(C_t-r∈R^C×1×1)是通过由全局平均池化和全局最大池化组成的池化层和一个sigmoid函数生成以反映RGB和红外模态在目标类别上的差异信息通道权重图C_r-t和C_t-r分别反映RGB模态特异性特征和红外模态特异性特征的目标类别；最终，通过空间权重图S_r-t(S_t-r)和通道权值图C_r-t(C_t-r)之间的元素乘法生成差异特征权重图W_r-t(W_t-r)；差异特征权重图W_r-t的权重生成过程表述为：

S_r-t＝σ(connv(F_r-t)) (3)

C_r-t＝′σ(GAP(F_r-t)+GMP(F_r-t)) (4)

其中，connv(*)表示由卷积核大小为3×3的卷积操作，批归一化层BatchNorm和ReLu激活函数组成的卷积层，σ(*)表示sigmoid函数，GAP(*)表示全局平均池化操作，GMP(*)表示全局最大池化操作，

5.根据权利要求4所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤3.1中，通过对跨模态RGBT特征F_rgbt、原始单模态RGB特征F_rgb和原始单模态红外特征F_t进行级联和卷积运算得到融合特征F_c∈R^2C×H×W，即：

F_c＝conv(cat(F_rgbt，F_rgb，F_t)) (9)

6.根据权利要求5所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤3.2中，给定融合特征F_c∈R^2C×H×W作为输入，首先同时使用全局平均池化和全局最大池化以获得包含每个通道全局信息的更精细的特征描述符；然后，通过执行卷积核大小为3的快速一维卷积和sigmoid函数生成通道权值W_c∈R^2C×1×1；通道注意力的计算方法为：

W_c＝σ(CID(GAP(F_c)+GMP(F_c))) (10)

7.根据权利要求6所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤3.3中，在获得通道级特征选择输出F_cc∈R^2C×H×W后，沿通道应用平均池化和最大池化操作以生成一个有效的特征描述符；然后通过级联、卷积和sigmoid函数生成空间注意图W_s∈R¹ ^×H×W；空间注意力的计算方法为：

W_s＝σ(conv(cat(Avgpool(F_cc)+Maxpool(F_cc)))) (12)

8.根据权利要求7所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤5.1中，首先使用参考分支和测试分支分别提取目标特征表示和搜索特征表示；参考分支输入特征为

和目标边界框注释B₀，其中

表示特征选择模块输出的参考帧特征，返回RoI目标特征为

和边界框估计B＝(c_x，c_y，(λw)，(λh))，提取RoI搜索特征

其中(cx，cy)表示边界框的中心坐标，w和h表示边界框估计的宽度和高度，λ是用以扩大候选区域边界以覆盖整个目标的比例因子，且λ＞1；在获得ROI目标特征

和ROI搜索特性

和ROI搜索特性

9.根据权利要求8所述的一种基于模态差异补偿的RGBT目标跟踪方法，其特征在于，步骤5.2中，首先对特征F_p分别沿x轴和y轴聚合并通过1×3和3×1卷积层进一步细化，提取水平和垂直特征F_x∈R^1×7和F_y∈R^7×1；然后，分别将水平和垂直特征F_x∈R^1×7和F_y∈R^7×1上采样后平均划分为两部分，得到边界特征F_l∈R^1×7、F_r∈R^1×7、F_t∈R^7×1和F_d∈R^7×1；对于每个边界特征，同时使用一个分类器和回归器，分类器以边界特征作为输入，输出每个边界响应位置的置信图，回归器以每个边界特征作为输入，输出目标边界位置与真值之间的偏移以细化边界框位置预测。