CN113628249B

CN113628249B - 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法

Info

Publication number: CN113628249B
Application number: CN202110937175.5A
Authority: CN
Inventors: 张萍; 罗金; 季晓天; 李洁; 高椿明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-04-07
Anticipated expiration: 2041-08-16
Also published as: CN113628249A

Abstract

本发明提供了一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法。模型包括基于跨模态注意引导的特征提取网络、基于前后景分类与边框回归的孪生跟踪网络；利用公开数据集对网络进行两阶段的迁移训练，包括基于可见光目标跟踪数据集的预训练、基于可见光与红外目标跟踪数据集的微调训练。本发明利用可见光与红外图像信息一致性与互补性特点，设计特征提取网络并集成为孪生的跟踪网络；跨模态注意力机制对于光照变化剧烈、低可见度等复杂场景的特征提取具有较强的稳定性，进而增强跟踪模型的稳定性与鲁棒性。

Description

基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法。

背景技术

目标跟踪是计算机视觉研究领域中的一个重要任务和研究分支，在第一帧图像中初始化感兴趣目标，算法逐帧地标记出所跟踪目标位置与尺寸等信息，一般以目标的外界矩形进行标定。目标跟踪技术在社区安防、智能交通监控、自动驾驶等民用领域、军事武器精确制导、反导系统等军事领域具有十分重要的作用和价值。

常规情况下的可见光的目标跟踪技术已经取得了明显的进展，可见光图像的空间分辨率较高，能较好的描述目标，如纹理、颜色、边界等内容。但是受限于可见光成像原理，基于可见光的跟踪方法无法较好地应对低可见度、低照度的问题，跟踪算法在光照复杂的场景下鲁棒性较低、在低照度或者夜间环境下完全失效。红外成像系统通过被动的方式根据目标的热辐射来检测目标，对于雾霾等恶劣情况有良好的抗干扰能力。但由于红外传感器的检测范围有限、背景杂波干扰等因素，红外图像只含灰度信息且信噪比低。同时红外热成像图像分辨率非常低，导致图像细节模糊，物体特征不明显，纹理和形状信息严重丢失。除了成像分辨率低的因素外，红外图像的跟踪任务存在细节特征丢失和热交叉等挑战因素。

在单一成像器件及单一模态图像模板满足跟踪任务的需求时，研究人员进而研究利用不同类型的成像器件得到的多模态图像进行目标跟踪，两种成像器件协同工作以获取基本配准的图像对，利用可见光图像和红外图像完成跟踪任务。面向可见光与红外图像的跟踪方法有三种思路：像素级融合的方法、特征级融合的方法、响应级融合方法。像素级图像融合方法先将配准的图像对进行融合，得到新的图像之后对目标进行建模和跟踪；但图像融合对图像配准精度要求高，且无法保证融合图像与跟踪任务的兼容性、融合后特征的完备性及准确性。特征级融合是可受益于深度模型较强的表征能力，能够保证对目标的准确建模。响应级决策融合方法是分别在两个模态下进行独立的跟踪，再将可见光和红外模态的跟踪结果进行融合或加权，得到最终的目标预测；该方法割裂了不同模态的协同特性，无法充分利用模态间的互补特性。

目前特征级融合方法的融合方式多是将两个模态下的特征直接进行简单级联，或者设计局部共享参数的特征提取模型，无法充分发挥模态间的一致性与互补性。

发明内容

针对可见光与红外图像的目标跟踪中跨模态信息利用问题，本发明提供了一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法，利用注意力机制实现模态间互补信息的交互与融合，结合两种成像方式优势与特点，提高目标跟踪算法的抗干扰能力和稳定性。

本发明采用的技术方案为：

基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法，包括以下步骤：

步骤1：构建数据集，对公开的RGB、RGBT目标跟踪数据集进行筛选，得到对应训练集；

步骤2：构建网络，包括特征提取网络、双模态孪生跟踪网络；

步骤2.1：构建特征提取网络：

所述特征提取网络是基于跨模态注意力机制构建的特征提取网络φ(*)，包括深度特征提取与同级特征融合；采用双分支结构分别输入RGB图像和红外T图像，得到RGBT融合特征F：

F＝φ(I_v,I_t)

其中I_v,I_t代表可见光图像、红外图像。所述两个分支结构相同：

{C(64,7,2)BR}-{C(128,3,2)BR}-{C(256,3,2)BR}-{C(512,3,1)BR}-{C(512,3,1)BR}

其中，C表示卷积层，括号内三位数字依次表示卷积核数量、卷积核尺寸、卷积步长，B表示批标准化层、R表示线性整流函数(ReLU)激活层，{*}表示一个层级结构。

通过注意力引导同级特征融合并反馈到双分支结构：特征级联、注意力加权，反馈。将两模态特征级联并输入到通道注意力求权函数f_ca(*)：

F_concat＝[F_v,F_t]

其中[*,*]表示通道级联，F_v表示可见光图像特征，F_t红外图像特征，F_concat为级联输出；加权函数f_ca(*)中，

分别表示在通道方向上对特征F_concat的全局平均值池化和全局最大值池化，L₀、L₀表示两层全连接层，R表示线性整流函数(ReLU)激活层，σ表示sigmoid激活函数。

将求权函数f_ca(*)的输出和输入相乘，得到注意力特征F_a：

F_a＝f_ca(F_concat)⊙F_concat

其中⊙表示通道对应乘法。进一步将F_a输入两层卷积结构，得到融合特征F_af：

F_af＝W₁(R(B(W₀(F_a))))

其中W₀、W₁表示卷积层、B表示批标准化层、R表示线性整流函数(ReLU)激活层。进一步地，将F_af分别和同级可见光模态特征F_v、红外模态特征F_t进行通道级联。人为调整F_af和F_v、F_t的通道比例，得到同级模态特征

i∈{1,2,3}表示特征的层级，C₁/C₂表示F_v与F_af的通道比例：

步骤2.2：构建双模态孪生跟踪网络；

双模态孪生跟踪网络为双分支、4输入：

I_v,I_t代表可见光图像、红外图像，Z表示模板，X表示搜索区域；根据

得到模板特征F_Z，根据

得到搜索区域特征F_X：

剪切F_Z得到运算核，对搜索区域特征F_X进行互相关运算，得到响应特征R：

其中

表示获取运算核的操作。

利用如下子分支对响应特征R进行解码：目标位置预测分支f_cls(*)、目标边框预测分支f_bbox(*)；并进行多任务输出：前后景二分类响应图R_cls、目标中心位置响应图R_cen、目标尺寸预测响应图R_bbox：

R_clc＝C_clc(f_cls(R))

R_cen＝C_cen(f_cls(R))

R_bbox＝C_bbox(f_bbox(R))

其中C_clc、C_cen、C_bbox为输出层。

步骤3：两阶段训练：

网络输入数据：

模板图像对、

搜索区域图像对；模型输出响应图：R_cls、R_cen、R_bbox。对分类分支的R_cls、R_cen采用交叉熵损失函数，对边框预测的R_bbox采用IOU损失函数。

步骤3.1：利用步骤1中可见光下RGB目标跟踪数据进行预训练，将RGB图像转为灰度图代替相应的红外图像；采用梯度下降法训练至损失值基本收敛。

步骤3.2：利用步骤1中RGBT目标跟踪数据进行微调训练；加载前述步骤3.1中的预训练参数并降低学习率进行训练，采用梯度下降法训练至损失值基本收敛。

步骤4：目标跟踪：将所述网络集成为离线跟踪器，对可见光与红外视频数据进行跟踪。

步骤4.1：初始化第一帧可见光图像和红外图像中待跟踪目标的模板，计算下一帧红外图像和可见光图像的搜索区域。

步骤4.2：解析模型输出：前后景分类响应R_cls、目标中心位置响应R_cen、目标尺寸预测响应R_bbox。

目标最终位置估计响应图R_loc如下计算：

R_loc＝(1-η)*R_cls*R_cen+η*H_hamming

其中η是人为设定的加权系数，H_hamming为汉明窗口；R_loc最大值位置为目标位置预测。目标边框计算如下：

(l,t,r,b)＝Loc_max(R_loc)⊙R_bbox

其中Loc_max(R_loc)表示取R_loc最大值位置并置为1，其它置0；⊙表示二维对应位置相乘，得到中心点距离边界框左、上、右、下的距离向量：(l,t,r,b)；进而得到目标矩形边框。

步骤4.3：根据步骤4.1的处理过程，逐帧迭代计算图像中目标位置以及边框，实现RGBT下目标连续跟踪。

本发明的有益效果为，本发明利用可见光与红外图像信息一致性与互补性特点，设计特征提取网络并集成为孪生的跟踪网络；跨模态注意力机制对于光照变化剧烈、低可见度等复杂场景的特征提取具有较强的稳定性，进而增强跟踪模型的稳定性与鲁棒性。

附图说明

图1为本发明实施例中的特征提取网络示意图；

图2为本发明实施例中的双模态孪生跟踪网络示意图；

图3为本发明实施例中RGBT跟踪结果示意图，(a)是对车辆跟踪，(b)是对人物进行跟踪。

具体实施方式

下面结合附图详细描述本发明的技术方案。

本发明提供的一种基于跨模态注意力机制与孪生结构的RGBT目标跟踪方法，技术方案流程图如图1所示，模型框架如图2所示，具体包括以下步骤

步骤1：构建数据集，对公开的RGB目标跟踪数据集GOT-10k进行筛选，去除目标可见度低、目标线性尺度过大、目标消失的数据，得到RGB训练集，共4624个序列。对公开的RGBT目标跟踪数据集GTOT进行筛选，去除红外图像噪声过大的数据，得到RGBT训练集，共30个序列。将RGB-T234作为完整的测试集。

步骤2.1：构建特征提取网络

F＝φ(I_v,I_t)

其中I_v,I_t分别代表可见光图像、红外图像。图像对I_v,I_t中的内容基本对准，像素误差在10像素距离以内。两个分支采用相同5层堆叠式卷积结构，具体层次如下：

{C(64,7,2)BR}-{C(128,3,2)BR}-{C(256,3,2)BR}-{C(512,3,1)BR}-{C(512,3,1)BR}

其中，C表示卷积层，括号内三位数字依次表示卷积核数量、卷积核尺寸、卷积步长，B表示批标准化层、R表示线性整流函数(ReLU)激活层，{*}表示一层所含结构，前两层卷积操作不进行张量填充，后三层卷积操作进行0填充，以维持特征的空间分辨率。

进一步地，注意力引导同级特征融合再反馈到双分支结构，且只在前述前三层进行：具体融合方法为：特征级联、注意力加权，反馈到双分支特征。

首先将两模态特征级联并输入到通道注意力求权函数f_ca(*)：

F_concat＝[F_v,F_t]

分别表示在通道方向上对特征F_concat的全局平均值池化和全局最大值池化，L₀、L₁表示两层全连接层，R表示线性整流函数(ReLU)激活层，σ表示sigmoid激活函数。L₀的节点数量为F_concat通道数乘压缩率，本实施例中压缩率为1/8；L₁节点数量等于F_concat通道数。

将求权函数f_ca(*)的输出和对应输入相乘，得到注意力特征输出F_a：

F_a＝f_ca(F_concat)⊙F_concat

F_af＝W₁(R(B(W₀(F_a))))

其中W₀、W₁表示卷积层、B表示批标准化层、R表示线性整流函数(ReLU)激活层，W₀卷积核数量为F_a通道数的1/4，W₁卷积核数量根据后续通道比例确定。进一步地，将F_af分别和同级可见光模态特征F_v、红外模态特征F_t进行通道级联。人为调整F_af和F_v、F_t的通道比例，得到同级模态特征

其中[*,*]表示通道级联，i∈{1,2,3}表示特征的层级，C₁/C₂表示F_v与F_af的通道比例：

即在前三层逐级增大融合特征通道数相较于模态特征通道数的比例，后续结构加深模型深度并增大感受野但不进行上述融合。

步骤2.2：构建双模态孪生跟踪网络；

进一步地，利用前述深度特征提取模块构建参数共享的孪生网络，结构示意如图二所示，双模态孪生跟踪网络为双分支、4输入：

I_v,I_t代表可见光图像、红外图像，Z表示模板，X表示搜索区域。

根据目标位置与大小对可见光和红外图像进行中心缩放和裁剪，得到基本对准的图像对：

I_v,I_t代表可见光图像、红外图像，Z表示模板，X表示搜索区域；模板图像尺寸为127×127；搜索区域图像尺寸为255×255；缩放比例根据目标尺寸计算得到，使裁剪后的模板图像包含2倍目标大小的内容。上述图像输入值特征提取网络得到F_Z、F_X：

进一步地，对模板特征F_Z进行中心剪切，得到运算核，本实施例中裁剪比例为1/2。使用该运算核对搜索区域特征F_X进行通道对应的互相关运算，得到响应特征R：

其中

表示获取运算核的操作。

进一步地，利用两个子分支对前述响应特征R进行解码：目标位置预测分支f_cls(*)、目标边框预测分支f_bbox(*)；并进行多任务输出：前后景二分类任务、目标中心位置预测、目标尺寸预测。

f_cls(*)和f_bbox(*)为结构相同的4层卷积结构，每层结构为{CGR}，其中C表示卷积层，G表示组标准化层、R表示线性整流函数(ReLU)激活层。多任务输出为前后景二分类响应图R_cls、目标中心位置响应图R_cen、目标尺寸预测响应图R_bbox：

R_clc＝C_clc(f_cls(R))

R_cen＝C_cen(f_cls(R))

R_bbox＝C_bbox(f_bbox(R))

其中C_clc、C_cen、C_bbox为输出卷积层，将对应特征图通道数分别压缩至2、1、4。

步骤3：模型分两阶段训练：基于可见光RGB目标跟踪数据的预训练、基于可见光与红外RGBT目标跟踪数据的微调训练。

输入数据：

模板图像对、

搜索区域图像对；模型输出响应图：R_cls、R_cen、R_bbox。对分类分支的R_cls、R_cen采用交叉熵损失函数，对边框预测的R_bbox采用IOU损失函数。三个损失进行加权求和为总损失值：

loss＝λ₁l_cls+λ₂l_cen+λ₃l_bbox

其中l_cls、l_cen、l_bbox分别代表R_cls、R_cen、R_bbox对应损失值。λ_i,i∈{1,2,3}为权值，本实施例中λ₁＝1.0，λ₂＝1.0，λ₃＝4.0。

首先，利用可见光下目标跟踪数据进行预训练，将RGB图像转为灰度图代替相应的红外图像。从可见光目标跟踪数据集GOT-10k中筛选4623个序列作为训练集，使用Adam优化器，全局学习率设置为0.0001，在数据集进行200次完整迭代。

然后，利用真实的可见光图像与红外图像进行微调训练；本实施例使用RGBT跟踪数据集中的978个视频序列作为训练数据。加载前述预训练模型并调整学习率，将响应图解码网络参数的学习率调整为0.00005，特征提取模块参数的学习率为0.0001，在数据集上进行1000次完整迭代。

步骤4：目标跟踪：将所述模型集成为离线跟踪器，对可见光与红外视频数据进行跟踪。

初始化第一帧可见光图像和红外图像中待跟踪目标，经过图像预处理之后作为后续跟踪过程的模板，固定不变。根据当前目标中心位置，计算下一帧红外图像和可见光图像的搜索区域，输入到孪生结构对应的搜索区域特征提取分支。

模型逐层进行运算得到三个响应图：前后景分类响应R_cls、目标中心位置响应R_cen、目标尺寸预测响应R_bbox。目标最终位置估计响应图R_loc如下计算：

R_loc＝(1-η)*R_cls*R_cen+η*H_hamming

其中加权系数η设置为0.55，H_hamming为汉明窗口；R_loc最大值位置为目标位置预测。目标边框计算如下：

(l,t,r,b)＝Loc_max(R_loc)⊙R_bbox

其中Loc_max(R_loc)表示取R_loc最大值位置并置为1，其它置0；⊙表示二维对应位置相乘，得到中心点距离边界框左、上、右、下的距离向量：(l,t,r,b)；进而得到预测的矩形边框bbox_pred。在跟踪过程中可根据实际跟踪任务对预测的矩形边框进行平滑计算：

bbox_cur＝μ*bbox_pred+(1-μ)*bbox_prev

其中μ为边框变化的学习率，本实施例中为0.2，bbox_prev为上一帧跟踪结果的边框，将平滑之后的结果bbox_cur作为最终预测。

按照上述处理流程，逐帧迭代计算图像中目标位置以及边框大小，实现RGBT下目标的连续跟踪。

根据上述实施方案所述，在RGBT目标跟踪数据集RGB-T234上测试模型的客观指标与性能。与其他9个跟踪算法进行对比，准确率与成功率指标的量化对比如下表所示。

方法	JSR	L1-PF	KCF	DSST	SAMF	CFnet	MEEM	SOWP	SRDCF	ours
											准确率	0.333	0.424	0.450	0.516	0.496	0.544	0.621	0.682	0.636	0.637
成功率	0.224	0.280	0.291	0.328	0.349	0.380	0.389	0.434	0.453	0.440

测试表明，得益于跨模态注意力机制的信息融合增益，本实施例的RGBT目标跟踪方法具有更好的跟踪效果与量化指标；跟踪结果示意如图3所示，(a)、(b)各表示一个序列，第一行为可见光图像，第二行为红外图像。