CN116758117B

CN116758117B - 可见光与红外图像下的目标跟踪方法及系统

Info

Publication number: CN116758117B
Application number: CN202310770109.2A
Authority: CN
Inventors: 江倩; 王国睿; 金鑫; 高学帅; 李淑婷; 李致远; 邵鑫凤
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2024-02-09
Anticipated expiration: 2043-06-28
Also published as: CN116758117A

Abstract

本发明公开了一种可见光与红外图像下的目标跟踪系统，包括：双模态双分支特征提取模块：用于从RGB和TIR图像中提取可见光特定特征、红外特定特征，以及从两种模态图像的共同特征；跨模态融合动态卷积模块：用于通过动态卷积将双模态双分支特征提取模块输出的所有特征相融合，得到特征图RGB‑T，以捕捉RGB和TIR图像之间的互补特征；区域建议网络的融合模块：用于通过融合模板特征与目标特征的分类分支对得到的特征图RGB‑T进行最终的分类与回归，以得到目标的边界框。本发明还公开了一种可见光与红外图像下的目标跟踪方法。本发明解决了现有方法下场景目标容易丢失或者模糊的问题。

Description

可见光与红外图像下的目标跟踪方法及系统

技术领域

本发明属于计算机视觉技术领域，特别是涉及一种可见光与红外图像下的目标跟踪方法及系统。

背景技术

目标跟踪是计算机视觉的一个重要领域，涉及到检测和跟踪视频流中的物体的任务。目标跟踪是指在摄像机或视频传感器捕获的一连串帧中定位和跟踪一个特定的物体。目标跟踪的应用多种多样，包括视频监控、交通监测、人机交互、机器人和增强现实。近年来，基于深度学习的目标跟踪算法由于其高精确度和稳健性而获得了极大的关注。基于深度学习的物体追踪算法使用卷积神经网络(CNN)从输入视频帧中提取特征，并使用这些特征来预测目标物体在下一帧中的位置。使用最广泛的基于深度学习的物体追踪算法之一是连体网络。连体网络是CNN的一种，它接收两个输入并输出一个相似度分数。其在目标跟踪的背景下，一个输入是目标物体的模板图像，另一个输入是下一帧的搜索图像。连体网络输出的相似度分数，代表两幅图像之间的相似度，而目标物体的位置是根据最大分数的位置来估计的。由于各种因素，如遮挡、外观变化和运动模糊。

RGB和TIR图像是同一场景的两种不同的光谱表示。尽管成像技术不同，但它们都能反映某些场景信息，如物体边界信息、细粒度的纹理信息等，被称为典型的模态特征。RGB图像提供了更真实和美观的场景描述，同时提供了更高的空间分辨率，因为它们能够捕捉到可见光谱内物体的颜色和纹理。TIR图像是通过检测物体发出的热辐射获得的，使它们能够熟练地辨别温度差异，并在低能见度的条件下，如烟雾和雾中，在可见光发生散射或吸收的情况下有效。此外，TIR图像能够在完全黑暗的环境中进行可视化，从而增强了其在夜间监控和相关应用中的效用。上述RGB和TIR图像之间不一致的信息被称为特定模式特征。通过使用RGB和TIR图像的特定模式和模式共享信息，分别表达特定模式和特定模式特征。在获得差异化的特征后，通过特征融合来增强特定的特征，以实现跨模式的互动，最后将增强和融合的特征用于目标位置估计。到目前为止，各种RGB-T追踪器已经被提出。早期的研究依赖于手工提取的特征。这些方法在光线不足、曝光过度和阴影等环境下效果不佳。继CNN在RGB追踪中取得成功后，深度CNN的显著特征提取和表示能力使这些新建立的RGB-T追踪器超越了旧的追踪器。因此，近年来，基于多域网络的不同追踪器开始发展起来。然而，由于它们的速率比实时慢得多，这些追踪器很难执行实时任务，如自主驾驶、反无人机等。最近的研究集中在开发采用连体网络的RGB-T追踪器来解决这个问题。其中一个追踪器是由Guo等人提出的RGBT连体追踪器，被称为DuSiamRT。虽然这个追踪器表现出了很高的实时性，但它的追踪精度却比不上其他同类型的RGB-T追踪器。

目前简单的多模态融合算法倾向于以类似的方式提取不同模态的特征，忽略了每种模态和区域对检测的不同贡献。因此，这种方法往往导致红外图像的噪声区域部分过拟合。在现实世界中，由于红外成像的局限性，包括过多的噪声、图像对比度差、信噪比低、边缘模糊、视觉效果模糊和灰度范围受限，而RGB和TIR图像的特点不同，图像中某些场景目标要么丢失，要么模糊，尤其是在背景和物体边界附近。为了应对这些挑战，本研究提出了一种基于注意力的RGB-T多模态信息融合机制，该机制可以减少TIR图像噪声的负面影响，最大限度地提高多模态特征的互补性。

发明内容

本发明实施例的目的在于提供一种可见光与红外图像下的目标跟踪方法及系统，以解决现有方法下场景目标容易丢失或者模糊的问题。

为解决上述技术问题，本发明所采用的技术方案是，一种可见光与红外图像下的目标跟踪系统，包括：

双模态双分支特征提取模块：用于从RGB和TIR图像中提取可见光特定特征、红外特定特征，以及从两种模态图像的共同特征；

跨模态融合动态卷积模块：用于通过动态卷积将双模态双分支特征提取模块输出的所有特征相融合，得到特征图RGB-T，以捕捉RGB和TIR图像之间的互补特征；

区域建议网络的融合模块：用于通过融合模板特征与目标特征的分类分支对得到的特征图RGB-T进行最终的分类与回归，以得到目标的边界框。

进一步地，所述双模态双分支特征提取模块包括上部分的模板图像特征提取部分和下部分的检测图像特征提取部分，其中，模板图像特征提取部分包括RGB模板图像特征提取部分和TIR模板图像特征提取部分，检测图像特征提取部分包括RGB检测图像特征提取部分和TIR检测图像特征提取部分；

所述RGB模板图像特征提取部分、TIR模板图像特征提取部分、RGB检测图像特征提取部分、TIR检测图像特征提取部分均由四个卷积模块组成，四个卷积模块中前两个卷积模块包含一个卷积层、一个归一化层、一个最大池化层和一个激活函数层，后两个卷积模块包含一个卷积层、一个归一化层和一个激活函数层。

进一步地，所述双模态双分支特征提取模块还包括特征解耦模块，用于对RGB和TIR图像的原始特征进行解耦，得到可见光特定特征、红外特定特征，以及从两种模态图像中提取的共同特征，所述特征解耦模块的表达式如下：

其中，分别代表可见光、热红外图像的原始特征；F_RS、F_TS、F_MC分别代表特征解偶模块中的可见光特定特征、红外特定特征、从两种模态图像中提取的共同特征的输出模块；/>分别表示特征解耦模块输出的可见光特定特征、红外特定特征、从两种模态图像中提取的共同特征。

进一步地，所述跨模态融合动态卷积模块包括卷积核以及对卷积核的关注机制，所述对卷积核的关注机制表示为：

_se＝_ex(Z,W)

＝σ(W_se2δ(W_se1W_c))

F_ex代表通道注意力操作，z代表的是一个可学习的矩阵，W代表的是输入的特征，δ表示第一个全连接层对W_se1与特征矩阵W_c进行全连接操作，通过W_se1对W_c进行抽象信息提取，σ表示通道注意力操作通过W_se2对δ(W_se1W_c)进行通道调整；W_se1是一个可学习的矩阵，通过与W_c矩阵相乘提取多维子空间信息；W_se2是一个可学习的矩阵，其维度是K_se×K_c，K_c为卷积核的通道数，K_se是δ(W_se1W_c)的维度；W_se2通过与δ(W_se1W_c)矩阵相乘将多维子空间信息浓缩一种对多个卷积核的关注机制，权重应用于卷积核。

进一步地，所述区域建议网络的融合模块包括两个分类分支、两个回归分支和区域建议网络RPN，所述分类分支和回归分支均用于增强区域建议网络RPN；所述分类分支由一个3×3大小的卷积层构成，输出通道数为2n，n代表锚盒个数；所述回归分支由一个3×3大小的卷积层构成，输出通道数为4n；

所述区域建议网络的融合模块还包括双分支融合模块，用于对两个分类分支的特征值进行融合以及对两个回归分支的特征值进行融合。

进一步地，所述区域建议网络的融合模块中两个分类分支的特征值的融合表示为：

R_cls＝[ψ(x_rc)]_cls×[ψ(z_r)]_cls

M_cls＝[ψ(x_mc)]_cls×[ψ(z_m)]_cls

L_cls＝M_cls+R_cls

其中，R_cls表示两种模态的原始地图上对应位置处的每个锚帧被预测为背景和目标的概率，M_cls表示两种模态的原始地图上对应位置处的每个锚帧被预测为背景和目标的标签的损失；x_rc代表可见光模态的分类分支特征，x_mc代表融合模态的分类分支特征，z_r和z_m分别代表与该原始图像所对应的分类标签；L_cls为最终的分类结果；

两个回归分支的特征值融合表示为：

R_reg＝[ψ(x_rr)]_reg×[ψ(z_r)]_reg

M_reg＝[ψ(x_mr)]_reg×[ψ(z_m)]_reg

L_reg＝M_reg+R_reg

其中，ψ代表损失函数，x_rr代表可见光模态的回归分支特征，x_mr代表融合模态的回归分支特征，R_reg表示两种模态的原始地图上对应位置处的每个锚帧被所预测偏移量的损失，M_reg表示两种模态的原始地图上对应位置处的每个锚帧被所预测标签的损失，L_reg表示锚框和对应的地面真值框之间的预测偏移损失综合。

本发明还提供了一种可见光与红外图像下的目标跟踪系统的跟踪方法，包括以下步骤：

S0：输入源图像，包括RGB模板图像、TIR模板图像和RGB检测图像、TIR检测图像；

S1：获取RGB-T图像对，将图像转换成Tensor的数据格式，然后根据所需要的目标作为模板裁剪，之后通过图像预处理进行重建，再根据目标进行裁剪；

S2：将S1裁剪后的图像输入到双模态双分支特征提取模块，对源模板图像和目标图像进行特征提取，得到两种模态的独有特征图以及模态间共有的特征图；

S3：将S2提取的两种模态解耦后的独有特征图输入到跨模态融合动态卷积模块中，通过动态卷积的方法将其融合，以使得RGB和TIR图像的模态间独立信息得到充分融合；

S4：通过将融合模板特征与目标特征的分类分支得到的特征图输入区域建议网络的融合模块，进行最终的分类与回归；

S5：将S4得到的数据进行后处理最终得到目标所在坐标；

S6:按照固定批次将RGB和TIR图像输入到模型中，并依次循环S0-S5，实现动态跟踪。

本发明的有益效果是：

本发明的特征解耦模块在可以提取特征图的同时还实现了特征信息的融合，而区域建议网络则根据RGB与TIR模态信息量的不同进行优化，以实现高质量的多模态目标跟踪算法。此外，还构建了一种跨模态融合动态卷积机制，以实现降低特征信息丢失和聚焦关键信息的作用。本发明根据提出的特征解耦的跨模态融合动态卷积模块和区域建议网络的融合模块，充分了利用两种模态图像的协同性，高效融合了两种模态图像互补的细节和光谱信息。本发明有效利用不同模态特征的差异性和互补性，用于各种极端环境的目标跟踪任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的目标跟踪系统的总体架构图。

图2是本发明实施例的多模态双分支特征提取模块结构示意图。

图3是本发明实施例的跨模态融合动态卷积模块结构示意图。

图4是本发明实施例的跨模态融合动态卷积模块与普通模块视觉分析对比图。

图5是本发明实施例的区域建议网络的融合模块结构示意图。

图6是本发明实施例的各方法效果对比图。

图7是本发明实施例的各方法对比实验数据图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种可见光与红外图像下的目标跟踪系统(SiamTDR)，参见图1，包括多模态双分支特征提取模块、跨模态融合动态卷积模块(DP-MF)和区域建议网络的融合模块(DBF)。RGB图像和TIR图像被作为模型的输入，被跟踪目标的位置坐标作为输出。多模态双分支特征提取模块用于提取RGB和TIR图像的视觉外观的信息与温度分布的信息。特征解耦的跨模态融合动态卷积模块可以看作是将上一层输出的两种模态特征相融合，提高两种协同互补性。最后本发明的SiamTDR性能得益于特征解耦的重构能力以及两个融合模块的抗干扰能力，使该网络能有效利用不同模态特征的差异性和互补性，用于各种极端环境的目标跟踪任务。基于上述系统，本发明还提供了一种可见光与红外图像下的目标跟踪方法，具体包括以下步骤：

S0、输入源图像并计算训练图像的分类和回归标签信息(即目标在Detection图像的位置信息，以便通过后续Loss函数计算损失，优化可学习参数)，包括RGB模板图像(Template-RGB)、TIR模板图像(Template-TIR)和RGB检测图像(Detection-RGB)、TIR检测图像(Detection-TIR)。

S1、双分支特征提取模块：利用特征提取模块对Template图像(RGB模板图像、TIR模板图像)和Detection图像(RGB检测图像、TIR检测图像)进行特征提取，得到两种模态的独有特征与模态间共有的特征图。

S1.1、特征提取模块作为模型的头部由两个部分(即模板特征提取和检测特征提取两部分)构成，参见图2。两部分结构相似并且有部分相同的参数，表1展示了特征提取模块的细节。特征提取模块获得图像信息对后面的模块极为重要，可表示为：

其中，F_PE代表图像经过双分支特征提取模块，image R_GB表示RGB图像，image_TIR表示TIR图像。

表1特征提取模块

RGB与TIR图像被用于该模块的输入，但因为两张图片规格相同，特征提取模块被设计为上下两部分，包括上部分的Template图像特征提取部分和下部分的Detection图像特征提取部分，均由四个卷积模块组成。其中前两个卷积模块包含一个卷积层、一个归一化层、一个最大池化层和一个激活函数层，后两个卷积模块包含一个卷积层、一个归一化层和一个激活函数层。使用ReLU作为激活函数，其推导更容易，训练速度更快。

获取不同模态的权重方式如式(11-1)所示：

其中，dim代表不同的通道，cat代表将F_rgb(RGB特征)与F_t(红外特征)在dim维度上进行拼接，W_c代表获取的不同模态的权重，X代表可见光与热红外特征拼接后的特征，F_sq是一个全局池化操作，i与j分别是在特征值的横纵坐标。H与W代表特征图的长和宽。

S1.2、特征解耦模块。本发明根据可见光模态与热红外模态互补的特性分别将可见光模态解耦成可见光特定特征、红外特定特征和从两种模态图像中提取的共同特征，它的主要作用是将原始特征中的相关性降低，使得不同模态特征之间的影响减少，从而提高提取的特征的独立性和判别性。具体来说，特征解耦可以通过一些线性或非线性变换，将原始特征映射到一个新的空间中，使得不同特征在新的空间中的相关性降低，从而使得这些特征更容易被SiamTDR(本发明的模型)区分前景与背景。通过特征解耦，可以减少特征空间的维度，提高模型的泛化能力，同时还可以降低模型的复杂度和计算成本。此外，特征解耦还可以提高算法的鲁棒性，使得模型对噪声和干扰的抗性更强，从而提高模型的性能和稳定性。

分别代表可见光与热红外图像的原始特征。F_RS、F_TS、F_MC分别代表特征解偶模块的可见光特定特征、红外特定特征和从两种模态图像中提取的共同特征的输出模块。/>分别表示特征解耦模块输出的可见光特定特征、红外特定特征和从两种模态图像中提取的共同特征。/>和/>是完全独立的，以保证模态特征提取过程的差异性，同时接受可见光和红外图像作为输入，意味着两种模态图像共享模型结构和参数，使用同一模型对两种模态图像产生一致的特征表示。特征解耦模块可以用等式(11-2)描述。

S2、跨模态融合动态卷积模块：将特征提取网络提取的可见光与红外模态解耦后的独立特征图输入到跨模态融合动态卷积模块中，通过动态卷积的方法将其融合，以使得RGB和TIR图像的模态间独立信息得到充分融合。

S2.1、其详细结构如图3所示。用于模板和检测的RGB和TIR特征分别从双分支特征提取模块的特征解耦模块获得，下一步是融合这些特征用于目标跟踪。用于最终跟踪的融合模板特征是通过将来自特征解耦模块可见光特定特征、红外特定特征和从两种模态图像中提取的共同特征融合得到。对于本发明来说，跨模态融合动态卷积模块成功地融合这三种特征以捕捉RGB和热红外图像之间的多模式互补特征。

RGB-T融合图像包含互补特征，有助于提高检测精度，但融合多模态特征的常见方法是元素相加和串联。然而，由于噪声的存在和不同模态特征对物体检测的贡献不同，平等地融合RGB和TIR图像是不公平的。在融合多模态信息时，应根据不同模态的特点来设定权重。考虑到每种模式数据的特征可靠性，基于内容依赖性加权的融合策略通常比简单的元素求和或基于串联的融合策略表现得更好。尽管如此，现有的融合策略大多没有考虑融合过程中输入的多模态RGB和热红外图像之间的特征差异。本发明在融合模块中引入了多模态特征的动态感知来实现这一目标。本发明的跨模态融合动态卷积模块可以自适应地选择需要关注的来自不同模态的空间和通道维度的特征。卷积核针对不同模态的图像特征进行动态调整，用更合适的卷积参数进行处理。在高质量的RGB图像的帮助下，它避免了过度拟合的噪声区域。

跨模态融合动态卷积模块的结构如图3所示，主要由卷积核和对卷积核的关注机制组成，具有两个输入，即RGB特征图(包括共同特征中的RGB特征部分)和TIR特征图(包括共同特征中的TIR特征部分)，先将两个特征图进行在通道维度进行拼接，之后会由这个拼接的特征图产生对卷积核的关注机制，并根据每个注意力机制中的不同特征图生成更合适的卷积核，并使用该卷积核进行特征提取以生成更好的特征。具体来说，首先通过核大小为3×3的n个过滤器，根据不同的特征输入以动态调整每个过滤器的信道纬度权重和每个过滤器的权重。随后，在信道注意力进行最终调整之前，对调整后的过滤器进行简单求和。在数学上，动态生成过滤器可以表示为(11-3)。

多模态的互补信息，有助于区分重叠和遮挡等对象。F_ex代表通道注意力操作，z代表的是一个可学习的矩阵，W代表的是输入的特征，δ表示第一个全连接层对W_se1与W_c进行全连接操作，通过W_se1对特征矩阵W_c进行抽象信息提取，σ表示通道注意力操作通过W_se2对δ(W_se1W_c)进行通道调整，W_se1是一个可学习的矩阵，通过与W_c矩阵相乘提取多维子空间信息；W_se2同样是一个可学习的矩阵，其维度是K_se×K_c(K_c为卷积核的通道数，K_se是δ(W_se1W_c)的维度)，W_se2通过与δ(W_se1W_c)矩阵相乘将多维子空间信息浓缩一种对多个卷积核的关注机制，权重应用于卷积核。对于不同的输入，使用不同的卷积核。然后，对于这些不同的卷积核，对注意力进行加权。为了证明本发明提出的方法的有效性，本实施例对所选帧的调制特征进行了视觉分析。如图4所示，本发明的跨模态融合动态卷积模块在RGB-T跟踪任务的特征表示方面表现出明显的增强。

S3、区域建议网络的融合模块：通过融合模板特征与目标特征的分类分支对得到的特征图进行最终的分类与回归。

区域建议网络(RPN)在分类前景和背景以及回归边界框方面起着关键作用。在RGB-T目标跟踪中，本发明引入了两个分类分支和两个回归分支来增强RPN。分类分支由一个3×3大小的卷积层构成，其输出通道数为2n(n代表锚盒个数)；回归分支由一个3×3大小的卷积层构成，其输出通道数为4n(n代表锚盒个数)；其中分类分支是通过跨模态融合动态卷积模块所产生的特征信息定位目标的位置，回归分支是通过跨模态融合动态卷积模块所产生的特征信息确定目标的形状。同时为了增强跟踪推理阶段的鲁棒性，本发明提出了一种双分支融合模块(DBF)，具体参见图5，该模块是分别将两个分类分支与两个回归分支的特征值相加，该模块将融合后回归分支与分类分支结合为最终回归特征，通过最终融合分类特征来确定目标的大体位置，最终融合回归特征来精确描述目标的边界框。具体地说，通过特征求和来集成两个回归分支，以产生更好的边界框定位。类似地，通过特征求和将两个分类分支合并以获得最终分类特征，然后对其进行后处理以产生最终结果。

R_cls＝[ψ(x_rc)]_cls×[ψ(z_r)]_cls

M_cls＝[ψ(x_mc)]_cls×[ψ(z_m)]_cls

R_cls和M_cls表示两种模态的原始地图上对应位置处的每个锚帧被分别预测为背景和目标的概率与标签的损失。x_rc代表可见光模态的分类分支特征，x_mc代表融合模态的分类分支特征，z_r和z_m分别代表与该原始图像所对应的分类标签然后，通过特征求和操作来融合这两个分类结果，从而可以获得最终的分类结果L_cls：

L_cls＝M_cls+R_cls

该模块中的回归分支对锚框进行回归，以获得更好的边界框。具体的，使用关于RGB和TIR模态的信息来回归边界框。因为需要dx,dy,dw,dh(dx代表对目标中心横坐标的偏移量，dy代表对目标中心横坐标的偏移量，dw代表锚盒宽度的调整量，dh代表锚盒高度的调整量)来计算锚盒和地面真相之间的距离，所以回归分支的通道数为4n(n代表在每一点上锚盒数量)。参考分类分支，可以获得以下公式：

R_reg＝[ψ(x_rr)]_reg×[ψ(z_r)]_reg

M_reg＝[ψ(x_mr)]_reg×[ψ(z_m)]_reg

L_reg＝M_reg+R_reg

ψ代表损失函数，x_rr代表可见光模态的回归分支特征，x_mr代表融合模态的回归分支特征，z_r和z_m分别代表与该原始图像所对应的标签,R_reg和M_reg分别表示两种模态的原始地图上对应位置处的每个锚帧被所预测偏移量与标签的损失，L_reg表示锚框和对应的地面真值框之间的预测偏移损失综合，根据数学规则将其转录为向量k代表锚盒个数；同时，每个锚框和相应地面真值框的实际偏移记录为c_i,i∈[0,k)。本发明使用平滑L1损失和Faster r-cnn中使用的归一化坐标来监督回归分支的训练：

S4、损失函数：通过将后处理的坐标与标签图像进行计算LOSS差值并反向传播优化网络。

在训练阶段，将epoch设置为50，batchsize为128，优化器为SDG，学习率设置为余弦退火。在任何模型中损失函数都是极其重要的，损失函数影响模型的训练过程，直至影响生成的结果。本发明采用L1作为损失函数，其方程可以用下式表示。L1表示坐标框的均方误差，其中Ψ表示模型输出，Y则为标签。

S5、按照固定批次将RGB和TIR图像输入到模型中，并依次循环S0-S4

S6、若仍有目标需要跟踪则循环S5，一直到不再有目标需要跟踪为止。

实施例一

参见图1的架构，提出了一种基于双分支特征解耦的跨模态融合动态卷积机制的可见光与红外图像下的目标跟踪方法，其包括以下步骤：

S0：输入源图像Input＝[Template-RGB,Template_TIR]和[Detection-RGB,Detection-T]。

S1：获取RGB-T图像对，将图像转换成Tensor的数据格式，然后根据所需要的目标作为模板裁剪，之后通过算法的图像预处理模块重建为127×127×3，再根据目标裁剪一个大小为271×271×3的数据。

S2：将RGB-T图像预处理后的4个图像输入到特征提取模块，利用特征提取网络对源模板图像和目标图像进行特征提取，得到两种模态的独有特征与模态间共有的特征图。

S3：将S2提取的两种模态解耦后的独立特征图输入到跨模态融合动态卷积模块中，通过动态卷积的方法将其融合，以使得RGB和TIR图像的模态间独立信息得到充分融合。

S4：通过将融合模板特征与目标特征的分类分支得到的特征图进行最终的分类与回归。

S5：将S4得到的数据进行后处理最终得到目标所在坐标。

S6:按照固定批次将RGB和TIR图像输入到模型中，并依次循环S0-S5。

实施例二

本实施例选取了多RGB-T图像对进行融合，并与现有的多种融合算法进行对比，以验证本发明方法的优势。

采用GTOT与RGB-T234图像数据集，其中包含原始高分辨率RGB图像和与之配准的TIR图像。本实施例将该RGB与TIR裁剪为搜索区域后模板图像以及目标图像作为网络的输入。将整幅高分辨率RGB与TIR图像分别分割并整理为127×127、27×27的图像对，若图像边缘部分不够裁剪，再计算图像的像素平均值，以补充边缘不足的区域。其中训练数据集共有64万对图像，测试数据集共有1.2万对图像。数据集的图像均为随机选择。

为了验证本发明方法在遥感图像融合中的先进性和有效性。本实施例使用了8种方法SiamBAN，CMRT，SiamRPN++，ATOM，DiMP，SiamFT，SGT，mfDiMP进行对比分析。以上方法的代码均公开，参数没有变动。而且被测试的图像均遵循目标的多元化。本实施例还对整个实验做了定量评价和定性评价，其中定量评价方法被分为有参考评价指标和无参考评价指标。如表2所示，实验结果表明，本发明提出的SiamTDR的表现优于其他八个跟踪器。其中OCC代表数据集中目被遮挡的图像跟踪表现。LSV代表数据集中目标具有大尺度变化的图像。FM代表目标快速运动的图像。LI代表数据集中目标热量与周围环境相近的图像。DEF代表被跟踪目标为小目标的图像(像素数小于400)。DEF代表数据集中目标形变较大的图像。本发明提出的SiamTDR在总指标取得了0.885的PR和0.714的SR，分别比排名第二的跟踪器mfDiMP(PR为0.836，SR为0.697)提高了0.051和0.017。这些结果证明了本发明提出的方法的卓越性能。此外，与基线跟踪器SiamRPN相比，本实施例提出的SiamTDR记录了0.088的PR和0.065的SR增长，进一步肯定了本发明提出的SiamTDR跟踪器在跟踪应用中的稳健性。在分类指标中也十分具有竞争力。

表2对比试验

本实施例在RGB-T234数据集上评估了本发明的追踪器SiamTDR的性能。为了比较其有效性，将其与其他15个跟踪器进行评估，其中包括CSR-DCF+RGBT、SOWP+RGBT、MEEM+RGBT、CFnet+RGBT、KCF+RGBT,C-COT,ECO,SGT,SOWP,DSST,SRDCF,CSR,CFnet,L1-PF,JSR。最初的5个追踪器利用了RGBT数据，而其余的追踪器只依靠RGB数据。如图7所示，研究结果显示，与其他方法相比，本发明的SiamTDR在RGB-T234数据集上取得了卓越的性能。具体来说，本实施例的跟踪器获得了0.772的PR分和0.551的SR分，分别比排名第二的SGT和CFnet+RGBT提高了0.063和0.221，这表明了本发明方法及系统的优越性。

如图6所示，将本文所提出的算法与其他当前流行的目标跟踪算法的跟踪结果进行可视化，结果表明相较于其他算法本算法的结果最为准确。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种可见光与红外图像下的目标跟踪系统，其特征在于，包括：

区域建议网络的融合模块：用于通过融合模板特征与目标特征的分类分支对得到的特征图RGB-T进行最终的分类与回归，以得到目标的边界框；

所述双模态双分支特征提取模块包括上部分的模板图像特征提取部分和下部分的检测图像特征提取部分，其中，模板图像特征提取部分包括RGB模板图像特征提取部分和TIR模板图像特征提取部分，检测图像特征提取部分包括RGB检测图像特征提取部分和TIR检测图像特征提取部分；

所述RGB模板图像特征提取部分、TIR模板图像特征提取部分、RGB检测图像特征提取部分、TIR检测图像特征提取部分均由四个卷积模块组成，四个卷积模块中前两个卷积模块包含一个卷积层、一个归一化层、一个最大池化层和一个激活函数层，后两个卷积模块包含一个卷积层、一个归一化层和一个激活函数层；

所述跨模态融合动态卷积模块包括卷积核以及对卷积核的关注机制，所述对卷积核的关注机制表示为：

S_se＝F_ex(z，W)

＝σ(W_se2δ(W_se1W_c))

2.根据权利要求1所述的一种可见光与红外图像下的目标跟踪系统，其特征在于，所述双模态双分支特征提取模块还包括特征解耦模块，用于对RGB和TIR图像的原始特征进行解耦，得到可见光特定特征、红外特定特征，以及从两种模态图像中提取的共同特征，所述特征解耦模块的表达式如下：

其中，分别代表可见光、热红外图像的原始特征；F_RS、F_TS、F_MC分别代表特征解偶模块中的可见光特定特征、红外特定特征、从两种模态图像中提取的共同特征的输出模块；分别表示特征解耦模块输出的可见光特定特征、红外特定特征、从两种模态图像中提取的共同特征。

3.根据权利要求1所述的一种可见光与红外图像下的目标跟踪系统，其特征在于，所述区域建议网络的融合模块包括两个分类分支、两个回归分支和区域建议网络RPN，所述分类分支和回归分支均用于增强区域建议网络RPN；所述分类分支由一个3×3大小的卷积层构成，输出通道数为2n，n代表锚盒个数；所述回归分支由一个3×3大小的卷积层构成，输出通道数为4n；

4.根据权利要求3所述的一种可见光与红外图像下的目标跟踪系统，其特征在于，所述区域建议网络的融合模块中两个分类分支的特征值的融合表示为：

R_cls＝[ψ(x_rc)]_cls×[ψ(z_r)]_cls

M_cls＝[ψ(x_mc)]_cls×[ψ(z_m)]_cls

L_cls＝M_cls+R_cls

其中，R_cls表示两种模态的原始地图上对应位置处的每个锚帧被预测为背景和目标的概率，M_cls表示两种模态的原始地图上对应位置处的每个锚帧被预测为背景和目标的标签的损失；x_rc代表可见光模态的分类分支特征，x_mc代表融合模态的分类分支特征，z_r和z_m分别代表与该原始图像所对应的分类标签；L_cls为最终的分类结果；ψ代表损失函数；

两个回归分支的特征值融合表示为：

R_reg＝[ψ(x_rr)]_reg×[ψ(z_r)]_reg

M_reg＝[ψ(x_mr)]_reg×[ψ(z_m)]_reg

L_reg＝M_reg+R_reg

5.一种如权利要求1～4任一项所述的可见光与红外图像下的目标跟踪系统的跟踪方法，其特征在于，包括以下步骤：

S5：将S4得到的数据进行后处理最终得到目标所在坐标；

S6：按照固定批次将RGB和TIR图像输入到模型中，并依次循环S0-S5，实现动态跟踪。