CN117474957A

CN117474957A - 一种基于目标感知增强融合结构的rgbt目标跟踪方法

Info

Publication number: CN117474957A
Application number: CN202311824466.9A
Authority: CN
Inventors: 钟珊; 陈攀峰; 龚声蓉; 严卫; 闫海英; 应文豪
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-01-30

Abstract

本发明公开了一种基于目标感知增强融合结构的RGBT目标跟踪方法，具体为：构建跨模态训练集和测试集；构建由目标感知特征提取网络、判别特征融合模块、双向交叉增强融合模块和目标分类回归网络组成的网络模型；预处理训练集数据，采用分类损失和回归损失构造损失函数，进行端到端的网络模型训练，采用梯度下降法训练至损失值收敛，利用自注意力对目标特征进行精确提取，并引入背景消除模块抑制背景干扰；利用通道注意力、自注意力和双向交叉注意力来弱化劣势模态特征，放大优势情态特征；将测试集输入训练完的模型中，获得目标跟踪结果。本发明能够在光照变化、黑夜、低可见度环境下提取稳定的特征信息，提高了模型的鲁棒性。

Description

一种基于目标感知增强融合结构的RGBT目标跟踪方法

技术领域

本发明涉及RGBT目标跟踪技术领域，特别是一种基于目标感知增强融合结构的RGBT目标跟踪方法。

背景技术

视觉目标跟踪是图像与视频智能处理领域内的重要研究课题和任务，也是近年来计算机视觉领域的研究前沿和热点，其基本任务是在连续的图像序列中，跟踪一个给出的特定目标，通常是在图像序列的第一帧中初始化跟踪目标，在后续图像中给出目标的位置、大小等相关信息，进一步得到目标整个运动过程的轨迹。

RGBT跟踪结合了可见光图像（RGB）和热红外图像（T）进行目标跟踪，是一种跨模态目标跟踪技术。可见光图像包含有关目标的丰富颜色和纹理特征，但对光照条件敏感；热红外图像能够反映对象表面的温度分布并且对光照条件不敏感，但它无法捕捉对象的详细纹理信息，因此，研究人员通过利用这两种模态的互补特性，弥补固有缺陷，从而提高视觉目标跟踪的精度和鲁棒性。

现有的跨模态特征提取网络是分别提取各模态的特征，再对它们使用互相关或者自注意力模型进行相似度度量，这些都是在模板和搜索区域没有交互的基础上离线训练好的，而在跟踪过程中，目标是不断变化的，当目标发生重大形变时，算法不能有效的识别目标与背景，最终导致跟踪失败的情况。

早期阶段，两模态的融合是直接简单的相加或在通道维度进行拼接后，利用卷积神经网络降维进行融合。随着注意力机制的出现，融合的方法发展为通过计算不同模态的注意力权重来实现自适应融合，这有效地降低了特征噪声和冗余信息。由于自注意力模型在可见光目标跟踪中取得了显著成功，研究人员也将其应用在RGBT目标跟踪上，最初是将两模态进行相加或拼接后，利用自注意力来实现融合，后来使用交叉注意力来直接交互两种模态，交叉注意力可以很好地学习共享信息，但无法捕获特定模态的信息。

发明内容

本发明的目的在于提供一种能够在光照变化、黑夜、低可见度环境进行更加稳定和鲁棒跟踪的RGBT目标跟踪方法。

实现本发明目的的技术解决方案为：一种基于目标感知增强融合结构的RGBT目标跟踪方法，包括以下步骤：

步骤1、构建跨模态训练集和测试集，将VTUAV和LasHeR的训练集进行合并作为网络模型的训练集，并采用同样的操作方法得到网络模型的测试集；

步骤2、构建网络模型，包括目标感知特征提取网络、判别特征融合模块、双向交叉增强融合模块和目标分类回归网络；

步骤3、初始化网络模型的权值和阈值，设置网络模型超参数，包括网络模型的学习率、迭代次数和批量大小；

步骤4、预处理训练集数据，选择一个视频序列，随机取出两帧不同的可见光图片和对应的热红外图片，其中同一帧作为模板，另外同一帧作为搜索区域，执行同样的数据增强操作并重塑大小；

步骤5、采用分类损失和回归损失构造损失函数，用于训练网络模型；

步骤6、进行端到端的网络模型训练，采用梯度下降法训练至损失值基本收敛；

步骤7、将测试集输入到训练完的网络模型中，获得相应的目标跟踪结果。

进一步地，步骤2中，构建网络模型的步骤具体如下：

步骤2.1、构建目标感知特征提取网络：目标感知特征提取网络采用视觉自注意力模型中的编码器结构作为骨干，其中编码器结构设计为12层，在第3、6、9层引入背景消除模块，该背景消除模块按照注意力权值大小筛选背景区域；将输入的二维空间特征通过块嵌入转换为向量表示，块嵌入的卷积核为16×16×768，步长为16；

步骤2.2、构建判别特征融合模块：判别式特征融合模块包括全局平均池化层、一个通用的全连接层、一个可见光全连接层、一个热红外全连接层、两个softmax激活层，判别特征融合模块的作用是实现自适应加强优势模态，减弱劣势模态；

步骤2.3、构建双向交叉增强融合模块：双向交叉增强融合模块包括三个多头注意力，四个层归一化和一个多层感知器；可见光令牌、判别特征融合结果令牌和热红外令牌分别通过各自的多头注意力和层归一化来自适应地学习不同的特征；将学习后的令牌执行交叉注意力运算，分别是可见光令牌和判别特征融合结果令牌之间运算，热红外令牌和判别特征融合结果令牌之间运算，注意可见光令牌和热红外之间不运算；将得到的运算结果执行逐元素相加操作，最后通过一层归一化层和多层感知器得到最终的融合结果；

步骤2.4、构建目标分类回归网络：目标分类回归网络共由12个Conv-bn-relu结构组成，每四个分别预测目标类别、局部偏移量和归一化的边界框大小，即目标的位置与大小。

进一步地，步骤3中，初始化网络模型的权值和阈值，设置网络模型超参数，包括网络模型的学习率、迭代次数和批量大小，具体如下：

采用MAE预训练的Vit-Base作为目标感知特征提取网络的权值，判别特征融合模块、双向交叉增强融合模块和目标分类回归网络的赋值使用正态分布随机初始化，输入模板图像大小为128，搜索图像大小为256，批量大小设置为16，骨干的初始学习率设置为，其余的学习率设置为/>；训练次数为100次，每一次处理60000对图像，80次后，学习率降低10倍；使用AdamW优化器对网络模型进行训练；权重衰减设为/>。

进一步地，步骤4中，预处理训练集数据，具体如下：

步骤4.1、在训练集中选择一个视频序列，随机选择同一帧的可见光图片和热红外图片作为模版，间隔30帧随机选择同一帧作为搜索区域；

步骤4.2、按照目标真实值，对取出的模版和搜索区域图片进行数据增强预处理，包括图像旋转、图像翻转、图像缩放、图像平移和灰度化操作；

步骤4.3、经过数据增强后将模板图像大小重塑为128×128像素，搜索区域图像大小重塑为256×256像素。

进一步地，步骤5中，采用分类损失和回归损失构造损失函数，构造的损失函数为：

其中，表示加权焦点损失，/>表示IoU损失，/>表示L1损失，/>和/>是超参数，分别表示IoU的损失权重和L1的损失权重，分别设置为2和5；

损失函数采用加权焦点损失来进行分类，采用L1损失和IoU损失来进行边界框回归。

进一步地，步骤7中，将测试集输入到训练完的网络模型中，获得相应的目标跟踪结果，具体如下：

步骤7.1、在测试集中选择一个视频序列，将第一帧作为模板，后续帧为搜索区域；

步骤7.2、按照第一帧的目标框进行裁剪模板，以目标为中心，以目标框大小的2倍进行裁剪，将裁剪得到的图像重塑为128×128像素；后续帧按照前一帧得到的目标框为基础，以目标为中心，以目标框大小的4倍进行裁剪，将裁剪得到的图像重塑为256×256像素；

步骤7.3、将裁剪好的数据输入到网络模型中，先经过块嵌入，再将得到的结果添加相应的位置编码，不同模态数据按照宽×高的维度进行拼接，输入到编码器层中；在编码器层中，先使用层归一化数据，使网络模型收敛，接着各个模态利用多头自注意力来促进模板与搜索区域之间的信息交互，之后通过背景消除模块，按照注意力权值的大小删除属于背景的令牌，并将令牌所处的值填充为0，再经过层归一化和多层感知机，使网络模型理解输入特征的含义和相关性；

步骤7.4、首先将提取到的两模态的特征逐元素相加，经过全局平均池化，再经过通用的全连接层后，分为可见光和热红外两个分支；可见光分支经过可见光全连接层后，再经过Softmax激活，生成注意力图，将原始的可见光特征做逐元素相乘获得新的特征；采用同样的方法获得热红外新的特征，最后将得到的两个新特征进行逐元素相加，得到初步融合结果；

步骤7.5、将初步融合结果和提取到的两模态特征分别输入多头注意力中，再经过各自的层归一化，执行交叉注意力运算来进行模态交互，再经过多层感知器得到最终融合结果；

步骤7.6、将得到的最终融合结果重塑为二维空间特征图并输入到目标分类与回归网络中，经过全卷积神经网络后得到目标分类图、局部偏移量和归一化的边界框大小，其中目标分类图中得分最高的位置即为目标位置，局部偏移量用来修正因分辨率降低而带来的离散化误差，边界框经过映射描述目标的大小。

进一步地，步骤7.3中，多头自注意力的输出MSA为：

其中、/>、/>分别是模板的查询矩阵、键矩阵和值矩阵，/>、/>、/>分别是搜索区域的查询矩阵、键矩阵和值矩阵；/>和/>表示模板和搜索区域之间的相似度度量，和/>表示特征提取，/>是激活函数；/>是常数，为块嵌入的向量维度。

进一步地，步骤7.5中，执行交叉注意力运算来进行模态交互，具体如下：

将通过多头自注意力的可见光令牌，判别特征融合结果令牌和热红外令牌执行交叉注意力运算，其中判别特征融合结果令牌作为中介分别与两模态执行运算，即可见光令牌和判别特征融合结果令牌之间运算，热红外令牌和判别特征融合结果令牌之间运算，可见光令牌和热红外之间不运算。

本发明与现有技术相比，其显著优点在于：（1）采用目标感知特征提取网络将两个模态的数据进行拼接，输入到具有背景消除模块的编码器中，利用自注意对目标进行精确匹配，引入背景消除模块消除背景干扰，增强了对目标的感知；（2）采用判别式融合和双向交叉增强融合来实现模态间的间接交互，解决了因模态间显著差异而抑制特征表示的问题，从而实现自适应的加强优势模态，减弱劣势模态，更好地得到跟踪结果。

附图说明

图1为本发明基于目标感知增强融合结构的RGBT目标跟踪方法的网络框架图。

图2为本发明基于目标感知增强融合结构的RGBT目标跟踪方法的流程示意图。

图3为本发明中目标感知特征提取网络的结构示意图。

图4为本发明中判别特征融合模块的结构示意图。

图5为本发明中双向交叉增强融合模块的结构示意图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

结合图1~图2，本发明一种基于目标感知增强融合结构的RGBT目标跟踪方法，包括以下步骤：

步骤1、构建跨模态训练集和测试集，将VTUAV和LasHeR的训练集进行合并作为模型的训练集，并采用同样的操作方法得到模型的测试集；

步骤7、将测试集输入到训练完的模型中，获得相应的目标跟踪结果。

作为一种具体示例，步骤2中构建网络模型，包括目标感知特征提取网络、判别特征融合模块、双向交叉增强融合模块和目标分类回归网络，如图1所示，具体如下：

步骤2.1、构建目标感知特征提取网络：目标感知特征提取网络采用视觉自注意力模型（Vision Transformer）中的编码器结构作为骨干，其中编码器结构设计为12层，在第3、6、9层引入背景消除模块，该模块按照注意力权值大小筛选背景区域，如图3所示，如果权重值越大，是目标的可能性越大，权重值越小，是背景的可能性越大；每一次消除背景的dropout设置为0.3；将输入的二维空间特征通过块嵌入（Patch Embeding）转换为向量表示，块嵌入的卷积核为16×16×768，步长为16；

步骤2.2、构建判别特征融合模块：如图4所示，判别式特征融合模块包括全局平均池化层、一个通用的全连接层、一个可见光全连接层、一个热红外全连接层、两个softmax层，该模块的作用是实现自适应加强优势模态，减弱劣势模态；

作为一种具体示例，步骤3中初始化网络模型的权值和阈值，设置网络模型超参数，包括网络模型的学习率、迭代次数和批量大小，具体如下：

采用MAE预训练的Vit-Base作为目标感知特征提取网络的权值，判别式特征融合模块、双向交叉增强融合模块和目标分类回归网络结构赋值使用正态分布随机初始化，输入模板图像大小为128，搜索图像大小为256，批量大小设置为16，骨干的初始学习率设置为，其余的学习率设置为/>；训练过程包括100个epoch，每个epoch处理60000对图像，80次后，学习率降低10倍；使用AdamW优化器对网络模型进行训练；权重衰减设为/>。

作为一种具体示例，步骤4中预处理训练集数据，选择一个视频序列，随机取出两帧不同的可见光图片和对应的热红外图片，其中同一帧作为模板，另外同一帧作为搜索区域，执行同样的数据增强操作并重塑大小，具体如下：

步骤4.1、在训练集中选择一个视频序列，随机选择同一帧的可见光图片和热红外图片作为模版，间隔三十帧随机选择同一帧作为搜索区域；

作为一种具体示例，步骤5中采用分类损失和回归损失构造损失函数，构造的损失函数为：

构造的损失函数为：

作为一种具体示例，步骤7中将测试集输入到训练完的模型中，获得相应的目标跟踪结果，具体如下：

步骤7.2、按照第一帧的目标框进行裁剪模板，以目标为中心，目标框大小的2倍进行裁剪，将裁剪得到的图像重塑为128×128像素；后续帧按照前一帧得到的目标框为基础，以为目标为中心，以目标框大小的4倍进行裁剪，将裁剪得到的图像重塑为256×256像素；

步骤7.3、将裁剪好的数据输入到网络模型中，先经过块嵌入，再将得到的结果添加相应的位置编码，不同模态数据按照宽×高的维度进行拼接，输入到编码器层中，这样的结构构建了模板与搜索区域之间的双向信息流，从而实现信息交互；在编码器层中，先使用层归一化数据，帮助模型快速收敛提高泛化能力，接着各个模态利用多头自注意力来促进模板与搜索区域之间的信息交互，之后通过背景消除模块，按照注意力权值的大小删除属于背景的令牌，并将令牌所处的值填充为0，再经过层归一化和多层感知机，帮助模型更好地理解输入特征的含义和相关性；

进一步地，所述多头自注意力的输出MSA为：

步骤7.4、首先将两模态的特征逐元素相加，经过全局平均池化，再经过通用的全连接层后，分为可见光和热红外两个分支；可见光分支经过可见光全连接层后，经过Softmax激活，生成注意力图，将原始的可见光特征做逐元素相乘获得新的特征；采用同样的方法获得热红外新的特征，最后将得到的两个新特征进行逐元素相加，得到初步融合结果；

步骤7.5、将初步融合结果和提取到的两模态特征分别输入多头注意力中，再经过各自的层归一化，使用交叉注意力来进行模态交互；

将通过多头自注意力的可见光令牌，判别特征融合结果令牌和热红外令牌执行交叉注意力运算，其中判别特征融合结果令牌作为中介分别与两模态执行运算，即可见光令牌和判别特征融合结果令牌之间运算，热红外令牌和判别特征融合结果令牌之间运算，值得注意的是可见光令牌和热红外之间不运算，有效解决因模态间显著差异而抑制特征表示的问题。

步骤7.6、将得到的最终融合结果重塑为二维空间特征图并输入到目标分类与回归网络中，经过全卷积神经网络后会得到目标分类图、局部偏移量和归一化的边界框大小，其中目标分类图中得分最高的位置即为目标位置，局部偏移量用来解决因分辨率降低而带来的离散化误差，边界框经过映射描述目标的大小。

下面结合附图和具体实施例，对本发明作进一步的详细说明。

实施例

本实施例采用本发明方法进行跨模态目标跟踪，在各数据集的准确率和成功率如下表1所示：

表1 跨模态目标跟踪在各数据集的准确率和成功率

由表1可以看出，本发明的一种基于目标感知增强融合结构的RGBT目标跟踪方法采用目标感知特征提取网络将两个模态的数据进行拼接，输入到具有背景消除模块的Enconder中，利用自注意对目标进行精确匹配，引入背景消除模块消除背景干扰，增强了对目标的感知；采用判别式融合和双向交叉增强融合来实现模态间的间接交互，有效解决了因模态间显著差异而抑制特征表示的问题，从而实现自适应的加强优势模态，减弱劣势模态，更好地得到跟踪结果。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤2中，构建网络模型的步骤具体如下：

3.根据权利要求1所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤3中，初始化网络模型的权值和阈值，设置网络模型超参数，包括网络模型的学习率、迭代次数和批量大小，具体如下：

4.根据权利要求1所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤4中，预处理训练集数据，具体如下：

5.根据权利要求1所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤5中，采用分类损失和回归损失构造损失函数，构造的损失函数为：

；

6.根据权利要求1所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤7中，将测试集输入到训练完的网络模型中，获得相应的目标跟踪结果，具体如下：

7.根据权利要求6所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤7.3中，多头自注意力的输出MSA为：

；

其中、/>、/>分别是模板的查询矩阵、键矩阵和值矩阵，/>、/>、/>分别是搜索区域的查询矩阵、键矩阵和值矩阵；/>和/>表示模板和搜索区域之间的相似度度量，/>和表示特征提取，/>是激活函数；/>是常数，为块嵌入的向量维度。

8.根据权利要求6所述的基于目标感知增强融合结构的RGBT目标跟踪方法，其特征在于，步骤7.5中，执行交叉注意力运算来进行模态交互，具体如下：