CN115375948A

CN115375948A - 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

Info

Publication number: CN115375948A
Application number: CN202211113015.XA
Authority: CN
Inventors: 姚睿; 仇甲柱; 周勇; 王鹏; 张艳宁; 胡伏原; 祝汉城; 赵佳琦; 刘兵
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-11-22
Anticipated expiration: 2042-09-14
Also published as: CN115375948B

Abstract

本发明公开了一种基于全局注意力的卷积‑Transformer的RGB‑T目标跟踪网络方法，输入是一对来自视频流中的可见光和红外图像，通过构建卷积‑Transformer特征提取网络，共享参数的Transformer分支处理多模态数据的共享特征并建立全局信息模型。独立的卷积分支则处理各个模态的独立特征。结合全局与局部、共享和独立信息特征以充分挖掘多模态数据的可利用信息。然后通过交叉注意融合模块利用交叉注意力建立模态之间全局对应关系以加强模态间的信息交互，实现深度融合。通过ROIAlign层将候选样本映射成固定大小的特征。最后，由每个候选样本映射的融合特征被送入全连接层以预测分数由二元分类层获得。

Description

基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

技术领域

本发明涉及图像处理技术领域，是一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，属于多模态的RGB-T目标跟踪技术。

背景技术

目标跟踪作为计算机视觉领域的一个重要任务，其目的是在一个视频中第一帧给定目标位置坐标的情况下实现对后续帧目标位置的预测。然而，跟踪任务通常面临着很多外界环境干扰的挑战，比如遮挡、低光照、快速移动等等。

RGB-T跟踪是近几年目标跟踪领域的一个重要研究方向，可以在上述挑战下仍能取得良好的跟踪性能，主要原因就是其同时利用了RGB图像和红外图像的优势。由于成像方式和原理不同，RGB图像和红外图像具有不同的特点。RGB图像分辨率高、纹理清晰，在正常环境中可以提供完整的视觉信息，而红外图像分辨率低，可提供信息单一，但可以在极度暗等恶劣环境下为RGB图像提供补充信息。因此RGB-T跟踪的主要目的是利用RGB图像和红外图像的互补优势克服环境的干扰，获取更多特征表示实现视频的稳健跟踪。近年来，许多人致力于推动RGB-T跟踪的进展，但由于对RGB和热红外信息的利用不足，仍有很大的研究空间。

Transformer是近几年兴起的一种以注意力机制为核心的结构，和卷积网络对局部占优的特点不同，Transformer有着出色的全局信息建模能力。

发明内容

发明目的：为了提高RGB-T跟踪算法的跟踪性能，本发明提供一种基于全局注意力的卷积-Transformer RGB-T目标跟踪网络来充分挖掘模态信息；该方法采用实时多域的目标跟踪模型RT-MDNet作为主干网络，将其改造成双流的多分支网络同时处理多模态数据，同时利用Transformer和卷积的不同特性充分利用全局与局部信息；该方法在交叉注意力结构的基础上，同时对两种模态及逆行交叉注意力的运算以构建不同模态间的全局对应关系，实现深度交互与融合，能够获得更好的跟踪性能。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，包括如下步骤：

(1)从RGB-T数据流中获取训练样本集，每个训练样本包括相对应的一幅RGB图像R和一幅红外图像T；

(2)构建卷积-Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征，并聚合卷积特征和Transformer特征，得到RGB特征F^vis和红外特征F^inf；

(3)构建交叉注意融合模块对RGB特征F^vis和红外特征F^inf进行融合，加强RGB图像R和红外图像T的信息交互，得到融合特征F_out；

(4)将待预测的候选样本映射在融合特征上，通过全连接层执行二元分类预测，待预测的候选样本属于RGB-T数据流中某一帧图片或某一帧图片中的部分；

(5)使用二元分类损失和嵌入损失对二元分类预测进行监督训练，得到训练好的卷积-Transformer跟踪网络；

(6)将视频流及待跟踪图像输入到训练好的卷积-Transformer跟踪网络，在视频流中对待跟踪图像进行跟踪，待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。

具体的，所述步骤(2)中，通过卷积-Transformer网络分步提取训练样本中RGB图像R和红外图像T的多模态图像特征，包括如下步骤：

(21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取，依次得到第一、二、三层模态特征f₁、f₂、f₃，将f₃作为卷积特征；RGB图像R经卷积分支网络得到f₁ ^vis、

红外图像T经卷积分支网络得到f₁ ^inf、

(22)Transformer分支网络对输入图像进行输入处理得到X₀，再通过四组Transformer模块逐层对输入图像进行特征提取，依次得到第一、二、三、四层全局共享特征X₁、X₂、X₃、X₄，最后进行输出处理得到X，将X作为Transformer特征；RGB图像R经Transformer分支网络得到

和X^vis，红外图像T经Transformer分支网络得到

和X^inf；

(23)逐元素相加

和X^vis，再经过层归一化运算后得到RGB特征F^vis；逐元素相加

和X^inf，再经过层归一化运算后得到红外特征F^inf。

具体的，所述步骤(21)中，卷积分支网络由两个不共享参数的卷积分支组成，其中一个卷积分支用于提取RGB图像R的特征，另一个卷积分支用于处理红外图像T的特征；每个卷积分支由三个依次连接的卷积块组成；

第一个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层，用于获取第一层模态特征，滤波器为输出通道数为96、卷积核大小为7×7的滤波器；

第二个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层，用于获取第二层模态特征，滤波器为输出通道数为256、卷积核大小为5×5的滤波器；

第三个卷积块包括一个滤波器和一个ReLU激活函数，用于获取第三层模态特征，滤波器为输出通道数为512、卷积核大小为3×3的滤波器。

具体的，所述步骤(22)中，Transformer分支网络按照如下方法获得全局共享特征：

(221)对不固定尺寸的输入图像进行输入处理，将输入图像的通道数由3变为64，得到X₀；

(222)通过四个阶段完成全局共享特征的提取，在每一个阶段，使用一组Transformer模块对输入特征进行处理；在第一、二、三阶段，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，下采样的结果作为下一Transformer模块组的输入特征；

在每个Transformer模块中，输入特征先经展平处理，再经由层归一化运算形成特征向量I，然后通过不同的线性变换层执行线性映射获取查询集Q、键集K和值集V，接着对查询集Q、键集K和值集V进行自注意力操作，再接着通过残差连接输入特征和自注意力操作结果，最后再由层归一化运算形成Transformer模块的输出；表示为：

Q＝L^Q(I)，K＝L^K(I)，V＝L^V(I)

Attention(Q,K,V)＝softmamax(QK^T)V

SA(I)＝Attention(Q,K,V)

其中：L^Q、L^K、L^V分别表示Transformer模块中查询集、键集、值集的线性变换层；Attention表示自注意力机制的运算函数，softmamax表示多分类的归一化指数函数，SA表示Transformer模块中自注意力的过程函数；

(223)第一、二、三、四阶段的输出分别为X₁、X₂、X₃、X₄，对X₄进行输出处理得到X，即使用池化层将X₄变为与f₃尺寸相同的X，实现特征间的对齐，在后续操作中可以实现元素间的聚合操作。

具体的，所述步骤(222)中，通过四个阶段完成全局共享特征的提取，在第一、二、三、四阶段，Transformer模块组中Transformer模块的数量分别为2、2、2、1，同一Transformer模块组中的Transformer模块顺序连接。

具体的，所述步骤(222)中，通过四个阶段完成全局共享特征的提取，在第一、二、三阶段，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，通过下采样，将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为

H、W和C分别表示X₀的长、宽和通道数。

具体的，所述步骤(3)中，构建交叉注意融合模块加强RGB图像R和红外图像T的信息交互与融合，包括如下步骤：

(31)通过键集、值集的线性变换层获取RGB特征F^vis的键集

和值

通过查询集的线性变换层获取红外特征F^inf的查询集

执行交叉注意力运算得到交叉特征

CA(F^vis,F^inf)＝Attention(Q^inf,K^vis,V^vis)

其中：CA表示交叉注意力的运算函数，LN表示层归一化运算；

分别表示计算交叉特征

的交叉注意力分支中查询集、键集及值集的线性变换层；

(32)通过键集、值集的线性变换层获取红外特征F^inf的键集

和值集

通过查询集的线性变换层获取RGB特征F^vis的查询集

执行交叉注意力运算得到交叉特征

CA(F^inf,F^vis)＝Attention(Q^vis,K^inf,V^inf)

其中：

分别表示计算交叉特征

的交叉注意力分支中查询集、键集及值集的线性变换层；

(33)执行融合操作得到融合特征F_out：

其中：Concat表示特征融合的运算函数。

具体的，所述步骤(4)，先通过ROIAlign层将待预测的候选样本在融合特征F_out上映射成设定大小(3×3)，再通过连续的一组全连接层预测候选样本的二元分类得分。

具体的，所述连续的一组全连接层包括两个一般全连接层(FC4、FC5)和一个多域全连接层(FC6)，多域全连接层由一组并列的二元分类层构成，候选图片的二元分类得分通过二元分类层获得。

具体的，所述步骤(5)中，采用二元分类损失和嵌入损失对二元分类预测进行监督训练：

L＝L_cls+λL_inst

其中：L_cls表示二元分类损失；L_inst表示嵌入损失，用以克服候选样本与某些分类类别不同但是过分相似的情况；L表示总损失函数，λ表示权值；

i＝1,2,…,N，N表示候选样本总数；c∈{0,1}，c＝1表示候选样本的真实标签为正，c＝0表示候选样本的真实标签为负；y_i表示系统对第i个候选样本为真实标签判断正确的概率；f_i ^d表示第i个候选样本在分类d上的二元分类得分，d＝1,2,…,D，D表示类别总数；[·]_cd表示针对分类d，在c＝1和c＝0情况下均对·进行归一化运算；[·]_d表示针对分类d，在c＝1情况下对·进行归一化运算；σ表示softmax函数。

有益效果：本发明提供的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，结合全局与局部、共享和独立信息特征，能够充分挖掘多模态数据的可利用信息；同时，交叉融合模块利用交叉注意力建立模态之间全局对应关系以加强信息交互，能够实现深度融合，可以提升跟踪性能和跟踪速度。

附图说明

图1为本发明方法的实施流程图；

图2为本发明系统的结构示意图；

图3为第一、二、三层Transformer模块组的结构框图；

图4为第四层Transformer模块组的结构框图；

图5为交叉融合模块的结构框图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

如图1所示为一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，下面就各个步骤加以具体说明。

步骤S01：从RGB-T数据流中获取训练样本集，每个训练样本包括相对应的一幅RGB图像R和一幅红外图像T。

步骤S02：构建卷积-Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征，并聚合卷积特征和Transformer特征，得到RGB特征F^vis和红外特征F^inf。

红外图像T经卷积分支网络得到f₁ ^inf、

如图2所示，所述卷积分支网络由两个不共享参数的卷积分支组成，其中一个卷积分支用于提取RGB图像R的特征，另一个卷积分支用于处理红外图像T的特征；每个卷积分支由三个依次连接的卷积块组成；第一个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层(LRN)和一个最大池化层，用于获取第一层模态特征f₁，滤波器为输出通道数为96、卷积核大小为7×7的滤波器；第二个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层(LRN)和一个最大池化层，用于获取第二层模态特征f₂，滤波器为输出通道数为256、卷积核大小为5×5的滤波器；第三个卷积块包括一个滤波器和一个ReLU激活函数，用于获取第三层模态特征f₃，滤波器为输出通道数为512、卷积核大小为3×3的滤波器。

和X^vis，红外图像T经Transformer分支网络得到

和X^inf。

如图2所示，Transformer分支网络由两个共享参数的Transformer分支组成，其中一个卷积分支用于提取RGB图像R的特征，另一个卷积分支用于处理红外图像T的特征；Transformer分支的具体运算过程如下：

(221)对H×W×3的输入图像进行输入处理，将输入图像的通道数由3变为64，得到X₀。

(222)通过四个阶段完成全局共享特征的提取，在每一个阶段，使用一组Transformer模块对输入特征进行处理。

如图3所示，在第一、二、三阶段，Transformer模块组均包括两个顺序连接的Transformer模块，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，下采样的结果作为下一Transformer模块组的输入特征。

如图4所示，在第四阶段，Transformer模块组仅包括一个Transformer模块。

在每个Transformer模块中，输入特征先经展平处理，再经由层归一化运算形成特征向量I，然后通过不同的线性变换层执行线性映射获取查询集Q、键集K和值集V，接着对查询集Q、键集K和值集V进行自注意力操作，再接着通过残差连接输入特征和自注意力操作结果，最后再由层归一化运算形成Transformer模块的输出。Transformer模块的处理过程可以表示为：

Q＝L^Q(I)，K＝L^K(I)，V＝L^V(I)

Attention(Q,K,V)＝softmamax(QK^T)V

SA(I)＝Attention(Q,K,V)

其中：L^Q、L^K、L^V分别表示Transformer模块中查询集、键集、值集的线性变换层；Attention表示自注意力机制的运算函数，softmamax表示多分类的归一化指数函数，SA表示Transformer模块中自注意力的过程函数。

在第一、二、三阶段，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，通过下采样，将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为

H、W和C分别表示X₀的长、宽和通道数。

(223)第一、二、三、四阶段的输出分别为X₁、X₂、X₃、X₄，对X₄进行输出处理得到X，即使用池化层将X₄变为与f₃尺寸相同的X，实现特征间的对齐。

在步骤(22)中，针对RGB图像R和红外图像T的具体运算过程可以描述为：

其中：LN表示层归一化运算，Downsample表示下采样运算，上标vis表示针对RGB图像R的运算，上标inf表示针对红外图像T的运算，下标i_j表示第i阶段中的第j个Transformer模块的输出特征。

(23)逐元素相加

和X^vis，再经过层归一化运算后得到RGB特征F^vis；逐元素相加

和X^inf，再经过层归一化运算后得到红外特征F^inf。

步骤S03：构建交叉注意融合模块对RGB特征F^vis和红外特征F^inf进行融合，加强RGB图像R和红外图像T的信息交互，得到融合特征F_out。

如图5所示，融合过程包括如下步骤：

(31)通过键集、值集的线性变换层获取RGB特征F^vis的键集

和值集

通过查询集的线性变换层获取红外特征F^inf的查询集

执行交叉注意力运算得到交叉特征

CA(F^vis,F^inf)＝Attention(Q^inf,K^vis,V^vis)

其中：CA表示交叉注意力的运算函数，LN表示层归一化运算；

分别表示计算交叉特征

的交叉注意力分支中查询集、键集及值集的线性变换层。

(32)通过键集、值集的线性变换层获取红外特征F^inf的键集

和值集

通过查询集的线性变换层获取RGB特征F^vis的查询集

执行交叉注意力运算得到交叉特征

CA(F^inf,F^vis)＝Attention(Q^vis,K^inf,V^inf)

其中：

分别表示计算交叉特征

的交叉注意力分支中查询集、键集及值集的线性变换层。

(33)执行融合操作得到融合特征F_out：

其中：Concat表示特征融合的运算函数。

步骤S04：将待预测的候选样本映射在融合特征上，通过全连接层执行二元分类预测，待预测的候选样本属于RGB-T数据流中某一帧图片或某一帧图片中的部分。

先通过ROIAlign层将待预测的候选样本在融合特征F_out上映射成3×3大小的特征，再通过连续的一组全连接层预测候选样本的二元分类得分；所述连续的一组全连接层包括两个一般全连接层(FC4、FC5)和一个多域全连接层(FC6)，多域全连接层由一组并列的二元分类层构成，候选图片的二元分类得分通过二元分类层获得。

步骤S05：使用二元分类损失和嵌入损失对二元分类预测进行监督训练，得到训练好的卷积-Transformer跟踪网络。

L＝L_cls+λL_inst

其中：L_cls表示二元分类损失；L_inst表示嵌入损失，用以克服候选样本与某些分类类别不同但是过分相似的情况；L表示总损失函数，λ表示权值(本例中取0.1)；

步骤S06：将视频流及待跟踪图像输入到训练好的卷积-Transformer跟踪网络，在视频流中对待跟踪图像进行跟踪，待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，其特征在于：所述步骤(2)中，通过卷积-Transformer网络分步提取训练样本中RGB图像R和红外图像T的多模态图像特征，包括如下步骤：

红外图像T经卷积分支网络得到f₁ ^inf、

和X^vis，红外图像T经Transformer分支网络得到

和X^inf；

(23)逐元素相加

和X^vis，再经过层归一化运算后得到RGB特征F^vis；逐元素相加

和X^inf，再经过层归一化运算后得到红外特征F^inf。

3.根据权利要求2所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，其特征在于：所述步骤(21)中，卷积分支网络由两个不共享参数的卷积分支组成，其中一个卷积分支用于提取RGB图像R的特征，另一个卷积分支用于处理红外图像T的特征；每个卷积分支由三个依次连接的卷积块组成；

4.根据权利要求2所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，其特征在于：所述步骤(22)中，Transformer分支网络按照如下方法获得全局共享特征：

Q＝L^Q(I)，K＝L^K(I)，V＝L^V(I)

Attention(Q,K,V)＝softmamax(QK^T)V

SA(I)＝Attention(Q,K,V)

5.根据权利要求4所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，其特征在于：所述步骤(222)中，通过四个阶段完成全局共享特征的提取，在第一、二、三、四阶段，Transformer模块组中Transformer模块的数量分别为2、2、2、1，同一Transformer模块组中的Transformer模块顺序连接。

6.根据权利要求4所述的基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络方法，其特征在于：所述步骤(222)中，通过四个阶段完成全局共享特征的提取，在第一、二、三阶段，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，通过下采样，将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为