CN117689692A

CN117689692A - 注意力机制引导匹配关联的高光谱和rgb视频融合跟踪方法

Info

Publication number: CN117689692A
Application number: CN202311753368.0A
Authority: CN
Inventors: 徐从安; 孙炜玮; 高龙; 刘红娇; 宿南; 闫奕名; 林云; 吴俊峰
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-12

Abstract

本发明公开了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法。本方法基于融合跟踪模型，它包括高光谱模态分支、RGB模态分支、融合模块、高光谱预测模块和RGB预测模块等。其中，融合模块基于Transformer，将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。本发明通过更新高光谱搜索区域和RGB搜索区域，得到同一目标在空间不匹配的多模态数据中的模态特定表征，缓解了两种模态空间差异导致的多模态信息跟踪困难的问题；同时，利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系，实现两种模态信息的自适应聚合，提高了跟踪性能。

Description

注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法

技术领域

本发明属于计算机视觉领域，涉及一种视频跟踪方法，具体是一种基于高光谱视频和RGB视频的融合跟踪方法。

背景技术

目标跟踪是计算机视觉领域的一项重要任务，它需要根据目标的外观特征来预测其在视频中的位置。目前，大多数目标跟踪算法都是基于RGB模态数据开发的，但这种模态数据在一些复杂场景下可能无法提供足够的信息来区分不同的目标。高光谱图像则是一种能够同时记录物体的空间位置和光谱信息的数据，它可以在目标外观相似的情况下提供更多的材质信息，从而增强目标跟踪的性能。然而，高光谱图像的空间分辨率通常低于RGB图像，因此如何将高光谱信息与RGB信息有效地融合起来，利用两种模态数据的优势，是目前的研究重点。

现有的多模态融合跟踪方式虽然可以将不同模态的视频信息进行融合，但是此类算法都需要对不同模态的视频数据进行严格的匹配和对齐。而实际的高光谱-RGB多模态视频数据集中的两种模态数据并没有完全对齐，存在一定的空间差异，这就导致必须通过多模态视频数据配准等大量的前期工作，才能实现高光谱-RGB多模态视频数据的有效融合。此外，如何充分利用高光谱和RGB模态数据的互补信息，提升目标跟踪的性能，也是融合跟踪工作中亟待解决的问题。

发明内容

本发明提出了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其目的是：1、解决未完全配准和对齐的高光谱和RGB模态视频数据无法进行有效的多模态信息融合的问题；2、解决高光谱和RGB模态数据的互补信息无法被充分利用，导致目标跟踪性能差的问题。

本发明技术方案如下：

一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，步骤包括：

步骤1、建立融合跟踪模型，所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块；

所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征，RGB模态分支用于根据RGB图像获取RGB模态特定表征；所述融合模块基于Transformer，用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征，所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征；所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置，所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置；

步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa₁，并基于目标位置Pa₁得到第1帧高光谱图像中的高光谱模板补丁a′₁以及第2帧高光谱图像中的高光谱搜索区域a₂；将高光谱模板补丁a′₁作为高光谱模态分支的第一输入，将高光谱搜索区域a₂作为高光谱模态分支的第二输入；

同时，获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb₁，并基于目标位置Pb₁得到第1帧RGB图像中RGB模板补丁b′₁以及第2帧RGB图像中的RGB搜索区域b₂；将RGB模板补丁b′₁作为RGB模态分支的第一输入，将RGB搜索区域b₂作为RGB模态分支的第二输入；

步骤3、设定计数值i＝2；

步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中，将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中，得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pa_i和第i帧RGB图像中的目标位置Pb_i；

步骤5、令i＝i+1：如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数，则执行步骤8；否则，获取下一帧即第i帧的高光谱图像和第i帧的RGB图像，然后执行步骤6；

步骤6、对于第i帧高光谱图像，基于第i-1帧的高光谱图像中的目标位置Pa_i-1得到第i帧高光谱图像的搜索区域a_i，然后将高光谱模板补丁a′₁作为高光谱模态分支的第一输入，将第i帧高光谱图像的搜索区域a_i作为当前的高光谱模态分支的第二输入；

对于第i帧RGB图像，基于第i-1帧的RGB图像中的目标位置得到第i帧RGB图像的搜索区域b_i，然后将RGB模板补丁b′₁作为RGB模态分支的第一输入，将第i帧RGB图像的搜索区域b_i作为当前的RGB模态分支的第二输入；

步骤7、返回执行步骤4；

步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进：对于第1帧高光谱图像，获得其高光谱模板补丁的方式为：以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域，然后整形得到高光谱模板补丁；

对于某一帧高光谱图像，获得其高光谱搜索区域的方式为：以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域，然后整形得到高光谱搜索区域；

对于第1帧RGB图像，获得其RGB模板补丁的方式为：以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域，然后整形得到RGB模板补丁；

对于某一帧RGB图像，获得其RGB搜索区域的方式为：以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域，然后整形得到RGB搜索区域。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进：高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符；

高光谱模板子分支和高光谱搜索子分支结构一致、权值共享；所述高光谱模板子分支用于处理高光谱模态分支的第一输入a1，高光谱搜索子分支用于处理高光谱模态分支的第二输入a2，互相关操作符基于高光谱模板子分支的输出F_a1和高光谱搜索子分支的输出F_a2进行卷积操作得到结果表示将F_a1作为卷积核与F_a2进行卷积操作。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进：高光谱模态分支还包含一个特征自增强模块，所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息，得到增强后的高光谱模态特定表征R_Ea。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进：RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符；

RGB模板子分支和RGB搜索子分支结构一致、权值共享；所述RGB模板子分支用于处理RGB模态分支的第一输入b1，RGB搜索子分支用于处理RGB模态分支的第二输入b2，互相关操作符基于RGB模板子分支的输出F_b1和RGB搜索子分支的输出F_b2进行卷积操作得到结果表示将F_b1作为卷积核与F_b2进行卷积操作。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进：RGB模态分支还包含一个特征自增强模块，所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息，得到增强后的RGB模态特定表征R_Eb。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进，所述融合模块的处理过程为：将高光谱模态特定表征R_Ea和RGB模态特定表征R_Eb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征R_ab。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进，所述划分模块的处理过程为：将融合模块输出的多模态融合表征R_ab划分为两部分：对应R_Ea得到高光谱子表征r_aba，对应R_Eb得到RGB子表征R_abb。

作为所述注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法的进一步改进：

高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头；

高光谱预测模块基于输入的高光谱子表征，通过分类头和回归头分别得到高光谱分类响应图ClR_a和高光谱回归响应图ReR_a，然后基于高光谱分类响应图ClR_a和高光谱回归响应图ReR_a得到当前高光谱图像的目标位置；

RGB预测模块基于输入的RGB子表征，通过分类头和回归头分别得到RGB分类响应图ClR_b和RGB回归响应图ReR_b，然后基于RGB分类响应图ClR_b和RGB回归响应图ReR_b得到当前RGB图像的目标位置。

相对于现有技术，本发明具有以下有益效果：

1、本方法中设置了高光谱模态分支和RGB模态分支，通过采用分别更新两个模态分支中第二输入的搜索区域的方式得到了同一目标在空间不匹配的多模态数据中的模态特定表征，实现了未完全配准和对齐的高光谱和RGB模态视频数据的有效多模态信息融合，缓解了两种模态空间差异导致的多模态信息跟踪困难的问题。

2、本方法利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系，通过将高光谱模态分支和RGB模态分支获取的高光谱模态特定表征和RGB模态特定表征分别输入到两个特征自增强模块增强模态特定语义信息，然后在空间维度的方向上将其分别解构为语义单元，最后利用基于Transformer的注意力机制将两个模态数据的所有语义单元进行全局匹配关联，实现两种模态信息的自适应聚合，提高了跟踪性能。

附图说明

图1为本发明中融合跟踪模型的整体结构示意图；

图2为特征自增强模块的结构示意图；

图3为基于Transformer的融合模块的结构示意图。

具体实施方式

下面结合附图详细说明本发明的技术方案：

如图1，一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，步骤包括：

步骤1、建立融合跟踪模型，所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块。

(一)所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征。

具体的，高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符。

高光谱模板子分支和高光谱搜索子分支结构一致、权值共享。

所述高光谱模板子分支f_a1(·)用于处理高光谱模态分支的第一输入a1，高光谱搜索子分支f_a2(·)用于处理高光谱模态分支的第二输入a2，互相关操作符基于高光谱模板子分支的输出F_a1＝f_a1(a1)和高光谱搜索子分支的输出F_a2＝f_a2(a2)进行卷积操作得到结果表示将F_a1作为卷积核与F_a2进行卷积操作。

进一步的，高光谱模态分支还包含一个特征自增强模块FSE(·)。如图2，所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息，得到增强后的高光谱模态特定表征R_Ea＝FSE(R_a)。

(二)RGB模态分支用于根据RGB图像获取RGB模态特定表。

具体的，RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符。

RGB模板子分支和RGB搜索子分支结构一致、权值共享。

所述RGB模板子分支f_b1(·)用于处理RGB模态分支的第一输入b1，RGB搜索子分支f_b2(·)用于处理RGB模态分支的第二输入b2，互相关操作符基于RGB模板子分支的输出F_b1＝f_b1(b1)和RGB搜索子分支的输出F_b2＝f_b2(b2)进行卷积操作得到结果表示将F_b1作为卷积核与F_b2进行卷积操作。

进一步的，RGB模态分支还包含一个特征自增强模块FSE(·)。如图2，同上，所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息，得到增强后的RGB模态特定表征R_Eb＝FSE(R_b)。

(三)所述融合模块基于Transformer，用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。

具体的，如图3，所述融合模块的处理过程为：将高光谱模态特定表征R_Ea和RGB模态特定表征R_Eb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征R_ab。该过程可表示为R_ab＝TrFM(R_Ea,R_Eb)。

(四)所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征。

具体的，所述划分模块的处理过程为：将融合模块输出的多模态融合表征R_ab划分为两部分：对应R_Ea得到高光谱子表征R_aba，对应R_Eb得到RGB子表征R_abb。

(五)高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头。

所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置。

高光谱预测模块基于输入的高光谱子表征，通过分类头和回归头分别得到高光谱分类响应图ClR_a和高光谱回归响应图ReR_a，然后基于高光谱分类响应图ClR_a和高光谱回归响应图ReR_a得到当前高光谱图像的目标位置。

同理，所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置。

步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa₁，并基于目标位置Pa₁得到第1帧高光谱图像中的高光谱模板补丁a′₁以及第2帧高光谱图像中的高光谱搜索区域a₂。目标位置Pa₁可表示为(x_a,y_a,w_a,h_a)，其中(x_a,y_a)为高光谱模态第1帧图像中目标框的左上角顶点的坐标，w_a和h_a分别为高光谱模态第1帧图像中目标框的宽和高。

具体的，对于第1帧高光谱图像，获得其高光谱模板补丁a′₁的方式为：以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域，然后整形为128×128的大小得到高光谱模板补丁。

对于某一帧高光谱图像，获得其高光谱搜索区域的方式为：以前一帧高光谱图像的目标位置为中心扩展得到边长为目标位置四倍的区域，然后整形为256×256的大小得到高光谱搜索区域。

将高光谱模板补丁a′₁作为高光谱模态分支的第一输入，将高光谱搜索区域a₂作为高光谱模态分支的第二输入。

同时，获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb₁，并基于目标位置Pb₁得到第1帧RGB图像中RGB模板补丁b′₁以及第2帧RGB图像中的RGB搜索区域b₂。目标位置Pb₁可表示为(x_b,y_b,w_b,h_b)，其中(x_b,y_b)为RGB模态第1帧图像中目标框的左上角顶点的坐标，w_b和h_b分别为RGB模态第1帧图像中目标框的宽和高。

同上，对于第1帧RGB图像，获得其RGB模板补丁b′₁的方式为：以该帧RGB图像中的目标位置为中心扩展得到边长为目标位置两倍的区域，然后整形为128×128的大小得到RGB模板补丁。

对于某一帧RGB图像，获得其RGB搜索区域的方式为：以前一帧RGB图像的目标位置为中心扩展得到边长为目标位置四倍的区域，然后整形为256×256的大小得到RGB搜索区域。

将RGB模板补丁b′₁作为RGB模态分支的第一输入，将RGB搜索区域b₂作为RGB模态分支的第二输入。

步骤3、设定计数值i＝2。

步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中，将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中，得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pa_i和第i帧RGB图像中的目标位置Pb_i。

步骤5、令i＝i+1：如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数，则执行步骤8。否则，获取下一帧即第i帧的高光谱图像和第i帧的RGB图像，然后执行步骤6。

步骤6、对于第i帧高光谱图像，基于第i-1帧的高光谱图像中的目标位置Pa_i-1得到第i帧高光谱图像的搜索区域a_i，然后将高光谱模板补丁a′₁作为高光谱模态分支的第一输入，将第i帧高光谱图像的搜索区域a_i作为当前的高光谱模态分支的第二输入。

对于第i帧RGB图像，基于第i-1帧的RGB图像中的目标位置得到第u帧RGB图像的搜索区域b_i，然后将RGB模板补丁b′₁作为RGB模态分支的第一输入，将第i帧RGB图像的搜索区域b_i作为当前的RGB模态分支的第二输入。

步骤7、返回执行步骤4。

步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。

Claims

1.一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于步骤包括：

步骤3、设定计数值i＝2；

步骤7、返回执行步骤4；

步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。

2.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于：对于第1帧高光谱图像，获得其高光谱模板补丁的方式为：以该帧高光谱图像中的目标位置为中心扩展得到边长为目标位置两倍的区域，然后整形得到高光谱模板补丁；

3.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于：高光谱模态分支包含一个高光谱模板子分支、一个高光谱搜索子分支和一个互相关操作符；

4.如权利要求3所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于：高光谱模态分支还包含一个特征自增强模块，所述特征自增强模块利用Transformer的多头自注意机制抑制高光谱模态特定表征的冗余噪声、增强高光谱模态特定表征信息，得到增强后的高光谱模态特定表征R_Ea。

5.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于：RGB模态分支包含一个RGB模板子分支、一个RGB搜索子分支和一个互相关操作符；

6.如权利要求5所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于：RGB模态分支还包含一个特征自增强模块，所述特征自增强模块利用Transformer的多头自注意机制抑制RGB模态特定表征的冗余噪声、增强RGB模态特定表征信息，得到增强后的RGB模态特定表征R_Eb。

7.如权利要求1所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于，所述融合模块的处理过程为：将高光谱模态特定表征R_Ea和RGB模态特定表征R_Eb分别在空间维度的方向上解构为语义单元、然后进行拼接并对拼接结果进行融合得到多模态融合表征R_ab。

8.如权利要求1至7任一所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于，所述划分模块的处理过程为：将融合模块输出的多模态融合表征R_ab划分为两部分：对应R_Ea得到高光谱子表征R_aba，对应R_Eb得到RGB子表征R_abb。

9.如权利要求8所述的注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法，其特征在于：

高光谱预测模块和RGB预测模块均包含一个分类头和一个回归头；高光谱预测模块基于输入的高光谱子表征，通过分类头和回归头分别得到高光谱分类响应图ClR_a和高光谱回归响应图ReR_a，然后基于高光谱分类响应图ClR_a和高光谱回归响应图ReR_a得到当前高光谱图像的目标位置；