CN117911697A

CN117911697A - 基于大模型分割的高光谱目标跟踪方法、系统、介质和设备

Info

Publication number: CN117911697A
Application number: CN202410077784.1A
Authority: CN
Inventors: 钱琨; 沈健; 李海强; 陈嘉玲; 吴雨桐
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-19

Abstract

本发明涉及图像处理技术领域，公开一种基于大模型分割的高光谱目标跟踪方法、系统、介质和设备，包括：构建包括分割模型和孪生网络的跟踪网络模型，获取现有的高光谱视频数据进行预处理并训练跟踪网络模型得到教师模型；获取待测物体的高光谱视频数据进行预处理并分为训练集和测试集，将跟踪网络模型作为学生模型，使用教师模型和训练集训练学生模型得到预测模型，训练学生模型时将预处理后的图像输入分割模型进行目标和背景的分割，将分割结果与背景进行加权后输入孪生网路得到特征图，根据特征图进行目标跟踪。本发明可以有效区分目标和背景，提高目标跟踪的准确性。

Description

基于大模型分割的高光谱目标跟踪方法、系统、介质和设备

技术领域

本发明涉及图像处理技术领域，尤其是指一种基于大模型分割的高光谱目标跟踪方法、系统、介质和设备。

背景技术

当前，高光谱视频的采集手段日渐成熟，采集成本也越来越低，获取到高光谱视频的方式变得越来越容易。高光谱视频大多应用在无人驾驶、军事制导等领域，因其包含很多波段的信息，包括空间和光谱信息，使得其在目标跟踪上取得比一般可见光要更稳健的效果。高光谱视频的应用场景更新换代快，对高光谱视频的目标跟踪需求也不断变高。

为了更好地提高对高光谱视频的目标跟踪效果，现有技术中有将高光谱图像和图像处理技术结合进行目标跟踪的做法。例如有基于目标物的材料信息的特征提取方法，将高光谱和空间多维梯度的直方图(SSHMG)结合来描述HIS模型中的局部光谱-空间结构信息，基于高光谱解混的丰度特征来编码场景中的材料分布信息，再将提取到的特征嵌入到滤波器的框架中，实现目标跟踪算法。这些现有的目标跟踪方法大都利用特征的可靠性来动态调整特征的权重、在线更新模型参数。但是，这些模型通常受到数据集大小的限制，泛化能力不足，且特征提取没有对目标和背景进行区分，使得目标跟踪的精确度受到较大影响。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于大模型分割的高光谱目标跟踪方法、系统、介质和设备，可以有效区分目标和背景，提高目标跟踪的准确性。

为解决上述技术问题，本发明提供了一种基于大模型分割的高光谱目标跟踪方法，包括：

构建跟踪网络模型，所述跟踪网络模型包括分割模型和孪生网络；

获取现有的高光谱视频数据进行预处理并训练所述跟踪网络模型，将训练完成的跟踪网络模型作为教师模型；

获取待测物体的高光谱视频数据进行预处理并分为训练集和测试集，将所述跟踪网络模型作为学生模型，使用所述教师模型和训练集训练所述学生模型，将训练完成的学生模型作为预测模型；

训练所述学生模型，包括：

将预处理后的高光谱图像序列的第一帧图像作为模板帧图像，提取预处理后的高光谱图像序列中的第T帧图像作为检测帧图像；将预处理后的检测帧图像输入分割模型进行目标和背景的分割，将分割结果与背景进行加权后输入孪生网路得到特征图；根据模板帧图像的特征图和检测帧图像的特征图得到响应图，将响应图输入分类模型得到预测的目标框；

重复提取预处理后的高光谱图像序列中的第T帧的下一帧的帧图像作为检测帧图像，执行上述操作得到第T帧的下一帧的帧图像对应的预测的目标框，直到遍历完高光谱图像序列中的所有帧图像，将此时所有预测的目标框作为候选目标框，根据候选目标框得到最终的目标跟踪结果。

优选的，所述预处理，包括：

将高光谱视频数据按序时序排列得到高光谱图像序列，将高光谱图像序列中的每帧图像作为初始帧图像；

使用遗传算法选择初始帧图像中的联合熵最大的a个波段，将这a个波段组成新的帧图像；

计算高光谱视频数据的光谱响应权重系数w：

其中，R_tj表示第j个光谱波段内目标图像区域内所有像素的平均光谱响应曲线，R_bj表示第j个光谱波段内背景图像区域内所有像素的平均光谱响应曲线，n表示图像中光谱波段总数；μ_b是背景区域的光谱响应的平均值，σ_b是背景区域的光谱响应的标准差，μ_t是目标区域的光谱响应的平均值，σ_t是目标区域的光谱响应的标准差，d_j是衰减因子，S_j是空间一致性参数；

根据所述新的帧图像的标签计算出跟踪目标的中心坐标、宽和高，根据跟踪目标的中心坐标、宽和高形成跟踪框；将所述跟踪框作为待跟踪目标图像区域，将待跟踪目标图像区域作为跟踪目标的初始位置；

对所述跟踪框进行缩放和剪裁，使用全局图像像素的均值对所述跟踪框超出搜索区域的部分进行填充，将裁剪和填充后的跟踪框中的图像作为预处理后的帧图像。

优选的，所述将预处理后的检测帧图像输入分割模型进行目标和背景的分割，将分割结果与背景进行加权，包括：

将预处理后的检测帧图像输入到分割模型中，利用分割模型已训练好的参数模型进行图像编码，得到掩码结果和掩码质量评分向量；

根据掩码质量评分向量选取掩码结果得到掩码矩阵，根据掩码矩阵的值区分为目标和背景；

使用所述光谱响应权重系数加权掩码结果：

其中，X_i,j是当前检测帧图像中的第i行第j列的像素点值，X_i,j’是加权后的X_i,j对应的像素点值，M_ij表示掩码矩阵；α和β是调整目标像素值与其局部邻域像素值贡献的系数，表示像素(i,j)的邻域像素集合，γ_k,l是邻域像素点(k,l)对于中心像素点(i,j)的贡献权重，δ是调整背景像素值与其局部邻域像素值贡献的系数，η_k,l是邻域像素点(k,l)对于背景像素点(i,j)的贡献权重。

优选的，根据掩码质量评分向量选取掩码结果得到掩码矩阵，具体为：

TopMasks＝{M[i]|i∈I_sorted[0:k]}，

其中，TopMasks是掩码矩阵，I_sorted表示按照掩码质量评分向量的值从高到低排序得到的索引向量，M[i]表示第i个掩码结果。

优选的，所述根据模板帧图像的特征图和检测帧图像的特征图得到响应图，将响应图输入分类模型得到预测的目标框，包括：

将所述模板帧图像的特征图和检测帧图像的特征图进行逐通道的互相关操作得到响应图，将响应图输入特征提取模型得到最终的响应图，响应图R的计算方法为：

其中，X表示检测帧图像，Z表示模版帧图像，表示检测帧图像的特征图，检测帧图像的特征图中的元素为所述X_i,j’，/>表示模版帧图像的特征图，*表示卷积操作；

所述跟踪网络模型的分类模型包括分类分支和回归分支，所述分类分支包括中心分支，将最终的响应图输入所述分类模型得到预测的目标框。

优选的，所述根据候选目标框得到最终的目标跟踪结果，包括：

使用尺度变化惩罚对所述候选目标框进行打分并选出得分前n对应的n个预测的目标框，在得分前n对应的n个预测的目标框附近选取多个临近的预测的目标框做加权平均，将加权平均得到的结果作为最终的目标跟踪结果。

优选的，所述使用尺度变化惩罚对所述候选目标框进行打分，得分S的计算方法为：

S＝(1-λ_d)cls_i，j×p_ij×λ_dH，

其中，λ_d是平衡权值，cls_i，j表示响应图中(i,j)位置上的对应类别标签，p_ij表示响应图中(i,j)位置上的尺度变化的惩罚系数，H是余弦窗口。

本发明还提供了一种基于大模型分割的高光谱目标跟踪系统，包括：

跟踪网络模型构建模块，用于构建跟踪网络模型，所述跟踪网络模型包括分割模型和孪生网络；

教师模型构建模块，用于获取现有的高光谱视频数据进行预处理并训练所述跟踪网络模型，将训练完成的跟踪网络模型作为教师模型；

预测模型构建模块，用于获取待测物体的高光谱视频数据进行预处理并分为训练集和测试集，将所述跟踪网络模型作为学生模型，使用所述教师模型和训练集训练所述学生模型，将训练完成的学生模型作为预测模型；

训练所述学生模型，包括：将预处理后的高光谱图像序列的第一帧图像作为模板帧图像，提取预处理后的高光谱图像序列中的第T帧图像作为检测帧图像；将预处理后的检测帧图像输入分割模型进行目标和背景的分割，将分割结果与背景进行加权后输入孪生网路得到特征图；根据模板帧图像的特征图和检测帧图像的特征图得到响应图，将响应图输入分类模型得到预测的目标框；

跟踪预测模块，重复提取预处理后的高光谱图像序列中的第T帧的下一帧的帧图像作为检测帧图像，执行上述操作得到第T帧的下一帧的帧图像对应的预测的目标框，直到遍历完高光谱图像序列中的所有帧图像，将此时所有预测的目标框作为候选目标框，根据候选目标框得到最终的目标跟踪结果。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的基于大模型分割的高光谱目标跟踪方法。

本发明还提供了一种基于大模型分割的高光谱目标跟踪设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于大模型分割的高光谱目标跟踪方法。

本发明的上述技术方案相比现有技术具有以下有益效果：

本发明通过分割模型区分目标与背景，再利用孪生网络学习高光谱数据的光谱特征，使得跟踪网络模型可以更准确地识别和区分不同物质的目标，提高泛化能力和跟踪网络模型识别的准确性；同时，本发明在训练跟踪网络模型时使用了知识蒸馏，降低了因样本数据少而导致的影响，提高跟踪网络模型的泛化能力，从而进一步提高跟踪网络模型识别的准确性。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明方法的流程图。

图2是本发明方法的流程步骤图。

图3是本发明中孪生网络CAR的模型结构示意图。

图4是本发明实施例中高光谱序列的第一帧图像示意图。

图5是本发明实施例中高光谱目标图像经过波段选择处理后的结果示意图。

图6是本发明实施例中高光谱目标图像经过SAM模块处理后的结果示意图。

图7是本发明实施例中高光谱图像序列经过跟踪后的标签与预测框的示意图。

说明书附图标记说明：1、真实位置；2、预测位置。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

参照图1-图2所示，本发明公开了一种基于大模型分割的高光谱目标跟踪方法，包括以下步骤：

S1：构建如图3所示的跟踪网络模型，所述跟踪网络模型包括分割模型和孪生网络CAR；本实施例中使用的分割模型为已经训练好的ViT-B SAM模型(来源https://doi.org/10.48550/arXiv.2304.02643)。

S2：获取现有的高光谱视频数据进行预处理并训练所述跟踪网络模型，将训练完成的跟踪网络模型作为教师模型；本实施例中使用的现有的高光谱视频数据可以为HOT2022数据集(来源https://www.hsitracking.com)。训练所述跟踪网络模型的方法可以和S3中训练学生模型的方法相同，也可以使用常规的训练方法。

S3：获取待测物体的高光谱视频数据进行预处理并分为训练集和测试集，将所述跟踪网络模型作为学生模型，使用所述教师模型和训练集训练所述学生模型，将训练完成的学生模型作为预测模型；本发明通过知识蒸馏技术，降低因训练样本少而导致的过拟合问题，提高学生模型的泛化能力，进一步提高对高光谱图像的跟踪效果。

S3-1：获取待测物体的高光谱图像数据进行预处理。

S3-1-1：将所述高光谱图像数据按时序排列得到高光谱图像序列，将所述高光谱图像序列中的每帧图像作为初始帧图像；本实施例中的高光谱图像序列为单通道，则帧图像的尺寸为M×N×1，其中，M×N为图像的尺寸大小，本实例是256*256。

S3-1-2：使用遗传算法选择初始帧图像中的联合熵最大的a个波段，将这a个波段组成新的帧图像；a的数量根据实际情况调整，本实施例中a＝3，即从HOT2022数据集16个波段中选出3个合适的波段。结合基于遗传算法和最大联合熵的波段选择方法选择有价值的波段，通过波段选择模块消除高光谱视频的信息冗余，可以保留物理信息、提高跟踪速度。

S3-1-3：计算高光谱视频数据的光谱响应权重系数w：

其中，R_tj表示第j个光谱波段内目标图像区域内所有像素的平均光谱响应曲线，R_bj表示第j个光谱波段内背景图像区域内所有像素的平均光谱响应曲线，n表示图像中光谱波段总数。μ_b和σ_b分别是背景区域的光谱响应的平均值和标准差，用于对背景信号进行标准化处理。μ_t和σ_t分别是目标区域的光谱响应的平均值和标准差，用于对目标信号进行标准化处理。d_j是一个衰减因子，考虑了第j个波段可能由于设备敏感度变化等因素而引入的信号衰减。S_j是空间一致性参数，它衡量了第j个波段内像素之间的空间关联性，高的空间关联性意味着较低的噪声和更清晰的目标边界。d_j和S_j具体根据实际情况设置。

S3-1-4：根据所述新的帧图像的标签计算出跟踪目标的中心坐标、宽和高，根据跟踪目标的中心坐标、宽和高形成跟踪框；将所述跟踪框作为待跟踪目标图像区域，将待跟踪目标图像区域作为跟踪目标的初始位置。

S3-1-5：对所述跟踪框进行缩放和剪裁，使用全局图像像素的均值对所述跟踪框超出搜索区域的部分进行填充，将裁剪和填充后的跟踪框中的图像作为预处理后的帧图像。本实施例中改过程具体为：根据模板帧图像确定的目标标签，考虑到目标的尺寸和移动速度，将搜索区域选择为待跟踪目标区域面积的四倍，即搜索区域的宽高各为原先的两倍，因此对所述跟踪框的宽和高扩大两倍后进行模板裁剪。考虑到目标处于边缘位置时，目标所对应的框可能超出搜索区域的范围，因此对图像进行进一步处理，将超出搜索区域的部分采用全局图像像素的均值进行填充。后续再将裁剪和填充处理后的模版帧图像输入所述跟踪网络模型中进行训练和测试。

S3-2：将预处理后的高光谱图像序列分为训练集和测试集，将所述跟踪网络模型作为学生模型，使用所述教师模型和训练集训练所述学生模型，将训练完成的学生模型作为预测模型。

知识蒸馏为一种迁移学习技术，用于通过传递教师模型的知识来改善学生模型的性能和泛化能力。本发明中将通过使用现有数据集训练完成的跟踪网络模型作为教师模型，在使用待测物体的高光谱图像数据作为训练集时将原始的跟踪网络模型作为学生模型进行知识蒸馏，通过传递教师模型的知识来改善学生模型的性能和泛化能力。使用所述教师模型和训练集训练所述学生模型时，将所述教师模型的分类结果作为软标签指导所述学生模型训练，设置温度参数T来软化分类结果，使其包含更多信息；使用所述教师模型和训练集训练所述学生模型时知识蒸馏的损失函数L_cls为：

L_cls＝T²×KLdiv(C_s,C_t)，

其中，T是蒸馏模型的温度参数，KLdiv()为KL散度，KLdiv(C_s,C_t)＝∑(C_tlog(C_t/C_s))；C_t表示教师模型的软标签，C_t＝softmax(z_t/T)，softmax()为softmax函数操作，z_t表示教师模型的分类输出结果；C_s表示学生模型的软标签，C_s＝softmax(z_s/T)，z_s表示学生模型的分类输出结果。

使用所述教师模型和训练集训练所述学生模型时，建立的总损失函数L为：

L＝L_cls+λ₁L_cen+λ₂L_reg，

其中，L_cls为所述知识蒸馏的损失函数，L_cen为所述中心分支的损失函数，L_reg为所述回归分支的损失函数，λ₁和λ₂为权重系数；本实施例中λ₁＝2、λ₂＝3。

所述回归分支使用IOU损失，回归分支的损失函数L_reg的计算方法为：

其中，(i,j)表示响应图R中的每个位置，(x,y)表示点(i,j)映射回跟踪框中的对应位置，表示在(i,j)点处的实际边界框与预测边界框之间的IOU损失函数值，/>表示真实点(x,y)到真实框四条边的距离；/>的取值为0或1，当特征图中的点不属于第一帧手动划定的可视范围bbox内时，该点的/>值为0，否则为1；A^reg(i,j)表示预测框的位置(i,j)对应跟踪框中点与真实框四条边的距离，L_IOU()为IOU损失函数操作。

所述回归分支包括4个通道，所述的计算方法为：

其中，分别表示回归分支的4个通道的特征图，分别为：

其中，表示预测中心点到跟踪框的左边界的距离，/>表示预测中心点到跟踪框的上边界的距离，/>表示预测中心点到跟踪框的右边界的距离，/>表示预测中心点到跟踪框的下边界的距离，(x₀,y₀)表示边跟踪框左上角点的坐标，(x₁,y₁)表示跟踪框右下角点的坐标。

所述的计算方法为：

其中，I和U分别为根据真实中心点和预测中心点得到的交集和并集，I和U的计算方法为：

其中，l表示真实中心点到跟踪框的左边界的距离，t表示真实中心点到跟踪框的上边界的距离，r表示真实中心点到跟踪框的右边界的距离，b表示真实中心点到跟踪框的下边界的距离。

所述中心分支的损失函数L_cen为：

其中，C(i，j)为中心度得分，为中心分支输出的特征图中的点(i,j)，C(i，j)的计算方法为：

中心度得分C(i，j)表示当前像素点偏离真实目标中心点的程度，C(i，j)值越小，则当前像素点偏离越大。

S4：将训练集和测试集输入所述预测模型得到目标跟踪结果。

S4-1：提取预处理后的高光谱图像序列中第一帧的帧图像作为模板帧图像，本实施例中提取的第一帧图像如图4所示；提取预处理后的高光谱图像序列中第T帧的帧图像作为检测帧图像，T为大于1的整数。

S4-2：将预处理后的检测帧图像输入分割模型进行目标和背景的分割，将分割结果与背景进行加权突出目标与背景的区分后输入孪生网路得到特征图。所述跟踪网络模型的主干网络为深度学习神经网络，本实施例中使用的深度学习神经网络为ResNet50；使用深度学习神经网络ResNet50提取所述模板帧图像的特征图，使用所述孪生网路提取所述检测帧图像的特征图。

S4-2-1：将预处理后的检测帧图像输入到分割模型中，利用分割模型已训练好的参数模型进行图像编码，得到掩码结果和掩码质量评分向量Q；

S4-2-2：根据掩码质量评分向量Q选取掩码结果得到掩码矩阵：

TopMasks＝{M[i]|i∈I_sorted[0:k]}，

其中，TopMasks是掩码矩阵、表示最终选取的为掩码质量评分向量Q的值最高的k个质量评分向量Q对应的掩码结果，I_sorted表示按照掩码质量评分向量Q从高到低排序得到的索引向量，M[i]表示第i个掩码结果。

根据掩码矩阵的值区分为目标和背景，本实施例中将掩码矩阵中元素位置(i,j)的值是True的确定为目标，为False的确定为背景。

S4-2-3：对于每一种视频，认定其目标与背景的区分度是不同的，故使用光谱响应权重系数w加权掩码结果：

其中，X_i,j是当前检测帧图像中的第i行第j列的像素点值，X_i,j’是加权后的X_i,j对应的像素点值，M_ij表示掩码矩阵，M_ij为1表示为目标、为0表示为背景；α和β是调整目标像素值与其局部邻域像素值贡献的系数，γ_k,l是邻域像素点(k,l)对于中心像素点(i,j)的贡献权重,表示像素(i,j)的邻域像素集合，δ是调整背景像素值与其局部邻域像素值贡献的系数，η_k,l是邻域像素点(k,l)对于背景像素点(i,j)的贡献权重。α、β、δ、γ_k,l、η_k,l的具体取值根据实际情况调整。

S4-3：将所述模板帧图像的特征图和所述检测帧图像的特征图进行逐通道的互相关操作得到响应图，将响应图输入特征提取模型得到最终的响应图。本实施例中特征提取模型为混合注意力机制，在输入混合注意力机制PSA模块前先经过金字塔卷积，可以利用不同尺度和深度的卷积核来提取多尺度信息，从而捕捉更多重要信息。

响应图R的计算方法为：

其中，X表示检测帧图像，Z表示模版帧图像，表示检测帧图像的特征图，检测帧图像的特征图中的元素为X_i,j’，/>表示模版帧图像的特征图，*表示卷积操作、即互相关；/>Cat()表示拼接操作，F₃(X)、F₄(X)、F₅(X)分别为所述深度学习神经网络ResNet50最后三个残差块提取的特征。

本实施例中，F₃(X)、F₄(X)、F₅(X)含有256个通道，含有256×3个通道。特征图输入混合注意力机制PSA模块中时，首先执行一个1×1卷积，然后执行一个包含两层的金字塔卷积，在5×5和3×3两个尺度上捕获不同的局部细节。然后应用1×1卷积将不同核提取到信息组合在一起，将融合后的特征在通道维度上进行分组重新排序。使用通道重排单元将通道注意力和空间注意力集成到每组中，最后聚合所有特征形成最终响应图。

S4-4：所述跟踪网络模型的分类模型包括分类分支和回归分支，所述分类分支包括中心分支，所述分类分支、回归分支、中心分支分别输出通道大小不一致的三个特征图；本实施例中，分类分支输出的特征图为cls表示分类分支，w和h分别表示特征图的宽和高；回归分支输出的特征图为/>reg表示回归分支；中心分支输出的特征图为/>cen表示中心分支。将最终的响应图输入所述分类模型得到预测的目标框。

互相关操作得到两个通道不同大小一致的特征，本实施例中将通道数为2K的特征进行分类后处理，分为分类分支和中心点分支，为4K的进行框偏移后处理，K为anchor数量的整数；修正预测框，通过回归分支得到最终目标的框，更新修改下一帧的中心偏差和尺寸偏差。

S4-5：重复提取预处理后的高光谱图像序列中的第T帧的下一帧的帧图像作为检测帧图像，执行上述S4-2～S4-4操作得到第T帧的下一帧的帧图像对应的预测的目标框，直到遍历完预处理后的高光谱图像序列中的所有帧图像；将此时所有预测的目标框作为候选目标框。

S4-6：使用尺度变化惩罚对所述候选目标框进行打分并选出得分前n对应的n个预测的目标框，在得分前n对应的n个预测的目标框附近选取多个临近的预测的目标框做加权平均，将加权平均得到的结果作为最终的目标跟踪结果。

所述使用尺度变化惩罚对所述候选目标框进行打分，得分S的计算方法为：

S＝(1-λ_d)cls_i，j×p_ij+λ_dH；

其中，λ_d是平衡权值，本实施例中λ_d取值0.3；cls_i，j表示响应图中(i,j)位置上的对应类别标签，r表示响应图中(i,j)位置上预测的目标框的宽高的比值、即r＝h/w，r’表示模板帧宽高的比值；s为预测的目标框的整体比例、即s’为模板帧图像中目标宽高的整体比例，p_ij表示响应图中(i,j)位置上尺度变化的惩罚系数，a1为惩罚系数权重，本实施例中a1取值0.04；H是余弦窗口，b1为窗口系数，本实施例中b1取值0.5，M为窗口长度，n为从1-M开始递增到M-1的整数序列，本实施例中M的取值为25，n为从-24开始以2为步长递增到24的整数序列，/>为计算两个向量的外积。

n的取值根据实际情况确定，本实施例中n＝3，即取得分S最小时对应的三个预测的目标框，从这三个预测的目标框附件选取8个临近的预测的目标框做加权平均，将加权平均的结果作为最终的目标跟踪结果。

完成对当前检测帧的目标跟踪后，还可以用学习率对下一帧的初始宽高进行更新，也对下一帧目标位置信息进行更新，通过偏差调整后的最佳预测框的坐标再通过尺度的调整得到最终位置，同理，宽高也需要上一帧的宽高与尺度偏差进行微调，得到最终尺寸；最终，更新该帧的位置坐标和尺寸大小，以供下一帧检测帧进行位置和尺度预测时参照。

实施例二

本发明还公开了一种基于大模型分割的高光谱目标跟踪系统，包括跟踪网络模型构建模块、教师模型构建模块、预测模型构建模块和跟踪预测模块。

实施例三

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现实施例一中的基于大模型分割的高光谱目标跟踪方法。

实施例四

本发明还公开了一种基于大模型分割的高光谱目标跟踪设备，包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一中的基于大模型分割的高光谱目标跟踪方法。

孪生网络(Siamese Fully Convolutional Classification and Regression，CAR)提出了一种基于孪生网络的分类和回归框架，将视觉跟踪任务分解为两个子问题：一个分类问题和一个回归任务。该框架可以在每个像素位置上预测目标类别和边界框，无需使用锚点或区域提议，从而避免了复杂的参数调整和人为干预。并且设计了一个简单而有效的分类-回归子网络，用于从多通道响应图中解码目标的位置和尺度信息。该子网络利用了目标的语义信息和中心性信息，提高了边界框回归的准确性和鲁棒性。

本发明基于分割模型(Segment Anything Model，SAM)来提高算法的泛化能力和精确度。SAM是一个提示型模型，其在1100万张图像上训练了超过10亿个掩码，实现了强大的零样本泛化。然而，SAM在视频中的表现并不理想。故而，将SAM结合跟踪器，来算法泛化不足的问题，使得本发明可以适用于任何高光谱视频目标跟踪的特征提取部分。

SAM是一种创新的图像分割模型，它的创新点和意义主要体现在以下几个方面：

1.加入了Prompt机制：SAM与传统单纯的语义分割方式不同，加入了Prompt机制，可以将文字、坐标点、坐标框等作为辅助信息优化分割结果，这一方面增加了交互的灵活性，另一方面这也是解决图像分割中尺度问题的一次有益尝试。

2.生成多个有效掩码：当在识别要分割的对象时遇到不确定性，SAM能够生成多个有效掩码。

3.自动分割模式：SAM的自动分割模式可以识别图像中存在的所有潜在对象并生成蒙版。

4.贡献了目前全球最大的语义分割数据集：SAM的训练数据集的数据量，是以往最大数据集的6倍。

5.通用性强：SAM是一种处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同，SAM可以处理所有类型的图像。

6.降低了对于特定场景建模知识、训练计算、数据标记的需求：SAM建立了一套图像分割的通用模型，有望在统一框架下完成图像分割任务。

7.广泛的应用前景：SAM不仅将在上述这些前沿领域发挥作用，同样或将会用于人们的日常生活。比如在医学影像诊断领域，SAM可能会催生出精度更高的医学影像模型，提升医疗水平；在拍照过程中，SAM的加入或将实现更快更智能的人脸识别。

本发明通过使用不同尺度和深度的卷积核来提取多尺度信息，进而采用混合注意力的方式来捕捉重要的信息，使所述模型在识别相似物体的能力得到了增强，从而捕捉更多重要信息，提高了跟踪的准确性和鲁棒性。

本发明通过分割模型区分目标与背景，再利用孪生网络学习高光谱数据的光谱特征，使得跟踪网络模型可以更准确地识别和区分不同物质的目标，提高跟踪网络模型识别的准确性。

本发明在训练跟踪网络模型时使用了SAM模型的思想，直接使用已训练好的参数模型处理任务，从而进一步提高跟踪网络模型的识别效果。

本发明在训练跟踪网络模型时使用了知识蒸馏的思想，将教师模型的输出作为软标签用于指导学生模型的训练，解决了因样本数据少面临的难以训练深度神经网络的问题，降低了训练过程中容易过拟合的风险，从而进一步提高跟踪网络模型的识别效果。

本发明通过基于遗传算法的波段选择，从高光谱数据中选择三个具有最高联合熵的波段，在提取有效特征的同时减少了高光谱数据的信息冗余。

为了进一步说明本发明的有益效果，本实施例中使用本发明方法进行了仿真实验。图5是经过波段选择处理后的结果示意图，从图5可以看出波段选择去除了冗余信息和噪声，可以帮助突出高光谱图像中的目标。图6是高光谱目标图像经过SAM处理之后的示意图，从图6可以看出经过SAM处理之后的图像可以更好的区分目标与背景。图7是高光谱图像序列经过跟踪后的标签与预测框的示意图。图7中标识1表示模板帧图像获取的标签、即目标的真实位置，标识2表示使用本发明方法预测得到的位置。从图7可以看出，本发明得到的预测框内包含所要跟踪的高光谱目标，并且与标签的重合范围较大，预测效果好，从而证明了本发明的有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于大模型分割的高光谱目标跟踪方法，其特征在于，包括：

训练所述学生模型，包括：

2.根据权利要求1所述的基于大模型分割的高光谱目标跟踪方法，其特征在于：所述预处理，包括：

计算高光谱视频数据的光谱响应权重系数w：

3.根据权利要求2所述的基于大模型分割的高光谱目标跟踪方法，其特征在于：所述将预处理后的检测帧图像输入分割模型进行目标和背景的分割，将分割结果与背景进行加权，包括：

使用所述光谱响应权重系数加权掩码结果：

4.根据权利要求3所述的基于大模型分割的高光谱目标跟踪方法，其特征在于：根据掩码质量评分向量选取掩码结果得到掩码矩阵，具体为：

TopMasks＝{M[i]|i∈I_sorted[0:k]}，

5.根据权利要求3所述的基于大模型分割的高光谱目标跟踪方法，其特征在于：所述根据模板帧图像的特征图和检测帧图像的特征图得到响应图，将响应图输入分类模型得到预测的目标框，包括：

6.根据权利要求1-5任一项所述的基于大模型分割的高光谱目标跟踪方法，其特征在于：所述根据候选目标框得到最终的目标跟踪结果，包括：

7.根据权利要求6所述的基于大模型分割的高光谱目标跟踪方法，其特征在于：所述使用尺度变化惩罚对所述候选目标框进行打分，得分S的计算方法为：

S＝(1-λ_d)cls_i，j×p_ij+λ_dH，

8.一种基于大模型分割的高光谱目标跟踪系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于大模型分割的高光谱目标跟踪方法。

10.一种基于大模型分割的高光谱目标跟踪设备，其特征在于：包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于大模型分割的高光谱目标跟踪方法。