CN116823891A - 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 - Google Patents

基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 Download PDF

Info

Publication number
CN116823891A
CN116823891A CN202311087808.3A CN202311087808A CN116823891A CN 116823891 A CN116823891 A CN 116823891A CN 202311087808 A CN202311087808 A CN 202311087808A CN 116823891 A CN116823891 A CN 116823891A
Authority
CN
China
Prior art keywords
tracking
frame
representing
model
hyperspectral image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311087808.3A
Other languages
English (en)
Other versions
CN116823891B (zh
Inventor
钱琨
王仕庆
于宏斌
宋威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202311087808.3A priority Critical patent/CN116823891B/zh
Publication of CN116823891A publication Critical patent/CN116823891A/zh
Application granted granted Critical
Publication of CN116823891B publication Critical patent/CN116823891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,公开一种基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统,包括:构建包括混合注意力机制和孪生网路的跟踪网络模型,获取现有数据集并训练跟踪网络模型,将训练完成的跟踪网络模型作为教师模型;获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将跟踪网络模型作为学生模型,使用教师模型和训练集训练学生模型,将训练完成的学生模型作为预测模型;将训练集和测试集输入预测模型得到目标跟踪结果。本发明可以捕捉多尺度的重要信息、提高跟踪网络模型的准确性和鲁棒性。

Description

基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统
技术领域
本发明涉及图像处理技术领域,尤其是指一种基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统。
背景技术
高光谱成像技术将成像技术与光谱技术相结合,可以探测目标的二维几何空间和一维光谱信息,获取高光谱分辨率的连续、窄波段的图像数据。随着高光谱成像技术的日益成熟,已成为广泛应用于遥感、农业、环境监测等领域的重要工具。通过捕捉物体的大量连续光谱信息,高光谱成像技术能够提供丰富的光谱特征,可以实现物质识别、地表覆盖分类和环境变化监测等应用。随着传感器技术和数据处理方法的不断发展,高光谱成像技术的分辨率和准确性不断提升,为科学研究和实际应用带来了更大的潜力和机会。但是,高光谱数据在计算复杂度高、标注数据缺乏、特征提取困难和适应目标外观变化方面面临挑战,限制了其在高光谱跟踪任务中的应用。
近年来,孪生网络在单目标跟踪中被广泛应用。孪生网络的目标跟踪器的核心思想是通过提取目标和搜索区域的特征并比较它们的相似性来进行目标跟踪。现有技术中,有采用具有共享权重的孪生网络结构的方法,其中两个相同的子网络共同学习目标特征的表示。其中,SINT是第一个采用同一主干网络的两个分支生成特征图的孪生跟踪器,SiamFC是另一个具有创新性的孪生跟踪器,它将孪生网络模型用于特征提取,并利用交叉相关层将来自两个分支的信息嵌入其中。该方法使用模板特征作为卷积核在搜索区域上执行卷积操作,得到两个分支之间的通用相似度图。这个相似度图用于目标位置的预测。现有技术中还有通过引入区域建议网络来实现更精确的跟踪、同时保持高速运行的方法,但在处理与目标对象外观相似的干扰因素方面效果不好。现有技术中还有利用有效的数据增强策略来解决训练数据分布不平衡的问题,将深度网络引入孪生框架进行特征提取,并提出了深度相关层来有效地嵌入两个分支的信息。
但是,现有方法也存在一些问题。在对高光谱目标跟踪时,因高光谱数据的标注样本缺乏、样本分布不均衡而存在难以训练深度神经网络的问题;同时,因高光谱波段间存在的相关性,提取特征的过程通常有大量的数据冗余,导致难以提取有效特征,最终导致跟踪识别能力差。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统,可以捕捉多尺度的重要信息、提高跟踪网络模型的准确性和鲁棒性。
为解决上述技术问题,本发明提供了一种基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,包括:
构建跟踪网络模型,所述跟踪网络模型包括混合注意力机制和孪生网路,通过所述混合注意力机制捕捉高光谱图像数据的多尺度信息,通过所述孪生网络学习高光谱图像数据的光谱特征;
获取现有的高光谱图像数据集并训练所述跟踪网络模型,将训练完成的跟踪网络模型作为教师模型;
获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型;
将训练集和测试集输入所述预测模型得到目标跟踪结果。
在本发明的一个实施例中,所述预处理,具体包括:
将所述高光谱图像数据按序排列得到高光谱图像序列,将所述高光谱图像序列中的每帧图像作为初始帧图像;
使用遗传算法选择所述初始帧图像中联合熵最大的三个波段,将这三个波段组成新的帧图像;
根据所述新的帧图像的标签计算出跟踪目标的中心坐标、宽和高,根据跟踪目标的中心坐标、宽和高形成跟踪框;
对所述跟踪框进行缩放和剪裁,使用全局图像像素的均值对所述跟踪框超出搜索区域的部分进行填充,将裁剪和填充后的跟踪框中的图像作为预处理后的帧图像。
在本发明的一个实施例中,所述将训练集和测试集输入所述预测模型得到目标跟踪结果,包括:
提取预处理后的高光谱图像序列中的第一帧的帧图像作为模板帧图像,提取预处理后的高光谱图像序列中第T帧的帧图像作为检测帧图像;
所述跟踪网络模型的主干网络为深度学习神经网络,使用深度学习神经网络提取所述模板帧图像的特征图,使用所述孪生网路提取所述检测帧图像的特征图;
将所述模板帧图像的特征图和所述检测帧图像的特征图进行逐通道的互相关操作得到响应图,将响应图输入所述混合注意力机制得到最终的响应图;
所述跟踪网络模型的分类模型包括分类分支和回归分支,所述分类分支包括中心分支,将最终的响应图输入所述分类模型得到预测的目标框;
重复提取预处理后的高光谱图像序列中的第T帧的下一帧的帧图像作为检测帧图像,执行上述操作得到第T帧的下一帧的帧图像对应的预测的目标框,直到遍历完预处理后的高光谱图像序列中的所有帧图像,将此时所有预测的目标框作为候选目标框;
使用尺度变化惩罚对所述候选目标框进行打分并选出得分前n对应的n个预测的目标框,在得分前n对应的n个预测的目标框附近选取多个临近的预测的目标框做加权平均,将加权平均得到的结果作为最终的目标跟踪结果。
在本发明的一个实施例中,使用所述教师模型和训练集对所述学生模型进行知识蒸馏时,建立的总损失函数L为:
其中,L cls 为使用所述教师模型和训练集对所述学生模型进行知识蒸馏时的损失函数,L cen 为所述中心分支的损失函数,L reg 为所述回归分支的损失函数,λ 1λ 2为权重系数;
所述回归分支的损失函数L reg 的计算方法为:
其中,(i,j)表示响应图中的每个位置,(x,y)表示点(i,j)映射回跟踪框中的对应位置,表示在(i,j)点处的实际边界框与预测边界框之间的IOU损失函数值,/>表示真实点(x,y)到真实框四条边的距离;/>的取值为0或1,当特征图中的点不属于第一帧手动划定的可视范围内时,该点的/>值为0,否则为1;A reg (i,j)表示预测框的位置(i,j)对应跟踪框中点与真实框四条边的距离,L IOU ( )为IOU损失函数操作。
在本发明的一个实施例中,所述回归分支包括4个通道,所述的计算方法为:
其中, 分别表示回归分支的4个通道的特征图,计算方法分别为:
其中,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离,(x 0 ,y 0)表示边跟踪框左上角点的坐标,(x 1 ,y 1)表示跟踪框右下角点的坐标。
在本发明的一个实施例中,所述的计算方法为:
其中,IU分别为根据真实中心点和预测中心点得到的交集和并集,IU的计算方法为:
其中,l表示真实中心点到跟踪框的左边界的距离,t表示真实中心点到跟踪框的上边界的距离,r表示真实中心点到跟踪框的右边界的距离,b表示真实中心点到跟踪框的下边界的距离,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离。
在本发明的一个实施例中,所述中心分支的损失函数L cen 为:
其中,为中心度得分,/>(i,j)为中心分支输出的特征图中的点(i, j)。
在本发明的一个实施例中,所述的计算方法为:
其中,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离。
在本发明的一个实施例中,所述使用尺度变化惩罚对所述候选目标框进行打分,得分S的计算方法为:
S=
其中,λ d 是平衡权值,表示响应图中(i,j)位置上的对应类别标签,/>表示响应图中(i,j)位置上的尺度变化的惩罚系数,H是余弦窗口;
所述尺度变化的惩罚系数的计算方法为:
其中,r表示响应图中(i,j)位置上预测的目标框的宽高的比值,r’表示模板帧宽高的比值;s为预测的目标框的整体比例,s’为模板帧图像中目标宽高的整体比例,a1为惩罚系数权重;
所述余弦窗口H的计算方法为:
其中,b1为窗口系数,M为窗口长度,n为从1-M开始递增到M-1的整数序列,为计算两个向量的外积。
本发明还提供了一种基于注意力和知识蒸馏的孪生高光谱图像跟踪系统,包括:
跟踪网络模型构建模块,用于构建跟踪网络模型,所述跟踪网络模型包括混合注意力机制和孪生网路,通过所述混合注意力机制捕捉高光谱图像数据的多尺度信息,通过所述孪生网络学习高光谱图像数据的光谱特征;
教师模型构建模块,用于获取现有的高光谱图像数据集并训练所述跟踪网络模型,将训练完成的跟踪网络模型作为教师模型;
预测模型构建模块,用于获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型;
跟踪预测模块,用于将训练集和测试集输入所述预测模型得到目标跟踪结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明构建的跟踪网络模型包括混合注意力机制和孪生网路,通过混合注意力机制捕捉多尺度的重要信息,增强识别相似物体时的能力,提高跟踪网络模型的准确性和鲁棒性;通过孪生网络学习高光谱数据的光谱特征,使得跟踪网络模型可以更准确地识别和区分不同物质的目标,提高跟踪网络模型识别的准确性;同时,本发明在训练跟踪网络模型时使用教师模型和训练集对学生模型进行知识蒸馏,降低了因样本数据少而导致的影响,提高跟踪网络模型的泛化能力,从而进一步提高跟踪网络模型识别的准确性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明方法的流程图。
图2是本发明方法的流程步骤图。
图3是本发明中跟踪网络模型的结构示意图。
图4是本发明实施例中高光谱序列的第一帧图像示意图。
图5是本发明实施例中高光谱目标图像经过波段选择处理后的结果示意图。
图6是本发明实施例中高光谱目标图像的波段示意图。
图7是本发明实施例中学生模型经过教师模型指导前后的响应对比图。
图8是本发明实施例中高光谱图像序列经过跟踪后的标签与预测框的示意图。
说明书附图标记说明:1、高光谱目标跟踪网络模型预测的目标位置;2、模板帧图像获取的标签。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1-图2所示,本发明公开了一种基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,包括以下步骤:
S1:构建跟踪网络模型,如图3所示所述跟踪网络模型包括混合注意力机制和孪生网路;本实施例中,混合注意力机制为包括通道注意力和空间注意力的金字塔混洗注意力(Pyramid Shuffle Attention,PSA)机制,通过所述混合注意力机制捕捉高光谱图像数据的多尺度信息,通过所述孪生网络学习高光谱图像数据的光谱特征。
S2:获取现有的高光谱图像数据集并训练所述跟踪网络模型,将训练完成的跟踪网络模型作为教师模型;本实施例中使用的现有数据集可以为GOT-10K(数据集公开网站:http://got-10k.aitestunion.com/,论文:Got-10k: A large high-diversitybenchmark for generic object tracking in the wild)大规模数据集。
S3:获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型;本发明通过知识蒸馏技术,降低因训练样本少而导致的过拟合问题,提高学生模型的泛化能力,进一步提高对高光谱图像的跟踪效果。
S3-1:获取待测物体的高光谱图像数据进行预处理。
S3-1-1:将所述高光谱图像数据按时序排列得到高光谱图像序列,将所述高光谱图像序列中的每帧图像作为初始帧图像;本实施例中的高光谱图像序列为单通道,则帧图像的尺寸为M×N×1,其中,M×N为图像的尺寸大小。
S3-1-2:使用遗传算法选择所述初始帧图像中联合熵最大的三个波段,将这三个波段组成新的帧图像;本发明结合基于遗传算法和最大联合熵的波段选择方法选择有价值的波段,通过波段选择模块消除高光谱视频的信息冗余,可以保留物理信息、提高跟踪速度。
S3-1-3:根据所述新的帧图像的标签计算出跟踪目标的中心坐标、宽和高,根据跟踪目标的中心坐标、宽和高形成跟踪框;将所述跟踪框作为待跟踪目标图像区域,将待跟踪目标图像区域作为跟踪目标的初始位置。
S3-1-4:对所述跟踪框进行缩放和剪裁,使用全局图像像素的均值对所述跟踪框超出搜索区域的部分进行填充,将裁剪和填充后的跟踪框中的图像作为预处理后的帧图像。本实施例中改过程具体为:根据模板帧图像确定的目标标签,考虑到目标的尺寸和移动速度,将搜索区域选择为待跟踪目标区域面积的四倍,即搜索区域的宽高各为原先的两倍,因此对所述跟踪框的宽和高扩大两倍后进行模板裁剪。考虑到目标处于边缘位置时,目标所对应的框可能超出搜索区域的范围,因此对图像进行进一步处理,将超出搜索区域的部分采用全局图像像素的均值进行填充。后续再将裁剪和填充处理后的模版帧图像输入所述跟踪网络模型中进行训练和测试。
S3-2:将预处理后的高光谱图像序列分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型。
知识蒸馏为一种迁移学习技术,用于通过传递教师模型的知识来改善学生模型的性能和泛化能力。本发明中将通过使用现有数据集训练完成的跟踪网络模型作为教师模型,在使用待测物体的高光谱图像数据作为训练集时将原始的跟踪网络模型作为学生模型进行知识蒸馏,通过传递教师模型的知识来改善学生模型的性能和泛化能力。使用所述教师模型和训练集对所述学生模型进行知识蒸馏时,将所述教师模型的分类结果作为软标签指导所述学生模型训练,设置温度参数T来软化分类结果,使其包含更多信息;使用所述教师模型和训练集对所述学生模型时知识蒸馏时的损失函数L cls 为:
L cls =T 2 ×KLdiv(C s ,C t ),
其中,T是蒸馏模型的温度参数,KLdiv( )为KL散度,KLdiv(C s ,C t )= (C t log(C t /C s ) );C t 表示教师模型的软标签,C t =softmax(z t /T),softmax( )为softmax函数操作,z t 表示教师模型的分类输出结果;C s 表示学生模型的软标签,C s =softmax(z s /T),z s 表示学生模型的分类输出结果。
使用所述教师模型和训练集对所述学生模型进行知识蒸馏时,建立的总损失函数L为:
其中,L cls 为知识蒸馏的损失函数,L cen 为所述中心分支的损失函数,L reg 为所述回归分支的损失函数,λ 1λ 2为权重系数;本实施例中λ 1=2、λ 2=3。
所述回归分支使用IOU损失,回归分支的损失函数L reg 的计算方法为:
其中,(i,j)表示响应图R中的每个位置,(x,y)表示点(i,j)映射回跟踪框中的对应位置,表示在(i,j)点处的实际边界框与预测边界框之间的IOU损失函数值,/>表示真实点(x,y)到真实框四条边的距离;/>的取值为0或1,当特征图中的点不属于第一帧手动划定的可视范围bbox内时,该点的/>值为0,否则为1;A reg (i,j)表示预测框的位置(i,j)对应跟踪框中点与真实框四条边的距离,L IOU ( )为IOU损失函数操作。
所述回归分支包括4个通道,所述的计算方法为:
其中, 分别表示回归分支的4个通道的特征图,分别为:
其中,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离,(x 0 ,y 0)表示边跟踪框左上角点的坐标,(x 1 ,y 1)表示跟踪框右下角点的坐标。
所述的计算方法为:
其中,IU分别为根据真实中心点和预测中心点得到的交集和并集,IU的计算方法为:
其中,l表示真实中心点到跟踪框的左边界的距离,t表示真实中心点到跟踪框的上边界的距离,r表示真实中心点到跟踪框的右边界的距离,b表示真实中心点到跟踪框的下边界的距离。
所述中心分支的损失函数L cen 为:
其中,为中心度得分,/>(i,j)为中心分支输出的特征图中的点(i, j),/>的计算方法为:
中心度得分表示当前像素点偏离真实目标中心点的程度,/>值越小,则当前像素点偏离越大。
S4:将训练集和测试集输入所述预测模型得到目标跟踪结果。
S4-1:提取预处理后的高光谱图像序列中如图4所示的第一帧的帧图像作为模板帧图像,提取预处理后的高光谱图像序列中第T帧的帧图像作为检测帧图像,T为大于1的整数。
S4-2:所述跟踪网络模型的主干网络为深度学习神经网络,本实施例中使用的深度学习神经网络为ResNet50;使用深度学习神经网络ResNet50提取所述模板帧图像的特征图,使用所述孪生网路提取所述检测帧图像的特征图。
S4-3:将所述模板帧图像的特征图和所述检测帧图像的特征图进行逐通道的互相关操作得到响应图,将响应图输入所述混合注意力机制得到最终的响应图;本实施例中在输入混合注意力机制PSA模块前先经过金字塔卷积,可以利用不同尺度和深度的卷积核来提取多尺度信息,从而捕捉更多重要信息。
响应图R的计算方法为:
R=φ(X)* φ(Z);
其中,X表示检测帧图像,Z表示模版帧图像,φ(X)表示检测帧图像的特征图,φ(Z)表示模版帧图像的特征图,*表示卷积操作、即互相关;φ(X)=Cat(F 3 (X),F 4 (X),F 5 (X)),Cat( )表示拼接操作,F 3 (X)、F 4 (X)、F 5 (X)分别为所述深度学习神经网络ResNet50最后三个残差块提取的特征。
本实施例中,F 3 (X)、F 4 (X)、F 5 (X)含有256个通道,φ(X)含有256×3个通道。特征图输入混合注意力机制PSA模块中时,首先执行一个1×1卷积,然后执行一个包含两层的金字塔卷积,在5×5和3×3两个尺度上捕获不同的局部细节。然后应用1×1卷积将不同核提取到信息组合在一起,将融合后的特征在通道维度上进行分组重新排序。使用通道重排单元将通道注意力和空间注意力集成到每组中,最后聚合所有特征形成最终响应图。
S4-4:所述跟踪网络模型的分类模型包括分类分支和回归分支,所述分类分支包括中心分支,所述分类分支、回归分支、中心分支分别输出通道大小不一致的三个特征图;本实施例中,分类分支输出的特征图为cls表示分类分支,wh分别表示特征图的宽和高;回归分支输出的特征图为/>reg表示回归分支;中心分支输出的特征图为cen表示中心分支。将最终的响应图输入所述分类模型得到预测的目标框。
S4-5:重复提取预处理后的高光谱图像序列中的第T帧的下一帧的帧图像作为检测帧图像,执行上述S4-2~S4-4操作得到第T帧的下一帧的帧图像对应的预测的目标框,直到遍历完预处理后的高光谱图像序列中的所有帧图像;将此时所有预测的目标框作为候选目标框。
S4-6:使用尺度变化惩罚对所述候选目标框进行打分并选出得分前n对应的n个预测的目标框,在得分前n对应的n个预测的目标框附近选取多个临近的预测的目标框做加权平均,将加权平均得到的结果作为最终的目标跟踪结果。
所述使用尺度变化惩罚对所述候选目标框进行打分,得分S的计算方法为:
S=
其中,λ d 是平衡权值,本实施例中λ d 取值0.3;表示响应图中(i,j)位置上的对应类别标签,r表示响应图中(i,j)位置上预测的目标框的宽高的比值、即r=h/wr’表示模板帧宽高的比值;s为预测的目标框的整体比例、即/>s’为模板帧图像中目标宽高的整体比例,/>表示响应图中(i,j)位置上尺度变化的惩罚系数,a1为惩罚系数权重,本实施例中a1取值0.04;H是余弦窗口,b1为窗口系数,本实施例中b1取值0.5,M为窗口长度,n为从1-M开始递增到M-1的整数序列,本实施例中M的取值为25,n为从-24开始以2为步长递增到24的整数序列,/>为计算两个向量的外积。
n的取值根据实际情况确定,本实施例中n=3,即取得分S最小时对应的三个预测的目标框,从这三个预测的目标框附件选取8个临近的预测的目标框做加权平均,将加权平均的结果作为最终的目标跟踪结果。
本发明还公开了一种基于注意力和知识蒸馏的孪生高光谱图像跟踪系统,包括跟踪网络模型构建模块、教师模型构建模块、预测模型构建模块和跟踪预测模块。
跟踪网络模型构建模块用于构建跟踪网络模型,所述跟踪网络模型包括混合注意力机制和孪生网路,通过所述混合注意力机制捕捉高光谱图像数据的多尺度信息,通过所述孪生网络学习高光谱图像数据的光谱特征。教师模型构建模块用于获取现有的高光谱图像数据集并训练所述跟踪网络模型,将训练完成的跟踪网络模型作为教师模型。预测模型构建模块用于获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型。跟踪预测模块用于将训练集和测试集输入所述预测模型得到目标跟踪结果。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法。
本发明还公开了一种基于注意力和知识蒸馏的孪生高光谱图像跟踪设备,包括存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法。
与现有技术相比本发明的有益效果有:
1、本发明通过使用不同尺度和深度的卷积核来提取多尺度信息,进而采用混合注意力的方式来捕捉重要的信息,使所述模型在识别相似物体的能力得到了增强,从而捕捉更多重要信息,提高了跟踪的准确性和鲁棒性。
2、本发明通过孪生网络学习高光谱数据的光谱特征,使得跟踪网络模型可以更准确地识别和区分不同物质的目标,提高跟踪网络模型识别的准确性。
3、本发明在训练跟踪网络模型时使用教师模型和训练集对学生模型进行知识蒸馏,将教师模型的输出作为软标签用于指导学生模型的训练,解决了因样本数据少面临的难以训练深度神经网络的问题,降低了训练过程中容易过拟合的风险,从而进一步提高跟踪网络模型的识别效果。
4、本发明通过基于遗传算法的波段选择,从高光谱数据中选择三个具有最高联合熵的波段,在提取有效特征的同时减少了高光谱数据的信息冗余。
为了进一步说明本发明的有益效果,本实施例中使用本发明方法进行了仿真实验。图5是经过波段选择处理后的结果示意图,从图5可以看出波段选择去除了冗余信息和噪声,可以帮助突出高光谱图像中的目标。图6是高光谱目标图像的波段示意图,从图6可以看出高光谱图像的相邻波段之间具有高度的相似性,并且高光谱数据具有丰富的光谱信息和空间信息,可用于区分目标和周围环境。图7是学生模型经过教师模型指导前后的响应对比图,图7中左侧图像为跟踪网络模型没有经过教师模型指导的图像,图7中右侧图像为跟踪网络模型经过教师模型指导后的响应图。从图7可以看出本发明方法可以使得跟踪网络模型更容易关注到目标,减轻了相似物体的干扰。
图8是高光谱图像序列经过跟踪后的标签与预测框的示意图。图8中标识1表示使用本发明方法预测得到的目标位置,标识2表示模板帧图像获取的标签、即真实位置。从图8可以看出,本发明得到的预测框内包含所要跟踪的高光谱目标,并且与标签的重合范围较大,预测效果好,从而证明了本发明的有益效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于,包括:
构建跟踪网络模型,所述跟踪网络模型包括混合注意力机制和孪生网路,通过所述混合注意力机制捕捉高光谱图像数据的多尺度信息,通过所述孪生网络学习高光谱图像数据的光谱特征;
获取现有的高光谱图像数据集并训练所述跟踪网络模型,将训练完成的跟踪网络模型作为教师模型;
获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型;
将训练集和测试集输入所述预测模型得到目标跟踪结果。
2.根据权利要求1所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述预处理,具体包括:
将所述高光谱图像数据按序排列得到高光谱图像序列,将所述高光谱图像序列中的每帧图像作为初始帧图像;
使用遗传算法选择所述初始帧图像中联合熵最大的三个波段,将这三个波段组成新的帧图像;
根据所述新的帧图像的标签计算出跟踪目标的中心坐标、宽和高,根据跟踪目标的中心坐标、宽和高形成跟踪框;
对所述跟踪框进行缩放和剪裁,使用全局图像像素的均值对所述跟踪框超出搜索区域的部分进行填充,将裁剪和填充后的跟踪框中的图像作为预处理后的帧图像。
3.根据权利要求2所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述将训练集和测试集输入所述预测模型得到目标跟踪结果,包括:
提取预处理后的高光谱图像序列中的第一帧的帧图像作为模板帧图像,提取预处理后的高光谱图像序列中第T帧的帧图像作为检测帧图像;
所述跟踪网络模型的主干网络为深度学习神经网络,使用深度学习神经网络提取所述模板帧图像的特征图,使用所述孪生网路提取所述检测帧图像的特征图;
将所述模板帧图像的特征图和所述检测帧图像的特征图进行逐通道的互相关操作得到响应图,将响应图输入所述混合注意力机制得到最终的响应图;
所述跟踪网络模型的分类模型包括分类分支和回归分支,所述分类分支包括中心分支,将最终的响应图输入所述分类模型得到预测的目标框;
重复提取预处理后的高光谱图像序列中的第T帧的下一帧的帧图像作为检测帧图像,执行上述操作得到第T帧的下一帧的帧图像对应的预测的目标框,直到遍历完预处理后的高光谱图像序列中的所有帧图像,将此时所有预测的目标框作为候选目标框;
使用尺度变化惩罚对所述候选目标框进行打分并选出得分前n对应的n个预测的目标框,在得分前n对应的n个预测的目标框附近选取多个临近的预测的目标框做加权平均,将加权平均得到的结果作为最终的目标跟踪结果。
4.根据权利要求3所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:使用所述教师模型和训练集对所述学生模型进行知识蒸馏时,建立的总损失函数L为:
其中,L cls 为使用所述教师模型和训练集对所述学生模型进行知识蒸馏时的损失函数,L cen 为所述中心分支的损失函数,L reg 为所述回归分支的损失函数,λ 1λ 2为权重系数;
所述回归分支的损失函数L reg 的计算方法为:
其中,(i,j)表示响应图中的每个位置,(x,y)表示点(i,j)映射回跟踪框中的对应位置,表示在(i,j)点处的实际边界框与预测边界框之间的IOU损失函数值,/>表示真实点(x,y)到真实框四条边的距离;/>的取值为0或1,当特征图中的点不属于第一帧手动划定的可视范围内时,该点的/>值为0,否则为1;A reg (i,j)表示预测框的位置(i,j)对应跟踪框中点与真实框四条边的距离,L IOU ( )为IOU损失函数操作。
5.根据权利要求4所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述回归分支包括4个通道,所述的计算方法为:
其中, 分别表示回归分支的4个通道的特征图,计算方法分别为:
其中,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离,(x 0 ,y 0)表示边跟踪框左上角点的坐标,(x 1 ,y 1)表示跟踪框右下角点的坐标。
6.根据权利要求4所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述的计算方法为:
其中,IU分别为根据真实中心点和预测中心点得到的交集和并集,IU的计算方法为:
其中,l表示真实中心点到跟踪框的左边界的距离,t表示真实中心点到跟踪框的上边界的距离,r表示真实中心点到跟踪框的右边界的距离,b表示真实中心点到跟踪框的下边界的距离,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离。
7.根据权利要求4所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述中心分支的损失函数L cen 为:
其中,为中心度得分,/>(i,j)为中心分支输出的特征图中的点(i,j)。
8.根据权利要求7所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述的计算方法为:
其中,表示预测中心点到跟踪框的左边界的距离,/>表示预测中心点到跟踪框的上边界的距离,/>表示预测中心点到跟踪框的右边界的距离,/>表示预测中心点到跟踪框的下边界的距离。
9.根据权利要求3所述的基于注意力和知识蒸馏的孪生高光谱图像跟踪方法,其特征在于:所述使用尺度变化惩罚对所述候选目标框进行打分,得分S的计算方法为:
S=
其中,λ d 是平衡权值,表示响应图中(i,j)位置上的对应类别标签,/>表示响应图中(i,j)位置上的尺度变化的惩罚系数,H是余弦窗口;
所述尺度变化的惩罚系数的计算方法为:
其中,r表示响应图中(i,j)位置上预测的目标框的宽高的比值,r’表示模板帧宽高的比值;s为预测的目标框的整体比例,s’为模板帧图像中目标宽高的整体比例,a1为惩罚系数权重;
所述余弦窗口H的计算方法为:
其中,b1为窗口系数,M为窗口长度,n为从1-M开始递增到M-1的整数序列,为计算两个向量的外积。
10.一种基于注意力和知识蒸馏的孪生高光谱图像跟踪系统,其特征在于,包括:
跟踪网络模型构建模块,用于构建跟踪网络模型,所述跟踪网络模型包括混合注意力机制和孪生网路,通过所述混合注意力机制捕捉高光谱图像数据的多尺度信息,通过所述孪生网络学习高光谱图像数据的光谱特征;
教师模型构建模块,用于获取现有的高光谱图像数据集并训练所述跟踪网络模型,将训练完成的跟踪网络模型作为教师模型;
预测模型构建模块,用于获取待测物体的高光谱图像数据进行预处理并分为训练集和测试集,将所述跟踪网络模型作为学生模型,使用所述教师模型和训练集对所述学生模型进行知识蒸馏,将知识蒸馏后的学生模型作为预测模型;
跟踪预测模块,用于将训练集和测试集输入所述预测模型得到目标跟踪结果。
CN202311087808.3A 2023-08-28 2023-08-28 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 Active CN116823891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311087808.3A CN116823891B (zh) 2023-08-28 2023-08-28 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311087808.3A CN116823891B (zh) 2023-08-28 2023-08-28 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Publications (2)

Publication Number Publication Date
CN116823891A true CN116823891A (zh) 2023-09-29
CN116823891B CN116823891B (zh) 2023-11-17

Family

ID=88113077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311087808.3A Active CN116823891B (zh) 2023-08-28 2023-08-28 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Country Status (1)

Country Link
CN (1) CN116823891B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112816474A (zh) * 2021-01-07 2021-05-18 武汉大学 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法
CN115100238A (zh) * 2022-05-24 2022-09-23 北京理工大学 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN116342648A (zh) * 2023-03-03 2023-06-27 西安电子科技大学 基于混合结构注意力引导的孪生网络目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112816474A (zh) * 2021-01-07 2021-05-18 武汉大学 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法
CN115100238A (zh) * 2022-05-24 2022-09-23 北京理工大学 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN116342648A (zh) * 2023-03-03 2023-06-27 西安电子科技大学 基于混合结构注意力引导的孪生网络目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN SUN等: "SiamOHOT: A Lightweight Dual Siamese Network for Onboard Hyperspectral Object Tracking via Joint Spatial–Spectral Knowledge Distillation", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, vol. 61, pages 1 - 12 *

Also Published As

Publication number Publication date
CN116823891B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN112200161B (zh) 一种基于混合注意力机制的人脸识别检测方法
CN111080629B (zh) 一种图像拼接篡改的检测方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN111986099A (zh) 基于融合残差修正的卷积神经网络的耕地监测方法及系统
CN111126258A (zh) 图像识别方法及相关装置
CN112348849A (zh) 一种孪生网络视频目标跟踪方法及装置
CN113256677A (zh) 一种图注意力视觉目标跟踪方法
Zhang et al. A GANs-based deep learning framework for automatic subsurface object recognition from ground penetrating radar data
CN114092487A (zh) 目标果实实例分割方法及系统
CN110738132B (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN112215217B (zh) 模拟医师阅片的数字图像识别方法及装置
CN112949408A (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN116206185A (zh) 一种基于改进YOLOv7的轻量级小目标检测方法
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
CN114821102A (zh) 密集柑橘数量检测方法、设备、存储介质及装置
CN115937697A (zh) 一种遥感影像变化检测方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
Yadav et al. An improved deep learning-based optimal object detection system from images
CN114494870A (zh) 一种双时相遥感图像变化检测方法、模型构建方法和装置
CN117058534A (zh) 基于元知识适应迁移网络的少样本遥感图像目标检测方法
CN116823891B (zh) 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统
KR102416714B1 (ko) 3차원 이미지 및 딥러닝을 활용한 도시 규모 나무 지도 작성 시스템 및 방법
Wang et al. Strawberry ripeness classification method in facility environment based on red color ratio of fruit rind
CN114332549A (zh) 一种基于bp神经网络单元的变形体识别方法
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant