CN115100235B - 一种目标跟踪方法、系统及存储介质 - Google Patents

一种目标跟踪方法、系统及存储介质 Download PDF

Info

Publication number
CN115100235B
CN115100235B CN202210989700.2A CN202210989700A CN115100235B CN 115100235 B CN115100235 B CN 115100235B CN 202210989700 A CN202210989700 A CN 202210989700A CN 115100235 B CN115100235 B CN 115100235B
Authority
CN
China
Prior art keywords
training
feature
attention
features
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210989700.2A
Other languages
English (en)
Other versions
CN115100235A (zh
Inventor
何震宇
李高俊
田超
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210989700.2A priority Critical patent/CN115100235B/zh
Publication of CN115100235A publication Critical patent/CN115100235A/zh
Application granted granted Critical
Publication of CN115100235B publication Critical patent/CN115100235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种目标跟踪方法、系统及存储介质,目标跟踪方法包括预训练步骤、训练步骤和预测步骤,在训练步骤中,使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力‑跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,再进入跨注意力特征模块做最终的特征融合后,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练。本发明的有益效果是:本发明的目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与泛化能力。

Description

一种目标跟踪方法、系统及存储介质
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种目标跟踪方法、系统及存储介质。
背景技术
当前目标跟踪技术必须面对真实场景中的遮挡,光照变化,目标旋转和尺度变化等问题。为解决上述问题,基于深度学习的跟踪方法主要是通过训练深层网络来学习目标特征,完成目标跟踪。其中基于孪生网络的深度学习跟踪方法包含两个输入,然后将两个输入连接起来形成一个输出,以确定两个输入网络间是否包含相同的信息,与相关滤波类似,孪生网络也是衡量两个输入的相似性。
这种孪生网络跟踪的思想主要分为两个阶段,第一个阶段,利用已知位置的当前帧来训练网络模型,第二阶段是使用第一阶段得到的模型预测当前帧中目标的位置。
在数据使用方面,目前热红外目标跟踪方法一般仅采用热红外图像进行训练,完成训练后,也仅在热红外数据上进行测试(应用)。另有一类“可见光-热红外”双光(RGB-T)跟踪算法,这类算法在模型训练和测试(实际应用)中,都需使用成对的视角对齐的双模态数据;同时算法的架构需针对双模态数据重新设计,通常采用两个以上并列的特征提取器,分别提取各个模态的特征,计算量大。其优点是跟踪效果更好,缺点是对输入数据需求更高,计算效率更低。
背景技术的缺陷:
孪生网络架构中互相关操作缺陷:相关性在孪生网络跟踪方法中扮演一个至关重要的角色,这种相关性操作将模板特征与搜索特征有效的融合起来(一般采用互相关操作),互相关操作具体是将模板特征作为卷积核参数,而搜索特征作为卷积核输入特征进行计算,这种互相关操作本身是一个局部线性匹配过程,容易引起高级语义信息丢失,从而陷入局部最优中。另外由于红外图像相较于可见光图像,由于红外图像显示物体的温度分布,在实际中要跟踪的目标的轮廓较可见光更显著,但是其细节比可见光更少,这需要算法能够对细节特征有更多的保留。由前面的互相关操作可以发现模板特征图大小普遍偏低(一般为5x5或者7x7),造成这种互相关操作在红外跟踪中细节保留不足,极大影响模板图像与搜索图像相关性的计算。
数据使用方面:现有红外跟踪算法,仅使用热红外数据进行训练,因热红外图像的特性,难以获得满意的跟踪效果。另一类同时添加使用可见光图像进行训练的跟踪算法(RGB-T),需要可见光图像与热红外图像是相互配对的,而这样的数据难以获得,提升了训练成本;同时为了处理这种双流的数据,算法在架构上通常必须采用复杂的双分支结构,大大提升了计算成本。
发明内容
本发明提供了一种目标跟踪方法,包括如下步骤:
预训练步骤:通过在热红外联合数据集上进行无需标签的预训练,使得特征提取网络具备更好的初始权重参数;
训练步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练;
预测步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过跨注意力特征模块进行特征细节增强,最后使用一个跟踪头判断当前帧中目标位置。
作为本发明的进一步改进,在所述训练步骤中,使用随机混合的红外+可见光数据,并动态调整可见光与红外图像的比例。
作为本发明的进一步改进,在所述训练步骤,在大规模红外数据集中作编码解码的无监督训练,为网络提供更好的初始权重参数。
本发明还提供了一种目标跟踪系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述目标跟踪方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的目标跟踪方法的步骤。
本发明的有益效果是:本发明的目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与泛化能力。
附图说明
图1是训练步骤的原理示意图;
图2是预测步骤的原理示意图;
图3是细节特征增强模块的原理示意图。
具体实施方式
如图1、2所示,本发明公开了一种目标跟踪方法,包括如下步骤:
预训练步骤:通过在热红外联合数据集上进行无需标签的预训练,使得特征提取网络具备更好的初始权重参数;热红外联合数据集是把目前开源的红外数据集与自己收集的红外数据集全部放到一起作为一个数据集,大小应该有接近一百万张红外图像;
训练步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练;
预测步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过跨注意力特征模块进行特征细节增强,最后使用一个跟踪头判断当前帧中目标位置。
在所述训练步骤中,使用随机混合的红外+可见光数据,并动态调整可见光与红外图像的比例,以迫使网络学习更多细节特征。
在所述训练步骤,在大规模红外数据集中作编码解码的无监督训练,为网络提供更好的初始权重参数。
本发明采用级联自注意力-跨注意力特征增强融合模块来进行特征融合以提高特征图大小,并采用细节特征增强模块来进一步保留更多的细节特征,从而提高红外跟踪算法的鲁棒性。
本发明在训练步骤添加细节特征增强模块来提高模型捕获细节的能力,在测试步骤丢弃细节特征增强模块,在不引入多余计算量的情况下提升算法的鲁棒性。
本发明的具体实施例如下:
1.可见光与热红外数据集动态分配训练机制:
训练数据的质量对于一个跟踪器的性能至关重要,考虑增加数据的多样性,并提高网络提取细节特征的能力,直接添加部分可见光数据至跟踪器的训练过程中,无需特殊处理。然而如何确定可见光和热红外数据的混合比是一个棘手的问题,直接混合与先训练再微调(finetune),都不是一个好的选择。
为解决这个问题,本发明动态分配在训练中可见光和红外数据的比例,如公式5-1 所示,其中
Figure DEST_PATH_IMAGE001
为神经网络,
Figure 925991DEST_PATH_IMAGE002
为数据集,
Figure DEST_PATH_IMAGE003
为红外数据集占比,其值为每轮训练的迭代次数
Figure 108711DEST_PATH_IMAGE004
的k倍,
Figure DEST_PATH_IMAGE005
Figure 763814DEST_PATH_IMAGE006
(5-1)
2.级联自注意力-跨注意力特征增强融合模块:
注意力机制可以使网络关注到具体目标场景中所需要的特征,表示为
Figure DEST_PATH_IMAGE007
,其中Q(Query),K(Key),V(Value)为三个输入向量,
Figure 798504DEST_PATH_IMAGE008
为输入向量K的维度。注意力机制可以对特征权重值做加权平均,即融合不同的信息,这 种机制天然的可以用于特征融合,相对于卷积神经网络,在跟踪器中注意力能够融合全局 的权值信息,网络能够收敛到更好的结果。
本跟踪器采用多头注意力作为我们的基注意力层,如式5-2所示,其中
Figure DEST_PATH_IMAGE009
Figure 632118DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 611837DEST_PATH_IMAGE012
,在本跟踪器中
Figure DEST_PATH_IMAGE013
Figure 82133DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 887890DEST_PATH_IMAGE016
(5-2)
将注意力机制引入孪生网络中,使用一个自注意力特征增强模块和一个跨注意力特征融合模块代替互相关操作。通过级联自注意力-跨注意力特征增强融合模块(如图1与图2中虚线框中所示),使得模板特征与搜索特征深度融合,一定程度上避免了使用卷积神经网络带来的陷入局部最优的问题。
3. 细节特征增强模块:
为进一步提高网络的鲁棒性,本跟踪器对进入跟踪头之前的特征做进一步的特征 增强,具体是将进入跟踪头之前的特征按照空间生成一个正态分布的二值向量,其大小与 当前的特征图大小一致,如图3所示,特征向量
Figure 228873DEST_PATH_IMAGE001
与M做点积,生成新的特征图,再进入跟踪 头进行预测。
图3示意图在推理过程中,细节特征增强模块并不参与预测,在前面训练过程中,细节特征增强模块已使得特征能够捕获更多的细节特征,使得跟踪器能够十分鲁棒的跟踪目标。
4.多分支特征相关约束:
为了充分利用红外图像中的细节特征,设计此约束与(3)所述的细节增强模块相 配合。我们将特征按照通道分成N组,每组经过一个级联自注意力-跨注意力特征增强融合 模块,并在N组之间计算相互的相似度。在训练过程中此特征除原有分类损失和回归损失 外,额外在细节特征增强模块后加入一个相关性损失,监督特征学习更多的细节特征,其表 示如式5-3所示,其中
Figure DEST_PATH_IMAGE017
为特征矩阵,表示为
Figure 144325DEST_PATH_IMAGE018
,I为单 位向量且
Figure DEST_PATH_IMAGE019
Figure 587070DEST_PATH_IMAGE020
为相关性损失函数。
Figure DEST_PATH_IMAGE021
(5-3)
5. 在大规模数据集上作编码解码的无监督训练:
为进一步提高模型的鲁棒性与精度,我们采用在大规模数据集中做无监督训练,并在下游任务上微调的方法。
在大规模数据集中无监督训练过程如下:在模型结构上我们采用我们上面的特征 提取网络作为编码器,使用简单的4层自注意力层和512个节点的feedforward层的 transformer作为解码器;在数据上,我们的优化目标是红外图像域中的跟踪,故我们的数 据也均采用红外图像,我们将目前的红外数据集均纳入我们的无监督训练中;在训练方式 上,我们将图像按照后续的尺度变化分成
Figure 199448DEST_PATH_IMAGE022
个子区域,我们对图像中的子区域按照概 率
Figure DEST_PATH_IMAGE023
随机使用114色素值的色块代替,将此替换后的图像作为特征提取网络的输入 图像,并将原始图像作为优化目标,优化约束采用简单的均方误差损失函数如式5-4所示, 其中
Figure 595270DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
分别为复原后的图像与原始图像,
Figure 166060DEST_PATH_IMAGE026
。故我们将此问题建模为一个 图像复原问题,并在下游任务中复用其部分参数。
Figure DEST_PATH_IMAGE027
(5-4)
在下游跟踪任务中,我们采用上面训得的模型中的编码模型的参数作为特征提取网络的初始参数,后续的训练过程与前面所述一致。
6.基于全局和局部的知识蒸馏训练方法:
使用基于全局的知识蒸馏训练方法来进行上述跟踪网络的训练,这种方法相较于直接训练跟踪网络可以使网络的性能更佳。
具体的训练方法是:我们使用比目前我们的跟踪网络更大的网络来训练一个老师 模型,网络的主干网络(backbone)可以采用ResNet-152,使用我们上面的方法训练出一个 老师模型将其用于指导我们要使用的跟踪网络训练;在指导训练过程中,老师模型和学生 模型分别前向计算,学生模型的约束如前面描述,我们另外在级联自注意力-跨注意力特征 增强模块的最后一层解码模块上进行特征模拟作为全局蒸馏,即使用特征拟合约束来使用 老师模型指导学生模型训练,如式5-5所示,其中
Figure 283052DEST_PATH_IMAGE028
表示特征拟合约束,CHW分别为特征 的通道数,高和宽,
Figure DEST_PATH_IMAGE029
表示自适应的形状转换函数,用于将学生特征的形状转为和老师特征 形状一致,T表示老师模型,S表示学生模型;我们在跟踪头中按照分类分支确定前景和背 景,分别拟合前景和背景做局部蒸馏,最终的蒸馏约束如5-6所示,其中
Figure 699121DEST_PATH_IMAGE030
为蒸馏损 失,
Figure DEST_PATH_IMAGE031
为全局蒸馏损失,
Figure 608171DEST_PATH_IMAGE032
为局部蒸馏损失,其中
Figure DEST_PATH_IMAGE033
为前景局部蒸馏损失,
Figure 165841DEST_PATH_IMAGE034
为背景局部蒸馏损失,
Figure DEST_PATH_IMAGE035
为损失的权重系数。
Figure 832445DEST_PATH_IMAGE032
中的点表示通配符,后面跟 的所有字符都表示这是一个局部蒸馏损失,如FF和FE。
Figure 724309DEST_PATH_IMAGE036
(5-5)
Figure DEST_PATH_IMAGE037
(5-6)
本发明的有益效果是:通过上述方案,此热红外目标跟踪器具有较高的跟踪精度、鲁棒性与泛化能力。具体表述为:
(1)对于热红外目标跟踪任务,我们提出一种新的训练机制, 在不改变原有网络架构的基础上,在训练集中动态的添加任意可见光样本(非配对)进行学习,即可获得比现有红外跟踪器更高的性能;同时,相比必需使用配对“热红外+可见光”数据的跟踪方法,更加利于应用。
(2)针对跟踪任务设计了一个级联自注意力-跨注意力特征增强融合模块深度融合模板特征与搜索特征,使跟踪器能够更加精确的定位目标位置,算法平均重叠率(EAO)更高,精度更高。
(3)加入细节特征增强模块,使得网络在训练中对于细节特征更加敏感。
(4)提出多分支特征相关约束,与细节特征增强模块相配合,充分利用了红外图像中的细节特征,在各复杂环境下跟踪器丢失目标的次数显著降低,跟踪器的鲁棒性更好。
(5)正式训练前,在大规模红外数据集中作编码解码的无监督预训练,为网络提供更好的初始权重参数,使网络具有更加的鲁棒性与精度。
(6)在正式训练过程中,使用基于局部和全局的知识蒸馏方法来指导模型训练,使最终获得的检测器,在算力需求不变的条件下,获得大型模型的高阶性能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (12)

1.一种目标跟踪方法,其特征在于,包括如下步骤:
预训练步骤:通过在热红外联合数据集上进行无需标签的预训练,使得特征提取网络具备更好的初始权重参数;
训练步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练;
预测步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过跨注意力特征模块进行特征细节增强,最后使用一个跟踪头判断当前帧中目标位置。
2.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤中,使用随机混合的红外+可见光数据,并动态调整可见光与红外图像的比例。
3.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤,在大规模红外数据集中作编码解码的无监督训练,为网络提供更好的初始权重参数。
4.根据权利要求2所述的目标跟踪方法,其特征在于,在所述训练步骤中,动态调整可见光与红外图像比例的实现方式是:如公式5-1所示,其中
Figure DEST_PATH_IMAGE002
表示神经网络,其中
Figure DEST_PATH_IMAGE004
表示神经网络的输入图像,
Figure DEST_PATH_IMAGE006
表示数据集,其中
Figure DEST_PATH_IMAGE008
表示4个可见光数据集,
Figure DEST_PATH_IMAGE010
表示红外数据集,
Figure DEST_PATH_IMAGE012
为红外数据集占比,
Figure 951519DEST_PATH_IMAGE012
值为每轮训练的迭代次数
Figure DEST_PATH_IMAGE014
的k倍,
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
(5-1)。
5.根据权利要求1所述的目标跟踪方法,其特征在于,所述级联自注意力-跨注意力特征增强融合模块采用多头注意力作为基注意力层,如式5-2所示,其中参数表示如下:
Figure DEST_PATH_IMAGE020
表示多头注意力中第i个头的输出,Q、K、V分别表示查询矩阵、键矩阵、值矩阵,其中
Figure DEST_PATH_IMAGE022
表示输出映射矩阵,
Figure DEST_PATH_IMAGE024
分别表示多头注意力中第i个头的查询映射矩阵、键映射矩阵、值映射矩阵,其中
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
维实数矩阵,表示为
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
依次表示为
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
;其中
Figure DEST_PATH_IMAGE044
为实数域,
Figure DEST_PATH_IMAGE046
为模型维度、键维度、值维度,m表示输出维度值;
Figure DEST_PATH_IMAGE048
表示注意力头的数目;
Figure DEST_PATH_IMAGE050
(5-2)。
6.根据权利要求5所述的目标跟踪方法,其特征在于,
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE056
7.根据权利要求1所述的目标跟踪方法,其特征在于,所述细节特征增强模块将进入跟踪头之前的特征按照空间生成一个正态分布的二值向量,其大小与当前的特征图大小一致,将特征向量
Figure 174385DEST_PATH_IMAGE002
与M做点积,生成新的特征图。
8.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤中,通过多分支特征相关约束与细节特征增强模块配合,将特征按照通道分成N组,每组经过一个级联自注意力-跨注意力特征增强融合模块,并在N组之间计算相互的相似度;在训练过程中,特征除原有分类损失和回归损失外,额外在细节特征增强模块后加入一个相关性损失,监督特征学习更多的细节特征,其表示如式5-3所示,其中
Figure DEST_PATH_IMAGE058
为特征矩阵,表示为
Figure DEST_PATH_IMAGE060
,其中H与W为特征图的宽度和高度,I为单位向量且
Figure DEST_PATH_IMAGE062
,R表示实域向量空间,
Figure DEST_PATH_IMAGE064
分别为大小HW,HWxN与NxN的实域向量空间;式中
Figure DEST_PATH_IMAGE066
表示特征矩阵A的转置矩阵,
Figure DEST_PATH_IMAGE068
为相关性损失函数,
Figure DEST_PATH_IMAGE070
(5-3)。
9.根据权利要求3所述的目标跟踪方法,其特征在于,在所述训练步骤,大规模红外数据集中作编码解码的无监督训练过程如下:在模型结构上采用特征提取网络作为编码器,使用4层自注意力层和512个节点的feedforward层的transformer作为解码器;在数据上,采用红外图像,将目前的红外数据集均纳入无监督训练中;在训练方式上,将图像按照后续的尺度变化分成
Figure DEST_PATH_IMAGE072
个子区域,对图像中的子区域按照概率
Figure DEST_PATH_IMAGE074
随机使用114色素值的色块代替,将此替换后的图像作为特征提取网络的输入图像,并将原始图像作为优化目标,优化约束采用均方误差损失函数如式5-4所示,其中
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
分别为复原后的图像与原始图像,
Figure DEST_PATH_IMAGE080
表示3维实数向量空间,3个维度大小分别为3、H和W;
Figure DEST_PATH_IMAGE082
(5-4)
在跟踪任务中,采用模型中的编码模型的参数作为特征提取网络的初始参数。
10.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤中,基于全局和局部的知识蒸馏训练方法是:在指导训练过程中,老师模型和学生模型分别前向计算,在级联自注意力-跨注意力特征增强模块的最后一层解码模块上进行特征模拟作为全局蒸馏,即使用特征拟合约束来使用老师模型指导学生模型训练,如式5-5所示,其中
Figure DEST_PATH_IMAGE084
表示特征拟合约束,C、H、W分别为特征的通道数、高和宽,
Figure DEST_PATH_IMAGE086
表示自适应的形状转换函数,用于将学生特征的形状转为和老师特征形状一致,T表示老师模型,S表示学生模型,
Figure DEST_PATH_IMAGE088
分别表示老师和学生网络在向量空间中(k,i,j)位置的特征值;在跟踪头中按照分类分支确定前景和背景,分别拟合前景和背景做局部蒸馏,最终的蒸馏约束如式5-6所示,其中
Figure DEST_PATH_IMAGE090
为蒸馏损失,
Figure DEST_PATH_IMAGE092
为全局蒸馏损失,其中
Figure DEST_PATH_IMAGE094
为前景局部蒸馏损失,
Figure DEST_PATH_IMAGE096
为背景局部蒸馏损失,
Figure DEST_PATH_IMAGE098
为损失的权重系数;
Figure DEST_PATH_IMAGE100
(5-5)
Figure DEST_PATH_IMAGE102
(5-6)。
11.一种目标跟踪系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-10中任一项所述目标跟踪方法的步骤。
12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-10中任一项所述的目标跟踪方法的步骤。
CN202210989700.2A 2022-08-18 2022-08-18 一种目标跟踪方法、系统及存储介质 Active CN115100235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210989700.2A CN115100235B (zh) 2022-08-18 2022-08-18 一种目标跟踪方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210989700.2A CN115100235B (zh) 2022-08-18 2022-08-18 一种目标跟踪方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115100235A CN115100235A (zh) 2022-09-23
CN115100235B true CN115100235B (zh) 2022-12-20

Family

ID=83300454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210989700.2A Active CN115100235B (zh) 2022-08-18 2022-08-18 一种目标跟踪方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115100235B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294176B (zh) * 2022-09-27 2023-04-07 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN115272420B (zh) * 2022-09-28 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种长时目标跟踪方法、系统及存储介质
CN115423847B (zh) * 2022-11-04 2023-02-07 华东交通大学 基于Transformer的孪生多模态目标跟踪方法
CN116168322B (zh) * 2023-01-10 2024-02-23 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116563147B (zh) * 2023-05-04 2024-03-26 北京联合大学 一种水下图像增强系统及方法
CN116433727B (zh) * 2023-06-13 2023-10-27 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN117710663B (zh) * 2024-02-05 2024-04-26 南昌工程学院 基于特征增强与级联融合注意力的目标跟踪方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069768A (zh) * 2015-08-05 2015-11-18 武汉高德红外股份有限公司 一种可见光图像与红外图像融合处理系统及融合方法
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN114219824A (zh) * 2021-12-17 2022-03-22 南京理工大学 基于深度网络的可见光-红外目标跟踪方法及系统
CN114255514A (zh) * 2021-12-27 2022-03-29 厦门美图之家科技有限公司 基于Transformer的人体跟踪系统、方法及摄像装置
CN114298946A (zh) * 2022-03-10 2022-04-08 武汉大学 一种框架细节增强的深度学习点云补全方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740654B2 (en) * 2018-01-22 2020-08-11 Qualcomm Incorporated Failure detection for a neural network object tracker
CN109978921A (zh) * 2019-04-01 2019-07-05 南京信息工程大学 一种基于多层注意力机制的实时视频目标跟踪算法
CN110335290B (zh) * 2019-06-04 2021-02-26 大连理工大学 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN112801158A (zh) * 2021-01-21 2021-05-14 中国人民解放军国防科技大学 基于级联融合和注意力机制的深度学习小目标检测方法及装置
CN114782798A (zh) * 2022-04-19 2022-07-22 杭州电子科技大学 一种基于注意力融合的水下目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069768A (zh) * 2015-08-05 2015-11-18 武汉高德红外股份有限公司 一种可见光图像与红外图像融合处理系统及融合方法
CN110490136A (zh) * 2019-08-20 2019-11-22 电子科技大学 一种基于知识蒸馏的人体行为预测方法
CN114219824A (zh) * 2021-12-17 2022-03-22 南京理工大学 基于深度网络的可见光-红外目标跟踪方法及系统
CN114255514A (zh) * 2021-12-27 2022-03-29 厦门美图之家科技有限公司 基于Transformer的人体跟踪系统、方法及摄像装置
CN114298946A (zh) * 2022-03-10 2022-04-08 武汉大学 一种框架细节增强的深度学习点云补全方法

Also Published As

Publication number Publication date
CN115100235A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN115100235B (zh) 一种目标跟踪方法、系统及存储介质
Yu et al. Lite-hrnet: A lightweight high-resolution network
Gao et al. A mutually supervised graph attention network for few-shot segmentation: the perspective of fully utilizing limited samples
Nguyen et al. A neural network based on SPD manifold learning for skeleton-based hand gesture recognition
Sammani et al. Show, edit and tell: A framework for editing image captions
Gao et al. Structured two-stream attention network for video question answering
CN112528780B (zh) 通过混合时域自适应的视频动作分割
Liu et al. Temporal decoupling graph convolutional network for skeleton-based gesture recognition
Ma et al. Boosting broader receptive fields for salient object detection
Liu et al. Pgfnet: Preference-guided filtering network for two-view correspondence learning
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
Sun et al. Second-order encoding networks for semantic segmentation
Lu et al. Paraformer: Parallel attention transformer for efficient feature matching
Xu et al. Trusted-data-guided label enhancement on noisy labels
Slama et al. Str-gcn: Dual spatial graph convolutional network and transformer graph encoder for 3d hand gesture recognition
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
Wang et al. Videoadviser: Video knowledge distillation for multimodal transfer learning
Liu et al. Modeling image composition for visual aesthetic assessment
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
Peng et al. Refine for semantic segmentation based on parallel convolutional network with attention model
Zhang et al. Image deblurring based on lightweight multi-information fusion network
Liu et al. Multi-task learning based on geometric invariance discriminative features
Xiong et al. TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting
Sun et al. k-NN attention-based video vision transformer for action recognition
Zhou et al. DGPINet-KD: Deep Guided and Progressive Integration Network with Knowledge Distillation for RGB-D Indoor Scene Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant