CN115100235B - 一种目标跟踪方法、系统及存储介质 - Google Patents
一种目标跟踪方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115100235B CN115100235B CN202210989700.2A CN202210989700A CN115100235B CN 115100235 B CN115100235 B CN 115100235B CN 202210989700 A CN202210989700 A CN 202210989700A CN 115100235 B CN115100235 B CN 115100235B
- Authority
- CN
- China
- Prior art keywords
- training
- feature
- attention
- features
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种目标跟踪方法、系统及存储介质,目标跟踪方法包括预训练步骤、训练步骤和预测步骤,在训练步骤中,使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力‑跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,再进入跨注意力特征模块做最终的特征融合后,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练。本发明的有益效果是:本发明的目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与泛化能力。
Description
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种目标跟踪方法、系统及存储介质。
背景技术
当前目标跟踪技术必须面对真实场景中的遮挡,光照变化,目标旋转和尺度变化等问题。为解决上述问题,基于深度学习的跟踪方法主要是通过训练深层网络来学习目标特征,完成目标跟踪。其中基于孪生网络的深度学习跟踪方法包含两个输入,然后将两个输入连接起来形成一个输出,以确定两个输入网络间是否包含相同的信息,与相关滤波类似,孪生网络也是衡量两个输入的相似性。
这种孪生网络跟踪的思想主要分为两个阶段,第一个阶段,利用已知位置的当前帧来训练网络模型,第二阶段是使用第一阶段得到的模型预测当前帧中目标的位置。
在数据使用方面,目前热红外目标跟踪方法一般仅采用热红外图像进行训练,完成训练后,也仅在热红外数据上进行测试(应用)。另有一类“可见光-热红外”双光(RGB-T)跟踪算法,这类算法在模型训练和测试(实际应用)中,都需使用成对的视角对齐的双模态数据;同时算法的架构需针对双模态数据重新设计,通常采用两个以上并列的特征提取器,分别提取各个模态的特征,计算量大。其优点是跟踪效果更好,缺点是对输入数据需求更高,计算效率更低。
背景技术的缺陷:
孪生网络架构中互相关操作缺陷:相关性在孪生网络跟踪方法中扮演一个至关重要的角色,这种相关性操作将模板特征与搜索特征有效的融合起来(一般采用互相关操作),互相关操作具体是将模板特征作为卷积核参数,而搜索特征作为卷积核输入特征进行计算,这种互相关操作本身是一个局部线性匹配过程,容易引起高级语义信息丢失,从而陷入局部最优中。另外由于红外图像相较于可见光图像,由于红外图像显示物体的温度分布,在实际中要跟踪的目标的轮廓较可见光更显著,但是其细节比可见光更少,这需要算法能够对细节特征有更多的保留。由前面的互相关操作可以发现模板特征图大小普遍偏低(一般为5x5或者7x7),造成这种互相关操作在红外跟踪中细节保留不足,极大影响模板图像与搜索图像相关性的计算。
数据使用方面:现有红外跟踪算法,仅使用热红外数据进行训练,因热红外图像的特性,难以获得满意的跟踪效果。另一类同时添加使用可见光图像进行训练的跟踪算法(RGB-T),需要可见光图像与热红外图像是相互配对的,而这样的数据难以获得,提升了训练成本;同时为了处理这种双流的数据,算法在架构上通常必须采用复杂的双分支结构,大大提升了计算成本。
发明内容
本发明提供了一种目标跟踪方法,包括如下步骤:
预训练步骤:通过在热红外联合数据集上进行无需标签的预训练,使得特征提取网络具备更好的初始权重参数;
训练步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练;
预测步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过跨注意力特征模块进行特征细节增强,最后使用一个跟踪头判断当前帧中目标位置。
作为本发明的进一步改进,在所述训练步骤中,使用随机混合的红外+可见光数据,并动态调整可见光与红外图像的比例。
作为本发明的进一步改进,在所述训练步骤,在大规模红外数据集中作编码解码的无监督训练,为网络提供更好的初始权重参数。
本发明还提供了一种目标跟踪系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述目标跟踪方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的目标跟踪方法的步骤。
本发明的有益效果是:本发明的目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与泛化能力。
附图说明
图1是训练步骤的原理示意图;
图2是预测步骤的原理示意图;
图3是细节特征增强模块的原理示意图。
具体实施方式
如图1、2所示,本发明公开了一种目标跟踪方法,包括如下步骤:
预训练步骤:通过在热红外联合数据集上进行无需标签的预训练,使得特征提取网络具备更好的初始权重参数;热红外联合数据集是把目前开源的红外数据集与自己收集的红外数据集全部放到一起作为一个数据集,大小应该有接近一百万张红外图像;
训练步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练;
预测步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过跨注意力特征模块进行特征细节增强,最后使用一个跟踪头判断当前帧中目标位置。
在所述训练步骤中,使用随机混合的红外+可见光数据,并动态调整可见光与红外图像的比例,以迫使网络学习更多细节特征。
在所述训练步骤,在大规模红外数据集中作编码解码的无监督训练,为网络提供更好的初始权重参数。
本发明采用级联自注意力-跨注意力特征增强融合模块来进行特征融合以提高特征图大小,并采用细节特征增强模块来进一步保留更多的细节特征,从而提高红外跟踪算法的鲁棒性。
本发明在训练步骤添加细节特征增强模块来提高模型捕获细节的能力,在测试步骤丢弃细节特征增强模块,在不引入多余计算量的情况下提升算法的鲁棒性。
本发明的具体实施例如下:
1.可见光与热红外数据集动态分配训练机制:
训练数据的质量对于一个跟踪器的性能至关重要,考虑增加数据的多样性,并提高网络提取细节特征的能力,直接添加部分可见光数据至跟踪器的训练过程中,无需特殊处理。然而如何确定可见光和热红外数据的混合比是一个棘手的问题,直接混合与先训练再微调(finetune),都不是一个好的选择。
2.级联自注意力-跨注意力特征增强融合模块:
注意力机制可以使网络关注到具体目标场景中所需要的特征,表示为,其中Q(Query),K(Key),V(Value)为三个输入向量, 为输入向量K的维度。注意力机制可以对特征权重值做加权平均,即融合不同的信息,这
种机制天然的可以用于特征融合,相对于卷积神经网络,在跟踪器中注意力能够融合全局
的权值信息,网络能够收敛到更好的结果。
将注意力机制引入孪生网络中,使用一个自注意力特征增强模块和一个跨注意力特征融合模块代替互相关操作。通过级联自注意力-跨注意力特征增强融合模块(如图1与图2中虚线框中所示),使得模板特征与搜索特征深度融合,一定程度上避免了使用卷积神经网络带来的陷入局部最优的问题。
3. 细节特征增强模块:
为进一步提高网络的鲁棒性,本跟踪器对进入跟踪头之前的特征做进一步的特征
增强,具体是将进入跟踪头之前的特征按照空间生成一个正态分布的二值向量,其大小与
当前的特征图大小一致,如图3所示,特征向量与M做点积,生成新的特征图,再进入跟踪
头进行预测。
图3示意图在推理过程中,细节特征增强模块并不参与预测,在前面训练过程中,细节特征增强模块已使得特征能够捕获更多的细节特征,使得跟踪器能够十分鲁棒的跟踪目标。
4.多分支特征相关约束:
为了充分利用红外图像中的细节特征,设计此约束与(3)所述的细节增强模块相
配合。我们将特征按照通道分成N组,每组经过一个级联自注意力-跨注意力特征增强融合
模块,并在N组之间计算相互的相似度。在训练过程中此特征除原有分类损失和回归损失
外,额外在细节特征增强模块后加入一个相关性损失,监督特征学习更多的细节特征,其表
示如式5-3所示,其中为特征矩阵,表示为,I为单
位向量且,为相关性损失函数。
5. 在大规模数据集上作编码解码的无监督训练:
为进一步提高模型的鲁棒性与精度,我们采用在大规模数据集中做无监督训练,并在下游任务上微调的方法。
在大规模数据集中无监督训练过程如下:在模型结构上我们采用我们上面的特征
提取网络作为编码器,使用简单的4层自注意力层和512个节点的feedforward层的
transformer作为解码器;在数据上,我们的优化目标是红外图像域中的跟踪,故我们的数
据也均采用红外图像,我们将目前的红外数据集均纳入我们的无监督训练中;在训练方式
上,我们将图像按照后续的尺度变化分成个子区域,我们对图像中的子区域按照概
率随机使用114色素值的色块代替,将此替换后的图像作为特征提取网络的输入
图像,并将原始图像作为优化目标,优化约束采用简单的均方误差损失函数如式5-4所示,
其中与分别为复原后的图像与原始图像,。故我们将此问题建模为一个
图像复原问题,并在下游任务中复用其部分参数。
在下游跟踪任务中,我们采用上面训得的模型中的编码模型的参数作为特征提取网络的初始参数,后续的训练过程与前面所述一致。
6.基于全局和局部的知识蒸馏训练方法:
使用基于全局的知识蒸馏训练方法来进行上述跟踪网络的训练,这种方法相较于直接训练跟踪网络可以使网络的性能更佳。
具体的训练方法是:我们使用比目前我们的跟踪网络更大的网络来训练一个老师
模型,网络的主干网络(backbone)可以采用ResNet-152,使用我们上面的方法训练出一个
老师模型将其用于指导我们要使用的跟踪网络训练;在指导训练过程中,老师模型和学生
模型分别前向计算,学生模型的约束如前面描述,我们另外在级联自注意力-跨注意力特征
增强模块的最后一层解码模块上进行特征模拟作为全局蒸馏,即使用特征拟合约束来使用
老师模型指导学生模型训练,如式5-5所示,其中表示特征拟合约束,CHW分别为特征
的通道数,高和宽,表示自适应的形状转换函数,用于将学生特征的形状转为和老师特征
形状一致,T表示老师模型,S表示学生模型;我们在跟踪头中按照分类分支确定前景和背
景,分别拟合前景和背景做局部蒸馏,最终的蒸馏约束如5-6所示,其中为蒸馏损
失,为全局蒸馏损失,为局部蒸馏损失,其中为前景局部蒸馏损失,为背景局部蒸馏损失,为损失的权重系数。中的点表示通配符,后面跟
的所有字符都表示这是一个局部蒸馏损失,如FF和FE。
本发明的有益效果是:通过上述方案,此热红外目标跟踪器具有较高的跟踪精度、鲁棒性与泛化能力。具体表述为:
(1)对于热红外目标跟踪任务,我们提出一种新的训练机制, 在不改变原有网络架构的基础上,在训练集中动态的添加任意可见光样本(非配对)进行学习,即可获得比现有红外跟踪器更高的性能;同时,相比必需使用配对“热红外+可见光”数据的跟踪方法,更加利于应用。
(2)针对跟踪任务设计了一个级联自注意力-跨注意力特征增强融合模块深度融合模板特征与搜索特征,使跟踪器能够更加精确的定位目标位置,算法平均重叠率(EAO)更高,精度更高。
(3)加入细节特征增强模块,使得网络在训练中对于细节特征更加敏感。
(4)提出多分支特征相关约束,与细节特征增强模块相配合,充分利用了红外图像中的细节特征,在各复杂环境下跟踪器丢失目标的次数显著降低,跟踪器的鲁棒性更好。
(5)正式训练前,在大规模红外数据集中作编码解码的无监督预训练,为网络提供更好的初始权重参数,使网络具有更加的鲁棒性与精度。
(6)在正式训练过程中,使用基于局部和全局的知识蒸馏方法来指导模型训练,使最终获得的检测器,在算力需求不变的条件下,获得大型模型的高阶性能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (12)
1.一种目标跟踪方法,其特征在于,包括如下步骤:
预训练步骤:通过在热红外联合数据集上进行无需标签的预训练,使得特征提取网络具备更好的初始权重参数;
训练步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过细节特征增强模块进行多分支的特征细节增强,最后使用一个跟踪头预测目标的坐标;在整个训练过程中,采用基于全局和局部的知识蒸馏训练方法来指导训练;
预测步骤:使用共享特征的特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板特征和搜索特征,经过级联自注意力-跨注意力特征增强融合模块进行模板特征和搜索特征的深层融合,然后经过跨注意力特征模块进行特征细节增强,最后使用一个跟踪头判断当前帧中目标位置。
2.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤中,使用随机混合的红外+可见光数据,并动态调整可见光与红外图像的比例。
3.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤,在大规模红外数据集中作编码解码的无监督训练,为网络提供更好的初始权重参数。
9.根据权利要求3所述的目标跟踪方法,其特征在于,在所述训练步骤,大规模红外数据集中作编码解码的无监督训练过程如下:在模型结构上采用特征提取网络作为编码器,使用4层自注意力层和512个节点的feedforward层的transformer作为解码器;在数据上,采用红外图像,将目前的红外数据集均纳入无监督训练中;在训练方式上,将图像按照后续的尺度变化分成个子区域,对图像中的子区域按照概率随机使用114色素值的色块代替,将此替换后的图像作为特征提取网络的输入图像,并将原始图像作为优化目标,优化约束采用均方误差损失函数如式5-4所示,其中与分别为复原后的图像与原始图像,表示3维实数向量空间,3个维度大小分别为3、H和W;
在跟踪任务中,采用模型中的编码模型的参数作为特征提取网络的初始参数。
10.根据权利要求1所述的目标跟踪方法,其特征在于,在所述训练步骤中,基于全局和局部的知识蒸馏训练方法是:在指导训练过程中,老师模型和学生模型分别前向计算,在级联自注意力-跨注意力特征增强模块的最后一层解码模块上进行特征模拟作为全局蒸馏,即使用特征拟合约束来使用老师模型指导学生模型训练,如式5-5所示,其中表示特征拟合约束,C、H、W分别为特征的通道数、高和宽,表示自适应的形状转换函数,用于将学生特征的形状转为和老师特征形状一致,T表示老师模型,S表示学生模型,分别表示老师和学生网络在向量空间中(k,i,j)位置的特征值;在跟踪头中按照分类分支确定前景和背景,分别拟合前景和背景做局部蒸馏,最终的蒸馏约束如式5-6所示,其中为蒸馏损失,为全局蒸馏损失,其中为前景局部蒸馏损失,为背景局部蒸馏损失,为损失的权重系数;
11.一种目标跟踪系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-10中任一项所述目标跟踪方法的步骤。
12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-10中任一项所述的目标跟踪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210989700.2A CN115100235B (zh) | 2022-08-18 | 2022-08-18 | 一种目标跟踪方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210989700.2A CN115100235B (zh) | 2022-08-18 | 2022-08-18 | 一种目标跟踪方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100235A CN115100235A (zh) | 2022-09-23 |
CN115100235B true CN115100235B (zh) | 2022-12-20 |
Family
ID=83300454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210989700.2A Active CN115100235B (zh) | 2022-08-18 | 2022-08-18 | 一种目标跟踪方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100235B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294176B (zh) * | 2022-09-27 | 2023-04-07 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种双光多模型长时间目标跟踪方法、系统及存储介质 |
CN115272420B (zh) * | 2022-09-28 | 2023-01-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种长时目标跟踪方法、系统及存储介质 |
CN115423847B (zh) * | 2022-11-04 | 2023-02-07 | 华东交通大学 | 基于Transformer的孪生多模态目标跟踪方法 |
CN116168322B (zh) * | 2023-01-10 | 2024-02-23 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态融合的无人机长时跟踪方法及系统 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116563147B (zh) * | 2023-05-04 | 2024-03-26 | 北京联合大学 | 一种水下图像增强系统及方法 |
CN116433727B (zh) * | 2023-06-13 | 2023-10-27 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN117710663B (zh) * | 2024-02-05 | 2024-04-26 | 南昌工程学院 | 基于特征增强与级联融合注意力的目标跟踪方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069768A (zh) * | 2015-08-05 | 2015-11-18 | 武汉高德红外股份有限公司 | 一种可见光图像与红外图像融合处理系统及融合方法 |
CN110490136A (zh) * | 2019-08-20 | 2019-11-22 | 电子科技大学 | 一种基于知识蒸馏的人体行为预测方法 |
CN114219824A (zh) * | 2021-12-17 | 2022-03-22 | 南京理工大学 | 基于深度网络的可见光-红外目标跟踪方法及系统 |
CN114255514A (zh) * | 2021-12-27 | 2022-03-29 | 厦门美图之家科技有限公司 | 基于Transformer的人体跟踪系统、方法及摄像装置 |
CN114298946A (zh) * | 2022-03-10 | 2022-04-08 | 武汉大学 | 一种框架细节增强的深度学习点云补全方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740654B2 (en) * | 2018-01-22 | 2020-08-11 | Qualcomm Incorporated | Failure detection for a neural network object tracker |
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN110335290B (zh) * | 2019-06-04 | 2021-02-26 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN112801158A (zh) * | 2021-01-21 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于级联融合和注意力机制的深度学习小目标检测方法及装置 |
CN114782798A (zh) * | 2022-04-19 | 2022-07-22 | 杭州电子科技大学 | 一种基于注意力融合的水下目标检测方法 |
-
2022
- 2022-08-18 CN CN202210989700.2A patent/CN115100235B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069768A (zh) * | 2015-08-05 | 2015-11-18 | 武汉高德红外股份有限公司 | 一种可见光图像与红外图像融合处理系统及融合方法 |
CN110490136A (zh) * | 2019-08-20 | 2019-11-22 | 电子科技大学 | 一种基于知识蒸馏的人体行为预测方法 |
CN114219824A (zh) * | 2021-12-17 | 2022-03-22 | 南京理工大学 | 基于深度网络的可见光-红外目标跟踪方法及系统 |
CN114255514A (zh) * | 2021-12-27 | 2022-03-29 | 厦门美图之家科技有限公司 | 基于Transformer的人体跟踪系统、方法及摄像装置 |
CN114298946A (zh) * | 2022-03-10 | 2022-04-08 | 武汉大学 | 一种框架细节增强的深度学习点云补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115100235A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115100235B (zh) | 一种目标跟踪方法、系统及存储介质 | |
Yu et al. | Lite-hrnet: A lightweight high-resolution network | |
Gao et al. | A mutually supervised graph attention network for few-shot segmentation: the perspective of fully utilizing limited samples | |
Nguyen et al. | A neural network based on SPD manifold learning for skeleton-based hand gesture recognition | |
Sammani et al. | Show, edit and tell: A framework for editing image captions | |
Gao et al. | Structured two-stream attention network for video question answering | |
CN112528780B (zh) | 通过混合时域自适应的视频动作分割 | |
Liu et al. | Temporal decoupling graph convolutional network for skeleton-based gesture recognition | |
Ma et al. | Boosting broader receptive fields for salient object detection | |
Liu et al. | Pgfnet: Preference-guided filtering network for two-view correspondence learning | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
Sun et al. | Second-order encoding networks for semantic segmentation | |
Lu et al. | Paraformer: Parallel attention transformer for efficient feature matching | |
Xu et al. | Trusted-data-guided label enhancement on noisy labels | |
Slama et al. | Str-gcn: Dual spatial graph convolutional network and transformer graph encoder for 3d hand gesture recognition | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
Wang et al. | Videoadviser: Video knowledge distillation for multimodal transfer learning | |
Liu et al. | Modeling image composition for visual aesthetic assessment | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
Peng et al. | Refine for semantic segmentation based on parallel convolutional network with attention model | |
Zhang et al. | Image deblurring based on lightweight multi-information fusion network | |
Liu et al. | Multi-task learning based on geometric invariance discriminative features | |
Xiong et al. | TFA-CNN: an efficient method for dealing with crowding and noise problems in crowd counting | |
Sun et al. | k-NN attention-based video vision transformer for action recognition | |
Zhou et al. | DGPINet-KD: Deep Guided and Progressive Integration Network with Knowledge Distillation for RGB-D Indoor Scene Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |