CN114998601A - 基于Transformer的在线更新目标跟踪方法及系统 - Google Patents
基于Transformer的在线更新目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN114998601A CN114998601A CN202210751307.XA CN202210751307A CN114998601A CN 114998601 A CN114998601 A CN 114998601A CN 202210751307 A CN202210751307 A CN 202210751307A CN 114998601 A CN114998601 A CN 114998601A
- Authority
- CN
- China
- Prior art keywords
- template
- feature
- image
- template image
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于目标跟踪领域,提供了基于Transformer的在线更新目标跟踪方法及系统,该方法包括采用权重共享的Twi ns作为骨干网络对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;引入在线更新模块,将置信度超过阈值模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合,得到对应的融合特征图;采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
Description
技术领域
本发明属于目标跟踪技术领域,尤其涉及基于Transformer的在线更新目标跟踪方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
目前基于Transformer的跟踪器大多将CNN作为特征提取的基本组件来完成跟踪任务,常常忽略了Transformer的提取特征能力。
在现有的跟踪器中,采用Transformer替代常用的ResNet-50作为骨干网络。然而将Transformer作为骨干网络应用到跟踪任务中造成的突出问题是Transformer的注意力机制会增加计算复杂度。为了降低计算复杂度,Swin Transformer采用了LSA(locally-grouped self-attention局部分组注意力),这种方法的缺点是会导致感受野受限,虽然采用滑动窗口可以缓解这个问题,但会造成滑动窗口大小不均匀,影响特征提取的效果。PVT使用GSA(global sub-sampled attention全局子采样注意力)来降低计算复杂度,但计算复杂度仍然为二次方。
如果仅学习第一帧模板特征,在后续帧的跟踪过程中,遮挡、形变、复杂背景等因素会导致跟踪器很难适应目标特征发生严重变化的情况,从而造成跟踪失败。同时,由于模板更新累积也可能会造成目标漂移,导致跟踪失败。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于Transformer的在线更新目标跟踪方法及系统,其选用基于Transformer的Twins作为主干网络来提高特征抽取能力,同时增加了一个更新分支,采用在线更新策略来减少由于目标遮挡、形变和背景复杂导致的跟踪失败问题,通过融合网络对模板特征和更新特征进行融合互补,最后使用多模板策略防止由于更新累积导致的跟踪漂移问题。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于Transformer的在线更新目标跟踪方法,包括如下步骤:
获取模板图像和搜索图像;
采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
引入在线更新模块,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;
基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合,得到对应的融合特征图;
采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
本发明的第二个方面提供基于Transformer的在线更新目标跟踪系统,包括:
数据获取模块,用于获取模板图像和搜索图像;
特征提取模块,用于采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
在线更新模块,用于引入在线更新模块,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;
特征融合模块,用于基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合,得到对应的融合特征图;
目标跟踪模块,用于采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明通过将权重共享的Twins作为骨干网络对模板图像和搜索图像进行特征提取,解决了滑动窗口大小不均匀,影响特征提取的效果的问题。
本发明引入在线更新方法和策略,每n帧更新一次,从而能够引入当前目标特征信息,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与第一帧模板特征即模板图像特征进行互补,解决了由于仅学习第一帧模板特征,在后续帧的跟踪过程中,遮挡、形变、复杂背景等因素会导致跟踪器很难适应目标特征发生严重变化的情况,从而造成跟踪失败的问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例基于Transformer的在线更新目标跟踪方法的流程示意图;
图2是本发明实施例基于Transformer的在线更新目标跟踪方法的整体流程框图;
图3是本发明实施例更新特征和模板特征的融合网络;
图4是本发明实施例Transformer结构图;
图5是本发明实施例在LaSOT数据集上和现有算法比较的的OPE的归一化精度图实验结果;
图6是本发明实施例在LaSOT数据集上和现有算法比较的OPE的成功率实验结果。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1-图2所示,本实施例提供基于Transformer的在线更新目标跟踪方法,包括如下步骤:
步骤1:获取待跟踪视频序列;
步骤2:采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
作为一种或多种实施例,步骤2中,需要说明的是,现有的Transformer主要依靠Self-Attention去捕获各个token之间的关系,能够更高效地捕获远距离依赖的特征,但是计算复杂度太高不利于token数目较多的跟踪任务。
因此为了降低计算复杂度,本实施例采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征,包括:
步骤201:利用块分割模型将输入的RGB图像分割成不重叠的块,在每一个阶段的第一个块中引入CPVT中的PEG(Conditional Positional Encodings,条件位置编码)对位置信息进行编码;
步骤202:在Transformer模块中,将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取,先对特征的空间维度进行分组计算,使用LSA(locally-groupedself-attention局部分组注意力)将W×H特征图分割开来,划分为m×n个子窗口,并将其映射到一个小特征图上,仅在窗口内部进行self-attention计算,每个子窗口含有个像素,其中
然后再从全局对分组注意力结果进行融合,用GSA(global sub-sampledattention全局子采样注意力)将该小特征图展开恢复原形。
如图2所示,整个Transformer模块可以表示为:
i∈{1,2,......,m},j∈{1,2,......,n}
同时,由于LSA中各个子窗口间没有通讯,所以将每一个窗口提取一个维度较低的特征作为各个窗口的表征,然后基于这个表征再和各个窗口进行交互,相当于self-attention中key的作用。
步骤3:引入在线更新模块,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;
作为一种或多种实施例,步骤3中,在跟踪过程中,由于目标遮挡、形变和复杂背景等因素会使目标特征产生变化,从而会导致跟踪结果产生漂移。
为此本实施例增加在线更新分支,每n帧更新一次跟踪器,从而能够引入当前目标特征信息,与第一帧模板特征进行互补。
在线更新过程中,得到的模板不可避免会引入噪声,本实施例只选择置信度超过Tm的模板作为更新模板,其对应的特征作为更新模板特征,然后将更新模板特征和模板图像特征进行融合形成融合模板特征,以提高跟踪的鲁棒性。
例如,更新频率n可以设置为10,Tm可以设置为0.9。
首先将特征展开成一维向量,计算模板特征和更新特征的相似矩阵:
T=concat(η′,Z)
步骤4:基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合,得到对应的融合特征图;
如图4所示,特征融合过程中,注意力机制是设计本实施例特征融合网络的核心,可以对输入的特征进行全局推理,有助于区分前景和背景。
将Q1,K1,V1输入到多头注意力中。采用多头注意力机制来细化每个元素的特征嵌入。
先对每一个独立的头计算注意力:
其中,Ck为key的维度。
将注意力机制扩展到多个头中并行处理:
Multi-Head(Q,K,V)=Contat(head1,head2,......,headi)WO
headi=Attention(QWi Q,KWKi K,VWi V)
然后根据Transformer中的常用做法进一步使用残差链接和层归一化操作:
Znorm=layernorm(MultiHead(Q,K,V)+Z′)
在注意力模块后,使用前馈网络来增强模型的拟合能力,它是由两层1x1卷积和ReLU激活层组成。
前馈网络的具体操作如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中,符号W和b分别代表权重矩阵和基向量,下标表示不同的层。前馈网络后也来接一个残差链接和层归一化。
随后将X′输入到解码器中,引入位置编码P∈RHW×C。则Q2=X′+P,K2=X′+P,V2=X′。
用类似于Self-Attention的多头交叉注意力将编码器的输出的Zencoder、Uencoder、Tencoder分别和特征图X0进行融合,如图4所示。多头交叉注意力的Q3为一维向量V3和K3分别是前Encoder输出的一维向量Q3,K3分别引入位置编码P,那么:
使用一个前馈网络来提高模型的拟合能力。最后,编码器的输出为:
步骤5:采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分支。
第一组为模板图像特征图和搜索图像特征图得到的预测分类响应图和边界框回归图第二组更新模板特征图和搜索图像特征图得到的预测分类响应图和边界框回归图第三组为融合模板图像特征图和搜索图像特征图得到的预测分类响应图和边界框回归图
使用边界框选择策略确定最终的预测结果:
F=max(Fcls(Z),Fcls(U),Fcls(T))
其中,Fcls(Z),Fcls(U),Fcls(T)分别为以第一帧模板、更新模板和融合模板预测的分类分数。
其中,bZ为第一帧模板预测输出的边框,bU为更新模板预测出的边框,bT为融合模板预测出的边框。
本实施例在跟踪器的训练过程中,涉及到的损失函数如下:
其中,跟踪器的总损失函数是由三部分组成:
Lfinal=Lbasic+Lupdate+Ltotal
第一部分为匹配搜索图像和模板图像,得到一个基本的损失函数Lbasic,可以使网络具有基本的跟踪能力。第二部分为更新损失Lupdate,由于更新图像也可以被认为是目标模板,由于采样时间的差异,它可以提供与模板图像互补的数据。第三部分为整体损失Ltotal,将模板图像和更新图像进行融合来预测对象的状态。
每一部分的计算损失是分类损失和回归损失函数的加权组合,损失函数的数学表示公式为:
L=λclsLcls+λregLreg
其中,λcls、λreg分别为分类和回归损失函数的权重。
本实施例选择预测与真实边界框像素对应的特征向量为正样本,其余为负样本。分类损失是由正样本和负样本导致的,回归损失只有正样本会引起。
本实施例使用交叉熵损失进行分类,如下:
其中,yj表示第j个样本的真实标签,yj=1表示前景,pj表示属于学习模型预测的前景的概率。
回归分支采用了L1损失函数和IoU损失函数,即:
实验过程
本发明将模板图像设置为112×112,搜索图像设置为224×224。
首先在lmageNet-1K数据集上预训练的骨干网络Twins-SVT-B,特征维度C设置为384,Transformer多头注意力的头数设置为8,更新频率n设置为10,Tm设置为0.9。
随后在LaSOT,TrackingNet,GOT-10k,COCO 2017数据集上来训练跟踪器。使用AdamW对模型进行优化,并训练了300个周期(epoch),得到如图5和图6的结果,如图5所示,为LaSOT测试集上OPE的归一化精度图(Normalized Precision plots of OPE on LaSOTTesting Set),如图6所示,为LaSOT测试集上OPE的成功率(Success plots of OPE onLaSOT Testing Set)。
通过附图5和附图6可以看到,本发明的提出算法对应的LaSOT测试集上的归一化精度和LaSOT测试集上OPE的成功率大于现有算法,因此可以说明本发明的跟踪效果更好。
实施例二
本实施提供基于Transformer的在线更新目标跟踪系统,包括:
数据获取模块,用于获取模板图像和搜索图像;
特征提取模块,用于采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
在线更新模块,用于引入在线更新模块,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;
特征融合模块,用于基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合,得到对应的融合特征图;
目标跟踪模块,用于采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于Transformer的在线更新目标跟踪方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于Transformer的在线更新目标跟踪方法,其特征在于,包括如下步骤:
获取模板图像和搜索图像;
采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
引入在线更新模块,将置信度超过阈值的模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征与模板图像特征进行互补,得到融合模板图像特征;
基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索图像特征进行融合,得到对应的融合特征图;
采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
2.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征,具体包括:
利用块分割模型将模板图像和搜索图像分割为不重叠的块;
将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取,包括:
采用局部分组注意力将特征图分割开,划分为多个子窗口,将其映射至对应的子特征图上;
从全局对分组注意力结果进行融合,采用全局子采样注意力将各个子特征图展开恢复原形。
3.如权利要求2所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述在采用局部分组注意力将特征图分割开,划分为多个子窗口后,将每一个窗口提取一个降维后的低维特征作为各个窗口的表征,基于该表征再和各个窗口进行交互。
4.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合中,具体包括:
分别将模板图像特征、更新模板特征和融合模板图像特征折叠成一维向量输入至编码器中,采用多头注意力机制来细化每个元素的特征嵌入,对每一个独立的头计算注意力,将注意力机制扩展到多个头中并行处理得到解码后的模板图像特征、更新模板特征和融合模板图像特征;
采用多头交叉注意力将编码器输出的模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合。
5.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述采用多模板策略,将对应的融合特征图映射至预测头得到对应特征图的分类响应图和边界框回归图,每组预测头包括用来得出分类分数的分类分支和用来预测目标边界框的回归分支,头部对每个向量进行预测,得到前景/背景分类结果以及相对于搜索的归一化坐标区域大小。
6.如权利要求1所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述Transformer跟踪器的总损失函数由三部分组成:
Lfinal=Lbasic+Lupdate+Ltotal
第一部分为匹配搜索图像和模板图像,得到一个基本的损失函数Lbasic,可以使网络具有基本的跟踪能力,第二部分为更新损失Lupdate,由于更新图像也可以被认为是目标模板,由于采样时间的差异,它可以提供与模板图像互补的数据,第三部分为整体损失Ltotal,将模板图像和更新图像进行融合来预测对象的状态。
7.基于Transformer的在线更新目标跟踪系统,其特征在于,包括:
数据获取模块,用于获取模板图像和搜索图像;
特征提取模块,用于采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征;
在线更新模块,用于引入在线更新模块,将置信度超过阈值模板作为更新模板,其对应的特征作为更新模板特征,并将更新模板特征其与模板图像特征进行互补,得到融合模板图像特征;
特征融合模块,用于基于编码器和解码器,分别将模板图像特征、更新模板特征和融合模板图像特征分别和搜索特征进行融合,得到对应的融合特征图;
目标跟踪模块,用于采用多模板策略将对应的融合特征图映射至预测头,同时得到对应分支的预测分数,将预测分数最高的分支对应的边界框作为跟踪边框进行目标跟踪。
8.如权利要求7所述的基于Transformer的在线更新目标跟踪方法,其特征在于,所述采用权重共享的Twins作为骨干网络,利用三层金字塔结构对模板图像和搜索图像进行特征提取得到模板图像特征和搜索图像特征,具体包括:
利用块分割模型将模板图像和搜索图像分割为不重叠的块;
将分割得到的块采用局部注意力和全局注意力交替的机制进行特征提取,包括:
采用局部分组注意力将特征图分割开,划分为多个子窗口,将其映射至对应的子特征图上;
从全局对分组注意力结果进行融合,采用全局子采样注意力将各个子特征图展开恢复原形。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于Transformer的在线更新目标跟踪方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于Transformer的在线更新目标跟踪方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751307.XA CN114998601A (zh) | 2022-06-29 | 2022-06-29 | 基于Transformer的在线更新目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751307.XA CN114998601A (zh) | 2022-06-29 | 2022-06-29 | 基于Transformer的在线更新目标跟踪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998601A true CN114998601A (zh) | 2022-09-02 |
Family
ID=83020610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210751307.XA Pending CN114998601A (zh) | 2022-06-29 | 2022-06-29 | 基于Transformer的在线更新目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998601A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116188528A (zh) * | 2023-01-10 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
-
2022
- 2022-06-29 CN CN202210751307.XA patent/CN114998601A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188528A (zh) * | 2023-01-10 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
CN116188528B (zh) * | 2023-01-10 | 2024-03-15 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Accelerating Convolutional Networks via Global & Dynamic Filter Pruning. | |
Huang et al. | YOLO-LITE: a real-time object detection algorithm optimized for non-GPU computers | |
US20170262995A1 (en) | Video analysis with convolutional attention recurrent neural networks | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN114998601A (zh) | 基于Transformer的在线更新目标跟踪方法及系统 | |
CN114255361A (zh) | 神经网络模型的训练方法、图像处理方法及装置 | |
CN109902192B (zh) | 基于无监督深度回归的遥感图像检索方法、系统、设备及介质 | |
CN111696110A (zh) | 场景分割方法及系统 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN113159072B (zh) | 基于一致正则化的在线超限学习机目标识别方法及系统 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN109740695A (zh) | 基于自适应全卷积注意力网络的图像识别方法 | |
CN111260020A (zh) | 卷积神经网络计算的方法和装置 | |
CN112734803A (zh) | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 | |
Wang et al. | Reliable identification of redundant kernels for convolutional neural network compression | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
Shiloh-Perl et al. | Introduction to deep learning | |
CN113963026A (zh) | 基于非局部特征融合和在线更新的目标跟踪方法及系统 | |
CN116564355A (zh) | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 | |
CN115909036A (zh) | 局部-全局自适应引导增强的车辆重识别方法及系统 | |
CN108496174B (zh) | 用于面部识别的方法和系统 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN114663798A (zh) | 一种基于强化学习的单步视频内容识别方法 | |
CN116704267A (zh) | 一种基于改进yolox算法的深度学习3d打印缺陷检测方法 | |
CN117011943A (zh) | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |