CN117011342A - 一种注意力增强的时空Transformer视觉单目标跟踪方法 - Google Patents
一种注意力增强的时空Transformer视觉单目标跟踪方法 Download PDFInfo
- Publication number
- CN117011342A CN117011342A CN202311030290.XA CN202311030290A CN117011342A CN 117011342 A CN117011342 A CN 117011342A CN 202311030290 A CN202311030290 A CN 202311030290A CN 117011342 A CN117011342 A CN 117011342A
- Authority
- CN
- China
- Prior art keywords
- attention
- sequence
- image
- template image
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 20
- 230000000007 visual effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 230000003014 reinforcing effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 7
- 230000002123 temporal effect Effects 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种注意力增强的时空Transformer单目标跟踪方法,首先,使用主干网络提取图像特征;而后将提取的特征进行预处理,并输入到编码增强层,通过增强的自注意力机制来强化原始的特征信息;接着,解码器层会使用目标定位和编码增强层的输出作为输入,计算特征的相似度分数,并输出关联概率图;接着使用多步动态更新策略,判断是否更新动态模板与源域模板图像;最后预测头通过计算角点概率分布的期望得到预测框坐标,画出目标位置。本发明使用的网络完全基于Transformer架构,并对编码层的自注意力机制进行了增强,抑制关联计算导致的噪声和模糊;使用位置嵌入编码和动态更新模板分别提供全局的时间、空间线索。
Description
技术领域
本发明属于计算机视觉、深度学习领域,尤其涉及一种注意力增强的时空Transformer视觉单目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域的一个基础而又具有挑战性的研究方向,是指在视频序列第一帧指定目标后,在后续帧中持续跟踪目标。视觉单目标跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,如位置、速度、加速度和运动轨迹等,从而进行下一步的处理与分析,实现对运动目标的行为理解。视觉目标跟踪技术被广泛用于视频监控、自动驾驶、人机交互、无人机等领域。
现有目标跟踪算法包括基于相关滤波算法和基于深度学习算法。其中相关滤波算法的目标跟踪算法,由于受到目标噪声和干扰的影响,难以保证跟踪的精确性,容易导致跟踪失败。基于深度学习的算法目前相比于前者,具有较高的性能。主要由于深度学习模型可以自动从大量的数据中学习到更具有判别性和表达能力的特征表示,从而提高了目标跟踪的准确性和鲁棒性。尤其是Transformer模型被引入目标跟踪领域后,它具有注意力机制和局部、全局特征捕获能力使得跟踪性能及速度得到了进一步的提升。但在注意机制中,独立关联计算会导致注意权重的噪声和模糊,从而抑制了性能的提高。
发明内容
发明目的:本发明的目的在于提供一种注意力增强的时空Transformer视觉单目标跟踪方法,从而有效缓解注意力机制中的噪声和模糊,抑制错误的相关性,并利用时空大幅提升跟踪算法的精确性。
技术方案:本发明的一种注意力增强的时空Transformer视觉单目标跟踪方法,包括以下步骤:
S1:输入视频序列中的三幅图像,分别为源域模板图像、搜索图像与动态模板图像,并使用主干网络SwinTrans进行特征提取;
S2:将主干网络SwinTrans提取的特征向量进行预处理得到融合序列以及定位向量序列,并输入到Transformer架构中的编码注意增强层,编码注意增强层捕获融合序列和定位向量序列中所有元素之间的特征依赖关系,并用全局上下文信息强化原始特征,从而使跟踪器够学习用于对象定位的判别特征,计算得到特征增强序列;在解码层以定位向量序列与特征增强序列作为输入,进一步进行特征序列融合计算;
S3:将特征序列输入预测头模块进行序列重构,并输出到全卷积网络FCN中,继而通过计算角点概率分布的期望得到预测框坐标,其中预测头模块采用三层感知器来预测目标预测框坐标;
S4:预测头模块根据预测框坐标得到所需跟踪单个目标的矩形框,若满足多步动态更新策略,则使用预测头输出的目标位置的图像去更新动态模板图像,并将动态模板图像替换源域模板图像;若不满足多步动态更新策略,则维持动态模板图像与源域模板图像,继续沿用上一帧图像;除了来自初始模板的空间信息外,多步动态模板还可以捕获目标外观随时间的变化,提供额外的时间信息线索,最终实现对视频序列中单目标的跟踪。
进一步的,步骤1具体为:
S1.1:所述搜索图像的尺寸为模板图像的4倍,动态模板图像的尺寸与模板图像相同;如果当前帧为视频的第一帧,则目标的位置为已知的,即人为指定目标在第一帧中的位置,则为模板图像与动态模板图像;
S1.2:如果当前帧不是视频的第一帧,则以上一帧目标的位置为中心点,裁剪出图像块,其大小为目标大小的4倍;
S1.3:SwinTrans主干网络分为三层Trans以及一层多层感知神经网络MLP,首先将图像大小都调整为 ,并相继输入到Trans-1块,Trans-2块、Trans-3块中进行跨尺度特征融合得到/>大小的自适应融合纹理特征序列,然后再输入到MLP中。
进一步的,步骤2具体为:
S2.1:预处理:使用MLP瓶颈层将通道数从C降低到D,并将特征映射沿空间维度进行平面化和连接,从而产生一个长度为,维度为D的特征序列,其中HW为宽高,z为模板区域,x为搜索区域,s为通道层数;计算公式如下:
;
其中是Trans-2块、Trans-3块输出的特征维度序列分别为, />;
S2.2:将上述得到的序列作为编码注意增强层的输入,编码注意增强层由N层编码器组成,每层编码器由一个带有前馈网络的多头自注意增强模块组成;
S2.3:多头自注意增强模块:该模块接受一个查询向量组和一对键值向量组作为输入,分别为;该模块是在传统注意力模块中引入另一个注意模块来提高相关映射M的质量;公式如下:
;
其中W为线性变换权重,Softmax为矩阵点积操作;再通过外注意模块进行计算,公式如下:;
S2.4:解码层将定位向量Query以及编码注意增强层计算出的特征增强序列作为输入,经过计算得到特征融合向量;解码器堆叠M个解码器层,每个解码器层由自注意、编码器-解码器注意和前馈网络组成。
进一步的,步骤3具体为:
S3.1:首先从编码注意增强层的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码层的输出特征融合向量之间的相似度;
S3.2:将相似度分数与搜索区域特征进行元素相乘得到一个新特征序列,将它重构为特征映射,并将其输入到全卷积网络FCN中;
S3.3:全卷积网络FCN将输出边界框的左上角和右下角输出两个概率图、/>;最后通过计算角点概率分布的期望得到预测框坐标,计算公式如下:
;
S3.4:跟踪器以端到端方式进行训练,并结合了Loss和广义IoU Loss损失函数计算公式如下:
;
其中分别表示真实值和预测值,/>为训练时需要调整的超参数;在整个跟踪过程的每一帧中,网络架构从当前帧中选取一个搜索区域作为输入,并返回预测框作为最终结果。
进一步的,步骤4具体为:
S4.1:在预测头前添加分数预测判,如果得出相似度分数高于阈值,则启用多步动态更新策略,否则不启用;
S4.2:启用多步动态更新策略指使用本次预测图像替换掉动态模板图像,并使用动态模板组中相似度分数最高的图像替换源域模板图像,最后将此次的预测图像存入动态模板组。动态模板组设定保存最近三十帧的图像以及其相似度分数,用以保证图像中目标形变不会发生较大变化。
S4.3:进行动态模板图像的更新替换时,动态模板图像需要将预测图像进行裁剪,符合动态模板图像输入的需求。若未启用多步动态更新策略,则动态模板与源域模板图像均不发生改变。
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现注意力增强的时空Transformer视觉单目标跟踪方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现注意力增强的时空Transformer视觉单目标跟踪方法。
有益效果:与现有技术相比,本发明具有如下显著优点:
1、本方法使用完全基于Transformer网络架构来捕获视频序列中空间和时间信息的全局特征依赖关系。
2、使用注意力增强模块,减轻传统注意机制中的噪声和模糊性,并显著提高跟踪性能。
3、使用多步动态更新策略,优化短时间内目标发生形变而导致跟踪器漂移的问题。
4、本方法主要应用于视觉单目标跟踪场景,在时空Transformer机制下对单目标进行跟踪的效果会更精确、更具有鲁棒性。
附图说明
图1为本发明目标跟踪方法的流程图;
图2为本发明自注意力增强模块工作流程图;
图3为本发明预测头模块工作流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,一种注意力增强的时空Transformer单目标跟踪方法,包括以下步骤:
(1)输入三幅图像,分别为源域模板图像、搜索图像与动态模板图像,搜索图像为模板图像的4倍大小,动态模板图像与模板图像一样大,并使用主干网络SwinTrans进行特征提取。
(1.1)如果当前帧为视频的第一帧,则目标的位置为已知的,即人为指定目标在第一帧中的位置,则为模板图像与动态模板图像;
(1.2)如果当前帧不是视频的第一帧,则以上一帧目标的位置为中心点,裁剪出图像块,其大小为目标大小的4倍。
(2)将主干网络提取的特征向量进行预处理得到融合序列以及定位向量序列,并输入到Transformer架构中的编码注意增强层计算得到特征增强序列。编码注意增强层捕获序列中所有元素之间的特征依赖关系,并用全局上下文信息强化原始特征,从而使模型能够学习用于对象定位的判别特征。解码层使用定位向量序列与编码层的输出作为输入,进一步进行特征序列融合计算。
(2.1)SwinTrans主干网络分为三层Trans以及一层多层感知神经网络MLP。首先将图像大小都调整为,并相继输入到Trans-1块,Trans-2块、Trans-3块中进行跨尺度特征融合得到/>大小的自适应融合纹理特征序列,然后再输入到MLP中。
(2.2)预处理:使用MLP瓶颈层将通道数从C降低到D,并将特征映射沿空间维度进行平面化和连接,从而产生一个长度为,维度为D的特征序列,其中HW为宽高,z为模板区域,x为搜索区域,s为通道层数;计算公式如下:
其中是Trans-2块、Trans-3块输出的特征维度序列分别为, />。
(2.2)将上述得到的序列作为编码注意增强层的输入,编码注意增强层由N层编码器组成,每层编码器由一个带有前馈网络的多头自注意增强模块组成.;
(2.3)多头自注意增强模块:该模块接受一个查询向量组和一对键值向量组作为输入,分别为。该模块是在传统注意力模块中引入另一个注意模块来提高相关映射M的质量。公式如下:
其中W为线性变换权重,Softmax为矩阵点积操作。而后再通过外注意模块进行计算,公式如下:
框架如图2所示。
(2.4)解码层将定位向量Query以及编码注意增强层计算出的特征增强序列作为输入,经过计算得到特征融合向量。解码器堆叠M个解码器层,每个解码器层由自注意、编码器-解码器注意和前馈网络组成。
(3)预测头模块采用三层感知器来预测目标外接框坐标。将编、解码层输出的序列重构,并输出到全卷积网络FCN中,继而通过计算角点概率分布的期望得到预测框坐标,如图3所示。
(3.1)首先从编码注意增强层的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码层的输出特征融合向量之间的相似度;
(3.2)将相似度分数与搜索区域特征进行元素相乘得到一个新特征序列,将它重构为特征映射,并将其输入到FCN中;
(3.3)FCN将输出边界框的左上角和右下角输出两个概率图、。最后通过计算角点概率分布的期望得到预测框坐标/>,计算公式如下:
(3.4)本跟踪器是以端到端方式进行训练,并结合了Loss和广义IoU Loss损失函数计算公式如下:
;
其中分别表示真实值和预测值,/>为训练时需要调整的超参数;在整个跟踪过程的每一帧中,网络架构从当前帧中选取一个搜索区域作为输入,并返回预测框作为最终结果。
(4)边界框预测头会根据(3.3)中得到的左上、右下两个坐标画出所需跟踪单个目标的矩形框。此时,若满足多步动态更新策略,则使用预测头输出的目标位置的图片去更新动态模板图像,并将原本的动态模板图像替换掉源域模板图像。若不满足,动态模板图像与源域模板图像不做更新,继续沿用上一帧图像。除了来自初始模板的空间信息外,多步动态模板还可以捕获目标外观随时间的变化,提供额外的时间信息线索。
(4.1)在预测头前添加分数预测判,如果得出相似度分数高于阈值,则启用多步动态更新策略,否则不启用。
(4.2)启用多步动态更新策略指使用本次预测图像替换掉动态模板图像,并使用动态模板组中相似度分数最高的图像替换源域模板图像,最后将此次的预测图像存入动态模板组。动态模板组设定保存最近三十帧的图像以及其相似度分数,用以保证图像中目标形变不会发生较大变化。
(4.3)进行动态模板图像的更新替换时,动态模板图像需要将预测图像进行裁剪,符合动态模板图像输入的需求。若未启用多步动态更新策略,则动态模板与源域模板图像均不发生改变。
为进一步验证本目标跟踪方法的效果,对本实施例的目标跟踪方法的准确率和成功率进行模拟,结果如表1所示。本实验训练集只使用GOT-10K单数据集进行500轮次训练,并在GOT-10K在线评估系统上进行了模型评估。并同样对Stark跟踪方法进行单数据集训练及评估,得到的结果与本方法进行比较。为了保持一致,本方法训练时未开启多步更新策略。其中AO 是平均重叠度,表示所有基本事实和估计边界框之间重叠的平均值。SR是测量重叠超过阈值(例如,0.5)的成功跟踪帧的百分比。从表1可以得出,本发明的平均重叠度、SR和速率均超过了Stark跟踪方法。
表1本发明实验结果统计表
Claims (7)
1.一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,包括以下步骤:
S1:输入视频序列中的三幅图像,分别为源域模板图像、搜索图像与动态模板图像,并使用主干网络SwinTrans进行特征提取;
S2:将主干网络SwinTrans提取的特征向量进行预处理得到融合序列以及定位向量序列,并输入到Transformer架构中的编码注意增强层,编码注意增强层捕获融合序列和定位向量序列中所有元素之间的特征依赖关系,并用全局上下文信息强化原始特征,利用跟踪器学习用于对象定位的判别特征,计算得到特征增强序列;在解码层以定位向量序列与特征增强序列作为输入,进一步进行特征序列融合计算;
S3:将特征序列输入预测头模块进行序列重构,并输出到全卷积网络FCN中,继而通过计算角点概率分布的期望得到预测框坐标,其中预测头模块采用三层感知器来预测目标预测框坐标;
S4:预测头模块根据预测框坐标得到所需跟踪单个目标的矩形框,若满足多步动态更新策略,则使用预测头输出的目标位置的图像去更新动态模板图像,并将动态模板图像替换源域模板图像;若不满足多步动态更新策略,则维持动态模板图像与源域模板图像,继续沿用上一帧图像;最终实现对视频序列中单目标的跟踪。
2.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤1具体为:
S1.1:所述搜索图像的尺寸为模板图像的4倍,动态模板图像的尺寸与模板图像相同;如果当前帧为视频的第一帧,则目标的位置为已知的,即人为指定目标在第一帧中的位置,则为模板图像与动态模板图像;
S1.2:如果当前帧不是视频的第一帧,则以上一帧目标的位置为中心点,裁剪出图像块,其大小为目标大小的4倍;
S1.3:SwinTrans主干网络分为三层Trans以及一层多层感知神经网络MLP,首先将图像大小都调整为 ,并相继输入到Trans-1块,Trans-2块、Trans-3块中进行跨尺度特征融合得到/>大小的自适应融合纹理特征序列,然后再输入到MLP中。
3.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤2具体为:
S2.1:预处理:使用MLP瓶颈层将通道数从C降低到D,并将特征映射沿空间维度进行平面化和连接,从而产生一个长度为,维度为D的特征序列,其中HW为宽高,z为模板区域,x为搜索区域,s为通道层数;计算公式如下:
;
其中是Trans-2块、Trans-3块输出的特征维度序列分别为/>,;
S2.2:将上述得到的序列作为编码注意增强层的输入,编码注意增强层由N层编码器组成,每层编码器由一个带有前馈网络的多头自注意增强模块组成;
S2.3:多头自注意增强模块:该模块接受一个查询向量组和一对键值向量组作为输入,分别为;该模块是在传统注意力模块中引入另一个注意模块来提高相关映射M的质量;公式如下:
;
其中W为线性变换权重,Softmax为矩阵点积操作;再通过外注意模块进行计算,公式如下:;
S2.4:解码层将定位向量Query以及编码注意增强层计算出的特征增强序列作为输入,经过计算得到特征融合向量;解码器堆叠M个解码器层,每个解码器层由自注意、编码器-解码器注意和前馈网络组成。
4.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤3具体为:
S3.1:首先从编码注意增强层的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码层的输出特征融合向量之间的相似度;
S3.2:将相似度分数与搜索区域特征进行元素相乘得到一个新特征序列,将它重构为特征映射,并将其输入到全卷积网络FCN中;
S3.3:全卷积网络FCN将输出边界框的左上角和右下角输出两个概率图、;最后通过计算角点概率分布的期望得到预测框坐标,计算公式如下:
;
S3.4:跟踪器以端到端方式进行训练,并结合了Loss和广义IoU Loss损失函数计算公式如下:
;
其中分别表示真实值和预测值,/>为训练时需要调整的超参数;在整个跟踪过程的每一帧中,网络架构从当前帧中选取一个搜索区域作为输入,并返回预测框作为最终结果。
5.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤4具体为:
S4.1:在预测头前添加分数预测判,如果得出相似度分数高于阈值,则启用多步动态更新策略,否则不启用;
S4.2:启用多步动态更新策略指使用本次预测图像替换掉动态模板图像,并使用动态模板组中相似度分数最高的图像替换源域模板图像,最后将此次的预测图像存入动态模板组;动态模板组设定保存最近三十帧的图像以及其相似度分数,用以保证图像中目标形变不会发生较大变化;
S4.3:进行动态模板图像的更新替换时,动态模板图像需要将预测图像进行裁剪,符合动态模板图像输入的需求;若未启用多步动态更新策略,则动态模板与源域模板图像均不发生改变。
6.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的注意力增强的时空Transformer视觉单目标跟踪方法。
7.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的注意力增强的时空Transformer视觉单目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030290.XA CN117011342A (zh) | 2023-10-07 | 2023-10-07 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030290.XA CN117011342A (zh) | 2023-10-07 | 2023-10-07 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011342A true CN117011342A (zh) | 2023-11-07 |
Family
ID=88563421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311030290.XA Pending CN117011342A (zh) | 2023-10-07 | 2023-10-07 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011342A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333514A (zh) * | 2023-12-01 | 2024-01-02 | 科大讯飞股份有限公司 | 一种单目标视频跟踪方法、装置、存储介质及设备 |
CN117974722A (zh) * | 2024-04-02 | 2024-05-03 | 江西师范大学 | 基于注意力机制和改进的Transformer的单目标跟踪系统及方法 |
-
2023
- 2023-10-07 CN CN202311030290.XA patent/CN117011342A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333514A (zh) * | 2023-12-01 | 2024-01-02 | 科大讯飞股份有限公司 | 一种单目标视频跟踪方法、装置、存储介质及设备 |
CN117333514B (zh) * | 2023-12-01 | 2024-04-16 | 科大讯飞股份有限公司 | 一种单目标视频跟踪方法、装置、存储介质及设备 |
CN117974722A (zh) * | 2024-04-02 | 2024-05-03 | 江西师范大学 | 基于注意力机制和改进的Transformer的单目标跟踪系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192292B (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
JP7147078B2 (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
US20220366576A1 (en) | Method for target tracking, electronic device, and storage medium | |
CN117011342A (zh) | 一种注意力增强的时空Transformer视觉单目标跟踪方法 | |
CN112149504A (zh) | 混合卷积的残差网络与注意力结合的动作视频识别方法 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
CN115205730A (zh) | 一种结合特征增强与模板更新的目标跟踪方法 | |
CN111832393A (zh) | 一种基于深度学习的视频目标检测方法与装置 | |
CN117036417A (zh) | 基于时空模板更新的多尺度Transformer目标跟踪方法 | |
EP1801731B1 (en) | Adaptive scene dependent filters in online learning environments | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
Chen et al. | High-performance transformer tracking | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
CN115147456A (zh) | 一种基于时序自适应卷积与注意力机制的目标跟踪方法 | |
CN114419102B (zh) | 一种基于帧差时序运动信息的多目标跟踪检测方法 | |
CN113643329B (zh) | 一种基于孪生注意力网络的在线更新目标跟踪方法和系统 | |
CN110111358B (zh) | 一种基于多层时序滤波的目标跟踪方法 | |
CN116797799A (zh) | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统 | |
CN116402858A (zh) | 基于transformer的时空信息融合的红外目标跟踪方法 | |
Koumparoulis et al. | Audio-assisted image inpainting for talking faces | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
US20240135549A1 (en) | Frame-based video segmentation | |
CN117197249B (zh) | 目标位置确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |