CN114972426A - 一种基于注意力和卷积的单目标跟踪方法 - Google Patents

一种基于注意力和卷积的单目标跟踪方法 Download PDF

Info

Publication number
CN114972426A
CN114972426A CN202210547650.2A CN202210547650A CN114972426A CN 114972426 A CN114972426 A CN 114972426A CN 202210547650 A CN202210547650 A CN 202210547650A CN 114972426 A CN114972426 A CN 114972426A
Authority
CN
China
Prior art keywords
frame
image
template
search
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210547650.2A
Other languages
English (en)
Inventor
闫莉萍
王宇轩
夏元清
张金会
邹伟东
孙中奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210547650.2A priority Critical patent/CN114972426A/zh
Publication of CN114972426A publication Critical patent/CN114972426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明属于计算机视觉方面单目标在线跟踪技术领域,涉及一种基于注意力和卷积的单目标跟踪方法,本发明采用一种多尺度解码策略,使用多尺度模板特征在解码器中逐层解码搜索帧特征,基于不同尺度特征下的语义线索和细节信息逐渐做出更精确的预测。能够有效解决跟踪中出现的大部分调整问题,如小目标,相似目标以及目标尺度变化等,具有很好的抗噪、抗干扰能力。

Description

一种基于注意力和卷积的单目标跟踪方法
技术领域
本发明属于计算机视觉方面单目标在线跟踪技术领域,涉及一种基于注意力和卷积的单目标跟踪方法,具体涉及一种对给定目标矩形框精确鲁棒的单目标跟踪方法。
背景技术
视觉目标跟踪在计算机视觉任务中应用广泛,在机器人视觉和自动驾驶、运动和生物医药的视觉测量、人机交互、视频内容信息分析和检索、动作捕捉、影视制作、增强现实等任务中都扮演重要的角色。设计者通常将设计的跟踪算法嵌入到系统中,首先通过检测算法或人为选定需要跟踪的目标,从而使系统完成对后续每一帧对目标的跟踪任务。视觉跟踪的研究对于计算机视觉智能的发展有着重要意义。
单目标跟踪任务中的主要挑战在于不断运动的目标以及复杂多变的场景,如相似目标,快速运动,模糊等。基于互相关的孪生神经网络跟踪算法逐渐成为主流的跟踪方法,其核心思想是训练一个端到端的孪生深度网络模型。给定跟踪目标作为模板,通过互相关计算模板目标在当前图像帧上的匹配相似度从而在视频序列中的每帧进行目标的定位与边界框的标定。然而,互相关运算本质是使用目标特征去局部线性匹配搜索区域,这种方法不能有效利用全局上下文信息,甚至造成目标特征信息的丢失,导致跟踪器精确度与成功度较差。现有的孪生网络跟踪器大都利用互相关来进行相似度计算,随着视频帧数的增长,跟踪出现错误的概率就越大,另外边界框的标定也不够准确。
发明内容
鉴于此,本发明提出一种基于注意力和卷积的单目标跟踪方法,能够通过注意力机制有效利用图像特征的全局上下文信息,更好的关注目标边缘信,同时充分探索了模板和搜索区域间的相关性。此外,提出了一个使用多尺度编码-解码策略的全新跟踪框架。
为实现上述目的,本发明技术方案如下:
本发明的一种基于注意力和卷积的单目标跟踪方法,包括如下步骤:
步骤1、向训练好的跟踪器模型中输入待跟踪的目标在初始图像帧的边界框数据b=[x,y,w,h]以及超参数;
其中x,y代表待跟踪的目标中心点在视频中图片平面直角坐标系的坐标,w,h代表目标边界框的长度和宽度;
所述超参数包括模板帧上下文信息量factorz、搜索帧上下文信息量factorx、输入模板图像长度和宽度Hz0,Wz0、输入搜索图像的长度和宽度Hx0,Wx0、图像正则化预处理均值mean与方差std和hanning窗权重ω,上述参数均为标量;
步骤2、向训练好的跟踪器模型中输入待跟踪的目标的初始帧图像,根据步骤1输入的初始边界框数据初始化模板图像初始化完成后输入到网络模型特征提取器中,模板图像初始尺寸
Figure BDA0003649748960000021
其中
Figure BDA0003649748960000022
根据初始尺寸对初始帧图像进行裁剪和填充,并调整模板图像尺寸至Hz0,Wz0,通过特征提取器提取多尺度模板帧特征
Figure BDA0003649748960000023
并保存在模型中,Hz,Wz代表模板帧特征尺寸,i=1,2,…n,n代表尺度的个数,C代表特征通道数;
步骤3、将步骤2提取的多尺度模板帧特征
Figure BDA0003649748960000024
输入到多尺度模板特征编码器中,通过多尺度模板特征编码器中的FPN子网络进行多尺度信息交流,得到新的多尺度模板特征
Figure BDA0003649748960000025
如下式:
Figure BDA0003649748960000026
FTC代表fine-to-coarse运算,使用卷积完成,CTF代表coarse-to-fine运算,使用最邻近插值和卷积共同完成运算,Conv代表一个卷积变换;
得到的新的多尺度模板特征
Figure BDA0003649748960000031
被送入对应的多尺度模板特征编码器中,多尺度模板特征编码器对新的多尺度模板特征
Figure BDA0003649748960000032
进行编码后得到多尺度模板特征
Figure BDA0003649748960000033
按照下式进行计算:
Figure BDA0003649748960000034
Figure BDA0003649748960000035
式中Norm代表正则化运算,DW表示深度可分离卷积运算,FFN(x)=max(0,xW1+b1)W2+b2
步骤4、根据输入的边界框数据初始化搜索图像,初始化完成后输入到网络模型中,搜索图像初始尺寸sx计算公式为:
搜索图像初始尺寸
Figure BDA0003649748960000036
其中
Figure BDA0003649748960000037
根据初始尺寸对搜索图像进行裁剪和填充,调整搜索图像尺寸至Hx0,Wx0,搜索图像被送入特征提取器,进行特征提取,对于搜索图像提取搜索特征
Figure BDA0003649748960000038
Hx,Wx代表搜索帧特征尺寸;
步骤5、编码后的多尺度模板特征
Figure BDA0003649748960000039
与搜索特征
Figure BDA00036497489600000310
共同输入解码器进行如下式的解码运算:
Figure BDA00036497489600000311
Figure BDA00036497489600000312
Fxs=MAtt(Fx+posx,Fx+posx,Fx)
其中
Figure BDA00036497489600000318
代表卷积变换,
Figure BDA00036497489600000313
为对应搜索特征的空间位置编码,Norm为规范化运算,
Figure BDA00036497489600000314
为对应多尺度模板特征的空间位置编码。
Figure BDA00036497489600000315
代表第i个解码器层的输出。MAtt(Q,K,V)为多头注意力运算,如下式:
MAtt(Q,K,V)=Concat(h1,...,hn)WO
Figure BDA00036497489600000316
Figure BDA00036497489600000317
Mod(A,B)代表调制运算,如下式:
Mod(A,B)=B+ω(A,B)A
Figure BDA0003649748960000044
式中λ1代表权重参数,
Figure BDA0003649748960000045
代表卷积和池化运算。
Figure BDA0003649748960000046
代表一个单独的卷积变换。Cat表示一个通道级特征连接。GAP代表全局平均池化。
步骤6、解码器输出的最终特征
Figure BDA0003649748960000041
将送入预测头,产生分类特征向量
Figure BDA0003649748960000042
与边框回归向量
Figure BDA0003649748960000043
步骤7、根据产生的分类特征向量Vc中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y),位置坐标(x,y)在Vb中对应的位置为预测的目标边框(w,h)。
步骤8、传入下一帧图像作为搜索帧,以步骤7的预测结果作为新的输入b=[x,y,w,h],重复步骤4-7。即可得视频序列每帧中跟踪目标的位置边框。
本发明具有以下优点:
(1)本发明基于Transformer注意力机制代替互相关设计了新的匹配算子去整合模板特征与搜索区域特征。能够充分使用特征全局上下文信息进行跟踪,确保了更长时稳定的跟踪。调制方法的使用使注意力机制更适合跟踪。
(2)本发明采用无锚框设计,模型最终直接输出分类和回归向量,从而确定目标位置和边框。避免了以往跟踪器大量超参数的设定,设计更方便,在保证精确度的情况下有效提升了跟踪速度。
(3)本发明模型中采用基于深度可分离卷积设计了并行的多尺度编码器,并没有采用学习力很强的自注意力运算,其目的是更好的泛化模板特征来应对跟踪任务中出现的各种各样的目标,使跟踪器的应用领域更广泛,更稳定。
(4)本发明采用一种多尺度解码策略,使用多尺度模板特征在解码器中逐层解码搜索帧特征,基于不同尺度特征下的语义线索和细节信息逐渐做出更精确的预测。能够有效解决跟踪中出现的大部分调整问题,如小目标,相似目标以及目标尺度变化等,具有很好的抗噪、抗干扰能力。
(5)本发明可直接用于给定简单矩形框后的目标跟踪,并且方法实施简单,易于推广。能够以实时速度跟踪同时有着优秀的性能。在目标跟踪、视频压缩、人机交互、影视制作、视频监控等许多应用领域都有潜在价值。
(6)本发明的方法采用Transformer的注意力机制和相关卷积运算构建的编码器-解码器结构跟踪器;运用深度可分离卷积的多尺度模板特征编码器和引入调制运算的解码器进行目标预测的一种单目标跟踪方法,使用的多尺度模板特征编码器聚合了类特征金字塔子网络与深度可分离卷积编码器层,使用的解码器在Transformer解码器的基础上引入了设计的调制运算融合模板特征与搜索特征。所述方法采用了多尺度编码解码策略来连接多尺度编码器与解码器。
附图说明
图1为本发明所述基于Transformer注意力机制和卷积的单目标跟踪方法的计算机流程框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面举例说明本发明:
硬件环境:计算机;相关器
软件配置:Linux;Anaconda。
下面通过附图和实例对本发明的技术方案作进一步的详细说明。
基于Transformer注意力机制和卷积的单目标跟踪方法的方框图如图1所示。
单目标跟踪问题描述为,给定某一时刻的图片与需要跟踪的目标,系统将在该时刻之后的某一帧确定跟踪目标的中心位置x,y和边框w,h。
基于Transformer注意力机制和卷积的单目标跟踪方法的具体实现如下:
依次按以下步骤进行实现:
步骤1、向训练好的跟踪器模型输入目标在初始图像帧的边界框数据b=[x,y,w,h]以及超参数;
其中x,y代表目标中心点在视频中图片平面直角坐标系的坐标,w,h代表目标边界框的长度和宽度。所述超参数包括模板帧上下文信息量factorz,搜索帧上下文信息量factorx。输入模板图像长度和宽度Hz0,Wz0,输入搜索图像的长度和宽度Hx0,Wx0,图像正则化预处理均值mean与方差std,hanning窗权重ω,上述参数均为标量。
步骤2、输入初始帧图像,根据输入的初始边界框数据初始化模板图像并输入网络模型特征提取器。模板图像初始尺寸
Figure BDA0003649748960000061
其中
Figure BDA0003649748960000062
根据初始尺寸对图像进行裁剪和填充,并调整模板图像尺寸至Hz0,Wz0。通过特征提取器,多尺度模板帧特征
Figure BDA0003649748960000063
被提取并保存在模型中。Hz,Wz代表模板帧特征尺寸,i代表第i个尺度。C代表特征通道数。
步骤3、将多尺度模板帧特征
Figure BDA0003649748960000064
输入多尺度模板特征编码器,首先通过FPN子网络进行多尺度信息交流。如下式:
Figure BDA0003649748960000065
FTC代表fine-to-coarse运算,使用常规卷积完成。CTF代表coarse-to-fine运算,使用最邻近插值和卷积共同完成运算。Conv代表一个卷积变换。
新的多尺度模板特征
Figure BDA0003649748960000066
被送入对应的编码器,编码后的多尺度模板特征
Figure BDA0003649748960000067
按照下式进行计算:
Figure BDA0003649748960000068
Figure BDA0003649748960000069
式中Norm代表正则化运算,DW表示深度可分离卷积运算,FFN(x)=max(0,xW1+b1)W2+b2
步骤4、根据输入的边界框数据初始化搜索图像并输入网络模型,搜索图像初始尺寸sx同样采用步骤2公式计算获得,不同的是采用factorx来进行计算,调整搜索图像尺寸至Hx0,Wx0。搜索图像被送入特征提取器,进行特征提取。对于搜索图像提取搜索帧特征
Figure BDA00036497489600000610
Hx,Wx代表搜索帧特征尺寸。
步骤5、编码后的多尺度模板特征
Figure BDA0003649748960000071
与搜索特征
Figure BDA0003649748960000072
共同输入解码器进行如下式的解码运算:
Figure BDA0003649748960000073
Figure BDA0003649748960000074
Fxs=MAtt(Fx+posx,Fx+posx,Fx)
其中
Figure BDA00036497489600000713
代表卷积变换,
Figure BDA0003649748960000075
为对应搜索特征的空间位置编码,
Figure BDA0003649748960000076
为对应多尺度模板特征的空间位置编码。
Figure BDA0003649748960000077
代表第i个解码器层的输出。MAtt(Q,K,V)为多头注意力运算,如下式:
MAtt(Q,K,V)=Concat(h1,...,hn)WO
Figure BDA0003649748960000078
Figure BDA0003649748960000079
Mod(A,B)代表调制运算,如下式:
Mod(A,B)=B+ω(A,B)A
Figure BDA00036497489600000714
式中λ1代表权重参数,
Figure BDA00036497489600000715
代表卷积和池化运算。
Figure BDA00036497489600000716
代表一个单独的卷积变换。Cat表示一个通道级特征连接。GAP代表全局平均池化。
步骤6、解码器输出的最终特征
Figure BDA00036497489600000710
将送入预测头,产生分类特征向量
Figure BDA00036497489600000711
与边框回归向量
Figure BDA00036497489600000712
步骤7、根据Vc向量中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y),其坐标在Vb中对应的位置为预测的目标边框(w,h)。
步骤8、传入下一帧图像作为搜索帧,以步骤7的预测结果作为新的输入b=[x,y,w,h],重复步骤4-7。即可的视频序列每帧中跟踪目标的位置边框。
下面将通过仿真实验测试本发明方法的有效性。
本发明在6个公开跟踪数据集上进行测试评估,包括LaSOT,GOT-10k,TrackingNet,UAV123,DTB70,NFS。在每个视频序列的第一帧作为初始帧,根据数据集对其标定的边框初始化模板帧和搜索帧,并输入随后的每一帧做出预测。
实验使用的超参数如下:n=4,模板帧上下文信息量factorz=2,搜索帧上下文信息量factorx=4。输入模板图像长度和宽度Hz0,Wz0=128,128,输入搜索图像的长度和宽度Hx0,Wx0=256,256,图像正则化预处理均值mean=[0.485,0.456,0.406]与方差std=[0.229,0.224,0.225],hanning窗权重ω=0.49。
表1展示了跟踪器在LaSOT,GOT-10k和TrackingNet上的测评结果并与其它算法进行比较。所对比的跟踪器均是近几年最先进的跟踪器。LaSOT和TrackingNet使用相同评价指标,AUC代表成功率,基边框覆盖率,P和N.P代表精确度。GOT-10k中的AO代表平均覆盖率,SR0.5代表0.5阈值下的成功率,SR0.75代表0.75阈值下的成功率。可以发现我们的跟踪在这三个评估基准上都获得了最先进的效果。值得一提的是20年的SiamR-CNN几乎仅次于我们的方法,但是其运行速度只在4fps左右,我们的方法能达到30fps。
表2和表3展示了跟踪器在DTB70和NFS上的测评结果并与其它算法进行比较。所对比的跟踪器均是近几年最先进的跟踪器。Prec.代表精确度,Succ.代表成功率。两个数据集上都包含大量剧烈运动的场景,且外观形变严重,所提出的方法超过目前最先进的跟踪器。表明所提出的方法有着很好的稳定性。
本发明提出的基于注意力和卷积的单目标跟踪算法有很好的跟踪效果。
表1在LaSOT,GOT-10k,TrackingNet上的比较结果
Figure BDA0003649748960000081
Figure BDA0003649748960000091
表2在DTB70上的比较结果
Figure BDA0003649748960000092
表3在NFS上的比较结果
Figure BDA0003649748960000093

Claims (2)

1.一种基于注意力和卷积的单目标跟踪方法,其特征在于包括如下步骤:
步骤1、向训练好的跟踪器模型中输入待跟踪的目标在初始图像帧的边界框数据b=[x,y,w,h]以及超参数;
其中x,y代表待跟踪的目标中心点在视频中图片平面直角坐标系的坐标,w,h代表目标边界框的长度和宽度;
步骤2、向训练好的跟踪器模型中输入待跟踪的目标的初始帧图像,根据步骤1输入的初始边界框数据初始化模板图像初始化完成后输入到网络模型特征提取器中,模板图像初始尺寸
Figure FDA0003649748950000011
其中
Figure FDA0003649748950000012
根据初始尺寸对初始帧图像进行裁剪和填充,并调整模板图像尺寸至Hz0,Wz0,通过特征提取器提取多尺度模板帧特征
Figure FDA0003649748950000013
并保存在模型中,Hz,Wz代表模板帧特征尺寸,i=1,2,…n,n代表尺度的个数,C代表特征通道数;
步骤3、将步骤2提取的多尺度模板帧特征
Figure FDA0003649748950000014
输入到多尺度模板特征编码器中,通过多尺度模板特征编码器中的FPN子网络进行多尺度信息交流,得到新的多尺度模板特征
Figure FDA0003649748950000015
如下式:
Figure FDA0003649748950000016
FTC代表fine-to-coarse运算,使用卷积完成,CTF代表coarse-to-fine运算,使用最邻近插值和卷积共同完成运算,Conv代表一个卷积变换;
得到的新的多尺度模板特征
Figure FDA0003649748950000017
被送入对应的多尺度模板特征编码器中,多尺度模板特征编码器对新的多尺度模板特征
Figure FDA0003649748950000018
进行编码后得到多尺度模板特征
Figure FDA0003649748950000019
按照下式进行计算:
Figure FDA00036497489500000110
Figure FDA00036497489500000111
式中Norm代表正则化运算,DW表示深度可分离卷积运算,FFN(x)=max(0,xW1+b1)W2+b2
步骤4、根据输入的边界框数据初始化搜索图像,初始化完成后输入到网络模型中,搜索图像初始尺寸sx计算公式为:
搜索图像初始尺寸
Figure FDA0003649748950000021
其中
Figure FDA0003649748950000022
根据初始尺寸对搜索图像进行裁剪和填充,调整搜索图像尺寸至Hx0,Wx0,搜索图像被送入特征提取器,进行特征提取,对于搜索图像提取搜索特征
Figure FDA0003649748950000023
Hx,Wx代表搜索帧特征尺寸;
步骤5、编码后的多尺度模板特征
Figure FDA0003649748950000024
与搜索特征
Figure FDA0003649748950000025
共同输入解码器进行如下式的解码运算:
Figure FDA0003649748950000026
Figure FDA0003649748950000027
Fxs=MAtt(Fx+posx,Fx+posx,Fx)
其中
Figure FDA0003649748950000028
代表卷积变换,
Figure FDA0003649748950000029
为对应搜索特征的空间位置编码,Norm为规范化运算,
Figure FDA00036497489500000210
为对应多尺度模板特征的空间位置编码;
Figure FDA00036497489500000211
代表第i个解码器层的输出;MAtt(Q,K,V)为多头注意力运算,如下式:
MAtt(Q,K,V)=Concat(h1,...,hn)WO
Figure FDA00036497489500000212
Figure FDA00036497489500000213
Mod(A,B)代表调制运算,如下式:
Mod(A,B)=B+ω(A,B)A
Figure FDA00036497489500000214
式中λ1代表权重参数,
Figure FDA00036497489500000215
代表卷积和池化运算;
Figure FDA00036497489500000216
代表一个单独的卷积变换;Cat表示一个通道级特征连接;GAP代表全局平均池化;
步骤6、解码器输出的最终特征
Figure FDA0003649748950000031
将送入预测头,产生分类特征向量
Figure FDA0003649748950000032
与边框回归向量
Figure FDA0003649748950000033
步骤7、根据产生的分类特征向量Vc中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y),位置坐标(x,y)在Vb中对应的位置为预测的目标边框(w,h);
步骤8、传入下一帧图像作为搜索帧,以步骤7的预测结果作为新的输入b=[x,y,w,h],重复步骤4-7,得到视频序列每帧中跟踪目标的位置边框。
2.根据权利要求1所述的一种基于注意力和卷积的单目标跟踪方法,其特征在于:
所述的步骤1中,所述超参数包括模板帧上下文信息量factorz、搜索帧上下文信息量factorx、输入模板图像长度和宽度Hz0,Wz0、输入搜索图像的长度和宽度Hx0,Wx0、图像正则化预处理均值mean与方差std和hanning窗权重ω,上述参数均为标量。
CN202210547650.2A 2022-05-18 2022-05-18 一种基于注意力和卷积的单目标跟踪方法 Pending CN114972426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210547650.2A CN114972426A (zh) 2022-05-18 2022-05-18 一种基于注意力和卷积的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210547650.2A CN114972426A (zh) 2022-05-18 2022-05-18 一种基于注意力和卷积的单目标跟踪方法

Publications (1)

Publication Number Publication Date
CN114972426A true CN114972426A (zh) 2022-08-30

Family

ID=82984998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210547650.2A Pending CN114972426A (zh) 2022-05-18 2022-05-18 一种基于注意力和卷积的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114972426A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统

Similar Documents

Publication Publication Date Title
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
CN114972426A (zh) 一种基于注意力和卷积的单目标跟踪方法
CN110555387B (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN109858454B (zh) 一种基于双模型自适应核相关滤波追踪方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN110827320B (zh) 基于时序预测的目标跟踪方法和装置
Kugarajeevan et al. Transformers in single object tracking: An experimental survey
dos Santos et al. CV-C3D: action recognition on compressed videos with convolutional 3d networks
CN111583300A (zh) 一种基于富集目标形态变化更新模板的目标跟踪方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN107808391B (zh) 一种基于特征选择与光滑表示聚类的视频动态目标提取方法
CN114445715A (zh) 一种基于卷积神经网络的农作物病害识别方法
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
Wang et al. Multi-feature fusion tracking algorithm based on generative compression network
CN113592900A (zh) 一种基于注意力机制与全局推理的目标跟踪方法及系统
Zhang et al. Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention.
CN117011342A (zh) 一种注意力增强的时空Transformer视觉单目标跟踪方法
CN112053384B (zh) 基于边界框回归模型的目标跟踪方法
Fu et al. Distractor-aware event-based tracking
Liu et al. Mean shift fusion color histogram algorithm for nonrigid complex target tracking in sports video
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
CN114820723A (zh) 一种基于联合检测和关联的在线多目标跟踪方法
CN112069943A (zh) 基于自顶向下框架的在线多人姿态估计与跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination