CN114972426A - 一种基于注意力和卷积的单目标跟踪方法 - Google Patents
一种基于注意力和卷积的单目标跟踪方法 Download PDFInfo
- Publication number
- CN114972426A CN114972426A CN202210547650.2A CN202210547650A CN114972426A CN 114972426 A CN114972426 A CN 114972426A CN 202210547650 A CN202210547650 A CN 202210547650A CN 114972426 A CN114972426 A CN 114972426A
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- template
- search
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明属于计算机视觉方面单目标在线跟踪技术领域,涉及一种基于注意力和卷积的单目标跟踪方法,本发明采用一种多尺度解码策略,使用多尺度模板特征在解码器中逐层解码搜索帧特征,基于不同尺度特征下的语义线索和细节信息逐渐做出更精确的预测。能够有效解决跟踪中出现的大部分调整问题,如小目标,相似目标以及目标尺度变化等,具有很好的抗噪、抗干扰能力。
Description
技术领域
本发明属于计算机视觉方面单目标在线跟踪技术领域,涉及一种基于注意力和卷积的单目标跟踪方法,具体涉及一种对给定目标矩形框精确鲁棒的单目标跟踪方法。
背景技术
视觉目标跟踪在计算机视觉任务中应用广泛,在机器人视觉和自动驾驶、运动和生物医药的视觉测量、人机交互、视频内容信息分析和检索、动作捕捉、影视制作、增强现实等任务中都扮演重要的角色。设计者通常将设计的跟踪算法嵌入到系统中,首先通过检测算法或人为选定需要跟踪的目标,从而使系统完成对后续每一帧对目标的跟踪任务。视觉跟踪的研究对于计算机视觉智能的发展有着重要意义。
单目标跟踪任务中的主要挑战在于不断运动的目标以及复杂多变的场景,如相似目标,快速运动,模糊等。基于互相关的孪生神经网络跟踪算法逐渐成为主流的跟踪方法,其核心思想是训练一个端到端的孪生深度网络模型。给定跟踪目标作为模板,通过互相关计算模板目标在当前图像帧上的匹配相似度从而在视频序列中的每帧进行目标的定位与边界框的标定。然而,互相关运算本质是使用目标特征去局部线性匹配搜索区域,这种方法不能有效利用全局上下文信息,甚至造成目标特征信息的丢失,导致跟踪器精确度与成功度较差。现有的孪生网络跟踪器大都利用互相关来进行相似度计算,随着视频帧数的增长,跟踪出现错误的概率就越大,另外边界框的标定也不够准确。
发明内容
鉴于此,本发明提出一种基于注意力和卷积的单目标跟踪方法,能够通过注意力机制有效利用图像特征的全局上下文信息,更好的关注目标边缘信,同时充分探索了模板和搜索区域间的相关性。此外,提出了一个使用多尺度编码-解码策略的全新跟踪框架。
为实现上述目的,本发明技术方案如下:
本发明的一种基于注意力和卷积的单目标跟踪方法,包括如下步骤:
步骤1、向训练好的跟踪器模型中输入待跟踪的目标在初始图像帧的边界框数据b=[x,y,w,h]以及超参数;
其中x,y代表待跟踪的目标中心点在视频中图片平面直角坐标系的坐标,w,h代表目标边界框的长度和宽度;
所述超参数包括模板帧上下文信息量factorz、搜索帧上下文信息量factorx、输入模板图像长度和宽度Hz0,Wz0、输入搜索图像的长度和宽度Hx0,Wx0、图像正则化预处理均值mean与方差std和hanning窗权重ω,上述参数均为标量;
根据初始尺寸对初始帧图像进行裁剪和填充,并调整模板图像尺寸至Hz0,Wz0,通过特征提取器提取多尺度模板帧特征并保存在模型中,Hz,Wz代表模板帧特征尺寸,i=1,2,…n,n代表尺度的个数,C代表特征通道数;
FTC代表fine-to-coarse运算,使用卷积完成,CTF代表coarse-to-fine运算,使用最邻近插值和卷积共同完成运算,Conv代表一个卷积变换;
式中Norm代表正则化运算,DW表示深度可分离卷积运算,FFN(x)=max(0,xW1+b1)W2+b2;
步骤4、根据输入的边界框数据初始化搜索图像,初始化完成后输入到网络模型中,搜索图像初始尺寸sx计算公式为:
Fxs=MAtt(Fx+posx,Fx+posx,Fx)
MAtt(Q,K,V)=Concat(h1,...,hn)WO
Mod(A,B)代表调制运算,如下式:
Mod(A,B)=B+ω(A,B)A
步骤7、根据产生的分类特征向量Vc中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y),位置坐标(x,y)在Vb中对应的位置为预测的目标边框(w,h)。
步骤8、传入下一帧图像作为搜索帧,以步骤7的预测结果作为新的输入b=[x,y,w,h],重复步骤4-7。即可得视频序列每帧中跟踪目标的位置边框。
本发明具有以下优点:
(1)本发明基于Transformer注意力机制代替互相关设计了新的匹配算子去整合模板特征与搜索区域特征。能够充分使用特征全局上下文信息进行跟踪,确保了更长时稳定的跟踪。调制方法的使用使注意力机制更适合跟踪。
(2)本发明采用无锚框设计,模型最终直接输出分类和回归向量,从而确定目标位置和边框。避免了以往跟踪器大量超参数的设定,设计更方便,在保证精确度的情况下有效提升了跟踪速度。
(3)本发明模型中采用基于深度可分离卷积设计了并行的多尺度编码器,并没有采用学习力很强的自注意力运算,其目的是更好的泛化模板特征来应对跟踪任务中出现的各种各样的目标,使跟踪器的应用领域更广泛,更稳定。
(4)本发明采用一种多尺度解码策略,使用多尺度模板特征在解码器中逐层解码搜索帧特征,基于不同尺度特征下的语义线索和细节信息逐渐做出更精确的预测。能够有效解决跟踪中出现的大部分调整问题,如小目标,相似目标以及目标尺度变化等,具有很好的抗噪、抗干扰能力。
(5)本发明可直接用于给定简单矩形框后的目标跟踪,并且方法实施简单,易于推广。能够以实时速度跟踪同时有着优秀的性能。在目标跟踪、视频压缩、人机交互、影视制作、视频监控等许多应用领域都有潜在价值。
(6)本发明的方法采用Transformer的注意力机制和相关卷积运算构建的编码器-解码器结构跟踪器;运用深度可分离卷积的多尺度模板特征编码器和引入调制运算的解码器进行目标预测的一种单目标跟踪方法,使用的多尺度模板特征编码器聚合了类特征金字塔子网络与深度可分离卷积编码器层,使用的解码器在Transformer解码器的基础上引入了设计的调制运算融合模板特征与搜索特征。所述方法采用了多尺度编码解码策略来连接多尺度编码器与解码器。
附图说明
图1为本发明所述基于Transformer注意力机制和卷积的单目标跟踪方法的计算机流程框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面举例说明本发明:
硬件环境:计算机;相关器
软件配置:Linux;Anaconda。
下面通过附图和实例对本发明的技术方案作进一步的详细说明。
基于Transformer注意力机制和卷积的单目标跟踪方法的方框图如图1所示。
单目标跟踪问题描述为,给定某一时刻的图片与需要跟踪的目标,系统将在该时刻之后的某一帧确定跟踪目标的中心位置x,y和边框w,h。
基于Transformer注意力机制和卷积的单目标跟踪方法的具体实现如下:
依次按以下步骤进行实现:
步骤1、向训练好的跟踪器模型输入目标在初始图像帧的边界框数据b=[x,y,w,h]以及超参数;
其中x,y代表目标中心点在视频中图片平面直角坐标系的坐标,w,h代表目标边界框的长度和宽度。所述超参数包括模板帧上下文信息量factorz,搜索帧上下文信息量factorx。输入模板图像长度和宽度Hz0,Wz0,输入搜索图像的长度和宽度Hx0,Wx0,图像正则化预处理均值mean与方差std,hanning窗权重ω,上述参数均为标量。
FTC代表fine-to-coarse运算,使用常规卷积完成。CTF代表coarse-to-fine运算,使用最邻近插值和卷积共同完成运算。Conv代表一个卷积变换。
式中Norm代表正则化运算,DW表示深度可分离卷积运算,FFN(x)=max(0,xW1+b1)W2+b2。
步骤4、根据输入的边界框数据初始化搜索图像并输入网络模型,搜索图像初始尺寸sx同样采用步骤2公式计算获得,不同的是采用factorx来进行计算,调整搜索图像尺寸至Hx0,Wx0。搜索图像被送入特征提取器,进行特征提取。对于搜索图像提取搜索帧特征Hx,Wx代表搜索帧特征尺寸。
Fxs=MAtt(Fx+posx,Fx+posx,Fx)
MAtt(Q,K,V)=Concat(h1,...,hn)WO
Mod(A,B)代表调制运算,如下式:
Mod(A,B)=B+ω(A,B)A
步骤7、根据Vc向量中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y),其坐标在Vb中对应的位置为预测的目标边框(w,h)。
步骤8、传入下一帧图像作为搜索帧,以步骤7的预测结果作为新的输入b=[x,y,w,h],重复步骤4-7。即可的视频序列每帧中跟踪目标的位置边框。
下面将通过仿真实验测试本发明方法的有效性。
本发明在6个公开跟踪数据集上进行测试评估,包括LaSOT,GOT-10k,TrackingNet,UAV123,DTB70,NFS。在每个视频序列的第一帧作为初始帧,根据数据集对其标定的边框初始化模板帧和搜索帧,并输入随后的每一帧做出预测。
实验使用的超参数如下:n=4,模板帧上下文信息量factorz=2,搜索帧上下文信息量factorx=4。输入模板图像长度和宽度Hz0,Wz0=128,128,输入搜索图像的长度和宽度Hx0,Wx0=256,256,图像正则化预处理均值mean=[0.485,0.456,0.406]与方差std=[0.229,0.224,0.225],hanning窗权重ω=0.49。
表1展示了跟踪器在LaSOT,GOT-10k和TrackingNet上的测评结果并与其它算法进行比较。所对比的跟踪器均是近几年最先进的跟踪器。LaSOT和TrackingNet使用相同评价指标,AUC代表成功率,基边框覆盖率,P和N.P代表精确度。GOT-10k中的AO代表平均覆盖率,SR0.5代表0.5阈值下的成功率,SR0.75代表0.75阈值下的成功率。可以发现我们的跟踪在这三个评估基准上都获得了最先进的效果。值得一提的是20年的SiamR-CNN几乎仅次于我们的方法,但是其运行速度只在4fps左右,我们的方法能达到30fps。
表2和表3展示了跟踪器在DTB70和NFS上的测评结果并与其它算法进行比较。所对比的跟踪器均是近几年最先进的跟踪器。Prec.代表精确度,Succ.代表成功率。两个数据集上都包含大量剧烈运动的场景,且外观形变严重,所提出的方法超过目前最先进的跟踪器。表明所提出的方法有着很好的稳定性。
本发明提出的基于注意力和卷积的单目标跟踪算法有很好的跟踪效果。
表1在LaSOT,GOT-10k,TrackingNet上的比较结果
表2在DTB70上的比较结果
表3在NFS上的比较结果
Claims (2)
1.一种基于注意力和卷积的单目标跟踪方法,其特征在于包括如下步骤:
步骤1、向训练好的跟踪器模型中输入待跟踪的目标在初始图像帧的边界框数据b=[x,y,w,h]以及超参数;
其中x,y代表待跟踪的目标中心点在视频中图片平面直角坐标系的坐标,w,h代表目标边界框的长度和宽度;
根据初始尺寸对初始帧图像进行裁剪和填充,并调整模板图像尺寸至Hz0,Wz0,通过特征提取器提取多尺度模板帧特征并保存在模型中,Hz,Wz代表模板帧特征尺寸,i=1,2,…n,n代表尺度的个数,C代表特征通道数;
FTC代表fine-to-coarse运算,使用卷积完成,CTF代表coarse-to-fine运算,使用最邻近插值和卷积共同完成运算,Conv代表一个卷积变换;
式中Norm代表正则化运算,DW表示深度可分离卷积运算,FFN(x)=max(0,xW1+b1)W2+b2;
步骤4、根据输入的边界框数据初始化搜索图像,初始化完成后输入到网络模型中,搜索图像初始尺寸sx计算公式为:
Fxs=MAtt(Fx+posx,Fx+posx,Fx)
MAtt(Q,K,V)=Concat(h1,...,hn)WO
Mod(A,B)代表调制运算,如下式:
Mod(A,B)=B+ω(A,B)A
步骤7、根据产生的分类特征向量Vc中最大值的位置确定跟踪目标中心在图像中的位置坐标(x,y),位置坐标(x,y)在Vb中对应的位置为预测的目标边框(w,h);
步骤8、传入下一帧图像作为搜索帧,以步骤7的预测结果作为新的输入b=[x,y,w,h],重复步骤4-7,得到视频序列每帧中跟踪目标的位置边框。
2.根据权利要求1所述的一种基于注意力和卷积的单目标跟踪方法,其特征在于:
所述的步骤1中,所述超参数包括模板帧上下文信息量factorz、搜索帧上下文信息量factorx、输入模板图像长度和宽度Hz0,Wz0、输入搜索图像的长度和宽度Hx0,Wx0、图像正则化预处理均值mean与方差std和hanning窗权重ω,上述参数均为标量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547650.2A CN114972426A (zh) | 2022-05-18 | 2022-05-18 | 一种基于注意力和卷积的单目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547650.2A CN114972426A (zh) | 2022-05-18 | 2022-05-18 | 一种基于注意力和卷积的单目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972426A true CN114972426A (zh) | 2022-08-30 |
Family
ID=82984998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210547650.2A Pending CN114972426A (zh) | 2022-05-18 | 2022-05-18 | 一种基于注意力和卷积的单目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972426A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
-
2022
- 2022-05-18 CN CN202210547650.2A patent/CN114972426A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN110969124B (zh) | 基于轻量级多分支网络的二维人体姿态估计方法及系统 | |
CN109472198B (zh) | 一种姿态鲁棒的视频笑脸识别方法 | |
CN114972426A (zh) | 一种基于注意力和卷积的单目标跟踪方法 | |
CN110555387B (zh) | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 | |
CN109858454B (zh) | 一种基于双模型自适应核相关滤波追踪方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN110827320B (zh) | 基于时序预测的目标跟踪方法和装置 | |
Kugarajeevan et al. | Transformers in single object tracking: An experimental survey | |
dos Santos et al. | CV-C3D: action recognition on compressed videos with convolutional 3d networks | |
CN111583300A (zh) | 一种基于富集目标形态变化更新模板的目标跟踪方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN107808391B (zh) | 一种基于特征选择与光滑表示聚类的视频动态目标提取方法 | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
Wang et al. | Multi-feature fusion tracking algorithm based on generative compression network | |
CN113592900A (zh) | 一种基于注意力机制与全局推理的目标跟踪方法及系统 | |
Zhang et al. | Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention. | |
CN117011342A (zh) | 一种注意力增强的时空Transformer视觉单目标跟踪方法 | |
CN112053384B (zh) | 基于边界框回归模型的目标跟踪方法 | |
Fu et al. | Distractor-aware event-based tracking | |
Liu et al. | Mean shift fusion color histogram algorithm for nonrigid complex target tracking in sports video | |
Huang et al. | Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention | |
CN114820723A (zh) | 一种基于联合检测和关联的在线多目标跟踪方法 | |
CN112069943A (zh) | 基于自顶向下框架的在线多人姿态估计与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |