CN114399533B - 一种基于多层次注意力机制的单目标追踪方法 - Google Patents
一种基于多层次注意力机制的单目标追踪方法 Download PDFInfo
- Publication number
- CN114399533B CN114399533B CN202210047253.9A CN202210047253A CN114399533B CN 114399533 B CN114399533 B CN 114399533B CN 202210047253 A CN202210047253 A CN 202210047253A CN 114399533 B CN114399533 B CN 114399533B
- Authority
- CN
- China
- Prior art keywords
- attention
- tracking
- self
- matrix
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000007246 mechanism Effects 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005549 size reduction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- 241000195940 Bryophyta Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层次注意力机制的单目标追踪方法,其实施方案为:(1)获取数据集与追踪标签;(2)选取并裁剪追踪样本;(3)提取、展平、拼接样本图像特征图;(4)构建多层次注意力网络;(5)构建特征增强模块;(6)构建目标预测网络;(7)获取追踪模型;(7)构建损失函数;(8)训练追踪模型;(9)单目标追踪。本发明构建的追踪模型,利用多层次注意力网络对搜索区域和模板的图像特征进行全局的相关性建模,产生多层的注意力特征;利用特征增强模块对多层注意力特征进行融合,获得目标的最终预测结果。该模型能够解决当追踪目标发生大的形变时难以追踪的问题,并可有效提高单目标追踪的准确率和鲁棒性。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于多层次注意力机制的单目标追踪方法。
背景技术
单目标追踪是指在连续的视频帧序列中,建立所追踪目标的位置关系,得到目标完整的运动轨迹。一般来说,单目标追踪的基本问题可以概括为:在一个视频的初始帧中给定待追踪的目标后,在后续的视频帧中,使得计算机能够准确而持续地追踪到目标所在位置。单目标追踪在行为理解、视频监控、自动驾驶和机器人技术等领域具有重要应用价值。例如,在行为理解领域中,通过对某一目标连续的追踪来分析其行为的意义;在视频监控领域中,通过对目标的连续追踪来持续捕获目标的动作和移动方向,实现对目标监控的目的。
传统的单目标追踪方法包括MOSSE法、CSK法、DSST法和STRCF法等,这些方法由于追踪精度低、模型丰富性被限制等缺点已逐渐被基于深度学习方法所取代。现有基于深度学习的单目标追踪模型大多建立在卷积神经网络上,利用卷积神经网络的图像特征提取能力对目标特征点之间的相互关系进行建模。由于卷积神经网络中卷积核有限的感受野,基于卷积神经网络的追踪模型无法有效建立图像长距离特征之间的相互关系,因此,当追踪目标发生大的形变时,基于卷积神经网络的单目标追踪方法不能有效捕获目标所有特征点之间的相关性,无法得到精确的追踪结果。
发明内容
本发明的目的在于克服现有基于卷积神经网络的单目标追踪方法的不足,提出一种基于多层次注意力机制的单目标追踪方法,该方法利用多层次注意力网络对搜索区域和模板的图像特征进行全局的相关性建模,产生多层的注意力特征;利用特征增强模块对多层注意力特征进行融合;利用目标预测网络获得对目标的预测结果。
为实现上述目的,本发明提供以下技术方案:
一种基于多层次注意力机制的单目标追踪方法,包括以下步骤:
(1)获取数据集与追踪标签:
从单目标追踪公开数据集中获取追踪视频的帧序列与对应的追踪标签;
(2)选取并裁剪追踪样本,具体包括以下步骤:
(2-a)读取步骤(1)获取的追踪视频帧序列,将第一帧作为初始模板帧,从第二帧开始逐帧读取,并将之作为搜索帧;在初始模板帧和搜索帧之间选取一帧作为动态模板帧,选取方式为:
其中,表示动态模板帧的相对位置,nS代表搜索帧的相对位置,N为动态模板帧的更新间隔,N为正整数,且取值范围为[1,300],符号/>表示向下取整;
(2-b)将初始模板帧、动态模板帧和搜索帧分别裁剪到HT2×WT2和HS×WS像素大小,并将它们分别作为初始模板、动态模板和搜索区域,其中Hi和Wi(i=T1,T2,S)分别代表高度和宽度,且Hi和Wi(i=T1,T2,S)都为正整数,取值范围为[50,500];
(3)提取、展平、拼接样本图像特征图,具体包括以下步骤:
(3-a)利用卷积神经网络提取步骤(2)获得的初始模板、动态模板和搜索区域的图像特征,分别得到特征图和/>其中R代表实数,k代表模板和搜索区域经过图像特征提取后尺寸缩小的倍数,k取正整数,且k的取值范围为[2,64];C代表得到的特征图的通道数,C取正整数,且C的取值范围为[2,2048];
(3-b)展平并拼接特征图和fS,得到特征序列/>其中特征序列fα的长度Xα由特征图/>和fS的高和宽计算得到,Xα的定义如下:
(4)构建多层次注意力网络,具体包括以下步骤:
(4-a)构建自注意力模块,该模块一共包含n组相同的自注意力层,自注意力层由一个多头注意力模块,两个残差与批归一化模块,一个前馈模块组成;步骤(3-b)得到的特征序列fα依次经过这n组自注意力层,分别得到自注意力特征矩阵Si,i=1,2,…,n;
(4-b)构建自增强模块,该模块一共包含n组相同的自增强层,自增强层由一个多头注意力模块,一个残差与批归一化模块组成;
(4-c)构建相互注意力模块,该模块一共包含n组相同的相互注意力层,相互注意力层与(4-a)所述自注意力层在结构上完全一致;
(4-d)构建随机初始化矩阵q∈R1×C,其中R代表实数,C与步骤(3-a)中特征图的通道数相同;
(4-e)将随机初始化矩阵q输入到步骤(4-b)构建的第一组自增强层,得到注意力特征矩阵E1,将E1与步骤(4-a)中得到的自注意力特征矩阵S1输入到步骤(4-c)构建的第一组相互注意力层,得到相互注意力特征矩阵M1;将M1输入到步骤(4-b)构建的第二组自增强层,得到注意力特征矩阵E2,将E2与步骤(4-a)中得到的自注意力特征矩阵S2输入到步骤(4-c)构建的第二组相互注意力层,得到相互注意力特征矩阵M2;以此类推,直到得到最后一个相互注意力特征矩阵Mn;
(5)构建特征增强模块,具体包括以下步骤:
(5-a)利用sigmoid激活函数将步骤(4-a)得到的自注意力特征矩阵S1内部特征值映射为0到1分布,并与步骤(4-a)得到的自注意力特征矩阵Sn逐像素相乘,得到自注意力特征增强矩阵H,H的计算公式如下:
其中表示逐像素相乘操作;
(5-b)将步骤(5-a)得到的自注意力特征增强矩阵H和步骤(4-e)中得到的相互注意力特征矩阵Mn逐列数乘,获得H和Mn之间的相似性关联矩阵D,逐列数乘的操作定义如下:
其中⊙表示逐列数乘操作,C与步骤(3-a)中特征图的通道数相同,Xα与步骤(3-b)中特征序列fα的长度相同;再将H与D逐像素相乘,得到目标特征描述矩阵T,T的计算公式如下:
(6)构建目标预测网络:
构建目标预测网络,该网络一共包含五组结构相同的卷积块,将步骤(5-b)得到的目标特征描述矩阵T依次经过这五组卷积块,得到目标矩形框的左上角、左下角、右上角和右下角的坐标和/>该矩形框所在区域即为最终目标的预测结果;
(7)获取追踪模型:
结合步骤(4)构建的多层次注意力网络、步骤(5)构建的特征增强模块和步骤(6)构建的目标预测网络,获得最终的追踪模型;
(8)构建损失函数:
根据单目标追踪的任务特点构建基于平均绝对误差损失与广义交并比损失的损失函数Lmix,定义如下:
其中L1表示平均绝对误差损失,LGiou表示广义交并比损失,和λGiou为平衡L1和LGiou的超参数,/>和λGiou为正实数,且取值范围为[1,20];xtl,xbl,xtr和xbr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的x值,ytl,ybl,ytr和ybr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的y值,A表示预测目标矩形框的面积,B表示标签矩形框的面积,Z表示包围预测目标矩形框和标签矩形框的最小矩形面积;
(9)训练追踪模型:
利用步骤(3)得到的特征序列fα训练步骤(7)构建完成的追踪模型,根据步骤(8)构建的损失函数得到损失值,并使用随机梯度下降法更新追踪模型内的参数,直到损失函数的损失值不再下降,得到训练好的追踪模型;
(10)单目标追踪:
获取单目标追踪视频的帧序列,首先按照步骤(2)选取并裁剪追踪样本,再按照步骤(3)分别提取、展平、拼接样本图像特征图,得到特征序列,将特征序列输入到步骤(9)得到的训练好的追踪模型,输出目标追踪结果。
步骤(1)中的单目标追踪公开数据集包括:数据集GOT-10K,LaSOT,TrackingNet和COCO2017。
步骤(4)构建的自注意力层、自增强层和相互注意力层内部的多头注意力模块,其作用是计算输入特征矩阵中的各特征之间的注意力权重,输出注意力特征矩阵,计算过程为:
MultiHead(Q,K,V)=Concat(G1,…,Gj,…,Gt)PO
其中,MultiHead(Q,K,V)表示输出的注意力特征矩阵,Concat表示拼接操作,softmax(·)表示激活函数,Q、K和V由输入多头注意力模块的特征矩阵构成,对于自注意力层和自增强层内部的多头注意力模块,Q=K=V=F,其中F表示输入的特征矩阵;对于相互注意力层内部的多头注意力模块,Q=E,K=V=S,其中E代表自增强层的输出,S代表自注意力层的输出;t表示多头注意力模块中注意力头的个数,t为正整数,且取值范围为[1,16];Gj表示第j个注意力头得到的注意力特征矩阵,j=1,2,…,t;分别表示第j个注意力头的Q、K和V参数矩阵,PO表示调整最终输出的参数矩阵;/>和PO都是通过步骤(9)训练追踪模型时得到的;T表示转置操作符,d是超参数,用于保证softmax激活函数的性能,d为正实数,且取值范围为[1,1000]。
步骤(4-a)和(4-c)构造的自注意力层和相互注意力层内部的前馈模块为前馈神经网络。
步骤(6)中的卷积块包括一个卷积层,一个批归一化层与一个Relu激活层。
步骤(4)中的n为正整数,其取值范围为[1,20]。
本发明与现有技术相比,有以下优点:
(1)本发明利用多层自注意力模块对搜索区域和模板的图像特征进行全局的相关性建模,产生多层的注意力特征,利用相互注意力模块与每一层的注意力特征进行交互,获得追踪目标的空间位置,该方法能够提高当目标发生大的形变时的追踪精度。
(2)本发明利用特征增强模块融合多层次注意力网络中自注意力模块和相互注意力模块的注意力特征,丰富了追踪目标外观的特征描述,能够实现更准确的目标追踪,且鲁棒性好。
附图说明
图1本发明实施方式的一种基于多层次注意力机制的单目标追踪方法流程图;
图2本发明实施方式的多层次注意力网络结构图;
图3本发明实施方式的自注意力层结构图;
图4本发明实施方式的自增强层结构图;
图5本发明实施方式的相互注意力层结构图;
图6本发明实施方式的特征增强模块结构图;
图7本发明实施方式的追踪结果与其他方法追踪结果对比图。
具体实施方式
下面说明本发明具体实施方式:
实施例1
图1所示为本发明实施方式的一种基于多层次注意力机制的单目标追踪方法流程图,具体步骤如下:
步骤1,获取数据集与追踪标签。
从单目标追踪公开数据集GOT-10K,LaSOT,TrackingNet和COCO2017中获取追踪视频的帧序列与对应的追踪标签。
步骤2,选取并裁剪追踪样本。
(2-a)读取步骤(1)获取的追踪视频帧序列,将第一帧作为初始模板帧,从第二帧开始逐帧读取,并将之作为搜索帧;在初始模板帧和搜索帧之间选取一帧作为动态模板帧,选取方式为:
其中,表示动态模板帧的相对位置,nS代表搜索帧的相对位置,N为动态模板帧的更新间隔,本实例优选N为200,符号/>表示向下取整;
(2-b)将初始模板帧、动态模板帧和搜索帧分别裁剪到128×128、128×128和320×320像素大小,并将它们分别作为初始模板、动态模板和搜索区域。
步骤3,提取、展平、拼接样本图像特征图。
(3-a)利用卷积神经网络ResNet50提取步骤(2)获得的初始模板、动态模板和搜索区域的图像特征,分别得到特征图和/>其中R代表实数,k代表模板和搜索区域经过图像特征提取后尺寸缩小的倍数,且k=16,C代表得到的特征图的通道数,且C=256。卷积神经网络也可以取GoogLeNet,此时k=8,C=480;或者取MobileNet,此时k=16,C=256;或者取ShuffleNet,此时k=16,C=480;或者取VGGNet,此时k=16,C=512。
(3-b)展平并拼接特征图和fS,得到通道数为256的特征序列其中特征序列fα的长度Xα计算过程如下:
则fα∈R528×256。
步骤4,构建多层次注意力网络。
图2所示为本发明实施方式的多层次注意力网络结构图,优选图中n为6,具体步骤如下:
(4-a)构建自注意力模块,该模块一共包含6组相同的自注意力层,图3所示为本发明实施方式的自注意力层结构图,自注意力层由一个多头注意力模块,两个残差与批归一化模块,一个前馈模块组成,前馈模块为前馈神经网络;步骤(3-b)得到的特征序列fα依次经过这6组自注意力层,分别得到大小为528×256的自注意力特征矩阵S1、S2、S3、S4、S5、S6。
(4-b)构建自增强模块,该模块一共包含6组相同的自增强层,图4所示为本发明实施方式的自增强层结构图,自增强层由一个多头注意力模块,一个残差与批归一化模块组成;
(4-c)构建相互注意力模块,该模块一共包含6组相同的相互注意力层,图5所示为本发明实施方式的相互注意力层结构图,相互注意力层与(4-a)所述自注意力层在结构上完全一致;
自注意力层、自增强层和相互注意力层内部的多头注意力模块,其作用是计算输入特征矩阵中的各特征之间的注意力权重,输出注意力特征矩阵,计算过程为:
MultiHead(Q,K,V)=Concat(G1,…,Gj,…,Gt)PO
其中,MultiHead(Q,K,V)表示输出的注意力特征矩阵,Concat表示拼接操作,softmax(·)表示激活函数,Q、K和V由输入多头注意力模块的特征矩阵构成,对于自注意力层和自增强层内部的多头注意力模块,Q=K=V=F,其中F表示输入的特征矩阵;对于相互注意力层内部的多头注意力模块,Q=E,K=V=S,其中E代表自增强层的输出,S代表自注意力层的输出;t表示多头注意力模块中注意力头的个数,本实例优选t为8;Gj表示第j个注意力头得到的注意力特征矩阵,j=1,2,…,t;分别表示第j个注意力头的Q、K和V参数矩阵,PO表示调整最终输出的参数矩阵;/>和PO都是通过步骤(9)训练追踪模型时得到的;T表示转置操作符,d是超参数,用于保证softmax激活函数的性能,本实例优选d为32。
(4-d)构建随机初始化矩阵q∈R1×256,其中R代表实数。
(4-e)将随机初始化矩阵q输入到步骤(4-b)构建的第一组自增强层,得到大小为1×256的注意力特征矩阵E1,将E1与步骤(4-a)中得到的自注意力特征矩阵S1输入到步骤(4-c)构建的第一组相互注意力层,得到大小为1×256的相互注意力特征矩阵M1;将M1输入到步骤(4-b)构建的第二组自增强层,得到大小为1×256的注意力特征矩阵E2,将E2与步骤(4-a)中得到的自注意力特征矩阵S2输入到步骤(4-c)构建的第二组相互注意力层,得到大小为1×256的相互注意力特征矩阵M2;将M2输入到步骤(4-b)构建的第三组自增强层,得到大小为1×256的注意力特征矩阵E3,将E3与步骤(4-a)中得到的自注意力特征矩阵S3输入到步骤(4-c)构建的第三组相互注意力层,得到大小为1×256的相互注意力特征矩阵M3;将M3输入到步骤(4-b)构建的第四组自增强层,得到大小为1×256的注意力特征矩阵E4,将E4与步骤(4-a)中得到的自注意力特征矩阵S4输入到步骤(4-c)构建的第四组相互注意力层,得到大小为1×256的相互注意力特征矩阵M4;将M4输入到步骤(4-b)构建的第五组自增强层,得到大小为1×256的注意力特征矩阵E5,将E5与步骤(4-a)中得到的自注意力特征矩阵S5输入到步骤(4-c)构建的第五组相互注意力层,得到大小为1×256的相互注意力特征矩阵M5;将M5输入到步骤(4-b)构建的第六组自增强层,得到大小为1×256的注意力特征矩阵E6,将E6与步骤(4-a)中得到的自注意力特征矩阵S6输入到步骤(4-c)构建的第六组相互注意力层,得到大小为1×256的相互注意力特征矩阵M6。
步骤5,构建特征增强模块。
图6所示为本发明实施方式的特征增强模块结构图,图中的n与步骤4中n的优选值相同,等于6,具体包括以下步骤:
(5-a)利用sigmoid激活函数将步骤(4-a)得到的自注意力特征矩阵S1内部特征值映射为0到1分布,并与步骤(4-a)得到的自注意力特征矩阵S6逐像素相乘,得到大小为528×256的自注意力特征增强矩阵H,H的计算公式如下:
其中表示逐像素相乘操作;
(5-b)将步骤(5-a)得到的自注意力特征增强矩阵H和步骤(4-e)中得到的相互注意力特征矩阵M6逐列数乘,获得H和M6之间的相似性关联矩阵D,D的大小为528×256,逐列数乘的操作定义如下:
其中⊙表示逐列数乘操作;再将H与D逐像素相乘,得到目标特征描述矩阵T,T的计算公式如下:
步骤6,构建目标预测网络。
构建目标预测网络,该网络一共包含五组结构相同的卷积块,其中,每组卷积块包括一个卷积层,一个批归一化层与一个Relu激活层,将步骤(5-b)得到的目标特征描述矩阵T依次经过这五组卷积块,得到目标矩形框的左上角、左下角、右上角和右下角的坐标和/>该矩形框所在区域即为最终目标的预测结果。
步骤7,获取追踪模型。
结合步骤(4)构建的多层次注意力网络、步骤(5)构建的特征增强模块和步骤(6)构建的目标预测网络,获得最终的追踪模型。
步骤8,构建损失函数。
根据单目标追踪的任务特点构建基于平均绝对误差损失与广义交并比损失的损失函数Lmix,定义如下:
其中L1表示平均绝对误差损失,LGiou表示广义交并比损失,和λGiou为平衡L1和LGiou的超参数,本实施例分别优选/>和λGiou为5和2;xtl,xbl,xtr和xbr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的x值,ytl,ybl,ytr和ybr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的y值,A表示预测目标矩形框的面积,B表示标签矩形框的面积,Z表示包围预测目标矩形框和标签矩形框的最小矩形面积。
步骤9,训练追踪模型。
利用步骤(3)得到的特征序列fα训练步骤(7)构建完成的追踪模型,根据步骤(8)构建的损失函数得到损失值,并使用随机梯度下降法更新追踪模型内的参数,直到损失函数的损失值不再下降,得到训练好的追踪模型。
步骤10,单目标追踪。
获取单目标追踪视频的帧序列,首先按照步骤(2)选取并裁剪追踪样本,再按照步骤(3)分别提取、展平、拼接样本图像特征图,得到特征序列,将特征序列输入到步骤(9)得到的训练好的追踪模型,输出目标追踪结果。
实施例2
采用实施例1中的方法在测试集GOT-10K、LaSOT和TrackingNet上进行单目标追踪实验。本实验基于CUDA10.0和cuDNN7.6.4的Pytorch1.5.1框架实现,使用搭载了NVIDIAGeForce RTX 2080Ti(11GB)硬件的Linux服务器训练并测试。
本实施例对TrDiMP、TrSiam、Ocean、KYS、DCFST、SiamFC++、PrDiMP50、CGACD、SiamAttn、MAML、D3S、SiamCAR、DiMP50、SiamPRN++和ATOM十五个单目标追踪模型与本发明方法在测试集上进行对比。对于测试集GOT-10K,选取重叠面积比(AO)和成功率(SR)作为测试指标,AO表示预测目标矩形框与标签矩形框的重叠面积占标签矩形框面积的百分比;SR选取SR0.5和SR0.75,分别表示AO超过50%和75%的帧数占总帧数的百分比。对于测试集LaSOT和TrackingNet,选取成功度(SC)、精确度(PS)和归一化精确度(PSNorm)作为测试指标,SC表示预测目标矩形框与标签矩形框的交并比(IoU),PS表示预测目标矩形框中心与标签矩形框中心距离小于20像素的帧数占总帧数的百分比,PSNorm的计算公式如下:
其中,Uall表示总帧数,表示L小于/>的帧数,L的计算公式如下:
其中,和/>分别表示预测目标矩形框中心点坐标的x值和y值,xc和yc分别表示标签矩形框中心点坐标的x值和y值,wd和hg分别表示标签矩形框的宽度和高度。
对比结果如表1所示,可以发现,使用本发明对单目标追踪的结果相较于其他方法的追踪结果更为准确。
图7所示为本发明实施方式的追踪结果与其他方法追踪结果对比图。图7中第一、二、三行分别为追踪目标发生大的形变、环境光线明暗变化、背景干扰的情况。可以看出,本发明方法相较于PrDiMP50、DCFST、DiMP50、KYS、ATOM模型,对目标的追踪更加准确。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围之内。
表1
(注:表中数值均为百分数,单位为%,符号“-”表示其他方法的所有者未公布对应的测试结果)。
Claims (6)
1.一种基于多层次注意力机制的单目标追踪方法,其特征在于包括以下步骤:
(1)获取数据集与追踪标签:
从单目标追踪公开数据集中获取追踪视频的帧序列与对应的追踪标签;
(2)选取并裁剪追踪样本,具体包括以下步骤:
(2-a)读取步骤(1)获取的追踪视频帧序列,将第一帧作为初始模板帧,从第二帧开始逐帧读取,并将之作为搜索帧;在初始模板帧和搜索帧之间选取一帧作为动态模板帧,选取方式为:
其中,表示动态模板帧的相对位置,nS代表搜索帧的相对位置,N为动态模板帧的更新间隔,N为正整数,且取值范围为[1,300],符号/>表示向下取整;
(2-b)将初始模板帧、动态模板帧和搜索帧分别裁剪到HT2×WT2和HS×WS像素大小,并将它们分别作为初始模板、动态模板和搜索区域,其中Hi和Wi(i=T1,T2,S)分别代表高度和宽度,且Hi和Wi(i=T1,T2,S)都为正整数,取值范围为[50,500];
(3)提取、展平、拼接样本图像特征图,具体包括以下步骤:
(3-a)利用卷积神经网络提取步骤(2)获得的初始模板、动态模板和搜索区域的图像特征,分别得到特征图和/>其中R代表实数,k代表模板和搜索区域经过图像特征提取后尺寸缩小的倍数,k取正整数,且k的取值范围为[2,64];C代表得到的特征图的通道数,C取正整数,且C的取值范围为[2,2048];
(3-b)展平并拼接特征图和fS,得到特征序列/>其中特征序列fα的长度Xα由特征图/>和fS的高和宽计算得到,Xα的定义如下:
(4)构建多层次注意力网络,具体包括以下步骤:
(4-a)构建自注意力模块,该模块一共包含n组相同的自注意力层,自注意力层由一个多头注意力模块,两个残差与批归一化模块,一个前馈模块组成;步骤(3-b)得到的特征序列fα依次经过这n组自注意力层,分别得到自注意力特征矩阵Si,i=1,2,…,n;
(4-b)构建自增强模块,该模块一共包含n组相同的自增强层,自增强层由一个多头注意力模块,一个残差与批归一化模块组成;
(4-c)构建相互注意力模块,该模块一共包含n组相同的相互注意力层,相互注意力层与(4-a)所述自注意力层在结构上完全一致;
(4-d)构建随机初始化矩阵q∈R1×C,其中R代表实数,C与步骤(3-a)中特征图的通道数相同;
(4-e)将随机初始化矩阵q输入到步骤(4-b)构建的第一组自增强层,得到注意力特征矩阵E1,将E1与步骤(4-a)中得到的自注意力特征矩阵S1输入到步骤(4-c)构建的第一组相互注意力层,得到相互注意力特征矩阵M1;将M1输入到步骤(4-b)构建的第二组自增强层,得到注意力特征矩阵E2,将E2与步骤(4-a)中得到的自注意力特征矩阵S2输入到步骤(4-c)构建的第二组相互注意力层,得到相互注意力特征矩阵M2;依此类推,直到得到最后一个相互注意力特征矩阵Mn;
(5)构建特征增强模块,具体包括以下步骤:
(5-a)利用sigmoid激活函数将步骤(4-a)得到的自注意力特征矩阵S1内部特征值映射为0到1分布,并与步骤(4-a)得到的自注意力特征矩阵Sn逐像素相乘,得到自注意力特征增强矩阵H,H的计算公式如下:
其中表示逐像素相乘操作;
(5-b)将步骤(5-a)得到的自注意力特征增强矩阵H和步骤(4-e)中得到的相互注意力特征矩阵Mn逐列数乘,获得H和Mn之间的相似性关联矩阵D,逐列数乘的操作定义如下:
其中⊙表示逐列数乘操作,C与步骤(3-a)中特征图的通道数相同,Xα与步骤(3-b)中特征序列fα的长度相同;再将H与D逐像素相乘,得到目标特征描述矩阵T,T的计算公式如下:
(6)构建目标预测网络:
构建目标预测网络,该网络一共包含五组结构相同的卷积块,将步骤(5-b)得到的目标特征描述矩阵T依次经过这五组卷积块,得到目标矩形框的左上角、左下角、右上角和右下角的坐标和/>该矩形框所在区域即为最终目标的预测结果;
(7)获取追踪模型:
结合步骤(4)构建的多层次注意力网络、步骤(5)构建的特征增强模块和步骤(6)构建的目标预测网络,获得最终的追踪模型;
(8)构建损失函数:
根据单目标追踪的任务特点构建基于平均绝对误差损失与广义交并比损失的损失函数Lmix,定义如下:
其中L1表示平均绝对误差损失,LGiou表示广义交并比损失,和λGiou为平衡L1和LGiou的超参数,/>和λGiou为正实数,且取值范围为[1,20];xtl,xbl,xtr和xbr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的x值,ytl,ybl,ytr和ybr分别代表标签矩形框的左上角、左下角、右上角和右下角坐标的y值,A表示预测目标矩形框的面积,B表示标签矩形框的面积,Z表示包围预测目标矩形框和标签矩形框的最小矩形面积;
(9)训练追踪模型:
利用步骤(3)得到的特征序列fα训练步骤(7)构建完成的追踪模型,根据步骤(8)构建的损失函数得到损失值,并使用随机梯度下降法更新追踪模型内的参数,直到损失函数的损失值不再下降,得到训练好的追踪模型;
(10)单目标追踪:
获取单目标追踪视频的帧序列,首先按照步骤(2)选取并裁剪追踪样本,再按照步骤(3)分别提取、展平、拼接样本图像特征图,得到特征序列,将特征序列输入到步骤(9)得到的训练好的追踪模型,输出目标追踪结果。
2.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法,其特征在于,所述步骤(1)中,单目标追踪公开数据集包括:数据集GOT-10K,LaSOT,TrackingNet和COCO2017。
3.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法,其特征在于,步骤(4)构建的自注意力层、自增强层和相互注意力层内部的多头注意力模块,其作用是计算输入特征矩阵中的各特征之间的注意力权重,输出注意力特征矩阵,计算过程为:
MultiHead(Q,K,V)=Concat(G1,…,Gj,…,Gt)PO
其中,MultiHead(Q,K,V)表示输出的注意力特征矩阵,Concat表示拼接操作,softmax(·)表示激活函数,Q、K和V由输入多头注意力模块的特征矩阵构成,对于自注意力层和自增强层内部的多头注意力模块,Q=K=V=F,其中F表示输入的特征矩阵;对于相互注意力层内部的多头注意力模块,Q=E,K=V=S,其中E代表自增强层的输出,S代表自注意力层的输出;t表示多头注意力模块中注意力头的个数,t为正整数,且取值范围为[1,16];Gj表示第j个注意力头得到的注意力特征矩阵,j=1,2,…,t;分别表示第j个注意力头的Q、K和V参数矩阵,PO表示调整最终输出的参数矩阵;/>和PO都是通过步骤(9)训练追踪模型时得到的;T表示转置操作符,d是超参数,用于保证softmax激活函数的性能,d为正实数,且取值范围为[1,1000]。
4.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法,其特征在于,步骤(4-a)和(4-c)构造的自注意力层和相互注意力层内部的前馈模块为前馈神经网络。
5.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法,其特征在于,步骤(6)中的卷积块包括一个卷积层,一个批归一化层与一个Relu激活层。
6.如权利要求1所述的一种基于多层次注意力机制的单目标追踪方法,其特征在于,步骤(4)中的n为正整数,其取值范围为[1,20]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210047253.9A CN114399533B (zh) | 2022-01-17 | 2022-01-17 | 一种基于多层次注意力机制的单目标追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210047253.9A CN114399533B (zh) | 2022-01-17 | 2022-01-17 | 一种基于多层次注意力机制的单目标追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114399533A CN114399533A (zh) | 2022-04-26 |
CN114399533B true CN114399533B (zh) | 2024-04-16 |
Family
ID=81230242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210047253.9A Active CN114399533B (zh) | 2022-01-17 | 2022-01-17 | 一种基于多层次注意力机制的单目标追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399533B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
CN116188528B (zh) * | 2023-01-10 | 2024-03-15 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
CN117670940B (zh) * | 2024-01-31 | 2024-04-26 | 中国科学院长春光学精密机械与物理研究所 | 基于相关性峰值距离分析的单流卫星视频目标跟踪方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN111696137A (zh) * | 2020-06-09 | 2020-09-22 | 电子科技大学 | 一种基于多层特征混合与注意力机制的目标跟踪方法 |
CN112560656A (zh) * | 2020-12-11 | 2021-03-26 | 成都东方天呈智能科技有限公司 | 一种联合注意力机制端到端训练的行人多目标跟踪方法 |
CN113706581A (zh) * | 2021-08-13 | 2021-11-26 | 河南大学 | 基于残差通道注意与多层次分类回归的目标跟踪方法 |
-
2022
- 2022-01-17 CN CN202210047253.9A patent/CN114399533B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN111696137A (zh) * | 2020-06-09 | 2020-09-22 | 电子科技大学 | 一种基于多层特征混合与注意力机制的目标跟踪方法 |
CN112560656A (zh) * | 2020-12-11 | 2021-03-26 | 成都东方天呈智能科技有限公司 | 一种联合注意力机制端到端训练的行人多目标跟踪方法 |
CN113706581A (zh) * | 2021-08-13 | 2021-11-26 | 河南大学 | 基于残差通道注意与多层次分类回归的目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
一种基于多样性正实例的单目标跟踪算法;张博言;钟勇;;哈尔滨工业大学学报;20200925(10);全文 * |
基于动态模式和卷积特征的单目标跟踪算法;张博言;钟勇;李振东;;西北工业大学学报;20191215(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114399533A (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114399533B (zh) | 一种基于多层次注意力机制的单目标追踪方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109446970A (zh) | 一种基于深度学习的变电站巡检机器人道路场景识别方法 | |
CN112907602B (zh) | 一种基于改进k-近邻算法的三维场景点云分割方法 | |
CN109583483A (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN111563915A (zh) | 一种融合运动信息检测和Radon变换的KCF目标跟踪方法 | |
CN112784782B (zh) | 一种基于多视角双注意网络的三维物体识别方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN112070010A (zh) | 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN113538218A (zh) | 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法 | |
CN114943893A (zh) | 一种土地覆盖分类的特征增强网络 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN114359873A (zh) | 一种融合道路空间先验和区域级特征的弱监督车辆可行域分割方法 | |
CN116543021A (zh) | 一种基于特征融合的Siamese网络视频单目标跟踪方法 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN114708315A (zh) | 一种基于深度虚拟对应点生成的点云配准方法及系统 | |
CN113705731A (zh) | 一种基于孪生网络的端到端图像模板匹配方法 | |
CN111899284A (zh) | 一种基于参数化esm网络的平面目标跟踪方法 | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
CN113963040A (zh) | 一种基于深度特征一致性的点云配准方法及系统 | |
CN112528988A (zh) | 一种车牌角度矫正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |