CN116563337A - 基于双注意力机制的目标跟踪方法 - Google Patents
基于双注意力机制的目标跟踪方法 Download PDFInfo
- Publication number
- CN116563337A CN116563337A CN202310399300.0A CN202310399300A CN116563337A CN 116563337 A CN116563337 A CN 116563337A CN 202310399300 A CN202310399300 A CN 202310399300A CN 116563337 A CN116563337 A CN 116563337A
- Authority
- CN
- China
- Prior art keywords
- attention
- template
- fusion
- loss
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 6
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双注意力机制的目标跟踪方法,包括:构建主干网络模型,所述主干网络模型包括检测分支和模板分支,对于给定的若干组模板帧和搜索帧,分别采用模板分支对模板帧、检测分支对搜索帧提取深度特征;将步骤1提取到的深度特征通过可变形注意力机制进行有选择性的增强;将步骤2中增强后的特征通过稀疏注意力进行权重再分配的分层交叉融合,最终得到融合特征;将步骤3中得到的融合特征通过多层感知机预测获得目标的位置和尺度;多层感知机输出每一个检测帧的目标位置信息即完成跟踪。本发明能够减少对背景的关注权重,增加对搜索区域潜在目标的关注权重,并且能够增强网络的鲁棒性,最终克服背景对跟踪器的干扰。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于双注意力机制的目标跟踪方法。
背景技术
目标跟踪计算机视觉领域极其重要的部分,它的主要任务是在给定的连续视频序列中,根据初始帧给出的目标位置,在后续帧中对目标进行连续跟踪定位。目标跟踪需要解决两个主要问题:1.挖掘有关感兴趣对象的特征;2.建立帧与帧之间的对象对应关系。研究目标跟踪对视频分析、场景理解等领域都有着很大的帮助。目标跟踪在现实生活中有着巨大的应用价值,例如智能监控、人机交互、自动驾驶和医疗诊断等领域。
基于孪生网络的跟踪器在跟踪精度上有着很大的优势,且由于它们通常都是高速的端到端网络,它们将目标跟踪问题转换为模板帧和搜索帧的匹配问题。SiamRPN借鉴了目标检测领域中取得成功的区域候选网络,将目标跟踪任务拆分成分类和回归两个子任务。SiamRPN++为解决孪生网络较浅和中心偏好问题,使用ResNet50作为特征提取网络和深度互相关操作。目前基于Transformer的跟踪器因注意力机制对特征之间和对全局的优秀的建模能力备受欢迎。TransT利用自注意力增强模板帧和搜索帧自身的特征、交叉注意力建模模板帧和搜索帧的空间依赖关系。Stark将时空信息引入到了基于Transformer的跟踪器。
目标在跟踪过程中由于受到背景的干扰,跟踪器会使次要信息(背景)占据过大比重,容易被背景分散注意力,这一定程度上削弱了目标,使前景和背景的区分变得模糊,即跟踪器缺乏对搜索区域最相关信息的关注,从而使跟踪精度下降。尽管现有的基于孪生网络和基于Transformer的深度跟踪器在跟踪精度上具有良好的性能,但我们注意到大多跟踪器依然无法解决目标在背景干扰的复杂场景下的跟踪难题。
发明内容
本发明的目的在于针对现有技术的不足之处,提供一种基于双注意力机制的目标跟踪方法,该方法能够减少对背景的关注权重,增加对搜索区域潜在目标的关注权重,并且能够增强网络的鲁棒性,最终克服背景对跟踪器的干扰。
为解决上述技术问题,本发明采用如下技术方案:
一种基于双注意力机制的目标跟踪方法,包括如下步骤:
步骤1、构建主干网络模型,所述主干网络模型包括检测分支和模板分支,对于给定的若干组模板帧和搜索帧,分别采用模板分支对模板帧、检测分支对搜索帧提取深度特征;
步骤2、将步骤1提取到的模板帧和搜索帧的深度特征分别通过可变形注意力进行有选择性的增强;
步骤3,将步骤2中增强后的模板帧和搜索帧的特征分别通过稀疏注意力进行权重再分配的分层交叉融合,最终得到融合特征;
步骤4,将步骤3中得到的融合特征通过多层感知机预测获得目标的位置和尺度;
步骤5,多层感知机输出每一个检测帧的目标位置信息即完成跟踪。
进一步地,检测分支和模板分支均包括4个卷积层,后一个卷积层的输入为前一个卷积层的输出,通过多层卷积层对输入图像进行特征提取以捕获到更丰富的特征。
进一步地,步骤2中对特征进行有选择性增强的方法为:
对输入的特征图生成均匀网格然后根据网格大小生成参考点;
构建轻量级子网络,将特征图线性投影到query标记为q=xWq,然后馈送到轻量级子网络θoffset(·)以生成参考点的偏移量Δp=θoffset(q);
根据参考点及其偏移量得到变形点,对变形点采用双线性插值从特征映射中采样特征,然后将采样的特征馈送到key和value投影以获得可变形的key和value,最后对可变形的key和value执行多头注意力获得增强特征图。
进一步地,步骤2中参考点的生成方法为:
给定输入特征x∈RH×W×C,生成一个由点组成的统一网格作为参考;具体来说,从输入特征图大小下采样一个因子r,HG=H/r,WG=W/r,其中,H表示输入特征图的高,W表示输入特张图的宽,参考点的值是线性间隔的二维坐标{(0,0),…,(HG-1,WG-1)},然后根据网格大小HG×WG将其归一化到范围[-1,1],其中(-1,-1)表示网格左上角,(1,1)表示网格右下角,这样就获得了参考点的坐标。
进一步地,轻量级子网络包括两个具有非线性激活的卷积模块,在轻量级子网络中,输入特征首先通过5×5深度卷积层来捕获局部特征,然后采用GELU激活和1×1卷积层获得参考点的偏移量。
进一步地,根据变形点获得特征增强图的方法为:
在变形点的位置对特征进行采样作为key和value,得到投影矩阵:
q=xWq,
withΔp=θoffset(q),
式中,分别表示变形后的key、value,Wk表示线性映射,Wv表示线性映射,φ(·;·)为采样函数;其中,采样函数φ(·;·)设置为:
在获得变形的key和value后,对q、k、v执行多头注意力,并采用相对位置偏移R获得增强特征图,注意力头的输出公式为:
式中,m表示注意力头数,z表示输出,σ表示softmax操作,T表示转置操作,d表示维度。
进一步地,步骤3中稀疏注意力模块工作机制为:
首先,对步骤2得到的增强特征计算query和key的相似度矩阵,然后采用softmax函数对相似度矩阵每行的K个最大元素进行归一化,其他元素置0;最后将相似度矩阵和value相乘,得到最终融合结果;其中,softmax函数为:
SMHA=SoftMax(TopK(QKT))VT;
式中,TopK表示只对QKT的每行取K个最大值进行归一化,其余置0。
进一步地,在步骤3中在得到融合特征钱,先将步骤2中的可变形注意力和步骤3中的稀疏注意力组成跟踪器的特征融合网络,其中,特征融合网络描述为:
FZD m=DFA(FZS m-1,FXS m-1,FXS m-1);
FZS m=SFA(FZD m,FXD m-1,FXD m-1);
FXD m=DFA(FXS M,FZS m-1,FZS m-1);
FXS m=SFA(FXD m,FZD m,FZD m);
其中,m表示当前特征融合层,m-1表示上一层,ZD表示模板分支的基于可变形注意力的DFA模块,ZS表示模板分支的基于稀疏注意力的SFA模块,XD表示搜索分支的基于可变形注意力的DFA模块,XS表示搜索分支的基于稀疏注意力的SFA模块。
进一步地,步骤4中的多层感知机包括两个分支:回归分支和分类分支;选择响应于标签的特征向量的预测为正样本,其余为负样本,对多层感知机进行训练;其中,所有样本都有助于分类损失,而只有正样本有助于回归损失;采样上述的分类损失和回归损失作为多层感知机的损失函数对多层感知机进行训练;最后,通过若干层的特征融合层得到融合特征向量输入到训练后的多层感知机中得到目标的位置和尺度信息。
进一步地,使用标准的二元交叉熵损失作为分类损失,其定义为:
ζcls=-∑j[yjlog(p(yj))+(1-yj)log(1-p(yj))];
其中,yj表示第j个样本的真实标签,yj=1时表示前景,yj=0时表示背景,p(yj)表示第j个样本的预测标签是真实标签的概率;
对于回归损失,采用了L1范数损失ζ1和广义交并比损失ζGIoU,具体为:
式中,表示只关注样本中属于目标的点,bj表示算法结果的第j个回归框,/>表示Ground-truth的回归框,采用了lGIOU损失和常用的l1损失,λG和λ1是超参数。
与现有技术相比,本发明的有益效果为:本发明提出了基于可变形注意力和稀疏注意力的特征融合网络,确保网络在提取模板帧和搜索帧深度特征之后,能够通过可变形注意力使网络聚焦最关注信息;并通过稀疏注意力对模板帧和搜索帧增强后的特征进行融合,减少对背景的关注权重,相对的增加对搜索区域潜在目标的关注权重。经过这两次的操作从而增强网络的鲁棒性,最终克服背景对跟踪器的干扰。
附图说明
图1是本发明实施例基于双注意力机制的目标跟踪方法的整体框架图;
图2是本发明实施例可变形注意力网络结构图;
图3是本发明实施例稀疏注意力网络结构图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明实施例提供一种基于双注意力机制的目标跟踪方法,其主要思想是:通过可变形注意力使网络聚焦最关注信息;并通过稀疏注意力对模板帧和搜索帧增强后的特征进行融合,减少对背景的关注权重,相对的增加对搜索区域潜在目标的关注权重。经过这两次的操作从而增强网络的鲁棒性,最终克服背景对跟踪器的干扰。如图1所示,本发明实施例具体包括如下步骤:
步骤1,构建主干网络模型,该主干网络模型包括两个分支,分别为检测分支和模板分支,如图1所示。对于给定的若干组模板帧和搜索帧,采用模板分支对模板帧、检测分支对搜索帧提取深度特征;步骤1中对模板帧和搜索帧的特征提取的具体过程如下:
模板帧和搜索帧特征提取过程完全一致,下面以模板帧为例进行说明。模板帧包括4个卷积模块,其中第2、3、4个卷积模块使用到了相同的结构-残差块(由三个卷积层组成,首先通过1×1卷积压缩通道(4倍),然后3×3卷积,1×1卷积还原到原来的维度,最后还有个1×1卷积从输入直接连接到输出,实现残差相加。如果卷积过程中进行下采样(第一个步长不等于1)或者通道数要发生变化(输入不等于输出)时,残差的1×1卷积的步长变成能够与输出分辨率匹配的大小(如stride=2))。在本实施例中,第一个卷积模块包括64个7×7卷积核的卷积层和3×3的最大池化层,其步长都为2。第二个卷积模块包括64个1×1卷积核的卷积层、64个3×3卷积核的卷积层、256个1×1卷积核的卷积层,步长都为1。第三个卷积模块包括128个1×1卷积核的卷积层、128个3×3卷积核的卷积层、512个1×1卷积核的卷积层,步长都为2。第四个卷积模块包括256个1×1卷积核的卷积层、256个3×3卷积核的卷积层、1024个1×1卷积核的卷积层,步长都为2。其中,前一个卷积模块的输出为后一个卷积模块的输入,通过这4个卷积模块的特征提取,后面的每一个卷积模块都可以输出比上一个卷积模块更多有效信息,这样得到的模板帧和搜索帧深度特征会更加丰富,为后面的特征融合和目标定位提供更加鲁棒性的特征。
步骤2,将步骤1提取到的模板帧和搜索帧的深度特征分别通过可变形注意力进行有选择性的增强;
在该步骤中提出可变形注意力机制,以在特征图中重要区域的指导下有效地对标记之间的关系进行建模。这些聚焦区域由多组变形采样点确定,这些变形采样点是通过偏移网络从query中学习到的。本实施例采用双线性插值从特征映射中采样特征,然后将采样的特征馈送到key和value投影以获得可变形的key和value。最后,应用标准的多头注意力得到增强的特征图。此外,变形点的位置提供了更强大的相对位置偏差,以促进可变形注意的学习。如图2所示,给定输入特征图生成点的均匀网格作为参考。具体来说,网格大小从输入特征图大小下采样一个因子r,HG=H/r,WG=W/r,其中,H表示输入特征图的高,W表示输入特征图的宽,参考点的值是线性间隔的二维坐标{(0,0),…,(HG-1,WG-1)},然后根据网格形状HG×WG将它们归一化到范围[-1,1],其中(-1,-1)表示左上角(1,1)表示右下角,这样就获得了参考点。为了获得每个参考点的偏移量,将特征图线性投影到query标记为q=xWq,然后馈送到轻量级子网络θoffset(·)以生成偏移量Δp=θoffset(q)。使用query特征设计的子网络用于生成偏移量并分别输出参考点的偏移值。考虑到每个参考点覆盖一个局部s×s区域(s是偏移量的最大值),生成网络也应该具有局部特征的感知,以学习合理的偏移量。因此,在本实施例中将轻量级子网络设置为两个具有非线性激活的卷积模块。在轻量级子网络中,输入特征首先通过5×5深度卷积来捕获局部特征;然后,采用GELU激活和1×1卷积来获得2D偏移量。同样值得注意的是,1×1卷积中的偏差被降低以减轻所有位置的强制偏移。
在获得参考点以及其对应的偏移量后将两者相加获得变形点。在变形点的位置对特征进行采样作为key和value,得到投影矩阵:
其中,分别表示变形后的key、value,Wk表示线性映射、Wv表示线性映射具体来说,在本实施例中将采样函数φ(·;·)设置为双线性插值以使其可微分:
式中,(rx,ry)表示特征图上的整数像素点,(px,py)表示要进行插值的点,x表示整个特征图。g(a,b)=max(0,1-|a-b|)和(rx,ry)索引中所有位置。由于g仅在最接近(px,py)的4个积分点上非零,因此它简化了公式(3)为4个位置的加权平均值。在获得变形后的key和value,对q、k、v执行多头注意力,并采用相对位置偏移R,其中,注意力头的输出公式为:
式中,m表示注意力头数,z表示输出,σ表示softmax操作,T表示转置操作,d表示维度。
为了促进变形点的多样性,本实施例在多头自注意力中遵循类似的范例,并将特征通道分成G组。来自每个组的特征使用共享轻量级子网络分别生成相应的偏移量。在实践中,注意模块的头数M设置为偏移组G大小的倍数,以确保将多个注意头分配给一组变形的key和value。
步骤3,将步骤2中增强后的模板帧和搜索帧特征分别通过稀疏注意力进行权重再分配的分层交叉融合,最终得到融合特征;
在经过步骤2的处理后,每个注意力特征的每个像素值都是由输入特征的所有像素值来计算的,这使得前景边缘区域变得模糊。为此,本实施例还提出了稀疏注意力方法,在稀疏注意力方法中,注意力特征的每个像素值都只由与其最相似的K个像素值决定,这使得前景更加集中,前景边缘区域更加具有分辨力。具体如图3所示,首先,对步骤2得到的增强特征图计算query和key的相似度矩阵,然后仅使用softmax函数对相似矩阵每行的K个最大元素进行归一化,其他元素置0;最后将相似度矩阵和value相乘,得到最终结果;其中,softmax函数为:
SMHA=SoftMax(TopK(QKT))VT; (5)
式中,TopK表示只对QKT的每行取K个最大值进行归一化,其余置0。
图3右侧展示了两种注意力归一化的区别,原始注意力放大了相对较小的相似权重,这使得输出特征容易受到噪声和背景干扰的影响。然而,稀疏注意力可以显著缓解这个问题。
为了减少对背景的关注权重,相对的增加对搜索区域潜在目标的关注权重,本实施例将结合步骤2的可变形注意力和步骤3的稀疏注意力组成跟踪器的特征融合网络,该特征融合网络首先使可变形注意力聚焦最关注信息,然后采用稀疏注意力减少对背景的关注,两者一起克服目标背景对跟踪的影响。具体地,该特征融合网络可以用如下公式描述:
FZD M=DFA(FZS M-1,FXS m-1,FXS m-1); (6)
FZS m=SFA(FZD m,FXD m-1,FXD m-1) ; (7)
FXD m=DFA(FXS m,FZS m-1,FZS m-1); (8)
FXS m=SFA(FXD m,FZD m,FZD m); (9)
式中,m表示当前特征融合层,m-1表示上一层,ZD表示模板分支的基于可变形注意力的DFA模块,ZS表示模板分支的基于稀疏注意力的SFA模块,XD表示搜索分支的基于可变形注意力的DFA模块,XS表示搜索分支的基于稀疏注意力的SFA模块。
采用该特征融合网络对输入的特征图进行特征融合得到融合特征。
步骤4,将步骤3中得到的融合特征通过多层感知机预测目标的位置和尺度;
通过若干层的特征融合层得到融合特征向量并将其输入到预测头(多层感知机)中就能够得到目标的位置和尺度信息。多层感知机包括两个分支:回归分支和分类分支。在本实施例中,选择响应于标签的特征向量的预测为正样本,其余为负样本,对多层感知机进行训练。在训练过程中,所有样本都有助于分类损失,而只有正样本有助于回归损失。本实施例使用标准的二元交叉熵损失作为分类损失,其定义为:
其中,yj表示第j个样本的真实标签,yj=1时表示前景,yj=0时表示背景。p(yj)表示第j个样本的预测标签是真实标签的概率;
对于回归损失,本实施例采用了L1范数损失ζ1和广义交并比损失ζGIoU,具体为:
式中,表示只关注样本中属于目标的点,bj表示算法结果的第j个回归框,/>表示Ground-truth的回归框,采用了lGIoU损失和常用的l1损失,λG和λ1是超参数。
将上述的分类损失和回归损失作为多层感知机的损失函数,对其进行训练得到训练后的多层感知机。之后,将通过若干层的特征融合层得到融合特征向量输入到训练后的多层感知机中就能够得到目标的位置和尺度信息。
步骤5,多层感知机输出每一个检测帧的目标位置信息即完成跟踪。
本实施例还提供了在数据集OTB100(OTB2015)中采用本实施例的方法与其他先进算法的定量比较表,具体如表1(删除线是排名第一、下划线是排名第二)所示,本实施例提出的算法在尺度变化和遮挡的跟踪环境下取得了排名第二的成绩,在快速运动、背景杂乱和运动模糊的跟踪环境下取得了排名第一的成绩,并且排名第二的尺度变化和遮挡与排名第一的差距不大,这正证明了本实施例提出的方法的有效性。
表1 10种跟踪器在OTB数据集上的不同跟踪挑战的成功率
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (10)
1.一种基于双注意力机制的目标跟踪方法,其特征在于,包括如下步骤:
步骤1、构建主干网络模型,所述主干网络模型包括检测分支和模板分支,对于给定的若干组模板帧和搜索帧,分别采用模板分支对模板帧、检测分支对搜索帧提取深度特征;
步骤2、将步骤1提取到的模板帧和搜索帧的深度特征分别通过可变形注意力进行有选择性的增强;
步骤3,将步骤2中增强后的模板帧和搜索帧的特征分别通过稀疏注意力进行权重再分配的分层交叉融合,最终得到融合特征;
步骤4,将步骤3中得到的融合特征通过多层感知机预测获得目标的位置和尺度;
步骤5,多层感知机输出每一个检测帧的目标位置信息即完成跟踪。
2.根据权利要求1所述的基于双注意力机制的目标跟踪方法,其特征在于,检测分支和模板分支均包括4个卷积层,后一个卷积层的输入为前一个卷积层的输出,通过多层卷积层对输入图像进行特征提取以捕获到更丰富的特征。
3.根据权利要求1所述的基于双注意力机制的目标跟踪方法,其特征在于,步骤2中对特征进行有选择性增强的方法为:
对输入的特征图生成均匀网格然后根据网格大小生成参考点;
构建轻量级子网络,将特征图线性投影到query标记为q=xWq,然后馈送到轻量级子网络θoffset(·)以生成参考点的偏移量Δp=θoffset(q);
根据参考点及其偏移量得到变形点,对变形点采用双线性插值从特征映射中采样特征,然后将采样的特征馈送到key和value投影以获得可变形的key和value,最后对可变形的key和value执行多头注意力获得增强特征图。
4.根据权利要求3所述的基于双注意力机制的目标跟踪方法,其特征在于,步骤2中参考点的生成方法为:
给定输入特征x∈RH×W×C,生成一个由点组成的统一网格作为参考。具体来说,从输入特征图大小下采样一个因子r,HG=H/r,WG=W/r,其中,H表示输入特征图的高,W表示输入特征图的宽,参考点的值是线性间隔的二维坐标{(0,0),…,(HG-1,WG-1)},然后根据网格大小HG×WG将其归一化到范围[-1,1],其中(-1,-1)表示网格左上角,(1,1)表示网格右下角,这样就获得了参考点的坐标。
5.根据权利要求3所述的基于双注意力机制的目标跟踪方法,其特征在于,轻量级子网络包括两个具有非线性激活的卷积模块,在轻量级子网络中,输入特征首先通过5×5深度卷积层来捕获局部特征,然后采用GELU激活和1×1卷积层获得参考点的偏移量。
6.根据权利要求3所述的基于双注意力机制的目标跟踪方法,其特征在于,根据变形点获得特征增强图的方法为:
在变形点的位置对特征进行采样作为key和value,得到投影矩阵:
式中,分别表示变形后的key、value,Wk表示线性映射,Wv表示线性映射,φ(·;·)为采样函数;其中,采样函数φ(·;·)设置为:
在获得变形的key和value后,对q、k、v执行多头注意力,并采用相对位置偏移R获得增强特征图,注意力头的输出公式为:
式中,m表示注意力头数,z表示输出,σ表示softmax操作,T表示转置操作,d表示维度。
7.根据权利要求1所述的基于双注意力机制的目标跟踪方法,其特征在于,步骤3中稀疏注意力模块工作机制为:
首先,对步骤2得到的增强特征计算query和key的相似度矩阵,然后采用softmax函数对相似度矩阵每行的K个最大元素进行归一化,其他元素置0;最后将相似度矩阵和value相乘,得到最终融合结果;其中,softmax函数为:
SMHA=SoftMax(TopK(QKT))VT;
式中,TopK表示只对QKT的每行取K个最大值进行归一化,其余置0。
8.根据权利要求1所述的基于双注意力机制的目标跟踪方法,其特征在于,在步骤3中在得到融合特征钱,先将步骤2中的可变形注意力和步骤3中的稀疏注意力组成跟踪器的特征融合网络,其中,特征融合网络描述为:
FZD m=DFA(FZS m-1,FXS m-1,FXS m-1);
FZS m=SFA(FZD m,FXD m-1,FXD m-1);
FXD m=DFA(FXS m,FZS m-1,FZS m-1);
FXS m=SFA(FXD m,FXD m,FZD m);
其中,m表示当前特征融合层,m-1表示上一层,ZD表示模板分支的基于可变形注意力的DFA模块,ZS表示模板分支的基于稀疏注意力的SFA模块,XD表示搜索分支的基于可变形注意力的DFA模块,XS表示搜索分支的基于稀疏注意力的SFA模块。
9.根据权利要求1所述的基于双注意力机制的目标跟踪方法,其特征在于,步骤4中的多层感知机包括两个分支:回归分支和分类分支;选择响应于标签的特征向量的预测为正样本,其余为负样本,对多层感知机进行训练;其中,所有样本都有助于分类损失,而只有正样本有助于回归损失;采样上述的分类损失和回归损失作为多层感知机的损失函数对多层感知机进行训练;最后,通过若干层的特征融合层得到融合特征向量输入到训练后的多层感知机中得到目标的位置和尺度信息。
10.根据权利要求9所述的基于双注意力机制的目标跟踪方法,其特征在于,使用标准的二元交叉熵损失作为分类损失,其定义为:
ζcls=-∑j[yjlog(p(yj))+(1-yj)log(1-p(yj))];
其中,yj表示第j个样本的真实标签,yj=1时表示前景,yj=0时表示背景,p(yj)表示第j个样本的预测标签是真实标签的概率;
对于回归损失,采用了L1范数损失ζ1和广义交并比损失ζGIoU,具体为:
式中,表示只关注样本中属于目标的点,bj表示算法结果的第j个回归框,/>表示Ground-truth的回归框,采用了lGIoU损失和常用的l1损失,λG和λ1是超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310399300.0A CN116563337A (zh) | 2023-04-11 | 2023-04-11 | 基于双注意力机制的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310399300.0A CN116563337A (zh) | 2023-04-11 | 2023-04-11 | 基于双注意力机制的目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563337A true CN116563337A (zh) | 2023-08-08 |
Family
ID=87490742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310399300.0A Pending CN116563337A (zh) | 2023-04-11 | 2023-04-11 | 基于双注意力机制的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563337A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036417A (zh) * | 2023-09-12 | 2023-11-10 | 南京信息工程大学 | 基于时空模板更新的多尺度Transformer目标跟踪方法 |
CN117574259A (zh) * | 2023-10-12 | 2024-02-20 | 南京工业大学 | 适用于高端装备的注意力孪生智能迁移可解释性诊断方法 |
CN117710688A (zh) * | 2023-12-12 | 2024-03-15 | 南昌工程学院 | 基于卷积和注意力相结合特征提取的目标跟踪方法及系统 |
-
2023
- 2023-04-11 CN CN202310399300.0A patent/CN116563337A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036417A (zh) * | 2023-09-12 | 2023-11-10 | 南京信息工程大学 | 基于时空模板更新的多尺度Transformer目标跟踪方法 |
CN117574259A (zh) * | 2023-10-12 | 2024-02-20 | 南京工业大学 | 适用于高端装备的注意力孪生智能迁移可解释性诊断方法 |
CN117574259B (zh) * | 2023-10-12 | 2024-05-07 | 南京工业大学 | 适用于高端装备的注意力孪生智能迁移可解释性诊断方法 |
CN117710688A (zh) * | 2023-12-12 | 2024-03-15 | 南昌工程学院 | 基于卷积和注意力相结合特征提取的目标跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023216572A1 (zh) | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 | |
CN116563337A (zh) | 基于双注意力机制的目标跟踪方法 | |
CN113673425B (zh) | 一种基于Transformer的多视角目标检测方法及系统 | |
CN113609896B (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
Dewan et al. | Deeptemporalseg: Temporally consistent semantic segmentation of 3d lidar scans | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN116402858B (zh) | 基于transformer的时空信息融合的红外目标跟踪方法 | |
Ding et al. | Fh-net: A fast hierarchical network for scene flow estimation on real-world point clouds | |
CN112861970A (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN117058456A (zh) | 一种基于多相注意力机制的视觉目标跟踪方法 | |
CN114724185A (zh) | 一种轻量型的多人姿态跟踪方法 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN113393496A (zh) | 一种基于时空注意力机制的目标跟踪方法 | |
CN116563355A (zh) | 一种基于时空交互注意力机制的目标跟踪方法 | |
CN115240121A (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN115239765A (zh) | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 | |
CN116681687B (zh) | 基于计算机视觉的导线检测方法、装置和计算机设备 | |
CN117409481A (zh) | 一种基于2dcnn和3dcnn的动作检测方法 | |
CN116797799A (zh) | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统 | |
Zhang et al. | Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image | |
Zhang et al. | Key technologies of smart factory machine vision based on efficient deep network model | |
Ghosh et al. | Two-stage cross-fusion network for stereo event-based depth estimation | |
Pang et al. | Real-time tracking based on deep feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |