CN117058456A - 一种基于多相注意力机制的视觉目标跟踪方法 - Google Patents

一种基于多相注意力机制的视觉目标跟踪方法 Download PDF

Info

Publication number
CN117058456A
CN117058456A CN202311062307.XA CN202311062307A CN117058456A CN 117058456 A CN117058456 A CN 117058456A CN 202311062307 A CN202311062307 A CN 202311062307A CN 117058456 A CN117058456 A CN 117058456A
Authority
CN
China
Prior art keywords
feature
input
layer
output
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311062307.XA
Other languages
English (en)
Inventor
刘晶红
刘发学
陈琪琪
王宣
刘成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Original Assignee
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Institute of Optics Fine Mechanics and Physics of CAS filed Critical Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority to CN202311062307.XA priority Critical patent/CN117058456A/zh
Publication of CN117058456A publication Critical patent/CN117058456A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉跟踪技术领域,尤其涉及了一种基于多相注意力机制的视觉目标跟踪方法,包括如下步骤:S1:将孪生神经网络中目标模板和搜索区域两个分支的输入图像进行归一化处理;S2:将图像信息输入至特征提取网络中,输出提取信息的最后三层特征块;S3:将三层特征块分层输入至双阶段注意力感知网络中;S4:将三个特征块通过调整层多个卷积操作统一调整维度;S5:将三个特征块分层地输入至多层上下文信息解码器模块中;S6:将输出的三个特征块分别通过尺度降低操作合并降低尺度;S7:获得响应图;S8:获得全局视角优化的响应图;S9:将优化后的响应图输入分类回归预测头,得到追踪结果。本发明可增强不同层次特征目标跟踪的精度。

Description

一种基于多相注意力机制的视觉目标跟踪方法
技术领域
本发明涉及计算机视觉跟踪技术领域,尤其涉及了一种基于多相注意力机制的视觉目标跟踪方法。
背景技术
目标追踪任务是计算机视觉领域一项基本而富有挑战性的问题,目标追踪旨在只给定目标首帧初始位置的信息,确定目标在后续的位置并生成预测瞄框。最初,目标追踪是一项模拟人类视觉注意力和认知机制并逐渐成为计算机视觉领域内的一项重要任务,最近,受益于交叉学科的迅速发展,目标跟踪被广泛应用于智能视频监控、无人机应用、辅助自动驾驶等领域。
目标跟踪这一任务可以被描述为:通过分析视频图片序列,对检测出的各个候选目标区域实施匹配,定位出这些目标在图像中的坐标位置,跟踪算法设计的关键环节分为两部分,目标表观模型的设计和运动模型的设计。1)运动模型可以由算法采用的跟踪策略来建立,生成模型的跟踪方法如粒子滤波(基于概率,贝叶斯)采取的跟踪策略通常为:使用贝叶斯滤波理论估计目标的状态,即根据目标当前时刻的先验知识和状态方程,采用递推的方式对下一时刻的状态进行预测和修正,以实现对目标时变状态的估计;2)通过目标的表观特征来建立相应的表观模型,将目标表观建模分为生成式跟踪和判别式跟踪,对于生成式跟踪,其流程为使用建立的表观模型直接与目标类别进行模板匹配,以达到跟踪的目的,对于判别式跟踪,算法通过分类模型来区分目标和背景,以分类和回归的思想精确地确定目标位置。
现有的传统算法,大多基于生成模型实现目标跟踪,需要复杂的检测特征算子,采用手工设计特征的方式进行模版匹配的方式完成目标跟踪这一任务。如光流法运动目标跟踪,仍将运动目标跟踪任务分为两步,第一步计算两帧图像的光流信息,第二步选择合适的阈值分割光流图,未能集成合适的网络框架,造成阈值选择困难。对于平台运动自由度高,运动较为复杂的航拍图像不适用,而且存在速度较慢,漏检较多,运动目标跟踪不准确不完整等问题。
近年来,基于孪生神经网络的最优的目标跟踪方法成为解决跟踪问题的十分高效的方法,孪生神经网络在性能提升巨大的同时,在精度和实时性方面也取得了平衡,已成为基于深度学习方法中的热点研究领域。孪生神经网络追踪方法的核心思想是采用了两个相同的特征提取网络分支,分别用于目标模板和搜索区域的特征提取并通过互相关层网络的运算过程将追踪问题转化为两分支特征间的相似度匹配问题,最终通过后续的分类回归网络得到最佳匹配搜索区域完成追踪。近年来,孪生神经网络的发展趋势体现了如何有效利用到不同层次的特征是提升算法性能的关键,一种方式是通过线性多尺度上下文融合的方式,如,一些工作通过对主干提取网络提取的特征块直接求和或通道级联的方式实现特征融合,另一些工作通过设计高效的局部的编码建模层或者通过分解运算特征信息结构扩大感受野的方式使得网络可以获得更加丰富的全局上下文信息。
现有的对特征的利用方式尽管实现了利用上下文信息来应对不同尺度的目标跟踪,但是线性的融合或局部的建模无法充分利用全局视角下的特征信息而且不同层次特征之间像素级的互相关性往往被忽视,而这一点对精确地跟踪也是必要的。同时,为了实现高效且精确地跟踪,我们需要区分目标前景和背景的两种属性以及克服各种各样的模棱两可的干扰特征信息。比如,目标部分遮挡场景下,汽车的特征变得不显著并可能仅可被检测到局部特征而变得难以分辨,在尺度变化场景下汽车的多尺度特征使得成功跟踪对不同层次特征的要求较高。因此,设计针对不同层次特征的特征融合和增强网络以提升像素级识别的特征表达能力是十分必要的。但是在航空遥感场景下的目标遮挡,姿态尺度变化,小目标跟踪等场景下表现欠佳,易出现跟踪漂移,而且在挑战性场景下精度较低,究其原因在于现有算法对于特征的利用不够完善。
因此,为了解决上述问题,并提升现有孪生神经网络算法在上述挑战性场景特点下的性能表现,亟需设计一种基于孪生神经网络分层注意力策略多层特征增强的目标跟踪算法。
发明内容
本发明为解决上述问题,提供了一种基于多相注意力机制的视觉目标跟踪方法,可解决现有方法难以充分利用全局视角下的特征信息且不同层次特征之间像素级的互相关性被忽视的问题,可提高视觉目标跟踪的精度和跟踪的成功率。
为达到上述目的,本发明提出如下技术方案:一种基于多相注意力机制的视觉目标跟踪方法,包括如下步骤:
S1:将孪生神经网络中目标模板和搜索区域两个分支的输入图像进行归一化处理;
S2:将归一化处理后的图像信息输入至特征提取网络中,输出提取信息的最后三层特征块;
S3:将S2中获取的三层特征块分层输入至双阶段注意力感知网络中;首先输入的为三层独立的级联分解编码器模块结构;
S4:将S3中输出的三个特征块通过调整层多个卷积操作统一调整维度;
S5:将S4中的三个特征块分层地输入至双阶段注意力感知网络的第二个功能部分中,第二个功能部分为多层上下文信息解码器模块,目标模板和搜索区域两个分支均包括多层上下文信息解码器模块,多层上下文信息解码器模块包含四个全局特征建模网络模块;
S6:将S5中输出的目标模板的三个特征块、搜索区域的三个特征块分别通过尺度降低操作合并降低尺度;
S7:将S6中得到的目标模板和搜索区域的两个分支的特征块进行深度可分离互相关操作,得到响应图;
S8:将响应图输入至响应图上下文信息编码器模块,得到全局视角优化的响应图;
S9:将优化后的响应图输入分类回归预测头,得到追踪结果。
进一步地,S3中输入的三层特征块分别作为双阶段注意力感知的第一个功能区,即三级独立的级联分解编码器模块的输入,输出的是优化后的同维度特征的三层特征块;
对于级联分解编码器,以backbone提取的第三个特征块在目标模板分支Z的计算过程为例,具体为一个输入为512通道,经过四个卷积操作和一个池化层分解为四路128通道和1路512输入的支线的计算过程为例:对于前四支线,相当于对输入的特征划分为4个子集,每个子集通道具有相同的大小,分别表示为xi(Z)∈RC×H×W,其中i在集合{1,2,3,4}中取值,H,W和C表示输入运算张量数据的形状,H表示通道数量,W表示每张特征图的高度,C表示每张特征图的宽度;将输入特征的第一个子集合传递到3×3深度卷积,输出被添加到下一个子集并作为下一条支线的输入;将每条支线的输出分别表示为Fi,再进行通道级联,并与第五条支线的输出加和后作为模块最终的输出;在第五支线运算中,输入经过平均池化层后消除部分噪声的干扰,最终经过Gamma函数在训练过程中不断调整并找到网络最优的融合方式。
进一步地,backbone提取的三个特征块在目标模板分支Z和搜索区域分支X的6处级联分解编码器部分的计算公式为:
F′i=Concat(Fi)i∈{1,2,3,4}
F5=AvgPool[x(Z)]+Gamma[x(Z)];
得到多尺度特征图x′:
x′=F′i+F5
其中,xi表示输入级联分解编码器模块的经过1*1卷积被分解为4路128通道的的特征块,Fi表示随后经过3*3卷积偏置为1过程后的特征块,Fi′代表将前4路输出特征块通道级联恢复输入通道数后的特征块,F5代表第五路输出的特征块,由输入特征块x(Z)经过AvgPool平均池化和Gamma函数后的两支线的输出结果相加所得。
进一步地,S4中在调整各个特征块通道维度的过程中,采用多层卷积层的维度调整方式,将通道级联后的三层特征块的通道数由原来的[512,1024,2048]通道统一调整为[256,256,256]通道,同时特征块通道数的维度变为3*256。
进一步地,S5中通过双层自注意的计算,实现深层和浅层特征的平衡,双层是指中间层特征块在经历了第一个全局特征建模网络模块的优化计算后,其输出被输入到第二个全局特征建模网络模块作为第二个全局特征建模网络模块的三元输入,最终此路的结果为第二个全局特征建模网络模块的输出;双层自注意具体表示为:
T=GFM(L4,L4,L4)
L′4=GFM(T,T,T)
其中,T表示中间层特征块在经历了第一个全局特征建模网络模块的优化计算后的输出结果,L4表示输入第一个全局特征建模网络模块的三元输入,L′4表示第二个全局特征建模网络模块计算后的最终输出结果。
进一步地,S5中的全局特征建模网络模块,在注意力计算的输入端使用了平均池化方法,采用图像自身编码序列信息,采用补零填充方式;全局特征建模网络模块包括多头注意力模块、前馈网络和归一化层;全局特征建模网络模块的计算过程为:
GFM(Q,K,V)=Norm(I+MLP(I))
I=Norm(Q+MutiHead(Q,Norm&AvgPool(K,V)))
其中,Q表示全局特征建模网络模块三元输入中的查询变量(Query)输入;K表示全局特征建模网络模块三元输入中的键值对中的键(Key)输入;V表示全局特征建模网络模块三元输入中的键值对中的值(Value)输入;I表示全局特征建模网络模块中残差结构的输入,为中间变量;Norm为归一化层,所定义的残差结构为Norm(I+MLP(I)),MLP为全连接层,MutiHead为多头注意力机制的计算过程。
进一步地,S6中通过多层卷积的方式减少特征图的通道数和像素数;目标模板和搜索区域两个分支的特征块尺度分别降低为7*7*256和31*31*256。
进一步地,S7中的响应图具体通过如下方式得到:在相似性匹配网络中,通过对目标模板和搜索区域的三个特征块的对应层进行分层卷积,采用深度可分离互相关运算,以对应层目标模板分支特征块作为卷积核,以对应层搜索区域分支特征块作为被卷积对象,计算出每一级互相关后运算的响应图,具体由下述公式表达:
其中,表示深度可分离互相关操作,X表示搜索区域分支中双阶段注意力感知网络模块输出的经过卷积层降维后的三路特征块,Z表示目标模板分支中双阶段注意力感知网络模块输出的经过卷积层降维后的三路特征块;此时得到的输出响应图的通道数为256*3,使用1*1的卷积层调整响应图的通道数。
进一步地,S8中具体通过如下方式得到优化的响应图:
S81:输入模块的响应图特征信息先经过展开(Unsqueeze)和重新改变形状(reshape)的过程将特征表达通过线性映射转换为4个维度;
S82:通过三个1*1*1的卷积过程将输入的特征块转化为通道数为原来一半的三支线,三支线分别为θ支线、φ支线、g支线;
S83:将θ支线的特征块经过展平和转置操作后与展平后的φ支线特征进行相乘操作,将结果通过softmax归一化后得到注意力分布,作用在展平和转置后的g支线特征块上与之相乘后,得到优化后的特征R;
步骤S81-S83在理论建模的角度表示为:
其中,x表示输入的特征图,i表示对应响应特征的时空位置索引,f函数计算i与j之间的相似性,g函数计算在j位置的特征图的表征,响应因子C(x)用于将输出归一化以得到最终的输出;
对R经过1*1*1卷积层进行转置展平及维度扩充后的特征X′相加,再重置成输入支线运算特征的一致的通道数与大小作为最后的输出R′,具体表示为:
R′=Reshape(X′+conv1×1×1(transpose&flatten(R)))
将R′与最初输入的特征x进行通道级联,再通过1*1的卷积层调整通道维度至与输入的通道维度一致,并作为最终的输出Y,具体表示为:
Y=conv1×1(Concat(R′,X))。
进一步地,S9中采用基于无锚框机制的分类回归网络,通过分类、回归头网络直接对每个像素位置的候选框进行分类与回归;通过中心度头计算每个像素位置的预测框中心度得分。
与现有技术相比,本发明能够取得如下有益效果:
1、首先,本发明提出了一种新的多相感知注意力孪生网络框架SiamMAN,可增强网络区分对于目标跟踪这一任务的特征表达能力,提高对不同层次特征要求较高场景下的目标跟踪的精度。本发明采用SiamMAN框架用于目标跟踪任务,引入了适应不同深度层次特征的多相注意力网络,可更好地获取不同层次特征之间的相关性,完善对浅层空间位置特征和深层语义特征信息的利用。
2、其次,本发明提出了适配不同深度特征的两种注意力网络,可实现在全局视角学习网络不同特征之间的依赖性信息,依靠在不同层次特征自适应全局建模获取的丰富的上下文依赖性信息可显著地提升网络架构的跟踪结果;
注意力感知子网络,主干网络提取出特征的3,4,5三个特征块先经过所提出的级联分解编码器打破原有网络感受野的限制,利用建立通道相关性的方式实现各个通道的更新和特征显著性增强,再使用池化操作的Transformer多层增强解码器网络被用以实现分层特征的全局建模融合增强,使特征包括更加丰富的全局上下文信息;
相似性匹配子网络,设计了响应图增强网络,增强深层特征的互相关依赖性,更好地平衡了深层特征的语义与空间信息,提高分类回归网络的输出效果。
3、综上,本发明是应对复杂场景下航拍图像序列运动目标跟踪的完整方案,本发明是针对在航拍视频序列目标跟踪中,基于孪生神经网络跟踪器存在的采用线性的融合或局部的建模无法充分利用全局视角下的特征信息而且不同层次特征之间像素级的互相关性被忽视的问题,以及在目标遮挡、尺度视角变化、复杂背景等引起的跟踪飘移与精度低的问题而提出的。这项任务的难点主要有:
1)噪声干扰:噪声干扰是一个无法避免的问题,无论是成像过程中还是图像传输中,都会受到噪声影响,还有图像有损压缩导致的图像质量下降;2)复杂背景:在空对地场景中,目标区域的像素个数往往偏低,此时,复杂的背景对于跟踪小目标物体跟踪这一任务来说由于含有众多干扰信息,是一个难点场景;3)尺度与视角变化:在空对地的航拍图像序列中,由于无人机或航空机载平台的移动,所获得的图像往往包含了视角变化与对地远近变化的信息,造成目标物体剧烈的尺度变化和观察角度的变化,最终造成跟踪飘移和跟踪失败的发生;4)目标遮挡:在空对地的运动跟踪任务中,目标物体区域可能被背景中的物体部分或者全部遮挡,造成目标跟踪框的飘移或跟踪失败;5)实时跟踪:现有的目标跟踪方法在提升跟踪性能的同时往往模型的参数量会越多,由此造成的过大的计算量会使得跟踪任务的实时性难以保证。在硬件资源有限的情况下,如何优化结构设计,在较少的参数和计算量的情况下实现较好的跟踪性能是目标跟踪技术的一大难点。
本发明在面对上述难点的基础上,设计了一套完整的空对地航空图像序列目标跟踪技术,提出了一种新型的基于孪生神经网络的跟踪器SiamMAN,以解决现有算法采用的线性的融合或局部的建模无法充分利用全局视角下的特征信息而且不同层次特征之间像素级的互相关性被忽视的问题。重点针对航拍挑战性场景中的跟踪漂移和跟踪失败问题,如遮挡、长宽比变化、低分辨率和比例变化。在本项工作中,提出了一种新的基于Siamese多相注意力跟踪器来实现在各种挑战性场景下算法的性能提升,提出了响应图上下文编码器来使得深层特征聚合更多上下文信息,更好地平衡了深层的语义信息。此外,提出了一种双阶段感知注意力模块,以聚合更多长距离跨通道的时空信息实现全局建模,增强跟踪器应对目标遮挡、尺度变化等复杂场景的能力。此外,新的多相注意力特征优化的功能结构也高效的集成进跟踪器的架构中。可极大的提高目标跟踪的精度和效果。
附图说明
图1是根据本发明实施例提供的视觉目标跟踪模型的总体框架图;
图2是根据本发明实施例提供的级联分解编码器模块的结构示意图;
图3是根据本发明实施例提供的响应图上下文信息编码器模块的结构示意图。
具体实施方式
在下文中,将参考附图1-3描述本发明的实施例。在下面的描述中,相同的模块使用相同的附图标记表示。在相同的附图标记的情况下,它们的名称和功能也相同。因此,将不重复其详细描述。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图1-3及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。
一种基于多相注意力机制的视觉目标跟踪方法,包括如下步骤:
S1:将孪生神经网络中目标模板和搜索区域两个分支的输入图像进行归一化处理;归一化处理通过裁剪或填充的方式进行,统一分辨率为127*127和255*255。
S2:将归一化处理后的图像信息输入至ResNet-50特征提取网络中,输出提取信息的最后三层特征块。
S3:将S2中获取的三层特征块分层输入至双阶段注意力感知网络中;首先输入的为三层独立的级联分解编码器模块结构,级联分解编码器即为CSE(CSE:Cascade SplitEncoder)。
如图1所示,特征提取主干网络输出的最后三层3,4,5特征块分别作为双阶段注意力感知的第一个功能区,即三级独立的级联分解编码器(CSE)模块的输入,输出的是优化后的同维度特征的三层特征块。
如图2所示,对于级联分解编码器(CSE),以backbone提取的第三个特征块在目标模板分支Z的计算过程为例,具体为一个输入为512通道,经过四个卷积操作和一个池化层分解为四路128通道和1路512输入的支线的计算过程为例:对于前四支线,相当于对输入的特征划分为4个子集,每个子集通道具有相同的大小,分别表示为xi(Z)∈RC×H×W,其中i在集合{1,2,3,4}中取值,H,W和C表示输入运算张量数据的形状,H表示通道数量,W表示每张特征图的高度,C表示每张特征图的宽度;将输入特征的第一个子集合传递到3×3深度卷积,输出被添加到下一个子集并作为下一条支线的输入;将每条支线的输出分别表示为Fi,再进行通道级联,并与第五条支线的输出加和后作为模块最终的输出;在第五支线运算中,输入经过平均池化层后消除部分噪声的干扰,最终经过Gamma函数在训练过程中不断调整并找到网络最优的融合方式,实现更优的特征利用。
backbone提取的三个特征块在目标模板分支Z和搜索区域分支X的6处级联分解编码器部分的计算公式为:
F′i=Concat(Fi)i∈{1,2,3,4}
F5=AvgPool[x(Z)]+Gamma[x(Z)];
得到多尺度特征图x′:
x′=F′i+F5
其中,xi表示输入级联分解编码器模块的经过1*1卷积被分解为4路128通道的的特征块,Fi表示随后经过3*3卷积偏置为1过程后的特征块,Fi'代表将前4路输出特征块通道级联恢复输入通道数后的特征块,F5代表第五路输出的特征块,由输入特征块x(Z)经过AvgPool平均池化和Gamma函数后的两支线的输出结果相加所得。
与传统的卷积运算相比,级联分解编码器可以获取丰富地远距离全局上下文依赖性信息,打破传统的CNN结构中的感受野的限制,充分利用到不同层次特征之间的全局多尺度特征以增强网络的识别能力。
S4:将S3中输出的三个特征块通过调整层多个卷积操作统一调整维度为256通道。S4中在调整各个特征块通道维度的过程中,采用多层卷积层的维度调整方式,将通道级联后的三层特征块的通道数由原来的[512,1024,2048]通道统一调整为[256,256,256]通道,以减少后续的参数和计算量,同时特征块通道数的维度变为3*256。
S5:经过维度调整后,各层的特征块利用卷积运算被展平为序列信息,并作为后续双阶段注意力感知网络模块的第二个功能部分的输入;双阶段注意力感知网络即为TAN(TAN:Two-stage Attention-aware Network)。将S4中的三个特征块分层地输入至双阶段注意力感知网络的第二个功能部分中,第二个功能部分为多层上下文信息解码器模块,多层上下文信息解码器即为MCD(MCD:Multi-level Contextual Decoder);目标模板和搜索区域两个分支均包括多层上下文信息解码器模块,多层上下文信息解码器模块包含四个全局特征建模网络模块,全局特征建模网络即为GFM(GFM:Global Feature Modeling)。
本实施例设计了一个类似Transformer编码器的GFM网络,通过对通道维度的全局上下文信息进行全局建模,使用自注意力机制获取长距离的通道间的全局依赖性关系。目标模板和搜索区域的MCD模块各包含了4个所提出的GFM模块。具体地,特征提取骨干网络第四层特征块对应的调整后的特征块L4分别作为三路GFM模块的查询变量Q输入,通过这样的操作实现互注意力机制,实现不同支线之间的信息交流,更好的实现长距离深浅层位置和语义信息的全局依赖性建模。而各路的键值对KV输入分别对应各级的维度调整后的输出特征L3,L4和L5。KV输入为L4的块的结果被送到另一个GFM模块,通过双层自注意的计算,实现深层和浅层特征的更好平衡。双层是指con4对应的中间层特征块在经历了第一个GFM模块的优化计算后,其输出被输入到第二个GFM模块作为第二个GFM模块的Q、K、V三元输入,最终此路的结果为第二个GFM模块的输出。双层自注意的计算具体表示为:
T=GFM(L4,L4,L4)
L′4=GFM(T,T,T)
其中,T表示con4对应的中间层特征块在经历了第一个GFM模块的优化计算后的输出结果;L4表示输入第一个GFM模块的Q、K、V三元输入,即conv4对应的中间层特征块,在总体图中即为conv4_x256和conv4_z 256;L′4表示第二个GFM模块计算后的最终输出结果。
对于所提出的GFM模块,具体来说,区别于传统的Transformer编码器结构我们在注意力计算的输入端使用了平均池化方法,作为优化K和V参数的输入数据的预处理机制。为了进一步优化,以获得一个更轻量化的基于Transformer的结构以用于物体跟踪任务,我们用图像自身编码序列信息取代了传统Transformer中的位置编码步骤,采用补零填充的策略确保序列信息的完整。GFM模块由多头注意力模块、前馈网络和归一化层组成,其核心过程是处理输入的三元数据的过程,这实质上是多头注意力机制的计算过程。全局特征建模网络模块的计算过程为:
GFM(Q,K,V)=Norm(I+MLP(I))
I=Norm(Q+MutiHead(Q,Norm&AvgPool(K,V)))
其中,Q表示GFM模块三元输入中的查询变量(Query)输入;K表示GFM模块三元输入中的键值对中的键(Key)输入;V表示GFM模块三元输入中的键值对中的值(Value)输入;I表示GFM模块中残差结构的输入,为计算过程中的中间变量。Norm为归一化层,所定义的残差结构为Norm(I+MLP(I)),MLP为全连接层,MutiHead为多头注意力机制的计算过程。
S6:将S5中输出的目标模板的三个特征块、搜索区域的三个特征块分别通过尺度降低操作合并降低尺度。S6中通过多层卷积的方式减少特征图的通道数和像素数;目标模板和搜索区域两个分支的特征块尺度分别降低为7*7*256和31*31*256。
S7:将S6中得到的目标模板和搜索区域的两个分支的特征块进行深度可分离互相关操作,得到响应图。S7中的响应图具体通过如下方式得到:在相似性匹配网络中,通过对TAN模块输出经过卷积降维后的对应目标模板和搜索区域的3、4、5层的三层特征块的对应层进行分层卷积,采用深度可分离互相关运算,以对应层目标模板分支特征块作为卷积核,以对应层搜索区域分支特征块作为被卷积对象,计算出每一级互相关后运算的响应图,,从而实现输出响应图中深浅特征的融合。具体由下述公式表达:
其中,表示深度可分离互相关操作,X表示搜索区域分支中TAN模块输出的经过卷积层降维后的三路特征块,Z表示目标模板分支中TAN模块输出的经过卷积层降维后的三路特征块;此时得到的输出响应图的通道数为256*3,若直接将其作为后续分类回归网络的输入,计算量仍太大,因此使用1*1的卷积层调整响应图的通道数,减少模型参数量并提高模型推导速度,最大程度保证模型效果和计算效率的平衡。
S8:在进行深度互相关得到响应图之后,为了充分利用深层响特征信息,使其包含更丰富的全局依赖性语义信息,设计了突破局部建模限制的响应图上下文信息编码器RCE(RCE:Responsemap Context Encoder),其结构如图3所示。将响应图输入至响应图上下文信息编码器模块,得到全局视角优化的响应图。
S8中具体通过如下方式得到优化的响应图:
S81:输入模块的响应图特征信息先经过展开(Unsqueeze)和重新改变形状(reshape)的过程将特征表达通过线性映射转换为4个维度;以适配后续高维的卷积池化优化的过程;
S82:通过三个1*1*1的卷积过程将输入的特征块转化为通道数为原来一半的三支线,三支线分别为θ支线、φ支线、g支线;θ支线、φ支线、g支线为接下来计算的三路输入特征;
S83:将θ支线的特征块经过展平(flatten)和转置(transpose)操作后与展平后的φ支线特征进行相乘操作,将结果通过softmax归一化后得到注意力分布,作用在展平和转置后的g支线特征块上与之相乘后,得到优化后的特征R。
步骤S81-S83在理论建模的角度表示为:
其中,x表示输入的特征图,i表示对应响应特征的时空位置索引,f函数计算i与j之间的相似性,g函数计算在j位置的特征图的表征,响应因子C(x)用于将输出归一化以得到最终的输出。
对R经过1*1*1卷积层进行转置展平及维度扩充后的特征X′相加,再重新改变维度成输入支线运算特征的一致的通道数与大小作为最后的输出R′,具体表示为:
R′=Reshape(X′+conv1×1×1(transpose&flatten(R)))
将R′与最初输入的特征x进行通道级联,再通过1*1的卷积层调整通道维度至与输入的通道维度一致,并作为最终的输出Y,具体表示为:
Y=conv1×1(Concat(R′,X))。
相比较于不断堆叠卷积和RNN算子,非局部操作直接计算两个时空位置之间的关系即可快速捕获长范围依赖,高维的远距离依赖性全局建模可以有效提高深层响应图的特征表达能力,达到像素级深浅层信息平衡和语义信息优化的效果,计算效率更高。
S9:将优化后的响应图输入分类回归预测头,得到追踪结果。
在S9的预测头部分,互相关操作后产生的响应图可以看作原搜索区域输入图片的在目标模板作为权重下空间上的线性映射,响应图中每一个位置都可以映射至搜索区域原图像空间中的对应位置,而映射的关键在于线性变换的感受野的大小。区别于使用固定多尺度瞄框进行相似性匹配得到多个响应图,然后将其最大响应区域映射回对应搜索区域位置得到目标预测瞄框中心并通过尺寸回归的方式输出预测瞄框的基于区域建议网络的算法。本发明采用基于无锚框机制的分类回归网络,通过分类、回归头网络直接对每个像素位置的候选框进行分类与回归,无需设置先验信息进行锚框尺寸的初始化设定,从而突破了固定瞄框的尺度和感受野的限制,最大程度上减少了所设置的先验信息对分类回归网络的限制和干扰,避免了多层难以最优化调节的超参数信息的引入,保证了分类回归网络的计算效率。同时通过中心度头计算每个像素位置的预测框中心度得分,消除一些异常像素对生成瞄框准确性的干扰。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种基于多相注意力机制的视觉目标跟踪方法,其特征在于,包括如下步骤:
S1:将孪生神经网络中目标模板和搜索区域两个分支的输入图像进行归一化处理;
S2:将归一化处理后的图像信息输入至特征提取网络中,输出提取信息的最后三层特征块;
S3:将S2中获取的三层特征块分层输入至双阶段注意力感知网络中;首先输入的为三层独立的级联分解编码器模块结构;
S4:将S3中输出的三个特征块通过调整层多个卷积操作统一调整维度;
S5:将S4中的三个特征块分层地输入至双阶段注意力感知网络的第二个功能部分中,第二个功能部分为多层上下文信息解码器模块,目标模板和搜索区域两个分支均包括多层上下文信息解码器模块,多层上下文信息解码器模块包含四个全局特征建模网络模块;
S6:将S5中输出的目标模板的三个特征块、搜索区域的三个特征块分别通过尺度降低操作合并降低尺度;
S7:将S6中得到的目标模板和搜索区域的两个分支的特征块进行深度可分离互相关操作,得到响应图;
S8:将响应图输入至响应图上下文信息编码器模块,得到全局视角优化的响应图;
S9:将优化后的响应图输入分类回归预测头,得到追踪结果。
2.根据权利要求1所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S3中输入的三层特征块分别作为双阶段注意力感知的第一个功能区,即三级独立的级联分解编码器模块的输入,输出的是优化后的同维度特征的三层特征块;
对于级联分解编码器,以backbone提取的第三个特征块在目标模板分支Z的计算过程为例,具体为一个输入为512通道,经过四个卷积操作和一个池化层分解为四路128通道和1路512输入的支线的计算过程为例:对于前四支线,相当于对输入的特征划分为4个子集,每个子集通道具有相同的大小,分别表示为xi(Z)∈RC×H×W,其中i在集合{1,2,3,4}中取值,H,W和C表示输入运算张量数据的形状,H表示通道数量,W表示每张特征图的高度,C表示每张特征图的宽度;将输入特征的第一个子集合传递到3×3深度卷积,输出被添加到下一个子集并作为下一条支线的输入;将每条支线的输出分别表示为Fi,再进行通道级联,并与第五条支线的输出加和后作为模块最终的输出;在第五支线运算中,输入经过平均池化层后消除部分噪声的干扰,最终经过Gamma函数在训练过程中不断调整并找到网络最优的融合方式。
3.根据权利要求2所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,backbone提取的三个特征块在目标模板分支Z和搜索区域分支X的6处级联分解编码器部分的计算公式为:
F′i=Concat(Fi)i∈{1,2,3,4}
F5=AvgPool[x(Z)]+Gamma[x(Z)];
得到多尺度特征图x′:
x′=Fi′+F5
其中,xi表示输入级联分解编码器模块的经过1*1卷积被分解为4路128通道的的特征块,Fi表示随后经过3*3卷积偏置为1过程后的特征块,Fi′代表将前4路输出特征块通道级联恢复输入通道数后的特征块,F5代表第五路输出的特征块,由输入特征块x(Z)经过AvgPool平均池化和Gamma函数后的两支线的输出结果相加所得。
4.根据权利要求3所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S4中在调整各个特征块通道维度的过程中,采用多层卷积层的维度调整方式,将通道级联后的三层特征块的通道数由原来的[512,1024,2048]通道统一调整为[256,256,256]通道,同时特征块通道数的维度变为3*256。
5.根据权利要求4所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S5中通过双层自注意的计算,实现深层和浅层特征的平衡,双层指中间层特征块在经历了第一个全局特征建模网络模块的优化计算后,其输出被输入到第二个全局特征建模网络模块作为第二个全局特征建模网络模块的三元输入,最终此路的结果为第二个全局特征建模网络模块的输出;双层自注意力计算具体表示为:
T=GFM(L4,L4,L4)
L′4=GFM(T,T,T)
其中,T表示中间层特征块在经历了第一个全局特征建模网络模块的优化计算后的输出结果,L4表示输入第一个全局特征建模网络模块的三元输入,L′4表示第二个全局特征建模网络模块计算后的最终输出结果。
6.根据权利要求5所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S5中的全局特征建模网络模块,在注意力计算的输入端使用了平均池化方法,采用图像自身编码序列信息,采用补零填充方式;全局特征建模网络模块包括多头注意力模块、前馈网络和归一化层;全局特征建模网络模块的计算过程为:
GFM(Q,K,V)=Norm(I+MLP(I))
I=Norm(Q+MutiHead(Q,Norm&AvgPool(K,V)))
其中,Q表示全局特征建模网络模块三元输入中的查询变量(Query)输入;K表示全局特征建模网络模块三元输入中的键值对中的键(Key)输入;V表示全局特征建模网络模块三元输入中的键值对中的值(Value)输入;I表示全局特征建模网络模块中残差结构的输入,为中间变量;Norm为归一化层,所定义的残差结构为Norm(I+MLP(I)),MLP为全连接层,MutiHead为多头注意力机制的计算过程。
7.根据权利要求6所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S6中通过多层卷积的方式减少特征图的通道数和像素数;目标模板和搜索区域两个分支的特征块尺度分别降低为7*7*256和31*31*256。
8.根据权利要求7所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S7中的响应图具体通过如下方式得到:在相似性匹配网络中,通过对目标模板和搜索区域的三个特征块的对应层进行分层卷积,采用深度可分离互相关运算,以对应层目标模板分支特征块作为卷积核,以对应层搜索区域分支特征块作为被卷积对象,计算出每一级互相关后运算的响应图,具体由下述公式表达:
其中,表示深度可分离互相关操作,X表示搜索区域分支中双阶段注意力感知网络模块输出的经过卷积层降维后的三路特征块,Z表示目标模板分支中双阶段注意力感知网络模块输出的经过卷积层降维后的三路特征块;此时得到的输出响应图的通道数为256*3,使用1*1的卷积层调整响应图的通道数。
9.根据权利要求8所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S8中具体通过如下方式得到优化的响应图:
S81:输入模块的响应图特征信息先经过展开(Unsqueeze)和重新改变形状(reshape)的过程将特征表达通过线性映射转换为4个维度;
S82:通过三个1*1*1的卷积过程将输入的特征块转化为通道数为原来一半的三支线,三支线分别为θ支线、φ支线、g支线;
S83:将θ支线的特征块经过展平和转置操作后与展平后的φ支线特征进行相乘操作,将结果通过softmax归一化后得到注意力分布,作用在展平和转置后的g支线特征块上与之相乘后,得到优化后的特征R;
步骤S81-S83在理论建模的角度表示为:
其中,x表示输入的特征图,i表示对应响应特征的时空位置索引,f函数计算i与j之间的相似性,g函数计算在j位置的特征图的表征,响应因子C(x)用于将输出归一化以得到最终的输出;
对R经过1*1*1卷积层进行转置展平及维度扩充后的特征X′相加,再重置成输入支线运算特征的一致的通道数与大小作为最后的输出R′,具体表示为:
R′=Reshape(X′+conv1×1×1(transpose&flatten(R)))
将R′与最初输入的特征x进行通道级联,再通过1*1的卷积层调整通道维度至与输入的通道维度一致,并作为最终的输出Y,具体表示为:
Y=conv1×1(Concat(R′,X))。
10.根据权利要求9所述的基于多相注意力机制的视觉目标跟踪方法,其特征在于,S9中采用基于无锚框机制的分类回归网络,通过分类、回归头网络直接对每个像素位置的候选框进行分类与回归;通过中心度头计算每个像素位置的预测框中心度得分。
CN202311062307.XA 2023-08-22 2023-08-22 一种基于多相注意力机制的视觉目标跟踪方法 Pending CN117058456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311062307.XA CN117058456A (zh) 2023-08-22 2023-08-22 一种基于多相注意力机制的视觉目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311062307.XA CN117058456A (zh) 2023-08-22 2023-08-22 一种基于多相注意力机制的视觉目标跟踪方法

Publications (1)

Publication Number Publication Date
CN117058456A true CN117058456A (zh) 2023-11-14

Family

ID=88656916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311062307.XA Pending CN117058456A (zh) 2023-08-22 2023-08-22 一种基于多相注意力机制的视觉目标跟踪方法

Country Status (1)

Country Link
CN (1) CN117058456A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333515A (zh) * 2023-12-01 2024-01-02 南昌工程学院 基于区域感知注意力的目标跟踪方法与系统
CN117710663A (zh) * 2024-02-05 2024-03-15 南昌工程学院 基于特征增强与级联融合注意力的目标跟踪方法与系统
CN117974722A (zh) * 2024-04-02 2024-05-03 江西师范大学 基于注意力机制和改进的Transformer的单目标跟踪系统及方法
CN118172387A (zh) * 2024-03-28 2024-06-11 湖南工程学院 一种基于注意力机制的轻量级多目标跟踪方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333515A (zh) * 2023-12-01 2024-01-02 南昌工程学院 基于区域感知注意力的目标跟踪方法与系统
CN117333515B (zh) * 2023-12-01 2024-02-09 南昌工程学院 基于区域感知注意力的目标跟踪方法与系统
CN117710663A (zh) * 2024-02-05 2024-03-15 南昌工程学院 基于特征增强与级联融合注意力的目标跟踪方法与系统
CN117710663B (zh) * 2024-02-05 2024-04-26 南昌工程学院 基于特征增强与级联融合注意力的目标跟踪方法与系统
CN118172387A (zh) * 2024-03-28 2024-06-11 湖南工程学院 一种基于注意力机制的轻量级多目标跟踪方法
CN117974722A (zh) * 2024-04-02 2024-05-03 江西师范大学 基于注意力机制和改进的Transformer的单目标跟踪系统及方法
CN117974722B (zh) * 2024-04-02 2024-06-11 江西师范大学 基于注意力机制和改进的Transformer的单目标跟踪系统及方法

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN117058456A (zh) 一种基于多相注意力机制的视觉目标跟踪方法
Islam Recent advances in vision transformer: A survey and outlook of recent work
CN109377530A (zh) 一种基于深度神经网络的双目深度估计方法
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
WO2021155792A1 (zh) 一种处理装置、方法及存储介质
Zhou et al. YOLO-CIR: The network based on YOLO and ConvNeXt for infrared object detection
Chen et al. StereoEngine: An FPGA-based accelerator for real-time high-quality stereo estimation with binary neural network
CN112348033B (zh) 一种协同显著性目标检测方法
CN112966747A (zh) 一种基于无锚框检测网络改进的车辆检测方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN115147456A (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
CN116563337A (zh) 基于双注意力机制的目标跟踪方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN118096819A (zh) 一种基于时空联合的无人机图像目标跟踪方法
Xie et al. Edge-assisted real-time instance segmentation for resource-limited iot devices
CN117975565A (zh) 一种基于时空扩散和并行Transformer的动作识别系统及方法
Wang et al. EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention
Zhao et al. Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images
Zhang et al. Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection
Yao et al. Pa-awcnn: Two-stream parallel attention adaptive weight network for rgb-d action recognition
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统
Zhang et al. Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination