CN116645399B - 基于注意力机制的残差网络目标跟踪方法及系统 - Google Patents
基于注意力机制的残差网络目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN116645399B CN116645399B CN202310882901.7A CN202310882901A CN116645399B CN 116645399 B CN116645399 B CN 116645399B CN 202310882901 A CN202310882901 A CN 202310882901A CN 116645399 B CN116645399 B CN 116645399B
- Authority
- CN
- China
- Prior art keywords
- attention
- module
- feature
- channel
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004931 aggregating effect Effects 0.000 claims abstract description 9
- 239000010410 layer Substances 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 239000002356 single layer Substances 0.000 claims description 8
- 230000005484 gravity Effects 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 241000512668 Eunectes Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了基于注意力机制的残差网络目标跟踪方法及系统,涉及计算机图像处理技术领域,包括获取目标模板图像以及搜索图像;对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取;将提取的特征输入至注意力模块中,所述注意力模块包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果。本公开有效提高了目标跟踪的精确度。
Description
技术领域
本公开涉及计算机图像处理技术领域,具体涉及基于注意力机制的残差网络目标跟踪方法及系统。
背景技术
近几年,随着互联网和计算机技术的迅速发展,计算机视觉技术在许多领域都取得了长足的进步,目标跟踪一直是领域内的研究课题之一。由于深度学习模型学习能力强,特征表达能力高,语义信息获取能力强,强大的端到端的学习机制而被广泛应用于计算机视觉的众多研究领域中,在目标跟踪领域中也受到了越来越多的关注和应用。为了提高深度学习类跟踪模型的速度,基于孪生网络的跟踪算法被提出。该算法能够实现端到端的离线训练和保证目标跟踪的实时性。
目前,比较流行的基于孪生网络的深度学习目标跟踪算法主要有SiamFC(SiameseFully-Convolutional Networks,全卷积孪生网络)、SiamRPN(Siameses Region ProposalNetworks,孪生区域建议网络)、SiamMask(Fully-Convolutional Siamese Networks withMask R-CNN,带有Mask R-CNN的全卷积孪生网络)等算法。SiamFC 算法首次利用全卷积网络实现端到端的训练,是孪生网络目标跟踪算法的开山之作;SiamRPN算法,首次将目标检测中的 RPN 引入到孪生网络跟踪中,将相似度计算问题转化为目标分类和回归问题;SiamMask 算法采用更深层次的 Resnet 全卷积孪生神经网络,并在 RPN区域推荐网络中加入掩膜分支 Mask,对目标进行分割,从而实现目标分割。但在实际目标跟踪过程中,由于摄像机型号、性能、跟踪目标周围环境干扰等因素会严重影响目标跟踪的效果,导致目标跟踪失败。SiamMask 算法虽然使用了深层残差网络 Resnet 进行提取深度特征,但是由于该网络只是分层进行提取目标特征,训练跟踪模型时无法充分的学习到相似性很高的目标特征;并且算法对神经网络提取到的特征一视同仁,平等地对待各个通道和空间上的特征信息,事实上这些特征信息的重要性不相同,因此会造成资源的浪费甚至丢失某些目标信息的情况。当这些情况在面对复杂背景的跟踪场景时,会发生跟踪目标漂移或者跟踪失败的情况。
发明内容
本公开为了解决上述问题,提出了基于注意力机制的残差网络目标跟踪方法及系统,使用改进残差模块的Res2net残差网络在细粒度层面提取更全面的目标信息,引入融合通道和空间的CBAM模块(注意力机制模块)来同时关注不同通道间和空间上的目标特征信息,对特征信息附加了权重系数,提升对目标的判别能力,通过使用像素互相关的方法聚合模板图像和搜索图像的特征信息,在一定程度上解决了复杂背景的跟踪场景下,跟踪性能差的问题,提升了目标跟踪的准确性。
根据一些实施例,本公开采用如下技术方案:
基于注意力机制的残差网络目标跟踪方法,包括:
获取目标模板图像以及搜索图像;
对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取;
将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;
其中,空间注意力机制模块的输入是通道注意力机制模块的输出特征图;
采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果。
根据一些实施例,本公开采用如下技术方案:
基于注意力机制的残差网络目标跟踪系统,包括:
图像获取模块,用于获取目标模板图像以及搜索图像;
特征提取模块,用于对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取;
将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;
其中,空间注意力机制模块的输入是通道注意力机制模块的输出特征图;
输出模块,用于采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果。
与现有技术相比,本公开的有益效果为:
本公开采用改进的残差模块构建的Res2net残差网络作为主干特征提取网络。通过在单个残差块中构造分层残差连接的方法,即提取每一层特征时对该层以多尺度的方式提取特征,该模块可以在细粒度层次中提取更全面的目标特征,从而增加每个网络层感受范围。该方法具有较强的多尺度特征提取能力,使目标跟踪更加准确、鲁棒性更好,且计算量小。
本公开引入通道注意力和空间注意力形成一个有效的注意力模块CBAM,通道注意力模块能有效地提升与跟踪目标相关通道的权重,降低与跟踪目标非相关通道的权重,从而实现在不同通道间更关注感兴趣的目标;空间注意力模在不增加计算量的情况下,提高了重要特征在空间上的权重,提高了网络对目标特征的识别效率。两者分别突出了通道和空间层面上有意义的信息,增强了输出特征的表征能力,提升了算法对目标的判别能力,提高了复杂场景下目标跟踪的准确性。
本公开使用像素互相关的方法聚合模板图像和搜索图像的特征信息,避免了空间特征信息模糊,尽可能多地维护了特征图上的空间特征信息,为后续目标检测及跟踪提供了保留了更多的有效信息。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开的注意力机制的残差网络目标跟踪网络整体结构图;
图2为本公开中改进的Res2net网络残差模块瓶颈结构图;
图3为本公开引入的通道注意力模块结构图;
图4为本公开引入的空间注意力模块结构图;
图5为本公开融合通道注意力和空间注意力形成的CBAM注意力机制模块结构图;
图6为本公开中像素互相关原理示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开提供了一种基于注意力机制的残差网络目标跟踪方法,包括:
步骤一:获取目标模板图像以及搜索图像;
步骤二:对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取;
步骤三:将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;
其中,空间注意力机制模块的输入是通道注意力机制模块的输出特征图;
步骤四:采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果。
作为一种实施例,如图1所示,本公开的基于注意力机制的残差网络目标跟踪算法总体流程为:首先输入图像,然后Res2net残差网络对图像进行特征提取,再经过CBAM注意力机制模块对特征进行加权,然后通过像素互相关保留特征图上的空间特征信息,最后输出特征信息到检测系统。所述算法的具体实施方式如下:
步骤1:获取目标模板图像以及搜索图像;将目标模板图像以及搜索图像输入至改进的残差目标跟踪网络中,所述改进的残差目标跟踪网络采用改进的残差模块构建的Res2net 残差网络作为主干特征提取网络,通过在单个残差块中构造分层残差连接的方法,即提取每一层特征时对该层以多尺度的方式提取特征,该模块可以在细粒度层次中提取更全面的目标特征,从而增加每个网络层感受范围。
其中,改进的残差模块构建的 Res2net 残差网络,通过将、/>和/>卷积核串行化成瓶颈模块,/>卷积核巧妙地降低或扩展了特征图的维度,使/>卷积核的数量不受前一层的影响,输出不影响下一层的模块,增加了网络的非线性,减轻了网络计算量,降低了输出的维度。
不同于目前的 CNN 网络仅以分层的方式提取目标特征,改进的残差模块构建的Res2net 残差网络,通过在单个残差块中构造分层残差连接的方法,即提取每一层特征时对该层以多尺度的方式提取特征,该模块可以在细粒度层次中提取更全面的目标特征,从而增加每个网络层感受范围。
不同于一般的瓶颈结构采用卷积核进行特征提取,Res2net 残差模块用分层的一组卷积核替换单个/>卷积核,将未用卷积核组以分层残差方式进行连接,如图2所示。该方法具有较强的多尺度特征提取能力,且计算量小。
改进的Res2net 残差模块在卷积后,将特征映射均匀分割成s个特征映射的子集,用/>表示,其中/>。与输入特征图比较,各特征子集/>空间大小相同,但是通道数目不同,为/>。除/>外,每一种/>都有对应的/>卷积,由/>表示,使用/>表示/>的输出。特征子集/>和/>的输出相加,然后输入/>。因此,输出/>可以表示为:
(1)
因为采用拆分混合连接结构,res2net 模块的输出包含不同感受野大小的组合,该结构有利于提取全局和局部信息,为了在增加 s 的同时减少参数,省略了第一个分割部分的卷积。
步骤2:将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通道和空间注意力机制对提取的特征附加权重。融合了通道注意力和空间注意力形成一个有效的注意力模块 CBAM,同时关注通道的比重和像素点的比重,分别突出通道和空间维度上的有意义信息。
在改进的残差模块构建的 Res2net 残差网络提取特征后,由于各通道间的特征信息重要性不相同,引入通道注意力模块关注不同通道间感兴趣的特征信息,使用通道注意力模块更好地适应被跟踪目标的语义变化。利用通道注意力选择有用的通道,以自适应地促进当前的跟踪任务。
通道注意力模块结构如图3所示,给定经过主干特征提取网络提取到的输入特征图,首先沿空间轴进行全局平均池化和最大池化,生成两个1维通道特征向量分别表示为/>和/>。再在每个池化特征向量上应用多层感知器,以在C个通道上创建1维通道注意图/>,
(2)
其中表示sigmoid激活函数,/>表示元素相加,MLP表示多层感知器,由一个权重为/>具有通道缩减功能的全连接层和一个ReLU激活函数,以及一个权重为具有通道增加功能的全连接层和一个sigmoid激活函数组成,其中r是一个通道缩减率,用来减少计算量。
在 Res2net 残差网路提取目标特征后,由于空间位置上的特征信息重要性不相同,引入空间注意力模块关注空间上感兴趣的目标特征信息。空间注意力模块的注意力机制被引入特征图,从而建立了两个特定位置之间的关联。对于空间注意力模块特征图中的每一像素点的特征值,可以利用加权求和特征图中各像素点的特征信息进行计算,最后的输出为结合输入的特征值与空间位置的特征信息进行元素相加,从而实现网络对空间位置上感兴趣目标进行关注的目的。
再将通道注意力模块输出的特征图输入至空间注意力模块中,空间注意力模块结构如图4所示,其输入是通道注意力模块的输出特征图,首先沿通道轴进行全局平均池化和最大池化,得到两个2维空间特征向量分别为和/>,再将这两个2维空间特征向量连接起来并输入到具有sigmoid激活的单层感知器中,得到具有权重信息的特征向量。具体的表达式为:
(3)
其中,表示sigmoid激活函数,SLP表示单层感知器,由卷积核大小为7,填充为3,步长为1,输入通道为2,输出通道为 1 的卷积层组成。
融合了通道注意力和空间注意力形成一个有效的注意力模块 CBAM,模块结构如图5所示,该模块包含一个多层感知器的通道注意力和一个单层感知器的空间注意力组成,同时关注通道的比重和像素点的比重,分别突出通道和空间维度上的有意义信息。主干特征提取网络输出的特征向量为,其中W、H和C分别表示特征图的宽度、高度和通道数。由于低级几何表示对目标对象定位的贡献更大,而高级语义信息足以将目标对象与背景环境区分开来,所以先使用通道注意力,然后使用空间注意力。经过CBAM细化的特征图为/>,整体计算表达式为:
(4)
步骤3:采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果。
采用一种像素互相关的方法聚合目标模板图像和搜索图像的特征,避免了空间特征信息模糊,尽可能多地维护了特征图上的空间特征信息;其原理如图6所示,将和/>表示为目标模板图像和搜索图像的特征,像素互相关的原理是首先将K分解为/>个小卷积核/>,然后分别利用/>(B,C,1,1)在搜索图像特征/>(B,C,Hz,Wz)上滑动窗口,逐通道之间互相做卷积运算,最后得到通道数为/>的特征图/>(B,HxWx,Hx,Wx)。该过程可表示为:
(5)
其中*表示像素互相关。将分解的过程中将模板图像特征的每一个部分作为卷积核,相当于用每一个小的卷积核来编码搜索图像上的特征信息,逐像素互相关确保了每个相关图对目标上局部区域的信息进行编码,同时避免空间特征的模糊。
本公开的基于注意力机制的残差网络目标跟踪方法适用于单目标跟踪,在SiamMask(Fully-Convolutional Siamese Networks with Mask R-CNN,带有Mask R-CNN的全卷积孪生网络)算法框架基础上采用Res2net的主干网络,嵌入注意力机制模块CBAM,使用 python 语言编写程序完成目标跟踪实验。本公开采用VOT2018、VOT2019和OTB100对基于注意力机制的残差网络目标跟踪方法进行测试。实验中使用的环境:操作系统为linux(Ubuntu18.04),一种计算机操作系统;使用的版本为Ubuntu18.04;Intel(R) Core(TM) i711700F CPU(2.50GHz),一种桌面级处理器;GPU 为 NVIDI GeForce RTX 3060,12GVRAM;实验中使用的深度学习环境为:CUDA 11.4,是一种并行计算平台和编程模型,CUDNN8.2.4,是GPU加速的用于深度神经网络的原语库,Pytorch 1.10.2,是一个开源的Python机器学习库。使用的 Python库包括 Anaconda 3,是一个开源的Python发行版本,Python3.7,是一种解释型、面向对象、动态数据类型的高级程序设计语言,numpy,是Python的一种开源的数值计算扩展matlablib,是matlab自定义库,opencv,是一种计算机视觉和机器学习软件库等。
(1)数据集
本公开使用的训练数据集包括 COCO 数据集、ImageNet VID 数据集、YouTube-BoundingBox 数据集。这些数据集中包含了目标跟踪中的各种挑战,例如目标快速运动、目标发生形变、目标遮挡等。
本公开选择 OTB100 和 VOT2018、VOT2019 三个当前最具有代表性的测试数据集,进行测试算法的性能。OTB 数据集的测试序列包含了 11 种具有挑战性的干扰因素,还包含了 25%的灰度序列图像。VOT(Visual Object Tracking)是一种用于视觉跟踪国际性比赛的数据集。
(2)实验使用默认参数情况说明:
本公开使用了在 ImageNet 数据集上预训练的 ResNet50 模型。训练模型采用随机梯度下降(SGD)在 GPU 上进行,共分为 20 个 epoch,每次处理小批量样本数(batchsize)设置为 64,动量设置为 0.9,前五个epoch的学习率从 0.0001 线性增加到0.0005,后 15个 epoch 的学习率从 0.0005 指数衰减到 0.00005,前 10 个epoch只进行训练目标估计的头网络,从第11epoch 开始会开始解冻 backbone,并进行训练backbone。
(3)测试结果
OTB数据集以成功率和精确率为主要评价指标。本公开算法与其他算法在OTB100数据集上的对比结果如表1所示。可以看出,该方法的成功率为0.698,准确率可达0.909。
表1OTB100 数据集上本发明算法与其他算法的跟踪结果的对比
VOT数据集以期望平均重叠(EAO)、准确率(Accuracy)和鲁棒性(Robustness)为主要评价指标。表2和3显示了本公开算法与其他算法在VOT2018和VOT2019数据集上的结果对比。可以看出,在VOT2018数据集上,公开方法的平均重叠期望为0.378,鲁棒性为0.267,准确率可达0.608。在VOT2019数据集上,本公开方法的期望平均重叠为0.282,鲁棒性为0.487,准确率可达0.604。
表2VOT2018数据集上本发明算法与其他算法的跟踪结果的对比
表3VOT2019 数据集上本发明算法与其他算法的跟踪结果的对比
可以得出的结论是,在细粒度级别上提取丰富的目标特征信息和引入注意力机制模块来关注空间和通道上的目标特征可以有效提高目标跟踪的精确度,基于注意力机制的残差网络目标跟踪方法具有很好地跟踪效果。
实施例2
本公开的一种实施例中提供了基于注意力机制的残差网络目标跟踪系统,包括:
图像获取模块,用于获取目标模板图像以及搜索图像;
特征提取模块,用于对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取;
将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;
其中,空间注意力机制模块的输入是通道注意力机制模块的输出特征图;
输出模块,用于采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (4)
1.基于注意力机制的残差网络目标跟踪方法,其特征在于,包括:
获取目标模板图像以及搜索图像;
对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取,包括:
采用改进的残差模块构建的Res2net残差网络作为主干特征网络,通过在单个残差块中构造分层残差连接的方法,即提取每一层特征时对该层以多尺度的方式进行特征提取,在细粒度层次中提取目标特征,增加每个网络层的感受范围;所述改进的残差模块构建的Res2net残差网络为:Res2net残差模块用分层的一组卷积核替换单个卷积核,将未用卷积核组采用分层残差的拆分混合连接结构;
将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;
包括:通道注意力模块关注不同通道间的特征信息,空间注意力模块关注空间上的特征信息,融合通道注意力和空间注意力同时关注不同通道间和空间上的特征信息;利用通道注意力捕捉跟踪目标图像的语义变化,将主干特征网络提取到的输入特征图,首先沿空间轴进行全局平均池化和最大池化,生成通道特征向量,之后在每个池化特征向量上应用多层感知器,在每个通道上创建通道注意图;空间注意力模块的注意力机制引入特征图,建立两个特定位置之间的关联,针对空间注意力模块中的每一像素点的特征值,利用加权求和特征图中各像素点的特征信息进行计算,输出为结合输入的特征值与空间位置的特征信息进行元素相加,实现空间位置上的目标特征的提取,空间注意力模块的输入是通道注意力模块输出的特征图,输入特征图后,首先沿通道轴进行全局平均池化和最大池化,获取空间特征向量,再将空间特征向量连接起来输入到单层感知器中,获取具有权重信息的空间特征向量;
通道注意力和空间注意力形成注意力模块 CBAM,所述注意力模块 CBAM模块包含多层感知器的通道注意力和单层感知器的空间注意力,先使用通道注意力,然后再使用空间注意力;
经过CBAM模块处理后的特征图,采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果,包括:采用像素互相关聚合目标模板图像和搜索图像的特征,将特征分解为多个小卷积核,然后分别利用小卷积核在搜索图像特征上滑动窗口,逐通道之间互相作卷积运算,得到一定通道数的特征图。
2.如权利要求1所述的基于注意力机制的残差网络目标跟踪方法,其特征在于,通道注意力和空间注意力对提取的特征附加权重,融合通道注意力和空间注意力形成注意力模块CBAM,同时关注通道的比重和像素点的比重。
3.如权利要求1所述的基于注意力机制的残差网络目标跟踪方法,其特征在于,特征分解的过程中,包括:将模板图像特征的每一个部分作为卷积核,用每一个小的卷积核来编码搜索图像上的特征信息,逐像素互相关确保每个相关图对目标上局部区域的信息进行编码。
4.基于注意力机制的残差网络目标跟踪系统,其特征在于,包括:
图像获取模块,用于获取目标模板图像以及搜索图像;特征提取模块,用于对所述目标模板图像以及搜索图像以多尺度的方式进行每一层特征的提取;包括:
采用改进的残差模块构建的Res2net残差网络作为主干特征网络,通过在单个残差块中构造分层残差连接的方法,即提取每一层特征时对该层以多尺度的方式进行特征提取,在细粒度层次中提取目标特征,增加每个网络层的感受范围;所述改进的残差模块构建的Res2net残差网络为:Res2net残差模块用分层的一组卷积核替换单个卷积核,将未用卷积核组采用分层残差的拆分混合连接结构;
将提取的特征输入至注意力模块CBAM中,所述注意力模块CBAM包括通道注意力机制模块以及空间注意力机制模块,通过通道注意力机制和空间注意力机制对提取的特征附加权重系数,获取在不同通道间以及空间维度上的目标模板图像特征图和搜索图像特征图;
包括:通道注意力模块关注不同通道间的特征信息,空间注意力模块关注空间上的特征信息,融合通道注意力和空间注意力同时关注不同通道间和空间上的特征信息;利用通道注意力捕捉跟踪目标图像的语义变化,将主干特征网络提取到的输入特征图,首先沿空间轴进行全局平均池化和最大池化,生成通道特征向量,之后在每个池化特征向量上应用多层感知器,在每个通道上创建通道注意图;空间注意力模块的注意力机制引入特征图,建立两个特定位置之间的关联,针对空间注意力模块中的每一像素点的特征值,利用加权求和特征图中各像素点的特征信息进行计算,输出为结合输入的特征值与空间位置的特征信息进行元素相加,实现空间位置上的目标特征的提取,空间注意力模块的输入是通道注意力模块输出的特征图,输入特征后,首先沿通道轴进行全局平均池化和最大池化,获取空间特征向量,再将空间特征向量连接起来输入到单层感知器中,获取具有权重信息的空间特征向量;
通道注意力和空间注意力形成注意力模块 CBAM,所述注意力模块 CBAM模块包含多层感知器的通道注意力和单层感知器的空间注意力,先使用通道注意力,然后再使用空间注意力;
输出模块,用于采用像素互相关的方法聚合目标模板图像和搜索图像的特征,对聚合后的特征进行检测跟踪,输出目标跟踪结果;
包括:经过CBAM模块处理后的特征图,采用像素互相关聚合目标模板图像和搜索图像的特征,将特征分解为多个小卷积核,然后分别利用小卷积核在搜索图像特征上滑动窗口,逐通道之间互相作卷积运算,得到一定通道数的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310882901.7A CN116645399B (zh) | 2023-07-19 | 2023-07-19 | 基于注意力机制的残差网络目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310882901.7A CN116645399B (zh) | 2023-07-19 | 2023-07-19 | 基于注意力机制的残差网络目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645399A CN116645399A (zh) | 2023-08-25 |
CN116645399B true CN116645399B (zh) | 2023-10-13 |
Family
ID=87640325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310882901.7A Active CN116645399B (zh) | 2023-07-19 | 2023-07-19 | 基于注意力机制的残差网络目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645399B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192292A (zh) * | 2019-12-27 | 2020-05-22 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112560695A (zh) * | 2020-12-17 | 2021-03-26 | 中国海洋大学 | 水下目标跟踪方法、系统、存储介质、设备、终端及应用 |
WO2023273136A1 (zh) * | 2021-06-29 | 2023-01-05 | 常州工学院 | 一种基于目标物表征点估计的视觉跟踪方法 |
CN116052025A (zh) * | 2023-01-11 | 2023-05-02 | 南京航空航天大学 | 一种基于孪生网络的无人机视频图像小目标跟踪方法 |
-
2023
- 2023-07-19 CN CN202310882901.7A patent/CN116645399B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192292A (zh) * | 2019-12-27 | 2020-05-22 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112560695A (zh) * | 2020-12-17 | 2021-03-26 | 中国海洋大学 | 水下目标跟踪方法、系统、存储介质、设备、终端及应用 |
WO2023273136A1 (zh) * | 2021-06-29 | 2023-01-05 | 常州工学院 | 一种基于目标物表征点估计的视觉跟踪方法 |
CN116052025A (zh) * | 2023-01-11 | 2023-05-02 | 南京航空航天大学 | 一种基于孪生网络的无人机视频图像小目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
基于卡尔曼滤波的SiamRPN目标跟踪方法;张子龙;王永雄;;智能计算机与应用(03);全文 * |
基于孪生网络与注意力机制的目标跟踪方法;周迪雅;段喜萍;;信息通信(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116645399A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yeh et al. | Lightweight deep neural network for joint learning of underwater object detection and color conversion | |
Hu et al. | SAC-Net: Spatial attenuation context for salient object detection | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
Rahmon et al. | Motion U-Net: Multi-cue encoder-decoder network for motion segmentation | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
US12106541B2 (en) | Systems and methods for contrastive pretraining with video tracking supervision | |
Avola et al. | 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition | |
CN113177950A (zh) | 基于半监督对抗学习的冠脉造影血管图像分割的方法 | |
Jin et al. | Cvt-assd: convolutional vision-transformer based attentive single shot multibox detector | |
Gajjala et al. | MERANet: Facial micro-expression recognition using 3D residual attention network | |
Zhang et al. | Multi-scale spatiotemporal feature fusion network for video saliency prediction | |
CN113971826B (zh) | 估计连续的效价和唤醒水平的动态情感识别方法和系统 | |
Jayanthi et al. | Real time static and dynamic sign language recognition using deep learning | |
CN118212463A (zh) | 基于分数阶混合网络的目标跟踪方法 | |
Gong et al. | Deep learning-based microexpression recognition: a survey | |
Munanday et al. | The Implementation of Transfer Learning by Convolution Neural Network (CNN) for Recognizing Facial Emotions | |
CN116645399B (zh) | 基于注意力机制的残差网络目标跟踪方法及系统 | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
Xie et al. | Global semantic-guided network for saliency prediction | |
Teivas | Video event classification using 3d convolutional neural networks | |
Hashemifard et al. | Weakly supervised human skin segmentation using guidance attention mechanisms | |
Lai et al. | Underwater target tracking via 3D convolutional networks | |
Liang et al. | Fast saliency prediction based on multi-channels activation optimization | |
Lee et al. | Boundary-aware camouflaged object detection via deformable point sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |