CN115205730A - 一种结合特征增强与模板更新的目标跟踪方法 - Google Patents

一种结合特征增强与模板更新的目标跟踪方法 Download PDF

Info

Publication number
CN115205730A
CN115205730A CN202210651887.5A CN202210651887A CN115205730A CN 115205730 A CN115205730 A CN 115205730A CN 202210651887 A CN202210651887 A CN 202210651887A CN 115205730 A CN115205730 A CN 115205730A
Authority
CN
China
Prior art keywords
features
feature
target
attention
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210651887.5A
Other languages
English (en)
Inventor
胡秀华
刘焕
惠燕
赵婧
尤世界
胡旭洋
吴玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202210651887.5A priority Critical patent/CN115205730A/zh
Publication of CN115205730A publication Critical patent/CN115205730A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明为一种结合特征增强与模板更新的目标跟踪方法,其克服了现有技术中存在的目标跟踪任务中特征表征能力不足,同时不能很好地适应目标外观变化对跟踪算法造成的性能低的问题。本发明方法包括以下步骤:(1)利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力进行特征融合,将融合的特征分别经过两个编码器构建特征内部之间的长期依赖关系;(2)使用transformer解码器中的交叉注意力将两个分支的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰;(3)引入在线模板更新模块,缓解目标外观变化的影响,提高跟踪器的鲁棒性。

Description

一种结合特征增强与模板更新的目标跟踪方法
技术领域:
本发明属于计算机视觉技术领域,涉及一种结合特征增强与模板更新的目标跟踪方法。
背景技术:
在计算机视觉领域中,视觉目标跟踪是该领域的研究方向之一,具体的是指对视频序列中的目标进行持续定位的过程,其主要任务在于通过在视频的第一帧标记出要跟踪的目标,并在后续的每一帧中定位出目标,以生成目标的运动轨迹,并在每一时刻提供完整的目标区域。在智能交通,人机交互,智能医疗以及无人机等方面都有广泛的应用。虽然目前的跟踪器的性能有所提高,但在一些光照强度变化,背景杂乱,严重遮挡的情况下,给目标跟踪方法的设计带来了诸多的挑战。而现有的一些研究成果在特征表征方面和适应跟踪中的目标外观变化仍然存在一定的局限性,因此有必要进一步探索高效的实施方案以改善目标跟踪的性能。
近几年,由于深度学习在各个方向的应用,基于深度学习的目标跟踪算法逐渐占领整个跟踪领域。深度学习领域中的卷积神经网络具有很强的表征能力,可以自动的提取目标特征,在特征精度方面有了很大的提高。
为了提高跟踪算法的性能,有研究方法利用孪生网络的匹配能力,将目标跟踪任务看成图像的相似度匹配问题,通过孪生网络上下分支,分别提取模板图像和搜索图像的特征,然后用滑动窗口的形式在搜索图像中确定目标的位置,速度达到了实时性。由于直接利用两个特征之间的相似度,判断目标的位置,精度有待提高,有研究方法将跟踪算法看成分类和回归两阶段任务,使用RPN提升网络特征的表征能力,同时缓解跟踪中多尺度的问题。前期使用孪生网络进行跟踪的算法,使用的网络层次较浅,不能够提取到深层的语义特征,因此,有研究方法利用深层的残差卷积网络,提高网络提取深层语义特征的能力,进而提升跟踪算法的鲁棒性。有些研究者发现注意力机制可以有效的抑制背景干扰和目标变化对跟踪器带来的影响,为了提高特征的表征能力,同时又不引入过多的难以控制的超参数,研究者将注意力机制引入到跟踪领域中。其中,有研究方法通过构建语义分支和外观分支的双分支网络,同时在语义分支中加入通道注意力机制,将特征图加权输出,两分支相互补充,提高特征的表征能力。同时,也有研究方法引入空间和通道注意力,将光流信息和深度特征输入到注意力模块中,得到更精确的运动目标信息,经过互相关性操作得出个跟踪目标的位置。有研究者考虑多种注意力机制,结合残差注意力机制、通道注意力机制和一般注意力机制,将其加入到网络模型,开发了一种非常有效、高效的基于深度学习的跟踪器。由于自注意力可以建立特征之间的长期依赖关系,有研究者利用transformer开发了特征融合网络,该注意力方法可以自适应地关注边缘和相似目标等有用信息,使跟踪器获得更好的分类和回归结果。
目前一些经典的跟踪算法侧重于单独考虑普通的注意力机制和自注意力机制,普通的注意力机制,比如通道注意力、空间注意力等,只是在通道或者空间上进行特征处理。而自注意力机制可以建立特征之间的内部关系,将二者进行结合,可以进行互补,提高特征的表征能力。同时,一些经典的跟踪算法在跟踪过程中仅依靠视频的初始帧特征,不能够很好的适应目标外观变化带来的影响。因此如何获取更具表征能力的特征,同时考虑目标外观变化带来的影响,提高跟踪器的鲁棒性具有重要意义。
发明内容:
本发明的目的在于提供一种结合特征增强与模板更新的目标跟踪方法,其克服了现有技术中存在的目标跟踪任务中特征表征能力不足,同时不能很好地适应目标外观变化对跟踪算法造成的性能低的问题。
为实现上述目的,本发明采用的技术方案为:
一种结合特征增强与模板更新的目标跟踪方法,其特征在于:该方法实现包括用于提取特征的孪生网络、进行特征增强的特征增强网络、常规分类和回归网络以及模板更新模块;该方法包括以下步骤:
(1)利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力后进行特征融合,将融合的特征分别经过两个transformer编码器构建特征内部之间的长期依赖关系;
(2)使用transformer解码器中的交叉注意力将两个分支的编码器输出的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰;
(3)引入在线模板更新模块,缓解目标外观变化的影响,提高跟踪器的鲁棒性。
步骤(1)中,采用ResNet50网络作为基准网络进行特征提取,网络的输入是从训练数据集的视频帧中选取一对图像,即模板图像z(128x128x3)和待搜索图像x(256x256x3),将其送入到孪生网络架构,通过基准网络得到所需要的特征。
步骤(2)中,特征增强网络包括基于通道注意力机制的特征融合部分和transformer长期依赖建立部分;其中,
1)基于通道注意力机制的特征融合包括以下步骤:
将模板图像和待搜索图像经过ResNet50卷积神经网络,取出最后两阶段的特征,分别经过相同的通道注意力机制,计算得到一组权重系数,并对原特征图在通道上进行校正,得到加强后的注意力特征图;然后,再对各个阶段的特征进行深层和浅层信息的融合;
模板图像和待搜索图像经过ResNet50的前四个阶段,分别取出layer2、layer3两阶段的特征向量Fl2_u、Fl3_u、Fl2_d、Fl3_d,将两阶段特征向量进行通道上的关键空间信息增强,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量Fu,Fd
2)transformer长期依赖建立部分包括以下步骤:
自注意力根据嵌入的特征向量得到自注意力中的query(Q),key(K),value(V),根据Q和K计算两者的相似性或者关联性,选择求两个向量点积进行相似度的计算,将得到的分值进行归一化处理,然后根据归一化的权重系数对V进行加权求和;自注意力的计算可以定义为公式(10):
Figure BDA0003688013540000041
其中,Q,K,V均是来自特征的线性变换;
在上下两个分支分别使用编码器学习模板图像特征和待搜索图像特征的内部关系,使用不含自注意力机制的解码器将编码器学习到的两分支图像特征进行信息交互,得到显著性特征;
采用单头自注意力机制,内部运算表示为:
Figure BDA0003688013540000051
其中,
Figure BDA0003688013540000052
分别表示Q,K,V的权重矩阵向量,自注意力中取Q,K,V相同;
上下分支编码器接收通道增强特征向量Fu和Fd,在接收特征之前需要先将特征进行维度上的转换,转换成编码器所需要的特征向量
Figure BDA0003688013540000053
Figure BDA0003688013540000054
通过公式(10)对输入的模板图像特征进行自注意力的计算,同时在每个特征的位置上加入位置编码;
Figure BDA0003688013540000055
Figure BDA0003688013540000056
其中,Pz是位置编码,Outputeu和Outputed表示上下分支编码器的输出;利用解码器对编码器两分支的输出进行特征之间的信息交互,得到最终通过特征增强网络用于分类和回归的优质特征向量;
Figure BDA0003688013540000057
其中,Outputeu_k+Pk,Outputeu_v是编码器分支的K值和V值,在交叉注意力模块中进行信息交互,Fout是经过解码器将上下分支特征进行信息交互后最终的输出,用于后续的定位跟
步骤(3)中,在跟踪过程中,目标消失或者被遮挡时,不宜对模板进行更新,此时需要对得到的模板进行判断,避免更新导致的跟踪效果变差;在分类分支的位置增加一个目标置信度分数评判,分类分支有1024个向量,每个向量长度为2,分别代表前景和背景得分,目标置信度分数评判最大前景得分取出,与设置的阈值进行比较,如果得分超出所设定的阈值α(>0.7),将其图像替换初始帧的位置。
步骤1)基于通道注意力机制的特征融合中,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量Fu,Fd,具体包括以下步骤:
首先对输入的Fl2_u、Fl3_u、Fl2_d、Fl3_d特征图经过通道注意力机制,上下分支特征通过通道注意力的具体过程定义为公式(4)和(5):
Figure BDA0003688013540000061
Figure BDA0003688013540000062
其中,Slk_u、Slk_d表示全局信息,H,W表示特征图的高和宽,
Figure BDA0003688013540000063
Figure BDA0003688013540000064
表示上下分支两阶段的特征向量,k表示layer2、layer3的下标;对全局平均池化后得到的结果进行全连接操作,得到C/r维的向量,然后经过一次ReLU激活函数,再通过一个全连接层将C/r维的向量变回C维向量,再进行sigmoid激活函数,得到最终的权重矩阵,过程定义如公式(6)和(7):
su=σ(W2δ(W1Slk_u)) (6)
sd=σ(W2δ(W1Slk_d)) (7)
其中,W1,W2是两个全连接层的权重,δ和σ分别表示ReLU和sigmoid激活函数,su、sd是最终得到的权重矩阵;最后将学习的各个通道的激活值与原特征图进行相乘:
Fuk=su*Flk_uk=2,3 (8)
Fdk=sd*Flk_dk=2,3 (9)
Fuk、Fdk是结合权重系数的通道特征图,su、sd是通道注意力权重,Flk_u、Flk_d为原始的layer2、layer3的特征图;得到两阶段的通道特征图后,将二者进行特征融合,得到上下分支最具表征能力的特征图Fu、Fd
与现有技术相比,本发明具有的优点和效果如下:
本发明给出的一种结合特征增强与模板更新的跟踪方法,通过强大的transformer建立特征之间的内部关系与通过通道注意力机制的浅层和深层特征的融合,使得网络可以有效的选择关键信息,提高特征的表征能力。引入动态模板更新,可以自适应在目标发生外观变化时进行模板替换,同时可以丰富视频帧之间的时间上下文信息,提高跟踪器的鲁棒性。提出的跟踪算法在跟踪精确度、成功率上都有所提高。该方法对解决相关问题具有很强的参考价值。
附图说明:
图1为本发明方法实现原理框图;
图2为深层特征与浅层特征融合过程图;
图3为transformer原理结构图;
图4为基于分类分支的模板更新方法图;
图5跟踪算法在OTB100上的精度图和成功率图;
图6为跟踪算法在LaSOT数据集上的精度图和成功率图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明为一种结合特征增强与模板更新的目标跟踪方法,主要用于解决目标跟踪任务中特征表征能力不足,同时不能很好地适应目标外观变化对跟踪算法造成的性能低的问题,方法具体的实现原理如图1所示。
从图1可以看出,该方法实现包括四个部分,用于提取特征的孪生网络、进行特征增强的特征增强网络、常规分类和回归网络、模板更新策略。利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力(attn)后进行特征融合,将融合的特征分别经过两个transformer编码器构建特征内部之间的长期依赖关系,使用transformer解码器中的交叉注意力将两个分支编码器输出的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰,提高了特征的表征能力。同时,引入了一个实时的模板更新策略,缓解目标外观变化的影响,提高跟踪器的鲁棒性。各模块实现细节描述如下:
孪生网络架构:
采用ResNet50网络作为基准网络进行特征提取,相比于原始的AlexNet网络,该基准网络可以提取更深层次的语义信息,提高对目标的判断和解释能力。网络的输入是从训练数据集的视频帧中选取一对图像,即模板图像z(128x128x3)和待搜索图像x(256x256x3),将其送入到孪生网络架构,通过基准网络得到所需要的特征。
特征增强过程:
为了获取具有更强表征能力的特征图,构建一个特征增强网络,在跟踪过程中可以保留更多显著性目标特征,加强特征之间的关联性。特征增强网络包括基于通道注意力机制的特征融合部分和transformer长期依赖建立部分。
1)基于通道注意力机制的特征融合。
将模板图像和待搜索图像经过ResNet50卷积神经网络,取出最后两阶段的特征,分别经过相同的通道注意力机制,计算得到一组权重系数,并对原特征图在通道上进行校正,得到加强后的注意力特征图。然后,再对各个阶段的特征进行深层和浅层信息的融合。浅层特征与深层特征融合的过程如图2所示:
模板图像和待搜索图像经过ResNet50的前四个阶段,分别取出layer2、layer3两阶段的特征向量Fl2_u、Fl3_u、Fl2_d、Fl3_d,将两阶段特征向量进行通道上的关键空间信息增强,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量Fu,Fd。具体过程如下,首先对输入的Fl2_u、Fl3_u、Fl2_d、Fl3_d特征图经过通道注意力机制。上下分支特征通过通道注意力的具体过程定义为公式(4)和(5):
Figure BDA0003688013540000091
Figure BDA0003688013540000092
其中,Slk_u、Slk_d表示全局信息,H,W表示特征图的高和宽,
Figure BDA0003688013540000093
Figure BDA0003688013540000094
表示上下分支两阶段的特征向量,k表示layer2、layer3的下标。对全局平均池化后得到的结果进行全连接操作,得到C/r维的向量,然后经过一次ReLU激活函数,再通过一个全连接层将C/r维的向量变回C维向量,再进行sigmoid激活函数,得到最终的权重矩阵。过程定义如公式(6)和(7):
su=σ(W2δ(W1Slk_u)) (6)
sd=σ(W2δ(W1Slk_d)) (7)
其中,W1,W2是两个全连接层的权重,δ和σ分别表示ReLU和sigmoid激活函数,su、sd是最终得到的权重矩阵。最后将学习的各个通道的激活值与原特征图进行相乘:
Fuk=su*Flk_uk=2,3 (8)
Fdk=sd*Flk_dk=2,3 (9)
Fuk、Fdk是结合权重系数的通道特征图,su、sd是通道注意力权重,Flk_u、Flk_d为原始的layer2、layer3的特征图。得到两阶段的通道特征图后,将二者进行特征融合,得到上下分支最具表征能力的特征图Fu、Fd
2)transformer长期依赖建立部分。
自注意力根据嵌入的特征向量得到自注意力中的query(Q),key(K),value(V),根据Q和K计算两者的相似性或者关联性,本发明选择求两个向量点积进行相似度的计算,将得到的分值进行归一化处理,然后根据归一化的权重系数对V进行加权求和。自注意力的计算可以定义为公式(10):
Figure BDA0003688013540000101
其中,Q,K,V均是来自特征的线性变换。
在上下两个分支分别使用编码器学习模板图像特征和待搜索图像特征的内部关系,使用不含自注意力机制的解码器将编码器学习到的两分支图像特征进行信息交互,得到显著性特征。本发明transformer原理结构如图3所示:
本文使用的是单头自注意力机制,内部运算可以表示为:
Figure BDA0003688013540000102
其中,
Figure BDA0003688013540000103
分别表示Q,K,V的权重矩阵向量,自注意力中取Q,K,V相同。
上下分支编码器接收通道增强特征向量Fu和Fd,在接收特征之前需要先将特征进行维度上的转换,转换成编码器所需要的特征向量
Figure BDA0003688013540000104
Figure BDA0003688013540000105
通过公式(10)对输入的模板图像特征进行自注意力的计算,同时在每个特征的位置上加入位置编码。
Figure BDA0003688013540000106
Figure BDA0003688013540000107
其中,Pz是位置编码,Outputeu和Outputed表示上下分支编码器的输出。利用解码器对编码器两分支的输出进行特征之间的信息交互,得到最终通过特征增强网络用于分类和回归的优质特征向量。
Figure BDA0003688013540000111
其中,Outputeu_k+Pk,Outputeu_v是编码器分支的K值和V值,在交叉注意力模块中进行信息交互,Fout是经过解码器将上下分支特征进行信息交互后最终的输出,用于后续的定位跟踪。
模型更新方法设计:
在跟踪过程中,目标消失或者被遮挡时,不宜对模板进行更新,此时需要对得到的模板进行判断,避免更新导致的跟踪效果变差。本发明在分类分支的位置增加一个目标置信度分数评判,分类分支有1024个向量,每个向量长度为2,分别代表前景和背景得分,目标置信度分数评判最大前景得分取出,与设置的阈值进行比较,如果得分超出所设定的阈值α(>0.7),将其图像替换初始帧的位置。该方法可以充分利用跟踪过程的时间上下文信息,缓解目标外观变化的问题。基于分类分支的模板更新方法如图4。
实施例:
使用PyTorch(1.5.0)深度学习框架,操作系统为Ubuntu18.04,显卡为NVIDIATeslaP100,计算机处理器为11th Gen Intel(R)Core(TM)i5-11260H@2.60GHz。网络训练及优化过程中的主要参数设置如下:使用在ImageNet上预训练的参数进行模型初始化。利用LaSOT、GOT-10k、COCO数据集对整个网络进行离线训练,训练过程中,模板图像127x127、待搜索图像256x256,batch_size为64,使用AdamW优化器进行优化。基准网络的学习率设置为10^(-5),其他模块的学习率设置为10^(-4),权重衰减和动量分别为1e-4和0.9,L1损失和LGiou损失权重分别为5和2。
为客观评价本发明方法的性能,在OTB100和LaSOT两个基准数据集上分别与8个经典跟踪器(SiamFC、SiamRPN、CFNet、GradNet、SRDCF、Staple、DSST、MEEM)和10个经典跟踪器(SiamBAN、SiamRPN++、ATOM、TrTr-offline[、SiamFC、SiamMask、SiamDW、VITAL、SPLT、MEEM)进行实验结果对比分析。并依据精确度和成功率评价指标进行评估。实验结果如图5和图6所示。
由图5可以看出,提出的跟踪算法性能明显优于SiamFC等其他几种算法。与SiamFC相比,由于在SiamFC的基础上增加特征增强网络和模板更新方法,得到的该方法在精度上提高10.4%,成功率上提高8.7%,表明该方法的有效性。SiamRPN算法使用浅层的AlexNet进行特征提取,对于深层语义特征提取能力不足,同时忽略了上下文信息,本发明提出的跟踪算法使用ResNet50进行深层语义特征提取,加之提出的特征增强网络的使用,有效提高特征表征能力,该方法在精度和成功率上相比于SiamRPN都有所提高。
由图6可以看出,得益于提出的特征增强网络和模板更新策略的引入,提出的跟踪器在长时跟踪数据集LaSOT上取得了较好的性能,该跟踪算法相比于基础的SiamFC网络,在精确度上提高18.5%,成功率上提高18.6%。SiamBAN跟踪算法由于没有考虑特征之间的内部关系,仅仅使用初始帧作为模板,因此,在长时数据集LaSOT上效果并不是很突出。而本发明提出的特征增强网络不仅考虑到通道上的关键信息,同时使用自注意力机制建立特征之间的长期依赖关系,提高特征的关联性,模板更新策略能够有效的适应目标外观变化,因此,在长时数据集LaSOT上相比于SiamBAN跟踪器性能略高。
表1在lasot测试数据集上与TrTr跟踪器的对比结果
Figure BDA0003688013540000131
在该方法未引入模板更新方法之前,仅采用提出的由通道注意力和transformer架构组成的特征增强网络,性能超出同样使用transformer架构的TrTr-offline跟踪算法5.3%。由上述实验结果表明,将上下两个分支中,通过通道注意力融合的特征分别经过一个编码器,进行特征内部之间的关联之后,再经由解码器进行上下分支信息交互,相比于将上分支通过一个编码器然后输入到下分支的解码器过程,性能有所提高。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡是利用本发明的说明书及附图内容所做的等同结构变化,均应包含在发明的专利保护范围内。

Claims (5)

1.一种结合特征增强与模板更新的目标跟踪方法,其特征在于:该方法实现包括用于提取特征的孪生网络、进行特征增强的特征增强网络、常规分类和回归网络以及模板更新模块;该方法包括以下步骤:
(1)利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力后进行特征融合,将融合的特征分别经过两个transformer编码器构建特征内部之间的长期依赖关系;
(2)使用transformer解码器中的交叉注意力将两个分支的编码器输出的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰;
(3)引入在线模板更新模块,缓解目标外观变化的影响,提高跟踪器的鲁棒性。
2.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法,其特征在于:
步骤(1)中,采用ResNet50网络作为基准网络进行特征提取,网络的输入是从训练数据集的视频帧中选取一对图像,将其送入到孪生网络架构,通过基准网络得到所需要的特征。
3.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法,其特征在于:
步骤(2)中,特征增强网络包括基于通道注意力机制的特征融合部分和transformer长期依赖建立部分;其中,
1)基于通道注意力机制的特征融合包括以下步骤:
将模板图像和待搜索图像经过ResNet50卷积神经网络,取出最后两阶段的特征,分别经过相同的通道注意力机制,计算得到一组权重系数,并对原特征图在通道上进行校正,得到加强后的注意力特征图;然后,再对各个阶段的特征进行深层和浅层信息的融合;
模板图像和待搜索图像经过ResNet50的前四个阶段,分别取出layer2、layer3两阶段的特征向量Fl2_u、Fl3_u、Fl2_d、Fl3_d,将两阶段特征向量进行通道上的关键空间信息增强,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量Fu,Fd
2)transformer长期依赖建立部分包括以下步骤:
自注意力根据嵌入的特征向量得到自注意力中的query(Q),key(K),value(V),根据Q和K计算两者的相似性或者关联性,选择求两个向量点积进行相似度的计算,将得到的分值进行归一化处理,然后根据归一化的权重系数对V进行加权求和;自注意力的计算可以定义为公式(10):
Figure RE-FDA0003794551160000021
其中,Q,K,V均是来自特征的线性变换;
在上下两个分支分别使用编码器学习模板图像特征和待搜索图像特征的内部关系,使用不含自注意力机制的解码器将编码器学习到的两分支图像特征进行信息交互,得到显著性特征;
采用单头自注意力机制,内部运算表示为:
Head(Q,K,V)=Attention(QWi Q,KWi K,VWi V) (11)
其中,Wi Q,Wi K,Wi V分别表示Q,K,V的权重矩阵向量,自注意力中取Q,K,V相同;
上下分支编码器接收通道增强特征向量Fu和Fd,在接收特征之前需要先将特征进行维度上的转换,转换成编码器所需要的特征向量
Figure RE-FDA0003794551160000031
Figure RE-FDA0003794551160000032
通过公式(10)对输入的模板图像特征进行自注意力的计算,同时在每个特征的位置上加入位置编码;
Figure RE-FDA0003794551160000033
Figure RE-FDA0003794551160000034
其中,Pz是位置编码,Outputeu和Outputed表示上下分支编码器的输出;利用解码器对编码器两分支的输出进行特征之间的信息交互,得到最终通过特征增强网络用于分类和回归的优质特征向量;
Figure RE-FDA0003794551160000035
其中,Outputeu_k+Pk,Outputeu_v是编码器分支的K值和V值,在交叉注意力模块中进行信息交互,Fout是经过解码器将上下分支特征进行信息交互后最终的输出,用于后续的定位跟踪。
4.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法,其特征在于:步骤(3)中,在跟踪过程中,目标消失或者被遮挡时,不宜对模板进行更新,此时需要对得到的模板进行判断,避免更新导致的跟踪效果变差;在分类分支的位置增加一个目标置信度分数评判,目标置信度分数评判最大前景得分取出,与设置的阈值进行比较,如果得分超出所设定的阈值α(>0.7),将其图像替换初始帧的位置。
5.根据权利要求3所述的一种结合特征增强与模板更新的目标跟踪方法,其特征在于:步骤1)基于通道注意力机制的特征融合中,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量Fu,Fd,具体包括以下步骤:
首先对输入的Fl2_u、Fl3_u、Fl2_d、Fl3_d特征图经过通道注意力机制,上下分支特征通过通道注意力的具体过程定义为公式(4)和(5):
Figure RE-FDA0003794551160000041
Figure RE-FDA0003794551160000042
其中,Slk_u、Slk_d表示全局信息,H,W表示特征图的高和宽,
Figure RE-FDA0003794551160000043
Figure RE-FDA0003794551160000044
表示上下分支两阶段的特征向量,k表示layer2、layer3的下标;对全局平均池化后得到的结果进行全连接操作,得到C/r维的向量,然后经过一次ReLU激活函数,再通过一个全连接层将C/r维的向量变回C维向量,再进行sigmoid激活函数,得到最终的权重矩阵,过程定义如公式(6)和(7):
su=σ(W2δ(W1Slk_u)) (6)
sd=σ(W2δ(W1Slk_d)) (7)
其中,W1,W2是两个全连接层的权重,δ和σ分别表示ReLU和sigmoid激活函数,su、sd是最终得到的权重矩阵;最后将学习的各个通道的激活值与原特征图进行相乘:
Fuk=su*Flk_uk=2,3 (8)
Fdk=sd*Flk_dk=2,3 (9)
Fuk、Fdk是结合权重系数的通道特征图,su、sd是通道注意力权重,Flk_u、Flk_d为原始的layer2、layer3的特征图;得到两阶段的通道特征图后,将二者进行特征融合,得到上下分支最具表征能力的特征图Fu、Fd
CN202210651887.5A 2022-06-10 2022-06-10 一种结合特征增强与模板更新的目标跟踪方法 Pending CN115205730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210651887.5A CN115205730A (zh) 2022-06-10 2022-06-10 一种结合特征增强与模板更新的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210651887.5A CN115205730A (zh) 2022-06-10 2022-06-10 一种结合特征增强与模板更新的目标跟踪方法

Publications (1)

Publication Number Publication Date
CN115205730A true CN115205730A (zh) 2022-10-18

Family

ID=83576758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210651887.5A Pending CN115205730A (zh) 2022-06-10 2022-06-10 一种结合特征增强与模板更新的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115205730A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115381467A (zh) * 2022-10-31 2022-11-25 浙江浙大西投脑机智能科技有限公司 一种基于注意力机制的时频信息动态融合解码方法及装置
CN116091554A (zh) * 2023-04-11 2023-05-09 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法
CN116109678A (zh) * 2023-04-10 2023-05-12 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116486203A (zh) * 2023-04-24 2023-07-25 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN116563147A (zh) * 2023-05-04 2023-08-08 北京联合大学 一种水下图像增强系统及方法
CN116563569A (zh) * 2023-04-17 2023-08-08 昆明理工大学 一种基于混合孪生网络的异源图像关键点检测方法及系统
CN116844143A (zh) * 2023-09-01 2023-10-03 武汉互创联合科技有限公司 基于边缘增强的胚胎发育阶段预测与质量评估系统
CN117576649A (zh) * 2023-12-26 2024-02-20 华东师范大学 一种基于分割点和双特征增强的车道线检测方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115381467A (zh) * 2022-10-31 2022-11-25 浙江浙大西投脑机智能科技有限公司 一种基于注意力机制的时频信息动态融合解码方法及装置
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116168322B (zh) * 2023-01-10 2024-02-23 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116109678A (zh) * 2023-04-10 2023-05-12 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116109678B (zh) * 2023-04-10 2023-06-13 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116091554A (zh) * 2023-04-11 2023-05-09 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法
CN116091554B (zh) * 2023-04-11 2023-06-16 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法
CN116563569A (zh) * 2023-04-17 2023-08-08 昆明理工大学 一种基于混合孪生网络的异源图像关键点检测方法及系统
CN116563569B (zh) * 2023-04-17 2023-11-17 昆明理工大学 一种基于混合孪生网络的异源图像关键点检测方法及系统
CN116486203B (zh) * 2023-04-24 2024-02-02 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN116486203A (zh) * 2023-04-24 2023-07-25 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN116563147A (zh) * 2023-05-04 2023-08-08 北京联合大学 一种水下图像增强系统及方法
CN116563147B (zh) * 2023-05-04 2024-03-26 北京联合大学 一种水下图像增强系统及方法
CN116844143A (zh) * 2023-09-01 2023-10-03 武汉互创联合科技有限公司 基于边缘增强的胚胎发育阶段预测与质量评估系统
CN116844143B (zh) * 2023-09-01 2023-12-05 武汉互创联合科技有限公司 基于边缘增强的胚胎发育阶段预测与质量评估系统
CN117576649A (zh) * 2023-12-26 2024-02-20 华东师范大学 一种基于分割点和双特征增强的车道线检测方法及系统
CN117576649B (zh) * 2023-12-26 2024-04-30 华东师范大学 一种基于分割点和双特征增强的车道线检测方法及系统

Similar Documents

Publication Publication Date Title
CN115205730A (zh) 一种结合特征增强与模板更新的目标跟踪方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN112560656A (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN107657625A (zh) 融合时空多特征表示的无监督视频分割方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN114299559A (zh) 基于轻量级融合全局与局部特征网络的指静脉识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
CN114782977A (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN116129174A (zh) 基于特征细化自监督学习的广义零样本图像分类方法
CN111382871A (zh) 基于数据扩充一致性的领域泛化和领域自适应学习方法
Long A face recognition algorithm based on intermediate layers connected by the CNN
CN116109649A (zh) 一种基于语义错误修正的3d点云实例分割方法
Lai et al. Underwater target tracking via 3D convolutional networks
Chen et al. Towards pedestrian target detection with optimized mask R-CNN
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
Lian et al. Study on obstacle detection and recognition method based on stereo vision and convolutional neural network
Wang et al. Improved multi-domain convolutional neural networks method for vehicle tracking
Jiao et al. Research on convolutional neural network model for sonar image segmentation
Yue et al. Study on the deep neural network of intelligent image detection and the improvement of elastic momentum on image recognition
Wu et al. Siamese Network Object Tracking Algorithm Combined with Attention Mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination