CN116486203B - 一种基于孪生网络和在线模板更新的单目标跟踪方法 - Google Patents
一种基于孪生网络和在线模板更新的单目标跟踪方法 Download PDFInfo
- Publication number
- CN116486203B CN116486203B CN202310443332.6A CN202310443332A CN116486203B CN 116486203 B CN116486203 B CN 116486203B CN 202310443332 A CN202310443332 A CN 202310443332A CN 116486203 B CN116486203 B CN 116486203B
- Authority
- CN
- China
- Prior art keywords
- template
- feature
- network
- module
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 13
- 230000002708 enhancing effect Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000010257 thawing Methods 0.000 claims abstract description 7
- 230000008014 freezing Effects 0.000 claims abstract description 4
- 238000007710 freezing Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 35
- 238000011176 pooling Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 239000011800 void material Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000002407 reforming Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000005286 illumination Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于孪生网络和在线模板更新的单目标跟踪方法,步骤如下:步骤一、数据预处理:将训练用到的数据集中所有文件夹中视频序列的每一张图片裁剪成固定大小,对裁剪后的数据集生成对应的json文件;所述文件夹中的图片包含模板图片Z以及搜索图片X;步骤二、构建网络模型并进行模型训练:首先冻结模板更新模块的参数,仅训练构造好的网络模型以及特征增强模块;接着解冻模板更新模块,单独训练该模块;在整个训练过程中通过降低网络的损失函数进而优化模型,从而得到表现最好的网络模型权重;步骤三、模型测试,在新的数据集中,通过加载步骤二中表现最好的网络模型权重来测试跟踪目标对象的效果,本发明能够实现精确稳定的跟踪。
Description
技术领域
本发明涉及一种基于孪生网络和在线模板更新的单目标跟踪方法,属于单目标跟踪领域。
背景技术
目标跟踪是在给定目标对象的初始位置的情况下,预测目标对象在视频后续每一帧中的位置,广泛的应用于自动驾驶、智能监控、无人机领域等。对于现实世界的应用来说,跟踪过程通常会受到极大的光照变化、外观变化、各种类型的遮挡、以及运动模糊等环境因素的影响。这也使得单目标跟踪不仅成为计算机视觉领域里面一个非常活跃的研究方向,也是计算机视觉感知领域研究的难点之一。
现阶段的单目标跟踪算法主要分成三类,它们分别是:生成式算法、相关滤波算法、以及深度学习算法。生成式算法采用特征模型描述目标的外观特征,最小化跟踪目标和候选目标之间的重构误差来确认目标。缺点是过于关注目标本身的特征,忽略背景信息,当目标外观剧烈变化或遮挡时容易出现目标漂移或丢失。相关滤波算法是在频域上进行的,利用训练矩阵可以在频域对角化的性质来确认目标。缺点在于边界效应问题,导致判别器不稳定。深度学习算法采用的深度学习网络提取出的深度特征相对于传统手工特征具备更强的信息表达能力。与前两类算法相比,这类方法在速度和精度上有了明显的优势,获得了优越的性能,从而使得越来越多的研究人员将深度学习网络应用到目标跟踪领域。
深度学习中最流行的是孪生网络跟踪模型,这一系列将视觉跟踪任务简化为目标匹配问题,并通过学习目标模板和搜索区域之间的通用相似度图,来确定跟踪对象在搜索区域上的位置。例如,SiamFC在2016年首次将孪生网络引入到单目标跟踪这一领域。SiamRPN首次将目标检测中的区域建议网络引入到孪生跟踪算法中。在此之后建立在孪生网络和目标检测框架上的视觉跟踪模型蓬勃发展。DaSiamRPN和SiamRPN++是提高深度学习跟踪器性能的关键。2020年,研究者们发现由于区域建议网络的引入,这些跟踪器产生了大量冗余的且固定大小的锚框,导致对锚框的数量、大小以及比例等参数非常敏感,鲁棒性不强。因此大量的无锚框孪生跟踪算法被提出来,例如SiamCAR,SiamBAN,SiamFC++,Ocean等。尽管现有的模型已经取得了良好的跟踪表现。但是在复杂场景下,由于模板的特征始终是固定不变的,从而导致难以精确跟踪过程中具有显著变形、快速运动或遮挡的目标,这将会显著增加跟踪漂移或者丢帧的风险。除此之外,孪生网络两分支提取到的特征信息直接进行简单的互相关后往往会丢失掉一些重要的特征信息。
发明内容
本发明为解决上述技术问题,提供一种基于孪生网络和在线模板更新的单目标跟踪方法,使模型的模板特征可以动态的发生变化,并且还提出了一种用于增强显著性特征信息的特征增强模块,两者的结合在达到实时性要求的前提下,获得了具有更高跟踪精度、鲁棒性更强的跟踪模型。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于孪生网络和在线模板更新的单目标跟踪方法,方法步骤如下:
步骤一、数据预处理:将训练用到的数据集中所有文件夹中视频序列的每一张图片裁剪成固定大小,对裁剪后的数据集生成对应的json文件;所述文件夹中的图片包含模板图片Z以及搜索图片X;
步骤二、构建网络模型并进行模型训练:首先冻结模板更新模块的参数,仅训练构造好的网络模型以及特征增强模块;接着解冻模板更新模块,单独训练该模块;在整个训练过程中通过降低网络的损失函数进而优化模型,从而得到表现最好的网络模型权重;
步骤三、模型测试,在新的数据集中,通过加载步骤二中表现最好的网络模型权重来测试跟踪目标对象的效果。
本发明技术方案的进一步改进在于:所述步骤一中图片裁剪后的尺寸为:模板图片尺寸为127*127像素,搜索区域图片尺寸为511*511像素。
本发明技术方案的进一步改进在于:所述步骤二的具体操作为:
步骤2.1、构建网络模型,所述网络模型包括5部分:用于特征提取的孪生网络、用于进行在线模板更新的模板更新模块、用于增强显著性信息的特征增强模块、用于嵌入模板图片Z和搜索区域图片X信息的特征融合结构、用于目标分类以及回归的分类回归子网络;
步骤2.2、将模板图片Z和搜索图片X送入孪生网络,所述孪生网络包括由5层网络组成的模板分支和搜索分支,分别对模板图片Z和搜索区域图片X进行特征提取;为了获取更多的语义以及细节信息,将模板分支后三层网络提取到的特征Zi,i=3,4,5和搜索分支后三层网络提取到的特征Xi,i=3,4,5沿着通道维度进行拼接,得到骨干网络两分支的输出,分别用φ(Z)和φ(X)来表示:
φ(Z)=Cat(Z3,Z4,Z5)φ(X)=Cat(X3,X4,X5);
步骤2.3、将步骤2.2得到的模板图片特征φ(Z)送入模板更新模块得到更新后的特征所述模板更新模块由两层全连接网络组成:
其中表示学习函数,通过学习和训练获得,/>表示每个视频序列第一帧的初始模板;/>表示先前累计的模板;Zi表示用第i帧预测结果得到的模板;/> 表示适合第i+1帧预测的模板;
步骤2.4、将步骤2.2得到的搜索图片特征φ(X)和步骤2.3得到的分别送入特征增强模块;
所述特征增强模块集成了三种注意力模块,分别是通道注意力模块,空间注意力模块,自注意力模块;
假定通道注意力模块的输入特征为Y∈RC×H×W,在保持其通道维度不变的前提下,首先在Y上应用平均池化层和最大池化层来分别生成YA∈RC×1×1,YM∈RC×1×1;然后将这两个特征维度重整成YA,YM∈R1×C’,其中C’=C×1×1;之后将YA和YM通过两层感知机以及经过维度重整操作,得到YA,YM∈RC×1×1;然后将两者相加得到通道注意力权重图AC∈RC×1×1,具体定义如下:
AC=MLP(Avg Pooling(Y))+MLP(Max Pooling(Y))
最后将注意力权重图与该模块的输入Y进行简单的相乘,得到最终的输出YC∈RC ×H×W,具体定义如下:
YC=Sigmoid(AC)Y
空间注意力模块的输入是通道注意力模块中的输出YC∈RC×H×W,在保持特征尺寸大小不变的同时缩减其通道数,首先将YC分别通过平均池化层和最大池化层,得到YA,YM∈R1×H×W;接着将两者沿着通道维度拼接起来,得到YA+M∈R2×H×W,之后对特征YA+M应用具有压缩通道作用的7×7卷积核大小的卷积层以生成空间注意力权重图AS∈R1×H×W,具体定义如下:
AS=conv2d(concat(Avg Pooling(Y),Max Pooling(Y)))
最后将空间注意力权重图和输入特征Y进行简单地相乘,生成空间注意力特征YS∈RC×H×W,具体定义如下:
YS=Sigmoid(AS)Y
自注意力模块是由两分支组成的,输入特征Y∈RC×H×W,一分支将Y维度重整成Y1∈R1×C×N,其中N=H×W;另一分支对Y应用具有维度重整操作的1×1卷积层以生成Y2∈R1×N×1,其中N=H×W;然后将Y1,Y2两者相乘得到AK∈R1×C×1;具体定义如下:
AK=Y1softmax(Y2)
最后将变形后的自注意力矩阵AK∈RC×1×1与输入特征Y进行简单地元素相加,生成自注意力特征YSF∈RC×H×W;
YSF=AK+Y
特征增强模块最终的输出是空间注意力特征YS和自注意力特征YSF的一系列整合操作;将两者沿着通道拼接到一起得到联合特征YSFS∈R2C×H×W;为了使特征增强模块的输入输出一致并保留显著性特征信息,将具有缩减通道数操作的1×1卷积层应用于联合特征YSFS以改变特征图维度;
YEMA=Sigmoid(BN(YSFS))+Y
上式中的YSFS经过BN层以及Sigmoid层处理后和输入特征Y进行简单地相加得到特征增强模块最终的输出YEMA∈RC×H×W;
特征增强模块中的特征Y是指步骤2.1得到的搜索图片特征φ(X)和步骤2.3得到的从而分别得到显著性信息增强后的XEMA和ZEMA;
步骤2.5、将经过特征增强模块输出的两分支特征图ZEMA∈RC×h×w以及XEMA∈RC×H×W进行深度互相关来嵌入两者信息,得到相似度图R;深度互相关定义如下:
R=ZEMA★XEMA;
步骤2.6、将相似度图R送入分类回归子网络,分别得到分类图、回归图以及中心图;所述分类回归子网络包括三个分支:分类分支,回归分支,中心分支,通过这三个分支输出进行损失函数的计算,继而进行模型的训练和优化;
步骤2.7、模型的训练,它包括两个阶段。
第一阶段采用端到端的方式对网络进行训练;分类分支用于计算每个位置的前背景类别分数,每个点包含一个2D向量,输出的分类图尺寸为Acls∈Rw×h×2;回归分支计算每个位置到目标边界框四条边的距离,每个点包含一个4D向量(l,r,t,b),回归图尺寸为Areg∈Rw×h×4;中心分支用来去除异常值,输出的中心图尺寸为Acen∈Rw×h×1;因为远离物体中心的位置往往会产生低质量的预测边界框,这大大降低了跟踪器性能;设(x0,y0)和(x1,y1)分别表示地面实况边界框的左上角和右下角,(x,y)表示特征图上每个点(i,j)对应在原图的位置,则Areg在点(i,j)处的四维坐标可以通过以下公式计算得到:
通过上述公式可以计算出Ground truth和预测边界框之间的IOU,然后使用下述公式计算回归损失函数:
LIOU表示IOU损失函数,θ(·)函数可以定义为:
中心度分支Acen∈Rw×h×1中的每一个元素C(i,j)定义为:
中心度损失LCEN定义为:
其中分类分支的损失函数值为Lcls,回归分支的损失函数为Lreg,中心分支的损失函数为LCEN;按照相应的权重值加权在一起,作为整个系统的总损失函数:
Ltotal=Lcls+μ1Lcen+μ2Lreg
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
第二阶段采用的方式是在线训练;第一阶段训练完毕后,加载训练好的模型参数文件并解冻在线模板更新部分,继而进行接下来的在线训练;在线训练的目的是为了使我们更新后的模板特征预测出的目标标记框更准确;初始帧和目标帧/>的目标模板可以从相应帧中的地面真实位置提取特征获得;模板更新模块的输入是三元组在线训练的损失函数定义为:
上式是通过最小化预测模板和下一帧的真值模板之间的欧几里德距离来实现的。
本发明技术方案的进一步改进在于:所述孪生网络的模板分支和搜索分支为结构相同的resnet-50网络,并且参数共享。
本发明技术方案的进一步改进在于:所述resnet-50网络是改进过的,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
本发明技术方案的进一步改进在于:所述模板更新模块是一种可学习自适应更新模板特征的结构,仅作用于模板分支。
本发明技术方案的进一步改进在于:所述步骤2.7中的总损失函数表达式分别设置μ1=1和μ2=3。
本发明技术方案的进一步改进在于:所述步骤三模型的测试为将步骤2.7两阶段训练好的权重参数进行加载,在新的数据集中测试跟踪效果。
由于采用了上述技术方案,本发明取得的技术进步是:
在单目标跟踪领域,固定的模板特征和没有增加显著性的特征信息导致难以精确跟踪过程中具有显著变形,快速运动或遮挡的目标,从而显著增加跟踪漂移或者丢帧的风险。本发明利用一个可学习的浅层网络来学习模板的更新以及特征增强模块来增加特征的显著性;并且将使用到了主干网络的后三层特征图的输出,添加了一些细节信息,使提取到的特征更加的丰富。
本发明将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息;再者利用了模板更新机制增强了目标在面对照明变化,尺度变化,物体变形,低分辨率时的特征信息,提高了跟踪器的准确性和鲁棒性;最后利用特征增强模块突出关键特征,并削弱次要特征的影响,使模板和搜索区域之间的上下文关系更加密切,进而生成更精确的跟踪框。并且在测试对比试验中,本发明和其他方法相对比具有更加鲁棒的跟踪效果,并且在众多复杂的场景中都可以精准稳定的跟踪目标。
附图说明
图1是本发明的网络结构图;
图2是本发明模板更新模块的结构流程图;
图3是本发明特征增强模块的结构流程图;
图4是本发明模板更新模块训练的流程图;
图5是在GOT-10K测试数据集上不同算法的结果对比图;
图6是在GOT-10K测试数据集上不同算法的跟踪可视化对比图。
具体实施方式
下面结合实施例对本发明做进一步详细说明:
在单目标跟踪领域,固定的模板特征和没有增加显著性的特征信息导致难以精确跟踪过程中具有显著变形,快速运动或遮挡的目标,从而显著增加跟踪漂移或者丢帧的风险。本发明利用一个可学习的浅层网络来学习模板的更新以及特征增强模块来增加特征的显著性;并且将使用到了主干网络的后三层特征图的输出,添加了一些细节信息,使提取到的特征更加的丰富。
如图1所示,一种基于孪生网络和在线模板更新的单目标跟踪方法,方法步骤如下:
步骤一、数据预处理:将训练用到的数据集中所有文件夹中视频序列的每一张图片裁剪成固定大小,对裁剪后的数据集生成对应的json文件;所述文件夹中的图片包含模板图片Z以及搜索图片X;
步骤二、构建网络模型并进行模型训练:首先冻结模板更新模块的参数,仅训练构造好的网络模型以及特征增强模块;接着解冻模板更新模块,单独训练该模块;在整个训练过程中通过降低网络的损失函数进而优化模型,从而得到表现最好的网络模型权重;
步骤三、模型测试,在新的数据集中,通过加载步骤二中表现最好的网络模型权重来测试跟踪目标对象的效果。
其中,步骤一的具体操作为:
将训练所用到的5个数据集中所有视频序列每一张图片裁剪成固定大小后放到对应的文件夹里面,文件夹中存的是用于训练的模板图片以及搜索区域图片,其中模板图片尺寸统一为127*127像素,搜索区域图片尺寸统一为511*511像素。除此之外,还要对裁剪后的数据集生成对应的json文件,方便模型的训练。
步骤二的具体操作为:
步骤2.1、构建网络模型,所述网络模型包括5部分:用于特征提取的孪生网络、用于进行在线模板更新的模板更新模块、用于增强显著性信息的特征增强模块、用于嵌入模板图片Z和搜索区域图片X信息的特征融合结构、用于目标分类以及回归的分类回归子网络;
步骤2.2、将模板图片Z和搜索图片X送入孪生网络,所述孪生网络包括由5层网络组成的模板分支和搜索分支,分别对模板图片Z和搜索区域图片X进行特征提取;为了获取更多的语义以及细节信息,将模板分支后三层网络提取到的特征Zi,i=3,4,5和搜索分支后三层网络提取到的特征Xi,i=3,4,5沿着通道维度进行拼接,得到骨干网络两分支的输出,分别用φ(Z)和φ(X)来表示:
φ(Z)=Cat(Z3,Z4,Z5)φ(X)=Cat(X3,X4,X5);
孪生网络的模板分支和搜索分支为结构相同的resnet-50网络,并且参数共享。resnet-50网络是改进过的,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
步骤2.3、将步骤2.2得到的模板图片特征φ(Z)送入模板更新模块得到更新后的特征所述模板更新模块由两层全连接网络组成,如图2为模板更新模块的结构流程图:
其中表示学习函数,通过学习和训练获得,/>表示每个视频序列第一帧的初始模板;/>表示先前累计的模板;Zi表示用第i帧预测结果得到的模板;/> i表示适合第i+1帧预测的模板;
步骤2.4、将步骤2.2得到的搜索图片特征φ(X)和步骤2.3得到的分别送入特征增强模块,如图3为本发明特征增强模块的结构流程图;
所述特征增强模块集成了三种注意力模块,分别是通道注意力模块,空间注意力模块,自注意力模块;
假定通道注意力模块的输入特征为Y∈RC×H×W,在保持其通道维度不变的前提下,首先在Y上应用平均池化层和最大池化层来分别生成YA∈RC×1×1,YM∈RC×1×1;然后将这两个特征维度重整成YA,YM∈R1×C’,其中C’=C×1×1;之后将YA和YM通过两层感知机以及经过维度重整操作,得到YA,YM∈RC×1×1;然后将两者相加得到通道注意力权重图AC∈RC×1×1,具体定义如下:
AC=MLP(Avg Pooling(Y))+MLP(Max Pooling(Y))
最后将注意力权重图与该模块的输入Y进行简单的相乘,得到最终的输出YC∈RC ×H×W,具体定义如下:
YC=Sigmoid(AC)Y
空间注意力模块的输入是通道注意力模块中的输出YC∈RC×H×W,在保持特征尺寸大小不变的同时缩减其通道数,首先将YC分别通过平均池化层和最大池化层,得到YA,YM∈R1×H×W;接着将两者沿着通道维度拼接起来,得到YA+M∈R2×H×W,之后对特征YA+M应用具有压缩通道作用的7×7卷积核大小的卷积层以生成空间注意力权重图AS∈R1×H×W,具体定义如下:
AS=conv2d(concat(Avg Pooling(Y),Max Pooling(Y)))
最后将空间注意力权重图和输入特征Y进行简单地相乘,生成空间注意力特征YS∈RC×H×W,具体定义如下:
YS=Sigmoid(AS)Y
自注意力模块是由两分支组成的,输入特征Y∈RC×H×W,一分支将Y维度重整成Y1∈R1×C×N,其中N=H×W;另一分支对Y应用具有维度重整操作的1×1卷积层以生成Y2∈R1×N×1,其中N=H×W;然后将Y1,Y2两者相乘得到AK∈R1×C×1;具体定义如下:
AK=Y1softmax(Y2)
最后将变形后的自注意力矩阵AK∈RC×1×1与输入特征Y进行简单地元素相加,生成自注意力特征YSF∈RC×H×W;
YSF=AK+Y
特征增强模块最终的输出是空间注意力特征YS和自注意力特征YSF的一系列整合操作;将两者沿着通道拼接到一起得到联合特征YSFS∈R2C×H×W;为了使特征增强模块的输入输出一致并保留显著性特征信息,将具有缩减通道数操作的1×1卷积层应用于联合特征YSFS以改变特征图维度;
YEMA=Sigmoid(BN(YSFS))+Y
上式中的YSFS经过BN层以及Sigmoid层处理后和输入特征Y进行简单地相加得到特征增强模块最终的输出YEMA∈RC×H×W;
特征增强模块中的特征Y是指步骤2.1得到的搜索图片特征φ(X)和步骤2.3得到的从而分别得到显著性信息增强后的XEMA和ZEMA;
步骤2.5、将经过特征增强模块输出的两分支特征图ZEMA∈RC×h×w以及XEMA∈RC×H×W进行深度互相关来嵌入两者信息,得到相似度图R;深度互相关定义如下:
R=ZEMA★XEMA;
步骤2.6、将相似度图R送入分类回归子网络,分别得到分类图、回归图以及中心图;所述分类回归子网络包括三个分支:分类分支,回归分支,中心分支,通过这三个分支输出进行损失函数的计算,继而进行模型的训练和优化;
步骤2.7、模型的训练,它包括两个阶段。
第一阶段采用端到端的方式对网络进行训练;分类分支用于计算每个位置的前背景类别分数,每个点包含一个2D向量,输出的分类图尺寸为Acls∈Rw×h×2;回归分支计算每个位置到目标边界框四条边的距离,每个点包含一个4D向量(l,r,t,b),回归图尺寸为Areg∈Rw×h×4;中心分支用来去除异常值,输出的中心图尺寸为Acen∈Rw×h×1;因为远离物体中心的位置往往会产生低质量的预测边界框,这大大降低了跟踪器性能;设(x0,y0)和(x1,y1)分别表示地面实况边界框的左上角和右下角,(x,y)表示特征图上每个点(i,j)对应在原图的位置,则Areg在点(i,j)处的四维坐标可以通过以下公式计算得到:
通过上述公式可以计算出Ground truth和预测边界框之间的IOU,然后使用下述公式计算回归损失函数:
LIOU表示IOU损失函数,θ(·)函数可以定义为:
中心度分支Acen∈Rw×h×1中的每一个元素C(i,j)定义为:
中心度损失LCEN定义为:
其中分类分支的损失函数值为Lcls,回归分支的损失函数为Lreg,中心分支的损失函数为LCEN;按照相应的权重值加权在一起,作为整个系统的总损失函数:
Ltotal=Lcls+μ1Lcen+μ2Lreg
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
第二阶段采用的方式是在线训练;第一阶段训练完毕后,加载训练好的模型参数文件并解冻在线模板更新部分,继而进行接下来的在线训练,如图4为模板更新模块训练的流程图;在线训练的目的是为了使我们更新后的模板特征预测出的目标标记框更准确;初始帧和目标帧/>的目标模板可以从相应帧中的地面真实位置提取特征获得;模板更新模块的输入是三元组/>在线训练的损失函数定义为:
上式是通过最小化预测模板和下一帧的真值模板之间的欧几里德距离来实现的。
在单目标跟踪领域,固定的模板特征和没有增加显著性的特征信息导致难以精确跟踪过程中具有显著变形,快速运动或遮挡的目标,从而显著增加跟踪漂移或者丢帧的风险。本发明将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息;再者利用了模板更新机制增强了目标在面对照明变化,尺度变化,物体变形,低分辨率时的特征信息,提高了跟踪器的准确性和鲁棒性;最后利用特征增强模块突出关键特征,并削弱次要特征的影响,使模板和搜索区域之间的上下文关系更加密切,进而生成更精确的跟踪框。并且在测试对比试验中,本发明和其他方法相对比具有更加鲁棒的跟踪效果,并且在众多复杂的场景中都可以精准稳定的跟踪目标。
采用GOT-10K官网提供的数据集进行训练和测试,根据GOT-10K数据集的评测工具,测试该方法的训练效果。图5是在GOT-10K测试数据集上不同算法的结果对比图,结合下表1可以得出:本发明所提出的单目标跟踪算法SiamATU比其他算法在该测试数据集上具有更优的表现。
表1对GOT-10K测试集的评价
为了有一个更加直观的视觉感觉,将测试结果可视化在视频12个视频序列上,并且与以前的一些算法进行了比较,如图6所示。不同颜色的边界框代表了不同的跟踪算法在GOT-10K数据集上的测试结果。SiamATU在出现相似对象,快速运动,尺度变化和全遮挡的情况下依然能画出更准确,更接近目标的跟踪框。比如在跟踪汽车的时候,即使汽车遭到了风沙的大部分遮挡,它仍然能准确地预测出汽车的大小和位置;在海平面跟踪船的时候,由于船的快速移动产生了巨大形变,它依然能准确预测出接近对象大小的框,这主要受益于SiamATU的模板更新以及特征增强模块,即使跟踪对象产生了形变,模板更新模块依然能通过上一帧的模板信息进而预测出更准确的下一帧模板特征,增强了跟踪器的鲁棒性。特征增强模块作用在Siamese网络进行互相关之前,该设计增强了模板分支和搜索分支的特征表示,从而使SiamATU更能准确地找到目标特征的显著性信息,进而在搜索图像上定位到目标对象的位置。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (7)
1.一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:方法步骤如下:
步骤一、数据预处理:将训练用到的数据集中所有文件夹中视频序列的每一张图片裁剪成固定大小,对裁剪后的数据集生成对应的json文件;所述文件夹中的图片包含模板图片Z以及搜索图片X;
步骤二、构建网络模型并进行模型训练:首先冻结模板更新模块的参数,仅训练构造好的网络模型以及特征增强模块;接着解冻模板更新模块,单独训练该模块;在整个训练过程中通过降低网络的损失函数进而优化模型,从而得到最终的网络模型权重;
所述步骤二的具体操作为:
步骤2.1、构建网络模型,所述网络模型包括5部分:用于特征提取的孪生网络、用于进行在线模板更新的模板更新模块、用于增强显著性信息的特征增强模块、用于嵌入模板图片Z和搜索区域图片X信息的特征融合结构、用于目标分类以及回归的分类回归子网络;
步骤2.2、将模板图片Z和搜索图片X送入孪生网络,所述孪生网络包括由5层网络组成的模板分支和搜索分支,分别对模板图片Z和搜索区域图片X进行特征提取;为了获取更多的语义以及细节信息,将模板分支后三层网络提取到的特征Zi,i=3,4,5和搜索分支后三层网络提取到的特征Xi,i=3,4,5沿着通道维度进行拼接,得到骨干网络两分支的输出,分别用φ(Z)和φ(X)来表示:
φ(Z)=Cat(Z3,Z4,Z5)φ(X)=Cat(X3,X4,X5);
步骤2.3、将步骤2.2得到的模板图片特征φ(Z)送入模板更新模块得到更新后的特征所述模板更新模块由两层全连接网络组成:
其中表示学习函数,通过学习和训练获得,/>表示每个视频序列第一帧的初始模板;/>表示先前累计的模板;Zi表示用第i帧预测结果得到的模板;/> i表示适合第i+1帧预测的模板;
步骤2.4、将步骤2.2得到的搜索图片特征φ(X)和步骤2.3得到的分别送入特征增强模块;
所述特征增强模块集成了三种注意力模块,分别是通道注意力模块,空间注意力模块,自注意力模块;
假定通道注意力模块的输入特征为Y∈RC×H×W,在保持其通道维度不变的前提下,首先在Y上应用平均池化层和最大池化层来分别生成YA∈RC×1×1,YM∈RC×1×1;然后将这两个特征维度重整成YA,YM∈R1×C’,其中C’=C×1×1;之后将YA和YM通过两层感知机以及经过维度重整操作,得到YA,YM∈RC×1×1;然后将两者相加得到通道注意力权重图AC∈RC×1×1,具体定义如下:
AC=MLP(Avg Pooling(Y))+MLP(Max Pooling(Y))
最后将注意力权重图与该模块的输入Y进行简单的相乘,得到最终的输出YC∈RC×H×W,具体定义如下:
YC=Sigmoid(AC)Y
空间注意力模块的输入是通道注意力模块中的输出YC∈RC×H×W,在保持特征尺寸大小不变的同时缩减其通道数,首先将YC分别通过平均池化层和最大池化层,得到YA,YM∈R1×H×W;接着将两者沿着通道维度拼接起来,得到YA+M∈R2×H×W,之后对特征YA+M应用具有压缩通道作用的7×7卷积核大小的卷积层以生成空间注意力权重图AS∈R1×H×W,具体定义如下:
AS=conv2d(concat(Avg Pooling(YC),Max Pooling(YC)))
最后将空间注意力权重图和输入特征Y进行简单地相乘,生成空间注意力特征YS∈RC ×H×W,具体定义如下:
YS=Sigmoid(AS)Y
自注意力模块是由两分支组成的,输入特征Y∈RC×H×W,一分支将Y维度重整成Y1∈R1 ×C×N,其中N=H×W;另一分支对Y应用具有维度重整操作的1×1卷积层以生成Y2∈R1×N×1,其中N=H×W;然后将Y1,Y2两者相乘得到AK∈R1×C×1;具体定义如下:
AK=Y1softmax(Y2)
最后将变形后的自注意力矩阵AK∈RC×1×1与输入特征Y进行简单地元素相加,生成自注意力特征YSF∈RC×H×W;
YSF=AK+Y
特征增强模块最终的输出是空间注意力特征YS和自注意力特征YSF的一系列整合操作;将两者沿着通道拼接到一起得到联合特征YSFS∈R2C×H×W;为了使特征增强模块的输入输出一致并保留显著性特征信息,将具有缩减通道数操作的1×1卷积层应用于联合特征YSFS以改变特征图维度;
YEMA=Sigmoid(BN(YSFS))+Y
上式中的YSFS经过BN层以及Sigmoid层处理后和输入特征Y进行简单地相加得到特征增强模块最终的输出YEMA∈RC×H×W;
特征增强模块中的特征Y是指步骤2.1得到的搜索图片特征φ(X)和步骤2.3得到的从而分别得到显著性信息增强后的XEMA和ZEMA;
步骤2.5、将经过特征增强模块输出的两分支特征图ZEMA∈RC×h×w以及XEMA∈RC×H×W进行深度互相关来嵌入两者信息,得到相似度图R;深度互相关定义如下:
R=ZEMA★XEMA;
步骤2.6、将相似度图R送入分类回归子网络,分别得到分类图、回归图以及中心图;所述分类回归子网络包括三个分支:分类分支,回归分支,中心分支,通过这三个分支输出进行损失函数的计算,继而进行模型的训练和优化;
步骤2.7、模型的训练,它包括两个阶段
第一阶段采用端到端的方式对网络进行训练;分类分支用于计算每个位置的前背景类别分数,每个点包含一个2D向量,输出的分类图尺寸为Acls∈Rw×h×2;回归分支计算每个位置到目标边界框四条边的距离,每个点包含一个4D向量(l,r,t,b),回归图尺寸为Areg∈Rw ×h×4;中心分支用来去除异常值,输出的中心图尺寸为Acen∈Rw×h×1;因为远离物体中心的位置往往会产生低质量的预测边界框,这大大降低了跟踪器性能;设(x0,y0)和(x1,y1)分别表示地面实况边界框的左上角和右下角,(x,y)表示特征图上每个点(i,j)对应在原图的位置,则Areg在点(i,j)处的四维坐标可以通过以下公式计算得到:
通过上述公式可以计算出Ground truth和预测边界框之间的IOU,然后使用下述公式计算回归损失函数:
LIOU表示IOU损失函数,θ(·)函数可以定义为:
中心度分支Acen∈Rw×h×1中的每一个元素C(i,j)定义为:
中心度损失LCEN定义为:
其中分类分支的损失函数值为Lcls,回归分支的损失函数为Lreg,中心分支的损失函数为LCEN;按照相应的权重值加权在一起,作为整个系统的总损失函数:
Ltotal=Lcls+μ1LCEN+μ2Lreg
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
第二阶段采用的方式是在线训练;第一阶段训练完毕后,加载训练好的模型参数文件并解冻在线模板更新部分,继而进行接下来的在线训练;在线训练的目的是为了使我们更新后的模板特征预测出的目标标记框更准确;初始帧和目标帧/>的目标模板可以从相应帧中的地面真实位置提取特征获得;模板更新模块的输入是三元组在线训练的损失函数定义为:
上式是通过最小化预测模板和下一帧的真值模板之间的欧几里德距离来实现的;
步骤三、模型测试,在新的数据集中,通过加载步骤二中最终的网络模型权重来测试跟踪目标对象的效果。
2.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述步骤一中图片裁剪后的尺寸为:模板图片尺寸为127*127像素,搜索区域图片尺寸为511*511像素。
3.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述孪生网络的模板分支和搜索分支为结构相同的resnet-50网络,并且参数共享。
4.根据权利要求3所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述resnet-50网络是改进过的,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
5.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述模板更新模块是一种可学习自适应更新模板特征的结构,仅作用于模板分支。
6.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述步骤2.7中的总损失函数表达式分别设置μ1=1和μ2=3。
7.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述步骤三模型的测试为将步骤2.7两阶段训练好的权重参数进行加载,在新的数据集中测试跟踪效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443332.6A CN116486203B (zh) | 2023-04-24 | 2023-04-24 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443332.6A CN116486203B (zh) | 2023-04-24 | 2023-04-24 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486203A CN116486203A (zh) | 2023-07-25 |
CN116486203B true CN116486203B (zh) | 2024-02-02 |
Family
ID=87213347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310443332.6A Active CN116486203B (zh) | 2023-04-24 | 2023-04-24 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486203B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN113192124A (zh) * | 2021-03-15 | 2021-07-30 | 大连海事大学 | 一种基于孪生网络的图像目标定位方法 |
CN113628246A (zh) * | 2021-07-28 | 2021-11-09 | 西安理工大学 | 一种基于3d卷积模板更新的孪生网络目标跟踪方法 |
CN113643329A (zh) * | 2021-09-01 | 2021-11-12 | 北京航空航天大学 | 一种基于孪生注意力网络的在线更新目标跟踪方法和系统 |
CN113744311A (zh) * | 2021-09-02 | 2021-12-03 | 北京理工大学 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
CN113870312A (zh) * | 2021-09-30 | 2021-12-31 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN113963032A (zh) * | 2021-12-01 | 2022-01-21 | 浙江工业大学 | 一种融合目标重识别的孪生网络结构目标跟踪方法 |
CN114581486A (zh) * | 2022-03-04 | 2022-06-03 | 西安理工大学 | 基于全卷积孪生网络多层特征的模板更新目标跟踪算法 |
CN114842028A (zh) * | 2022-05-07 | 2022-08-02 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
CN115205730A (zh) * | 2022-06-10 | 2022-10-18 | 西安工业大学 | 一种结合特征增强与模板更新的目标跟踪方法 |
CN115240084A (zh) * | 2022-06-15 | 2022-10-25 | 首都师范大学 | 一种无人机跟踪方法、装置和计算机可读存储介质 |
CN115272405A (zh) * | 2022-06-17 | 2022-11-01 | 温州大学 | 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 |
CN115424177A (zh) * | 2022-09-02 | 2022-12-02 | 哈尔滨工程大学 | 一种基于增量学习的孪生网络目标跟踪的方法 |
CN115564801A (zh) * | 2022-10-14 | 2023-01-03 | 长春理工大学 | 一种基于注意力的单目标跟踪方法 |
-
2023
- 2023-04-24 CN CN202310443332.6A patent/CN116486203B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN113192124A (zh) * | 2021-03-15 | 2021-07-30 | 大连海事大学 | 一种基于孪生网络的图像目标定位方法 |
CN113628246A (zh) * | 2021-07-28 | 2021-11-09 | 西安理工大学 | 一种基于3d卷积模板更新的孪生网络目标跟踪方法 |
CN113643329A (zh) * | 2021-09-01 | 2021-11-12 | 北京航空航天大学 | 一种基于孪生注意力网络的在线更新目标跟踪方法和系统 |
CN113744311A (zh) * | 2021-09-02 | 2021-12-03 | 北京理工大学 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
CN113870312A (zh) * | 2021-09-30 | 2021-12-31 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN113963032A (zh) * | 2021-12-01 | 2022-01-21 | 浙江工业大学 | 一种融合目标重识别的孪生网络结构目标跟踪方法 |
CN114581486A (zh) * | 2022-03-04 | 2022-06-03 | 西安理工大学 | 基于全卷积孪生网络多层特征的模板更新目标跟踪算法 |
CN114842028A (zh) * | 2022-05-07 | 2022-08-02 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
CN115205730A (zh) * | 2022-06-10 | 2022-10-18 | 西安工业大学 | 一种结合特征增强与模板更新的目标跟踪方法 |
CN115240084A (zh) * | 2022-06-15 | 2022-10-25 | 首都师范大学 | 一种无人机跟踪方法、装置和计算机可读存储介质 |
CN115272405A (zh) * | 2022-06-17 | 2022-11-01 | 温州大学 | 一种基于孪生网络的鲁棒在线学习船舶跟踪方法 |
CN115424177A (zh) * | 2022-09-02 | 2022-12-02 | 哈尔滨工程大学 | 一种基于增量学习的孪生网络目标跟踪的方法 |
CN115564801A (zh) * | 2022-10-14 | 2023-01-03 | 长春理工大学 | 一种基于注意力的单目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
《Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking》;Qiang Wang,et al;《CVPR》;全文 * |
Lichao Zhang,et al.《Learning the Model Update for Siamese Trackers》.《ICCV》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116486203A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114202696A (zh) | 基于上下文视觉的sar目标检测方法、装置和存储介质 | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN111626120B (zh) | 工业环境下基于改进的yolo-6d算法的目标检测方法 | |
CN115147598B (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN114898403A (zh) | 一种基于Attention-JDE网络的行人多目标跟踪方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |