CN113436227A - 一种基于倒残差的孪生网络目标跟踪方法 - Google Patents
一种基于倒残差的孪生网络目标跟踪方法 Download PDFInfo
- Publication number
- CN113436227A CN113436227A CN202110636732.XA CN202110636732A CN113436227A CN 113436227 A CN113436227 A CN 113436227A CN 202110636732 A CN202110636732 A CN 202110636732A CN 113436227 A CN113436227 A CN 113436227A
- Authority
- CN
- China
- Prior art keywords
- frame
- network
- target
- residual error
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012935 Averaging Methods 0.000 claims abstract description 9
- 238000004519 manufacturing process Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 241000195940 Bryophyta Species 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于倒残差的孪生网络目标跟踪方法,包括如下步骤:建立一个倒残差结构的目标跟踪算法模型;基于大规模图像数据集,剪裁制作成训练数据集,采用SGD算法对整个网络进行端对端的训练;跟踪过程中,将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板;后续帧中,将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作,在分类分支得到每个锚框的前景和背景的分类得分图,在回归分支中对每个锚框做精细化回归;对三个区域推荐网络的输出结果做平均化融合,给出最终目标预测框,在新一帧中重复上述操作直至视频结束。本发明能够对目标进行持续跟踪,复杂场景中仍能对目标持续鲁棒跟踪。
Description
技术领域
本发明涉及深度学习目标跟踪技术领域,尤其是一种基于倒残差的孪生网络目标跟踪方法。
背景技术
随着图像处理技术的不断发展,视频目标跟踪已经成为计算机视觉领域的一个前沿研究热点。其主要任务就是获取视频图像序列中感兴趣的目标的位置,为进一步的语义层分析提供基础。视频目标跟踪研究在智能视频监控、人机交互、医学诊断等领域有广泛应用,具有很强的实用价值,在日常生活中起着重要的作用。
目前视频目标跟踪主要分为两大类:相关滤波器方法和深度学习方法。基于相关滤波的方法把目标跟踪的过程近似地看成对搜索区域图像进行相关滤波的过程。首个相关滤波算法是方法平方误差最小滤波器(Minimum Output Sum of Squared Error,MOSSE),2010年基于循环稠密采样的算法CSK(Circulant Structure with Kernels)解决了MOSSE中的样本不足问题。2014年KCF(Kernelized Correlation Filter)引入了核函数。此后还利用颜色特征、HOG特征等多特征融合,并加上自适应尺度变化的DSST(DiscriminativeScale Space Tracker),还有有效解决了相关滤波循环采样过程中边界效应问题的STRCF(Spatial-Temporal Regularized Correlation Filters)。基于深度学习类的算法又可以分为基于预训练网络加相关滤波的方法,比较有代表性的有,基于多层卷积特征的视觉跟踪算法HCFT(Hierarchical Convolutional Features for visual Tracking),通过学习一组滤波器产生目标的连续域置信图的C-COT(Continuous Convolution Operators forVisual Tracking),以及针对C-COT实时性改进的ECO(Efficient ConvolutionOperators)。基于孪生网络的方法的开创方法SiamFC(Fully Convolutional SiameseNetworks),主要思想是利用第一帧的目标学习,训练一个相似度匹配函数,后续帧通过模型与第一帧计算相似度来寻找目标的最大响应位置。优点是不需在线更新,运行速度很快。在此基础上有引入了区域推荐网络RPN(Region Proposal Network)的SiamRPN(SiameseRegion Proposal Network)有了更高的精度更好的尺度适应性。还有利用更深层的深度网络框架,提高孪生网络模型的鲁棒性和泛化能力的SiamDW(Deeper and Wider SiameseNetworks)。
基于相关滤波的算法具有速度快模型简单的优点,在引入了深度特征的C-COT、ECO后有很高的精度,但是在速度方面有很大的牺牲,也无法很好地利用大数据离线训练的优势,而基于深度网络的方法在一些如非刚性物体变形的复杂的情况下,效果往往不会太好。
发明内容
本发明所要解决的技术问题在于,提供一种基于倒残差的孪生网络目标跟踪方法,能够对目标进行持续跟踪,还能够处理在视频中出现的光线变化、相似目标、遮挡等情况,在比较复杂的场景中仍能对目标持续鲁棒跟踪。
为解决上述技术问题,本发明提供一种基于倒残差的孪生网络目标跟踪方法,包括如下步骤:
(1)建立一个倒残差结构的孪生倒残差主干网络、横向连接网络和区域推荐网络的目标跟踪算法模型;
(2)基于VID、DET大规模图像数据集,剪裁制作成训练数据集,对每个周期动态调整学习率,采用SGD算法对整个网络进行端对端的训练;
(3)跟踪过程中,在视频第一帧时进行初始化,将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板;
(4)后续帧中,以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域,将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图;基于多锚框方法,将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作,在分类分支得到每个锚框的前景和背景的分类得分图,在回归分支中对每个锚框做精细化回归;
(5)对三个区域推荐网络的输出结果做平均化融合,添加系数惩罚,选出正样本得分最大的锚框,根据回归分支参数对锚框进行精细化回归,给出最终目标预测框,在新一帧中重复上述操作直至视频结束。
优选的,步骤(1)中,建立的基于倒残差的孪生网络,横向连接网络和区域推荐网络的目标跟踪算法模型具体包括如下步骤:
(11)孪生倒残差主干网络,由一个普通卷积层和17个倒残差模块组成,每个模块先经过1×1卷积升维并添加ReLU6激活函数激活,再通过3×3深度可分离卷积来提取特征并增大感受野,同时添加ReLU6激活函数激活,后经过1×1卷积降维直接通过线性瓶颈单元连接到下一层;
(12)将从孪生倒残差主干网络中第6、13、17个倒残差模块的输出提取出,送入横向连接网络,先将深层特征图通过1×1卷积降维,然后将其与次级特征图对位相加之后通过一3×3卷积去除混叠效应,最终得到三个融合后特征图;
(13)将经过横向连接网络特征融合的三个特征图,送入到区域推荐网络中,先通过3×3卷积映射到分类分支和回归分支两个不同空间,再将融合过后的模版帧特征图与搜索区域特征图做相关操作得出分类得分特征图和回归参数特征图。
优选的,步骤(2)中,基于VID、DET大规模图像数据集,剪裁制作成训练数据集,对每个周期动态调整学习率,采用SGD算法对整个网络进行端对端的训练具体包括如下步骤:
(21)选择训练数据集包括DET数据集、视频目标检测VID数据集、目标检测COCO数据集和Youtube-bb数据集,在预处理时将每一张图像都分别裁剪成127×127和255×255的图像,对尺寸不足的目标使用图像的三通道均值填充,裁剪时以均匀分布的采样方式让目标在中心点附近进行偏移;
(22)准备好的图像对训练时用于孪生网络两支的输入,并进行仿射变换,灰度变换等方式进行数据增强,加载在ImageNet分类数据集上预训练的孪生主干网络模型进行迁移学习,在分类分支计算交叉熵损失,在回归分支计算SmoothL1损失,最后将两分支损失融合,采用SGD反传梯度更新参数。
优选的,步骤(3)中,跟踪过程中,在视频第一帧时进行初始化,将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板具体包括如下步骤:
(31)在跟踪过程中,首先根据待跟踪目标标注对视频的第一帧图像进行裁剪获得跟踪目标,并按比例增添部分背景作为模板,将整体尺寸控制为127×127,宽高不足的采用图像的RGB三通道均值进行补充;
(32)将裁减好的图像送入到轻量级孪生倒残差主干网络中,提取编号6、13、17的三层倒残差模块输出特征图,通过横向连接网络对多层输出图进行特征级融合并,完成新视频对整个跟踪模型的初始化过程。
优选的,步骤(4)中,后续帧中,以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域,将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图;基于多锚框方法,将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作,在分类分支得到每个锚框的前景和背景的分类得分图,在回归分支中对每个锚框做精细化回归具体包括如下步骤:
(41)在视频序列到达后续视频帧时,以上一帧目标中心为中心,选择上一帧目标框二倍大小区域,增添部分背景,作为搜索区域,并将尺寸调整为255×255,宽高不足的采用图像的RGB三通道均值进行补充;
(42)将搜索区域图像同样送入到孪生倒残差主干网络当中提取特征并通过横向连接网络进行特征级融合;
(43)将之前保存好的融合后的模板帧特征图与当前帧融合后的特征图送入到区域推荐网络当中,在区域推荐网络中分为分类分支和回归分支两支;
(44)在分类分支,首先将两特征图分别送入不同卷积层并控制通道数相同,之后以模板特征图为卷积核在当前帧特征图上做滑窗相关操作;在做相关操作时,采用类似深度可分离卷积的方式,及同一通道的两特征图做相关操作;之后通过1×1卷积来控制通道数为2k倍,代表每个锚框的前景和背景分类分数;
(45)同理在回归分支也做类似操作,仅在最后1×1卷积来控制通道数为4k倍,代表在每个锚框上对最终目标框精细回归的四个参数:δx,δy,δw,δh;
(46)对提取出的浅中深三层分别计算得到,分类得分张量和参数回归张量,将三者平均得到最终结果。
优选的,步骤(5)中,对三个区域推荐网络的输出结果做平均化融合,添加系数惩罚,选出正样本得分最大的锚框,根据回归分支参数对锚框进行精细化回归,给出最终目标预测框,在新一帧中重复上述操作直至视频结束具体为:对提取的浅中深三层输出结果做平均,在分类得分图的基础上添加尺度惩罚、长宽比惩罚和窗函数对偏移量较大的锚框加以惩罚,选出最终正样本得分最大的锚框,根据回归分支参数对锚框进行精细化回归,给出最终目标预测框,在新一帧中重复上述步骤直至视频结束。
本发明的有益效果为:对给定的任意一个视频,在仅知道第一帧给定的目标位置,没有其他任何信息的条件下能够对目标进行持续跟踪,还能够处理在视频中出现光线变化、相似目标、遮挡等情况,在比较复杂的场景中仍能对目标持续鲁棒跟踪。
附图说明
图1为本发明的总体网络结构示意图。
图2为本发明的孪生倒残差主干网络中的倒残差模块示意图。
图3为本发明横向连接网络示意图。
图4为本发明在VOT2016数据集上实时实验结果排名示意图。
图5为本发明在VOT2018数据集上实时实验结果排名示意图。
图6为本发明在UAV123数据集上准确率得分结果排名示意图。
图7为本发明在UAV123数据集上成功率得分结果排名示意图。
具体实施方式
如图1所示,本发明提供一种基于孪生网络的目标跟踪方法,其设计原理为:构建一个基于倒残差的孪生网络,横向连接网络和区域推荐网络的目标跟踪算法模型,采用SGD方法离线训练一个稳定的网络模型。在跟踪过程中,将第一帧模板信息送入主干网络和横向连接网络提取特征,进行初始化。处理下一帧图像时根据上一帧目标框信息扩大两倍作为搜索区域,将搜索区域图像同样送入主干网络和横向连接网络提取特征。将模板特征与当前帧特征通过不同卷积层映射,分别做相关操作,在预设锚框基础上得到分类得分图和边框回归信息。在得分图添加尺度惩罚,和长宽比惩罚并添加余弦窗函数,根据正样本分类得分最大位置以及其所对应的框回归信息得到最终目标框。
本实施例中基于倒残差的孪生网络目标跟踪方法的详细步骤如下:
步骤一、建立一个由主干网络,横向连接网络和区域推荐网络的目标跟踪算法模型。
(1.1)本发明算法主要由,主干网络,横向连接网络,区域推荐网络三部分组成,总体网络如图1所示。用于提取特征的主干网络采用由若干倒残差块组成的轻量级网络,为更适应跟踪任务,将主干网络的总步长由32调整为8。主干网络由一个普通卷积层和17个倒残差结构组成。倒残差结构细节如图2所示。在倒残差结构内部,先采用1×1卷积升维,再进行3×3的深度可分离卷积卷积,完成之后再用1×1卷积降维。倒残差结构中特征图维度增加了但是计算量却减少了,这是因为中间3×3卷积由普通卷积换成深度可分离卷积有效地减少了计算量。而深度可分离卷积由DW卷积和PW卷积两部分组成。其中DW卷积的,卷积核的通道数为1,输出特征张量的通道数等于卷积核个数也等于输出特征张量通道数。PW卷积为卷积核大小为1的普通卷积,大大减少了计算量。再者在主干网络中的激活函数都改为了ReLU6激活函数,使输出的最大值限制到6。实验证明ReLU6激活函数:f(x)=min(max(x,0),6),可以让模型更早地学到稀疏特征,并且保证在低精度下有更强的鲁棒性。由于主干网络足够深,可以从主干网络中分别提取浅层和深层特征,同时提取第6,13,17个倒残差模块的输出,对于模板图像特征图的大小分别为,15×15×32,15×15×96,15×15×320。对于搜索区域图像特征图的大小分别为,31×31×32,31×31×96,31×31×320。
(1.2)将从主干网络提取的特征图送入到横向连接网络当中,横向连接网络具体结构如图3所示。先将深层特征通过1×1卷积将通道数改变成与下一层特征通道数相同,建立横向连接将深层特征和浅一层特征叠加起来,之后通过3×3卷积去除混叠效应,使包含纹理颜色等信息,空间分辨率高适合精准定位的浅层特征和包含高层语义特征,对旋转外形变化都具有很好的不变性强的深层特征进行特征级融合得到最终使用的特征图。跟踪过程中,将模板帧跟踪目标送入主干网络和横向连接网络保存其特征图,后续帧在上一帧中心点取两倍大小做搜索区域,同样将搜索区域图像送入到主干网络和横向连接网络。
(1.3)将融合后的特征图送入到区域推荐网络中,先通过3×3卷积映射到分类分支和回归分支两个不同空间,再将融合过后的模版帧特征图与搜索区域特征图做相关操作得出分类得分特征图和回归参数特征图。
步骤二,下载VID,DET等大规模图像数据集,并剪裁制作成训练数据集。对每个周期动态调整学习率,采用SGD算法对整个网络进行端对端的训练。
(2.1)制作训练集,将原始图片,根据标注文件将检测目标裁剪出来并通过三通道均值补充图片大小扩展到127×127,作为模板图像。同样根据标注文件以检测目标为中心,将目标框二倍大小区域裁剪出来并通过三通道均值补充图片大小扩展到255×255,作为模板图像。训练时20%概率将图片转为灰度图,以适应各种复杂情况。制作训练标签时,首先根据主干网络总体步长为8,以及最终输出特征图宽高大小为17×17。将最终特征图映射到原图大小,每个像素点取5个长款比不同的锚框。最终在搜索区域图像上生成若干锚框,分别计算各个锚框与真实目标框的IoU分数。
其中锚框的IoU分数大于0.6为正样本和重叠区域小于0.3为负样本,单张图片中正样本数和负样本总数控制为64个。
(2.2)训练时对于模板图像输入大小为127×127×3,在经过主干网络所有处理后输出大小为15×15×320的特征图。提取第6,13,17倒残差模块输出的,15×15×32,15×15×96,15×15×320,三个不同级别的特征图。将第17模块输出的高维特征先通过1×1卷积把320通道降到96通道,然后与第13模块输出的对位像素想加,之后通过一3×3卷积去除混叠效应。同理将叠加后96通道的特征图通过1×1卷积将通道数降到通道32,与第6模块输出的对位像素想加,之后通过一3×3卷积去除混叠效应,得到融合信息后尺寸为15×15×32,15×15×96,15×15×320的三个特征图。搜索区域图片经过同样操作得到三个尺寸为31×31×32,31×31×96,31×31×320的三个特征图。将三个输出对应送入到区域推荐网络(RPN)中,分别得到大小为17×17×(k×2)的分类得分图,和17×17×(k×4)的边框回归参数。训练时的损失函数为:
Loss=Losscls+μLossreg
其中Losscls为分类损失,Lossreg回归损失,μ为平衡两个部分权重系数超参数,具体的分类分支时候交叉熵损失函数:
式中σ为权重系数,其中A5,Ay,Aw,Ah,为锚框的中心坐标和宽高尺寸,Tx,Ty,Tw,Th为中心坐标和框的宽高尺寸。,基于pytorch框架采用SGD方法设置动量为0.9,权重衰减系数为0.0005加L2正则化防止过拟合。小批量batch设置为64,训练50个周期,前10周期冻结全部主干网络参数,只训练横向连接网络,和区域推荐网络(RPN),之后逐步释放主干网络参数参与训练。初始学习率设置为0.001并随周期衰减直到0.0001。
步骤三,跟踪过程中第一帧初始化具体实施细节。
(3.1)在跟踪过程中,首先根据待跟踪目标标注对视频的第一帧图像进行裁剪,扣取跟踪目标并按比例增添部分背景整体作为模板,并将整体尺寸控制为127×127,宽高不足的采用图像的RGB三通道均值进行补充。
(3.2)将裁减好的图像送入到轻量级主干网络中,提取编号6,13,17的倒残差结构输出特征图,通过横向连接网络对深浅特征图进行特征级融合并将最终各个深层浅层特征图保存。
步骤四,跟踪后续帧时的具体实施细节。
(4.1)在视频序列到达后续视频帧时,以上一帧目标中心为中心,扣取上一帧目标框而被二倍大小区域,同样增添部分背景,整体做为搜索区域,并将尺寸调整为255×255,宽高不足的采用图像的RGB三通道均值进行补充。将搜索区域图像同样送入到主干网络当中提取特征并通过横向连接网络进行特征级融合。
(4.2)将之前保存好的模板帧特征图与当前帧特征图送入到区域推荐网络(RPN)当中。在RPN中分为分类分支和回归分支两支。在分类分支,首先将两特征图分别送入不同卷积层映射到不同空间并控制通道数相同,之后以模板特征图为卷积核在当前帧特征图上做滑窗相关操作。在做相关操作时,采用类似深度可分离卷积的方式,同一通道的两特征图做相关操作,之后通过1×1卷积来控制通道数为2k倍,代表每个锚框的前景和背景分类分数。同理在回归分支也做类似操作,仅在最后1×1卷积来控制通道数为4k倍,代表在每个锚框上对最终目标框精细回归的四个参数:δx,δy,δw,δh。对提取出的浅中深三层分别计算得到,分类得分张量和参数回归张量,将三者平均得到最终结果。
步骤五,计算最终目标跟踪框具体实施细节。
将最终分类结果得分图,添加尺度惩罚,若新一帧较前一帧尺度变化越大则尺度惩罚越大。添加长宽比惩罚,对长宽比例变化较大做惩罚。并添加余弦窗函数对离目标中心较远的框进行惩罚。选取最终正样本分类得分最大位置,根据其所对应的框回归信息得到最终目标框。
为了验证本发明的效果,为了验证本发明的效果,分别在三个具有挑战性的视频跟踪基准数据集VOT2016、VOT2018和UAV123上进行了测试跟踪实验,同时多种算法进行比较。
对VOT基准的评估由官方工具包执行。采用期望平均重叠(EAO)作为指标来比较不同跟踪器。VOT2016的EAO分数排名图如图4所示,本发明的EAO得分为0.380要优于其他四十余个算法。
在VOT2018数据集上的EAO分数排名图如图5所示,本发明的EAO得分为0.342,要优于其他六十余个算法。
本发明与UAV123上排名靠前的几个实时跟踪器进行比较,准确率排名如下图6所示,成功率排名如下图7所示。UAV123数据集包含123个序列,平均长度为915帧。与之比较的跟踪器包括最近的跟踪器,如ECO、SiamRPN、ECO-HC和SiamDW。我们的跟踪器优于所有其他跟踪器在这两个指标。可以看出本发明的成功率得分为0.591,要优于SiamRPN(0.529)和SiamDW(0.522)方法。
经过上述三个常用跟踪数据集上的测试,并与现有主流跟踪算法进行比较,在具有挑战的跟踪环境下,都能保持很好的跟踪精度和跟踪成功率,可以说明本发明进行实时跟踪时可以现出了良好的跟踪效果。
Claims (6)
1.一种基于倒残差的孪生网络目标跟踪方法,其特征在于,包括如下步骤:
(1)建立一个倒残差结构的孪生倒残差主干网络、横向连接网络和区域推荐网络的目标跟踪算法模型;
(2)基于VID、DET大规模图像数据集,剪裁制作成训练数据集,对每个周期动态调整学习率,采用SGD算法对整个网络进行端对端的训练;
(3)跟踪过程中,在视频第一帧时进行初始化,将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板;
(4)后续帧中,以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域,将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图;基于多锚框方法,将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作,在分类分支得到每个锚框的前景和背景的分类得分图,在回归分支中对每个锚框做精细化回归;
(5)对三个区域推荐网络的输出结果做平均化融合,添加系数惩罚,选出正样本得分最大的锚框,根据回归分支参数对锚框进行精细化回归,给出最终目标预测框,在新一帧中重复上述操作直至视频结束。
2.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法,其特征在于,步骤(1)中,建立一个倒残差结构的孪生倒残差主干网络、横向连接网络和区域推荐网络的目标跟踪算法模型具体包括如下步骤:
(11)孪生倒残差主干网络,由一个普通卷积层和17个倒残差模块组成,每个模块先经过1×1卷积升维并添加ReLU6激活函数激活,再通过3×3深度可分离卷积来提取特征并增大感受野,同时添加ReLU6激活函数激活,后经过1×1卷积降维直接通过线性瓶颈单元连接到下一层;
(12)将从孪生倒残差主干网络中第6、13、17个倒残差模块的输出提取出,送入横向连接网络,先将深层特征图通过1×1卷积降维,然后将其与次级特征图对位相加之后通过一3×3卷积去除混叠效应,最终得到三个融合后特征图;
(13)将经过横向连接网络特征融合的三个特征图,送入到区域推荐网络中,先通过3×3卷积映射到分类分支和回归分支两个不同空间,再将融合过后的模版帧特征图与搜索区域特征图做相关操作得出分类得分特征图和回归参数特征图。
3.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法,其特征在于,步骤(2)中,基于VID、DET大规模图像数据集,剪裁制作成训练数据集,对每个周期动态调整学习率,采用SGD算法对整个网络进行端对端的训练具体包括如下步骤:
(21)选择训练数据集包括DET数据集、视频目标检测VID数据集、目标检测COCO数据集和Youtube-bb数据集,在预处理时将每一张图像都分别裁剪成127×127和255×255的图像,对尺寸不足的目标使用图像的三通道均值填充,裁剪时以均匀分布的采样方式让目标在中心点附近进行偏移;
(22)准备好的图像对训练时用于孪生网络两支的输入,并进行仿射变换,灰度变换等方式进行数据增强,加载在ImageNet分类数据集上预训练的孪生主干网络模型进行迁移学习,在分类分支计算交叉熵损失,在回归分支计算SmoothL1损失,最后将两分支损失融合,采用SGD反传梯度更新参数。
4.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法,其特征在于,步骤(3)中,跟踪过程中,在视频第一帧时进行初始化,将跟踪目标框内图像送入主干网络中并通过横向连接网络提取特征形成目标模板具体包括如下步骤:
(31)在跟踪过程中,首先根据待跟踪目标标注对视频的第一帧图像进行裁剪获得跟踪目标,并按比例增添部分背景作为模板,将整体尺寸控制为127×127,宽高不足的采用图像的RGB三通道均值进行补充;
(32)将裁减好的图像送入到轻量级孪生倒残差主干网络中,提取编号6、13、17的三层倒残差模块输出特征图,通过横向连接网络对多层输出图进行特征级融合并,完成新视频对整个跟踪模型的初始化过程。
5.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法,其特征在于,步骤(4)中,后续帧中,以上一帧目标位置为中心取两倍上一帧跟踪框大小为搜索区域,将搜索区域图像送入到孪生倒残差主干网络和横向连接网络提取浅中深三层特征图;基于多锚框方法,将第一帧模板特征与后续帧搜索区域特征图分别送入三个区域推荐网络中做相关操作,在分类分支得到每个锚框的前景和背景的分类得分图,在回归分支中对每个锚框做精细化回归具体包括如下步骤:
(41)在视频序列到达后续视频帧时,以上一帧目标中心为中心,选择上一帧目标框二倍大小区域,增添部分背景,作为搜索区域,并将尺寸调整为255×255,宽高不足的采用图像的RGB三通道均值进行补充;
(42)将搜索区域图像同样送入到孪生倒残差主干网络当中提取特征并通过横向连接网络进行特征级融合;
(43)将之前保存好的融合后的模板帧特征图与当前帧融合后的特征图送入到区域推荐网络当中,在区域推荐网络中分为分类分支和回归分支两支;
(44)在分类分支,首先将两特征图分别送入不同卷积层并控制通道数相同,之后以模板特征图为卷积核在当前帧特征图上做滑窗相关操作;在做相关操作时,采用深度可分离卷积的方式及同一通道的两特征图做相关操作;之后通过1×1卷积来控制通道数为2k倍,代表每个锚框的前景和背景分类分数;
(45)同理在回归分支也做类似操作,仅在最后1×1卷积来控制通道数为4k倍,代表在每个锚框上对最终目标框精细回归的四个参数:δx,δy,δw,δh;
(46)对提取出的浅中深三层分别计算得到,分类得分张量和参数回归张量,将三者平均得到最终结果。
6.如权利要求1所述的基于倒残差的孪生网络目标跟踪方法,其特征在于,步骤(5)中,对三个区域推荐网络的输出结果做平均化融合,添加系数惩罚,选出正样本得分最大的锚框,根据回归分支参数对锚框进行精细化回归,给出最终目标预测框,在新一帧中重复上述操作直至视频结束具体为:对提取的浅中深三层输出结果做平均,在分类得分图的基础上添加尺度惩罚、长宽比惩罚和窗函数对偏移量较大的锚框加以惩罚,选出最终正样本得分最大的锚框,根据回归分支参数对锚框进行精细化回归,给出最终目标预测框,在新一帧中重复上述步骤直至视频结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636732.XA CN113436227A (zh) | 2021-06-07 | 2021-06-07 | 一种基于倒残差的孪生网络目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636732.XA CN113436227A (zh) | 2021-06-07 | 2021-06-07 | 一种基于倒残差的孪生网络目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113436227A true CN113436227A (zh) | 2021-09-24 |
Family
ID=77803949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110636732.XA Pending CN113436227A (zh) | 2021-06-07 | 2021-06-07 | 一种基于倒残差的孪生网络目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436227A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850189A (zh) * | 2021-09-26 | 2021-12-28 | 北京航空航天大学 | 一种应用于机动平台的嵌入式孪生网络实时跟踪方法 |
CN114049381A (zh) * | 2021-12-21 | 2022-02-15 | 重庆大学 | 一种融合多层语义信息的孪生交叉目标跟踪方法 |
CN114240994A (zh) * | 2021-11-04 | 2022-03-25 | 北京工业大学 | 目标跟踪方法、装置、电子设备及存储介质 |
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN114359689A (zh) * | 2021-12-08 | 2022-04-15 | 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) | 一种动态目标的检测与跟踪方法 |
CN114463686A (zh) * | 2022-04-11 | 2022-05-10 | 西南交通大学 | 基于复杂背景下的移动目标检测方法和系统 |
CN114529583A (zh) * | 2022-02-10 | 2022-05-24 | 国网河南省电力公司电力科学研究院 | 基于残差回归网络的电力设备跟踪方法及跟踪系统 |
CN114581645A (zh) * | 2022-02-28 | 2022-06-03 | 中国人民解放军战略支援部队信息工程大学 | 基于倒残差结构的孪生卷积网络隐写分析框架 |
CN114581796A (zh) * | 2022-01-19 | 2022-06-03 | 上海土蜂科技有限公司 | 目标物跟踪系统、方法及其计算机装置 |
CN114862904A (zh) * | 2022-03-21 | 2022-08-05 | 哈尔滨工程大学 | 一种水下机器人的孪生网络目标连续跟踪方法 |
CN114972429A (zh) * | 2022-05-26 | 2022-08-30 | 国网江苏省电力有限公司电力科学研究院 | 云边协同自适应推理路径规划的目标追踪方法和系统 |
CN116630373A (zh) * | 2023-07-19 | 2023-08-22 | 江南大学 | 基于风格重校准和改进孪生网络的红外弱小目标跟踪方法 |
CN118155127A (zh) * | 2024-01-25 | 2024-06-07 | 广州科易光电技术有限公司 | 泄漏检测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111192291A (zh) * | 2019-12-06 | 2020-05-22 | 东南大学 | 一种基于级联回归与孪生网络的目标跟踪方法 |
CN111797716A (zh) * | 2020-06-16 | 2020-10-20 | 电子科技大学 | 一种基于Siamese网络的单目标跟踪方法 |
-
2021
- 2021-06-07 CN CN202110636732.XA patent/CN113436227A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192291A (zh) * | 2019-12-06 | 2020-05-22 | 东南大学 | 一种基于级联回归与孪生网络的目标跟踪方法 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111797716A (zh) * | 2020-06-16 | 2020-10-20 | 电子科技大学 | 一种基于Siamese网络的单目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
BO LI: ""High Performance Visual Tracking with Siamese Region Proposal Network"", 018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 23 June 2018 (2018-06-23), pages 8971 - 8980, XP033473822, DOI: 10.1109/CVPR.2018.00935 * |
FENG ZHANG: ""Inverted Residual Siamese Visual Tracking With Feature Crossing Network"", IEEE, 1 February 2021 (2021-02-01), pages 27158 - 27166, XP011837843, DOI: 10.1109/ACCESS.2021.3056194 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850189A (zh) * | 2021-09-26 | 2021-12-28 | 北京航空航天大学 | 一种应用于机动平台的嵌入式孪生网络实时跟踪方法 |
CN114240994A (zh) * | 2021-11-04 | 2022-03-25 | 北京工业大学 | 目标跟踪方法、装置、电子设备及存储介质 |
CN114359336B (zh) * | 2021-11-30 | 2023-04-07 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪方法 |
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN114359689A (zh) * | 2021-12-08 | 2022-04-15 | 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) | 一种动态目标的检测与跟踪方法 |
CN114049381A (zh) * | 2021-12-21 | 2022-02-15 | 重庆大学 | 一种融合多层语义信息的孪生交叉目标跟踪方法 |
CN114581796A (zh) * | 2022-01-19 | 2022-06-03 | 上海土蜂科技有限公司 | 目标物跟踪系统、方法及其计算机装置 |
CN114581796B (zh) * | 2022-01-19 | 2024-04-02 | 上海土蜂科技有限公司 | 目标物跟踪系统、方法及其计算机装置 |
CN114529583A (zh) * | 2022-02-10 | 2022-05-24 | 国网河南省电力公司电力科学研究院 | 基于残差回归网络的电力设备跟踪方法及跟踪系统 |
CN114529583B (zh) * | 2022-02-10 | 2024-03-19 | 国网河南省电力公司电力科学研究院 | 基于残差回归网络的电力设备跟踪方法及跟踪系统 |
CN114581645A (zh) * | 2022-02-28 | 2022-06-03 | 中国人民解放军战略支援部队信息工程大学 | 基于倒残差结构的孪生卷积网络隐写分析框架 |
CN114862904B (zh) * | 2022-03-21 | 2023-12-12 | 哈尔滨工程大学 | 一种水下机器人的孪生网络目标连续跟踪方法 |
CN114862904A (zh) * | 2022-03-21 | 2022-08-05 | 哈尔滨工程大学 | 一种水下机器人的孪生网络目标连续跟踪方法 |
CN114463686B (zh) * | 2022-04-11 | 2022-06-17 | 西南交通大学 | 基于复杂背景下的移动目标检测方法和系统 |
CN114463686A (zh) * | 2022-04-11 | 2022-05-10 | 西南交通大学 | 基于复杂背景下的移动目标检测方法和系统 |
CN114972429A (zh) * | 2022-05-26 | 2022-08-30 | 国网江苏省电力有限公司电力科学研究院 | 云边协同自适应推理路径规划的目标追踪方法和系统 |
CN116630373B (zh) * | 2023-07-19 | 2023-09-22 | 江南大学 | 基于风格重校准和改进孪生网络的红外弱小目标跟踪方法 |
CN116630373A (zh) * | 2023-07-19 | 2023-08-22 | 江南大学 | 基于风格重校准和改进孪生网络的红外弱小目标跟踪方法 |
CN118155127A (zh) * | 2024-01-25 | 2024-06-07 | 广州科易光电技术有限公司 | 泄漏检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113436227A (zh) | 一种基于倒残差的孪生网络目标跟踪方法 | |
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
CN108319972B (zh) | 一种针对图像语义分割的端到端差异网络学习方法 | |
CN110298404B (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN105701508B (zh) | 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN110210551A (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN114565860B (zh) | 一种多维度增强学习合成孔径雷达图像目标检测方法 | |
CN110399840B (zh) | 一种快速的草坪语义分割及边界检测方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN113393457B (zh) | 一种结合残差密集块与位置注意力的无锚框目标检测方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
Yan et al. | Monocular depth estimation with guidance of surface normal map | |
CN113706581A (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN113239749B (zh) | 一种基于多模态联合学习的跨域点云语义分割方法 | |
CN111105439A (zh) | 一种使用残差注意力机制网络的同步定位与建图方法 | |
CN114581486A (zh) | 基于全卷积孪生网络多层特征的模板更新目标跟踪算法 | |
CN110969182A (zh) | 基于农田图像的卷积神经网络构建方法及其系统 | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115049945A (zh) | 一种基于无人机图像的小麦倒伏面积提取方法和装置 | |
CN108009512A (zh) | 一种基于卷积神经网络特征学习的人物再识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |