CN112884037B - 一种基于模板更新和无锚框方式的目标跟踪方法 - Google Patents
一种基于模板更新和无锚框方式的目标跟踪方法 Download PDFInfo
- Publication number
- CN112884037B CN112884037B CN202110178314.0A CN202110178314A CN112884037B CN 112884037 B CN112884037 B CN 112884037B CN 202110178314 A CN202110178314 A CN 202110178314A CN 112884037 B CN112884037 B CN 112884037B
- Authority
- CN
- China
- Prior art keywords
- template
- frame
- target
- branch
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 13
- 238000011049 filling Methods 0.000 claims description 6
- 238000011068 loading method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000015556 catabolic process Effects 0.000 abstract 1
- 238000006731 degradation reaction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000003909 pattern recognition Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000002253 acid Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于模板更新和无锚框方式的目标跟踪方法,主要用于对视频目标进行跟踪,确定目标在视频中的位置和大小。该方法包括对训练数据集进行裁剪;对卷积神经网络的构建和改进;实现基于无锚框和椭圆标注下的预测框回归结构;更新目标模板并进行特征融合以提高模板鲁棒性;使用带距离度量的重叠率回归损失函数提高训练的收敛效果和对目标的拟合程度等步骤。本发明解决了跟踪方法中目标模板随时间逐渐退化,跟踪漂移甚至丢失的问题,使得改进后的网络结构更加鲁棒和稳定,在保持实时跟踪的基础上实现较高精度的跟踪效果。
Description
技术领域
本发明涉及计算机视觉、深度学习以及图像处理领域,特别是涉及基于孪生网络的特征提取,模板更新和无锚框方式的目标回归等领域。具体涉及一种基于模板更新和无锚框方式的目标跟踪方法,主要针对视频图像中的目标在运动过程中产生形变、旋转、遮挡等变化,导致算法模板容易出现退化,目标跟踪出现漂移和丢失等问题。
背景技术
目标跟踪作为计算机视觉领域的基础研究任务之一,在智能监控、无人驾驶、安防等领域受到广泛应用。简单来说,目标跟踪旨在给出初始帧标注情况下,通过学习其初始外观特征,预测视频后续帧中该目标的位置和形态大小。然而目前跟踪算法仍然面临许多问题,包括目标剧烈的外观形变、旋转、消失重现、快速移动等问题,都可能致使跟踪算法出现目标丢失情况。因此一个鲁棒而稳定的跟踪方法是急需和必要的。
现有的跟踪算法大多采用基于有锚框的方式完成跟踪任务,该方式通过人工阈值来筛选预设的多个锚框,采用平移和缩放等方式消除偏移量,回归目标位置。然而,预设锚框需要设置包括尺度和锚框纵横比等超参数,这一手工设定将会导致最终跟踪框很难达到最优的拟合效果,从而限制了跟踪精确度的上限。
此外孪生网络算法大多仅采用的初始模板作为参考帧搜索目标,不更新初始目标模板。这一不更新模板的方式会导致过分依赖初始模板。当目标受到剧烈形变,旋转,遮挡等问题影响时,特征信息会产生显著变化,会导致模板有用信息随时间呈指数衰减,无法较好的和现有目标匹配,造成目标漂移甚至丢失,以及发生漂移后难以从跟踪失败中恢复等问题。部分算法会简单的逐帧更新样本,但逐帧的更新会严重的影响了速度,无法达到实时的跟踪速度。算法训练过程中的损失函数方面,目前算法都是使用逻辑损失、Smooth L1损失或者IOU损失,而这些损失函数对算法训练的收敛效果还不足以满足社会需求和复杂场景,面对预测框和真实目标相差较远时难以较好回归预测框。综上所述分析,本发明提出一种基于模板更新和无锚框方式的目标跟踪方法。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于模板更新和无锚框方式的目标跟踪方法,该方法充分利用视频后续帧中跟踪目标的特征信息来更新模板信息,保持在跟踪过程中目标模板的可用性,改进跟踪算法的鲁棒性和稳定性,同时保证更新模板不影响跟踪的实时速度。
为达到上述目的,本发明提供了一种基于模板更新和无锚框方式的目标跟踪方法,所述的方法包括如下步骤:
步骤1:根据图像中的目标位置和大小,分别对目标模板图像和搜索区域图像进行区域裁剪,以裁剪后的目标模板图像和搜索区域图像组成的图像对作为训练数据集;
步骤2:构建基于模板更新的卷积神经网络,所述基于模板更新的卷积神经网络包含3个完全相同的分支卷积网络结构,分别为第一分支、第二分支、第三分支,第一分支为当前模板分支,用于生成已有模板的特征;第二分支为更新模板分支,用于完成模板信息的更新并获取特征图;第三分支为搜索区域分支,用于完成对搜索区域图像进行特征提取;三分支中第一二分支先进行加权融合后再与第三分支进行逐层互相关运算,得到响应得分图;
步骤3:构建图像分类和目标位置回归子网络;分类是对图像进行前景背景的二分类,回归采用无锚框方式直接预测目标的中心点和矩形框的上下左右四条边框位置;
步骤4:基于公开训练数据集,训练所述步骤3和步骤4组成的基于模板更新和无锚框方式的跟踪网络,获得训练好参数的基于模板更新和无锚框方式的跟踪网络;
步骤5:使用训练好参数的基于模板更新和无锚框方式的跟踪网络确定视频序列中每帧图像中目标的位置和大小,完成目标跟踪。
进一步地,步骤1中所述裁剪训练数据集的具体过程如下:
步骤1.1:以目标所在区域为中心裁剪出矩形图像构成初始模板图像,所述矩形图像长宽分别为目标矩形框长宽的四分之一;若矩形框超出原视频帧边界,则扩展部分以图像平均像素进行填充;最后将裁剪的目标缩放到127×127;
步骤1.2:以目标所在区域为中心裁剪出矩形图像构成搜索区域图像,所述矩形图像长宽分别为目标矩形框长宽的二分之一,若矩形框超出原视频帧边界,则扩展部分以图像平均像素进行填充;最后将裁剪的目标缩放到255×255;
进一步地,步骤2中所述构建基于模板更新和无锚框方式的跟踪网络的具体过程如下:
步骤2.1:加载网络的预训练模型和参数配置文件,以模板图像和搜索图像对作为第一、第三分支的输入;
步骤2.2:所述第一分支将模板Ti-1输入第一分支卷积神经网络,通过Conv1-Conv3输出第一层特征图通过Conv1-Conv4输出第二层特征图通过Conv1-Conv5输出第三层特征图i=1表示T0为初始模板,i>1表示Ti-1为后续帧中的当前模板;
步骤2.4:将所述模板特征图与搜索图像特征图进行逐层互相关运算,公式如下:
对所述三层得分图进行平均值融合,得到最后的响应得分图和模板置信度,用于步骤4中完成训练;
步骤2.5:模板更新采用高置信度的模板进行更新,目标模板的更新控制器的公式如下:
即当置信度大于0.99,并且两次更新帧之间相差30的时候进行一次模板更新;
其中,λ代表更新模板和当前模板的权重比例,可以根据经验条件,默认设置为0.15。将当前新模板代替初始模板存储在寄存器中,直到下次模板更新完成。
进一步地,步骤3中分类和目标位置回归的具体过程如下:
步骤3.1:将步骤2.5中所述响应得分图送入分类与回归子网络,分别对目标进行前景和背景的二分类和基于无锚框的目标预测框回归;
步骤3.2:所述预测框的无锚框位置回归的具体过程如下:针对当前跟踪任务中采用矩形框标注方式进行跟踪回归存在着严重的背景干扰问题,本发明采用了椭圆形的标注方式,以减少对背景的学习。设真实框中心点(xc,yc),宽w,高h,左上角(x0,y0),右下角(x1,y1),分别以(xc,yc)为中心,与为半径确定两个相包含的椭圆E1,E2。样本标签性质的确定方式与矩形框下的IOU相似:
即如果(px,py)落在椭圆E1外部,则被看作是负样本标签,如果落在E2内部,则被看作是负标签,如果落在E1和E2之间,则忽略它。正样本点被用于边框回归,回归目标被定义为:
dl=px-x0,
dt=px-y0,
dr=x1-px,
db=y1-px,
其中,dl,dt,dr,db分别代表左,上,右,下四条边框到(px,py)的距离。
进一步地,步骤4中训练所述基于模板更新和无锚框方式的跟踪网络设计如下:
步骤4.1:将步骤2.5中所述响应得分图送入分类与回归子网络,分别对目标进行前景和背景的二分类和目标预测框的回归;
步骤4.2:所述分类分支采用常规交叉熵损失函数;所述回归分支本发明使用了新型的损失函数DIOU完成预测框回归,具体步骤如下:
步骤4.2.1:采用无锚框的预测框回归方式下,DIOU的实现公式如下:
其中,p是预测框中心点坐标,pgt为目标真实框中心点坐标,ρ2(p,pgt)为所述两点的欧氏距离,c为同时包含预测框和目标真实框的最小闭包区域的对角线距离。设(px,py)到真值框左上右下的距离分别为gl,gt,gr,gb,(px,py)到左,上,右,下四条边框的距离分别为dl,dt,dr,db。
步骤4.2.2:预测框与目标真实框之间的交集框的宽高:
wi=min(gl,dl)+min(gr,dr),
hi=min(gb,db)+min(gt,dt),
预测框与目标真实框之间并集的宽高:
wu=max(gl,dl)+max(gr,dr),
hu=max(gb,db)+max(gt,dt),
中心点p与pgt的距离的宽高为:
步骤4.2.3:则预测框中心点和目标真实框中心点的欧氏距离为:
c2=hu 2+wu 2
ρ2(p,pgt)=wc 2+hc 2
步骤4.3:联立所述公式,完成了DIOU损失在无锚框下的实现。无锚点回归和分类网络联合训练,优化了如下的多任务损失函数:
L=α1Lreg+α2Lcls
其中,Lcls代表分类网络采用交叉熵损失函数。训练过程中,α1,α2是可变参数,本发明默认设置α1=1,a2=2;
步骤4.4:采用上述损失函数对无锚框跟踪网络进行训练,使用多个数据集进行多轮联合训练;
进一步地,步骤5中所述完成目标跟踪的具体过程如下:
步骤5.1:加载训练好的权重参数和配置文件,配置好所述基于模板更新和无锚框方式的目标跟踪网络和分类回归子网络;
步骤5.2:将跟踪视频帧送入网络中,按照步骤1裁剪图像后输入跟踪网络,依次按照步骤2和步骤3输出目标的位置和大小;
步骤5.3:根据步骤2.6所述模板更新控制器确定是否更新模板;
步骤5.4:将视频后续帧中图像逐帧输入基于模板更新和无锚框方式的跟踪网络,重复上述步骤5.2-5.4的过程,直到视频序列中的图像全部处理完毕为止。
与现有技术相比,本发明的有益效果为:在跟踪过程中,将更新模板作为孪生网络的独立分支,提取多层语义信息,并进行跨深度融合,实现了更合理的模板更新策略,使得模板可以更好的与搜索区域比较,防止跟踪过程中由于模板信息过时而出现目标漂移甚至丢失现象;本发明在跟踪方法的训练过程中实现了无锚框网络下的DIOU损失函数进行在线训练,在IOU损失的基础上考虑了跟踪框与预测框距离度量的因素,在无锚框网络中实现了更收敛的训练效果,避免了训练不够充分而出现无法完全发挥网络效果的情况;本发明在保证跟踪速度实时的情况下,发挥了模板更新和充分训练的效果,提升了跟踪方法的跟踪准确度和鲁棒性。
附图说明
图1为本发明提供的基于模板更新和无锚框方式的目标跟踪方法整体结构流程图;
图2为本发明提供的椭圆形标注部分的示意图;
图3为本发明提供的无锚框下DIOU损失函数的计算示意图;
图4为本发明在跟踪过程中与其他两种方法的部分跟踪结果对比图,图像左上角数字代表图像所对应的视频帧,浅灰色矩形框代表目标真实框,越接近真实框精度越高;深灰色矩形框代表本发明跟踪方法。
表1为本发明与其他9种跟踪方法在公开数据集VOT2018上平均重叠率(EAO),成功率,鲁棒性的性能对比。其中平均重叠率和成功率越大越好,鲁棒性越小越好;EAO是成功率和失败率结合后的整体性能。本发明方法在EAO和鲁棒性上都超过了比较算法,同时保持拥有相似成功率,说明本发明在主流的数据集上取得了优异的跟踪结果。
表1
跟踪方法 | EAO | 成功率 | 鲁棒性 |
本发明方法 | 0.469 | 0.592 | 0.155 |
Retina-MAML | 0.452 | 0.604 | 0.159 |
SiamBAN | 0.452 | 0.597 | 0.178 |
PrDiMP | 0.442 | 0.618 | 0.165 |
SiamFC++ | 0.426 | 0.587 | 0.183 |
SiamRPN++ | 0.414 | 0.600 | 0.234 |
ATOM | 0.400 | 0.590 | 0.203 |
SiamRPN | 0.383 | 0.586 | 0.184 |
UPDT | 0.378 | 0.536 | 0.184 |
ECO | 0.280 | 0.484 | 0.276 |
在表1中:
Retina-MAML对应Wang G等人提出的方法(Wang G,Luo C,Sun X,et a1.Trackingby instance detection:A meta-learning approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:6288-6297.)
SiamBAN对应Chen Z等人提出的方法(Chen Z,Zhong B,Li G,et al.Siamese BoxAdaptive Network for Visual Tracking[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020:6668-6677.)
PrDiMP对应Danelljan M等人提出的方法(Danelljan M,Gool L V,TimofteR.Probabilistic regression for visual tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:7183-7192.)
SiamFC++对应Xu Y等人提出的方法(Xu Y,Wang Z.Li,x.;Yuan,Y.;and Yu,G.2020.Siamfc++:Towards robust and accurate visual tracking with targetestimation guidelines[C].AAAI.)
SiamRPN++对应Li B等人提出的方法(Li B,Wu W,Wang Q,et al.Siamrpn++:Evolution of siamese visual tracking with very deep networks[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2019:4282-4291.)
ATOM对应Danelljan M等人提出的方法(Danelljan M,Bhat G,Khan F S,etal.Atom:Accurate tracking by overlap maximization[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:4660-4669.)
SiamRPN对应Li B等人提出的方法(Li B,Yan J,Wu W,et al.High performancevisual tracking with siamese region proposal network[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:8971-8980.)
UPDT对应Bhat G等人提出的方法(Bhat G,Johnander J,Danelljan M,etal.Unveiling the power of deep tracking[C]//Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:483-498.)
ECO对应Danelljan M等人提出的方法(Danelljan M,Bhat G,Shahbaz Khan F,etal.Eco:Efficient convolution operators for tracking[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2017:6638-6646.)
具体实施方式
为了更清楚的说明本发明的目的、技术方案和优点,下面结合附图与具体实施方式对本发明作进一步详细描述:
下面以在公开数据集上训练和测试为例,结合附图对本发明一种基于模板更新和无锚框方式的目标跟踪方法的具体实施方式进一步详细说明,其中图1为基于模板更新和无锚框的跟踪算法流程图。
步骤1:对公开的跟踪数据集ImageNet VID、DET、COCO、YouTube-BBox、GOT-10K中每张图片分别进行裁剪操作。裁剪方式为:以目标所在区域为中心裁剪出矩形图像构成初始模板图像,所述矩形图像长宽分别为目标矩形框长宽的四分之一。若矩形框超出原视频帧边界,则扩展部分以图像平均像素进行填充,最后将裁剪的目标缩放到127×127;以目标所在区域为中心裁剪出矩形图像构成搜索区域图像,所述矩形图像长宽分别为目标矩形框长宽的二分之一,若矩形框超出原视频帧边界,则扩展部分以图像平均像素进行填充;最后将裁剪的目标缩放到255×255;将裁剪好的初始模板图像和搜索区域图像作为图像对,送入基于模板更新和无锚框方式的跟踪网络的第一分支和第三分支。
步骤2:构建基于模板更新的卷积神经网络,所述基于模板更新的卷积神经网络包含3个完全相同的分支卷积网络结构,分别为第一分支、第二分支、第三分支,第一分支为当前模板分支,用于生成已有模板的特征;第二分支为更新模板分支,用于完成模板信息的更新并获取特征图;第三分支为搜索区域分支,用于完成对搜索区域图像进行特征提取。三分支所用骨干网络为ResNet-50卷积神经网络经过改进获得,具体改进为:删除ResNet-50中最后两层卷积的下采样操作,保证三阶段网络的三阶段输出可以具有完全相同的尺寸大小,便于后续融合;为减少计算量加入1x1卷积将输出特征减少到256通道。
三分支中第一二分支先进行加权融合,融合公式如下:
其中,λ代表更新模板和当前模板的权重比例,此处设置为0.15。
融合后再与第三分支进行逐层互相关运算,得到响应得分图,互相关公式如下:
对所述三层得分图进行平均值融合,得到最后的响应得分图,公式如下:
模板更新采用高置信度的模板进行更新,为了减少计算量,每30帧更新一次;目标模板的更新控制器的公式如下:
即当置信度大于0.99并且当前帧与上次更新帧之间相差30的时候进行一次模板更新;将当前新模板代替初始模板存储在寄存器中,直到下次模板更新完成。
步骤3:像素分类分支和目标位置回归分支网络:
将步骤2中所述响应得分图送入分类与回归子网络,分别对目标进行前景和背景的二分类和基于无锚框的目标预测框回归:
预测框的无锚框位置回归的具体过程如下。针对当前跟踪任务中采用矩形框标注方式进行跟踪回归存在着严重的背景干扰问题,本发明采用了椭圆形的标注方式,以减少对背景的学习。设真实框中心点(xc,yc),宽w,高h,左上角(x0,y0),右下角(x1,y1),分别以(xc,yc)为中心,与为半径确定两个相包含的椭圆E1,E2,如附图2所示。样本标签性质的确定方式与矩形框下的IOU相似:
即如果(px,py)落在椭圆E1外部,则被看作是负样本标签,如果落在E2内部,则被看作是负标签,如果落在E1和E2之间,则忽略它。正样本点被用于边框回归,回归目标被定义为:
dl=px-x0,
dt=px-y0,
dr=x1-px,
db=y1-px,
其中,dl,dt,dr,db分别代表左,上,右,下四条边框到(px,py)的距离。
步骤4:基于所述训练数据集对基于模板更新和无锚框方式的目标跟踪网络进行训练。将数据集输入步骤1,完成图片裁剪后,分别以127x127和255x255的图片对作为输入训练样本对,输入采用ImageNet的预训练权重初始化改进后的ResNet-50分支网络,获得响应得分图。
将响应得分图送入步骤3中的分类与回归子网络,分别对目标进行前景和背景的二分类和目标预测框的回归;分类分支采用常规交叉熵损失函数;回归分支本发明使用了新型的损失函数DIOU完成预测框回归,采用无锚框的预测框回归方式下,DIOU的实现公式如下:
其中,p是预测框中心点坐标,pgt为目标真实框中心点坐标,ρ2(p,pgt)为所述两点的欧氏距离,c为同时包含预测框和目标真实框的最小闭包区域的对角线距离,如附图3所示。设(px,py)到真值框左上右下的距离分别为gl,gt,gr,gb,(px,py)到左,上,右,下四条边框的距离分别为dl,dt,dr,db。
预测框与目标真实框之间的交集框的宽高:
wi=min(gl,dl)+min(gr,dr),
hi=min(gb,db)+min(gt,dt),
预测框与目标真实框之间并集的宽高:
wu=max(gl,dl)+max(gr,dr),
hu=max(gb,db)+max(gt,dt),
中心点p与pgt的距离的宽高为:
则预测框中心点和目标真实框中心点的欧氏距离为:
c2=hu 2+Mu 2
p2(p,pgt)=wc 2+hc 2
联立所述公式,完成了DIOU损失在无锚框下的实现。
无锚点回归和分类网络联合训练,优化了如下的多任务损失函数:
L=α1Lreg+α2Lcls
其中,Lcls代表分类网络采用交叉熵损失函数。训练过程中,本发明对于经验性的设置为α1=1,α2=2。使用这一联合损失函数对无锚框跟踪网络进行训练。训练过程中损失函数作为梯度反向传播时的重要参考,让跟踪方法可以向性能更好,梯度最大的方向学习。
训练过程本发明以随机梯度下降法总共训练了25轮,批量处理值设置为32,前5轮使用热启动方式训练,学习率从0.001增大到0.005,第6-20轮学习率从0.005衰减到0.00005,第21-25轮学习率使用余弦退火方式,从0.00005衰减到0.00001。
步骤5:完成实际视频序列的目标跟踪过程。
加载训练好的权重参数和配置文件,配置好所述基于模板更新和无锚框方式的目标跟踪网络和分类回归子网络。在视频的第一帧中需要框选待跟踪的目标及其位置大小。将跟踪视频图像帧送入步骤1中,按照步骤1裁剪出模板和搜索区域,送入改进后的ResNet-50后,将输出的互相关得分图送入分类回归分支;分类网络对图像进行分类,确定出目标所在的位置;回归分支采用无锚框的方式和椭圆形的标注方式确定目标大小,回归边框位置。结合分类和回归分支的结果预测出目标的位置和大小,完成对这一帧图像的目标跟踪。
将上一帧的目标位置送入步骤2中的更新控制器,判断是否更新模板,如果更新就按照步骤2中融合模板分支的方式确定新的模板,如果不更新则依旧使用当前模板继续跟踪目标。重复步骤5,直到视频序列中的图像全部跟踪完毕为止。
以上已经描述了本发明的具体实施例,上述说明是示例性的,并非穷尽性的,不能以此限定本发明的保护范围,凡是按照本发明提出的技术构思做出的等同技术方法均落入本发明保护范围之内。
Claims (4)
1.一种基于模板更新和无锚框方式的目标跟踪方法,其特征在于,包括如下步骤:
步骤1:根据图像中的目标位置和大小,分别对目标模板图像和搜索区域图像进行区域裁剪,以裁剪后的目标模板图像和搜索区域图像组成的图像对作为训练数据集;
步骤2:构建基于模板更新的卷积神经网络,所述基于模板更新的卷积神经网络包含3个完全相同的分支卷积网络结构,分别为第一分支、第二分支、第三分支,第一分支为当前模板分支,用于生成已有模板的特征;第二分支为更新模板分支,用于完成模板信息的更新并获取特征图;第三分支为搜索区域分支,用于完成对搜索区域图像进行特征提取;三分支中第一二分支先进行加权融合后再与第三分支进行逐层互相关运算,得到响应得分图;
所述步骤2中构建基于模板更新的卷积神经网络的具体过程如下:
步骤2.1:加载网络的预训练模型和参数配置文件,以模板图像和搜索图像对作为第一、第三分支的输入;
步骤2.2:所述第一分支将模板Ti-1输入第一分支卷积神经网络,通过Conv1-Conv3输出第一层特征图通过Conv1-Conv4输出第二层特征图通过Conv1-Conv5输出第三层特征图i=1表示T0为初始模板,i>1表示Ti-1为后续帧中的当前模板;
步骤2.4:将模板特征图与搜索图像特征图进行逐层互相关运算,公式如下:
对三层特征图进行平均值融合,得到最后的响应得分图和模板置信度,用于步骤4中完成训练;
步骤2.5:模板更新采用高置信度的模板进行更新,目标模板的更新控制器的公式如下:
即当置信度Sbest大于0.99,并且两次更新帧之间相差30的时候进行一次模板更新;
其中,λ代表更新模板和当前模板的权重比例,可以根据经验条件,默认设置为0.15,将当前新模板代替初始模板存储在寄存器中,直到下次模板更新完成;
步骤3:构建图像分类和目标位置回归子网络;分类是对图像进行前景背景的二分类,回归采用无锚框方式直接预测目标的中心点和矩形框的上下左右四条边框位置;
步骤4:基于公开训练数据集,训练所述步骤3和步骤4组成的基于模板更新和无锚框方式的跟踪网络,获得训练好参数的基于模板更新和无锚框方式的跟踪网络;
所述步骤4中所述训练基于模板更新和无锚框方式的目标跟踪方法的具体过程如下:
步骤4.1:将步骤2.5中所述响应得分图送入分类与回归子网络,分别对目标进行前景和背景的二分类和目标预测框的回归;
步骤4.2:所述分类分支采用常规交叉熵损失函数;所述回归分支使用了损失函数DIOU完成预测框回归,具体步骤如下:
步骤4.2.1:采用无锚框的预测框回归方式下,DIOU的实现公式如下:
其中,p是预测框中心点坐标,pgt为目标真实框中心点坐标,ρ2(p,pgt)为所述两点的欧氏距离,c为同时包含预测框和目标真实框的最小闭包区域的对角线距离,设(px,py)到预测框左上右下的距离分别为gl,gt,gr,gb,(px,py)到目标真实框左,上,右,下四条边框的距离分别为dl,dt,dr,db;
步骤4.2.2:预测框与目标真实框之间的交集框的宽高:
wi=min(gl,dl)+min(gr,dr),
hi=min(gb,db)+min(gt,dt),
预测框与目标真实框之间并集的宽高:
wu=max(gl,dl)+max(gr,dr),
hu=max(gb,db)+max(gt,dt),
中心点p与pgt的距离的宽高为:
步骤4.2.3:则预测框中心点和目标真实框中心点的欧氏距离为:
c2=hu 2+wu 2
ρ2(p,pgt)=wc 2+hc 2
步骤4.3:联立所述公式,完成了DIOU损失在无锚框下的实现,无锚点回归和分类网络联合训练,优化了如下的多任务损失函数:
L=α1Lreg+α2Lcls
其中,Lcls代表分类网络采用交叉熵损失函数,训练过程中,α1,α2是可变参数,默认设置α1=1,α2=2;
步骤4.4:采用上述损失函数对无锚框跟踪网络进行训练,使用多个数据集进行多轮联合训练;
步骤5:使用训练好参数的基于模板更新和无锚框方式的跟踪网络确定视频序列中每帧图像中目标的位置和大小,完成目标跟踪。
2.根据权利要求1所述的一种基于模板更新和无锚框方式的目标跟踪方法,其特征在于,所述步骤1中裁剪模板图像和搜索图像的具体过程如下:
步骤1.1:以目标所在区域为中心裁剪出矩形图像构成初始模板图像,所述矩形图像长宽分别为目标矩形框长宽的四分之一;若矩形框超出原视频帧边界,则扩展部分以图像平均像素进行填充;最后将裁剪的目标缩放到127×127;
步骤1.2:以目标所在区域为中心裁剪出矩形图像构成搜索区域图像,所述矩形图像长宽分别为目标矩形框长宽的二分之一,若矩形框超出原视频帧边界,则扩展部分以图像平均像素进行填充;最后将裁剪的目标缩放到255×255。
3.根据权利要求2所述的一种基于模板更新和无锚框方式的目标跟踪方法,其特征在于,所述步骤3中分类和目标位置回归的具体过程如下:
步骤3.1:将步骤2.4中所述响应得分图送入分类与回归子网络,分别对目标进行前景和背景的二分类和基于无锚框的目标预测框回归;
步骤3.2:所述预测框的无锚框位置回归的具体过程如下:采用了椭圆形的标注方式,设真实框中心点(xc,yc),宽w,高h,左上角(x0,y0),右下角(x1,y1),分别以(xc,yc)为中心,与为半径确定两个相包含的椭圆E1,E2,样本标签性质的确定方式与矩形框下的IOU相似:
即如果(px,py)落在椭圆E1外部,则被看作是负样本标签,如果落在E2内部,则被看作是正标签,如果落在E1和E2之间,则忽略它,正样本点被用于边框回归,回归目标被定义为:
dl=px-x0
dt=px-y0
dr=x1-px
db=y1-py
其中,dl,dt,dr,db分别代表目标真实框左,上,右,下四条边框到(px,py)的距离。
4.根据权利要求2所述的一种基于模板更新和无锚框方式的目标跟踪方法,其特征在于,所述步骤5中所述完成目标跟踪的具体过程如下:
步骤5.1:加载训练好的权重参数和配置文件,配置好所述基于模板更新和无锚框方式的目标跟踪网络和分类回归子网络;
步骤5.2:将跟踪视频帧送入网络中,按照步骤1裁剪图像后输入跟踪网络,依次按照步骤2和步骤3输出目标的位置和大小;
步骤5.3:根据步骤2.6所述模板更新控制器确定是否更新模板;
步骤5.4:将视频后续帧中图像逐帧输入基于模板更新和无锚框方式的跟踪网络,重复步骤5.2-5.4的过程,直到视频序列中的图像全部处理完毕为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110178314.0A CN112884037B (zh) | 2021-02-09 | 2021-02-09 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110178314.0A CN112884037B (zh) | 2021-02-09 | 2021-02-09 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884037A CN112884037A (zh) | 2021-06-01 |
CN112884037B true CN112884037B (zh) | 2022-10-21 |
Family
ID=76056242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110178314.0A Active CN112884037B (zh) | 2021-02-09 | 2021-02-09 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884037B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609948B (zh) * | 2021-07-29 | 2023-09-05 | 华侨大学 | 一种视频时序动作的检测方法、装置及设备 |
CN113705731A (zh) * | 2021-09-23 | 2021-11-26 | 中国人民解放军国防科技大学 | 一种基于孪生网络的端到端图像模板匹配方法 |
CN117152422B (zh) * | 2023-10-31 | 2024-02-13 | 国网湖北省电力有限公司超高压公司 | 一种紫外图像无锚框目标检测方法及存储介质、电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780554A (zh) * | 2016-12-02 | 2017-05-31 | 南京理工大学 | 一种融合模板匹配和灰预测的目标跟踪方法 |
CN110647836A (zh) * | 2019-09-18 | 2020-01-03 | 中国科学院光电技术研究所 | 一种鲁棒的基于深度学习的单目标跟踪方法 |
CN110796676A (zh) * | 2019-10-10 | 2020-02-14 | 太原理工大学 | 高置信度更新策略结合svm再检测技术的目标跟踪方法 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111797716A (zh) * | 2020-06-16 | 2020-10-20 | 电子科技大学 | 一种基于Siamese网络的单目标跟踪方法 |
CN112069896A (zh) * | 2020-08-04 | 2020-12-11 | 河南科技大学 | 一种基于孪生网络融合多模板特征的视频目标跟踪方法 |
CN112215079A (zh) * | 2020-09-16 | 2021-01-12 | 电子科技大学 | 一种全局多阶段目标跟踪方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491B (zh) * | 2018-08-03 | 2020-09-08 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN110766726B (zh) * | 2019-10-17 | 2022-03-01 | 重庆大学 | 复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法 |
CN111582062B (zh) * | 2020-04-21 | 2022-10-14 | 电子科技大学 | 一种基于YOLOv3的目标跟踪中的重检测方法 |
CN111640136B (zh) * | 2020-05-23 | 2022-02-25 | 西北工业大学 | 一种复杂环境中的深度目标跟踪方法 |
-
2021
- 2021-02-09 CN CN202110178314.0A patent/CN112884037B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780554A (zh) * | 2016-12-02 | 2017-05-31 | 南京理工大学 | 一种融合模板匹配和灰预测的目标跟踪方法 |
CN110647836A (zh) * | 2019-09-18 | 2020-01-03 | 中国科学院光电技术研究所 | 一种鲁棒的基于深度学习的单目标跟踪方法 |
CN110796676A (zh) * | 2019-10-10 | 2020-02-14 | 太原理工大学 | 高置信度更新策略结合svm再检测技术的目标跟踪方法 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111797716A (zh) * | 2020-06-16 | 2020-10-20 | 电子科技大学 | 一种基于Siamese网络的单目标跟踪方法 |
CN112069896A (zh) * | 2020-08-04 | 2020-12-11 | 河南科技大学 | 一种基于孪生网络融合多模板特征的视频目标跟踪方法 |
CN112215079A (zh) * | 2020-09-16 | 2021-01-12 | 电子科技大学 | 一种全局多阶段目标跟踪方法 |
Non-Patent Citations (6)
Title |
---|
Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression;Zhaohui Zheng等;《Proceedings of the AAAI Conference on Artificial Intelligence》;20200403;第34卷(第7期);第12993-13000页 * |
Robust template adjustment siamese network for object visual tracking;Tang ChuanMing等;《Sensors》;20210220;第21卷(第4期);第1-16页 * |
Siamese box adaptive network for visual tracking;Zedu Chen等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20200619;第6668–6677页 * |
Siamrpn++: Evolution of siamese visual tracking with very deep networks;Bo Li等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20191231;第4282-4291页 * |
Target tracking algorithm with adaptive learning rate complementary filtering;Pan Y等;《2020 39th Chinese Control Conference (CCC)》;20200909;第6618-6623页 * |
基于孪生网络和相关滤波器的目标跟踪算法研究;夏鑫鑫;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200315(第03期);第I135-315页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112884037A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884037B (zh) | 一种基于模板更新和无锚框方式的目标跟踪方法 | |
CN112329658B (zh) | 一种对于yolov3网络的检测算法改进方法 | |
CN113052834B (zh) | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 | |
CN112132856B (zh) | 一种基于自适应模板更新的孪生网络跟踪方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN113393457B (zh) | 一种结合残差密集块与位置注意力的无锚框目标检测方法 | |
CN113807188B (zh) | 基于锚框匹配和Siamese网络的无人机目标跟踪方法 | |
CN109934846A (zh) | 基于时间和空间网络的深度集成目标跟踪方法 | |
CN110309765B (zh) | 一种视频运动目标高效检测方法 | |
Xing et al. | Traffic sign recognition using guided image filtering | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN114359245A (zh) | 一种工业场景下产品表面缺陷检测方法 | |
KR102162451B1 (ko) | 학습네트워크 기반의 비디오 보간 방법 및 비디오 보외 방법 | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN115331245A (zh) | 一种基于图像实例分割的表格结构识别方法 | |
CN117152746B (zh) | 一种基于yolov5网络的宫颈细胞分类参数获取方法 | |
CN114708566A (zh) | 一种基于改进YOLOv4的自动驾驶目标检测方法 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN113609904B (zh) | 一种基于动态全局信息建模和孪生网络的单目标跟踪算法 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 | |
CN117079260A (zh) | 一种基于混合注意力与特征增强的文本检测方法 | |
CN116363064A (zh) | 融合目标检测模型和图像分割模型的缺陷识别方法及装置 | |
CN113223053A (zh) | 一种基于孪生网络融合多层特征的无锚点目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |