CN112215079B - 一种全局多阶段目标跟踪方法 - Google Patents

一种全局多阶段目标跟踪方法 Download PDF

Info

Publication number
CN112215079B
CN112215079B CN202010972556.2A CN202010972556A CN112215079B CN 112215079 B CN112215079 B CN 112215079B CN 202010972556 A CN202010972556 A CN 202010972556A CN 112215079 B CN112215079 B CN 112215079B
Authority
CN
China
Prior art keywords
frame
candidate
network
convolution
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010972556.2A
Other languages
English (en)
Other versions
CN112215079A (zh
Inventor
王正宁
赵德明
曾浩
曾仪
奚伟航
刘怡君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010972556.2A priority Critical patent/CN112215079B/zh
Publication of CN112215079A publication Critical patent/CN112215079A/zh
Application granted granted Critical
Publication of CN112215079B publication Critical patent/CN112215079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种全局多阶段目标跟踪方法,涉及图像处理和计算机视觉领域。该方法使用的方法关键步骤分为如下两个阶段,第一阶段输入为第一帧与搜索帧,第二阶段输出一系列带有置信度的跟踪目标边界框。本发明在目标跟踪网络的特征提取阶段使用可变形卷积结构,使得网络对目标的特征提取具有更强的形变鲁棒性。在区域候选网络使用导向锚框机制,让网络自行学习产生锚框,使得锚框与当前输入特征有更好的契合程度,同时在使用不同数据集进行训练时,模型对不同的数据集也有良好的拟合能力。使用正样本判别阈值递增的多阶段级联的候选框分类回归网络进行候选框的精修,使得候选框质量与不同阶段的判别阈值相匹配,进一步提升结果框的精确度。

Description

一种全局多阶段目标跟踪方法
技术领域
本发明属于图像处理和计算机视觉领域,具体涉及一种全局多阶段目标跟踪方法。
背景技术
目标跟踪在监控、增强现实、机器人、视频编辑等领域有着广泛的应用。在过去的几十年里,这一领域有过许多进展。视觉目标跟踪是指在连续的视频帧序列中连续定位目标,该目标是在第一帧中被指定的任意目标。由于被跟踪的目标在视频帧序列中可能受光照、形变、遮挡等影响,因此在处理复杂情况下的目标跟踪问题仍旧是具有挑战性的。
目前,利用深度学习进行目标跟踪的算法有许多,其中主流的方向之一是利用孪生网络结构进行目标跟踪。Fully-convolutional siamese networks for objecttracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr.,InECCV Workshops,2016是首创基于孪生网络结构进行目标跟踪的算法,孪生网络的最根本特征如下:使用两个在结构与参数上完全一致的卷积神经网络对跟踪目标与搜索区域(寻找跟踪目标的区域)进行特征提取,并将提取出的跟踪目标特征与搜索区域特征进行相关运算,获得目标可能位置的特征。通过对目标可能位置的特征进行处理,获得最终的被跟踪目标位置与大小。虽然首创孪生网络结构,但该方法的特征提取能力弱,精度上性能低,且不能根据物体的形变改变边界框的比例。发明专利“一种基于孪生网络的目标跟踪方法,公开号:CN110807793A”使用卷积核形状固定的卷积神经网络进行目标的特征提取,且相对于Fully-convolutional siamese networ ks for object tracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.T orr.,In ECCV Workshops,2016使用了特征提取能力更强的网络设计。虽然固定形状的传统卷积核具有一定的鲁棒性,包括尺度不变性与旋转不变性,但对目标跟踪任务而言,目标在帧序列中可能存在大的形态变化,以及产生运动模糊与伪影,极端情况下固定形状的卷积核的鲁棒性将会不足。发明专利“基于卷积神经网络的红外弱小目标检测跟踪方法,公开号:CN110728697A”使用区域候选网络获得被跟踪目标的位置与包围框,相较于Fully-convoluti onal siamese networks forobject tracking.,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,andP.H.Torr.,In ECCV Workshops,2016在精度上有更好的效果,但这样跟踪方法由于存在噪声干扰的问题,同时由于网络结构的限制,在训练时为了划分正负样本只能设定一组判断正负样本的交并比阈值,所以对不同准确度的候选框存在训练效果的差异,无法发挥最好的效果,其在精度上还有提升的空间。Siamese cascaded region proposal networks for real-time visual tracking[C],Fan H,Ling H.,Proceedings of the IEEEConference on C omputer Vision and Pattern Recognition.2019:7952-7961通过加入了“锚框”机制,设定一系列大小位置固定的锚框,让这些锚框去拟合被跟踪物体的实际位置与大小,输出更为精确的被跟踪目标的位置与边界框。但该方法的锚框参数(大小、位置与数量等)并非是通过网络生成获得而是人为设定,设定这些参数会花费一定的时间资源,且无法很好地匹配训练数据中的目标分布与大小,而当使用新的数据就需要重新设计锚框参数。Siamese cascaded regio n proposal networks for real-time visual tracking[C],Fan H,Ling H.,Proceedings of the I EEE Conference on Computer Vision andPattern Recognition.2019:7952-7961由于机制设计的问题,每次的跟踪目标的搜索区域仅在上一帧目标位置的周围而非全局,这样一旦当目标从视频帧中被遮挡或离开视频帧的视野,再重新出现在离最后一次被检测到的位置较远的区域时,将难以被检测到,即该方法的重跟踪能力较差。且当存在多个与被跟踪目标相似的对象时,由于会利用到上一帧的预测结果,会存在错误累积的情况,产生错误跟踪。
针对现有孪生网络跟踪算法所存在的鲁棒性不足、锚框匹配性差与目标包围框精度不足的问题,本文基于孪生网络的思想设计出该用于目标跟踪的神经网络,并使用可变形卷积,导向锚框,候选框分类回归网络级联来提高网络的鲁棒性与精确性。同时在机制上采用单帧全局跟踪,以此来提升重跟踪能力与避免错误累积。
发明内容
本发明是一种通过区域候选网络与相互级联的候选框分类回归网络完成在全局视野内进行目标跟踪的两阶段方法。涉及卷积神经网络,可变形卷积,导向锚框,候选框分类回归网络级联等一系列方法。
本发明属于图像处理和计算机视觉领域,用于视觉单目标跟踪。本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入为第一帧与搜索帧,第二阶段输出一系列带有置信度的跟踪目标边界框。
第一阶段:使用具有可变形卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征,将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络,获得跟踪目标的候选区域与分类。
第二阶段:提取出搜索帧特征上属于不同候选区域的特征,这些候选区域特征与跟踪目标特征进行相关运算,将结果送入级联的三阶段候选框分类回归网络。在第一个候选框分类回归网络中,跟踪目标特征分别与不同的候选区域特征进行相关运算后,送入卷积神经网络完成对候选框的分类与精细化,得到一组跟踪目标的结果框与分类。这时将第一阶段结果框作为候选框,提取出搜索帧特征上属于不同候选区域的特征,和跟踪目标特征进行相关运算,将结果送入第二个候选框分类回归网络,得到的结果同如上处理后送入第三个候选框分类回归网络。最后获得三组不同阶段候选框分类回归网络的输出结果,取这些结果框中置信度最高的作为最终的跟踪目标边界框。
本发明在目标跟踪网络的特征提取阶段使用可变形卷积结构,使得网络对目标的特征提取具有更强的形变鲁棒性。刚性目标的运动模糊以及非刚性目标在运动过程中会发生形变,都会导致跟踪的失败,针对这种问题,本发明在特征提取网络中加入了可变形卷积和可变形池化予以解决。
在区域候选网络使用导向锚框机制,让网络自行学习产生锚框,使得锚框与当前输入特征有更好的契合程度。同时网络由于可以自行学习产生锚框,所以在使用不同数据集进行训练时,让模型对不同的数据集也有良好的拟合能力。
使用正样本判别阈值递增的多阶段级联的候选框分类回归网络进行候选框的精修,使得候选框质量与不同阶段的判别阈值相匹配,进一步提升结果框的精确度。
附图说明
图1为本发明的网络整体结构图
图2为本发明的传统卷积与可变形卷积示意图
图3为本发明的可变形卷积模块示意图
图4为本发明的带有导向锚框的区域候选网络结构图
图5为本发明的候选框分类回归网络结构图
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
本发明使用的方法关键步骤分为如下两个阶段。其中第一阶段输入为第一帧与搜索帧,第二阶段输出一系列带有置信度的跟踪目标边界框。网络整体结构如图1所示:
第一阶段:使用具有可变形卷积结构的卷积神经网络来提取跟踪目标与整个搜索帧的特征,将两个特征进行相关运算得到跟踪目标在整个搜索帧上的全局相关性特征。将全局相关性特征送入带有导向锚框结构的区域候选网络,获得跟踪目标的候选区域与分类。
第二阶段:提取出搜索帧特征上属于不同候选区域的特征,这些候选区域特征与跟踪目标特征进行相关运算,将结果送入级联的三阶段候选框分类回归网络。在第一个候选框分类回归网络中,跟踪目标特征分别与不同的候选区域特征进行相关运算后,送入卷积神经网络完成对候选框的分类与精细化,得到一组跟踪目标的结果框与分类。这时将第一阶段结果框作为候选框,提取出搜索帧特征上属于不同候选区域的特征,和跟踪目标特征进行相关运算,将结果送入第二个候选框分类回归网络,得到的结果同如上处理后送入第三个候选框分类回归网络。最后获得三组不同阶段候选框分类回归网络的输出结果,取这些结果框中置信度最高的作为最终的跟踪目标边界框。
本发明提出的一种全局多阶段目标跟踪方法,具体包括如下步骤:
1)使用两个结构相同、参数共享的深度残差网络ft(·)与fs(·),分别提取标注有跟踪目标边界框的第一帧t的特征Ft=ft(t)和任意待找出跟踪目标的搜索帧s的特征Fs=fs(s)。其中,在ft(·)与fs(·)的第三、第四、第五个网络区块中加入了可变形卷积模块。
2)采用可变形卷积模块进行可变形卷积的步骤为:如图3所示,将要进行可变形卷积的长、宽、通道数为[w,h,c1]的特征图x,通过一组卷积层得到尺寸为[w,h,2N]的偏移参数Δpn,再通过偏移参数Δpn对特征图x进行可变形卷积操作。接下来阐述可变形卷积具体原理与过程。
一般卷积核在张量上进行卷积时,一次只会与感受域
Figure BDA0002684619550000043
内的元素进行运算,如图2(a)所示,例如:
Figure BDA0002684619550000044
表示一个3×3卷积核感受域中9个权重的相对位置坐标。对特征图x与权重为w的卷积核进行一般卷积后的输出y在pa位置上的值y(pa)可以表示为:
Figure BDA0002684619550000041
其中pa表示绝对位置坐标,pn表示在感受域中的相对位置坐标,x(pa+pn)表示输入x在pa+pn位置上的值,w(pn)表示卷积核在pn位置上的值。
可变形卷积与一般卷积的区别在于,其卷积核感受域不再局限于
Figure BDA0002684619550000045
上固定的位置,而会存在一定的偏移,如图2(b)所示,则可变形卷积操作可以表示为:
Figure BDA0002684619550000042
其中Δpn表示pn的位置偏移,其中n=1,...,N,N为一个卷积核中参数的个数,即
Figure BDA0002684619550000053
对3×3卷积核而言N=9。不再固定的感受域让可变形卷积对跟踪物体的形变有更好的特征提取能力。
3)当Δpn为小数而不是整数时,采用双线性插值来获得输入x在p=pa+pn+Δpn位置上的值,即:
Figure BDA0002684619550000051
其中q表示输入x上任意一个空间位置,而
G(q,p)=g(qx,px)·g(qy,py) (5)
g(a,b)=max(0,1-|a-b|) (6)
其中,px、py分别表示位置p的x坐标与y坐标值,qx、qy分别表示位置q的x坐标与y坐标值。
4)获得Ft后,根据t所标注的跟踪目标信息,使用感兴趣区域一致划分(ROIAlign),将Ft的中的跟踪目标特征FtR提取出来。将FtR与Fs进行卷积相关运算,获得相关性特征
Figure BDA0002684619550000054
将此相关性特征送入区域候选网络,获得一系列候选区域。
进行卷积相关运算的具体步骤表达如下:
Figure BDA0002684619550000052
其中fs1(·)与ft1(·)是两个分别用于对Fs与FtR进行特征映射的卷积层,
Figure BDA0002684619550000055
代表卷积运算,fout1(·)是一个用于调整fs1(Fs)与ft1(FtR)通道的卷积层。
5)本发明所使用的区域候选网络使用了导向锚框机制,如图4所示,使用导向锚框机制在相关性特征
Figure BDA0002684619550000056
的[w,h]上的每个空间位置上生成一个锚框,进而指导生成候选框。首先将输入特征F通过卷积操作,获得每个位置的锚框形状(长宽)和锚框置信度。将锚框形状送入大小为1×1卷积层获得偏移参数Δ′pn,利用偏移参数Δ′pn对输入特征F进行卷积操作,获得输入特征F′。再通过两个不同的卷积层,输出候选框的置信度与位置信息。
通过导向锚框获得锚框形状实际代表的是锚框的相对长宽dw与dh,其与绝对长宽的关系如下:
w=σ·s·edw,h=σ·s·edh (7)
其中σ是尺度系数,s代表F中1个单位长度对应原始输入图像的s个单位长度。
在实际训练时,由于区域候选网络有四个输出,所以区域候选网络的损失
Figure BDA0002684619550000061
包括四个部分:锚框分类损失
Figure BDA0002684619550000062
与锚框回归损失
Figure BDA0002684619550000063
候选框分类损失
Figure BDA0002684619550000064
与候选框回归损失
Figure BDA0002684619550000065
Figure BDA0002684619550000066
其中,λ1与λ2用于损失平衡。其中
Figure BDA0002684619550000067
使用Focal Loss,
Figure BDA0002684619550000068
使用Bounded IoULoss,
Figure BDA0002684619550000069
使用交叉熵损失,
Figure BDA00026846195500000610
使用SmoothL1 Loss。
6)获得候选框后,按照每个候选框所对应区域,使用感兴趣区域一致划分(ROIAlign)将不同区域的Fs提取出来,获得一组候选框区域特征FsR。将每一个FsR与FtR进行哈达玛(Hadamard)相关运算,获得的候选框相关性特征
Figure BDA00026846195500000611
进行哈达玛(Hadamard)相关运算的具体步骤表达如下:
Figure BDA00026846195500000612
其中fs2(·)与ft2(·)是两个分别用于对FsR与FtR进行特征映射的卷积层,⊙代表哈达玛(H adamard)积,fout2(·)是一个用于调整fs2(FsR)与ft2(FtR)通道的卷积层。
7)将
Figure BDA00026846195500000613
送入到第一阶段的候选框分类回归网络,如图1所示,对每一个候选框进行精修,得到一组结果框与对应置信度。本发明所使用的每个阶段候选框分类回归网络的结构相同,如图5所示,将
Figure BDA00026846195500000614
拉直后通过一系列全连接层,获得
Figure BDA00026846195500000615
对应候选框精修后的分类与回归结果。将所有的
Figure BDA00026846195500000616
都送入网络后,获得第一阶段候选框分类回归网络输出的结果框与置信度。
8)将第一阶段候选框分类回归网络的结果框作为候选框,按照步骤6)中的处理方法获得一组新的
Figure BDA00026846195500000617
将新的
Figure BDA00026846195500000618
送入到第二阶段的候选框分类回归网络,得到第二阶段候选框分类回归网络的结构框与置信度。最后将第二阶段结果作为候选框,按照步骤6)中的处理方法再获得一组新的
Figure BDA00026846195500000619
送入第三阶段网络,得到第三阶段候选框分类回归网络的结构框与置信度。
第一、二、三阶段的候选框分类回归网络在结构与超参数设计上保持相同,唯一的不同在于,训练时对正样本(认为结果框包围住了目标)的判断标准不同。当结果框与真值的交并比大于预先设定的阈值时,即将结果框判定为正样本进行训练。本发明中第一、二、三阶段的候选框分类回归网络预先设定的阈值分别为TIoU1,TIoU2,TIoU3,且0<TIoU1<TIoU2<TIoU3<1。三个阶段的正样本判别阈值逐渐升高,这是因为:初级阶段使用低阈值来精修低精确度(指与真值的交并比较低)的候选框,避免由于阈值过高导致许多候选框被判别为负样本,导致漏检。越到后期,候选框精确度提高,这时就可使用更高的判别阈值可以使候选框精确度进一步提升。
9)在训练时,由于通过每个
Figure BDA0002684619550000071
都会得到一组结果框与置信度。所以候选框分类回归网络的损失
Figure BDA0002684619550000072
为:
Figure BDA0002684619550000073
其中λ用于损失平衡。
Figure BDA0002684619550000074
使用交叉熵损失,
Figure BDA0002684619550000075
使用SmoothL1 Loss。
10)当第三阶段候选框分类回归网络输出结果后,从第三个阶段的输出中选取置信度最高的结果框作为第一帧t上目标在搜索帧s上的跟踪结果。
本发明具体使用预设的网络结构,在公开数据集GOT-10K的测试集上表现如下表1所示,其中“基线”表示不加入可变形卷积、导向锚框,并使用单阶段候选框分类回归网络的模型。AO代表所有帧上跟踪结果与真值之间的平均重叠率。SRx指重叠率高于阈值x的成功跟踪帧的百分比。
表1-GOT10k测试集上的评估结果
Figure BDA0002684619550000076
该结果表明,本发明的各个评价指标及其组合对比基线在精确度指标上都有明显的提升,证明了发明的有效性。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。

Claims (1)

1.一种全局多阶段目标跟踪方法,其特征在于,该方法包括以下步骤:
1)使用两个结构相同、参数共享的深度残差网络ft(·)与fs(·),分别提取标注有跟踪目标边界框的第一帧t的特征Ft=ft(t)和任意待找出跟踪目标的搜索帧s的特征Fs=fs(s),其中,分别在ft(·)与fs(·)的第三、第四、第五个网络区块中加入可变形卷积模块;
2)利用可变形卷积模块进行可变形卷积的步骤为:将要进行可变形卷积的长、宽、通道数为[w,h,c1]的特征图x,通过一组卷积层得到尺寸为[w,h,2N]的偏移参数Δpn,再通过偏移参数Δpn对所述特征图x进行可变形卷积操作,接下来阐述可变形卷积具体原理与过程:
一般卷积核在张量上进行卷积时,一次只会与感受域
Figure FDA0002684619540000011
内的元素进行运算,对于
Figure FDA0002684619540000012
表示一个3×3卷积核感受域中9个权重的相对位置坐标,对特征图x与权重为w的卷积核进行一般卷积后的输出y在pa位置上的值y(pa)可以表示为:
Figure FDA0002684619540000013
其中pa表示绝对位置坐标,pn表示在感受域中的相对位置坐标,x(pa+pn)表示输入特征图x在pa+pn位置上的值,w(pn)表示卷积核在pn位置上的值;
可变形卷积与一般卷积的区别在于,其卷积核感受域不再局限于
Figure FDA0002684619540000017
上固定的位置,而会存在一定的偏移,可变形卷积操作可以表示为:
Figure FDA0002684619540000014
其中Δpn表示pn的位置偏移,其中n=1,...,N,N为一个卷积核中参数的个数,即
Figure FDA0002684619540000015
对3×3卷积核而言N=9,不再固定的感受域让可变形卷积对跟踪物体的形变有更好的特征提取能力;
3)当Δpn为小数而不是整数时,采用双线性插值来获得输入特征图x在p=pa+pn+Δpn位置上的值,即:
Figure FDA0002684619540000016
其中q表示输入特征图x上任意一个空间位置,而
G(q,p)=g(qx,px)·g(qy,py) (5)
g(a,b)=max(0,1-|a-b|) (6)
其中,px、py分别表示位置p的x坐标值与y坐标值;qx、qy分别表示位置q的x坐标值与y坐标值;
4)获得Ft后,根据t所标注的跟踪目标信息,使用感兴趣区域一致划分ROI Align,将Ft的中的跟踪目标特征FtR提取出来,将FtR与Fs进行卷积相关运算,获得相关性特征
Figure FDA0002684619540000029
将此相关性特征
Figure FDA00026846195400000210
送入区域候选网络,获得一系列候选区域;
进行卷积相关运算的具体步骤表达如下:
Figure FDA0002684619540000021
其中fs1(·)与ft1(·)是两个分别用于对Fs与FtR进行特征映射的卷积层,
Figure FDA0002684619540000022
代表卷积运算,fout1(·)是一个用于调整fs1(Fs)与ft1(FtR)通道的卷积层;
5)区域候选网络使用了导向锚框机制,使用导向锚框机制在相关性特征
Figure FDA00026846195400000211
的[w,h]上的每个空间位置上生成一个锚框,进而指导生成候选框;首先将输入特征F通过卷积操作,获得每个位置的锚框形状和锚框置信度,其中,锚框形状即锚框的长和宽;将锚框形状送入大小为1×1卷积层获得偏移参数Δ′pn,利用偏移参数Δ′pn对输入特征F进行卷积操作,获得输入特征F′;再通过两个不同的卷积层,输出候选框的置信度与位置信息;
通过导向锚框获得锚框形状实际代表的是锚框的相对长宽dw与dh,其与绝对长宽的关系如下:
w=σ·s·edw,h=σ·s·edh (7)
其中σ是尺度系数,s代表F中1个单位长度对应原始输入图像的s个单位长度;
在实际训练所述区域候选网络时,由于所述区域候选网络有四个输出,所以区域候选网络的损失
Figure FDA0002684619540000023
包括四个部分:锚框分类损失
Figure FDA0002684619540000024
与锚框回归损失
Figure FDA0002684619540000025
候选框分类损失
Figure FDA0002684619540000026
与候选框回归损失
Figure FDA0002684619540000027
Figure FDA0002684619540000028
其中,λ1与λ2用于损失平衡,
Figure FDA0002684619540000031
使用Focal Loss,
Figure FDA0002684619540000032
使用Bounded IoU Loss,
Figure FDA0002684619540000033
使用交叉熵损失,
Figure FDA0002684619540000034
使用SmoothL1 Loss;
6)获得候选框后,按照每个候选框所对应区域,使用感兴趣区域一致划分ROI Align将不同区域的Fs提取出来,获得一组候选框区域特征FsR;将每一个FsR与FtR进行哈达玛Hadamard相关运算,获得的候选框相关性特征
Figure FDA0002684619540000035
进行哈达玛Hadamard相关运算的具体步骤表达如下:
Figure FDA0002684619540000036
其中fs2(·)与ft2(·)是两个分别用于对FsR与FtR进行特征映射的卷积层,⊙代表哈达玛Hadamard积,fout2(·)是一个用于调整fs2(FsR)与ft2(FtR)通道的卷积层;
7)将
Figure FDA00026846195400000313
送入到第一阶段的候选框分类回归网络,对每一个候选框进行精修,得到一组结果框与对应置信度;将
Figure FDA0002684619540000037
拉直后通过一系列全连接层,获得
Figure FDA0002684619540000038
对应候选框精修后的分类与回归结果,将所有的
Figure FDA0002684619540000039
都送入网络后,获得第一阶段候选框分类回归网络输出的结果框与置信度;
8)将第一阶段候选框分类回归网络的结果框作为候选框,按照步骤6)中的处理方法获得一组新的
Figure FDA00026846195400000310
将新的
Figure FDA00026846195400000311
送入到第二阶段的候选框分类回归网络,得到第二阶段候选框分类回归网络的结构框与置信度;最后将第二阶段结果作为候选框,按照步骤6)中的处理方法再获得一组新的
Figure FDA00026846195400000312
送入第三阶段网络,得到第三阶段候选框分类回归网络的结构框与置信度;
第一、二、三阶段的候选框分类回归网络在结构与超参数设计上保持相同,唯一的不同在于,训练时对正样本,即认为结果框包围住了目标的判断标准不同;当结果框与真值的交并比大于预先设定的阈值时,即将结果框判定为正样本进行训练;第一、二、三阶段的候选框分类回归网络预先设定的阈值分别为TIoU1,TIoU2,TIoU3,且0<TIoU1<TIoU2<TIoU3<1;三个阶段的正样本判别阈值逐渐升高,这是因为初级阶段使用低阈值来精修低精确度,即使用与真值的交并比较低的候选框,避免由于阈值过高导致许多候选框被判别为负样本,导致漏检;越到后期,候选框精确度提高,这时就可使用更高的判别阈值可以使候选框精确度进一步提升;
9)在训练候选框分类回归网络时,由于通过每个
Figure FDA0002684619540000041
都会得到一组结果框与置信度,所以候选框分类回归网络的损失
Figure FDA0002684619540000042
为:
Figure FDA0002684619540000043
其中λ用于损失平衡,
Figure FDA0002684619540000044
使用交叉熵损失,
Figure FDA0002684619540000045
使用SmoothL1 Loss;
10)当第三阶段候选框分类回归网络输出结果后,从第三个阶段的输出中选取置信度最高的结果框作为第一帧t上目标在搜索帧s上的跟踪结果。
CN202010972556.2A 2020-09-16 2020-09-16 一种全局多阶段目标跟踪方法 Active CN112215079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972556.2A CN112215079B (zh) 2020-09-16 2020-09-16 一种全局多阶段目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972556.2A CN112215079B (zh) 2020-09-16 2020-09-16 一种全局多阶段目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112215079A CN112215079A (zh) 2021-01-12
CN112215079B true CN112215079B (zh) 2022-03-15

Family

ID=74048942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972556.2A Active CN112215079B (zh) 2020-09-16 2020-09-16 一种全局多阶段目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112215079B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884037B (zh) * 2021-02-09 2022-10-21 中国科学院光电技术研究所 一种基于模板更新和无锚框方式的目标跟踪方法
CN114332151B (zh) * 2021-11-05 2023-04-07 电子科技大学 一种基于阴影Video-SAR中感兴趣目标跟踪方法
CN114757970B (zh) * 2022-04-15 2024-03-08 合肥工业大学 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609541A (zh) * 2017-10-17 2018-01-19 哈尔滨理工大学 一种基于可变形卷积神经网络的人体姿态估计方法
CN110619655A (zh) * 2019-08-23 2019-12-27 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
CN111192291A (zh) * 2019-12-06 2020-05-22 东南大学 一种基于级联回归与孪生网络的目标跟踪方法
CN111429482A (zh) * 2020-03-19 2020-07-17 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN111640136A (zh) * 2020-05-23 2020-09-08 西北工业大学 一种复杂环境中的深度目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957053B2 (en) * 2018-10-18 2021-03-23 Deepnorth Inc. Multi-object tracking using online metric learning with long short-term memory

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609541A (zh) * 2017-10-17 2018-01-19 哈尔滨理工大学 一种基于可变形卷积神经网络的人体姿态估计方法
CN110619655A (zh) * 2019-08-23 2019-12-27 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
CN111192291A (zh) * 2019-12-06 2020-05-22 东南大学 一种基于级联回归与孪生网络的目标跟踪方法
CN111429482A (zh) * 2020-03-19 2020-07-17 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN111640136A (zh) * 2020-05-23 2020-09-08 西北工业大学 一种复杂环境中的深度目标跟踪方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Cascade RPN:Delving into High-Quality Region Proposal Network with Adaptive Convolution;Thang Vu 等;《arXiv》;20191204;第1-11页 *
Deformable Siamese Attention Networks for Visual Object Tracking;Yuechen Yu 等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20200805;第6727-6736页 *
Ocean:Object-Aware Anchor-Free Tracking;Zhipeng Zhang 等;《ECCV》;20200831;第771-787页 *
Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking;Heng Fan 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20200109;第7944-7953页 *
SiamMan:Siamese Motion-aware Network for Visual Tracking;Wenzhang Zhou 等;《arXiv》;20200118;第1-10页 *
一种用于单目标跟踪的锚框掩码孪生RPN模型;李明杰 等;《计算机工程》;20190930;第45卷(第9期);第216-221页 *
基于孪生网络的红外目标追踪算法研究;李晶;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215;第I138-1888页 *

Also Published As

Publication number Publication date
CN112215079A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测系统及方法
CN112215079B (zh) 一种全局多阶段目标跟踪方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN111768388B (zh) 一种基于正样本参考的产品表面缺陷检测方法及系统
CN111160407B (zh) 一种深度学习目标检测方法及系统
CN110443805B (zh) 一种基于像素密切度的语义分割方法
CN102722731A (zh) 一种基于改进sift算法的高效图像匹配方法
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN110458178B (zh) 多模态多拼接的rgb-d显著性目标检测方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113450313B (zh) 一种基于区域对比学习的图像显著性可视化方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN114863464B (zh) 一种pid图纸图件信息的二阶识别方法
CN113657225B (zh) 一种目标检测方法
Zhong et al. SCPNet: Self-constrained parallelism network for keypoint-based lightweight object detection
CN117409244A (zh) 一种SCKConv多尺度特征融合增强的低照度小目标检测方法
Cheng et al. Power pole detection based on graph cut
CN116805389A (zh) 一种基于解耦级联区域生成网络的开放世界目标检测方法
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN116363552A (zh) 一种应用于边缘设备的实时目标检测方法
CN115410089A (zh) 自适应局部上下文嵌入的光学遥感小尺度目标检测方法
CN105095901A (zh) 用于处理尿液沉渣图像的待处理区块的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant