CN110942471A - 一种基于时空约束的长时目标跟踪方法 - Google Patents

一种基于时空约束的长时目标跟踪方法 Download PDF

Info

Publication number
CN110942471A
CN110942471A CN201911057813.3A CN201911057813A CN110942471A CN 110942471 A CN110942471 A CN 110942471A CN 201911057813 A CN201911057813 A CN 201911057813A CN 110942471 A CN110942471 A CN 110942471A
Authority
CN
China
Prior art keywords
target
network
frame
space
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911057813.3A
Other languages
English (en)
Other versions
CN110942471B (zh
Inventor
王正宁
赵德明
何庆东
蓝先迪
曾浩
刘怡君
曾怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Publication of CN110942471A publication Critical patent/CN110942471A/zh
Application granted granted Critical
Publication of CN110942471B publication Critical patent/CN110942471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空约束的长时目标跟踪方法,其特征在于,包括如下步骤:S100根据图像分割网络,提取拍摄图像的道路区域信息;S200根据道路区域信息与模板帧,通过目标跟踪网络,得到目标位置信息;S300根据目标的历史位置信息计算目标的运动速度矢量;S400道路区域信息和运动速度矢量作为时空约束条件,根据时空约束对目标进行跟踪,得到约束后的目标位置信息。避免了误检测情况的发生,更加精确,具有更快的检测速度,提升了系统的鲁棒性,实现了长时跟踪的目的。

Description

一种基于时空约束的长时目标跟踪方法
技术领域
本发明属于图像处理和计算机视觉领域,是一种基于时空约束的长时目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉分析、自动驾驶和姿态估计等领域的一个基本问题,是在不断变化的视频序列中自动定位特定目标。跟踪的核心问题是如何在具有遮挡、出视野、变形、背景杂波等变化的复杂场景中准确、高效地检测和定位目标。
视觉目标跟踪根据视频序列的长短可分为短时跟踪和长时跟踪。在研究初期,目标跟踪主要关注短时跟踪算法,但由于实际生活中的目标总面临被频繁遮挡的问题,导致短时跟踪很难应用于实际工程。近年来,有很多关于目标的长时跟踪算法的研究。通过结合检测器和短时跟踪器,在目标丢失后,能够重新定位和跟踪。对比文件[1]Chao Ma等人提出了长时跟踪LCT算法,在短时跟踪算法基础上增加了检测目标置信度的网络,结合阈值判断目标是否丢失;增加了随机分类器作为在线检测模块,能够在跟踪失败的情况下进行目标的重检测。但是LCT算法的跟踪置信度分数可靠度不高且内部的SVM分类器检测能力较弱。对比文件[2]Mengmeng Wang等人提出的多峰检测和高置信度更新算法LMCF,只有在跟踪置信度比较高的时候才更新跟踪模型,避免目标模型被污染,同时提升速度。第一个置信度指标是最大响应分数Fmax,等同于LCT的操作,第二个置信度指标是平均峰值相关能量,反映响应图的波动程度和检测目标的置信水平。但是当使用CNN特征时,速度远低于实时。对比文件[3]Bo Li提出DaSianRPN,之前的算法虽然跟踪的框已经回归的比较好了,但是响应的分数仍然相当不可靠,具体表现为在丢失目标的时候,分类的分数仍然比较高,作者分析是训练过程中的样本不均衡造成的。通过加入检测数据生成的正样本之后,模型的泛化性能得到了比较大的提升;通过用不同类之间的样本构建难例负样本,从而增强分类器的判别能力。以上两个改进大大改善了相应分数的质量,在丢失目标的时候,相应分数随之变得很低,说明跟踪器的判别能力得到了改善。对比文件[4]在当前帧以跟踪目标在上一帧图像的所在位置为中心选取候选区域,获取候选目标所对应的目标位置,准确的判断目标是否异常;并在目标异常时在当前帧图像中以上一帧图像的所在位置为中心重新扩大选取范围进行检索实现目标长时间跟踪的目的。对比文件[5]在TLD算法的基础上,检测模块采用由粗到精的策略,先通过帧差法前景检测粗略确定目标位置,缩小检测范围,再由级联分类器精确检测,减小计算量,提高检测速度;在跟踪模块采用核相关滤波算法实现跟踪功能,提高跟踪的鲁棒性和精确度。
现有算法都是在遮挡发生后通过结合检测和跟踪来重新定位目标,但是基于深度特征的重新定位会面临当图像上存在干扰物与被跟踪目标相似时的误检测,导致跟踪很难再继续正常进行,这种影响很难通过扩充训练数据集或者迭代训练来避免。
发明内容
为了解决现有技术中存在干扰物与被跟踪目标相似时误检测,导致难以正常跟踪的问题,提出了一种基于时空约束的长时目标跟踪方法,实现长时跟踪的目的。
一种基于时空约束的长时目标跟踪方法,包括如下步骤:
S100根据图像分割网络,提取拍摄图像的道路区域信息;
S200根据道路区域信息与模板帧,通过目标跟踪网络,得到目标位置信息;
S300根据目标的历史位置信息计算目标的运动速度矢量;
S400道路区域信息和运动速度矢量作为时空约束条件,根据时空约束对目标进行跟踪,得到约束后的目标位置信息。
优选的,若目标被背景遮挡导致跟踪丢失,还包括:
S500根据所述道路区域信息,将检测框在道路前景上滑动和采样,直到重新定位出目标并继续跟踪。
优选的,所述步骤S100中,所述图像分割网络N包括编码网络NE和解码网络ND
其中,编码网络NE由VGG-16网络的前13个卷积层构成;
在编码网络NE中每一次进行最大池化下采样前,采用最大池化索引方法将每一次池化前的特征图备份;
解码网络ND具有13层卷积层,解码网络的输出被馈送到多类别逻辑回归分类器以独立地为每个像素产生类概率;
解码网络ND中每个解码器层LD的输入是编码网络NE中对应的每层编码器LE输出的最大池化索引,然后进行输入特征图的非线性上采样。
优选的,使用航拍数据集对所述编码网络NE和所述解码网络ND联合训练:
对输入进行局部对比度归一化,网络学习率为α1,α1的取值范围是[10-6,10-2],动量为α2,利用随机梯度下降训练网络,共训练m个周期;
训练网络的目标函数为交叉熵损失Lc
Figure BDA0002256995110000041
其中,z表示标签值,
Figure BDA0002256995110000042
表示实际分类值。
优选的,所述步骤S200中,所述目标跟踪网络的训练方式包括:
从视频序列中设定模板帧Ft和待跟踪帧Fc并进行预处理;模板帧Ft的宽高设为wt、ht,待跟踪帧Fc的宽高设为wc、hc
设计两个并行的ResNet网络分支N1、N2,通过权值共享构成孪生网络NS;模板帧Ft和待跟踪帧Fc分别输入N1、N2,依次经过卷积、池化和ReLU(线性整流函数)进行特征提取,Conv(Ft)和Conv(Fc)表示特征提取后输出的特征图;
设计区域推荐网络NR,网络内部存在两个分支Bcls、Breg,一个用于前景和背景的分类分支Bcls,另一个用于推荐框的回归分支Breg;每个分支中各包含一个特征图互相关操作用于生成相应结果;
将特征图Conv(Ft)和Conv(Fc)送入区域推荐网络NR,通过并行的两个卷积层将Conv(Ft)增加为含有不同通道数目的两个分支[Conv(Ft)]cls和[Conv(Ft)]reg;通过并行的两个卷积层将Conv(Fc)增加为含有相同特征图大小的两个分支[Conv(Fc)]cls和[Conv(Fc)]reg;k为特征图上设置的参考框数,k的取值范围为[1,10];
分类分支Bcls和回归分支Breg分别计算相关性,相关性的定义是令模板帧的特征图Conv(Ft)和待跟踪帧的特征图Conv(Fc)进行卷积运算,得到目标的响应特征图Areg、Acls,网络输出2k个通道用于目标分类,4k个通道用于目标框回归;
Figure BDA0002256995110000051
表示卷积符号,w、h表示特征图的宽高;
Figure BDA0002256995110000052
训练网络时的分类损失Lcls使用交叉熵损失,回归损失Lreg使用具有标准化坐标的平滑L1损失;令y表示标签值,
Figure BDA0002256995110000053
表示实际分类值;令Ax,Ay表示参考框的中心点,Aw,Ah表示参考框的宽高,Tx,Ty,Tw,Th表示ground truth框,归一化后的误差为:
Figure BDA0002256995110000054
Figure BDA0002256995110000055
Figure BDA0002256995110000056
其中,σ是方差值;
优化损失函数,λ是一个超参数,用于平衡两类损失;
loss=Lcls+λLreg
孪生网络NS和区域推荐网络NR联合训练,利用随机梯度下降训练网络,共训练m2个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rp
优选的,所述步骤S300,运动速度矢量的计算方法:
保存前n帧的目标历史位置Pt-n,Pt-n+1,…,Pt-2,Pt-1,n>1,计算出目标在当前帧的运动速度矢量
Figure BDA0002256995110000061
预测出目标在当前帧的位置Pt,作为初始检测位置;
Figure BDA0002256995110000062
f表示函数映射,Vi表示第i帧中目标的运动速度大小,Di表示第i帧中目标的运动方向。
优选的,所述步骤S400包括:
S410根据目标在当前帧的运动速度大小
Figure BDA0002256995110000063
自适应的选择预先设置的不同大小的初始检测框放置在初始检测位置Pt进行搜索;w、h为检测框的当前宽度和高度:
Figure BDA0002256995110000064
其中,base_width表示检测框的初始宽度,base_height表示检测框的初始高度;
S420若初始位置Pt处未检测到目标,则逐渐扩大检测框的宽高w、h;
Figure BDA0002256995110000071
其中,β表示增长系数,取值范围为[0,1];
在检测框的覆盖范围内采样图像并与模板图像比较,并将位置信息重新赋值给Pt;若w大于等于待跟踪帧Fc宽度wc时仍未检测到目标,执行步骤S500;否则执行步骤S430;
S430当扩大搜索半径检测出目标后,加入时空约束条件,所述时空约束条件包括空间约束模型MS和时间约束模型MT
Figure BDA0002256995110000072
Figure BDA0002256995110000073
其中,当同时符合两个模型的条件时,即flag1=1且flag2=1判断为真;否则重新检测;Mask表示道路区域位置,白色表示有效的道路前景MF,黑色表示无效的背景MB;Dis表示两点之间的距离,TF表示帧率的倒数。
优选的,所述步骤S500:
当扩大搜索半径仍未检测出目标,则判断为目标被背景遮挡;利用分割网络得到的道路区域信息Mask,将检测框仅在道路前景MF上滑动和采样,直到重新定位出目标。
与现有技术相比,本发明的有益效果:
利用图像分割提供的道路区域信息,判断所定位的目标是否为干扰物,避免了误检测情况的发生。
通过计算目标的运动速度矢量,根据运动状态预先估计目标下一帧的位置作为初始搜索位置,比采用上一帧目标的位置作为初始位置更加精确。
通过计算目标的速度,自适应的改变初始搜索框的大小,相比于固定大小的初始搜索框,具有更快的检测速度。
当检测出目标后,进行干扰项检查,加入空间约束和时间约束。只有当目标位于道路区域且前后帧目标中心的距离在一定范围内,才最终判断为是正确的目标。这样可以防止深度学习方法因目标特征相似导致的误跟踪,提升系统的鲁棒性。
当目标被背景遮挡后,根据置信度判断目标丢失,将检测框放置在分割出的道路区域上进行滑动检测,能够智能快速重新定位出目标的位置,从而实现长时跟踪的目的。
附图说明:
图1为本发明的网络总测试流程图示意图。
图2为本发明的分割网络训练流程图示意图。
图3为本发明的跟踪网络训练流程图示意图。
图4为本实施例的卷积编码网络示意图。
图5为本实施例的卷积解码网络示意图。
图6为本实施例的分割网络总框架图示意图。
图7为本实施例的模板帧示意图。
图8为本实施例的待跟踪帧示意图。
图9为本实施例的孪生网络示意图。
图10为本实施例的通道扩充示意图。
图11为本实施例的互相关操作示意图。
图12为本实施例的跟踪网络总框架图示意图。
图13为本实施例的初始检测框示意图。
图14为本实施例的分割前后效果图示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
现有算法都是在遮挡发生后通过结合检测和跟踪来重新定位目标,但是基于深度特征的重定位会面临当图像上存在干扰物与被跟踪目标相似时的误检测,导致跟踪很难再继续正常进行,这种影响很难通过扩充训练数据集或者迭代训练来避免。本发明通过设计一种基于时空约束的方法,实现长时跟踪的目的。一方面,利用图像分割提供的道路区域信息,判断所定位的目标是否为干扰物,避免了误检测情况的发生。另一方面,当目标被背景遮挡后,根据置信度判断目标丢失,将检测框放置在分割出的道路区域上进行滑动检测,能够智能快速重定位出目标的位置,从而实现长时跟踪的目的。通过计算目标的运动模型,根据运动状态预先估计目标下一帧的位置作为初始搜索位置,比采用上一帧目标的位置作为初始位置更加精确。通过计算目标的速度,自适应的改变初始搜索框的大小,相比于固定大小的初始搜索框,具有更快的检测速度。如图1所示,一种基于时空约束的长时目标跟踪方法,包括如下步骤:
S100根据图像分割网络,如图2,提取拍摄图像的道路区域信息。
(1)设计图像分割网络N,包括编码网络NE和解码网络ND。编码网络NE由VGG-16网络的前13个卷积层构成,不包含全连接层。
(2)在编码网络NE中每一次进行最大池化下采样前,采用最大池化索引(max-pooling indice)方法将每一次池化前的特征图备份。
(3)编码网络NE中每个编码器层LE与解码网络ND中每个解码器层LD相互对应,因此解码网络ND具有13层卷积层。解码网络的输出被馈送到多级Softmax分类器以独立地为每个像素产生类概率。
如图4,每个编码器层由卷积层、批归一化层、ReLU组成,之后,执行具有2×2窗口和步幅为2的最大池化,输出结果相当于系数为2的下采样。最大池化用于实现输入图像中小空间位移的平移不变性。由于最大池化和子采样的叠加,导致边界细节损失增大,因此必须在编码特征图中的下采样之前捕获和储存边界信息。为了高效,本发明只储存了最大池化索引max-pooling indices。
(4)解码网络ND中每个解码器层LD的输入是编码网络NE中对应的每层编码器LE输出的max-pooling indice,然后进行输入特征图的非线性上采样。
如图5,解码器网络使用来自对应的编码器特征图存储的最大池化索引来生成输入特征图,此步骤产生稀疏特征图。然后将这些特征图与可训练的解码器卷积组卷积以产生密集的特征图,然后是BatchNorm。最后一个解码器产生一个多通道的特征图,然后输入给一个Softmax分类器,Softmax独立地分类每个像素。Softmax分类器的输出是K通道图像的概率,其中K是所分类的数量,预测的分割对应于在每个像素处具有最大概率的类。
(5)使用航拍数据集对编码网络NE和解码网络ND联合训练。对输入进行局部对比度归一化,网络学习率为α1,α1的取值范围是[10-6,10-2],动量为α2,利用随机梯度下降训练网络,共训练m个epoch(周期)。本实施例中,学习率α1设置为10-3,动量α2设置为0.9,m设置为40。令z表示标签值,
Figure BDA0002256995110000111
表示实际分类值,使用交叉熵损失Lc作为训练网络的目标函数(见公式(1))。
Figure BDA0002256995110000112
如图6,分割网络的输入是RGB三通道图像,输出是将道路、背景聚类后的二值化图像,分割前后效果图如图14。
S200根据道路区域信息与模板帧,通过目标跟踪网络,得到目标位置信息。
(6)设计目标跟踪网络。跟踪网络的输入是模板帧和待跟踪图像,同时分割网络为跟踪网络提供道路信息,输出是带有标定框的效果图。如图3,在训练阶段,对目标跟踪数据集和目标检测数据集进行数据增强(图像平移、旋转、缩放、裁减、颜色变化),本实施例采用的图像分割数据集是CamVid,目标跟踪数据集是OTB、VOT,目标检测数据集是COCO。从视频序列中设定模板帧Ft和待跟踪帧Fc并进行预处理如图7、图8。模板帧Ft的宽高设为wt、ht,大小设置为127×127,待跟踪帧Fc的宽高设为wc、hc,大小设置为255×255。
(7)设计两个并行的ResNet网络分支N1、N2,通过权值共享构成孪生网络NS。模板帧Ft和待跟踪帧Fc分别输入N1、N2,依次经过卷积、池化和ReLU进行特征提取,Conv(Ft)和Conv(Fc)表示特征提取后输出的特征图,如图9。
(8)设计区域推荐网络NR,网络内部存在两个分支Bcls、Breg,一个用于前景和背景的分类分支Bcls,另一个用于推荐框的回归分支Breg。每个分支中各包含一个特征图互相关操作用于生成相应结果。
(9)将特征图Conv(Ft)和Conv(Fc)送入区域推荐网络NR,通过并行的两个卷积层将Conv(Ft)增加为含有不同通道数目的两个分支[Conv(Ft)]cls和[Conv(Ft)]reg;通过并行的两个卷积层将Conv(Fc)增加为含有相同特征图大小的两个分支[Conv(Fc)]cls和[Conv(Fc)]reg,如图10。k为特征图上设置的参考框数,k的取值范围为[1,10],本实施例中k设置为5。
(10)分类分支Bcls和回归分支Breg分别计算相关性,相关性的定义是令模板帧的特征图Conv(Ft)和待跟踪帧的特征图Conv(Fc)进行卷积运算(见公式(2)),得到目标的响应特征图Areg、Acls,如图11,网络输出2k个通道用于目标分类,4k个通道用于目标框回归。
Figure BDA0002256995110000121
表示卷积符号,w、h表示特征图的宽高。
Figure BDA0002256995110000122
(11)训练网络时的分类损失Lcls使用交叉熵损失,回归损失Lreg使用具有标准化坐标的平滑L1损失。令y表示标签值,
Figure BDA0002256995110000123
表示实际分类值。令Ax,Ay表示参考框的中心点,Aw,Ah表示参考框的宽高,令Tx,Ty,Tw,Th表示ground truth框(正确的/标准的检测框),归一化后的误差为:
Figure BDA0002256995110000131
Figure BDA0002256995110000132
Figure BDA0002256995110000133
最后,优化损失函数,λ是一个超参数,本实施例λ设置为0.2,用于平衡两类损失。
loss=Lcls+λLreg (6)
(12)孪生网络NS和区域推荐网络NR联合训练,如图12,利用随机梯度下降训练网络,共训练m2个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rp。本实施例m2设置为40,初始学习率ε1设置为10-4,学习率每隔10个epoch降低10倍,参考框的比率设置为[0.33,0.5,1,2,3]。
S300根据目标的历史位置信息计算目标的运动速度矢量。
(13)跟踪过程中,保存前n帧(n设置为10)的目标历史位置Pt-n,Pt-n+1,…,Pt-2,Pt-1,n>1,计算出目标在当前帧的运动速度矢量
Figure BDA0002256995110000134
(见公式(7)),预测出目标在当前帧的位置Pt,作为初始检测位置。f表示函数映射,Vi表示第i帧中目标的运动速度大小,Di表示第i帧中目标的运动方向。
Figure BDA0002256995110000141
S400道路区域信息和运动速度矢量作为时空约束条件,根据时空约束对目标进行跟踪,得到约束后的目标位置信息。
(14)根据目标在当前帧的运动速度大小
Figure BDA0002256995110000142
自适应的选择预先设置的不同大小的初始检测框放置在初始检测位置Pt进行搜索(见公式(8)),如图13。base_width表示检测框的初始宽度,base_height表示检测框的初始高度。w、h表示检测框的当前宽度和高度。本实施例中base_width和base_height都设置为64。
Figure BDA0002256995110000143
(15)若初始位置Pt处未检测到目标,则逐渐扩大检测框的宽高w、h(见公式(9))。在检测框的覆盖范围内采样图像并与模板图像比较,并将位置信息重新赋值给Pt。若w大于等于待跟踪帧Fc宽度wc时仍未检测到目标,执行步骤(17);否则执行步骤(16)。β表示增长系数,取值范围为[0,1]。本实施例中β设置为0.1。
Figure BDA0002256995110000144
(16)当扩大搜索半径检测出目标后,为防止干扰物误判,加入空间约束模型MS(见公式(10))和时间约束模型MT(见公式(11))。当同时符合两个模型的条件时,即flag1=1且flag2=1判断为真;否则重新检测。Mask表示道路区域位置,白色表示有效的道路前景MF,黑色表示无效的背景MB,如图14。Dis表示两点之间的距离,TF表示帧率的倒数。
Figure BDA0002256995110000151
Figure BDA0002256995110000152
S500当扩大搜索半径仍未检测出目标,则判断为目标被背景遮挡;利用分割网络得到的道路区域信息Mask,将检测框仅在道路前景MF上滑动和采样,直到重新定位出目标并回到步骤(13)。
(17)当扩大搜索半径仍未检测出目标,则判断为目标被背景遮挡。利用分割网络得到的道路区域信息Mask,将检测框仅在道路前景MF上滑动和采样,直到重新定位出目标并继续跟踪。
(18)当系统重新定位到目标时,从步骤(13)继续顺序执行,完成持续跟踪;否则继续执行步骤(17),直到重新定位出目标。
以上所述,仅为本发明具体实施方式的详细说明,而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下,做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于时空约束的长时目标跟踪方法,其特征在于,包括如下步骤:
S100根据图像分割网络,提取拍摄图像的道路区域信息;
S200根据道路区域信息与模板帧,通过目标跟踪网络,得到目标位置信息;
S300根据目标的历史位置信息计算目标的运动速度矢量;
S400道路区域信息和运动速度矢量作为时空约束条件,根据时空约束对目标进行跟踪,得到约束后的目标位置信息。
2.根据权利要求1所述的基于时空约束的长时目标跟踪方法,其特征在于,若目标被背景遮挡导致跟踪丢失,还包括:
S500根据所述道路区域信息,将检测框在道路前景上滑动和采样,直到重新定位出目标并继续跟踪。
3.根据权利要求2所述的基于时空约束的长时目标跟踪方法,其特征在于,所述步骤S100中,所述图像分割网络N包括编码网络NE和解码网络ND
其中,编码网络NE由VGG-16网络的前13个卷积层构成;
在编码网络NE中每一次进行最大池化下采样前,采用最大池化索引方法将每一次池化前的特征图备份;
解码网络ND具有13层卷积层,解码网络的输出被馈送到多类别逻辑回归分类器以独立地为每个像素产生类概率;
解码网络ND中每个解码器层LD的输入是编码网络NE中对应的每层编码器LE输出的最大池化索引,然后进行输入特征图的非线性上采样。
4.根据权利要求3所述的基于时空约束的长时目标跟踪方法,其特征在于,使用航拍数据集对所述编码网络NE和所述解码网络ND联合训练:
对输入进行局部对比度归一化,网络学习率为α1,α1的取值范围是[10-6,10-2],动量为α2,利用随机梯度下降训练网络,共训练m个周期;
训练网络的目标函数为交叉熵损失Lc
Figure FDA0002256995100000021
其中,z表示标签值,
Figure FDA0002256995100000022
表示实际分类值。
5.根据权利要求4所述的基于时空约束的长时目标跟踪方法,其特征在于,所述步骤S200中,所述目标跟踪网络的训练方式包括:
从视频序列中设定模板帧Ft和待跟踪帧Fc并进行预处理;模板帧Ft的宽高设为wt、ht,待跟踪帧Fc的宽高设为wc、hc
设计两个并行的ResNet网络分支N1、N2,通过权值共享构成孪生网络NS;模板帧Ft和待跟踪帧Fc分别输入N1、N2,依次经过卷积、池化和ReLU进行特征提取,Conv(Ft)和Conv(Fc)表示特征提取后输出的特征图;
设计区域推荐网络NR,网络内部存在两个分支Bcls、Breg,一个用于前景和背景的分类分支Bcls,另一个用于推荐框的回归分支Breg;每个分支中各包含一个特征图互相关操作用于生成相应结果;
将特征图Conv(Ft)和Conv(Fc)送入区域推荐网络NR,通过并行的两个卷积层将Conv(Ft)增加为含有不同通道数目的两个分支[Conv(Ft)]cls和[Conv(Ft)]reg;通过并行的两个卷积层将Conv(Fc)增加为含有相同特征图大小的两个分支[Conv(Fc)]cls和[Conv(Fc)]reg;k为特征图上设置的参考框数,k的取值范围为[1,10];
分类分支Bcls和回归分支Breg分别计算相关性,相关性的定义是令模板帧的特征图Conv(Ft)和待跟踪帧的特征图Conv(Fc)进行卷积运算,得到目标的响应特征图Areg、Acls,网络输出2k个通道用于目标分类,4k个通道用于目标框回归;
Figure FDA0002256995100000034
表示卷积符号,w、h表示特征图的宽高;
Figure FDA0002256995100000031
训练网络时的分类损失Lcls使用交叉熵损失,回归损失Lreg使用具有标准化坐标的平滑L1损失;令y表示标签值,y表示实际分类值;令Ax,Ay表示参考框的中心点,Aw,Ah表示参考框的宽高,Tx,Ty,Tw,Th表示ground truth框,归一化后的误差为:
Figure FDA0002256995100000032
Figure FDA0002256995100000033
Figure FDA0002256995100000041
其中,σ是方差值;
优化损失函数,λ是一个超参数,用于平衡两类损失;
loss=Lcls+λLreg
孪生网络NS和区域推荐网络NR联合训练,利用随机梯度下降训练网络,共训练m2个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rp]。
6.根据权利要求5所述的基于时空约束的长时目标跟踪方法,其特征在于,所述步骤S300,运动速度矢量的计算方法:
保存前n帧的目标历史位置Pt-n,Pt-n+1,…,Pt-2,Pt-1,n>1,计算出目标在当前帧的运动速度矢量
Figure FDA0002256995100000042
预测出目标在当前帧的位置Pt,作为初始检测位置;
Figure FDA0002256995100000043
f表示函数映射,Vi表示第i帧中目标的运动速度大小,Di表示第i帧中目标的运动方向。
7.根据权利要求6所述的基于时空约束的长时目标跟踪方法,其特征在于,所述步骤S400包括:
S410根据目标在当前帧的运动速度大小
Figure FDA0002256995100000044
自适应的选择预先设置的不同大小的初始检测框放置在初始检测位置Pt进行搜索;w、h为检测框的当前宽度和高度:
Figure FDA0002256995100000051
其中,base_width表示检测框的初始宽度,base_height表示检测框的初始高度;
S420若初始位置Pt处未检测到目标,则逐渐扩大检测框的宽高w、h;
Figure FDA0002256995100000052
其中,β表示增长系数,取值范围为[0,1];
在检测框的覆盖范围内采样图像并与模板图像比较,并将位置信息重新赋值给Pt;若w大于等于待跟踪帧Fc宽度wc时仍未检测到目标,执行步骤S500;否则执行步骤S430;
S430当扩大搜索半径检测出目标后,加入时空约束条件,所述时空约束条件包括空间约束模型MS和时间约束模型MT
Figure FDA0002256995100000053
Figure FDA0002256995100000054
其中,当同时符合两个模型的条件时,即flag1=1且flag2=1判断为真;否则重新检测;Mask表示道路区域位置,白色表示有效的道路前景MF,黑色表示无效的背景MB;Dis表示两点之间的距离,TF表示帧率的倒数。
8.根据权利要求7所述的基于时空约束的长时目标跟踪方法,其特征在于,所述步骤S500:
当扩大搜索半径仍未检测出目标,则判断为目标被背景遮挡;利用分割网络得到的道路区域信息Mask,将检测框仅在道路前景MF上滑动和采样,直到重新定位出目标。
CN201911057813.3A 2019-10-30 2019-11-01 一种基于时空约束的长时目标跟踪方法 Active CN110942471B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911043246 2019-10-30
CN2019110432466 2019-10-30

Publications (2)

Publication Number Publication Date
CN110942471A true CN110942471A (zh) 2020-03-31
CN110942471B CN110942471B (zh) 2022-07-01

Family

ID=69907220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911057813.3A Active CN110942471B (zh) 2019-10-30 2019-11-01 一种基于时空约束的长时目标跟踪方法

Country Status (1)

Country Link
CN (1) CN110942471B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640136A (zh) * 2020-05-23 2020-09-08 西北工业大学 一种复杂环境中的深度目标跟踪方法
CN111652899A (zh) * 2020-05-29 2020-09-11 中国矿业大学 一种时空部件图的视频目标分割方法
CN111696136A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于编解码结构的目标跟踪方法
CN111797716A (zh) * 2020-06-16 2020-10-20 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN111814604A (zh) * 2020-06-23 2020-10-23 浙江理工大学 一种基于孪生神经网络的行人跟踪方法
CN111967485A (zh) * 2020-04-26 2020-11-20 中国人民解放军火箭军工程大学 一种基于概率超图学习的空地红外目标跟踪方法
WO2022000426A1 (zh) * 2020-06-30 2022-01-06 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN113947616A (zh) * 2021-09-23 2022-01-18 北京航空航天大学 一种基于层级化感知机的智能目标跟踪及丢失重检方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722725A (zh) * 2012-06-04 2012-10-10 西南交通大学 一种基于主动场景学习的对象跟踪方法
CN108734151A (zh) * 2018-06-14 2018-11-02 厦门大学 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
WO2018209934A1 (zh) * 2017-05-19 2018-11-22 清华大学 基于时空约束的跨镜头多目标跟踪方法及装置
CN109214245A (zh) * 2017-07-03 2019-01-15 株式会社理光 一种目标跟踪方法、装置、设备及计算机可读存储介质
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722725A (zh) * 2012-06-04 2012-10-10 西南交通大学 一种基于主动场景学习的对象跟踪方法
WO2018209934A1 (zh) * 2017-05-19 2018-11-22 清华大学 基于时空约束的跨镜头多目标跟踪方法及装置
CN109214245A (zh) * 2017-07-03 2019-01-15 株式会社理光 一种目标跟踪方法、装置、设备及计算机可读存储介质
CN108734151A (zh) * 2018-06-14 2018-11-02 厦门大学 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO LI 等: "High Performance Visual Tracking with Siamese Region Proposal Network", 《THE 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
PEIXIN LIU 等: "Online Learned Siamese Network with Auto-Encoding Constraints for Robust Multi-Object Tracking", 《ELECTRONICS》 *
乔成林 等: "面向机动目标跟踪的多传感器长时调度策略", 《哈尔滨工业大学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967485A (zh) * 2020-04-26 2020-11-20 中国人民解放军火箭军工程大学 一种基于概率超图学习的空地红外目标跟踪方法
CN111967485B (zh) * 2020-04-26 2024-01-05 中国人民解放军火箭军工程大学 一种基于概率超图学习的空地红外目标跟踪方法
CN111640136A (zh) * 2020-05-23 2020-09-08 西北工业大学 一种复杂环境中的深度目标跟踪方法
CN111640136B (zh) * 2020-05-23 2022-02-25 西北工业大学 一种复杂环境中的深度目标跟踪方法
CN111652899A (zh) * 2020-05-29 2020-09-11 中国矿业大学 一种时空部件图的视频目标分割方法
CN111652899B (zh) * 2020-05-29 2023-11-14 中国矿业大学 一种时空部件图的视频目标分割方法
CN111696136A (zh) * 2020-06-09 2020-09-22 电子科技大学 一种基于编解码结构的目标跟踪方法
CN111797716A (zh) * 2020-06-16 2020-10-20 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN111797716B (zh) * 2020-06-16 2022-05-03 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN111814604A (zh) * 2020-06-23 2020-10-23 浙江理工大学 一种基于孪生神经网络的行人跟踪方法
WO2022000426A1 (zh) * 2020-06-30 2022-01-06 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN113947616A (zh) * 2021-09-23 2022-01-18 北京航空航天大学 一种基于层级化感知机的智能目标跟踪及丢失重检方法

Also Published As

Publication number Publication date
CN110942471B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN110942471B (zh) 一种基于时空约束的长时目标跟踪方法
US11854240B2 (en) Vision based target tracking that distinguishes facial feature targets
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
Hausler et al. Multi-process fusion: Visual place recognition using multiple image processing methods
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN112069896B (zh) 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN112364931B (zh) 一种基于元特征和权重调整的少样本目标检测方法及网络系统
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN112004111A (zh) 一种全域深度学习的新闻视频信息抽提方法
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN111339975A (zh) 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法
CN112991269A (zh) 一种肺部ct图像的识别分类方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN115131760B (zh) 一种基于改进特征匹配策略的轻量级车辆追踪方法
CN113962281A (zh) 基于Siamese-RFB的无人机目标跟踪方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114821356B (zh) 一种精确定位的光学遥感目标检测方法
CN115019096A (zh) 一种基于动态神经网络的武装人员装备检测方法和系统
CN112632601B (zh) 面向地铁车厢场景的人群计数方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
CN114067240A (zh) 一种融合行人特性的在线更新策略行人单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant