CN110942471A

CN110942471A - 一种基于时空约束的长时目标跟踪方法

Info

Publication number: CN110942471A
Application number: CN201911057813.3A
Authority: CN
Inventors: 王正宁; 赵德明; 何庆东; 蓝先迪; 曾浩; 刘怡君; 曾怡
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-10-30
Filing date: 2019-11-01
Publication date: 2020-03-31
Anticipated expiration: 2039-11-01
Also published as: CN110942471B

Abstract

本发明公开了一种基于时空约束的长时目标跟踪方法，其特征在于，包括如下步骤：S100根据图像分割网络，提取拍摄图像的道路区域信息；S200根据道路区域信息与模板帧，通过目标跟踪网络，得到目标位置信息；S300根据目标的历史位置信息计算目标的运动速度矢量；S400道路区域信息和运动速度矢量作为时空约束条件，根据时空约束对目标进行跟踪，得到约束后的目标位置信息。避免了误检测情况的发生，更加精确，具有更快的检测速度，提升了系统的鲁棒性，实现了长时跟踪的目的。

Description

一种基于时空约束的长时目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，是一种基于时空约束的长时目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉分析、自动驾驶和姿态估计等领域的一个基本问题，是在不断变化的视频序列中自动定位特定目标。跟踪的核心问题是如何在具有遮挡、出视野、变形、背景杂波等变化的复杂场景中准确、高效地检测和定位目标。

视觉目标跟踪根据视频序列的长短可分为短时跟踪和长时跟踪。在研究初期，目标跟踪主要关注短时跟踪算法，但由于实际生活中的目标总面临被频繁遮挡的问题，导致短时跟踪很难应用于实际工程。近年来，有很多关于目标的长时跟踪算法的研究。通过结合检测器和短时跟踪器，在目标丢失后，能够重新定位和跟踪。对比文件[1]Chao Ma等人提出了长时跟踪LCT算法，在短时跟踪算法基础上增加了检测目标置信度的网络，结合阈值判断目标是否丢失；增加了随机分类器作为在线检测模块，能够在跟踪失败的情况下进行目标的重检测。但是LCT算法的跟踪置信度分数可靠度不高且内部的SVM分类器检测能力较弱。对比文件[2]Mengmeng Wang等人提出的多峰检测和高置信度更新算法LMCF，只有在跟踪置信度比较高的时候才更新跟踪模型，避免目标模型被污染，同时提升速度。第一个置信度指标是最大响应分数Fmax，等同于LCT的操作，第二个置信度指标是平均峰值相关能量，反映响应图的波动程度和检测目标的置信水平。但是当使用CNN特征时，速度远低于实时。对比文件[3]Bo Li提出DaSianRPN，之前的算法虽然跟踪的框已经回归的比较好了，但是响应的分数仍然相当不可靠，具体表现为在丢失目标的时候，分类的分数仍然比较高，作者分析是训练过程中的样本不均衡造成的。通过加入检测数据生成的正样本之后，模型的泛化性能得到了比较大的提升；通过用不同类之间的样本构建难例负样本，从而增强分类器的判别能力。以上两个改进大大改善了相应分数的质量，在丢失目标的时候，相应分数随之变得很低，说明跟踪器的判别能力得到了改善。对比文件[4]在当前帧以跟踪目标在上一帧图像的所在位置为中心选取候选区域，获取候选目标所对应的目标位置，准确的判断目标是否异常；并在目标异常时在当前帧图像中以上一帧图像的所在位置为中心重新扩大选取范围进行检索实现目标长时间跟踪的目的。对比文件[5]在TLD算法的基础上，检测模块采用由粗到精的策略，先通过帧差法前景检测粗略确定目标位置，缩小检测范围，再由级联分类器精确检测，减小计算量，提高检测速度；在跟踪模块采用核相关滤波算法实现跟踪功能，提高跟踪的鲁棒性和精确度。

现有算法都是在遮挡发生后通过结合检测和跟踪来重新定位目标，但是基于深度特征的重新定位会面临当图像上存在干扰物与被跟踪目标相似时的误检测，导致跟踪很难再继续正常进行，这种影响很难通过扩充训练数据集或者迭代训练来避免。

发明内容

为了解决现有技术中存在干扰物与被跟踪目标相似时误检测，导致难以正常跟踪的问题，提出了一种基于时空约束的长时目标跟踪方法，实现长时跟踪的目的。

一种基于时空约束的长时目标跟踪方法，包括如下步骤：

S100根据图像分割网络，提取拍摄图像的道路区域信息；

S200根据道路区域信息与模板帧，通过目标跟踪网络，得到目标位置信息；

S300根据目标的历史位置信息计算目标的运动速度矢量；

S400道路区域信息和运动速度矢量作为时空约束条件，根据时空约束对目标进行跟踪，得到约束后的目标位置信息。

优选的，若目标被背景遮挡导致跟踪丢失，还包括：

S500根据所述道路区域信息，将检测框在道路前景上滑动和采样，直到重新定位出目标并继续跟踪。

优选的，所述步骤S100中，所述图像分割网络N包括编码网络N_E和解码网络N_D；

其中，编码网络N_E由VGG-16网络的前13个卷积层构成；

在编码网络N_E中每一次进行最大池化下采样前，采用最大池化索引方法将每一次池化前的特征图备份；

解码网络N_D具有13层卷积层，解码网络的输出被馈送到多类别逻辑回归分类器以独立地为每个像素产生类概率；

解码网络N_D中每个解码器层L_D的输入是编码网络N_E中对应的每层编码器L_E输出的最大池化索引，然后进行输入特征图的非线性上采样。

优选的，使用航拍数据集对所述编码网络N_E和所述解码网络N_D联合训练：

对输入进行局部对比度归一化，网络学习率为α₁，α₁的取值范围是[10^-6,10^-2]，动量为α₂，利用随机梯度下降训练网络，共训练m个周期；

训练网络的目标函数为交叉熵损失L_c：

其中，z表示标签值，

表示实际分类值。

优选的，所述步骤S200中，所述目标跟踪网络的训练方式包括：

从视频序列中设定模板帧F_t和待跟踪帧F_c并进行预处理；模板帧F_t的宽高设为w_t、h_t，待跟踪帧F_c的宽高设为w_c、h_c；

设计两个并行的ResNet网络分支N₁、N₂，通过权值共享构成孪生网络N_S；模板帧F_t和待跟踪帧F_c分别输入N₁、N₂，依次经过卷积、池化和ReLU(线性整流函数)进行特征提取，Conv(F_t)和Conv(F_c)表示特征提取后输出的特征图；

设计区域推荐网络N_R，网络内部存在两个分支B_cls、B_reg，一个用于前景和背景的分类分支B_cls，另一个用于推荐框的回归分支B_reg；每个分支中各包含一个特征图互相关操作用于生成相应结果；

将特征图Conv(F_t)和Conv(F_c)送入区域推荐网络N_R，通过并行的两个卷积层将Conv(F_t)增加为含有不同通道数目的两个分支[Conv(F_t)]_cls和[Conv(F_t)]_reg；通过并行的两个卷积层将Conv(F_c)增加为含有相同特征图大小的两个分支[Conv(F_c)]_cls和[Conv(F_c)]_reg；k为特征图上设置的参考框数，k的取值范围为[1，10]；

分类分支B_cls和回归分支B_reg分别计算相关性，相关性的定义是令模板帧的特征图Conv(F_t)和待跟踪帧的特征图Conv(F_c)进行卷积运算，得到目标的响应特征图A_reg、A_cls，网络输出2k个通道用于目标分类，4k个通道用于目标框回归；

表示卷积符号，w、h表示特征图的宽高；

训练网络时的分类损失L_cls使用交叉熵损失，回归损失L_reg使用具有标准化坐标的平滑L1损失；令y表示标签值，

表示实际分类值；令A_x，A_y表示参考框的中心点，A_w，A_h表示参考框的宽高，T_x，T_y，T_w，T_h表示ground truth框，归一化后的误差为：

其中,σ是方差值；

优化损失函数，λ是一个超参数，用于平衡两类损失；

loss＝L_cls+λL_reg

孪生网络N_S和区域推荐网络N_R联合训练，利用随机梯度下降训练网络，共训练m₂个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_p。

优选的，所述步骤S300，运动速度矢量的计算方法：

保存前n帧的目标历史位置P_t-n,P_t-n+1，…，P_t-2,P_t-1，n>1，计算出目标在当前帧的运动速度矢量

预测出目标在当前帧的位置P_t，作为初始检测位置；

f表示函数映射，V_i表示第i帧中目标的运动速度大小，D_i表示第i帧中目标的运动方向。

优选的，所述步骤S400包括：

S410根据目标在当前帧的运动速度大小

自适应的选择预先设置的不同大小的初始检测框放置在初始检测位置P_t进行搜索；w、h为检测框的当前宽度和高度：

其中，base_width表示检测框的初始宽度,base_height表示检测框的初始高度；

S420若初始位置P_t处未检测到目标，则逐渐扩大检测框的宽高w、h；

其中，β表示增长系数，取值范围为[0,1]；

在检测框的覆盖范围内采样图像并与模板图像比较，并将位置信息重新赋值给P_t；若w大于等于待跟踪帧F_c宽度w_c时仍未检测到目标，执行步骤S500；否则执行步骤S430；

S430当扩大搜索半径检测出目标后，加入时空约束条件，所述时空约束条件包括空间约束模型M_S和时间约束模型M_T：

其中，当同时符合两个模型的条件时，即flag1＝1且flag2＝1判断为真；否则重新检测；Mask表示道路区域位置，白色表示有效的道路前景M_F，黑色表示无效的背景M_B；Dis表示两点之间的距离，T_F表示帧率的倒数。

优选的，所述步骤S500：

当扩大搜索半径仍未检测出目标，则判断为目标被背景遮挡；利用分割网络得到的道路区域信息Mask，将检测框仅在道路前景M_F上滑动和采样，直到重新定位出目标。

与现有技术相比，本发明的有益效果：

利用图像分割提供的道路区域信息，判断所定位的目标是否为干扰物，避免了误检测情况的发生。

通过计算目标的运动速度矢量，根据运动状态预先估计目标下一帧的位置作为初始搜索位置，比采用上一帧目标的位置作为初始位置更加精确。

通过计算目标的速度，自适应的改变初始搜索框的大小，相比于固定大小的初始搜索框，具有更快的检测速度。

当检测出目标后，进行干扰项检查，加入空间约束和时间约束。只有当目标位于道路区域且前后帧目标中心的距离在一定范围内，才最终判断为是正确的目标。这样可以防止深度学习方法因目标特征相似导致的误跟踪，提升系统的鲁棒性。

当目标被背景遮挡后，根据置信度判断目标丢失，将检测框放置在分割出的道路区域上进行滑动检测，能够智能快速重新定位出目标的位置，从而实现长时跟踪的目的。

附图说明：

图1为本发明的网络总测试流程图示意图。

图2为本发明的分割网络训练流程图示意图。

图3为本发明的跟踪网络训练流程图示意图。

图4为本实施例的卷积编码网络示意图。

图5为本实施例的卷积解码网络示意图。

图6为本实施例的分割网络总框架图示意图。

图7为本实施例的模板帧示意图。

图8为本实施例的待跟踪帧示意图。

图9为本实施例的孪生网络示意图。

图10为本实施例的通道扩充示意图。

图11为本实施例的互相关操作示意图。

图12为本实施例的跟踪网络总框架图示意图。

图13为本实施例的初始检测框示意图。

图14为本实施例的分割前后效果图示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

现有算法都是在遮挡发生后通过结合检测和跟踪来重新定位目标，但是基于深度特征的重定位会面临当图像上存在干扰物与被跟踪目标相似时的误检测，导致跟踪很难再继续正常进行，这种影响很难通过扩充训练数据集或者迭代训练来避免。本发明通过设计一种基于时空约束的方法，实现长时跟踪的目的。一方面，利用图像分割提供的道路区域信息，判断所定位的目标是否为干扰物，避免了误检测情况的发生。另一方面，当目标被背景遮挡后，根据置信度判断目标丢失，将检测框放置在分割出的道路区域上进行滑动检测，能够智能快速重定位出目标的位置，从而实现长时跟踪的目的。通过计算目标的运动模型，根据运动状态预先估计目标下一帧的位置作为初始搜索位置，比采用上一帧目标的位置作为初始位置更加精确。通过计算目标的速度，自适应的改变初始搜索框的大小，相比于固定大小的初始搜索框，具有更快的检测速度。如图1所示，一种基于时空约束的长时目标跟踪方法，包括如下步骤：

S100根据图像分割网络，如图2，提取拍摄图像的道路区域信息。

(1)设计图像分割网络N，包括编码网络N_E和解码网络N_D。编码网络N_E由VGG-16网络的前13个卷积层构成，不包含全连接层。

(2)在编码网络N_E中每一次进行最大池化下采样前，采用最大池化索引(max-pooling indice)方法将每一次池化前的特征图备份。

(3)编码网络N_E中每个编码器层L_E与解码网络N_D中每个解码器层L_D相互对应，因此解码网络N_D具有13层卷积层。解码网络的输出被馈送到多级Softmax分类器以独立地为每个像素产生类概率。

如图4，每个编码器层由卷积层、批归一化层、ReLU组成，之后，执行具有2×2窗口和步幅为2的最大池化，输出结果相当于系数为2的下采样。最大池化用于实现输入图像中小空间位移的平移不变性。由于最大池化和子采样的叠加，导致边界细节损失增大，因此必须在编码特征图中的下采样之前捕获和储存边界信息。为了高效，本发明只储存了最大池化索引max-pooling indices。

(4)解码网络N_D中每个解码器层L_D的输入是编码网络N_E中对应的每层编码器L_E输出的max-pooling indice，然后进行输入特征图的非线性上采样。

如图5，解码器网络使用来自对应的编码器特征图存储的最大池化索引来生成输入特征图，此步骤产生稀疏特征图。然后将这些特征图与可训练的解码器卷积组卷积以产生密集的特征图，然后是BatchNorm。最后一个解码器产生一个多通道的特征图，然后输入给一个Softmax分类器，Softmax独立地分类每个像素。Softmax分类器的输出是K通道图像的概率，其中K是所分类的数量，预测的分割对应于在每个像素处具有最大概率的类。

(5)使用航拍数据集对编码网络N_E和解码网络N_D联合训练。对输入进行局部对比度归一化，网络学习率为α₁，α₁的取值范围是[10^-6,10^-2]，动量为α₂，利用随机梯度下降训练网络，共训练m个epoch(周期)。本实施例中，学习率α₁设置为10^-3，动量α₂设置为0.9，m设置为40。令z表示标签值，

表示实际分类值，使用交叉熵损失L_c作为训练网络的目标函数(见公式(1))。

如图6，分割网络的输入是RGB三通道图像，输出是将道路、背景聚类后的二值化图像，分割前后效果图如图14。

S200根据道路区域信息与模板帧，通过目标跟踪网络，得到目标位置信息。

(6)设计目标跟踪网络。跟踪网络的输入是模板帧和待跟踪图像，同时分割网络为跟踪网络提供道路信息，输出是带有标定框的效果图。如图3，在训练阶段，对目标跟踪数据集和目标检测数据集进行数据增强(图像平移、旋转、缩放、裁减、颜色变化)，本实施例采用的图像分割数据集是CamVid，目标跟踪数据集是OTB、VOT，目标检测数据集是COCO。从视频序列中设定模板帧F_t和待跟踪帧F_c并进行预处理如图7、图8。模板帧F_t的宽高设为w_t、h_t，大小设置为127×127，待跟踪帧F_c的宽高设为w_c、h_c，大小设置为255×255。

(7)设计两个并行的ResNet网络分支N₁、N₂，通过权值共享构成孪生网络N_S。模板帧F_t和待跟踪帧F_c分别输入N₁、N₂，依次经过卷积、池化和ReLU进行特征提取，Conv(F_t)和Conv(F_c)表示特征提取后输出的特征图，如图9。

(8)设计区域推荐网络N_R，网络内部存在两个分支B_cls、B_reg，一个用于前景和背景的分类分支B_cls，另一个用于推荐框的回归分支B_reg。每个分支中各包含一个特征图互相关操作用于生成相应结果。

(9)将特征图Conv(F_t)和Conv(F_c)送入区域推荐网络N_R，通过并行的两个卷积层将Conv(F_t)增加为含有不同通道数目的两个分支[Conv(F_t)]_cls和[Conv(F_t)]_reg；通过并行的两个卷积层将Conv(F_c)增加为含有相同特征图大小的两个分支[Conv(F_c)]_cls和[Conv(F_c)]_reg，如图10。k为特征图上设置的参考框数，k的取值范围为[1，10]，本实施例中k设置为5。

(10)分类分支B_cls和回归分支B_reg分别计算相关性，相关性的定义是令模板帧的特征图Conv(F_t)和待跟踪帧的特征图Conv(F_c)进行卷积运算(见公式(2))，得到目标的响应特征图A_reg、A_cls，如图11，网络输出2k个通道用于目标分类，4k个通道用于目标框回归。

表示卷积符号，w、h表示特征图的宽高。

(11)训练网络时的分类损失L_cls使用交叉熵损失，回归损失L_reg使用具有标准化坐标的平滑L1损失。令y表示标签值，

表示实际分类值。令A_x，A_y表示参考框的中心点，A_w，A_h表示参考框的宽高，令T_x，T_y，T_w，T_h表示ground truth框(正确的/标准的检测框)，归一化后的误差为：

最后，优化损失函数，λ是一个超参数，本实施例λ设置为0.2，用于平衡两类损失。

loss＝L_cls+λL_reg (6)

(12)孪生网络N_S和区域推荐网络N_R联合训练，如图12，利用随机梯度下降训练网络，共训练m₂个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_p。本实施例m₂设置为40，初始学习率ε₁设置为10^-4，学习率每隔10个epoch降低10倍，参考框的比率设置为[0.33，0.5，1，2，3]。

S300根据目标的历史位置信息计算目标的运动速度矢量。

(13)跟踪过程中，保存前n帧(n设置为10)的目标历史位置P_t-_n,P_t-n+1,…,P_t-2,P_t-1，n>1，计算出目标在当前帧的运动速度矢量

(见公式(7))，预测出目标在当前帧的位置P_t，作为初始检测位置。f表示函数映射，V_i表示第i帧中目标的运动速度大小，D_i表示第i帧中目标的运动方向。

(14)根据目标在当前帧的运动速度大小

自适应的选择预先设置的不同大小的初始检测框放置在初始检测位置P_t进行搜索(见公式(8)),如图13。base_width表示检测框的初始宽度,base_height表示检测框的初始高度。w、h表示检测框的当前宽度和高度。本实施例中base_width和base_height都设置为64。

(15)若初始位置P_t处未检测到目标，则逐渐扩大检测框的宽高w、h(见公式(9))。在检测框的覆盖范围内采样图像并与模板图像比较，并将位置信息重新赋值给P_t。若w大于等于待跟踪帧F_c宽度w_c时仍未检测到目标，执行步骤(17)；否则执行步骤(16)。β表示增长系数，取值范围为[0,1]。本实施例中β设置为0.1。

(16)当扩大搜索半径检测出目标后，为防止干扰物误判，加入空间约束模型M_S(见公式(10))和时间约束模型M_T(见公式(11))。当同时符合两个模型的条件时，即flag1＝1且flag2＝1判断为真；否则重新检测。Mask表示道路区域位置，白色表示有效的道路前景M_F，黑色表示无效的背景M_B，如图14。Dis表示两点之间的距离，T_F表示帧率的倒数。

S500当扩大搜索半径仍未检测出目标，则判断为目标被背景遮挡；利用分割网络得到的道路区域信息Mask，将检测框仅在道路前景M_F上滑动和采样，直到重新定位出目标并回到步骤(13)。

(17)当扩大搜索半径仍未检测出目标，则判断为目标被背景遮挡。利用分割网络得到的道路区域信息Mask，将检测框仅在道路前景M_F上滑动和采样，直到重新定位出目标并继续跟踪。

(18)当系统重新定位到目标时，从步骤(13)继续顺序执行，完成持续跟踪；否则继续执行步骤(17)，直到重新定位出目标。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。