CN114022510A

CN114022510A - 一种基于内容检索的目标长时跟踪方法

Info

Publication number: CN114022510A
Application number: CN202111222912.XA
Authority: CN
Inventors: 杨兆龙; 庞惠民; 车宏
Original assignee: Zhejiang Dali Technology Co ltd
Current assignee: Zhejiang Dali Technology Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-08

Abstract

本发明涉及一种基于内容检索的目标长时跟踪方法，该方法对每一帧搜索图像执行如下步骤：S1、采用离线目标跟踪网络进行目标跟踪处理，得到分类特征图，跟踪时记录初始帧目标内容，作为目标模板；S2、如果分类特征图最大响应值大于预设阈值，则重复步骤S1～步骤S2，如果分类特征图最大响应值小于等于预设阈值，则采用长时跟踪方法对整幅搜索图像进行全局搜索，得到L个候选目标区域；S3、将L个候候选目标输入到内容检索网络中，得到L个候选区域的特征向量，步骤S1记录的目标模板输入内容检索网路中得到匹配向量z；S4、分别计算L个候选区域的特征向量和匹配向量z的余弦相似度，如果余弦相似度的最大值超过预设阈值，余弦相似度最大值对应的候选目标区域作为目标跟踪对象，重复执行步骤S1～步骤S4。

Description

一种基于内容检索的目标长时跟踪方法

技术领域

本发明涉及一种基于内容检索的目标长时跟踪方法，旨在应对被跟踪物体短暂消失又出现在视野的情况下这一目标跟踪难题。

背景技术

目标跟踪是计算机视觉中一个长期的、基础的且具有挑战性的问题，人们已经在该领域研究长达几十年。目标跟踪分为单目标跟踪和多目标跟踪。单目标跟踪的任务定义为：给定某视频序列初始帧的目标大小与位置，预测后续帧中该目标的大小与位置。多目标跟踪的定义为：给定一个图像序列，找到图像序列中运动的物体，并将不同帧中的运动物体一一对应，然后给出物体的运动轨迹。

根据目标模型的建模方式差异，可将目标跟踪模型分成两类：生成式模型和判别式模型。基于生成式模型的目标跟踪算法，使用生成式模型描述目标的表观特征，通过采样搜索出来的候选目标实现重构误差最小化，再对比候选目标和模型的相似程度，找到最大相似目标作为跟踪结果。这类算法通常从目标前景区域学习目标外观，忽略了更有效的背景信息，所以在跟踪过程中算法很容易受到背景中相似物体的影响而产生漂移。判别式表观模型则是通过训练各种各样的分类器来区分被跟踪的目标物体和背景区域，将目标跟踪看作一个二分类问题，把图像分为前景图像和背景图像，利用最适合实际场景的图像特征和最佳的分类方法，将目标从背景区域中区分出来，期间不断的在线更新分类器来估计目标的位置。其中最具代表的是基于相关滤波的Staple算法，该算法采用两种互补特征建立目标外观模型，分别转化为两个独立的岭回归问题求解。该算法在更好的适应目标外观变化以及光照的不连续性的同时保持较高的执行速率。但是当跟踪目标发生部分遮挡或者完全遮挡时，算法容易丢失目标，出现模型漂移的情况。

基于深度学习的跟踪器，能有效利用目标的深度特征对目标进行语义级抽象，并拟合目标的运动过程，这大大提高了跟踪精度；且模型的特征提取器在离线时得到了大量标记图片的端到端预训练，这进一步提高了跟踪器在线跟踪速度，使深度学习在目标跟踪领域的应用成为可能。SiamFC等孪生网络模型利用同样结构的CNN网络对初始帧目标和当前帧搜索域提取深度特征，然后通过卷积操作进行相似性计算，得到目标在搜索域位置的响应。

然而长时跟踪时目标不可避免地会出现形变、遮挡和出视野等情况， SiamFC等网络只对初始帧目标和当前帧搜索域提取深度特征，难以在面对长时跟踪时目标外观形变、被遮挡或目标出视野等情况下保持鲁棒跟踪。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提出了一种基于内容检索的目标长时跟踪方法，以解决长时跟踪时的目标遮挡和目标出视野问题。

本发明解决技术问题的方案是：一种基于内容检索的目标长时跟踪方法，该方法对每一帧搜索图像执行如下步骤：

S1、采用离线目标跟踪网络进行目标跟踪处理，得到分类特征图，跟踪时记录初始帧目标内容，作为目标模板；

S2、如果分类特征图最大响应值大于长时跟踪阈值，则重复步骤S1～步骤 S2，如果分类特征图最大响应值小于等于长时跟踪阈值，则采用长时跟踪方法对整幅搜索图像进行全局搜索，得到L个候选目标区域；

S3、将L个候候选目标输入到内容检索网络中，得到L个候选区域的特征向量，步骤S1记录的目标模板输入内容检索网路中得到匹配向量z；

S4、分别计算L个候选区域的特征向量和匹配向量z的余弦相似度，如果余弦相似度的最大值超过预设阈值，余弦相似度最大值对应的候选目标区域作为目标跟踪对象，重复执行步骤S1～步骤S4。

优选地，所述步骤S1采用离线目标跟踪网络进行目标跟踪处理，得到分类特征图的具体步骤如下：

S1.1、获取模板图像和当前帧搜索图像；

S1.2、将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层，得到模板图像特征图和搜索图像特征图；

S1.3、将模板图像特征图和搜索图像特征图均先后送入训练好的卷积神经网络分类层和回归层，得模板图像的分类特征图和回归特征图、搜索图像的分类特征图和回归特征图；

S1.4、对模板图像的分类特征图和搜索图像的分类特征图进行互相关操作，得到模板图像与搜索图像的分类层响应图；对模板图像的回归特征图和搜索图像的回归特征图进行互相关操作，得到模板图像与搜索图像的回归层响应图；

S1.5、对模板图像与搜索图像的分类层响应图进行最大池化操作；

S1.6、取出池化之后的分类层响应图中响应值从高到低前N个特征点，并计算这N个特征点对应的回归层输出，根据回归层输出得到当前帧搜索图像中目标的N个预测坐标值；

S1.7、计算分类层响应图中最大响应值对应的回归层输出，根据该回归层输出对应的目标框中心点坐标为目标预测坐标值。

优选地，所述步骤S1.4中的互相关操作如下：

F(z,x)＝z*x+b

其中，b为偏差，*表示卷积操作，Z为模板图像的分类层回归层特征图或者回归层特征图，x为搜索图像的分类层回归层特征图或者回归层特征图，F 为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。

优选地，所述步骤S1.5中池化操作前后特征图的维度一致。

优选地，所述采用长时跟踪方法对整幅搜索图像进行全局搜索，得到疑似候选目标的具体步骤如下：

S2.1、使用固定大小的滑动窗口按照预设步长在整幅搜索图像上滑动，得到N幅滑动图像；

S2.2、将N幅滑动图像和模板图像分别输入到目标跟踪网络中得到N个滑动图像的分类特征图和回归层响应；

S2.3、将N个滑动图像的分类特征图依次和模板图像的分类特征图进行相关操作，得到N个滑动图像与模板图像的分类层响应图，并对得到的N个分类层响应图进行最大池化操作；

S2.4、将N个滑动图像的回归特征图依次和模板图像的回归特征图进行相关操作，得到N个滑动图像与模板图像的回归层响应图；

S2.5、取N个池化后的分类响应图中响应值较大的前M个响应点对应的回归层输出，进而得到M个候选目标区域，也就是总计M×N个候选目标区域。

优选地，所述内容检索网络采用resnet18神经网络。

优选地，所述内容检索网络采用Goolelandmarks-v2数据集训练，训练时的损失函数选用triplet-loss函数。

本发明与现有技术相比的有益效果是：

本发明的长时跟踪时目标不可避免地会出现形变、遮挡和出视野等情况，利用本发明的全局搜索策略和基于内容检索的特征提取网络可以有效应对跟踪目标出现的形变、遮挡和出视野情况，提高长时跟踪鲁棒性和高效性。

附图说明

图1为本发明实施例基于内容检索的目标长时跟踪方法流程图

图2为本发明实施例目标跟踪结构图；

图3为本发明实施例内容检索网络结构图。

具体实施方式

下面结合实施例对本发明作进一步阐述。

实施例1

以下结合附图和具体实施方式对本发明提出的结合历史轨迹信息的单目标跟踪方法作进一步说明。根据下面说明和权利要求书，本发明的优点和特征将更加清楚。

本发明提供的一种基于内容检索的目标长时跟踪方法，该方法对每一帧搜索图像执行如下步骤：

采用离线目标跟踪网络进行目标跟踪处理，得到分类特征图的具体步骤如下：

S1.1、获取模板图像和当前帧搜索图像；模板图像由人工在初始帧图像中选择，一般，模板图像大小为127*127。搜索图像大小为255*255。

S1.2、将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层，得到模板图像特征图和搜索图像特征图；训练好的卷积神经网络特征提取层采用Alexnet网络实现，该该网络包含五个卷积层，2个最大池化层。随机初始化网络，并在LaSOT数据集上面训练调优该网络。

互相关操作如下：

F(z,x)＝z*x+b

S1.5、对模板图像与搜索图像的分类层响应图进行最大池化操作；池化操作前后特征图的维度一致。

上述步骤将模板图像输入目标跟踪网络中得到6*6大小的分类特征图Z，将搜索图像输入SiamFC网络中得到19*19大小的回归特征图X。

S2、如果分类特征图最大响应值大于长时跟踪阈值δ，则重复步骤S1～步骤S2，如果分类特征图最大响应值小于等于长时跟踪阈值δ，则采用长时跟踪方法对整幅搜索图像进行全局搜索，得到L个候选目标区域；所述长时跟踪阈值δ在vot2019测试集上面测试，记录每一帧图像的最大响应点值，将这些响应点值从大到小排序，在0.95切分点选择阈值。

所述采用长时跟踪方法对整幅搜索图像进行全局搜索，得到疑似候选目标的具体步骤如下：

S2.1、使用固定大小的滑动窗口按照预设步长在整幅搜索图像上滑动，得到N幅滑动图像；本发明某一具体实施例中，滑动窗口大小为255*255；滑动步长为s＝64，参照S型曲线滑动；

内容搜索网络采用resnet18神经网络模型，在Goolelandmarks-v2数据集上面训练调优该模型。

所述内容检索网络采用resnet神经网络。

所述内容检索网络采用Goolelandmarks-v2数据集训练，训练时的损失函数选用triplet-loss函数。

实施例：

本发明某一具体实施例给出了上述神经网络的训练过程以及本发明所提供的基于内容检索的目标长时跟踪方法的使用过程。

(1)、数据集的获取及预处理

选取训练数据集，并对输入网络的图像进行尺寸归一化及数据增强处理。

具体实施方式，采用单目标跟踪领域常用数据集ILVSRC2015以及自主实际拍摄和标注的800条视频作为训练数据。其中尺寸归一化和数据增强方式如下：

根据模板图像第一帧得到真实目标框(x_min,y_min,w,h)，其中x_min和y_min分别表示真实框左上角的点位置坐标。w和h表示目标框的宽和高。然后根据目标框的中心点为中心，裁取127*127大小的图片作为模板图像。裁取255*255大小的图片作为搜索图像。如果模板图像或搜索图像在原图像中不够裁剪时，将不足的部分按照RGB通道的均值进行填充。

对模板图像进行数据增强操作包括对模板图像进行旋转、添加噪声、色彩抖动等。

(2)、搭建目标跟踪网络模型

使用图像分类领域的Alexnet的通用网络作为构建Siamese卷积神经网络的骨架。

参考图2，该单目标跟踪网络有两路完全相同的子网络组成，两路子网络共享参数。即单目标跟踪网络分为搜索分支和模板分支；其中模板分支输入模板图像，例如127*127*3的模板图像，127*127表示输入图像分辨率，3表示输入图像的通道数，通常为RGB图像。搜索分支输入搜索图像，例如输入 255*255*3大小的图像。

本发明使用的网络结构包括特征提取层、分类层和回归层。

其中特征提取层的两个分支网络都是基于Alexnet的卷积神经网络，网络结构和参数完全相同，均包含依次连接的第一卷积层Conv1、第一池化层Pool1、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第五卷积层Conv5。具体参数为：Conv1的卷积核大小为11×11，步长为2，输出通道数为96； Pool1的卷积核大小为3×3，步长为2，输出通道数为96；Pool2的卷积核大小为3×3，步长为2，输出通道数为256；Conv3和Conv4的卷积核大小均为 3×3，步长均为1，输出通道数均为192；Conv5的卷积和大小为3×3，步长为1，输出通道数为128。

在分类层，首先使用卷积核大小为3*3，输出通道数为256，然后紧接着是卷积核1*1大小的卷积，输出通道数是128。

以输入127*127*3的模板图像和输入255*255*3的搜索图像为例，分别得到6*6*128的模板图像分类特征图和23*23*128的搜索图像分类特征图，然后以6*6*128为卷积核，以23*23*128为输入特征图，设置步长s＝1，pad＝0进行卷积，输出17*17*1大小的分类响应特征图。

在回归层，首先使用卷积核大小为3*3，输出通道数为256，然后紧接着是卷积核1*1大小的卷积，输出通道数是128。

以输入127*127*3的模板图像和输入255*255*3的搜索图像为例，分别得到6*6*128的模板图像回归特征图和23*23*128的搜索图像回归特征图，然后以6*6*128为卷积核，以23*23*128为输入特征图，设置步长s＝1，pad＝0进行卷积，输出17*17*1大小的特征图。最后使用1*1的卷积，，输出通道数是4，得到17*17*4的回归响应特征图。

(3)、损失函数

在分类层，本发明使用二元交叉熵函数作为损失函数。在正负样本设定时，将分类层映射回原图时落入真实框的样本点设为正样本，其它设置为负样本。

在回归层，得到17*17*4的特征图，其中回归分数即每个样本的位置回归值，分别表示到预测框的距离。损失函数采用smoothL1损失函数。

其中，x为回归分数。

最终的loss如下：

是分类损失φ_cls和回归损失φ_reg的总和，λ表示超参数，控制回归损失函数的权重。

(4)、搭建图像检索网络

使用图像分类领域的resnet的通用网络作为构建图像检索卷积神经网络的骨架。

参考图3，该网络由卷积层、最大池化层和平均池化层组成。训练该网络使用Goolelandmarks-v2数据集，其损失函数采用triplet-loss：

其中

本发明在LaSOT数据集上面训练离线目标跟踪网络，在

Goolelandmarks-v2数据集上面训练内容检索网络。跟踪时保留初始帧目标内容，并设置特定阈值，当目标跟踪网络达到特定阈值时，启动长时跟踪机制，对整幅图片进行全局搜索，根据全局搜索结果得到疑似候选目标，结合内容检索网络计算最相似的目标。如果最相似目标达到特定阈值，则跟踪目标。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于内容检索的目标长时跟踪方法，其特征在于对每一帧搜索图像执行如下步骤：

S2、如果分类特征图最大响应值大于长时跟踪阈值，则重复步骤S1～步骤S2，如果分类特征图最大响应值小于等于长时跟踪阈值，则采用长时跟踪方法对整幅搜索图像进行全局搜索，得到L个候选目标区域；

2.根据权利要求1所述的一种基于内容检索的目标长时跟踪方法，其特征在于S2采用离线目标跟踪网络进行目标跟踪处理，得到分类特征图的具体步骤如下：

S1.1、获取模板图像和当前帧搜索图像；

3.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述步骤S1.4中的互相关操作如下：

F(z,x)＝z*x+b

其中，b为偏差，*表示卷积操作，Z为模板图像的分类层回归层特征图或者回归层特征图，x为搜索图像的分类层回归层特征图或者回归层特征图，F为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。

4.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述步骤S1.5中池化操作前后特征图的维度一致。

5.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述采用长时跟踪方法对整幅搜索图像进行全局搜索，得到疑似候选目标的具体步骤如下：

6.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述内容检索网络采用resnet18神经网络。

7.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法，其特征在于所述内容检索网络采用Goolelandmarks-v2数据集训练，训练时的损失函数选用triplet-loss函数。