CN110827318A

CN110827318A - 一种基于多层语义特征与多响应图融合的目标跟踪方法

Info

Publication number: CN110827318A
Application number: CN201910994934.4A
Authority: CN
Inventors: 刘安安; 张春婷; 刘婧; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-21

Abstract

本发明公开了一种基于多层语义特征与多响应图融合的目标跟踪方法，包括：将提取的搜索图像块的多层语义特征分别输入不同分支的卷积层中生成多个响应图，并进行多响应图的融合，融合后得到最终响应图作为回归网络模型的输出；训练、更新模型的参数，将搜索图像块与对应的训练标记图组成训练样本对，送入模型中，直到预定义的损失函数小于设定的阈值或迭代步数超过上限；利用模型进行在线检测，裁剪出与前一帧图像块同样大小的搜索图像块，作为训练好的模型的输入，进行多层语义特征提取与多响应图融合，通过搜索最终响应图的最大值，确定预测的目标位置；提取多个不同尺寸的搜索图像块，通过比较回归响应结果的最大值，确定对应的目标尺寸。

Description

一种基于多层语义特征与多响应图融合的目标跟踪方法

技术领域

本发明涉及目标跟踪领域，尤其涉及一种基于多层语义特征与多响应图融合的目标跟踪方法。

背景技术

视觉目标跟踪的目的是在视频的每一帧中找到一个紧紧包围目标物体的边界框，它是仅在第一帧中给出目标的边界框时估计视频中未知目标物体位置的问题，这是计算机视觉领域的基本问题之一。与目标检测相比，必须检测已知类中的多个对象并将其定位在单个图像中，由于视频的特性，例如：运动模糊、照明变化、相机和物体的运动、变形和与物体的相互作用(遮挡、物体之间的视觉相似性等)，使得视频中的视觉目标跟踪是更具挑战性的任务。此外，由于大多数视觉目标跟踪应用，例如：自动驾驶、视频监视，需要实时跟踪，因此视觉目标跟踪器必须比视频的帧速率更快地操作。

基于相关滤波器的跟踪方法^[1]-[5]由于其计算效率和有竞争力的性能而引起了人们的关注，该方法只需要很低的计算量就可以在傅里叶域中学习相关滤波器。Bolme等人^[1]提出了误差最小平方和滤波器，Henriques等人^[3]提出了具有多通道特征的核化相关滤波器(KCFs)，Hong等人^[4]提出了使用短期相关跟踪器和长期存储器的组合系统。为了克服手工特征的不充分表现，在相关滤波器^[6,7]中使用了深度卷积特征，从而实现了最先进的性能。然而，这些方法需要大量的计算负荷，因为需要使用深度卷积特征来训练多个按比例缩放的滤波器。

基于相关滤波器的跟踪器虽然实现了可区分的性能，然而傅立叶域中的相关优化会引起边界效应。与传统的基于相关滤波器的跟踪器不同，深度回归跟踪器试图通过空间域中的梯度下降来获得近似解。它们将相关滤波器表示为卷积运算并构建单通道输出卷积层，像在典型的卷积神经网络中所使用的一样。最近的跟踪器^[8,9]使用深度回归模型，与相关滤波器跟踪器相比，性能得到显著改善。Chen等人^[9]引入了用于视觉目标跟踪的单层回归模型，并利用一种新颖的自动难例挖掘方法来促进回归模型的训练。

然而，目前基于深度回归模型的方法，虽然利用了深度特征表征目标物体，但是没有充分利用不同层语义特征对目标表示的差别，从而不能很好地将目标从背景之中区分开；同时，通过搜索单一响应图的最大值，在面对目标被遮挡、扭曲旋转等挑战时容易出现跟踪漂移的情况，因此模型不够鲁棒。

发明内容

本发明提供了一种基于多层语义特征与多响应图融合的目标跟踪方法，本发明避免了低水平特征表示的不充分性，充分利用深度特征的多层语义信息和判别信息，可以通过多层语义特征与多响应图融合提高跟踪的准确度，详见下文描述：

一种基于多层语义特征与多响应图融合的目标跟踪方法，所述方法包括：

将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图，并进行多响应图的融合，融合后得到最终响应图作为回归网络模型的输出；

训练、更新回归网络模型的参数，回归网络模型的训练标记图由高斯函数生成，将搜索图像块与训练标记图组成的训练样本对，送入回归网络模型中，直到预定义的损失函数小于设定的阈值或迭代步数超过上限，回归网络型训练结束；

利用训练好的回归网络模型进行在线检测，裁剪出与前一帧图像块同样大小的搜索图像块，将此裁剪的搜索图像块作为训练好的回归网络模型的输入，进行多层语义特征提取与多响应图融合，通过搜索最终响应图的最大值，作为回归响应结果，确定预测的目标物体的位置；

提取多个不同尺寸的搜索图像块，分别送入回归网络模型中，对应得到多个最终响应图，通过比较回归响应结果的最大值，确定对应的目标尺寸。

其中，所述提取的多层语义特征具体为：

首先进行回归网络模型的初始化，回归网络模型的输入为一个搜索图像块，输出为回归响应图；

使用深度网络VGG16中的不同层对搜索图像块进行多层语义特征提取。

进一步地，所述将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图，并进行多响应图的融合具体为：

将深度网络VGG16中的conv4_3和conv5_3这两个语义特征进行不同方式的组合，分别为二者相加得到特征F1、conv5_3本身作为特征F2、二者通过按通道方向串联的方式组合得到特征F3；

多响应图融合是特征F1、F2、F3分别输入三个卷积层，分别得到三个响应图R1、R2、R3；R1与R2通过双线性融合得到P1，R2与R3也通过响应图融合得到P2，最后P1与P2相加得到最终响应图。

其中，所述训练、更新回归网络模型的参数，回归网络模型的训练标记图由高斯函数生成具体为：

通过梯度下降法迭代训练回归网络模型，根据搜索图像块，提取样本特征X，并通过高斯函数生成相应的训练标记图Y；通过求解预定义的损失函数L_reg的最小化问题来训练卷积层的网络参数W。

进一步地，所述通过比较回归响应结果的最大值，确定对应的目标尺寸具体为：

提取多个不同尺寸的搜索图像块，通过比较生成响应图的最大值，对目标的尺寸进行平滑的估计；

将多个搜索图像块缩放至与初始帧的搜索图像块大小一致，以匹配回归网络模型，将缩放后的搜索图像块输入到回归网络模型中，生成多个响应图，通过比较每个响应图的最大值来确定当前帧的目标尺寸，然后，以平滑的方式更新目标物体的比例。

所述方法还包括：实时更新跟踪器。

本发明提供的技术方案的有益效果是：

1、本发明避免了低水平手工特征表示的不充分性，充分利用深度特征的多层语义信息，更好地区分开目标物体和背景，提高跟踪的准确性；

2、本发明的多层特征分别经过卷积层预测响应图，从而形成多支路的网络并进行多响应图融合，形成相应图的信息交互和位置关联，提高跟踪的鲁棒性。

附图说明

图1为一种基于多层语义特征与多响应图融合的目标跟踪方法的流程图；

图2为在OTB2013数据集上得到的准确率图；

图3为在OTB2013数据集上得到的成功率图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决以上问题，需要能够全面、自动、准确提取目标物体的特征，并根据响应图进行目标物体跟踪的方法。研究表明：深度网络的低层次特征含有目标物体更多的细节信息，而高层次特征含有目标物体更多的语义信息，可以通过结合多层次的语义信息和多支路响应图融合，提高目标物体跟踪的准确性。

实施例1

本发明实施例提出了一种基于多层语义特征与多响应图融合的目标跟踪方法，参见图1，该方法包括以下步骤：

101：首先进行回归网络模型的初始化，回归网络模型的输入为一个搜索图像块，输出为回归响应图；

其中，整个回归网络模型包括：多语义特征提取和多响应图融合。根据第一帧中给定的目标位置和尺寸，裁剪得到以目标为中心的搜索图像块作为模型输入。

102：使用深度网络VGG16中的不同层对步骤101中得到的搜索图像块进行多层语义特征提取；

103：由步骤102中提取的多层语义特征分别进入不同分支的卷积层中生成多个响应图，并进行多响应图的融合，融合后得到最终响应图作为回归网络模型的输出；

104：利用梯度下降法迭代训练回归网络模型，重复更新回归网络模型的参数，回归网络模型的训练标记图由高斯函数生成，将搜索图像块与训练标记图组成的训练样本对，送入回归网络模型中，直到预定义的损失函数小于设定的阈值或迭代步数超过上限，回归网络型训练结束；

105：利用训练好的回归网络模型进行在线检测，裁剪出与前一帧图像块同样大小的搜索图像块，将此裁剪的搜索图像块作为训练好的回归网络模型的输入，进行多层语义特征提取与多响应图融合，通过搜索最终响应图的最大值，作为回归响应结果，确定预测的目标物体的位置；

106：再进行尺度估计，提取多个不同尺寸的搜索图像块，分别送入步骤105中的回归网络模型，对应得到多个最终响应图，通过比较回归响应结果的最大值，确定对应的目标尺寸；

即，每个最终响应图都有一个最大值，比较这些最大值找到其中最大的一个，获取该最大值对应的最终响应图，进而获得该最终响应图对应的尺寸，作为最后估计的尺寸。

107：最后进行回归网络模型的更新，重复执行步骤101至步骤106，为了使回归网络模型适应目标外观的变化，需要实时更新跟踪器。

其中，更新跟踪器具体为：根据估计的位置和尺寸裁剪搜索图像块并生成相应的训练标记图，在后续的每一帧中更新回归网络模型；同时为了减轻回归网络模型更新过程中噪声引起的模型漂移，使用历史帧的训练数据进行回归网络模型的在线更新。

综上所述，本发明实施例避免了低水平手工特征表示的不充分性，充分利用深度特征的多层语义信息，更好地区分开目标物体和背景，并且通过多层语义特征与多响应图融合，提高跟踪的准确度。

实施例2

下面结合具体的计算公式、图1对实施例1中的方案进行进一步地介绍，详见下文描述：

201：首先进行回归网络模型的初始化，回归网络模型输入为一个搜索图像块，输出为回归响应图，整个回归网络模型包括：多语义特征提取和多响应图融合；

其中，根据第一帧中给定的目标位置和尺寸，裁剪得到以目标为中心的搜索图像块作为回归网络模型的输入。

202：使用深度网络VGG16中的不同层对步骤201中得到的搜索图像块进行多层语义特征提取；

其中，多层语义特征提取是使用深度神经网络VGG16提取搜索图像块的特征，以充分表示目标物体的外观。这里使用的VGG16网络，仅保留前两个池化层，以保证后面的输出具有相同尺寸。这个网络具有5个阶段，每个阶段又包含2个或者3个卷积层。对于低层次的特征，如前3个阶段的特征，其包含物体更多的判别信息；而高层次的特征，如4、5阶段的特征包含物体更多的语义信息。所以在对搜索图像块提取特征时，分别提取conv4_3和conv5_3的特征。

203：步骤202中提取的多层语义特征分别进入不同分支的卷积层中生成多个响应图，并进行多响应图的融合，融合后的最终响应图作为回归网络模型的输出；

将conv4_3和conv5_3这两个语义特征进行不同方式的组合，分别为二者相加得到特征F1、conv5_3本身作为特征F2、二者通过按通道方向串联的方式组合得到特征F3。多响应图融合是特征F1、F2、F3分别输入三个卷积层，分别得到三个响应图R1、R2、R3。R1与R2通过双线性融合算法进行响应图融合得到P1，R2与R3也通过双线性融合算法进行响应图融合得到P2，最后P1与P2相加得到最终响应图P。

多响应图融合所用到的双线性融合算法，具体公式如下：

Bilinear(x_s)＝f(x_s)^Tg(x_s) (1)

对于输入图像

其中w,h和c分别为输入图像x的宽、高和通道数。

是输入图像x的空间位置的集合。

是输入图像x在每个空间位置处，对应的通道方向上的值，

为实数集合。f(x_s)和g(x_s)分别表示对输入图像提取特征，T表示向量的转置。为了保持输出向量的空间分辨率，不进行双线性融合算法后续的池化求和操作。

204：利用梯度下降法迭代训练回归网络模型，重复更新回归网络模型的参数，回归网络模型的训练标记图由高斯函数生成，将搜索图像块与训练标记图组成的训练样本对，送入回归网络模型中，直到预定义的损失函数小于设定的阈值或迭代步数超过上限，回归网络模型训练结束。

由高斯函数将搜索图像块转化为训练标记图的公式如下：

其中，σ为方差，x,y代表像素点的横、纵坐标，标记图中心点的坐标为原点(0，0)，高斯函数峰值代表目标位置，它的方差与目标的长和宽成正比。

通过梯度下降法迭代训练回归网络模型，它是一个最小化损失函数L_reg的过程。根据搜索图像块，可以提取其样本特征X，并通过高斯函数生成相应的训练标记图Y。通过求解以下预定义的损失函数L_reg的最小化问题来训练卷积层的网络参数W。

其中，*表示卷积运算，λ是防止发生过拟合的正则化参数。

205：利用训练好的回归网络模型进行在线检测；

利用步骤201中训练得到的回归网络模型，进行后续帧的目标位置预测。以前一帧预测的目标位置为中心，裁剪出同样大小的搜索图像块，再将这个裁剪的搜索图像块作为训练好的回归网络模型的输入，进行多层语义特征提取与多响应图融合，搜索生成最终响应图的最大值，即为下一帧预测的目标位置。

206：进行尺度估计，提取多个不同尺寸的搜索图像块，通过比较它们生成响应图的最大值，对目标的尺寸(即长和宽)进行平滑的估计。

在获得当前帧中的目标位置之后，提取三种尺度不同的搜索图像块，搜索图像块的中心位置与上一帧的目标中心位置重合，尺寸不一且成比例。将多个搜索图像块缩放至与初始帧的搜索图像块大小一致，以匹配回归网络模型，将缩放后的搜索图像块输入到回归网络模型中，生成多个响应图，通过比较每个响应图的最大值来确定当前帧的目标尺寸。然后，以平滑的方式更新目标物体的比例：

(w_t,h_t)＝β(w^p,h^p)+(1-β)(w_t-1,h_t-1) (4)

其中，w_t和h_t分别表示第t帧时目标物体的宽和高，类似地，w_t-1和h_t-1分别表示第t-1帧时目标物体的宽和高。而w^p和h^p分别表示预测的目标物体的宽和高，β表示更新目标尺度的平滑因子。

207：进行回归网络模型的更新。

为了使回归网络模型适应不同的物体外观，逐步更新跟踪器。对于每一帧，依靠估计的位置和比例裁剪搜索图像块并生成相应的训练标记图。为了减轻噪声更新引起的回归网络模型漂移，使用历史帧的训练数据对回归网络模型进行在线更新。

实施例3

下面结合具体的实验对实施例1和2中的方案进行可行性验证，详见下文描述：

本方法在OTB2013^[10]数据库上进行实验，该数据库含有51个视频序列，每个序列都被11种挑战情况标注，分别为：光照变化(Illumination Variation)、尺度变化(ScaleVariation)、遮挡(Occlusion)、形变(Deformation)、运动模糊(Motion Blur)、快速运动(Fast Motion)、平面内旋转(In-Plane Rotation)、平面外旋转(Out-of-PlaneRotation)、超出视野(Out-of-View)、背景杂乱(Background Clutter)、低分辨率(LowResolution)。

OTB2013的评估基于一次通过评估方式(One Pass Evaluation)，中心位置误差(CLE)的值是通过测量真实值和生成的边界框之间的平均欧几里德距离，距离精度(DP)是CLE小于某个阈值的序列中的相对帧数，重叠精度(OP)是边界框重叠超过阈值的帧所占百分比。所有跟踪器都使用精确度图和成功率图展示在OTB2013数据库的表现，平均DP在精确度图中的一系列阈值上绘制，用于对跟踪器进行排名的平均DP分数以每个跟踪器的20个像素作为阈值。平均OP绘制在成功率图中，曲线下面积(AUC)分数用于对成功率图中的每个跟踪器进行排名。精确率图和成功率图展示了OTB2013上所有视频序列的平均结果。

将本方法(Ours)与不进行多语义特征融合和响应图融合的网络(Baseline)进行对比，使用一次性通过(OPE)的评价方式，生成准确率图和成功率图，实验结果如图2和图3。

可以看到，如图2所示，在准确率图上本方法Ours的值为0.884，而Baseline的值为0.872。同时，如图3所示，在成功率图上Ours的值为0.613，而Baseline的值为0.567，在两张图上Ours一致高于Baseline。因此，多语义特征融合避免了低水平手工特征表示的不充分性，充分利用深度特征的多层语义信息，更好地区分开目标物体和背景。同时通过多响应图融合，综合多个响应图考虑目标物体可能出现的位置，提高跟踪的准确度。

参考文献：

[1]Bolme D S,Beveridge J R,and Draper B A.Visual object trackingusing adaptive correlation filters.In Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2010.

[2]DanelljanM,

G,and Khan F S.Accurate scale estimation forrobust visual tracking.In Proceedings of the British Machine VisionConference,2014.

[3]Henriques J F,Caseiro R,and Martins P.High-speed trackingwithkernelized correlation filters[J].IEEE Trans.Pattern Anal,2015,37(3):583–596.

[4]Hong Z,Chen Z,and Wang C.Multi-Store tracker(MUSTer):A cognitivepsychology inspired approach to object tracking.In Proceedings of IEEEConference on Computer Vision and Pattern Recognition (CVPR),2015.

[5]Choi J,Chang H J,and Jeong J.Visual tracking using attention-modulated disintegration and integration.In Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016.

[6]Danelljan M,

G,and Khan F S.Convolutional features forcorrelation filter based visual tracking,”In Proceedings of IEEEInternational Conference on Computer Vision Workshops,2015.

[7]Danelljan M,Robinson A,and Khan F S.Beyond correlation filters:Learning continuous convolution operators for visual tracking.In Proceedingsof European Conference on Computer Vision,2016,pp.472–488.

[8]Wang L,Ouyang W,and Wang X.Visual tracking with fullyconvolutional networks.In Proceedings ofthe IEEE International Conference onComputer Vision,2015；pp.3119–3127.

[9]Chen K,Tao W.Convolutional regression for visual tracking[J].IEEETrans.Image Process.2018,27,3611–3620.

[10]Wu Y,Lim J,and Yang M H.Online object tracking:A benchmark.InProceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013,pp.2411–2418.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层语义特征与多响应图融合的目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法，其特征在于，所述提取的多层语义特征具体为：

3.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法，其特征在于，所述将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图，并进行多响应图的融合具体为：

4.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法，其特征在于，所述训练、更新回归网络模型的参数，回归网络模型的训练标记图由高斯函数生成具体为：

5.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法，其特征在于，所述通过比较回归响应结果的最大值，确定对应的目标尺寸具体为：

6.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法，其特征在于，所述方法还包括：实时更新跟踪器。