CN108830170B

CN108830170B - 一种基于分层特征表示的端到端目标跟踪方法

Info

Publication number: CN108830170B
Application number: CN201810510226.4A
Authority: CN
Inventors: 朱素果; 俞俊; 方振影
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2022-03-18
Anticipated expiration: 2038-05-24
Also published as: CN108830170A

Abstract

本发明公开了一种基于分层特征表示的端到端目标跟踪方法。本发明包括以下步骤：1、对视频帧数据进行处理得到输入图像对并提取特征，2、图像对的分层特征表示与对图像对特征进行互相关操作。3、对分层的互相关操作得到的响应图，通过加权融合的方式来平衡形态特征和语义特征得到最终响应图。4、模型训练，利用反向传播算法训练神经网络参数。本发明提出一种针对目标跟踪的神经网络模型，特别是提出一种基于全卷积分层特征融合表示的网络结构，并且获得了目前在目标跟踪领域中拥有比较有竞争力的效果。

Description

一种基于分层特征表示的端到端目标跟踪方法

技术领域

本发明涉及一种针对目标跟踪(Visual tracking)的深度神经网络，尤其涉及一种对图像的分层特征进行统一建模表示的方法以及对图像的分层特征进行模板匹配、融合的建模表达。

背景技术

目标跟踪是计算机视觉和视频分析的一个重要研究方向，单目标跟踪旨在根据视频第一帧给定的某个目标来跟踪改目标，得到视频后续帧中该目标所在的位置。

随着近年来深度学习的迅速发展，使用深度神经网络，如深度卷积神经网络(Convolutional Neural Networks,CNN)进行端到端(end-to-end)地问题建模成为目前计算机视觉上的主流研究方向。在单目标跟踪算法中，引入端到端建模的思想，将视频帧本身作为输入，直接输出后续帧中要跟踪目标所在的位置。

在实际应用方面，单目标跟踪算法具有非常广泛的应用场景。在视频监控中可以利用单目标跟踪算法对特定的目标(特定的人、车等)进行跟踪以达到实时监控的目的。随着可穿戴智能硬件(如Google glasses和微软的HoloLens)以及增强现实技术的快速发展，在不久的将来，目标跟踪可能会为人机交互提供更强的助力，这项技术可以使机器人更精准的获得目标对象的位置，从而提高机器人的智能化水平。

综上所述,基于端到端建模的目标跟踪算法是一个值得深入研究的方向，本课题拟从该任务中几个关键的难点问题切入，解决目前方法存在的缺陷，并最终形成一套完整的目标跟踪算法。

由于自然场景下的获取的视频内容复杂，且视频中的运动目标多样，这使得目标跟踪算法面临巨大的挑战。具体而言，主要存在如下两方面的难点：

(1)要跟踪目标被其他物体遮挡导致无法根据目标自身的特征来确定目标所在位置(例如，跟踪目标为某车辆时，有其他车辆将此车辆挡住使得摄像头无法记录要跟踪车辆)；目标在运动过程中发生形状变化、尺度变化导致算法难以匹配到目标；目标所在区域发生光照变化、目标由于高速运动导致摄像头捕捉到的视频中目标变模糊等问题；以及目标自身的颜色与背景颜色相同或者近似的问题。这些问题在视频采集时是不可避免的，因此设计一个对于这些问题处理较好的算法成为了目标跟踪中的一大难点。

(2)处理视频时通常计算量很大，并且相对耗时。特别是采用深度神经网络对视频帧进行特征提取时的计算量以及计算时间都非常多。因此如何在对视频中特定目标进行跟踪的过程中达到实时的效果，也是在设计目标跟踪算法时面临的一大难题。

本发明提出了一种针对目标跟踪任务的深度神经网络架构(HierarchicalSiamese fully-convolutional network HSFCNet)，以解决如上两个难点问题。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于分层特征表示的端到端目标跟踪方法。对于给定视频集，使用视频的第一帧中目标所在位置图像和后续的每帧分别组合成对作为训练集。

步骤(1)、数据预处理，特征提取

针对图像对(x',y′)，先进行预处理，然后利用孪生网络的一个网络流来计算图像对(x',y′)中图像x'和y'的特征表示；其中，x'是模板图像帧，对模板图像帧x'进行预处理缩放到大小为127*127；y'是搜索图像帧，对搜索图像帧y'进行预处理缩放到大小为255*255；

步骤(2)、分层特征表示与图像对特征的互相关操作

在孪生网络的基础上添加分层特征表示，构建分层孪生网络；

针对分层孪生网络的第四层、第五层的输出结果，将输出结果与x'、y'的输出特征通过互相关函数计算得到响应图；

步骤(3)、融合分层表示的结果

对第四层、第五层通过互相关函数计算得到响应图，通过加权平均的方式得到最终响应图，并根据最终响应图的最大响应区域，得到模板图像帧在该搜索图像帧中的位置的具体值h_ρ(x′_ρ,y′_ρ)；

步骤(4)、模型训练

将步骤(3)产生的位置的具体值h_ρ(x′_ρ,y′_ρ)与模板图像帧真实位置的数值c_i输入到定义的损失函数中，并利用反向传播算法对定义的分层孪生网络的模型参数进行训练，直至整个网络模型收敛。

步骤(1)所述的数据预处理，特征提取：

对模板图像帧x'和搜索图像帧y'进行特征提取，将图像对输入到预训练的深度神经网络得到图像特征f_ρ(x′)和f_ρ(y′)。

步骤(2)所述的图像的分层特征表示与图像对特征的互相关操作，首先叙述原始的全卷积孪生网络提取图像特征的表示，以及基于全卷积孪生网络构建对图像的分层特征表示，具体过程如下：

2-1.原始全卷积孪生网络提取的图像特征如下：

h_ρ(x′,y′)＝f_ρ(x′)*f_ρ(y′) (公式1)

其中，f_ρ(x′)和f_ρ(y′)分别表示是模板图像帧x'和搜索图像帧y'分别经过孪生网络的一个网络流得到的图像特征；*表示这图像对的特征表示做cross-corelate，从而得到最后的响应图；响应图中响应最大的位置即为要跟踪目标所在的位置；

2-2.针对图像对基于全卷积孪生网络的分层特征表示：

基于全卷积孪生网络，分别在网络的第四层和第五层对这两层得到的特征图做cross-corelate，从而得到第四层和第五层的响应图：

g_ρk(x＇，y＇)＝f_ρ(x＇_k)*f_ρ(y＇_k) (公式2)

其中，k＝4或5，用于表示在网络第k层得到的结果，f_ρ(x′_k)和f_ρ(y′_k)分别表示是第k层的模板图像帧x′_k和搜索图像帧y′_k分别经过孪生网络的一个网络流得到的特征表示。

步骤(3)所述的融合分层表示的结果，具体如下：

3-1.对于第四层和第五层得到的响应图，通过加权平均的方式得到最终响应图，单层响应图加权后的结果公式如下：

当j＝1,k＝4时，表示第四层的响应图加权后的结果；

当j＝2,k＝5时，表示第五层的响应图加权后的结果；

3-2.将两个加权后的结果相加得到最终响应图，并根据最终响应图的最大响应区域，得到模板图像帧在该搜索图像帧中的位置的具体值h_ρ(x′_ρ,y′_ρ)。

步骤(4)所述的训练模型，具体如下：

将步骤(3)产生的位置的具体值h_ρ(x′_ρ,y′_ρ)与模板图像帧真实位置的数值c_i输入到定义的损失函数中，得到损失值loss，具体公式如下：

其中，c_i取值范围为{-1,1}，l(h_ρ(x＇_ρ，y＇_ρ)，c_i)为logistic loss，定义为：

l(h_ρ(x＇_ρ，y＇_ρ)，c_i)＝log(1+exp(-h_ρ(x＇_ρ，y＇_ρ)c_i)) (公式5)

根据计算得到的损失值loss，利用反向传播算法(Back-Propagation，BP)调整网络模型中的参数。

本发明有益效果如下：

本发明提出了一种简单的全卷积孪生网络来捕获模板帧和搜索帧之间的相似性。尽管通过深度神经网络得到的深层次的图像特征对于语义的相似度匹配有很不错的效果，但是，对于目标跟踪来说，低层次的用户形态相关的特征对于跟踪的目标在不同帧之间的匹配是十分必要的。因此，本发明提出了一种分层次的特征提取，同时提取出图像对的低层次的形态特征和高层次的语义特征。并且本发明通过分别对图像对的低层次特征和高层次特征进行互相关操作来获得低层次的响应图和高层次的响应图。通过设计可使得低层次和高层次的响应图大小相同，因此可以使用加权平均的方式进行响应图的融合，融合过后的响应图的响应最大的位置为要跟踪目标最有可能在搜索图像中的位置，即为该搜索图中要跟踪目标所在的位置，通过与其他跟踪方法比较，本发明的方法在跟踪速度达到实时的情况下，效果得到了提升。

附图说明

图1为本发明流程图。

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1所示，本发明提供一种针对目标跟踪的深度神经网络框架。

步骤(1)、数据预处理，特征提取

针对图像对(x',y′)，其中x'是模板图像帧，对模板图像帧x'进行预处理缩放到大小为127*127；y'是搜索图像帧，对搜索图像帧y'进行预处理缩放到大小为255*255；然后分别利用孪生网络的一个网络流来计算他们各自的特征表示。这里使用ImageNet的视频目标检测的数据集作为训练数据，OTB-100作为测试数据。对于图像对数据，使用现有的Alexnet网络模型来抽取图像特征。具体的，将图像数据对中的模板图像缩放到127×127，把搜索图像大小缩放到255×255的大小，并输入到基于Alexnet的孪生网络中，来得到图像对中两个图像各自的特征表示。

步骤(2)、分层特征表示与图像对特征的互相关操作

如图1所示，在现有的孪生网络的基础上，提出了一种分层特征表示的孪生网络，克服了原始孪生网络特征表达不足的问题，并且基于神经网络实现该模型。

针对分层孪生网络的第四层、第五层的输出结果，分别将其输出结果与x'、y'的输出特征通过互相关函数计算得到响应图。

对于输入的图像对中的两个图像，分别从步骤(1)中的Alexnet网络的第四层和第五层中提取出两个图像各自的特征表示。其中，第四层的模板图像的特征表示矩阵为8×8，搜索图像的特征大小为24×24；第五层的模板图像的特征表示矩阵为6×6，搜索图像的特征大小为22×22。分别对第四层和第五层的图像对的特征做互相关之后得到两个17×17的响应图。

具体计算如下：

首先叙述原始的全卷积孪生网络提取图像特征的表示，以及基于全卷积孪生网络构建对图像的分层特征表示，具体过程如下：

2-1.原始全卷积孪生网络提取的图像特征如下：

h_ρ(x′,y′)＝f_ρ(x′)*f_ρ(y′) (公式1)

其中，f_ρ(x′)和f_ρ(y′)分别表示是模板图像帧x'和搜索图像帧y'分别经过孪生网络的一个网络流得到的图像特征。*表示这图像对的特征表示做cross-corelate，从而得到最后的响应图。响应图中响应最大的位置即为要跟踪目标所在的位置。

2-2.针对图像对基于全卷积孪生网络的分层特征表示：

g_ρk(x′，y′)＝f_ρ(x′_k)*f_ρ(y′_k) (公式2)

步骤(3)、融合分层表示的结果

对第四层、第五层通过互相关函数计算得到响应图，通过加权平均的方式得到最终响应图，输出最后的结果，具体如下：

当j＝1,k＝4时，表示第四层的响应图加权后的结果；

当j＝2,k＝5时，表示第五层的响应图加权后的结果。

由于在步骤(2)中，第四层和第五层得到的响应图大小都是17×17的大小，因此，他们可以自由的进行加权融合来平衡图像特征的语义信息和形态信息，以此达到更好的跟踪效果。在公式(3)中，分别应用λ₁＝0.3，λ₂＝0.7来对两个层得到的响应图进行融合。

步骤(4)、模型训练

根据HSFCNet产生的预测的结果(是否为当前目标)同该真实结果的损失，并利用反向传播算法(Back-Propagation，BP)对上述定义的神经网络的模型参数进行训练，直至整个网络模型收敛，具体如下：

其中，c_i取值范围为{-1,1}，l(hρ(x′_ρ，y′_ρ)，c_i)为logistic loss，定义为：

l(h_ρ(x′_ρ，y′_ρ)，c_i)＝log(1+exp(-h_ρ(x′_ρ，y′_ρ)c_i)) 公式5)

根据计算得到的损失值loss，利用反向传播算法(Back-Propagation，BP)调整网络中的参数。

表1是本文所述的方法在OTB-100数据集中平均准确率。其中OS表示所有属性的平均正确率，LR表示模型在低分辨率问题下跟踪的正确率，SV表示在尺度变化问题上的正确率，IPR表示目标图像在平面内旋转问题上的正确率，OPR表示目标图像移动到平面外问题上的正确率，IV表示目标图像区域发生光照变化问题上的正确率，FM表示在目标快速运动问题上的正确率，OCC表示目标被其他物体遮挡问题上的准确率。DEF表示在目标发生形变问题上的准确率。

表1

Claims

1.一种基于分层特征表示的端到端目标跟踪方法，其特征在于包括如下步骤：

步骤(1)、数据预处理，特征提取

步骤(2)、分层特征表示与图像对特征的互相关操作

步骤(3)、融合分层表示的结果

步骤(4)、模型训练

将步骤(3)产生的位置的具体值h_ρ(x′_ρ,y′_ρ)与模板图像帧真实位置的数值c_i输入到定义的损失函数中，并利用反向传播算法对定义的分层孪生网络的模型参数进行训练，直至整个网络模型收敛；

2-1.原始全卷积孪生网络提取的图像特征如下：

h_ρ(x′,y′)＝f_ρ(x′)*f_ρ(y′) (公式1)

2-2.针对图像对基于全卷积孪生网络的分层特征表示：

2.根据权利要求1所述的一种基于分层特征表示的端到端目标跟踪方法，其特征在于步骤(1)所述的数据预处理，特征提取：

对模板图像帧x′和搜索图像帧y′进行特征提取，将图像对输入到预训练的深度神经网络得到图像特征f_ρ(x′)和f_ρ(y′)。

3.根据权利要求2所述的一种基于分层特征表示的端到端目标跟踪方法，其特征在于步骤(3)所述的融合分层表示的结果，具体如下：

当j＝1，k＝4时，表示第四层的响应图加权后的结果；

当j＝2，k＝5时，表示第五层的响应图加权后的结果；

3-2.将两个加权后的结果相加得到最终响应图，并根据最终响应图的最大响应区域，得到模板图像帧在该搜索图像帧中的位置的具体值h_ρ(x′_ρ，y′_ρ)。

4.根据权利要求3所述的一种基于分层特征表示的端到端目标跟踪方法，其特征在于步骤(4)训练模型，具体如下：

将步骤(3)产生的位置的具体值h_ρ(x′_ρ，y′_ρ)与模板图像帧真实位置的数值c_i输入到定义的损失函数中，得到损失值loss，具体公式如下：

其中，c_i取值范围为{-1，1}，l(h_ρ(x′_ρ，y′_ρ)，c_i)为logistic loss，定义为：

l(h_ρ(x′_ρ，y′_ρ)，c_i)＝log(1+exp(-h_ρ(x′_ρ，y′_ρ)c_i)) (公式5)

根据计算得到的损失值loss，利用反向传播算法调整网络模型中的参数。