CN111161317A

CN111161317A - 一种基于多重网络的单目标跟踪方法

Info

Publication number: CN111161317A
Application number: CN201911390842.1A
Authority: CN
Inventors: 付利华; 王宇鹏; 杜宇斌; 陈人杰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本发明提供了一种基于多重网络的单目标跟踪方法，是一种采用深度学习的模型。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪，得到模板图像和待搜索图像；将模板图像和待搜索图像输入外观子网和语义子网，分别获得模板图像和待搜索图像的低层外观特征和高层语义特征，并进行特征融合，分别得到模板图像和待搜索图像的融合特征图；然后，基于模板图像和待搜索图像的融合特征图，使用相似性判别方法得到最终响应图；最后，根据最终响应图提供的信息获得跟踪结果。本发明解决了传统单目标跟踪方法无法有效检测到包含相似性背景的待搜索图像中的跟踪目标，以及基于深度学习的特征提取方法由于提取出的低层外观特征存在噪声而导致误检的问题。

Description

一种基于多重网络的单目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，尤其涉及一种基于多重网络的单目标跟踪方法。

背景技术

单目标跟踪是信息融合方法的一个重要组成部分，被广泛应用于视频监控、虚拟现实、人机交互、无人驾驶等诸多领域。单目标跟踪的本质是通过滤波器对单个动态目标的连续运动状态进行估计。单目标跟踪的大致框架是首先通过对第一帧输入进行特征提取对待跟踪目标的特征进行初始化，构建目标模型，然后对当前帧进行特征提取,并与第一帧中跟踪目标的特征进行相似性判断，最后输出跟踪目标在当前帧中的位置估计。

单目标跟踪一般分为两大类方法：基于生成式模型的单目标跟踪方法和基于判别式模型的单目标跟踪方法。基于生成式模型的单目标跟踪方法通过建立目标模型将现实世界中的目标基于计算机视觉中的目标表示方法进行描述，在新的图像帧中搜索与目标外观模型最相似的区域，它着眼于对目标本身的刻画，忽略背景信息，在目标自身变化剧烈或者被遮挡时容易产生跟踪漂移；基于判别式模型的单目标跟踪方法对目标提取具有判别性的特征，通过深度学习和相关滤波方法训练分类器来区分目标和背景，很好地解决了生成式中因背景变化所产生的目标漂移，但是在时间和准确率两方面难以权衡。

这些方法大部分采用的是基于深度学习的特征提取方法，在简单场景下检测效果较好，但是对于具有复杂场景的图像或视频，其提取出的特征并不全是有用的，其中无用的特征信息会对跟踪结果造成影响，降低跟踪模型的性能。总之，传统的单目标跟踪方法所使用的特征夹杂着许多无用信息，无法形成对目标鲁棒的特征，并且跟踪效果较好的模型速度较慢。

为了解决上述问题，当前需要一种新的基于多重网络的单目标跟踪方法。

发明内容

本发明要解决的问题是：传统的单目标跟踪方法所使用的特征不够准确，无法形成对目标鲁棒的特征，且跟踪效果较好的模型速度较慢。为了解决上述问题，当前需要一种新的基于多重网络的单目标跟踪方法。

为了解决上述问题，本发明提供了一种新的基于多重网络的单目标跟踪方法，以视频第一帧和当前帧作为输入，融合低层外观特征和高层语义特征，基于多重网络进行单目标跟踪，包括以下步骤：

1)处理视频第一帧和当前帧得到模板图像和待搜索图像；

2)将模板图像和待搜索图像一同输入到外观子网和语义子网中，分别提取低层外观特征和高层语义特征；

3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图，同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图；

4)对模板图像的融合特征图和待搜索图像的融合特征图，采用相似性判别方法得到模板图像在待搜索图像上的最终响应图；

5)将最终响应图恢复成原图大小，根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小，进而得到跟踪结果。

作为进一步的优选方式，步骤1)具体步骤为：

1.1)获得模板图像：本方法中不存在对模板图像的在线更新，因为目前来说在线更新一方面会影响整体跟踪器的速度，另一方面也因为这种做法时常会造成跟踪器一旦目标丢失可能就难以找回，导致较大的跟踪问题，所以第一帧图像只需要进行一次处理即可。将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小，得到模板图像。这样可以去掉多余背景，尽可能多地保证前景所占比例最大，有利于目标有用特征的提取，提高跟踪模型判别前景和背景的能力。

首先默认跟踪目标的中心点在第一帧图像的中心，第一帧图像的宽和高为w和h，因此在以图像左上角为原点的坐标轴中，跟踪目标中心点的坐标为：(w/2,h/2)；然后裁剪出包含跟踪目标的大小为127×127的区域；最后，新建一个大小为127×127的三通道RGB图像，并将从第一帧图像中裁剪出的区域内的所有像素值复制到新建的三通道RGB图像，即获得模板图像；

1.2)获得待搜索图像：本方法采用多尺度方法应对不同尺度下的目标跟踪，因此，根据三种固定尺度获得三幅具有不同尺度跟踪目标的待搜索图像，使跟踪器对于较大尺度或较小尺度的跟踪目标都获得比较稳定的跟踪效果，同时也可使得跟踪器在当前帧图像中对跟踪目标的标注尽可能准确。

首先采用预先设置的尺度变化系数σ＝1，并设置尺度基数s_b＝1.0375，得到三种固定尺度(s_b ^-σ,s_b ⁰,s_b ^σ)。根据三种固定尺度对当前帧图像进行尺度变换，得到三幅不同尺度的当前帧图像；并以前一帧跟踪目标为中心，对三幅不同尺度的当前帧图像进行裁剪或者填充，分别得到三幅大小为255×255的待搜索图像，每幅待搜索图像具有不同尺度大小的跟踪目标。其中裁剪是为了解决尺度变换后的当前帧图像大于255×255的情况；填充是为了解决尺度变换后的当前帧图像小于255×255的情况，且填充方法采用均值填充，值为基于当前帧图像计算出的全体像素均值。

作为进一步的优选方式，步骤2)具体步骤为：

2.1)外观子网包括一个卷积神经网络和一个注意力模块，卷积神经网络包括5个卷积层和2个池化层，其中2个池化层分别在第一个卷积层和第二个卷积层的后面，同时注意力模块加在第一个卷积层和对应池化层的中间。

外观子网负责提取图像的低层外观特征，具体包括纹理信息、颜色信息等。其中注意力模块可以提高对跟踪目标起决定性作用的通道的权重，有利于当出现与跟踪目标是同类物体的背景时，可以通过更加明确的颜色信息、纹理信息等定位跟踪目标，防止类内漂移。

首先，将模板图像和待搜索图像输入外观子网，经过第一层卷积层分别得到第一层特征，然后，将第一层特征输入注意力模块，得到包含注意力的特征，最后将包含注意力的特征输入到网络的后续结构，分别获得模板图像和待搜索图像的低层外观特征；

2.2)语义子网采用预训练的用于分类任务的卷积神经网络AlexNet。和外观子网类似，同样将模板图像和待搜索图像输入语义子网，通过语义子网进行特征提取，分别获得模板图像和待搜索图像的高层语义特征。语义子网可以从整幅输入图像中提取与跟踪目标同类物体的高层语义特征，防止跟踪器出现类间漂移。

作为进一步的优选方式，步骤3)具体步骤为：

3.1)首先，将模板图像的高层语义特征采用双线性插值方法与其低层外观特征进行对齐，并以同样的方式将待搜索图像的高层语义特征与其低层外观特征进行对齐，保证模板图像和待搜索图像的低层外观特征没有特征损失；

3.2)然后，将对齐后的模板图像的高层语义特征与其低层外观特征采用通道叠加的方式进行特征融合，得到模板图像的融合特征图；并以同样的方式将对齐后的待搜索图像的高层语义特征与其低层外观特征进行特征融合，得到待搜索图像的融合特征图。通道叠加的融合方式可以使描述图像的特征更加丰富。

作为进一步的优选方式，步骤4)具体步骤为：

4.1)首先，采用相似性判别方法，依次计算模板图像的融合特征图与三种不同尺度待搜索图像的融合特征图的相似性，得到三种不同尺度下的得分图；

4.2)然后，计算每个得分图的峰值，选取具有最高峰值的得分图，作为模板图像在待搜索图像上的最终响应图。

作为进一步的优选方式，步骤5)具体步骤为：

5.1)首先，采用双线性插值方法将最终响应图恢复成原图大小，并基于最终响应图中最高峰值位置，在当前帧中确定跟踪目标的中心点位置；

5.2)然后，将最终响应图对应的尺度与前一帧跟踪目标的矩形框大小相乘，得到当前帧跟踪目标的矩形框大小；

5.3)最后，基于确定的跟踪目标中心点位置和矩形框大小，获得当前帧的跟踪结果。

有益效果

本发明提供了一种基于多重网络的单目标跟踪方法，是一种采用深度学习的模型。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪，得到模板图像和待搜索图像；将模板图像和待搜索图像输入外观子网和语义子网，分别获得模板图像和待搜索图像的低层外观特征和高层语义特征，并进行特征融合，分别得到模板图像和待搜索图像的融合特征图；然后，基于模板图像和待搜索图像的融合特征图，使用相似性判别方法得到最终响应图；最后，根据最终响应图提供的信息获得跟踪结果。应用本发明，解决了传统单目标跟踪方法中，跟踪目标的表观特征不够鲁棒，夹杂着许多无用信息的问题，还解决了现有的基于深度学习的单目标跟踪方法精度和速度无法权衡的问题。本发明适用于单目标跟踪场景，具有很好的鲁棒性，跟踪速度较快，结果较好。

本发明的优点是：首先，本发明以视频第一帧和当前帧作为整个模型的输入，充分利用了给定目标的特征信息；其次，本发明通过设计语义子网和外观子网，分别提取目标的低层外观特征和高层语义特征，使得本跟踪算法能具备更好的类间判别性和类内判别性；最后，本方法的总体网络结构采用孪生网络结构，无需在线更新，同时保证模型的速度和准确率。

附图说明

图1是本发明基于多重网络的单目标跟踪方法的流程图；

图2是本发明基于多重网络的单目标跟踪方法的整体结构图；

图3是本发明设计的通道注意力图的计算流程。

具体实施方式

本发明提供了一种基于多重网络的单目标跟踪方法。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪，得到模板图像和待搜索图像；将模板图像和待搜索图像输入外观子网和语义子网，分别获得模板图像和待搜索图像的低层外观特征和高层语义特征，并进行特征融合，分别得到模板图像和待搜索图像的的融合特征图；然后，基于模板图像和待搜索图像的融合特征图，使用相似性判别方法得到最终响应图；最后，根据最终响应图提供的信息获得跟踪结果。本发明适用于单目标跟踪场景，具有很好的鲁棒性，跟踪速度较快，结果较好。

如图1所示，本发明包括以下步骤：

1)处理视频第一帧和当前帧得到模板图像和待搜索图像；

1.1)获得模板图像：将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小，得到模板图像。

首先默认跟踪目标的中心点在第一帧图像的中心，第一帧图像的宽和高为w和h，因此在以图像左上角为原点的坐标轴中，跟踪目标中心点的坐标为：(w/2,h/2)；然后裁剪出包含跟踪目标的大小为127×127的区域；最后，新建一个大小为127×127的三通道RGB图像，并将从第一帧图像中裁剪出的区域内的所有像素值复制到新建的三通道RGB图像，即获得模板图像P_m；

1.2)获得待搜索图像：本方法采用多尺度方法应对不同尺度下的目标跟踪，因此，根据三种固定尺度获得三幅具有不同尺度跟踪目标的待搜索图像，使跟踪器对于较大尺度或较小尺度的跟踪目标都获得比较稳定的跟踪效果，同时也可使得跟踪器在当前帧图像中对跟踪目标的标注尽可能准确。本发明不限于三种固定尺度，可以根据实际情况进行调整。

首先采用预先设置的尺度变化系数σ＝1，并设置尺度基数s_b＝1.0375，得到三种固定尺度(s_b ^-σ,s_b ⁰,s_b ^σ)。根据三种固定尺度对当前帧图像进行尺度变换，得到三幅不同尺度的当前帧图像；并以前一帧跟踪目标为中心，对三幅不同尺度的当前帧图像进行裁剪或者填充，分别得到三幅大小为255×255的待搜索图像P₁、P₂、P₃，每幅待搜索图像具有不同尺度大小的跟踪目标。其中裁剪是为了解决尺度变换后的当前帧图像大于255×255的情况；填充是为了解决尺度变换后的当前帧图像小于255×255的情况，且填充方法采用均值填充，值为基于当前帧图像计算出的全体像素均值。

均值填充的具体方法为：当前帧图像大小为w*h*c,通过将每个通道下的像素进行求和，然后除以像素个数w*h，最后得到每个通道下的像素均值c_r、c_g、c_b，最后使用c_r、c_g、c_b填充图像；

c_r＝sum(pixel_r)/(w*h)

c_g＝sum(pixel_g)/(w*h)

c_b＝sum(pixel_b)/(w*h)

其中，sum(·)表示求和操作，pixel_r、pixel_g、pixel_b分别表示R、G、B通道下的像素点，w和h表示图像的宽和高。

2)将模板图像和待搜索图像一同输入外观子网和语义子网，同时提取低层外观特征和高层语义特征；

2.1)外观子网包括一个卷积神经网络和一个注意力模块，卷积神经网络包括5个卷积层和2个池化层，其中2个池化层分别在第一个卷积层和第二个卷积层的后面，同时注意力模块加在第一个卷积层和池化层中间。

首先，对于某一输入图像P，将其输入外观子网，经过第一层卷积层得到特征F₁；然后，将特征F₁输入注意力模块得到包含注意力的特征F₁′；最后，将包含注意力的特征F₁′输入外观子网的后续结构，得到图像P的外观特征

将模板图像P_m和三幅不同尺度待搜索图像P₁、P₂、P₃输入外观子网，分别得到模板图像的低层外观特征

和待搜索图像的低层外观特征

其中，将特征F₁输入注意力模块得到包含注意力的特征F₁′的具体处理过程为：

首先，对于注意力模块的输入F₁,使用平均池化和最大池化得到F₁的空间信息，分别生成两个不同的空间上下文描述符V_avg和V_max；

其次，将两个描述符输入多层感知机网络，分别生成两个通道注意力图M_avg、M_max；

然后，将两个通道注意力图M_avg、M_max进行逐像素求和，经过sigmoid函数，得到最终的通道注意力图M_c：

其中，

表示平均池化操作，

表示最大池化操作，MLP(·)表示多层感知机网络，σ表示sigmoid函数。

最后，将通道注意力图M_c与第一层特征F₁进行计算，得到特征F₁′：

其中，

表示将M_c扩展到与F₁相同维度，再与F₁逐点相乘；

2.2)语义子网采用预训练的用于分类任务的卷积神经网络AlexNet。和外观子网类似，同样将模板图像P_m和三种不同尺度待搜索图像P₁、P₂、P₃输入语义子网进行特征提取，得到模板图像和待搜索图像的高层语义特征

3.1)首先，将模板图像的高层语义特征

采用双线性插值与其低层外观特征

进行对齐，得到对齐后的高层语义特征，并以同样的方式将待搜索图像的高层语义特征

与其对应的低层外观特征

进行对齐，得到对齐后的高层语义特征；

3.2)然后，将对齐后的模板图像的高层语义特征与其低层外观特征采用通道叠加的方式进行特征融合，得到模板图像的融合特征图

并以同样的方式将对齐后的待搜索图像的高层语义特征与其低层外观特征进行特征融合，得到待搜索图像的融合特征图

融合特征图的获取：对于大小为w*h*c₁的特征图

和大小为w*h*c₂的特征图

通过通道叠加的特征融合后，得到大小为w*h*(c₁+c₂)的融合特征图

4.1)首先，采用互相关方式的相似性判别方法，依次计算模板图像的融合特征图

与三种不同尺度待搜索图像的融合特征图

的相似性，得到三种不同尺度下的得分图H₁、H₂、H₃；

相似性判别方法：对于图像Z和图像X，采用互相关方式的相似性判别方法，得到图像Z和图像X的得分图H为：

其中，g(·)表示距离度量方法，

表示图像的融合特征图。

4.2)然后，分别计算三个得分图H₁、H₂、H₃的峰值，选取具有最高峰值的得分图，作为模板图像在待搜索图像上的最终响应图。

5.1)首先，采用双线性插值方法将最终响应图恢复成原图大小，并在恢复原图大小的最终响应图中寻找最大响应值，该响应值的位置即为当前帧中跟踪目标的中心点位置；

本发明在计算机视觉领域有着广泛的应用，例如：行人重识别，人脸识别等。下面参照附图，对本发明进行详尽的描述。

1)在本发明的实施例中，根据给定的初始目标框信息，对待跟踪视频的第一帧图像进行裁剪，得到目标模板图像；

2)根据三种固定尺度对当前帧图像进行尺度变换，得到三幅不同尺度的当前帧图像，并以前一帧跟踪目标为中心，对三幅不同尺度的当前帧图像进行裁剪或者填充，分别得到三幅大小为255×255的待搜索图像，每幅待搜索图像具有不同尺度大小的跟踪目标；

3)将模板图像和待搜索图像一同输入参数共享的外观子网，分别获得模板图像的低层外观特征和待搜索图像的低层外观特征；

4)将模板图像和待搜索图像一同输入参数共享的语义子网，分别获得模板图像的高层语义特征和待搜索图像的高层语义特征；

5)将模板图像的高层语义特征采用双线性插值与其低层外观特征进行对齐，并以同样的方式对待搜索图像的高层语义特征与其低层外观特征进行对齐；

6)将对齐后的模板图像的高层语义特征与低层外观特征采用通道叠加的方式进行特征融合，得到模板图像的融合特征图；并以同样的方式得到待搜索图像的融合特征图；

7)将最终响应图恢复成原图大小，根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小，进而得到跟踪结果。

在NVIDIA GeForce GTX 1070Ti和Ubuntu14.04 64位操作系统下，采用Tensorflow深度学习框架和Pycharm编程工具实现该方法。

本发明提供了一种基于多重网络的单目标跟踪方法，适用于视频的单目标跟踪，鲁棒性好，速度快，跟踪结果较为准确。实验表明该方法能够有效地进行单目标跟踪。

Claims

1.一种基于多重网络的单目标跟踪方法，其特征在于，包括以下步骤：

步骤1)处理视频第一帧和当前帧得到模板图像和待搜索图像；

步骤2)将模板图像和待搜索图像一同输入外观子网和语义子网，分别提取低层外观特征和高层语义特征；

步骤3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图，同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图；

步骤4)对模板图像的融合特征图和待搜索图像的融合特征图，采用相似性判别方法得到模板图像在待搜索图像上的最终响应图；

步骤5)将最终响应图恢复成原图大小，根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小，进而得到跟踪结果。

2.如权利要求1中所述的处理视频第一帧和当前帧得到模板图像和待搜索图像，其特征在于，步骤1)具体步骤为：

1.1)获得模板图像：本方法中不存在对模板图像的在线更新，第一帧图像只需要进行一次处理即可；将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小，得到模板图像；

1.2)获得待搜索图像：本方法采用多尺度方法应对不同尺度下的目标跟踪；

首先采用预先设置的尺度变化系数σ＝1，并设置尺度基数s_b＝1.0375，得到三种固定尺度(s_b ^-σ,s_b ⁰,s_b ^σ)；根据三种固定尺度对当前帧图像进行尺度变换，得到三幅不同尺度的当前帧图像；并以前一帧跟踪目标为中心，对三幅不同尺度的当前帧图像进行裁剪或者填充，分别得到三幅大小为255×255的待搜索图像，每幅待搜索图像具有不同尺度大小的跟踪目标。

3.如权利要求1中所述的将模板图像和待搜索图像一同输入到外观子网和语义子网中，分别提取低层外观特征和高层语义特征，其特征在于，步骤2)具体步骤为：

2.1)外观子网包括一个卷积神经网络和一个注意力模块，卷积神经网络包括5个卷积层和2个池化层，其中2个池化层分别在第一个卷积层和第二个卷积层的后面，同时注意力模块加在第一个卷积层和对应池化层的中间；

2.2)语义子网采用预训练的用于分类任务的卷积神经网络AlexNet；和外观子网类似，同样将模板图像和待搜索图像输入语义子网，通过语义子网进行特征提取，分别获得模板图像和待搜索图像的高层语义特征；语义子网从整幅输入图像中提取与跟踪目标同类物体的高层语义特征，防止跟踪器出现类间漂移。

4.如权利要求1中所述的将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图，同时也将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图，其特征在于，步骤3)具体步骤为：

3.2)然后，将对齐后的模板图像的高层语义特征与其低层外观特征采用通道叠加的方式进行特征融合，得到模板图像的融合特征图；并以同样的方式将对齐后的待搜索图像的高层语义特征与其低层外观特征进行特征融合，得到待搜索图像的融合特征图；

5.如权利要求1中所述的对模板图像特征图和目标图像特征图采用相似性判别方法得到模板图像在目标图像上的最终响应图，其特征在于，步骤4)具体步骤为：

6.如权利要求1中所述的将最终响应图恢复成原图大小，根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小，进而得到跟踪结果，其特征在于，步骤5)具体步骤为：