CN111489361A

CN111489361A - 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法

Info

Publication number: CN111489361A
Application number: CN202010234797.7A
Authority: CN
Inventors: 余腊生; 赵永鹏; 郑晓鹏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-08-04
Anticipated expiration: 2040-03-30
Also published as: CN111489361B

Abstract

本发明提供了一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，包括：步骤1，构建一个步幅为8的ResNet22深度孪生神经网络，使用所述ResNet22深度孪生神经网络进行特征提取；步骤2，将目标图像和搜索图像输入到所述ResNet22深度孪生神经网络，目标图像和搜索图像经过所述ResNet22深度孪生神经网络分别生成对应的特征图；步骤3，将所述ResNet22深度孪生神经网络的不同的深层特征图聚合起来，提取多分支特征来协同推断目标对象的位置，为目标对象提供更全面的描述，以实现更加高效的跟踪。本发明能提取到目标物体的高级语义信息，能够保证特征映射的平移等价性，采用分层聚合的方式，提取多分支特征来协同推断目标定位。

Description

基于孪生网络的深层特征聚合的实时视觉目标跟踪方法

技术领域

本发明涉及人工智能、图像处理技术领域，特别涉及一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法。

背景技术

人类对周围信息的感知最低有80％是通过视觉获取的，可以说视觉是人类感知外部世界最重要的途径。因此，图片、视频等图像应用也成为了这个信息时代最重要的信息载体。如今异常火爆的图片应用、视频网站和短视频应用正说明了人民群众对图像应用的热情，这些应用社区每天会产生海量的图像资料，对这些图像资料的处理分析理解蕴含着巨大的价值，计算机视觉技术因此诞生。视觉目标跟踪作为计算机视觉技术中非常重要的一环，是许多高级计算机视觉任务的基础，在现代社会有着极为广泛的应用。

视觉目标跟踪的其主要目的是在一个视频序列中对某个指定目标物体(如在第一帧中框出这个物体)的位置进行预测，自动获得目标物体在整个视频序列中的位置信息，从而为场景识别、动作识别等更高级的计算机视觉任务提供重要的研究基础。目标跟踪方法发展至今已经有20多年的研究历史，为达到更好的跟踪精度、速度及鲁棒性，研究学者们做了许多的尝试。这些跟踪方法要么用相关滤波，如TLD、Struck、KCF等，只能在线学习(用当前视频中的数据)，严重限制了学习模型的丰富程度；要么用深度学习，并用随机梯度下降方法对网络进行微调，虽然能达到非常好的效果，但会大大降低跟踪速度，做不到实时跟踪。为了解决这些传统目标跟踪方法无法在精度和速度之间达到平衡的问题，Bertinetto基于孪生网络提出了一种新的全卷积孪生网络(Fully-Convolutional SiameseNetworks，SiamFC)作为基本的跟踪方法，这个网络可以在目标跟踪视频数据集上离线进行端到端的训练。而且SiamFC结构非常简单，也不需要在线更新，所以在速度上超过了实时跟踪要求，而且在多个评测数据集上达到了较高的性能。

发明内容

本发明提供了一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其目的是为了解决SiamFC跟踪方法在强烈的光照变化、背景有类似物、目标发生快速移动和目标被遮挡等复杂环境下，会出现跟踪漂移甚至跟踪失败的问题。

为了达到上述目的，本发明的实施例提供了一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，包括：

步骤1，构建一个步幅为8的ResNet22深度孪生神经网络，使用所述ResNet22深度孪生神经网络进行特征提取；

步骤2，将目标图像和搜索图像输入到所述ResNet22深度孪生神经网络，目标图像和搜索图像经过所述ResNet22深度孪生神经网络分别生成对应的特征图；

步骤3，将所述ResNet22深度孪生神经网络的不同的深层特征图聚合起来，提取多分支特征来协同推断目标对象的位置，为目标对象提供更全面的描述，以实现更加高效的跟踪；

步骤4，将目标图像的特征图作为卷积核和搜索图像的特征图进行卷积运算生成响应图；

步骤5，响应图中值最大的点在搜索图像中对应的窗口即为预测的目标所在位置，通过双立方插值，将响应图变换成原始图像的大小，从而求得目标在搜索图像的位置。

其中，所述步骤1具体包括：

第一阶段使用步幅为2的7×7卷积层和最大池化层实现下采样，使得所述ResNet22深度孪生神经网络的总步幅达到4。

其中，所述步骤1还包括：

第二阶段设置有三个无填充残差单元，三个所述无填充残差单元的步幅都为1，所述ResNet22深度孪生神经网络的总步幅为4。

其中，所述步骤1还包括：

第三阶段设置有无填充下采样残差单元和三个所述无填充残差单元，所述无填充下采样残差单元的步幅为2，使得所述ResNet22深度孪生神经网络的总步幅为8，三个所述无填充残差单元保持所述ResNet22深度孪生神经网络的总步幅为8。

其中，所述步骤3具体包括：

从所述ResNet22深度孪生神经网络的conv1层、conv2_3层和conv3_4层三个分支中提取的多级特征，用于多尺度特征图聚合。

其中，所述步骤4具体包括：

conv1层，使用步幅为4的卷积，生成响应图F₁(x)，conv2_3层，使用步幅为2的卷积，生成响应图F₂(x)，conv3_4层，使用步幅为1的卷积，生成响应图F₃(x)，所有响应图的大小相同，最终的输出结果F(x)由conv1层、conv2_3层和conv3_4层的响应图加权求和得到：

F(x)＝w₁F₁(x)+w₂F₂(x)+w₃F₃(x)。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，消除了在孪生网络中卷积神经网络特征填充带来的位置偏好，能提取到目标物体的高级语义信息，能够保证特征映射的平移等价性，使用ResNet22深度孪生神经网络进行特征提取可以大大提升孪生网络跟踪方法的跟踪性能，聚合不同的深层特征图，构成目标物体的超特征表示，进一步提升了跟踪方法的鲁棒性。

附图说明

图1为本发明的架构图；

图2为本发明的无填充残差单元的示意图；

图3为本发明的无填充下采样残差单元的示意图；

图4为本发明的跟踪过程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的SiamFC跟踪方法在强烈的光照变化、背景有类似物、目标发生快速移动和目标被遮挡等复杂环境下，会出现跟踪漂移甚至跟踪失败的问题，提供了一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法。

如图1至图4所示，本发明的实施例提供了一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，包括：步骤1，构建一个步幅为8的ResNet22深度孪生神经网络，使用所述ResNet22深度孪生神经网络进行特征提取；步骤2，将目标图像和搜索图像输入到所述ResNet22深度孪生神经网络，目标图像和搜索图像经过所述ResNet22深度孪生神经网络分别生成对应的特征图；步骤3，将所述ResNet22深度孪生神经网络的不同的深层特征图聚合起来，提取多分支特征来协同推断目标对象的位置，为目标对象提供更全面的描述，以实现更加高效的跟踪；步骤4，将目标图像的特征图作为卷积核和搜索图像的特征图进行卷积运算生成响应图；步骤5，响应图中值最大的点在搜索图像中对应的窗口即为预测的目标所在位置，通过双立方插值，将响应图变换成原始图像的大小，从而求得目标在搜索图像的位置。

本发明的上述实施例所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，将目标图像和搜索图像输入所述ResNet22深度孪生神经网络，目标图像和搜索图像经过所述ResNet22深度孪生神经网络分别生成对应的特征图，目标图像的特征图大小为6×6×256，搜索图像的特征图大小为22×22×256，完成特征提取工作，其中目标图像生成的特征图在整个跟踪过程中只计算一遍，之后保持不变，将目标图像的特征图作为卷积核和搜索图像的特征图进行卷积运算生成响应图，响应图大小为17×17×1，响应图中值最大的点在搜索图像中对应的窗口即为预测的目标所在位置，由于池化层不断缩小尺寸，扩大感受野，导致无法获取目标的精细位置，因此，需要通过双立方插值，将响应图变换成目标图像的大小，从而求得目标在搜索图像的位置。由于视觉目标跟踪需要从低到高、从小到大、从细到粗的分辨率的丰富表示，即使在卷积神经网络的最后卷积层中提取有深度的特征，孤立的一层是不够的，合并和聚集这些丰富的表示可以提高识别的正确率和定位的精确度，所述ResNet22深度孪生神经网络的早期层次的特征主要集中在颜色、形状和纹理等低级信息上，是定位的必要条件，对复杂背景的干扰非常鲁棒，但缺乏语义信息，而来自后一层的特征具有更丰富的语义信息，这在一些极具挑战性的场景中是非常有用的，例如运动模糊、变形等，使用这些丰富的分层信息有助于跟踪，所述ResNet22深度孪生神经网络的不同的深层特征图从不同角度表征了目标物体，所述ResNet22深度孪生神经网络中不同的深层特征图的感受野变化很大，为了充分利用这些特征，聚合所述ResNet22深度孪生神经网络的不同的深层特征图，构成目标物体的超特征表示，进一步提升了所述基于孪生网络的深层特征聚合的实时视觉目标跟踪方法的鲁棒性。

其中，所述步骤1具体包括：第一阶段使用步幅为2的7×7卷积层和最大池化层实现下采样，使得所述ResNet22深度孪生神经网络的总步幅达到4。

其中，所述步骤1还包括：第二阶段设置有三个无填充残差单元，三个所述无填充残差单元的步幅都为1，所述ResNet22深度孪生神经网络的总步幅为4。

本发明的上述实施例所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，所述无填充残差单元由3个堆叠的卷积层和一个绕过他们的捷径连接组成，三个卷积层分别为1×1卷积层、3×3卷积层和1×1卷积层，1×1卷积层的作用是缩小和恢复输入的特征通道数，1×1卷积层不改变输入的特征分辨率，两个1×1卷积层的网络填充都为0，3×3卷积层使用大小为0的网络填充，为保证捷径连接和输出拥有相同的分辨率，对捷径连接进行裁剪处理，裁剪后的捷径连接与卷积层输出的特征分辨率和通道数都一致，直接相加形成整个所述无填充残差单元的输出，巧妙地消除了网络填充的影响。

其中，所述步骤1还包括：第三阶段设置有无填充下采样残差单元和三个所述无填充残差单元，所述无填充下采样残差单元的步幅为2，使得所述ResNet22深度孪生神经网络的总步幅为8，三个所述无填充残差单元保持所述ResNet22深度孪生神经网络的总步幅为8。

本发明的上述实施例所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，建立所述ResNet22深度孪生神经网络，表1展示了所述ResNet22深度孪生神经网络的详细结构，首先，选择以步幅为8构建一个所述ResNet22深度孪生神经网络，由22个加权卷积层组成，所述ResNet22深度孪生神经网络分为三个阶段，在第一个阶段，使用步幅为2的7×7卷积层和最大池化层实现下采样，使得所述ResNet22深度孪生神经网络总步幅达到4，第二个阶段包含3个所述无填充残差单元，每个所述无填充残差单元的步幅都为1，所以至此所述ResNet22深度孪生神经网络的总步幅依然为4，而在第三阶段，第一个单元为所述无填充下采样残差单元，所述无填充下采样残差单元的步幅为2，使得所述ResNet22深度孪生神经网络总步幅来到了8，当对特征图进行下采样时，特征图的通道数将增加一倍，以提高特征可分辨性，所述无填充下采样残差单元之后紧接3个所述无填充残差单元，保持网络总步幅为8，目标图像输出特征图的大小是6×6，每个特征图像素点从输入图像平面上的93×93像素大小的区域接收信号，所以输出特征图上神经元的感受野大小为目标图像大小的73％。

表1 ResNet22深度孪生神经网络架构

所述ResNet22深度孪生神经网络不仅能提取到目标物体的高级语义信息，而且能够保证特征映射的平移等价性，使用所述ResNet22深度孪生神经网络进行特征提取可以大大提升孪生网络跟踪方法的跟踪性能，所述无填充下采样残差单元的作用是缩小特征图的尺寸为输入的二分之一，同时使特征通道的数量增加一倍，3×3卷积层的步幅为1，网络填充为0，捷径连接卷积层的步幅为1，并进行裁剪处理，处理之后的快捷连接与卷积层输出的特征分辨率和通道数都一致，直接将它们相加，为了实现下采样，添加一个步幅为2的最大池化层到所述无填充下采样残差单元的输出，保持输出的尺寸为输入的二分之一。所述无填充残差单元和所述无填充下采样残差单元保持输出的尺寸不变，且输入的每一个像素都参与了特征运算，在没有特征填充的情况下，没有丢失任何一个像素的信息，保证了特征映射的不变性。

其中，所述步骤3具体包括：从所述ResNet22深度孪生神经网络的conv1层、conv2_3层和conv3_4层三个分支中提取的多级特征，用于多尺度特征图聚合。

本发明的上述实施例所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，利用conv1层、conv2_3层和conv3_4层三个分支中提取的多级特征，用于多尺度特征图聚合，对于所有选择的卷积层，目标图像生成的特征图都会被当作卷积核，并与搜索图像生成的特征图做卷积运算生成响应图，不同的卷积层使用不同的卷积步幅。

其中，所述步骤4具体包括：conv1层，使用步幅为4的卷积，生成响应图F₁(x)，conv2_3层，使用步幅为2的卷积，生成响应图F₂(x)，conv3_4层，使用步幅为1的卷积，生成响应图F₃(x)，所有响应图的大小相同，最终的输出结果F(x)由conv1层、conv2_3层和conv3_4层的响应图加权求和得到：

F(x)＝w₁F₁(x)+w₂F₂(x)+w₃F₃(x)。

本发明的上述实施例所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，使用logistic loss进行训练，对于响应图中的每一个点u，其损失函数为：

l(y,u)＝log(1e^-yu)

其中，y表示样本真实标签，它只有两个取值，相应位置是目标时，取+1，表示正样本，相应位置是非目标时，取-1，表示负样本，u是所述ResNet22深度孪生神经网络的预测值，通过损失函数和不断的后向传播更新网络参数，使得y和u越来越接近，而所述ResNet22深度孪生神经网络正负样本的确定，在输入搜索图像上，只要和目标的距离不超过R，那就算正样本，否则就是负样本，用公式表示如下：

其中，k为网络的总步长，c为目标的中心，u为响应图中最大值所在的位置，R为定义的半径。y[u]是用来计算得分图中每个点的损失值，而对于得分图整体的损失，则采用的是全部点的损失的均值，具体的损失函数形式如下：

其中，u∈D代表得分图中某个点的位置。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其特征在于，所述步骤1具体包括：

3.根据权利要求2所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其特征在于，所述步骤1还包括：

4.根据权利要求3所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其特征在于，所述步骤1还包括：

5.根据权利要求4所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其特征在于，所述步骤3具体包括：

6.根据权利要求5所述的基于孪生网络的深层特征聚合的实时视觉目标跟踪方法，其特征在于，所述步骤4具体包括：

F(x)＝w₁F₁(x)+w₂F₂(x)+w₃F₃(x)。