CN109492530B

CN109492530B - 基于深度多尺度时空特征的健壮性视觉物体跟踪方法

Info

Publication number: CN109492530B
Application number: CN201811176417.8A
Authority: CN
Inventors: 朱征宇; 刘冰
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2022-03-04
Anticipated expiration: 2038-10-10
Also published as: CN109492530A

Abstract

本发明公开了一种基于深度多尺度时空特征的健壮性视觉物体跟踪算法，包括以下步骤：S1：构建改进的深度残差网络，用于表征目标物体的外观特征；S2：通过对残差单元参数的处理，得到目标物体的特征表示；S3：目标物体的多尺度特征和改进的深度残差网络相结合，用于健壮地识别目标物体的外观变化；S4：目标物体的时空上下文特征和改进的深度残差网络相结合，用于计算目标物体的运动轨迹；S5：核相关滤波器和改进的深度残差网络相结合，用于计算目标物体的位置。本发明提高了算法的运行速度及计算效率，健壮地识别目标物体的外观变化，从而跟踪计算目标物体的最新位置。

Description

基于深度多尺度时空特征的健壮性视觉物体跟踪方法

技术领域

本发明涉及计算机图像处理技术领域，特别涉及基于深度多尺度时空特征的健壮性视觉物体跟踪方法。

背景技术

物体跟踪是计算机视觉及其相关研究领域中的一个重要而具有挑战性的任务，同时也是各类机器视觉研究领域中一个开放性的研究问题，在自动监控、人机交互、车辆导航、生物医学、虚拟现实、机器人、安全监控、等领域有着广泛的应用。

物体跟踪是在一个视频场景中，从目标物体第一次在场景中出现，直到最终离开视频场景，一直对一个或一组物体进行检测、识别、定位及跟踪。跟踪的物体可以是视频场境中能够检测到的任意感兴趣的物体。给出一系列的视频帧的图像去跟踪一个或一组目标物体，每一帧就是一个连续视频序列中的一张子图像。目标物体在每一帧中的位置或者形状都可能会发生变化，因此，在自然场景的视频序列中，对目标物体进行持续跟踪是一个非常复杂的过程。

物体跟踪方法的目的就是在视频序列的初始帧的图像中指定目标物体的初始位置及状态等信息，并用一个目标框选定需要跟踪的目标物体，之后，在后续连续的视频序列中，通过各种视觉物体跟踪方法估计并计算目标物体的位置及状态等相关信息，自动确定目标物体的边框。

一般来说，在一个运动场景中，目标物体和其周围的背景都在不断地发生变化，进行稳定而精确地定位跟踪是很难实现的。精确而实时的物体跟踪将会显著提升物体识别、行为分析和高层事件理解等任务的性能。虽然在过去的几十年里，视觉物体跟踪已经受到研究人员的广泛关注，并在过去的几年里，取得了很大的进步，部分跟踪方法已经能够处理突然的外观变化、物体离开摄像机视野以及目标飘移等关键问题，但是，在复杂的视频场景中，能够获得健壮而可靠地跟踪结果，仍然是视觉物体跟踪研究领域中的一个极具挑战性的难题。物体跟踪方法的智能处理需要快速、可靠并健壮地对视频图像进行目标的检测、分类、跟踪以及相关的活动分析，研究人员主要致力于开发智能跟踪方法并实时地进行运动物体的跟踪定位。

不同的视觉物体跟踪方法，重点解决的问题也不同，因此所使用的策略也是不同的。起先，由于粒子滤波器(也称为蒙特卡罗序列方法)[A Tutorial on Particle Filtersfor On-line Nonlinear/Non-Gaussian Bayesian Tracking]在计算机视觉中取得了很大的成功，视觉物体跟踪在状态空间常常建模为一个贝叶斯推理问题。与规则的基于穷举搜索策略的方法相比，粒子滤波器的主要优点是：跟踪过程中，减少了样本块的数量。粒子滤波器的另一个优点是：样本可以保持一个常量不变，独立于跟踪目标物体的大小，并不是简单地用一个因子扩展目标周围的搜索区域。尽管粒子滤波器取得了很大的成功，但是粒子滤波器常常遇到由于次优的样本技术产生的样本贫乏问题。因此，接着，就有研究人员开始将各种更先进的蒙特卡洛采样方法应用于视觉物体跟踪中，这样可以显著提升视觉物体跟踪方法的性能。

除此之外，一些跟踪方法利用相关滤波器对目标物体和周围的背景进行区分。相关滤波器可以设计为在跟踪过程中在每个感兴趣物体产生相关峰值，而在背景区域展现出低响应。准确地对目标物体进行定位的性能使得相关滤波器非常适合用于目标跟踪任务。由于相关滤波器只需要快速傅立叶变换(FFT)和一些矩阵运算，因此相关滤波器的运算速度相对较快，这就使得相关滤波器非常适合于实时的应用。但是，降低模型的漂移同时获得高健壮性和尺度自适应的估计仍然是一个开放的问题。

发明内容

针对现有技术不能有效跟踪目标物体外观大小变化的问题，本发明提供一种基于深度多尺度时空特征的健壮性视觉物体跟踪方法，通过将目标物体的多尺度特征、时空上下文特征及核相关滤波器与改进的深度残差网络相结合，用于识别目标物体外观的变化，以跟踪定位目标物体的最新位置。

为了实现上述目的，本发明提供以下技术方案：

本发明提供一种基于深度多尺度时空特征的健壮性视觉物体跟踪方法，包括以下步骤：

S1：构建改进的深度残差网络，用于表征目标物体的外观特征；

S2：通过对残差单元参数的处理，得到目标物体的特征表示；

S3：目标物体的多尺度特征和改进的深度残差网络相结合，用于健壮地识别目标物体的外观变化；

S4：目标物体的时空上下文特征和改进的深度残差网络相结合，用于计算目标物体的运动轨迹；

S5：核相关滤波器和改进的深度残差网络相结合，用于计算目标物体的位置。

优选的，所述S1中，所述改进的深度残差网络包括：

卷积层conv1输出端连接第二个残差单元输入端，第二个残差单元输出端连接第三个残差单元输入端，第三个残差单元输出端连接第四个残差单元输入端，第二个残差单元、第三个残差单元及第四个残差单元的输出端分别连接卷积层conv2、conv3及conv4的输入端，卷积层conv4的输出端连接转置层的输入端，用于使残差单元输出的图像特征维度相同。

优选的，所述S1中，所述改进的深度残差网络还包括：

卷积层conv2及conv3的输出端连接第一跳跃连接的输入端，转置层及第一跳跃连接的输出端连接第二跳跃连接的输入端，第二跳跃连接的输出端输出图像特征，用于将残差单元的多尺度特征充分联合，以表征目标物体的外观特征。

优选的，所述S2中，残差单元参数处理函数表达式为：

公式(1)中，x_H、x_h、x_i分别表示第H个、第h个、第i个残差单元的输入，h≤i≤H，

表示非线性的残差函数，W_i表示第i个残差单元的权重矩阵。

优选的，所述S3中，计算目标物体多尺度特征的表达式为：

公式(2)中，

表示通道j的归一化特征图，x_j表示通道j的特征图，d表示每个特征图张量的通道数。

优选的，所述S4中，所述时空上下文特征包括时间上下文特征和空间上下文特征：

所述时间上下文特征，用于获得目标物体的时间信息，以便可靠地识别目标物体的运动轨迹；

所述空间上下文特征，用于提供与目标物体同时出现的背景信息，以计算目标物体的运动轨迹。

优选的，所述S5包括以下步骤：

S5-1：通过改进的深度残差网络生成目标物体的图像特征块；

S5-2：构建核相关滤波器；

S5-3：将图像特征块和核相关滤波器与改进的深度残差网络相结合，以计算目标物体的位置。

优选的，所述核相关滤波器的表达式为：

公式(3)中，P,Y,Q分别是p,y,q傅里叶变换形式，p表示图像特征块，y表示高斯函数，q表示核相关滤波器；

表示在第t帧的第j个通道上创建的核相关滤波器；

表示第t帧的响应输出；

表示第t帧第j个通道的图像特征块；

表示第t帧第c个通道的图像特征块，

表示

的复共轭，λ是正则化参数，

表示第t帧核相关滤波器的分子，B_t表示第t帧核相关滤波器的分母。

优选的，所述目标物体位置的计算公式为：

公式(4)中，y_t表示核相关滤波器的最大相关分值，argmax表示最大值的集合，

表示逆傅立叶运算，d表示每个特征图张量的通道数，j表示特征图的通道，

表示第t-1帧核相关滤波器的分子的复共轭，

表示第t帧第j通道的图像特征块，B_t-1表示第t-1帧核相关滤波器的分母，λ是正则化参数。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

1.本发明构建改进的深度残差网络，用于跟踪目标物体外观及位置变化，提高方法的计算速度。

2.本发明通过将目标物体的时空上下文特征及核相关滤波器与改进的深度残差网络相结合，以提高处理目标物体尺度变化的能力及健壮地解决自适应地估计目标物体大小变化的问题。

3.本发明提高了视觉物体跟踪过程的精确度和健壮性。

附图说明：

图1为根据本发明示例性实施例的一种视觉物体跟踪方法流程示意图。

图2为根据本发明示例性实施例的一种改进的深度残差网络结构图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

图1为本发明示例性实施例的一种基于深度多尺度时空特征的健壮性视觉物体跟踪方法，具体包括以下步骤：

S1:构建改进的深度残差网络，用于表征目标物体的外观特征。

本实施例中，本发明在经典的深度残差网络(DRN,Deep Residual Network)进行改进，用于表征目标物体的外观特征。

图2为本发明的一种改进的深度残差网络结构示例图。本发明在经典的深度残差网络上去除了第五个残差单元、平均池化层和全连接层，使用多个残差层的多尺度特征捕获目标物体外观特征。本发明在第二个残差单元(res2)、第三个残差单元(res3)、第四个残差单元(res4)的输出端分别增加了卷积层conv2、conv3、conv4，并在卷积层conv4的输出端增加转置层(ConvTranspose)，用于保证每个残差单元输出的图像特征维度相同；即图像image输入卷积层conv1，卷积层conv1输出端连接第二个残差单元输入端，第二个残差单元输出端连接第三个残差单元输入端，第三个残差单元输出端连接第四个残差单元输入端，第二个残差单元、第三个残差单元及第四个残差单元的输出端分别连接卷积层conv2、conv3及conv4的输入端，卷积层conv4的输出端连接转置层的输入端；本发明在卷积层conv2及conv3的输出端添加第一跳跃连接，并在转置层及第一跳跃连接的输出端添加第二跳跃连接，即卷积层conv2及conv3的输出端连接第一跳跃连接的输入端，转置层及第一跳跃连接的输出端连接第二跳跃连接的输入端，用于将残差单元的多尺度特征充分联合，则第二跳跃连接的输出端输出图像特征以表征目标物体的外观特征。

本发明中图像(image)的原始输入参数x的递归函数g_h(x)的表达式为以下公式：

g_h(x)≡W_h·f(B(W'_h·f(B(x)))) (1)

公式(1)中，W_h表示第h个残差单元的权重矩阵，W'_h表示是W_h的转置矩阵，f表示修整线性单元，B表示批正则化函数，·表示卷积运算。

本发明中每个残差单元之间输入参数和输出参数可等价定义为：

公式(2)中，x_h和

分别表示第h个残差单元的输入和输出，f表示修整线性单元，m(x_h)表示x_h的等价映射，

表示非线性的残差函数，W_h＝{W_h,e|_1≤e≤E}表示第h个残差单元的权重矩阵，e表示第h个残差单元的层数，E∈{2,3}表示残差单元的最大层数。

S2:通过对残差单元参数的处理，得到目标物体的特征表示。

本发明使用改进的深度残差网络中的残差单元的多尺度特征提取目标物体的特征进行融合处理，得到目标物体的特征，以表示目标物体的外观变化。

本实施例中，本发明所述修整线性单元f为等价映射，则不同残差单元之间输入参数的关系式为以下公式：

公式(3)中，x_H、x_h、x_i分别表示第H个、第h个、第i个残差单元的输入，h≤i≤H，

表示非线性的残差函数，W_i表示第i个残差单元的权重。

本发明根据链式规则产生的反向传播，获取损失函数

公式(4)中，x_H、x_h、x_i分别表示第H个、第h个、第i个残差单元的输入，h≤i≤H，

表示非线性的残差函数，W_i表示第i个残差单元的权重矩阵，

表示求偏导。

S3:目标物体的多尺度特征和改进的深度残差网络相结合。

本发明将改进的深度残差网络和目标物体的多尺度特征相结合，用于降低本发明的计算成本，提高方法的计算效率，以健壮地识别目标物体的外观变化。

本发明在改进的深度残差网络中输入目标物体的基础上，同时输入目标物体周围67个不同大小的多尺度模板(尺度步长为：1.05，尺度因子为：{1.05^-33，1.05^-32，1.05^-31，...,1.05³¹,1.05³²,1.05³³})，上述67个多尺度模板被聚集到一起，以便可以对目标物体外观的变化进行更加健壮的处理。

本发明将目标物体的特征图x输入改进后的深度残差网络，则定义对于每个通道j，输入特征图x的归一化特征图为

其尺度因子γ表示为：

公式(5)中，k_j表示通道j的缩放特征值，γ_j表示通道j的尺度因子，

表示通道j的归一化特征图。

本发明对每个特征图进行独立的正则化处理，用于精确地估计目标物体的多尺度特征，从而增强改进后的深度残差网络的识别能力：

公式(6)中，

S4:目标物体的时空上下文特征和改进的深度残差网络相结合。

一系列目标物体的静态图像连续变化(每秒超过24帧)的画面构成视频，因此目标物体的外观是逐渐发生变化的，即第一静态图像中目标物体的姿态、大小、空间、时间和形状等方面的特征将影响并约束第二静态图像中目标物体的外观变化。

本发明将目标物体的时空上下文特征与改进的深度残差网络相结合，用于获取目标物体动态的时间上下文特征和空间上下文特征，以精确地估计目标物体的运动轨迹。目标物体的的时间上下文特征在跟踪过程中获得目标物体的时间信息，以便可靠地识别目标物体的运动轨迹；目标物体的空间上下文特征可提供与目标物体同时出现的背景信息等附加线索，且背景信息在跟踪过程中是较为固定的，因此空间上下文特征用于精确地估计物体的运动轨迹。

本发明在第一静态图像中基于目标物体和其周围背景建立第一空间上下文特征模型，并进行不断的学习；本发明将学习完成的第一空间上下文特征模型用于在第二静态图像中更新，从而建立第二空间上下文特征模型。

公式(7)中，

分别表示第h个、第h+1个残差单元的空间上下文特征，

是第h个残差单元的时间上下文特征，

是在空间上下文特征中第h个残差单元的权重，f表示修整线性单元，

表示非线性的残差函数。

在反向传播中损失函数

的空间上下文特征的梯度是由链式规则产生的：

在反向传播中损失函数

的时间上下文特征的梯度是由链式规则产生的：

公式(9)中，

表示时间上下文特征的第h个残差单元梯度，

表示空间上下文特征的h个残差单元的累加梯度，

表示第h+1个残差单元的时间上下文特征，

表示求偏导。

本发明将目标物体的空间上下文特征和时间上下文特征之间的融合可以将梯度从空间上下文特征反向传播到时间上下文特征。

S5:核相关滤波器和改进的深度残差网络相结合。

本发明将核相关滤波器和改进的深度残差网络相结合,用于提高跟踪方法的计算性能，以跟踪目标物体的最新位置。

S5-1：通过改进的深度残差网络生成目标物体的图像特征块。

本实施例中，本发明将目标物体的参数输入改进的深度残差网络，从而生成目标物体相对应的图像特征块p：p∈R^M×N，R表示图像特征块的二维空间向量矩阵，M和N分别表示图像特征块的宽度和高度。

本发明中图像特征块p的每个循环位移v的大小是相同的，循环位移的内积为p*δ_u，δ_u是平移狄拉克函数，且内积要尽可能地接近高斯函数y。

S5-2：构建核相关滤波器。

本发明需构建核相关滤波器q＝{q¹,q²,...q^d},d表示每个特征图张量的通道数。每个通道都需在图像特征块p上进行训练，以便得到每个通道的最优滤波器。每个训练样本都有一个高斯函数y进行标识,表示最大相关值在目标物体中心位置处的期望卷积输出。

高斯函数的表达式为以下公式：

公式(10)中，m和M表示图像特征块的宽度，n和N表示图像特征块的高度，(m,n)∈{0,1,...,M-1}×{0,1,…,N-1}，σ是卷积核的带宽。

本发明采用的核相关滤波器的基本公式为：

公式(11)中，

表示图像特征块的域，M和N分别表示图像特征块的宽度和高度；u表示图像特征块的域；p*δ_u表示循环位移的内积，*表示以一种传统的方式通过计算内积将循环相关推广到多通道信号；q表示核相关滤波器；y表示高斯函数；★表示循环互相关。

本发明通过对核相关滤波器进行训练，求解最小化值，得到有效的核相关滤波器。

公式(12)中，ε表示最小化值，argmin_q表示有效核相关滤波器q的集合，m和n分别表示图像特征块的宽度和高度，d表示每个特征图张量的通道数，q^j表示第j通道上的滤波器，p^j表示第j通道的图像特征块，y表示高斯函数，★表示循环互相关，λ是正则化参数。

本发明通过在傅里叶域中求取最小值ε以创建有效的快速跟踪滤波器，用于跟踪目标物体的运动轨迹。

公式(13)中，P,Y,Q分别是p,y,q傅里叶变换形式；

表示在第t帧的第j个通道上创建的核相关滤波器；

表示第t帧的响应输出；

表示第t帧第j个通道的图像特征块；c和d表示每个特征图张量的通道数且c≤d，c和d均为正整数；

表示第t帧第c个通道的图像特征块，

表示

的复共轭，λ是正则化参数，

S5-3：将图像特征块和核相关滤波器相结合与改进的深度残差网络，以计算目标物体的位置。

本发明将图像特征块和核相关滤波器相结合，用于预测目标物体的位置。

本发明在目标物体跟踪方法过程中，在目标物体第一帧中提取一个与图像特征块p相同大小的新图像特征块z，从而在傅立叶域中计算滤波器的最大相关分值y_t，用于定位目标物体的最新位置。

公式(14)中，argmax表示最大值的集合，

表示第t-1帧核相关滤波器的分子的复共轭，

其中，

公式(15)中，

Y_t分别是

y_t的傅立叶变换形式，

分别表示第t帧、第t-1帧核相关滤波器的分子，

表示Y_t复共轭，

表示第t帧第j个通道的图像特征块，η＝0.01表示学习率。

公式(16)中，P是p的傅里叶变换形式，B_t表示第t帧核相关滤波器的分母，c和d表示每个特征图张量的通道数且c≤d，c和d均为正整数，

表示第t帧第c个通道的图像特征块，

表示

的复共轭，η＝0.01表示学习率。

本实施例中，目标物体在第t帧的状态可表示为s_t＝(β_t,α_t)，β_t表示目标物体第t帧的位置，α_t表示目标物体第t帧的尺度，则目标物体从第一帧到第t帧的状态集合为s_1:t＝{s₁,...,s_t}。目标物体的初始位置β₁在第一帧给定，本发明的目标是根据目标物体第t帧的位置β_t估计第t+1帧的位置β_t+1，即本发明通过在第t帧中计算的目标位置为中心提取一个目标物体窗口，来获得第t+1帧中的目标物体的特征表示，该区域中目标物体的大小是127×127像素。

表1.基于深度多尺度时空特征的健壮性视觉物体跟踪方法

Claims

1.基于深度多尺度时空特征的健壮性视觉物体跟踪方法，其特征在于，包括以下步骤：

卷积层conv1输出端连接第二个残差单元输入端，第二个残差单元输出端连接第三个残差单元输入端，第三个残差单元输出端连接第四个残差单元输入端，第二个残差单元、第三个残差单元及第四个残差单元的输出端分别连接卷积层conv2、conv3及conv4的输入端，卷积层conv4的输出端连接转置层的输入端，用于使残差单元输出的图像特征维度相同；

卷积层conv2及conv3的输出端连接第一跳跃连接的输入端，转置层及第一跳跃连接的输出端连接第二跳跃连接的输入端，第二跳跃连接的输出端输出图像特征，用于将残差单元的多尺度特征充分联合，以表征目标物体的外观特征；

2.如权利要求1所述的基于深度多尺度时空特征的健壮性视觉物体跟踪方法，其特征在于，所述S2中，残差单元参数处理函数表达式为：