CN108182447B

CN108182447B - 一种基于深度学习的自适应粒子滤波目标跟踪方法

Info

Publication number: CN108182447B
Application number: CN201711337098.XA
Authority: CN
Inventors: 钱小燕; 韩磊; 王跃东; 张艳琳; 张代浩
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2020-04-21
Anticipated expiration: 2037-12-14
Also published as: CN108182447A

Abstract

本发明公开了一种基于深度学习的自适应粒子滤波目标跟踪方法，包括如下步骤：(1)建立浅层深度学习网络模型，采用SGD算法离线训练该模型；(2)将训练好的网络应用于粒子滤波跟踪框架，对于每一个粒子，采用深度特征和颜色表观特征求解观测模型；根据一阶二阶运动信息求解状态转移模型；(3)根据观测模型，计算每个粒子的权值参数，通过加权平均确定当前目标位置；(4)计算目标当前状态，判定状态变化程度，实时更新观测模型。本发明提供一种基于深度学习的自适应粒子滤波目标跟踪方法，能够解决现有目标跟踪中快速运动、背景复杂等问题，从而实现连续鲁棒的跟踪。

Description

一种基于深度学习的自适应粒子滤波目标跟踪方法

技术领域

本发明涉及粒子滤波目标跟踪技术领域，尤其是一种基于深度学习的自适应粒子滤波目标跟踪方法。

背景技术

视频目标跟踪已经成为计算机视觉领域的一个前沿研究热点。其主要任务就是获取视频序列中感兴趣的目标的位置和运动信息，为进一步的语义层分析提供基础。视频目标跟踪研究在智能视频监控、人机交互、医学诊断等领域有广泛应用，具有很强的实用价值。

跟踪算法可分为判别型和生成型。判别型方法将跟踪问题建模为一个二元分类问题，用以区分目标和背景。生成型方法通过建立目标表示模型，通过最小重构误差搜索图像区域。这两类方法大多直接使用视频序列中的像素值进行建模，需要根据不同视频序列设计特征提取方法，当跟踪过程中出现严重遮挡、快速运动、复杂背景等较大挑战时，往往无法实现持续稳定的跟踪。而近年来开始广泛应用于计算机视觉领域的深度学习方法有利于处理这些问题。Fan等人选择卷积神经网络进行视觉跟踪，利用大量的辅助图像训练网络；Li等人以及Hong等人以在线的方式对跟踪过程中产生的样本进行训练。由于卷积神经网络规模较大，需要多级池化和卷积来降低参数的数目，获得良好的图像深层视觉特征的学习能力，因此往往需要大量训练样本才能生成权值稳定的深度学习网络。跟踪过程中产生的有限正负样本不能很好地满足这一要求；另外，多级池化作用削弱了目标位置信息，不利于实现精确跟踪。

发明内容

本发明所要解决的技术问题在于，提供一种基于深度学习的自适应粒子滤波目标跟踪方法，能够解决现有目标跟踪中快速运动、背景复杂等问题，从而实现连续鲁棒的跟踪。

为解决上述技术问题，本发明提供一种基于深度学习的自适应粒子滤波目标跟踪方法，包括如下步骤：

(1)建立浅层深度学习网络模型，采用SGD算法离线训练该模型；

(2)将训练好的网络应用于粒子滤波跟踪框架，对于每一个粒子，采用深度特征和颜色表观特征求解观测模型；根据一阶二阶运动信息求解状态转移模型；

(3)根据观测模型，计算每个粒子的权值参数，通过加权平均确定当前目标位置；

(4)计算目标当前状态，判定状态变化程度，实时更新观测模型。

优选的，步骤(1)中，建立浅层深度学习网络模型，采用SGD算法离线训练该模型具体为：采用两个5ⅹ5的卷积核f₁，f₂通过sigmoid函数提取深层语义特征：

其中，Conv_x代表卷积层Conv1和Conv2；b₁、b₂为偏置，S₁、S₂分别代表输入样本Input和第一层池化输出。Subsampling1、Subsampling2为池化层：通过邻域像素特征的加权平均获得当前池化层各像素特征值，从而降低特征维数，减少数据量，

其中sum＝a1p(i,j)+a2p(i,j+1)+a3p(i+1,j)+a4p(i+1,j+1)，p′(i,j)表示当前池化层的像素值，a1,a2,a3,a4为加权系数；FC为全连接层，将Subsampling2输出特征值连接成1ⅹ60的特征向量；SVM分类器在离线训练时识别前景Foreground和背景Background。

优选的，步骤(2)中，对于每个粒子，观测模型为c＝[c₁ c₂]，c₁∈R^1×60为深度特征向量，由预训练的深度学习网络产生；c₂＝[h₁,h₂,…,h_L]∈R^1×L为HSV颜色空间生成的表观颜色直方图特征,其中，L为颜色直方图的量化级数，h_i,i＝1,…,L为各级的特征值；状态转移模型为S_t＝S_t-1+f_t-1，S_t,S_t-1分别代表粒子当前帧和前一相邻帧的状态；f_t-1为粒子状态转移变量。粒子在当前帧的状态估计由一阶和二阶运动信息同时确定，运动速度指导粒子的运动方向和位置，加速度信息描绘了粒子的聚集程度，目标运动越快，粒子散布范围越广泛，运动越慢，粒子越集中。因此，f_t-1可由多元高斯随机变量定义为

其中，均值μ_t-1由连续三帧的目标运动速度计算获得：μ_t-1＝(V_t-1+V_t-2+V_t-3)/3，方差定义为加速度：σ_t-1＝V_t-1-V_t-2，其中，V_t-1，V_t-2和V_t-3分别表示当前帧前连续三帧中目标的运动速度。

优选的，步骤(3)中，根据观测模型，计算每个粒子的权值参数，通过加权平均确定当前目标位置具体为：当前帧目标位置可以通过各粒子状态的加权平均进行最优状态估计

其中，

代表粒子在当前帧中的状态，粒子权值

由其观测值与位置状态共同决定，与目标模板观测值越相近的粒子作用越大，与目标模板距离越远的粒子作用越小；各粒子权值定义为，

其中，D(i)为目标模板与粒子观测值的Bhattacharyya距离：

为各粒子与模板最相近粒子的欧式距离：

优选的，步骤(4)中，采用lazy方式更新观测模型，计算更新阈值T，由当前帧前10帧的后验概率p_i的平均值计算得到：

计算跟踪结果与目标模板之间的Bhattacharyya距离即权值，并由此得到跟踪结果的后验概率；若此后验概率大于阈值T，则进行模型更新；否则，保留原有目标模板；新的目标模板由上一帧的目标模板C_old与当前帧的目标模板加权求和得到

其中，α为更新权值，控制贡献程度，

由N个粒子中的权值较大的n个粒子的平均观测值得到，

c_k为n个粒子的观测值。

本发明的有益效果为：(1)引入深度学习方法，充分利用其对目标高级特征的提取能力，有效增强了目标特征的描述能力，从而很好地解决了目标跟踪中的遮挡、形变、快速运动等问题；(2)设计的浅层学习网络，相较于广泛应用于目标识别领域的深度学习网络，能够更好地保持目标的空间信息，便于更好地实现目标定位跟踪；(3)结合深度特征和表观特征，并将一阶二阶运动信息引入到粒子状态转移模型中，从而增强了目标的表达能力，提高了粒子繁殖的自适应性，有效降低了粒子数，提高了粒子跟踪的效率；(4)通过更新阈值和加权参数控制更新程度，不仅保留了原有模板的描述特征，而且能够根据目标变化，及时修正模板信息，提高了跟踪的鲁棒性。

附图说明

图1为本发明的方法流程示意图。

图2为本发明设计的浅层深度学习网络示意图。

图3为本发明深度学习网络的卷积层的原理示意图。

图4为本发明深度学习网络的池化层卷积核示意图。

图5为本发明颜色种类相同分布不同的示意图。

图6为本发明位置矢量示意图。

具体实施方式

如图1所示，一种基于深度学习的自适应粒子滤波目标跟踪方法，包括如下步骤：

本发明提供一种基于深度学习的自适应粒子滤波目标跟踪方法，其设计原理为：构建浅层深度学习网络，采用SGD方法离线训练稳定的网络模型；然后将其应用于粒子滤波跟踪框架；将深度学习网络的输出特征和颜色直方图特征融合作为粒子观测模型；再将一阶二阶运动信息引入粒子动态转移方程估计粒子状态；根据粒子状态和观测模型对目标位置进行最优估计；最后根据目标状态变化程度采用阈值法更新目标模板。

本实施例中基于深度学习的自适应粒子滤波跟踪的详细步骤如下：

步骤一、构建浅层深度学习网络，离线训练稳定的网络模型

(1.1)本发明的浅层深度学习网络包含两个卷积层、两个下采样池化层、一个全连接层，在离线训练网络时包含一个SVM层用以区分前景和背景，网络模型如图2所示。该网络可描述成：input(32ⅹ16)→convolution1(6ⅹ28ⅹ12)→pooling1(6ⅹ14ⅹ6)→convolution 2(12ⅹ10ⅹ2)→pooling 2(12ⅹ5ⅹ1)→FC(1ⅹ60)。输入样本被预先处理成大小为32×16的图像，两个卷积层分别由6个权值共享的5×5的卷积核卷积生成；下采样池化层通过2×2的卷积核降低特征维数；全连接层将来自下采样层的输出生成为1×60的特征向量。

本发明中的浅层深度学习网络中的两层卷积层由Sigmoid函数作为激活函数生成，原理如图3所示，各层卷积图表示成：

其中，S₁是规则化的输入图像，S₂表示由第一层池化后生成的特征图；f₁和f₂为5ⅹ5的卷积核，帮助生成卷积层conv1、conv2的特征图Conv₁,onv₂；b_x为偏置值。

池化操作通过加权平均实现，池化核如图4所示，a1,a2,a3,a4为四个加权值。每次池化后的像素新值p′(i,j)为：

sum＝a1p(i,j)+a2p(i,j+1)+a3p(i+1,j)+a4p(i+1,j+1)(3)

这里p(i,j),p(i,j+1),p(i+1,j),p(i+1,j+1)代表卷积特征图中的四个邻域像素值。通过简单的卷积和池化操作不仅可以提取当前帧中有用的深度信息，而且降低了数据量，从而能够提高跟踪效率。

(1.2)离线训练。本设计网络通过视觉跟踪benchmark提供的大量正负样本进行离线训练。该benchmark通过数据增强、放大的方法生成了大量复杂环境下的样本，诸如光照变化、尺度变化、遮挡、快速运动等。在全连接层之后，SVM分类器帮助区分正负样本。为了获得稳定优化的权值参数，本发明采用统计梯度下降法(Stochastic Gradient Decent,SGD)经多次迭代离线训练网络模型。

步骤二、求解粒子的观测模型和状态转移模型

(2.1)首先初始化目标模板

(2.1.1)在线跟踪时，去除网络模型中的SVM层，将全连接层的输出特征向量作为粒子滤波跟踪器的输入。

(2.1.2)手动提取初始目标，通过训练好的网络模型提取深度特征，并计算目标区域的颜色直方图，将这两种特征连接成目标模板。这样不仅能够充分利用深度学习的表达能力，而且结合了像素级表观特征对目标的识别优势。

(2.1.3)假定目标的深度特征表示为c₁∈R^1×60，颜色直方图为c₂＝[h₁,h₂,…,h_L]∈R^1×L(L为颜色直方图的量化级数)，则目标模板c＝[c₁ c₂]。本发明选择对光照变化鲁棒性较强的HSV颜色空间进行非均匀量化统计计算颜色直方图：

(2.1.3.1)首先将色调空间H划分成46个区间,饱和度S划分成4个区间,亮度V划分成4个区间，具体如下：

(2.1.3.2)然后按照以上量化方式，初始目标区域内各像素的量化级数值为：

L(i,j)＝H(i,j)Q_s+S(i,j)Q_v+V(i,j)+1 (5)

其中，(i,j)为像素位置，Q_s和Q_v分别为S、V空间的量化级数：Q_s＝Q_v＝4；总的量化级数L＝45×4+3×4+3+1＝196。

(2.1.3.3)最后计算颜色直方图中各特征元素h_t(t＝1,2,…,L)：

其中M×N目标区域中元素总个数.δ为Kronecker delta函数，用于判断目标区域内像素是否属于颜色直方图的第h个量化级；k_ij为在(i,j)处的像素的位置系数，h为特征向量中某一量化值。

为了避免误匹配颜色分布位置有差异但颜色统计值相同的不同目标(如图5所示)，本发明在颜色直方图中引入位置矢量信息，如图6所示，从而将颜色空间分布信息融入到颜色直方图的计算中，位置系数定义为：

k_ij＝1-(D^ij/D_r)² (6)

其中，D_ij为像素距中心位置的距离，D_r为图像的截距。

(2.2)然后，建立粒子观测模型和状态转移模型，包括如下步骤：

(2.2.1)初始化粒子群：在第一帧目标区域的中心位置按高斯分布随机撒播N个粒子，各粒子状态向量定义为：X＝[s x y c],其中，x和y表示粒子中心位置，s为一个长方形矩阵代表粒子形状，c＝[c₁ c₂]为粒子的观测模型，将粒子作为深度网络的输入，生成粒子的深度特征c₁，计算粒子的颜色直方图作为表观特征c₂，将这两类特征融合成1-D特征向量形成粒子观测模型。每个粒子权值初始化为

(n＝1,…,N)，表征该粒子的特征向量与目标模板的相似度。

(2.2.2)建立粒子状态转移模型：跟踪从第二帧开始，每帧由状态转移模型产生下一帧中的粒子，转移方程如式(7)所示：

S_t＝S_t-1+f_t-1 (7)

S_t、S_t-1分别表示粒子在当前帧和前一帧中的状态，f_t-1为高斯随机变量：

其中，cen为粒子在前一帧的位置，μ_t-1、σ_t-1为高斯分布的均值和方差，由前几帧的平均速度和加速度决定：

μ_t-1＝(V_t-1+V_t-2+V_t-3)/3 (9)

σ_t-1＝V_t-1-V_t-2 (10)

本发明中的状态转移方程引入二阶运动信息使得粒子分布具有更强的自适应性：一阶速度信息能够指导粒子转移的运动方向，从而保证搜索到最佳的目标位置；二阶加速度信息给出了粒子分布的集中程度，目标运动得越快，加速度越大，粒子分布越广，反之，则越集中。传统的粒子滤波通常采用固定的均值和方差，而跟踪过程中目标的运动速度往往不是一成不变的，当目标速度变快或变慢时，粒子的分布范围若固定不变，往往会导致失败；为了能够改善跟踪效果只能通过增加粒子数量，会大大增加算法时间开销。本发明融入速度和加速度特征后，能够产生更加有效的粒子，从而提高了跟踪的运行效率。

步骤三、采用粒子滤波预测目标候选区域

估计目标位置：上述计算获得粒子位置后，对各粒子位置进行加权平均作为目标位置估计。粒子权值定义为：

其中，D(i)为粒子特征向量与目标模板的巴氏距离：

m(u)为目标模板，c_i(u)为粒子特征向量。

为各粒子与前一帧目标位置间的欧氏距离：

计算每个粒子位置与其权值加权平均求得当前帧目标位置的最优估计：

目标最优位置后验概率为：

步骤四、模板更新，包括如下步骤：

遮挡、目标形变、环境干扰等因素等可能影响跟踪的鲁棒性，但目标表观特征不会一直处于变化状态，一个好的跟踪模型往往能够较长时间地保持目标的可辨别性；另外，频繁的更新不仅容易导致漂移而且造成过多的时间开销。因此，本发明综合考虑运行效率和跟踪稳定性，采用lazy方式进行阶段性模板阈值更新，具体如下：

(4.1)设置更新阈值T。T由当前帧前10帧的后验概率的平均值计算得到：

(4.2)计算跟踪结果与目标模板之间的Bhattacharyya距离即权值，并由此得到跟踪结果的后验概率。若此后验概率大于阈值T，则进行模型更新；否则，保留原有目标模板。本发明的更新策略是将上一帧的目标模板C_old与当前帧的目标模板加权求和得到更新后的目标模板，新的目标模板C_new如下：

其中，

由N个粒子中的权值较大的n(n＝N/5)个粒子的平均观测值得到，如公式(18)所示：

(4.3)更新后，当前目标新的权值根据公式(11)重新计算。

本发明的效果可通过Benchmark的标准数据库进行以下实验进一步说明：

实验1：用普通粒子滤波和本发明方法，对David3和Lemon视频序列进行跟踪。普通粒子滤波在跟踪过程中由于缺乏有效运动信息的指导，当目标出现遮挡或快速运动时将出现跟踪丢失；本发明加入深度特征和运动信息后，对于遮挡和快速运动能够保持稳定的跟踪。

实验2：本发明与现有主流跟踪方法的比较，包括CNN(Convolutional NeuralNetworks)跟踪、DET、L1APG、FCT以及去除深度学习的二阶粒子滤波跟踪(2^nd order PF)。分别对不同复杂情况下的视频序列进行实验，包括存在严重形变以及分辨率变化的Skiing序列和Gym序列；目标不仅发生尺度变化，而且会进行快速运动的Bolt序列和Biker序列；以及存在目标被严重遮挡的David3序列和Lemming序列，Lemming序列中目标还会出现尺度和分辨率的变化。

通过比较试验发现在各种具有挑战性的跟踪环境下，本发明都能够保持稳定和连续的跟踪，尤其在快速运动或全遮挡出现的情况下，本发明利用具有深度特征的目标模板和运动信息的引导，能够保持良好鲁棒的跟踪。

实验3：分别选择不同属性的视频帧序列进行时空鲁棒性评估实验，包括TRE和SRE两个指标。对于TRE指标，实验时将每个视频序列分割成30个小的视频段，统计跟踪结果与标准目标的成功重叠率以及跟踪精度；对于SRE指标，每个跟踪器对每个视频序列重复跟踪12次，统计成功重叠率和跟踪精度。不同跟踪环境下的OPE和SRE指标均显示出在背景干扰、光照变化、形变和遮挡情况下，本发明的成功重叠率和跟踪精度都能保持最好的跟踪水平；在出现尺度变化、快速运动和旋转等复杂情况下的跟踪，本发明仍然基本能够保持最好的水平，即使有时跟踪精度和成功重叠率低于DFT算法，本发明与其差距仍然非常小；在运动模糊、遮挡和旋转的环境下，本发明的相关跟踪指标有时会排名第3，但与其它算法差距不超过10％。

综上可以得出，本发明比普通粒子滤波算法具有更好的连续跟踪能力；与现有流行的跟踪算法相比，在具有挑战的跟踪环境下，都能保持很好的跟踪精度和跟踪成功率，尤其在快速运动和遮挡严重的环境中，本发明具有良好的跟踪效果。

尽管本发明就优选实施方式进行了示意和描述，但本领域的技术人员应当理解，只要不超出本发明的权利要求所限定的范围，可以对本发明进行各种变化和修改。

Claims

1.一种基于深度学习的自适应粒子滤波目标跟踪方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于深度学习的自适应粒子滤波目标跟踪方法，其特征在于，步骤(1)中，建立浅层深度学习网络模型，采用SGD算法离线训练该模型具体为：采用两个5x5的卷积核f₁，f₂通过sigmoid函数提取深层语义特征：

其中，Conv_x代表卷积层Conv1和Conv2；b₁、b₂为偏置，S₁、S₂分别代表输入样本Input和第一层池化输出；Subsampling1、Subsampling2为池化层：通过邻域像素特征的加权平均获得当前池化层各像素特征值，从而降低特征维数，减少数据量，

其中sum＝a1p(i,j)+a2p(i,j+1)+a3p(i+1,j)+a4p(i+1,j+1)，p′(i,j)表示当前池化层的像素值，a1,a2,a3,a4为加权系数；FC为全连接层，将Subsampling2输出特征值连接成1x60的特征向量；SVM分类器在离线训练时识别前景Foreground和背景Background。

3.如权利要求1所述的基于深度学习的自适应粒子滤波目标跟踪方法，其特征在于，步骤(2)中，对于每个粒子，观测模型为c＝[c₁c₂]，c₁∈R^1×60为深度特征向量，由预训练的深度学习网络产生；c₂＝[h₁,h₂,…,h_L]∈R^1×L为HSV颜色空间生成的表观颜色直方图特征，其中，L为颜色直方图的量化级数，h_i,i＝1,…,L为各级的特征值；状态转移模型为S_t＝S_t-1+f_t-1，S_t,S_t-1分别代表粒子当前帧和前一相邻帧的状态，f_t-1为粒子状态转移变量；粒子在当前帧的状态估计由一阶和二阶运动信息同时确定，运动速度指导粒子的运动方向和位置，加速度信息描绘了粒子的聚集程度，目标运动越快，粒子散布范围越广泛，运动越慢，粒子越集中；f_t-1可由多元高斯随机变量定义为

其中，cen为粒子在前一帧的位置，μ_t-1、σ_t-1为高斯分布的均值和方差；均值μ_t-1由连续三帧的目标运动速度计算获得：μ_t-1＝(V_t-1+V_t-2+V_t-3)/3，方差定义为加速度：σ_t-1＝V_t-1-V_t-2，其中，V_t-1，V_t-2和V_t-3分别表示当前帧前连续三帧中目标的运动速度。

4.如权利要求1所述的基于深度学习的自适应粒子滤波目标跟踪方法，其特征在于，步骤(3)中，根据观测模型，计算每个粒子的权值参数，通过加权平均确定当前目标位置具体为：当前帧目标位置可以通过各粒子状态的加权平均进行最优状态估计