CN109191493A

CN109191493A - 一种基于RefineNet神经网络和稀疏光流的目标跟踪方法

Info

Publication number: CN109191493A
Application number: CN201810768173.6A
Authority: CN
Inventors: 罗均; 高建焘; 李小毛; 谢少荣; 彭艳
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2019-01-11
Anticipated expiration: 2038-07-13
Also published as: CN109191493B

Abstract

本发明提出一种基于RefineNet神经网络和稀疏光流的目标跟踪方法。该方法不再使用手工特征，或浅层网络输出具有的空间信息的深度特征，亦或深层网络输出具有强判别能力的深度特征，而是改用RefineNet神经网络进行深度特征提取，将浅层网络输出具有的空间信息的深度特征和深层网络输出具有强判别能力的深度特征进行融合，在融合后的深度特征的基础上，进行跟踪目标中心位置的跟踪。而对于目标区域的变化，该方法利用稀疏光流对跟踪目标区域长和宽不同的变化分别进行处理，使得该方法能够应对长宽比变化的目标尺度变化，从而解决了目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化问题。该方法是一种鲁棒性跟踪算法，能在不同跟踪场景中取得不错的效果。

Description

一种基于RefineNet神经网络和稀疏光流的目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于RefineNet神经网络和稀疏光流的目标跟踪方法。

背景技术

目标跟踪由于其在行为分析、车辆导航、人机交互、医学成像、视频监控等众多领域都有着广阔的应用，从而成为计算机视觉技术最活跃的研究之一。目标跟踪是指在给定视频第一帧中的目标位置，对之后的每一帧进行目标定位。目标跟踪的核心问题紧跟随着时间不断变化的目标。尽管近年来在国内外学者的不断研究下，目标跟踪算法得到了迅速发展，但在光照变化剧烈、目标快速运动、部分遮挡等情况下仍然无法取得很好效果。

近年来，国内外学者提出了多种跟踪算法，主要可以分成两类：一类是基于对于目标本身进行描述和刻画的生成式模型；另一类旨在将目标和背景分离开的判别式模型。生成式模型重点在于建立目标外观模型的表征，虽然构建有效的外观模型以处理跟踪中的各种具有挑战性的情况至关重要，但是与此同时，也会增加很大的计算复杂度，并且还会丢弃了可用于更好地将对象与背景分离的目标区域周围的有用信息，例如词典学习算法、稀疏编码算法、PCA等；判别式模型将跟踪问题转换为目标和背景的二分类问题，即把跟踪的目标作为前景，利用在线学习或离线训练的判断器来区分前景目标和背景，从而得到前景目标的位置。在进行判断前往往会进行特征提取，以作为判断依据提高判断的精确度，但是这也会导致有大量的候选样本需要进行特征提取，使得难以达到实时性，例如Struck、MIL等算法。生成式模型着眼于对目标本身的刻画，忽略背景信息，在目标自身变化剧烈或者被遮挡时容易产生漂移。判别式模型通过训练分类器来区分目标和背景(即从背景中区分目标)。判别式方法因为显著区分背景和前景的信息，表现更为鲁棒，在目标跟踪领域占据主流地位。

但是，对于跟踪算法而言，最重要的两个指标是实时性与精确度。由于传统判别式跟踪算法在进行判断前往往会进行特征提取，以作为判断依据提高判断的精确度，但也会导致有大量的候选样本需要进行特征提取，从而很难达到实时性。

为了解决这一问题，2010年MOSSE算法将相关滤波引入到目标跟踪中，从而使得跟踪算法速度达到高速状态。相关滤波是一种传统的信号处理方法，其描述了两个样本之间的相似程度。但是由于MOSSE算法采用的是随机采样，从而导致正负训练数目不足而使得精度较低。2012年CSK算法基于MOSSE算法通过建立循环位移的结构将目标进行稠密采样，以此增加正负样本的数目，以此解决目标跟踪之中训练样本不足的问题。除此之外，通过对于这些样本进行循环位移的处理，将对目标样本的计算转化到频率域中的求解，通过使用快速傅里叶变换的方法，大大地提高目标跟踪的效率。然而CSK算法采用的是单通道灰度特征，在特征表征上不够鲁棒。针对以上问题，2015年CN算法改用多通道的颜色特征，KCF算法改用多通道HOG特征，使得精度得到提高。

但是无论是CN算法、KCF算法在卷积求解中使用的固定大小的模板，从而导致模型没有尺度自适应的功能，从而难以应对目标尺度变化的情况。SAMF算法通过多尺度采样获取7种尺度候选样本来使得模型具有尺度适应性。DSST算法在原本的位置滤波器基础上增加了一个尺度滤波器，通过多尺度采样获取31种尺度训练样本来训练尺度滤波器。FDSST算法在DSST算法的基础上进行改进增加其跟踪速度。SKCF算法在KCF算法的基础上，引入稀疏光流法用于尺度变化应对。IBCCF算法在KCF算法的基础上，增加4个边界相关滤波器以用于目标的4个边界。KCFDP算法在KCF算法对中心位置定位的基础，引入Edgeboxes算法进行不同尺度的候选样本的提取，从而来应对目标尺度变化的情况。

但是SAMF算法、DSST算法多尺度采样所得的候选样本都是固定长宽比的；SKCF算法在利用稀疏光流法处理尺度变化时，其假定了目标的长宽比是不变；因而，SAMF算法、DSST算法、SKCF算法难以处理长宽比变化的目标尺度变化问题。IBCCF算法、KCFDP算法虽然能处理长宽比变化的目标尺度变化问题，但是其采用的都是手工特征，对目标的表征能力存在一定局限性，因而目标跟踪效果并不是很优异。

在现有的跟踪技术方案当中，基于相关滤波器跟踪方法利用目标样本进行循环位移以及频域运算等处理，从而大大地提高了其跟踪效率。但是，目前跟踪算法目标跟踪算法并不能很好地应对长宽比变化的目标尺度变化的情况，这一局限极大地限制了其原本具有的潜力。针对目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的情况，需要设计一种跟踪算法，使其能在利用神经网络中具有强大表征能力的深度特征的基础上，很好应对长宽比变化的目标尺度变化，从而使得跟踪精度得到提高。

发明内容

有鉴于此，本发明提出了一种基于RefineNet神经网络和稀疏光流的目标跟踪方法。该方法不再使用手工特征，或浅层网络输出具有的空间信息的深度特征，亦或是深层网络输出的具有的判别能力的深度特征，而是改用RefineNet神经网络进行深度特征提取，将浅层网络输出具有的空间信息的深度特征和深层网络输出的具有的判别能力的深度特征进行融合，在融合后的深度特征的基础上，进行跟踪目标中心位置的跟踪。而对于目标区域的变化，该方法利用稀疏光流法处理尺度变化时，并不再假定目标的长宽比是不变，而是对于跟踪目标区域长和宽不同的变化分别进行处理，从而使得该方法能够长宽比变化的目标尺度变化，从而解决了目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的问题。该方法在利用神经网络具有强大表征能力的深度特征的基础上，进行特征融合而后进行跟踪目标中心位置的跟踪，并利用稀疏光流法对于跟踪目标区域的长和宽不同的变化分别进行处理，以应对长宽比变化的目标尺度变化，从而提高目标跟踪精度。该方法能在利用神经网络中具有强大表征能力的深度特征的基础上，很好应对长宽比变化的目标尺度变化，从而解决了目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的问题。

为达到上述目的，本发明采用如下技术方案：

一种基于RefineNet神经网络和稀疏光流的目标跟踪方法，具体步骤包括：

步骤一、对于第一帧图像t＝1，跟踪任务给予的第一帧跟踪目标的中心位置(x_t,y_t)以及跟踪目标区域大小信息(l_t,h_t)，对跟踪目标区域进行一定比例的扩大(l_p,t,h_p,t)＝α(l_t,h_t)，根据目标中心位置(x_t,y_t)以及扩大后的跟踪目标区域大小(l_p,t,h_p,t)在该帧图像中进行采样，得到训练样本；其中x_t为跟踪目标中心位置的横坐标，y_t为跟踪目标中心位置的纵坐标，l_t为原跟踪目标区域的长度，h_t为原跟踪目标区域的宽度，α为扩大比率，l_p,t为扩大后跟踪目标区域的长度，h_p,t为扩大后跟踪目标区域的宽度；

步骤二、对于在第一帧图像中采样得到的训练样本T，将其输入到RefineNet神经网络中，提取出RefineNet神经网络中的rmflow_convf_g4_b3_joint_varout层输出的分类特征其中Z_T表示RefineNet神经网络中通道数为512的rmflow_convf_g4_b3_joint_varout层输出的分类特征，表示RefineNet神经网络中的Convf层输出的分类特征Z_T中第n维特征；

步骤三、将训练样本T经过RefineNet神经网络后提取得到的rmflow_convf_g4_b3_joint_varout层输出的分类特征用于相关滤波器参数的计算，其中表示训练样本T输入到RefineNet神经网络后Convf层输出的分类特征中第i个通道的特征图；

步骤四、对于下一帧图像t+1，根据上一帧跟踪目标中心位置(x_t,y_t)以及扩大后的跟踪目标区域大小(l_p,t,h_p,t)在该帧图像中进行采样，得到候选区域样本P；

步骤五、对于采样得到的候选区域样本P，将其输入到RefineNet神经网络中，提取出RefineNet神经网络中的rmflow_convf_g4_b3_joint_varout层输出的分类特征其中表示候选区域样本P输入到RefineNet神经网络后rmflow_convf_g4_b3_joint_varout层输出的分类特征中第i个通道的特征图；

步骤六、将候选区域样本P所对应RefineNet神经网络的rmflow_convf_g4_b3_joint_varout层输出的分类特征用于响应图的计算，最终确定该帧跟踪目标的中心位置(x_t+1,y_t+1)；

步骤七、对训练样本T提取稀疏光流特征点其中表示训练样本中所提取到的第i个稀疏光流特征点，表示训练样本中所提取到的第i个稀疏光流特征点的x坐标，表示训练样本中所提取到的第i个稀疏光流特征点的y坐标；

步骤八、对候选区域样本P提取稀疏光流特征点其中表示候选区域样本中所提取到的第i个稀疏光流特征点，表示候选区域样本中所提取到的第i个稀疏光流特征点的x坐标，表示候选区域样本中所提取到的第i个稀疏光流特征点的y坐标；

步骤九、利用训练样本T的稀疏光流特征点和候选区域样本P提取稀疏光流特征点计算得到目标区域相对于上一帧目标区域(l_t,h_t)的x方向的缩放因子σ_x和y方向上的缩放因子σ_y，从而计算得到目标区域大小(l_t+1,h_t+1)；

步骤十、在得到跟踪目标的中心位置和区域大小后，不断重复步骤一至步骤九，直到视频结束，完成对跟踪目标的中心位置以及区域大小的跟踪。

所述步骤三中的相关滤波器参数的计算，具体为：

首先，对rmflow_convf_g4_b3_joint_varout层输出的分类特征进行快速傅立叶变换，从而将其从时域变换到频域特征得到

其次，对于每个特征通道将其向量化后进行再构造成对角矩阵，即

将特征中所有通道构造成的对角矩阵重新组合构造成一个对角矩阵，即

利用这个对角矩阵D_t进行计算得到A_t和其中，

其中，W为空间正则化系数构造成的正则化矩阵；为高斯标签经过快速傅立叶变换和实数化后得到的标签；

最后，根据公式和计算得到经过快速傅立叶变换的相关滤波参数

所述计算得到相关滤波参数具体方法如下：先将矩阵A_t分解为上三角矩阵L_t和下三角矩阵U_t，即A_t＝L_t+U_t；而后进行高斯-赛德尔迭代，得到经过快速傅立叶变换和实数化的相关滤波器参数最后通过计算得到经过快速傅立叶变换的相关滤波器参数其中B为标准正交基组成的酉矩阵，其作用是将经过快速傅立叶变换的相关滤波器参数实数化。

所述步骤六候选区域样本P的响应图的计算，并最终确定该帧跟踪目标的中心位置(x_t+1，y_t+1)具体方法如下：

首先，将候选区域样本P所对应的RefineNet神经网络中rmfflow_convf_g4_b3_joint_varout层输出的分类特征进行快速傅立叶变换，得到频域特征其中表示候选区域样本P输入到RefineNet神经网络后rmflow_convf_g4_b3_joint_varout层输出的分类特征中第i个通道经过快速傅里叶变换的特征图；

而后，对于候选区域样本P经过快速傅立叶变化的特征将其与经过快速傅立叶变换的相关滤波器参数进行点乘，而后进行反傅里叶变换，得到该候选样本对应的响应图R_P，即

其中R_P为候选区域样本P的响应图，F^-1为反傅里叶变换；

最后，对于候选区域样本P的响应图R_P，找出响应值最大的点(x_t+1,y_t+1)，该点对应的位置即为该帧跟踪目标位置。

所述步骤九中目标区域相对于上一帧目标区域(l_t,h_t)的x方向的缩放因子σ_x和y方向上的缩放因子σ_y的计算，以及目标区域大小(l_t+1h_t+1)的计算，具体为：

目标区域相对于上一帧目标区域(l_t,h_t)的x方向的缩放因子σ_x的计算，如下：

其中，和表示候选区域样本P的稀疏光流特征点中两个特征点和的x坐标，和表示训练样本T的稀疏光流特征点中对应于候选区域样本P的稀疏光流特征点中和这两个特征点的两个特征点和的x坐标，ω_i和ω_j表示候选区域样本P的稀疏光流特征点中两个特征点和对应于候选区域样本P对应的响应图R_P的响应值；

目标区域相对于上一帧目标区域(l_t,h_t)的y方向的缩放因子σ_y的计算，如下：

其中，和表示候选区域样本P的稀疏光流特征点中两个特征点和的y坐标，和表示训练样本T的稀疏光流特征点中对应于候选区域样本P的稀疏光流特征点中和这两个特征点的两个特征点和的y坐标，ω_i和ω_j表示候选区域样本P的稀疏光流特征点中两个特征点和对应于候选区域样本P对应的响应图R_P的响应值；

目标区域大小(l_t+1h_t+1)的计算，如下：

(l_t+1h_t+1)＝(l_t×σ_x h_t×σ_y)

与现有技术相比，本发明方法具有如下的突出的优点：

本方法能在利用神经网络中具有强大表征能力的深度特征的基础上，很好应对长宽比变化的目标尺度变化，从而解决了目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的问题。本方法不再使用手工特征，或浅层网络输出具有的空间信息的深度特征，亦或是深层网络输出的具有的判别能力的深度特征，而是改用RefineNet神经网络进行深度特征提取，将浅层网络输出具有的空间信息的深度特征和深层网络输出的具有的判别能力的深度特征进行融合，在融合后的深度特征的基础上，进行跟踪目标中心位置的跟踪。而对于目标区域的变化，该方法利用稀疏光流法处理尺度变化时，并不再假定目标的长宽比是不变，而是对于跟踪目标区域长和宽不同的变化分别进行处理，从而使得该方法能够长宽比变化的目标尺度变化，从而解决了目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的问题。本方法在利用神经网络具有强大表征能力的深度特征的基础上，进行特征融合而后进行跟踪目标中心位置的跟踪，并利用稀疏光流法对于跟踪目标区域的长和宽不同的变化分别进行处理，以应对长宽比变化的目标尺度变化，从而提高目标跟踪精度。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图，对本发明的具体实施例做进一步的说明。

如图1所示，一种基于RefineNet神经网络和稀疏光流的目标跟踪方法，具体步骤包括：

步骤二、对于在第一帧图像中采样得到的训练样本T，将其输入到RefineNet神经网络中，提取出RefineNet神经网络中的rmflow_convf_g4_b3_joint_varout层输出的分类特征其中Z_T表示RefineNet神经网络中通道数为256的rmflow_convf_g4_b3_joint_varout层输出的分类特征，表示RefineNet神经网络中的rmflow_convf_g4_b3_joint_varout层输出的分类特征Z_T中第n维特征；

步骤三、将训练样本T经过RefineNet神经网络后提取得到的rmflow_convf_g4_b3_joint_varout层输出的分类特征用于相关滤波器参数的计算，其中表示训练样本T输入到RefineNet神经网络后rmflow_convf_g4_b3_joint_varout层输出的分类特征中第i个通道的特征图；

利用这个对角矩阵D_t进行计算得到A_t和其中，

最后，根据公式和计算得到经过快速傅立叶变换的相关滤波参数具体方法如下，先将矩阵A₁分解为上三角矩阵L₁和下三角矩阵U₁，即A₁＝L₁+U₁。而后进行高斯-赛德尔迭代可得到实数化后的相关滤波器参数最后通过计算可得到相关滤波器参数其中B为标准正交基组成的酉矩阵，其作用是将相关滤波器参数实数化。

步骤五、对于采样得到的候选区域样本P，将其输入到RefineNet神经网络中，提取出RefineNet神经网络中的Convf层输出的分类特征其中表示候选区域样本P输入到RefineNet神经网络后Convf层输出的分类特征中第i个通道的特征图；

步骤六、将候选区域样本P所对应RefineNet神经网络的Convf层输出的分类特征用于响应图的计算，最终确定该帧跟踪目标的中心位置(x_t+1,y_t+1)；

首先，将候选区域样本P所对应的RefineNet神经网络中rmflow_convf_g4_b3_joint_varout层输出的分类特征进行快速傅立叶变换，得到频域特征其中表示候选区域样本P输入到RefineNet神经网络后rmflow_convf_g4_b3_joint_varout层输出的分类特征中第i个通道经过快速傅里叶变换的特征图；

其中R_P为候选区域样本P的响应图，F^-1为反傅里叶变换；

目标区域大小(l_t+1h_t+1)的计算，如下：

(l_t+1h_t+1)＝(l_t×σ_x h_t×σ_y)

Claims

1.一种基于RefineNet神经网络和稀疏光流的目标跟踪方法，其特征在于，具体步骤包括：

步骤九、利用训练样本T的稀疏光流特征点和候选区域样本P的稀疏光流特征点计算得到目标区域相对于上一帧目标区域(l_t,h_t)的x方向的缩放因子σ_x和y方向上的缩放因子σ_y，从而计算得到目标区域大小(l_t+1,h_t+1)；

2.根据权利要求1所述的基于RefineNet神经网络和稀疏光流的目标跟踪方法，其特征在于，所述步骤三中的相关滤波器参数的计算，具体为：

利用这个对角矩阵D_t进行计算得到A_t和其中，

3.根据权利要求2所述的基于RefineNet神经网络和稀疏光流的目标跟踪方法，其特征在于，所述计算得到相关滤波参数具体方法如下：先将矩阵A_t分解为上三角矩阵L_t和下三角矩阵U_t，即A_t＝L_t+U_t；而后进行高斯-赛德尔迭代，得到经过快速傅立叶变换和实数化的相关滤波器参数最后通过计算得到经过快速傅立叶变换的相关滤波器参数其中B为标准正交基组成的酉矩阵，其作用是将经过快速傅立叶变换的相关滤波器参数实数化。

4.根据权利要求1所述的基于RefineNet神经网络和稀疏光流的目标跟踪方法，其特征在于，所述步骤六候选区域样本P的响应图的计算，并最终确定该帧跟踪目标的中心位置(x_t+1,y_t+1)具体方法如下：

其中R_P为候选区域样本P的响应图，F^-1为反傅里叶变换；

5.根据权利要求1所述的基于RefineNet神经网络和稀疏光流的目标跟踪方法，其特征在于，所述步骤九中目标区域相对于上一帧目标区域(l_t,h_t)的x方向的缩放因子σ_x和y方向上的缩放因子σ_y的计算，以及目标区域大小(l_t+1 h_t+1)的计算，具体为：

目标区域大小(l_t+1 h_t+1)的计算，如下：

(l_t+1h_t+1)＝(l_t×σ_x h_t×σ_y)。