CN106097388A

CN106097388A - 视频目标跟踪中目标位置预测、搜索范围自适应调整及双重匹配融合的方法

Info

Publication number: CN106097388A
Application number: CN201610397076.1A
Authority: CN
Inventors: 郭成安; 梁志达
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2016-11-09
Anticipated expiration: 2036-06-07
Also published as: CN106097388B

Abstract

本发明公开了一种视频目标跟踪中目标位置预测、搜索范围自适应调整及双重匹配融合的方法。其特征是在目标跟踪过程中，根据运动学原理和目标自身的运动规律建立运动模型对下一帧图像中的目标位置进行预测，以预测的结果作为对下一帧目标的搜索中心；同时考虑到实际目标在运动过程中具有一定的不确定或随机性，根据目标跟踪过程中所求取的目标运动状态估计出随机运动的方差参数，进而利用所提取出来的方差参数自适应地调整目标搜索范围，从而可以提高目标搜索的效率，得到更为可靠的跟踪结果。在目标匹配中，采用双重匹配融合的方法对目标进行匹配，以此来进一步提升对所跟踪目标的匹配精度和对不同视频情况的适应性。

Description

视频目标跟踪中目标位置预测、搜索范围自适应调整及双重匹配融合的方法

技术领域

本发明涉及计算机视觉技术领域，特指在视频目标跟踪中一种目标位置预测、搜索范围自适应调整及双重匹配融合的方法。

背景技术

目标跟踪是计算机视觉领域的一个重要研究课题，是进一步分析运动行为的基础，例如，视频监控，智能交通，运动行为分析等。近年来已提出了许多卓有成效的目标跟踪算法，在该领域取得了很大进展。但在面对背景复杂、光照变化和目标运动变化快的视频序列时，经常出现跟踪精度下降、跟踪错误、甚至丢失目标的现象。因此，如何对现有的视频目标跟踪方法进行改进，实现精确可靠的视频目标跟踪仍然是一个富有挑战性和需要深入进行研究的课题。

视频目标跟踪主要是监测视频序列中目标的位置变化(主要为目标中心位置的变化)和形状的变化，方法的关键是在新的一帧图像中搜寻到目标的位置与形态的变化。现有文献中的目标跟踪方法，多数是以前一帧目标的匹配位置为中心、以事前预定的常数为方差按高斯分布产生的随机位置在新的一帧中对目标进行搜索(以随机仿射变换的形状进行匹配)，这对于目标运动速度变化较大的视频序列，不得不通过选择一个较大的方差来扩大搜索范围以保证所要跟踪的目标不至于落在搜索范围之外，并且始终在这样大的范围内进行搜索。由此会使目标搜索的效率很低，使得跟踪精度受限。针对此问题，Lao等(Lao Y.,Zhu J.and Zheng Y.F.:Sequential particle generation for visual tracking.IEEETrans.Circuits and Systems for Video Technology,19(9):1365-1378,Sep.2009)提出在粒子滤波过程中通过利用已获得的当前帧(第k-1帧)和前一帧(第k-2帧)目标的位置之差来作为运动速度的估值进一步利用对第k帧的目标位置进行预测其中u_k为满足高斯分布的白噪声u_k～N(0,∑_k)，对角矩阵∑_k中的主元素作为搜索区间的长轴，短轴取为λ₂＝γρ_k，其中γ为(0,1)的常数用于调整长短轴之间的比例。该方法能够适应目标运动速度较快的情况，而且在搜索范围上对不同的视频序列都有较好的适应性。但该方法仍然需要根据经验(或先验知识)事先选定常数γ，该参数的选取对目标搜索效率和精度产生人为因素的影响；此外，该方法没有考虑加速度的影响，因而在运动速度变化比较显著的情况下，跟踪效果不够理想。Cheng等(Cheng X.,Shiina Y.,Zhuang X.and Ikenaga T.:Player tracking usingprediction after intersection based particle filter for volleyball matchvideo.2014Asia-Pacific Signal Processing Association Annual Summit andConference,Feb.2014)提出按公式对目标位置进行预测和随机搜索，其中为对目标搜索区域中心位置的预测，预测公式为(其中a₁,a₂为预先选定的常数，x₀为目标的初始位置，x_k-i为在第k-i帧时所得到的最佳匹配目标的中心位置)，N(0,1)表示均值为0方差为1的高斯随机数，B为事先选定的常数。该方法应用在排球选手目标跟踪过程中取得了比较显著的改进效果。但该方法仍然需要根据经验(或先验知识)事先选定常数a₁,a₂来实现目标位置的预测，依靠先验知识选定常数B来确定目标搜索范围，因此同样存在对难以适合不同的视频应用场合的问题。Wang等(D.Wang,H.Lu,M.-H.Yang.Online object tracking with sparse prototypes.IEEETransactions on Image Processing,2013,22(1):314-325)将目标模板的主成分分量(PCA:Principal Component Analysis)基向量作为字典中的原子，通过主成分特征提取能够较好描述全局性特征，在跟踪精度上有一定提高。现有文献中的目标跟踪方法，在对跟踪目标进行匹配时，仅采用一种匹配方法，使得对不同的视频条件的适应能力不强。针对上述这些不足之处，本发明提出相应的改进措施，以有效地提高视频跟踪方法对运动目标的定位精度和在不同视频情况下的适应能力。

发明内容

本发明以现有的典型高性能视频目标跟踪方法为基础，针对其存在的不足之处，提出相应的改进方法：在目标跟踪过程中，根据运动学原理和目标自身的运动规律建立运动模型对目标位置的变化进行预测，以预测的结果作为对下一帧目标的搜索中心，由此可以使搜索中心更加接近实际的目标位置；同时考虑到运动过程所具有的不确定或随机性，通过再对目标跟踪过程中所获得的运动状态估计出随机运动的方差参数，进而利用所提取出来的方差参数自适应地调整目标搜索范围，从而可以提高目标搜索的效率，得到更为可靠的跟踪结果。

在目标匹配中，采用双重匹配融合的方法对目标进行匹配，以此来进一步提升对所跟踪目标的匹配精度和对不同视频情况的适应性。

本发明的视频目标跟踪中一种目标位置预测、搜索范围自适应调整及双重匹配融合的方法，采用的技术方案，具体如下：

1.视频目标跟踪中目标位置预测、搜索范围自适应调整及双重匹配融合的方法，其特征在于如下步骤：

步骤1：建立目标位置的预测模型，在跟踪过程中以对目标位置的预测值为中心对下一帧目标进行搜索。

设在第1帧由人工标定运动目标和已知其目标中心位置的坐标为(x₁,y₁)，并设现已得到了第k帧目标中心位置的坐标为(x_k,y_k),k≥1，其中x_k和y_k分别为目标中心位置的横、纵坐标值；

下一时刻的目标位置的横坐标x_k+1与当前时刻x_k的关系表示为：

x_{k + 1} = x_{k} + v_{x, k} + \frac{1}{2} a_{x, k} + n_{x, k} - - - (1)

其中v_x,k,a_x,k分别为k时刻目标在x方向上的运动速度和加速度，n_x,k为k时刻运动状态在x方向上的随机变化量，通常假设n_x,k满足均值为0方差为的高斯分布；

下一时刻的目标位置的纵坐标y_k+1与当前时刻y_k的关系表示为：

y_{k + 1} = y_{k} + v_{y, k} + \frac{1}{2} a_{y, k} + n_{y, k} - - - (2)

其中v_y,k,a_y,k分别为k时刻目标在y方向上的运动速度和加速度，n_y,k为k时刻运动状态在y方向上的随机变化量，并且假设n_y,k满足均值为0方差为的高斯分布；

对于目标在k时刻的速度和加速度v_x,k,a_x,k，根据跟踪过程所获取的目标运动状态来求取：

v_x,k＝Δx_k/Δt_k＝x_k-x_k-1， (3)

a_x,k＝Δv_x,k/Δt_k＝(v_x,k-v_x,k-1)＝x_k-2x_k-1+x_k-2 (4)

得到对下一时刻目标中心位置横坐标x_k+1的预测模型为：

{\overset{&OverBar;}{x}}_{k + 1 | k} = \frac{5}{2} x_{k} - 2 x_{k - 1} + \frac{1}{2} x_{k - 2} - - - (5)

对下一时刻目标中心位置纵坐标y_k+1的预测模型为：

{\overset{&OverBar;}{y}}_{k + 1 | k} = \frac{5}{2} y_{k} - 2 y_{k - 1} + \frac{1}{2} y_{k - 2} - - - (6)

根据上面推导出来的预测模型(5)和(6)求出下一帧目标中心位置的预测值将预测值作为对下一帧目标的搜索中心；

步骤2：求取模型(1)和(2)中随机噪声n_x,k和n_y,k的方差(和)的估值，据此自适应地调整目标的搜索范围；

步骤2.1：估计模型(1)和(2)中随机噪声n_x,k和n_y,k的方差(和)：

\begin{matrix} {\hat{σ}}_{x, k}^{2} = \frac{1}{L} Σ_{l = k + 1 - L}^{k} {({\overset{&OverBar;}{x}}_{l | l - 1} - x_{l})}^{2}, & {\hat{σ}}_{y, k}^{2} = \frac{1}{L} Σ_{l = k + 1 - L}^{k} {({\overset{&OverBar;}{y}}_{l | l - 1} - y_{l})}^{2} \end{matrix} - - - (7)

其中L为估计这两个方差参数时所取的帧数；和为在目标跟踪过程中分别利用式(5)和(6)求出的在l-1时刻对l时刻的目标中心点位置的预测值，x_l和y_l分别为l时刻目标中心点的真实位置；

步骤2.2:确定目标的搜索范围

步骤2.2.1:以第一步中求得的预测值作为随机粒子分布的中心点位置；

步骤2.2.2:以步骤2.1中求得的方差作为随机粒子分布的方差即：

\begin{matrix} σ_{p, x} = {\hat{σ}}_{x, k}, & σ_{p, y} = {\hat{σ}}_{y, k} \end{matrix} - - - (8)

以(σ_p,x,σ_p,y)作为度量参数来确定目标的搜索范围：分别以正态分布和产生一对随机数(x′_k+1,_i,y′_k+1,_i)作为下帧目标的一个候选搜索位置(i＝1,2,...,M)；

目标搜索范围即是以(3σ_p,x,3σ_p,y)为长短轴的椭圆范围内；当σ_p,x≥σ_p,y，σ_p,x为长轴；反之，σ_p,x为短轴；

步骤2.2.3：将目标位置预测和自适应调整搜索范围的方法与仿射变换相结合，应用到仿射变换中，确定出下一帧的候选目标的形状和所处区间；采用下式描述的仿射变换来确定该候选目标的形状和各点的坐标值：

\begin{matrix} [\begin{matrix} {\hat{x}}_{k + 1, i} \\ {\hat{y}}_{k + 1, i} \end{matrix}] = [\begin{matrix} c o s (θ) & - s i n (θ) \\ s i n (θ) & \cos (θ) \end{matrix}] [\begin{matrix} 1 & s_{x y} \\ 0 & 1 \end{matrix}] [\begin{matrix} 1 + a_{x} & 0 \\ 0 & 1 + a_{y} \end{matrix}] [\begin{matrix} {Δx}_{k} \\ {Δy}_{k} \end{matrix}] + [\begin{matrix} x_{k + 1, i}^{'} \\ y_{k + 1, i}^{'} \end{matrix}], & (i = 1, .., M) \end{matrix} - - - (9)

其中(Δx_k,Δy_k)为第k帧求出的最佳匹配目标上任意点的坐标值经过与第k帧预测中心坐标相减后的结果，(x′_k+1,i,y′_k+1,i)为在第(2.2.2)步中所产生的第i个随机粒子的坐标；a_x,a_y,s_xy及θ均是按高斯分布N(0,ε²)产生的随机数，其中ε是在(0,0.05)区间选择的常数；

重复该步骤产生足够多(M个)的候选目标区，以备在步骤3中逐个与目标模板进行匹配，遴选出最优的候选目标作为对第k+1帧目标的跟踪结果；

步骤3：采用双重匹配融合的方法对目标进行匹配，进一步提升对目标的匹配精度和对不同视频情况的适应性；步骤如下：

步骤3.1：按照主成份分析(PCA)稀疏表示方法来确定匹配目标，求出该方法的最终匹配目标的坐标值包括下述步骤：

步骤3.1.1：构造字典。将视频序列前N帧人工标注的运动目标区中的各个目标区归一化为32×32像素的矩形区域并将该区内的像素表达成列向量，构建出一个1024×20的目标模板矩阵；将该矩阵去均值后进行K-L变换，计算矩阵的特征值，并由大到小排列，取其中前L个特征值对应的特征向量作为目标模板字典中的码本矩阵U，同时在字典后加入一个1024×1024的单位矩阵I，构造一个1024×(L+1024)的字典矩阵[U I]；

步骤3.1.2：求解稀疏系数矢量和最小匹配误差；按照第一步和第二步中所述的方法，在第k+1帧中产生M个候选目标区，将各个候选目标区中的像素按步骤3.1.1中所述的方法变换为1024维的列向量，再将其与目标模板的均值做差值得到建立下述稀疏表示模型：

其中，U为字典中L个PCA基向量组成的矩阵，I为字典中的单位矩阵，z_i和e_i分别为候选目标投影到字典中U和I上的稀疏系数矢量，M为候选目标个数；通过下面的优化方法来求解稀疏系数矢量z_i和e_i：

\begin{matrix} \min_{z_{i}, e_{i}} \frac{1}{2} {|| {\overset{&OverBar;}{v}}_{i} - {Uz}_{i} - e_{i} ||}_{2}^{2} + λ {|| e_{i} ||}_{1}, & i = 1, ..., M \end{matrix} - - - (11)

其中||.||₁和||.||₂分别代表1范数和2范数，λ>0为规格化系数；

设用上述方法求解得到的最优稀疏系数矢量为z_j和e_j，所对应的最小匹配误差为：

并同时得到加权系数矢量w_j＝[w_j,1,w_j,2,…,w_j,1024]^T；该权值矢量的取值由所求得的系数矢量e_j来决定：当e_j,l＝0或当e_j,l<T∈(0,0.1),取w_j,l＝1；否则,取w_j,l＝0；

步骤3.2：直接利用候选区像素与模板图像之间的误差来确定匹配目标；采用第一步和第二步中所述的方法，在第k+1帧中产生M个候选目标区，将各个候选目标区中的像素按步骤3.1.1中所述的方法变换为1024维的列向量，再将其与目标模板的均值做差值得到然后按下式求取最小匹配误差E_Pixel,q和最佳匹配目标

其中权值矢量w_j仍采用由步骤3.1中所得到的结果；

求得最小E_Pixel,q后，该候选目标区所对应的中心坐标位置即作为直接利用像素进行匹配所得到的最终匹配目标的坐标值

步骤3.3：采用双重匹配加权融合方法对运动目标进行最终定位；该方法主要包括下述步骤：

步骤3.3.1：计算由步骤3.1中所采用的PCA稀疏表示方法在前L帧中所求得的最小匹配误差的均值和标准差：

\begin{matrix} {\overset{&OverBar;}{E}}_{P C A, j} = \frac{1}{L} Σ_{t = k}^{k - L + 1} E_{P C A, j}^{t}, & σ_{P C A, j} = {(\frac{1}{L} Σ_{t = k}^{k - L + 1} {(E_{P C A, j}^{t})}^{2} - {({\overset{&OverBar;}{E}}_{P C A, j})}^{2})}^{1 / 2} \end{matrix} - - - (14)

其中表示在第t帧中用PCA稀疏表示方法求得的最小匹配误差；

步骤3.3.2：计算由步骤3.2中所采用的直接匹配方法在前L帧中所求得的最小匹配误差的均值和标准差：

其中表示在第t帧中直接用像素匹配方法求得的最小匹配误差；

步骤3.3.3：双重匹配方法中的阈值设计与计算：

(i)PCA稀疏表示匹配方法的阈值设计与计算：

阈值1：阈值2：

(ii)直接匹配方法的阈值设计与计算：

阈值1：阈值2：

步骤3.3.4：目标定位的双重匹配加权融合算法：

(i)当且则采用PCA稀疏表示匹配方法得到的匹配结果作为最终结果；即

(ii)当且则采用直接匹配方法得到的匹配结果作为最终结果；即

(iii)当既不满足(i)也不满足(ii)时，则采用两种匹配的加权平均结果作为最终结果：

其中w₁和w₂为权值，分别采用下面公式进行计算：

\begin{matrix} w_{1} = \frac{{\overset{&OverBar;}{E}}_{P C A, j}}{{\overset{&OverBar;}{E}}_{P C A, j} + {\overset{&OverBar;}{E}}_{P i x e l, q}}, & w_{2} = \frac{{\overset{&OverBar;}{E}}_{P i x e l, q}}{{\overset{&OverBar;}{E}}_{P C A, j} + {\overset{&OverBar;}{E}}_{P i x e l, q}} \end{matrix} - - - (19) .

本发明充分利用在跟踪过程中已获得的目标运动信息和跟踪结果，对下一帧图像中目标出现的位置进行预测和对目标的搜索范围进行自适应地调整，由此可以使搜索中心和搜索范围与实际目标所处的范围及其真实位置更加接近，从而可以提高目标搜索的准确率和定位精度，并且提高搜素效率；进而通过采用双重匹配加权融合和通过采用自动提取的门限进行匹配判决的方法，去除可信度较低的匹配结果，使得改进后的跟踪算法对不同的视频情况均有较好的适应性，得到更为可靠的目标跟踪结果。

附图说明

图1是本发明的方法示意图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的实施例。

第一步：建立目标位置的预测模型，在跟踪过程中以预测值为中心对下一帧目标进行搜索。

设在第1帧由人工标定运动目标和已知其目标中心位置的坐标为(x₁,y₁)，并设现已得到了第k帧目标中心位置的坐标为(x_k,y_k),k≥1，其中x_k和y_k分别为目标中心位置的横、纵坐标值。根据运动学原理，物体从t₀到t₁时刻运动的距离为：

s_{t_{1}} - s_{t_{0}} = v_{t_{0}} (t_{1} - t_{0}) + \frac{1}{2} a_{t_{0}} {(t_{1} - t_{0})}^{2} - - - (1)

其中分别为t₀时刻该物体的速度和加速度。

根据式(1)的运动模型，将时间t离散化，取t₀＝k，t₁＝k+1。进一步考虑到实际中的目标运动过程具有一定的随机性，因此可将下一时刻的目标位置的横坐标x_k+1与当前时刻x_k的关系表示为：

x_{k + 1} = x_{k} + v_{x, k} + \frac{1}{2} a_{x, k} + n_{x, k} - - - (2)

其中v_x,k,a_x,k分别为k时刻目标在x方向上的运动速度和加速度，n_x,k为k时刻运动状态在x方向上的随机变化量，通常假设n_x,k满足均值为0方差为的高斯分布。

同理下一时刻的目标位置的纵坐标y_k+1与当前时刻y_k的关系表示为：

y_{k + 1} = y_{k} + v_{y, k} + \frac{1}{2} a_{y, k} + n_{y, k} - - - (3)

其中v_y,k,a_y,k分别为k时刻目标在y方向上的运动速度和加速度，n_y,k为k时刻运动状态在y方向上的随机变化量，并且假设n_y,k满足均值为0方差为的高斯分布。

对于目标在k时刻的速度和加速度v_x,k,a_x,k，本发明根据跟踪过程所获取的目标运动状态来进行求取：

v_x,k＝Δx_k/Δt_k＝x_k-x_k-1， (4)

a_x,k＝Δv_x,k/Δt_k＝(v_x,k-v_x,k-1)＝x_k-2x_k-1+x_k-2 (5)

将式(4)和(5)代入到式(2)，经整理可得对下一时刻目标中心位置横坐标x_k+1的预测模型为：

{\overset{&OverBar;}{x}}_{k + 1 | k} = \frac{5}{2} x_{k} - 2 x_{k - 1} + \frac{1}{2} x_{k - 2} - - - (6)

同理可得对下一时刻目标中心位置纵坐标y_k+1的预测模型为：

{\overset{&OverBar;}{y}}_{k + 1 | k} = \frac{5}{2} y_{k} - 2 y_{k - 1} + \frac{1}{2} y_{k - 2} - - - (7)

根据上面推导出来的预测模型(6)和(7)可以求出下一帧目标中心位置的预测值在本发明中，将预测值作为对下一帧目标的搜索中心。

第二步：在跟踪过程中求取模型(2)和(3)中随机噪声n_x,k和n_y,k的方差(和)的估值，据此来自适应地调整目标的搜索范围。

(2.1)估计模型(2)和(3)中随机噪声n_x,k和n_y,k的方差(和)：

\begin{matrix} {\hat{σ}}_{x, k}^{2} = \frac{1}{L} Σ_{l = k + 1 - L}^{k} {({\overset{&OverBar;}{x}}_{l | l - 1} - x_{l})}^{2}, & {\hat{σ}}_{y, k}^{2} = \frac{1}{L} Σ_{l = k + 1 - L}^{k} {({\overset{&OverBar;}{y}}_{l | l - 1} - y_{l})}^{2} \end{matrix} - - - (8)

其中L为估计这两个方差参数时所取的帧数(例如取L＝10)；和为在目标跟踪过程中分别利用式(6)和(7)求出的在l-1时刻对l时刻的目标中心点位置的预测值，x_l和y_l分别为l时刻目标中心点的真实位置。在实际计算中目标中心点的真实位置是未知的，为此在本发明中用在跟踪过程中所获取的最佳匹配目标的中心位置来代替其真实位置。

(2.2)确定目标的搜索范围：

在本发明中仍沿用粒子滤波的思想，通过产生一定数量的随机粒子作为下一帧目标的候选搜索位置。在此基础上，本发明采取下述步骤对已有的方法进行改进：

(2.2.1)以第一步中求得的预测值作为随机粒子分布的中心点位置；

(2.2.2)以步骤(2.1)中求得的方差作为随机粒子分布的方差即：

\begin{matrix} σ_{p, x} = {\hat{σ}}_{x, k}, & σ_{p, y} = {\hat{σ}}_{y, k} \end{matrix} - - - (9)

进而以(σ_p,x,σ_p,y)作为度量参数来确定目标的搜索范围。具体做法为：分别以正态分布和产生一对随机数(x′_k+1,i,y′_k+1,i)作为下帧目标的一个候选搜索位置(i＝1,2,...,M)。

根据统计学理论，由上述方法产生的随机数以接近100％的概率分布在以为中心、以(3σ_p,x,3σ_p,y)为长短轴的椭圆范围内(当σ_p,x≥σ_p,y，σ_p,x为长轴；反之，σ_p,x为短轴)。故本发明所确定的目标搜索范围即为该椭圆范围。而在本发明中是通过在视频跟踪过程中从视频序列本身中提取出预测值和方差所以是一种自适应调整目标搜索范围的方法。通过该方法可以克服原有方法中由于依靠事先选定的常数作为目标的搜索范围因此难以做到适应各种不同视频情况的问题。

(2.2.3)将目标位置预测和自适应调整搜索范围的方法与仿射变换相结合，即将在步骤(2.2.1)和(2.2.2)所得到的目标位置预测结果与搜索范围应用到仿射变换中，确定出下一帧的候选目标的形状和所处区间。具体做法为采用下式描述的仿射变换来确定该候选目标的形状和各点的坐标值：

\begin{matrix} [\begin{matrix} {\hat{x}}_{k + 1, i} \\ {\hat{y}}_{k + 1, i} \end{matrix}] = [\begin{matrix} c o s (θ) & - s i n (θ) \\ s i n (θ) & \cos (θ) \end{matrix}] [\begin{matrix} 1 & s_{x y} \\ 0 & 1 \end{matrix}] [\begin{matrix} 1 + a_{x} & 0 \\ 0 & 1 + a_{y} \end{matrix}] [\begin{matrix} {Δx}_{k} \\ {Δy}_{k} \end{matrix}] + [\begin{matrix} x_{k + 1, i}^{'} \\ y_{k + 1, i}^{'} \end{matrix}], & (i = 1, .., M) \end{matrix} - - - (10)

其中(Δx_k,Δy_k)为第k帧求出的最佳匹配目标上任意点的坐标值经过与第k帧预测中心坐标相减(即做中心化处理)后的结果，(x′_k+1,i,y′_k+1,i)为在第(2.2.2)步中所产生的第i个随机粒子的坐标；a_x,a_y,s_xy及θ均是按高斯分布N(0,ε²)产生的随机数，其中ε是在(0,0.05)区间选择的常数。

重复该步骤产生足够多的候选目标区，以备逐个与目标模板进行匹配，遴选出最优的候选目标作为对第k+1帧目标的跟踪结果。

第三步：采用双重匹配融合的方法对目标进行匹配，进一步提升对目标的匹配精度和对不同视频情况的适应性。具体方法和步骤如下：

(3.1)按照Wang等(D.Wang,H.Lu,M.-H.Yang.Online object tracking withsparse prototypes.IEEE Transactions on Image Processing,2013,22(1):314-325)给出的主成份分析(PCA)稀疏表示方法来确定匹配目标，求出该方法的最终匹配目标的坐标值该方法主要包括下述步骤：

(3.1.1)构造字典。将视频序列前N帧(N取20)人工标注的运动目标区中的各个目标区归一化为32×32像素的矩形区域并将该区内的像素表达成列向量，构建出一个1024×20的目标模板矩阵。将该矩阵去均值后进行K-L变换，计算矩阵的特征值，并由大到小排列，取其中前L个特征值(L为常数，可在10至20内取值)对应的特征向量作为目标模板字典中的码本矩阵U，同时在字典后加入一个1024×1024的单位矩阵I，构造一个1024×(L+1024)的字典矩阵[U I]；

(3.1.2)求解稀疏系数矢量和最小匹配误差。按照第一步和第二步中所述的方法，在第k+1帧中产生M个候选目标区(M可在400至800范围内取值)，将各个候选目标区中的像素按(3.1.1)中所述的方法变换为1024维的列向量，再将其与目标模板的均值做差值得到建立下述稀疏表示模型:

\begin{matrix} {\overset{&OverBar;}{v}}_{i} = [\begin{matrix} U & I \end{matrix}] [\begin{matrix} z_{i} \\ e_{i} \end{matrix}], & i = 1, ..., M \end{matrix} - - - (11)

其中，U为字典中L个PCA基向量组成的矩阵，I为字典中的单位矩阵，z_i和e_i分别为候选目标投影到字典中U和I上的稀疏系数矢量，M为候选目标个数(M在400至800范围内取值)。通过下面的优化方法来求解稀疏系数矢量z_i和e_i：

\begin{matrix} \underset{z_{i}, e_{i}}{m i n} \frac{1}{2} {|| {\overset{&OverBar;}{v}}_{i} - {Uz}_{i} - e_{i} ||}_{2}^{2} + λ {|| e_{i} ||}_{1}, & i = 1, ..., M \end{matrix} - - - (12)

其中||.||₁和||.||₂分别代表1范数和2范数，λ>0为规格化系数。

具体求解式(12)的算法由Wang等(D.Wang,H.Lu,M.-H.Yang.Online objecttracking with sparse prototypes.IEEE Transactions on Image Processing,2013,22(1):314-325)给出，此处从略。

设用上述方法求解得到的最优稀疏系数矢量为z_j和e_j，所对应的最小匹配误差为:

并同时可得到加权系数矢量w_j＝[w_j,1,w_j,2,…,w_j,1024]^T。该权值矢量的取值由所求得的系数矢量e_j来决定：当e_j,l＝0(或当e_j,l<T∈(0,0.1)),取w_j,l＝1；否则,取w_j,l＝0。

(3.2)直接利用候选区像素与模板图像之间的误差来确定匹配目标。按照第一步和第二步中所述的方法，在第k+1帧中产生M个候选目标区(M取值与步骤(3.1)中相同)，将各个候选目标区中的像素按(3.1.1)中所述的方法变换为1024维的列向量，再将其与目标模板的均值做差值得到然后按下式求取最小匹配误差E_Pixel,q和最佳匹配目标

其中权值矢量w_j仍采用由(3.1)中所得到的结果。

(3.3)采用双重匹配加权融合方法对运动目标进行最终定位。该方法主要包括下述步骤：

(3.3.1)计算由(3.1)中所采用的PCA稀疏表示方法在前L(L在10至20范围内取值)帧中所求得的最小匹配误差的均值和标准差：

\begin{matrix} {\overset{&OverBar;}{E}}_{P C A, j} = \frac{1}{L} Σ_{t = k}^{k - L + 1} E_{P C A, j}^{t}, & σ_{P C A, j} = {(\frac{1}{L} Σ_{t = k}^{k - L + 1} {(E_{P C A, j}^{t})}^{2} - {({\overset{&OverBar;}{E}}_{P C A, j})}^{2})}^{1 / 2} \end{matrix} - - - (14)

其中表示在第t帧中用PCA稀疏表示方法求得的最小匹配误差。

(3.3.2)计算由(3.2)中所采用的直接匹配方法在前L帧中所求得的最小匹配误

差的均值和标准差：

\begin{matrix} {\overset{&OverBar;}{E}}_{P i x e l, q} = \frac{1}{L} Σ_{t = k}^{k - L + 1} E_{P i x e l, q}^{t}, & σ_{P i x e l, q} = {(\frac{1}{L} Σ_{t = k}^{k - L + 1} {(E_{P i x e l, q}^{t})}^{2} - {({\overset{&OverBar;}{E}}_{P i x e l, q})}^{2})}^{1 / 2} \end{matrix} - - - (15)

其中表示在第t帧中直接用像素匹配方法求得的最小匹配误差。

(3.3.3)双重匹配方法中的阈值设计与计算：

(i)PCA稀疏表示匹配方法，即在(3.1)中所采用匹配方法)的阈值设计与计算：

阈值1：阈值2：

(ii)直接匹配方法匹配方法(即在(3.2)中所采用匹配方法)的阈值设计与计算：阈值1：阈值2：

(3.3.4)目标定位的双重匹配加权融合算法：

(i)当且则采用PCA稀疏表示匹配方法(即步骤(3.1))得到的匹配结果作为最终结果。即

({\hat{x}}_{F u s i o n, k + 1}, {\hat{y}}_{F u s i o n, k + 1}) = ({\hat{x}}_{P C A, k + 1}, {\hat{y}}_{P C A, k + 1}); - - - (16)

(ii)当且则采用直接匹配方法(即步骤(3.2))得到的匹配结果作为最终结果。即

({\hat{x}}_{F u s i o n, k + 1}, {\hat{y}}_{F u s i o n, k + 1}) = ({\hat{x}}_{P i x e l, k + 1}, {\hat{y}}_{P i x e l, k + 1}); - - - (17)

其中w₁和w₂为权值，分别采用下面公式进行计算：

\begin{matrix} w_{1} = \frac{{\overset{&OverBar;}{E}}_{P C A, j}}{{\overset{&OverBar;}{E}}_{P C A, j} + {\overset{&OverBar;}{E}}_{P i x e l, q}}, & w_{2} = \frac{{\overset{&OverBar;}{E}}_{P i x e l, q}}{{\overset{&OverBar;}{E}}_{P C A, j} + {\overset{&OverBar;}{E}}_{P i x e l, q}} \end{matrix} . - - - (19) .

Claims

步骤1：建立目标位置的预测模型，在跟踪过程中以对目标位置的预测值为中心对下一帧目标进行搜索；

x_{k + 1} = x_{k} + v_{x, k} + \frac{1}{2} a_{x, k} + n_{x, k} - - - (1)

y_{k + 1} = y_{k} + v_{y, k} + \frac{1}{2} a_{y, k} + n_{y, k} - - - (2)

v_x,k＝Δx_k/Δt_k＝x_k-x_k-1， (3)

a_x,k＝Δv_x,k/Δt_k＝(v_x,k-v_x,k-1)＝x_k-2x_k-1+x_k-2 (4)

得到对下一时刻目标中心位置横坐标x_k+1的预测模型为：

{\overset{&OverBar;}{x}}_{k + 1 | k} = \frac{5}{2} x_{k} - 2 x_{k - 1} + \frac{1}{2} x_{k - 2} - - - (5)

对下一时刻目标中心位置纵坐标y_k+1的预测模型为：

{\overset{&OverBar;}{y}}_{k + 1 | k} = \frac{5}{2} y_{k} - 2 y_{k - 1} + \frac{1}{2} y_{k - 2} - - - (6)

步骤2.1：估计模型(1)和(2)中随机噪声n_x,k和n_y,k的方差(和)：

\begin{matrix} {\hat{σ}}_{x, k}^{2} = \frac{1}{L} Σ_{l = k + 1 - L}^{k} {({\overset{&OverBar;}{x}}_{l | l - 1} - x_{l})}^{2}, & {\hat{σ}}_{y, k}^{2} = \frac{1}{L} Σ_{l = k + 1 - L}^{k} {({\overset{&OverBar;}{y}}_{l | l - 1} - y_{l})}^{2} \end{matrix} - - - (7)

步骤2.2:确定目标的搜索范围

\begin{matrix} σ_{p, x} = {\hat{σ}}_{x, k}, & σ_{p, y} = {\hat{σ}}_{y, k} \end{matrix} - - - (8)

以(σ_p,x,σ_p,y)作为度量参数来确定目标的搜索范围：分别以正态分布N和产生一对随机数(x′_k+1,i,y′_k+1,i)作为下帧目标的一个候选搜索位置(i＝1,2,...,M)；

\begin{matrix} [\begin{matrix} {\hat{x}}_{k + 1, i} \\ {\hat{y}}_{k + 1, i} \end{matrix}] = [\begin{matrix} c o s (θ) & - s i n (θ) \\ s i n (θ) & \cos (θ) \end{matrix}] [\begin{matrix} 1 & s_{x y} \\ 0 & 1 \end{matrix}] [\begin{matrix} 1 + a_{x} & 0 \\ 0 & 1 + a_{y} \end{matrix}] [\begin{matrix} {Δx}_{k} \\ {Δy}_{k} \end{matrix}] + [\begin{matrix} x_{k + 1, i}^{'} \\ y_{k + 1, i}^{'} \end{matrix}], & (i = 1, .., M) \end{matrix} - - - (9)

重复该步骤产生M个的候选目标区，以备在步骤3中逐个与目标模板进行匹配，遴选出最优的候选目标作为对第k+1帧目标的跟踪结果；

步骤3.1.1：构造字典；将视频序列前N帧人工标注的运动目标区中的各个目标区归一化为32×32像素的矩形区域并将该区内的像素表达成列向量，构建出一个1024×20的目标模板矩阵；将该矩阵去均值后进行K-L变换，计算矩阵的特征值，并由大到小排列，取其中前L个特征值对应的特征向量作为目标模板字典中的码本矩阵U，同时在字典后加入一个1024×1024的单位矩阵I，构造一个1024×(L+1024)的字典矩阵[U I]；

\begin{matrix} \min_{z_{i}, e_{i}} \frac{1}{2} {|| {\overset{&OverBar;}{v}}_{i} - {Uz}_{i} - e_{i} ||}_{2}^{2} + λ {|| e_{i} ||}_{1}, & i = 1, ..., M \end{matrix} - - - (11)

步骤3.2：直接利用候选区像素与模板图像之间的误差来确定匹配目标；采用第一步和第二步中所述的方法，在第k+1帧中产生M个候选目标区，将各个候选目标区中的像素按步骤3.1.1中所述的方法变换为1024维的列向量，再将其与目标模板的均值做差值得到(i＝1,...,M)，然后按下式求取最小匹配误差E_Pixel,q和最佳匹配目标

其中权值矢量w_j仍采用由步骤3.1中所得到的结果；

\begin{matrix} {\overset{&OverBar;}{E}}_{P C A, j} = \frac{1}{L} Σ_{t = k}^{k - L + 1} E_{P C A, j}^{t}, & σ_{P C A, j} = {(\frac{1}{L} Σ_{t = k}^{k - L + 1} {(E_{P C A, j}^{t})}^{2} - {({\overset{&OverBar;}{E}}_{P C A, j})}^{2})}^{1 / 2} \end{matrix} - - - (14)

其中表示在第t帧中用PCA稀疏表示方法求得的最小匹配误差；

步骤3.3.3：双重匹配方法中的阈值设计与计算：

(i)PCA稀疏表示匹配方法的阈值设计与计算：

阈值1：阈值2：

(ii)直接匹配方法匹配方法的阈值设计与计算：

阈值1：阈值2：

步骤3.3.4：目标定位的双重匹配加权融合算法：

{\hat{x}}_{F u s i o n, k + 1} = w_{1} \cdot {\hat{x}}_{P i x e l, k + 1} + w_{2} \cdot {\hat{x}}_{P C A, k + 1}, {\hat{y}}_{F u s i o n, k + 1} = w_{1} \cdot {\hat{y}}_{P i x e l, k + 1} + w_{2} \cdot {\hat{y}}_{P C A, k + 1} - - - (18)

其中w₁和w₂为权值，分别采用下面公式进行计算：

\begin{matrix} w_{1} = \frac{{\overset{&OverBar;}{E}}_{P C A, j}}{{\overset{&OverBar;}{E}}_{P C A, j} + {\overset{&OverBar;}{E}}_{P i x e l, q}}, & w_{2} = \frac{{\overset{&OverBar;}{E}}_{P i x e l, q}}{{\overset{&OverBar;}{E}}_{P C A, j} + {\overset{&OverBar;}{E}}_{P i x e l, q}} \end{matrix} - - - (19) .