CN104392437A

CN104392437A - 基于多细胞块状态融合的对象跟踪方法

Info

Publication number: CN104392437A
Application number: CN201410633195.3A
Authority: CN
Inventors: 权伟; 陈锦雄; 张卫华; 江永全; 何武
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2014-11-11
Filing date: 2014-11-11
Publication date: 2015-03-04
Anticipated expiration: 2034-11-11
Also published as: CN104392437B

Abstract

本发明提供了一种基于多细胞块状态融合的对象跟踪方法，属于视觉对象跟踪技术领域。它能有效地解决对象旋转、扭曲、缩放等非刚性运动变化以及遮挡下的跟踪问题。包括以下步骤：从初始图像中选择并确定要跟踪的目标对象。可以通过运动目标检测方法自动提取或人机交互方法手动指定。在目标对象区域内按照随机生成的中心点位置、设置目标细胞块。在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的视频文件分解为多个帧组成的图像序列，逐个提取帧图像作为输入图像。如果输入图像为空，则整个流程中止。配置中各个细胞块的状态，根据其对应的目标细胞块确定最佳配置。目标定位用于估计当前目标的状态。

Description

基于多细胞块状态融合的对象跟踪方法

技术领域

本发明属于计算机视觉对象跟踪技术领域，特别涉及计算机图形图像处理技术领域。

背景技术

视觉对象跟踪是许多计算机视觉应用的基本和关键问题，如视频分析，智能监控，人机交互，行为识别等，尽管研究人员对此做出了大量的工作，但要在复杂的环境中实现实时稳定的对象跟踪仍然是极具挑战性的任务。

目前依赖检测或者学习的对象跟踪方法(如TLD,Tracking-Learning-Detection)受到越来越广泛的关注。这些方法通过学习某种分类器，如支持向量机、自举、随机森林，或者随机蕨等来发掘未知的数据和信息，进而增强其对目标及其场景变化的适应能力。在基础(短时)跟踪(如KLT、均值漂移、粒子滤波等)失败时，这些分类器则被用作检测器进行目标检测，以达到恢复跟踪的目的。为了保证分类器学习的准确性，同时又能尽可能的适应目标的变化，Babenko等提出了袋学习的思想和OMB方法(Online-MILBoost)，Kalal等提出了P-N(Positive-Negative)正负样例学习的方法。然而，这些方法仍然难以处理非刚性运动变化以及遮挡等问题。对此，霍夫森林提供了一种可能的解决方法。霍夫森林是一种融合霍夫变换的随机森林，它由多个决策树组成，每棵树将图像或者视频中的局部表观映射到它的叶节点中，而每个叶节点则包含在霍夫空间中的概率投票。由此，对象的定位或者检测被看作是寻求在霍夫图像中的概率极大值点。然而这样的检测过程十分耗时，因此基于霍夫森林的对象跟踪方法在实时性上远不及基于随机蕨的方法。此外，基于稀疏表示和学习的对象跟踪方法，由于其较稳定的跟踪性能受到越来越多的关注和研究，然而这些方法十分依赖样例模板，同样存在不小的失败风险，且计算结构复杂而难以满足实际实时性的要求。

一般情况下，场景越复杂，跟踪或者检测就变得越困难，由于计算资源的局限和效率的要求，对象表观模型不能过于复杂。实际上，除了目标本身以外，背景信息也是十分有用且重要的信息。Yang等采用图像分割融合方法，通过时空分析发掘辅助对象作为跟踪协助，其对应实现的CAT跟踪系统表现出较稳定的跟踪结果。然而该辅助对象的获取基于一定的运动假设，因而难以适应更复杂的跟踪环境，且计算效率有待进一步的提高。Grabner等提出通过获取目标周围有价值的特征点，借此预测目标的位置，增强了跟踪的稳定性，然而检测和匹配所有这些局部特征点的方法在计算上十分耗时。Thang等通过将PNT作为基础跟踪和同时增加对误匹配项的跟踪来改进Grabner等的算法，能够在一定程度上区分与目标相似的对象，从而表现出更好的跟踪性能。Fan等提出学习具有较强区别性的关注区域用以辅助跟踪，然而在场景出现剧烈运动时，受这些局部区域的限制，其计算效率依然不高。Godec等通过对场景进行聚类学习，将背景分类为多个虚拟的类型，取得了较为满意的跟踪效果，但是该方法假设背景只是逐步而细微的改变，这在很多跟踪场合并不成立，因此其应用有限。

因此，本发明提出一种基于多细胞块状态融合的对象跟踪方法。该方法根据目标对象设置多个细胞块，每个细胞块具有其独立的运动状态，所有细胞块的一种状态构成一个配置，即通过配置将这些细胞块的状态信息进行融合，而一个配置对应了一种可能的目标状态。该方法通过产生多个配置，并计算其中最优的配置(置信度最高)进而估计得到目标状态，从而实现目标定位。由于目标状态估计不依赖其整体表观，构成目标的各个细胞块独立运动，且配置的置信度计算简单、快速，因此本发明方法可实现实时稳定的对象跟踪，能够处理目标旋转、扭曲、缩放等非刚性运动变化以及遮挡等问题。此外，本发明方法不仅可以用于单目标跟踪，通过在配置中包含多个目标的细胞块，还可以扩展用于多目标的跟踪。

发明内容

本发明的目的是提供一种基于多细胞块状态融合的对象跟踪方法，它能有效地实现实时稳定的对象跟踪，解决对象旋转、扭曲、缩放等非刚性运动变化以及遮挡下的跟踪问题。

本发明的目的通过以下技术方案来实现：该技术方案包括如下步骤：

(1)目标选取

从初始图像中选择并确定要跟踪的目标对象。目标选取过程可以通过运动目标检测方法自动提取，也可以通过人机交互方法手动指定。

(2)设置目标细胞块

在目标对象区域内按照随机生成的中心点位置、宽和高提取图像块作为目标细胞块，用I表示图像，T表示目标，C₁，C₂，C₃表示细胞块。设x^T,y^T,w^T,h^T分别表示目标的中心点横坐标，中心点纵坐标，以及宽和高，而目标细胞块的数目N＝(w^T×h^T)/10；设C_i＝(x_i,y_i,v_i,x,v_i,y,w_i,h_i,Δw_i,Δh_i,A_i)为第i个目标细胞块，i<N，其中x_i,y_i,v_i,x,v_i,y,w_i,h_i,Δw_i,Δh_i,A_i分别表示第i个目标细胞块的中心点横坐标，中心点纵坐标，横轴方向的速度，纵轴方向的速度，宽，高，宽变化值，高变化值，以及对应的图像块。每个目标细胞块的中心点横坐标，中心点纵坐标，以及宽和高的值均随机产生，只要满足该细胞块包含在目标区域内即可，而其横轴方向的速度，纵轴方向的速度，以及宽变化值和高变化值此时均等于0。

(3)图像输入

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已采集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像。如果输入图像为空，则整个流程中止。

(4)产生配置

配置由细胞块构成，配置中各个细胞块的状态根据其对应的目标细胞块随机生成确定，不同的配置其细胞块的状态不同，一个配置对应了一种可能的目标状态。设为第k个配置，k<M，其中M为配置的总数，这里M＝500，为第k个配置中的第i个细胞块。的计算方法为：首先初始化即使得

C_{i}^{k} = C_{i};

然后随机生成中的以及接着更新即使得

x_{i}^{k} =

x_{i} + v_{i, x}^{k},

y_{i}^{k} = y_{i} + v_{i, y}^{k},

w_{i}^{k} = w_{i} + {Δw}_{i}^{k},

以及

h_{i}^{k} = h_{i} + {Δh}_{i}^{k};

最后根据在当前的图像中提取对应的图像块更新对每个配置及其包含的所有细胞块进行上述的计算，即可生成所需的所有配置。

(5)确定最佳配置

最佳配置即所有配置中置信度值最高的那个配置。设为第k个配置的置信度，其中为第k个配置中的第i个细胞块所对应的图像块与第i个目标细胞块所对应的图像块之间的规则化交叉互相关值(NCC，Normalized Cross-Correlation)。设

f_{k}^{*} =

(x_{i}^{*}, y_{i}^{*}, v_{i, x}^{*}, v_{i, y}^{*}, w_{i}^{*}, h_{i}^{*}, {Δw}_{i}^{*}, {Δh}_{i}^{*}, A_{i}^{*})

表示最佳配置，则

f_{k}^{*} = \underset{k &Element; M}{\arg \max} f_{k} .

(6)目标定位

最佳配置用于估计当前目标的状态。目标的中心点横坐标和纵坐标分别计算为：

x^{T} = \frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot x_{i}^{*},

y^{T} = \frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot y_{i}^{*} .

而目标的宽w^T为前一时刻目标的宽加上目标的高h^T为前一时刻目标的高加上其中由此计算得到目标的位置和大小，完成对目标的定位。跟踪完成，跳转到(2)。

本发明与现有技术相比的优点和效果：该方法根据目标对象设置多个细胞块，每个细胞块具有其独立的运动状态，所有细胞块的一种状态构成一个配置，即通过这种配置将这些细胞块的状态信息进行融合，而一个配置对应了一种可能的目标状态。该方法通过产生多个配置，并计算其中最优的配置(置信度最高)进而估计得到目标状态，从而实现目标定位。由于目标状态估计不依赖其整体表观，构成目标的各个细胞块独立运动，且配置的置信度计算简单、快速，因此本发明方法可实现实时稳定的对象跟踪，能够处理目标旋转、扭曲、缩放等非刚性运动变化以及遮挡等问题。此外，本发明方法不仅可以用于单目标跟踪，通过在配置中包含多个目标的细胞块，还可以扩展用于多目标的跟踪。

附图说明

图1为本发明目标细胞块示意图

图2为本发明的技术流程图

具体实施方式

下面根据附图对本发明做进一步描述：本发明的方法可用于对象跟踪的各种场合，如智能视频分析，自动人机交互，交通视频监控，无人车辆驾驶，生物群体分析，以及流体表面测速等。

本发明技术方案包括如下步骤：

(1)目标选取

(2)设置目标细胞块

在目标对象区域内按照随机生成的中心点位置、宽和高提取图像块作为目标细胞块，图1中，用I表示图像，T表示目标，C₁，C₂，C₃表示细胞块。设x^T,y^T,w^T,h^T分别表示目标的中心点横坐标，中心点纵坐标，以及宽和高，而目标细胞块的数目N＝(w^T×h^T)/10；设C_i＝(x_i,y_i,v_i,x,v_i,y,w_i,h_i,Δw_i,Δh_i,A_i)为第i个目标细胞块，i<N，其中x_i,y_i,v_i,x,v_i,y,w_i,h_i,Δw_i,Δh_i,A_i分别表示第i个目标细胞块的中心点横坐标，中心点纵坐标，横轴方向的速度，纵轴方向的速度，宽，高，宽变化值，高变化值，以及对应的图像块。每个目标细胞块的中心点横坐标，中心点纵坐标，以及宽和高的值均随机产生，只要满足该细胞块包含在目标区域内即可，而其横轴方向的速度，纵轴方向的速度，以及宽变化值和高变化值此时均等于0。

(3)图像输入

(4)产生配置

C_{i}^{k} = C_{i};

然后随机生成中的以及接着更新即使得

x_{i}^{k} =

x_{i} + v_{i, x}^{k},

y_{i}^{k} = y_{i} + v_{i, y}^{k},

w_{i}^{k} = w_{i} + {Δw}_{i}^{k},

以及

h_{i}^{k} = h_{i} + {Δh}_{i}^{k};

(5)确定最佳配置

f_{k}^{*} =

(x_{i}^{*}, y_{i}^{*}, v_{i, x}^{*}, v_{i, y}^{*}, w_{i}^{*}, h_{i}^{*}, {Δw}_{i}^{*}, {Δh}_{i}^{*}, A_{i}^{*})

表示最佳配置，则

f_{k}^{*} = \underset{k &Element; M}{\arg \max} f_{k} .

(6)目标定位

x^{T} = \frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot x_{i}^{*},

y^{T} = \frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot y_{i}^{*} .

在跟踪过程中，细胞块根据目标对象设置，每个细胞块具有其独立的运动状态，所有细胞块的一种状态构成一个配置，即通过配置将这些细胞块的状态信息进行融合，而一个配置对应了一种可能的目标状态。通过产生多个配置，并计算其中最优的配置(置信度最高)进而估计得到目标的状态(位置和大小)，完成目标定位，从而实现对目标对象的跟踪。

以智能视频分析为例：智能视频分析包含许多重要的自动分析任务，如对象行为分析，视频压缩等，而这些工作的基础则是能够进行稳定的对象跟踪。可以采用本发明提出的跟踪方法实现，具体来说，首先根据目标的选取结果设置目标细胞块，如图1所示；然后在跟踪过程中生成多个配置，每个配置的细胞块状态根据目标细胞块随机生成确定；接着计算所有配置中的最佳配置，即具有最高置信度的那个配置；最后根据最佳配置及其细胞块估计当前目标的状态，完成目标定位，实现对目标对象的跟踪。由于目标状态估计不依赖其整体表观，构成目标的各个细胞块独立运动，且配置的置信度计算简单、快速，因此本发明方法可实现实时稳定的对象跟踪，能够处理目标旋转、扭曲、缩放等非刚性运动变化以及遮挡等问题。

本发明方法可通过任何计算机程序设计语言(如C语言)编程实现，基于本方法的跟踪系统软件可在任何PC或者嵌入式系统中实现实时对象跟踪应用。

Claims

1.基于多细胞块状态融合的对象跟踪方法，所述方法包括如下步骤：

(1)目标选取

从初始图像中选择并确定要跟踪的目标对象，目标选取过程可以通过运动目标检测方法自动提取，也可以通过人机交互方法手动指定；

(2)设置目标细胞块

在目标对象区域内按照随机生成的中心点位置、宽和高提取图像块作为目标细胞块，用I表示图像，T表示目标，C₁，C₂，C₃表示细胞块，设x^T,y^T,w^T,h^T分别表示目标的中心点横坐标，中心点纵坐标，以及宽和高，而目标细胞块的数目N＝(w^T×h^T)/10，设C_i＝(x_i,y_i,v_i,x,v_i,y,w_i,h_i,Δw_i,Δh_i,A_i)为第i个目标细胞块，i<N，其中x_i,y_i,v_i,x,v_i,y,w_i,h_i,Δw_i,Δh_i,A_i分别表示第i个目标细胞块的中心点横坐标，中心点纵坐标，横轴方向的速度，纵轴方向的速度，宽，高，宽变化值，高变化值，以及对应的图像块；每个目标细胞块的中心点横坐标，中心点纵坐标，以及宽和高的值均随机产生，只要满足该细胞块包含在目标区域内即可，而其横轴方向的速度，纵轴方向的速度，以及宽变化值和高变化值此时均等于0；

(3)图像输入

在实时处理情况下，提取通过摄像头采集并保存在存储区的视频图像，作为要进行跟踪的输入图像；在离线处理情况下，将已采集的视频文件分解为多个帧组成的图像序列，按照时间顺序，逐个提取帧图像作为输入图像；如果输入图像为空，则整个流程中止；

(4)产生配置

配置由细胞块构成，配置中各个细胞块的状态根据其对应的目标细胞块随机生成确定，不同的配置其细胞块的状态不同，一个配置对应了一种可能的目标状态；设为第k个配置，k<M，其中M为配置的总数，这里M＝500，为第k个配置中的第i个细胞块；的计算方法为：首先初始化即使得

C_{i}^{k} = C_{i};

然后随机生成中的以及接着更新即使得

x_{i}^{k} =

x_{i} + v_{i, x}^{k}, y_{i}^{k} = y_{i} + v_{i, y}^{k}, w_{i}^{k} = w_{i} + {Δw}_{i}^{k},

以及

h_{i}^{k} = h_{i} + {Δh}_{i}^{k};

最后根据在当前的图像中提取对应的图像块更新对每个配置及其包含的所有细胞块进行上述的计算，即可生成所需的所有配置；

(5)确定最佳配置

最佳配置即所有配置中置信度值最高的那个配置；设为第k个配置的置信度，其中为第k个配置中的第i个细胞块所对应的图像块与第i个目标细胞块所对应的图像块之间的规则化交叉互相关值；设

f_{k}^{*} = (x_{i}^{*}, y_{i}^{*}, v_{i, x}^{*}, v_{i, y}^{*}, w_{i}^{*}, h_{i}^{*}, {Δw}_{i}^{*},

{Δh}_{i}^{*}, A_{i}^{*})

表示最佳配置，则

f_{k}^{*} = \underset{k &Element; M}{\arg \max} f_{k};

(6)目标定位

最佳配置用于估计当前目标的状态；目标的中心点横坐标和纵坐标分别计算为：

x^{T} = \frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot x_{i}^{*}, y^{T} = \frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot y_{i}^{*};

而目标的宽w^T为前一时刻目标的宽加上

\frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot {Δw}_{i}^{*},

目标的高h^T为前一时刻目标的高加上

\frac{1}{R} Σ_{i = 1}^{N} g_{NCC} (A_{i}^{*}, A_{i}) \cdot {Δh}_{i}^{*},

其中由此计算得到目标的位置和大小，完成对目标的定位；跟踪完成，跳转到(2)。