CN104281852A

CN104281852A - 一种基于融合2d检测的目标跟踪算法

Info

Publication number: CN104281852A
Application number: CN201310291434.7A
Authority: CN
Inventors: 严嘉祺; 王亚捷
Original assignee: SHANGHAI YINGLIAN SOMATOSENSORY INTELLIGENT TECHNOLOGY Co Ltd
Current assignee: SHANGHAI YINGLIAN SOMATOSENSORY INTELLIGENT TECHNOLOGY Co Ltd
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2015-01-14

Abstract

本发明涉及一种融合2D检测方法的实时目标跟踪算法。所述方法包括：建立目标物体在当前背景下的外观模型，使用基于LK稀疏光流的方法对目标物体进行连续跟踪，利用目标物体的外观模型在画面中检测手掌的位置，以及融合跟踪与检测步骤的结果，以得到更为可靠、准确的目标物体位置。本发明提出的基于级联型分类器，半自动的线下训练方式，以及能够同时融合跟踪结果的检测方法克服了传统的单纯基于分类器的检测方法较难应付目标物体形变、训练过程中需要大量的手工标记，以及传统跟踪算法的“退化问题”。

Description

一种基于融合2D检测的目标跟踪算法

技术领域

本发明属于机器视觉相关技术领域，更具体的，涉及一种融合2D检测方法的实时目标跟踪算法。

背景技术

在计算机视觉领域里，实时运动目标的跟踪是一个核心的研究方向。广泛应用于视频监控，自然人机接口，增强现实，军事制导等领域。因此，如何实现对运动稳定、准确和实时的跟踪，是一个需要重点研究的问题。

传统的运动目标跟踪算法存在如下一些问题：1)事先需要初始化跟踪器，即标记目标在画面里的位置，而后跟踪算法才能开始工作；2)目标物体在画面中消失时，跟踪器不能及时感知；3)目标物体在画面中消失，再出现时，需要重新初始化；4)在跟踪过程中，由于误差是随时间累积的，因而跟踪算法极易出现“退化”现象。

由于传统的跟踪算法存在如上限制，人们提出了通过在线下训练目标物体外观统计模型，从而为跟踪器提供初始标记的方法。但是线下有监督学习往往需要大量的手工标记工作，并且鲁棒性不强，对光线、背景、目标物体形变等的适应能力较弱，因而很难得到实际应用。

发明内容

为解决上述由有监督学习带来的问题。本发明公开了一种线下半自动训练级联型分类器的方法，解决跟踪算法需要初始化和“退化”问题。

为了达到上述目的，本发明采用如下技术方案：

S1：通过线下学习，建立目标物体在当前背景下的外观模型，得到的模型会在S3中用于目标物体的检测。S1中的线下学习，是一种半自动的学习方法，即用户在提供目标物体的初始位置后，学习机构会自动提供相关特征对应的label，无需用户手动干预。

S2：使用基于LK稀疏光流的方法对目标物体进行连续跟踪。目标物体被表示为一个矩形子图像(patch)，S2在连续的两帧图像之间跟踪该patch。

1)首先在当前图像帧I_t+1里通过LK光流法寻找上一帧图像I_t里定义的特征点(前向光流)；同样在I_t中寻找前一步在I_t+1中被前向光流发现的特征点(后向光流)。

2)计算前向光流匹配到的特征点对周围7×7邻域子图像的归一化相关系数。取得到的归一化相关系数集合的中位数。归一化相关系数小于该中位数的点对，被认为是不可靠的匹配，予以滤除。

3)计算后向光流匹配到的特征点对之间的欧几里得距离，取欧式距离集合的中位数。相互之间欧式距离大于该中位数的点对，被认为是不可靠的匹配，同样予以滤除。

4)对上述三步得到的I_t+1中的点集做依据空间位置聚类分析，若这些点可以聚为一类，则取点集中个点空间横纵坐标的中位数为新的目标物体的位置，否则跟踪失败。

S3利用在步骤S1中得到的目标物体的外观模型，扫描被网格划分的各个patch，对patch进行分类，以检测目标物体的位置。在S3种我们用到了一种级联型的分类方法，以减少运算量。

1)使用高斯混合模型(GMM)，提取前景，对被认为是背景的patch不做后续的处理。

2)使用随机森林(RF)分类器，对前景patch进行分类。

3)使用最近邻居(NN)分类器，结合LBP特征，对通过RF的patch进行分类。

4)对通过NN分类的patch，进行聚类，计算聚类中心作为目标物体的位置。

S4依据一定的规则，融合S2跟踪步骤与S3检测步骤的结果，得到更为可靠、准确的手掌位置。

附图说明

图1基于LK光流的跟踪方法流程

图2级联型检测方法流程

图3LBP特征提取示意图

图4检测与跟踪结果的融合规则

具体实施方式

下面对本发明的技术方案做进一步的详细说明：

S1：建立目标物体的外观统计模型。

S1a：在第一帧画面中标记出包含目标物体的矩形框。

S1b：利用滑窗，选择与标记的目标物体最近的10个patch，作为正例：在与目标物体patch重合面积小于目标物体patch面积20％的滑窗集合中随机选择100个patch，作为反例。

S1c：建立目标物体的统计模型。目标物体统计模型的建立包括两个部分，建立用于随机森林分类器的相关参数，以及建立用于最近邻居分类器的样本集合。

随机森林分类器中使用的特征定义如下：

我们使用的随机森林分类器包含10个子分类器，每个子分类器都会维护一个包含2¹³=8192个项的后验概率p_i(y|x)，其中y∈{0，1}，x是一个13×1维二进制值列向量，该向量的具体含义参考S3b。p_i(y|x)依据下列公式建立：

p_{i} = (y | x) = \frac{pos}{pos + neg} / 10

其中pos和neg分别表示落入相应x的正例和反例的个数。

在最近邻居分类器中，我们定义两组样本集合，true-positive和false-positive样本集。其中，true-positive样本是指被定义为正例样本，并且按照S3c步骤所述方法得到的置信度小于0.65的一类patch集合，false_positive样本是指被定义为正例样本，并且按照S3c步骤所述方法得到的置信度大于0.5的一类patch集合。我们计算并存储true-positive和false-positive样本集合中各个patch的LBP特征。

S2：使用基于LK光流的方法跟踪手掌。该方法的输入是t时刻的图象I_t、t+1时刻的图像I_t+1和时刻包含手掌的矩形框B_t，输出是t+1时刻包含手掌的矩形框B_t+1。其处理流程如图1所示：

S2a：光流跟踪法一般基于特征点进行，本发明中为减少运算量，直接对patch进行网格划分，提取特征点。在patch边缘5个像素以内的区域里，水平方向和竖直方向等距离取10个像素作为特征点。得到点集P_a={p_a1，p_a2，p_a3…，p_a100}。

S2b：利用Lucas-Kanade光流跟踪法在I_t+1中跟踪点集P_a，得到点集P_b={p_b1，p_b2，p_b3…，P_bm}，其中m≤100。

S2c：同上用LK光流法在I_t中跟踪点集P_b，得到点集P_c={p_c1，p_c2p_c3…，p_cn}，其中n≤m。

S2d：滤除前两步跟丢的点，得到点集P′_a={p′_a1，p′_a2，p′_a3…，p′_an}，P′_b={p′_b1，p′_b2，p′_b3…，p′_bn}和P_c={p_c1，p_c2，p_c3…，p_cn}，注意此时P′_a，P′_a和P_c中的点按下标一一对应。

S2e：计算P′_a和P′_b中对应点7×7邻域图像像素的归一化相关系数(NCC)，取NCC序列的中值Med_ncc，7×7邻域对应NCC小于Med_ncc的点周围像素的相似度较低，被认为是不可靠的，予以滤除。

S2f：计算P′_a和P_c中对应点的欧几里得距离，取欧几里得距离序列Med_eud。事实上，正确的跟踪结果是与实际采取的是前向跟踪，还是后向跟踪是不相关的，即前向跟踪与后向跟踪生成的应是同一条轨迹。因此，可以认为对应欧几里得距离大于Med_eud的点是不可靠的，予以滤除。如果Med_eud>10，则认为此轮跟踪的结果是不可靠的，跟踪失败。

S2g：经过上两步，得到点集P″_a和P″_b，他们分别是I_t和I_t+1中的点，并且是一一对应的。P″_a和P″_b可以被用来计算I_t+1中手掌空间位置的漂移，以得到B_t+1。B_t+1中心相对B_t中心的漂移为P″_a和P″_b中对应点空间位置漂移的中值。

S3：在I_t+1中检测手掌的位置，我们使用了级联型的检测方法，如图2所示：

S3a”对I_t+1进行基于高斯混合模型(GMM)的背景消去，之后两步的分类不对背景patch作处理，以减少运算量。

S3b：使用随机森林分类器(Random Forest)，对patch进行分类。

我们的随机森林分类器包含10个子分类器，每个分类器进行13组像素灰度比较，得到一个13位的二进制编码x_t，每个分类器都会维护一个后验概率p_i(y|x)。

每个子分类器比较patch中的13组像素点，这13组像素点在patch中的位置是在线下随机生成的并且在整个检测过程中不再变化。

x的每一种状态都会映射到一个后验概率，因此p_i(y|x)包含8192个项。S1c步骤中的“更新随机森林分类器”在此处即为，计算13位二进制码，并更新对应的后验概率。

经过特征映射后的后验概率项求和，如果小于50％，则拒绝该patch，否则接受该patch。

S3c：使用最近邻居分类器(NN)，对patch进行分类。

1.首先将待分类patch归一化为15×15的norm_patch。提取norm_patch的LBP特征。LBP是一种从纹理局部近邻定义中衍生出来的，具有较强分类能力，较高计算效率的一类特征。本发明中使用的是原始LBP算子。基本LBP算子对图像上每一个像素点用其周围3×3邻域像素点的灰度值对该像素点进行纹理描述。其公式为：

其中，当门限设为0时，每个像素点生成的LBP特征如图3所示。

该像素的LBP特征是二进制值：11001011。

待分类patch依次和true-positive样本集和false-positive样本集中的patch求NCC，得到与true-positive样本集NCC的最大值ncc_max_tp和与false-positive样本集NCC的最大值ncc_max_fp，依据下列公式计算该patch的置信度conf：

conf = \frac{1 - ncc_\max_fp}{(1 - ncc_\max_fp) + (1 - ncc_\max_tp)}

置信度conf小于0.65则拒绝该patch。

S3d：对没有被上面三步拒绝的patch，采用k-mean算法进行聚类分析，如果最终得到一个聚类，计算patch的平均位置作为检测到的手掌的位置。两个patch间的距离定义为他们1减去他们重合面积的百分比。

S4：结合一定规则，融合S2和S3的结果，其规则如图4所示。

其中，conf_tracker和conf_detector为相应patch用NN分类输出的conf值。

Claims

1.一种基于融合2D检测的目标跟踪算法，其特征在于，所述方法包括：

建立基于随机森林分类器和最近邻居分类器的目标物体外观统计模型；

在当前帧中跟踪前一帧的目标物体位置；

在当前帧中检测目标物体位置；

融合跟踪与检测的结果。

2.如权利1所要求的建立目标物体的外观模型，其特征在于，更新的信息包括用于随机森林分类器的一组后验概率p_i(y|x)以及用于最近邻居分类器的一组true-positive子图像和一组false-positive子图像。

3.根据权利2要求，随机森林分类器包含10组子分类器，每个子分类器维护一个后验概率p_i(y|x)。

4.根据权利3要求，用于子分类器的后验概率p_i(y|x)，其含义是一个13维二进制特征向量是目标物体的概率。

5.根据权利4要求，13维特征向量的计算方法为：在待分类子图像中随机抽取13组点对，各自比较它们之间灰度的大小，以形成该13维二进制向量。

6.根据权利2要求，true-positive样本是指被定义为正例样本，并且按照最近邻居分类器计算出的置信度小于0.65的一类patch集合，false_positive样本是指被定义为正例样本，并且按照最近邻居分类器计算出的置信度大于0.5的一类patch集合。

7.如权利1要求，跟踪目标物体位置，其特征在于，直接提取网格点作为特征点，做前后向的LK光流跟踪，以前后向跟踪前后匹配点周围7×7邻域的归一化相关系数和匹配点间欧式距离序列的中值为阀值，滤除不可靠的特征点以得到当前帧中目标物体的位置。

8.根据权利7要求，并当匹配点间的欧式距离中值小于10时，定义为跟踪失败。

9.如权利1要求，检测目标物体位置，其特征在于，通过基于GMM的前景检测，随机森林分类器和最近邻居分类器构成的级联型检测器检测目标物体的位置。通过K-mean聚类算法获取目标物体的位置。

10.根据权利9要求，随机森林分类器的分类边界为，在10个子分类器中，待分类子图像映射成的13维二进制向量为目标物体的概率和是否大于0.5，大于0.5则被定义为目标物体，否则被定义为背景。

11.根据权利9要求，最近邻居分类器的分类边界为，分别计算待分类子图像与true-positive和false-positive样本集中样本的最大归一化相关系数ncc_max_tp和ncc_max_fp，令：

conf小于0.65则认为该子图像为背景。