CN106327516A

CN106327516A - 一种基于外观模型的学习型视觉追踪方法

Info

Publication number: CN106327516A
Application number: CN201510367183.5A
Authority: CN
Inventors: 周瑜; 明安龙; 廖鸿宇; 孙放
Original assignee: Beijing Thunderous Yun He Intellectual Technology Co Ltd
Current assignee: NANJING QINGCHEN CREATIVE DIGITAL TECHNOLOGY Co.,Ltd.
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2017-01-11
Anticipated expiration: 2035-06-29
Also published as: CN106327516B

Abstract

本发明提供了一种基于外观模型的学习型视觉追踪方法，该方法首先把图像帧划分成若干超像素区域，然后把分割后的超像素区域聚为正包集和负包集，正包集和负包集可以解释为准确的前景和背景划分；最后使用一个贪心搜索算法来学习每个包的分布，每个包的权重取决于显著性的大小。与现有的基于超像素的建模方法相比，本发明的建模方法在学习过程中没有使用迭代，而是通过一种多示例的学习任务对外观模型进行了建模，克服了基于边界框建模方法自身的局限性，提高了计算效率，能够适用于实时的目标追踪应用；此外，提出了一个两步的过程来进行置信度的划分，保证了置信度划分的有效性，从而大大提高了目标追踪的准确性。

Description

一种基于外观模型的学习型视觉追踪方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于外观模型的学习型视觉追踪方法。

背景技术

视觉追踪的应用很广，包括视频监控和人机交互。因为存在大的非刚性形变、目标外观变化、严重遮挡以及未知的相机运动，如何进行准确高效的视觉追踪还是一个有挑战的问题。视觉追踪分为两类：有区分度的识别和生成识别。有区分度的识别，是把追踪任务当成一种划分前景、背景的二元分类问题，根据当前帧来学习分类器并对之后的帧进行分类。生成识别方法根据之前的目标学习目标外观模型，当有新的帧到来的时候，选择最接近目标模型的候选样本作为真实目标。近年来，提出了一些新的目标建模方法，例如基于子空间的目标表示和基于稀疏表示的外观模型。

在视觉追踪研究领域中，建立可靠的目标外观模型相当重要。因为通常使用矩形边界框对目标进行定位，所以传统的建模方法通常把边界框中的图像区域当成真实目标。然而，在实际应用中，边界框内部不可避免地存在一些背景噪声，对于非刚性的目标而言尤其严重，影响结果的准确性。本发明的视觉追踪方法通过把前景划分的过程精细化，即假设前景区域包含一些可以解释为可靠的目标区域的正包集，利用可靠的目标区域来构建目标模型，克服上述缺陷。

本发明对多实例学习(MIL)范式的一般假设进行了推广。MIL的基本假设是：如果包中至少有一个实例是正的，该包就是正的；如果所有的实例都是负的，该包就是负的。通过把图像帧分为一些互不重叠的超像素区域，直观发现在目标框内至少有一个超像素区域是正的，边界框外的所有的超像素区域都是负的。因此，这种情况符合MIL的假设。

发明内容

本发明的目的在于针对上述技术存在的缺陷，提供了一种基于外观模型的学习型视觉追踪方法，该方法首先把图像帧划分成若干超像素区域，然后把分割后的超像素区域聚为正包集和负包集；最后使用一个贪心搜索算法来学习每个包的分布。本发明的建模方法在学习过程中没有使用迭代，而是通过一种多示例的学习任务对外观模型进行了建模，克服了基于边界框建模方法自身的局限性，提高了计算效率，能够适用于实时的目标追踪应用；此外，提出了一个两步的过程来进行置信度的划分，保证了置信度划分的有效性，从而大大提高了目标追踪的准确性。

本发明是通过如下技术方案实现的，一种基于外观模型的学习型视觉追踪方法，其特征在于：该方法包括以下步骤：

步骤1：学习前景背景集：对训练中的帧进行过分割，整个过程符合(MIL)范式，使用正包来对边界框内部的目标进行建模，同时用负包集来表示背景；采用净化后的包来学习目标中的每一块，使得外观模型获得更准确的前景划分结果；

步骤2：学习包集分布：采用贪心搜索算法获取正包集和负包集的数目，并分别对获取到的每个正包集和负包集进行学习；

步骤3：学习每个包集的权重：给更有辨识度的块分配更大的权重，使正包集和负包集的边缘得到最大化；

步骤4：对后续的帧进行判断：

步骤4.1：对于一个新的帧，首先获取搜索区域并抽取出搜索区域内的N个超像素；

步骤4.2：然后为上述每个超像素分配一个超像素值，进而获得每个超像素的置信度；

步骤4.3：根据公式生成一些候选的目标状态，已知，目标状态与目标区域相对应，把候选的目标区域归一化成相同的尺寸；

步骤4.4：当对该新的帧追踪完之后，把追踪完的该新的帧的信息加到训练集中，去掉最老的信息；每U帧更新一次外观模型。

其中，所述步骤2中的贪心搜索算法过程为：首先，进行初始化，把训练集第一帧目标区域中的每一个像素当成一个独立的包；然后，把后续帧中的超像素划分给最近的包；接着，对含有冗余信息的多余的包集进行合并、优化；最后，得到正包集的高斯分布和负包集的分布。

所述步骤4.2中为每个超像素分配一个超像素值得过程为：首先为每个超像素分配二进制类标签，然后对二进制类标签进行定义，使得每一个超像素被分配了正标签或负标签。

本发明有益效果是：

1、本发明提出了一种基外观模型的学习型新颖的目标建模方法，把已知图像分解成一些互相不遮挡的超像素区域之后，把边界框内部的超像素标定为正包，把边界外部的超像素标定为负包，克服了基于边界框建模方法自身的局限性。

2、通过在模板学习的过程中寻找一种贪心算法舍弃迭代，适用于实时目标追踪应用，提高了计算效率。

3、提出了一个两步的过程来进行置信度的划分，避免了不可靠的划分，提高了追踪的性能，从而达到比之前的方法计算起来更快，而且实验效果优于平均水平的效果，大大提高了目标追踪的准确性。

附图说明

图1是本发明所述方法的流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

一种基于外观模型的学习型视觉追踪方法，其特征在于，该方法包括以下步骤：

步骤1：学习前景背景集：对训练中的帧进行过分割，整个过程符合(MIL)范式，使用正包来对边界框内部的目标进行建模，同时用负包集来表示背景；通过正负包的信息，可以估计目标的位置；

假设正的包集跟负的包集是独立的，置信度的划分可以用下面的方法来判定：

C(r_i)＝p(l(r_i)＝1|B⁺)p(l(r_i)＝1|B^-)，其中，B⁺和B^-代表正包集和负包集；

为了去掉边界框中的负超像素集，需要计算边界框中的超像素是背景的可能性，超像素对之间的距离可以定义如下：其中，代表边界框内的第i个超像素的特征向量，代表边界框外的第j个超像素的特征向量；

使用一个预先定义的阈值λ_d，特征之间的距离可以被量化为一个二值问题，公式如下：

{ind}_{i j} = \{\begin{matrix} 1 & D_{i j} < λ_{d} \\ 0 & D_{i j} &GreaterEqual; λ_{d} \end{matrix},

其中，1代表着两个超像素很相似；

根据下面的公式来判定当前的超像素是否因为从正样本中移除：其中，Nⁱ代表与边界框内部的超像素相似的数目，N^o代表与边界框外部的超像素相似的数目；当ρ_r大于λ_r的时候，当前的超像素就会被移除，进入负包集中；

最后，采用净化后的包来学习目标中的每一块，使得外观模型获得更准确的前景划分结果。

步骤2：学习包集分布：采用贪心搜索算法获取正/负包集的数目并对给定的正/负包集B⁺/B^-进行学习，具体过程为：首先，进行初始化，把训练集第一帧目标区域中的每一个像素当成一个独立的包，然后，把后续帧中的超像素划分给最近的包，计算公式如下：其中，ind_i代表第i个超像素属于的包，代表第一帧中的的第j个超像素，这样就可以获得正包集和负包集接着，计算正包集中的第i个元素b_i的平均值和个数其中代表平均值；

假设两帧之间没有突变，则可以确定每一个包集都含有一定成分的目标或背景，然而，因为第一帧的超像素跟别的帧的超像素在特征空间中是相似的，所以包集存在冗余信息，这会导致目标区域被划分成到几个包集中，因此，需要对多余的包进行合并，矩阵M⁺用来代表两个包合并的可能性，公式如下：

M^{+} = {m_{i j}^{+}}, m_{i j}^{+} = \{\begin{matrix} 1 & {|| μ_{i}^{+} - μ_{j}^{+} ||}_{2} \leq λ_{d} \\ 0 & {|| μ_{i}^{+} - μ_{j}^{+} ||}_{2} > λ_{d} \end{matrix}

其中，1代表这两个帧可以合并，0代表不可以；在合并之前，初始的正包集是其中是初始集中的第i个正包；我们试图找到的子集来覆盖所有的包，该子集定义为其中包含中的一个或多个包，指代M⁺，根据变量y来进行该优化过程，公式如下：

y_{j} = \{\begin{matrix} 1 & s_{j}^{+} &Subset; B_{o}^{+} \\ 0 & o t h e r w i s e \end{matrix}

最优解满足如下的约束条件：

\min Σ_{j = 1}^{m} y_{j}

s . t . \underset{j : b_{k}^{+} &Element; s_{j}^{+}}{Σ} y_{j} &GreaterEqual; 1, k = 1, 2, ..., n

该约束条件能够确保每个包至少能包括的一个子集，上面的公式是典型的集和覆盖问题，存在多项式难度。因此，为了寻找一个可行解，采用了一种集覆盖贪心算法来求解，该贪心算法的计算复杂度是O(lnn+1)，其中n是原始集中的包数；

最后，获得了正包集的高斯分布和负包集的分布，参数(μ，σ)可以在每个集合中进行更新。

步骤3：学习每个包集的权重：给更有辨识度的块分配更大的权重，使正包集和负包集的边缘得到最大化；计算包的区分度公式如下：

B S (f_{i}^{+}, f_{j}^{-}) = \frac{1}{4} \frac{(u_{i}^{+} - u_{j}^{-})}{σ_{i}^{+ 2} + σ_{j}^{- 2}} + \frac{1}{2} \ln (\frac{σ_{i}^{+ 2} + σ_{j}^{- 2}}{2 σ_{i}^{+} σ_{j}^{-}})

使用来表示特征和所有的负特征的最小聚类，并利用下面的公式来分配权重：

ω_{i}^{+} = \frac{\exp ({BS}_{m i n} (f_{i}^{+}))}{Σ_{j = 1}^{n^{+}} \exp ({BS}_{m i n} (f_{j}^{+}))}

类似地，负包的权重可以用下面的公式获得：

该权重的分配过程能够最大化正包和负包的边缘。

步骤4：对后续的帧进行判断：

步骤4.1：对于一个新的帧I_t+1，首先获取搜索区域R_t+1＝{c_t+1，l_t+1}，其中，c_t+1＝(x_t，y_t)，l_t+1＝λ_lmax(h_t，w_t)，(h_t，w_t)表示帧I_t中目标的高和宽；然后抽取出R_t+1内的N个超像素

步骤4.2：为上述每个超像素分配一个超像素值，首先为每个超像素分配二进制类标签，获得正包集B⁺和负包集B^-，定义这意味着和B⁺的距离；类似地，定义

然后，对二进制类标签进行定义，公式为：

l (r_{t + 1}^{n}) = \{\begin{matrix} 1 & i f & \min (a^{+}) \leq \min (a^{-}) \\ 0 & i f & \min (a^{+}) > \min (a^{-}) \end{matrix},

基于该公式，每一个超像素被分配了正标签或负标签；

最后，求取每个超像素的置信度，置信度公式如下：

\hat{C} (r_{t + 1}^{n}) = \{\begin{matrix} Σ_{i = 1}^{n^{+}} ω_{i}^{+} \exp (- \frac{| | f_{t + 1}^{n} - μ_{i}^{+} | |}{2 σ_{i}^{+ 2}}) i f l (r_{t + 1}^{n}) = 1 \\ Σ_{i = 1}^{n^{-}} ω_{i}^{-} \exp (- \frac{| | f_{t + 1}^{n} - μ_{i}^{-} | |}{2 σ_{i}^{- 2}}) i f l (r_{t + 1}^{n}) = 0 \end{matrix};

其中，n，w_i，μ_i和σ_i是正特征分布或是负特征分布的参数，因为超像素之间是互不遮挡的，可以获得搜索区域R_t+1中的置信度图并且让c_t+1(i，j)代表位置(i，j)的置信度，本实施例中，假设搜索区域外的置信度是-1；

步骤4.3：根据公式高斯分布的运动模型，生成一些候选的目标状态已知，其中状态与候选图像区域对应，把候选的目标区域归一化成相同的尺寸；

状态的置信度公式为：为了处理尺度变换，对C_k进行加权，可以获得其中，代表候选区域的尺寸；

状态可以通过如下公式计算：最大化该公式，可以获得最优解；

步骤4.4：当对该新的帧I_t+1追踪完之后，把追踪完的该新的帧的信息加到训练集中，去掉最老的信息；每U帧更新一次外观模型，本实施例中训练集的长度是L。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内的所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于外观模型的学习型视觉追踪方法，其特征在于，该方法包括以下步骤：

步骤4：对后续的帧进行判断：

步骤4.2：为上述每个超像素分配一个超像素值，进而获得每个超像素的置信度；

2.根据权利要求1所述的视觉追踪方法，其特征在于：所述步骤2中的贪心搜索算法过程为：首先，进行初始化，把训练集第一帧目标区域中的每一个像素当成一个独立的包；然后，把后续帧中的超像素划分给最近的包；接着，对含有冗余信息的多余的包集进行合并、优化；最后，得到正包集的高斯分布和负包集的分布。

3.根据权利要求1所述的视觉追踪方法，其特征在于：所述步骤4.2中为每个超像素分配一个超像素值得过程为：首先为每个超像素分配二进制类标签，然后对二进制类标签进行定义，使得每一个超像素被分配了正标签或负标签。