CN102855486B

CN102855486B - 一种广义图像目标检测方法

Info

Publication number: CN102855486B
Application number: CN201210297337.4A
Authority: CN
Inventors: 赵三元; 李凤霞; 李仲军; 陈宇峰; 王清云; 孙晨升
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-08-20
Filing date: 2012-08-20
Publication date: 2015-02-11
Anticipated expiration: 2032-08-20
Also published as: CN102855486A

Abstract

本发明公开了一种广义图像目标检测方法，属于图像分析处理技术领域。本发明方法结合图像特征提取与学习过程中的样例方法和多实例方法的优势，在此基础上扩展成为多核多实例相似度特征（MKMIS），能够为同一类中具有不同外观的目标进行很好的描述，并能接受一定范围内的配准误差；其次，针对MKMIS特征的弱势，即图像特征维度过高、计算量大的情况，在分类器学习过程中，使用推广的前向特征选择方法，使其能够满足任意条件的损失和约束函数，使分类器可以选择到少量并且有效的图像特征，当进行在线目标检测时，只计算和使用这些特征即可，从而加快目标检测的速度。

Description

一种广义图像目标检测方法

技术领域

本发明涉及一种图像目标检测方法，尤其涉及一种多核多实例相似度特征与前向特征选择的广义图像目标检测方法，属于图像分析处理技术领域。

背景技术

在图像分析领域中，目标检测是一项重要的工作。通常的方法是利用模式识别技术，通过滑动窗口对图像进行遍历实现。在遍历窗口的过程中，分类器对每个当前窗口进行决策，判断它是目标或是背景。近些年的研究对于某些类型目标的检测(例如，人脸，行人，车辆等)取得了一定的成果。然而，广义目标类型的检测仍然是个有待解决的问题。

解决该问题的难点在于，语言上关于一个类的概念，跟图像中实际观察到的该类的特征之间存在着差距，很难精确给出一个概念对应的特征的分布。这一现象通常称为语义鸿沟。直观来看即是，基于语义的目标类能表现出风格迥异的外观。例如，车辆类包含了多种亚类：巴士、轿车、卡车等。

对于复合结构或者复杂结构的目标，其视觉外观会受到其各个部件设置的影响。例如，每个部件具有不同的位置，每个部件还可以包含自己的亚类。这些变化条件使目标类的潜在外观设置数目以指数级增长。还有一些外在因素，如视角、光照进一步加剧了目标的外观变化范围。

为解决这一问题，许多研究工作致力于设计出具有高区分度的特征，为目标检测提供更有效的信息。然而，由于目标类在其特征空间中往往具有多模型分布的特点，即分类边界具有不规则性，如何为这种分布找到合理的分类边界，是模式识别工作面临的一个难题。

目前，解决多模型分布问题的最直观、最广泛使用的技术是利用分治思想，将目标实例通过人工或者机器自动分成亚类。由于每个亚类中目标具有相似的外观特征分布，因此从每一类中可以学习到一个模型。如果一个测试实例属于该目标的某个亚类，那么该测试实例被分类器判定属于该目标类，也有方法将该实例与在每个亚类中的计分(score)作为特征应用到更高一层的分类器中。

但是，在目标亚类决策问题上，一些目标亚类是模棱两可和难以定义的。例如，一个亚类可以为目标的任何部件进行定义，但是因为对多个部件的多种亚类情况进行组合时，目标数目出现爆炸，因此不能为整个目标进行定义。可变形部件模型和语法模型方法，构建了“部件-整体”模型和“整体亚类-部件亚类”模型。它包含了一套丰富的语法，用来描述目标的种类，并可以很好的与目标部件的几何构造配合使用。然而，语法模型的参数过多，训练比较困难，而且复杂的语法模型对于解决目标检测这样的问题也不必要。目前，目标的部件检测仍然是语法模型中最薄弱的环节。

基于样例的方法取代显式的亚分类，通过隐式的亚分类方法，使用目标与样例集相似度作为分类特征，捕获多模型分布。与从传感器信号直接提取的低层特征相比，相似度特征是一种中层特征，具有一定的语义信息。使用相似度特征训练分类器的方法，与使用亚分类计分作为特征训练高级模型是相似的。相似度特征空间能够有效解决在特征空间多模型分布的分类问题。

另外，在目标检测中，不管在训练集还是测试集中，目标常常不能得到很好的配准。造成这种现象的原因包括：对训练集标注不准确性，以及目标存在形变(如人体的关节变化)。因此，目标部件与一个样例中的匹配最好的长方形区域，与另一个样例中匹配最好的长方形，很可能位于不同的位置。例如，一套行人的采样集中，人体头部可以位于目标包围盒中的不同位置。

多实例学习方法(MIL)可以解决训练集中的配准不准确性和目标的局部几何变换问题。在训练过程中，对给定训练样本的不精确的包围盒抖动得到一个训练实例包。MIL方法从一系列已标记的实例包中学习。标记是仅对实例包的标记，如果一个包中至少含有一个目标实例，那么将该包标记成为“正”；如果一个包中没有一个实例是目标实例，则将该包标记为“负”。本工作将多实例方法应用在特征提取的级别。在训练和测试时，通过计算样例与锚点处部件实例包的相似度，并提取出相似度最大的那个值作为该部件的特征。此方法不仅简单，而且比其它复杂方法(例如，可变形部件模型和Hough变换方法)的实验效果更理想。

然而，不管是样例特征还是多实例相似度特征，都面临了一些学习时的难点，如特征向量的长度是样例数目与核数目的乘积，会很容易产生上10万级的特征长度，给分类器的训练造成了很大的计算消耗和分类困难。

发明内容

本发明的目的是为了在广义图像目标检测实现过程中，能够接受图像中待测目标更大范围内的形变，并解决目标配准问题，提出一种新的广义图像目标检测方法。

本发明方法的基本原理是，首先，结合图像特征提取与学习过程中的样例方法和多实例方法的优势，在此基础上扩展成为多核多实例相似度特征(MKMIS)，能够为同一类中具有不同外观的目标进行很好的描述，并能接受一定范围内的配准误差；其次，针对MKMIS特征的弱势，即图像特征维度过高、计算量大的情况，在分类器学习过程中，使用推广的前向特征选择方法，使其能够满足任意条件的损失和约束函数，使分类器可以选择到少量并且有效的图像特征，如此一来，当进行在线目标检测时，只计算和使用这些特征即可，从而加快目标检测的速度。

为实现上述目的，本发明所采用的技术方案如下，包括以下步骤：

步骤一、读取训练集图像和样例集图像，提取出它们的低层图像特征。

具体如下：

所述训练图像和样例图像，具有统一的图像尺寸，目标在图像中所占的比例应保持尺度相当。特征提取是基于统一大小的固定网格进行的，图像被网格划分为M个矩形块，每个矩形块对应于一个图像特征通道，M为正整数。

首先，定义每个矩形块的位置为一个锚点，锚点邻域内的若干矩形块为该锚点的支撑集。锚点的支撑集对应于多实例学习方法(MIL)中的实例包。

然后，根据已设置的M个锚点处的矩形块，对训练集图像提取低层多实例图像特征。每一个图像采样samp_i的低层特征向量是其中i表示训练图像的序号，为正整数。分别表示第i个图像上1至M个矩形块上的图像特征向量。其中m∈{1，2，...，M}，I_m表示锚点m处的支撑集，j表示支撑集I_m中的实例序号。

之后，根据已设置的锚点位置，对样例集图像提取低层图像特征x_e表示样例图像的特征向量，k表示样例图像的序号。

步骤二、对经步骤一提取出的训练集图像与样例集图像的低层特征进行相似度比较，获取训练集图像的MKMIS特征。

具体如下：

令训练集特征

x_{i} = {x_{i}^{1}, x_{i}^{2}, . . ., x_{i}^{M}}_{i}

和样例特征

x_{ek} = {x_{ek}^{1}, x_{ek}^{2}, . . ., x_{ek}^{M}}_{k}

的相似度特征表示为S(x_ek，x_i)。首先，按矩形区域进行分块比较，如和和进行比较，即

S (x_{ek}, x_{i}) = {S (x_{ek}^{1}, x_{i}^{1}), S (x_{ek}^{2}, x_{i}^{2}), . . ., S (x_{ek}^{M}, x_{i}^{M})}

然后，计算多核相似度计算两个实例之间的相似度S(x_i，x_j)可以使用多种相似度函数，均适用于低层特征空间上的几何分布。例如，1-范数、2-范数、基于多种协方差矩阵的马氏距离，或者是不同带宽下的RBF核。

训练图像与样例图像在锚点m处的多核相似度特征，是通过不同相似度函数计算得到的特征连接起来构成的多核相似度：

S (x_{i}^{m}, x_{ek}^{m}) = {[s_{1} (x_{i}^{m}, x_{ek}^{m}), . . ., s_{P} (x_{i}^{m}, x_{ek}^{m})]}^{T} - - - (1)

其中，是P种不同的相似度函数，P取正整数。T是转置符号。

之后，计算多实例相似度训练图像锚点m的支撑集I_m与样例集图像对应锚点m处矩形块的相似度比较结果的集合为

由于存在配准误差，目标部件与样例集中的最好配准会出现在该锚点支撑集中。理想的情况是，正样例与正锚点支撑集中至少有一个长方形块具有很高的相似度值，与负样例的锚点支撑集具有很低的相似度值。负样例与负锚点支撑集中至少一个长方形块具有很高的相似度值，与正标记锚点支撑集具有很低的相似度。多实例学习可以通过取锚点支撑集中的最大值作为该锚点的相似度值：

\hat{S} (x_{i}^{m}, x_{ek}^{m}) = \max_{{j &Element; I}_{m}} {S (x_{i, j}^{m}, x_{ek}^{m})} - - - (2)

以上的形式不是对称的。若相似度函数是半正定的，可以设计一个匹配核k：

k (x_{i}, x_{ek, j}) = \frac{1}{2} Σ_{m = 1}^{M} (\hat{S} (x_{i, j}^{m}, x_{ek}^{m}) + \hat{S} (x_{ek}^{m}, x_{i, j}^{m})) - - - (3)

k这个核函数忽略较小的配准误差，只要误差在支持集的范围之内。

最后，构成MKMIS特征。对于训练集的一幅图像，将它所有锚点处计算得到的相似度值连接起来，构成整个相似度特征向量：

S (x_{i}, x_{ek}) = {[\hat{S} (x_{i}^{1}, x_{ek}^{1}), . . ., \hat{S} (x_{i}^{M}, x_{ek}^{M})]}^{T} - - - (4)

其中，T是转置符号。由于噪声的存在，两个正实例整体可能并不相似，但是会在个别特征通道上表现出高度的相似。将标量的相似度值连接起来形成相似度向量，可以保留更多的信息。

步骤三、使用经步骤二得到的MKMIS特征，训练基于前向特征选择的SVM分类器。

实现本步骤所基于的原理如下：

利用MKMIS特征训练线性SVM分类器，首先通过求解一个结构风险最小化的问题：

minλR(f)+L(f) (5)

其中，f是SVM的计分函数；R(f)是规范项，用来约束分类器的VC维；L(f)是在训练集上的经验损失；λ是在规范项跟经验损失之间做平衡的一个数值。使用统计学习理论，能够保证学到好的分类器，VC维与经验错误率一起决定了分类器的泛化错误率。

使用线性模型f(s)＝α^Ts训练2-范数规范，1-范数损失的SVM：

\min_{α} \frac{λ}{2} α^{T} α + Σ_{i = 1}^{N} \max (0,1 - y_{i} α^{T} s_{i}) - - - (6)

其中，N是样本个数，s表示分类器选择到的若干个MKMIS特征向量，α是选择到的MKMIS特征向量s的权重，T是转置符。当规范化项时，说明分类器具有较大的边缘，铰链损失(即经验损失)为：

L (f) = L (α) = Σ_{i = 1}^{N} \max (0,1 - y_{i} α^{T} s_{i})

对于在线性不可分的训练集上训练分类器的问题，铰链损失提供了求解该问题的松弛条件。使用MKMIS特征的线性SVM的计分函数，与使用原始特征(即低层特征)的核SVM具有相同的形式：

通过对基函数S(x_i，x_ek)求加权和，对目标函数(计分函数)f求近似：

f (x) = Σ_{k = 1}^{K} α_{k} S ({x, x}_{ek})

其中，x表示一个测试样本，K是样例图像的数目。由MKMIS特征可以产生如下形式的线性计分函数：

f (x) = Σ_{k &Element; {1, . . ., K}, m &Element; {1, . . ., M}} α_{k, m} \hat{S} (x^{m}, x_{ek}^{m}) - - - (7)

其中，α_k，m直接通过线性SVM学习到，m表示图像中的矩形区域，α_k，m表示在锚点m处第k个样例图像的权重。

传统的多核学习方法(MKL)能够学习到了个应用于所有样例的全局的相似矩阵，而本发明方法为每个样例x_ek学习了一个相似度度量S(x，x_ek)：

S (x, x_{ek}) = Σ_{m = 1}^{M} α_{k, m} \hat{S} (x^{m}, x_{ek}^{m}) - - - (8)

由此可见，本发明方法比传统的MKL方法包含有更多的参数(M×K vs.M+K)，探索了更广阔的函数空间。使用前向特征选择，减小分类器训练时的计算消耗，学习到一个高效的分类器，使少量的{α_k·m}具有非0值。

本发明方法使用前向特征选择方法，并为它做出了推广。前向特征选择对于结构风险最小化问题，使用线性计分函数f(x)＝w^Tx，其中，x表示一个测试样本的特征向量，w是样本权重，T是转置符号。假设规范项和损失项都是凸函数并且可导，损失函数表示为各个训练样本的可分离的函数，如通过引入辅助变量f_i＝w^T _i，x_i表示第i个样本的特征向量，w是SVM的系数，f_i是SVM对这个样本的计分。由此，最优化问题变成为：

\min_{{f, w &Element;}^{W}} λR (w) + L (y_{i}, f_{i}) s . t . f_{i} = w^{T} x_{i}, i = 1, . . ., N - - - (9)

其中y_i∈{0，1}是样本分类标记，W表示w的值域范围。将原始问题写成拉格朗日对偶问题，不加任何简化，如下：

\max_{β} \min_{f, w &Element; w} λR (w) + Σ_{i = 1}^{N} L (y_{i}, f_{i}) + Σ_{i = 1}^{N} β_{i} (f_{i} - w^{T} x_{i})

\begin{matrix} s . t . & f_{i} = w^{T} x_{i}, \frac{&PartialD; L (y_{i}, f_{i})}{&PartialD; f_{i}} + β_{i} = 0, i = 1, . . ., N, \end{matrix} - - - (10)

λ \frac{&PartialD; R}{&PartialD; ω_{d}} - Σ_{i = 1}^{N} β_{i} x_{i, d} = 0, d = 1, . . ., D

其中x_i，d表示第i个样本的特征向量x_i中的第d个特征，D是特征向量的维度。β_i是原问题中第i个约束条件f_i＝w^Tx_i对应的拉格朗日乘子。每个特征d对应于对偶问题

λ \frac{&PartialD; R}{&PartialD; ω_{d}} - Σ_{i = 1}^{N} β_{i} x_{i, d} = 0

的一个限制条件。

使用列生成算法求解该对偶问题，只需使用一个缩小了的特征集合，这样的效果等同于松弛了对偶问题的约束条件，即认为在当前使用的工作集(即当前使用的缩小了的特征集合)之外的特征其权重是0。然后求解完松弛的问题之后，找到当前工作集之外的最被违反的约束条件：

\arg \max_{d} | λ \frac{&PartialD; R}{&PartialD; ω_{d}} - Σ_{i = 1}^{N} β_{i} x_{i, d} | - - - (11)

将该特征加到当前工作集，这就是分类器选择一个特征的过程。当没有任何限制条件被违反，全局最优化问题就达到了收敛。列生成方法可以从坐标轴下降的角度理解。为了引入一个新的特征，计算目标函数对每个ω_j的梯度：

λ \frac{&PartialD; R}{&PartialD; ω_{d}} + Σ_{i = 1}^{N} \frac{&PartialD; L (f_{i}, y_{i})}{&PartialD; f_{i}} x_{i, d} = λ \frac{&PartialD; R}{&PartialD; ω_{d}} - Σ_{i = 1}^{N} β_{i} x_{i, d} - - - (12)

因此最被违反的限制条件是即在原问题中使目标函数梯度值最大的特征。

对于可导的损失函数，例如，逻辑损失L(y_i，f_i)＝log(1+exp(-y_if_i))和指数损失L(y_i，f_i)＝exp(-y_if_i)，可以获得对偶变量{β_i}的闭合形式：如果规范项或是损失函数是不可导的，可以采用一些技巧来得到略有不同的列生成方法。

对铰链损失L(y_i，f_i)＝max(0，1-y_if_i)和1-范数规范项的前向特征选择方法的泛化性进行推导。

在2-范数规范、1-范数损失的SVM中，规范项R(w)＝w^Tw/2，铰链损失L(y_i，f_i)＝max(0，1-y_if_i)。这个损失函数不可导。通过引入松弛变量原始问题变为：

\min_{f, ξ, w &Element; w} λ w^{T} w + Σ_{i = 1}^{N} ξ_{i} s . t . 1 - y_{i} f_{i} \leq ξ_{i}, ξ_{i} &GreaterEqual; 0, f_{i} = w^{T} x_{i}, i = 1, . . ., N - - - (13)

其对偶形式是：

\begin{matrix} \max_{β} & - \frac{1}{λ} β^{T} Kβ + Σ_{i = 1}^{N} β_{i} y_{i} & s . t . & 0 \leq β_{i} y_{i} \leq 1, i = 1, . . ., N \end{matrix} - - - (14)

使目标函数最优化的KKT条件要求由于不在工作集中的特征权值ω_d＝0，因此最被违反的约束条件是：由于铰链损失是不可导的，{β_i}不可以通过原问题的导数得到，但可以通过求解原始问题的对偶形式获得。可以证明-β_i是铰链损失的一个次梯度，即因此选择特征的依据可以变为次梯度。

对1-范数规范由于它在0这个点处是不可导的，可以将特征集扩展为从而将一个不可导的问题转换成为可导的问题。

则原始问题可以转换为下面的形式，此形式与原始问题具有相同的解：

是对应于扩展特征集的权重。相对于(9)，由于要求为非负，因此每次选择那些在其方向上正的步长能使得目标函数值减小特征，即特征选择的准则是

{\arg \max}_{d} Σ_{i = 1}^{N} β_{i} {\hat{x}}_{i, d} .

与2-范数规范的特征选择准则

{\arg \max}_{d} | Σ_{i = 1}^{N} β_{i} x_{i, d} |

相比，每次仍然选择让最大的特征，但由于使用了扩展的特征集并且需要保证为非负，因此如果最佳的特征满足选取其反号的特征d+D，从而保证的值从0变成正的值时能够使目标函数(15)的值降低。

经过推广的前向特征选择方法对特征的种类没有限制，只要求所有的特征都被归一化到同一个尺度范围，从而使不同特征的梯度或次梯度大小具有可比性。

本发明使用上述方法选择MKMIS特征，该方法也可以用来选择其他特征，例如低层特征、弱分类器输出值。使用由粗至细的学习过程，能够进一步减小计算消耗。

同时，前向特征选择方法仅使用一小部分特征就能构造有效的分类器。然而，由于相似度特征数目巨大，训练过程的计算量(M×K)也不容小觑。由于要从所有的特征中寻找到最好的一个特征，因而需要相当的存储量和计算消耗。

为了减小计算负担，本发明使用了由粗至细的机制，遵循以下两个原则：

1.不再使用全部的样例集，而是使用缩小后的子集。可以对样例集进行随机采样，或者通过聚类学习一个码书。本工作中，对每一个特征通道学习一个码书。

2.由于使用了缩小的样例集而使分类器性能下降，本工作在选择到相似度特征之后对样例进行优化，通过解决以下优化问题：

\min_{X_{e}} Σ_{i = 1}^{N} L (y_{i}, Σ_{k = 1}^{K} ω_{k} S (x_{i}, x_{ek})) - - - (16)

其中k是样例图像的序号，K是样例的总数目。在该问题中，不需要考虑规范项，因为2-范数规范与样例是相互独立的。损失函数在样例的条件下常常是非凸的，并且不可导。本工作使用坐标次梯度下降法，每次对一个样例进行优化，该梯度为：

Σ_{i = 1}^{N} \frac{&PartialD; L}{&PartialD; f_{i}} \frac{&PartialD; f_{i}}{&PartialD; s_{ik}} \frac{&PartialD; s_{ik}}{&PartialD; x_{ek}} - - - (17)

其中s_ik表示第i个训练样本，第k个相似度特征。

以铰链损失和高斯相似度

s_{ik} = \exp (- γ {| | x_{i} - x_{ek} | |}_{2}^{2})

为例，γ是高斯相似度函数的参数，对铰链损失的次梯度为：

\frac{&PartialD; L}{&PartialD; f_{i}} = \{\begin{matrix} \begin{matrix} 0 & y_{i} f_{i} &GreaterEqual; 1 \\ - y_{i} & y_{i} f_{i} < 1 \end{matrix}, & \frac{&PartialD; f_{i}}{&PartialD; s_{ik}} = ω_{j}, \frac{&PartialD; s_{ik}}{&PartialD; x_{ek}} = - 2 γ s_{ik} (x_{i} - x_{ek}) \end{matrix} - - - (18)

因此样例x_ek只会被决策边界内的训练实例所影响。如果ω_k是正的，x_ek会被推向正实例边界内，从而远离负实例边界；反之亦然。训练实例对样例的推力与相似度s_ik和训练实例与样例的距离x_i-x_ek成比例关系，使得与样例相距很远的实例对分类起到的影响很小(由于s_ik的快速衰变)。通过调整样例可以提高经验损失，但是对规范项没有影响。

从对函数求近似的角度来看，此样例调整过程通过对偏差函数的位置进行移动来调整相似度。另外，也可以对核偏差函数的其他参数进行调整，如高斯核的带宽和马氏距离的协方差函数，使得基函数能更进一步反应低层特征空间上采样点的局部几何外观。

综上所述，所述步骤三的具体实现过程如下：

首先，初始化每个训练样本的权重β_i为1；

之后，迭代如下过程，直到分类器性能符合要求：

(1)根据当前样本权重β_i，对特征d＝1，...，D，D是一个特征向量的维度，计算的值，其中R可以是二次约束或者一次约束，可根据实际情况自由设定。w_d是第d维特征的权值，初始化为0，SVM将为每个维度的特征学习到其权重值。λ是求解线性SVM问题时在规范项跟经验损失之间做平衡的数值，是根据经验结果选定的，通常跟训练样本大小和用的kernel类型都有关系，具体选择时可以按照一个指数的序列进行选择，找到使分类效果最好的作为λ。x_i，d表示第i个样本的第d维的特征值。N是样本总数目。将令此值最大的一个(或若干个)特征加入到选中的特征集中，训练线性SVM，得到到新的样本权重β_i。

(2)当训练完分类器后，利用梯度下降法，优化码书中的码字，即迭代如下步骤：

例图像的相似度，x_ek第k个样例图像的特征；

然后，更新样例：其中σ为在梯度方向上的步长，通过如下的线性搜索方法确定步长：取步长σ为序列中的每一个值，计算(L_Old-L_New)/gσ，其中g为梯度的大小，L_Old为使用原样例x_ek的损失函数大小，L_New为使用了更新的样例的损失函数大小。取令(L_Old-L_New)/gσ值大于某一预设的阈值(例如0.1)的第一个σ。

步骤四、利用训练好的分类器，使用滑动窗口检测图像中的目标。对于一幅任意大小的测试图像，提取图像上滑动窗口内的低层特征，计算与选中的样例集的MKMIS特征。使用步骤三中训练好的分类器进行分类决策。

有益效果

本方法使用相似度特征训练线性SVM分类器，与使用原始特征的核SVM存在一些重要的不同点。首先，在核SVM的学习中，样例集等于训练样本集，而本方法的相似度特征可以使用任意的样例集。其次，这两种方法使用了不同的规范化方法：核SVM能够得到稀疏的结果，但使用MKMIS特征的线性SVM不能得到稀疏的结果，因此需要其他的方法来得到稀疏的结果。

附图说明

图1为本发明方法的流程图；

图2为本发明具体实施例中INRIA人体数据集的多核多实例相似度特征展示；

图3为本发明具体实施例中INRIA人体数据集的多核多实例相似度特征展示。

具体实施方式

为了更好的说明本发明的技术方案，下面结合附图，通过一个实施例，对本发明做进一步说明。

实施例：人体检测。在INRIA人体数据集上使用并测试本方法。

步骤一、读取训练集图像和样例集图像，提取它们的低层图像特征。

首先，根据已设置的M＝126个锚点处的矩形块，对训练集图像提取低层多实例图像特征。

图像包围盒的大小为128×64像素，在一个包围盒中有126个矩形块(大小16×16和32×32的矩形块数目分别为105和21)，对应M＝126个锚点，每个矩形块对应于MKMIS特征中的一个特征通道。锚点m处的支撑集I_m中包含有9个实例，它们是通过在锚点m处，在x轴方向和y轴方向进行[-4，0，4]像素的位移获得的。正标记训练样本数目为2474个，标记为负的训练图像的数目有10000个。对于训练图像的低层多实例图像，由于不同的锚点的支撑集之间存在重叠，因此一幅训练图像中所有多实例图像块的总数少于126×9，为602个。因此，训练图像的低层多实例特征维度为602×32＝19264维。

对训练图像提取的低层特征为经典HOG特征。每个块内的HOG特征的维度为32，因此训练图像的原始低层特征维度为602×32＝19264维。

然后，根据已设置的M＝126个锚点位置，对样例集图像(有2474个样例图像)提取每个锚点的低层图像特征。样例图像仅包含有正标记的图像。对样例图像不需提取多实例特征，只需在每个锚点处提取当前矩形块内的HOG特征，每个块内的HOG特征的维度为32，因此，样例图像的低层特征维度为126×32＝4032维。

步骤二、对训练集图像与样例集图像的低层特征进行相似度比较，计算训练集图像的多核多实例相似度特征(简称MKMIS特征)。

对样例图像上的矩形块，分别按锚点进行k均值聚类，在每个特征通道(即每个锚点m处)上聚了400个类(即学习了大小为400的码书)。因此全部的相似度特征集中有126×400＝50400个特征，与使用原始的样例部件获得的126×2474＝311724个特征相比，特征维度明显减小。

首先，将训练图像和聚类得到的样例图像码书按对应锚点进行比较，计算多核相似度。

使用高斯相似度函数S(x_i，x_j)＝exp(-γ||x_i-x_j||²)，P＝1。将训练图像锚点m的支撑集I_m中的所有实例块与聚类后样例集对应锚点m处矩形块，使用高斯相似度函数进行比较。在锚点m处，每个训练图像的实例块(锚点m处的支撑集有9个实例块)与聚类后的样例块(锚点m处的有400个码书)的比较结果为上标m表示第m个锚点，下标i表示第i个训练图像，j表支撑集中的第j个实例，表示是锚点m的码书中的第k个码字。

然后，通过取锚点m处支撑集I_m中的相似度中最大的作为该锚点的一个相似度特征，计算多实例相似度

\hat{S} (x_{i}^{m}, x_{ek}^{m}) = \max_{j &Element; I_{m}} {S (x_{i, j}^{m}, x_{ek}^{m})} .

之后，对一幅训练图像，将它所有锚点处与所有码字的相似度特征连接起来，构成多核多实例相似度特征(即MKMIS特征)向量，该向量长度为126×400＝50400。

步骤三、使用MKMIS特征训练层级式SVM分类器。

首先，初始化每个训练样本的权重β_i为1；

之后，迭代如下步骤，直到分类器性能符合要求：

·根据当前样本权重β_i，对那些尚未被选中特征，计算的值，其中d是特征的下标，共有D个特征；R是学习问题的规范化项，例如L-2规范w是特征的权重，w_d是第d维特征的权值，即w的第d个值，对于尚未被选中的特征，其权重w_d＝0。对于已经被选中的特征，w_d即SVM学习得到的结果。T是转置符号。λ是求解线性SVM问题时在规范项跟经验损失之间做平衡的数值，本实验使用经验值λ＝10。x_i，d表示第i个样本的第d维的特征值。N是训练样本总数目。将令此值最大的一个(或若干个)特征加入到选中的特征集中，训练线性SVM，得到到新的样本权重β_i。

当训练完分类器后，利用梯度下降法，优化码书中的码字，即迭代如下步骤：

·计算损失函数对每个样例的梯度：其中f是SVM的计分函数，f(x)＝∑_{k∈{1，...，K}，m∈{1，...，M}} s_ik表示第i个图像和第k个样例图像的相似度，x_ek第k个样例图像的特征，α_k，m是相似度特征的权重，即SVM学习得到的w。

·更新样例：

x_{ek} &LeftArrow; x_{ek} - σ Σ_{i = 1}^{N} \frac{&PartialD; L}{{&PartialD; f}_{i}} \frac{{&PartialD; f}_{i}}{{&PartialD; s}_{ik}} \frac{{&PartialD; s}_{ik}}{{&PartialD; x}_{ek}},

其中σ为在梯度方向上的步长，通过如下的线性搜索方法确定步长：取步长σ为序列中的每一个值，计算(L_Old-L_New)/gσ，其中g为梯度的大小，L_Old为使用原样例x_ek的损失函数大小，L_New为使用了更新的样例

x_{ek}^{*} = x_{ek} + σ Σ_{i = 1}^{N} \frac{&PartialD; L}{{&PartialD; f}_{i}} \frac{{&PartialD; f}_{i}}{{&PartialD; s}_{ik}} \frac{{&PartialD; s}_{ik}}{{&PartialD; x}_{ek}}

的损失函数大小。取令(L_Old-L_New)/gσ值大于某一预设的阈值(例如0.1)的第一个σ。

本方法一共选择出1200个特征，相比于原始MKMIS特征的50400维，本方法显著减小了分类器的复杂度。

以下是一个正训练样本的1200个特征值。

以下是正训练集中前200个样本的分类器计分，其中计分值大于0表示分类器对其决策为目标，小于0表示分类器对其决策为非目标：

以下是负训练集中200个负采样的分类器计分值：

步骤四、利用训练好的分类器，使用滑动窗口检测图像中的目标。以下是使用训练好的分类器，对200个正测试窗口的计分：

以下是使用滑动窗口，对200个负窗口的计分：

本发明提出的MKMIS特征和前向特征选择的线性SVM方法，仅使用了1200个特征，当FAR＝5％时，召回率为94％。仅比传统的累计高斯核SVM分类效果差1个百分点。然而传统的累计局部高斯核SVM十分复杂，倘若把它写成线性的形式，相当于使用了586,605个相似度特征，相比于本发明1,200个特征，可见本方法所提出的方法显著的减小了分类器的复杂度。

在图3中，使用了INRIA的所有测试集，使用了458个负图像，一共包含了约五百万个负窗口。从结果中可以看出不带有多实例的部件相似度特征，其分类效果远不如使用MKMIS特征训练分类器的效果好。漏检率-每窗口错误率(Missing Rate-FPPW)曲线中给出了线性SVM和高斯核SVM的结果。

本发明方法将误判负采样率降低了一个数量级，这个提升完全来自于使用了相似度信息的中层特征，以及本发明所采用的高效率的学习方法。

Claims

1.一种广义图像目标检测方法，其特征在于包括以下步骤：

步骤一、读取训练集图像和样例集图像，提取出它们的低层图像特征，具体如下：

所述训练图像和样例图像，具有统一的图像尺寸，目标在图像中所占的比例应保持尺度相当；特征提取是基于统一大小的固定网格进行的，图像被网格划分为M个矩形块，每个矩形块对应于一个图像特征通道，M为正整数；

首先，定义每个矩形块的位置为一个锚点，锚点邻域内的若干矩形块为该锚点的支撑集，锚点的支撑集对应于多实例学习方法中的实例包；

然后，根据已设置的M个锚点处的矩形块，对训练集图像提取低层多实例图像特征；每一个图像采样samp_i的低层特征向量是其中i表示训练图像的序号，为正整数；分别表示第i个图像上1至M个矩形块上的图像特征向量，其中m∈{1,2,...,M}，I_m表示锚点m处的支撑集，j表示支撑集I_m中的实例序号；

之后，根据已设置的锚点位置，对样例集图像提取低层图像特征其中，x_e表示样例图像的特征向量，k表示样例图像的序号；

步骤二、对经步骤一提取出的训练集图像与样例集图像的低层特征进行相似度比较，获取训练集图像的MKMIS特征；

具体如下：

令训练集特征

x_{i} = {x_{i}^{1}, x_{i}^{2}, . . ., x_{i}^{M}}_{i}

和样例特征

x_{ek} = {x_{ek}^{1}, x_{ek}^{2}, . . ., x_{ek}^{M}}_{k}

的相似度特征表示为S(x_ek,x_i)；首先按矩形区域进行分块比较，然后计算多核相似度

所述训练图像与样例图像在锚点m处的多核相似度特征，是通过不同相似度函数计算得到的特征连接起来构成的多核相似度：

S (x_{i}^{m}, x_{ek}^{m}) = {[s_{1} (x_{i}^{m}, x_{ek}^{m}), . . ., s_{P} (x_{i}^{m}, x_{ek}^{m})]}^{T} - - - (1)

其中，是P种不同的相似度函数，P取正整数；T是转置符号；

由于存在配准误差，目标部件与样例集中的最好配准将会出现在该锚点支撑集中；理想的情况是，正样例与正锚点支撑集中至少有一个长方形块具有很高的相似度值，与负样例的锚点支撑集具有很低的相似度值；负样例与负锚点支撑集中至少一个长方形块具有很高的相似度值，与正标记锚点支撑集具有很低的相似度；多实例学习通过取锚点支撑集中的最大值作为该锚点的相似度值：

\hat{S} (x_{i}^{m}, x_{ek}^{m}) = \max_{j &Element; I_{m}} {S (x_{i, j}^{m}, x_{ek}^{m})} - - - (2)

以上的形式不是对称的；若相似度函数是半正定的，则设计一个匹配核k：

k (x_{i}, x_{ek, j}) = \frac{1}{2} Σ_{m = 1}^{M} (\hat{S} (x_{i, j}^{m}, x_{ek}^{m}) + \hat{S} (x_{ek}^{m}, x_{i, j}^{m})) - - - (3)

k这个核函数忽略较小的配准误差，只要误差在支持集的范围之内；

最后，构成MKMIS特征：对于训练集的一幅图像，将它所有锚点处计算得到的相似度值连接起来，构成整个相似度特征向量：

S (x_{i}, x_{ek}) = {[\hat{S} (x_{i}^{1}, x_{ek}^{1}), . . ., \hat{S} (x_{i}^{M}, x_{ek}^{M})]}^{T} - - - (4)

其中，T是转置符号；

步骤三、使用经步骤二得到的MKMIS特征，训练基于前向特征选择的SVM分类器，实现过程如下：

首先，初始化每个训练样本的权重β_i为1；

之后，迭代如下过程，直到分类器性能符合要求：

(1)根据当前样本权重β_i，对特征d＝1,...,D，D是一个特征向量的维度，计算的值，其中R是二次约束或者一次约束，根据实际情况自由设定；ω_d是第d维特征的权值，初始化为0，SVM将为每个维度的特征学习到其权重值；λ是求解线性SVM问题时在规范项跟经验损失之间做平衡的数值，根据经验结果选定，通常跟训练样本大小和用的kernel类型都有关系，具体选择时可按照一个指数的序列进行选择，找到使分类效果最好的作为λ；x_i,d表示第i个样本的第d维的特征值；N是样本总数目；将令此值最大的一个或若干个特征加入到选中的特征集中，训练线性SVM，得到到新的样本权重β_i；

首先，计算损失函数对每个样例的梯度：其中f是SVM的计分函数，

f (x) = Σ_{k &Element; {1, . . ., K}, m &Element; {1, . . ., M}} α_{k, m} \hat{S} (x^{m}, x_{ek}^{m}),

s_ik表示第i个图像和第k个样例图像的相似度，x_ek第k个样例图像的特征；“α_k,m”表示在锚点m处第k个样例图像的权重；

然后，更新样例：其中σ为在梯度方向上的步长，通过如下的线性搜索方法确定步长：取步长σ为序列中的每一个值，计算(L_Old-L_New)/gσ，其中g为梯度的大小，L_Old为使用原样例x_ek的损失函数大小，L_New为使用了更新的样例的损失函数大小；取令(L_Old-L_New)/gσ值大于某一预设的阈值的第一个σ；

步骤四、利用训练好的分类器，使用滑动窗口检测图像中的目标；对于一幅任意大小的测试图像，提取图像上滑动窗口内的低层特征，计算与选中的样例集的MKMIS特征；使用步骤三中训练好的分类器进行分类决策。