CN105654122A

CN105654122A - 基于核函数匹配的空间金字塔物体识别方法

Info

Publication number: CN105654122A
Application number: CN201511002911.9A
Authority: CN
Inventors: 孔军; 张迎午; 蒋敏; 高坤; 柳晨华
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-06-08
Anticipated expiration: 2035-12-28
Also published as: CN105654122B

Abstract

本发明公开了一种基于核函数匹配的空间金字塔物体识别方法。包含以下步骤：提取物体图像的ED-SIFT(Efficient？Dense？Scale-invariant？Feature？Transform)描述子；使用k-means++聚类算法将训练样本的ED-SIFT描述子聚类，获得视觉词典；引入空间金字塔，使用核函数匹配获得训练样本和测试样本的视觉单词直方图；使用SVM分类器完成训练样本的训练和测试样本的识别。本发明提出的算法对物体图像的识别具有较高的辨识度，并且在训练样本较少的情况下，采用简单的SVM分类器就可以获得良好的分类效果。

Description

基于核函数匹配的空间金字塔物体识别方法

技术领域：

本发明涉及机器视觉领域，特别涉及一种基于核函数匹配的空间金字塔物体识别方法。

背景技术：

随着计算机和多媒体技术的飞速发展，数字图像和视频的规模急剧膨胀。海量的图像数据虽然方便了人们的生活，但是也给人们的生活带来了很大困扰。如何从海量的图像数据中快速准确的寻找我们自己感兴趣的物体图像，变得越来越困难。因此，如何充分准确的理解图像，如何有序、高效、合理的组织图像数据并检索到所需要的图像逐渐成为计算机视觉研究的热点之一。

近年来，以词袋模型(BagofWords,BoW)为关键技术的物体识别算法取得的进步最为突出。近几十年来各国专家学者提出了很多方法，大大促进了该领域的进展。但是高精度的物体识别仍然是一项极具挑战的任务。原因之一就是物体的图像容易受到光线变化、视角变化、物体遮挡和背景等因素的影响。另外，同类物体间的差异进一步加剧了物体识别的难度。

本专利针对如何获得具有代表性的视觉单词和如何构建具有判别力的视觉单词直方图的问题，提出了一种基于核函数匹配的空间金字塔物体识别方法，大大提高了物体识别的准确率。

发明内容：

本发明为了克服上述现有技术中的缺陷和提高物体识别的准确率，提供了一种基于核函数匹配的空间金字塔物体识别方法。

为了实现上述目的，本发明提供如下技术方案：

步骤一、采集物体样本图像，将待识别的样本图像数据分为训练样本和测试样本；

步骤二、将训练样本和测试样本的图像转换为灰度图像，并将灰度图像的数据类型转化为双精度浮点类型。然后将图像的尺寸进行缩放处理，使其高度和宽度在[50,200]之间；

步骤三、提取训练样本和测试样本图像的ED-SIFT(EfficientDenseScale-invariantFeatureTransform)描述子；

步骤四、使用k-means++聚类算法将训练样本的ED-SIFT描述子聚类，获得视觉单词。所有的视觉单词构成了视觉词典；

步骤五、引入空间金字塔^[1]，将训练样本的ED-SIFT描述子、测试样本的ED-SIFT描述子和视觉词典映射到高维空间，然后使用核函数匹配来获得训练样本和测试样本的视觉单词直方图；

步骤六、将训练样本的视觉单词直方图输入到SVM分类器中进行训练；

步骤七、基于训练后的SVM分类器，将测试样本的视觉单词直方图输入SVM分类器，完成物体的识别。

与现有的技术相比，本发明具有以下有益效果：

1.通过步骤三提取样本的ED-SIFT描述子的兴趣点多、信息量丰富、均匀采样提取关键点、计算复杂度低。能够有效提高视觉单词的代表性，提高识别的准确度。

2.通过步骤五引入空间金字塔，充分利用了图像的空间信息。将训练样本、测试样本和聚类的视觉单词映射到高维空间，然后使用核函数匹配来获得训练样本和测试样本的视觉单词直方图，大大提高了匹配精度。

3.结合ED-SIFT特征的提取，k-means++聚类算法和空间金字塔核函数匹配共同构建了一个鲁棒的物体识别算法。通过实验结果表明本专利方法在物体的图像受到噪声、光照、尺度、视角和遮挡等因素的情况下，具有良好的识别效果。另外，本专利的方法可以在训练图片较少的情况下仍然保持良好的识别效果。

因此，本发明在物体识别、图像分类和图像检索等领域都具有广泛的应用前景。

附图说明：

图1本发明的方法流程图；

图2ED-SIFT描述子提取方法流程图；

图3基于高斯核函数映射的梯度方向三维网格图表示；

图4空间位置权重的伪彩图表示；

图5基于空间金字塔匹配的词袋模型表示；

图6本专利算法在Caltech-101数据集上的混淆矩阵；

图7本专利算法在Caltech-256数据集上的混淆矩阵。

具体实施方式

为了更好的说明本发明的目的、具体步骤以及特点，下面结合附图对本发明作进一步详细的说明：

参考图1，本发明提出的一种基于核函数匹配的空间金字塔物体识别方法，主要包含以下步骤：

步骤一、采集待识别物体的样本图像，将采集的样本图像数据分为训练样本和测试样本；

步骤二、将训练样本和测试样本的图像转换为灰度图像，并将灰度图像的数据类型转化为双精度浮点类型；然后对图像的尺寸进行缩放处理，使其高度和宽度在[50,200]之间；

步骤三、提取训练样本和测试样本的ED-SIFT(EfficientDenseScale-invariantFeatureTransform)描述子；

步骤四、使用k-means++聚类算法将训练样本的ED-SIFT描述子聚类，获得视觉单词；所有的视觉单词构成了视觉词典；

上述技术方案中，步骤一将物体图像样本分为训练样本和测试样本。对于图像样本，我们可以自己使用照相机拍摄物体来获得物体的图像，也可以使用计算机视觉中物体识别的经典的数据集。

上述技术方案中，步骤三中ED-SIFT描述子的提取过程如图2所示。

上述技术方案中，步骤三中ED-SIFT描述子的提取方法为：

1.将样本图像划分为均匀大小的单元格，每个单元格由4×4个像素组成；

2.对样本图像进行高斯滤波，计算每个像素的梯度。本专利中高斯滤波器的尺寸为5×5，标准差为1。然后归一化梯度向量；

3.依次从图像中选取4×4个单元格，步长为8个像素，遍历整个图像，使用高斯核函数将每个单元格中的像素的梯度方向映射到梯度方向基向量中。其中z为图像中的像素点，为梯度方向基向量。如图3所示，本专利中梯度方向基向量是在平面直角坐标系的水平和垂直方向分别将区间[-1,1]平均分成九等分，得到的100个点坐标，然后使用高斯核函数将图像梯度的方向映射到梯度方向基向量中。取α＝5，并使用梯度的模加权，得到样本图像的梯度方向直方图。对于图像中每个选取的4×4大小的单元格，对其中每一个像素z的梯度模归一化的公式为：(ε为小常量，防止分母为0)；

4.使用高斯核函数来增大靠近关键点的像素点的空间位置权重，减小远离关键点的像素点的空间位置权重。其中α为调节因子，本专利中取α＝5。在4×4大小的单元格中，p_z为关键点z的空间位置，q_z′为像素点z′的空间位置。如图4所示，关键点p_z的空间位置的选择为在直角坐标系中的水平和垂直方向分别将区间[0,1]平均分成四等分后得到的25个点坐标。像素点q_z′的空间位置的选择为在直角坐标系中将水平和垂直方向上分别将区间平均分成十五等分后得到的256个点坐标。通过高斯核函数g_s(p_z,q_z′)计算每个关键点与所有像素点的欧式距离作为空间位置的权重；

5.每隔8个像素遍历整幅图像，计算所有4×4单元格的ED-SIFT向量，最后得到图像的ED-SIFT特征；

6.使用KPCA(kernelprincipalcomponentanalysis)算法^[2]对步骤5中的ED-SIFT特征降维。在一个4×4单元格图像块p中，基于高斯核匹配的梯度方向直方图的第k个分量为：

F_{k} (p) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} \frac{1}{\sqrt{λ_{k}}} {(u_{i j}^{k})}^{T} \underset{z &Element; p}{Σ} \tilde{m} (z) g_{θ} (\tilde{θ} (z), \tilde{θ} (x_{i})) g_{p} (z, y_{j}))

其中m为梯度方向基向量的长度，n为空间位置向量的长度。λ_k和是高斯核矩阵的第k个特征值和特征向量，高斯核矩阵为[G]_ijmn＝g_θ(p_i,p_j)g_s(z_m,z_n)-2∑_i′m′g_θ(p_i′,p_j)g_s(z_m′,z_n)+∑_{i′j′m′n′}g_θ(p_i′p_j′)g_s(z_m′,z_n′)。本专利中k＝200。

上述技术方案中，步骤四中k-means++算法的实现过程如下：

1.从训练样本中的ED-SIFT特征点集合X中随机选择一个特征点c₁作为初始“种子点”；

2.计算下一个特征点x′被选为“种子点”c_i的概率，概率其中x′＝c_i∈X。其中D(x)表示特征点x到已选聚类中心的最短距离；

3.重复步骤2和3，到所有的K个“种子点”都被选出来；

4.对每个特征点，计算其和K个“种子点”的欧式距离，并将其分配到欧式距离最小的那个“种子点”中；

5.对于每一类，重新计算类的中心，以每类的平均值更新原来的“种子点”；

6.重复步骤4和步骤5，直到“种子点”不再变换或者达到实验迭代的次数为止。

上述技术方案中，步骤五中引入空间金字塔，通过在多分辨率上计算物体的视觉单词直方图，从而获得了物体图像的局部信息，可以对物体进行精确的识别。实现过程如下：

1.如图5所示，将物体的图像在不同的层级上划分为相同大小的块，在本专利中，我们取空间金字塔的层数L＝3。本专利中将物体图像从左到右分解的块数为：1×1，2×2，4×4；

2.基于步骤四获得的视觉词典，统计每个块中的视觉单词直方图，然后将每层获得的视觉单词直方图连接起来，并且给不同层分配相应的权重。本专利中从左到右各层分配的权重分别为

由图5可知，当聚类生成K个视觉单词时，对图像进行L层划分，生成的视觉单词直方图的维数为

K Σ_{l = 0}^{L} 4^{l} = K \frac{1}{3} (4^{L + 1} - 1)

可以看出，当L＝0时，该模型退化为标准的BoW模型。实验表明，当L>3时，计算复杂度增加，而且子区域由于划分过于稠密而导致每个子区域中的匹配对过少。

3.基于空间金字塔核函数匹配的视觉单词直方图的实现过程如下：

我们把所有样本的ED-SIFT特征表示为X＝{x₁,x₂,…,x_n}，使用k-means++算法聚类生成的K个视觉单词表示为C＝{c₁,c₂,…,c_k}。

本专利的方法是在通过将ED-SIFT特征和视觉单词映射到高维空间中，通过在高维空间中引入核函数来更加精确地完成将ED-SIFT特征映射到视觉单词中。本专利中的核函数为高斯核函数，即k(x,y)＝e^-α‖x-y‖，其中α＝5。将样本的特征和视觉单词映射到高维空间分别表示为Ψ(X)＝{Ψ(x₁),Ψ(x₂),…,Ψ(x_n)}、Ψ(C)＝{Ψ(c₁),Ψ(c₂),…,Ψ(c_k)}。我们在高维空间中用视觉单词来更加精确的表示Ψ(X)。即求下面的凸二次规划问题：

&upsi; = \underset{α}{argmin} | | Ψ (x) - α H | |^{2}

其中H＝{Ψ(c₁),Ψ(c₂),…,Ψ(c_k)}，α是映射系数。

求ν对α的偏导数，并令其等于0。

\frac{\partial &upsi;}{\partial α} = 2 H^{T} H α - 2 H^{T} Ψ (x) = 0

得到α＝(H^TH)^-1(H^TΨ(x))。

使用核函数，将α代入到核函数中，得到

k(x,y)＝[Hα_x]^T[Hα_y]＝k_C(x)^TK_CC ^-1k_C(y)

其中k_C(x)＝H^TΨ(x)，k_C(y)＝H^TΨ(y)，K_CC＝H^TH。

由于K_cc ^-1是一个正定矩阵。我们可以使用Cholesky分解，即G^TG＝K_CC ^-1，其中G是一个上三角矩阵。核函数可以化简为如下的式子：

k(x,y)＝k_C(x)^TK_CC ^-1k_C(y)＝k_C(x)^TG^TGk_C(y)＝[Gk_C(x)]^T[Gk_C(y)]

在高维空间中，ED-SIFT特征映射到视觉单词中的表示为：

Ψ(x)＝Gk_C(x)

归一化后每个样本的视觉单词直方图为

\overset{&OverBar;}{Ψ} (X) = \frac{1}{| X |} G \underset{x &Element; X}{Σ} k_{C} (x)

其中

k_{c_{i}} (x_{j}) = e^{- α | | c_{i} - x_{j} | |}, α = 5.

为了验证本专利方法的有效性，我们的实验使用物体识别的经典数据库Caltech-101以及更富有难度的Caltech-256数据库。为了使实验结果更具有说服力，我们分别从Caltech-101和Caltech-256数据库随机抽取十类物体进行实验。首先从每类物体中随机抽取十幅图像作为训练样本，再另外随机抽取十幅图像作为测试样本。每次实验在训练时将对应类别的十个训练样本作为正样本，剩下的所有训练样本作为负样本。每一个实验做十次，最后取其平均值作为最后的识别率。识别的正确率通过计算混淆矩阵来表示。本专利提出的算法在Caltech-101和Caltech-256数据库上的混淆矩阵如图6和图7所示。表明本专利提出的算法对物体图像的识别具有较高的辨识度，并且在训练样本较少的情况下，本专利方法获得了较好的识别效果。

本专利结合ED-SIFT特征的提取，k-means++聚类算法和空间金字塔核函数匹配共同构建了一个鲁棒的物体识别算法。提取物体图像的ED-SIFT特征，得到的特征点丰富，能够更加充分的利用图像的信息。空间金字塔核函数匹配不仅充分利用了图像的空间信息，而且大大提高了匹配精度。本专利提出的算法对物体图像的识别具有较高的辨识度，并且在训练样本较少的情况下，采用简单的SVM分类器获得了良好的分类效果。

本专利在遥感图像识别、医学图像分类和互联网图像检索等领域都具有广泛的应用前景。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

[1]S.Lazebnik,C.Schmid,J.Ponce.Beyondbagsoffeatures:spatialpyramidmatchingforrecognizingnaturalscenecategories,IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,2(2006):2169-2178.

[2]OnlineKernelPrincipalComponentAnalysis:AReduced-OrderModelHoneine,P.,PatternAnalysisandMachineIntelligence,34(2012):1814-1826.

Claims

1.基于核函数匹配的空间金字塔物体识别方法，其特征在于，包括下列步骤：

步骤五、引入空间金字塔，将训练样本的ED-SIFT描述子、测试样本的ED-SIFT描述子和视觉词典映射到高维空间，然后使用核函数匹配来获得训练样本和测试样本的视觉单词直方图；

2.根据权利要求1所述的基于核函数匹配的空间金字塔物体识别方法，其特征在于，步骤三中提取训练样本和测试样本的ED-SIFT(EfficientDenseScale-invariantFeatureTransform)描述子的方法为：

1)将样本图像划分为均匀大小的单元格，每个单元格由4×4个像素组成，依次从图像中选取4×4个单元格，步长为8个像素，遍历整个图像，使用高斯核函数将每个单元格中像素的梯度方向映射到梯度方向基向量中，得到样本图像的梯度方向直方图；

其中z为图像中的像素点，为梯度方向基向量；

α为调节因子，本专利取α＝5，梯度方向基向量为在平面直角坐标系的水平和垂直方向分别将区间[-1,1]平均分成九等分，得到的100个点坐标；

使用归一化的梯度的模加权，每个4×4大小的单元格中每一个像素z的梯度模归一化的公式为：(ε为小常量，防止分母为0)；

2)使用高斯核函数来增大靠近关键点的像素点的空间位置权重，减小远离关键点的像素点的空间位置权重；

α为调节因子，本专利中取α＝5，p_z为关键点z的空间位置，q_z′为像素点z′的空间位置；

本专利中关键点p_z的空间位置为在直角坐标系中的水平和垂直方向分别将区间[0,1]平均分成四等分后得到的25个点坐标，像素点q_z′的空间位置的选择为在直角坐标系中将水平和垂直方向上分别将区间平均分成十五等分后得到的256个点坐标；

3)每隔8个像素遍历整幅图像，计算所有4×4单元格的ED-SIFT向量，最后得到图像的ED-SIFT特征；

4)使用KPCA(kernelprincipalcomponentanalysis)算法对得到的ED-SIFT向量降维。在一个4×4单元格图像块p中，基于高斯核匹配的梯度方向直方图的第k个分量为：

F_{k} (p) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} \frac{1}{\sqrt{λ_{k}}} {(u_{i j}^{k})}^{T} \underset{z &Element; p}{Σ} \tilde{m} (z) g_{θ} (\tilde{θ} (z), \tilde{θ} (x_{i})) g_{p} (z, y_{j}))

其中m为梯度方向基向量的长度，n为空间位置向量的长度，λ_k和是高斯核矩阵的第k个特征值和特征向量，高斯核矩阵为[G]_ijmn＝g_θ(p_i,p_j)g_s(z_m,z_n)-2∑_i′m′g_θ(p_i′,p_j)g_s(z_m′,z_n)+∑_{i′j′m′n′}g_θ(p_i′p_j′)g_s(z_m′,z_n′)，本专利中取k＝200。

3.根据权利要求1所述的基于核函数匹配的空间金字塔物体识别方法，其特征在于，步骤五引入空间金字塔，将训练样本的ED-SIFT描述子、测试样本的ED-SIFT描述子和视觉词典映射到高维空间，然后使用核函数匹配来获得训练样本和测试样本的视觉单词直方图的方法为：

1)本专利中取空间金字塔的层数L＝3，将物体的图像从左到右分解的块数分别为：1×1，2×2，4×4；分配的权重依次为

2)对所有样本的ED-SIFT特征向量X＝{x₁,x₂,…,x_n}，使用k-means++算法聚类生成的K个视觉单词表示为C＝{c₁,c₂,…,c_k}，将其映射到高维空间分别表示为Ψ(X)＝{Ψ(x₁),Ψ(x₂),…,Ψ(x_n)}、Ψ(C)＝{Ψ(c₁),Ψ(c₂),…,Ψ(c_k)}；

3)在高维空间中将Ψ(X)映射到Ψ(C)中，归一化后每个样本的视觉单词直方图为

\overset{&OverBar;}{Ψ} (X) = \frac{1}{| X |} G \underset{x &Element; X}{Σ} k_{C} (x)

其中

G^{T} G = {K_{C C}}^{- 1}, k_{c_{i}} (c_{j}) = e^{- α | | c_{i} - c_{j} | |}, k_{c_{i}} (x_{j}) = e^{- α | | c_{i} - x_{j} | |}, α = 5.