CN106156798B

CN106156798B - 基于环形空间金字塔和多核学习的场景图像分类方法

Info

Publication number: CN106156798B
Application number: CN201610592216.0A
Authority: CN
Inventors: 曹宁; 冯阳; 汪飞
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-10-25
Anticipated expiration: 2036-07-25
Also published as: CN106156798A

Abstract

本发明公开了一种基于环形空间金字塔模型和多核学习的场景图像分类方法，包括：建立训练图像集和测试图像集；多特征的提取阶段，包括提取Dense‑SIFT特征、L‑Gist特征和彩色颜色特征；采用二次K‑means++聚类来训练词典，对于提取的每一种特征都要进行二次聚类的过程，然后再对第一次聚类生成的视觉词典的集合进行第二次聚类，得到总的视觉词典；图像特征编码阶段，通过对图像进行环形空间金字塔划分，对于金字塔划分后的每一个子图像块都基于视觉词典形成向量表示形式；多核学习阶段，采用环形空间金字塔划分图像，给每一子图像块都分配一个核函数，给彩色颜色特征分配一个核函数；分类判决阶段。本发明采用Dense‑SIFT特征、L‑Gist特征和HSV全局颜色特征互补组合来表示场景图像，比常规单一特征的方法能更有效地表示图像的完整信息，能够更好的实现场景分类。

Description

基于环形空间金字塔和多核学习的场景图像分类方法

技术领域

本发明属于机器学习和数字图像处理领域，具体涉及一种基于环形空间金字塔和多核学习的场景图像的分类方法

背景技术

近年来，由于多媒体和互联网技术的飞速发展，大大促使了图像信息资源的急剧膨胀，海量图像资源在给我们的工作和生活带来极大便利的同时，如何更加有效地管理和快速检索到我们感兴趣的图像却变得越来越困难。因此，面对浩如烟海的图像资源，如果依靠传统的人工标注的方法不仅耗时费力，而且也存在主观的不确定性，这显然已不符合当今多媒体信息时代快速发展的需求。那么，如何利用计算机等智能设备来完成对图像资源的自动分类和高效管理，成为人们关注的一个重要问题。场景图像分类正是在这样的需求和背景下得到迅速的推动和发展。

场景图像分类作为二十世纪九十年代末开始兴起的一个新的研究领域，发展至今形成了很多有价值的研究方法。在以往基于视觉特征提取的场景图像分类研究中，基于单一特征表示图像的研究居多，而基于多特征组合表示图像的研究相对较少。由于场景图像的背景和对象目标往往比较复杂，仅仅使用单一特征往往不足以充分地表述场景图像的完整信息，这限制了场景图像分类的性能。因此，如何更好地组合有效的场景图像特征是一个值得深入研究的领域。

近些年来场景图像分类的研究取得了丰硕的成果，但是相比人类视觉辨识场景的能力还存在较大的差距，实现场景图像的准确分类识别仍然面临着诸多挑战。影响场景图像分类性能的主要因素包括两个方面：(1)如何更加有效地表示场景图像；(2)如何充分发掘场景图像的空间语义信息。

发明内容

针对上述技术问题，本发明提出一种基于环形空间金字塔和多核学习的场景图像分类方法，从场景图像中提取局部特征Dense-SIFT和局部Gist特征L-Gist，并结合HSV颜色空间的全局颜色特征来组合表示场景图像，克服了传统分类方法使用单一特征表示图像会导致信息缺失的问题；使用三级空间金字塔汇聚的编码方法对这些特征进行编码；为增加场景图像分类时的空间信息以及各个图像块在分类时的贡献不同，采用环形空间金字塔划分并加权组合的方式来增加场景图像特征之间的空间信息；在场景图像分类阶段时，本发明采用多核学习算法为环形空间金字塔的每一层的每个图像小块都分配一个核函数，并通过学习各个核的权重，来获得区分能力最强的合成核。相比传统的图像分类方法，本发明提出的分类方法在应对复杂场景分类任务中，不仅可以对场景图像形成有效地表示，而且也加入了场景图像特征之间的空间位置信息。

实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基于环形空间金字塔和多核学习的场景图像分类方法，包括以下步骤：

S1：建立训练图像集和测试图像集；

S2：对训练图像集和测试图像集分别进行场景图像视觉特征的提取，并对提取出来的场景图像视觉特征进行归一化处理，场景图像视觉特征包括：图像的局部Dense-SIFT特征、局部L-Gist特征和HSV颜色空间的全局颜色特征；

S3：对步骤S2中提取的局部Dense-SIFT特征和局部L-Gist特征以及全局颜色特征均采用基于稳定初值的二次k-means++聚类算法来构建这三种特征的视觉词典，最后将三种特征的视觉词典串接组合后分别构建得到训练图像集和测试图像集的总视觉词典；

S4：分别以多圆形逐层细化训练图像集和测试图像集中的各个场景图像，构建每个场景图像的L层多圆划分的环形空间金字塔，得到1+2+3+……+L个环形子图像块，并对环形空间金字塔的每一层的环形子图像块进行局部Dense-SIFT特征和局部L-Gist特征的提取，并对提取到的局部Dense-SIFT特征和局部L-Gist特征都用BOVW模型来表示，结合步骤S3中构建的相应的两种特征的视觉词典将每一环形子图像块编码成一个向量表示，然后对每一个环形子图像块都分配一个核函数，将环形空间金字塔的每一个环形子图像块各自形成一个高维核矩阵；对于全局颜色特征，不划分图像，每幅图像只能形成一个全局的向量表示，对全局颜色特征分配一个核函数，分别形成一个场景图像的高维核矩阵；

S5：通过多核学习算法来获得步骤S4中各个高维核矩阵的最优系数，最终获得一个最佳的加权组合的核矩阵；

S6：将训练图像集的各场景图像的最佳的组合核矩阵送入SVM分类器中进行训练，训练完成后，将测试图像集的各场景图像的最佳的组合核矩阵送入训练好的SVM分类器中进行测试，实现场景图像的分类。

所述步骤S5中的多核学习算法包含以下步骤：

5-1、初始化n←0；

5-2、随机产生1+2+...+L个数构成初始核矩阵系数q⁰，且满足q⁰＝random(1+2+…+L),q⁰∈[0,1)；

5-3、重复以下步骤直到5-9条件成立为止；

5-4、组合核矩阵K为：k(qⁿ)→K；

5-5根据组合核矩阵K，通过求解拉格朗日对偶问题来求解二次方程最优化问题来获得α^*；

5-6、更新权值；

5-7、如果满足那么就把设为可行解；

5-8、n←n+1；

5-9、直到满足收敛条件或者大于最大迭代次数；

其中n为迭代的次数，q⁰是初始核矩阵的系数，q为各个核函数的系数，α^*代表拉格朗日系数，r为参数调整函数，k为各个核矩阵，k(qⁿ)即为各个加权核矩阵，代表第n+1次迭代时的各个加权核矩阵系数，→代表赋值，假设Y为记录类别的对角矩阵，那么H＝YKY，通过上述学习过程可以获取各个核矩阵的最优系数q，最终获得一个最佳的加权组合的核矩阵。

所述步骤S4中，环形空间金字塔为多级环形空间金字塔，构建方法如下：首先对原始图像用一个大的圆形去划分图像，并标记为环形金字塔的第0层；然后在上一步的圆形内继续划分，并标记为第1层，以此类推，每增加一层，图像就多了一重圆形划分，构建L层环形空间金字塔。

所述分配给每个环形子图像块和全局颜色特征的核函数分别为径向基核函数和Chi-Square核函数，具体分别如下式(7)和(8)所示：

式中，x₁和x₂分别是原始空间中的两个数据点，核函数的参数值σ取所有训练数据集到核函数的距离平均值，x和y表示两个数据点，n表示数据点个数。

所述步骤S2中，提取图像的局部Dense-SIFT特征，具体为：采用滑动采样方式，得到一系列图像区块，计算其水平梯度G_x和垂直梯度G_y，如下式(1)所示：

其中，I(x,y)表示原始图像，g(x,y)表示滤波后的图像，G(x,y,σ)为高斯核函数，x和y为图像像素点的坐标，σ为核函数参数；

根据式(1)计算其梯度值m(x,y)和方向角θ(x,y)，如下式(2)所示：

将每一个采样得到的图像区块都均匀划分为4×4＝16个子块，并在每个字块内以8个方向加权统计方向直方图，然后把这16个子块的梯度直方图依次级联起来，就可以得到了一个16×8＝128维的局部区域特征描述子；

提取图像的局部L-Gist特征，具体为：采用滑动采样方式，得到一系列图像区块，利用m尺度n方向的Gabor滤波器组对这些图像区块进行多通道卷积来提取场景的Gist特征，Gabor滤波器组是由一个二维母函数扩展形成的，二维母函数如下式(3)所示：

其中，x和y表示二维坐标；σ_x和σ_y分别是x和y方向高斯分布的方差；是该余弦谐波因子的相位差；f₀是滤波器的中心频率；在这个母函数的基础上经过多尺度伸缩和多角度旋转变换扩展成一组Gabor滤波器，扩展过程如下式(4)所示：

g_mn(x,y)＝α^-mg(x^*,y^*),α＞1

x^*＝α^-m(xcosθ+y sinθ)

y^*＝α^-m(-xsinθ+ycosθ) (4)；

其中，m和n分别为Gabor滤波器组的尺度数和方向数，α^-m为尺度扩展因子，θ为滤波器的方向旋转角；通过改变m和n就可得到一系列不同的滤波器；

提取HSV颜色空间的彩色颜色特征，具体为：首先对图像做颜色空间的预处理变换，变换的计算过程如式(5)所示：

V＝max(R,G,B)

if H＜0then H＝H+360,H∈[0,360],S,V∈[0,1]

其中R、G、B是RGB颜色空间的三个分量；H代表色调、S代表饱和度、V代表亮度，分别为HSV颜色空间的三个分量，通过公式(5)将RGB颜色表示的图像转化为HSV颜色表示形式；对RGB三个颜色分量采取非均匀量化，量化比为16:4:4，将H分量化为16个色调，S和V分别量化为4个等级，在此量化规则下，组合三个分量成一个一维颜色特征向量，这样HSV颜色空间就被量化为一个1×256维直方图，如下式(6)所示：

f_HSV＝16H+4S+V,f_HSV∈{0,1,2,...,255} (6)

所述提取L-Gist特征时，采取4尺度8方向的滤波器组把每个图像块划分为4×4的网格，得到的局部Gist特征的维数是(4×8)×(4×4)＝512维。

所述步骤S3具体包括：对于提取的每一种特征都进行二次K-means++聚类过程，即首先分别对选取的每一类的图像集单独进行聚类，先得到各个类的视觉词典，在第一次聚类时各类的聚类系数均一致，然后再对第一次聚类生成的各个类的视觉词典的集合进行第二次聚类，分别得到训练图像集和测试图像集的总视觉词典。

所述步骤S3中的二次聚类中每次的K-means++聚类算法按如下步骤进行：

3-1、从输入的数据点集合中随机选择一个点作为第一个聚类中心；

3-2、对于数据集中的每一个点，计算其与聚类中心的欧式距离；

3-3、按照最大距离原则重新选择一个新的数据点作为新的聚类中心，选择的原则是：数据点被选取作为聚类中心的概率与欧式距离的值成正比，保证初始聚类中心之间的相互距离要尽可能远；

3-4、重复3-2和3-3，直到K个初始聚类中心被选出来；

3-5、根据每个聚类群组的聚类中心，计算各数据点与这些聚类中心点的距离，并根据最近邻分配法则重新划分聚类；

3-6、重新计算每个有变化群组的聚类中心，反复执行(3-5)，直到每个聚类不再变化时，结束聚类过程。

本发明的有益效果：

(1)本发明采用Dense-SIFT特征、L-Gist特征和HSV全局颜色特征互补组合来表示场景图像，比常规单一特征的方法能更有效地表示图像的完整信息，能够更好的实现场景分类。

(2)本发明采取多核学习算法来学习各个核矩阵的最优系数，分类系统灵活，鲁棒性强。

(3)本发明采取环形空间金字塔划分图像来加入图像特征之间的空间位置信息，相对于常规的空间金字塔划分，在保证分类性能的同时还能大大降低计算的复杂度。

附图说明

图1为本发明的场景图像分类的实现流程图。

图2(a)为本发明的二次K-means++聚类训练词典示意图。

图2(b)为k-means++聚类算法流程图。

图3为本发明的环形空间金字塔汇聚示意图。

图4为本发明的多核学习方法核函数的分配图。

图5(a)为本发明在8类自然场景数据集上的分类性能对比。

图5(b)为本发明在8类复杂运动场景数据集上的分类性能对比。

图6(a)为8类自然场景数据集上，本发明多核学习方法与单核分类方法对比。

图6(b)为8类复杂运动场景数据集上，本发明多核学习方法与单核学习方法对比。

图7为本发明的环形空间金字塔子块分配权值对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，一种基于环形空间金字塔和多核学习的场景图像分类方法，包括以下步骤：

S1：建立训练图像集和测试图像集；本发明的训练图像集和测试图像集均是从两个经典的实验数据集中随机选取的，这两个实验数据集是MIT的八类(Coast，Forest，Highway，InsideCity，Mountain，OpenCountry，Street，Tall Building)自然场景的数据集(OT-8Scene Categories Dataset)和UIUC-Sports八类(Badminton，Bocce，Croquet，Polo，Rock-Climbing，Rowing，Sailing，Snow-Boarding)复杂运动场景数据集。

S4：分别以多圆形逐层细化训练图像集和测试图像集中的各个场景图像，构建每个场景图像的L层多圆划分的环形空间金字塔，得到1+2+3+……+L个环形子图像块，并对环形空间金字塔的每一层的环形子图像块进行局部Dense-SIFT特征和局部L-Gist特征的提取，并对提取到的局部Dense-SIFT特征和局部L-Gist特征都用BOVW模型来表示，结合步骤3中构建的相应的两种特征的视觉词典将每一环形子图像块编码成一个向量表示，然后对每一个环形子图像块都分配一个核函数，将环形空间金字塔的每一个环形子图像块各自形成一个高维核矩阵；对于全局颜色特征，不划分图像，每幅图像只能形成一个全局的向量表示，对全局颜色特征分配一个核函数，分别形成一个场景图像的高维核矩阵；

S5：通过多核学习来获得步骤S4中各个核矩阵的最优系数，最终获得一个最佳的组合核矩阵；

S6：将训练图像集的各图像的最佳的组合核矩阵送入SVM分类器中进行训练，训练完成后，将测试图像集的各图像的最佳的组合核矩阵送入训练好的SVM分类器中进行测试，实现场景图像的分类。

所述步骤S5中的多核学习算法包含以下步骤：

5-1、初始化n←0；

5-2、随机产生1+2+...+L个数构成初始核矩阵系数q⁰，且满足q⁰＝random(1+2+…+L),q⁰∈[0,1)，即初始随机生成的系数都在0到1之间；

5-3、重复以下步骤直到5-9条件成立为止；

5-4、组合核矩阵K为：k(qⁿ)→K，即把每次更新系数后的核矩阵加权组合成合成核矩阵；

5-5根据核矩阵K，通过求解拉格朗日对偶问题来求解二次方程最优化问题来获得α^*；

5-6、更新权值；

5-7、如果满足那么就把设为可行解；

5-8、n←n+1；

5-9、直到满足收敛条件或者大于最大迭代次数；

其中n为迭代的次数，q⁰初始核矩阵的系数，q为各个核函数的系数，α^*代表拉格朗日系数，r为参数调整函数，k为各个核矩阵，k(qⁿ)为各个加权核矩阵，假设Y为记录类别的对角矩阵，那么H＝YKY，通过上述学习过程可以获取各个核矩阵的最优系数q，最终获得一个最佳的加权组合核矩阵。

如图3所示，所述步骤S4中，环形空间金字塔为多级环形空间金字塔，构建方法如下：首先对原始图像用一个大的圆形去划分图像，并标记为环形金字塔的第0层；然后在上一步的圆形内继续划分，并标记为第1层，以此类推，每增加一层，图像就多了一重圆形划分，构建L-1层环形空间金字塔。

如图4所示，为了最大化发挥局部特征的优势，本发明对Dense-SIFT特征和L-Gist特征进行组合表达，并且为了进一步提高分类性能还加入了全局HSV颜色空间的彩色颜色特征。所述分配给每个环形子图像块和全局颜色特征的核函数分别为径向基核函数和Chi-Square核函数，具体分别如下式(7)和(8)所示：

所述步骤S2中，提取局部Dense-SIFT特征，具体为：采用滑动采样方式，得到一系列小图像块，计算其水平梯度G_x和垂直梯度G_y，如下式(1)所示：

其中，I(x,y)表示原始图像，g(x,y)表示滤波后的图像，G(x,y,σ)为高斯核函数。

再根据上式计算其梯度值m(x,y)和方向角θ(x,y)，如下式(2)所示：

提取局部L-Gist特征，具体为：采用滑动采样方式，得到一系列小图像块，利用用m尺度n方向的Gabor滤波器组对这些图像块进行多通道卷积来提取场景的Gist特征，这组

Gabor滤波器是由一个二维母函数扩展形成的，这个Gabor母函数可表示为如下式(3)所示：

其中，x和y表示二维坐标；σ_x和σ_y分别是x和y方向高斯分布的方差；是该余弦谐波因子的相位差；f₀是滤波器的中心频率。在这个母函数的基础上经过多尺度伸缩和多角度旋转变换扩展成一组Gabor滤波器，扩展过程如下式(4)所示：

g_mn(x,y)＝α^-mg(x^*,y^*),α＞1

x^*＝α^-m(xcosθ+y sinθ)

y^*＝α^-m(-xsinθ+ycosθ) (4)

其中，m和n分别为Gabor滤波器组的尺度数和方向数，α^-m为尺度扩展因子，θ为滤波器的方向旋转角。通过改变m和n就可得到一系列不同的滤波器。本发明采取4尺度8方向的滤波器组并把每个图像块划分为4×4的网格。所以我们后续实验就按这一参数作为最佳选择，此时得到的局部Gist特征的维数是(4×8)×(4×4)＝512维；

V＝max(R,G,B)

if H＜0then H＝H+360,H∈[0,360],S,V∈[0,1]

f_HSV＝16H+4S+V,f_HSV∈{0,1,2,...,255} (6)

如图2(a)所述步骤S3具体包括：对于提取的每一种特征都进行二次K-means++聚类过程，即首先分别对选取的每一类的图像集单独进行聚类，先得到各个类的视觉词典，在第一次聚类时各类的聚类系数均一致，然后再对第一次聚类生成的各个类的视觉词典的集合(这个地方进行二次聚类时候是把各个视觉词典中每个单词都当成一个数据点，统一进行聚类)进行第二次聚类，分别得到训练图像集和测试图像集的总视觉词典。

如图2(b)所示，所述步骤S3中的二次聚类中每次的K-means++聚类算法按如下步骤进行：

3-3、按照最大距离原则重新选择一个新的数据点作为新的聚类中心，选择的原则是：数据点被选取作为聚类中心的概率与欧式距离的值成正比，保证初始聚类中心之间的相互距离要尽可能远，即较大的点，被选取作为聚类中心的概率较大，也就是要保证初始聚类中心之间的相互距离要尽可能远；

3-4、重复3-2和3-3，直到K个初始聚类中心被选出来；K是自己指定的，即想分成多少个聚类群组；

针对两种特征分别利用二次聚类构建两个视觉词典，每一种特征都进过二次聚类生成自己的视觉词典，二次聚类的过程，具体参照图2。

参照图5-7，本发明的效果通过以下实施例进一步说明：

本实施例中的训练图像集和测试图像集均来自MIT的八类自然场景的数据集和UIUC-Sports八类复杂运动场景数据集，每一类都随机选取100张作为训练样本，另外再选取不同的100张作为测试样本。每个场景图像被划分为3层多圆划分的环形空间金字塔。在本实施例中的聚类时，K取1000。

图5(a)和(b)可以看出，本发明的基于环形空间金字塔和多核学习的图像场景分类方法在OT-8实验数据库上取得89.28％的平均分类正确率，比使用单一Dense-SIFT特征的精度提高了8.02％，而比单一使用局部Gist特征的分类正确率也提高了7.17％，更远远优于HSV全局颜色特征。本发明在UIUC-Sports数据集上该算法获得了77.70％的平均分类正确率，远高于仅使用L-Gist特征的68.2％和仅使用Dense-SIFT特征的67.70％。

图6(a)和(b)可以很直观地看出多核学习的优势，训练样本数在70到150范围内，多核学习的分类正确率都要高于单一核函数下的分类正确率，这也说明了对多个不同的核进行加权组合能够实现比单核更好的分类效果。同时，我们也可以看出基于RBF核的局部特征分类性能要优于基于Chi-Square核的全局颜色特征。

图7的实验是在UIUC-Sports数据集上进行的，MKL-3表示对三层环形空间金字塔的每一层分配核函数进行多核学习，MKL-6表示对环形空间金字塔的每一层的每一子图像块都分配核函数进行多核学习。实验结果表明，MKL-6的情况下性能更好，这也说明了金字塔的每一层的每一个子图像块对场景图像分类的贡献是不同的，如果对每一层分配固定的权值是不合理，通过对空间金字塔每一个子图像块进行多核学习，为每一个子图像块分配权值，这样可以获得区分能力更强的核矩阵，这也说明了本发明在场景图像分类中的有效性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于环形空间金字塔和多核学习的场景图像分类方法，其特征在于，包括以下步骤：

S1：建立训练图像集和测试图像集；

2.根据权利要求1所述的一种基于环形空间金字塔和多核学习的场景图像分类方法，其特征在于：所述步骤S4中，环形空间金字塔为多级环形空间金字塔，构建方法如下：首先对原始图像用一个大的圆形去划分图像，并标记为环形金字塔的第0层；然后在上一步的圆形内继续划分，并标记为第1层，以此类推，每增加一层，图像就多了一重圆形划分，构建L层环形空间金字塔。

3.根据权利要求2所述的一种基于环形空间金字塔和多核学习的场景图像分类方法，其特征在于：分配给每个环形子图像块和全局颜色特征的核函数分别为径向基核函数和Chi-Square核函数，具体分别如下式(7)和(8)所示：

4.根据权利要求1所述的一种基于环形空间金字塔和多核学习的场景图像分类方法，其特征在于：所述步骤S3具体包括：对于提取的每一种特征都进行二次K-means++聚类过程，即首先分别对选取的每一类的图像集单独进行聚类，先得到各个类的视觉词典，在第一次聚类时各类的聚类系数均一致，然后再对第一次聚类生成的各个类的视觉词典的集合进行第二次聚类，分别得到训练图像集和测试图像集的总视觉词典。

5.根据权利要求4所述的一种基于环形空间金字塔和多核学习的场景图像分类方法，其特征在于：所述步骤S3中的二次聚类中每次的K-means++聚类算法按如下步骤进行：

3-4、重复3-2和3-3，直到K个初始聚类中心被选出来；

3-6、重新计算每个有变化群组的聚类中心，反复执行3-5，直到每个聚类不再变化时，结束聚类过程。