CN103942570A

CN103942570A - 图像分类方法及系统

Info

Publication number: CN103942570A
Application number: CN201410177159.0A
Authority: CN
Inventors: 雷柏英; 陈思平; 汪天富; 倪东
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2014-04-29
Filing date: 2014-04-29
Publication date: 2014-07-23

Abstract

本发明涉及一种图像分类方法，包括如下步骤：对要分类的图像进行多尺度分割；对多尺度分割后的图像进行显著图提取；对显著图提取后的图像进行直方图挖掘；对直方图挖掘后的图像进行归一化；采用支持向量机对上述归一化的图像进行分类。本发明还涉及一种图像分类系统。本发明能够提高图像的分类性能，减少计算时间，增加图像的区分能力。

Description

图像分类方法及系统

技术领域

本发明涉及一种图像分类方法及系统。

背景技术

图像分类即是，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

在最近的十年中，图像分类是计算机视觉领域的一个研究热点。BOW(字典袋)技术已被证明是最有效的图像分类的方法之一。

然而，在BOW方法中，空间的上下文信息，如字共生和成对的信息被忽略，产生的视觉单词仍然不够说明问题，限制了图像的整体分类性能。此外，基于局部特征是相互独立的假设，如朴素贝叶斯，并不是总能成立。

发明内容

有鉴于此，有必要提供一种图像分类方法及系统。

本发明提供一种图像分类方法，该方法包括如下步骤：a.对要分类的图像进行多尺度分割；b.对多尺度分割后的图像进行显著图提取；c.对显著图提取后的图像进行直方图挖掘；d.对直方图挖掘后的图像进行归一化；e.采用支持向量机对上述归一化的图像进行分类。

其中，所述的多尺度分割包括将所述图像划分成多块，修改所述划分后图像的结构信息表示。

所述的步骤b采用基于图形的视觉显著性的自下而上的显著性模型提取图像的显著图。

所述的步骤c中直方图挖掘基于：R(m)＝d(m)×v(m),其中，d(m)(0≤d(m≤)和1)v(m)分别是差异性分数和代表性分数。

所述步骤d中的归一化包括：平方根归一化、L1归一化、类内和类间l₁归一化、l₂归一化、类内和类间l₂归一化。

本发明还提供一种图像分类系统，包括相互电性连接的分割模块、提取模块、挖掘模块、归一化模块及分类模块。其中，所述分割模块用于对要分类的图像进行多尺度分割；所述提取模块用于对多尺度分割后的图像进行显著图提取；所述挖掘模块用于对显著图提取后的图像进行直方图挖掘；所述归一化模块用于对直方图挖掘后的图像进行归一化；所述分类模块用于采用支持向量机对上述归一化的图像进行分类。

所述的提取模块采用基于图形的视觉显著性的自下而上的显著性模型提取图像的显著图。

所述的直方图挖掘基于：R(m)＝d(m)×v(m),其中，d(m)(0≤d(m)≤1)和v(m)分别是差异性分数和代表性分数。

所述的归一化包括：平方根归一化、L1归一化、类内和类间l₁归一化、l₂归一化、类内和类间l₂归一化。

本发明图像分类方法及系统，利用显著区域定位、直方图挖掘、图像评分、差异性学习等进行图像分类。主要贡献如下：首先，结合直方图挖掘的多尺度空间进行金字塔的图像表示，基于边缘的密集描述符提高分类性能和减少计算时间；其次，显著图提取构建BoP模型，增加区分判断能力；第三，从视觉显著性获得的图像得分被集成到SVM分类器的分离超平面，所述图像得分被视为潜在的信息，以提高区分能力；最后，提出了考虑类间和类内变化，也考虑直方图的统计信息的直方图归一化方法。

附图说明

图1为本发明图像分类方法的流程图；

图2为本发明较佳实施例图像多尺度分割示意图；

图3为本发明较佳实施例图像、显著图、显著图的灰度形式示意图；

图4为本发明较佳实施例事件数据集的直方图PDF示意图；

图5为本发明较佳实施例足球数据集的直方图PDF示意图；

图6为本发明图像分类系统的硬件架构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

参阅图1所示，是本发明图像分类方法较佳实施例的作业流程图。

步骤S401，对要分类的图像进行多尺度分割。具体而言，将每个所述图像划分成多块，修改所述划分后图像的结构信息表示。图2示出了多尺度分割后的图像空间金字塔。图2中1×1(原始图像)、2×2、4×4的区域(总共21个区域)均由SPM技术生成。本实施例中，所述图像的纵横比保持SPM的多尺度技术。从多尺度分割和密集采样中得到特征矢量，一般是高维数，通过主成分分析(PCA)和线性判别分析(LDA)进行降维运算，从而产生良好的结果，且不显著损失。

步骤S402，对多尺度分割后的图像进行显著图提取。视觉显著性或点分布通常用于获得通用的显著性和强调不同的局部区域，如轮廓、边缘和颜色。本实施例中，采用基于图形的视觉显著性(GBVS)的自下而上的显著性模型来提取图像的显著图。图3显示了图像、显著图、显著图的灰度形式，由此看出有意义鉴别的区域，可以可靠地从显著图中获得。

每个视觉词之间码字的共同出现结合在特征向量也融合进BoP(bagof phrase)直方图中，n个局部描述符s＝{s_t},t＝1,...,n的每个码字v由原始的BoW方法生成，显著性驱动的方法由下式获得：

s = Σ_{t = 1}^{n} β_{t} {| | v - s_{t} | |}_{2}

其中，加权系数β_t在位置(x,y)定义为：σ是加权参数。

假设s_ic代表i-th图像在c-th类的显著性，h_ic代表i-th图像在c-th类的近似归一化的BoP直方图。该图像由连接在一起的特征直方图和显著特征图可以表示为：

X＝[..s_1ch_1c...s_ich_ic...s_NΜh_NM],

对于图像评分的权重，图像中心的计算通过选择其中各个细胞的最小化各个距离：

S_{i} = \underset{s_{j}}{\arg \min} Σ_{j = 1}^{M} d (S_{i}, S_{j})

其中，d是距离衡量。距离衡量是基于图像局部细胞的直方图。χ²距离衡量差别如下：

d (S_{i}, S_{j}) = Σ_{r = 1}^{| ζ |} \frac{2 s_{jr} \times s_{ir}}{s_{jr} + s_{ir}} .

此类距离度量是衡量图像是否属于这个类。如果这个细胞远离细胞中心，很可能这个细胞不在这个类中，那么这幅图像的权重就比较低。假设d表示为t-th图像分数和每类的图像分数中，图像的评分可以定义为：

d≥0,其中，τ是强度测量系数，s_t是显著性图，φ是边界因子，Γ(·)是伽玛函数。

空间上下文信息最终被归一化图像的得分在支持向量机学习中训练。归一化的图像的得分计算如下：

λ_{i} = \frac{μ_{i} | ζ |}{Σ_{i = 1}^{| ζ |} μ_{i}} . .

步骤S403，对显著图提取后的图像进行直方图挖掘。具体而言：

直方图挖掘得分是基于两个discriminitivity和代表性分数如下组合M表示：

R(m)＝d(m)×v(m),

其中，d(m)(0≤d(m)≤1)和v(m)分别是差异性和代表性分数。高的R(m)意味着模式m在整个图像具有很高区分性有利于分类。

假设p(i|m)是图像类c在具体的模式m下的条件概率，在熵方法下的差异性定义为：

d (m) = 1 - \frac{\underset{c}{Σ} p (c | m) \log p (c | m)}{\log O},

其中，logO是保证0≤d(m)≤1,的正则化参数，假设A_j代表j-th图像，N是此类中总的图像数，F(m|A_j)是常出现的模式，p(c|m)定义为：

p (c | m) = \frac{Σ_{j = 1}^{N} F (m | A_{j}) p (c | A_{j})}{Σ_{j = 1}^{N} F (m | A_{j})},

其中，F(m|A_j)等于1意味着模式m在图像A_j中，而0则代表图像在此类中，同样，p(c|A_j)等于1意味着类标同A_j相同，为0则类标不同。

假设p(A|m'_c)是类c的最佳分配，概率p(A|m)从频率F(m|A)中获得，本质就是模式m的分配，代表性的分数可以定义为整个图像的最佳匹配：

v (m) = \max_{c} (\exp - [D_{KL} (P (A | m_{c}^{'}) | | p (A | m))]),

其中，D_KL(·||·)是两种分配中的Kullabak-Leibler(KL)散度。

步骤S404，对直方图挖掘后的图像进行归一化。具体步骤如下：

在大多数的数据集中，测试和训练图像有不同的宽度和高度，这导致图像的变化以及直方图的多样化。多尺度方法把图像分割成不同的尺寸，因此导致图像的变化。由于直方图是SVM分类器的输入，归一化直方图的输入可能导致由一致性改进的分类结果。因此，关键是要进行归一化，以实现分类一致性。归一化是解决变化问题的有效方法。l_p范数为实数时，p≥1时定义为：

{| | x | |}_{p} = {(Σ_{i = 1}^{n} {| x_{i} |}^{p})}^{1 / p},

其中，p＝1是l₁范数，p＝2是l₂范数或者欧几里德范数。归一化的直方图往往有利于在较大区域分类可以获得相对较大的分数。当上述直方图被归一化后，在SVM分类区域相似度的最大值可以在两个区域共享相同的外观被发现。为归一化常常执行与小区域的更好，并且因此相比正常化相对较不可靠的性能得到。同时，当直方图h是归一化，特征映射h利用核方法是一个常数。分类和直方图归一化的效率之间的关系进行详细的观察和解释。直方图归一化是特别为基于核SVM分类器非常有用。分类基于直方图，统计技术，如直方图(即直方图分布)的概率密度函数(PDF)的框架支持向量机的图像能够提供大量的区分性的信息进行分类。但是，直方图分布的统计信息往往被忽略。从BOF-PDF算法可以看出，如果图像很好地表示了标准化后的有限分布直方图，分类就可以得到很好的结果。

事实上，在直方图分布已在归一化之后被改变。此外，不同的范数方法在改变直方图PDF格式中起不同的作用。本实施例采用新颖的直方图正态化技术，以便更好地表示图像，进行图像的分类。为了说明直方图PDF格式的变化。图4和5分别显示在事件数据集、足球数据集上采用不同归一化方法后的直方图分布变化(横坐标代表直方图的值；纵坐标为小数点时代表出现的概率，为非小数点时代表出现的次数)，如图4及图5中(a)-(f)中所示：(a)表示无归一化；(b)表示平方根(SQRT)归一化，即SQRT范数；(c)表示L1归一化，即l₁范数(L1)；(d)表示类内和类间l₁归一化，即类内和类间l₁范数(L1N)；(e)表示l₂归一化，即l₂范数(L2)(f)表示类内和类间l₂归一化，即类内和类间l₂范数(L2N)。所述L1N和L2N方法利用类的差异进行相应的归一化。L1和L2的方法，仅有l₁或者l₂范数方法仅在这个类中利用直方图，而L1N和L2N方法意味着l₁或者l₂范数的方法应用于类内，然后l₁或者l₂范数方法应用于类间。从图4、图5中可以看出，在事件数据集、足球数据集上，逆高斯和广义极值分布比正态和log正态分布更好地表示数据集的分布。

值得一提的是，类内和类间的归一化方法可以减少类内和类间的变化，并且使分布更广义的和一致。也观察到L1N范数的直方图特征能更好地方法比L1范数的直方图方法更好表示，类似的结果也适用于L2N和L2的方法。此外，L2N方法获得比L1N方法稍微好一点的结果。事实上也已经验证明适当的归一化方法可以提升分类性能。归一化的直方图分布在有限的维数，从而表现出类似于高斯混合模型的特性。在图像表示上，归一化的直方图也大大优于非归一化的直方图。

步骤S405，采用支持向量机(support vector machines，SVM)对上述归一化的图像进行分类。

参阅图6所示，是本发明图像分类系统的硬件架构图。该系统包括相互电性连接的分割模块、提取模块、挖掘模块、归一化模块及分类模块。

所述分割模块用于对要分类的图像进行多尺度分割。具体而言，所述分割模块将每个所述图像划分成多块，修改所述划分后图像的结构信息表示。图2示出了多尺度分割后的图像空间金字塔。图2中1×1(原始图像)、2×2、4×4的区域(总共21个区域)均由SPM技术生成。本实施例中，所述图像的纵横比保持SPM的多尺度技术。从多尺度分割和密集采样中得到特征矢量，一般是高维数，通过主成分分析(PCA)和线性判别分析(LDA)进行降维运算，从而产生良好的结果，且不显著损失。

所述提取模块用于对多尺度分割后的图像进行显著图提取。视觉显著性或点分布通常用于获得通用的显著性和强调不同的局部区域，如轮廓、边缘和颜色。本实施例中，所述提取模块采用基于图形的视觉显著性(GBVS)的自下而上的显著性模型来提取图像的显著图。图3显示了图像、显著图、显著图的灰度形式，由此看出有意义鉴别的区域，可以可靠地从显著图中获得。

s = Σ_{t = 1}^{n} β_{t} {| | v - s_{t} | |}_{2}

其中，加权系数β_t在位置(x,y)定义为：σ是加权参数。

X＝[..s_1ch_1c...s_ich_ic...s_NΜh_NM],

S_{i} = \underset{s_{j}}{\arg \min} Σ_{j = 1}^{M} d (S_{i}, S_{j})

d (S_{i}, S_{j}) = Σ_{r = 1}^{| ζ |} \frac{2 s_{jr} \times s_{ir}}{s_{jr} + s_{ir}} .

λ_{i} = \frac{μ_{i} | ζ |}{Σ_{i = 1}^{| ζ |} μ_{i}} . .

所述挖掘模块用于对显著图提取后的图像进行直方图挖掘。具体而言：

R(m)＝d(m)×v(m),

d (m) = 1 - \frac{\underset{c}{Σ} p (c | m) \log p (c | m)}{\log O},

p (c | m) = \frac{Σ_{j = 1}^{N} F (m | A_{j}) p (c | A_{j})}{Σ_{j = 1}^{N} F (m | A_{j})},

v (m) = \max_{c} (\exp - [D_{KL} (P (A | m_{c}^{'}) | | p (A | m))]),

其中，D_KL(·||·)是两种分配中的Kullabak-Leibler(KL)散度。

所述归一化模块用于对直方图挖掘后的图像进行归一化。具体如下：

在大多数的数据集中，测试和训练图像有不同的宽度和高度，这导致图像的变化以及直方图的多样化。多尺度分割把图像分割成不同的尺寸，因此导致图像的变化。由于直方图是SVM分类器的输入，归一化直方图的输入可能导致由一致性改进的分类结果。因此，关键是要进行归一化，以实现分类一致性。归一化是解决变化问题的有效方法。l_p范数为实数时，p≥1时定义为：

{| | x | |}_{p} = {(Σ_{i = 1}^{n} {| x_{i} |}^{p})}^{1 / p},

值得一提的是，类内和类间的归一化方法可以减少类内和类间的变化，并且使分布更广义的和一致。也观察到L1N范数的直方图特征能更好地方法比L1范数的直方图方法更好表示，类似的结果也适用于L2N和L2的方法。此外，L2N方法获得比L1N方法稍微好一点的结果。事实上也已经验证明适当的归一化方法可以提升分类性能。归一化的直方图分布在有限的维数，从而表现出类似于高斯混合模型的特性。在图像表示上，归一化的直方图也大大优于非归一化的直方图。。

所述分类模块用于采用支持向量机(support vector machines，SVM)对上述归一化的图像进行分类。

虽然本发明参照当前的较佳实施方式进行了描述，但本领域的技术人员应能理解，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。

Claims

1.一种图像分类方法，其特征在于，该方法包括如下步骤：

a.对要分类的图像进行多尺度分割；

b.对多尺度分割后的图像进行显著图提取；

c.对显著图提取后的图像进行直方图挖掘；

d.对直方图挖掘后的图像进行归一化；

e.采用支持向量机对上述归一化的图像进行分类。

2.如权利要求1所述的方法，其特征在于，所述的多尺度分割包括将所述图像划分成多块，修改所述划分后图像的结构信息表示。

3.如权利要求1或2所述的方法，其特征在于，所述的步骤b采用基于图形的视觉显著性的自下而上的显著性模型提取图像的显著图。

4.如权利要求3所述的方法，其特征在于，所述的步骤c中直方图挖掘基于：

R(m)＝d(m)×v(m),

其中，l₁d(m)(0≤d(m)≤1)和v(m)分别是差异性分数和代表性分数。

5.如权利要求1所述的方法，其特征在于，所述步骤d中的归一化包括：平方根归一化、L1归一化、类内和类间归一化、l₂归一化、类内和类间l₂归一化。

6.一种图像分类系统，其特征在于，该系统包括相互电性连接的分割模块、提取模块、挖掘模块、归一化模块及分类模块，其中：

所述分割模块用于对要分类的图像进行多尺度分割；

所述提取模块用于对多尺度分割后的图像进行显著图提取；

所述挖掘模块用于对显著图提取后的图像进行直方图挖掘；

所述归一化模块用于对直方图挖掘后的图像进行归一化；

所述分类模块用于采用支持向量机对上述归一化的图像进行分类。

7.如权利要求6所述的系统，其特征在于，所述的多尺度分割包括将所述图像划分成多块，修改所述划分后图像的结构信息表示。

8.如权利要求6或7所述的系统，其特征在于，所述的提取模块采用基于图形的视觉显著性的自下而上的显著性模型提取图像的显著图。

9.如权利要求8所述的系统，其特征在于，所述的直方图挖掘基于：

R(m)＝d(m)×v(m),

其中，d(m)(0≤d(m)≤1)和v(m)分别是差异性分数和代表性分数。

10.如权利要求6所述的系统，其特征在于，所述的归一化包括：平方根归一化、L1归一化、类内和类间l₁归一化、l₂归一化、类内和类间l₂归一化。