CN103824079B

CN103824079B - 基于多层次模式子块划分的图像分类方法

Info

Publication number: CN103824079B
Application number: CN201410045527.6A
Authority: CN
Inventors: 丁洪富; 吕煊; 李爱迪; 杨凯; 刘俸才; 许汀汀
Original assignee: CHONGQING XINRONG LAND AND HOUSING SURVEY TECHNOLOGY RESEARCH INSTITUTE; CHONGQING CITY LAND RESOURCES AND HOUSING SURVEY PLANNING INSTITUTE
Current assignee: CHONGQING XINRONG LAND AND HOUSING SURVEY TECHNOLOGY RESEARCH INSTITUTE; CHONGQING CITY LAND RESOURCES AND HOUSING SURVEY PLANNING INSTITUTE
Priority date: 2014-02-08
Filing date: 2014-02-08
Publication date: 2017-02-01
Anticipated expiration: 2034-02-08
Also published as: CN103824079A

Abstract

本发明提出一种基于多层次模式子块划分的图像分类方法，该方法包括以下步骤：提取图像多尺度下的显著性区域分布图，并根据显著性区域分布采样不同位置和大小的窗口；对图像实施超像素分割，通过分析每个窗口与其内外邻近超像素的位置和分布关系确定每个窗口出现目标的概率，构造多层次模式子块；对每一个子块做多字典特征描述，然后将其组织为张量模式用做图像的特征描述；对图像的张量描述做典范相关分析，提取图像特征向量，最后通过分类器进行分类。多层次模式子块划分，充分考虑了复杂图像中目标的整体性和层次性，一方面实现同一目标模式信息的集中描述，另一方面实现了不同目标模式信息的显著性描述。在公测图像库上的实验结果，证实了我们的方法的有效性。

Description

基于多层次模式子块划分的图像分类方法

技术领域

本发明属于图像处理领域，具体涉及一种基于多层次模式子块划分的图像分类方法。

背景技术

随着多媒体技术的发展，图像、视频等多媒体数据急剧增长，如何快速、有效的将图像分门别类，是当前多媒体技术研究热点之一。就图像分类而言，虽然不同的应用背景有着不同的分类目标与评价标准，然而所有的图像分类应用都需要首先进行图像的描述，并且针对不同的应用通常要选择不同的图像描述方法。图像描述通俗讲就是利用一组数据来表示一幅图像，这组数据可以是向量的形式，也可以是矩阵的形式，它是图像信息的一种抽象表达，是做图像分析的重要模块之一。自然场景图像中的图像内容复杂多变，图像中通常会出现多个目标信息，因此准确刻画图像中出现的模式信息，是实现图像准确分类的前提。

传统方法中通常是将图像分为不同尺度下的方块，然后通过描述图像中各个子块的信息来表达图像中的纹理信息和位置分布信息。这种图像描述方法没有表达出图像中的模式信息和目标显著性信息，从而导致对图像描述不够准确。此外，这种方法还存在图像中同一目标物被拆分开来的问题，使得同一目标物在场景中不同位置出现会形成完全不同的特征描述，因此，缺乏对图像中目标整体信息的描述。

发明内容

为了克服已有技术的不足，本发明的目的在于设计一种带有图像模式子块分布信息的图像分类方法，提出一个图像信息更加丰富的图像描述方法，适合于多目标图像场景的分类。为此，本发明提供一种基于多层次模式子块划分的图像分类方法。

为达到所述目的，本发明提供一种基于多层次模式子块划分的图像分类方法，该方法的图像分类步骤如下：

步骤S1：提取图像多尺度下的显著性区域分布图，并根据显著性区域分布采样不同位置和大小的窗口；

步骤S2：对图像实施超像素分割，通过分析每个窗口与其内外邻近超像素的位置和分布关系确定每个窗口出现目标的概率，构造多层次模式子块；

步骤S3：对每一个子块做多字典特征描述，然后将其组织为张量模式用做图像的特征描述；

步骤S4：对图像的张量描述作典范相关分析，提取图像特征向量，最后通过分类器进行分类。

本发明针对图像分类问题，通过显著图和超像素分割将图像划分为对应不同显著度的多层次模式子块。对每一个子块做多特征字典描述，将图像构造为一个三阶张量描述，利用张量典范相关分析提取图像的特征向量，最后通过分类器进行分类。在公测数据库上的实验结果表明，本发明的基于多层次模式子块划分的图像分类方法，有效提高了图像分类的准确率。

附图说明

图1是本发明所述图像分类方法的分类框图；

图2是多层显著图提取结果；

图3是图像超像素划分结果；

图4是显著图窗口与超像素跨越关系图；

图5是多层次模式子块划分结果图；

图6是图像张量描述结构图；

图7是基于多层次模式子块划分图像分类方法在Pascal Voc2007图像库中前10类的分类准效果；

图8是基于多层次模式子块划分图像分类方法在Pascal Voc2007图像库中后10类的分类准效果。

具体实施方式

为了更清楚的表述本发明的目的、技术方案和优势，下面结合具体例子，对本发明具体实施方式做进一步的说明。

本发明利用显著图和超像素分割结果构造多层次模式子块划分，提出了一个有效的图像分类方法。图1所示为本发明基于多层次模式子块划分图像分类方法的分类框架，主要包括图像多层次模式子块划分、图像张量描述、张量描述下图像特征提取以及利用分类器分类等几个模块。参照图1，具体实施步骤如下：

（一）多层次模式子块划分

首先，计算图像多尺度下的显著性区域分布，图2示出了三个尺度下的显著图，并根据显著性区域分布采样不同位置和大小的T个窗口；然后我们采用均值漂移方法对图像的Lab特征及位置特征进行分析和聚类来实现超像素分割，图3示出了超像素划分的结果。最后通过分析每个窗口与其内外邻近超像素的位置和分布关系确定每个窗口出现目标的概率，进而实现模式子块的提取，即定位图像中的多个目标物以及对应的外接窗口。为实现准确定位，对窗口与超像素的关系分析如下：

所有潜在目标窗口由显著性区域的分布生成，反映了图像中的潜在目标区域，因此显著图中每一个窗口w中含有度量窗口内出现显著目标程度的信息。我们利用超像素将图像分割为颜色、纹理相似的多个小区域，超像素划分需满足每一个超像素块中的像素属于同一个目标物，但一个目标物中可包含多个超像素。强边界目标下超像素不会跨越目标的边界，因此超像素具有保持目标边界的作用。由于显著图生成的窗口与超像素间的位置分布各异，为了保证窗口中目标物的完整性并使得窗口最大程度的贴合目标物，设计公式（1）所示的度量方式来计算窗口与窗内目标物的紧贴程度，窗口越贴近目标物，SW值越大。

\begin{matrix} SW (w, λ_{0}, λ_{1}, λ_{2}) = λ_{0} (1 - \underset{s &Element; S_{N}}{Σ} \frac{\min (| s_{out_w} |, | s_{in_w} |)}{| w |}) \\ + λ_{1} \underset{s &Element; S_{N}}{Σ} sim (s_{in_w}, S_{all_in_w}) \\ - λ_{2} \underset{s &Element; S_{N}}{Σ} sim (s_{out_w}, S_{all_in_w}), \end{matrix} - - - (1)

公式（1）中w为窗口，s为超像素，S_N为与w相邻接的超像素集合，s_{in_w}为超像素位于w内的部分，s_{out_w}为超像素位于w外的部分，S_{all_in_w}为w内所有超像素。参考图4中所示，式（1）中第一项表示窗口w邻接的所有超像素与窗口边界的跨越程度，假设s₁，s₂，s₃为与窗口w₁邻接的某三个超像素。当S_N中所有超像素完全位于w₁内时（如超像素s₃），各超像素的s_{out_w}部分面积为0，因此

\underset{s &Element; S_{N}}{Σ} \frac{\min (| s_{out_w} |, | s_{in_w} |)}{| w |} = 0 - - - (2)

此时第一项取得最大值1。当超像素的大部分位于w₁内（如超像素s₂）或超像素的小部分位于w₁内时（如超像素s₁），超像素对窗口w₁边界的跨越性较小，第一项取得的值较大。当超像素位于窗口内外部分相当时（如超像素s₁相对于w₂），窗口对目标的贴近性不好，第一项取得的值较大。公式（1）中第二项表示超像素s位于窗口内部分与窗内所有超像素分布的相似程度，越大则表示该窗口对目标的整体包含程度比较好。第三项表示超像素s位于窗外部分与窗内所有超像素分布的相似程度，越大则表示该窗口对目标的整体包含程度较差。计算相似度时，将s_{in_w}，s_{out_w}，S_{all_in_w}表示为由均值和方差描述的高斯分布。sim(·,·)由χ²距离来度量，定义如下：

sim (P, Q) = \frac{1}{2} \underset{i}{Σ} \frac{{(P_{i} - Q_{i})}^{2}}{(P_{i} + Q_{i})} - - - (3)

通过比较每个窗口的SW值，得到前n个出现目标概率最大的窗口w₁,w₂,w₃,...,w_n，每个窗口代表一个模式子块，进而构建图像的多层次模式子块。若为三层，则第一个层次中将原图视作一个整体子块；第二个层次中将图像粗划分为两个模式块，其中一块为图像中最显著目标窗W₁，另一块为图像中剩余区域；第三个层次中将图像划分为三个模式块，其中两块分别代表最显著子块与次显著子块，即图中前两个最显著目标窗w₁,w₂，第三块为图像中除去前两个窗的剩余区域I-w₁∪w₂。图5中所示为三层模式子块划分的结果。我们所使用的图像多层次模式子块划分方法既能够表达图像中的显著信息，又具有基本的模式信息在里面。

（二）图像模式信息的张量描述

我们使用尺度不变子特征字典D₁、颜色分布特征字典D₂和纹理特征字典D₃，三个特征字典分别描述每层中每个模式子块。将所有训练集图像中通过高斯差分和局部值极大检测到的特征点的尺度不变N维特征描述子聚类，得到大小为K的特征字典D₁=[d₁,...,d_k]∈R^N×K。按前面的多层次模式子块划分方法将训练图集中每一幅图像划分为不同层次的模式子块，统计每一子块的Lab颜色空间特征，用均值和方差表示每一个颜色分量，得到6维特征向量[μ_L,σ_L,μ_a,σ_a,μ_b,σ_b]^T，若有n幅训练集图像，每幅图像分为m个层次，则共有n×(1+m)×m/2个子块，将所有子块特征向量同样聚类为K个中心，得到特征字典D₂∈R^6×K。将训练集样本图片划分成8×8的子块，并将其拉伸为64维向量，聚类得到最终的纹理特征字典D₂∈R⁶⁴ ^×K。

针对不同的特征字典，构造模式子块相应的特征集合X，利用对应的特征字典，通过稀疏约束向量量化的方法得到系数矩阵U=[u₁,...,u_M]∈R^K×M，向量量化求解如式（4）所示。

\begin{matrix} \min_{U} Σ_{m = 1}^{M} {| | x_{m} - {Du}_{m} | |}_{2}^{2} + λ {| | u_{m} | |}_{1}, \\ s . t . | | d_{k} | | \leq 1, &ForAll; k = 1,2, . . . K . \end{matrix} - - - (4)

进而构造X的特征向量F=[f₁,f₂,...f_k]，其中，

f_j=max{|u_j1|,|u_j2|,...,|u_jM|} （5）

将所有子块在某个特征字典描述下的特性向量F作为行向量组合在一起，便构成了一个特征矩阵。结合反映图像不同特征信息的多个字典模型，可将图像描述为三阶张量Ψ∈R^N×K×P，如图6所示，其中第一阶为不同层次下模式子块的总个数N，第二阶为在某个特征字典描述下的K维特征向量，第三阶为反映图像中不同特征信息的特征字典个数P，这里为3。

（三）张量描述下图像特征提取

图像经过特征字典集描述后得到张量描述Ψ∈R^N×K×P。张量模式下的典范相关分析可以度量两个张量数据间的相似度，对于两个三阶张量Ψ₁,Ψ₂∈R^N×K×P，我们在单模共享模式下，来做张量典范相关分析，即张量中只有一模是共享的，对其他未共享的两模作典范变换，寻找

Φ=[{(u¹ _k,v¹ _k),(u¹ _p,v¹ _p)},{(u² _n,v² _n),(u² _p,v² _p)},{(u³ _n,v³ _n),(u³ _k,v³ _k)}] (6)

使得

ρ = \max_{Φ} < X^{'}, Y^{'} >,

其中：

(X')_NKP=(Ψ₁×_ku¹ _k×_pu¹ _p)_n(Ψ₁×_nu² _n×_pu² _p)_k(Ψ₁×_nu³ _n×_ku³ _k)_p (7)

(Y')_NKP=(Ψ₂×_kv¹ _k×_pv¹ _p)_n(Ψ₂×_nv² _n×_pv² _p)_k(Ψ₂×_nv³ _n×_kv³ _k)_p (8)

例如，当共享张量Ψ∈R^N×K×P第一模时，通过交迭SVD方法求解下式：

\max_{U_{k}, V_{k,} U_{p}, V_{p}} < ψ_{1} \times_{k} U_{k} \times_{p} U_{p}, ψ_{2} \times_{k} V_{k} \times_{p} V_{p} > - - - (9)

可获得典范方向正交集{(U_k,V_k),(U_p,V_p)}（其中{(u_k,v_k∈R^K),(u_p,v_p∈R^P)}为U,V中列向量），得到d个典范相关值(ρ₁,...ρ_d)，d<min(K,P)。因此，通过张量典范相关分析，得到了6×d个典范相关特征（两种共享模式分别产生3×d个特征），每个特征都代表了数据中不同语义方面的相似度。得到了特征向量便可以用来训练分类器和实施分类。

张量描述的优势在于它是传统向量模式的扩展和补充，相比于向量模式，张量可以更好的反映数据原有状态下的模式，而且维数和复杂度也会降低。因此，该描述方式可以避免产生高维特征描述。它既可以刻画同一阶内的关系，如各模式子块间关系，又能刻画不同阶之间的对应关系，如不同特征字典对同一子块的特征描述之间的关系。因此，图像模式信息的三阶张量描述不仅使得在图像中不同模式信息的表示更为集中，呈现出分辨性强的稀疏特性，而且对图像特征信息的刻画呈现立体性，使得表征图像中的多种特征信息得以充分利用。

实施效果

为展示本发明的基于多层次模式子块划分的图像分类方法的效果，在本实施方案中采用的测试图像集为Pascal Voc07，该图像库有20类图像，9963幅图片，该图像库中的图片的特点是既有室内也有室外图像，有特写镜头也有室外风景，并且存在各种拍摄角度。此外，目标尺寸变化也较大，并且除了待识别目标物之外还存在着多个干扰目标。实验中，模式子块划分层数为3层，图像库中50%用于训练和交叉验证，剩余50%用于测试，分类器选择为支持向量机。图7所示为1至10类上的图像分类效果，图8所示为11至20类上的图像分类效果。二十类图像顺序依次为：飞机、自行车、鸟、船、瓶子、公交车、小汽车、猫、椅子、牛、餐桌、狗、马、摩托车、人、植物、羊、沙发、火车、显示屏。分类效果评价指标采用平均准确率方法（Average Precision，简称AP），该方法是PASCAL比赛中标准指标，通过计算查准率（Precision）/查全率（Recall）曲线下方面积获得，值越高效果越好。本发明所述多层次模式子块划分图像分类方法为“方法A”，Pascal VOC07比赛中图像分类组中基于图像划分方法的为“方法B”。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的权利要求书的保护范围内。

Claims

1.一种基于多层次模式子块划分的图像分类方法，其特征在于，该图像分类方法的步骤如下：

步骤S3：对每一个子块做多字典特征描述，然后将其组织为张量模式用做图像的特征描述；步骤S4：对图像的张量描述做典范相关分析，提取图像特征向量，最后通过分类器进行分类。

2.根据权利要求1所述的基于多层次模式子块划分的图像分类方法，其特征在于，通过计算多尺度显著图分布和超像素的跨越关系，提取图像不同层次下的潜在目标区域。

3.根据权利要求1所述的基于多层次模式子块划分的图像分类方法，其特征在于，多层次模式子块划分是指：假设将图像分三个层次来分别提取模式子块，第一个层次中将原图视作一个整体子块；第二个层次中将图像粗划分为两个模式块，其中一块为图像中最显著区域所在的子块，另一块为图像中剩余区域；第三个层次中将图像划分为三个模式块，其中两块分别代表最显著子块与次显著子块，剩余区域为第三块。

4.根据权利要求1所述的基于多层次模式子块划分的图像分类方法，其特征在于，对每一个子块做多字典特征描述，然后将其组织为三阶张量模式用做图像的特征描述。