CN101923653B

CN101923653B - 一种基于多层次内容描述的图像分类方法

Info

Publication number: CN101923653B
Application number: CN 201010256372
Authority: CN
Inventors: 李�浩; 彭宇新
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2010-08-17
Filing date: 2010-08-17
Publication date: 2013-03-06
Anticipated expiration: 2030-08-17
Also published as: CN101923653A

Abstract

本发明提供一种基于多层次内容描述的图像分类方法，包括以下步骤：1)给定训练图像集，通过多层次图像分割得到每幅图像区域层次结构树，提取图像区域层次结构树中每个节点区域的底层特征；2)通过训练图像集区域的底层特征集合构建视觉词汇表，根据视觉词汇表将图像区域层次结构树映射到中层图像特征，得到训练图像集的多层次内容描述；3)基于训练图像集的多层次内容描述建立图像分类模型，根据图像分类模型实现待分类图像分类。该方法采用了图像多层次的分割区域：一方面，增强了对图像内容描述的完备性；另一方面，增强了对图像过分割和欠分割的鲁棒性。因此，能够得到更有效的图像描述，从而取得更高的图像分类准确率。

Description

一种基于多层次内容描述的图像分类方法

技术领域

本发明涉及图像的模式分类领域，具体涉及一种基于多层次内容描述的图像分类方法。

背景技术

随着数字照相机等电子设备的普及、图像编码技术的进步，视觉内容每天以数以百万件计的速度被创造出来。随着互联网的发展、计算机数据处理能力的提高，网络上的各类资源也随之日益丰富。人们面临的问题不再是缺少多媒体内容，而是如何在大量的多媒体资源中找到自己所需要的信息。在缺乏文本标注的情况下，基于内容的图像分类能够为图像内容提供语义线索，可以促进高效的图像检索和处理，具有十分重要的研究应用价值。

作为分类器模型的基础，图像内容描述方法直接影响图像分类效果。总的来说，图像内容分为全局信息和局部信息两种。例如，1998年1月IEEE International Workshop onContent-Based Access of Image and Video Database中，M.Szummer和R.W.Picard的文章“Indoor-outdoor image classification”采用了图像全局特征颜色直方图来区别“室内”和“室外”两种不同类别的图像；2007年7月IEEE Conference on Computer Vision and PatternRecognition中，D.

和S.Aksoy的文章“Scene classification using bag-of-regionsrepresentation”采用了图像分块区域特征来进行场景分类。图像的全局信息和局部信息都为图像分类提供了有价值的线索。现有方法中，基于区域提取图像局部信息的方法依赖于单一层次图像分割。通过单一层次图像分割，图像被分割成多个互不重叠的子区域。然而，图像包含了从整体到局部多层次的内容，基于单一层次图像分割区域难以描述图像多层次的内容。此外，由于统一的分割终止条件难以适应不同的待分割图像，常常出现过分割和欠分割的情况，而过分割和欠分割都会降低基于单一层次图像分割区域方法的图像内容描述能力。

如何有效的描述图像多层次的内容成为基于内容的图像分类方法的一个难题。

发明内容

本发明要解决的技术问题是提供一种图像分类方法，该方法基于图像多层次内容进行图像分类，能够提高图像分类准确率。

为了解决上述技术问题，本发明提供一种图像分类方法，包括以下步骤：

一种基于多层次内容描述的图像分类方法，包括以下步骤：

1)给定训练图像集，通过多层次图像分割得到每幅图像区域层次结构树，提取图像区域层次结构树中每个节点区域的底层特征；

2)通过训练图像集区域的底层特征集合构建视觉词汇表，根据视觉词汇表将图像区域层次结构树映射到中层图像特征，得到训练图像的多层次内容描述；

3)基于训练图像集的多层次内容描述建立图像分类模型，根据图像分类模型实现待分类图像分类。

所述步骤1)采用迭代的聚类方法进行多层次图像分割，具体为：

首先，根据整幅图像像素的颜色和位置信息用聚类的方法将其分割成两个子区域；

然后，进一步将得到的子区域用相同的方式分割；

如此迭代，直到分割终止条件满足。

所述分割终止条件为：当分割区域面积小于设定阈值时，该区域不足以表达一个完整的语义单位，分割终止，所述设定阈值为图像总面积的二十分之一。

所述步骤1)采用区域的颜色、纹理和形状特征作为节点区域的底层特征。

所述步骤2)采用随机采样策略构建视觉词汇表，从训练集区域特征集合中随机选择一定数量的特征作为视觉词汇，所述视觉词汇表完成构建后保持不变。

所述步骤2)根据图像区域底层特征与所述视觉词汇表中的词汇间的相似性将图像区域层次结构树映射到中层图像特征。

所述步骤3)采用一对多的方式建立图像分类模型，即对于每一个图像类别，都采用该类别的图像作为正样本，其余图像类别的图像作为负样本，训练一个分类器，所述图像分类模型由不同类别的分类器共同构成。

所述步骤3)对于每一幅待分类图像，首先通过多层次图像分割得到每幅图像区域层次结构树，提取图像区域层次结构树中每个节点区域的底层特征；然后根据视觉词汇表将图像区域层次结构树映射到中层图像特征，得到待分类图像的多层次内容描述；最后根据图像分类模型分别计算该图像属于各个类别的概率，并采用预测概率最大值对应的图像类别作为该图像的类别。

本发明的效果在于：与现有方法相比，本发明能够取得更高的图像分类准确率，从而有效地促进了基于内容的图像检索和处理。

本发明之所以具有上述发明效果，其原因在于：采用了图像多层次的分割区域。一方面，通过描述图像多层次的内容，增强了对图像内容描述的完备性；另一方面，尽管过分割时，一个物体会被过度分割成多个部分，但物体这个整体对应的区域依然保留在多层次的分割区域中，基于多层次分割区域的图像内容描述方法对过分割有较强的适应性，同时，我们又可以通过调节分割终止条件，减少欠分割的情况，因此，本发明增强了对图像过分割和欠分割的鲁棒性。综上所述，本发明能够得到更有效的图像描述，从而取得更高的图像分类准确率。

附图说明

图1为本发明基于多层次内容描述的图像分类方法的流程图。

图2为多层次图像分割示意图。

图3为单一层次图像分割示意图。

图4为基于多层次内容描述的图像分类与基于单一层次内容描述的图像分类效果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的图像分类方法进一步详细说明。

本实施方式中，首先提取图像的多层次内容描述，然后通过分类器模型实现图像分类。包括以下步骤：

步骤1，通过多层次图像分割得到图像区域层次结构树，提取图像区域层次结构树中每个节点区域的底层特征。这一步骤可以在训练图片集和待分类图片集中同时进行。

多层次图像分割采用迭代的聚类方法进行。首先，根据整幅图像像素的颜色和位置信息用聚类的方法将其分割成两个子区域；然后，进一步将得到的子区域用相同的方式分割；如此迭代，直到分割终止条件满足。本实施例中，采用归一化分割的方法进行聚类，该方法不仅强调类内的相似性，而且强调类间的差异性，能够取得更好的聚类效果。假定当分割区域面积小于一定阈值时，该区域不足以表达一个完整的语义单位，分割终止。本实施例中，设定面积阈值为图像总面积的二十分之一。附图2展示了一个多层次图像分割示例，从示例中可以看出，一幅图像被分割成一棵图像区域层次结构树。其中，原始图片是包括了蓝天、白云、大海、沙滩、绿地、红花的一幅图片，经过第一次分割分为了蓝天、白云、大海部分和沙滩、绿地、红花部分；第二次分割将蓝天、白云、大海分割为蓝天、白云部分和大海部分，进一步对蓝天白云部分进行分割为蓝天部分和白云部分；沙滩、绿地、红花部分也是如此进行分割，第二次分割成绿地、红花部分和沙滩部分，进一步将绿地红花部分分割成绿地部分和红花部分，最终形成树状结构。

节点区域的底层特征通过区域的颜色、纹理和形状特征表示。本实施例中，颜色特征采用了HSV颜色空间上81维(9H×3S×3V)颜色直方图；纹理特征采用了59维的局部二进制模式

形状特征采用了前3阶的归一化惯性(Normalized Inertia)。颜色特征、纹理特征、形状特征通过拼接构成统一的底层特征，并将每一维特征归一化到零均值、一方差。

步骤2，通过训练图片集区域特征集合构建视觉词汇表，根据视觉词汇表将图像区域层次结构树映射到中层图像特征，得到图像的多层次内容描述。

视觉词汇表采用随机采样策略构建，从训练集区域特征集合中随机选择一定数量的特征作为视觉词汇。通过随机采样构建视觉词汇，时间效率高。由于训练集区域特征集合通常包含数量巨大的区域特征，用K-means聚类等方法生成视觉词汇表的方法由于时间效率低，往往需要大量时间，甚至无法实现。实验表明，根据随机采用策略构建的视觉词汇表映射得到的图像中层特征，同样具有较强的图像描述能力。本实施例中，取视觉词汇表长度为3000。视觉词汇表一旦完成构建，就保持不变。

图像区域层次结构树到中层图像特征映射基于图像区域底层特征与所述视觉词汇表中的词汇间的相似性。本实施例中，图像区域层次结构树到中层特征的映射关系如公式一、二、三所示。

公式一：F_i＝＜F_i，1，F_i，2，…，F_i，p＞

公式二：

F_{i, j} = \max_{k = 1, \cdot \cdot \cdot, n_{i}} sim (x_{i, k}, W_{j})

公式三：sim(x_i，k，W_j)＝exp(-||x_i，k-W_j||²/σ²)

其中，F_i是第i幅图像的中层特征，即图像的多层次内容描述；F_i，j正相关于在第i幅图像中找到第j个视觉词W_j的概率；x_i，k是第i幅图像中第k个区域的底层特征；σ为平滑因子，在本实施例中取值为视觉词汇两两间欧氏距离均值的2倍。

步骤3，基于训练图像集的多层次内容描述建立图像分类模型，根据图像分类模型实现图像分类。

图像分类模型采用一对多的方式建立。对于每一个图像类别，都采用该类别的图像作为正样本，其余图像类别的图像作为负样本，训练一个分类器。图像分类模型由不同类别的分类器共同构成。本实施例中采用支持向量机作为分类器。

对于每一幅待分类图像，首先通过多层次图像分割得到每幅图像区域层次结构树，提取图像区域层次结构树中每个节点区域的底层特征；然后经过步骤1得到区域底层特征，并根据步骤2得到的视觉词汇表将图像区域层次结构树映射到中层图像特征，提取该图像的多层次内容描述；最后根据所述步骤2得到的图像分类模型分别计算该图像属于各个类别的概率，并采用预测概率最大值对应的图像类别作为该图像的类别。

下面的实验结果表明，与现有方法相比，本发明通过图像多层次内容描述图进行图像分类，可以取得更高的分类准确率。

本实施例中采用了COREL图像集合进行实验，其中包括2000张图像，分别来自20个不同的类别，每个类别100张图像。我们也提供只包含前10类的小图像集合的实验结果。从每个类别中随机选择50张图片用于训练，剩余50张图片用于测试，并重复随机实验5次，报告图像分类平均精度和95％置信区间。

为了证明本发明在图像分类中的有效性，本实施例分别与下列方法进行对比。这些方法都只采用了图像单一层次的分割区域，而没有考虑图像多层次的内容。附图3展示了一个单一层次图像分割示例。还是以原始图片是包括了蓝天、白云、大海、沙滩、绿地、红花的一幅图片为例，单一层次图像分割方法将这一幅图片直接分割为白云、大海、沙滩、绿地、红花、蓝天。

现有方法一：2009年，在IEEE Computer Society Conference on Computer Vision and PatternRecognition中，Z.-Y Fu和A.Robels-Kelly的文章“An instance selection approach to multipleinstance learning”提出的方法；

现有方法二：2006年，在IEEE Transactions on Pattern Analysis and Machine Intelligence中，Y.-X Chen，J.-B Bi和J.Z.Wang的文章“Miles：Multiple-instance learning via embedded instanceselection”提出的方法；

现有方法三：2004年，在Journal of Machine Learning Research中，Y.-X Chen和J.Z.Wang的文章“Image categorization by learning and reasoning with regions”提出的方法；

现有方法四：2002年，在Advances in Neural Information Processing Systems中，S.Andrews，I.Tsochantaridis和T.Hofmann的文章“Support vector machines for multiple-instance learning”提出的方法。

与现有方法对比的实验结果如表1所示。

表1：与现有方法的对比实验结果

	10类图像集	20类图像集
			本发明	85.2：[83.9，86.5]	74.5：[73.8，75.1]
现有方法一	83.8：[82.6，85.0]	69.3：[68.1，70.5]
			现有方法二	82.6：[81.4，83.7]	68.7：[67.3，70.1]
现有方法三	81.5：[78.5，84.5]	67.5：[66.1，68.9]
			现有方法四	74.7：[74.1，75.3]	54.6：[53.1，56.1]

从表1可以看出，不同数据集上，本发明基于多层次内容描述的图像分类方法都要比基于单一层次内容描述的图像分类算法效果好；而且当数据集变得更复杂，从10类图像集到20类图像集，分类效果的提高变得更加明显。

进一步的，我们将多层次图像分割替换为单一层次图像分割，并保持其他设置不变，进行对比实验。实验结果如图4所示。其中：

“多层次_10”表示在10类图像集上基于多层次内容描述的图像分类方法的结果；

“多层次_20”表示在20类图像集上基于多层次内容描述的图像分类方法的结果；

“单一层次_10”表示在10类图像集上基于单一层次内容描述的图像分类方法的结果；

“单一层次_20”表示在20类图像集上基于单一层次内容描述的图像分类方法的结果；

从图4也可以看出，不同数据集上，本发明基于多层次内容描述的图像分类方法都要比基于单一层次内容描述的图像分类算法效果好；而且当数据集变得更复杂，从10类图像集到20类图像集，分类效果的提高变得更加明显。从图4还可以看出，不同的词汇表长度上，本发明基于多层次内容描述的图像分类方法也都要比基于单一层次内容描述的图像分类算法效果好。

最后应当说明：以上实施例仅用以说明而非限制本发明的技术方案。本领域的普通技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多层次内容描述的图像分类方法，包括以下步骤：

2)通过训练图像集区域的底层特征集合构建视觉词汇表，根据视觉词汇表将图像区域层次结构树映射到中层图像特征，得到训练图像集的多层次内容描述；

3)基于训练图像集的多层次内容描述建立图像分类模型，根据图像分类模型实现待分类图像分类；

然后，进一步将得到的子区域用相同的方式分割；

如此迭代，直到分割终止条件满足，所述分割终止条件为：当分割区域面积小于设定阈值时，该区域不足以表达一个完整的语义单位，分割终止，所述设定阈值为图像总面积的二十分之一；

步骤2)中所述图像区域层次结构树映射关系如下：

公式一：F_i＝<F_i，1，F_i，2，…，F_i，p>

公式二：

F_{i, j} = \max_{k = 1, . . ., n_{i}} sim (x_{i, k}, W_{j})

公式三：sim(x_i，k，W_j)＝exp(-||x_i，k-W_j||²/σ²)

其中，F_i是第i幅图像的中层特征，即图像的多层次内容描述；F_i，j正相关于在第i幅图像中找到第j个视觉词W_j的概率；x_i，k是第i幅图像中第k个区域的底层特征；σ为平滑因子。

2.如权利要求1所述的图像分类方法，其特征在于，所述步骤1)采用区域的颜色、纹理和形状特征作为节点区域的底层特征。

3.如权利要求1所述的图像分类方法，其特征在于，所述步骤2)采用随机采样策略构建视觉词汇表，从训练集区域特征集合中随机选择一定数量的特征作为视觉词汇，所述视觉词汇表完成构建后保持不变。

4.如权利要求1所述的图像分类方法，其特征在于，所述步骤2)根据图像区域底层特征与所述视觉词汇表中的词汇间的相似性将图像区域层次结构树映射到中层图像特征。

5.如权利要求1所述的图像分类方法，其特征在于，所述步骤3)采用一对多的方式建立图像分类模型，即对于每一个图像类别，都采用该类别的图像作为正样本，其余图像类别的图像作为负样本，训练一个分类器，所述图像分类模型由不同类别的分类器共同构成。

6.如权利要求1所述的图像分类方法，其特征在于，所述步骤3)对于每一幅待分类图像，首先通过多层次图像分割得到每幅图像区域层次结构树，提取图像区域层次结构树中每个节点区域的底层特征；然后根据视觉词汇表将图像区域层次结构树映射到中层图像特征，得到待分类图像的多层次内容描述；最后根据图像分类模型分别计算该图像属于各个类别的概率，并采用预测概率最大值对应的图像类别作为该图像的类别。