CN103390046A

CN103390046A - 潜在狄利克雷模型的多尺度字典自然场景图像分类方法

Info

Publication number: CN103390046A
Application number: CN2013103069752A
Authority: CN
Inventors: 王爽; 焦李成; 张雪; 牛振兴; 马文萍; 马晶晶; 陈阳平
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-07-20
Filing date: 2013-07-20
Publication date: 2013-11-13

Abstract

本发明方法公开了一种基于潜在狄利克雷分析的多尺度字典场景图像分类方法，主要解决现有分类方法人工标记工作量较大和分类正确率较低的问题。其实现步骤是：分别建立自然场景图像分类的训练集和测试集；对训练集提取尺度不变特征，生成多尺度字典；用多尺度字典对图像进行字典映射，并用词袋模型BOW生成多尺度稀疏表示向量；用Gibbs采样方法生成多尺度稀疏表示向量的潜在语义主题模型，得到图像的潜在语义主题分布，进而构建自然场景图像分类模型；利用分类模型对自然场景图像进行分类。本发明采用了多尺度特征和潜在语义主题模型，丰富了图像的特征信息，避免了大量的人工标记工作，提高了分类正确率，可用于目标识别及车辆、机器人导航。

Description

潜在狄利克雷模型的多尺度字典自然场景图像分类方法

技术领域

本发明属于图像处理技术领域，特别涉及自然场景图像分类的方法，可用于目标识别、检测、智能车辆及机器人导航。

背景技术

在过去的十年里，自然场景图像分类已经成为图像处理技术领域里一个很重要的研究主体。自然场景图像分类有很广泛的应用，如目标识别与检测和智能车辆或机器人导航等领域。由于自然场景图像类内差异性、照明条件差异性和图像本身尺度差异性较大，使其仍然是具有挑战性的问题。

自然场景图像分类的分类方法大致可以分为两类：一类是基于低层语义模型的自然场景图像分类方法；一类是基于中层语义模型的自然场景图像分类方法。早期的一些自然场景图像分类方法大多数是应用低层信息建立模型的，这些方法采用全局统计信息，如运用全局的颜色或者纹理特征直方图表示图像。尽管这些方法的时间复杂性较低，但是它们通常应用于人为场景图像和室内场景图像分类，并且分类结果较差。近期关于自然场景图像分类的方法都是基于中层语义模型的，它们弥补了高层语义信息和低层语义信息之间的鸿沟，并解决层次分类定义重叠问题，因此得到了广泛应用。

Oliva和Torralba使用一组视觉感知属性来描述场景的主要空间结构，他们定义了自然度、宽阔度、粗糙度、伸展度和险峻度等视觉感知属性，通过底层特征来得到这些视觉感知属性。Vogel等人则首先将局部图像区域分类到一定的语义概念中，然后根据这些语义概念在图像中出现的频率描述图像。但这些方法中为了得到预定义的语义概念模型，往往需要大量的人工标记样本。为了减少生成中间语义所需的人工标记工作，一些采用文本主题模型的方法被用于自然场景图像分类，这些方法主要以Lifeifei和Quelhas等人提出的自然场景图像分类方法为代表。这些方法通常先提取图像中的尺度不变特征，然后将图像的尺度不变特征通过聚类生成一个字典来表示聚类中心，然后通过字典映射得到一个表示图像的稀疏表示向量，最后应用文本分类中的概率潜在语义分析方法和潜在狄利克雷模型等主题分析方法来找出图像的潜在语义主题分布，从而完成图像的场景分类。这类方法虽然很大地减少对人工标记的需求，但是它们通常是根据图像中视觉词汇出现的总体情况来进行场景分类的，由于没有考虑词汇之间的尺度关系和语义关系，因此往往不能得到好的分类结果。

发明内容

本发明的目的在于针对上述已有方法的不足，提出一种潜在狄利克雷模型的多尺度字典自然场景图像分类方法，以减少人工标记的需求，丰富图像特征的尺度信息，提高分类正确率。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)分别建立自然场景图像分类训练集和图像分类测试集；

(2)提取训练集中每幅图像采样点尺度不变特征集合F，生成多尺度字典D：

(2a)用网格采样方法对训练集中的每幅图像进行网格采样，得到每幅图像的网格采样点SP；

(2b)用尺度不变特征提取方法对训练集中每幅图像的网格采样点SP提取尺度不变特征，得到训练集中每幅图像的尺度不变特征集合F；

(2c)用K均值聚类算法分别对训练集上每幅图像网格采样点的尺度不变特征F进行聚类，生成字典D；

(3)用多尺度字典D对训练集中每幅图像进行字典映射词袋模型BOW描述，得到每幅图像对应的多尺度稀疏表示向量W；

(4)用Gibbs采样方法估计潜在狄利克雷模型中的隐参数，得到训练集中每幅图像的潜在语义主题模型Z和潜在语义主题分布θ；

(5)用图像潜在语义主题模型Z生成测试集中每幅图像潜在语义主题分布θ₁；

(6)将训练集中每幅图像的潜在语义主题分布θ和其对应的类别l作为训练数据，用支撑向量机SVM算法获得自然场景分类模型E；

(7)根据自然场景分类模型E对测试图像进行分类。

本发明与现有的技术相比具有以下优点：

1、本发明通过步骤(2)提取训练集中每幅图像采样点尺度不变特征集合F，生成多尺度字典D，丰富了每幅图像特征的尺度信息，因此与Lifeifei和Quelhas等人的方法相比，正确率有着很大的提高。

2、本发明由于只需要将整幅图像进行标记，就可以完成自然图像场景分类的过程，与Vogel等人需要将局部图像区域和整幅图像均进行标记的方法相比，大大减少了人工标记的工作量，自动化程度更高。

附图说明

图1是本发明的实现流程图；

图2是本发明仿真采用的国际标准场景图像类别库中的样例图像；

图3是本发明对图2进行仿真得到的各类别平均正确率示意图。

具体实施方式

参照图1，本发明的实施步骤如下：

步骤1，分别建立自然场景图像分类训练集和图像分类测试集。

首先，根据使用需要定义图2中的13个自然场景图像类别，类别编号为1～13；

其次，在每个自然场景图像类别中随机选取100幅图像，组成自然场景图像分类的训练集，用其余的图像组成自然场景图像分类的测试集。

步骤2，提取训练集中每幅图像采样点尺度不变特征集合F，生成多尺度字典D。

(2a)用网格采样方法对训练集中的每幅图像进行网格采样，得到每幅图像的网格采样点SP：

(2a1)将训练集中每幅图像先按像素大小M₁×M₁的网格进行采样，得到网格采样点SP₁；再按像素大小M₂×M₂的网格进行采样，得到网格采样点SP₂；再按像素大小M₃×M₃的网格进行采样，得到网格采样点SP₃；

本实例取M₁＝16，M₂＝12，M₃＝8，但M₁、M₂、M₃的取值不局限于16、12、8，M₁、M₂、M₃可以取2-20之间任意偶数，且M₁≠M₂≠M₃；

(2a2)用网格采样点SP₁、SP₂、SP₃构成集合SP＝(SP₁,SP₂,SP₃)，即得到每幅图像的网格采样点SP；

(2b)用尺度不变特征提取方法对训练集中每幅图像的网格采样点SP提取尺度不变特征，得到训练集中每幅图像的尺度不变特征集合F：

(2b1)计算每幅图像的尺度不变特征子集合F₁、F₂、F₃，即在采样点SP₁周围的P₁×P₁像素大小区域上计算梯度方向直方图，得到尺度不变特征子集合F₁；在采样点SP₂周围的P₂×P₂像素大小区域上计算梯度方向直方图，得到尺度不变特征子集合F₂；在采样点SP₃周围的P₃×P₃像素大小区域上计算梯度方向直方图，得到尺度不变特征子集合F₃；其中

P_{1} = \frac{M_{1}}{2},

P_{2} = \frac{M_{2}}{2},

P_{3} = \frac{M_{3}}{2};

(2b2)用每幅图像的尺度不变特征子集合F₁、F₂、F₃构成集合F＝(F₁,F₂,F₃)，即得到每幅图像所有采样点的尺度不变特征集合F；

(2c)用K均值聚类算法分别对训练集上每幅图像网格采样点的尺度不变特征F进行聚类，生成字典D。

步骤3，用多尺度字典D对训练集中每幅图像进行字典映射词袋模型BOW描述，得到每幅图像对应的多尺度稀疏表示向量W。

(3a)分别计算每幅图像的尺度不变特征子集合F₁、F₂、F₃中的每个尺度不变特征与对应字典D₁、D₂、D₃的每个词汇所对应特征值之间的欧式距离，找出欧氏距离最小的词汇表示该尺度不变特征，得到每幅图像对应于尺度不变特征子集合F₁、F₂、F₃的词汇子集合R₁、R₂、R₃；

(3b)用词汇子集合R₁、R₂、R₃构成集合R＝(R₁,R₂,R₃)，即得到每幅图像的词汇集合R；

(3c)根据每幅图像的词汇集合R中的词汇，统计字典D₁、D₂、D₃中每个词汇在R中出现的次数，得到每幅图像对应于字典D₁、D₂、D₃的稀疏表示子向量W₁、W₂、W₃；

(3d)用稀疏表示子向量W₁、W₂、W₃构成向量W＝(W₁,W₂,W₃)，即得到每幅图像对应的多尺度稀疏表示向量W。

步骤4，用Gibbs采样方法估计潜在狄利克雷模型中的隐参数，得到训练集中每幅图像的潜在语义主题模型Z和潜在语义主题分布θ。

(4a)将w_i对应词汇被分配的潜在语义主题z_i赋值为1～T任意值，作为马尔可夫链的初始状态，本发明中T取值为80，但T的取值不局限于80,可以取任意正整数；

(4b)利用迭代公式1），分别计算图像中第i个词汇w_i被分配给主题1～T的概率P（z_i＝j|z_-i,w）：

P (z_{i} = j | z_{- i}, w) = \frac{\frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(\cdot)} + Wβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}{Σ_{j = 1}^{T} \frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(\cdot)} + Wβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}, - - - 1)

其中，j表示潜在语义主题，取值范围为1～T，T为潜在语义主题总数，z_-i表示除w_i对应词汇以外的词汇被分配的潜在语义主题；

表示w_i对应词汇被分配给潜在语义主题j的个数，

表示被分配给潜在语义主题j的词汇总数，

表示训练集中第i幅图像d_i中分配给潜在语义主题j的词汇总数，

表示训练集中第i幅图像d_i中的词汇总数，W表示图像对应的多尺度稀疏表示向量，α为超参数，β为超参数；

(4c)将w_i分配的主题状态更新为主题分配概率最大的主题，得到马尔可夫链的下一个状态，当迭代次数C=100时，终止迭代；

(4d)迭代结束后，得到需要求解的图像潜在语义主题模型Z和潜在语义主题分布θ：

Z = \frac{n_{j}^{(w)} + β}{n_{j}^{(\cdot)} + Wβ}

, 2）

θ = \frac{n_{j}^{(d)} + α}{n_{.}^{(d)} + Tα}

其中，

表示图像d中词汇w被分配给潜在语义主题模型j的个数,表示图像d中被分配给潜在语义主题模型j的词汇总数，

表示图像d被分配的潜在语义主题j的总数，表示图像d被分配的所有潜在语义主题总数。

步骤5，用图像潜在语义主题模型Z生成测试集中每幅图像潜在语义主题分布θ₁，具体实现方式同步骤4。

步骤6，将训练集中每幅图像的潜在语义主题分布θ和其对应的类别l作为训练数据，用支撑向量机SVM算法获得自然场景分类模型E。

步骤7，根据自然场景分类模型E对测试图像进行分类，得到分类结果。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

仿真实验采用国际标准场景图像类别库，该图像类别库包含13个类别的自然场景图像，这13类自然场景图像的总数目为3860，每幅自然场景图像的大小为256×256，其样例图像如图2所示，其中图2(a)是卧室场景,图2(b)是郊区别墅场景，图2(c)是厨房场景，图2(d)是客厅场景，图2(e)是海岸场景，图2(f)是森林场景，图2(g)是高速公路场景，图2(h)是城市场景，图2(i)是山脉场景，图2(j)是乡村场景，图2(k)是街道场景，图2(l)是高楼场景，图2(m)是办公室场景，其每个类别的类别编号、类别名称以及包含的图像数目如表1所示，类别1～4以及13表示5类室内场景图像，5～12表示8类室外场景图像。

仿真实验在CPU为Intel Core(TM)2Duo、主频2.33GHz，内存为2G的WINDOWSXP系统上用MATLAB7.0.1软件进行。

表1国际标准场景图像类别库图像类别

类别编号	类别名称	图像数目
			1	卧室	217
2	郊区别墅	241
			3	厨房	210
4	客厅	289
			5	海岸	360
6	森林	328
			7	高速公路	260
8	城市	308
			9	山脉	374
10	乡村	410
			11	街道	292
12	高楼	356
			13	办公室	215

2．仿真内容及分析：

使用本发明与Lifeifei和Quelhas的方法进行对比，均对国际标准场景图像类别库中的每个自然场景图像中随机选取100幅共1300幅图像组成自然场景图像分类的训练集，用国际标准场景图像类别库中其余的2560幅图像组成自然场景图像分类的测试集，潜在狄利克雷模型的参数取值均为T＝80，α＝0.125，β＝0.01。

仿真1，用本发明方法对国际标准场景图像类别库中的13类自然场景图像进行10次分类实验，计算10次实验的平均分类正确率，作为国际标准场景图像类别库的最终分类正确率，结果如图3,图3的横坐标是国际标准场景图像类别库的类别编号,纵坐标是各类别的平均分类正确率。

从图3可见，国际标准场景图像类别库的各类别平均分类正确率均在70%以上。

仿真2，用本发明方法及现有Lifeifei的贝叶斯分层模型方法和Quelhas的概率潜在语义分析模型方法的方法进行对比实验，对国际标准场景图像类别库中的13类自然场景图像进行10次分类实验，计算10次实验的平均分类正确率，作为国际标准场景图像类别库的最终分类正确率，对比结果如表2所示。

表2实验结果对比

Lifeifei	65.2
		Quelhas	66.5
本发明方法	90.9

从表2可见，本发明方法对国际标准场景图像类别库的最终分类正确率远远高于其他方法。

综上，本发明通过对自然场景图像训练集中的图像进行多尺度字典提取,进而丰富了尺度信息，与Lifeifei和Quelhas的方法相比，正确率有着很大的提高。

Claims

1.一种潜在狄利克雷模型的多尺度字典自然场景图像分类方法，包括如下步骤：

(1)分别建立自然场景图像分类训练集和图像分类测试集；

(7)根据自然场景分类模型E对测试图像进行分类。

2.根据权利要求1所述的潜在狄利克雷模型的多尺度字典自然场景图像分类方法，其中步骤(1)所述的分别建立自然场景图像分类训练集和图像分类测试集，是先根据使用需要定义N个自然场景图像类别，类别编号为1～N；再在每个自然场景图像类别中随机选取50～100幅图像组成自然场景图像分类训练集，其余图像组成自然场景图像分类测试集。

3.根据权利要求1所述的潜在狄利克雷模型的多尺度字典自然场景图像分类方法，其中步骤(2a)所述的用网格采样方法对训练集中的每幅图像进行网格采样，得到每幅图像的网格采样点SP，步骤如下：

(2a1)对训练集中每幅图像按M₁×M₁、M₂×M₂和M₃×M₃像素大小的网格进行采样，得到对应网格大小的网格采样点SP₁、SP₂、SP₃，其中M₁、M₂、M₃均为偶数，取值范围是2-20，且M₁≠M₂≠M₃；

(2a2)用网格采样点SP₁、SP₂、SP₃构成集合SP＝(SP₁,SP₂,SP₃)，即得到每幅图像的网格采样点SP。

4.根据权利要求1所述的潜在狄利克雷模型的多尺度字典自然场景图像分类方法，其中步骤(2b)所述的用尺度不变特征提取方法对训练集中每幅图像的网格采样点SP提取尺度不变特征，得到训练集中每幅图像的尺度不变特征集合F，步骤如下：

(2b1)分别在采样点SP₁、SP₂、SP₃周围的P₁×P₁、P₂×P₂和P₃×P₃像素大小区域上计算梯度方向直方图，得到其对应的尺度不变特征子集合F₁、F₂、F₃，其中

M₁、M₂、M₃是采样网格的大小，M₁、M₂、M₃均为偶数，取值范围是2-20，且M₁≠M₂≠M₃；

(2b2)用每幅图像的尺度不变特征子集合F₁、F₂、F₃构成集合F＝(F₁,F₂,F₃)，即得到每幅图像所有采样点的尺度不变特征集合F。

5.根据权利要求1所述的潜在狄利克雷模型的多尺度字典自然场景图像分类方法，其中步骤(3)所述的用多尺度字典D对训练集中每幅图像进行字典映射词袋模型BOW描述，得到每幅图像对应的多尺度稀疏表示向量W，步骤如下：

6.根据权利要求1所述的潜在狄利克雷模型的多尺度字典自然场景图像分类方法，其中步骤(4)所述的用Gibbs采样方法估计潜在狄利克雷模型中的隐参数，得到训练集中每幅图像的潜在语义主题模型Z和潜在语义主题分布θ，按如下步骤进行：

(4a)将w_i对应词汇被分配的潜在语义主题z_i赋值为1～T任意值，作为马尔可夫链的初始状态，其中T为正整数；

P (z_{i} = j | z_{- i}, w) = \frac{\frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(\cdot)} + Wβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}{Σ_{j = 1}^{T} \frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(\cdot)} + Wβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}} - - - 1)

其中，j表示潜在语义主题，取值范围为1～T，z_-i表示除w_i对应词汇以外的词汇被分配的潜在语义主题情况；

表示w_i对应词汇被分配给潜在语义主题j的个数，

表示被分配给潜在语义主题j的词汇总数，

表示训练集中第i幅图像d_i中分配给潜在语义主题j的词汇总数，表示训练集中第i幅图像d_i中的词汇总数，T为潜在语义主题总数，W表示图像对应的多尺度稀疏表示向量，α为超参数，β为超参数；

(4c)取分配概率最大的主题更新该w_i的主题分配状态，得到马尔可夫链的下一个状态，当迭代次数C=100时，迭代结束；

Z = \frac{n_{j}^{(w)} + β}{n_{j}^{(\cdot)} + Wβ}

2）

θ = \frac{n_{j}^{(d)} + α}{n_{.}^{(d)} + Tα}

其中，

表示图像d中词汇w被分配给潜在语义主题模型j的个数,

表示图像d中被分配给潜在语义主题模型j的词汇总数，

表示图像d被分配的潜在语义主题j的总数，

表示图像d被分配的所有潜在语义主题总数，T为潜在语义主题总数，W表示图像对应的多尺度稀疏表示向量，α为超参数，β为超参数。