CN103810287B

CN103810287B - 基于有监督共享组件主题模型的图像分类方法

Info

Publication number: CN103810287B
Application number: CN201410064338.3A
Authority: CN
Inventors: 王爽; 焦李成; 陈阳平; 霍丽娜; 侯彪; 马文萍; 马晶晶; 张雪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-02-25
Filing date: 2014-02-25
Publication date: 2017-03-01
Anticipated expiration: 2034-02-25
Also published as: CN103810287A

Abstract

本发明公开了一基于有监督共享组件主题模型的图像分类方法，主要解决现有技术中参数数量较多、忽略主题之间相关性和潜在语义特征对图像表示效果较差的问题。其实现步骤是：建立自然图像训练集和自然图像测试集；生成视觉字典；生成图像稀疏表示向量；生成主题分布向量；构建自然图像分类模型；进行自然图像分类。本发明采用使用吉布斯采样方法和主题非平衡先验概率方法，减少了参数数量，增加了主题之间的相关性，图像的主题分布向量对图像的表示效果更好，提高了图像分类正确率。

Description

基于有监督共享组件主题模型的图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域中的一种基于有监督共享组件主题模型的图像分类方法。本发明可用于目标识别检测、车辆导航、医学疾病的诊断。

背景技术

目前，自然图像分类已经成为图像处理技术领域里一个很重要的研究主体。自然图像分类有很广泛的应用，如目标识别与检测、车辆导航、医学疾病的诊断等领域。由于照明情况、拍摄角度等条件的不同，自然图像类内会有一定的差异性，又由于图像特征提取方法的不足，自然图像类间会有一定的一致性，这些都导致自然图像分类具有很大的挑战性。

近期自然图像分类方法中应用比较广泛的是基于中层语义的图像分类方法。中层语义是从低层语义中推导出的语义信息，能够弥补图像中高层语义和低层语义之间的鸿沟，更有效的表示图像，提高图像的分类正确率。

中国人民解放军国防科学技术大学提出的专利申请“一种基于区域潜在语义特征的自然场景图像分类方法”（专利申请号200810031577.3，公开号CN101315663A）公开了一种应用区域信息和中层语义进行图像分类的方法。该方法实现的具体步骤是，首先，建立自然图像分类代表集，将图像库中的每一幅图像都分配一个图像类别；其次，对自然图像分类代表集中的图像提取SIFT特征即尺度不变特征，并生成视觉词汇表；然后，对自然图像分类代表集中的图像进行词典表示，应用概率潜在语义分析方法生成词汇的后验概率，得到图像的潜在语义特征；最后，将图像的潜在语义特征和图像对应的类别标号运用支持矢量机生成自然图像分类模型，对图像进行分类。该专利申请所公开的方法，虽然利用了图像的区域语义信息和区域语义信息在图像上的空间分布情况，提高了分类的准确性，但是，仍然存在的不足是，需要的参数数量较多，对于新的图像，只使用后验概率求得的潜在语义特征对图像表示效果较差，导致图像分类正确率不高。

西安电子科技大学提出的专利申请“潜在狄利克雷模型的多尺度字典自然场景图像分类方法”（专利申请号2013103069752，公开号CN103390046A）公开了一种应用多个尺度字典稀疏表示图像的分类方法。该方法实现的具体步骤是，首先，建立自然图像分类训练集和测试集；其次，提取训练集中每幅图像采样点的尺度不变特征集合，生成多尺度字典，用该字典对训练集和测试集中的每幅图像进行词典描述；然后，运用潜在狄利克雷模型得到训练集和测试集中每一幅图像的潜在语义主题分布向量；最后，将训练集中每一幅图像的潜在语义主题分布和图像对应的类别标号运用支持矢量机生成自然图像分类模型，并对测试集中的每一幅图像进行分类。该专利申请所公开的方法，虽然增加了字典的个数，提高字典表示图像的能力，提高了分类的准确性，但是仍然存在的不足是，由于多尺度字典增加了分类方法的时间复杂度，而且忽略了主题之间的相关性。

发明内容

本发明针对上述专利申请所公开的方法的不足，提出基于有监督共享组件主题模型的图像分类方法，实现较高的图像分类正确率。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)建立自然图像训练集和自然图像测试集：

(1a)从待分类的图像库中的每个图像类别中，随机选取50～100幅图像，将所选取的图像组成自然图像训练集；

(1b)将图像库中选取自然图像训练集后剩余的图像，组成自然图像测试集。

(2)生成视觉字典：

(2a)用均匀的网格分别对自然图像训练集和自然图像测试集中的每幅图像进行网格划分，将每幅图像划分后的所有网格作为该幅图像的采样点；

(2b)用尺度不变特征提取方法，对每幅图像的每个采样点提取尺度不变特征，将每幅图像提取的所有尺度不变特征作为该幅图像的尺度不变特征集合；

(2c)计算自然图像训练集上所有图像的尺度不变特征之间的欧式距离，按照欧式距离对尺度不变特征进行聚类，每个聚类中心对应一个视觉词汇；

(2d)将所有聚类中心构成视觉字典。

(3)生成图像稀疏表示向量：

(3a)计算自然图像训练集和自然图像测试集中每幅图像的尺度不变特征集合中的每个尺度不变特征与视觉字典中的每个词汇所对应尺度不特征之间的欧式距离，找出并保存欧氏距离最小的词汇，每幅图像保存的所有欧氏距离最小的词汇构成该幅图像的词汇集合；

(3b)统计视觉字典中每个词汇在自然图像训练集和自然图像测试集中每幅图像的词汇集合中出现的频次，将所统计的频次构成每幅图像的稀疏表示向量。

(4)生成主题分布向量：

(4a)用吉布斯采样方法，得到自然图像训练集中每幅图像的潜在语义主题集合和潜在语义主题模型；

(4b)估计自然图像训练集中每个图像类别主题的先验概率；

(4b1)统计自然图像训练集每幅图像的潜在语义主题集合中的每个主题在自然图像训练集每幅图像的潜在语义主题集合中出现的频次，将所统计的频次构成自然图像训练集每幅图像的潜在语义主题分布；

(4b2)按照下式，计算自然图像训练集每个图像类别的主题先验概率：

其中，β_k表示主题k在自然图像训练集中每个图像类别中的主题先验概率，s_mk表示主题k在自然图像训练集图像m中出现的频次，D表示自然图像训练集中每个图像类别中的图像个数，α表示主题在自然图像训练集图像中发生的先验概率；

(4c)用潜在语义主题模型和自然图像训练集每个图像类别的主题先验概率，生成自然图像测试集中每幅图像的潜在语义主题分布；

(4d)将自然图像训练集和自然图像测试集中每幅图像的潜在语义主题分布作为主题分布向量。

(5)构建自然图像分类模型：

将自然图像训练集中每幅图像的潜在语义主题分布和与其对应的类别，作为训练数据，将训练数据放入支撑向量机SVM，获得自然图像分类模型。

(6)进行自然图像分类：

对自然图像测试集中每一幅图像，用自然图像分类模型预测图像类别，完成图像分类过程。

本发明与现有的技术相比具有以下优点：

第1，由于本发明使用吉布斯采样方法，克服了现有技术中参数数量较多和忽略主题之间相关性的缺点，使得本发明用更少的参数生成图像的主题分布向量，实现了主题之间具有一定的相关性。

第2，由于本发明使用估计主题先验概率方法，克服了现有技术中潜在语义特征对图像表示效果较差的缺点，使得本发明中图像的主题分布向量对图像的表示效果更好，提高了图像分类正确率。

附图说明

图1为本发明的流程图；

图2本发明仿真采用国际标准场景图像类别库13-Scenes的样例图像示意图；

图3本发明的仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

结合附图1，对实现本发明的具体步骤描述如下：

步骤1，建立自然图像训练集和自然图像测试集。

本发明采用国际标准自然图像类别库，该图像类别库包含13个图像类别，从每个图像类别中，随机选取100幅图像，将所选取的图像组成自然图像训练集。将国际标准自然图像类别库中选取自然图像训练集后剩余的图像，组成自然图像测试集。本发明的实施例中，国际标准自然图像类别库中各个类别的图像如图2所示。图2中图2(a)是郊区别墅图像,图2(b)是海岸图像，图2(c)是森林图像，图2(d)是高速公路图像，图2(e)是城市图像，图2(f)是高山图像，图2(g)是乡村图像，图2(h)是街道图像，图2(i)是高楼图像，图2(j)是办公室图像，图2(k)是卧室图像，图2(l)是厨房图像，图2(m)是客厅图像。

步骤2，生成视觉字典。

用像素大小为16×16网格分别对自然图像训练集和自然图像测试集中的每幅图像进行网格划分，将每幅图像划分后的所有网格作为该幅图像的采样点。用尺度不变特征提取方法，对每幅图像的每个采样点提取尺度不变特征，将每幅图像提取的所有尺度不变特征作为该幅图像的尺度不变特征集合。计算自然图像训练集上所有图像的尺度不变特征之间的欧式距离，按照欧式距离对尺度不变特征进行聚类，每个聚类中心对应一个视觉词汇。将所有聚类中心构成视觉字典，聚类中心数目设置为800。

尺度不变特征提取方法的具体步骤如下：

第一步，按照下式，计算自然图像训练集和自然图像测试集中每幅图像的每个像素的梯度模值：

其中，m(x,y)表示自然图像训练集和自然图像测试集中每幅图像(x,y)坐标位置对应像素的梯度模值，L(x+1,y)表示自然图像训练集和自然图像测试集中每幅图像中(x+1,y)位置对应像素的高斯卷积，L(x-1,y)表示自然图像训练集和自然图像测试集中每幅图像中(x-1,y)位置对应像素的高斯卷积，L(x,y+1)表示自然图像训练集和自然图像测试集中每幅图像中(x,y+1)位置对应像素的高斯卷积，L(x,y-1)表示自然图像训练集和自然图像测试集中每幅图像中(x,y-1)位置对应像素的高斯卷积；

第二步，按照下式，计算自然图像训练集和自然图像测试集中每幅图像的每个像素的梯度方向：

其中，θ(x,y)表示自然图像训练集和自然图像测试集中每幅图像(x,y)坐标位置对应像素的梯度方向，L(x+1,y)表示自然图像训练集和自然图像测试集中每幅图像中(x+1,y)位置对应像素的高斯卷积，L(x-1,y)表示自然图像训练集和自然图像测试集中每幅图像中(x-1,y)位置对应像素的高斯卷积，L(x,y+1)表示自然图像训练集和自然图像测试集中每幅图像中(x,y+1)位置对应像素的高斯卷积，L(x,y-1)表示自然图像训练集和自然图像测试集中每幅图像中(x,y-1)位置对应像素的高斯卷积；

第三步，根据每幅图像的每个采样点中像素的梯度模值和梯度方向，统计得到每个采样点的梯度直方图，将得到的梯度直方图作为对应采样点的尺度不变特征。

步骤3，生成图像稀疏表示向量。

计算自然图像训练集和自然图像测试集中每幅图像的尺度不变特征集合中的每个尺度不变特征与视觉字典中的每个词汇所对应尺度不特征之间的欧式距离，找出并保存欧氏距离最小的词汇，每幅图像保存的所有欧氏距离最小的词汇构成该幅图像的词汇集合；构成该幅图像的词汇集合。统计视觉字典中每个词汇在自然图像训练集和自然图像测试集中每幅图像的词汇集合中出现的频次，将所统计的频次构成每幅图像的稀疏表示向量。

步骤4，生成主题分布向量。

用吉布斯采样方法，得到自然图像训练集中每幅图像的潜在语义主题集合和潜在语义主题模型。统计自然图像训练集每幅图像的潜在语义主题集合中的每个主题在自然图像训练集每幅图像的潜在语义主题集合中出现的频次，将所统计的频次构成自然图像训练集每幅图像的潜在语义主题分布。计算自然图像训练集每个图像类别的主题先验概率。用潜在语义主题模型和自然图像训练集每个图像类别的主题先验概率，生成自然图像测试集中每幅图像的潜在语义主题分布。将自然图像训练集和自然图像测试集中每幅图像的潜在语义主题分布，作为主题分布向量。

吉布斯采样方法的具体步骤如下：

第一步，将自然图像训练集中每幅图像词汇对应的主题赋值为不大于T的任意值，其中T表示主题个数，T=70；

第二步，按照下式，计算自然图像训练集中每幅图像的词汇分配主题k的概率：

其中，P(z_m,n＝k|X,Z^-(m,n),B,φ,α)表示自然图像训练集中图像m中词汇n被分配给主题k的概率，z_m,n表示自然图像训练集中图像m中词汇n分配的主题，k表示主题，X表示自然图像训练集中每幅图像的词汇集合，Z^-(m,n)表示除图像m中的词汇n以外的自然图像训练集中图像词汇分配的主题，B表示主题包含组件矩阵，φ表示组件产生单词的概率矩阵，α表示主题在自然图像训练集图像中发生的先验概率，J表示自然图像训练集中图像的组件的个数，(φ_cx)^b(k,c)表示组件c产生词汇x的概率，b_k,c表示主题k是否包含组件c，W表示自然图像训练集中图像的词汇个数，表示除图像m中的词汇n以外自然图像训练集中图像词汇分配的主题是k的个数；

第三步，将概率最大的主题作为自然图像训练集中每幅图像中词汇的新主题，用新主题构成自然图像训练集中每幅图像的潜在语义主题集合；

第四步，用所有潜在语义主题集合构成潜在语义主题模型。

按照下式，计算自然图像训练集每个图像类别的主题先验概率：

其中，β_k表示主题k在自然图像训练集中每个图像类别中的主题先验概率，s_mk表示主题k在自然图像训练集图像m中出现的频次，D表示自然图像训练集中每个图像类别中的图像个数，α表示主题在自然图像训练集图像中发生的先验概率。

步骤5，构建自然图像分类模型。

步骤6，进行自然图像分类。

下面结合附图3仿真图对本发明的效果做进一步说明。

1.仿真实验条件：

表1国际标准自然图像类别库图像类别

类别编号	类别名称	图像数目
			1	郊区别墅	241
2	海岸	360
			3	森林	328
4	高速公路	260
			5	城市	308
6	高山	374
			7	乡村	410
8	街道	292
			9	高楼	356
10	办公室	215
			11	卧室	217
12	厨房	210
			13	客厅	289

仿真实验在CPU为Intel Core(TM)2Duo、主频2.33GHz，内存为2G的WINDOWS XP系统上用MATLAB7.0.1软件进行。

仿真实验采用国际标准自然图像类别库，该图像类别库包含13个类别的自然图像，这13类自然图像的总数目为3860，每幅自然图像的像素大小为256×256，样例图像如图2所示。其中自然图像类别库中每个图像类别的类别编号、类别名称以及包含的图像数目如表1所示。

2.仿真内容及分析：

使用本发明与现有技术中Lifeifei的贝叶斯分层模型方法、Blei的有监督主题模型方法、R.Goemley的共享组件主题模型方法进行对比，均对国际标准自然图像类别库进行分类实验。

仿真1，用本发明方法对国际标准自然图像类别库中的13类自然图像进行10次分类实验，计算10次实验的平均分类正确率，作为国际标准自然图像类别库的最终分类正确率，结果如图3所示,图3的横坐标是国际标准自然图像类别库的类别编号,纵坐标是各类别图像的平均分类正确率。

从图3可见，国际标准自然图像类别库的各类别平均分类正确率均在85%以上。

表2实验结果

Lifeifei	69.2%
		Blei	74.5%
R.Gormley	75.1%
		本发明方法	87.5%

仿真2，本发明方法与现有技术中Lifeifei的贝叶斯分层模型方法、Blei的有监督主题模型方法、R.Goemley的共享组件主题模型方法分别对国家标准自然图像类别库进行分类实验，计算10次实验的平均分类正确率，作为国际标准自然图像类别库的最终分类正确率，结果如表2所示。

从表2可见，本发明方法对国际标准自然图像类别库的最终分类正确率高于其他方法。

综上所述，本发明使用吉布斯采样方法和主题先验概率方法对图像训练集中的图像进行有监督训练和对主题进行非平衡先验训练，与现有技术Lifeifei、Blei和R.Goemely的方法相比，提高了对国际标准自然图像类别库的分类正确率。

Claims

1.基于有监督共享组件主题模型的图像分类方法，包括如下步骤：

(1)建立自然图像训练集和自然图像测试集：

(1b)将图像库中选取自然图像训练集后剩余的图像，组成自然图像测试集；

(2)生成视觉字典：

(2d)将所有聚类中心构成视觉字典；

(3)生成图像稀疏表示向量：

(3a)计算自然图像训练集和自然图像测试集中每幅图像的尺度不变特征集合中的每个尺度不变特征与视觉字典中的每个词汇所对应尺度不变特征之间的欧式距离，找出并保存欧氏距离最小的词汇，将每幅图像保存的所有欧氏距离最小的词汇构成该幅图像的词汇集合；

(3b)统计视觉字典中每个词汇在自然图像训练集和自然图像测试集中每幅图像的词汇集合中出现的频次，将所统计的频次构成每幅图像的稀疏表示向量；

(4)生成主题分布向量：

(4b)估计自然图像训练集中每个图像类别主题的先验概率；

β_{k} = α \frac{Σ_{m = 1}^{D} (Ψ (s_{m k} + α) - Ψ (α))}{Σ_{m = 1}^{D} (Ψ (\underset{k}{Σ} s_{m k} + α) - Ψ (α))}

(4d)将自然图像训练集和自然图像测试集中每幅图像的潜在语义主题分布，作为主题分布向量；

(5)构建自然图像分类模型：

将自然图像训练集中每幅图像的潜在语义主题分布和与其对应的类别，作为训练数据，将训练数据放入支撑向量机SVM，获得自然图像分类模型；

(6)进行自然图像分类：

2.根据权利要求1所述的基于有监督共享组件主题模型的图像分类方法，其特征于，步骤(2b)中所述的尺度不变特征提取方法的具体步骤如下：

m (x, y) = \sqrt{{(L (x + 1, y) - L (x - 1, y))}^{2} + {(L (x, y + 1) - L (x, y - 1))}^{2}}

θ (x, y) = \tan^{- 1} (\frac{L (x + 1, y) - L (x - 1, y)}{L (x, y + 1) - L (x, y - 1)})

3.根据权利要求1所述的基于有监督共享组件主题模型的图像分类方法，其特征于，步骤(2d)中所述所有聚类中心的聚类数目选取范围是300-1000。

4.根据权利要求1所述的基于有监督共享组件主题模型的图像分类方法，其特征于，步骤(4a)中所述吉布斯采样方法的具体步骤如下：

第一步，将自然图像训练集中每幅图像词汇对应的主题赋值为不大于T的任意值，其中T表示主题个数，T的取值范围是10-100；

其中，P(z_m,n＝k|X,Z^-(m,n),B,φ,α)表示自然图像训练集中图像m中词汇n被分配给主题k的概率，z_m,n表示自然图像训练集中图像m中词汇n分配的主题，k表示主题，X表示自然图像训练集中每幅图像的词汇集合，Z^-(m,n)表示除图像m中的词汇n以外的自然图像训练集中图像词汇分配的主题，B表示主题包含组件矩阵，φ表示组件产生单词的概率矩阵，α表示主题在自然图像训练集图像中发生的先验概率，J表示自然图像训练集中图像的组件的个数，表示组件c产生词汇x的概率，b_k,c表示主题k是否包含组件c，W表示自然图像训练集中图像的词汇个数，表示除图像m中的词汇n以外自然图像训练集中图像词汇分配的主题是k的个数；

第四步，用所有潜在语义主题集合构成潜在语义主题模型。