CN103366175A

CN103366175A - 基于潜在狄利克雷分配的自然图像分类方法

Info

Publication number: CN103366175A
Application number: CN2013102964685A
Authority: CN
Inventors: 焦李成; 马文萍; 韩冰; 王爽; 马晶晶; 侯彪; 白静; 田小林
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-07-14
Filing date: 2013-07-14
Publication date: 2013-10-23
Anticipated expiration: 2033-07-14
Also published as: CN103366175B

Abstract

本发明公开了一种基于潜在狄利克雷分配的自然图像分类方法，主要解决现有全监督自然图像分类方法分类时间较长以及在缩短了分类时间的前提下分类精度下降的问题。其实现步骤为：获取每幅自然图像的色调、饱和度、亮度、显著特征图；对所述特征图分别进行网格稠密采样，得到其网格采样点；对每一个网格采样点提取其周围区域的SIFT特征；对同类特征图的SIFT特征进行K聚类，生成视觉词典；用视觉词典将所有特征图量化为视觉文档；将视觉文档顺次相连后输入给LDA模型得到潜在语义主题分布；将所有自然图像的潜在语义主题分布输入给SVM分类器进行分类，得到分类结果。本发明与经典分类方法相比，在缩短了平均分类时间的同时提高了分类精度，可用于目标识别。

Description

基于潜在狄利克雷分配的自然图像分类方法

技术领域

本发明属于图像处理技术领域，涉及一种对自然图像的分类方法，可用于目标识别。

背景技术

近年来，图像数量的大量激增给图像识别、检索以及分类等问题带来了巨大的挑战。如何在浩瀚的数据中准确获得用户所需信息并进行处理，成为该领域亟待解决的问题之一。自然图像分类的目的是根据图像中所包含的内容将图像划分为不同的类别，供后续处理或便于管理。经典的自然图像分类方法包括：

基于词袋模型的自然图像分类方法。该方法是由Csurka G等人将词袋BoW模型的思想移植到图像处理领域，见Csurka G，Dance C，Fan L，et al.Visual Categorizationwith Bags of Keypoints.Workshop on statistical learning in compute vision，ECCV.2004,1:22.，其主要思想是通过对图像进行特征提取和描述，得到大量特征进行处理，从而得到用来表示图像的关键词，并在此基础上构建视觉词典，然后对待分类图像采用相同的处理方法，将结果代入到训练的分类器中进行分类。然而，词袋模型在计算机视觉领域的应用的缺陷是在应用于图像分类时分类精度不够高，且分类时间较长。

基于潜在狄利克雷分配的自然图像分类方法。该方法是由David M.Blei等人在pLSA模型的基础上进行扩展，提出了潜在狄利克雷分配LDA，对于像语料库这样的离散数据的收集建立了概率模型，见Blei,D.M.,Ng,A.Y.,Jordan,M.I.Latent DirichletAllocation.Journal of Machine Learning Research3:993-1022,2003。随后Fei Fei Li等人将该模型应用于自然场景分类，见Fei-Fei L,Perona P.A bayesian hierarchical model forlearning natural scene categories.Computer Vision and Pattern Recognition,2005.CVPR2005.IEEE Computer Society Conference on.IEEE,2005,2:524-531。该方法相较于词袋模型方法虽然大大缩短了分类时间，但却降低了分类精度。

发明内容

本发明的目的在于针对已有技术的不足，提出一种基于潜在狄利克雷分配的自然图像分类方法，以提高分类效果。

为实现上述目的，本发明包括如下步骤：

1、基于多特征的潜在狄利克雷分配的自然图像分类方法，包括如下步骤：

(1)将每一幅自然图像的彩色空间转换为HIS空间，得到其色调H、饱和度S和亮度I特征图，通过谱残差的方法获取自然图像的显著S特征图；

(2)采用网格分块方法分别对每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图分别进行网格稠密采样，得到每一个特征图相应的网格采样点；

(3)对每一个网格采样点提取其周围区域的尺度不变特征转换SIFT特征；

(4)对所有自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图提取出来的SIFT特征分别进行K聚类，即共进行四次K聚类，每次K聚类均生成一个视觉词典和n个聚类中心，每次K聚类生成n个聚类中心对应于一个视觉词典中的n个视觉单词，从而生成四个均由n个视觉单词构成的视觉词典；

(5)量化每幅自然图像的色调特征图、亮度特征图、饱和度特征图和显著特征图为视觉文档，并用每幅自然图像的色调特征图、亮度特征图、饱和度特征图和显著特征图中网格采样点的SIFT特征分别与这四幅特征图对应的视觉词典中的每个视觉单词进行比较，找出与每幅自然图像的所有特征图中网格采样点的SIFT特征最相近的视觉单词来代替该SIFT特征，使得每幅自然图像的所有特征图均由n个视觉单词表示，即用量化后每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图，作为由n个视觉单词构成的视觉文档；

(6)将所述视觉文档顺次相连后，输入给潜在狄利克雷分配LDA模型进行若干次Gibbs采样迭代，得到每幅自然图像的潜在语义主题分布；

(7)将所有自然图像的潜在语义主题分布输入给支持向量机SVM分类器进行分类，选择所有自然图像的一半的图像作为训练样本，另一半的图像作为测试样本，得到分类结果。

本发明与现有的技术相比具有以下优点：

1.本发明由于在确定LDA模型输入时是从HIS颜色空间出发，因而与现有技术相比，分类结果更符合人的视觉特性；

2.本发明由于在现有技术的特征提取过程中引入视觉注意机制，因而与现有技术相比，缩短了平均分类时间；

3.本发明由于在建立视觉词典时提取的是自然图像的多个特征图的SIFT特征，因而与现有技术相比，提高了平均分类精度；

附图说明

图1是本发明的总流程图。

具体实施方式

参照图1，本发明的具体实现步骤如下：

步骤1，将每幅自然图像的彩色空间转换为HIS空间，并通过谱残差的方法获取每幅自然图像的显著特征图。

由于HIS颜色空间更符合人的视觉特性，因而将每幅自然图像转换到HIS颜色空间，得到其色调H、饱和度S和亮度I特征图，并将视觉注意机制引入LDA模型特征表示过程中，采用谱残差的方法获取每幅自然图像的显著特征图，其实现步骤为：

(1a)对每幅自然图像经过傅里叶变换得到的幅度谱，再对幅度谱做对数变换，得到每幅自然图像的对数谱；

(1b)对每幅自然图像的对数谱做均值滤波，得到每幅自然图像的均值滤波对数谱，用每幅自然图像的对数谱分别减去每幅自然图像的均值滤波对数谱，得到每幅自然图像对数谱的谱残差；

(1c)对每幅自然图像对数谱的谱残差做傅里叶反变换，得到每幅自然图像的显著特征图。

步骤2，对每幅自然图像的各个特征图分别进行网格稠密采样。

对每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图进行网格稠密采样，是用水平和竖直的线均匀地分割每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图，得到特征图的每一个网格采样点。

步骤3，对每一个网格采样点提取其尺度不变特征转换SIFT特征。

(3a)将特征图中的每一个网格采样点作为生成SIFT特征的关键点；

(3b)在以关键点为中心的4×4的邻域窗口内采样，并用直方图统计邻域像素的梯度方向的幅值；

(3c)计算8个梯度方向的累加值，得到每个关键点的4×4的邻域上8个梯度方向的幅值的累加值，这样就对每个关键点均生成了一个128维的SIFT特征向量。

步骤4，对所有自然图像的SIFT特征分别进行K聚类，生成视觉词典。

K聚类的特点是各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开，所以经过K聚类得到的n个聚类中心符合视觉词典中对视觉单词的要求，即每一个视觉单词可以代表许多相似的局部区域，而各个视觉单词之间又相互区分，因而选用K聚类生成视觉词典，其实现步骤如下:

(4a)对所有自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图提取出来的SIFT特征分别进行K聚类，即共进行四次K聚类，每次K聚类均生成一个视觉词典和n个聚类中心；

(4b)将每次K聚类生成的n个聚类中心与视觉词典中的n个视觉单词相对应，生成四个均由n个视觉单词构成的视觉词典。

步骤5，量化每幅自然图像的色调特征图、亮度特征图、饱和度特征图和显著特征图为视觉文档。

用每幅自然图像的色调特征图、亮度特征图、饱和度特征图和显著特征图中网格采样点的SIFT特征分别与这四幅特征图对应的视觉词典中的每个视觉单词进行比较，找出与每幅自然图像的所有特征图中网格采样点的SIFT特征最相近的视觉单词来代替该SIFT特征，使得每幅自然图像的所有特征图均由n个视觉单词表示，即用量化后的每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图，作为由n个视觉单词构成的视觉文档。

步骤6，将所述视觉文档顺次相连后，输入给潜在狄利克雷分配LDA模型进行若干次Gibbs采样迭代，得到每幅自然图像的潜在语义主题分布。

(6a)对于视觉文档中的每一个视觉单词wi，随机设定该视觉单词所属的主题z_i，令{z_i={1,2,…,T},i=1,...,M}，其中M为视觉文档的视觉单词总数，T为主题个数，该状态即为Markov链的初始状态；

(6b)根据下式将视觉文档中的视觉单词分配给某个主题，获取Markov链的下一个状态，

P (z_{i} = j | z_{- i}, w) &Proportional; \frac{n_{- i, j}^{w_{i}} + β}{n_{- i, j}^{(\cdot)} + Wβ} \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i;}^{(d_{i})} + Tα},

1）

其中，z_i表示视觉单词ω_i所分配的主题，z_-i表示除视觉单词ω_i以外的其他视觉单词的主题分配情况，

表示分配给主题j的与视觉单词ω_i相同的视觉单词个数，

表示分配给主题j的所有视觉单词个数，

表示视觉文档d_i中分配到主题j的视觉单词个数，表示文档d_i中所有被分配了主题的视觉单词个数，

表示所有的视觉单词个数均不包括这次z_i=j的分配，∝为正比于符号；

(6c)重复步骤(6b)直至Markov链达到极限分布，即将视觉文档中所有视觉单词均分配到某主题，取z_i的当前值作为样本记录下来；

(6d)统计分配到视觉文档的主题个数和分配到各个主题的视觉单词的个数，得到视觉文档d下主题的分布参数θ和主题下视觉单词w的分布参数φ的估计；

θ = {θ_{j}^{(d)} | j = 1,2, \cdot \cdot \cdot, T} - - - 2)

其中，

φ_{j}^{(w)} = \frac{n_{j}^{(w)} + β}{n_{j}^{(\cdot)} + Wβ} - - - 4)

θ_{j}^{(d)} = \frac{n_{j}^{(d)} + α}{n_{\cdot}^{(d)} + Tα} - - - 5)

其中，为视觉单词w属于主题j的概率，为分配给主题j的与视觉单词w_i相同的视觉单词个数，

表示分配给主题j的所有视觉单词个数，

为视觉文档d中主题j发生的概率，

表示视觉文档d中分配到主题j的视觉单词个数，

表示视觉文档d中所有被分配了主题的视觉单词个数，α为θ的超参数，取值为α=50/T，β为

的超参数，取值为β=0.01；

(6e)利用式2)至式5)，得到每幅自然图像的潜在语义主题分布。

步骤7，将所有自然图像的潜在语义主题分布输入给支持向量机SVM分类器进行分类。

(7a)选择径向基RBF核函数作为SVM分类器的核函数；

(7b)对所有自然图像的潜在语义主题分布采用10折交叉验证，选择出径向基RBF的核函数参数c和g的最佳值，即c=16，g=4，其中c是RBF核函数中的损失函数，g是RBF核函数中的gamma函数；

(7c)随机选择所有自然图像中的一半作为训练样本，另一半图像作为测试样本，采用核函数为RBF核函数的SVM分类器对训练样本进行训练，得到训练模型，并用该训练模型对测试样本进行分类，得到分类结果。

本发明的效果可以通过下面的实验仿真进一步说明：

1、实验条件与方法

硬件平台为：Intel Core i3-21003.10GHz、2.91GB RAM.；

软件平台为：MATLAB R2012a；

实验方法：分别为本发明、现有基于词袋模型的自然图像分类方法和现有基于LDA模型的自然图像方法，其中现有的这两种方法都是自然图像分类中引用较多的经典方法。

实验所用图像为Urban and Natural Scene Categories数据库，包括8个类别分别为：海滩、森林、高速公路、城市、山脉、乡村、街道以及高层建筑，一共2688幅图像。所有分类实验均随机用一半自然图像作为训练样本，另一半自然图像作为测试样本，结果为100次分类实验的平均结果。

2、仿真内容与结果

仿真一，用现有的基于词袋模型的自然图像分类方法对所述数据库进行分类，视觉词典中视觉单词的个数取为300。

分类结果为：平均准确率为81.1749%，平均分类时间为5.9760s。

仿真二，用现有的基于LDA模型的自然图像分类方法对所述数据库进行分类，主题T分别取20、40、60、80、100。

分类结果为：平均准确率分别为79.6570%、81.1369%、81.7999%、81.5714%、81.5208%，平均分类时间分别为0.3823s、0.8220s、1.2855s、1.7952s、2.3024s。

仿真三，用本发明对所述数据库进行分类，主题T分别取20、40、60、80、100。

分类结果为：平均准确率分别为80.2969%、83.9137%、84.4271%、84.7054%、

85.5707%，平均分类时间分别为0.3790s、0.6441s、1.0064s、1.4649s、1.9874s。

从仿真一、仿真二和仿真三可见，本发明相较于现有基于词袋模型的自然图像分类方法以及现有基于LDA的自然图像分类方法提高了平均分类准确率，缩短了平均分类时间。

综上所述，本发明对自然图像的全监督分类在取得更高的平均分类准确率的同时缩短了平均分类时间。

Claims

1.一种基于潜在狄利克雷分配的自然图像分类方法，包括如下步骤：

2.根据权利要求书1所述的基于潜在狄利克雷分配的自然图像分类方法，其中步骤(1)所述的通过谱残差的方法获取自然图像的显著S特征图，按如下步骤进行：

3.根据权利要求书1所述的基于潜在狄利克雷分配的自然图像分类方法，其中步骤(2)所述的采用网格分块方法分别对每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图分别进行网格稠密采样，是将每幅自然图像的色调特征图、饱和度特征图、亮度特征图和显著特征图用水平和竖直的线均匀地分割，从而得到每一幅特征图的网格采样点。

4.根据权利要求书1所述的基于潜在狄利克雷分配的自然图像分类方法，其中步骤(6)所述的将所述视觉文档顺次相连后输入给LDA模型进行若干次Gibbs采样迭代，得到每幅自然图像的潜在语义主题分布，按如下步骤进行：

(6a)对于视觉文档中的每一个视觉单词w_i，随机设定该视觉单词所属的主题z_i，令{z_i={1,2,…,T},i=1,...,M}，其中M为视觉文档的视觉单词总数，T为主题个数，该状态即为Markov链的初始状态；