CN101315663A

CN101315663A - 一种基于区域潜在语义特征的自然场景图像分类方法

Info

Publication number: CN101315663A
Application number: CNA2008100315773A
Authority: CN
Inventors: 吴玲达; 谢毓湘; 曾璞; 杨征; 栾悉道; 文军; 陈丹雯
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2008-06-25
Filing date: 2008-06-25
Publication date: 2008-12-03
Anticipated expiration: 2028-06-25
Also published as: CN101315663B

Abstract

本发明公开了一种基于区域潜在语义特征的自然场景图像分类方法，目的是利用图像的区域潜在语义信息和该信息在空间的分布规律来进行自然场景图像分类。技术方案是先建立自然场景图像分类代表集；然后对自然场景图像分类代表集中的图像进行采样点SIFT特征提取，生成通用视觉词汇表；再在自然场景图像分类代表集上生成图像区域潜在语义模型；接着对任意一幅图像提取图像区域潜在语义特征；最后生成自然场景分类模型，根据自然场景分类模型对图像的区域潜在语义特征进行分类。本发明引入了区域潜在语义特征，不仅描述了图像分块的区域信息而且还包含图像分块在空间的分布信息，相比于其他方法能得到更高的准确率，且不需要人工标注，自动化程度高。

Description

一种基于区域潜在语义特征的自然场景图像分类方法

技术领域

本发明涉及多媒体信息处理技术领域里关于图像分类的方法，尤其是一种通过提取图像的区域潜在语义特征来实现对自然场景图像进行分类的方法，是一种综合考虑了图像区域所包含的信息以及这些区域信息在图像的空间分布来进行自然场景图像分类的方法。

背景技术

互联网的快速发展、信息存储与传输技术的发展以及数码设备的普及带来图像数据的爆炸性增长，这就对如何进行大量图像数据的检索与浏览提出了新的技术挑战。面对数量如此巨大的图像数据，传统的依靠人工来对图像进行分类的管理方式因为需要耗费大量的人力资源而变得不可行。因此，如何利用计算机将图像自动分类到一些预定义的类别中就成为其中的一个关键问题。由于自然场景图像在人们的日常生活中十分常见，数量也十分巨大，因此对于自然场景图像的分类问题的研究就成为了当前计算机视觉和多媒体信息管理领域的一个热点问题。

传统的自然场景图像分类方法通常使用色彩、纹理和形状等图像底层物理特征来直接与各种分类方法相结合，从而实现对图像的分类。采用底层物理特征的一个主要问题在于底层物理特征往往只反映图像在物理感知层次上的特点，而不是人们所关注的认知层面的内容。近年来，为了克服底层物理特征与人类认知语义之间的鸿沟，使用中间语义特征来对自然场景建模的方法得到了广泛的关注。Oliva和Torralba使用一组视觉感知属性来描述场景的主要空间结构，他们定义了自然度、宽阔度、粗糙度、伸展度和险峻度等视觉感知属性，通过分析底层特征来得到这些视觉感知属性。Vogel等人则首先将局部图像区域分类到一些预定义的语义概念中，然后根据这些语义概念在图像中出现的频率来描述图像。但在这些方法中，为了得到预定义的语义概念模型，往往需要大量的人工标注样本。为了减少生成中间语义所需的人工标注工作，一些采用文本主题模型的方法被用于图像场景分类，这些方法主要以Lifeifei、Quelhas以及Bosch提出的方法为代表。这些方法通常先提取图像中的尺度不变特征(Scale Invariant Feature Transform，SIFT)，然后将图像的SIFT特征通过聚类生成一个视觉词汇表来表示聚类中心。在生成了视觉词汇表后将图像中的SIFT特征映射成一个个的视觉词汇，从而采用文本中最常见的词袋特征(Bag of Word，BOW)来表示图像，最后应用文本分类中的概率潜在语义分析方法(Probabilistic Latent Semantic Analysis，PLSA)和潜在Dirichlet分析方法(LatentDirichlet Analysis，LDA)等主题分析方法来找出图像最可能属于的主题或者潜在语义，从而完成图像的场景分类。这类方法能够很大地减少对人工标注的需求，但是它们通常是根据图像中视觉词汇出现的总体情况来进行场景分类，它们既没有考虑视觉词汇在空间的分布特点，也无法利用图像中区域语义构成的上下文信息来进行场景分类，因此在图像视觉词汇总体分布规律不显著的情况下往往不能得到好的分类结果。

发明内容

本发明要解决的技术问题是如何综合利用图像区域所包含的潜在语义信息和这些区域包含的潜在语义信息在空间的分布规律来进行自然场景图像分类。本发明提供一种基于区域潜在语义特征的自然场景图像分类方法，首先通过对图像进行空间金字塔分块来生成图像区域，然后使用概率潜在语义分析方法来得到区域潜在语义特征(即每个分块区域包含每一个潜在语义的概率值)，最后利用区域潜在语义特征来构建相应的分类器模型，从而将自然场景图像自动分类到预定义的类别。本发明通过综合利用图像的区域语义信息和区域信息在图像上的空间分布情况，提高了分类的准确性和智能性，减少了人工参与的程度，能够满足图像管理和检索的需求。

本发明的技术方案如下：

第一步，建立自然场景图像分类代表集。方法是：

1.1、根据使用需要定义N个自然场景图像类别，类别编号为1～N，N为自然数。

1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表。

1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集。

第二步，对自然场景图像分类代表集中的图像进行采样点SIFT特征提取，生成通用视觉词汇表。方法是：

2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样，得到每幅图像的网格采样点SP，方法是：对输入图像Ig按M×M像素大小的网格进行采样，其中M为2的整数次幂，建议M取8或16；

2.2、对每幅图像的每一个网格采样点SP，采用SIFT特征提取方法提取SIFT特征：在采样点SP周围P×P(P为自然数，取值范围为8-20，建议P取16)像素大小的区域上计算梯度方向直方图得到SIFT特征，该SIFT特征是一个128维向量；

2.3、使用K均值聚类方法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类，每个聚类中心的取值对应一个视觉词汇，保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表。K为自然数，一般取值为500-1000，建议K取为800。

第三步，对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW描述，并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型(即潜在语义出现时的视觉词汇出现的后验概率)，具体包括以下步骤：

3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的SIFT特征映射到对应的视觉词汇：计算图像Ig中每个网格采样点的SIFT特征与通用视觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离，找出欧式距离最小的视觉词汇的编号来表示网格采样点，将相应采样点的SIFT特征映射到对应的视觉词汇；

3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L(1≤L≤4)层空间金字塔分块：给定任意图像Ig和分层数L，分别在L个层次上对图像进行均匀分块，其中第l(1≤l≤L)层的图像分块是对图像进行2^l-1×2^l-1的均匀分块，这样对一幅图像进行L层空间金字塔分块一共可以得到Q＝(4^L-1)/3个大小和空间位置各不相同的图像区域。例如采用3层空间金子塔分块，一幅图像通过3层空间金字塔分块可以得到21个不同大小和不同空间位置的图像区域。

3.3、对3.2中得到的每个图像分块区域分别采用BOW(Bag of Word，BOW)描述生成方法来生成构建分块的词袋描述，即对任意自然场景代表图像Ig上的一个图像分块区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述，具体方法如下：

3.3.1根据图像Ig上的所有网格采样点和分块区域大小，找出所有包含在分块区域中的网格采样点；

3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇，统计视觉词汇表中每个视觉词汇在图像区域中出现的次数。

3.3.2用向量[f₁，...，f_k，...，f_K]表示图像区域的BOW描述，f_k表示视觉词汇表中第k个视觉词汇在图像区域中出现的次数，1≤k≤K，K为第二步中生成的通用视觉词汇表的大小。

3.4、对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集合进行PLSA分析，生成区域潜在语义模型。方法是：

自然场景图像分类代表集的所有图像的分块区域集合一共有I个区域，将其中每个图像区域看作一个单独的文档，第i个图像区域用r_i来表示；将第二步中生成的通用视觉词汇看作文档中的词汇，一共有K个视觉词汇，第k个视觉词汇用v_k来表示；图像所有区域包含的潜在语义的数目为S个(S一般取20-80)，第s个潜在语义用z_s来表示，且n(r_i，v_k)表示第k个视觉词汇v_k在第i个区域r_i中出现的次数。生成基于PLSA的区域潜在语义模型的方法如下：

在PLSA方法中，假设“文档一词”之间是条件独立的，并且潜在语义在文档或词上分布也是条件独立的。

首先使用下式来表示“文档一词”的条件概率：

P (r_{i}, v_{k}) = P (r_{i}) Σ_{s = 1}^{S} P (v_{k} | z_{s}) P (z_{s} | r_{i}) - - - (1)

P(v_k|z_s)为潜在语义z_s出现时的视觉词汇v_k的后验概率，它描述了视觉词汇v_k对潜在语义z_s的贡献度，所有的P(v_k|z_s)值就构成了区域潜在语义模型。P(z_s|r_i)表示图像区域r_i中包含潜在语义z_s的后验概率，它描述了图像区域r_i中具有相应潜在语义z_s的概率。P(r_i)是图像区域r_i出现的概率。

然后根据极大似然估计原则，通过概率潜在语义分析，求取如下对数似然函数的极大值来计算PLSA的P(v_k|z_s)以生成区域潜在语义模型：

Σ_{i}^{I} Σ_{k}^{K} n (r_{i}, v_{k}) \log P (r_{i}, v_{k}) - - - (2)

在有隐含变量的模型中，极大似然估计的标准过程是期望最大(EM)算法。

因此采用EM算法对P(v_k|z_s)进行极大似然估计，EM算法交替于两个步骤(E步和M步)直至收敛：

3.4.1、在E步，利用当前估计的参数值来计算区域r_i中包含视觉词汇v_k时潜在语义z_s出现的后验概率P(z_s|r_i，v_k)，其中P(z_s)为潜在语义z_s出现的概率：

P (z_{s} | r_{i}, v_{k}) = \frac{P (z_{s}) P (z_{s} | r_{i}) P (v_{k} | z_{s})}{Σ_{c = 1}^{S} P (z_{c}) P (z_{c} | r_{i}) P (v_{k} | z_{c})} - - - (3)

3.4.2、在M步，利用上一步的期望值P(z_s|r_i，v_k)来最大化当前的参数估计：

P (v_{k} | z_{s}) = \frac{Σ_{i}^{I} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})}{Σ_{i}^{I} Σ_{m}^{K} n (r_{i}, v_{m}) P (z_{s} | r_{i}, v_{m})} - - - (4)

P (z_{s} | r_{i}) = \frac{Σ_{k}^{K} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})}{Σ_{k}^{K} Σ_{c}^{S} n (r_{i}, v_{k}) P (z_{c} | r_{i}, v_{k})} - - - (5)

p (z_{s}) = \frac{Σ_{i}^{I} Σ_{k}^{K} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})}{Σ_{i}^{I} Σ_{k}^{K} n (r_{i}, v_{k})} - - - (6)

在分块BOW描述集合上循环E步和M步，迭代公式(3)(4)(5)(6)直到收敛，收敛条件为迭代次数大于300或者连续两次迭代得到的P(z_s|r_i，v_k)差值小于0.001，得到所有P(v_k|z_s)。

第四步，对任意一幅图像提取图像区域潜在语义特征，方法是：

4.1、采用2.1所述的网格采样方法对图像进行网格采样，然后采用2.2所述的SIFT特征提取方法提取出每个采样点的SIFT特征；

4.2、对于该图像采用第三步所述视觉词汇映射、空间金字塔分块和BOW描述生成方法来生成每个金字塔分块区域的BOW描述；

4.3、对于图像的所有图像分块区域，利用第三步得到的图像分块区域潜在语义模型P(v_k|z_s)，用EM算法迭代公式(3)(5)(6)直至收敛，得到每个图像分块区域r_i具有潜在语义z_s的概率P(z_s|r_i)。

4.4、构建图像区域潜在语义特征，方法是：

第五步，将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据，运用支持向量机SVM(Support Vector Machine)算法生成自然场景分类模型。

第六步，根据自然场景分类模型对图像的区域潜在语义特征进行分类。方法是：

将第四步提取出的任意图像的区域潜在语义特征提交给自然场景分类模型，在模型中比较该区域潜在语义特征与模型中各个类别特征的距离，距离最小的类别就是最终的图像场景类别。

采用本发明图像场景分类方法可以达到以下技术效果：

1、和Feifei、Quelhas以及Bosch等人提出的场景分类方法相比，本发明通过在第四步引入区域潜在语义特征，不仅描述了图像分块的区域信息而且还包含图像分块在空间的分布信息，因此相比于其他三类方法能得到更高的准确率。

2、Vogel等人的方法既需要对图像区域进行标注，也需要对整个图像标注来完成图像的场景分类，而本发明只需要一次指定一组预定义类别的图像(即自然场景分类代表集)就可以自动生成通用视觉词汇表、区域潜在语义模型和场景分类模型，不需要人工标注，自动化程度高。

附图说明

图1为本发明基于区域潜在语义特征的自然场景图像分类方法的流程图。

图2为本发明第二步生成通用视觉词汇表的流程图。

图3为本发明第三步生成图像区域潜在语义模型的流程图。

图4为本发明第四步提取图像区域潜在语义特征的流程图。

图5为本发明示例中所采用国际标准场景图像类别库中的样例图像。

图6为在图5所示国际标准场景图像库中采用本发明进行场景分类的准确率示意图。

图7为采用本发明进行场景分类与其它方法的性能比较。

具体实施方式

图1为本发明基于区域潜在语义特征的自然场景图像分类方法的流程图，具体步骤包括：

第一步，建立自然场景图像分类代表集；

第二步，对自然场景图像分类代表集中的图像进行采样点SIFT特征提取，生成通用视觉词汇表；

第三步，在自然场景图像分类代表集上生成图像区域潜在语义模型；

第四步，对任意图像提取图像区域潜在语义特征；

第五步，将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据，运用支持向量机SVM算法生成自然场景分类模型；

第六步，对任意一幅图像根据图像区域潜在语义特征和自然场景分类模型进行分类，得到该幅图像所属的类别。

图2为本发明第二步生成通用视觉词汇表的流程图。具体步骤包括：

2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法得到采样点；

2.2、对图像的每一个网格采样点SP，采用SIFT特征提取方法得到每个网格采样点的SIFT特征；

2.3，对所有提取的SIFT特征进行K均值聚类得到通用视觉词汇表。

图3为本发明第三步生成图像区域潜在语义模型的流程图。具体步骤包括：

3.1，对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法对每个采样点进行视觉词汇映射；

3.2，对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L(1≤L≤4)层空间金字塔分块，得到图像区域集合；

3.3，对每个图像区域分别采用BOW描述生成方法得到其词袋描述；

3.4，对自然场景图像分类代表集中所有图像的分块区域的BOW描述集合进行PLSA分析，生成区域潜在语义模型。

图4为本发明第四步提取任意图像区域潜在语义的流程图。具体步骤包括：

4.1，采用网格采样和SIFT特征提取方法来生成图像的网格采样点及每个采样点的SIFT特征；

4.2，采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来得到图像的每个金字塔分块的BOW描述；

4.3，对于图像的所有图像分块区域，利用第三步得到的图像分块区域潜在语义模型P(v_k|z_s)，应用PLSA分析，得到每个图像分块区域具有潜在语义z的概率P(z_s|r_i)。

4.4，构建图像区域潜在语义特征。

图5为使用本发明方法在国际标准场景图像库上进行自然场景图像分类的例子。该国际标准自然场景图像集定义了13类自然场景，分别是卧室、海岸、森林、高速公路、城市、厨房、起居室、山脉、办公室、乡村、街道、郊区别墅、高楼。图5中给出了这些风景类别的一些样例图像。每类场景大约有200-400幅图像。

图6为采用本发明对图5所示13类自然场景得到的每类场景的平均分类准确率示意图。具体示例过程如下：

第一步，从每类场景中随机选择100幅图像，一共1300幅图像作为自然场景分类代表集，而每类场景中剩余的图像则全部作为待分类的图像。

第二步，在自然场景分类代表集上根据本发明第二步来生成通用视觉词汇表并保存，其中M取8，P取16，K取800。

第三步，在自然场景分类代表集上根据本发明第三步来生成图像区域潜在语义模型并保存，其中L取3，S取20。

第四步，导入通用视觉词汇表和图像区域潜在语义模型，对于自然场景分类代表集中的图像按本发明第四步提取区域潜在语义特征并保存。

第五步，导入所有从代表集图像中提取出的区域潜在语义特征，并与每幅图像的类别序号一起输入SVM算法，得到相应的SVM分类模型并保存。

第六步，对于待分类的图像，先用本发明第四步提取出图像的区域潜在语义特征，然后将该特征和SVM分类模型输入SVM预测程序，得到最终的图像类别序号并保存。

对于所有待分类的图像，比较其预测的类别序号和其原所属类别序号，得到场景分类的准确率。通过重复上面六步的过程十次，得到十次场景分类准确率，对其取平均值就得到平均场景分类准确率。如图6所示，其中横坐标表示场景类别序号，纵坐标表示某类的平均分类准确率。例如，当横坐标为1时，对应的纵坐标为70。它表示对于第1类自然场景——卧室，采用本发明通过10次分类得到平均分类准确率为70％。

图7为采用本发明与其它方法的平均分类准确率的比较。图中的平均分类准确性通过对图5所示13类场景的平均分类准确率取平均值得到。本发明方法的平均分类准确性即为对图6所示的13个平均场景分类准确率取平均，由于本发明通过综合利用图像的区域信息和区域信息在图像上的空间分布情况来进行场景分类，因此相比其他只使用图像整体信息的方法，提高了场景分类的准确性。

Claims

1.一种基于区域潜在语义特征的自然场景图像分类方法，其特征在于包括以下步骤：

第一步，建立自然场景图像分类代表集，方法是：

1.1、根据使用需要定义N个自然场景图像类别，类别编号为1～N，N为自然数；

1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表；

1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集；

第二步，对自然场景图像分类代表集中的图像进行采样点SIFT特征即尺度不变特征提取，生成通用视觉词汇表，方法是：

2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样，得到每幅图像的网格采样点SP，方法是：对输入图像Ig按M×M像素大小的网格进行采样，其中M为2的整数次幂；

2.2、对每幅图像的每一个网格采样点SP，采用SIFT特征提取方法提取SIFT特征：在采样点SP周围P×P像素大小的区域上计算梯度方向直方图得到SIFT特征，该SIFT特征是一个128维向量，P为自然数，取值范围为8-20；

2.3、使用K均值聚类算法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类，每个聚类中心的取值对应一个视觉词汇，保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表，K为自然数，取值为500-1000；

第三步，对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW描述，并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型即潜在语义出现时的视觉词汇出现的后验概率，具体包括以下步骤：

3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L层空间金字塔分块：给定任意图像Ig和分层数L，分别在L个层次上对图像进行均匀分块，其中第l层的图像分块是对图像进行2^l-1×2^l-1的均匀分块，对一幅图像进行L层空间金字塔分块一共得到Q＝(4^L-1)/3个大小和空间位置各不相同的图像区域，1≤L≤4，1≤l≤L；

3.3、对每个图像分块区域分别采用BOW描述生成方法来生成构建分块的词袋描述，即对任意自然场景代表图像Ig上的一个图像分块区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述，具体方法是：

3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇，统计视觉词汇表中每个视觉词汇在图像区域中出现的次数；

3.3.2用向量[f₁，...，f_k，...，f_K]表示图像区域的BOW描述，f_k表示视觉词汇表中第k个视觉词汇在图像区域中出现的次数，1≤k≤K，K为通用视觉词汇表的大小；

3.4、对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集合进行PLSA即概率潜在语义分析，生成区域潜在语义模型：

首先使用下式来表示“文档-词”的条件概率

P (r_{i}, v_{k}) = P (r_{i}) Σ_{s = 1}^{S} P (v_{k} / z_{s}) P (z_{s} / r_{i}) - - - (1)

P(v_k|z_s)为第s个区域潜在语义z_s出现时的通用视觉词汇表中第k个视觉词汇v_k的后验概率，它描述了v_k对z_s的贡献度，所有的P(v_k|z_s)值构成区域潜在语义模型，P(z_s|r_i)表示第i个图像区域r_i中包含z_s的后验概率，它描述了r_i中具有z_s的概率，P(r_i)是图像区域r_i出现的概率，S为图像所有区域包含的潜在语义的数目，S取20-80；

然后根据极大似然估计原则，通过概率潜在语义分析，求取如下对数似然函数的极大值来计算P(v_k|z_s)以生成区域潜在语义模型：

Σ_{i}^{I} Σ_{k}^{K} n (r_{i}, v_{k}) \log P (r_{i}, v_{k}) - - - (2)

n(r_i，v_k)表示v_k在r_i中出现的次数；

最后，采用期望最大EM算法对P(v_k|z_s)进行极大似然估计，EM算法交替于E步和M步直至收敛：

3.4.1、在E步，利用当前估计的参数值来计算区域r_i中包含v_k时潜在语义z_s出现的后验概率P(z_s|r_i，v_k)：

P (z_{s} | r_{i}, v_{k}) = \frac{P (z_{s}) P (z_{s} | r_{i}) P (v_{k} | z_{s})}{Σ_{c = 1}^{S} P (z_{c}) P (z_{c} | r_{i}) P (v_{k} | z_{c})} - - - (3)

P(z_s)为潜在语义z_s出现的概率；

3.4.2、在M步，利用期望值P(z_s|r_i，v_k)来最大化当前的参数估计：

P (v_{k} | z_{s}) = \frac{Σ_{i}^{I} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})}{Σ_{i}^{I} Σ_{m}^{K} n (r_{i}, v_{m}) P (z_{s} | r_{i}, v_{m})} - - - (4)

P (z_{s} | r_{i}) = \frac{Σ_{k}^{K} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})}{Σ_{k}^{K} Σ_{c}^{S} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})} - - - (5)

p (z_{s}) = \frac{Σ_{i}^{I} Σ_{k}^{K} n (r_{i}, v_{k}) P (z_{s} | r_{i}, v_{k})}{Σ_{i}^{I} Σ_{k}^{K} n (r_{i}, v_{k})} - - - (6)

在分块BOW描述集合上循环E步和M步，迭代公式(3)(4)(5)(6)直到收敛，收敛条件为迭代次数大于300或者连续两次迭代得到的P(z_s|r_i，v_k)差值小于0.001，得到所有P(v_k|z_s)；

4.1、采用网格采样方法对图像进行网格采样，然后采用SIFT特征提取方法提取出每个采样点的SIFT特征；

4.2、对于该图像采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来生成每个金字塔分块区域的BOW描述；

4.3、对于图像的所有图像分块区域，利用第三步得到的图像分块区域潜在语义模型P(v_k|z_s)，用EM算法迭代公式(3)(5)(6)直至收敛，得到每个图像分块区域r_i具有潜在语义z_s的概率P(z_s|r_i)；

第六步，根据自然场景分类模型对图像的区域潜在语义特征进行分类，方法是：将任意图像的区域潜在语义特征提交给自然场景分类模型，在模型中比较该区域潜在语义特征与模型中各个类别特征的距离，距离最小的类别就是最终的图像场景类别。

2.如权利要求1所述的基于区域潜在语义特征的自然场景图像分类方法，其特征在于所述M取8或16，P取16，K取800。