CN102314610B

CN102314610B - 一种基于概率潜语义分析模型的面向对象影像聚类方法

Info

Publication number: CN102314610B
Application number: CN201010220330.3A
Authority: CN
Inventors: 唐宏; 陈云浩; 易文斌
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2010-07-07
Filing date: 2010-07-07
Publication date: 2014-10-15
Anticipated expiration: 2030-07-07
Also published as: CN102314610A

Abstract

本发明涉及一种基于概率潜语义分析(PLSA)模型的面向对象影像聚类方法。通过将影像分割为不同尺寸的矩形影像块并引入计算机视觉的图像分析方法，从而将影像像素视为视觉词、影像块视为影像文档、像元归属的主题视为聚类中心。依据影像块的重叠程度将影像文档划分为训练文档集与推断文档集，然后利用训练文档训练PLSA模型可获取影像聚类的最佳聚类中心与训练文档中视觉词与主题的先验概率。将推断文档中的视觉词的先验概率视为与训练文档中的先验概率一致，利用PLSA模型的EM算法循环迭代推断出文档集中每个文档中视觉词的主题类型，从而确定出每个视觉词在其邻域文档中的主题类型。分析视觉词与领域文档的距离并进行一定的高斯距离权重分配，选择权重最大的主题视为聚类类型，从而将空间信息引入聚类算法，最终形成面向对象的影像聚类结果。本发明方法可以得到一般单纯使用像元信息进行聚类所无法实现的效果，从而可以满足不同高分辨率遥感影像分析与应用的需求。

Description

一种基于概率潜语义分析模型的面向对象影像聚类方法

技术领域

本发明涉及图像分析领域，尤其是涉及一种遥感影像处理的方法。

背景技术

潜语义分析模型(Latent Semantic Analysis，LSA)是一种自然语言分析技术，由Deerwester等人于年1990提出。该模型认为通过分析文档与词的共生矩阵，可较好地提取文档对应的语义信息。在实际文档识别与检索应用中，文档与词之间的语义信息一般通过概率主题来表示，在此基础上从而形成一系列的概率主题模型。一般而言，概率主题模型均拥有一个共同的理论前提，即每个文档均是由多个主题依据不同的比例混合构成的，但是不同的概率主题模型对于文档或主题的先验分布拥有不同的统计分布假设，从而适用于不同的分析目标。

由于概率主题模型可较好的分析文档、主题以及词之间的统计相关关系，该类模型在计算机视觉、模式识别等领域均有较好的应用，在自然图像识别、检索、场景分析中有着较成功的应用案例。与此同时，在高分辨率遥感影像的分类研究中，影像、像元以及像元的归属类别之间的关系，与概率主题模型求解的问题极为相似，存在一定天然的关联关系，可尝试将该模型应用于遥感影像分类研究。目前使用较多的概率主题模型为概率潜语义分析(PLSA)模型与潜Dirichlet分析(LDA)模型，在不同的实际应用过程中也发展出了一系列的扩展模型。

自然语言处理往往需要分析隐含于词背后的涵义，普通的词频分析方法不能取得较好的结果，而潜语义分析模型(LSA)通过利用奇异值分解将高维的词-文档共生矩阵映射至低维的语义空间，从而体现出深层次语义关系。Hofmann在LSA模型的基础上，构建了概率潜语义分析模型(PLSA)，拥有更坚实的数学基础及易于利用的数据生成模型，可为信息提供更好的语义分析。PLSA模型分析的对象为文档与词汇的共生矩阵。若假设该矩阵由有M个文档，N个词的词汇表构成，则共生矩阵集可被视为一个M×N的矩阵。该共生矩阵中的任何一个文档可视为文档集D＝{d₁，d₂，…，d_M}中的一个数据，任何一个词均可视为词汇集W＝{w₁，w₂，…，w_N}中的一个数据。共生矩阵中每一个文档与每一个词的语义关系需要通过一个主题来联系起来，这个主题可被视为潜变量集Z＝{z₁，z₂，…，z_K}中的一个数据。PLSA模型是通过文档与词的共生矩阵来分析文档集、词汇集与潜变量集之间的关联关系，从而获取文档与词的语义信息。在PLSA模型中，文档、潜变量及词的概率生成模型通常可定义为：

·文档d_i归属于文档集D的概率为P(d_i)；

·文档d_i中潜变量z_k的条件概率为P(z_k/d_i)；

·文档d_i中潜变量z_k对应词w_j的条件概率为P(w_j/z_k)；

将概率生成模型中的条件概率可转换一定的联合概率模型，具体公式如式(1)与(2)所示。

P(d_i，w_j)＝P(d_i)P(w_j/d_i) (1)

P (w_{j} / d_{i}) = \underset{z &Element; Z}{&Sum;} P (w_{j} / z_{k}) P (z_{k} / d_{i}) - - - (2)

理论上，只要获取足够维度的文档与词的共生矩阵(d_i，w_j)，即可近似推导出潜变量z_k的条件概率分布。PLSA模型待求解的参数据为P(w_j/z_k)与P(z_k/d_i)，其求解往往通过极大似然估计原则来进行，而PLSA模型常用的极大似然函数定义形式如式(3)所示。

L = \underset{d &Element; D}{&Sum;} \underset{w &Element; W}{&Sum;} n (d_{i}, w_{j}) \log P (d_{i}, w_{j}) - - - (3)

PLSA模型参数以及潜变量先验概率的求解通常是采用数学期望最大法(EM)算法来获取的。通过公式(3)可获取似然函数的形式，在极大化似然函数的同时，可以完成模型参数的求解P(z_k|d_i，w_j)，具体形式如公式(4)所示。

P (z_{k} | d_{i}, w_{j}) = \frac{P (w_{j} | z_{k}) P (z_{k} | d_{i})}{{&Sum;}_{k = 1}^{K} P (w_{j} | z_{k}) P (z_{k} | d_{j})} . - - - (4)

与此同时，PLSA模型是一种概率统计模型，往往应用于寻找任何形式的频数统计信息中隐含的语义信息，而这种应用往往是离散二进制域中应用广泛，从而被称为“双模数据”。PLSA模型最开始应用于自然语言中的文字文档建模，在给定一个文档时，该文档中包含的词的位置被认为是可交换的。换句话说，在PLSA模型分析过程中，文档中词之间的连续次序关系是直接被忽视的。当PLSA模型被应用到影像理解过程中时，影像文档中的视觉词也被相应的理解为相互独立的，词与词之间的空间关系是没有被应用的。一般而言，像元与像元之间的空间相关信息是影像分析过程中十分重的一个信息来源，特别是对于高分辨率遥感影像面言，像元之间的空间信息对于提高影像的分类与目标提取的精度尤其重要。PLSA模型目前主要应用于自然图像的检索、场景标识与分析等，因此该模型对于像元之间的空间关系需求相对较少。

遥感影像的聚类算法依据分析基元，可划分为基于像元的聚类与基于对象的聚类。由于基于像元的影像聚类算法主要利用像元的光谱信息来进行分析，缺乏空间信息的引入，因此高分辨率遥感影像的聚类结果中往往存在明显的“椒盐”现象，从而影响聚类结果的效果。与此不同的在于，面向对象的聚类算法分析基元往为影像对象，如分割算子获取的影像斑块。一般而言，影像对象的获取往往严重依赖于分割算法获取分割斑块的好坏，而影像分割是目前图像处理领域中一个较难解决的问题，目前尚未有较好的通用影像分割算法。一般而言，目前有很多聚类算法中对于空间信息能够在一定程度上进行利用，但是对于像元之间的语义信息的考虑，目前还很少有此类算法应用于遥感影像聚类分析。

发明内容

本发明提出一种高分辨遥感影像的聚类分析方法，。

本发明提出的新聚类分析方法是利用概率潜语义模型(PLSA)获取像元之间的语义信息并结合像元的邻域文档的空间信息进行综合分析，从而实现高分辨率遥感影像的影像聚类分析，所涉及的聚类分析方法称为NSPLSA。

高分辨率遥感影像聚类分析方法(NSPLSA)包括如下步骤：

(1)影像文档的生成；

(2)影像最佳聚类个数的确定；

(3)利用影像文档结合PLSA模型获取每文档中视觉词对应主题类型的先验概率分布，P(z_ij|d_i，w_j)；

(4)结合视觉词的多个邻域文档计算原始影像中每个像元对应于每个聚类类型的条件概率分布最终选择使最大的聚类类型作为像元的聚类类型。

具体地，上述步骤(1)为：

影像文档以是h×h的子影像块来表示的，而影像文档集是通过将原始影像划分为具备一定重叠程度的子影像块来实现生成的。

影像文档集中文档的数量与其包括的影像像元个数密切相关，而且相邻文档之间空间相关性较大。

如图2所示，影像文档集可以依据影像文档生成过程中重叠程度的不同而划分为影像训练文档集与影像推断文档集，其中不重叠的影像文档构影像训练文档集(图2(a))，而重叠的影像文档构成影像推断文档集(图2(b))。

在NSPLSA方法的流程中，只有训练文档被用来估计视觉词与主题之间的条件概率分布P(w|z)；当P(w|z)被估计出来后，训练文档中视觉词与主题之间的条件概率分布具备典型性，影像推断文档集中的视觉词与主题的条件概率分布符合相同的分布。然后在固定视觉词与主题的条件概率分布P(w|z)的基础上，通过影像推断文档集获取每个文档中每个视觉词对应主题的条件概率分布P(z|d，w)，从而能够获取原始影像中每个像元在其邻域文档中对应主题的概率分布。

具体地，上述步骤(2)为：

聚类中心个数的选择是通过MDL准则来实现的；MDL准则假设影像的特征符合高斯混合分布的特征，并利用最小描述长度(Minimum Description Length)的条件约束来获取最佳聚类中心个数。

本发明使用的原始影像如图5所示。具体设置影像文档大小为32×32，通过不重叠构建影像训练文档3025个。依据MDL约束准则进行一定的分析与比较，训练文档集的MDL值与不同聚类中心个数的相关关系图如图3所示。

由图3可知，当聚类中心个数设置为7时，对应的MDL值最小，从而使聚类后影像的复杂程度最低。因此，针对本发明的Quick-bird高分辨率遥感影像，MDL准则选择出的最佳聚类中心个数为7。

具体地，上述步骤(3)为：

当影像的聚类中心个数确定之后，通过利用PLSA模型来估计推断文档集中每个视觉词对应主题的条件概率的分布；该条件概率的估计流程整体上可以划分为两部分为：PLSA模型训练与PLSA模型推断；影像文档集在整体上被划分为两种类型，分别为训练文档集与推断文档集，而这两种文档集将被有效地应用于条件概率估计流程的两个阶段；在PLSA模型的训练阶段，利用训练文档集构建词与文档的词频共生矩阵，然后结合PLSA模型的训练可以获得训练文档集中视觉词对应主题的条件概率P(w|z)；

本发明假设训练文档具有一定代表性，其中的视觉词对应主题的条件概率P(w|z)与推断文档集中的视觉词的条件概率分布保持一致。因此，在PLSA模型推断阶段，保持视觉词对应主题的条件概率P(w|z)不变，在EM算法的M步采用公式(4)，可以计算得到推断文档集中每个视觉词对主题的条件概率分布P(z|d，w)，从而使原始影像中每个像元在其邻域文档中主题的概率分布信息能够得到推断。

具体地，上述步骤(4)为：

通过上述NSPLSA方法的基本流程，原始影像中每个像元在其邻域文档中的主题概率分布信息均可得到；每个像元都被多个邻域文档覆盖，而利用w_i表示原始影像中的像元i时，需要通过计算条件概率分布来最终该判定该像元最终的聚类类别归属。

视觉词聚类类型的判定包括四个步骤：

1)、确定原始影像中每个像元对应的覆盖该像元的所有邻域文档；具体而言，是通过给定的视觉词q的坐标(x_q，y_q)来寻找该像元对应的邻域文档集D_q，其中D_q中每个文档在空间位置上均覆盖视觉词q；

2)、利用视觉词q的坐标(x_q，y_q)与邻域文档集D_q中邻域文档d_i的坐标信息来计算视觉词在其邻域文档中的概率权重p(d_i|c_i，q)，具体计算公式为：

p (d_{i} | c_{i}, q) = c_{i} \frac{1}{\sqrt{2 π} δ} \exp {- \frac{{(x_{d_{i}} - x_{q})}^{2} + {(y_{d_{i}} - y_{q})}^{2}}{δ^{2}}}, - - - (5)

若d_i为邻域文档集D_q中的文档，因此c_i等于1；若d_i不为邻域文档集中的文档时，则c_i等于0；其中δ为一个常数，用以分配视觉词q邻域文档主题类型概率的权重，采取的实验中δ等于0.5；

3)、在计算出每个视觉词、该视觉词与其邻域文档集合之间的权重分配系数的基础上，结合步骤(3)获取的视觉词在每个邻域文档中的视觉词对主题的条件概率分布P(z|w，d)，可以计算出原始影像中每个像元对应的主题概率权重分布，具体计算公式为：

p (z_{q} | q, \overset{&RightArrow;}{c}, \overset{&RightArrow;}{z}) = {&Sum;}_{j = 1}^{M} p (z_{ij} | d_{i}, w_{j}) p (d_{i} | c_{i}, q), - - - (6)

其中p(z_ij|w_i，d_j)的分布通过公式(4)计算得到；视觉词q在公式中则被标识为w_i，两者概念一致，仅表示方式存在一定差别；z_i，j则表示为邻域第j个文档中的第i个视觉词对应的主题类型；c_j则是对于视觉词q邻域文档的属性标识；

4)、通过计算的每个像元对应的主题概率权重分布可以最终判定该像元对应的主题类型。具体原则是主题概率权重最大的的主题类型，即为该像元w_j对应的聚类类型判断具体遵循的公式如下所示；

{Topic}_{w_{j}} = \underset{1 \leq k \leq K}{Arg \max} {p (z_{k} | q, \overset{&RightArrow;}{c}, \overset{&RightArrow;}{z})} - - - (7) .

本发明在通过语义分析的基础上，引入邻域空间关系信息，从而获取包含对象特性的聚类结果具体而言，这种聚类方法的分析基元既不是单个像元，也不是分割完的影像斑块，而是高度重叠的影像矩形块。高分辨率遥感影像的聚类结果与分析的影像文档大小有一定的关联关系，在分析像元之间语义信息的基础上，引入邻域文档的空间信息可有效提高聚类结果的精度，从而形成面向对象的聚类结果。本发明在PLSA模型的基础上引入像元邻域空间关系信息，从而形成改进的NSPLSA影像聚类方法。本发明方法可以无监督地实现高分辨率遥感影像地理目标的有效检测。不同于PLSA模型在传统文字识别与检测，或是图像数据库分析中的应用，影像文档是直接在数据分析前给定，而是通过对于原始的宽幅遥感影像进行有效划分，从而得到一系列具备一定重叠程度的h×h影像块，并将这些子图像视为影像文档，从而构建本发明数据分析的基元。

本发明通过高度重叠影像文档，确保原始影像中的每个像元被其邻域的多个影像文档覆盖，从而使空间信息在NSPLSA方法中得到有效应用。NSPLSA方法通过综合分析影像文档中像元q对应的邻域文档标识向量以及词与主题类型的条件概率矩阵Z，可获像元q对应于每个聚类中心的条件概率从而最终确定原始影像中像元q对应的聚类中心标识z_q的类型。

附图说明

图1：基于NSPLSA算法的高分辨遥感影像聚类流程图

图2：影像文档生成示意图

图3：利用MDL约束准则检测高分辨率遥感影像的最佳聚类中心个数示意图

图4：利用PLSA模型求解推断文档集中每个视觉词对应主题条件概率的流程图

图5：原始Quick-bird全色影像示意图

图6：三种影像聚类方法结果比较示意图

图7：(a)(b)不同聚类方法精度的定量分析与比较

图8：PLSA(a)与NSPLSA(b)的概率图模型

图9：基于PLSA模型的面向对象影像聚类算法流程图

具体实现方式

1、基于NSPLSA方法的聚类结果分析

在完成上述NSPLSA方法分析与计算流程理解的基础上，利用全色的Quick-bird高分辨率遥感影像来进行聚类分析，从而在一定程度上证明NSPLSA方法的有效性。在该实验结果分析的过程中，一方面需要评价文档尺寸大小的不同对于聚类结果的影响，另外一方面将通过定性与定量地比较NSPLSA方法聚类结果与K-MEANS、ISODATA方法聚类结果的差异。

1.1研究区数据分析

如图5所示，使用的实验数据是北京市通州区2006年4月26日接受的Quick-bird全色影像。其中影像大小为900×900像素，影像分辨率则为0.6米。影像中主体的地理对象目标为树木、农村建筑物、道路、池塘、阴影以及其他无法判定类别的目标，因此影像目标类型不是特别复杂，不会影响影像聚类方法的比较。

1.2文档尺寸对聚类结果影响的评价分析

在开展NSPLSA方法聚类结果与其他聚类方法结果比较之前，影像文档的不同尺寸选择对于影像最终的聚类结果的影响需要得到分析与评价。一般而言，影像文档的大小将影响原始影像中每个像元对应的邻域文档的个数，而且影像文档中的P(z/w，d)与P(w/z)也可能随着文档大小的变化而产生变化，从而使像元在每个文档中对应主题类型也可能产生一定的改变。

依据前面的相关分析，Quick-bird全色影像的对应的最佳聚类中心个数为7，选择了影像文档尺寸为12×12像元、16×16像元、20×20像元、24×24像元、28×28像元、32×32像元、36×36像元、40×40像元、48×48像元的文档序列集合，并确保影像文档的重叠程度达到50％。针对上述文档序列集合进行基于NSPLSA方法的影像聚类分析，最终可得到不同影像尺寸对应的各个主题类型对应视觉词数量的变化，具体结果如表1所示。

表1不同影像文档尺寸对应的各个主题类型对应视觉词数量变化

通过上述实验数据分析可知，随着影像文档的大小变化，基于NSPLSA方法的遥感影像聚类结果变化有限，各个主题对应的视觉词数量变化不大。具体而言，原始遥感影像的像元总数为810,000，而不同影像文档的尺寸变化，各个主题中对应的视觉词个数的变化有限，其中像元个数变化最大的为主题4对应的8320。该变化像元数占对应主题4对应视觉词总数的3％左右，占原始影像像元总数的1％。而且10个不同尺寸的影像文档对应的聚类结果在整体上因为变化像元个数有限，整体视觉效果差异不大，在此部分分析过程中不显示各影像文档尺寸对应的具体聚类结果。因此，随着影像文档大小的变化，基于NSPLSA方法的遥感影像聚类结果将不发生较大变化，在后续分析中将主要选择影像文档尺寸为32×32来进行分析。

1.3聚类结果的定义分析与比较

在比较分析NSPLSA方法聚类结果有效性的过程中，本发明提出的方法是与两种传统的、且通用的聚类方法进行比较的，分别为K-MEANS方法与ISODATA方法。聚类方法的比较整体上可划分为定义分析与定量分析两大类，三种聚类方法的定义分析与比较，其中原始影像的最佳聚类中心个数为7，NSPLSA方法涉及的影像文档的大小为32×32。为定义比较三种聚类方法结果的优劣，基于原始影像的三种聚类方法的聚类结果如图6所示，其中(a)为原始影像对应的地表真实信息分布状况。在图6中显示的聚类方法比较结果中，每种聚类中心均采取某种特定的色彩进行标识。

依据图6中的聚类方法结果，从视觉上可直接观察出NSPLSA方法结果与其它两种聚类方法结果存在的两个重要差异，具体表现为

①不同方法聚类结果对于阴影的类型差异较大

在K-MEANS方法聚类结果与ISODATA方法聚类结果中，几乎所有的阴影均被划分为与水体相同的聚类中心，而这种聚类中心的混淆将对于后续信息的分析存在较大的影响。但是在NSPLSA方法聚类结果中，阴影类型与水体类型则较好地得到区分，从而正确地划分到两种不同的聚类中心。这种结果出现的主要原因在于阴影与水体的灰度信息十分接近，在K-MEANS与ISODATA两种聚类方法中均直接采用该灰度信息进行影像聚类分析，因此水体与阴影两种地表类型在聚类结果中出现了十分明显的混淆。然而，在NSPLSA方法中像元的灰度差异信息与像元的邻域文档信息均得到有效使用，每个像元的最终聚类类型的判断由灰度与其在邻域文档中的聚类类型两类信息综合决定，从而能够在一定程度上实现水体与阴影的有效区分。

②NSPLSA方法的聚类结果具有明显的面向对象特性

通过观察三种聚类方法对应的聚类结果，可直观感觉到：NSPLSA方法的聚类结果相对于其他两种聚类方法的聚类结果而言，影像更加“干净”、影像的斑点效应影响较小、影像聚类结果中的像元之间更加紧凑、孤立的像元集合较少。因此NSPLSA方法的聚类结果具有一定的对象特性，能够更直接与地表真实的地理对象一一对应。为了更好客观地体现这种聚类影像的面向对象特性，采用多个景观指数来分析与比较三种聚类方法对应的影像聚类结果。

一般而言，景观指数通常是用来定量分析地图或是土地利用图等反映景观分布特征的真实地表分布数据，从而反映地理空间分布的景观构成与组成特点。一般而言，景观是指土地及土地上的空间和物体所构成的综合体，它是复杂的自然过程和人类活动的反映。在影像聚类结果中，景观具体则是由一系列的地理斑块构成，其中地理斑块是与地理真实地物目标一一对应的。采用三种景观指数来评价影像聚类结果的景观特征，从而更直观地反映出不同聚类结果的面向对象特性的差异。三种景观指数的具体描述如下：

(1)斑块个数：该指数用以描述聚类影像结果中相互分离的不同聚类类型像元构成的斑块个数。在最理想的情况下，聚类结果中的斑块个数应该与地表真实的地理对象个数相等，两者能够一一对应。在通常情况下，地表真实的地理对象个数相对固定，如果斑块个数(NP)值越大，则说明某些地理对象被划分为破碎的子斑块，从而削弱影像的面向对象特性。

(2)面积分维数：该指数用以描述斑块的形状复杂程度特性，而且该指数一般数值大于1。随着复杂性程度的提高，该指数会相应增大。当斑块的形状特征十分简单，如为正方形或圆形时，该指数值将取值为1。

(3)边缘密度指数：该指数用以描述景观研究区域内所有的边缘长度信息，一般单位为米。通常而言，斑块个数越大时，边缘密度指数会随之增加。

研究区的三种景观指数特征是通过FRAGSTATS软件来计算的，三种聚类方法对应聚类结果的景观指数信息如表2所示。

表2不同聚类结果的景观指数值比较

如表1所示，NSPLSA方法聚类结果的三种景观指数均要小于其他两种聚类方法的聚类结果对应的景观指数。由此可以判定，NSPLSA方法聚类结果对应的斑块复杂程度相对较低，斑块个数较少，更接近与地表真实地理对象的空间分布，因此该方法的聚类结果具备的影像面向对象特性程度比其他两类聚类方法要高。

1.4聚类结果的定结果分析与比较

在完成定义分析的基础上，三种聚类方法的结果也需要定量评价其聚类正确性的差异。整体熵(Overall entropy)作为一种定量的评价指标来分析与比较三种聚类方法聚类结果精度的高底。在开展结果分析与比较之前，首先对整体熵的相关概念与指标进行简要介绍。

依据相关文献的介绍，整体熵(Overall entropy)一般是由聚类中心熵(Clusterentropy)与类别熵(Class entropy)两部分构成的。在求解聚类中心熵与类别熵时，需要引入一系列参数，而且两种熵值的计算需要使用地表真实的地理对象分布信息Ground truth。h_ck表示聚类影像中聚类中心k中像元归属于Ground truth中类别为c的像元个数，而则表示聚类结果影像中所有归属于Ground truth中类别为c的像元总数。同理，h_kc表示Ground truth中类别为c的像元在聚类影像中归属于聚类k的像元个数，而表示Ground truth中类别为c的像元归属于聚类结果影像中聚类中心k的像元总数。K为影像聚类中心的总数，而C则为Ground truth中的类别总数。Ground truth中的每个类别与聚类影像中的聚类类别具有一定的关联关系，具体而言是：Ground truth中每个类别与聚类影像中所占比例最大的聚类类别一一对应。聚类结果影像中每个聚类类型质量的判断是通过判定该聚类类型的像元在Ground truth中每个类别像元对应的均质性程度来实现的。这种均质性程度是一般是通过聚类中心熵与类别熵值来综合反映的，而且较小的熵值对应较高的均质性程度。

针对Ground truth影像中的类别c而言，类别熵值E_c的计算公式如式(8)所示

E_{c} = - {&Sum;}_{k = 1}^{K} \frac{h_{ck}}{h_{c .}} \log \frac{h_{ck}}{h_{c .}} . - - - (8)

针对聚类结果影像中的聚类中心k而言，聚类中心熵值E_k的计算公式如式(9)所示

E_{k} = - {&Sum;}_{c = 1}^{C} \frac{h_{kc}}{h_{. k}} \log \frac{h_{kc}}{h_{. k}} . - - - (9)

综合类别熵值E_c及其对应的聚类中心熵值E_k可构建成整体熵值E，具体的计算公式如式(10)所示。

E＝βE_c+(1-β)E_k. (10)

上式中β∈[0，1]，该变量是一个权重调整参数，实验中设置变量β为0.5。一般而言，较小的整体熵值对应较高程度的聚类结果均质性。各个类别对应的整体熵值如图7(a)所示。与此同时，在定量分析与比较的过程中，引入景观指数来分析Ground truth中各个类别对应聚类结果中斑块数量的差异，从另外一个角度反映三种影像聚类方法结果的均质性差异。不同聚类结果对应的各个类别对应的斑块个数变化如图7(b)所示。

如图7(a)所示，在NSPLSA方法聚类结果中，水体、阴影以及农田这三类别对应的整体熵值均小于其在K-MEANS与ISODATA方法聚类结果的值。换句话来说，NSPLSA方法在获取水体、阴影、农田这三个地物类对应的地理实体信息的精度要高于其他两种聚类方法。与此同时，NSPLSA方法提取建筑物与树木对应的地理实体精度要高于较差的聚类结果，并十分接近精度最佳的聚类结果，因此NSPLSA方法在这两类地物的信息提取上算是取得较好的提取精度。而在道路对应的地理实体提取分析过程中，NSPLSA方法提取的结果精度要明显低于ISODATA方法提取的结果精度，但是NSPLSA方法的精度要高于K-MEANS方法的精度。综上所述，NSPLSA方法在获取各类地理实体信息时均可能获得较高的精度，其中在某些类别的提取精度上能够达到最佳。

与此同时，由图7(b)可知，NSPLSA方法聚类结果中对应Ground truth各类的斑块个数均低于K-MEANS方法与ISODATA方法对应的各类的斑块个数，因此NSPLSA聚类结果中像元之间的聚集程度更高，更能够反映地表真实地理实体的空间分布。在此分析的基础上并结合NSPLSA方法聚类结果的整体熵值特性，可以认为NSPLSA方法能够较好地应用于Quick-bird影像的地理实体空间分布的信息，并而认为该方法在一定程度上可获取较K-MEANS方法与ISODATA方法更佳的影像聚类结果。

Claims

1.一种高分辨遥感影像的聚类分析方法，其特征在于该方法包括如下步骤：

1)影像文档的生成,影像文档是以h×h的子影像块来表示的，而影像文档集是通过将原始影像划分为具备一定重叠程度的子影像块来实现生成的；影像文档集依据影像文档生成过程中重叠程度的不同而划分为影像训练文档集与影像推断文档集，其中不重叠的影像文档构成影像训练文档集，而重叠的影像文档构成影像推断文档集；只有影像训练文档被用来估计视觉词与主题之间的条件概率分布P(w|z)；当P(w|z)被估计出来后，影像训练文档中视觉词与主题之间的条件概率分布具备典型性，影像推断文档集中的视觉词与主题的条件概率分布符合相同的分布；然后在固定视觉词与主题的条件概率分布P(w|z)的基础上，通过影像推断文档集获取每个文档中每个视觉词对应主题的条件概率分布P(z|d,w)，从而能够获取原始影像中每个像元在其邻域文档中对应主题的条件概率分布,其中所述的z为视觉词的主题类型，所述的d为邻域文档，所述的w为视觉词；

2)影像最佳聚类中心个数的确定，聚类中心个数的选择是通过MDL准则来实现的；MDL准则假设影像的特征符合高斯混合分布的特征，并利用最小描述长度的条件约束来获取最佳聚类中心个数；

3)利用影像文档结合PLSA模型获取每文档中视觉词对应主题类型的条件概率分布，当影像的聚类中心个数确定之后，通过利用PLSA模型来估计推断文档集中每个视觉词对应主题的条件概率的分布；该条件概率的估计流程整体划分为两部分为：PLSA模型训练与PLSA模型推断；影像文档集在整体上被划分为两种类型，分别为影像训练文档集与影像推断文档集，而这两种影像文档集将被有效地应用于条件概率估计流程的两个阶段；在PLSA模型的训练阶段，利用影像训练文档集构建词与文档的词频共生矩阵，然后结合PLSA模型的训练可以获得影像训练文档集中视觉词对应主题的条件概率P(w|z)；

4)结合视觉词的多个邻域文档计算原始影像中每个像元对应于每个聚类类型的条件概率分布，最终选择使最大的聚类类型作为像元的聚类类型，原始影像中每个像元在其邻域文档中的主题概率分布信息均可得到；每个像元都被多个邻域文档覆盖，而利用w_j表示原始影像中的像元j时，通过计算条件概率分布来最终判定该像元最终的聚类类别归属；包括四个步骤：

确定原始影像中每个像元对应的覆盖该像元的所有邻域文档；具体而言，是通过给定的视觉词q的坐标(x_q,y_q)来寻找该像元对应的邻域文档集D_q，其中D_q中每个文档在空间位置上均覆盖视觉词q；

利用视觉词q的坐标(x_q,y_q)与邻域文档集D_q中邻域文档di的坐标信息(xd_i,yd_i)来计算视觉词在其邻域文档中的概率权重p(d_i|c_i,q)，具体计算公式为：

p (d_{i} | c_{i}, q) = c_{i} \frac{1}{\sqrt{2 π} δ} \exp {- \frac{{(x_{d_{i}} - x_{q})}^{2} + {(y_{d_{i}} - y_{q})}^{2}}{δ^{2}}},

其中c_i是对于视觉词q邻域文档的属性标识，若d_i为邻域文档集D_q中的文档，则c_i等于1；若d_i不为邻域文档集中的文档时，则c_i等于0；其中δ为一个常数，用以分配视觉词q邻域文档主题类型概率的权重，采取的实验中δ等于0.5；

在计算出每个视觉词、该视觉词与其邻域文档集合之间的权重分配系数的基础上，结合视觉词在每个邻域文档中的视觉词对主题的条件概率分布P(z|d,w)，可以计算出原始影像中每个像元对应的主题概率权重分布，具体计算公式为：

p (z_{q} | q, \overset{&RightArrow;}{c}, \overset{&RightArrow;}{z}) = Σ_{i = 1}^{M} p (Z_{ij} | d_{i}, w_{j}) p (d_{i} | c_{i}, q),

其中z_q为视觉词q的主题类型；P(z|d,w)、p(zi_j|d_i,w_j)的分布通过如下公式计算得到，具体计算公式为

P (z_{k} | d_{i}, w_{j}) = \frac{P (w_{j} | Z_{k}) P (Z_{k} | d_{i})}{Σ_{k = 1}^{K} P (W_{j} | Z_{k}) P (Z_{k} | d_{j})};

视觉词q在公式中则被标识为w_j，两者概念一致，仅表示方式存在一定差别；z_i,j则表示为邻域第i个文档中的第j个视觉词对应的主题类型；c_i则是对于视觉词q邻域文档的属性标识；

通过计算的每个视觉词q对应第k个主题的概率权重分布可以最终判定该视觉词q对应的主题类型，具体原则是主题概率权重最大的主题类型，即为该视觉词q对应的聚类类型Topic，判断具体遵循的公式如下所示；

{Topic}_{w_{j}} = \underset{1 \leq k \leq K}{Arg \max} {P (Z_{q} | q, \overset{&RightArrow;}{c}, \overset{&RightArrow;}{z})}

其中K为主题的总数量。