CN107909111A

CN107909111A - 一种居民地多边形的多级图聚类划分方法

Info

Publication number: CN107909111A
Application number: CN201711191403.9A
Authority: CN
Inventors: 陈占龙; 谢忠; 吴亮; 梁磊; 江宝得; 周林; 陶留锋; 马啸川; 刘建宇
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-13
Anticipated expiration: 2037-11-24
Also published as: CN107909111B

Abstract

本发明提出了一种居民地多边形的多级图聚类划分方法，居民地多边形作为一种重要的面状要素，具有复杂的形状特征和属性特征，为了实现对居民地多边形的聚类分析，本发明立足多边形数据的属性特征，结合空间认知准则和人类认知的特点，首先获取多边形之间的邻接信息，结合五个多边形的相似性度量指标(即：形状狭长度、大小、凹凸性、距离和连通性)对多边形之间的相似性进行度量，接着对相似性数值进行规范化处理和各指标权重的确定，然后使用多级图划分算法对多边形进行聚类，最后使用轮廓系数对聚类结果进行分析评价，使得该方法得到的聚类结果更为客观、可靠。

Description

一种居民地多边形的多级图聚类划分方法

技术领域

本发明涉及地理信息科学研究领域，尤其涉及一种居民地多边形的多级图聚类划分方法。

背景技术

在地理信息系统中，居民地多边形作为一种重要的面状要素对象，具有复杂的形状特征和属性特征。对多边形的聚类分析是空间数据挖掘以及地理信息科学研究领域的研究热点和研究难点。

多边形不同于一维的点数据，它具有鲜明的几何特征、空间关系和语义属性，采用多种度量指标对多边形进行聚类分析，可为数据信息更深层次的挖掘提供依据，因此在对多边形进行聚类分析时，不仅要选择效果优良的空间聚类算法，而且要选取合适的空间相似性指标对多边形之间的相似性进行度量，许多现存的聚类分析算法都将多边形简化为点，或者仅仅考虑了多边形的非空间属性和简单的几何属性，并没有充分考虑多边形的形状特征和空间关系，使得其应用受到限制。

因此就目前来讲，想要对居民地多边形的数据信息进行客观、可靠的聚类效果分析，仅仅通过简化后的一维点数据，无法得到更深层次的信息挖掘。

发明内容

为了实现多边形的聚类分析，本发明立足居民地多边形数据的属性特征，结合空间认知准则和人类认知的特点，首先获取居民地多边形之间的邻接信息，结合五个多边形的相似性度量指标(即：形状狭长度、大小、凹凸性、距离和连通性)对多边形之间的相似性进行度量，接着对相似性数值进行规范化处理和各指标权重的确定，然后使用多级图划分算法对多边形进行聚类，最后使用轮廓系数对聚类结果进行分析评价。

实现本发明上述目的所采用的技术方案为：

空间聚类的相似性度量，具体包括以下步骤：

步骤1、选定居民地的地理区域，获取多边形的图形，并以此为依据构建Delaunay三角网，获取多边形之间的邻接信息；然后获取多边形各个顶点的数据，再次构建Delaunay三角网，并根据五个多边形的相似性度量指标对多边形之间的空间相似性进行度量，得到对应的相似性数值，五个多边形的相似性度量指标分别为形状狭长度、大小、凹凸性、距离和连通性；

步骤2、将经由各个指标计算得到的相似性数值进行归一化处理，并使用信息熵权重法确定各个指标的权重，最终得到多边形之间空间相似性数值；

步骤3、获取多边形之间的空间相似性数值，并对数据进行组织与存储，使用多级图划分算法，经过粗化阶段、初始划分阶段和细化阶段，对多边形进行聚类，并得到聚类结果。

进一步地，多边形之间的空间相似性的计算方法如下式所示：

S(x,y)＝μ₁*A(x,y)+μ₂*B(x,y)+μ₃*C(x,y)+μ₄*D(x,y)μ₅*E(x,y)

其中，A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据，μ₁、μ₂、μ₃、μ₄、μ₅则分别为五个指标的权重，S(x,y)为多边形x和多边形y之间空间相似性，且有μ₁+μ₂6μ₃6μ₄6μ₅＝1，0≤A(x,y),B(x,y),C(x,y),D(x,y), E(x,y)≤1。

进一步地，所述步骤1中使用的形状狭长度、大小、凹凸性、距离和连通性五个相似性度量指标的计算方法如下式所示，具体的描述方法如下：

(a)形状狭长度：

其中，ax,bx分别表示多边形x的最小外接矩阵的长和宽，shp(x,y)是多边形x和多边形y 之间的形状狭长度相似性；

(b)大小相似性：

其中，Area(x)和Area(y)分别指多边形x和多边形y的面积，size(x,y)是指多边形x和多边形 y之间的大小相似性；

(c)凹凸性：

其中，Area(x)是指多边形x的面积，peri(x)是指多边形x的周长，cvx(x,y)是指多边形x 和多边形y的凹凸性相似性；

(d)距离：

其中，是指连接多边形x,y的所有Delaunay三角形的边的长度之和，n为两个多边形之间边的个数，dist(x,y)为多边形x和多边形y之间的距离相似性；

(e)连通性：

con(x,y)＝Len(Landscape(x,y))

其中，Landscape(x,y)是指连接多边形x和多边形y的所有Delaunay三角形的边的中点连成的线，Len(Landscape(x,y))是指多边形x和多边形y之间毗邻边界的长度，con(x,y)是指多边形x和多边形y之间连通性相似性。

进一步地，步骤2中计算得到的相似性数值先进行标准化处理，采用最大最小化准则进行归一化处理，同时使用信息熵权重法确定各个指标的权重，最终得到多边形之间空间相似性数值；

具体的描述方法如下：

(a)信息熵权重法确定各个指标的权重：

1)记n为多边形的数目，m为相似性指标的数目，x_ij为第i个多边形第j个指标的数值，其中i＝1,2,…n，j＝1,2,…m；

2)计算第j个指标下第i个多边形占该指标的比重：

3)计算第j项指标的熵值：

其中，k＝1/ln(n)>0，且满足e_j≥0；

4)计算信息熵冗余度：

d_j＝1-e_j

5)计算各项指标的权值：

(b)多边形之间的空间相似性计算：

S(x,y)＝μ₁*A(x,y)+μ₂*B(x,y)+μ₃*C(x,y)+μ₄*D(x,y)μ₅*E(x,y)

0≤A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)≤1

其中，x为计算的相似性指标值，min(x)和max(x)分别为指标x所有值中的最小值和最大值，x’为经过标准化处理之后的值，此时所有的值落到[0，1]的区间内，A(x,y),B(x,y),C(x,y), D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据，μ₁、μ₂、μ₃、μ₄、μ₅则分别为五个指标的权，S(x,y)为多边形x和多边形y之间空间相似性。

进一步地，多级图划分算法主要分为数据组织阶段、粗化阶段、初始划分阶段和细化阶段四个阶段，具体的描述方法如下：

(a)数据组织阶段：给定图G^t＝(V^t,E^t)，其中存储着第t个划分子图中的所有顶点v的信息，E则存储着邻接点之间的边的信息，即为多边形之间的邻接信息，记为Adjcy；

(b)粗化阶段：生成一系列的子图，每个子图中含有的点的个数将会较原始图形有所减少，主要由匹配和重构两个部分构成：

在匹配阶段，采用最大化匹配准则，记Map[v]为被匹配并存储到粗化图G_i+1中的顶点v， Match[v]则为那些未被匹配的顶点；

在重构阶段，利用在匹配阶段生成的点来生成粗化图G_i+1，设定顶点v₁,v₂为两个被匹配的顶点，重构顶点u₁＝Map[v₁]，那么与u₁邻接的顶点为：

Adj(u₁)＝({Map[x]|x∈Adj(v₁)}∪{Map[x]|x∈Adj(v₂)})-{u₁}

且边(u₁，u₂)之间的权值为：

w(u₁，u₂)＝∑_x{w(u₁，x)|Map[x]＝u₂}+∑_x{w(u₂，x)|Map[x]＝u₂}；

(c)初始划分阶段：使用Kernighan-Lin算法来计算最粗糙和最小图形的划分，设定P 为G＝(V,E)原始划分的顶点，定义gaing_v为代价函数，将点v从当前聚类簇中移动到其他簇时，边界权值的减少值定义为：

其中w(v,n)是指边(v,n)的权重值，且在每移动一个顶点之后，都需要重新计算并更新与之相邻接的顶点的gain值；

(d)细化阶段：通过遍历图形G_m-1，G_m-2，…，G₁，粗化图形G_m的划分P_m被映射到原始图形上，根据P_i+1得到P_i可以通过将分解成为v∈G_i+1的点集分配到划分P_i+1[v]中实现；

使用Kernighan-Lin^[20]细化算法，使用控制顶点的gain值进行计算，gain值通过计算每一个顶点的两个值ID和ED来表示：

其中ID[v]是指与顶点v在同一个簇内且与v邻接的点连线的边的权值之和，是用来度量聚类簇内部紧密度的一项指标，ED[v]是指与顶点v不在同一个簇内且与v相邻接的点之间的边的权值之和，是用来度量聚类簇分离度的一项指标，那么g_v＝ED[v]-ID[v]。

进一步地，采用多边形的轮廓系数的均方根作为度量聚类结果的评价指标，具体的描述方法如下：

(a)各个多边形的轮廓系数：

其中，i表示第i个空间实体对象，a_(i)表示第i对象到簇中其他所有对象的平均距离，体现空间簇内部对象之间的凝聚度；b_(i)表示第i个对象到给定簇中其他所有对象的平均距离，体现空间簇之间的分离度；轮廓系数sil_(i)∈[‐1,1]，sil_(i)为负时，即b_(i)<a_(i)，表示该对象与所在簇对象之间的凝聚度小于与其他簇对象之间的分离度，需对该对象所属空间簇做出调整；sil_(i)为正时，即b_(i)>a_(i)，代表该对象与所在簇对象之间的凝聚度大于与其他簇对象之间的分离度，不需对该对象所属空间簇做出调整，结果较为良好；

(b)轮廓系数的均方根：

其中，meana_(i)为各个簇中所包含对象的轮廓系数的均值，k为第i个簇中所包含的对象的个数，n为数据集中的样本数目，RMSE越小，表示均方根误差越小，聚类结果越好。

进一步地，对所述聚类结果使用轮廓系数进行评估而判断聚类结果的精准度，并结合 K-Means++算法和ArcToolbox得到的聚类结果进行对比分析。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明采用效果优良的空间聚类算法，利用多边形进行聚类分析，相对于一维的点数据，具有鲜明的几何特征、空间关系和语义属性；

2.选取了合适的空间相似性指标(即：形状狭长度、大小、凹凸性、距离和连通性)对多边形之间的相似性进行度量，应用场景更多，可为数据信息更深层次的挖掘提供依据；

3.对相似性数值进行规范化处理和各指标权重的确定，采用多级划分算法对多边形进行聚类，最后用轮廓系数对聚类结果进行分析评价，使得该方法得到的聚类效果更为客观、可靠。

附图说明

图1是本发明居民地多边形的多级图聚类划分方法的流程图；

图2为实施例中采用的实验区域数据；

图3为实施例中使用Delaunay三角网获取邻接信息；

图4为多边形之间的凹凸性示意图；

图5为多边形之间的距离相似性示意图；

图6为多边形之间的连通性示意图；

图7为多级图划分的主要阶段；

图8为多级图划分算法流程图；

图9为实施例中试验区域所在位置；

图10为聚类结果分析区域；

图11为实施例中各区域的聚类结果对比示意图。

具体实施方式

下面结合具体实施例对本发明做详细具体的说明，但是本发明的保护范围并不局限于以下实施例。

实施例一

本发明提出一种基于多级图划分算法的多边形聚类，并使用加拿大安大略省——滑铁卢地区市——沃尔莫特乡镇巴登地区居民地二维数据作为实验数据。如图1所示，本实施例整个过程按如下步骤操作：

步骤1：多边形邻接信息的获取；

为了度量加拿大巴登地区多边形建筑物之间的相似性，本实施例将建筑物视为多边形实体，建筑物的实际俯视面积为多边形的面积，建筑物的实际周长为多边形的周长，建筑物的集合为多边形数据集，并将每个多边形用唯一的标识符进行标识。如图2和图9所示，在本实施例中，我们选取了巴登地区1497个研究对象作为研究区域。如图3所示，本实施例中首先获取多边形的图心数据构建Delaunay三角网进而获取多边形之间的邻接信息，然后结合图 4-6所示，利用形状狭长度、大小、凹凸性、距离和连通性五个相似性度量指标对多边形之间的相似性进行度量。

例如，测量出多边形多边形x的最小外接矩阵的长和宽，分别用ax,bx表示，则多边形x 和多边形y之间的形状狭长度相似性：

测量出多边形x和多边形y的面积分别为Area(x)和Area(y)，则多边形x和多边形y之间的大小相似性：

测量出多边形x和多边形y的面积分别为Area(x)和Area(y)，多边形x和多边形y的周长分别为peri(x)和peri(y)，则多边形x和多边形y的凹凸性为：

由地理学第一定律可知，地理事物或属性在空间分布上相互关联，且这种相关性随着距离的增加而减小。当给定尺度下多边形的大小远远小于多边形之间的距离时，那么距离对于多边形之间的相似性度量占主导影响。本实施例中就利用构建的Delaunay三角网进行距离相似性的度量，即利用多边形之间的Delaunay三角形，用这些三角形的边的平均长度的倒数来代表两多边形之间的距离。

测量出连接多边形x,y的所有Delaunay三角形的边的长度之和若n为两个多边形之间边的个数，dist(x,y)为多边形x和多边形y之间的距离相似性：

连通性是用来度量两多边形间边界兼容性的重要指标，本实施例利用两多边形之间的 Delaunay三角形所有边中点连成的骨架线来代表两多边形之间的连通性。

若Landscape(x,y)是指连接多边形x和多边形y的所有Delaunay三角形的边的中点连成的线，Len(Landscape(x,y))是指多边形x和多边形y之间毗邻边界的长度，con(x,y)是指多边形x和多边形y之间连通性相似性，则多边形x和多边形y之间连通性相似性：

con(x,y)＝Len(Landscape(x,y))

步骤2：多边形之间空间相似性的度量；

在本实施例中，由于各个指标计算得到的相似性数值的范围、单位不尽相同，不能直接使用，故要先将数据进行标准化处理，采用最大最小化准则进行归一化处理，同时使用信息熵权重法确定各个指标的权重，最终得到多边形之间空间相似性数值。

(1)本实施例中先将由形状狭长度、大小、凹凸性、距离和连通性五个相似性指标得到的数值进行最大最小化处理，使得所有的值落到[0，1]的区间内。

(2)由于各个指标对最终结果产生的影响大小有所差异，所以不能给所有的指标分配同等的权重，本实施例中使用信息熵确定各个指标的权重，结果为：μ₁＝0.0387，μ₂＝0.0655，μ₃＝0.0304，μ₄＝0.4588，μ₅＝0.4066，其中μ₁、μ₂、μ₃、μ₄、μ₅分别为形状狭长度、大小、凹凸性、距离和连通性五个指标的权重。

(3)然后通过公式S(x,y)＝μ₁*A(x,y)+μ₂*B(x,y)+μ₃*C(x,y)+μ₄*D(x,y)μ₅*E(x,y)求得多边形之间的空间相似性，则本实施例中多边形之间的空间相似性为：

S(x,y)＝0.0387*A(x,y)+0.0655*B(x,y)0.0304*C(x,y)0.4588*D(x,y)0.4066*D(x,y)

步骤3：使用多级图划分算法对多边形进行聚类；

如图7和图8所示，在本实施例中，首先将得到的多边形之间的空间相似性按照多级图划分算法的数据组织形式进行组织和存储，然后使用多级图划分算法进行聚类，得到多边形的聚类结果。

(a)数据组织阶段：给定图G^t＝(V^t,E^t)，其中存储着第t个划分子图中的所有顶点v的信息，E则存储着邻接点之间的边的信息，即为多边形之间的邻接信息，记为Adjcy。

例如：给定图G¹＝(V¹，E¹)，其中存储着第1个划分子图中的所有顶点v的信息，E存储着邻接点之间的边的信息，就可以得到多边形之间的邻接信息；

(b)粗化阶段：在该阶段将会生成一系列的子图，每个子图中含有的点的个数将会较原始图形有所减少。这一阶段主要由匹配和重构两个部分构成。在重构阶段，图G_i中的一系列相邻的顶点被合并起来形成下一层的粗化图G_i+1的一个顶点v，顶点v即为多节点。为使生成的粗化图保持有原始图的特性，多节点v的边的权值为的权值的总和。匹配过程中，进行随机匹配，并将匹配到的顶点合并成多节点，然后在重构过程中，依据在匹配过程汇总生成的多节点生成粗化图，计算粗化图中边的权值，使得边与边之间的权值达到最大。

一个图形的匹配，即为一系列的边的匹配，且这其中任意两条边都不共用同一个顶点，一个粗化图G_i+1是通过在G_i中找到匹配并将匹配到的顶点合并成多节点而形成的，那些未被匹配到的点则直接复制到G_i+1中去，考虑到使用匹配去进行顶点的合并的目的是减小图G_i的大小，匹配需要尽可能得包含更多的边，因此在匹配过程中采用最大化匹配准则，即当图形中的任意一条边都没有被匹配时，至少有一个终点被匹配以实现最大化。在这一过程中，记Map[v]为被匹配并存储到粗化图G_i+1中的顶点v，Match[v]则为那些未被匹配的顶点。

例如，在图7中，采用最大化匹配准则，通过在G₀中找到匹配的顶点(记为Map[v])合成为多节点，G₀中未被匹配的点(记为Match[v])直接复制到G₁中，若v₁，v₂为G₀中两个被匹配的顶点，则重构顶点u₁＝Match[v₁]，那么与u₁邻接的顶点为：

Adj(u₁)＝({Map[x]|x∈Adj(v₁)}∪{Map[x]|x∈Adj(v₂)})-{u₁}

且边(u₁，u₂)之间的权值为：

当所有的边之间的权值之和达到最大的时候，实现匹配的最大化，从而形成粗化图G₁，以此类推，形成下一层的粗化图G₂和G₃。

(c)初始划分阶段：在初始划分阶段，使用Kernighan-Lin算法来计算最粗糙和最小图形的划分。

如图7所示，在本实施例中，设定P为G＝(V,E)原始划分的顶点，定义gaing_v为代价函数，代表着将点v从当前聚类簇中移动到其他簇时，边界权值的减少值，其定义为：

其中w(v,n)是指边(v,n)的权重值，若一个顶点v从一个划分中被移动到另一个划分，那么与顶点v相邻接的顶点的gain值也会相应的发生变化，因此，在移动到下一个顶点之后，还需要重新计算并更新与之相邻接的顶点的gain值。

(d)细化阶段：在细化阶段，通过遍历图形G_m-1，G_m-2，…，G₁，粗化图形G₁的划分 P_m被映射到原始图形上。因为G_i+1中的每个顶点都包含有G_i中的顶点的不同的子集，因此根据P_i+1得到P_i可以通过将分解成为v∈G_i+1的点集分配到划分P_i+1[v]中实现(如：)。

虽然说P_i+1是划分G_i+1的局部最小划分，但是映射的划分P_i却不一定是G_i的局部最小划分。由于G_i信息更加全面，所以它有更多的自由度可以用来改善P_i，并且降低边界权值的减少。因此仍然存在可能通过局部细化来提高G_i-1的划分。鉴于此，在初始划分阶段之后，仍然需要一个细化算法对结果进行完善。

在该阶段，使用了Kernighan-Lin^[20]细化算法，通过控制顶点的gain值进行计算的，gain 值则是通过计算每一个顶点的两个值ID和ED来表示。

步骤4：聚类结果的分析评估；

对于空间聚类来说，一个理想的聚类结果应当满足以下两个方面的要求：一为凝聚度，及空间簇内部的实体应尽可能相似；二为分离度，即不同的空间簇中的实体差异性尽可能大，这也是选取空间聚类结果评估指标所遵循的两个基本原则。轮廓系数是一种度量聚类结果好坏的相对评价指标，它同时结合了凝聚度和分离度两种因素，如图10所示，本实施例采用轮廓系数的均方根作为度量聚类结果的评价指标。

(1)根据多级图划分算法得到的聚类结果，结合公式可得到各个多边形的轮廓系数。其中，i表示第i个空间实体对象，a_(i)表示第i对象到簇中其他所有对象的平均距离，体现空间簇内部对象之间的凝聚度；b_(i)表示第i个对象到给定簇中其他所有对象的平均距离，体现空间簇之间的分离度。由定义可知，轮廓系数sil_(i)∈[‐1,1]，sil_(i)越接近1，代表聚类效果越好。

例如，a₍₁₎表示为第1对象到簇中其他所有对象的平均距离，b₍₁₎表示为第1对象到给定簇中其他所有对象的平均距离，当a₍₁₎＝0.15，b₍₁₎＝0.33时，轮廓系数sil_(i)＝0.545，代表聚类效果较好。

(2)如图11所示，本实施例中，结合K-Means++算法、ArcToolbox算法得到的聚类结果进行分析，其聚类结果如下：

请参阅上表，表中从聚类数目2到聚类数目39，相对于K-Means++算法和ArcToolbox 得出的聚类结果数值，本发明采用的多级图划分算法的聚类结果数值明显较小，说明采用本发明的多级图划分算法聚类之后的居民地的多边形之间的空间相似性更高，聚类效果更好，有助于对于将加拿大安大略省——滑铁卢地区市——沃尔莫特乡镇巴登地区居民地多边形的形状特征和属性特征进行挖掘和研究。

本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种居民地多边形的多级图聚类划分方法，其特征在于：具体包括以下步骤：

2.如权利要求1所述的居民地多边形的多级图聚类划分方法，其特征在于：多边形之间的空间相似性的计算方法如下式所示：

S(x,y)＝μ₁*A(x,y)+μ₂*B(x,y)+μ₃*C(x,y)+μ₄*D(x,y)μ₅*E(x,y)

其中，A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据，μ₁、μ₂、μ₃、μ₄、μ₅则分别为五个指标的权重，S(x,y)为多边形x和多边形y之间空间相似性，且有μ₁+μ₂+μ₃+μ₄+μ₅＝1，0≤A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)≤1。

3.由权利要求1所述的居民地多边形的多级图聚类划分方法，其特征在于：所述步骤1中使用的形状狭长度、大小、凹凸性、距离和连通性五个相似性度量指标的计算方法如下式所示，具体的描述方法如下：

(a)形状狭长度：

其中，ax,bx分别表示多边形x的最小外接矩阵的长和宽，shp(x,y)是多边形x和多边形y之间的形状狭长度相似性；

(b)大小相似性：

其中，Area(x)和Area(y)分别指多边形x和多边形y的面积，size(x,y)指多边形x和多边形y之间的大小相似性；

(c)凹凸性：

其中，Area(x)是指多边形x的面积，peri(x)是指多边形x的周长，cvx(x,_y)是指多边形x和多边形y的凹凸性相似性；

(d)距离：

(e)连通性：

con(x,y)＝Len(Landscape(x,y))

4.如权利要求3所述的居民地多边形的多级图聚类划分方法，其特征在于：步骤2中计算得到的相似性数值先进行标准化处理，采用最大最小化准则进行归一化处理，同时使用信息熵权重法确定各个指标的权重，最终得到多边形之间空间相似性数值；

具体的描述方法如下：

(a)信息熵权重法确定各个指标的权重：

2)计算第j个指标下第i个多边形占该指标的比重：

3)计算第j项指标的熵值：

其中，k＝1/ln(n)>0，且满足e_j≥0；

4)计算信息熵冗余度：

d_j＝1-e_j

5)计算各项指标的权值：

(b)多边形之间的空间相似性计算：

S(x,y)＝μ₁*A(x,y)+μ₂*B(x,y)+μ₃*C(x,y)+μ₄*D(x,y)μ₅*E(x,y)

0≤A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)≤1

其中，x为计算的相似性指标值，min(x)和max(x)分别为指标x所有值中的最小值和最大值，x’为经过标准化处理之后的值，此时所有的值落到[0，1]的区间内，A(x,y),B(x,y),C(x,y)，D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据，μ₁、μ₂、μ₃、μ₄、μ₅则分别为五个指标的权，S(x,y)为多边形x和多边形y之间空间相似性。

5.如权利要求1所述的居民地多边形的多级图聚类划分方法，其特征在于：多级图划分算法主要分为数据组织阶段、粗化阶段、初始划分阶段和细化阶段四个阶段，具体的描述方法如下：

在匹配阶段，采用最大化匹配准则，记Map[v]为被匹配并存储到粗化图G_i+1中的顶点v，Match[v]则为那些未被匹配的顶点；

Adj(u₁)＝({Map[x]|x∈Adj(v₁)}∪{Map[x]|x∈Adj(v₂)})-{u₁}

且边(u₁，u₂)之间的权值为：

(c)初始划分阶段：使用Kernighan-Lin算法来计算最粗糙和最小图形的划分，设定P为G＝(V,E)原始划分的顶点，定义gaing_v为代价函数，将点v从当前聚类簇中移动到其他簇时，边界权值的减少值定义为：

6.如权利要求1所述的居民地多边形的多级图聚类划分方法，其特征在于：采用多边形的轮廓系数的均方根作为度量聚类结果的评价指标，

具体的描述方法如下：

(a)各个多边形的轮廓系数：

其中，i表示第i个空间实体对象，a_(i)表示第i对象到簇中其他所有对象的平均距离，体现空间簇内部对象之间的凝聚度；b_(i)表示第i个对象到给定簇中其他所有对象的平均距离，体现空间簇之间的分离度；轮廓系数sil_(i)∈[‐1,1]，sil_(i)为负时，即b_(i)<a_(i)，表示该对象与所在簇对象之间的凝聚度小于与其他簇对象之间的分离度，需对该对象所属空间簇做出调整；sil_(i)为正时，即b_(i)>a_(i)，代表该对象与所在簇对象之间的凝聚度大于与其他簇对象之间的分离度，不需对该对象所属空间簇做出调整；

(b)轮廓系数的均方根：

7.如权利要求1-6任一项所述的居民地多边形的多级图聚类划分方法，其特征在于：对所述聚类结果使用轮廓系数进行评估而判断聚类结果的精准度，并结合K-Means++算法和ArcToolbox得到的聚类结果进行对比分析。