CN107909111A - 一种居民地多边形的多级图聚类划分方法 - Google Patents

一种居民地多边形的多级图聚类划分方法 Download PDF

Info

Publication number
CN107909111A
CN107909111A CN201711191403.9A CN201711191403A CN107909111A CN 107909111 A CN107909111 A CN 107909111A CN 201711191403 A CN201711191403 A CN 201711191403A CN 107909111 A CN107909111 A CN 107909111A
Authority
CN
China
Prior art keywords
polygon
cluster
vertex
index
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711191403.9A
Other languages
English (en)
Other versions
CN107909111B (zh
Inventor
陈占龙
谢忠
吴亮
梁磊
江宝得
周林
陶留锋
马啸川
刘建宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201711191403.9A priority Critical patent/CN107909111B/zh
Publication of CN107909111A publication Critical patent/CN107909111A/zh
Application granted granted Critical
Publication of CN107909111B publication Critical patent/CN107909111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种居民地多边形的多级图聚类划分方法,居民地多边形作为一种重要的面状要素,具有复杂的形状特征和属性特征,为了实现对居民地多边形的聚类分析,本发明立足多边形数据的属性特征,结合空间认知准则和人类认知的特点,首先获取多边形之间的邻接信息,结合五个多边形的相似性度量指标(即:形状狭长度、大小、凹凸性、距离和连通性)对多边形之间的相似性进行度量,接着对相似性数值进行规范化处理和各指标权重的确定,然后使用多级图划分算法对多边形进行聚类,最后使用轮廓系数对聚类结果进行分析评价,使得该方法得到的聚类结果更为客观、可靠。

Description

一种居民地多边形的多级图聚类划分方法
技术领域
本发明涉及地理信息科学研究领域,尤其涉及一种居民地多边形的多级图聚类划分方法。
背景技术
在地理信息系统中,居民地多边形作为一种重要的面状要素对象,具有复杂的形状特征和属性特征。对多边形的聚类分析是空间数据挖掘以及地理信息科学研究领域的研究热点和研究难点。
多边形不同于一维的点数据,它具有鲜明的几何特征、空间关系和语义属性,采用多种度量指标对多边形进行聚类分析,可为数据信息更深层次的挖掘提供依据,因此在对多边形进行聚类分析时,不仅要选择效果优良的空间聚类算法,而且要选取合适的空间相似性指标对多边形之间的相似性进行度量,许多现存的聚类分析算法都将多边形简化为点,或者仅仅考虑了多边形的非空间属性和简单的几何属性,并没有充分考虑多边形的形状特征和空间关系,使得其应用受到限制。
因此就目前来讲,想要对居民地多边形的数据信息进行客观、可靠的聚类效果分析,仅仅通过简化后的一维点数据,无法得到更深层次的信息挖掘。
发明内容
为了实现多边形的聚类分析,本发明立足居民地多边形数据的属性特征,结合空间认知准则和人类认知的特点,首先获取居民地多边形之间的邻接信息,结合五个多边形的相似性度量指标(即:形状狭长度、大小、凹凸性、距离和连通性)对多边形之间的相似性进行度量,接着对相似性数值进行规范化处理和各指标权重的确定,然后使用多级图划分算法对多边形进行聚类,最后使用轮廓系数对聚类结果进行分析评价。
实现本发明上述目的所采用的技术方案为:
空间聚类的相似性度量,具体包括以下步骤:
步骤1、选定居民地的地理区域,获取多边形的图形,并以此为依据构建Delaunay三角网,获取多边形之间的邻接信息;然后获取多边形各个顶点的数据,再次构建Delaunay三角网,并根据五个多边形的相似性度量指标对多边形之间的空间相似性进行度量,得到对应的相似性数值,五个多边形的相似性度量指标分别为形状狭长度、大小、凹凸性、距离和连通性;
步骤2、将经由各个指标计算得到的相似性数值进行归一化处理,并使用信息熵权重法确定各个指标的权重,最终得到多边形之间空间相似性数值;
步骤3、获取多边形之间的空间相似性数值,并对数据进行组织与存储,使用多级图划分算法,经过粗化阶段、初始划分阶段和细化阶段,对多边形进行聚类,并得到聚类结果。
进一步地,多边形之间的空间相似性的计算方法如下式所示:
S(x,y)=μ1*A(x,y)+μ2*B(x,y)+μ3*C(x,y)+μ4*D(x,y)μ5*E(x,y)
其中,A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据,μ1、μ2、μ3、μ4、μ5则分别为五个指标的权重,S(x,y)为多边形x和多边形y之间空间相似性,且有μ12345=1,0≤A(x,y),B(x,y),C(x,y),D(x,y), E(x,y)≤1。
进一步地,所述步骤1中使用的形状狭长度、大小、凹凸性、距离和连通性五个相似性度量指标的计算方法如下式所示,具体的描述方法如下:
(a)形状狭长度:
其中,ax,bx分别表示多边形x的最小外接矩阵的长和宽,shp(x,y)是多边形x和多边形y 之间的形状狭长度相似性;
(b)大小相似性:
其中,Area(x)和Area(y)分别指多边形x和多边形y的面积,size(x,y)是指多边形x和多边形 y之间的大小相似性;
(c)凹凸性:
其中,Area(x)是指多边形x的面积,peri(x)是指多边形x的周长,cvx(x,y)是指多边形x 和多边形y的凹凸性相似性;
(d)距离:
其中,是指连接多边形x,y的所有Delaunay三角形的边的长度之和,n为两个多边形之间边的个数,dist(x,y)为多边形x和多边形y之间的距离相似性;
(e)连通性:
con(x,y)=Len(Landscape(x,y))
其中,Landscape(x,y)是指连接多边形x和多边形y的所有Delaunay三角形的边的中点连成的线,Len(Landscape(x,y))是指多边形x和多边形y之间毗邻边界的长度,con(x,y)是指多边形x和多边形y之间连通性相似性。
进一步地,步骤2中计算得到的相似性数值先进行标准化处理,采用最大最小化准则进行归一化处理,同时使用信息熵权重法确定各个指标的权重,最终得到多边形之间空间相似性数值;
具体的描述方法如下:
(a)信息熵权重法确定各个指标的权重:
1)记n为多边形的数目,m为相似性指标的数目,xij为第i个多边形第j个指标的数值,其中i=1,2,…n,j=1,2,…m;
2)计算第j个指标下第i个多边形占该指标的比重:
3)计算第j项指标的熵值:
其中,k=1/ln(n)>0,且满足ej≥0;
4)计算信息熵冗余度:
dj=1-ej
5)计算各项指标的权值:
(b)多边形之间的空间相似性计算:
S(x,y)=μ1*A(x,y)+μ2*B(x,y)+μ3*C(x,y)+μ4*D(x,y)μ5*E(x,y)
0≤A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)≤1
其中,x为计算的相似性指标值,min(x)和max(x)分别为指标x所有值中的最小值和最大值,x’为经过标准化处理之后的值,此时所有的值落到[0,1]的区间内,A(x,y),B(x,y),C(x,y), D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据,μ1、μ2、μ3、μ4、μ5则分别为五个指标的权,S(x,y)为多边形x和多边形y之间空间相似性。
进一步地,多级图划分算法主要分为数据组织阶段、粗化阶段、初始划分阶段和细化阶段四个阶段,具体的描述方法如下:
(a)数据组织阶段:给定图Gt=(Vt,Et),其中存储着第t个划分子图中的所有顶点v的信息,E则存储着邻接点之间的边的信息,即为多边形之间的邻接信息,记为Adjcy;
(b)粗化阶段:生成一系列的子图,每个子图中含有的点的个数将会较原始图形有所减少,主要由匹配和重构两个部分构成:
在匹配阶段,采用最大化匹配准则,记Map[v]为被匹配并存储到粗化图Gi+1中的顶点v, Match[v]则为那些未被匹配的顶点;
在重构阶段,利用在匹配阶段生成的点来生成粗化图Gi+1,设定顶点v1,v2为两个被匹配的顶点,重构顶点u1=Map[v1],那么与u1邻接的顶点为:
Adj(u1)=({Map[x]|x∈Adj(v1)}∪{Map[x]|x∈Adj(v2)})-{u1}
且边(u1,u2)之间的权值为:
w(u1,u2)=∑x{w(u1,x)|Map[x]=u2}+∑x{w(u2,x)|Map[x]=u2};
(c)初始划分阶段:使用Kernighan-Lin算法来计算最粗糙和最小图形的划分,设定P 为G=(V,E)原始划分的顶点,定义gaingv为代价函数,将点v从当前聚类簇中移动到其他簇时,边界权值的减少值定义为:
其中w(v,n)是指边(v,n)的权重值,且在每移动一个顶点之后,都需要重新计算并更新与之相邻接的顶点的gain值;
(d)细化阶段:通过遍历图形Gm-1,Gm-2,…,G1,粗化图形Gm的划分Pm被映射到原始图形上,根据Pi+1得到Pi可以通过将分解成为v∈Gi+1的点集分配到划分Pi+1[v]中实现;
使用Kernighan-Lin[20]细化算法,使用控制顶点的gain值进行计算,gain值通过计算每一个顶点的两个值ID和ED来表示:
其中ID[v]是指与顶点v在同一个簇内且与v邻接的点连线的边的权值之和,是用来度量聚类簇内部紧密度的一项指标,ED[v]是指与顶点v不在同一个簇内且与v相邻接的点之间的边的权值之和,是用来度量聚类簇分离度的一项指标,那么gv=ED[v]-ID[v]。
进一步地,采用多边形的轮廓系数的均方根作为度量聚类结果的评价指标,具体的描述方法如下:
(a)各个多边形的轮廓系数:
其中,i表示第i个空间实体对象,a(i)表示第i对象到簇中其他所有对象的平均距离,体现空间簇内部对象之间的凝聚度;b(i)表示第i个对象到给定簇中其他所有对象的平均距离,体现空间簇之间的分离度;轮廓系数sil(i)∈[‐1,1],sil(i)为负时,即b(i)<a(i),表示该对象与所在簇对象之间的凝聚度小于与其他簇对象之间的分离度,需对该对象所属空间簇做出调整;sil(i)为正时,即b(i)>a(i),代表该对象与所在簇对象之间的凝聚度大于与其他簇对象之间的分离度,不需对该对象所属空间簇做出调整,结果较为良好;
(b)轮廓系数的均方根:
其中,meana(i)为各个簇中所包含对象的轮廓系数的均值,k为第i个簇中所包含的对象的个数,n为数据集中的样本数目,RMSE越小,表示均方根误差越小,聚类结果越好。
进一步地,对所述聚类结果使用轮廓系数进行评估而判断聚类结果的精准度,并结合 K-Means++算法和ArcToolbox得到的聚类结果进行对比分析。
本发明与现有技术相比,具有如下优点和有益效果:
1.本发明采用效果优良的空间聚类算法,利用多边形进行聚类分析,相对于一维的点数据,具有鲜明的几何特征、空间关系和语义属性;
2.选取了合适的空间相似性指标(即:形状狭长度、大小、凹凸性、距离和连通性)对多边形之间的相似性进行度量,应用场景更多,可为数据信息更深层次的挖掘提供依据;
3.对相似性数值进行规范化处理和各指标权重的确定,采用多级划分算法对多边形进行聚类,最后用轮廓系数对聚类结果进行分析评价,使得该方法得到的聚类效果更为客观、可靠。
附图说明
图1是本发明居民地多边形的多级图聚类划分方法的流程图;
图2为实施例中采用的实验区域数据;
图3为实施例中使用Delaunay三角网获取邻接信息;
图4为多边形之间的凹凸性示意图;
图5为多边形之间的距离相似性示意图;
图6为多边形之间的连通性示意图;
图7为多级图划分的主要阶段;
图8为多级图划分算法流程图;
图9为实施例中试验区域所在位置;
图10为聚类结果分析区域;
图11为实施例中各区域的聚类结果对比示意图。
具体实施方式
下面结合具体实施例对本发明做详细具体的说明,但是本发明的保护范围并不局限于以下实施例。
实施例一
本发明提出一种基于多级图划分算法的多边形聚类,并使用加拿大安大略省——滑铁卢地区市——沃尔莫特乡镇巴登地区居民地二维数据作为实验数据。如图1所示,本实施例整个过程按如下步骤操作:
步骤1:多边形邻接信息的获取;
为了度量加拿大巴登地区多边形建筑物之间的相似性,本实施例将建筑物视为多边形实体,建筑物的实际俯视面积为多边形的面积,建筑物的实际周长为多边形的周长,建筑物的集合为多边形数据集,并将每个多边形用唯一的标识符进行标识。如图2和图9所示,在本实施例中,我们选取了巴登地区1497个研究对象作为研究区域。如图3所示,本实施例中首先获取多边形的图心数据构建Delaunay三角网进而获取多边形之间的邻接信息,然后结合图 4-6所示,利用形状狭长度、大小、凹凸性、距离和连通性五个相似性度量指标对多边形之间的相似性进行度量。
例如,测量出多边形多边形x的最小外接矩阵的长和宽,分别用ax,bx表示,则多边形x 和多边形y之间的形状狭长度相似性:
测量出多边形x和多边形y的面积分别为Area(x)和Area(y),则多边形x和多边形y之间的大小相似性:
测量出多边形x和多边形y的面积分别为Area(x)和Area(y),多边形x和多边形y的周长分别为peri(x)和peri(y),则多边形x和多边形y的凹凸性为:
由地理学第一定律可知,地理事物或属性在空间分布上相互关联,且这种相关性随着距离的增加而减小。当给定尺度下多边形的大小远远小于多边形之间的距离时,那么距离对于多边形之间的相似性度量占主导影响。本实施例中就利用构建的Delaunay三角网进行距离相似性的度量,即利用多边形之间的Delaunay三角形,用这些三角形的边的平均长度的倒数来代表两多边形之间的距离。
测量出连接多边形x,y的所有Delaunay三角形的边的长度之和若n为两个多边形之间边的个数,dist(x,y)为多边形x和多边形y之间的距离相似性:
连通性是用来度量两多边形间边界兼容性的重要指标,本实施例利用两多边形之间的 Delaunay三角形所有边中点连成的骨架线来代表两多边形之间的连通性。
若Landscape(x,y)是指连接多边形x和多边形y的所有Delaunay三角形的边的中点连成的线,Len(Landscape(x,y))是指多边形x和多边形y之间毗邻边界的长度,con(x,y)是指多边形x和多边形y之间连通性相似性,则多边形x和多边形y之间连通性相似性:
con(x,y)=Len(Landscape(x,y))
步骤2:多边形之间空间相似性的度量;
在本实施例中,由于各个指标计算得到的相似性数值的范围、单位不尽相同,不能直接使用,故要先将数据进行标准化处理,采用最大最小化准则进行归一化处理,同时使用信息熵权重法确定各个指标的权重,最终得到多边形之间空间相似性数值。
(1)本实施例中先将由形状狭长度、大小、凹凸性、距离和连通性五个相似性指标得到的数值进行最大最小化处理,使得所有的值落到[0,1]的区间内。
(2)由于各个指标对最终结果产生的影响大小有所差异,所以不能给所有的指标分配同等的权重,本实施例中使用信息熵确定各个指标的权重,结果为:μ1=0.0387,μ2=0.0655,μ3=0.0304,μ4=0.4588,μ5=0.4066,其中μ1、μ2、μ3、μ4、μ5分别为形状狭长度、大小、凹凸性、距离和连通性五个指标的权重。
(3)然后通过公式S(x,y)=μ1*A(x,y)+μ2*B(x,y)+μ3*C(x,y)+μ4*D(x,y)μ5*E(x,y)求得多边形之间的空间相似性,则本实施例中多边形之间的空间相似性为:
S(x,y)=0.0387*A(x,y)+0.0655*B(x,y)0.0304*C(x,y)0.4588*D(x,y)0.4066*D(x,y)
步骤3:使用多级图划分算法对多边形进行聚类;
如图7和图8所示,在本实施例中,首先将得到的多边形之间的空间相似性按照多级图划分算法的数据组织形式进行组织和存储,然后使用多级图划分算法进行聚类,得到多边形的聚类结果。
(a)数据组织阶段:给定图Gt=(Vt,Et),其中存储着第t个划分子图中的所有顶点v的信息,E则存储着邻接点之间的边的信息,即为多边形之间的邻接信息,记为Adjcy。
例如:给定图G1=(V1,E1),其中存储着第1个划分子图中的所有顶点v的信息,E存储着邻接点之间的边的信息,就可以得到多边形之间的邻接信息;
(b)粗化阶段:在该阶段将会生成一系列的子图,每个子图中含有的点的个数将会较原始图形有所减少。这一阶段主要由匹配和重构两个部分构成。在重构阶段,图Gi中的一系列相邻的顶点被合并起来形成下一层的粗化图Gi+1的一个顶点v,顶点v即为多节点。为使生成的粗化图保持有原始图的特性,多节点v的边的权值为的权值的总和。匹配过程中,进行随机匹配,并将匹配到的顶点合并成多节点,然后在重构过程中,依据在匹配过程汇总生成的多节点生成粗化图,计算粗化图中边的权值,使得边与边之间的权值达到最大。
一个图形的匹配,即为一系列的边的匹配,且这其中任意两条边都不共用同一个顶点,一个粗化图Gi+1是通过在Gi中找到匹配并将匹配到的顶点合并成多节点而形成的,那些未被匹配到的点则直接复制到Gi+1中去,考虑到使用匹配去进行顶点的合并的目的是减小图Gi的大小,匹配需要尽可能得包含更多的边,因此在匹配过程中采用最大化匹配准则,即当图形中的任意一条边都没有被匹配时,至少有一个终点被匹配以实现最大化。在这一过程中,记Map[v]为被匹配并存储到粗化图Gi+1中的顶点v,Match[v]则为那些未被匹配的顶点。
例如,在图7中,采用最大化匹配准则,通过在G0中找到匹配的顶点(记为Map[v])合成为多节点,G0中未被匹配的点(记为Match[v])直接复制到G1中,若v1,v2为G0中两个被匹配的顶点,则重构顶点u1=Match[v1],那么与u1邻接的顶点为:
Adj(u1)=({Map[x]|x∈Adj(v1)}∪{Map[x]|x∈Adj(v2)})-{u1}
且边(u1,u2)之间的权值为:
w(u1,u2)=∑x{w(u1,x)|Map[x]=u2}+∑x{w(u2,x)|Map[x]=u2};
当所有的边之间的权值之和达到最大的时候,实现匹配的最大化,从而形成粗化图G1,以此类推,形成下一层的粗化图G2和G3
(c)初始划分阶段:在初始划分阶段,使用Kernighan-Lin算法来计算最粗糙和最小图形的划分。
如图7所示,在本实施例中,设定P为G=(V,E)原始划分的顶点,定义gaingv为代价函数,代表着将点v从当前聚类簇中移动到其他簇时,边界权值的减少值,其定义为:
其中w(v,n)是指边(v,n)的权重值,若一个顶点v从一个划分中被移动到另一个划分,那么与顶点v相邻接的顶点的gain值也会相应的发生变化,因此,在移动到下一个顶点之后,还需要重新计算并更新与之相邻接的顶点的gain值。
(d)细化阶段:在细化阶段,通过遍历图形Gm-1,Gm-2,…,G1,粗化图形G1的划分 Pm被映射到原始图形上。因为Gi+1中的每个顶点都包含有Gi中的顶点的不同的子集,因此根据Pi+1得到Pi可以通过将分解成为v∈Gi+1的点集分配到划分Pi+1[v]中实现(如:)。
虽然说Pi+1是划分Gi+1的局部最小划分,但是映射的划分Pi却不一定是Gi的局部最小划分。由于Gi信息更加全面,所以它有更多的自由度可以用来改善Pi,并且降低边界权值的减少。因此仍然存在可能通过局部细化来提高Gi-1的划分。鉴于此,在初始划分阶段之后,仍然需要一个细化算法对结果进行完善。
在该阶段,使用了Kernighan-Lin[20]细化算法,通过控制顶点的gain值进行计算的,gain 值则是通过计算每一个顶点的两个值ID和ED来表示。
其中ID[v]是指与顶点v在同一个簇内且与v邻接的点连线的边的权值之和,是用来度量聚类簇内部紧密度的一项指标,ED[v]是指与顶点v不在同一个簇内且与v相邻接的点之间的边的权值之和,是用来度量聚类簇分离度的一项指标,那么gv=ED[v]-ID[v]。
步骤4:聚类结果的分析评估;
对于空间聚类来说,一个理想的聚类结果应当满足以下两个方面的要求:一为凝聚度,及空间簇内部的实体应尽可能相似;二为分离度,即不同的空间簇中的实体差异性尽可能大,这也是选取空间聚类结果评估指标所遵循的两个基本原则。轮廓系数是一种度量聚类结果好坏的相对评价指标,它同时结合了凝聚度和分离度两种因素,如图10所示,本实施例采用轮廓系数的均方根作为度量聚类结果的评价指标。
(1)根据多级图划分算法得到的聚类结果,结合公式可得到各个多边形的轮廓系数。其中,i表示第i个空间实体对象,a(i)表示第i对象到簇中其他所有对象的平均距离,体现空间簇内部对象之间的凝聚度;b(i)表示第i个对象到给定簇中其他所有对象的平均距离,体现空间簇之间的分离度。由定义可知,轮廓系数sil(i)∈[‐1,1],sil(i)越接近1,代表聚类效果越好。
例如,a(1)表示为第1对象到簇中其他所有对象的平均距离,b(1)表示为第1对象到给定簇中其他所有对象的平均距离,当a(1)=0.15,b(1)=0.33时,轮廓系数sil(i)=0.545,代表聚类效果较好。
(2)如图11所示,本实施例中,结合K-Means++算法、ArcToolbox算法得到的聚类结果进行分析,其聚类结果如下:
请参阅上表,表中从聚类数目2到聚类数目39,相对于K-Means++算法和ArcToolbox 得出的聚类结果数值,本发明采用的多级图划分算法的聚类结果数值明显较小,说明采用本发明的多级图划分算法聚类之后的居民地的多边形之间的空间相似性更高,聚类效果更好,有助于对于将加拿大安大略省——滑铁卢地区市——沃尔莫特乡镇巴登地区居民地多边形的形状特征和属性特征进行挖掘和研究。
本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种居民地多边形的多级图聚类划分方法,其特征在于:具体包括以下步骤:
步骤1、选定居民地的地理区域,获取多边形的图形,并以此为依据构建Delaunay三角网,获取多边形之间的邻接信息;然后获取多边形各个顶点的数据,再次构建Delaunay三角网,并根据五个多边形的相似性度量指标对多边形之间的空间相似性进行度量,得到对应的相似性数值,五个多边形的相似性度量指标分别为形状狭长度、大小、凹凸性、距离和连通性;
步骤2、将经由各个指标计算得到的相似性数值进行归一化处理,并使用信息熵权重法确定各个指标的权重,最终得到多边形之间空间相似性数值;
步骤3、获取多边形之间的空间相似性数值,并对数据进行组织与存储,使用多级图划分算法,经过粗化阶段、初始划分阶段和细化阶段,对多边形进行聚类,并得到聚类结果。
2.如权利要求1所述的居民地多边形的多级图聚类划分方法,其特征在于:多边形之间的空间相似性的计算方法如下式所示:
S(x,y)=μ1*A(x,y)+μ2*B(x,y)+μ3*C(x,y)+μ4*D(x,y)μ5*E(x,y)
其中,A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据,μ1、μ2、μ3、μ4、μ5则分别为五个指标的权重,S(x,y)为多边形x和多边形y之间空间相似性,且有μ12345=1,0≤A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)≤1。
3.由权利要求1所述的居民地多边形的多级图聚类划分方法,其特征在于:所述步骤1中使用的形状狭长度、大小、凹凸性、距离和连通性五个相似性度量指标的计算方法如下式所示,具体的描述方法如下:
(a)形状狭长度:
其中,ax,bx分别表示多边形x的最小外接矩阵的长和宽,shp(x,y)是多边形x和多边形y之间的形状狭长度相似性;
(b)大小相似性:
其中,Area(x)和Area(y)分别指多边形x和多边形y的面积,size(x,y)指多边形x和多边形y之间的大小相似性;
(c)凹凸性:
其中,Area(x)是指多边形x的面积,peri(x)是指多边形x的周长,cvx(x,y)是指多边形x和多边形y的凹凸性相似性;
(d)距离:
其中,是指连接多边形x,y的所有Delaunay三角形的边的长度之和,n为两个多边形之间边的个数,dist(x,y)为多边形x和多边形y之间的距离相似性;
(e)连通性:
con(x,y)=Len(Landscape(x,y))
其中,Landscape(x,y)是指连接多边形x和多边形y的所有Delaunay三角形的边的中点连成的线,Len(Landscape(x,y))是指多边形x和多边形y之间毗邻边界的长度,con(x,y)是指多边形x和多边形y之间连通性相似性。
4.如权利要求3所述的居民地多边形的多级图聚类划分方法,其特征在于:步骤2中计算得到的相似性数值先进行标准化处理,采用最大最小化准则进行归一化处理,同时使用信息熵权重法确定各个指标的权重,最终得到多边形之间空间相似性数值;
具体的描述方法如下:
(a)信息熵权重法确定各个指标的权重:
1)记n为多边形的数目,m为相似性指标的数目,xij为第i个多边形第j个指标的数值,其中i=1,2,…n,j=1,2,…m;
2)计算第j个指标下第i个多边形占该指标的比重:
3)计算第j项指标的熵值:
其中,k=1/ln(n)>0,且满足ej≥0;
4)计算信息熵冗余度:
dj=1-ej
5)计算各项指标的权值:
(b)多边形之间的空间相似性计算:
S(x,y)=μ1*A(x,y)+μ2*B(x,y)+μ3*C(x,y)+μ4*D(x,y)μ5*E(x,y)
0≤A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)≤1
其中,x为计算的相似性指标值,min(x)和max(x)分别为指标x所有值中的最小值和最大值,x’为经过标准化处理之后的值,此时所有的值落到[0,1]的区间内,A(x,y),B(x,y),C(x,y),D(x,y),E(x,y)分别为形状狭长度、大小、凹凸性、距离和连通性经过标准化处理后的数据,μ1、μ2、μ3、μ4、μ5则分别为五个指标的权,S(x,y)为多边形x和多边形y之间空间相似性。
5.如权利要求1所述的居民地多边形的多级图聚类划分方法,其特征在于:多级图划分算法主要分为数据组织阶段、粗化阶段、初始划分阶段和细化阶段四个阶段,具体的描述方法如下:
(a)数据组织阶段:给定图Gt=(Vt,Et),其中存储着第t个划分子图中的所有顶点v的信息,E则存储着邻接点之间的边的信息,即为多边形之间的邻接信息,记为Adjcy;
(b)粗化阶段:生成一系列的子图,每个子图中含有的点的个数将会较原始图形有所减少,主要由匹配和重构两个部分构成:
在匹配阶段,采用最大化匹配准则,记Map[v]为被匹配并存储到粗化图Gi+1中的顶点v,Match[v]则为那些未被匹配的顶点;
在重构阶段,利用在匹配阶段生成的点来生成粗化图Gi+1,设定顶点v1,v2为两个被匹配的顶点,重构顶点u1=Map[v1],那么与u1邻接的顶点为:
Adj(u1)=({Map[x]|x∈Adj(v1)}∪{Map[x]|x∈Adj(v2)})-{u1}
且边(u1,u2)之间的权值为:
w(u1,u2)=∑x{w(u1,x)|Map[x]=u2}+∑x{w(u2,x)|Map[x]=u2};
(c)初始划分阶段:使用Kernighan-Lin算法来计算最粗糙和最小图形的划分,设定P为G=(V,E)原始划分的顶点,定义gaingv为代价函数,将点v从当前聚类簇中移动到其他簇时,边界权值的减少值定义为:
其中w(v,n)是指边(v,n)的权重值,且在每移动一个顶点之后,都需要重新计算并更新与之相邻接的顶点的gain值;
(d)细化阶段:通过遍历图形Gm-1,Gm-2,…,G1,粗化图形Gm的划分Pm被映射到原始图形上,根据Pi+1得到Pi可以通过将分解成为v∈Gi+1的点集分配到划分Pi+1[v]中实现;
使用Kernighan-Lin[20]细化算法,使用控制顶点的gain值进行计算,gain值通过计算每一个顶点的两个值ID和ED来表示:
其中ID[v]是指与顶点v在同一个簇内且与v邻接的点连线的边的权值之和,是用来度量聚类簇内部紧密度的一项指标,ED[v]是指与顶点v不在同一个簇内且与v相邻接的点之间的边的权值之和,是用来度量聚类簇分离度的一项指标,那么gv=ED[v]-ID[v]。
6.如权利要求1所述的居民地多边形的多级图聚类划分方法,其特征在于:采用多边形的轮廓系数的均方根作为度量聚类结果的评价指标,
具体的描述方法如下:
(a)各个多边形的轮廓系数:
其中,i表示第i个空间实体对象,a(i)表示第i对象到簇中其他所有对象的平均距离,体现空间簇内部对象之间的凝聚度;b(i)表示第i个对象到给定簇中其他所有对象的平均距离,体现空间簇之间的分离度;轮廓系数sil(i)∈[‐1,1],sil(i)为负时,即b(i)<a(i),表示该对象与所在簇对象之间的凝聚度小于与其他簇对象之间的分离度,需对该对象所属空间簇做出调整;sil(i)为正时,即b(i)>a(i),代表该对象与所在簇对象之间的凝聚度大于与其他簇对象之间的分离度,不需对该对象所属空间簇做出调整;
(b)轮廓系数的均方根:
其中,meana(i)为各个簇中所包含对象的轮廓系数的均值,k为第i个簇中所包含的对象的个数,n为数据集中的样本数目,RMSE越小,表示均方根误差越小,聚类结果越好。
7.如权利要求1-6任一项所述的居民地多边形的多级图聚类划分方法,其特征在于:对所述聚类结果使用轮廓系数进行评估而判断聚类结果的精准度,并结合K-Means++算法和ArcToolbox得到的聚类结果进行对比分析。
CN201711191403.9A 2017-11-24 2017-11-24 一种居民地多边形的多级图聚类划分方法 Active CN107909111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711191403.9A CN107909111B (zh) 2017-11-24 2017-11-24 一种居民地多边形的多级图聚类划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711191403.9A CN107909111B (zh) 2017-11-24 2017-11-24 一种居民地多边形的多级图聚类划分方法

Publications (2)

Publication Number Publication Date
CN107909111A true CN107909111A (zh) 2018-04-13
CN107909111B CN107909111B (zh) 2020-06-26

Family

ID=61847844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711191403.9A Active CN107909111B (zh) 2017-11-24 2017-11-24 一种居民地多边形的多级图聚类划分方法

Country Status (1)

Country Link
CN (1) CN107909111B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932528A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 变色龙算法中相似性度量及截断方法
CN109639463A (zh) * 2018-11-23 2019-04-16 华北科技学院 一种物联网监测点相邻关系的判定方法
WO2020073430A1 (zh) * 2018-10-12 2020-04-16 东南大学 一种城市空间形态自动分区方法与系统
CN111882065A (zh) * 2020-08-03 2020-11-03 中国人民解放军国防科技大学 映射脉冲神经网络到类脑计算平台的方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163224A (zh) * 2011-04-06 2011-08-24 中南大学 自适应空间聚类方法
US20130096886A1 (en) * 2010-03-31 2013-04-18 Borys Vorobyov System and Method for Extracting Features from Data Having Spatial Coordinates
CN105550244A (zh) * 2015-12-07 2016-05-04 武汉大学 一种自适应聚类方法
CN106204446A (zh) * 2016-07-01 2016-12-07 中国测绘科学研究院 一种地形图的建筑物合并方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130096886A1 (en) * 2010-03-31 2013-04-18 Borys Vorobyov System and Method for Extracting Features from Data Having Spatial Coordinates
CN102163224A (zh) * 2011-04-06 2011-08-24 中南大学 自适应空间聚类方法
CN105550244A (zh) * 2015-12-07 2016-05-04 武汉大学 一种自适应聚类方法
CN106204446A (zh) * 2016-07-01 2016-12-07 中国测绘科学研究院 一种地形图的建筑物合并方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGYANG XU 等: "Shape similarity measurement model for holed polygons based on position graphs and Fourier descriptors", 《INTERNATIONAL JOURNAL OF GEOGRAPHICAL INFORMATION SCIENCE》 *
闫自庚 等: "基于SURF特征和Delaunay三角网格的图像匹配", 《自动化学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932528A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 变色龙算法中相似性度量及截断方法
WO2020073430A1 (zh) * 2018-10-12 2020-04-16 东南大学 一种城市空间形态自动分区方法与系统
CN109639463A (zh) * 2018-11-23 2019-04-16 华北科技学院 一种物联网监测点相邻关系的判定方法
CN111882065A (zh) * 2020-08-03 2020-11-03 中国人民解放军国防科技大学 映射脉冲神经网络到类脑计算平台的方法、系统及介质
CN111882065B (zh) * 2020-08-03 2022-05-03 中国人民解放军国防科技大学 映射脉冲神经网络到类脑计算平台的方法、系统及介质

Also Published As

Publication number Publication date
CN107909111B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN108871286B (zh) 空间大数据协同的城市建成区人口密度估算方法和系统
CN107909111A (zh) 一种居民地多边形的多级图聚类划分方法
CN107038717B (zh) 一种基于立体栅格自动分析3d点云配准误差的方法
Guan et al. Integration of orthoimagery and lidar data for object-based urban thematic mapping using random forests
Borruso Network density and the delimitation of urban areas
Thurstain‐Goodwin et al. Defining and delineating the central areas of towns for statistical monitoring using continuous surface representations
Rosser et al. Predicting residential building age from map data
CN105389589B (zh) 一种基于随机森林回归的胸腔x光片肋骨检测方法
CN109949368A (zh) 一种基于图像检索的人体三维姿态估计方法
CN109034474A (zh) 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及系统
CN107292919A (zh) 一种面向空间剖分的多尺度居民地匹配方法
CN113034554B (zh) 基于混沌反向学习的鲸鱼优化的破损俑体碎片配准方法
WO2011085435A1 (en) Classification process for an extracted object or terrain feature
CN109522831A (zh) 一种基于微卷积神经网络的车辆实时检测方法
Juniati et al. Comparison of Pixel-Based and Object-Based classification using parameters and non-parameters approach for the pattern consistency of multi scale landcover
Truax Comparing spectral and object based approaches for classification and transportation feature extraction from high resolution multispectral imagery
CN113988198B (zh) 一种基于地标约束的多尺度城市功能分类方法
CN106023094A (zh) 基于图像的骨组织微观结构修复系统及其修复方法
CN103679764B (zh) 一种图像生成方法及装置
Kong et al. A graph-based neural network approach to integrate multi-source data for urban building function classification
CN109308313A (zh) 基于文化资源评价的资源富集区识别方法
Georgati et al. Spatial Disaggregation of Population Subgroups Leveraging Self-Trained Multi-Output Gradient Boosting Regression Trees
CN103336781A (zh) 一种医学图像聚类方法
Uhl et al. Urban spatial development in the United States from 1910 to 2010: A novel data-driven perspective
Mondal et al. Finding the largest empty cuboid inside a 3D digital object

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant