CN109101998B

CN109101998B - 一种基于居民地上下文空间信息的聚类方法及系统

Info

Publication number: CN109101998B
Application number: CN201810770098.7A
Authority: CN
Inventors: 陈占龙; 谢忠; 吴亮; 杨春成; 张长城; 马啸川; 周路林; 谭雪颖
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2021-05-28
Anticipated expiration: 2038-07-13
Also published as: CN109101998A

Abstract

本发明提出了一种基于居民地上下文空间信息的聚类方法及系统，详细和准确的城市建筑模式信息对于城市设计、景观评价、社会分析和城市环境研究至关重要，为了实现对居民地多边形的聚类分析，本发明提出一种简单而新颖的方法，通过数据融合获得带有生成带Lidar点云数据属性和Footprint数据属性的综合数据，利用该数据确定各建筑物间的邻近关系及相邻建筑物间的权重，通过基于最小生成树的谱聚类中切割图论方法，最后将该方法得到最优生成森林作为聚类结果。本发明的聚类方法得到的聚类结果更为客观、可靠。

Description

一种基于居民地上下文空间信息的聚类方法及系统

技术领域

本发明涉及地理信息的聚类算法领域，更具体地说，涉及一种基于居民地上下文空间信息的聚类方法及系统。

背景技术

在地理信息系统中，聚类分析所做的事是将一个大的数据集划分成n个子集的过程，根据对象距离确定对象所述的子集，保证同一子集的数据对象高相似度，其他子集低相似度。国内外已经有很多年研究聚类分析的科研经历，研究的内容主要涵盖以下几个方面聚类算法：基于划分方面、层次方面、密度方面、网格方面以及基于模型方面的多种算法，许多现存的聚类分析算法都存在难以确定聚类簇的问题或者尽管可以确定聚类簇但会受到数据的稀疏和训练样本的影响。较为典型的有基于划分的K-means算法、基于聚类的DBSCAN算法、基于网格聚类的STING算法和基于神经网络模型的SOM算法，其中K-means算法和STING算法均难以确定聚类簇这一问题，而DBSCAN算法和SOM算法虽然能实现聚类簇的确定，但会受到数据的稀疏和训练样本的影响，因此这些算法应用于居民地空间信息进行聚类时，均无法取得较好的聚类效果。

发明内容

本发明要解决的技术问题在于，针对现有技术中的聚类算法应用于居民地空间信息进行聚类时，无法取得较好的聚类效果的技术缺陷，提供一种基于居民地上下文空间信息的聚类方法及系统。

根据本发明的其中一方面，本发明解决其技术问题所采用的技术方案是：构造一种基于居民地上下文空间信息的聚类方法，包括如下步骤：

(1)数据预处理：提取待聚类处理区域的Lidar点云数据的DSM数据和DEM数据，并利用栅格运算工具计算DSM数据和DEM数据之间的图层差得到nDSM数据，将nDSM数据和待聚类处理区域的Footprint数据进行叠加得到既带有Lidar属性数据，又带有Footprint属性数据的研究数据，将该研究数据投影到投影坐标系，然后根据投影结果提取每一个建筑物的基本属性信息，所述基本属性信息是指：各建筑物各个顶点的横纵坐标和高程信息；

(2)确定建筑物的基本关系：根据确定出的各个建筑物的基本属性信息，确定各建筑物的中心和建筑物间的邻近关系，并根据建筑物的中心计算建筑物之间的欧式距离以此作为建筑物间邻近关系的权重，然后基于建筑物间的邻近关系和对应的权重生成最小生成树；

(3)建筑物间生成最优生成森林：利用基于谱聚类的切图对最小生成树进行聚类处理，生成最优生成森林作为最终的聚类结果。

进一步地，在本发明的基于居民地上下文空间信息的聚类方法中，步骤(1)中的所述研究数据为.shp格式的研究数据。

进一步地，在本发明的基于居民地上下文空间信息的聚类方法中，步骤(2)中所述最小生成树为基于Prim算法对建筑物间的邻近关系和对应的权重进行处理所生成。

进一步地，在本发明的基于居民地上下文空间信息的聚类方法中，步骤(2)中建筑物中心点根据下述公式所确定：

其中x_i、y_i表示建筑物各顶点的横坐标和纵坐标，

表示建筑物中心点横坐标和纵坐标，n表示一个建筑物多边形的所有顶点数目；

建筑物之间的邻近关系根据下述方法进行确定：

根据所确定的所有建筑物中心构造Delaunay三角网，采用Delaunay三角网进行三角剖分后删除重复边关系，得到每两个建筑物之间最多存在一条关系的关系图；然后采用布尔型函数来存储关系图的邻近关系：若两建筑物之间存在邻近关系的布尔型函数值结果为1，否则为0。

进一步地，在本发明的基于居民地上下文空间信息的聚类方法中，步骤(2)中，建筑物之间的权重的计算方法如下：

A、计算存在邻近关系的建筑物之间的欧式距离，距离计算是根据两建筑物之间所有顶点分别进行计算，选取最小值；

B、将所有的最小值组成一矩阵，并对矩阵内的元素进行归一化；

C、采用所有元素为1的矩阵减去步骤B中归一化的矩阵作为权重矩阵。

进一步地，在本发明的基于居民地上下文空间信息的聚类方法中，步骤(3)中所述谱聚类的切图具体是指Ncut切图。

根据本发明的另一方面，本发明为解决其技术问题，还提供了一种基于居民地上下文空间信息的聚类系统，包括如下模块：

数据预处理模块，用于提取待聚类处理区域的Lidar点云数据的DSM数据和DEM数据，并利用栅格运算工具计算DSM数据和DEM数据之间的图层差得到nDSM数据，将nDSM数据和待聚类处理区域的Footprint数据进行叠加得到既带有Lidar属性数据，又带有Footprint属性数据的研究数据，将该研究数据投影到投影坐标系，然后根据投影结果提取每一个建筑物的基本属性信息，所述基本属性信息是指：各建筑物各个顶点的横纵坐标和高程信息；

建筑物的基本关系确定模块，用于根据确定出的各个建筑物的基本属性信息，确定各建筑物的中心和建筑物间的邻近关系，并根据建筑物的中心计算建筑物之间的欧式距离以此作为建筑物间邻近关系的权重，然后基于建筑物间的邻近关系和对应的权重生成最小生成树；

最优生成森林生成模块，用于利用基于谱聚类的切图对最小生成树进行聚类处理，生成最优生成森林作为最终的聚类结果。

优选地，在本发明的建筑物的基于居民地上下文空间信息的聚类系统中，基本关系确定模块中所述最小生成树为基于Prim算法对建筑物间的邻近关系和对应的权重进行处理所生成；最优生成森林生成模块中所述谱聚类的切图具体是指Ncut切图。

优选地，在本发明的建筑物的基于居民地上下文空间信息的聚类系统中，建筑物的基本关系确定模块中建筑物中心点根据下述公式所确定：

其中x_i、y_i表示建筑物各顶点的横坐标和纵坐标，

建筑物之间的邻近关系根据下述方法进行确定：

优选地，在本发明的建筑物的基于居民地上下文空间信息的聚类系统中，建筑物的基本关系确定模块中，建筑物之间的权重的计算方法如下：

实施本发明的基于居民地上下文空间信息的聚类方法及系统，具有以下有益效果：本发明对居民地空间信息进行聚类，相似性最大的建筑物在一起，生成森林的总的距离和较小，生成的树多，聚类效果好。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的基于居民地上下文空间信息的聚类方法及系统的流程图；

图2是本发明的实验区域所在位置图

图3是本发明的匹配Footprint数据和Lidar点云数据的数据图；

图4是本发明使用Delaunay三角网获取邻接信息示意图；

图5是本发明的Prim算法生成最小生成树的示意图；

图6是基于格式塔理论的聚类结果图；

图7是基于割图谱聚类的结果图；

图8(a)-(f)依次是基于K＝16、K＝24、K＝26、K＝28、K＝30、K＝32时所生成谱聚类结果对比图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，本发明的基于居民地上下文空间信息的聚类方法包括以下步骤：

(1)数据预处理：参考图2，本实施例以史太登岛地区的数据作为研究对象，引入建筑物的高程数据，提取待聚类处理区域的Lidar点云数据的DSM(数字表面模型)数据和DEM(数字高程模型)数据并利用栅格运算工具计算两个图层的差得到nDSM(归一化数字高程模型)数据，将nDSM和Footprint数据进行叠加得到既带有Lidar属性数据，又带有Footprint属性数据的.shp格式的研究数据(见图3)，将该研究数据投影到投影坐标系方便计算建筑物之间的距离。提取每一个建筑物在实验中所需的基本属性信息，即：各建筑物各个顶点的横纵坐标和高程信息。

(2)确定建筑物的基本关系：根据确定出的各个建筑物的基本属性信息，确定各建筑物的中心和建筑物间的邻近关系，并根据建筑物的中心点计算建筑物之间的欧式距离以此作为建筑物间邻近关系的权重，然后基于建筑物间的邻近关系和权重生成最小生成树。

聚类结果与建筑物间基本关系密切相关，建筑物基本关系的确定可以使得对建筑物聚类时的结果更加精确、效果最好。

具体的描述方法如下：(a)建筑物中心点根据下述公式所确定：

其中x_i、y_i表示建筑物各顶点的横坐标和纵坐标，

表示建筑物中心点横坐标和纵坐标，n表示一个建筑物多边形的所有顶点数目。

(b)建筑物之间的邻近关系

参考图4，根据所确定的所有建筑物中心构造Delaunay三角网，采用Delaunay三角网进行三角剖分后删除重复边关系，得到每两个建筑物之间最多存在一条关系的关系图，为方便识别两建筑物间是否存在邻近关系，设定一布尔型函数来辨别，若两建筑物之间存在邻近关系函数值结果为1，否则为0。

(c)建筑物之间的权重

对存在邻近关系的建筑物计算其欧式距离，距离计算是根据这两建筑物之间所有顶点分别进行计算，选取最小值。又由权重的大小代表了两建筑物之间的一个关联度，关联度越高权重越大，并且我们此次研究中主要是根据建筑物之间的距离进行的试验，所以在权重的关联量的选取，本发明需要的是得到聚类效果最好，即保留建筑物之间距离较小的关系，需要将距离小的关系改为建筑物间权重大的情况。因此，本发明对所求取出来的欧氏距离进行归一化处理，然后再通过为元素全部为1的矩阵减去归一化后的矩阵得到关联度越高、权重越大、欧氏距离越小的矩阵，即权重矩阵。

(4)基于建筑物生成最小生成树

参考图5，根据建筑物间的邻近关系和权重可以得到建筑物间存在某些确定的关系，通过Prim算法对建筑物间的邻近关系和对应的权重进行处理，实现最小生成树的生成。实际处理过程中，需要进行分类的图非常的密集，需要此处的算法很稳定，针对Prim算法和Kruskal算法的介绍和试验效果对比，可以得到应该当采用Prim算法进行生成树生成。

(3)建筑物间生成最优生成森林：利用基于谱聚类的切图对对最小生成树进行聚类处理，聚类生成最优生成森林作为最终的聚类结果。

基于谱聚类的切图聚类：对于无向图GG的切图，目标是将图G(V,E)切成相互没有连接的k个子图，每个子图点的集合为：A₁,A₂,...A_k，它们满足

且A₁∪A₂∪...∪A_k＝V。

对于任意两个子图点的集合

定义A和B之间的切图权重为：

那么对于k个子图点的集合：A₁,A₂,...A_k，定义切图cut为：

其中

为A_i的补集，意为除A_i子集外其他V的子集的并集。为了使切图的子图内的点权重和较高，子图间的点权重和低，最小化cut(A₁,A₂,...A_k)。为了避免最小切图导致的切图效果不佳，需要对每个子图的规模做出限定，有两种切图方式：RatioCut和Ncut。对比RatioCut切图谱聚类和NCut切图谱聚类两种聚类生成最优生成森林的方法，Ncut切图优于RatioCut切图。具体描述方法如下：

(a)Ncut切图

其中vol(A_i)表示为A集合中的点与其他存在权重关系的点的权值总和

(b)指示向量h_ji

根据建筑物间的权重构造矩阵，对此矩阵计算矩阵间的相关关系生成相似度矩阵。由拉普拉斯矩阵对任意向量f都有

性质可得对于第i个子图的切图方式：

对于第k个子图的切割对应的NCut表达函数：

H^TDH＝I推导如下：

其中tr(H^TLH)为矩阵的迹，H^TH＝I，为得到最优生成森林，需要最小化tr(H^TLH)函数。观察tr(H^TLH)中每一个优化子目标

其中h是不是标准正交基，所以需要将指示向量矩阵H做一个转化，令H＝D^1/2F，则H^TLH＝F^TD^-1/2LD^-1/2F,H^TDH＝F^TF＝I，即优化目标变为：F^TD^-1/2LD^-1/2F。求出的最小的前k个特征值，然后求出对应的特征向量，并标准化，得到最后的特征矩阵F，最后对F每一行使用一次K-Means聚类，得到聚类簇，对应聚类簇为图切割边，切割后的图对应最优生成森林。

聚类结果的分析评估：

由于聚类属于非监督分类，所以需要对其结果的好坏进行评估。在本发明的聚类方法主要是通过图切割谱聚类分析居民地最优生成森林来考虑，但此种方法的具体可行性还需要通过后续的实验进行验证。因此，有必要寻找相关理论来衡量与验证聚类结果的可行性，本发明将对实验中构造的邻近关系、边权、最小生成树、图的谱聚类综合分析来检验实验的可行性。具体的描述方法如下：

(a)邻近关系的验证

空间关系一般可以分为两类：相邻关系和连通关系。相邻关系是指两个空间是否相邻，连通关系是两个空间相邻以外是否相通。空间关系能够反映对象空间邻近等特性。在地图综合中，保持综合前后空间关系的一致性是一个非常重要的约束，但在空间中大量存在的几何邻近关系其定义多依赖于上下文环境，具有一定的不确定性，位移的距离远近，邻近关系不一定改变。尤其是对于对象群，其分布具有一定的随机性，建立邻近关系相似性的定量计算模型，对制图综合中空间关系的一致性评价和综合方案的选择具有重要意义。

通过Delaunay三角剖分的最优性和最规则性能够认识到，这种方法生成的邻近关系能够较为准确的表现建筑物间的邻近关系。Voronoi图和Delaunay三角剖分是一个对偶关系的生成图，但基于我们研究方法基于最小生成树的基础，如果使用Voronoi图难以进行生成树的操作和生成。

根据实验结果得到建筑物之间的邻近关系能够完全的展示出来，且能够看出每个建筑物的邻近关系的边没有过建筑物，即较为准确的反应建筑物之间的邻近关系。

(b)边权对聚类结果的影响：

一建筑物有n个顶点，另一建筑物间有m个顶点，在二维平面(x,y)中为得到这两建筑物之间的最小距离，使用普通欧式距离度量公式进行m×n次度量，取最小值仍记为d₁。普通欧式距离公式：

使用曼哈顿距离度量公式进行m×n次度量，取最小值仍记为d₂。曼哈顿距离公式：

d₂＝|x₁-x₂|+|y₁-y₂|

使用切比雪夫距离度量公式进行m×n次度量，取最小值仍记为d₃。切比雪夫距离公式：

d₃＝max(|x₁-x₂|,|y₁-y₂|)

对所有建筑物对象进行归一化处理，将其属性规范到(0，1]之间，权重公式为：

此公式根据所有存在邻近关系的建筑物之间的距离大小进行一个归一化处理，根据存在邻近关系建筑物间的距离和最大距离之间的差值在最大距离和最小距离的差值占比。

欧氏距离的计算是在m维空间中两个点之间的真实距离，可以排除变量之间的相关性的干扰；曼哈顿距离的计算在实际意义上是不符合常规，在两边之和必定大于第三边的这种定律下，此方法获取的距离会存在较大的出入，在聚类结果中也能够看出；切比雪夫距离的计算在二维平面中横、纵坐标中差距较大的量作为两物体间的距离，直接忽略间接因素，这种方法能够提高计算效率，降低时间复杂度。在忽略建筑物之间的横、纵关系，或者是说估测两建筑物间的大致距离的方式，在一定程度能够帮到处理数据，但是在数据处理结果中和聚类分析结果中能够看到聚类簇的结果发生改变，在众多的数据中会影响到最终的聚类簇的切割关系，在聚类结果中不是一味降低时间成本，而是能够看到实验所需要的是高质量的聚类结果。

(c)基于图割的谱聚类对聚类结果的影响：

参考图6、图7以及图8(a)-(f)，谱聚类和K-medoids聚类类似，都是通过各种限制条件确定簇的大小和簇的具体值，但谱聚类只需要数据之间的相似度矩阵就可以确定聚类簇的具体内容，再次进行一个简单的聚类分析就能够得到最优的聚类结果。不像基于距离的聚类对数据有严格要求，必须为多维向量。在谱聚类这种方法中能够解决聚类中分类簇的主要问题，直接减少噪声、NP难等问题，这一聚类算法的实用性更强，受影响程度更小，对误差数据不敏感，聚类展示效果更佳，这使得谱聚类能够在解决普通聚类面临的一些基本问题，基于图割的方式，更为妥善的解决了NP难的这一关键问题。比较当下基于距离的聚类分析的算法中，K-means聚类通常都是作为基础聚类算法而存在的。谱聚类的计算复杂度比K-means要小，特别是对于运行维度非常高的数据时候。

基于格式塔理论(强调整体性)生成最优生成森林可见许多建筑物之间的聚类效果很不好，其中关键问题点在于其中的K棵树的数目是无法依据理论知识确定的，在一万多个数据中这样去确定K的值是极其不现实的一件事情，若是一次又一次的尝试得到K值，可见聚类的目的：通过非监督手段使相似性尽可能高的聚集在一起并没有达到。而图割的谱聚类这种方法就能够很容易地解决K值问题，通过在进行谱聚类的过程中生成的矩阵中的特征值，进行降维处理，得到理想K值，此K值即为最优聚类效果值：相似性最大的建筑物在一起，生成森林的总的距离和较小，生成的树尽可能多。对于上万的数据还是能够快速实现K值的确定，并得到割点以及最优生成森林。

(4)根据建筑物间的邻近关系和权重采用Prim算法实现最小生成树的生成，具体参考图5。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。