CN102163224A - 自适应空间聚类方法 - Google Patents

自适应空间聚类方法 Download PDF

Info

Publication number
CN102163224A
CN102163224A CN 201110085248 CN201110085248A CN102163224A CN 102163224 A CN102163224 A CN 102163224A CN 201110085248 CN201110085248 CN 201110085248 CN 201110085248 A CN201110085248 A CN 201110085248A CN 102163224 A CN102163224 A CN 102163224A
Authority
CN
China
Prior art keywords
spatial
space
mean
entity
thematic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110085248
Other languages
English (en)
Inventor
邓敏
刘启亮
黄健柏
石岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN 201110085248 priority Critical patent/CN102163224A/zh
Publication of CN102163224A publication Critical patent/CN102163224A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应空间聚类方法,包括:(1)空间数据预处理及特征选取;(2)根据空间属性构建Delaunay三角网;(3)依据空间属性进行聚类分析操作;(4)若需要进一步考虑空间实体障碍则转步骤(5),若要考虑专题属性转步骤(6),否则空间聚类操作终止;(5)导入空间障碍图层,将空间障碍与各个空间簇中实体间的Delaunay三角网边长进行叠加分析,若相交则打断该边长;(6)采用改进的基于密度的空间聚类方法进行专题属性聚类。(7)聚类结果可视化,并输出聚类结果。本发明具有操作简便、自动化程度与计算效率高、功能完备、适用性强等优点,能有效提高空间聚类分析挖掘深层次地学规律的能力。

Description

自适应空间聚类方法
技术领域
本发明属于空间数据挖掘与空间分析领域,涉及一种自适应空间聚类方法。
背景技术
空间聚类是当前地理空间数据挖掘与知识发现的一个重要手段,其旨在将空间数据库中的实体划分为一系列具有一定分布模式的空间簇,使得同一空间簇中的实体具有最大的相似度,不同空间簇中的实体具有最大差别。当前,空间聚类已广泛应用于犯罪热点分析、地震空间分布模式挖掘、制图自动综合、遥感影像分类、公共设施选址、地价评估以及时空建模等诸多领域。
现有的空间聚类方法大致可以分为:(1)划分的方法;(2)层次的方法;(3)基于密度的方法;(4)基于图论的方法;(5)基于模型的方法;(6)基于格网的方法。划分的方法对于体积相似、密度相似的球形簇聚类效果较好。但是,这类方法的聚类结果严重依赖初始聚类中心的选择,难以发现任意形状的空间簇,而且当空间簇尺寸、密度变化较大时难以获得满意的聚类结果。传统的层次聚类方法只适合发现球形的空间簇。改进的层次空间聚类方法,如CURE使用代表点的策略虽然能够发现较为复杂结构的空间簇,但是其依然无法发现任意形状的空间簇,而且过多的输入参数增加了算法的使用难度;传统的密度聚类方法,如DBSCAN由于采用固定阈值聚类,难以适应空间实体密度的变化。改进的密度方法虽然能够在一定程度上顾及空间实体密度的分异特性,然而对于空间簇邻近等问题依然难以很好解决。现有基于图论的聚类方法还不够稳健,容易受空间簇邻接与密度变化的影响。基于模型的方法,需要预先假定空间数据的分布模型,这在某些实际应用中难以准确获得。基于格网的方法虽然聚类效率得到提高,但是聚类质量不高,且易遇到基于密度方法同样的问题。
现有顾及专题属性的空间聚类方法大致可以分为三类:(1)在空间聚类过程中分别考虑空间邻近域专题属性相似。这类方法多是直接在基于密度方法的基础上顾及专题属性的相似性,其与DBSCAN具有类似的缺陷;同时这类方法大多忽视了专题属性空间分布的非均匀性与趋势性,难以保证同一空间簇中的实体专题属性相似。(2)将空间属性与专题属性归一化后加权融合构造距离函数,再采用传统聚类方法进行聚类。但是这类方法中空间属性与专题属性间权值的确定比较困难。(3)分别从空间属性和专题属性两方面进行聚类。这类方法易受其使用的空间属性聚类与专题属性聚类方法的局限性的影响。现有的顾及空间障碍的空间聚类方法大多是在传统空间聚类方法的基础上进行扩展的,因此在很大程度都继承了原有聚类方法的缺陷和不足。此外,现有方法都难以同时顾及空间邻近、专题属性相似以及空间障碍等因素进行空间聚类分析,无疑限制了其在实际中的应用效果。
相关文献:Miller H and Han J.Geographic data mining and knowledge discovery(Second Edition)[M].London:CRC Press,2009;邓敏,刘启亮,李光强.基于场论的空间聚类方法.遥感学报,2010,14(4);李光强,邓敏,程涛,朱建军.一种基于双重距离的空间聚类方法[J].测绘学报,2008,37(4);Estivill-Castro V,Lee I.J.Clustering with obstacles for geographical data mining[J].ISPRS Journal of Photogrammetry & Remote Sensing.2004,59。
发明内容
本发明所要解决的技术问题是提出一种自适应空间聚类方法,该自适应空间聚类方法能够适应空间数据的复杂性、需要较少的人为干预,实用性好,可靠性高。
本发明的技术解决方案如下:
一种自适应空间聚类器,包括以下步骤:
步骤1:构建Delaunay三角网以确定空间实体间的空间邻近关系,进而分别搜索获取每个空间实体的Delaunay邻近实体,即在Delaunay三角网中与该实体直接相连的实体;
步骤2:依据空间属性进行空间聚类操作:该步骤包括基于整体边长约束、局部边长约束和局部方向约束聚类得到空间邻近的空间实体集合;
步骤3:输出聚类结果。
(1)步骤2中基于整体边长约束的聚类用于删除整体上过长的Delaunay三角网边,整体约束条件表达为CGlobal(p),表示与空间实体p连接的所有边的整体约束条件,利用下列公式进行计算:
CGlobal(p)=Mean(DT)+α*(SD(DT)/NI(p));
Mean(DT)表示三角网的平均边长,利用下列公式计算:
Mean ( DT ) = Σ i = 1 N | e i | / N ;
N表示Delaunay三角网中边的数目,在完成Delaunay三角网构建后直接计数求得;|ei|表示第i条边的长度,即边的两个顶点间的欧氏距离;
SD(DT)表示三角网所有边的标准差,利用下列公式计算:
SD ( DT ) = Σ i = 1 n ( | e i | - Mean ( DT ) ) 2 N - 1
NI(p)表示噪声点指数,采用下列公式计算:
NI(p)=Mean(p)/Mean(DT);
Mean(p)表示与空间实体p连接的所有边的平均值,利用下列公式计算:
Mean ( p ) = Σ i = 1 n | e i | / n ;
n表示与p直接连接的边数,α表示调节系数;
依据整体边长约束条件,删除Delaunay三角网中所有长度大于CGlobal(p)的边长;
(2)步骤2中,基于局部边长约束的聚类用于删除局部较长的Delaunay三角网边,局部边长约束条件表达为CLocal(p),表示p的二阶邻域范围内所有边的局部约束条件,利用下列公式计算:
CLocal(p)=Mean(NN2(p))+β*Mean(SDi)
Mean(NN2(p))表示为删除Delaunay整体长边后构成的任一子图中p的二阶邻域内所有边的平均值,采用下列公式计算:
Mean ( NN 2 ( p ) ) = Σ i = 1 m | e i | m
m表示p的二阶邻域内边的数目;给定一个图G(图是由一系列顶点及其连接边组成的集合),p为G的一个顶点,那么二阶邻域定义为任意一个到p的路径小于或等于2的顶点与p之间满足2阶邻近关系,路径指一个顶点到另一个顶点所经过边的数目;
SD(pj)为图Gi中任一空间实体pj的一阶邻域内所有边的标准差,pj的一阶邻域内所有边与pj直接连接的边;
SD ( p j ) = Σ i = 1 k ( Mean ( p j ) - | e i | ) 2 k - 1 ,
k表示p的直接邻近实体数目,
Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值,利用下列公式计算:
Mean ( SD i ) = Σ j = 1 k SD ( p j ) / k , p j ∈ G i
β表示调节系数,默认条件下设为1。
依据局部边长约束条件,删除Delaunay三角网中所有长度大于
Figure BDA0000054005600000042
的边长;
(3)步骤2中,基于局部方向约束的聚类步骤为:
针对任一空间实体p,qi∈NN(p),NN(p)表示与p直接通过边连接的顶点集合,局部方向约束条件CDirection(p)表示为:
Figure BDA0000054005600000043
Figure BDA0000054005600000044
表示空间实体间的凝聚力作用,用下列公式计算:
F ρ ( p , q i ) = k · 1 d 2 ( p , q i ) m p m q i e pq i , q i ∈ NN ( p ) ;
k为凝聚力常数,设为1;mp,mqi为实体p,qi的质量,均设为1;d(p,qi)为实体p与qi的欧氏距离;为p指向qi的单位矢量;NN(p)表示与p直接通过边连接的顶点集合;
Figure BDA0000054005600000047
表示p点所受凝聚力合力作用:
F ρ T ( p ) = Σ i = 1 n F ρ ( p , q i ) , q i ∈ NN ( p )
n为与p直接连接的空间实体数目;
Figure BDA0000054005600000049
表示凝聚合力与凝聚分力的矢量夹角,不满足
Figure BDA00000540056000000410
的实体间构成的边需要进行打断。
在步骤1的构建Delaunay三角网前,对空间数据预处理与特征选取:
首先对空间数据进行预处理,对空间数据中缺失的部分采用空间插值的方式进行修补或删除,对重复的记录进行清理;针对空间聚类的任务,即聚类属性,由用户选取空间或专题属性以及相应的距离度量准则,所述的距离包括欧氏距离、闵氏距离或马氏距离。
顾及空间障碍或专题属性进行聚类:
在根据空间属性聚类后获得的各个子图中,构建空间邻近关系:在每个子图删除整体长边后实体间连接关系的基础上,采用放宽的局部边长约束条件,即β设为2,删除局部长边,有公共Delaunay三角网边的实体被认为空间邻近。
还包括顾及空间障碍聚类:【空间障碍包括河流,山脉,公路,道路或其他对空间实体间的可达性造成的阻隔的空间实体,其作为一个单独图层(即一种数据组织形式)储存在地理信息系统空间数据库中。】导入空间障碍图层,空间障碍与空间实体间Delaunay三角网边进行叠置分析,打断与空间障碍相交的Delaunay三角网边,更新实体间的空间邻近关系,所有通过Delaunay三角网边连接的空间实体构成一个空间簇。
还包括顾及专题属性距离进行聚类的过程:
①选取一个未标记的核实体;
②针对该核实体的1阶、2阶,...K阶邻近域的实体,分别判断是否满足直接专题属性距离可达与间接专题属性距离相连条件,若满足则与核实体采用同一ID进行标识,直到没有空间实体可以加入为止,一个空间簇生成结束;这里,K阶邻域是指:给定一个图G,p为G的一个顶点,则任意一个点到p所经过边的数目小于或等于K的所有顶点构成的集合;
③重新选取一个未标记的核,重复步骤②,直到所有实体均进行搜索为止,空间聚类过程结束;不能加入任何空间簇的实体被标记为异常点;
④整理聚类结果,ID相同的空间实体间的Delaunay三角网边保留,否则进行打断,通过Delaunay三角网表连接的实体构成一个空间簇;
所述的直接专题属性距离可达的定义为:对于空间实体p1、p2,若二者之间具有公共边,且dAttr(p1,p2)≤εdirect,则称p1、p2专题属性距离可达,记为其中,dAttr(p1,p2)表示实体p1、p2间的专题属性差异,为各维专题属性分别归一化后的欧氏距离;εdirect表示专题属性差异最小阈值,由用户根据实际需求或领域专家建议进行设置;
所述的间接专题属性距离相连的定义为:对于空间实体集合S={p1,p2,p3,...,pi-1},若dAttr(Avg(p1,p2,...,pi-1),pi)≤εindirect,则称S、pi间接专题属性距离相连,记为
Figure BDA0000054005600000052
其中,Avg(p1,p2,...,pi-1)表示实体p1,p2,...,pi-1的专题属性平均值;εindirect表示间接专题属性距离最小阈值,由用户根据实际需求或领域专家建议进行设置;
所述的核的定义为:选取一个空间实体,如至少有一个空间实体与其满足直接专题属性距离可达则将其视为一个核。
有益效果:
本发明属于空间数据挖掘与空间分析领域,是一种自适应的空间聚类分析工具。主要内容包括:(1)空间数据预处理及特征选取;(2)根据空间属性构建Delaunay三角网,获取空间实体间的Delaunay邻近关系;(3)依据空间属性进行聚类分析操作,按照从整体到局部的策略删除Delaunay三角网中的长边,划分得到一系列的子图,所有通过Delaunay三角网连接的实体构成一个空间簇,并根据边长的统计特征构建实体间的邻近关系;(4)若需要进一步考虑空间实体障碍则转步骤(5),若要考虑专题属性转步骤(6),步骤(5)和(6)亦可依次进行,否则空间聚类操作终止,转步骤(7);(5)导入空间障碍图层,如线状、面状空间障碍实体,将空间障碍与各个空间簇中实体间的Delaunay三角网边长进行叠加分析,若相交则打断该边长,通过边长连接的空间实体继续归属为一个空间簇;(6)采用改进的基于密度的空间聚类方法进行专题属性聚类,归属一个类的空间实体通过Delaunay三角网边连接。(7)聚类结果可视化,并输出聚类结果。
本发明的自适应空间聚类方法能够适应空间数据的复杂性、需要较少的人为干预且能够同时实现多种应用要求,进一步提高了现有空间聚类方法的实用性与可靠性。
本发明具有操作简便、自动化程度与计算效率高、功能完备、适用性强等优点,可以有效提高空间聚类分析挖掘深层次地学规律的能力。
如图1所示,本发明借助Delaunay三角网构建实体间的邻近关系,并采用施加不同层次、不同类型的边长约束来进行空间聚类分析操作,可以直接从数据的空间分布中提取统计特征进行空间聚类,避免了过多的人为因素的影响。与传统的经典方法比较,本发明采用的层次性、针对性的约束策略符合空间数据的分布基本规律与特征(如多尺度、异质性),因而能够适应更加复杂的空间聚类分析操作,可以探测复杂结构的空间簇,对噪声点稳健,且具有较高的运行效率(算法复杂度约为O(NlogN),N表示空间实体数目)。更为重要的是,本发明能够实现多种空间聚类要求,可以同时顾及空间邻近、空间障碍以及专题属性相似,具有更强的实用性。
附图说明
图1是自适应空间聚类器的实现流程;
图2是一组空间数据及其构建的Delaunay三角网;
图3是依据地理坐标的空间聚类流程;
图4是删除整体长边后的Delaunay三角网;
图5是删除局部长边后的Delaunay三角网;
图6是局部方向约束条件计算示例【图6a为图2中虚线框部分的放大显示结果,图6b给出了凝聚合力与凝聚分力的计算实例示意图】;
图7是施加局部方向约束条件后Delaunay三角网;
图8是构建空间邻近关系的结果;
图9是顾及空间障碍的聚类结果;
图10是顾及专题属性的空间聚类流程;
图11是顾及专题属性空间聚类的实例【a-e分别表示了删除整体长边,删除局部长边,局部方向约束,构建空间邻近关系以及最终顾及专题属性聚类的结果(不同簇用不同的符号进行标识)】。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
本发明的具体实施方案由以下几个步骤组成:
1)空间数据预处理与特征选取。Delaunay(狄洛尼)三角网是一系列由空间实体相连但不重合的三角形构成的集合,每个三角形的外接圆都不包含其他空间实体。为了避免构建Delaunay(狄洛尼)三角网时出现错误,该步骤首先对空间数据进行预处理,对空间数据中缺失的部分采用空间插值的方式进行修补或删除,对重复的记录进行清理,具体可参考现有技术;针对空间聚类的任务,即聚类属性,由用户选取特定的空间或专题属性以及相应的距离度量准则(如欧氏距离,闵氏距离,马氏距离等),具体可参考现有技术。
2)构建Delaunay三角网描述空间实体间的空间邻近关系。基于空间实体的地理坐标构建Delaunay三角网,其构建方法可采用现有常规技术,如加点法,分割法及生长法等。Delaunay三角网构建完成后,分别搜索获取每个空间实体的直接Delaunay实体。如图2所示,一个空间数据中实体构成的Delaunay三角网,每个点表示一个空间实体,同时也表示Delaunay三角网中的一个顶点,每条直线段都表示Delaunay三角网的一条边,所有边与顶点构成一个图。
3)依据空间属性(地理坐标)进行空间聚类操作:该步骤主要包括整体边长约束,局部边长约束和局部方向约束,从而得到空间邻近的空间实体集合,其详细流程如图3所示。
3.1)整体边长约束用于删除整体上过长的Delaunay三角网边,整体约束条件表达为CGlobal(p),表示与空间实体p连接的所有边的整体约束条件,利用下列公式进行计算:
CGlobal(p)=Mean(DT)+α*(SD(DT)/NI(p))
Mean(DT)表示三角网的平均边长,利用下列公式计算:
Mean ( DT ) = Σ i = 1 N | e i | / N
N表示Delaunay三角网中边的数量,在完成Delaunay三角网构建后直接计数求得;|ei|表示第i条边的长度,即边的两个顶点间的欧氏距离。
SD(DT)表示三角网所有边的标准差,利用下列公式计算:
SD ( DT ) = Σ i = 1 n ( | e i | - Mean ( DT ) ) 2 N - 1
NI(p)表示噪声点指数,采用下列公式计算:
NI(p)=Mean(p)/Mean(DT)
Mean(p)表示与空间实体p连接的所有边的平均值,利用下列公式计算:
Mean ( p ) = Σ i = 1 n | e i | / n
n表示与p直接连接的边数。
α表示调节系数,默认设为1。
依据整体边长约束条件,删除Delaunay三角网中所有长度大于CGlobal(p)的边长。如图4所示,为图2中Delaunay三角网中删除整体长边后的结果,具有公共边的空间实体被认为空间邻近,以此为依据更新空间实体间的空间邻近关系。
3.2)局部边长约束用于删除局部较长的Delaunay三角网边,局部边长约束条件表达为
Figure BDA0000054005600000083
表示p的二阶邻域范围内所有边的局部约束条件,利用下列公式计算:
C i Local ( p ) = Mean ( NN 2 ( p ) + β * Mean ( SD i ) )
Mean(NN2(p))表示图Gi中,p的二阶邻域内所有边的平均值,采用下列公式计算:
Mean ( NN 2 ( p ) ) = Σ i = 1 m | e i | m
m表示p的二阶邻域内边的数目,二阶邻域定义为给定一个图G,p为G的一个顶点,则任意一个到p的路径(即所经过边的数目)小于或等于2的顶点与p之间满足2阶邻近关系
SD(pj)为图Gi中,pj的一阶邻域(即与p直接连接的边)内所有边的标准差,利用下列公式计算:
SD ( p j ) = Σ i = 1 k ( Mean ( p j ) - | e i | ) 2 k - 1
k表示p的直接邻近实体数目
Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值,利用下列公式计算:
Mean ( SD i ) = Σ j = 1 k SD ( p j ) / k , p j ∈ G i
β表示调节系数,默认条件下设为1。
依据局部边长约束条件,删除Delaunay三角网中所有长度大于的边长。如图5所示,为删除了局部长边的结果,具有公共边的空间实体被认为空间邻近,在此基础上更新空间实体间的邻近关系。
3.3)依据局部方向约束条件,获取空间实体的局部聚集集合。局部方向约束条件CDirection(p)可以表达为:针对任一空间实体p,qi∈NN(p),若qi与p通过公共边连接,则必须满足:
Figure BDA0000054005600000094
表示空间实体间的凝聚力作用,采用下列公式计算:
F ρ ( p , q i ) = k · 1 d 2 ( p , q i ) m p m q i e pq i , q i ∈ NN ( p )
k为凝聚力常数,设为1;mp,mqi为实体p,qi的质量,考虑到可以将空间点实体均视为单位质点,故令mp,mqi均为1;d(p,qi)为实体p与qi的欧氏距离;
Figure BDA0000054005600000096
为p指向qi的单位矢量;NN(p)表示与p直接通过边连接的顶点集合。
表示p点所受凝聚力合力作用,采用下列公式计算:
F ρ T ( p ) = Σ F ρ ( p , q i ) , q i ∈ NN ( p )
Figure BDA0000054005600000099
表示凝聚合力与凝聚分力的矢量夹角。如图6a所示,图6a为图2中虚线框部分的放大显示结果,图6b给出了凝聚合力与凝聚分力的计算实例,虚线箭头表示了凝聚合力的方向,实线箭头表示凝聚分力的方向,二者在平面内构成的最小角度定义为二者的矢量夹角。不满足局部方向约束条件的实体间构成的边需要进行打断,图7显示了进行局部方向约束后剩余的边,也是完全依据地理坐标聚类的最终结果。
4)若需要进一步顾及空间障碍或专题属性,则继续构建实体间的空间邻近关系。在3.2)步骤中空间实体邻近关系的基础上,将β设为2,删除各簇整体的长边,有公共Delaunay边的实体被认为空间邻近,图8为构建实体间邻近关系后的结果。否则,则直接输出聚类结果并可视化。
5)顾及空间障碍影响聚类。导入空间障碍图层,空间障碍与空间实体间Delaunay三角网边进行叠置分析,打断与空间障碍相交的Delaunay三角网边,更新实体间的空间邻近关系。所有通过Delaunay三角网边连接的空间实体构成一个空间簇,图9显示了顾及空间障碍后的聚类结构,每种特定的符号表示一个类(折线表示空间障碍)。
6)顾及专题属性距离。顾及专题属性聚类(如气象站点的气温、降水值等)时首先引入以下几个定义:
直接专题属性距离可达:对于空间实体p1、p2,若二者之间具有公共边,且dAttr(p1,p2)≤εdirect,则称p1、p2专题属性距离可达,记为
Figure BDA0000054005600000101
其中,dAttr(p1,p2)表示实体p1、p2间的专题属性差异,为各维专题属性分别归一化后的欧氏距离;εdirect表示专题属性差异最小阈值,由用户根据实际需求或领域专家建议进行设置。
间接专题属性距离相连:对于空间实体集合S={p1,p2,p3,...,pi-1},若dAttr(Avg(p1,p2,...,pi-1),pi)≤εindirect,则称S、pi间接专题属性距离相连,记为
其中,Avg(p1,p2,...,pi-1)表示实体p1,p2,...,pi-1的专题属性平均值;εindirect表示间接专题属性距离最小阈值,由用户根据实际需求或领域专家建议进行设置。
核:选取一个空间实体,如至少有一个空间实体与其满足直接专题属性距离相连则将其视为一个核。
进一步地,顾及专题属性聚类可表达为以下步骤,其详细流程如图10所示。
①选取一个未标记的核实体,
②针对核实体,针对其1阶、2阶,...K阶邻近域内实体分别判断是否满足直接专题属性距离可达与间接专题属性距离相连条件,若满足则与核实体采用同一ID进行标识,直到没有空间实体可以加入为止,一个空间簇生成结束。
③重新选取一个未标记的核,重复步骤②,直到所有实体均进行搜索为止,空间聚类过程结束。不能加入任何空间簇的实体被标记为异常点。
④整理聚类结果,ID相同的空间实体间的Delaunay三角网边保留,否则进行打断。通过Delaunay三角网表连接的实体构成一个空间簇。
图11为我国陆地区域187个气象站点49年(1960-2008)年平均气温空间聚类结果,专题属性为气温值,采用欧氏距离度量不同站点间气温的差异。a-e分别表示了删除整体长边,删除局部长边,局部方向约束,构建空间邻近关系以及最终顾及专题属性聚类的结果(不同簇用不同的符号进行标识)。
7)空间聚类结果输出与可视化。将聚类结果输出为SHP格式文件,在原始数据字段的基础上,另外添加一个聚类结果标识字段,同一空间簇的实体采用相同的数字进行标识,导出为独立的文件进行保存或进行进一步的分析。此外,可以直接对聚类结果进行可视化处理,其基本原理采用地理符号标识的方法,同一空间簇中的实体采用相同的点状符号和颜色进行可视化,可以直观观察空间聚类的最终结果。

Claims (6)

1.一种自适应空间聚类器,其特征在于,包括以下步骤:
步骤1:构建Delaunay三角网以确定空间实体间的空间邻近关系,进而分别搜索获取每个空间实体的Delaunay邻近实体,即在Delaunay三角网中与该实体直接相连的实体;
步骤2:依据空间属性进行空间聚类操作:该步骤包括基于整体边长约束、局部边长约束和局部方向约束聚类得到空间邻近的空间实体集合;
步骤3:输出聚类结果。
2.根据权利要求1所述的自适应空间聚类器,其特征在于:
(1)步骤2中基于整体边长约束的聚类用于删除整体上过长的Delaunay三角网边,整体约束条件表达为CGlobal(p),表示与空间实体p连接的所有边的整体约束条件,利用下列公式进行计算:
CGlobal(p)=Mean(DT)+α*(SD(DT)/NI(p));
Mean(DT)表示三角网的平均边长,利用下列公式计算:
Mean ( DT ) = Σ i = 1 N | e i | / N ;
N表示Delaunay三角网中边的数目,在完成Delaunay三角网构建后直接计数求得;|ei|表示第i条边的长度,即边的两个顶点间的欧氏距离;
SD(DT)表示三角网所有边的标准差,利用下列公式计算:
SD ( DT ) = Σ i = 1 n ( | e i | - Mean ( DT ) ) 2 N - 1
NI(p)表示噪声点指数,采用下列公式计算:
NI(p)=Mean(p)/Mean(DT);
Mean(p)表示与空间实体p连接的所有边的平均值,利用下列公式计算:
Mean ( p ) = Σ i = 1 n | e i | / n ;
n表示与p直接连接的边数,α表示调节系数;
依据整体边长约束条件,删除Delaunay三角网中所有长度大于CGlobal(p)的边长;
(2)步骤2中,基于局部边长约束的聚类用于删除局部较长的Delaunay三角网边,局部边长约束条件表达为CLocal(p),表示p的二阶邻域范围内所有边的局部约束条件,利用下列公式计算:
CLocal(p)=Mean(NN2(p))+β*Mean(SDi)
Mean(NN2(p))表示为删除Delaunay整体长边后构成的任一子图中p的二阶邻域内所有边的平均值,采用下列公式计算:
Mean ( NN 2 ( p ) ) = Σ i = 1 m | e i | m
m表示p的二阶邻域内边的数目;给定一个图G,p为G的一个顶点,那么二阶邻域定义为任意一个到p的路径小于或等于2的顶点与p之间满足2阶邻近关系,路径指一个顶点到另一个顶点所经过边的数目;
SD(pj)为图Gi中任一空间实体pj的一阶邻域内所有边的标准差,pj的一阶邻域内所有边与pj直接连接的边;
SD ( p j ) = Σ i = 1 k ( Mean ( p j ) - | e i | ) 2 k - 1 ,
k表示p的直接邻近实体数目,
Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值,利用下列公式计算:
Mean ( SD i ) = Σ j = 1 k SD ( p j ) / k , p j ∈ G i
β表示调节系数,默认条件下设为1。
依据局部边长约束条件,删除Delaunay三角网中所有长度大于
Figure FDA0000054005590000024
的边长;
(3)步骤2中,基于局部方向约束的聚类步骤为:
针对任一空间实体p,qi∈NN(p),NN(p)表示与p直接通过边连接的顶点集合,局部方向约束条件CDirection(p)表示为:
Figure FDA0000054005590000025
表示空间实体间的凝聚力作用,用下列公式计算:
F ρ ( p , q i ) = k · 1 d 2 ( p , q i ) m p m q i e pq i , q i ∈ NN ( p ) ;
k为凝聚力常数,设为1;mp,mqi为实体p,qi的质量,均设为1;d(p,qi)为实体p与qi的欧氏距离;
Figure FDA0000054005590000031
为p指向qi的单位矢量;NN(p)表示与p直接通过边连接的顶点集合;
Figure FDA0000054005590000032
表示p点所受凝聚力合力作用:
F ρ T ( p ) = Σ i = 1 n F ρ ( p , q i ) , q i ∈ NN ( p )
n为与p直接连接的空间实体数目;
表示凝聚合力与凝聚分力的矢量夹角,不满足
Figure FDA0000054005590000035
的实体间构成的边需要进行打断。
3.根据权利要求1所述的自适应空间聚类器,其特征在于:在步骤1的构建Delaunay三角网前,对空间数据预处理与特征选取:
首先对空间数据进行预处理,对空间数据中缺失的部分采用空间插值的方式进行修补或删除,对重复的记录进行清理;针对空间聚类的任务,即聚类属性,由用户选取空间或专题属性以及相应的距离度量准则,所述的距离包括欧氏距离、闵氏距离或马氏距离。
4.根据权利要求2所述的自适应空间聚类器,其特征在于:顾及空间障碍或专题属性进行聚类:
在根据空间属性聚类后获得的各个子图中,构建空间邻近关系:在每个子图删除整体长边后实体间连接关系的基础上,采用放宽的局部边长约束条件,即β设为2,删除局部长边,有公共Delaunay三角网边的实体被认为空间邻近。
5.根据权利要求2所述的自适应空间聚类器,其特征在于:还包括顾及空间障碍聚类:导入空间障碍图层,空间障碍与空间实体间Delaunay三角网边进行叠置分析,打断与空间障碍相交的Delaunay三角网边,更新实体间的空间邻近关系,所有通过Delaunay三角网边连接的空间实体构成一个空间簇。
6.根据权利要求1-5任一项所述的自适应空间聚类器,其特征在于:还包括顾及专题属性距离进行聚类的过程:
①选取一个未标记的核实体;
②针对该核实体的1阶、2阶,...K阶邻近域的实体,分别判断是否满足直接专题属性距离可达与间接专题属性距离相连条件,若满足则与核实体采用同一ID进行标识,直到没有空间实体可以加入为止,一个空间簇生成结束;这里,K阶邻域是指:给定一个图G,p为G的一个顶点,则任意一个点到p所经过边的数目小于或等于K的所有顶点构成的集合;
③重新选取一个未标记的核,重复步骤②,直到所有实体均进行搜索为止,空间聚类过程结束;不能加入任何空间簇的实体被标记为异常点;
④整理聚类结果,ID相同的空间实体间的Delaunay三角网边保留,否则进行打断,通过Delaunay三角网表连接的实体构成一个空间簇;
所述的直接专题属性距离可达的定义为:对于空间实体p1、p2,若二者之间具有公共边,且dAttr(p1,p2)≤εdirect,则称p1、p2专题属性距离可达,记为其中,dAttr(p1,p2)表示实体p1、p2间的专题属性差异,为各维专题属性分别归一化后的欧氏距离;εdirect表示专题属性差异最小阈值,由用户根据实际需求或领域专家建议进行设置;
所述的间接专题属性距离相连的定义为:对于空间实体集合S={p1,p2,p3,...,pi-1},若dAttr(Avg(p1,p2,...,pi-1),pi)≤εindirect,则称S、pi间接专题属性距离相连,记为
Figure FDA0000054005590000042
其中,Avg(p1,p2,...,pi-1)表示实体p1,p2,...,pi-1的专题属性平均值;εindirect表示间接专题属性距离最小阈值,由用户根据实际需求或领域专家建议进行设置;
所述的核的定义为:选取一个空间实体,如至少有一个空间实体与其满足直接专题属性距离可达则将其视为一个核。
CN 201110085248 2011-04-06 2011-04-06 自适应空间聚类方法 Pending CN102163224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110085248 CN102163224A (zh) 2011-04-06 2011-04-06 自适应空间聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110085248 CN102163224A (zh) 2011-04-06 2011-04-06 自适应空间聚类方法

Publications (1)

Publication Number Publication Date
CN102163224A true CN102163224A (zh) 2011-08-24

Family

ID=44464451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110085248 Pending CN102163224A (zh) 2011-04-06 2011-04-06 自适应空间聚类方法

Country Status (1)

Country Link
CN (1) CN102163224A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495877A (zh) * 2011-12-05 2012-06-13 中国科学院地理科学与资源研究所 一种湖泊营养物生态分区边界识别的技术方法
CN103150336A (zh) * 2013-02-04 2013-06-12 浙江大学 一种基于用户聚类的sky line在线计算方法
CN103886076A (zh) * 2014-03-24 2014-06-25 中南大学 一种基于密度聚类的气象要素分区方法
CN104035985A (zh) * 2014-05-30 2014-09-10 同济大学 一种面向基础地理信息异常数据的挖掘方法
CN104036024A (zh) * 2014-06-27 2014-09-10 浙江大学 一种基于GACUC和Delaunay三角网的空间聚类方法
WO2015089872A1 (zh) * 2013-12-20 2015-06-25 南京理工大学 一种基于密度聚类的区域数据可视化方法
CN105425293A (zh) * 2015-11-20 2016-03-23 中国石油天然气股份有限公司 地震属性聚类方法及装置
CN105528387A (zh) * 2014-10-16 2016-04-27 埃森哲环球服务有限公司 分割发现、评估和实施平台
DE102015212703B3 (de) * 2015-07-07 2016-07-28 Technische Universität Dresden Verfahren und Vorrichtung zum Bestimmen von Eigenschaften mindestens einer Struktur im Submikrometerbereich
CN105824853A (zh) * 2015-01-09 2016-08-03 日本电气株式会社 聚类设备和方法
CN107038248A (zh) * 2017-04-27 2017-08-11 杭州杨帆科技有限公司 一种基于弹性分布数据集的海量空间数据密度聚类方法
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法
CN107368599A (zh) * 2017-07-26 2017-11-21 中南大学 高维数据的可视化分析方法及其分析系统
CN107431533A (zh) * 2015-01-27 2017-12-01 诺基亚通信公司 用于相邻层级确定的方法和系统
CN107729293A (zh) * 2017-09-27 2018-02-23 中南大学 一种基于多元自适应回归的地理空间异常探测方法
CN107909111A (zh) * 2017-11-24 2018-04-13 中国地质大学(武汉) 一种居民地多边形的多级图聚类划分方法
CN109101998A (zh) * 2018-07-13 2018-12-28 中国地质大学(武汉) 一种基于居民地上下文空间信息的聚类方法及系统
CN110009035A (zh) * 2019-04-03 2019-07-12 中南大学 一种基于图像匹配的测风站群空间聚类方法
CN111241085A (zh) * 2020-01-16 2020-06-05 四川大学 一种基于气象数据的自然分区可视化方法
CN113343565A (zh) * 2021-05-31 2021-09-03 南京图申图信息科技有限公司 顾及空间异质性的邻域效应模式构建与ca模拟方法及系统
CN114779330A (zh) * 2022-04-26 2022-07-22 中国矿业大学 一种基于微震监测的采掘工作面主裂隙方位分析预测方法
DE102022209903A1 (de) 2022-09-20 2024-03-21 Siemens Mobility GmbH Sichere steuerung von technisch-physikalischen systemen

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集》 20091231 刘启亮等 《基于场论的空间聚类有效性评价方法研究》 第33-42页 1-6 , *
《武汉大学学报·信息科学版》 20100331 刘启亮等 《一种基于局部分布的空间聚类算法》 第373-377页 1-6 第35卷, 第3期 *
《现代测量技术与地理信息系统科技创新及产业发展研讨会论文集》 20091231 邓敏等 《一种基于场模型的空间聚类算法》 第133-144页 1-6 , *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495877A (zh) * 2011-12-05 2012-06-13 中国科学院地理科学与资源研究所 一种湖泊营养物生态分区边界识别的技术方法
CN103150336A (zh) * 2013-02-04 2013-06-12 浙江大学 一种基于用户聚类的sky line在线计算方法
CN103150336B (zh) * 2013-02-04 2016-01-20 浙江大学 一种基于用户聚类的skyline在线计算方法
WO2015089872A1 (zh) * 2013-12-20 2015-06-25 南京理工大学 一种基于密度聚类的区域数据可视化方法
CN103886076A (zh) * 2014-03-24 2014-06-25 中南大学 一种基于密度聚类的气象要素分区方法
CN104035985A (zh) * 2014-05-30 2014-09-10 同济大学 一种面向基础地理信息异常数据的挖掘方法
CN104035985B (zh) * 2014-05-30 2017-07-07 同济大学 一种面向基础地理信息异常数据的挖掘方法
CN104036024A (zh) * 2014-06-27 2014-09-10 浙江大学 一种基于GACUC和Delaunay三角网的空间聚类方法
CN104036024B (zh) * 2014-06-27 2017-03-29 浙江大学 一种基于GACUC和Delaunay三角网的空间聚类方法
CN105528387A (zh) * 2014-10-16 2016-04-27 埃森哲环球服务有限公司 分割发现、评估和实施平台
CN105528387B (zh) * 2014-10-16 2020-10-20 埃森哲环球服务有限公司 分割发现、评估和实施平台
CN105824853A (zh) * 2015-01-09 2016-08-03 日本电气株式会社 聚类设备和方法
CN105824853B (zh) * 2015-01-09 2020-06-26 日本电气株式会社 聚类设备和方法
CN107431533A (zh) * 2015-01-27 2017-12-01 诺基亚通信公司 用于相邻层级确定的方法和系统
CN107431533B (zh) * 2015-01-27 2020-03-24 诺基亚通信公司 用于相邻层级确定的方法和系统
US10285096B2 (en) 2015-01-27 2019-05-07 Nokia Solutions And Networks Oy Method and system for neighbor tier determination
DE102015212703B3 (de) * 2015-07-07 2016-07-28 Technische Universität Dresden Verfahren und Vorrichtung zum Bestimmen von Eigenschaften mindestens einer Struktur im Submikrometerbereich
CN105425293A (zh) * 2015-11-20 2016-03-23 中国石油天然气股份有限公司 地震属性聚类方法及装置
CN105425293B (zh) * 2015-11-20 2018-08-10 中国石油天然气股份有限公司 地震属性聚类方法及装置
CN107038248A (zh) * 2017-04-27 2017-08-11 杭州杨帆科技有限公司 一种基于弹性分布数据集的海量空间数据密度聚类方法
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法
CN107368599A (zh) * 2017-07-26 2017-11-21 中南大学 高维数据的可视化分析方法及其分析系统
CN107368599B (zh) * 2017-07-26 2020-06-23 中南大学 高维数据的可视化分析方法及其分析系统
CN107729293A (zh) * 2017-09-27 2018-02-23 中南大学 一种基于多元自适应回归的地理空间异常探测方法
CN107729293B (zh) * 2017-09-27 2019-11-12 中南大学 一种基于多元自适应回归的地理空间异常探测方法
CN107909111A (zh) * 2017-11-24 2018-04-13 中国地质大学(武汉) 一种居民地多边形的多级图聚类划分方法
CN107909111B (zh) * 2017-11-24 2020-06-26 中国地质大学(武汉) 一种居民地多边形的多级图聚类划分方法
CN109101998A (zh) * 2018-07-13 2018-12-28 中国地质大学(武汉) 一种基于居民地上下文空间信息的聚类方法及系统
CN109101998B (zh) * 2018-07-13 2021-05-28 中国地质大学(武汉) 一种基于居民地上下文空间信息的聚类方法及系统
CN110009035A (zh) * 2019-04-03 2019-07-12 中南大学 一种基于图像匹配的测风站群空间聚类方法
CN110009035B (zh) * 2019-04-03 2020-10-27 中南大学 一种基于图像匹配的测风站群空间聚类方法
CN111241085A (zh) * 2020-01-16 2020-06-05 四川大学 一种基于气象数据的自然分区可视化方法
CN111241085B (zh) * 2020-01-16 2022-02-01 四川大学 一种基于气象数据的自然分区可视化方法
CN113343565A (zh) * 2021-05-31 2021-09-03 南京图申图信息科技有限公司 顾及空间异质性的邻域效应模式构建与ca模拟方法及系统
CN113343565B (zh) * 2021-05-31 2024-01-09 南京图申图信息科技有限公司 顾及空间异质性的邻域效应模式构建与ca模拟方法及系统
CN114779330A (zh) * 2022-04-26 2022-07-22 中国矿业大学 一种基于微震监测的采掘工作面主裂隙方位分析预测方法
CN114779330B (zh) * 2022-04-26 2022-12-27 中国矿业大学 一种基于微震监测的采掘工作面主裂隙方位分析预测方法
DE102022209903A1 (de) 2022-09-20 2024-03-21 Siemens Mobility GmbH Sichere steuerung von technisch-physikalischen systemen

Similar Documents

Publication Publication Date Title
CN102163224A (zh) 自适应空间聚类方法
Wu et al. An extended minimum spanning tree method for characterizing local urban patterns
Hassan Monitoring land use/land cover change, urban growth dynamics and landscape pattern analysis in five fastest urbanized cities in Bangladesh
Feng et al. Using DMSP/OLS nighttime light data and K–means method to identify urban–rural fringe of megacities
Goodchild et al. Towards a general theory of geographic representation in GIS
Guan et al. Integration of orthoimagery and lidar data for object-based urban thematic mapping using random forests
CN107194498B (zh) 一种水文监测网络的优化方法
CN106548141A (zh) 一种基于三角网的面向对象耕地信息自动提取方法
Franklin Interpretation and use of geomorphometry in remote sensing: a guide and review of integrated applications
Jin et al. Mapping the annual dynamics of cultivated land in typical area of the Middle-lower Yangtze plain using long time-series of Landsat images based on Google Earth Engine
Zhu et al. Object-oriented tracking of the dynamic behavior of urban heat islands
Lu et al. Regional assessment of pan-Pacific urban environments over 25 years using annual gap free Landsat data
Marshall et al. Testing a high-resolution satellite interpretation technique for crop area monitoring in developing countries
Liu et al. Storm event representation and analysis based on a directed spatiotemporal graph model
Zhao et al. Analyzing urban spatial connectivity using night light observations: a case study of three representative urban agglomerations in China
Zhou et al. Empirical determination of geometric parameters for selective omission in a road network
Qiu et al. Incorporating road and parcel data for object-based classification of detailed urban land covers from NAIP images
Tan et al. Combining residual neural networks and feature pyramid networks to estimate poverty using multisource remote sensing data
Hao et al. Estimating winter wheat area based on an SVM and the variable fuzzy set method
Wu et al. Geo-parcel-based geographical thematic mapping using C5. 0 decision tree: A case study of evaluating sugarcane planting suitability
Namdar et al. Land-use and land-cover classification in semi-arid regions using independent component analysis (ICA) and expert classification
Gerke et al. Image‐based quality assessment of road databases
Zhang et al. Coastline changes in mainland China from 2000 to 2015
Wang et al. Consistent, accurate, high resolution, long time-series mapping of built-up land in the North China Plain
WO2018196214A1 (zh) 一种地理影响民居建筑形态的统计系统及统计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110824