CN103778191B - 一种顾及空间邻近关系的矢量等高线数据划分方法 - Google Patents
一种顾及空间邻近关系的矢量等高线数据划分方法 Download PDFInfo
- Publication number
- CN103778191B CN103778191B CN201410004177.9A CN201410004177A CN103778191B CN 103778191 B CN103778191 B CN 103778191B CN 201410004177 A CN201410004177 A CN 201410004177A CN 103778191 B CN103778191 B CN 103778191B
- Authority
- CN
- China
- Prior art keywords
- point
- distance
- cluster
- contour line
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种顾及空间邻近关系的矢量等高线数据划分方法。具体步骤如下:(1)读取等高线数据,定量统计等高线数据的特征;(2)计算每条等高线的最小外接矩形的中心点坐标,并用加上高程信息的三维点表示矢量等高线数据;(3)设置并行计算的计算节点数K;(4)计算理想负载均衡状态下每个计算节点的负载阈值,并计算负载阈值下限和负载阈值上限;(5)选取M(M=20K)个点作为初始聚类中心点;(6)把点要素聚类为M个类簇;(7)重新计算M个类簇的中心点坐标;(8)用四元组表示M个类簇;(9)把四元组作为最小数据划分单元,把M个四元组聚类为K个类簇;(10)结束。本发明不仅能满足数据均衡原则,保证负载均衡,还能保证划分的数据具有良好的空间聚集度。
Description
技术领域
本发明属于地理信息和并行计算的交叉技术领域,特别是涉及一种对矢量等高线数据实现数据划分和负载均衡的方法。
背景技术
随着地理信息获取技术的发展,空间数据规模的不断扩展,空间运算复杂程度的不断提高。同时人们要求GIS所求解的问题也越来越复杂,单一的GIS处理模式已经不再适应海量数据空间运算的新需求,同时随着硬件技术和新型应用的不断发展,并行计算系统得到快速发展,如多核体系结构的发展、云计算模式出现、GPU软硬技术的延伸,为并行GIS的发展提供了不可或缺的支持。有关文献:[1]陈国良等,并行计算的一体化研究现状与发展趋势[j].科学通报,2009(8):1043-1049.[2]Xia Y,Li Y,Shi X.Parallel viewshedanalysis on GPU using CUDA[C]//Computational Science and Optimization(CSO),2010Third International Joint Conference on.IEEE,2010,1:373-374.
当前,地理信息领域的并行算法设计主要是从任务分解和数据分解两个角度进行的。任务分解是根据算法的特征和并行计算环境的特点,分析算法中可以并行的部分,对算法进行全局和局部的并行化。数据分解是通过特定算法把数据划分成一些小的数据,然后再将计算关联到所操作的数据上。一个良好的矢量等高线数据划分算法应遵循以下准则:
(1)各个计算节点上数据量均衡
各个计算节点上的数据量应该尽可能的相等,这样才能保证每个计算节点的计算任务想当,使加速比达到最大。
(2)划分的空间数据有良好的聚集度
该准则要求空间位置上邻近的空间数据尽可能的划分在相同的计算节点上,良好的空间聚集度能提高后期空间数据查询的效率,同时也便于在单个节点上计算完成后进行节点内部数据的拓扑检查和修改,提高结果数据的准确度。
(3)各并行计算节点上的数据不相交
在对矢量等高线数据进行划分时,各个计算节点上的数据子集的并集应该是原始的等高线数据集,同时各个计算节点上的等高线数据集又不能有重叠的数据。否则产生的冗余数据不但影响计算的效率,而且会造成计算结果的不一致性。
现有的空间数据划分方法主要有:Oracle Spatial的基于坐标值X或Y的范围划分法和基于坐标值X和Y的范围划分法,这种划分方法没有考虑空间数据的相邻性,可能把空间相邻的数据划分到不同的计算节点上。贾婷和刘润涛等提出的基于K-means聚类算法的空间数据划分方法,该方法把保证了空间相邻的数据划分到相同的计算节点,但是该方法不能保证每个计算节点上的数据量相对均衡。有关文献:[3]贾婷,魏祖宽,唐曙光,等.一种面向并行空间查询的数据划分方法[J].计算机科学,2010,37(008):198-200.[4]刘润涛,安晓华,高晓爽.一种基于R-树的空间索引结构[J].Computer Engineering,2009,35(23):32-34.
发明内容
针对现有并行计算中矢量等高线数据划分的局限性,结合并行计算领域的数据划分方法提供一种顾及空间邻近关系的矢量等高线数据划分方法,不仅能满足数据均衡原则,保证负载均衡,还能保证划分的数据具有良好的空间聚集度,且算法时间复杂度低,实时性好。其研究成果也为分布式环境乃至云计算环境下的空间数据划分提供重要的理论指导和技术方法支持。
本发明的技术解决方案为:
一种顾及空间邻近关系的矢量等高线数据划分方法,具体步骤如下:
步骤1,读取矢量等高线数据,定量统计等高线数据的特征;
步骤2,计算每条等高线的最小外接矩形的中心点坐标,并用具有高程信息的中心点要素表示对应的等高线要素,用点要素来表示等高线要素;
步骤3,设置并行计算的计算节点数K;
步骤4,计算理想负载均衡状态下每个计算节点所接纳的点数,并设置负载阈值下限和负载阈值上限;
步骤5,选择彼此距离尽可能远的M个点作为初始聚类中心点,其中,M=20K,选取方法为:首先随机选取第一个点作为第一个初始类簇中心点,第二个点的选择方法为距离第一个点距离最远的点,然后再选取距离前两个点距离最大的点作为第三个类簇的中心点,以此类推,直到选出初始M个类簇中心点;
步骤6,计算所有点到M个类簇中心的距离,并把点归到距离类簇中心距离最短的聚类中,形成M个类簇;
步骤7,重新计算M个类簇的中心点坐标;
步骤8,用M个四元组C<ID,C_p,Line_Col,P_num>表示M个类簇,并把四元组作为数据划分的最小单位。其中ID为类簇ID号,C_p为该类簇中心点,Line_Col为该类簇所包含的点要素对应的线要素的ID集合,P_num为Line_Col集合中的ID号对应的线要素所包含的点之和;
步骤9,从M个四元组中选择彼此距离尽可能远的K个点作为聚类中心点;
步骤10,计算所有M个四元组的中心点C_p到K个聚类中心点的距离,把四元组归到距离聚类中心点距离最短的聚类中,形成K个类簇;
步骤11,重新计算K个类簇的中心点坐标;
步骤12,重新计算每个四元组中的点到K个类簇中心点的距离,对于任意一个四元组,如果其点与当前所属类簇中心点的距离不是最小,并且当前所属类簇中包含数据量大于阈值上限,则将该四元组放入距离最近的中心点所在的类簇中,否则该四元组所属类簇不变;
步骤13,重复执行步骤11和步骤12,直到满足预设的迭代停止条件;
步骤14,结束。
本发明的技术特点及有益效果:本发明总体上具有简单、自动化、智能化的特点,相对于目前在实际工程中应用广泛应用的各种矢量线要素数据划分方法,本发明主要解决的问题有:
(1)针对矢量线要素数据的特点,利用矢量等高线要素最小外接矩形的中心点坐标加上高程信息构成的三维点数据表示矢量等高线数据,实现数据降纬处理,降低了数据划分的难度;
(2)K-means聚类算法具有族内数据具有较好的相似度而族间的数据具有较低的相似度的特点,本发明利用K-means聚类算法这一特性,并对其进行改进,利用其来指导空间数据划分,保证空间位置邻近的数据尽可能的划分到相同的计算节点上;
(3)本发明首先把降纬处理后的点数据聚类为20K(K为并行计算节点数)个类簇,并用四元组来表示这20K个类簇,把四元组中包含的点数据作为数据划分的基本单位,增大了数据划分的粒度,提高了算法的效率;
(4)本发明不仅为推动矢量线要素划分技术的发展,丰富相关研究的内容与方法。其研究成功也为分布式技术乃至云计算环境下的空间数据划分提供重要的理论指导和技术方法支持。
附图说明
图1为本发明一种顾及空间邻近关系的矢量等高线数据划分方法流程图。
具体实施方式
以下结合幅图,对本发明的顾及空间邻近关系的矢量等高线数据划分方法的具体实施方式作详细说明。
本发明顾及空间邻近关系的矢量等高线数据划分方法,其所用的基本变量如表1所示。
表1矢量等高线数据划分方法变量描述
本发明方法的实现步骤如图1所示:
步骤1,读取矢量等高线数据,定量统计等高线数据的特征,包括:等高线数据线条数Nl,总点数Np,等高线数据最低高程Hf,等高线数据最高高程Hu,每条线要素的点数Npi,每条线要素的高程Hi,包含所有线要素数据的最小外接矩形的边界坐标(gbl_min_x,gbl_min_y,gbl_max_x,gbl_max_y),包含每条等高线的最小外接矩形边界坐标(min_x(i),min_y(i),max_x(i),max_y(i))。
步骤2,计算每条等高线的最小外接矩形的中心点坐标r_Pi(l_xi,l_yi),并用具有高程信息的中心点要素l_Pi(l_xi,l_yi,l_zi)表示对应的等高线要素,中心点坐标计算公式如下:
l_xi=(min_x(i)+max_x(i))/2 (1)
l_yi=(min_y(i)+max_y(i))/2 (2)
l_zi=Hi (3)
这样,就可以用Nl个点要素来表示Nl条等高线要素。
步骤3,设置并行计算的计算节点数K。
步骤4,计算理想负载均衡状态下每个计算节点所接纳的点数NA,并设置负载阈值下限Nf和负载阈值上限Nu,阈值计算公式为:
NA=Np/K (4)
Nf=NA*(1-0.1) (5)
Nu=NA*(1+0.1) (6)
步骤5,选择彼此距离尽可能远的M个点作为初始聚类中心点,选取方法为:首先随机选取第一个点cp1(cp_x1,cp_y1,cp_z1)作为第一个初始类簇中心点,第二个点cp2的选择方法为距离第一个点距离最远的点,然后再选取距离前两个点距离最大的点cp3作为第三个类簇的中心点,以此类推,直到选出初始M个类簇中心点。
计算空间中两点直接的距离有多种方法,如欧氏距离、曼哈顿距离、切比雪夫距离、兰氏距离等,设两点P1(x1,y1,z1)和P2(x2,y2,z2),则P1和P2直接的不同距离的计算方法为:
dis<曼哈顿距离>=|x1-x2|+|y1-y2|+|z1-z2| (8)
dis<切比雪夫距离>=max(|x1-x2|,|y1-y2|,|z1-z2|) (9)
本发明选取欧氏距离作为计算两点之间距离的方法,同时为了解决取值范围大的属性对距离的影响大于取值范围小的属性,本发明对计算距离的方法进行了改进,改进步骤为:
(a)首先将各个点的坐标值映射到[0,1]区间,映射公式为:
其中pi是点p的第i个属性的取值,max(pi)是等高线数据中第i个属性的最大值,min(pi)是等高线数据中第i个属性的最小值.
根据映射公式点l_Pi(l_xi,l_yi,l_zi)映射后的坐标为:
(b)然后根据映射后的坐标值计算距离。
点l_Pi到点l_Pj的距离DP(i,j)为:
其中:
步骤6,按照步骤5中改进的欧式距离计算方法计算所有点要素到M个聚类中心的距离,并把点归到距离聚类中心距离最短的聚类中,形成M个类簇。
步骤7,重新计算M个类簇的中心点坐标,计算公式为:
其中pn(i)为第i个类簇包含的点要素的数量,XYZ为第i个类簇里面点j的坐标则聚类中心cpi的坐标为:
步骤8.用M个四元组C<ID,C_p,Line_Col,P_num>表示M个类簇,并把四元组作为数据划分的最小单位。其中ID为类簇ID号,C_p为该类簇中心点,Line_Col为该类簇所包含的点要素对应的线要素的ID集合,P_num为Line_Col集合中的ID号对应的线要素所包含的点之和。
步骤9.按照步骤5的方法从M个四元组中选择彼此距离尽可能远的K个C_p点作为聚类中心点。
步骤10.计算所有M个四元组中C_p点到K个聚类中心点的距离,把四元组归到距离聚类中心点距离最短的聚类中,形成K个类簇。
步骤11.用步骤7中的计算方法重新计算K个类簇的中心点坐标,类簇中心点坐标为该类簇包含的四元组中C_p点的几何中心,聚类中心cpi的坐标为:
其中tn(i)为第i个类簇中包含的四元组数量,C_pj为第i个类簇里面ID号为j的四元组中的类簇中心点,C_pj.X为点C_pj的X坐标,C_pj.Y为点C_pj的Y坐标,C_pj.Z为点C_pj的Z坐标。
步骤12.重新计算每个四元组中点要素C_p到K个类簇中心点的距离,对于任意一个四元组,如果其中点要素C_p与当前所属类簇中心点的距离不是最小,并且当前所属类簇中包含的四元组中P_num之和S_Pi大于阈值上限Nu,则将该四元组放入距离最近的中心点所在的类簇中,否则该四元组所属类簇不变。
步骤13.重复执行步骤11和步骤12,直到满足预设的迭代停止条件;本发明中的停止条件可设置为:k个类簇中包含的点要素对应的线要素包含的点数之和S_Pi均在上限Nu和下限Nf之间。
步骤14.结束。
本文中所描述的具体实例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (1)
1.一种顾及空间邻近关系的矢量等高线数据划分方法,其特征在于,具体步骤如下:
步骤1,读取矢量等高线数据,定量统计等高线数据的特征,包括:等高线数据线条数Nl,总点数Np,等高线数据最低高程Hf,等高线数据最高高程Hu,每条线要素的点数Npi,每条线要素的高程Hi,包含所有线要素数据的最小外接矩形的边界坐标(gbl_min_x,gbl_min_y,gbl_max_x,gbl_max_y),包含每条等高线的最小外接矩形边界坐标(min_x(i),min_y(i),max_x(i),max_y(i));
步骤2,计算每条等高线的最小外接矩形的中心点坐标r_Pi(l_xi,l_yi),并用具有高程信息的中心点要素l_Pi(l_xi,l_yi,l_zi)表示对应的等高线要素,用点要素来表示等高线要素,中心点坐标计算公式如下:
l_xi=(min_x(i)+max_x(i))/2
l_yi=(min_y(i)+max_y(i))/2
l_zi=Hi
这样,就可以用Nl个点要素来表示Nl条等高线要素;
步骤3,设置并行计算的计算节点数K;
步骤4,计算理想负载均衡状态下每个计算节点所接纳的点数,并设置负载阈值下限和负载阈值上限;
步骤5,选择彼此距离尽可能远的M个点作为初始聚类中心点,其中,M=20K,选取方法为:首先随机选取第一个点作为第一个初始类簇中心点,第二个点的选择方法为距离第一个点距离最远的点,然后再选取距离前两个点距离最大的点作为第三个类簇的中心点,
以此类推,直到选出初始M个类簇中心点;距离的计算方法为:
(a)首先将各个点的坐标值映射到[0,1]区间,映射公式为:
其中pi是点p的第i个属性的取值,max(pi)是等高线数据中第i个属性的最大值,min(pi)是等高线数据中第i个属性的最小值;
根据映射公式点l_Pi(l_xi,l_yi,l_zi)映射后的坐标为:
(b)然后根据映射后的坐标值计算距离:
点l_Pi到点l_Pj的距离DP(i,j)为:
其中:
其中,第i条等高线的最小外包矩形在中心点坐标加上等高线高程信息构成的三位点要素坐标为l_Pi(l_xi,l_yi,l_zi),第j条等高线的最小外包矩形在中心点坐标加上等高线高程信息构成的三位点要素坐标为l_Pj(l_xj,l_yj,l_zj);
步骤6,计算所有点到M个类簇中心的距离,并把点归到距离类簇中心距离最短的聚类中,形成M个类簇;
步骤7,重新计算M个类簇的中心点坐标;
步骤8,用M个四元组C<ID,C_p,Line_Col,P_num>表示M个类簇,并把四元组作为数据划分的最小单位;其中ID为类簇ID号,C_p为该类簇中心点,Line_Col为该类簇所包含的点要素对应的线要素的ID集合,P_num为Line_Col集合中的ID号对应的线要素所包含的点之和;
步骤9,从M个四元组中选择彼此距离尽可能远的K个点作为聚类中心点;
步骤10,计算所有M个四元组的中心点C_p到K个聚类中心点的距离,把四元组归到距离聚类中心点距离最短的聚类中,形成K个类簇;
步骤11,重新计算K个类簇的中心点坐标;
步骤12,重新计算每个四元组中的点到K个类簇中心点的距离,对于任意一个四元组,如果其点与当前所属类簇中心点的距离不是最小,并且当前所属类簇中包含数据量大于阈值上限,则将该四元组放入距离最近的中心点所在的类簇中,否则该四元组所属类簇不变;
步骤13,重复执行步骤11和步骤12,直到满足预设的迭代停止条件;
步骤14,结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410004177.9A CN103778191B (zh) | 2014-01-03 | 2014-01-03 | 一种顾及空间邻近关系的矢量等高线数据划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410004177.9A CN103778191B (zh) | 2014-01-03 | 2014-01-03 | 一种顾及空间邻近关系的矢量等高线数据划分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103778191A CN103778191A (zh) | 2014-05-07 |
CN103778191B true CN103778191B (zh) | 2017-02-15 |
Family
ID=50570426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410004177.9A Expired - Fee Related CN103778191B (zh) | 2014-01-03 | 2014-01-03 | 一种顾及空间邻近关系的矢量等高线数据划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103778191B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281912B (zh) * | 2014-09-15 | 2017-11-28 | 复凌科技(上海)有限公司 | 土地利用山地地形变更方法 |
CN106033618B (zh) * | 2016-05-23 | 2019-01-25 | 西安建筑科技大学 | 一种dem数据中盆地的自动标识方法 |
CN107067446B (zh) * | 2017-01-19 | 2021-01-05 | 中国测绘科学研究院 | 一种等高线邻近关系判断及方向自动调整方法 |
CN107302457B (zh) * | 2017-06-22 | 2020-04-07 | 重庆邮电大学 | 一种基于矩形区域的仿真空间分割方法 |
CN107895179A (zh) * | 2017-11-29 | 2018-04-10 | 合肥赑歌数据科技有限公司 | 一种基于临近值分析的工件分类系统及方法 |
CN109062679B (zh) * | 2018-08-01 | 2022-06-14 | 中国科学院遥感与数字地球研究所 | 一种面向并行处理的矢量数据通用划分方法 |
CN112749281B (zh) * | 2021-01-19 | 2023-04-07 | 青岛科技大学 | 一种融合服务协作关系的Restful类型Web服务聚类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976452A (zh) * | 2010-08-23 | 2011-02-16 | 武汉大学 | 基于等高线簇分析的机载激光扫描点云整体滤波方法 |
CN102339478A (zh) * | 2011-09-14 | 2012-02-01 | 北京地拓科技发展有限公司 | 一种从等高线图生成数字高程模型的方法和装置 |
-
2014
- 2014-01-03 CN CN201410004177.9A patent/CN103778191B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976452A (zh) * | 2010-08-23 | 2011-02-16 | 武汉大学 | 基于等高线簇分析的机载激光扫描点云整体滤波方法 |
CN102339478A (zh) * | 2011-09-14 | 2012-02-01 | 北京地拓科技发展有限公司 | 一种从等高线图生成数字高程模型的方法和装置 |
Non-Patent Citations (3)
Title |
---|
Second generation wavelets based GIS terrain data compression using Delaunay triangulation;Biswajeet Pradhan 等;《Engineering Computations》;20070331;200-213 * |
一种面向并行空间查询的数据划分方法;贾婷等;《计算机科学》;20100831;第37卷(第8期);198-200 * |
面向D-TIN并行构建的动态条带数据划分方法与实验分析;齐琳等;《地球信息科学学报》;20120131;第14卷(第1期);55-61 * |
Also Published As
Publication number | Publication date |
---|---|
CN103778191A (zh) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778191B (zh) | 一种顾及空间邻近关系的矢量等高线数据划分方法 | |
CN102306396B (zh) | 一种三维实体模型表面有限元网格自动生成方法 | |
WO2020211605A1 (zh) | 一种基于最大公共子图的栅格地图融合方法 | |
CN101923552B (zh) | 一种多边形矢量图层快速叠合方法 | |
CN110675496A (zh) | 基于三维城市地质模型的网格剖分和可视化方法及其系统 | |
CN102890703A (zh) | 一种网络异质多维标度方法 | |
CN103744999A (zh) | 基于层次划分存储结构的空间矢量数据在线交互制图方法 | |
CN102609982A (zh) | 空间地质数据非结构化模式的拓扑发现方法 | |
CN104537024B (zh) | 一种海量位置签到数据的可视化方法 | |
CN102065019A (zh) | 基于区域划分的片上网络快速ip核映射方法 | |
CN106802958B (zh) | Cad数据到gis数据的转换方法及系统 | |
Burstedde et al. | Coarse mesh partitioning for tree-based amr | |
CN112116709B (zh) | 一种提高地形表达精度的地形特征线处理方法 | |
Thakore et al. | Performance analysis of parallel object-oriented query processing algorithms | |
CN112149287B (zh) | 一种面向负载均衡的交通仿真路网图形化分割方法及系统 | |
Ma et al. | Complex buildings orientation recognition and description based on vector reconstruction | |
CN102254093A (zh) | 基于泰森多边形的连通域统计相关算法 | |
Xing et al. | Continuous monitoring of nearest neighbors on land surface | |
CN104462467B (zh) | 一种用于电子地图界面的坐标点处理方法及装置 | |
Sun et al. | Parallel computing of KNN Query in road network based on MapReduce | |
Rahmati | Simple, faster kinetic data structures | |
Sabharwal et al. | Cardinal direction relations in qualitative spatial reasoning | |
Goss et al. | Street network generation with adjustable complexity using k-means clustering | |
CN105468693B (zh) | 一种高效的拓扑关系计算方法 | |
Bação et al. | Geo-SOM and its integration with geographic information systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170215 Termination date: 20200103 |
|
CF01 | Termination of patent right due to non-payment of annual fee |