CN102902742A - 一种云环境下的空间数据划分方法 - Google Patents

一种云环境下的空间数据划分方法 Download PDF

Info

Publication number
CN102902742A
CN102902742A CN2012103421709A CN201210342170A CN102902742A CN 102902742 A CN102902742 A CN 102902742A CN 2012103421709 A CN2012103421709 A CN 2012103421709A CN 201210342170 A CN201210342170 A CN 201210342170A CN 102902742 A CN102902742 A CN 102902742A
Authority
CN
China
Prior art keywords
spatial data
class
spatial
cloud environment
data object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103421709A
Other languages
English (en)
Inventor
刘林峰
孙靖
吴家皋
邹志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2012103421709A priority Critical patent/CN102902742A/zh
Publication of CN102902742A publication Critical patent/CN102902742A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种云环境下的空间数据划分方法,属于计算机网络技术领域。本发明首先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的k-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中。本发明综合了现有均值法和k均值聚类算法各自的优点,很好满足了空间数据划分的准则,能均衡的将地理空间数据分配给map-reduce进行处理建立R树,从而提高地理空间数据索引效率,且本发明方法计算复杂度低,算法实时性好。

Description

一种云环境下的空间数据划分方法
技术领域
本发明涉及一种云环境下的空间数据划分方法,属于计算机网络技术领域。
背景技术
云计算是一种分布式系统能将计算任务分给多台机器来处理,能对各种应用系统提供计算力、存储空间和信息服务。现在google公司和开源云计算平台hadoop等都使用map-reduce并行计算模型。该模型为海量数据的处理提供了一个通用、高效的技术框架,从而在地理空间数据查询处理、数据挖掘等领域得到了越来越广泛的应用。
当今,提高地理空间数据索引效率是个热点问题,如何找到一种有效的方法在云平台上建立索引机制具有重要的意义。R树是个高度平衡树,用空间对象的MBR(最小外接矩形)来近似表示空间数据对象,根据对象的MBR建立R树,并可以直接对空间中占据一定范围的空间数据对象进行索引。如何找到一种算法划分空间数据对象使得R树满足空间数据对象划分的准则(数据量平衡准则、空间关系平衡准则),有效地提高空间数据的索引效率。已有的并行空间数据库中的分配方法不适合云计算平台,且大都是按空间区域平均划分,这样很难满足空间数据对象划分的准则。
Ariel Cary等人提出了用Z曲线编码空间数据对象,然后根据map节点的数目,按空间数据量平均划分,把得到的每个部分交给map-reduce处理得到R树,这种方法不满足空间关系平衡原则,即划分不能保证空间相邻的对象在R树的同一分支上,以致索引效率降低。
Shubin zhang等人提出了基于空间填充曲线的划分和轮转法结合的划分方法,但这种方法既不满足空间关系平衡原则,也不满足数据平衡准则,这种方法划分的结果在map-reduce上建立的R树的索引效率非常低
贾婷等人提出一种k均值聚类算法的空间数据划分方法,把空间数据划分的结果分配给不同的计算节点。这种方法不满足数据量平衡原则,k均值聚类算法只能保证空间相邻的对象在同一族,但不能保证每个族的大小相对平衡。
刘润涛等人提出用k均值聚类算法建立R树,只是简单地考虑了空间数据对象的相邻关系,并没有考虑数据量平衡原则,这样会使R树的部分分支索引过于频繁,而且没有提出用map-reduce模型来构建R树,只是简单地并行构建R树,导致效率不高。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种云环境下的空间数据划分方法,能够同时满足空间数据对象划分的数据量平衡准则和空间关系平衡准则,且计算复杂度低,算法实时性好。
本发明具体采用以下技术方案解决上述技术问题:
一种云环境下的空间数据划分方法,包括以下步骤:
步骤1、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;
步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为k个类,k为所述云环境中存储节点的数量;
步骤3、计算一维有序数组中每个元素与k个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于
Figure 2012103421709100002DEST_PATH_IMAGE002
n为所述一维有序数组中的元素个数;
步骤4、更新k个类中心;
步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件;
步骤6、按照最终的划分结果对空间数据对象进行划分。
本发明方法首先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的k-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中。本发明综合了现有均值法和k均值聚类算法各自的优点,很好满足了空间数据划分的准则,能均衡的将地理空间数据分配给map-reduce进行处理建立R树,从而提高地理空间数据索引效率,且本发明方法计算复杂度低,算法实时性好。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
在建立云环境下的地理空间数据R树索引结构时,划分空间数据对象应使得R树满足空间数据对象划分的数据量平衡准则和空间关系平衡准则。正如背景技术中介绍的,现有均值法的划分方法不满足空间关系平衡原则,即划分不能保证空间相邻的对象在R树的同一分支上,以致索引效率降低;而k均值聚类算法虽然满足了空间关系平衡原则,但却无法满足数据量平衡准则。为解决该问题,本发明的思路是先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的k-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中,这样空间数据划分既满足了数据量平衡准则,又满足了空间关系平衡准则;且通过之前的初步划分,后续的聚类算法的效率可大幅度提高。具体而言,本发明的云环境下的空间数据划分方法,如图1所示,包括以下步骤:
步骤1、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示。根据空间数据库中对象的相关概念,以中心点代表空间数据对象(包括点对象,线对象和面对象)。空间数据库中点对象i的中心坐标即为其坐标(x(i), y(i))。设线或面对象j的最小外接矩形为MBR(j),其边界坐标为(min_x(j), min_y(j), max_x(j), max_y(j))。令area(MBR(j))为矩形的面积,则( pl_x(j), pl_y(j))为MBR(j)的中心点坐标,其中pl_x(j)=(min_x(j)+ max_x(j))/2, pl_y(j)=(min_y(j)+ max_y(j))/2以上定义可以得出空间数据库中无论点对象,线对象或面对象都可以用中心坐标表示。
一个样本集有点对象,线对象和面对象组成时,这混合聚类中心点p 的坐标为:
Figure 2012103421709100002DEST_PATH_IMAGE004
其中,v为空间点对象的个数,w为空间线对象和面对象的个数。
步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为k个类,k为所述云环境中存储节点的数量。
Hlibert曲线的基本原理是把空间划分大小相同的网格,再根据Hlibert曲线编码方法将这些网格编码,每个网格指定一个唯一的编码,并在一定程度上保持空间邻近性,即空间的网格的标号也邻近,一个空间对象由一组网格组成。
sa(j)为数组中的一个元素,表示Hilbert曲线编码下的第j个空间对象样本集,jÎ[0,n-1], n为样本集的个数。数组sa体现出空间数据对象的相邻性。初步划分后每个类包括的样本集为
Figure 2012103421709100002DEST_PATH_IMAGE006
其中, i=1,2,…,k
k个类的类中心分别为
Figure 2012103421709100002DEST_PATH_IMAGE008
其中,i=1,2,…,kp(j)是第j个样本集sa(j)的坐标,m(i)为第ica(i)中样本集个数。
步骤3、计算一维有序数组中每个元素与k个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于
Figure 410690DEST_PATH_IMAGE002
n为所述一维有序数组中的元素个数。
本发明对k-均值聚类算法进行了改进,仍将样本集归入欧式距离最短的类中,但在移出样本集前先判断原所在类中的样本集个数是否大于阈值m 0 (i),如果大于阈值m 0 (i)就进行调整,否则不变;
Figure DEST_PATH_IMAGE010
其中,n为数组中样本集(元素)的个数,i=1,2,…,k
步骤4、重新计算并更新k个类中心c(i)。
步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件;本发明中可根据实际情况设定具体迭代停止条件,例如:相邻两次迭代步中各类中心的变化小于预设范围,或者,达到预设的迭代次数。
步骤6、按照最终的划分结果对空间数据对象进行划分,例如按照最终划分结果将空间数据库中的空间数据对象分配给map-reduce建立R树。

Claims (2)

1.一种云环境下的空间数据划分方法,其特征在于,包括以下步骤:
步骤1、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;
步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为k个类,k为所述云环境中存储节点的数量;
步骤3、计算一维有序数组中每个元素与k个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于
Figure 2012103421709100001DEST_PATH_IMAGE002
n为所述一维有序数组中的元素个数;
步骤4、更新k个类中心;
步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件;
步骤6、按照最终的划分结果对空间数据对象进行划分。
2.如权利要求1所述云环境下的空间数据划分方法,其特征在于,所述迭代停止条件为:相邻两次迭代步中各类中心的变化小于预设范围,或者,达到预设的迭代次数。
CN2012103421709A 2012-09-17 2012-09-17 一种云环境下的空间数据划分方法 Pending CN102902742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103421709A CN102902742A (zh) 2012-09-17 2012-09-17 一种云环境下的空间数据划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103421709A CN102902742A (zh) 2012-09-17 2012-09-17 一种云环境下的空间数据划分方法

Publications (1)

Publication Number Publication Date
CN102902742A true CN102902742A (zh) 2013-01-30

Family

ID=47574974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103421709A Pending CN102902742A (zh) 2012-09-17 2012-09-17 一种云环境下的空间数据划分方法

Country Status (1)

Country Link
CN (1) CN102902742A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408039A (zh) * 2014-09-06 2015-03-11 东北大学 基于Hilbert曲线与R-tree的HBase多维查询系统的构建及其查询方法
CN109255004A (zh) * 2018-09-18 2019-01-22 中国测绘科学研究院 面向地理空间数据的精度保证的在线交互式可视化方法
CN109408616A (zh) * 2018-10-10 2019-03-01 中南民族大学 内容相似性短文本查询方法、设备、系统及存储介质
WO2019127384A1 (en) * 2017-12-29 2019-07-04 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for joining data sets
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN114598586A (zh) * 2022-01-19 2022-06-07 浪潮通信信息系统有限公司 一种多云场景算力网格化方法及系统
CN116796083A (zh) * 2023-06-29 2023-09-22 山东省国土测绘院 一种空间数据划分方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王宝祥: "《基于改进聚类的Hilbert R树空间索引算法研究》", 《中国优秀硕士学位论文全文数据库》 *
赖祖龙等: "《基于Hilbert排列码与R树的海量LIDAR点云索引》", 《测绘科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408039A (zh) * 2014-09-06 2015-03-11 东北大学 基于Hilbert曲线与R-tree的HBase多维查询系统的构建及其查询方法
CN104408039B (zh) * 2014-09-06 2017-09-08 东北大学 基于Hilbert曲线与R‑tree的HBase多维查询系统的构建及其查询方法
WO2019127384A1 (en) * 2017-12-29 2019-07-04 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for joining data sets
CN111587429A (zh) * 2017-12-29 2020-08-25 北京嘀嘀无限科技发展有限公司 用于关联数据集的系统和方法
CN111587429B (zh) * 2017-12-29 2023-12-05 北京嘀嘀无限科技发展有限公司 用于关联数据集的系统和方法
CN109255004A (zh) * 2018-09-18 2019-01-22 中国测绘科学研究院 面向地理空间数据的精度保证的在线交互式可视化方法
CN109408616A (zh) * 2018-10-10 2019-03-01 中南民族大学 内容相似性短文本查询方法、设备、系统及存储介质
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN114598586A (zh) * 2022-01-19 2022-06-07 浪潮通信信息系统有限公司 一种多云场景算力网格化方法及系统
CN114598586B (zh) * 2022-01-19 2023-01-24 浪潮通信信息系统有限公司 一种多云场景算力网格化方法及系统
CN116796083A (zh) * 2023-06-29 2023-09-22 山东省国土测绘院 一种空间数据划分方法及系统
CN116796083B (zh) * 2023-06-29 2023-12-22 山东省国土测绘院 一种空间数据划分方法及系统

Similar Documents

Publication Publication Date Title
CN102902742A (zh) 一种云环境下的空间数据划分方法
CN106708989B (zh) 基于空间时序数据流应用的Skyline查询方法
CN103617162B (zh) 一种对等云平台上构建希尔伯特r树索引的方法
CN106777093B (zh) 基于空间时序数据流应用的Skyline查询系统
CN104615638B (zh) 一种面向大数据的分布式密度聚类方法
CN107330056A (zh) 基于大数据云计算平台的风电场scada系统及其运行方法
CN105069039A (zh) 一种基于spark平台的内存迭代的重叠社区并行发现方法
CN111524445B (zh) 地图生成方法、装置、电子设备及可读存储介质
WO2019019653A1 (zh) 对地形边界进行提取的设备和方法
CN104104621A (zh) 一种基于非线性降维的虚拟网络资源动态自适应调节方法
CN105574194A (zh) 一种用于电子地图界面的坐标点处理方法及装置
CN104239470A (zh) 一种面向分布式环境的空间数据复合处理系统和方法
CN107679127A (zh) 基于地理位置的点云信息并行提取方法及其系统
CN104951442A (zh) 一种确定结果向量的方法和装置
CN117829307A (zh) 一种面向数据异构性的联邦学习方法及系统
CN107341193B (zh) 路网中移动对象查询方法
CN205899536U (zh) 一种基于瓦片地图的地理信息服务系统
CN105138607A (zh) 一种基于混合粒度分布式内存网格索引的knn查询方法
CN102523300A (zh) 面向智能电网的数据密集型云存储模型
CN101436204A (zh) 一种基于并行元胞自动机的城市演变模拟实现方法
CN110908800B (zh) 边云协同环境中基于调度熵的调度优化方法
CN109816184B (zh) 大型风电场拓扑规划方法及装置
CN113093998A (zh) 一种基于地理散列的空间分布式存储优化方法
Jung et al. Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis
CN110704693A (zh) 分布式图计算系统和分布式图计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130130