CN116796083B - 一种空间数据划分方法及系统 - Google Patents

一种空间数据划分方法及系统 Download PDF

Info

Publication number
CN116796083B
CN116796083B CN202310786048.9A CN202310786048A CN116796083B CN 116796083 B CN116796083 B CN 116796083B CN 202310786048 A CN202310786048 A CN 202310786048A CN 116796083 B CN116796083 B CN 116796083B
Authority
CN
China
Prior art keywords
data
space
value
range
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310786048.9A
Other languages
English (en)
Other versions
CN116796083A (zh
Inventor
尹斌
平宗玮
王凤娇
刘现印
王峰
王皎
黄慧
孙小涛
李玉琳
崔红霞
赵君
侯立媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Provincial Institute of Land Surveying and Mapping
Original Assignee
Shandong Provincial Institute of Land Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Provincial Institute of Land Surveying and Mapping filed Critical Shandong Provincial Institute of Land Surveying and Mapping
Priority to CN202310786048.9A priority Critical patent/CN116796083B/zh
Publication of CN116796083A publication Critical patent/CN116796083A/zh
Application granted granted Critical
Publication of CN116796083B publication Critical patent/CN116796083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Abstract

本发明提供了一种空间数据划分方法及系统,属于地理空间数据划分技术领域,对空间数据创建空间元数据集,并创建空间元数据索引,根据索引信息判断数据类型,进行初步数据划分;如果为一类空间数据,按照行政区域进行划分,形成多个子数据集;如果是二类空间数据,按照数据分布特点判断数据类别,进行二次划分,对于不同类别的数据采用不同的划分算法计算得到数据K值,根据K值将数据分为多个子数据集。本发明根据不同的数据特征,适配相应的数据划分方法,能够根据场景的需求、以及计算尺度、成果需求的不同,充分利用计算资源,满足用户效率、并发度等需求,能够为后续数据计算打好数据基础。

Description

一种空间数据划分方法及系统
技术领域
本发明属于地理空间数据划分技术领域,涉及一种空间数据划分方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
地理信息数据库,由于其包含的地理实体与地理场景数据涉及矢量、影像、地形、表格、瓦片、三维模型等内容,采用对象化、三维化视角对自然客观世界进行数字表达,涵盖空间-属性-语义关系等维度,具有多尺度、多类型、多时序等特点,多样化的数据对应了不同数据应用业务类型,比如土地利用形势分析、国土空间适宜性评价、自然资源保护区土地利用变化分析等。
多样化的数据应用需求需要高性能的数据计算能力,而高性能的数据计算能力是以和合理的数据划分为基础,以便数据计算时能迅速找到管理数据并计算其对应关系。各数据划分方法都为能高效合理的存储数据,但侧重点有所不同,各有优劣,使单一化的技术方法无法满足多尺度、多元化场景的众多需求。如格网划分方法具备结构简单,易于处理的特点,但在数据量较大时会占用较大的内存,限制数据计算效率。如采用哈希划分方法,由于空间数据的复杂性、空间性和关联性,会导致计算节点之间的负载不均衡,或者计算过程中由于数据关联性很高需要通信导致网络之间的堵塞。
发明内容
本发明为了解决上述问题,提出了一种空间数据划分方法及系统,本发明根据不同的数据特征,适配相应的数据划分方法,能够根据场景的需求、以及计算尺度、成果需求的不同,充分利用计算资源,满足用户效率、并发度等需求,能够为后续数据计算打好数据基础。
根据一些实施例,本发明采用如下技术方案:
一种空间数据划分方法,包括以下步骤:
对空间数据创建空间元数据集,并创建空间元数据索引,根据索引信息判断数据类型,进行初步数据划分;
如果为一类空间数据,按照行政区域进行划分,形成多个子数据集;
如果是二类空间数据,按照数据分布特点判断数据类别,进行二次划分,对于不同类别的数据采用不同的划分算法计算得到数据K值,根据K值将数据分为多个子数据集。
作为可选择的实施方式,对空间数据创建空间元数据集的过程包括对所有空间数据,在分布式的环境下采用数据划分的方法将S分块进行存储,ni为其中的子数据集,并对ni根据空间编码、范围和标识建立xi和sni;
构建空间元数据集合mS{dmi},dmi是对于空间数据集S生成的元数据,用于描述点、线、面的矢量数据、包含空间信息的栅格数据,根据dmi中的空间编码、空间范围或者哈希编码对dmi建立空间索引Mi。
作为可选择的实施方式,创建空间元数据索引的过程包括构建空间元数据索引Mi,Mi是第一级索引,根据检索的约束条件在空间元数据集合mS{dmi}进行检索,并根据检索的dmi获取其对应的实际数据块ni与sni;
构建空间索引集合Sn{sni},Sn{sni}是第二级检索,索引sni与ni一一对应,通过sni对ni中的数据进行精确检索。
作为可选择的实施方式,根据索引信息判断数据类型的具体过程包括一类空间数据是按照行政区划为单位进行汇交的矢量数据,二类空间数据是以任意范围为单位进行汇交的各类数据。
作为可选择的实施方式,按照数据分布特点判断数据类别,进行二次划分的具体过程包括如果数据为网络数据,且带有固定的坐标和范围信息,则为标准分幅空间矢量数据;
如果数据的范围与形状的非固定性,而且其数据拓扑关系符合地理信息数据逻辑关系,则为非标准分幅任务区矢量数据;
如果数据为离散的有序数列,且数据量小于设定值,则为地形数据;
如果数据为均匀分布,且数据量超过设定值,则为地理场景数据;
如果数据具有多维性和可增长的拓扑关系表,则为地理实体数据。
作为可选择的实施方式,对于不同类别的数据采用不同的划分算法计算得到数据K值的具体过程包括:对于标准分幅空间矢量数据集,采用格网数据划分方法,根据数据的范围r{xmin,xmax,ymin,ymax},计算出格网的范围集G{gi},顺序计算各网格对应的范围gi,并进行相同的编码,将gi范围内的空间数据分配至相同的数据块内;
对于非标准分幅任务区矢量数据,采用RTree数据划分方法,将距离相近的要素划分指同一区域,将其最小外接举行涉及到的要素作为其叶子节点,将所有的叶子节点作为数据划分依据,即在同一叶子节点内的空间数据具有相同的K值。
作为可选择的实施方式,对于不同类别的数据采用不同的划分算法计算得到数据K值的具体过程包括:
对于地形数据,采用Hilbert数据划分方法,将整个数据集新型网格划分,考虑到分解效率,先将网格进行粗分,然后根据设定的深度值再进行细分,为每个网格对象中心点赋Hilbert值,将该值作为K值,所有空间对象赋值完毕后将K值相同的空间数据划分至相同的数据块内。
作为可选择的实施方式,对于不同类别的数据采用不同的划分算法计算得到数据K值的具体过程包括:
对于地理场景数据,采用QuadTree数据划分方法,采用递归的方法将数据划分为象限,从而实现在庞大数据量中迅速找到目标,四叉树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的空间数据分配至相同的数据块,即在同一叶子节点内的空间数据具有相同的K值。
作为可选择的实施方式,对于不同类别的数据采用不同的划分算法计算得到数据K值的具体过程包括:
对于地理实体数据,采用KD-tree数据划分方法,使用最大方差法来确定纬度,使用中值作为节点值,数据KD树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的空间数据分配至相同的数据块。
一种空间数据划分系统,包括:
初步分类模块,被配置为对空间数据创建空间元数据集,并创建空间元数据索引,根据索引信息判断数据类型,进行初步数据划分;
一类划分模块,被配置为如果为一类空间数据,按照行政区域进行划分,形成多个子数据集;
二类划分模块,被配置为如果是二类空间数据,按照数据分布特点判断数据类别,进行二次划分,对于不同类别的数据采用不同的划分算法计算得到数据K值,根据K值将数据分为多个子数据集。
与现有技术相比,本发明的有益效果为:
本发明可以根据场景的需求、以及计算尺度、成果需求的不同,充分利用计算资源,选择满足用户效率、并发度等需求的高性能。
经过仿真对比,在硬件环境相同的情况下,原始工作时间超过1周,使用本发明的数据划分方法对数据进行重新组织后,配合合适的算法,耗时稳定在1小时~3个小时,效率同比提升2个数量级。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本实施例的整体流程示意图;
图2是本实施例的一类数据划分流程示意图;
图3是本实施例的二类数据划分流程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供一种空间数据划分方法,如图1所示,包括以下步骤:
首先是创建空间元数据集和相应索引。
根据空间数据不同的使用需求,定义基于空间分布式索引的数据组织,主要是将空间元数据集合mS{dmi}、空间元数据索引Mi、空间索引集合Sn{sni}与空间数据集S{ni}进行集成,使其成为一个完整的空间大数据存储生态链。通过空间大数据的分布式组织,在分布式环境下有效的支撑空间大数据的有效存储、高效查询和快速获取。在空间大数据的分布式组织中,各部分的功能是:
空间数据集S{ni}:空间数据集是国土行业作业中产生的所有空间数据的统称,在分布式的环境下采用数据划分的方法将S分块进行存储,ni为其中的子数据集,并对ni根据空间编码、范围和标识建立xi和sni。
空间元数据集合mS{dmi}:dmi是对于空间数据集S生成的元数据,用于描述点、线、面的矢量数据、包含空间信息的栅格数据等,根据dmi中的空间编码、空间范围或者哈希编码等对dmi建立空间索引Mi。
空间元数据索引Mi:Mi是第一级索引,根据检索的约束条件在mS{dmi}进行检索,并根据检索的dmi获取其对应的实际数据块ni与sni(数据划分)。
空间索引集合Sn{sni}:Sn{sni}是第二级检索,索引sni与ni一一对应,可通过sni对ni中的数据进行精确检索。
数据划分的优劣直接影响并行算法的效率。传统的数据划分方法主要采用哈希划分方法,而由于空间数据的复杂性、空间性和关联性,传统数据的划分方法会导致计算节点之间的负载不均衡,或者计算过程中由于数据关联性很高需要通信导致网络之间的堵塞。因此,针对空间计算对数据划分的要求不同,本实施例采用不同的数据划分方法。
一类数据是按照行政区划为单位进行汇交的矢量数据,二类数据是以任意范围为单位进行汇交的各类数据。
按行政区域划分的数据为:数据汇交时以行政区划(或任务区)为单位进行汇交,并汇交相应的行政区划结合表,数据进行存储时可按照相应的行政区划进行划分。
在本实施例中,如图2所示,由于地理信息数据地域的特点,即以行政区域的数据块进行数据的组织与管理,可以认为实际应用中的数据已经是通过行政区域划分后的数据集(一类数据),在后续的计算过程中仅需按照行政区域数据块即可实现分布式并行计算。按照行政区域数据划分具有以下优点:
①无需改变以往地理数据的组织与管理方式,可直接参与计算;
②在其它需要进行数据划分的并行算法中数据划分耗时较长,特别是随着数据量的大小耗时呈线性增长,而在国土业务中通过行政区域数据划分的方法已在国土业务数据组织中实现,无需在并行计算的过程中耗时。
然而,空间计算分析中某些分析(比如缓冲区分析)以县级行政区域进行计算则耗时较长;有些应用场景中,需要进行“小数据”+“大数据”(二类数据)的分析,如分析某河流(“小数据”)1公里范围内的国土情况需要调用该河流流经区域内的所有行政区数据(“大数据”),而加载“大数据”将耗费大量的时间。因此,需要进行更加小粒度的数据划分,降低数据的I/O,为后续一系列分布式计算与分析做好数据准备,主要是基于关键值模型(K-V模型)中的K值进行划分,通过获取数据中的关键值K值,并对K值进行分组,如K值在某一范围之内,或者K值相等可以分为一组A,则A为数据块中的子数据集n。
对于空间大数据,如何根据地理要素作为V值计算K值是研究的重点和难点。利用哈希编码计算地理要素的K值不能顾及空间数据空间分布特征,易造成各任务间的资源配置不均衡,导致空间数据使用的效率降低。因此,空间大数据可利用空间范围的特征对数据进行分析,即将在某一空间范围内地理要素的K值都相同,将相同K值地理要素划分至相同的数据块。而能通过空间范围高效的划分数据的方法主要有以下几种,如图3所示:
1)对于标准分幅空间矢量数据集,采用格网数据划分方法:标准分幅数据本身是一种网格数据,并且自带固定的坐标与范围信息,适合格网数据划分方法。这种方法可最大限度的保存划分后的数据的空间相邻性。具体方法为:根据数据的范围r{xmin,xmax,ymin,ymax},计算出格网的范围集G{gi},顺序计算各网格对应的范围gi,并进行相同的编码。将gi范围内的Geometry分配至相同的Block RDD。
2)对于非标准分幅任务区矢量数据,采用RTree数据划分方法:非标准分幅任务区矢量数据的数据特征是其范围与形状的非固定性,而且其数据拓扑关系符合常规地理信息数据逻辑关系,例如桥在河与路的交叉点处等。根据其特征我们采用RTree数据划分方法,此种数据划分方法的优势是它可以平衡范围的不固定性带来的数据量的巨大变化,并最大限度保留数据的拓扑关系,为后续数据计算打好基础。具体方法为:将距离相近的要素划分指同一区域,将其最小外接举行涉及到的要素作为其叶子节点,将所有的叶子节点作为数据划分依据,即在同一叶子节点内的Geometry具有相同的K值,此划分方式适用于空间范围未知的空间数据。
3)对于DEM等地形数据集,采用Hilbert数据划分方法:DEM数据本质上是一种离散的有序数列,数据量较小,在数据划分时主要考虑存储均衡即可。Hilbert曲线是实现这一目标的有效方法。具体做法为:将整个数据集新型网格划分,考虑到分解效率,先将网格进行粗分,然后根据设定的深度值再进行细分,为每个网格对象中心点赋Hilbert值,将该值作为K值,所有空间对象赋值完毕后将K值相同的Geometry划分至相同的Block RDD。
4)对于地理场景数据集,采用QuadTree数据划分方法:由于场景数据属于数据分布比较均匀的一种数据,而且数据量大,达到TB级甚至更高,所以我们考虑对其进行分块时要重点关注其分块效率,QuadTree数据划分具有速度快,并且能更好地保持图形细节等优势,更适合地理场景数据分割。具体办法为:采用递归的方法将数据划分为象限,从而实现在庞大数据量中迅速找到目标。四叉树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的Geometry分配至相同的Block RDD,即在同一叶子节点内的Geometry具有相同的K值。
5)对于地理实体数据集,采用KD-tree数据划分方法:地理实体数据的特征是数据多维性和可增长的拓扑关系表。适用于k-d树KD-tree数据划分方法,这是一种多维数据分割方法,其在范围搜索及最近邻搜索性能方面表现良好。具体方法为:使用最大方差法来确定纬度,使用中值作为节点值,数据KD树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的Geometry分配至相同的Block RDD,即在同一叶子节点内的Geometry具有相同的K值。
实施例二
一种空间数据划分系统,包括:
初步分类模块,被配置为对空间数据创建空间元数据集,并创建空间元数据索引,根据索引信息判断数据类型,进行初步数据划分;
一类划分模块,被配置为如果为一类空间数据,按照行政区域进行划分,形成多个子数据集;
二类划分模块,被配置为如果是二类空间数据,按照数据分布特点判断数据类别,进行二次划分,对于不同类别的数据采用不同的划分算法计算得到数据K值,根据K值将数据分为多个子数据集。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种空间数据划分方法,其特征是,包括以下步骤:
对空间数据创建空间元数据集,并创建空间元数据索引,根据索引信息判断数据类型,进行初步数据划分;
如果为一类空间数据,按照行政区域进行划分,形成多个子数据集;
如果是二类空间数据,按照数据分布特点判断数据类别,进行二次划分,对于不同类别的数据采用不同的划分算法计算得到数据K值,根据K值将数据分为多个子数据集;
所述的按照数据分布特点判断数据类别,进行二次划分的具体过程包括如果数据为网络数据,且带有固定的坐标和范围信息,则为标准分幅空间矢量数据;
如果数据的范围与形状的非固定性,而且其数据拓扑关系符合地理信息数据逻辑关系,则为非标准分幅任务区矢量数据;
如果数据为离散的有序数列,且数据量小于设定值,则为地形数据;
如果数据为均匀分布,且数据量超过设定值,则为地理场景数据;
如果数据具有多维性和可增长的拓扑关系表,则为地理实体数据;
所述对于不同类别的数据采用不同的划分算法计算得到数据K值的具体过程包括:对于标准分幅空间矢量数据集,采用格网数据划分方法,根据数据的范围r{xmin,xmax,ymin,ymax},计算出格网的范围集G{gi},顺序计算各网格对应的范围gi,并进行相同的编码,将gi范围内的空间数据分配至相同的数据块内;
对于非标准分幅任务区矢量数据,采用RTree数据划分方法,将距离相近的要素划分指同一区域,将其最小外接举行涉及到的要素作为其叶子节点,将所有的叶子节点作为数据划分依据,即在同一叶子节点内的空间数据具有相同的K值;
对于地形数据,采用Hilbert数据划分方法,将整个数据集新型网格划分,考虑到分解效率,先将网格进行粗分,然后根据设定的深度值再进行细分,为每个网格对象中心点赋Hilbert值,将该值作为K值,所有空间对象赋值完毕后将K值相同的空间数据划分至相同的数据块内;
对于地理场景数据,采用QuadTree数据划分方法,采用递归的方法将数据划分为象限,从而实现在庞大数据量中迅速找到目标,四叉树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的空间数据分配至相同的数据块,即在同一叶子节点内的空间数据具有相同的K值;
对于地理实体数据,采用KD-tree数据划分方法,使用最大方差法来确定纬度,使用中值作为节点值,数据KD树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的空间数据分配至相同的数据块。
2.如权利要求1所述的一种空间数据划分方法,其特征是,对空间数据创建空间元数据集的过程包括对所有空间数据,在分布式的环境下采用数据划分的方法将S分块进行存储,ni为其中的子数据集,并对ni根据空间编码、范围和标识建立xi和sni;
构建空间元数据集合mS{dmi},dmi是对于空间数据集S生成的元数据,用于描述点、线、面的矢量数据、包含空间信息的栅格数据,根据dmi中的空间编码、空间范围或者哈希编码对dmi建立空间索引Mi。
3.如权利要求1所述的一种空间数据划分方法,其特征是,创建空间元数据索引的过程包括构建空间元数据索引Mi,Mi是第一级索引,根据检索的约束条件在空间元数据集合mS{dmi}进行检索,并根据检索的dmi获取其对应的实际数据块ni与sni;
构建空间索引集合Sn{sni},Sn{sni}是第二级检索,索引sni与ni一一对应,通过sni对ni中的数据进行精确检索。
4.如权利要求1所述的一种空间数据划分方法,其特征是,根据索引信息判断数据类型的具体过程包括一类空间数据是按照行政区划为单位进行汇交的矢量数据,二类空间数据是以任意范围为单位进行汇交的各类数据。
5.一种空间数据划分系统,其特征是,包括:
初步分类模块,被配置为对空间数据创建空间元数据集,并创建空间元数据索引,根据索引信息判断数据类型,进行初步数据划分;
一类划分模块,被配置为如果为一类空间数据,按照行政区域进行划分,形成多个子数据集;
二类划分模块,被配置为如果是二类空间数据,按照数据分布特点判断数据类别,进行二次划分,对于不同类别的数据采用不同的划分算法计算得到数据K值,根据K值将数据分为多个子数据集;
所述的按照数据分布特点判断数据类别,进行二次划分的具体过程包括如果数据为网络数据,且带有固定的坐标和范围信息,则为标准分幅空间矢量数据;
如果数据的范围与形状的非固定性,而且其数据拓扑关系符合地理信息数据逻辑关系,则为非标准分幅任务区矢量数据;
如果数据为离散的有序数列,且数据量小于设定值,则为地形数据;
如果数据为均匀分布,且数据量超过设定值,则为地理场景数据;
如果数据具有多维性和可增长的拓扑关系表,则为地理实体数据;
所述对于不同类别的数据采用不同的划分算法计算得到数据K值的具体过程包括:对于标准分幅空间矢量数据集,采用格网数据划分方法,根据数据的范围r{xmin,xmax,ymin,ymax},计算出格网的范围集G{gi},顺序计算各网格对应的范围gi,并进行相同的编码,将gi范围内的空间数据分配至相同的数据块内;
对于非标准分幅任务区矢量数据,采用RTree数据划分方法,将距离相近的要素划分指同一区域,将其最小外接举行涉及到的要素作为其叶子节点,将所有的叶子节点作为数据划分依据,即在同一叶子节点内的空间数据具有相同的K值;
对于地形数据,采用Hilbert数据划分方法,将整个数据集新型网格划分,考虑到分解效率,先将网格进行粗分,然后根据设定的深度值再进行细分,为每个网格对象中心点赋Hilbert值,将该值作为K值,所有空间对象赋值完毕后将K值相同的空间数据划分至相同的数据块内;
对于地理场景数据,采用QuadTree数据划分方法,采用递归的方法将数据划分为象限,从而实现在庞大数据量中迅速找到目标,四叉树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的空间数据分配至相同的数据块,即在同一叶子节点内的空间数据具有相同的K值;
对于地理实体数据,采用KD-tree数据划分方法,使用最大方差法来确定纬度,使用中值作为节点值,数据KD树的叶子节点作为空间的划分范围集合G{gi},将gi范围内的空间数据分配至相同的数据块。
CN202310786048.9A 2023-06-29 2023-06-29 一种空间数据划分方法及系统 Active CN116796083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310786048.9A CN116796083B (zh) 2023-06-29 2023-06-29 一种空间数据划分方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310786048.9A CN116796083B (zh) 2023-06-29 2023-06-29 一种空间数据划分方法及系统

Publications (2)

Publication Number Publication Date
CN116796083A CN116796083A (zh) 2023-09-22
CN116796083B true CN116796083B (zh) 2023-12-22

Family

ID=88043643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310786048.9A Active CN116796083B (zh) 2023-06-29 2023-06-29 一种空间数据划分方法及系统

Country Status (1)

Country Link
CN (1) CN116796083B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593597B (zh) * 2024-01-19 2024-03-22 山东省国土测绘院 一种地形图像自动分类方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160591A (ja) * 2009-01-07 2010-07-22 Hitachi Ltd 空間データ管理装置、空間データ管理方法、および、空間データ管理プログラム
CN102902742A (zh) * 2012-09-17 2013-01-30 南京邮电大学 一种云环境下的空间数据划分方法
CN103092853A (zh) * 2011-10-31 2013-05-08 中国移动通信集团公司 一种空间索引的建立方法、使用方法及装置
WO2015096582A1 (zh) * 2013-12-27 2015-07-02 华为技术有限公司 一种时空数据的索引建立方法、查询方法、装置及设备
CN106021480A (zh) * 2016-05-19 2016-10-12 福建农林大学 一种基于网格划分的并行空间划分方法及其系统
CN106021567A (zh) * 2016-05-31 2016-10-12 中国农业大学 一种基于Hadoop的海量矢量数据划分方法及系统
CN108628951A (zh) * 2018-04-03 2018-10-09 苏州舆图数据科技有限公司 基于文档模型的空间数据块状组织存储与化简压缩方法
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN110334164A (zh) * 2019-06-12 2019-10-15 重庆工商大学融智学院 一种生态空间数据的融合方法
CN113282337A (zh) * 2021-06-02 2021-08-20 深圳大学 度量空间最优完全划分索引寻找方法、装置及相关组件
CN113515525A (zh) * 2021-07-29 2021-10-19 郑州众合景轩信息技术有限公司 一种基于全球多尺度格网的空间数据组织方法
CN114116925A (zh) * 2020-08-29 2022-03-01 华为技术有限公司 一种时空数据的查询方法及相关装置
CN114398459A (zh) * 2022-01-17 2022-04-26 杭州电子科技大学 一种面向船舶定位数据的时空网格与树融合的存储方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789231B2 (en) * 2016-05-19 2020-09-29 Oracle International Corporation Spatial indexing for distributed storage using local indexes
CN109643316A (zh) * 2016-08-25 2019-04-16 皇家飞利浦有限公司 将空间数据存储在数据库中/从数据库中检索空间数据
US10803096B2 (en) * 2017-09-28 2020-10-13 Here Global B.V. Parallelized clustering of geospatial data

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160591A (ja) * 2009-01-07 2010-07-22 Hitachi Ltd 空間データ管理装置、空間データ管理方法、および、空間データ管理プログラム
CN103092853A (zh) * 2011-10-31 2013-05-08 中国移动通信集团公司 一种空间索引的建立方法、使用方法及装置
CN102902742A (zh) * 2012-09-17 2013-01-30 南京邮电大学 一种云环境下的空间数据划分方法
WO2015096582A1 (zh) * 2013-12-27 2015-07-02 华为技术有限公司 一种时空数据的索引建立方法、查询方法、装置及设备
CN106021480A (zh) * 2016-05-19 2016-10-12 福建农林大学 一种基于网格划分的并行空间划分方法及其系统
CN106021567A (zh) * 2016-05-31 2016-10-12 中国农业大学 一种基于Hadoop的海量矢量数据划分方法及系统
CN108628951A (zh) * 2018-04-03 2018-10-09 苏州舆图数据科技有限公司 基于文档模型的空间数据块状组织存储与化简压缩方法
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN110334164A (zh) * 2019-06-12 2019-10-15 重庆工商大学融智学院 一种生态空间数据的融合方法
CN114116925A (zh) * 2020-08-29 2022-03-01 华为技术有限公司 一种时空数据的查询方法及相关装置
CN113282337A (zh) * 2021-06-02 2021-08-20 深圳大学 度量空间最优完全划分索引寻找方法、装置及相关组件
CN113515525A (zh) * 2021-07-29 2021-10-19 郑州众合景轩信息技术有限公司 一种基于全球多尺度格网的空间数据组织方法
CN114398459A (zh) * 2022-01-17 2022-04-26 杭州电子科技大学 一种面向船舶定位数据的时空网格与树融合的存储方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Efficiently Learning Spatial Indices;Guanli Liu 等;《2023 IEEE 39th International Conference on Data Engineering (ICDE)》;1572-1584 *
Hadoop架构下海量空间数据存储与管理;李庆君;《中国优秀硕士学位论文全文数据库 基础科学辑》(第08期);A008-9 *
云环境下海量空间矢量数据并行划分算法;姚晓闯 等;《武汉大学学报(信息科学版)》;第43卷(第07期);1092-1097 *

Also Published As

Publication number Publication date
CN116796083A (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Shyshatskyi et al. Complex Methods of Processing Different Data in Intellectual Systems for Decision Support Systems
Zuiev et al. Development of complex methodology of processing heterogeneous data in intelligent decision support systems
CN108446293B (zh) 一种基于城市多源异构数据构建城市画像的方法
CN116796083B (zh) 一种空间数据划分方法及系统
CN106777093A (zh) 基于空间时序数据流应用的Skyline查询系统
CN107194533B (zh) 一种配电网全信息模型构建方法及系统
Zhang et al. Dart: A geographic information system on hadoop
CN113570275A (zh) 基于bim和数字高程模型的水资源实时监测系统
CN109145225B (zh) 一种数据处理方法及装置
CN110334164A (zh) 一种生态空间数据的融合方法
CN112330227A (zh) 基于数字化城管业务构建的城市管理能力评价方法和系统
CN116522272A (zh) 一种基于城市信息单元的多源时空数据透明融合方法
CN116775661A (zh) 基于北斗网格技术的空间大数据存储与管理方法
Lin et al. A bottom-up tree based storage approach for efficient iot data analytics in cloud systems
CN114238384A (zh) 区域定位方法、装置、设备和存储介质
Karim et al. Spatiotemporal Aspects of Big Data.
CN115129795A (zh) 一种基于地球空间网格的数据空时存储方法
CN110674134B (zh) 一种地理信息数据存储方法、查询方法及装置
CN114078269A (zh) 一种人脸图像聚类方法、装置、服务器和存储介质
CN115511343A (zh) 一种城市核心区域的确定方法、装置、设备以及存储介质
Basnet et al. Analysis of multifactorial social unrest events with spatio-temporal k-dimensional tree-based dbscan
Belcastro et al. Evaluation of large scale roi mining applications in edge computing environments
CN111737490A (zh) 基于银行渠道的知识图谱本体模型生成方法及装置
Heiler et al. Comparing implementation variants of distributed spatial join on spark
CN112601245A (zh) 长期演进区域容量资源利用情况评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant