CN112256816A - 一种基于分治网格的空间大数据算法 - Google Patents
一种基于分治网格的空间大数据算法 Download PDFInfo
- Publication number
- CN112256816A CN112256816A CN202011208189.5A CN202011208189A CN112256816A CN 112256816 A CN112256816 A CN 112256816A CN 202011208189 A CN202011208189 A CN 202011208189A CN 112256816 A CN112256816 A CN 112256816A
- Authority
- CN
- China
- Prior art keywords
- data
- grid
- conquer
- divide
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于分治网格的空间大数据算法,包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分,所述密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D={q1,q2,…,qn},将D等深划分为k个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii=q([n/k]*i)-q([n/k]*(i-1)+1),本发明集实现的分治网格分布式核心算法,可以大幅提升大规模数据下的空间计算性能,考虑空间数据海量,多图层叠加分析计算需求普遍,传统的单机计算模式难以满足时效性要求的情况,可以有效提升分析速度。
Description
技术领域
本发明涉及分布式空间计算技术领域,具体为一种基于分治网格的空间大数据算法。
背景技术
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理;
但是随着移动设备的普及,空间数据规模越来越大,出现了井喷式的大发展,如何能够实现TB级空间数据的快速分析,是当前海量空间数据分析面临的重要问题。
发明内容
本发明提供一种基于分治网格的空间大数据算法,可以有效解决上述背景技术中提出随着移动设备的普及,空间数据规模越来越大,出现了井喷式的大发展,如何能够实现TB级空间数据的快速分析,是当前海量空间数据分析面临的重要问题。
为实现上述目的,本发明提供如下技术方案:一种基于分治网格的空间大数据算法,包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分;
所述分治网格划分具体步骤如下:
步骤3:将网格和图层进行空间叠加,将原图层拆分为每个网格一个图层的格式;
步骤4:在分区存储的基础上,利用希尔伯特曲线建立空间数据的索引。
根据上述技术方案,所述密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D = { q1,q2,…,qn},将D等深划分为k 个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii = q([n/k]*i) - q([n/k]*(i-1) +1) 。
根据上述技术方案,将不同图层和网格的叠加分析任务并行化,利用多个节点的计算能力并行处理,称为分配调度计算;
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果;
通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
根据上述技术方案,所述Spark分布式桉网格进行计算,按照网格将数据解析处理,提取出计算需要的数据,然后将数据封装为任务,提交到 Kafka 的消费者模块,传输到数据处理程序当中;Spark 数据处理模块接收到 Kafka 发出的任务执行命令,Spark 根据任务选择计算程序进行计算,并且渲染计算结果。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明集实现的分治网格分布式核心算法,可以大幅提升大规模数据下的空间计算性能;
考虑空间数据海量,多图层叠加分析计算需求普遍,传统的单机计算模式难以满足时效性要求的情况,基于“分而治之”理念的空间数据并行化分析技术,可以有效提升分析速度;
利用集群处理技术,对需要进行分析的空间图层,按照各个分治网格进行分配调度,利用多台计算资源进行并行计算,之后进行汇总,形成统一的结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的步骤流程结构示意图;
图2是本发明的希尔伯特曲线的空间填充曲线结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案,一种基于分治网格的空间大数据算法,包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分;
分治网格划分具体步骤如下:
步骤3:将网格和图层进行空间叠加,将原图层拆分为每个网格一个图层的格式;
步骤4:在分区存储的基础上,利用希尔伯特曲线建立空间数据的索引。
根据上述技术方案,密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D = { q1,q2,…,qn},将D等深划分为k 个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii = q([n/k]*i) - q([n/k]*(i-1) +1) 。
如图2所示:根据上述技术方案,希尔伯特曲线索引,是利用希尔伯特曲线来构建网格索引,通过这样的索引可以快速的进行查询空间点、线、面的所属网格位置,希尔伯特曲线是一种能填充满一个平面正方形的分形曲线,利用希尔伯特曲线索引,可以有效的进行数据降维,并且具有稳定和连续的特性。
根据上述技术方案,将不同图层和网格的叠加分析任务并行化,利用多个节点的计算能力并行处理,称为分配调度计算;
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果,通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果;
通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
根据上述技术方案,Spark分布式桉网格进行计算,按照网格将数据解析处理,提取出计算需要的数据,然后将数据封装为任务,提交到 Kafka 的消费者模块,传输到数据处理程序当中;Spark 数据处理模块接收到 Kafka 发出的任务执行命令,Spark 根据任务选择计算程序进行计算,并且渲染计算结果。
根据上述技术方案,Spark 是一个用来实现快速而通用地集群计算的平台,Spark通过弹性分布式数据集(RDD)提供了丰富的的计算模式,RDD的重要属性,首先RDD代表数据集合,是对数据的抽象模型;其次,获得RDD有两种途径,可以通过封装文件系统上的数据创建,或者通过转换RDD的得到新的RDD,通过将每个网格的数据通过PairRDD来封装,网格的索引标识作为PairRDD的键值对的键,这样就保证了相同网格的数据存储在集群相同的节点上,通过partitionBy()控制RDD的分区数量,也就能控制任务的并行计算,使用两个Stage,第一个Stage负责数据的读取和预处理;第二个stage完成空间分析计算并存储和渲染结果。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明集实现的分治网格分布式核心算法,可以大幅提升大规模数据下的空间计算性能;
考虑空间数据海量,多图层叠加分析计算需求普遍,传统的单机计算模式难以满足时效性要求的情况,基于“分而治之”理念的空间数据并行化分析技术,可以有效提升分析速度;
利用集群处理技术,对需要进行分析的空间图层,按照各个分治网格进行分配调度,利用多台计算资源进行并行计算,之后进行汇总,形成统一的结果。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
2.根据权利要求1所述的一种基于分治网格的空间大数据算法,其特征在于,所述密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D = { q1,q2,…,qn},将D等深划分为k 个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii = q([n/k]*i) - q([n/k]*(i-1) +1) 。
3.根据权利要求1所述的一种基于分治网格的空间大数据算法,其特征在于,将不同图层和网格的叠加分析任务并行化,利用多个节点的计算能力并行处理,称为分配调度计算;
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果;
通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
4.根据权利要求3所述的一种基于分治网格的空间大数据算法,其特征在于,所述Spark分布式桉网格进行计算,按照网格将数据解析处理,提取出计算需要的数据,然后将数据封装为任务,提交到 Kafka 的消费者模块,传输到数据处理程序当中;Spark 数据处理模块接收到 Kafka 发出的任务执行命令,Spark 根据任务选择计算程序进行计算,并且渲染计算结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208189.5A CN112256816A (zh) | 2020-11-03 | 2020-11-03 | 一种基于分治网格的空间大数据算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208189.5A CN112256816A (zh) | 2020-11-03 | 2020-11-03 | 一种基于分治网格的空间大数据算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256816A true CN112256816A (zh) | 2021-01-22 |
Family
ID=74268150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011208189.5A Pending CN112256816A (zh) | 2020-11-03 | 2020-11-03 | 一种基于分治网格的空间大数据算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256816A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948123A (zh) * | 2021-03-26 | 2021-06-11 | 河海大学 | 一种基于Spark的网格水文模型分布式计算方法 |
CN113704380A (zh) * | 2021-10-26 | 2021-11-26 | 土豆数据科技集团有限公司 | 基于空间格网的分布式叠加分析方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050234687A1 (en) * | 2003-05-29 | 2005-10-20 | Fujitsu Limited | Grid dividing method, grid dividing apparatus, computer readable recording medium recorded thereon grid dividing program, and computer readable recording medium recorded thereon data converting program |
CN105160706A (zh) * | 2015-06-03 | 2015-12-16 | 江西理工大学 | 一种单机多核环境下约束地形并行构建方法 |
CN106649882A (zh) * | 2017-01-10 | 2017-05-10 | 浪潮通信信息系统有限公司 | 一种应用于电信领域的空间数据管理中间件及其实现方法 |
-
2020
- 2020-11-03 CN CN202011208189.5A patent/CN112256816A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050234687A1 (en) * | 2003-05-29 | 2005-10-20 | Fujitsu Limited | Grid dividing method, grid dividing apparatus, computer readable recording medium recorded thereon grid dividing program, and computer readable recording medium recorded thereon data converting program |
CN105160706A (zh) * | 2015-06-03 | 2015-12-16 | 江西理工大学 | 一种单机多核环境下约束地形并行构建方法 |
CN106649882A (zh) * | 2017-01-10 | 2017-05-10 | 浪潮通信信息系统有限公司 | 一种应用于电信领域的空间数据管理中间件及其实现方法 |
Non-Patent Citations (3)
Title |
---|
熊景盼: "基于Spark的遥感大数据高效索引系统设计与实现研究", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》 * |
盛开元 等: "基于可变网格划分的密度偏差抽样算法", 《计算机应用》 * |
贾文珏 等: "基于"分治网格"的空间大数据快速分析方法", 《计算机工程与设计》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948123A (zh) * | 2021-03-26 | 2021-06-11 | 河海大学 | 一种基于Spark的网格水文模型分布式计算方法 |
CN112948123B (zh) * | 2021-03-26 | 2023-02-28 | 河海大学 | 一种基于Spark的网格水文模型分布式计算方法 |
CN113704380A (zh) * | 2021-10-26 | 2021-11-26 | 土豆数据科技集团有限公司 | 基于空间格网的分布式叠加分析方法、装置及存储介质 |
CN113704380B (zh) * | 2021-10-26 | 2022-03-11 | 土豆数据科技集团有限公司 | 基于空间格网的分布式叠加分析方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Real-time big data processing framework: challenges and solutions | |
CN106547882A (zh) | 一种智能电网中营销大数据的实时处理方法及系统 | |
CN108228724A (zh) | 基于图数据库的电网gis拓扑分析方法及存储介质 | |
CN112256816A (zh) | 一种基于分治网格的空间大数据算法 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
Soumaya et al. | Real-time data stream processing challenges and perspectives | |
KR101190882B1 (ko) | 고속의 소음지도를 가시화하기 위한 클라우드 컴퓨팅 장치 및 방법 | |
CN102831102A (zh) | 一种在计算机集群上进行矩阵乘积运算的方法和系统 | |
CN116775041B (zh) | 基于流计算和rete算法的实时决策引擎实现方法 | |
Chen et al. | Multi-source and heterogeneous data integration model for big data analytics in power DCS | |
CN107679133B (zh) | 一种实用于海量实时pmu数据的挖掘方法 | |
CN115439015B (zh) | 基于数据中台的局域电网数据管理方法、装置及设备 | |
CN116523328A (zh) | 一种航空装备协同制造产业链协作智能决策方法 | |
Bharti et al. | A Review on Big Data Analytics Tools in Context with Scalability | |
Savvas et al. | Combining distributed and multi-core programming techniques to increase the performance of k-means algorithm | |
CN113901291A (zh) | 资产字典库的构建方法及装置、存储介质及电子设备 | |
CN114238045A (zh) | 一种电网多源量测数据完整性判断及自动修复系统和方法 | |
Wang et al. | An adaptive elasticity policy for staging based in-situ processing | |
CN111090796A (zh) | 一种基于MapReduce的数据挖掘算法 | |
Chang et al. | Research on Optimization of Enterprise Financial Management System Based on Big Data Hadoop | |
Song et al. | Resource allocation algorithm based on modeling of ubiquitous network node capability | |
CN109558214A (zh) | 异构环境下宿主机资源管理方法、装置和存储介质 | |
CN117556095B (zh) | 图数据分割方法、装置、计算机设备和存储介质 | |
Wang et al. | Parallel data mining optimal algorithm of virtual cluster | |
Zhang et al. | Research on Multi-stage GPU Collaborative Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210122 |
|
RJ01 | Rejection of invention patent application after publication |