CN112256816A - 一种基于分治网格的空间大数据算法 - Google Patents

一种基于分治网格的空间大数据算法 Download PDF

Info

Publication number
CN112256816A
CN112256816A CN202011208189.5A CN202011208189A CN112256816A CN 112256816 A CN112256816 A CN 112256816A CN 202011208189 A CN202011208189 A CN 202011208189A CN 112256816 A CN112256816 A CN 112256816A
Authority
CN
China
Prior art keywords
data
grid
conquer
divide
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011208189.5A
Other languages
English (en)
Inventor
田鹏飞
谷守邦
孙伟
吴丹
储鑫淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yijing Zhilian Beijing Technology Co Ltd
Original Assignee
Yijing Zhilian Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yijing Zhilian Beijing Technology Co Ltd filed Critical Yijing Zhilian Beijing Technology Co Ltd
Priority to CN202011208189.5A priority Critical patent/CN112256816A/zh
Publication of CN112256816A publication Critical patent/CN112256816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分治网格的空间大数据算法,包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分,所述密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D={q1,q2,…,qn},将D等深划分为k个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii=q([n/k]*i)-q([n/k]*(i-1)+1),本发明集实现的分治网格分布式核心算法,可以大幅提升大规模数据下的空间计算性能,考虑空间数据海量,多图层叠加分析计算需求普遍,传统的单机计算模式难以满足时效性要求的情况,可以有效提升分析速度。

Description

一种基于分治网格的空间大数据算法
技术领域
本发明涉及分布式空间计算技术领域,具体为一种基于分治网格的空间大数据算法。
背景技术
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理;
但是随着移动设备的普及,空间数据规模越来越大,出现了井喷式的大发展,如何能够实现TB级空间数据的快速分析,是当前海量空间数据分析面临的重要问题。
发明内容
本发明提供一种基于分治网格的空间大数据算法,可以有效解决上述背景技术中提出随着移动设备的普及,空间数据规模越来越大,出现了井喷式的大发展,如何能够实现TB级空间数据的快速分析,是当前海量空间数据分析面临的重要问题。
为实现上述目的,本发明提供如下技术方案:一种基于分治网格的空间大数据算法,包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分;
所述分治网格划分具体步骤如下:
步骤1:将M
Figure 100002_DEST_PATH_IMAGE002
N的空间数据分别在x,y轴进行投影;
步骤2:对x轴的投影按照密度分为k=
Figure 100002_DEST_PATH_IMAGE004
格,在y轴的投影按照密度也分为k=
Figure 254620DEST_PATH_IMAGE004
格;
步骤3:将网格和图层进行空间叠加,将原图层拆分为每个网格一个图层的格式;
步骤4:在分区存储的基础上,利用希尔伯特曲线建立空间数据的索引。
根据上述技术方案,所述密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D = { q1,q2,…,qn},将D等深划分为k 个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii = q([n/k]*i) - q([n/k]*(i-1) +1) 。
根据上述技术方案,将不同图层和网格的叠加分析任务并行化,利用多个节点的计算能力并行处理,称为分配调度计算;
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果;
通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
根据上述技术方案,所述Spark分布式桉网格进行计算,按照网格将数据解析处理,提取出计算需要的数据,然后将数据封装为任务,提交到 Kafka 的消费者模块,传输到数据处理程序当中;Spark 数据处理模块接收到 Kafka 发出的任务执行命令,Spark 根据任务选择计算程序进行计算,并且渲染计算结果。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明集实现的分治网格分布式核心算法,可以大幅提升大规模数据下的空间计算性能;
考虑空间数据海量,多图层叠加分析计算需求普遍,传统的单机计算模式难以满足时效性要求的情况,基于“分而治之”理念的空间数据并行化分析技术,可以有效提升分析速度;
利用集群处理技术,对需要进行分析的空间图层,按照各个分治网格进行分配调度,利用多台计算资源进行并行计算,之后进行汇总,形成统一的结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的步骤流程结构示意图;
图2是本发明的希尔伯特曲线的空间填充曲线结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案,一种基于分治网格的空间大数据算法,包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分;
分治网格划分具体步骤如下:
步骤1:将M
Figure 234077DEST_PATH_IMAGE002
N的空间数据分别在x,y轴进行投影;
步骤2:对x轴的投影按照密度分为k=
Figure 341710DEST_PATH_IMAGE004
格,在y轴的投影按照密度也分为k=
Figure 64816DEST_PATH_IMAGE004
格;
步骤3:将网格和图层进行空间叠加,将原图层拆分为每个网格一个图层的格式;
步骤4:在分区存储的基础上,利用希尔伯特曲线建立空间数据的索引。
根据上述技术方案,密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D = { q1,q2,…,qn},将D等深划分为k 个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii = q([n/k]*i) - q([n/k]*(i-1) +1) 。
如图2所示:根据上述技术方案,希尔伯特曲线索引,是利用希尔伯特曲线来构建网格索引,通过这样的索引可以快速的进行查询空间点、线、面的所属网格位置,希尔伯特曲线是一种能填充满一个平面正方形的分形曲线,利用希尔伯特曲线索引,可以有效的进行数据降维,并且具有稳定和连续的特性。
根据上述技术方案,将不同图层和网格的叠加分析任务并行化,利用多个节点的计算能力并行处理,称为分配调度计算;
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果,通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果;
通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
根据上述技术方案,Spark分布式桉网格进行计算,按照网格将数据解析处理,提取出计算需要的数据,然后将数据封装为任务,提交到 Kafka 的消费者模块,传输到数据处理程序当中;Spark 数据处理模块接收到 Kafka 发出的任务执行命令,Spark 根据任务选择计算程序进行计算,并且渲染计算结果。
根据上述技术方案,Spark 是一个用来实现快速而通用地集群计算的平台,Spark通过弹性分布式数据集(RDD)提供了丰富的的计算模式,RDD的重要属性,首先RDD代表数据集合,是对数据的抽象模型;其次,获得RDD有两种途径,可以通过封装文件系统上的数据创建,或者通过转换RDD的得到新的RDD,通过将每个网格的数据通过PairRDD来封装,网格的索引标识作为PairRDD的键值对的键,这样就保证了相同网格的数据存储在集群相同的节点上,通过partitionBy()控制RDD的分区数量,也就能控制任务的并行计算,使用两个Stage,第一个Stage负责数据的读取和预处理;第二个stage完成空间分析计算并存储和渲染结果。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明集实现的分治网格分布式核心算法,可以大幅提升大规模数据下的空间计算性能;
考虑空间数据海量,多图层叠加分析计算需求普遍,传统的单机计算模式难以满足时效性要求的情况,基于“分而治之”理念的空间数据并行化分析技术,可以有效提升分析速度;
利用集群处理技术,对需要进行分析的空间图层,按照各个分治网格进行分配调度,利用多台计算资源进行并行计算,之后进行汇总,形成统一的结果。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于分治网格的空间大数据算法,其特征在于:包括分治网格划分,首先将需要计算的空间数据进行预处理,并且进行降维投影,根据投影的密度分布进行分治可变网格划分;
所述分治网格划分具体步骤如下:
步骤1:将M
Figure DEST_PATH_IMAGE002
N的空间数据分别在x,y轴进行投影;
步骤2:对x轴的投影按照密度分为k=
Figure DEST_PATH_IMAGE004
格,在y轴的投影按照密度也分为k=
Figure 149696DEST_PATH_IMAGE004
格;
步骤3:将网格和图层进行空间叠加,将原图层拆分为每个网格一个图层的格式;
步骤4:在分区存储的基础上,利用希尔伯特曲线建立空间数据的索引。
2.根据权利要求1所述的一种基于分治网格的空间大数据算法,其特征在于,所述密度分布可变网格划分,对于x轴数据,采用快速排序法排序后的数据可表示为D = { q1,q2,…,qn},将D等深划分为k 个区间段,则各区间段内的数据点个数均为[n/k],此时第i个区间段Ii = q([n/k]*i) - q([n/k]*(i-1) +1) 。
3.根据权利要求1所述的一种基于分治网格的空间大数据算法,其特征在于,将不同图层和网格的叠加分析任务并行化,利用多个节点的计算能力并行处理,称为分配调度计算;
在集群化处理方面,利用Spark将整个的计算任务分解为每个网格的计算任务在集群上分别执行,最终通过数据汇总任务将各个子任务的结果进行汇总形成最终结果;
通过分布式的分配调度计算可以突破以往单机计算能力不足的缺陷。
4.根据权利要求3所述的一种基于分治网格的空间大数据算法,其特征在于,所述Spark分布式桉网格进行计算,按照网格将数据解析处理,提取出计算需要的数据,然后将数据封装为任务,提交到 Kafka 的消费者模块,传输到数据处理程序当中;Spark 数据处理模块接收到 Kafka 发出的任务执行命令,Spark 根据任务选择计算程序进行计算,并且渲染计算结果。
CN202011208189.5A 2020-11-03 2020-11-03 一种基于分治网格的空间大数据算法 Pending CN112256816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011208189.5A CN112256816A (zh) 2020-11-03 2020-11-03 一种基于分治网格的空间大数据算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011208189.5A CN112256816A (zh) 2020-11-03 2020-11-03 一种基于分治网格的空间大数据算法

Publications (1)

Publication Number Publication Date
CN112256816A true CN112256816A (zh) 2021-01-22

Family

ID=74268150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011208189.5A Pending CN112256816A (zh) 2020-11-03 2020-11-03 一种基于分治网格的空间大数据算法

Country Status (1)

Country Link
CN (1) CN112256816A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948123A (zh) * 2021-03-26 2021-06-11 河海大学 一种基于Spark的网格水文模型分布式计算方法
CN113704380A (zh) * 2021-10-26 2021-11-26 土豆数据科技集团有限公司 基于空间格网的分布式叠加分析方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234687A1 (en) * 2003-05-29 2005-10-20 Fujitsu Limited Grid dividing method, grid dividing apparatus, computer readable recording medium recorded thereon grid dividing program, and computer readable recording medium recorded thereon data converting program
CN105160706A (zh) * 2015-06-03 2015-12-16 江西理工大学 一种单机多核环境下约束地形并行构建方法
CN106649882A (zh) * 2017-01-10 2017-05-10 浪潮通信信息系统有限公司 一种应用于电信领域的空间数据管理中间件及其实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234687A1 (en) * 2003-05-29 2005-10-20 Fujitsu Limited Grid dividing method, grid dividing apparatus, computer readable recording medium recorded thereon grid dividing program, and computer readable recording medium recorded thereon data converting program
CN105160706A (zh) * 2015-06-03 2015-12-16 江西理工大学 一种单机多核环境下约束地形并行构建方法
CN106649882A (zh) * 2017-01-10 2017-05-10 浪潮通信信息系统有限公司 一种应用于电信领域的空间数据管理中间件及其实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
熊景盼: "基于Spark的遥感大数据高效索引系统设计与实现研究", 《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》 *
盛开元 等: "基于可变网格划分的密度偏差抽样算法", 《计算机应用》 *
贾文珏 等: "基于"分治网格"的空间大数据快速分析方法", 《计算机工程与设计》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948123A (zh) * 2021-03-26 2021-06-11 河海大学 一种基于Spark的网格水文模型分布式计算方法
CN112948123B (zh) * 2021-03-26 2023-02-28 河海大学 一种基于Spark的网格水文模型分布式计算方法
CN113704380A (zh) * 2021-10-26 2021-11-26 土豆数据科技集团有限公司 基于空间格网的分布式叠加分析方法、装置及存储介质
CN113704380B (zh) * 2021-10-26 2022-03-11 土豆数据科技集团有限公司 基于空间格网的分布式叠加分析方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Zheng et al. Real-time big data processing framework: challenges and solutions
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN108228724A (zh) 基于图数据库的电网gis拓扑分析方法及存储介质
CN112256816A (zh) 一种基于分治网格的空间大数据算法
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
Soumaya et al. Real-time data stream processing challenges and perspectives
KR101190882B1 (ko) 고속의 소음지도를 가시화하기 위한 클라우드 컴퓨팅 장치 및 방법
CN102831102A (zh) 一种在计算机集群上进行矩阵乘积运算的方法和系统
CN116775041B (zh) 基于流计算和rete算法的实时决策引擎实现方法
Chen et al. Multi-source and heterogeneous data integration model for big data analytics in power DCS
CN107679133B (zh) 一种实用于海量实时pmu数据的挖掘方法
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
CN116523328A (zh) 一种航空装备协同制造产业链协作智能决策方法
Bharti et al. A Review on Big Data Analytics Tools in Context with Scalability
Savvas et al. Combining distributed and multi-core programming techniques to increase the performance of k-means algorithm
CN113901291A (zh) 资产字典库的构建方法及装置、存储介质及电子设备
CN114238045A (zh) 一种电网多源量测数据完整性判断及自动修复系统和方法
Wang et al. An adaptive elasticity policy for staging based in-situ processing
CN111090796A (zh) 一种基于MapReduce的数据挖掘算法
Chang et al. Research on Optimization of Enterprise Financial Management System Based on Big Data Hadoop
Song et al. Resource allocation algorithm based on modeling of ubiquitous network node capability
CN109558214A (zh) 异构环境下宿主机资源管理方法、装置和存储介质
CN117556095B (zh) 图数据分割方法、装置、计算机设备和存储介质
Wang et al. Parallel data mining optimal algorithm of virtual cluster
Zhang et al. Research on Multi-stage GPU Collaborative Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210122

RJ01 Rejection of invention patent application after publication