CN117931436A - 一种基于时空大数据引擎的数据处理方法和装置 - Google Patents

一种基于时空大数据引擎的数据处理方法和装置 Download PDF

Info

Publication number
CN117931436A
CN117931436A CN202410027938.6A CN202410027938A CN117931436A CN 117931436 A CN117931436 A CN 117931436A CN 202410027938 A CN202410027938 A CN 202410027938A CN 117931436 A CN117931436 A CN 117931436A
Authority
CN
China
Prior art keywords
data
space
resource
insight
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410027938.6A
Other languages
English (en)
Other versions
CN117931436B (zh
Inventor
何剑锋
张鸿辉
冯亮
罗伟玲
张恒
朱水勋
马昊翔
崔学森
沈亨
吴泳兴
陈建桥
刘映弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lantu Geographic Information Technology Co ltd
Guodi Spacetime Information Technology Beijing Co Ltd
Guangdong Guodi Planning Technology Co ltd
Original Assignee
Guangzhou Lantu Geographic Information Technology Co ltd
Guodi Spacetime Information Technology Beijing Co Ltd
Guangdong Guodi Planning Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Lantu Geographic Information Technology Co ltd, Guodi Spacetime Information Technology Beijing Co Ltd, Guangdong Guodi Planning Technology Co ltd filed Critical Guangzhou Lantu Geographic Information Technology Co ltd
Priority to CN202410027938.6A priority Critical patent/CN117931436B/zh
Publication of CN117931436A publication Critical patent/CN117931436A/zh
Application granted granted Critical
Publication of CN117931436B publication Critical patent/CN117931436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时空大数据引擎的数据处理方法和装置,所述方法包括:获取多源数据集和若干时空大数据任务;将多源数据集分解为前后依赖的若干子过程,以此建立若干资源洞察模型;根据若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;根据若干资源洞察模型对若干引擎的负载进行控制,使若干引擎对多源数据集进行资源调度,得到调度数据;对调度数据进行数据治理和多维分析挖掘,得到目标数据。本发明提出一种基于时空大数据引擎的数据处理方法和装置,通过建立资源洞察模型以控制引擎对多源数据集进行搜索处理,能够快速得到目标数据,所以能够解决难以及时从多源数据集中获取目标数据以进行一站式智能管理的问题。

Description

一种基于时空大数据引擎的数据处理方法和装置
技术领域
本发明涉及数字信息数据处理技术领域,特别是涉及一种基于时空大数据引擎的数据处理方法和装置。
背景技术
新时代下,数据资源已经成为国家重要基础战略资源之一,大数据、云计算、物联网等新一代信息技术的不断创新发展为自然资源时空大数据的存储和分析创造了新条件,例如:计算机硬件与网络的发展为自然资源信息化提供了高效的计算和访问能力,云计算、大数据与人工智能的创新为自然资源智能管理与服务提供了技术手段等;时空大数据技术在海量数据存储、数据挖掘、图像视频智能分析等方面有着显著优势,但时代的发展也对这些数据信息的利用提出了更高的要求。现有方式主要是通过时空大数据技术,对时空大数据进行处理和分析挖掘,以及使用经典GIS功能的分布式重构,对经典时空数据进行管理和处理。
但是,现有技术在对时空大数据的多源数据集进行分析和管理时所使用的模型众多,且经常变化调整,导致资源利用率低,并且,由于时空大数据的数据量庞大,导致无法从中及时获取目标数据信息并进行一站式管理,严重降低了数据的利用率。
发明内容
本发明提供一种基于时空大数据引擎的数据处理方法和装置,以解决难以及时从多源数据集中获取目标数据以进行一站式智能管理的问题。
为了解决上述问题,本发明提供了一种基于时空大数据引擎的数据处理方法,包括:
获取多源数据集和若干时空大数据任务;
将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
根据所述若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据;
对所述调度数据进行数据治理和多维分析挖掘,得到目标数据。
本发明通过数据分解所得到的若干弹性分布式数据集是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;根据各数据集群的负载信息和吞吐率值建立资源洞察模型,可以充分考虑到数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,因此能够以时空大数据任务为基础,通过引擎负载调整,以集中资源在众多数据中进行搜寻调度,可以在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据;最后通过数据治理和多维分析挖掘,能够对数据进行进一步优化处理和遗漏排除,使所得到的目标数据准确有效。
相比于现有技术,本发明通过对多源数据集进行分析处理,建立对应的资源洞察模型以控制引擎进行搜索,能够快速得到调度数据以做进一步处理,使最后得到的目标数据拥有完善且高价值的信息,所以能够解决难以及时从多源数据集中获取目标数据以进行一站式智能管理的问题。
作为优选方案,将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型,具体为:
按照所述若干时空大数据任务的任务数量将所述多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干弹性分布式数据集;
将所述多源数据集的数据重新分配到所述若干弹性分布式数据集中,使所述若干弹性分布式数据集对重新分配的数据进行整合处理;
根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型。
本优选方案通过数据分解所得到的若干弹性分布式数据集是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;由于若干子过程是前后依赖的关系,所以能够降低数据并发执行的限制,提高了各数据集的数据处理的性能和吞吐量。
作为优选方案,根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型,具体为:
根据所述若干弹性分布式数据集在进行整合处理时的CPU利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到所述负载信息集和所述数据吞吐率集;
根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,计算得到模型权重;
根据所述负载信息集、所述数据吞吐率集和所述模型权重建立所述若干资源洞察模型。
本优选方案使用若干弹性分布式数据集在进行整合处理时的数据信息建立资源洞察模型,能够充分考虑到进行整合处理时数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,以便后续以此进行资源调度。
作为优选方案,根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据,具体为:
根据所述若干资源洞察模型的任务负载量和任务吞吐率建立负载信息样本集和历史吞吐率集;
根据所述若干资源洞察模型的模型权重和所述负载信息样本集计算得到所述若干时空大数据任务的若干吞吐率洞察值;
根据所述若干吞吐率洞察值、数据吞吐率集和所述若干时空大数据任务的负载数据量对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据。
本优选方案是资源调度过程的具体描述,根据若干吞吐率洞察值、数据吞吐率集和负载数据量对若干引擎的负载进行控制,能够以时空大数据任务为基础,集中资源在众多数据中进行搜寻调度与引擎负载调整,能够在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据,该调度控制方式针对性强,调度效果立竿见影。
作为优选方案,对所述调度数据进行数据治理和多维分析挖掘,得到目标数据,具体为:
通过对所述调度数据进行信息注册的方式,将所述调度数据与预设的大数据分析资源池建立连接;其中,所述大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库;
对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
在多维空间上对所述过渡数据进行近似数据查找与汇总,得到所述目标数据。
本优选方案对调度数据进行数据清洗与融合,相当于在原有调度数据的基础上做了数据提取与修剪,使所得到的过渡数据条理清晰、数据正常,且数据特征得到了加强;
在多维空间上对过渡数据进行近似数据查找与汇总,能够以优化后的过渡数据为基础,通过不同纬度在多源数据集中再次进行数据分析查找,以避免出现数据遗漏的情况,并且能够对过渡数据做进一步分析,以获取到更多有用的特征属性。
作为优选方案,在所述得到目标数据之后,还包括:
将所述目标数据渲染后输入预设的三维地图中形成若干点位;
通过拾取所述若干点位的高程信息,对所述若干点位进行通视分析,得到通视分析结果;
根据所述三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果;
根据所述通视分析结果和所述动态分析结果对所述若干点位进行查询,得到查询结果;
通过所述三维地图展示所述查询结果。
本优选方案是通过三维地图对查询结果进行展示,由于该查询结果是在通视分析结果和动态分析结果的基础上获取的,因此能够将目标数据中的信息完整有效地展示在三维地图上,避免信息遗漏;并且,通过三维地图的展现方式比使用二维地图或者直接用数字展示的方式更为直观,能够让用户更快速全面地获取目标数据。
作为优选方案,将所述目标数据渲染后输入预设的三维地图中形成若干点位,具体为:
将所述目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果;
将所述分离结果渲染后输入预设的三维地图中形成若干点位;其中,所述三维地图是通过在二维地图上进行点、线、面要素标绘和符号化图标三维展现的方式构建的。
作为优选方案,在所述得到目标数据之后,还包括:
获取目标服务对象的数据信息;
通过预设的服务API管理节点根据所述数据信息的IP、端口和服务信息进行微服务注册;
通过预设的网关服务节点将所述目标数据共享给注册后的所述目标服务对象。
本优选方案通过微服务注册的方式,能够节省数据共享的时间成本,可以直接根据目标服务对象的IP等信息共享对应的服务信息,免除了额外的安全认证,能够在保证数据安全的同时加快数据共享的进度。
作为优选方案,在所述获取多源数据集和若干时空大数据任务之后,还包括:
使用预设模型对所述多源数据集进行配置适用;
根据细粒度分析算子,使进行配置适用后的所述预设模型以拖拽组合的方式对所述多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
使用所述预设模型对所述初步数据进行初步展示和共享复用。
本优选方案通过使用预设模型对初步数据进行初步展示和共享复用,能够在第一时间将数据的初步处理结果反馈给用户,用户可以根据自身需求查看预设模型中与初步数据相关的数据流程及详细参数,减少沟通成本。
本发明还提供了一种基于时空大数据引擎的数据处理装置,包括获取模块、构建模块、遴选模块、调度模块和综合模块;
其中,所述获取模块,用于获取多源数据集和若干时空大数据任务;
所述构建模块,用于将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
所述遴选模块,用于根据所述若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
所述调度模块,用于根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据;
所述综合模块,用于对所述调度数据进行数据治理和多维分析挖掘,得到目标数据。
作为优选方案,所述构建模块包括分解单元、处理单元和模型单元;
其中,所述分解单元,用于按照所述若干时空大数据任务的任务数量将所述多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干弹性分布式数据集;
所述处理单元,用于将所述多源数据集的数据重新分配到所述若干弹性分布式数据集中,使所述若干弹性分布式数据集对重新分配的数据进行整合处理;
所述模型单元,用于根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型。
作为优选方案,所述模型单元包括第一计算子单元、第二计算子单元和第三计算子单元;
其中,所述第一计算子单元,用于根据所述若干弹性分布式数据集在进行整合处理时的CPU利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到所述负载信息集和所述数据吞吐率集;
所述第二计算子单元,用于根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,计算得到模型权重;
所述第三计算子单元,用于根据所述负载信息集、所述数据吞吐率集和所述模型权重建立所述若干资源洞察模型。
作为优选方案,所述调度模块包括数据集单元、洞察值单元和控制单元;
其中,所述数据集单元,用于根据所述若干资源洞察模型的任务负载量和任务吞吐率建立负载信息样本集和历史吞吐率集;
所述洞察值单元,用于根据所述若干资源洞察模型的模型权重和所述负载信息样本集计算得到所述若干时空大数据任务的若干吞吐率洞察值;
所述控制单元,用于根据所述若干吞吐率洞察值、数据吞吐率集和所述若干时空大数据任务的负载数据量对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据。
作为优选方案,所述综合模块包括连接单元、过渡单元和目标单元;
其中,所述连接单元,用于通过对所述调度数据进行信息注册的方式,将所述调度数据与预设的大数据分析资源池建立连接;其中,所述大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库;
所述过渡单元,用于对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
所述目标单元,用于在多维空间上对所述过渡数据进行近似数据查找与汇总,得到所述目标数据。
作为优选方案,所述综合模块还包括点位单元、通视分析单元、动态分析单元、查询单元和展示单元;
其中,所述点位单元,用于将所述目标数据渲染后输入预设的三维地图中形成若干点位;
所述通视分析单元,用于通过拾取所述若干点位的高程信息,对所述若干点位进行通视分析,得到通视分析结果;
所述动态分析单元,用于根据所述三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果;
所述查询单元,用于根据所述通视分析结果和所述动态分析结果对所述若干点位进行查询,得到查询结果;
所述展示单元,用于通过所述三维地图展示所述查询结果。
作为优选方案,所述点位单元包括分离子单元和点位子单元;
其中,所述分离子单元,用于将所述目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果;
所述点位子单元,用于将所述分离结果渲染后输入预设的三维地图中形成若干点位;其中,所述三维地图是通过在二维地图上进行点、线、面要素标绘和符号化图标三维展现的方式构建的。
作为优选方案,所述综合模块还包括信息获取单元、注册单元和共享单元;
其中,所述信息获取单元,用于获取目标服务对象的数据信息;
所述注册单元,用于通过预设的服务API管理节点根据所述数据信息的IP、端口和服务信息进行微服务注册;
所述共享单元,用于通过预设的网关服务节点将所述目标数据共享给注册后的所述目标服务对象。
作为优选方案,所述获取模块还包括配置单元、治理单元和复用单元;
其中,所述配置单元,用于使用预设模型对所述多源数据集进行配置适用;
所述治理单元,用于根据细粒度分析算子,使进行配置适用后的所述预设模型以拖拽组合的方式对所述多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
所述复用单元,用于使用所述预设模型对所述初步数据进行初步展示和共享复用。本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被计算机调用并执行,实现如上所述一种基于时空大数据引擎的数据处理方法。
附图说明
图1是本发明实施例提供的一种基于时空大数据引擎的数据处理方法的流程示意图;
图2是本发明实施例提供的时空大数据引擎框架图;
图3是本发明实施例提供的多计算引擎智能调度框架图;
图4是本发明实施例提供的任务资源智能洞察框架图;
图5是本发明实施例提供的数据治理分析流程图;
图6是本发明实施例提供的二三维一体化框架图;
图7是本发明实施例提供的微服务API网关框架图;
图8是本发明实施例提供的微服务请求响应流程图;
图9是本发明实施例提供的总体流程图;
图10是本发明实施例提供的一种基于时空大数据引擎的数据处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”和“第三”的特征可以明示或者隐含地包括一个或者多个该特征。在本申请的描述中,除非另有说明,“若干”的含义是两个或两个以上。
本发明实施例所描述的一种基于时空大数据引擎的数据处理方法主要应用于需要对类似于多源数据一样的大规模数据集进行智能管理分析,从中获取目标数据以进行一站式管理的情况。
实施例一:
请参阅图1,本发明的实施例提供了一种基于时空大数据引擎的数据处理方法,包括S1~S5,具体实施步骤如下:
S1、获取多源数据集和若干时空大数据任务。
在本发明实施例步骤S1中,S1包括S1.1~S1.5,其中,S1.1是获取初始数据和任务的过程,S1.2是对多源数据集进行检查更新的过程,S1.3是对多源数据集的详细信息进行记录的过程,S1.4是获取初步数据的过程,S1.5是对初步数据进行展示和共享的过程,具体为:
S1.1、获取多源数据集和若干时空大数据任务;
其中,时空大数据任务是指从数据的特点、属性和层级方面对数据进行分类以及分析处理,在此基础上获取目标数据以进行应用的任务;多源数据集包括关系型数据源、非关系型数据源、文件型数据源和分布式文件系统,具体包括:PostgreXL关系型数据库、HBase分布式列式数据库、MongoDB分布式文件数据库、NFS文件共享目录、HDFS的分布式存储库、Apache Hive元数据存储数据库、ElasticSearch分布式文档存储数据库和Amazon S3云存储数据库;
其中,PostgreXL关系型数据库用于存储结构化海量空间数据,主要包括:矢量数据、模型数据和影像数据,支持单图层亿级对象(百GB的OpenStreetMap矢量数据)的高效存储以及1秒的响应交互能力,支持原生空间引擎PostGIS,对SQL(structured QueryLanguage,结构化查询语言)支持友好,主要用于系统PB(Petabyte,拍字节)级空间数据的快速查询;
HBase分布式列式数据库支持多种数据格式和坐标的存储,包括:栅格数据(例如GeoTIFF)、矢量数据(例如Shapefile、GDB和UDB/UDBX)和各种文件数据;
MongoDB分布式文件数据库支持对矢量瓦片、栅格瓦片、三维瓦片、二三维缓存数据和分布式切图数据的存储;
HDFS的分布式存储库支持非结构化数据(例如CSV、TXT和GeoJSON)的导入导出,同时可以将数据注册到引擎的数据目录服务中,为其他各个GIS应用系统提供基础数据源服务;
Apache Hive元数据存储数据库是基于分布式系统基础架构Hadoop(HDFS、MapReduce)而建立的数据仓库,采用了MPP架构(大规模并行处理)和存储结构化数据,能够提供SQL查询功能和将SQL语句转换为MapReduce任务运行的功能;
ElasticSearch分布式文档存储数据库把影像数据保存在文件型数据库中,系统通过建立影像数据的镶嵌数据集,能够对影像数据进行管理;并且,其中的镶嵌数据集使用“文件+ES空间数据库”的存储和管理方式,在影像“入库”时,只会在ES空间数据库中建立影像索引,不会拷贝或改变原有的影像数据,原有影像文件仍然存储在文件系统中;此外,ES空间数据库对亿级流数据存储也有着良好的支持。
为应用本发明实施例,请参阅图2,图2是本发明实施例提供的时空大数据引擎框架图,展示了本方案所支持的部分数据类型。图中,通过多源数据储存引擎对多源数据集进行自动化部署交付以及智能运维监控管理,在对多源数据集进行一键扩容等处理之后,能够通过Portal大数据集群对多源数据集管理,在通过本方案的一种基于时空大数据引擎的数据处理方法对多源数据集进行处理之后,可以通过各类终端和API接口调用多源数据集中的目标数据。
S1.2、对多源数据集的数据状态、数据结构进行检查,并通过定时轮询的方式查看多源数据集是否存在数据更新;
其中,更新内容包括:表数量、数据空间范围、数据数量、时感知数据更新状态;并提供点、线和面等空间数据项自动注册,在数据存储出现新增、删除和更新时,将新增数据自动注册为数据项,并将已注册数据项自动删除,同时,在更新内容处提供新增删除更新提示;获取关于多源数据集的深度感知数据属性统计、量化数据体量、数据字段、时间信息和几何信息在内的数据总体情况,提供数据项的统计分布,包括百级、千级、万级、十万级、百万级和千万级的数据量分布直方图,以及几何空间表、非空间表类型、分布直方图、数据空间类型分布直方图和雷达图。
本实施例通过定期检查的方式,能够及时对多源数据集进行更新,实时进行补充以保证数据的完整性,所以可以在此基础上保证目标数据的完善程度。
S1.3、对多源数据集中数据产生的链路进行记录,使数据治理过程中的血缘关系可追溯,并以流程图方式描述数据项的历史操作,包括数据的初始来源以及历史处理方式;
此外,通过提供数据名称、类型、数量、生成时间、数据地址、空间参考和几何类型,以及查看操作名称等信息,指导理解数据治理过程的过滤规则和关联关系,定位数据质量的问题环节。
本实施例通过对多源数据集中数据产生的链路进行记录,能够在强大的数据信息支持下,了解多源数据集的具体参数信息,以便对其进行快速管理和调度。
S1.4、使用预设模型对多源数据集进行配置适用;根据细粒度分析算子,使进行配置适用后的预设模型以拖拽组合的方式对多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
具体为:使用时空数据模型对多源数据集进行配置适用,对多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
或者根据细粒度分析算子,使用预设的参数模型以拖拽组合的方式对多源数据集进行初步的数据治理和分析挖掘,得到初步数据。
本实施例通过使用时空数据模型配置适用的多源数据集以进行执行分析,能够直接使用模型解决对应的配置问题,加快数据处理的进程。
S1.5、通过设置预设模型的共享级别和范围,使用预设模型对初步数据进行初步展示和共享复用,包括直接使用、查看详情和模型复用,具体为:
直接使用:根据用户的个人数据信息,直接使用预设模型对数据进行分析展示或者共享;
查看详情:用户可以查看预设模型以及初步数据的详细情况,包括处理流程和各个工具详细参数,以及问题解决的思路、原理、实现效果;
模型复用:用户可以将预设模型以及初步数据直接拷贝到自己的个人库中,并对拷贝后的模型以及数据进行修改。
本优选方案通过使用预设模型对初步数据进行初步展示和共享复用,能够在第一时间将数据的初步处理结果反馈给用户,用户可以根据自身需求查看预设模型中与初步数据相关的数据流程及详细参数,减少沟通成本;
并且,通过查看详情的功能,用户能够对模型原理有直观的了解,降低模型构建者和模型使用者的无效沟通,直接通过模型即可了解问题解决思路、原理、实现效果。模型复用能够在极大程度上节省构建模型的时间,通过对已有模型的复用可以充分利用模型已配置好的流程及参数,针对需求快速构建模型;同时,模型复用功能也解决了用户在针对同一需求使用不同方法/流程构建模型的问题,能够减少数据处理、提高工作效率。
S2、将多源数据集分解为前后依赖的若干子过程,根据若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型。
在本发明实施例步骤S2中,S2包括S2.1~S2.2,其中,S2.1是对若干时空大数据任务进行分解的过程,S2.2是建立若干资源洞察模型的过程,具体为:
S2.1、使用Spark的DAG有向无环图,按照若干时空大数据任务的任务数量将多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干RDD(Resilient Distributed Datasets,弹性分布式数据集);
将多源数据集的数据重新分配到若干RDD中,使若干RDD对重新分配的数据进行整合处理。
本实施例通过数据分解所得到的若干弹性分布式数据集(RDD)是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;由于若干子过程是前后依赖的关系,所以能够降低数据并发执行的限制,提高了各数据集的数据处理的性能和吞吐量。
S2.2、根据若干RDD在进行整合处理时的CPU利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到负载信息集L和数据吞吐率集A;
根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,使用LR正规方程(Normal Equation)计算得到模型权重w;
根据负载信息集L、数据吞吐率集A和模型权重w建立若干资源洞察模型。
本优选方案使用若干弹性分布式数据集(RDD)在进行整合处理时的数据信息建立资源洞察模型,能够充分考虑到进行整合处理时数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,以便后续以此进行资源调度。
S3、根据若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎。
本发明实施例步骤S3具体为:
根据若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
其中,若干引擎形成了多计算引擎部署架构,能够提供并行计算、分布式内存计算和实时计算等多种开源计算,并支持扩展GeoScene、SuperMap和MapGIS等其他商业化计算引擎;并且拥有多计算引擎的洞察化资源调度能力,能够共享各引擎集群服务器之间的硬件资源。
S4、根据若干资源洞察模型的任务负载量和任务吞吐率对若干引擎的负载进行控制,使若干引擎对多源数据集进行资源调度,得到调度数据。
在本发明实施例步骤S4中,S4包括S4.1~S4.2,其中,S4.1是获取部分参数的过程,S4.2是对多源数据集进行资源调度以得到调度数据的过程,具体为:
S4.1、根据负载信息集L和数据吞吐率集A建立负载信息样本集X和历史吞吐率集V;
根据若干资源洞察模型的模型权重w和负载信息样本集X计算得到若干时空大数据任务的若干吞吐率洞察值v'。
S4.2、根据若干吞吐率洞察值v'、数据吞吐率集A和若干时空大数据任务的负载数据量rd对若干引擎的负载进行控制,使若干引擎对多源数据集进行资源调度,得到调度数据;
具体为:将若干子过程中第一子过程的吞吐率洞察值v'、数据吞吐率集A中的周期吞吐率v,以及负载数据量rd反馈给若干子过程的主集群;
情况一:当∑rdk小于等于∑maxVk时,表明下个周期系统可以处理完第一子过程的所有数据,并存在一定的空暇资源;
情况二:当∑rdk大于∑maxVk时,表明下一周期系统无法处理完第一子过程的所有数据,各集群都不存在资源空闲的情况;其中,“∑rdk”表示负载数据量rd的项集数,“∑maxVk”表示历史吞吐率集V的项集数最大值。
根据情况一和情况二中资源的使用情况,以及若干资源洞察模型调度任务同时执行的情况,使若干子过程的主集群调整若干引擎执行并发处理,进而让若干引擎对多源数据集进行资源调度,得到调度数据;
其中,并发处理是根据若干子过程的节点,以任务的分布式计算的方式实现的。
为应用本发明实施例,请参阅图3,图3是本发明实施例提供的多计算引擎智能调度框架图,展示了多任务处理时引擎的应用过程。图中,可以通过自动化选择或用户自选来调整多种计算引擎,当有N个资源洞察模型的任务同时执行时,可以通过多个引擎集群并发处理请求,每个集群有多个节点,形成任务的分布式计算,从而实现了高性能的高并发请求处理。
为应用本发明实施例,请参阅图4,图4是本发明实施例提供的任务资源智能洞察框架图,展示了对多源数据集进行处理以得到调度数据的大体过程;
具体为:按照若干时空大数据任务的任务数量将多源数据集分解为前后依赖的若干子过程,在进行多计算引擎分布式计算后,整合计算结果以传入下一个子过程,子过程采用线性回归正规方程构建各个集群的资源洞察模型,来降低模型的复杂度;主集群以各个集群模型洞察的吞吐率洞察值v'、周期吞吐率v和负载数据量rd为标准来调整负载,使若干引擎对多源数据集进行资源调度,得到调度数据。
本优选方案是资源调度过程的具体描述,根据若干吞吐率洞察值、数据吞吐率集和负载数据量对若干引擎的负载进行控制,能够以时空大数据任务为基础,集中资源在众多数据中进行搜寻调度与引擎负载调整,能够在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据,该调度控制方式针对性强,调度效果立竿见影;
并且,通过形成任务的分布式计算,能够实现高性能的高并发请求,减少任务排队处理时间,提升业务效率。
S5、对调度数据进行数据治理和多维分析挖掘,得到目标数据。
在本发明实施例步骤S5中,S5包括S5.1~S5.7,其中,S5.1是将调度数据放入资源池中的过程,S5.2是将调度数据与资源池建立连接的过程,S5.3是对调度数据进行数据清洗与融合以获取过渡数据的过程,S5.4是对过渡数据进行近似数据查找与汇总以获取目标数据的过程,S5.5是构建三维地图的过程,S5.6是对目标数据进行展示的过程,S5.7是对目标数据进行共享的过程,具体为:
S5.1、通过包括动态抽取、高效同步、自动化融合和流程化处理机制在内的分布式入池策略,将调度数据统一汇集到预设的大数据分析资源池中;
使用SDE、FileGDB、FileUDB/FileUDBX和文件系统等方式将调度数据抽取为SHP(ESRI Shapefile,空间数据开放)文件,并将SHP文件存储到HDFS/HBase中;其中,SDE、FileGDB,以及FileUDB/FileUDBX均为文件的扩展名,HDFS/HBase为分布式文件系统。
S5.2、通过对调度数据进行信息注册的方式,将调度数据与大数据分析资源池建立连接;其中,大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库,能够支持不同来源、不同结构和不同时相的多源数据进行抽取、汇聚和更新。
S5.3、对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
其中,数据清洗与融合处理包括数据汇聚、数据清洗、数据融合、数据质检、数据存储,具体为:
数据汇集用于通过上传、注册大数据文件共享、服务发布和连接资源池等方法将离散的、分散的、不同来源的时空数据和表格数据统一汇聚到资源池中;
数据清洗用于对数据进行质量清洗,在不改变数据原始结构的情况下,清洗后生成新数据;其中,处理方式包括删除长度异常线、删除字段和删除面积异常多边形;
数据融合用于实现不同维度的数据融合、处理和转换;其中,融合包括图层融合、连接要素和边界融合;处理包括边形质心提取、节点抽稀、多边形多部件转单部件、线转面、空间投影和空间偏移;转换用于数据在不同数据源之间转换,例如数据抽取,从一种数据源读取数据后,再输出到另一种数据源。
数据质检用于检测数据异常,包括检测异常值、狭长型多边形检测、检测多边形异常内环、空间自相交检测、检测差异多边形、检测压盖多边形、检测多边形异常外环、检测拓扑、检测长度异常线、检测空几何、检测多边形岛、检测面积异常多边形和检测空值。
数据存储用于在对数据进行检测、清洗、处理、转换和体检后,对数据进行存储。
本实施例对调度数据进行数据清洗与融合,相当于在原有调度数据的基础上做了数据提取与修剪,使所得到的过渡数据条理清晰、数据正常,且数据特征得到了加强。
S5.4、在多维空间上对过渡数据进行近似数据查找与汇总,得到目标数据;
其中,近似数据查找与汇总处理包括汇总数据、空间叠加、位置查找、邻近分析、模式分析、流式计算和机器学习,具体为:
汇总数据用于多源数据集要素与要素空间或者临近关系的汇总统计和属性统计,同时包括属性总数、长度和面积等基本特征的统计运算;
空间叠加用于多源数据集点、线和面三种空间数据类型的相交、擦除、合并和连接等分析;
位置查找用于多源数据集事件检测、驻留位置查找、相似位置查找和地理编码等分析;
邻近分析用于多源数据集围绕输入点、线或面要素以指定距离为半径来创建区域;
模式分析用于多源数据集密度计算、热点查找、点聚类查找、基于森林的分分类与回归、广义线性回归和地理加权回归等分析;
流式计算用于多源数据集道路匹配、路况计算和地理围栏等分析;
机器学习用于多源数据集AI制图、回归预测和聚类分析。
需要说明的是,上述进行近似数据查找与汇总的过程是对过渡数据进行时空大数据多维分析的过程,利用了Spark分布式计算框架以及时空大数据多维分析GIS(Geographic Information System,地学信息系统)的内部特征和应用驱动,将GIS系统智能结合在Spark之中,能够最大程度的发挥GIS和Spark深度融合的潜能,同时扩展Spark的RDD,使其支持点、线和面等地理空间对象。以此为基础,实现了基于内存的大规模空间数据的分布式汇总数据、空间叠加、位置查找、邻近分析、模式分析等多维分析功能。此外,基于Spark对RDD的空间数据结构扩展,可直接利用Spark对空间流式数据进行分析;其中,Spark(SparkStreaming)是个批处理的流式(实时)计算框架。
为应用本发明实施例,请参阅图5,图5是本发明实施例提供的数据治理分析流程图,展示了对调度数据进行数据处理的大体过程;
具体为:对调度数据进行数据汇聚、数据清洗、数据融合、数据质检、数据存储后,将得到的过渡数据注册到集群组;
再在多维空间上对过渡数据进行汇总数据、空间叠加、位置查找、邻近分析、模式分析、流式计算和机器学习,得到目标数据。
本实施例在多维空间上对过渡数据进行近似数据查找与汇总,能够以优化后的过渡数据为基础,通过不同纬度在多源数据集中再次进行数据分析查找,以避免出现数据遗漏的情况,并且能够对过渡数据做进一步分析,以获取到更多有用的特征属性。
S5.5、使用二三维实时联动模块基于预设的二维地图的拾取对距离和面积进行量测,基于场景中的三维地形图和Cesium.js中的Scene的贴地模式和空间模式,对贴地距离、面积、空间距离和空间面积进行量测,得到测量结果;其中,Cesium是一种基于WebGL(WebGraphics Library,3D绘图协议)开源的虚拟地球技术;
使用二三维标绘模块根据测量结果,在二维地图上选择点、线和面要素进行标绘,从而能够在相应的三维平台将对应的标绘数据以贴地的模式进行联动展示;
使用图层管理模块基于二维的空间查询,在二维地图上进行展示,同时在三维平台上将符号化的图标以三维方式直观展现,快速构建POI(Polnt of Information,信息点)结果的三维地图。
S5.6、使用平台层将目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果,并采用空间数据缓存机制对分离结果进行缓存;
将分离结果渲染后输入预设的三维地图中形成若干点位;
使用空间分析模块,基于三维地图,通过拾取若干点位的高程信息,对若干点位进行通视分析,得到通视分析结果;
再使用空间分析模块,根据三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果,并将所述动态分析结果在二维地图上生成矢量数据;
使用场景管理模块,根据通视分析结果和矢量数据对若干点位进行查询,得到查询结果;其中,场景管理模块包括二三维路径规划、二三维轨迹数据分析和二三维模型实时监控功能模块;
使用目标加载模块,通过调用统一坐标系统的二维地图和三维地图服务,对查询结果进行二维和三维一体化展示。
需要说明的是,上述使用三维地图对查询结果进行展示是通过二三维一体化框架,以多业务场景和跨终端的二三维一体化展示方式,对查询结果进行呈现的;
其中,多业务场景覆盖了土地利用、空间规划、自然资源双评价、监测监管、政务服务等多个领域的业务模型展示方式;跨终端支持从PC端到移动端、再到数据大屏的多屏应用,可进行业务模型可视化操作;二三维一体化展示能够提供丰富的可视化组件呈现方式,包括地图、图表、多媒体和文本等多种组件,支持组件样式及数据的定制和设计。
其中,二三维一体化框架包含渲染层、平台层和接口层,具体为:
渲染层包括渲染引擎;并且,渲染层对应平台渲染对象;
平台层包括二三维一体化数据组织存储模块、数据配置模块、数据渲染模块;并且,平台层对应图层的数据对象和样式对象;
接口层包括二三维实时联动模块、二三维标绘模块、图层管理模块、目标加载模块、空间分析模块以及场景管理模块。
为应用本发明实施例,请参阅图6,图6是本发明实施例提供的二三维一体化框架图,展示了二三维一体化框架的应用逻辑;通过二三维一体化框架的渲染层、平台层和接口层的共同协作以实现对目标数据进行多方位的信息展示。
本实施例是通过三维地图对查询结果进行展示,由于该查询结果是在通视分析结果和动态分析结果的基础上获取的,因此能够将目标数据中的信息完整有效地展示在三维地图上,避免信息遗漏;并且,通过三维地图的展现方式比使用二维地图或者直接用数字展示的方式更为直观,能够让用户更快速全面地获取目标数据;
此外,采用空间数据缓存机制对分离结果进行缓存能够提高平台数据加载和渲染效率。
S5.7、获取目标服务对象的数据信息;
通过SpringCloud微服务框架的服务API管理节点根据数据信息的IP、端口和服务信息进行微服务注册;
通过SpringCloud微服务框架的网关服务节点,使用预设的编程封装方式,以微服务的发布形式将目标数据共享给注册后的目标服务对象;
其中,SpringCloud微服务框架的API网关包括两个独立的服务进程,即微网关服务节点(网关服务节点)与微服务API管理节点(服务API管理节点);微服务API管理节点负责服务发现与注册;微网关服务节点是所有微服务的唯一入口,提供所有服务API的代理与负载均衡功能,是对终端用户提供服务的组件,可以水平扩容,通过部署多个节点来支撑更大的流量;另外,微网关服务节点能够通过插件结构,实现统一的用户认证、权限管理等扩展功能。
为应用本发明实施例,请参阅图7,图7是本发明实施例提供的微服务API网关框架图,展示了通过SpringCloud微服务框架实现目标数据共享的大体过程;
具体为:SpringCloud微服务框架的API网关包括微网关服务节点与微服务API管理节点,通过微服务API管理节点对进行微服务注册之后的账号信息进行管理以及实时更新,通过微网关服务节点对用户进行身份认证,对认证成功的用户进行相应的微服务匹配处理,为用户提供对应的数据信息以及进行相应的微服务代理,例如包括NewMap Serve在内的GIS服务;其中,NewMap Server是中国测绘科学研究院GIS所自主研发的面向网络的服务型GIS软件。
为应用本发明实施例,请参阅图8,图8是本发明实施例提供的微服务请求响应流程图,展示了通过SpringCloud微服务框架的应用原理;
具体为:通过SpringCloud进程间通信技术,结果服务功能可以进行解耦拆分,得到包含样式服务、数据服务和地图绘制服务在内的三类服务;同时,数据服务还可以根据提供的数据不同,划分为多个具体的数据服务。通过多个协同工作的小而自治的服务,降低原地图服务的耦合性,从而能够独立修改及部署单个服务而不需要修改系统的其他部分;最后使用分解后的基于微服务的地图服务请求响应流程。
为应用本发明实施例,请参阅图9,图9是本发明实施例提供的总体流程图,表示本实施例实现一种基于时空大数据引擎的数据处理方法的大体流程,具体为:
获取多源数据集,将多源数据集(多源数据库)接入以进行预设模型与数据库的适配,以及进行大数据分布式储存管理;
进行可视化建模以得到若干资源洞察模型;
结合大数据分布式计算处理方法,通过多引擎洞察调度的方式对多源数据集进行调度分析,得到调度数据;
结合大数据分布式计算处理方法,对调度数据进行融合治理以及多维分析处理,得到目标数据;
对目标数据进二三维一体化展示,以及将数据、模型和分析结果进行共享。
本实施例通过微服务注册的方式,能够节省数据共享的时间成本,可以直接根据目标服务对象的IP等信息共享对应的服务信息,免除了额外的安全认证,能够在保证数据安全的同时加快数据共享的进度,从而保障了在服务更新时,不影响网关服务节点功能。
总体来看,本发明实施例具有如下有益效果:
本实施例通过数据分解所得到的若干弹性分布式数据集是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;根据各数据集群的负载信息和吞吐率值建立资源洞察模型,可以充分考虑到数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,因此能够以时空大数据任务为基础,通过引擎负载调整,以集中资源在众多数据中进行搜寻调度,可以在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据;最后通过数据治理和多维分析挖掘,能够对数据进行进一步优化处理和遗漏排除,使所得到的目标数据准确有效;
并且,本实施例通过对目标数据进行展示和共享,可以形成一条完整的数据处理链,能够在多源数据集中获取目标数据以进行一站式智能管理;在进行数据调度时,通过多计算引擎智能调度方案,能够共享各引擎集群服务器硬件资源,在极大程度上降低数据处理成本。
实施例二:
请参阅图10,本发明的实施例提供了一种基于电源等级量化降低WiFi功耗的装置,包括获取模块10、构建模块20、遴选模块30、调度模块40和综合模块50;
其中,获取模块10,用于获取多源数据集和若干时空大数据任务;
构建模块20,用于将多源数据集分解为前后依赖的若干子过程,根据若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
遴选模块30,用于根据若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
调度模块40,用于根据若干资源洞察模型的任务负载量和任务吞吐率对若干引擎的负载进行控制,使若干引擎对多源数据集进行资源调度,得到调度数据;
综合模块50,用于对调度数据进行数据治理和多维分析挖掘,得到目标数据。
在一个实施例中,获取模块10包括初始单元、检查单元、记录单元、配置治理单元和复用单元;
其中,初始单元是获取初始数据和任务的过程,检查单元是对多源数据集进行检查更新的过程,记录单元是对多源数据集的详细信息进行记录的过程,配置治理单元是获取初步数据的过程,复用单元是对初步数据进行展示和共享的过程,具体为:
初始单元,用于获取多源数据集和若干时空大数据任务;
其中,时空大数据任务是指从数据的特点、属性和层级方面对数据进行分类以及分析处理,在此基础上获取目标数据以进行应用的任务;多源数据集包括关系型数据源、非关系型数据源、文件型数据源和分布式文件系统,具体包括:PostgreXL关系型数据库、HBase分布式列式数据库、MongoDB分布式文件数据库、NFS文件共享目录、HDFS的分布式存储库、Apache Hive元数据存储数据库、ElasticSearch分布式文档存储数据库和Amazon S3云存储数据库;
其中,PostgreXL关系型数据库用于存储结构化海量空间数据,主要包括:矢量数据、模型数据和影像数据,支持单图层亿级对象(百GB的OpenStreetMap矢量数据)的高效存储以及1秒的响应交互能力,支持原生空间引擎PostGIS,对SQL(structured QueryLanguage,结构化查询语言)支持友好,主要用于系统PB(Petabyte,拍字节)级空间数据的快速查询;
HBase分布式列式数据库支持多种数据格式和坐标的存储,包括:栅格数据(例如GeoTIFF)、矢量数据(例如Shapefile、GDB和UDB/UDBX)和各种文件数据;
MongoDB分布式文件数据库支持对矢量瓦片、栅格瓦片、三维瓦片、二三维缓存数据和分布式切图数据的存储;
HDFS的分布式存储库支持非结构化数据(例如CSV、TXT和GeoJSON)的导入导出,同时可以将数据注册到引擎的数据目录服务中,为其他各个GIS应用系统提供基础数据源服务;
Apache Hive元数据存储数据库是基于分布式系统基础架构Hadoop(HDFS、MapReduce)而建立的数据仓库,采用了MPP架构(大规模并行处理)和存储结构化数据,能够提供SQL查询功能和将SQL语句转换为MapReduce任务运行的功能;
ElasticSearch分布式文档存储数据库把影像数据保存在文件型数据库中,系统通过建立影像数据的镶嵌数据集,能够对影像数据进行管理;并且,其中的镶嵌数据集使用“文件+ES空间数据库”的存储和管理方式,在影像“入库”时,只会在ES空间数据库中建立影像索引,不会拷贝或改变原有的影像数据,原有影像文件仍然存储在文件系统中;此外,ES空间数据库对亿级流数据存储也有着良好的支持。
为应用本发明实施例,请参阅图2,图2是本发明实施例提供的时空大数据引擎框架图,展示了本方案所支持的部分数据类型。图中,通过多源数据储存引擎对多源数据集进行自动化部署交付以及智能运维监控管理,在对多源数据集进行一键扩容等处理之后,能够通过Portal大数据集群对多源数据集管理,在通过本方案的一种基于时空大数据引擎的数据处理方法对多源数据集进行处理之后,可以通过各类终端和API接口调用多源数据集中的目标数据。
检查单元,用于对多源数据集的数据状态、数据结构进行检查,并通过定时轮询的方式查看多源数据集是否存在数据更新;
其中,更新内容包括:表数量、数据空间范围、数据数量、时感知数据更新状态;并提供点、线和面等空间数据项自动注册,在数据存储出现新增、删除和更新时,将新增数据自动注册为数据项,并将已注册数据项自动删除,同时,在更新内容处提供新增删除更新提示;获取关于多源数据集的深度感知数据属性统计、量化数据体量、数据字段、时间信息和几何信息在内的数据总体情况,提供数据项的统计分布,包括百级、千级、万级、十万级、百万级和千万级的数据量分布直方图,以及几何空间表、非空间表类型、分布直方图、数据空间类型分布直方图和雷达图。
本实施例通过定期检查的方式,能够及时对多源数据集进行更新,实时进行补充以保证数据的完整性,所以可以在此基础上保证目标数据的完善程度。
记录单元,用于对多源数据集中数据产生的链路进行记录,使数据治理过程中的血缘关系可追溯,并以流程图方式描述数据项的历史操作,包括数据的初始来源以及历史处理方式;
此外,通过提供数据名称、类型、数量、生成时间、数据地址、空间参考和几何类型,以及查看操作名称等信息,指导理解数据治理过程的过滤规则和关联关系,定位数据质量的问题环节。
本实施例通过对多源数据集中数据产生的链路进行记录,能够在强大的数据信息支持下,了解多源数据集的具体参数信息,以便对其进行快速管理和调度。
配置治理单元,用于使用预设模型对多源数据集进行配置适用;根据细粒度分析算子,使进行配置适用后的预设模型以拖拽组合的方式对多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
具体为:使用时空数据模型对多源数据集进行配置适用,对多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
或者根据细粒度分析算子,使用预设的参数模型以拖拽组合的方式对多源数据集进行初步的数据治理和分析挖掘,得到初步数据。
本实施例通过使用时空数据模型配置适用的多源数据集以进行执行分析,能够直接使用模型解决对应的配置问题,加快数据处理的进程。
复用单元,用于通过设置预设模型的共享级别和范围,使用预设模型对初步数据进行初步展示和共享复用,包括直接使用、查看详情和模型复用,具体为:
直接使用:根据用户的个人数据信息,直接使用预设模型对数据进行分析展示或者共享;
查看详情:用户可以查看预设模型以及初步数据的详细情况,包括处理流程和各个工具详细参数,以及问题解决的思路、原理、实现效果;
模型复用:用户可以将预设模型以及初步数据直接拷贝到自己的个人库中,并对拷贝后的模型以及数据进行修改。
本优选方案通过使用预设模型对初步数据进行初步展示和共享复用,能够在第一时间将数据的初步处理结果反馈给用户,用户可以根据自身需求查看预设模型中与初步数据相关的数据流程及详细参数,减少沟通成本;
并且,通过查看详情的功能,用户能够对模型原理有直观的了解,降低模型构建者和模型使用者的无效沟通,直接通过模型即可了解问题解决思路、原理、实现效果。模型复用能够在极大程度上节省构建模型的时间,通过对已有模型的复用可以充分利用模型已配置好的流程及参数,针对需求快速构建模型;同时,模型复用功能也解决了用户在针对同一需求使用不同方法/流程构建模型的问题,能够减少数据处理、提高工作效率。
在一个实施例中,构建模块20包括分解单元、处理单元、第一计算子单元、第二计算子单元和第三计算子单元;
其中,分解单元和处理单元是对若干时空大数据任务进行分解的过程,第一计算子单元、第二计算子单元和第三计算子单元是建立若干资源洞察模型的过程,具体为:
其中,分解单元,用于使用Spark的DAG有向无环图,按照若干时空大数据任务的任务数量将多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干RDD(Resilient Distributed Datasets,弹性分布式数据集);
处理单元,用于将多源数据集的数据重新分配到若干RDD中,使若干RDD对重新分配的数据进行整合处理。
本实施例通过数据分解所得到的若干弹性分布式数据集(RDD)是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;由于若干子过程是前后依赖的关系,所以能够降低数据并发执行的限制,提高了各数据集的数据处理的性能和吞吐量。
第一计算子单元,用于根据若干RDD在进行整合处理时的CPU利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到负载信息集L和数据吞吐率集A;
第二计算子单元,用于根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,使用LR正规方程(Normal Equation)计算得到模型权重w;
第三计算子单元,用于根据负载信息集L、数据吞吐率集A和模型权重w建立若干资源洞察模型。
本优选方案使用若干弹性分布式数据集(RDD)在进行整合处理时的数据信息建立资源洞察模型,能够充分考虑到进行整合处理时数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,以便后续以此进行资源调度。
在一个实施例中,遴选模块30具体为:
根据若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
其中,若干引擎形成了多计算引擎部署架构,能够提供并行计算、分布式内存计算和实时计算等多种开源计算,并支持扩展GeoScene、SuperMap和MapGIS等其他商业化计算引擎;并且拥有多计算引擎的洞察化资源调度能力,能够共享各引擎集群服务器之间的硬件资源。
在一个实施例中,调度模块40包括数据集单元、洞察值单元和控制单元;
其中,数据集单元和洞察值单元是获取部分参数的过程,控制单元是对多源数据集进行资源调度以得到调度数据的过程,具体为:
其中,数据集单元,用于根据负载信息集L和数据吞吐率集A建立负载信息样本集X和历史吞吐率集V;
洞察值单元,用于根据若干资源洞察模型的模型权重w和负载信息样本集X计算得到若干时空大数据任务的若干吞吐率洞察值v'。
控制单元,用于根据若干吞吐率洞察值v'、数据吞吐率集A和若干时空大数据任务的负载数据量rd对若干引擎的负载进行控制,使若干引擎对多源数据集进行资源调度,得到调度数据;
具体为:将若干子过程中第一子过程的吞吐率洞察值v'、数据吞吐率集A中的周期吞吐率v,以及负载数据量rd反馈给若干子过程的主集群;
情况一:当∑rdk小于等于∑maxVk时,表明下个周期系统可以处理完第一子过程的所有数据,并存在一定的空暇资源;
情况二:当∑rdk大于∑maxVk时,表明下一周期系统无法处理完第一子过程的所有数据,各集群都不存在资源空闲的情况;其中,“∑rdk”表示负载数据量rd的项集数,“∑maxVk”表示历史吞吐率集V的项集数最大值。
控制单元,还用于根据情况一和情况二中资源的使用情况,以及若干资源洞察模型调度任务同时执行的情况,使若干子过程的主集群调整若干引擎执行并发处理,进而让若干引擎对多源数据集进行资源调度,得到调度数据;
其中,并发处理是根据若干子过程的节点,以任务的分布式计算的方式实现的。
为应用本发明实施例,请参阅图3,图3是本发明实施例提供的多计算引擎智能调度框架图,展示了多任务处理时引擎的应用过程。图中,可以通过自动化选择或用户自选来调整多种计算引擎,当有N个资源洞察模型的任务同时执行时,可以通过多个引擎集群并发处理请求,每个集群有多个节点,形成任务的分布式计算,从而实现了高性能的高并发请求处理。
为应用本发明实施例,请参阅图4,图4是本发明实施例提供的任务资源智能洞察框架图,展示了对多源数据集进行处理以得到调度数据的大体过程;
具体为:按照若干时空大数据任务的任务数量将多源数据集分解为前后依赖的若干子过程,在进行多计算引擎分布式计算后,整合计算结果以传入下一个子过程,子过程采用线性回归正规方程构建各个集群的资源洞察模型,来降低模型的复杂度;主集群以各个集群模型洞察的吞吐率洞察值v'、周期吞吐率v和负载数据量rd为标准来调整负载,使若干引擎对多源数据集进行资源调度,得到调度数据。
本优选方案是资源调度过程的具体描述,根据若干吞吐率洞察值、数据吞吐率集和负载数据量对若干引擎的负载进行控制,能够以时空大数据任务为基础,集中资源在众多数据中进行搜寻调度与引擎负载调整,能够在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据,该调度控制方式针对性强,调度效果立竿见影;
并且,通过形成任务的分布式计算,能够实现高性能的高并发请求,减少任务排队处理时间,提升业务效率。
在一个实施例中,综合模块50包括汇集单元、连接单元、过渡单元、目标单元、地图单元、分离子单元、点位子单元、通视分析单元、动态分析单元、查询单元、展示单元、信息获取单元、注册单元和共享单元;
其中,汇集单元是将调度数据放入资源池中的过程,连接单元是将调度数据与资源池建立连接的过程,过渡单元是对调度数据进行数据清洗与融合以获取过渡数据的过程,目标单元是对过渡数据进行近似数据查找与汇总以获取目标数据的过程,地图单元是构建三维地图的过程,分离子单元、点位子单元、通视分析单元、动态分析单元、查询单元和展示单元是对目标数据进行展示的过程,信息获取单元、注册单元和共享单元是对目标数据进行共享的过程,具体为:
其中,汇集单元,用于通过包括动态抽取、高效同步、自动化融合和流程化处理机制在内的分布式入池策略,将调度数据统一汇集到预设的大数据分析资源池中;
汇集单元,还用于使用SDE、FileGDB、FileUDB/FileUDBX和文件系统等方式将调度数据抽取为SHP(ESRI Shapefile,空间数据开放)文件,并将SHP文件存储到HDFS/HBase中;其中,SDE、FileGDB,以及FileUDB/FileUDBX均为文件的扩展名,HDFS/HBase为分布式文件系统。
连接单元,用于通过对调度数据进行信息注册的方式,将调度数据与大数据分析资源池建立连接;其中,大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库,能够支持不同来源、不同结构和不同时相的多源数据进行抽取、汇聚和更新。
过渡单元,用于对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
其中,数据清洗与融合处理包括数据汇聚、数据清洗、数据融合、数据质检、数据存储,具体为:
数据汇集用于通过上传、注册大数据文件共享、服务发布和连接资源池等方法将离散的、分散的、不同来源的时空数据和表格数据统一汇聚到资源池中;
数据清洗用于对数据进行质量清洗,在不改变数据原始结构的情况下,清洗后生成新数据;其中,处理方式包括删除长度异常线、删除字段和删除面积异常多边形;
数据融合用于实现不同维度的数据融合、处理和转换;其中,融合包括图层融合、连接要素和边界融合;处理包括边形质心提取、节点抽稀、多边形多部件转单部件、线转面、空间投影和空间偏移;转换用于数据在不同数据源之间转换,例如数据抽取,从一种数据源读取数据后,再输出到另一种数据源。
数据质检用于检测数据异常,包括检测异常值、狭长型多边形检测、检测多边形异常内环、空间自相交检测、检测差异多边形、检测压盖多边形、检测多边形异常外环、检测拓扑、检测长度异常线、检测空几何、检测多边形岛、检测面积异常多边形和检测空值。
数据存储用于在对数据进行检测、清洗、处理、转换和体检后,对数据进行存储。
本实施例对调度数据进行数据清洗与融合,相当于在原有调度数据的基础上做了数据提取与修剪,使所得到的过渡数据条理清晰、数据正常,且数据特征得到了加强。
目标单元,用于在多维空间上对过渡数据进行近似数据查找与汇总,得到目标数据;
其中,近似数据查找与汇总处理包括汇总数据、空间叠加、位置查找、邻近分析、模式分析、流式计算和机器学习,具体为:
汇总数据用于多源数据集要素与要素空间或者临近关系的汇总统计和属性统计,同时包括属性总数、长度和面积等基本特征的统计运算;
空间叠加用于多源数据集点、线和面三种空间数据类型的相交、擦除、合并和连接等分析;
位置查找用于多源数据集事件检测、驻留位置查找、相似位置查找和地理编码等分析;
邻近分析用于多源数据集围绕输入点、线或面要素以指定距离为半径来创建区域;
模式分析用于多源数据集密度计算、热点查找、点聚类查找、基于森林的分分类与回归、广义线性回归和地理加权回归等分析;
流式计算用于多源数据集道路匹配、路况计算和地理围栏等分析;
机器学习用于多源数据集AI制图、回归预测和聚类分析。
需要说明的是,上述进行近似数据查找与汇总的过程是对过渡数据进行时空大数据多维分析的过程,利用了Spark分布式计算框架以及时空大数据多维分析GIS(Geographic Information System,地学信息系统)的内部特征和应用驱动,将GIS系统智能结合在Spark之中,能够最大程度的发挥GIS和Spark深度融合的潜能,同时扩展Spark的RDD,使其支持点、线和面等地理空间对象。以此为基础,实现了基于内存的大规模空间数据的分布式汇总数据、空间叠加、位置查找、邻近分析、模式分析等多维分析功能。此外,基于Spark对RDD的空间数据结构扩展,可直接利用Spark对空间流式数据进行分析;其中,Spark(SparkStreaming)是个批处理的流式(实时)计算框架。
为应用本发明实施例,请参阅图5,图5是本发明实施例提供的数据治理分析流程图,展示了对调度数据进行数据处理的大体过程;
具体为:对调度数据进行数据汇聚、数据清洗、数据融合、数据质检、数据存储后,将得到的过渡数据注册到集群组;
再在多维空间上对过渡数据进行汇总数据、空间叠加、位置查找、邻近分析、模式分析、流式计算和机器学习,得到目标数据。
本实施例在多维空间上对过渡数据进行近似数据查找与汇总,能够以优化后的过渡数据为基础,通过不同纬度在多源数据集中再次进行数据分析查找,以避免出现数据遗漏的情况,并且能够对过渡数据做进一步分析,以获取到更多有用的特征属性。
地图单元,用于使用二三维实时联动模块基于预设的二维地图的拾取对距离和面积进行量测,基于场景中的三维地形图和Cesium.js中的Scene的贴地模式和空间模式,对贴地距离、面积、空间距离和空间面积进行量测,得到测量结果;其中,Cesium是一种基于WebGL(Web Graphics Library,3D绘图协议)开源的虚拟地球技术;
地图单元,还用于使用二三维标绘模块根据测量结果,在二维地图上选择点、线和面要素进行标绘,从而能够在相应的三维平台将对应的标绘数据以贴地的模式进行联动展示;
地图单元,还用于使用图层管理模块基于二维的空间查询,在二维地图上进行展示,同时在三维平台上将符号化的图标以三维方式直观展现,快速构建POI(Polnt ofInformation,信息点)结果的三维地图。
分离子单元,用于使用平台层将目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果,并采用空间数据缓存机制对分离结果进行缓存;
点位子单元,用于将分离结果渲染后输入预设的三维地图中形成若干点位;
通视分析单元,用于使用空间分析模块,基于三维地图,通过拾取若干点位的高程信息,对若干点位进行通视分析,得到通视分析结果;
动态分析单元,用于再使用空间分析模块,根据三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果,并将所述动态分析结果在二维地图上生成矢量数据;
查询单元,用于使用场景管理模块,根据通视分析结果和矢量数据对若干点位进行查询,得到查询结果;其中,场景管理模块包括二三维路径规划、二三维轨迹数据分析和二三维模型实时监控功能模块;
展示单元,用于使用目标加载模块,通过调用统一坐标系统的二维地图和三维地图服务,对查询结果进行二维和三维一体化展示。
需要说明的是,上述使用三维地图对查询结果进行展示是通过二三维一体化框架,以多业务场景和跨终端的二三维一体化展示方式,对查询结果进行呈现的;
其中,多业务场景覆盖了土地利用、空间规划、自然资源双评价、监测监管、政务服务等多个领域的业务模型展示方式;跨终端支持从PC端到移动端、再到数据大屏的多屏应用,可进行业务模型可视化操作;二三维一体化展示能够提供丰富的可视化组件呈现方式,包括地图、图表、多媒体和文本等多种组件,支持组件样式及数据的定制和设计。
其中,二三维一体化框架包含渲染层、平台层和接口层,具体为:
渲染层包括渲染引擎;并且,渲染层对应平台渲染对象;
平台层包括二三维一体化数据组织存储模块、数据配置模块、数据渲染模块;并且,平台层对应图层的数据对象和样式对象;
接口层包括二三维实时联动模块、二三维标绘模块、图层管理模块、目标加载模块、空间分析模块以及场景管理模块。
为应用本发明实施例,请参阅图6,图6是本发明实施例提供的二三维一体化框架图,展示了二三维一体化框架的应用逻辑;通过二三维一体化框架的渲染层、平台层和接口层的共同协作以实现对目标数据进行多方位的信息展示。
本实施例是通过三维地图对查询结果进行展示,由于该查询结果是在通视分析结果和动态分析结果的基础上获取的,因此能够将目标数据中的信息完整有效地展示在三维地图上,避免信息遗漏;并且,通过三维地图的展现方式比使用二维地图或者直接用数字展示的方式更为直观,能够让用户更快速全面地获取目标数据;
此外,采用空间数据缓存机制对分离结果进行缓存能够提高平台数据加载和渲染效率。
信息获取单元,用于获取目标服务对象的数据信息;
注册单元,用于通过SpringCloud微服务框架的服务API管理节点根据数据信息的IP、端口和服务信息进行微服务注册;
共享单元,用于通过SpringCloud微服务框架的网关服务节点,使用预设的编程封装方式,以微服务的发布形式将目标数据共享给注册后的目标服务对象;
其中,SpringCloud微服务框架的API网关包括两个独立的服务进程,即微网关服务节点(网关服务节点)与微服务API管理节点(服务API管理节点);微服务API管理节点负责服务发现与注册;微网关服务节点是所有微服务的唯一入口,提供所有服务API的代理与负载均衡功能,是对终端用户提供服务的组件,可以水平扩容,通过部署多个节点来支撑更大的流量;另外,微网关服务节点能够通过插件结构,实现统一的用户认证、权限管理等扩展功能。
为应用本发明实施例,请参阅图7,图7是本发明实施例提供的微服务API网关框架图,展示了通过SpringCloud微服务框架实现目标数据共享的大体过程;
具体为:SpringCloud微服务框架的API网关包括微网关服务节点与微服务API管理节点,通过微服务API管理节点对进行微服务注册之后的账号信息进行管理以及实时更新,通过微网关服务节点对用户进行身份认证,对认证成功的用户进行相应的微服务匹配处理,为用户提供对应的数据信息以及进行相应的微服务代理,例如包括NewMap Serve在内的GIS服务;其中,NewMap Server是中国测绘科学研究院GIS所自主研发的面向网络的服务型GIS软件。
为应用本发明实施例,请参阅图8,图8是本发明实施例提供的微服务请求响应流程图,展示了通过SpringCloud微服务框架的应用原理;
具体为:通过SpringCloud进程间通信技术,结果服务功能可以进行解耦拆分,得到包含样式服务、数据服务和地图绘制服务在内的三类服务;同时,数据服务还可以根据提供的数据不同,划分为多个具体的数据服务。通过多个协同工作的小而自治的服务,降低原地图服务的耦合性,从而能够独立修改及部署单个服务而不需要修改系统的其他部分;最后使用分解后的基于微服务的地图服务请求响应流程。
为应用本发明实施例,请参阅图9,图9是本发明实施例提供的总体流程图,表示本实施例实现一种基于时空大数据引擎的数据处理方法的大体流程,具体为:
获取多源数据集,将多源数据集(多源数据库)接入以进行预设模型与数据库的适配,以及进行大数据分布式储存管理;
进行可视化建模以得到若干资源洞察模型;
结合大数据分布式计算处理方法,通过多引擎洞察调度的方式对多源数据集进行调度分析,得到调度数据;
结合大数据分布式计算处理方法,对调度数据进行融合治理以及多维分析处理,得到目标数据;
对目标数据进二三维一体化展示,以及将数据、模型和分析结果进行共享。
本实施例通过微服务注册的方式,能够节省数据共享的时间成本,可以直接根据目标服务对象的IP等信息共享对应的服务信息,免除了额外的安全认证,能够在保证数据安全的同时加快数据共享的进度,从而保障了在服务更新时,不影响网关服务节点功能。
总体来看,本发明实施例具有如下有益效果:
本装置通过数据分解所得到的若干弹性分布式数据集是存储在子过程的不同节点上的,因此当需要进行数据计算的时候可以在这些节点上并行操作,能够加快数据的处理过程;根据各数据集群的负载信息和吞吐率值建立资源洞察模型,可以充分考虑到数据的变化情况,使所得到的资源洞察模型能够反馈准确的数据实时处理动态信息,因此能够以时空大数据任务为基础,通过引擎负载调整,以集中资源在众多数据中进行搜寻调度,可以在避免引擎过劳使用的同时,充分发挥引擎的效用,快速得到所需要的调度数据;最后通过数据治理和多维分析挖掘,能够对数据进行进一步优化处理和遗漏排除,使所得到的目标数据准确有效;
并且,本实施例通过对目标数据进行展示和共享,可以形成一条完整的数据处理链,能够在多源数据集中获取目标数据以进行一站式智能管理;在进行数据调度时,通过多计算引擎智能调度方案,能够共享各引擎集群服务器硬件资源,在极大程度上降低数据处理成本。
实施例三:
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行所述的一种基于时空大数据引擎的数据处理方法;
其中,所述一种基于时空大数据引擎的数据处理方法如果以软件功能单元的形式实现并作为独立的产品使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于时空大数据引擎的数据处理方法,其特征在于,包括:
获取多源数据集和若干时空大数据任务;
将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
根据所述若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据;
对所述调度数据进行数据治理和多维分析挖掘,得到目标数据。
2.如权利要求1所述的一种基于时空大数据引擎的数据处理方法,其特征在于,将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型,具体为:
按照所述若干时空大数据任务的任务数量将所述多源数据集分解为前后依赖的若干子过程,使每一个任务包含对应的若干子过程,且每一个子过程包含对应的若干弹性分布式数据集;
将所述多源数据集的数据重新分配到所述若干弹性分布式数据集中,使所述若干弹性分布式数据集对重新分配的数据进行整合处理;
根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型。
3.如权利要求2所述的一种基于时空大数据引擎的数据处理方法,其特征在于,根据所述若干弹性分布式数据集在进行整合处理时的数据信息计算得到负载信息集和数据吞吐率集,根据所述负载信息集和所述数据吞吐率集和预设权重,建立所述若干资源洞察模型,具体为:
根据所述若干弹性分布式数据集在进行整合处理时的CPU利用率、任务占有率、磁盘等待队列长度、活跃任务数、周期吞吐率和未处理数据量,计算得到所述负载信息集和所述数据吞吐率集;
根据时空大数据任务的下发速度和当前时空大数据任务的处理速度,计算得到模型权重;
根据所述负载信息集、所述数据吞吐率集和所述模型权重建立所述若干资源洞察模型。
4.如权利要1所述的一种基于时空大数据引擎的数据处理方法,其特征在于,根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据,具体为:
根据所述若干资源洞察模型的任务负载量和任务吞吐率建立负载信息样本集和历史吞吐率集;
根据所述若干资源洞察模型的模型权重和所述负载信息样本集计算得到所述若干时空大数据任务的若干吞吐率洞察值;
根据所述若干吞吐率洞察值、数据吞吐率集和所述若干时空大数据任务的负载数据量对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据。
5.如权利要求1所述的一种基于时空大数据引擎的数据处理方法,其特征在于,对所述调度数据进行数据治理和多维分析挖掘,得到目标数据,具体为:
通过对所述调度数据进行信息注册的方式,将所述调度数据与预设的大数据分析资源池建立连接;其中,所述大数据分析资源池是根据分布式文件系统、云存储、列式存储建立的数据库;
对建立连接之后的调度数据进行数据清洗与融合,得到过渡数据;
在多维空间上对所述过渡数据进行近似数据查找与汇总,得到所述目标数据。
6.如权利要求1所述的一种基于时空大数据引擎的数据处理方法,其特征在于,在所述得到目标数据之后,还包括:
将所述目标数据渲染后输入预设的三维地图中形成若干点位;
通过拾取所述若干点位的高程信息,对所述若干点位进行通视分析,得到通视分析结果;
根据所述三维地图中的中心点以及区域范围对可视区域结果进行动态分析,得到动态分析结果;
根据所述通视分析结果和所述动态分析结果对所述若干点位进行查询,得到查询结果;
通过所述三维地图展示所述查询结果。
7.如权利要求6所述的一种基于时空大数据引擎的数据处理方法,其特征在于,将所述目标数据渲染后输入预设的三维地图中形成若干点位,具体为:
将所述目标数据的图层数据对象、样式对象与拟定渲染对象分离,得到分离结果;
将所述分离结果渲染后输入预设的三维地图中形成若干点位;其中,所述三维地图是通过在二维地图上进行点、线、面要素标绘和符号化图标三维展现的方式构建的。
8.如权利要求1所述的一种基于时空大数据引擎的数据处理方法,其特征在于,在所述得到目标数据之后,还包括:
获取目标服务对象的数据信息;
通过预设的服务API管理节点根据所述数据信息的IP、端口和服务信息进行微服务注册;
通过预设的网关服务节点将所述目标数据共享给注册后的所述目标服务对象。
9.如权利要求1所述的一种基于时空大数据引擎的数据处理方法,其特征在于,在所述获取多源数据集和若干时空大数据任务之后,还包括:
使用预设模型对所述多源数据集进行配置适用;
根据细粒度分析算子,使进行配置适用后的所述预设模型以拖拽组合的方式对所述多源数据集进行初步的数据治理和分析挖掘,得到初步数据;
使用所述预设模型对所述初步数据进行初步展示和共享复用。
10.一种基于时空大数据引擎的数据处理装置,其特征在于,包括获取模块、构建模块、遴选模块、调度模块和综合模块;
其中,所述获取模块,用于获取多源数据集和若干时空大数据任务;
所述构建模块,用于将所述多源数据集分解为前后依赖的若干子过程,根据所述若干子过程中各数据集群的负载信息和吞吐率值建立对应的资源洞察模型,得到若干资源洞察模型;
所述遴选模块,用于根据所述若干时空大数据任务的任务数量选择对应的引擎,得到若干引擎;
所述调度模块,用于根据所述若干资源洞察模型的任务负载量和任务吞吐率对所述若干引擎的负载进行控制,使所述若干引擎对所述多源数据集进行资源调度,得到调度数据;
所述综合模块,用于对所述调度数据进行数据治理和多维分析挖掘,得到目标数据。
CN202410027938.6A 2024-01-08 2024-01-08 一种基于时空大数据引擎的数据处理方法和装置 Active CN117931436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410027938.6A CN117931436B (zh) 2024-01-08 2024-01-08 一种基于时空大数据引擎的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410027938.6A CN117931436B (zh) 2024-01-08 2024-01-08 一种基于时空大数据引擎的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN117931436A true CN117931436A (zh) 2024-04-26
CN117931436B CN117931436B (zh) 2024-06-21

Family

ID=90764022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410027938.6A Active CN117931436B (zh) 2024-01-08 2024-01-08 一种基于时空大数据引擎的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN117931436B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074671A1 (en) * 2013-09-10 2015-03-12 Robin Systems, Inc. Anticipatory warm-up of cluster resources for jobs processed on multiple cluster nodes
CN107733986A (zh) * 2017-09-15 2018-02-23 中国南方电网有限责任公司 支持一体化部署及监控的保护运行大数据支撑平台
CN115455076A (zh) * 2022-08-24 2022-12-09 中国地质大学(武汉) 基于多源大数据的时空过程智能分析挖掘方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074671A1 (en) * 2013-09-10 2015-03-12 Robin Systems, Inc. Anticipatory warm-up of cluster resources for jobs processed on multiple cluster nodes
CN107733986A (zh) * 2017-09-15 2018-02-23 中国南方电网有限责任公司 支持一体化部署及监控的保护运行大数据支撑平台
CN115455076A (zh) * 2022-08-24 2022-12-09 中国地质大学(武汉) 基于多源大数据的时空过程智能分析挖掘方法与系统

Also Published As

Publication number Publication date
CN117931436B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN112115198B (zh) 一种城市遥感智能服务平台
US10262392B2 (en) Distributed and parallelized visualization framework
CN116089555B (zh) 基于cim平台三维空间数据的采集与轻量化系统和方法
Hongchao et al. Distributed data organization and parallel data retrieval methods for huge laser scanner point clouds
Li et al. A map-reduce-enabled SOLAP cube for large-scale remotely sensed data aggregation
CN115238015A (zh) 一种基于微服务的时空大数据平台
CN112100800A (zh) 面向地缘环境的时空信息智能分析体系架构设计方法
Olasz et al. A new initiative for tiling, stitching and processing geospatial big data in distributed computing environments
CN116126981A (zh) 一种三维可视化技术在城市安全业务场景的使用方法
CN116383144A (zh) 一种多源异构遥感数据存储方法和装置
Jhummarwala et al. Parallel and distributed GIS for processing geo-data: an overview
CN117931436B (zh) 一种基于时空大数据引擎的数据处理方法和装置
Gui et al. High performance spatiotemporal visual analytics technologies and its applications in big socioeconomic data analysis
Tripathi et al. A comparative analysis of conventional hadoop with proposed cloud enabled hadoop framework for spatial big data processing
Zhang et al. Supporting web-based visual exploration of large-scale raster geospatial data using binned min-max quadtree
CN115391579A (zh) 一种遥感影像时空聚合即时计算影像服务方法
CN112988836A (zh) 数字征迁空间数据管理方法
CN112489210A (zh) 一种自主可控的三维立体自然资源一张图系统构建方法
Xu et al. GeoMapViz: a framework for distributed management and geospatial data visualization based on massive spatiotemporal data streams
Aji et al. Challenges and Approaches in Spatial Big Data Management
Lin et al. Guizhou Big Data Management System and Key Technology
Zhang et al. Design and application of national reserved cultivated land resources investigation and evaluation database management system
CN118296192A (zh) 一种交通基础设施全生命周期数据存储方法
Abdalla et al. A unified approach for spatial data query
Zhang et al. Big Geospatial Data and the Geospatial Semantic Web: Current State and Future Opportunities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant