CN115238015A - 一种基于微服务的时空大数据平台 - Google Patents

一种基于微服务的时空大数据平台 Download PDF

Info

Publication number
CN115238015A
CN115238015A CN202210794702.6A CN202210794702A CN115238015A CN 115238015 A CN115238015 A CN 115238015A CN 202210794702 A CN202210794702 A CN 202210794702A CN 115238015 A CN115238015 A CN 115238015A
Authority
CN
China
Prior art keywords
space
data
service
big data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210794702.6A
Other languages
English (en)
Inventor
赵雪
陈勇为
杜笑笑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuansi Jiuwei Technology Co ltd
Original Assignee
Beijing Yuansi Jiuwei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuansi Jiuwei Technology Co ltd filed Critical Beijing Yuansi Jiuwei Technology Co ltd
Priority to CN202210794702.6A priority Critical patent/CN115238015A/zh
Publication of CN115238015A publication Critical patent/CN115238015A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于微服务的时空大数据平台,包括时空大数据服务架构、时空大数据存储单元、时空大数据检索单元和时空大数据挖掘单元;所述时空大数据服务架构包括服务API网关和进程通信单元,所述服务API网关用于支撑平台的统一对外服务接口,所述进程通信单元用于确定时空数据流转的协议格式,支撑时空大数据服务间通信;所述时空大数据存储单元采用SQL与NoSQL数据库相结合的混合架构,对获取的元数据和实体数据分开管理,将元数据存储于关系型数据库集群中,将矢栅时空数据存储于P2P架构的NoSQL数据库集群中;所述时空带数据检索单元采用空间索引进行的分布式检索,同时采用空间填充曲线的空间索引进行检索。

Description

一种基于微服务的时空大数据平台
技术领域
本发明涉及一种时空大数据平台,具体涉及一种基于微服务的时空大数据平台。
背景技术
时空大数据一词正式出现于2015年,由于地球是在不断运动着的,作为地理信息基础的时空基准也是在不断变化,所以基于时空基准的空间数据、地理空间数据、空间位置数据等也都随着时间的变化而变化,在讨论空间变化的同时也应考虑时间的变化,时间、空间和属性是地理实体和地理现象所应固有的三个最基本的特征,因此,相对于原有的说法,时空大数据是一个更加科学严密的概念。时空大数据具有如下四个特征:
数据量大。天空地海一体化的对地观测网络、随身携带的手机、平板等移动设备、与测绘地理信息紧密相关的交通、规划、国土等传统行业部门,以及视频监控、空气质量等蕴含着位置信息的传感器设施,都在实时动态产生着海量的时空信息。据不完全统计,截至2020年底,全球在轨航天器共3753个,其中遥感卫星数量己达578颗。美国宇航局戈达得飞行中心的E0SDIS数据系统,其处理和管理的数据量,仅E0AM-1平台达到每天1500GB。我国资源三号高分辨率立体测图卫星自2012年1月发射以来,截止到2015年底己经获取到原始影像数据176万景,覆盖全球范围7122万平方千米(同一区域不累计统计)。与对地观测获取能力日益增加相对应的,手机地图软件的用户也成倍增加,据商业网站统计,高德、百度等地图软件的日活跃用户量己经高达几亿,微信、QQ、微博等拥有庞大用户量的社交软件也蕴含着定位功能,从中产生的实时位置信息更是不计其数。
数据多样。从时空数据的产生来源就能够发现,其数据种类繁杂多样,不仅包括了传统结构化的数据类型,还包括大量的非结构化、半结构化的新数据类型。时空基准、GNSS和位置轨迹数据、空间大地测量和物理大地测量数据、海洋测绘数据、地图数据、遥感影像数据、与位置相关联的空间媒体数据、地名数据,以及时空数据与大数据融合产生的数据等都是时空数据的内容。
数据高速。时空数据的高速存在两个层面,一个是大量的传统的、实时的数据获取速度快。当前在轨能够获取到高分辨率影像的卫星重访周期约为1-5天,而无人机、移动测量车、背包式的三维激光扫描仪等新型测绘手段则可以实时获取到相应的测绘地理信息数据。二是实时的时空数据处理速度快,同时传统基础地理信息的更新频率也在逐渐加快。如导航地图软件中的实时路况信息,通过实时回收和共享城市出租车通过定位设备记录的行驶轨迹数据,每隔10秒钟到1分钟,数据中心就能自动计算城市每条道路的实时交通流量。
数据价值。时空数据的数据量十分庞大,但量大并不意味着数据价值的增加,相反,这往往意味着数据噪声或者杂质较多。例如通过遥感卫星获得的影像数据,可能由于天气的影响存在大量的云层遮挡地区,需要进行去云处理才能够进行使用。再如大量的社交位置数据,其每时每刻都在产生,但如何从这些看似无规律无关联数据中挖掘出有用的信息,同样需要进行清洗挖掘才能得到。可见,时空数据同样需要浪里淘沙来挖掘其中的价值。
发明内容
本发明所要解决的技术问题是时空大数据服务架构优化差,系统数据反馈速度慢,时空大数据没有一个高效的存储服务,时空大数据没有进行智能匹配检索的架构也没有高效分发服务,目的在于提供一种基于微服务的时空大数据平台,解决上述的问题。
本发明通过下述技术方案实现:
一种基于微服务的时空大数据平台,包括时空大数据服务架构、时空大数据存储单元、时空大数据检索单元和时空大数据挖掘单元;
所述时空大数据服务架构包括服务API网关和进程通信单元,所述服务API网关用于支撑平台的统一对外服务接口,所述进程通信单元用于确定时空数据流转的协议格式,支撑时空大数据服务间通信;
所述时空大数据存储单元采用SQL与NoSQL数据库相结合的混合架构,对获取的元数据和实体数据分开管理,将元数据存储于关系型数据库集群中,将矢栅时空数据存储于P2P架构的NoSQL数据库集群中;
所述时空带数据检索单元采用空间索引进行的分布式检索,同时采用空间填充曲线的空间索引进行检索;
所述时空大数据挖掘单元通过对原始遥感影像进行重采样,形成不同分辨率的瓦片并构建金字塔,从而提高影像浏览缩放的响应速度。
时空大数据服务的完整实现是一项复杂且困难的工作,涉及的相关理论和技术问题非常庞大,当前有以下问题亟待解决:
时空大数据服务架构优化:从底层体系架构上提升服务效率对现有服务架构进行总结分析,从时空大数据及其服务自身的海量、异构、高并发、持续服务提供等特点出发,研究适用于时空大数据高效服务的架构,并详细阐述该架构实现方法,并对其效率进行对比验证。
时空大数据高效存储服务:从存储检索机制上提升服务效率时空大数据呈爆炸式增长,传统的集中式存储方式以及单中心的关系数据库的管理模式已经很难满足不断增长的数据的存储与管理的需求,针对时空数据的分布式存储与组织管理等问题,基于关系数据库与非关系数据结合的混合存储模式,开展矢栅时空大数据的统一存储、高效存取研究,并对相关方法进行实现和验证。
时空大数据智能匹配检索:从数据集成整合上提升服务效率时空大数据中包含有大量的专题信息、互联网爬取和物联网抓取数据,针对这些多源异构数据的时空匹配整合以及后续的查询检索服务的需求,分别开展地名地址识别提取算法和基于地名地址的快速空间匹配方法的研究,并对相关算法和方法进行实现和验证。
时空大数据高效分发服务:从数据分发共享上提升服务效率以海量时序遥感影像数据作为研究对象,探索当前时空大数据快速网络分发服务的相关技术,包括时序遥感影像瓦片金字塔的快速构建方法和并行策略,并对相关方法进行实现和验证。
大数据服务是一种数据使用模式,是在对大数据统一建模基础上,将各类数据操作进行封装,对外提供无处不在的、标准化的、随需的检索、分析或可视化服务交付。同样,时空大数据服务也是对外提供时空大数据服务交付,应主要研究如何更好的提升数据使用能力和水平。从这一层面出发,时空大数据服务当前的研究的重点在于服务能力的优化提升,包括存储检索、挖掘分析、可视化、服务分发等服务能力,以及实现上述能力的平台构建等。
进一步地,所述服务API网关包括网关服务节点与服务API管理节点,所述服务API管理节点负责服务API更新与服务注册,在保障服务API更新时,不影响网关服务节点功能;网关服务节点为微服务的唯一入口,提供服务API的代理与负载均衡功能,为对终端用户提供服务的组件,能够进行水平扩容,通过部署多个节点来支撑流量。为保证支持新暴露的服务接口实现快速的服务注册,本专利设计的时空大数据服务API网关,分为两个独立的服务进程:网关服务节点与服务API管理节点。服务API管理节点负责服务发现与注册,从而保障服务更新时,不影响网关服务节点功能。两个独立服务进程通过共享内存的方式实现通信,支持服务API的轻量级快速更新。网关服务节点是所有微服务的唯一入口,提供所有服务API的代理与负载均衡功能,是对终端用户提供服务的组件,可以水平扩容,通过部署多个节点来支撑更大的流量。另外,网关服务节点通过插件结构,实现统一的用户认证、权限管理等扩展功能。
进一步地,所述进程通信单元用于将进程数据进行解耦拆分,分解为三类服务,样式服务、数据服务和地图绘制服务,通过若干个协同工作的服务,降低原地图服务的耦合性。该服务功能可以进行解耦拆分,可以分解为三类服务,样式服务、数据服务和地图绘制服务,而数据服务还可以根据提供的数据不同,划分为多个具体的数据服务。通过多个协同工作的小而自治的服务,降低原地图服务的耦合性,从而能够独立修改及部署单个服务而不需要修改系统的其他部分。分解后的基于微服务的地图服务请求响应流程如图2所示。
进一步地,所述时空大数据数据存储单元采用分布式时空数据引擎,所述分布式时空数据引擎包含数据发现层、数据访问层和数据集成层,所述数据发现层进行矢栅时空数据的获取,所述数据访问层用于局部异构矢栅时空数据的转换,所述数据集成进行多图层、多数据源的叠加和聚合。实现矢栅时空数据在各数据库节点之间的无缝流转。架构的核心是分布式时空数据引擎,引擎包含数据发现、数据访问和数据集成3层。数据发现层主要解决矢栅时空数据的获取问题,即通过管理矢栅时空数据的存储位置、格式、获取及使用方法等元数据信息,为数据引擎提供获取数据的途径;数据访问层主要解决局部异构矢栅时空数据的转换问题,即实现矢栅时空数据“异构同化”,将异构的局部矢栅时空数据模型转换为全局统一的矢栅时空数据模型,存储在相应的P2P网络节点中,是数据引擎实现的关键;数据集成层主要解决“物理分布、逻辑统一”的问题,即在不同P2P网络节点存储的数据在逻辑操作上表现为一个整体,达到“同构整体化”,实现多图层、多数据源的叠加和聚合。其余2层为数据目录层和用户访问层。数据目录层主要用于实现数据资源的集中管理;用户访问层主要解决用户统一、透明访问。元数据数据库集群由关系型数据库集群组成,主要存储用户访问控制信息、数据目录信息、数据访问控制信息等,为上述5层层次模型提供相关元数据信息;NoSL数据库集群采用去中心化的P2P架构,构成了一个“一致性哈希环”,分为Write-Heavy和Analytics两个中心,用于读写、分析等不同的应用请求,实现数据的备份、任务的负载均衡,其节点根据负载均衡情况进行动态的线型扩展和弹性管理,满足业务增长和变更的需求。
进一步地,所述时空大数据挖掘单元在构建不同分辨率的瓦片金字塔时,采用自下而上的方式进行切分,先进行金字塔最下层瓦片层级与原始影像分辨率与最接近的最底层瓦片的渲染、采样和并行切分,然后上层级瓦片,直接利用已得到的最底层瓦片,逐层向上得到其邻近上层瓦片信息。为了尽可能使运行环境的计算资源量得到充分利用,在瓦片金字塔构建并行策略方面,本专利采用资源消耗少、执行切换快的多线程来替代多进程,整个过程只启动一个进程,并分别对瓦片的切分和输出两类操作开展线程并行处理,即切分操作采用线程池控制、输出操作采用输出队列控制,同时通过己有运行环境的硬件参数,计算两个操作之间平衡点状态,整体提升瓦片金字塔构建效率,其处理流程如图4所示。
进一步地,所述瓦片金字塔构建分为采用基于影像融合方式搭建,通过对时序影像进行瓦片金字塔构建包括影像拼接和瓦片并行切分,影像拼接包括配准和融合。据原始影像的覆盖范围和预设的瓦片大小,可以计算得到该影像对应所有瓦片的行列号,进而得出时序影像对应的全部瓦片位置信息,因此,实际上不用进行影像拼接,只需按位置切分就能够获取到所有瓦片。但由于影像之间有重叠,因此影像的非重叠区域只产生一张瓦片,而重叠区域则会产生多张行列号相同的瓦片,需要分别对这两种情况进行瓦片切分处理。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种基于微服务的时空大数据平台,本专利通过结合当前主流的微服务架构,设计并实现了一种具有高性能的时空大数据服务架构。结合时空大数据特点设计了一种时空大数据服务的服务间通信协议GeoProtoBuf,并与GeoJSON对比,验证了该协议的高性能,从而通过进程间通信的模式,进一步增强基于微服务的时空大数据架构的可扩展性;
2、本发明一种基于微服务的时空大数据平台,本专利结合NoSQL数据库和SQL数据库各自的优势,提出混合部署模式,实现了对元数据和实体数据分开管理,从而实现时空大数据的统一存储与管理。其中,对于实体数据的存储管理采用NoSQL数据库,选择P2P架构下的集群部署模式;对于元数据的管理采用SQL数据库。面向时空大数据中的两类典型数据,即矢量时空数据与栅格时空数据,开展了数据存储管理的相关技术研究。设计实现了基于的矢量、栅格空间数据存储与快速索引,通过对比实验,比关系型空间数据管理系统在时空大数据的存储与查询效率上有明显提升;
3、本发明一种基于微服务的时空大数据平台,本专利根据时空大数据各类数据内容的空间位置属性的类型,将数据分为三类进行空间匹配处理研究。第一类带有的空间坐标属性信息进行空间匹配处理,只需进行坐标转换等工作;第二类带有地名地址信息的数据,在进行属性一致性处理后,通过地名地址匹配实现数据的空间匹配,文章给出了人口、法人、兴趣点3类典型数据的属性一致性处理规范;第三类带地名地址隐含信息的非结构化数据,文章提出地名地址基因规则与提取算法,获取非结构化数据的目标地名地址,从而通过地名地址匹配实现数据的空间匹配上图。
4、本发明一种基于微服务的时空大数据平台,面向时空数据分发服务的高效性需求,以海量时序遥感影像为研究对象,针对时空影像分发服务中,现有瓦片金字塔构建相关方法在影像图幅数、影像数据量较大时,由于构建算法和并行策略不佳,导致构建过程整体耗时长、效率低这一问题,提出一种时序影像瓦片金字塔快速构建方法,根据影像重叠区域下不同形式瓦片特点进行瓦片切分,无需影像拼接进行瓦片金字塔构建,同时采用多线程优化瓦片金字塔构建并行策略,实现时序影像瓦片金字塔的高效快速构建,进而提升海量时序影像的分发服务效率。同时本专利本章对时空大数据平台系统进行设计并实现,包括提出平台的体系框架、几项关键技术的接入、表现形式和对应的相关功能等,将构建的时空大数据平台应用于智慧时空大数据平台建设项目,充分验证了相关技术的应用效果
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明时空大数据服务API网关架构图。
图2为本发明基于微服务的地图绘制服务请求响应流程图。
图3为本发明矢栅数据一体化存储与管理总体架构图。
图4为本发明多线程并行处理流程图。
图5为本发明时空大数据平台体系框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例一
如图1~5所示,本发明一种基于微服务的时空大数据平台,包括时空大数据服务架构、时空大数据存储单元、时空大数据检索单元和时空大数据挖掘单元;所述时空大数据服务架构包括服务API网关和进程通信单元,所述服务API网关用于支撑平台的统一对外服务接口,所述进程通信单元用于确定时空数据流转的协议格式,支撑时空大数据服务间通信;所述时空大数据存储单元采用SQL与NoSQL数据库相结合的混合架构,对获取的元数据和实体数据分开管理,将元数据存储于关系型数据库集群中,将矢栅时空数据存储于P2P架构的NoSQL数据库集群中;所述时空带数据检索单元采用空间索引进行的分布式检索,同时采用空间填充曲线的空间索引进行检索;所述时空大数据挖掘单元通过对原始遥感影像进行重采样,形成不同分辨率的瓦片并构建金字塔,从而提高影像浏览缩放的响应速度。
在本申请文件中微服务架构属于面向服务的架构,其实现需要两项关键技术支撑:服务API网关和进程间通信。在微服务架构中,每个微服务都对外暴露一个服务端,理论上客户端可以直接给个多个微服务发起请求,但这样实现有很多的困难和限制。首先,客户端的需求量与每个微服务暴露的细粒度API数量不匹配;其次,并不是所有微服务都对外提供Web友好的服务协议。尤其针对时空大数据服务,API网关需要提供微服务的负载均衡功能,但当前主流负载均衡算法,均未考虑时空大数据服务特点,没有顾及时空大数据的空间邻近性,随机或无序的分配请求,会造成GIS服务端在响应请求时,频繁地进行空间数据的加载与卸载,影响服务端性能。而且在地理信息服务领域,空间数据的体量都非常大,进程间流转时空数据的成本非常高,所以需要设计一种高效的服务间通信协议。
为保证支持新暴露的服务接口实现快速的服务注册,本专利设计的时空大数据服务API网关,分为两个独立的服务进程:网关服务节点与服务API管理节点。服务API管理节点负责服务发现与注册,从而保障服务更新时,不影响网关服务节点功能。两个独立服务进程通过共享内存的方式实现通信,支持服务API的轻量级快速更新。如图1所示。网关服务节点是所有微服务的唯一入口,提供所有服务API的代理与负载均衡功能,是对终端用户提供服务的组件,可以水平扩容,通过部署多个节点来支撑更大的流量。另外,网关服务节点通过插件结构,实现统一的用户认证、权限管理等扩展功能。
基于微服务的时空大数据服务架构中,通过进程间通信技术,该服务功能可以进行解耦拆分,可以分解为三类服务,样式服务、数据服务和地图绘制服务,而数据服务还可以根据提供的数据不同,划分为多个具体的数据服务。通过多个协同工作的小而自治的服务,降低原地图服务的耦合性,从而能够独立修改及部署单个服务而不需要修改系统的其他部分。分解后的基于微服务的地图服务请求响应流程如图2所示。
在时空大数据服务领域,由于通用的协议格式过于灵活,非常容易产生非常多的自定义规范,不利于统一与互操作。普遍的做法是在XML、JSON等规范的基础上,进行专业领域的规范扩展,从而使其更符合专业需求。GeoJSON作为一种扩展的JSON格式,用于描述地理要素数据,是最为常用的RESTful服务的通信规范。但同时GeoJSON与XML—样,是基于文本的消息格式,这类格式最大的缺点是消息会变得冗长,使用GeoJSON描述的数据体量大,造成网络传输的巨大浪费。同时GeoJSON另外一个缺点是解析文本的负担过大,序列化速度有限,导致服务间消息传递效率不高。另外,GeoJSON不支持按需解析,当传递数据量较大时,只能全部解析后再查找所需要素,造成性能损耗。
Protocol Buffers是Google公司提出的一种结构化数据描述语言,类似于XML、JSON能够将结构化数据序列化,可应用于数据存储、通信协议等方面。Protocol Buffers被广泛应用在Google公司服务间通信中的协议定义。以下将Protocol Buffers简称为protobuf。protobuf其与XML、JSON两类结构化语言的相似之处是,都不依赖于具体编程语言和平台,具有极强的可扩展性。不同之处在于,protobuf使用二进制编码方案,从而使其在序列化结构化数据时具有许多优势。
本专利采用GeoJSON与Protocol Buffers相结合的策略,参考GeoJSON的语法标准、Protocol Buffers的编码标准,来设计时空大数据服务间通信协议GeoProtoBuf。GeoProtoBuf是在Protocol Buffers基础上针对时空数据定义的一种二进制结构化语言。针对空间对象描述规范,结合GeoJSON的空间数据结构化定义与Protocol Buffers的二进制结构的优点,扩展时间信息。描述的空间数据类型具有互操作性,并且达到在进程间通信中数据体量的最小化。
随着时空大数据的类型不断丰富、体量不断增大,如何有效地实现数据管理和检索成为影响服务能力的一个关键问题。针对时空大数据存储,目前主要基于两个方面:第一类是以传统关系型数据库为代表,直接对传统数据库管理系统进行扩展,实现矢量、栅格数据存储与管理功能;第二类是基于分布式文件系统构建非关系型(NoSQL)数据库,在分布式并行计算框架下进行数据处理。
为了将矢栅时空大数据及其属性数据、元数据等进行统一存储和管理,便于数据迁移、流转,利于共享,本专利根据“异构同化,同构整体化”的思想以及多空间数据库系统、分布式数据库系统的模式结构,本专利基于关系型数据库与非关系型数据库相结合的方式,开展基于分布式数据库的矢栅数据一体化的时空大数据存储与管理方法研究,用以实现分布式系统多源异构信息的集成,其体系架构如图3所示。该架构采用全局统一的空间数据模型来描述全局概念模式和分片模式,实现局部概念模式到全局分片模式的转换,并提供统一的访问接口、统一的空间查询语言和统一的用户交互界面,结合关系数据库和非关系数据库各自的技术优势,构建SQL与NoSQL数据库相结合的混合架构,对元数据和实体数据分开管理,将元数据存储于关系型数据库集群中,将矢栅时空数据存储于P2P架构的NoSQL数据库集群中。
实现矢栅时空数据在各数据库节点之间的无缝流转。架构的核心是分布式时空数据引擎,引擎包含数据发现、数据访问和数据集成3层。数据发现层主要解决矢栅时空数据的获取问题,即通过管理矢栅时空数据的存储位置、格式、获取及使用方法等元数据信息,为数据引擎提供获取数据的途径;数据访问层主要解决局部异构矢栅时空数据的转换问题,即实现矢栅时空数据“异构同化”,将异构的局部矢栅时空数据模型转换为全局统一的矢栅时空数据模型,存储在相应的P2P网络节点中,是数据引擎实现的关键;数据集成层主要解决“物理分布、逻辑统一”的问题,即在不同P2P网络节点存储的数据在逻辑操作上表现为一个整体,达到“同构整体化”,实现多图层、多数据源的叠加和聚合。其余2层为数据目录层和用户访问层。数据目录层主要用于实现数据资源的集中管理;用户访问层主要解决用户统一、透明访问。元数据数据库集群由关系型数据库集群组成,主要存储用户访问控制信息、数据目录信息、数据访问控制信息等,为上述5层层次模型提供相关元数据信息;NoSL数据库集群采用去中心化的P2P架构,构成了一个“一致性哈希环”,分为Write-Heavy和Analytics两个中心,用于读写、分析等不同的应用请求,实现数据的备份、任务的负载均衡,其节点根据负载均衡情况进行动态的线型扩展和弹性管理,满足业务增长和变更的需求。
在时空大数据检索方面,目前大多是开展分布式时空数据检索的研究,主要可以分为两大类:一类是基于传统的空间索引(B+Tree、QuadTree、R-Tree、Hash索引、Grid索引等)进行的分布式改进或扩展的研究;另一类是基于空间填充曲线(SFC)的空间索引技术研究(Z-Order、S2等)。由于时空大数据的各类数据内容并非由单一部门提供,不同部门在进行同一类型数据采集时,所使用的标准往往不同,这就导致了同一类型数据,在数据库或者文件表格中存储时,会有多种数据属性结构,需要对其进行内容属性,特别是空间属性的一致性处理。为此,需要在分析其来源和内容表达主旨的前提下,对这些数据的属性采集进行规范要求,便于后续自动化属性提取和整理。例如对于地名地址数据,地址是具有地名的某一特定空间位置上自然或人文地理实体位置的结构化描述。在指代地点的范围上,地名的指代范围要大于等于地址的指代范围,同时地名指代地点具有模糊性,地址更具体指代某个地点。音频、视频、网络爬虫信息等,由于存储格式、内容表述习惯等不同,导致其中出现的带有地名地址的一些表述不正规,同一事件的表述内容往往存在差异,虽然表述的方式各有不同,简单或复杂,模糊或准确,但只要寻找到其中出现的地名地址基因,就可以对其进行识别并与标准地名地址库建立连接,实现精准匹配。地名地址在形式上可分解为若干地名地址要素,因其之间的关联与派生关系,我们称之为“地名地址基因”。地址要素是指在某一限定区域内,可以指定某一具体范围,一个地址由一个或多个地址要素组成,每个地址要素为地址串中的一个相对独立的部分。地名地址基因具有最小指代某个地点范围的地名地址的意义,并且可分为地名地址专有名及地名地址通配名。地名地址专有名是指明确指代某个地点范围的地名地址词;地名地址通配名是指能与地址专有名搭配的,在指代某个地点范围时具有补充作用的地名地址词。
时空大数据挖掘是从海量低价值密度的时空大数据中发现高价值密度的规律和知识的过程。目前时空大数据挖掘的研究大多集中在挖掘方法和挖掘对象两个方面。在时空大数据的挖掘方法方面,目前常用方法仍旧是数据挖掘中的分类模型、回归模型、聚类模型、预测模型等,同时由于时空大数据本身的时间和空间维度增加了挖掘的复杂性和困难程度,因此,时空大数据挖掘通常需要综合多种数据挖掘方法进行实现。此外,时空大数据的挖掘也更加注重关联关系的挖掘,包括时空频繁模式挖掘、时空共现模式挖掘等。
时序影像是同一遥感平台获取并按照获取时间、获取范围顺序排列的遥感影像数据,构建瓦片金字塔是实现时序影像高效可视化和网络发布的基础,其本质是对遥感影像实现顾及视点范围的分层分块处理,通过对原始遥感影像进行重采样,形成不同分辨率的瓦片并构建金字塔,从而提高影像浏览缩放的响应速度。
随着当前遥感影像数据量的不断增加和网络分发需求的不断提升,如何实现时序影像瓦片金字塔的快速构建,成为当前遥感影像网络化应用亟待解决的问题。近年来,国内外学者对时序影像瓦片金字塔的构建进行了广泛的研究,根据对时序影像的处理方式,瓦片金字塔构建可分为基于影像融合、基于镶嵌数据集以及基于地图绘制三类方法。其中,基于地图绘制的方式由于需要依靠绘制引擎实现地图绘制,且对运行计算环境要求较高,日常环境难以满足,因此目前瓦片金字塔构建最常用的方法集中在基于影像融合和基于镶嵌数据集两类方法上。基于影像融合方法对时序影像进行瓦片金字塔构建的流程通常包括影像拼接和瓦片并行切分两个基本步骤。其中影像拼接主要包括配准和融合两项操作。
根据原始影像的覆盖范围和预设的瓦片大小,可以计算得到该影像对应所有瓦片的行列号,进而得出时序影像对应的全部瓦片位置信息,因此,实际上不用进行影像拼接,只需按位置切分就能够获取到所有瓦片。但由于影像之间有重叠,因此影像的非重叠区域只产生一张瓦片,而重叠区域则会产生多张行列号相同的瓦片(简称“同位瓦片”),需要分别对这两种情况进行瓦片切分处理。
对时序影像间不重叠的部分,本专利采用较为成熟的自底而上的方法进行切分:先进行瓦片层级与原始影像分辨率与最接近的最底层瓦片的渲染、采样和并行切分,然后其他层级瓦片,直接利用已得到的最底层瓦片,逐层向上“四合一”得到其邻近上层瓦片。
为了尽可能使运行环境的计算资源量得到充分利用,在瓦片金字塔构建并行策略方面,本专利采用资源消耗少、执行切换快的多线程来替代多进程,整个过程只启动一个进程,并分别对瓦片的切分和输出两类操作开展线程并行处理,即切分操作采用线程池控制、输出操作采用输出队列控制,同时通过己有运行环境的硬件参数,计算两个操作之间平衡点状态,整体提升瓦片金字塔构建效率,其处理流程如图4所示。
其中,线程池中的所有线程均设置休眠、激活以及消亡三种状态,线程池的控制命令负责处理线程池中每个线程的调配。切分操作中,每张瓦片的切分处理均创建新的独立线程加入到切分线程池中(图4流程2),根据大瓦片切分形式,线程池的容量大小设置为i*j,即为一张大瓦片内所覆盖的瓦片量。新创建的线程先处于休眠状态,控制命令根据设置的并行切分线程数n,对应激活n个线程进行切分操作(图4流程3),当某一个线程的操作完成后,控制命令将该线程消亡并移出线程池(图4流程4)。在这一过程中,切分线程始终保持动态更新过程,使切分线程池中的线程总数始终大于并行处理数直至切分完成,从而确保整个切分过程能够充分利用运行环境的CPU计算能力。
输出操作中,每张切好的瓦片按顺序进入到输出队列中(图4流程5),输出队列的总长度(存储瓦片总数)设置为切分并行处理数n*i*j,即切分线程池一次能够切分产生的瓦片总量。瓦片入队出队的顺序保持先进先出(图4流程6),同样控制命令根据设置的并行输出线程数m激活输出线程,将瓦片输出存放到数据库中(图4流程7、8、9)。并行切分线程数n和并行输出线程数m之和与运行环境CPU逻辑核心数相等,n和m的具体数值与原始影像分辨率和具体运行环境计算能力相关,由于前文提到切分操作更依赖CPU性能,因此通常情况下n>m。在进行大规模时序影像瓦片金字塔正式构建前,可以提前选择部分影像进行实验,来合理分配n和m的数值。
实施例二
本实施例在实施例一的基础上进行优化,时空大数据服务平台是在线提供时空大数据信息浏览、查询检索、挖掘分析、分发共享等服务的开放式信息系统。前面提到,时空大数据服务的最终目标是提供一种无处不在的、标准化的、随需的检索、分析或可视化服务交付,而时空大数据平台则是面向用户提供交付能力的窗口,其应针对时空大数据自身特点,如数据结构多样、数据动态累积、服务需求多样等,来优化提升服务能力。平台依托云计算环境,提供时空大数据服务。平台体系框架对应云计算的层次划分,可以概括分为四层,分别为:基础设施层(IaaS)、数据层(DaaS)、平台层(PaaS)和表现层(SaaS)。其中,基础设施层提供系统虚拟化服务,将计算、网络等硬件资源以虚拟化服务的方式提供;数据层提供数据服务,包含本专利研究的基于NoSQL的时空大数据存储检索服务、时空大数据空间匹配服务和瓦片金字塔构建服务等支撑服务;平台层分为两个层次,一是实现的各类微服务,包含具体的服务接口,包含云地图、云汇聚、资源池和云管控等功能模块,二是服务API网关,实现微服务的管理,包含服务发现、服务注册和负载均衡等;表现层面向各类终端用户提供软件功能服务。整个平台内在的服务架构采用微服务构建,可以根据后续应用需求,单独进行功能模块的构建,通过统一的API网关进行追加扩展。基于微服务的时空大数据服务架构,作为时空大数据服务平台的底层服务架构进行整体实现,外在表现为平台层中服务引擎,包括服务发现、服务注册管理、负载均衡等功能,以及软件层中用户管理、认证授权管理等。时空大数据存储检索服务,主要体现在数据层的时空大数据管理方面,包括时空数据引擎、非关系数据库、元数据服务器、时空大数据管理系统等。
时空大数据的快速空间匹配,主要体现在数据层时空大数据处理,支撑各类时空大数据的统一数据格式转换、一致性处理和空间匹配。并通过平台层地名地址匹配引擎开放给用户使用,其功能包括面向专题数据的精准匹配、容错匹配、反向匹配,以及面向网络数据的地名基因识别和地名地址提取等。时序影像瓦片金字塔高效构建方法,其核心主要是瓦片金字塔的快速生成,外在表现则主要体现在数据层中高效瓦片金字塔构建功能,以及平台层中时序影像瓦片数据服务的提供。由于平台构建是一项系统实现内容,除了上述本专利所研究的关键技术所对应的功能外,平台的实现还应用了多种技术,例如API接口、GIS服务发布、业务流引擎和日志分析管理等,统一构成时空大数据平台。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于微服务的时空大数据平台,其特征在于,包括时空大数据服务架构、时空大数据存储单元、时空大数据检索单元和时空大数据挖掘单元;
所述时空大数据服务架构包括服务API网关和进程通信单元,所述服务API网关用于支撑平台的统一对外服务接口,所述进程通信单元用于确定时空数据流转的协议格式,支撑时空大数据服务间通信;
所述时空大数据存储单元采用SQL与NoSQL数据库相结合的混合架构,对获取的元数据和实体数据分开管理,将元数据存储于关系型数据库集群中,将矢栅时空数据存储于P2P架构的NoSQL数据库集群中;
所述时空带数据检索单元采用空间索引进行的分布式检索,同时采用空间填充曲线的空间索引进行检索;
所述时空大数据挖掘单元通过对原始遥感影像进行重采样,形成不同分辨率的瓦片并构建金字塔,从而提高影像浏览缩放的响应速度。
2.根据权利要求1所述的一种基于微服务的时空大数据平台,其特征在于,所述服务API网关包括网关服务节点与服务API管理节点,所述服务API管理节点负责服务API更新与服务注册,在保障服务API更新时,不影响网关服务节点功能;网关服务节点为微服务的唯一入口,提供服务API的代理与负载均衡功能,为对终端用户提供服务的组件,能够进行水平扩容,通过部署多个节点来支撑流量。
3.根据权利要求1所述的一种基于微服务的时空大数据平台,其特征在于,所述进程通信单元用于将进程数据进行解耦拆分,分解为三类服务,样式服务、数据服务和地图绘制服务,通过若干个协同工作的服务,降低原地图服务的耦合性。
4.根据权利要求1所述的一种基于微服务的时空大数据平台,其特征在于,所述时空大数据数据存储单元采用分布式时空数据引擎,所述分布式时空数据引擎包含数据发现层、数据访问层和数据集成层,所述数据发现层进行矢栅时空数据的获取,所述数据访问层用于局部异构矢栅时空数据的转换,所述数据集成进行多图层、多数据源的叠加和聚合。
5.根据权利要求1所述的一种基于微服务的时空大数据平台,其特征在于,所述时空大数据挖掘单元在构建不同分辨率的瓦片金字塔时,采用自下而上的方式进行切分,先进行金字塔最下层瓦片层级与原始影像分辨率与最接近的最底层瓦片的渲染、采样和并行切分,然后上层级瓦片,直接利用已得到的最底层瓦片,逐层向上得到其邻近上层瓦片信息。
6.根据权利要求5所述的一种基于微服务的时空大数据平台,其特征在于,所述瓦片金字塔构建分为采用基于影像融合方式搭建,通过对时序影像进行瓦片金字塔构建包括影像拼接和瓦片并行切分,影像拼接包括配准和融合。
CN202210794702.6A 2022-07-07 2022-07-07 一种基于微服务的时空大数据平台 Pending CN115238015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210794702.6A CN115238015A (zh) 2022-07-07 2022-07-07 一种基于微服务的时空大数据平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210794702.6A CN115238015A (zh) 2022-07-07 2022-07-07 一种基于微服务的时空大数据平台

Publications (1)

Publication Number Publication Date
CN115238015A true CN115238015A (zh) 2022-10-25

Family

ID=83672433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210794702.6A Pending CN115238015A (zh) 2022-07-07 2022-07-07 一种基于微服务的时空大数据平台

Country Status (1)

Country Link
CN (1) CN115238015A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774861A (zh) * 2022-12-22 2023-03-10 广东五度空间科技有限公司 一种自然资源多源异构数据汇聚融合服务系统
CN116166734A (zh) * 2023-02-24 2023-05-26 齐鲁工业大学(山东省科学院) 一种数据中台中大规模异构数据的存储方法
CN116192242A (zh) * 2023-04-25 2023-05-30 华南农业大学 一种无人飞机低空遥感数据自适应分片处理算法
CN117271978A (zh) * 2023-10-09 2023-12-22 广东省核工业地质局测绘院 一种基于自然资源调查监测数据处理系统
CN117407578A (zh) * 2023-12-15 2024-01-16 南京飓风引擎信息技术有限公司 一种去中心化的云资源数据检索系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774861A (zh) * 2022-12-22 2023-03-10 广东五度空间科技有限公司 一种自然资源多源异构数据汇聚融合服务系统
CN116166734A (zh) * 2023-02-24 2023-05-26 齐鲁工业大学(山东省科学院) 一种数据中台中大规模异构数据的存储方法
CN116166734B (zh) * 2023-02-24 2023-09-12 齐鲁工业大学(山东省科学院) 一种数据中台中大规模异构数据的存储方法
CN116192242A (zh) * 2023-04-25 2023-05-30 华南农业大学 一种无人飞机低空遥感数据自适应分片处理算法
CN117271978A (zh) * 2023-10-09 2023-12-22 广东省核工业地质局测绘院 一种基于自然资源调查监测数据处理系统
CN117407578A (zh) * 2023-12-15 2024-01-16 南京飓风引擎信息技术有限公司 一种去中心化的云资源数据检索系统及方法
CN117407578B (zh) * 2023-12-15 2024-02-23 南京飓风引擎信息技术有限公司 一种去中心化的云资源数据检索系统及方法

Similar Documents

Publication Publication Date Title
CN106709067B (zh) 一种基于Oracle数据库的多源异构空间数据流转方法
CN115238015A (zh) 一种基于微服务的时空大数据平台
CN106909644B (zh) 一种面向海量遥感影像的多级组织和索引方法
CN103023970B (zh) 一种物联网海量数据存储方法及系统
CN111291016B (zh) 一种海量遥感影像数据分层混合存储与索引方法
US10262392B2 (en) Distributed and parallelized visualization framework
CN109144966A (zh) 一种海量时空数据的高效组织与管理方法
CN116089555B (zh) 基于cim平台三维空间数据的采集与轻量化系统和方法
CN112115198A (zh) 一种城市遥感智能服务平台
CN114328779A (zh) 基于云计算高效检索浏览的地理信息云盘
CN104699826B (zh) 一种影像数据的金字塔层式存储方法及空间数据库系统
CN111552010A (zh) 一种全球气象灾害卫星遥感快速响应与可视化服务平台
Jhummarwala et al. Parallel and distributed GIS for processing geo-data: an overview
Chaudhry et al. Indexing of real time geospatial data by IoT enabled devices: Opportunities, challenges and design considerations
CN106649636A (zh) 一种基于移动终端的人员流动性分析方法及装置
CN113918669A (zh) 一种自然资源国土空间规划一张图系统的实现装置及方法
CN117762943A (zh) 面向自然资源生态环境监测的时空大数据索引方法
Tripathi et al. A comparative analysis of conventional hadoop with proposed cloud enabled hadoop framework for spatial big data processing
Zhizhin et al. Transparent data cube for spatiotemporal data mining and visualization
Kolaric et al. DBL SmartCity: An open-source IoT platform for managing large BIM and 3D geo-referenced datasets
Kanojia et al. IT Infrastructure for Smart City: Issues and Challenges in Migration from Relational to NoSQL Databases
Xu et al. GeoMapViz: a framework for distributed management and geospatial data visualization based on massive spatiotemporal data streams
CN117931436B (zh) 一种基于时空大数据引擎的数据处理方法和装置
Gong et al. Object-oriented and integrated spatial data model for managing image, DEM, and vector data
Kolarić et al. Toward an open IoT implementation for urban environments: The architecture of the DBL SmartCity platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination