CN116955463B - 多源异构数据整合系统 - Google Patents

多源异构数据整合系统 Download PDF

Info

Publication number
CN116955463B
CN116955463B CN202310693630.0A CN202310693630A CN116955463B CN 116955463 B CN116955463 B CN 116955463B CN 202310693630 A CN202310693630 A CN 202310693630A CN 116955463 B CN116955463 B CN 116955463B
Authority
CN
China
Prior art keywords
data
metadata
unit
database
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310693630.0A
Other languages
English (en)
Other versions
CN116955463A (zh
Inventor
付垒
谢涛
杨九荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tiantu Software Technology Co ltd
Natural Resources Shaanxi Satellite Application Technology Center
Original Assignee
Tiantu Software Technology Co ltd
Natural Resources Shaanxi Satellite Application Technology Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tiantu Software Technology Co ltd, Natural Resources Shaanxi Satellite Application Technology Center filed Critical Tiantu Software Technology Co ltd
Priority to CN202310693630.0A priority Critical patent/CN116955463B/zh
Publication of CN116955463A publication Critical patent/CN116955463A/zh
Application granted granted Critical
Publication of CN116955463B publication Critical patent/CN116955463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种多源异构数据整合系统。其中,多源异构数据整合系统包括:数据适配器、数据采集模块、数据管理模块和数据发布模块;数据适配器用于获取不同来源的原始数据;数据采集模块用于提取原始数据对应的第一元数据,并对原始数据和第一元数据进行第一处理,得到第一目标数据和第二元数据,并将第一目标数据和第二元数据存储至发布数据库;数据管理模块用于对发布数据库中的第一目标数据和第二元数据进行预设管理;数据发布模块用于对发布数据库中的待发布数据进行发布,根据本公开实施例,能够提高多源异构数据的管理效率和数据处理的准确性,同时进一步方便用户更好的使用多源异构数据。

Description

多源异构数据整合系统
技术领域
本公开涉及数据处理技术领域,尤其涉及一种多源异构数据整合系统。
背景技术
从20世纪60年代开始,经过60年的发展,遥感、全球定位系统和地理信息系统等应用领域变得越来越广泛,随着国产卫星在轨数量不断增加,自然资源、农业、林业、水利、矿产等不同政府部门和行业已经积累了大量的数据资源,数据量的剧增,大大减少了传统的野外作业工作量,实现了时空地理信息的快速获取以及快速应用。
然而,大量的数据资源的来源不同、数据格式等也不同,随之出现了大量的数据资源的存储和管理问题,即多源异构数据的存储和管理的问题,给多源异构数据整合系统带来了巨大的挑战。
发明内容
为了解决上述技术问题,本公开提供了一种多源异构数据整合系统。
本公开实施例提供了一种多源异构数据整合系统,该系统包括数据适配器、数据采集模块、数据管理模块和数据发布模块;
数据适配器用于获取不同来源的原始数据;
数据采集模块用于提取原始数据对应的第一元数据,并对原始数据和第一元数据进行第一处理,得到第一目标数据和第二元数据,并将第一目标数据和第二元数据存储至发布数据库;
数据管理模块用于对发布数据库中的第一目标数据和第二元数据进行预设管理,预设管理包括实体管理、血缘管理和标签管理;
数据发布模块用于对发布数据库中的待发布数据进行发布。
在本公开一些实施例中,数据采集模块包括第一路径获取单元、数据下载单元、第二路径获取单元和处理单元;
第一路径获取单元用于获取原始数据的第一下载路径,并将第一下载路径进行记录,将第一下载路径和原始数据放入采集任务列表中;
数据下载单元用于从采集任务列表中获取原始数据,并基于预设下载技术将原始数据下载至本地磁盘,并从原始数据中提取出第一元数据;
第二路径获取单元用于确定原始数据、第一元数据在本地磁盘的第二下载路径;
处理单元用于对原始数据和第一元数据进行第一处理,其中,第一处理包括坐标转换处理、格式标准化处理。
在本公开一些实施例中,原始数据为原始影像数据;
数据下载单元还用于在原始数据为原始影像数据时,从原始影像数据中提取出原始影像数据对应的元数据和落图;
处理单元还用于对原始影像数据对应的元数据和落图进行第一处理。
在本公开一些实施例中,该系统还包括缓存数据库和预检模块;
缓存数据库用于在将第一目标数据和第二元数据存储至发布数据库之前,存储第一目标数据和第二元数据;
预检模块用于对缓存数据库中的第一目标数据和第二元数据进行预检查处理,确定第一目标数据和第二元数据是否完整,在确定第一目标数据和第二元数据完整时,将第一目标数据和第二元数据从缓存数据库迁移至发布数据库。
在本公开一些实施例中,该系统还包括数据处理模块;
数据处理模块用于对第一目标数据和第二元数据进行第二处理,得到第二目标数据和第三元数据,将第二目标数据和第三元数据存储至发布数据库;
缓存数据库还用于在将第二目标数据和第三元数据存储至发布数据库之前,存储第二目标数据和第三元数据;
预检模块用于对缓存数据库中的第二目标数据和第三元数据进行预检查处理,确定第二目标数据和第三元数据是否完整,在确定第二目标数据和第三元数据完整时,将第二目标数据和第三元数据从缓存数据库迁移至发布数据库。
在本公开一些实施例中,数据管理模块包括实体管理单元、血缘管理单元和标签管理单元;
实体管理单元用于对发布数据库中的待发布数据对应的实体进行创建、更新、删除;
血缘管理单元用于对发布数据库中的待发布数据对应的实体进行血缘关系的建立、更新、删除;
标签管理单元用于对发布数据库中的待发布数据对应的实体进行标签的创建、更新、删除。
在本公开一些实施例中,数据发布模块包括数据形式确定单元;
数据形式确定单元用于确定发布数据库中的待发布数据的数据形式,其中数据形式包括栅格形式和矢量形式。
在本公开一些实施例中,数据发布模块还包括第一发布单元和第二发布单元;
第一发布单元用于在待发布数据的形式为栅格形式时,基于镶嵌数据集技术对待发布数据进行发布;
第二发布单元用于在待发布数据的形式为矢量形式时,基于矢量瓦片技术对待发布数据进行发布。
在本公开一些实施例中,第一发布单元具体用于采用金字塔式多级缓存的方式,按照第一预设显示比例对待发布数据进行发布,在原始数据为原始影像数据时,对待发布数据进行渲染后发布;
第二发布单元具体用于获取第二预设显示比例,基于第二预设显示比例对待发布数据进行预处理,对预处理后的待发布数据进行发布,在原始数据为原始影像数据时,对预处理后的待发布数据进行渲染后发布。
在本公开一些实施例中,第一元数据包括原始数据的基本描述信息、来源描述信息、空间信息描述、数据质量描述。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的多源异构数据整合系统,包括数据适配器、数据采集模块、数据管理模块和数据发布模块,数据适配器用于获取不同来源的原始数据,数据采集模块用于提取原始数据对应的第一元数据,并对原始数据和第一元数据进行第一处理,得到第一目标数据和第二元数据,并将第一目标数据和第二元数据存储至发布数据库,数据管理模块用于对发布数据库中的第一目标数据和第二元数据进行预设管理,预设管理包括实体管理、血缘管理和标签管理,数据发布模块用于对发布数据库中的待发布数据进行发布,由此,能够通过数据适配器获取到不同来源的原始数据,并对不同来源的原始数据进行元数据提取、第一处理,存储至发布数据库,并对发布数据库中的数据进行发布,实现了多源异构数据的管理和整合,提高了多源异构数据的管理效率和数据处理的准确性,同时进一步方便用户更好的使用多源异构数据。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种多源异构数据整合系统的结构示意图;
图2是本公开实施例提供的另一种多源异构数据整合系统的结构示意图;
图3是本公开实施例提供的又一种多源异构数据整合系统的结构示意图;
图4是本公开实施例提供的再一种多源异构数据整合系统的结构示意图;
图5是本公开实施例提供的再一种多源异构数据整合系统的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
通常情况下,随着国产卫星在轨数量不断增加,自然资源、农业、林业、水利、矿产等不同政府部门和行业已经积累了大量的数据资源,数据量的剧增,大大减少了传统的野外作业工作量,实现了时空地理信息的快速获取以及快速应用。大量的数据资源的来源不同、数据格式等也不同,随之出现了大量的数据资源的存储和管理问题,即多源异构数据的存储和管理的问题,给多源异构数据整合系统带来了巨大的挑战。针对该问题,本公开实施例提供了一种多源异构数据整合系统,下面结合具体的实施例对该系统进行介绍。
图1是本公开实施例提供的一种多源异构数据整合系统的结构示意图,该系统可以配置于电子设备中,例如服务器或终端,其中,终端具体包括手机、电脑或平板电脑等。
如图1所示,本公开实施例提供的多源异构数据整合系统包括:数据适配器11、数据采集模块12、数据管理模块13和数据发布模块14。
在本公开实施例中,数据适配器11用于获取不同来源的原始数据。
可选地,不同来源的原始数据可以包括用户上传的数据、第三方上传的数据、系统实时监控并获取到的原始数据等,其中,系统实时监控并获取到的原始数据可以是国家下发的影像包等。
在本公开实施例中,数据适配器11的数量可以为多个,每个数据适配器11可以适配不同来源的原始数据,以获取到不同来源的原始数据,确保数据来源的多元化和丰富化。
原始数据可以包括原始文件数据、原始影像数据等。
在本公开实施例中,数据采集模块12用于提取原始数据对应的第一元数据,并对原始数据和第一元数据进行第一处理,得到第一目标数据和第二元数据,并将第一目标数据和第二元数据存储至发布数据库。
其中,第一元数据可以理解为关于原始数据的数据,如描述原始数据的结构和意义等。
第一处理可以是对原始数据和第一元数据进行初步的处理,比如坐标转换处理、格式标准化处理等。
发布数据库是用于存储待发布数据的数据库。
在本公开实施例中,数据管理模块13用于对发布数据库中的第一目标数据和第二元数据进行预设管理,预设管理包括实体管理、血缘管理和标签管理。
可选地,预设管理主要用于实现元数据(包括第一元数据、第二元数据)的自动提取、关联映射或手动映射、根据元数据查询数据实体,展示原始数据对应的元数据信息、对原始数据对应的实体类型自动编目、原始数据对应的实体的质量评定、维度分析、血缘分析以及影像分析功能等。
数据管理模块13还可以用于对发布数据库中的所有数据的存储管理、数据清理、数据分类、质量控制、分析查询管理等。
其中,存储管理可以包括存储监控、数据统计、版本控制、日志管理等。
数据清理可以包括数据实体撤回、白名单管理、回收站管理等。
数据分类可以包括分类管理、归属管理等。
质量控制可以包括规则库管理、元数据标准管理、字段标准管理、质量模型管理、质量评价分析等。
分析查询管理可以包括资产地图、数据大屏管理、影响分析、查询统计、导出下载等。
在本公开实施例中,数据发布模块14用于对发布数据库中的待发布数据进行发布。
数据发布模块14可以对发布数据库中的待发布数据进行发布,以实现待发布数据的发布和共享。
具体地,数据发布模块14可以用于不同数据形式的待发布数据的发布,以及数据共享。
数据共享可以包括数据推送服务、地图服务共享、元数据接口服务等。
在本公开实施例中,多源异构数据整合系统包括数据适配器、数据采集模块、数据管理模块和数据发布模块,数据适配器用于获取不同来源的原始数据,数据采集模块用于提取原始数据对应的第一元数据,并对原始数据和第一元数据进行第一处理,得到第一目标数据和第二元数据,并将第一目标数据和第二元数据存储至发布数据库,数据管理模块用于对发布数据库中的第一目标数据和第二元数据进行预设管理,预设管理包括实体管理、血缘管理和标签管理,数据发布模块用于对发布数据库中的待发布数据进行发布,由此,能够通过数据适配器获取到不同来源的原始数据,并对不同来源的原始数据进行元数据提取、第一处理,存储至发布数据库,并对发布数据库中的数据进行发布,实现了多源异构数据的管理和整合,提高了多源异构数据的管理效率和数据处理的准确性,同时进一步方便用户更好的使用多源异构数据。
图2是本公开实施例提供的另一种多源异构数据整合系统的结构示意图。如图2所示,该多源异构数据整合系统20包括数据适配器21、数据采集模块22、数据管理模块23和数据发布模块24,其中,数据采集模块22包括第一路径获取单元221、数据下载单元222、第二路径获取单元223和处理单元224。
在本公开实施例中,第一路径获取单元221用于获取原始数据的第一下载路径,并将第一下载路径进行记录,将第一下载路径和原始数据放入采集任务列表中。
在本公开实施例中,第一下载路径可以理解为获取原始数据的下载路径。
采集任务列表是预先设置好的用于存放采集任务对应的原始数据和原始数据对应的第一下载路径的列表。
在本公开实施例中,数据下载单元222用于从采集任务列表中获取原始数据,并基于预设下载技术将原始数据下载至本地磁盘,并从原始数据中提取出第一元数据。
在本公开实施例中,预设下载技术可以是预先设置好的用于下载原始数据的技术,比如数据共享与交换技术即文件传输协议(File Transfer Protocol,FTP)。
本地磁盘即多源异构数据整合系统所对应的本地磁盘。
在本公开一些实施例中,数据下载单元222基于预设下载技术将原始数据下载至本地磁盘的过程中,如果下载失败的情况下,需要重试预设次数,如果重试预设次数,仍然下载失败,则对原始数据的下载过程数据以及原始数据的下载错误信息以及原始数据进行标记并记录后反馈至用户。
具体地,数据下载单元222在获取到原始数据之后,对原始数据进行解析,从解析结果中提取出第一元数据。
比如,原始数据为原始影像数据,对原始影像数据进行解析得到多个预设格式的文件如XML格式文件,该XML格式文件即为原始影像数据对应的第一元数据的描述文件,进而可以从XML格式文件中提取到第一元数据。
在本公开实施例中,第二路径获取单元223用于确定原始数据、第一元数据在本地磁盘的第二下载路径,在得到第二下载路径之后,将第二下载路径写入预设对应表中。
在本公开实施例中,第二下载路径可以理解为原始数据、第一元数据在本地磁盘的存储路径。
第二路径获取单元223还可以用于确定原始数据解析得到的多个预设格式的文件在本地磁盘的存储路径,并将第二下载路径写入预设对应表中。
在本公开实施例中,处理单元224用于对原始数据和第一元数据进行第一处理,其中,第一处理包括坐标转换处理、格式标准化处理。
在本公开实施例中,处理单元224还可以用于对原始数据解析得到的多个预设格式的文件进行第一处理。
第一处理可以理解为标准化处理,具体可以包括坐标转换处理、格式标准化处理等,其中格式标准化处理可以将数据的格式转换为同一的格式如JSON格式。
第二路径获取单元223还可以用于确定将原始数据和第一元数据进行第一处理后得到的第一目标数据和第二元数据的第二下载路径,并将第二下载路径写入预设对应表中。
在本公开一些实施例中,原始数据为原始影像数据时,数据下载单元222还用于在原始数据为原始影像数据时,从原始影像数据中提取出原始影像数据对应的元数据、落图、快视图;处理单元224还用于对原始影像数据对应的元数据、落图、快视图进行第一处理。
在本公开实施例中,能够在对第一元数据进行提取时,获取并记录原始数据的第一下载路径以及第一元数据、原始数据下载至本地磁盘的第二下载路径,同时对在第一元数据提取过程中的数据如原始数据解析的多个预设格式的文件、第一处理后的第一目标数据、第二元数据等进行记录和存储,对多源异构数据进行了有效的管理,便于后续的待发布数据的发布。
图3是本公开实施例提供的又一种多源异构数据整合系统的结构示意图。
如图3所示,该多源异构数据整合系统30包括数据适配器31、数据采集模块32、数据管理模块33、数据发布模块34、缓存数据库35、预检模块36和数据处理模块37,其中,数据采集模块32包括第一路径获取单元321、数据下载单元322、第二路径获取单元323和处理单元324。
在本公开实施例中,缓存数据库35用于在将第一目标数据和第二元数据存储至发布数据库之前,存储第一目标数据和第二元数据。
缓存数据库35可以理解为用于在将数据迁移至发布数据库之前的数据缓存,以确保迁移至发布数据库中的数据为处理完的准确的待发布数据。
在本公开实施例中,预检模块36用于对缓存数据库35中的第一目标数据和第二元数据进行预检查处理,确定第一目标数据和第二元数据是否完整,在确定第一目标数据和第二元数据完整时,将第一目标数据和第二元数据从缓存数据库迁移至发布数据库,其中,预检查处理对应的数据可以为缓存数据库35中的一个或多个数据,包括第一下载路径、第二下载路径等。
预检模块36还可以用于在原始数据为原始影像数据时,对缓存数据库35中原始影像数据对应的元数据、落图、快视图,以及原始影像数据对应的元数据的下载路径、落图的路径、快视图的路径等数据进行预检查处理。
在本公开实施例中,预检查处理可以理解为对缓存数据库中的数据包括第一目标数据和第二元数据进行数据格式、数据完整性、数据的准确性等进行检查。
在本公开实施例中,通过预检模块对缓存数据库中的数据进行预检查处理,在预检查处理的结果为缓存数据库中的数据符合要求时,方可从缓存数据库中迁移至发布数据库中,提高了发布数据库中待发布数据的完整性和准确性。
在本公开实施例中,数据处理模块37用于对第一目标数据和第二元数据进行第二处理,得到第二目标数据和第三元数据,将第二目标数据和第三元数据存储至发布数据库。
可选地,第二处理可以理解为在第一处理的基础上对第一目标数据和第二元数据进行更进一步地精细处理。
第二处理可以包括坐标精确度纠正处理、光谱纠正处理、高低分辨率影像文件的融合处理、不同波段数据的加减运算处理等。
在本公开实施例中,通过数据处理模块对第一目标数据和第二元数据进行第二处理,可以进一步提高存储至发布数据库中的待发布数据的精准度。
在本公开上述实施例的基础上,缓存数据库35还用于在将第二目标数据和第三元数据存储至发布数据库之前,存储第二目标数据和第三元数据。
在本公开一些实施例中,缓存数据库35还可以用于存储第二目标数据的路径、第三目标数据的路径。
预检模块36还用于对缓存数据库35中的第二目标数据和第三元数据进行预检查处理,确定第二目标数据和第三元数据是否完整,在确定第二目标数据和第三元数据完整时,将第二目标数据和第三元数据从缓存数据库35迁移至发布数据库。
在本公开一些实施例中,预检模块36还可以用于对缓存数据库35中的除第二目标数据和第三元数据之外的其他数据,如第二目标数据的路径、第三目标数据的路径等数据进行预检查处理。
在本公开实施例中,数据处理模块37可以在面对海量多源异构数据如高分辨率遥感影像快速生产需求时,可以采用内存分布式计算框架与CPU-GPU协同的虚拟镶嵌技术,形成像素级处理链,减少中间过程对输入输出设备IO的损耗,降低对存储空间的需求,形成数据处理过程中各个环节的流式计算模式,实现实时或近实时的原始数据对应的数字产品的生成。
示例性地,通过以实时计算技术为核心,通过后台影像自动分析,构建各环节所需中间参数,建立实时处理模型,形成“零IO”处理模式;采用CPU-GPU协同计算技术,实现各分级产品的“实时渲染”和“实时处理”,满足海量遥感影像自动、高效、智能处理作业需求,为遥感影像处理节省巨大的人力、物力和时间成本。
图4是本公开实施例提供的再一种多源异构数据整合系统的结构示意图,如图4所示,该多源异构数据整合系统40包括数据适配器41、数据采集模块42、数据管理模块43、数据发布模块44、缓存数据库45、预检模块46和数据处理模块47,其中,数据管理模块43包括实体管理单元431、血缘管理单元432和标签管理单元433。
在本公开实施例中,实体管理单元431用于对发布数据库中的待发布数据对应的实体进行创建、更新、删除。
在本公开实施例中,实体可以理解为将原始数据经过元数据提取、第一处理、第二处理、预检查处理等一系列处理之后迁移至发布数据库中所对应的数据即为该原始数据对应的实体。
在本公开一些实施例中,实体管理单元431可以具体用于查询新增实体,判断实体是否存在,如果确定实体存在则显示错误信息,如果确定实体不存在,则创建实体;在创建实体后判断实体是否存在,如果确定实体不存在则显示错误信息,如果确定实体存在则进一步对实体进行更新或删除,在对实体进行更新之后进一步判断实体是否存在,如果确定实体存在时则返回实体对应的数据并将实体及其对应的数据分配到与该实体对应的标签中。
在本公开实施例中,血缘管理单元432用于对发布数据库中的待发布数据对应的实体进行血缘关系的建立、更新、删除。
在本公开一些实施例中,血缘管理单元432可以具体用于查询新增实体,判断实体是否存在,如果确定实体不存在则显示错误信息,如果确定实体存在,则创建实体对应的血缘关系;在创建实体对应的血缘关系之后,判断实体对应的血缘关系是否存在,如果确定不存在则显示错误信息,如果确定存在则进一步对实体对应的血缘关系进行更新或删除,在对实体对应的血缘关系更新之后进一步判断实体对应的血缘关系是否存在,在确定实体对应的血缘关系存在时则查询并返回实体信息,在确定实体对应的血缘关系不存在时则显示错误信息。
在本公开实施例中,标签管理单元433用于对发布数据库中的待发布数据对应的实体进行标签的创建、更新、删除。
在本公开一些实施例中,标签管理单元433可以具体用于查询新增标签,判断标签是否存在,如果确定标签存在则显示错误信息,如果确定标签不存在,则创建实体对应的标签;在创建实体对应的标签后判断实体对应的标签是否存在,如果确定实体对应的标签不存在则显示错误信息,如果确定实体对应的标签存在则进一步对实体对应的标签进行更新或删除,在对实体对应的标签进行更新之后进一步判断实体对应的标签是否存在,如果确定实体对应的标签存在时则返回实体对应的标签信息或将实体分配到对应的标签中。
在本公开实施例中,通过对待发布数据库中的待发布数据进行实体管理、血缘管理和标签管理,以实现对待发布数据的有效且高效的管理,同时在对待发布数据或者将待发布数据发布后进行数据追溯时,能够提高数据追溯的可靠性、便捷性和高效性,进一步提高了对待发布数据的利用率,提高了用户的体验。
图5是本公开实施例提供的再一种多源异构数据整合系统的结构示意图。如图5所示,该多源异构数据整合系统50包括数据适配器51、数据采集模块52、数据管理模块53、数据发布模块54、缓存数据库55、预检模块56和数据处理模块57,其中,数据发布模块54包括数据形式确定单元541、第一发布单元542和第二发布单元543。
在本公开实施例中,数据形式确定单元541用于确定发布数据库中的待发布数据的数据形式,其中数据形式包括栅格形式和矢量形式。
在本公开实施例中,原始影像数据为栅格形式的数据。
具体地,数据形式确定单元541可以对待发布数据对应的数据格式进行分析,得到待发布数据的数据形式。
在本公开实施例中,第一发布单元542用于在待发布数据的形式为栅格形式时,基于镶嵌数据集技术对待发布数据进行发布。
进一步地,第一发布单元542具体用于采用金字塔式多级缓存的方式,按照第一预设显示比例对待发布数据进行发布,在原始数据为原始影像数据时,对待发布数据进行渲染后发布。
在一些示例中,以原始数据为原始影像数据为例进行说明,第一发布单元542可以用于在待发布数据的形式为栅格形式时,基于镶嵌数据集技术对待发布数据进行发布,通过镶嵌数据集进行影像数据的管理,形成影像数据实体文件-金字塔-概视图的多级缓存。服务发布后,依据客户端视域范围与显示比例尺,服务器端从多级缓存影像数据中动态获取目标区域影像,实时镶嵌与渲染,对镶嵌和渲染后的待发布数据进行发布。同时应用异构平台编程框架开放设计语言(Open Computing Language,OpenCL),基于GPU加速,显著提升处理效率。
在本公开实施例中,能够为原始影像数据中的影像动态服务提供栅格瓦片缓存机制,避免同一区域多次访问引起的影像重复渲染与处理,进一步提高影像地图服务的浏览效率。实时生成的栅格瓦片数据兼容OGC标准的WMTS服务接口,实现应用系统服务升级的平滑过渡。基于免切片服务发布技术,可有效减少数据预处理工作量,节约时间成本和空间成本;同时可采用金字塔、概视图、瓦片等多级缓存机制,实现影像数据服务秒级浏览。
在本公开实施例中,第二发布单元543用于在待发布数据的形式为矢量形式时,基于矢量瓦片技术对待发布数据进行发布。
进一步地,第二发布单元543具体用于获取第二预设显示比例,基于第二预设显示比例对待发布数据进行预处理,对预处理后的待发布数据进行发布,在原始数据为原始影像数据时,对预处理后的待发布数据进行渲染后发布。
在本公开实施例中,矢量瓦片技术能够用于解决海量矢量空间数据动态渲染与服务发布需求。
在一些示例中,以原始数据为原始影像数据为例进行说明,第二发布单元543可以通过矢量服务发布配置,支持切片的矢量服务发布,也支持从发布数据库直接读取配置信息和矢量形式的待发布数据,进行免切片的矢量服务发布。对待发布数据进行发布时,在待发布数据的第二预设显示比例接近其数据原始精度的比例尺下,直接采用待发布数据进行渲染,无需做切片索引;在第二预设显示比例小于第一预设比例尺的情况下,将待发布数据预处理为本级无损矢量瓦片并进行存储,进而依据第二预设显示比例对应的显示比例尺实现对应层级的调用和渲染;而第二预设显示比例小于第二预设比例尺的情况下,将待发布数据预处理为有损矢量瓦片并进行存储,进而依据第二预设显示比例对应的显示比例尺实现对应层级的调用和渲染,对渲染后的待发布数据进行发布,其中,第一预设比例尺大于第二预设比例尺,预处理可以为比例尺寸的调整,如压缩处理等。
在本公开上述实施例的基础上,该多源异构数据整合系统还包括消息监听模块。
消息监听模块用于实时监听数据采集模块52和预检模块56发送至发布数据库中的目标消息,判断目标消息的类型,基于目标消息的类型执行预设操作。
其中,目标消息可以理解为要将待存储数据存储至发布数据库的消息,具体地,目标消息包括待存储数据对应的适配器型号及编号、存储的数据类型等,其中预设操作可以包括创建待存储数据对应的实体记录、更新待存储数据的记录状态、更新待存储数据对应的实体状态。
待存储数据可以为通过数据适配器51获取的不同来源的原始数据,也可以为经过预检模块56进行预检查处理后的数据。
目标消息的类型包括数据适配器采集消息和预检消息两类。
在判断目标消息的类型为数据适配器采集消息时,创建待存储数据对应的实体记录或更新待存储数据的记录状态。
在判断目标消息的类型为预检消息时,更新待存储数据对应的实体状态,进一步确定待存储数据对应的字段是否可以映射,在确定待存储数据对应的字段可以映射时,直接通过数据传输服务将待存储数据存储至发布数据库;在确定待存储数据对应的字段不可以映射时,向用户发送手动映射指令,响应于用户针对手动映射指令对应的手动映射操作,将字段映射后手动发布,并通过数据传输服务将待存储数据存储至发布数据库。
在本公开实施例中,能够通过确定待发布数据的数据形式,根据待发布数据的数据形式采用与数据形式对应的发布方式进行发布,提高了发布的效率,以及用户对待发布数据的浏览速率和共享速率,进一步提高了待发布数据的高效利用。
在本公开实施例中,第一元数据包括原始数据的基本描述信息、来源描述信息、空间信息描述、数据质量描述。
在本公开一些实施例中,在原始数据为原始影像数据时,第一元数据中的基本描述信息可以包括文件名称、数据存贮量、数据存贮位置、包含文件数、元数据文件、快视图文件、入库时间、标签等中的至少一个。
来源描述信息可以包括来源名称、卫星名称、传感器名称、采集时间等中的至少一个。
空间信息描述可以包括图左上经度、图左上纬度、图右上经度、图右上纬度、图左下经度、图左下纬度、图右下经度、图右下纬度、数据的边界、坐标系、波段数、R波段对应波段、G波段对应波段、B波段对应波段、NIR波段对应波段、Pan波段对应波段、空间分辨率、光谱分辨率、温度分辨率、像元位数等中的至少一个。
数据质量描述可以包括云量、信噪比、均方差、方差、平均梯度等中的至少一个。
在本公开一些实施例中,在原始数据为原始影像数据时,第二元数据或第三元数据包括原始数据的第一基本描述信息、第一来源描述信息、第一空间信息描述、第一数据质量描述、第一血缘信息等中的至少一个。
其中,第一基本描述信息可以包括文件名称、数据存贮量、数据存贮位置、包含文件数、快视图文件、入库时间等中的至少一个。
第一来源描述信息可以包括生成该影像数据的父级数据、上传时间、上传人等中的至少一个。
第一空间信息描述可以包括数据的边界、坐标系、波段数、R波段对应波段、G波段对应波段、B波段对应波段、IR波段对应波段、Pan波段对应波段、空间分辨率、像元位数等中的至少一个。
第一数据质量描述可以包括数据产品等级和数据权限等中的至少一个。
在本公开一些实施例中,在原始数据的数据形式为栅格数据时,原始数据对应的第一元数据包括第二基本描述信息、第二来源描述信息、第二空间信息描述、第二数据质量描述、第一数据编目与类型、第二血缘信息等中的至少一个。
其中,第二基本描述信息可以包括文件名称、数据存贮量、数据存贮位置、包含文件数、要素类型映射表、快视图文件、入库时间等中的至少一个。
第二来源描述信息可以包括生成该栅格数据的任务执行记录、生成该栅格数据的父级数据、上传时间、上传人等中的至少一个。
第二空间信息描述可以包括数据的边界、坐标系、波段数、空间分辨率、像元位数等中的至少一个。
第二数据质量描述可以包括数据产品等级和数据权限中的至少一个。
在本公开一些实施例中,在原始数据的数据形式为矢量数据时,原始数据对应的第一元数据包括第三基本描述信息、第三来源描述信息、第三空间信息描述、非空间属性描述、第三数据质量描述、第二数据编目与类型、第三血缘信息等中的至少一个。
其中,第三基本描述信息可以包括文件名称/空间表名、记录数、数据存贮位置、入库时间等中的至少一个。
第三来源描述信息可以包括生成该矢量数据的任务执行记录、生成该矢量数据的父级数据、上传时间、上传人等中的至少一个。
第三空间信息描述可以包括几何图形类型、几何图形字段名、边界最小经度、边界最小纬度、边界最大经度、边界最大纬度、坐标系、比例尺、水平方向的容差等中的至少一个。
非空间属性描述可以包括字段名称、字段类型、字段长度、字段精度、是否可为空等中的至少一个。
第三数据质量描述可以包括数据产品等级和数据权限中的至少一个。
在本公开实施例中,通过对原始数据以及原始数据对应的元数据的提取、管理、存储、发布,能够减轻操作人员的负担,避免造成数据的丢失及错误,同时能够自动对海量的多源异构数据进行预设管理,实现了数据的追溯和再利用。
在本公开实施例中,该多源异构数据整合系统还包括安全模块,其中安全模块包括硬件安全单元和软件安全单元,其中硬件安全单元痛殴过配备防火墙、漏洞扫描设备等对多源异构数据整合系统进行安全管理,软件安全单元通过在端口设置审批程序、权限管控程序等对多源异构数据整合系统进行安全管理,提高了多源异构数据整合系统中数据的安全性。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种多源异构数据整合系统,其特征在于,所述系统包括数据适配器、数据采集模块、数据管理模块和数据发布模块;
所述数据适配器用于获取不同来源的原始数据;
所述数据采集模块用于提取所述原始数据对应的第一元数据,并对所述原始数据和所述第一元数据进行第一处理,得到第一目标数据和第二元数据,并将所述第一目标数据和所述第二元数据存储至发布数据库;
所述数据管理模块用于对所述发布数据库中的所述第一目标数据和所述第二元数据进行预设管理,所述预设管理包括实体管理、血缘管理和标签管理;
所述数据发布模块用于对所述发布数据库中的待发布数据进行发布;
所述数据采集模块包括第一路径获取单元、数据下载单元、第二路径获取单元和处理单元;
所述第一路径获取单元用于获取所述原始数据的第一下载路径,并将所述第一下载路径进行记录,将所述第一下载路径和所述原始数据放入采集任务列表中;
所述数据下载单元用于从所述采集任务列表中获取所述原始数据,并基于预设下载技术将所述原始数据下载至本地磁盘,并从所述原始数据中提取出所述第一元数据;
所述第二路径获取单元用于确定所述原始数据、所述第一元数据在所述本地磁盘的第二下载路径;
所述处理单元用于对所述原始数据和所述第一元数据进行所述第一处理,其中,所述第一处理包括坐标转换处理、格式标准化处理;
所述系统还包括数据处理模块;
所述数据处理模块用于对所述第一目标数据和所述第二元数据进行第二处理,得到第二目标数据和第三元数据,将所述第二目标数据和所述第三元数据存储至所述发布数据库。
2.根据权利要求1所述的多源异构数据整合系统,其特征在于,所述原始数据为原始影像数据;
所述数据下载单元还用于在所述原始数据为所述原始影像数据时,从所述原始影像数据中提取出所述原始影像数据对应的元数据和落图;
所述处理单元还用于对所述原始影像数据对应的元数据和落图进行所述第一处理。
3.根据权利要求1所述的多源异构数据整合系统,其特征在于,所述系统还包括缓存数据库和预检模块;
所述缓存数据库用于在将所述第一目标数据和所述第二元数据存储至所述发布数据库之前,存储所述第一目标数据和所述第二元数据;
所述预检模块用于对所述缓存数据库中的所述第一目标数据和所述第二元数据进行预检查处理,确定所述第一目标数据和所述第二元数据是否完整,在确定所述第一目标数据和所述第二元数据完整时,将所述第一目标数据和所述第二元数据从所述缓存数据库迁移至所述发布数据库。
4.根据权利要求3所述的多源异构数据整合系统,其特征在于,所述缓存数据库还用于在将所述第二目标数据和所述第三元数据存储至所述发布数据库之前,存储所述第二目标数据和第三元数据;
所述预检模块用于对所述缓存数据库中的所述第二目标数据和所述第三元数据进行预检查处理,确定所述第二目标数据和所述第三元数据是否完整,在确定所述第二目标数据和所述第三元数据完整时,将所述第二目标数据和所述第三元数据从所述缓存数据库迁移至所述发布数据库。
5.根据权利要求1所述的多源异构数据整合系统,其特征在于,所述数据管理模块包括实体管理单元、血缘管理单元和标签管理单元;
所述实体管理单元用于对所述发布数据库中的待发布数据对应的实体进行创建、更新、删除;
所述血缘管理单元用于对所述发布数据库中的待发布数据对应的实体进行血缘关系的建立、更新、删除;
所述标签管理单元用于对所述发布数据库中的待发布数据对应的实体进行标签的创建、更新、删除。
6.根据权利要求1所述的多源异构数据整合系统,其特征在于,所述数据发布模块包括数据形式确定单元;
所述数据形式确定单元用于确定所述发布数据库中的待发布数据的数据形式,其中所述数据形式包括栅格形式和矢量形式。
7.根据权利要求6所述的多源异构数据整合系统,其特征在于,所述数据发布模块还包括第一发布单元和第二发布单元;
所述第一发布单元用于在所述待发布数据的形式为栅格形式时,基于镶嵌数据集技术对所述待发布数据进行发布;
所述第二发布单元用于在所述待发布数据的形式为矢量形式时,基于矢量瓦片技术对所述待发布数据进行发布。
8.根据权利要求7所述的多源异构数据整合系统,其特征在于,所述第一发布单元具体用于采用金字塔式多级缓存的方式,按照第一预设显示比例对所述待发布数据进行发布,在所述原始数据为原始影像数据时,对所述待发布数据进行渲染后发布;
所述第二发布单元具体用于获取第二预设显示比例,基于所述第二预设显示比例对所述待发布数据进行预处理,对预处理后的待发布数据进行发布,在所述原始数据为原始影像数据时,对所述预处理后的待发布数据进行渲染后发布。
9.根据权利要求1所述的多源异构数据整合系统,其特征在于,所述第一元数据包括所述原始数据的基本描述信息、来源描述信息、空间信息描述、数据质量描述。
CN202310693630.0A 2023-06-12 2023-06-12 多源异构数据整合系统 Active CN116955463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310693630.0A CN116955463B (zh) 2023-06-12 2023-06-12 多源异构数据整合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310693630.0A CN116955463B (zh) 2023-06-12 2023-06-12 多源异构数据整合系统

Publications (2)

Publication Number Publication Date
CN116955463A CN116955463A (zh) 2023-10-27
CN116955463B true CN116955463B (zh) 2024-04-02

Family

ID=88453809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310693630.0A Active CN116955463B (zh) 2023-06-12 2023-06-12 多源异构数据整合系统

Country Status (1)

Country Link
CN (1) CN116955463B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471957A (zh) * 2018-09-19 2019-03-15 北京悦图遥感科技发展有限公司 一种基于统一标签的元数据转换方法及装置
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质
CN114443790A (zh) * 2021-12-22 2022-05-06 山东土地集团数字科技有限公司 一种耕地数据集成方法、设备、存储介质
CN114691336A (zh) * 2022-04-02 2022-07-01 苏州空天信息研究院 一种面向多源地理空间数据的云服务发布系统及方法
CN115168514A (zh) * 2022-05-31 2022-10-11 河北志晟信息技术股份有限公司 一种集成多源异构数据的gis系统及其工作方法
CN115617776A (zh) * 2022-09-30 2023-01-17 国家石油天然气管网集团有限公司 一种数据管理系统及方法
CN115757655A (zh) * 2022-11-14 2023-03-07 中国兵器工业计算机应用技术研究所 一种基于元数据管理的数据血缘分析系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471957A (zh) * 2018-09-19 2019-03-15 北京悦图遥感科技发展有限公司 一种基于统一标签的元数据转换方法及装置
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质
CN114443790A (zh) * 2021-12-22 2022-05-06 山东土地集团数字科技有限公司 一种耕地数据集成方法、设备、存储介质
CN114691336A (zh) * 2022-04-02 2022-07-01 苏州空天信息研究院 一种面向多源地理空间数据的云服务发布系统及方法
CN115168514A (zh) * 2022-05-31 2022-10-11 河北志晟信息技术股份有限公司 一种集成多源异构数据的gis系统及其工作方法
CN115617776A (zh) * 2022-09-30 2023-01-17 国家石油天然气管网集团有限公司 一种数据管理系统及方法
CN115757655A (zh) * 2022-11-14 2023-03-07 中国兵器工业计算机应用技术研究所 一种基于元数据管理的数据血缘分析系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于元数据的多源异构海洋情报数据交互共享研究;刘婧;;情报杂志;20160918(09);172-177 *

Also Published As

Publication number Publication date
CN116955463A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN112115198B (zh) 一种城市遥感智能服务平台
CN110309264B (zh) 基于知识图谱获取地理产品数据的方法和装置
CN108776699B (zh) 一种气象数据和卫星遥感数据处理方法及装置
US8484255B2 (en) Automatic conversion of multidimentional schema entities
CN106709012A (zh) 一种大数据分析方法及装置
Rieg et al. Data infrastructure for multitemporal airborne LiDAR point cloud analysis–Examples from physical geography in high mountain environments
CN112651126A (zh) 一种基于bim的建筑工程施工优化系统、方法、终端及存储介质
CN107193920B (zh) 用于客户端的数据处理方法和装置
Zaragozí et al. Advances in camera trap data management tools: Towards collaborative development and integration with GIS
Read et al. geoknife: reproducible web‐processing of large gridded datasets
KR102024998B1 (ko) 유사 그룹 요소 추출
CN101739454B (zh) 数据处理系统
CN114625820A (zh) 一种面向人工智能遥感影像解译的样本库系统及组织方法
CN113868498A (zh) 数据存储方法、电子装置、装置及可读存储介质
CN109688223B (zh) 生态环境数据资源共享方法及装置
CN108763323A (zh) 基于资源集和大数据技术的气象格点文件应用方法
Vitolo et al. rnrfa: an R package to retrieve, filter and visualize data from the UK National River Flow Archive
CN112328667B (zh) 一种基于数据血缘的页岩气田地面工程数字化移交方法
CN116610531B (zh) 基于代码探针采集数据埋点及请求图片上传数据的方法
CN116955463B (zh) 多源异构数据整合系统
KR102097592B1 (ko) 센티넬 위성을 이용한 대용량 위성영상의 자동 다운로드 서비스 제공 방법
CN112860659A (zh) 数据仓库的构建方法、装置、设备及存储介质
CN111538853A (zh) 遥感影像数据光谱管理方法、装置和服务器
KR101545998B1 (ko) 유출-수리모형 데이터 통합 관리 방법 및 그 시스템
CN113722337B (zh) 业务数据确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant