CN117609414B - 自动提取空间元数据并和空间数据模型自动关联的方法 - Google Patents

自动提取空间元数据并和空间数据模型自动关联的方法 Download PDF

Info

Publication number
CN117609414B
CN117609414B CN202410090126.6A CN202410090126A CN117609414B CN 117609414 B CN117609414 B CN 117609414B CN 202410090126 A CN202410090126 A CN 202410090126A CN 117609414 B CN117609414 B CN 117609414B
Authority
CN
China
Prior art keywords
metadata
data
file
spatial
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410090126.6A
Other languages
English (en)
Other versions
CN117609414A (zh
Inventor
熊肖
张东玲
李本凯
李银
姜静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yizhirui Information Technology Co ltd
Original Assignee
Yizhirui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yizhirui Information Technology Co ltd filed Critical Yizhirui Information Technology Co ltd
Priority to CN202410090126.6A priority Critical patent/CN117609414B/zh
Publication of CN117609414A publication Critical patent/CN117609414A/zh
Application granted granted Critical
Publication of CN117609414B publication Critical patent/CN117609414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及地理信息系统技术领域,具体公开一种自动提取空间元数据并和空间数据模型自动关联的方法。本方法包括:步骤A:设计元数据提取器的参数,生成元数据提取任务;步骤B:注册文件变化监测脚本,把空间数据文件的变化信息推送到Apache Kafka消息队列中;步骤C:注册文件变化消息处理器,监听Apache Kafka消息队列主题,获得发生变化的空间数据文件,触发元数据提取任务;步骤D:自动从空间数据文件之中提取元数据;步骤E:自动将该空间数据模型与从该空间数据文件中提取的元数据进行关联。本方法自动提取空间数据的元数据信息,减少手动工作,提高效率,提高元数据的一致性和准确性。空间元数据和空间数据模型自动关联,提高空间元数据的质量和价值。

Description

自动提取空间元数据并和空间数据模型自动关联的方法
技术领域
本申请涉及地理信息系统技术领域,更具体地说,涉及一种自动提取空间元数据并和空间数据模型自动关联的方法。
背景技术
地理信息系统(GIS)在今天的现代社会中扮演着至关重要的角色,为城市规划、资源管理、紧急响应、环境监测等领域提供了关键支持。GIS依赖于准确和全面的地理信息数据来实现其功能,而这些数据通常包括位置坐标、地理范围、数据质量、来源和其他关键元数据信息。
然而,GIS系统和地理数据管理通常涉及大量手动工作,主要方式包括:手动输入和维护元数据信息。数据管理员或GIS专家手动填写数据的关键元数据,如数据类型、坐标系统、地理范围、数据源等。
一些公司使用表格或数据库来管理地理信息数据的元数据。这些表格或数据库包括各种数据字段,允许用户记录和维护数据的元数据信息。在某些情况下,公司可能采用标准化的元数据模板,要求数据提供者按照特定的格式和标准提供元数据信息。这有助于确保一致性,但仍需要较多人工干预。
上述地理信息数据的管理方式存在一些劣势,这些劣势在现代地理信息系统和数据管理中逐渐显得不够高效和可持续。这些劣势包括:效率问题,手动提取空间元数据需要大量时间和劳动力;随着地理信息数据不断增多,需要更有效的方法来处理和管理这些数据;错误和不一致性问题,人工提取元数据容易引入错误和不一致性,不同的数据采集人员可能使用不同的方法和标准,导致元数据的不一致性。
发明内容
鉴于上述的一些地理信息数据的管理方式存在效率问题和错误和不一致性问题,本申请提供了一种自动提取空间元数据并和空间数据模型自动关联的方法,以减少手动工作,提高元数据的一致性和质量,这不仅有助于提高GIS系统的性能,还能够更好地支持城市规划、环境保护、资源管理和紧急响应等领域。
一种自动提取空间元数据并和空间数据模型自动关联的方法,包括如下步骤:
步骤A:设计元数据提取器的参数;所述元数据提取器的参数包括数据源、元数据模板、元数据采集器、元数据提取规则和元数据存储方式;所述数据源存储有不同格式的空间数据文件;对于每个所述空间数据文件,相应生成一个元数据提取任务;
步骤B:注册文件变化监测脚本;所述监测脚本获取所述数据源中变化的空间数据文件以及该空间数据文件的变化信息,并把空间数据文件的变化信息推送到Apache Kafka消息队列中;
步骤C:注册文件变化消息处理器,通过监听Apache Kafka消息队列主题,获得发生变化的空间数据文件,基于该空间数据文件映射的元数据提取任务,触发相应的元数据提取任务;
步骤D:对于触发的元数据提取任务,根据所述元数据提取规则,自动从所述空间数据文件之中提取相应的元数据,根据所述元数据存储方式将元数据进行存储;
步骤E:从neo4j图库中获取空间数据文件衍生的空间数据模型,自动将该空间数据模型与从该空间数据文件中提取的元数据进行关联。
通过采用上述技术方案,通过监测数据源的文件变化信息,自动提取空间数据的元数据信息,减少手动工作,提高效率,提高元数据的一致性和准确性。空间元数据和空间数据模型自动关联,有利于描述和组织各空间元数据之间的关系,可以更好的管理和理解空间元数据,提高空间元数据的质量和价值。
需要说明的是,Apache Kafka是一个开源消息系统项目,该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台,是一个分布式的、分区的、多复本的日志提交服务,提供了一个消息系统的功能。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,在步骤A中,所述数据源是基于Delta Lake构建的数据湖;所述数据湖存储有不同格式的空间数据文件;Delta Lake自动将空间数据文件的变化写入日志文件中。在步骤B中,所述监测脚本通过定时调用Delta Lake的API接口,来获取日志文件中变化的空间数据文件以及该空间数据文件的变化信息。
需要说明的是,Delta Lake是DataBricks公司推出的一种数据湖方案。DeltaLake将文件变化信息记录在其文件操作日志中。API接口:应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
通过采用上述技术方案,通过监测Delta Lake文件变化日志,动态监测空间数据文件的变化,自动提取空间数据的元数据信息,以减少手动工作,提高元数据的一致性和质量。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,所述元数据提取器内置多种元数据模板;所述元数据模板定义所要提取的元数据的字段名称、字段类型和字段分类。所述元数据提取规则包括设定提取频率和数据更新方式。所述元数据提取规则还包括设置所述元数据模板与所述空间数据文件存储目录的映射关系,通过映射关系识别所述空间数据文件的格式,所述元数据采集器通过geotools开源框架解析读取不同格式的空间数据文件,根据所述元数据模板以及设定的提取频率和数据更新方式,来提取元数据信息。
通过采用上述技术方案,设定元数据提取规则,遵循固定的规则和标准,从而使元数据具有一致性。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,所述提取频率选自实时提取、周期性提取和一次性提取之中的任意一种;所述数据更新方式选自增量更新、全覆盖更新和比较更新之中的任意一种。
通过采用上述技术方案,多样化的元数据提取规则,可按产品需要选择来执行,适用范围广。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,步骤B中,所述把空间数据文件的变化信息推送到Apache Kafka消息队列中,包括:先定义Apache Kafka消息队列主题的数据内容包括:文件路径、文件变化类型、文件变化时间和文件版本;然后使用Python的confluent-kafka库,将空间数据文件的变化信息发送到Apachekafka消息队列主题中。
通过采用上述技术方案,监测文件路径以获取变化的文件和变化信息,运行可靠。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,步骤C具体包括:注册文件变化消息处理器,使用Python的confluent-kafka库,监听ApacheKafka消息队列主题,解析出变化的空间数据文件以及该空间数据文件的文件路径,基于文件路径与元数据提取任务的映射关系,触发元数据提取任务。
通过采用上述技术方案,自动、准确的触发元数据提取任务。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,步骤D具体包括:对于触发的元数据提取任务,获取任务执行参数,所述任务执行参数包括文件路径、文件名和元数据模板,通过所述文件路径生成唯一表名,通过所述元数据模板定义表结构;连接PostGIS空间元数据库,判断所述表名是否存在,不存在则创建使用所述表名和所述表结构的元数据表;根据所述元数据提取规则,从所述空间数据文件之中提取相应的元数据,将元数据写入PostGIS空间元数据库的元数据表中。
通过采用上述技术方案,元数据可以存储在PostGIS空间元数据库的元数据表中,方便展示和管理。
作为该自动提取空间元数据并和空间数据模型自动关联的方法的一种改进,所述自动提取空间元数据并和空间数据模型自动关联的方法还包括步骤F:所述元数据表中的元数据通过数据表格、地图检索的方式,来进行展示,所述数据表格和所述地图检索均支持对元数据空间查询,包括范围查询、属性查询、地理交互式查询和地理缓冲区查询。
通过采用上述技术方案,本申请提供了一种容易访问和管理地理信息数据的途径。
综上所述,本申请的自动提取空间元数据并和空间数据模型自动关联的方法具有如下有益效果:
高效性:自动提取元数据,可以迅速分析和记录大量地理信息数据的关键属性,无需手动输入或编辑,提高了工作效率,特别是在处理大规模数据集时。
准确性:自动化方法能够以一致和精确的方式提取元数据,降低了人为操作错误的风险,有助于确保数据的准确性和可信度。
一致性:自动提取方法遵循固定的规则和标准,从而确保元数据的一致性。
数据发现:自动提取的元数据可以改善数据发现和访问。用户可以更轻松地搜索和找到需要的地理信息数据,节省时间和精力。
附图说明
图1为一种自动提取空间元数据并和空间数据模型自动关联的方法的流程框图。
具体实施方式
以下结合附图对自动提取空间元数据并和空间数据模型自动关联的方法进行具体说明。
参考图1,一种自动提取空间元数据并和空间数据模型自动关联的方法,可以包括如下A~F步骤:
步骤A:设计元数据提取器的参数;所述元数据提取器的参数包括数据源、元数据模板、元数据采集器、元数据提取规则和元数据存储方式;所述数据源存储有不同格式的空间数据文件;对于每个所述空间数据文件,相应生成一个元数据提取任务;
可选的,在步骤A中,所述数据源是基于Delta Lake构建的数据湖。数据源参数包括:连接信息、文件路径、账户、密码。所述数据湖存储有不同格式的空间数据文件;DeltaLake具有文件变化监测的功能,Delta Lake会自动将空间数据文件的变化写入日志文件中。
步骤B:注册文件变化监测脚本;所述监测脚本获取所述数据源中变化的空间数据文件以及该空间数据文件的变化信息,并把空间数据文件的变化信息推送到Apache Kafka消息队列中(topic-filechange);文件的变化信息包括新增、删除、修改操作;
可选的,在步骤B中,所述监测脚本通过定时调用Delta Lake的API接口,来获取日志文件中变化的空间数据文件以及该空间数据文件的变化信息。输入DeltaTable.forPath(spark, "要监测的路径").history(),即可以获取到变化的文件和变化类型。
可选的,步骤B中,所述把空间数据文件的变化信息推送到Apache Kafka消息队列中,包括:先定义Apache Kafka消息队列主题的数据内容包括:文件路径、文件变化类型、文件变化时间和文件版本;然后使用Python的confluent-kafka库,调用producer.produce('filechange', value=jsonmsg),将空间数据文件的变化信息发送到Apache kafka消息队列主题中。
步骤C:注册文件变化消息处理器,通过监听Apache Kafka消息队列主题,获得发生变化的空间数据文件,基于该空间数据文件映射的元数据提取任务,触发相应的元数据提取任务;
可选的,步骤C中,使用Python的confluent-kafka库,监听Apache Kafka消息队列主题,解析出变化的空间数据文件以及该空间数据文件的文件路径,基于文件路径与元数据提取任务的映射关系,触发元数据提取任务。
步骤D:对于触发的元数据提取任务,根据所述元数据提取规则,自动从所述空间数据文件之中提取相应的元数据,根据所述元数据存储方式将元数据进行存储;
在上述步骤D中,对于元数据存储方式,可以是,首先获取任务执行参数,所述任务执行参数包括文件路径、文件名和元数据模板,通过所述文件路径生成唯一表名,通过所述元数据模板定义表结构;连接PostGIS空间元数据库,判断所述表名是否存在,不存在则创建使用所述表名和所述表结构的元数据表;根据所述元数据提取规则,从所述空间数据文件之中提取相应的元数据,将元数据写入PostGIS空间元数据库的元数据表中,方便展示和管理。
步骤E:从neo4j图库中获取空间数据文件衍生的空间数据模型,自动将该空间数据模型与从该空间数据文件中提取的元数据进行关联。
步骤E中,具体的,可以从数据血缘推导出空间数据文件与数据模型的关系,数据血缘存储在neo4j图库中,通过cyper语句:Match p=(n:File)-[:CREATE]->(m:Table)where n.filepath=filepath,表示获取基于该空间数据文件衍生的空间数据模型。
其中,数据血缘,又称数据血统、数据起源、数据谱系,是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。
步骤F:所述元数据表中的元数据通过数据表格、地图检索的方式,来进行展示,所述数据表格和所述地图检索均支持对元数据空间查询,包括范围查询、属性查询、地理交互式查询和地理缓冲区查询,提供了一种容易访问和管理地理信息数据的途径。
以上的自动提取空间元数据并和空间数据模型自动关联的方法,通过监测数据源的文件变化信息,自动提取空间数据的元数据信息,减少手动工作,提高效率,提高元数据的一致性和准确性。空间元数据和空间数据模型自动关联,由于描述和组织各空间元数据之间的关系,可以更好的管理和理解空间元数据,提高空间元数据的质量和价值。
进一步可选的,上述步骤A中,所述元数据提取器内置19种元数据模板,包括矢量数据元数据模板、数字栅格地图元数据模板、数字高程模型元数据模板、数据线划图元数据模板、航空数字正射影像数据元数据模板、卫星数字正射影像元数据模板、遥感影像通用元数据模板、航空影像元数据模板、卫星影像元数据模板、整景纠正影像元数据模板、区域专题成果影像元数据模板、激光点云数据元数据模板、倾斜摄影三维模型元数据模板、模型三维元数据模板、点云模型元数据模板、实景影像模型元数据模板、建筑信息模型元数据模板、城市信息模型元数据模板和瓦片地图元数据模板。所述元数据提取器具有丰富的空间元数据模板,支持动态扩展。
所述元数据模板定义所要提取的元数据的字段名称、字段类型和字段分类,如下表1所示。
表1 一些元数据模板
字段名称 字段类型 字段分类 字段描述 所属模板
resource_id Varchar(32) IN_INFO 资源唯一编码 通用字段
updte_date Date PRODUCTION_INFO 更新日期 通用字段
geo_sot Varchar(60) ID_INFO 全球剖分网管编码集合 通用字段
data_name Varchar(60) ID_INFO 数据名称 通用字段
data_alias Varchar(60) ID_INFO 数据别名 通用字段
data_des Text ID_INFO 数据描述 通用字段
data_format Varchar(20) ID_INFO 数据格式 通用字段
data_type Varchar(20) ID_INFO 数据类型 通用字段
data_size Int8 ID_INFO 数据大小 通用字段
own_unit_name Varchar(20) ID_INFO 所属单位 通用字段
is_shareable Bool ID_INFO 是否共享 通用字段
share_type Varchar(20) ID_INFO 共享类型 通用字段
shareable_condition Varchar(100) ID_INFO 共享条件 通用字段
share_method Varchar(50) ID_INFO 共享方式 通用字段
receive_mode Varchar(50) ID_INFO 接受方式 通用字段
receive_bath Varchar(50) ID_INFO 接受批次 通用字段
update_cycle Varchar(50) PRODUCTION_INFO 更新周期 通用字段
product_date Date PRODUCTION_INFO 生产时间 通用字段
release_date Date PRODUCTION_INFO 发布时间 通用字段
cover_range Text ID_INFO 覆盖范围描述 通用字段
cover_range_coor Text ID_INFO 覆盖范围坐标 通用字段
producer Varchar(50) PRODUCTION_INFO 数据提交人 通用字段
pro_unit_name Varchar(50) PRODUCTION_INFO 数据提交单位 通用字段
source_type Varchar(50) PRODUCTION_INFO 数据文件格式 通用字段
quality_check_date Date QUALITY_INFO 数据质检日期 通用字段
quality_des Text QUALITY_INFO 数据质量描述 通用字段
quality_unit_name Text QUALITY_INFO 数据质检单位 通用字段
quality_evaluation Varchar(10) QUALITY_INFO 数据质量评分 通用字段
distribution_unit_addr Varchar(100) DISPATCH_INFO 数据分发单位 通用字段
distribution_unit_tel Varchar(100) DISPATCH_INFO 数据分发单位电话 通用字段
distribution_unit_fax Varchar(100) DISPATCH_INFO 数据分发单位传值 通用字段
distribution_unit_email Varchar(100) DISPATCH_INFO 数据分发单位邮箱 通用字段
geodetic_datum Varchar(30) REFERENCE_INFO 大地基准面 矢量数据
projection Varchar(30) REFERENCE_INFO 参考椭球体 矢量数据
central_meridian Varchar(30) REFERENCE_INFO 中央子午线 矢量数据
projection_zone_number Varchar(30) REFERENCE_INFO 投影带号 矢量数据
layer_count Int2 REFERENCE_INFO 图层数量 矢量数据
layer Text REFERENCE_INFO 图层信息 矢量数据模型
resolution Float8 PRODUCTION_INFO 数据地面分辨率 数组栅格地图
source_currency Varchar(100) PRODUCTION_INFO 主要数据源现势性 数组栅格地图
color_model Varchar(10) PRODUCTION_INFO 色彩模式 数组栅格地图
w_map_meet Varchar(6) PRODUCTION_INFO 西边接边状况 数组栅格地图
n_map_meet Varchar(6) PRODUCTION_INFO 北边接边状况 数组栅格地图
e_map_meet Varchar(6) PRODUCTION_INFO 东边接边状况 数组栅格地图
s_map_meet Varchar(6) PRODUCTION_INFO 南边接边状况 数组栅格地图
is_addstrip_no Bool ID_INFO 成果是否加带号 数字高程模型
longitude_range Varchar(32) ID_INFO 图廓角点经度范围 数字高程模型
latitude_range Varchar(32) ID_INFO 图廓角点纬度范围 数字高程模型
grid_space float8 ID_INFO 格网单元尺寸 数字高程模型
grid_arrangement float8 ID_INFO 格网排列方式 数字高程模型
grid_row_no float8 ID_INFO 格网行号 数字高程模型
grid_column_no float8 ID_INFO 格网列号 数字高程模型
start_x float8 ID_INFO 起始格网X坐标 数字高程模型
start_y float8 ID_INFO 起始格网X坐标 数字高程模型
elevation_decimals float8 ID_INFO 高程值的小数点位数 数字高程模型
snapshot_path Text ID_INFO 快视图路径 数字高程模型
步骤A中的元数据采集器:通过geotools开源框架解析读取不同格式的空间数据文件,调用接口DataStoreFinder.getDataStore(params)读取数据文件,进而获取不同的元数据信息。空间数据文件格式类型包括:Shapefile,是一种常见的矢量空间数据格式,由多个文件组成,包括.shp(包含几何数据)、.shx(包含索引数据)、.dbf(包含属性数据)等;GeoJSON,是一种基于 JSON 格式的对各种地理数据结构进行编码的格式,用于存储矢量地理信息数据;GeoTIFF,是一种基于标准TIFF文件格式的地理信息数据格式,支持嵌入地理坐标和地图投影信息;GeoPackage是一种开放标准的文件格式,可以存储矢量、栅格和地理信息数据,通常以.sqlite扩展名保存;File Geodatabase 是Esri ArcGIS平台使用的一种专有地理数据库文件格式,用于存储矢量和栅格数据以及其相关元数据。
步骤A和步骤D所述元数据提取规则,可以是包括设定提取频率和数据更新方式。所述提取频率可以是实时提取、周期性提取或一次性提取。所述数据更新方式可以是增量更新、全覆盖更新或比较更新。
步骤A和步骤D所述元数据提取规则,还包括设置所述元数据模板与所述空间数据文件存储目录的映射关系,通过映射关系识别所述空间数据文件的格式,所述元数据采集器通过geotools开源框架解析读取不同格式的空间数据文件,根据所述元数据模板以及设定的提取频率和数据更新方式,来提取元数据信息。设定元数据提取规则,遵循固定的规则和标准,从而使元数据具有一致性。其中,Geotools是一款用于处理空间数据的、开源的、遵循OGC标准的Java开发库。
本实施方式中的自动提取空间元数据并和空间数据模型自动关联的方法具有多个显著的优势,这些优势使其成为管理和分析地理信息数据的更有效方法。这些优势包括:
高效性:自动提取元数据可以迅速分析和记录大量地理信息数据的关键属性,无需手动输入或编辑,提高了工作效率,特别是在处理大规模数据集时。
准确性:自动化方法能够以一致和精确的方式提取元数据,降低了人为操作错误的风险,这有助于确保数据的准确性和可信度。
一致性:自动提取方法遵循固定的规则和标准,从而确保元数据的一致性。不同的数据集和数据提供者之间的一致性很重要,特别是在多源数据集成和分析时。
数据发现:自动提取的元数据可以改善数据发现和访问,用户可以更轻松地搜索和找到需要的地理信息数据,节省时间和精力。
实时性:自动化方法可以实时提取元数据,从而确保元数据信息保持最新。
可扩展性:自动提取方法适用于大规模数据集,可以轻松应对数据量的增加,而无需显著增加人力成本。
错误检测和修复:自动化方法可以检测和修复数据中的错误和问题,提高数据的质量,这对于支持准确的地理分析和决策制定非常重要。
提升人力资源利用效率:自动提取(空间)元数据可以减少数据管理员和GIS专业人员的工作量,使他们能够集中精力处理更高级的任务,如数据分析和模型开发。
增强数据互操作性:通过自动提取一致的元数据,不同的数据集和系统能够更轻松地集成和交互,从而提高了数据的互操作性。
本申请的自动提取空间元数据并和空间数据模型自动关联的方法,提供了高效、准确、一致和可扩展的方法来管理和分析地理信息数据,这有助于改进GIS系统的性能,加速数据发现和支持更广泛的地理信息应用。同时,它降低了人工成本,提高了数据质量和可信度,为组织和决策制定者提供了更好的数据基础。
以上仅是本申请的一些实施例,本申请的保护范围并不局限于上述实施例,对于本技术领域的普通技术人员来说,在不脱离本申请创意设计前提下的若干改进和润饰,也应落入本申请的保护范围。

Claims (7)

1.一种自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于,包括如下步骤:
步骤A:设计元数据提取器的参数;所述元数据提取器的参数包括数据源、元数据模板、元数据采集器、元数据提取规则和元数据存储方式;所述数据源存储有不同格式的空间数据文件;对于每个所述空间数据文件,相应生成一个元数据提取任务;
步骤B:注册文件变化监测脚本;所述监测脚本获取所述数据源中变化的空间数据文件以及该空间数据文件的变化信息,并把空间数据文件的变化信息推送到Apache Kafka消息队列中;
步骤C:注册文件变化消息处理器,通过监听Apache Kafka消息队列主题,获得发生变化的空间数据文件,基于该空间数据文件映射的元数据提取任务,触发相应的元数据提取任务;
步骤D:对于触发的元数据提取任务,根据所述元数据提取规则,自动从所述空间数据文件之中提取相应的元数据,根据所述元数据存储方式将元数据进行存储;
步骤E:从neo4j图库中获取空间数据文件衍生的空间数据模型,自动将该空间数据模型与从该空间数据文件中提取的元数据进行关联;
步骤D具体包括:对于触发的元数据提取任务,获取任务执行参数,所述任务执行参数包括文件路径、文件名和元数据模板,通过所述文件路径生成唯一表名,通过所述元数据模板定义表结构;连接PostGIS空间元数据库,判断所述表名是否存在,不存在则创建使用所述表名和所述表结构的元数据表;根据所述元数据提取规则,从所述空间数据文件之中提取相应的元数据,将元数据写入PostGIS空间元数据库的元数据表中。
2.根据权利要求1所述的自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于:
在步骤A中,所述数据源是基于Delta Lake构建的数据湖;所述数据湖存储有不同格式的空间数据文件;Delta Lake自动将空间数据文件的变化写入日志文件中;
在步骤B中,所述监测脚本通过定时调用Delta Lake的API接口,来获取日志文件中变化的空间数据文件以及该空间数据文件的变化信息。
3.根据权利要求1所述的自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于,
所述元数据提取器内置多种元数据模板;所述元数据模板定义所要提取的元数据的字段名称、字段类型和字段分类;
所述元数据提取规则包括设定提取频率和数据更新方式;
所述元数据提取规则还包括设置所述元数据模板与所述空间数据文件存储目录的映射关系,通过映射关系识别所述空间数据文件的格式,所述元数据采集器通过geotools开源框架解析读取不同格式的空间数据文件,根据所述元数据模板以及设定的提取频率和数据更新方式,来提取元数据信息。
4.根据权利要求3所述的自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于,所述提取频率选自实时提取、周期性提取和一次性提取之中的任意一种;所述数据更新方式选自增量更新、全覆盖更新和比较更新之中的任意一种。
5.根据权利要求1所述的自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于,步骤B中,所述把空间数据文件的变化信息推送到Apache Kafka消息队列中,包括:
先定义Apache Kafka消息队列主题的数据内容包括:文件路径、文件变化类型、文件变化时间和文件版本;
然后使用Python的confluent-kafka库,将空间数据文件的变化信息发送到Apachekafka消息队列主题中。
6.根据权利要求5所述的自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于,步骤C具体包括:
注册文件变化消息处理器,使用Python的confluent-kafka库,监听Apache Kafka消息队列主题,解析出变化的空间数据文件以及该空间数据文件的文件路径,基于文件路径与元数据提取任务的映射关系,触发元数据提取任务。
7.根据权利要求1所述的自动提取空间元数据并和空间数据模型自动关联的方法,其特征在于,所述自动提取空间元数据并和空间数据模型自动关联的方法还包括步骤F:所述元数据表中的元数据通过数据表格、地图检索的方式,来进行展示,所述数据表格和所述地图检索均支持对元数据空间查询,包括范围查询、属性查询、地理交互式查询和地理缓冲区查询。
CN202410090126.6A 2024-01-23 2024-01-23 自动提取空间元数据并和空间数据模型自动关联的方法 Active CN117609414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410090126.6A CN117609414B (zh) 2024-01-23 2024-01-23 自动提取空间元数据并和空间数据模型自动关联的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410090126.6A CN117609414B (zh) 2024-01-23 2024-01-23 自动提取空间元数据并和空间数据模型自动关联的方法

Publications (2)

Publication Number Publication Date
CN117609414A CN117609414A (zh) 2024-02-27
CN117609414B true CN117609414B (zh) 2024-04-09

Family

ID=89960198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410090126.6A Active CN117609414B (zh) 2024-01-23 2024-01-23 自动提取空间元数据并和空间数据模型自动关联的方法

Country Status (1)

Country Link
CN (1) CN117609414B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324683A (zh) * 2020-02-19 2020-06-23 中国电子科技集团公司第二十八研究所 一种时空与要素统一编码的数据管理方法
CN114691336A (zh) * 2022-04-02 2022-07-01 苏州空天信息研究院 一种面向多源地理空间数据的云服务发布系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10375374B2 (en) * 2017-03-29 2019-08-06 Plethron Inc. Dimension extractable object comprising spatial metadata for a captured image or video

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324683A (zh) * 2020-02-19 2020-06-23 中国电子科技集团公司第二十八研究所 一种时空与要素统一编码的数据管理方法
CN114691336A (zh) * 2022-04-02 2022-07-01 苏州空天信息研究院 一种面向多源地理空间数据的云服务发布系统及方法

Also Published As

Publication number Publication date
CN117609414A (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN113434623B (zh) 一种基于多源异构空间规划数据的融合方法
US9311334B2 (en) Geospatial database integration using business models
CN112115198A (zh) 一种城市遥感智能服务平台
CN111159191A (zh) 一种数据处理方法、装置和界面
CN108491545A (zh) 一种国土资源数据移动监管系统
CN112988715B (zh) 一种基于开源方式的全球网络地名数据库的构建方法
CN105976313A (zh) Cad平面坐标系转换到百度地图坐标系的方法及系统
CN114968984A (zh) 数字孪生全生命周期管理平台
Kislov et al. An electronic management system for a digital herbarium: development and future prospects
CN111552010A (zh) 一种全球气象灾害卫星遥感快速响应与可视化服务平台
CN110688688A (zh) 一种测绘竣工图批量转换为勘测定界图的方法
CN117609414B (zh) 自动提取空间元数据并和空间数据模型自动关联的方法
CN115357675B (zh) 一种像控点标准化处理建设像控点数据库方法和系统
US8687018B1 (en) Collection and confirmation of place metadata and graphic representations of fixed objects displayed in a mapping system
CN111382165A (zh) 一种移动国土管理系统
CN116414935A (zh) 一种基于Elastic Search的分布式搜索空间矢量数据的方法
CN113722337B (zh) 业务数据确定方法、装置、设备及存储介质
US20210279825A1 (en) System and method for revenue and asset management based on micro-service architecture
CN110675729B (zh) 一种多版本地理信息一体化制图方法及系统
CN114020857A (zh) 一种土地调查用快速建库方法及系统
CN110096638B (zh) 一种灌区气象与遥感信息监测平台
Liu et al. Design and Implementation of Dynamic Update System for Geographical Names and Addresses
CN118467620B (zh) 一种任务执行环境仿真数据引接处理应用的方法及系统
US7831630B2 (en) Automation tool for providing access to an electronic database for business intelligence
Ren et al. Design and Development of Spatio-Temporal Fusion and Operation Platform for Ancient and Modern Maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant