CN116756258B - 一种面向数据湖中空间矢量数据的质量检查方法 - Google Patents

一种面向数据湖中空间矢量数据的质量检查方法 Download PDF

Info

Publication number
CN116756258B
CN116756258B CN202310666494.6A CN202310666494A CN116756258B CN 116756258 B CN116756258 B CN 116756258B CN 202310666494 A CN202310666494 A CN 202310666494A CN 116756258 B CN116756258 B CN 116756258B
Authority
CN
China
Prior art keywords
data
quality inspection
rule
vector data
space vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310666494.6A
Other languages
English (en)
Other versions
CN116756258A (zh
Inventor
刘磊
王瑾晖
姜静
陈梦月
黄超
赵慧慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yizhirui Information Technology Co ltd
Original Assignee
Yizhirui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yizhirui Information Technology Co ltd filed Critical Yizhirui Information Technology Co ltd
Priority to CN202310666494.6A priority Critical patent/CN116756258B/zh
Publication of CN116756258A publication Critical patent/CN116756258A/zh
Application granted granted Critical
Publication of CN116756258B publication Critical patent/CN116756258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了一种面向数据湖中空间矢量数据的质量检查方法。所述方法包括基于配置完成的质检任务构建有向无环图,并将有向无环图提交至DAG调度器;DAG调度器对有向无环图进行解析,将有向无环图划分为步骤组,并将步骤组提交至Spark集群的任务调度程序;Spark任务调度程序将步骤组发送至Spark的Executor;Executor逐项执行步骤组;当步骤组执行结束后,Executor将执行结果写入SpatialRDD;通过df.write.format("delta").mode(SaveMode.Overwrite).option("overwriteSchema","true").save读取SpatialRDD中的执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。以此方式,可以对数据湖中的空间矢量数据实现质量检查,并提高大规模数据量下的空间矢量数据质检效率。

Description

一种面向数据湖中空间矢量数据的质量检查方法
技术领域
本申请的实施例涉及数据处理技术领域,尤其涉及一种面向数据湖中空间矢量数据的质量检查方法。
背景技术
当前,空间矢量数据的质量检测大多依靠传统的基于GIS桌面软件工具提供的质检能力,以及结合人工校核完成,导致WEB端的空间数据质检能力薄弱,且对于大数据量的空间矢量数据质检具有局限性,导致大规模数据量下的空间矢量数据质检效率低下。
数据湖(Delta-Lake)作为当下主流存储框架,可对空间矢量数据进行统一存储管理。而现有技术中大多面向于传统的空间数据格式如SHP、CSV等进行数据质检,如基于Hadoop的空间数据质检方法,虽对大规模空间数据的质检有一定帮助,但无法对于数据湖中存储的空间矢量数据进行质检。
发明内容
为了解决上述提及的技术问题,本申请的实施例提供了一种面向数据湖中空间矢量数据的质量检查方法。该方法包括:
基于配置完成的质检任务构建有向无环图,并将所述有向无环图提交至DAG调度器;DAG调度器对所述有向无环图进行解析,将所述有向无环图划分为步骤组,并将所述步骤组提交至Spark集群的任务调度程序;
Spark任务调度程序将所述步骤组发送至Spark的Executor;
Executor逐项执行所述步骤组;
当所述步骤组执行结束后,Executor将执行结果写入SpatialRDD;
通过df.write.format("delta").mode(SaveMode.Overwrite).option
("overwriteSchema","true").save读取SpatialRDD中的所述执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。
在一种可能的实现方式中,该方法还包括:
响应于构建信息构建所述质检任务,并将所述质检任务注册至资源调度中心;
资源调度中心评估所述质检任务的消耗资源以及监测Spark集群的计算资源;
在Spark集群的计算资源大于所述质检任务的消耗资源时,将所述质检任务提交至Spark集群;
其中,所述构建信息包括任务名称、执行周期、任务优先级、执行时所需的CPU数、执行时所需的内核数以及执行时所需的质量检查规则。
在一种可能的实现方式中,所述所需的质量检查规则包括拓扑检查规则和/或图属一致性检查规则;
所述拓扑检查规则包括孔洞面检查规则、自相交检查规则、相互重叠检查规则、狭长面检查规则、过密点检查规则、异常角检查规则、悬挂点检查规则、存在缝隙检查规则、存在组合图斑检查规则、要素超出合理范围检查规则、存在碎线检查规则、存在碎多边形检查规则、ZM值检查规则以及空几何检查规则中的一种或多种;
所述图属一致性检查规则包括长度检查规则、面积检查规则以及位置检查规则中的一种或多种。
在一种可能的实现方式中,配置所述质检任务包括:
通过配置Delta的扩展模块io.delta.sql.DeltaSparkSessionExtension,实现通过表方式进行空间矢量数据的管理;
通过Apache Sedona空间对象的Kryo序列化库将所述空间矢量数据序列化为空间对象和空间索引;
定义任务参数,并对所述质检任务进行解析得到所述任务参数,其中,所述任务参数包括待读取的空间矢量数据、任务分配的Driver内存、CPU核数、执行单元数量、执行单元内存、所需的质量检查规则ID;
创建DATAFrame数据集,作为从数据湖中读取的所述空间矢量数据的加载空间;
配置所需的质量检查规则的执行顺序;
配置所述执行结果存储位置,使得所述执行结果存储至SpatialRDD。
在一种可能的实现方式中,所需的质量检查规则的执行顺序包括:
针对同一空间矢量数据,优先根据字段名称顺序对所需的质量检查规则排序;
当同一字段配置多个质量检查规则时,所述拓扑检查规则优先于所述图属一致性检查规则。
在一种可能的实现方式中,Excutor逐项执行所述步骤组,包括:
通过Spark SQL的session.read.format("delta").load(SpatialTablePath)函数读取数据湖中的空间矢量数据,并将读取的数据存储至已创建的DataFrame中;
使用ST_GeomFromWKT函数将读取出的空间矢量数据的空间字段string类型下存储的WKT形式空间形态转为Geometry对象;
基于已转换的Geometry对象,在服务器内存中对所需的质量检查规则逐项执行;
每一个质量检查规则执行后,对于所涉及的错误数据进行标记,违反弱规则标记为0,违反强规则标记为1;
执行结束后,Executor将执行结束消息反馈给资源管理器模块。
在一种可能的实现方式中,该方法还包括:
资源管理器模块实时对Spark集群的当前使用的资源进行实时监控,当资源未被占用时,则释放资源。
在一种可能的实现方式中,该方法还包括:
轮询业务系统库中的错误空间矢量数据;
根据标签进行错误数据统计,统计指标包括问题记录数、违反弱规则记录数以及违反强规则记录数;
根据所述统计指标和错误空间矢量数据生成质检报告。
在一种可能的实现方式中,所述质检报告以web形式进行展示。
在一种可能的实现方式中,所述空间矢量数据以字段类型为String形式存储于数据湖中。
综上所述,本申请包括以下有益技术效果:
基于配置完成的质检任务构建有向无环图,并将有向无环图提交至DAG调度器;DAG调度器对所述有向无环图进行解析,将有向无环图划分为步骤组,并将步骤组提交至Spark集群的任务调度程序;Spark任务调度程序将步骤组发送至Spark的Executor;Excutor逐项执行步骤组;当步骤组执行结束后,Excutor将执行结果写入SpatialRDD;通过df.write.format("delta").mode(SaveMode.Overwrite).option("overwriteSchema","true").save读取SpatialRDD中的执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。本申请可以对数据湖中的空间矢量数据实现质量检查,并提高大规模数据量下的空间矢量数据质检效率。
应当理解,发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本申请的实施例提供的面向数据湖中空间矢量数据的质量检查方法的流程图。
图2示出了本申请的实施例质量检查规则Web可视化示意图。
图3示出了本申请的实施例质检报告示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
为了便于对本申请实施例的理解,首先对本申请实施例涉及的部分术语进行解释。
数据湖(Delta-Lake),是一个以原始格式存储数据的存储库或系统,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表)半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
接下来对本申请实施例中数据湖中的空间矢量数据的格式转换进行介绍。在本申请实施例中,在对数据湖存储下的空间矢量数据进行质量检查前,首先对存储至数据湖中的各类空间矢量数据进行格式转换,将不同格式下的point(空间点要素)、polyline(空间线要素)以及polygon(空间面要素)进行空间矢量数据—空间字段类型的映射转换并存储。
具体地,首先根据空间矢量数据通用格式,如SHP、CSV、GeoJson以及ESRI标准下的GDB以及SDE等,梳理不同格式空间矢量数据的空间字段类型,所述空间矢量数据以字段类型为String形式存储于数据湖中,空间矢量数据—空间字段类型的映射转换表如表1所示。
表1
进一步地,根据不同的空间矢量数据格式,采用Apache Sedona函数库的不同方法转换成Delta表,在数据湖中进行统一存储,实现基于数据湖的空间矢量数据管理,空间矢量数据格式-转换为Delta表方法的映射转换表如表2所示。其中,Delta表是数据湖定义的表格式,是基于列存储的二维表结构。
空间矢量数据格式 转换为Delta表方法函数
SHP ShapefileReader.readToGeometryRDD
GDB 自编写GDB解析工具
CSV 直接读取
GeoJson JsonPath、Jolt
SDE JDBC
表2
图1示出了本申请实施例面向数据湖中空间矢量数据的质量检查方法的流程图。参见图1,面向数据湖中空间矢量数据的质量检查方法包括如下步骤:
步骤101,基于配置完成的质检任务构建有向无环图,并将有向无环图提交至DAG调度器。
在本申请实施例中,基于构建信息构建质检任务,所述构建信息包括任务名称、执行周期、任务优先级、执行时所需的CPU数、执行时所需的内核数以及执行时所需的质量检查规则,每个所述质检任务的构建为对同一空间矢量数据(Delta表)配置的众多质量检查规则。
其中,所需的质量检查规则包括拓扑检查规则和/或图属一致性检查规则。所述拓扑检查规则包括孔洞面检查规则、自相交检查规则、相互重叠检查规则、狭长面检查规则、过密点检查规则、异常角检查规则、悬挂点检查规则、存在缝隙检查规则、存在组合图斑检查规则、要素超出合理范围检查规则、存在碎线检查规则、存在碎多边形检查规则、ZM值检查规则以及空几何检查规则中的一种或多种;所述图属一致性检查规则包括长度检查规则、面积检查规则以及位置检查规则中的一种或多种。
具体地,表3示出了所需的质量检查规则类型、质量检查规则组、质量检查规则名称以及质量检查规则的释义。如表3所示。
表3
其中,为空间矢量数据配置质量检查规则需对质量检查规则进行封装,封装首先根据Apache Sedona函数库和/或GeoTools开源库,基于每一个质量检查规则的需求,采用Scala编程语言编写质检规则计算逻辑代码;然后根据每一个质检规则逻辑代码形成代码块,封装成空间矢量数据质量检查规则算子,并提供成可视化Web工具,示例地,如图2所示。
进一步地,通过可视化Web界面为数据湖中的空间矢量数据配置质量检查规则,根据质量检查的需求,将规则算子配置在属性字段或空间字段中。
进一步地,基于构建信息构建质检任务后,将质检任务注册至资源调度中心;资源调度中心评估质检任务的消耗资源以及监测Spark集群的计算资源;在Spark集群的计算资源大于质检任务的消耗资源时,将质检任务提交至Spark集群。
其中,质检任务以JSON形式注册至资源调度中心。
进一步地,配置质检任务的步骤包括:
步骤1011,通过配置Delta的扩展模块io.delta.sql.DeltaSparkSessionExtension,实现通过表方式进行空间矢量数据的管理。
步骤1012,通过Apache Sedona空间对象的Kryo序列化库将空间矢量数据序列化为空间对象和空间索引。
其中,Kryo为Java对象推行序列化框架,空间对象包括Point(点)、LineString(线)、Polygon(面)、MultiPoint(多点)、MultiLineString(多线)、MultiPolygon(多面)、GeometryCollection(几何图形集合)、Circle、Envelope九类,空间索引包括Quadtree、STRtree两类。
步骤1013,定义任务参数,并对所述质检任务进行解析得到所述任务参数,其中,所述任务参数包括待读取的空间矢量数据、任务分配的Driver内存、CPU核数、执行单元数量、执行单元内存、所需的质量检查规则ID。
步骤1014,创建DATAFrame数据集,作为从数据湖中读取的所述空间矢量数据的加载空间。
其中,DATAFrame数据集基于SQL数据处理函数库创建。
步骤1015,配置所需的质量检查规则的执行顺序。
其中,所需的质量检查规则的执行顺序包括针对同一空间矢量数据,优先根据字段名称顺序对所需的质量检查规则排序;当同一字段配置多个质量检查规则时,所述拓扑检查规则优先于所述图属一致性检查规则,具体地,根据表3所示出的质量检查规则顺序进行排序。
步骤1016,配置所述执行结果存储位置,使得所述执行结果存储至SpatialRDD。
其中,SpatialRDD为空间弹性分布式数据集。
步骤102,DAG调度器对所述有向无环图进行解析,将所述有向无环图划分为步骤组,并将所述步骤组提交至Spark集群的任务调度程序。
在本申请实施例中,通过DAG调度器,Spark可以对计算的流程进行优化,对于有向无环图,可以对单一结点上进行的计算操作合并,并且计算中间数据通过内存进行高效读写,对于有向无环图的解析需要涉及Shuffle操作的步骤进行步骤组划分,从而使计算资源的利用更加高效、合理,减少计算资源的等待过程,减少计算中间数据读写产生的时间浪费。
步骤103,Spark任务调度程序将所述步骤组发送至Spark的Executor。
其中,Executor是spark任务的执行单元,运行在worker上,是一组计算资源(cpu核心、memory)的集合。
步骤104,Executor逐项执行所述步骤组。
具体地,通过Spark SQL的session.read.format("delta").load(SpatialTablePath)函数读取数据湖中的空间矢量数据,并将读取的数据存储至已创建的DataFrame中;使用ST_GeomFromWKT函数将读取出的空间矢量数据的空间字段string类型下存储的WKT形式空间形态转为Geometry对象;基于已转换的Geometry对象,在服务器内存中对所需的质量检查规则逐项执行;每一个质量检查规则执行后,对于所涉及的错误数据进行标记,违反弱规则标记为0,违反强规则标记为1;执行结束后,Executor将执行结束消息反馈给资源管理器模块。
需要说明的是,资源管理器模块实时对Spark集群的当前使用的资源进行实时监控,当资源未被占用时,则释放资源。
其中,资源包括DataFrame资源、内存资源等。
步骤105,当所述步骤组执行结束后,Excutor将执行结果写入SpatialRDD。
步骤106,通过df.write.format("delta").mode(SaveMode.Overwrite).option("overwriteSchema","true").save读取SpatialRDD中的所述执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。
进一步地,轮询业务系统库中的错误空间矢量数据;根据标签进行错误数据统计,统计指标包括问题记录数、违反弱规则记录数以及违反强规则记录数;根据所述统计指标和错误空间矢量数据生成质检报告。
其中,所述质检报告以web形式进行展示,如图3所示。
根据本公开的实施例,实现了以下技术效果:
基于配置完成的质检任务构建有向无环图,并将有向无环图提交至DAG调度器;DAG调度器对所述有向无环图进行解析,将有向无环图划分为步骤组,并将步骤组提交至Spark集群的任务调度程序;Spark任务调度程序将步骤组发送至Spark的Executor;Excutor逐项执行步骤组;当步骤组执行结束后,Excutor将执行结果写入SpatialRDD;通过df.write.format("delta").mode(SaveMode.Overwrite).option("overwriteSchema","true").save读取SpatialRDD中的执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库。本申请可以对数据湖中的空间矢量数据实现质量检查,并提高大规模数据量下的空间矢量数据质检效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种面向数据湖中空间矢量数据的质量检查方法,其特征在于,包括:
基于配置完成的质检任务构建有向无环图,并将所述有向无环图提交至DAG调度器;
DAG调度器对所述有向无环图进行解析,将所述有向无环图划分为步骤组,并将所述步骤组提交至Spark集群的任务调度程序;
Spark任务调度程序将所述步骤组发送至Spark的Executor;
Executor逐项执行所述步骤组;
当所述步骤组执行结束后,Executor将执行结果写入SpatialRDD;
通过df.write.format("delta").mode(SaveMode.Overwrite).option("overwriteSchema","true").save读取SpatialRDD中的所述执行结果,将其数据格式转换为业务系统可读的空间数据并存储至业务系统库;
响应于构建信息构建所述质检任务,并将所述质检任务注册至资源调度中心;
资源调度中心评估所述质检任务的消耗资源以及监测Spark集群的计算资源;
在Spark集群的计算资源大于所述质检任务的消耗资源时,将所述质检任务提交至Spark集群;
其中,所述构建信息包括任务名称、执行周期、任务优先级、执行时所需的CPU数、执行时所需的内核数以及执行时所需的质量检查规则;
配置所述质检任务包括:通过配置Delta的扩展模块io.delta.sql.DeltaSparkSessionExtension,实现通过表方式进行空间矢量数据的管理;
通过Apache Sedona空间对象的Kryo序列化库将所述空间矢量数据序列化为空间对象和空间索引;
定义任务参数,并对所述质检任务进行解析得到所述任务参数,其中,所述任务参数包括待读取的空间矢量数据、任务分配的Driver内存、CPU核数、执行单元数量、执行单元内存、所需的质量检查规则ID;
创建DATAFrame数据集,作为从数据湖中读取的所述空间矢量数据的加载空间;
配置所需的质量检查规则的执行顺序;
配置所述执行结果存储位置,使得所述执行结果存储至SpatialRDD。
2.根据权利要求1所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,
所述所需的质量检查规则包括拓扑检查规则和/或图属一致性检查规则;
所述拓扑检查规则包括孔洞面检查规则、自相交检查规则、相互重叠检查规则、狭长面检查规则、过密点检查规则、异常角检查规则、悬挂点检查规则、存在缝隙检查规则、存在组合图斑检查规则、要素超出合理范围检查规则、存在碎线检查规则、存在碎多边形检查规则、ZM值检查规则以及空几何检查规则中的一种或多种;
所述图属一致性检查规则包括长度检查规则、面积检查规则以及位置检查规则中的一种或多种。
3.根据权利要求2所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,所需的质量检查规则的执行顺序包括:
针对同一空间矢量数据,优先根据字段名称顺序对所需的质量检查规则排序;
当同一字段配置多个质量检查规则时,所述拓扑检查规则优先于所述图属一致性检查规则。
4.根据权利要求3所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,Excutor逐项执行所述步骤组,包括:
通过Spark SQL的session.read.format("delta").load(SpatialTablePath)函数读取数据湖中的空间矢量数据,并将读取的数据存储至已创建的DataFrame中;
使用ST_GeomFromWKT函数将读取出的空间矢量数据的空间字段string类型下存储的WKT形式空间形态转为Geometry对象;
基于已转换的Geometry对象,在服务器内存中对所需的质量检查规则逐项执行;
每一个质量检查规则执行后,对于所涉及的错误数据进行标记,违反弱规则标记为0,违反强规则标记为1;
执行结束后,Executor将执行结束消息反馈给资源管理器模块。
5.根据权利要求4所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,还包括:
资源管理器模块实时对Spark集群的当前使用的资源进行实时监控,当资源未被占用时,则释放资源。
6.根据权利要求1所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,还包括:
轮询业务系统库中的错误空间矢量数据;
根据标签进行错误数据统计,统计指标包括问题记录数、违反弱规则记录数以及违反强规则记录数;
根据所述统计指标和错误空间矢量数据生成质检报告。
7.根据权利要求6所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,所述质检报告以web形式进行展示。
8.根据权利要求1所述的面向数据湖中空间矢量数据的质量检查方法,其特征在于,所述空间矢量数据以字段类型为String形式存储于数据湖中。
CN202310666494.6A 2023-06-06 2023-06-06 一种面向数据湖中空间矢量数据的质量检查方法 Active CN116756258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310666494.6A CN116756258B (zh) 2023-06-06 2023-06-06 一种面向数据湖中空间矢量数据的质量检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310666494.6A CN116756258B (zh) 2023-06-06 2023-06-06 一种面向数据湖中空间矢量数据的质量检查方法

Publications (2)

Publication Number Publication Date
CN116756258A CN116756258A (zh) 2023-09-15
CN116756258B true CN116756258B (zh) 2024-03-15

Family

ID=87952567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310666494.6A Active CN116756258B (zh) 2023-06-06 2023-06-06 一种面向数据湖中空间矢量数据的质量检查方法

Country Status (1)

Country Link
CN (1) CN116756258B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112263A2 (en) * 2013-12-04 2015-07-30 Urthecast Corp. Systems and methods for processing distributing earth observation images
CN105183825A (zh) * 2015-08-28 2015-12-23 中南大学 一种osm数据到专业gis矢量数据的模型自动转换及osm增量数据动态整合方法
CN112199429A (zh) * 2020-10-10 2021-01-08 浪潮云信息技术股份公司 一种基于分布式架构的空间数据转换方法
CN114756572A (zh) * 2022-04-20 2022-07-15 武汉浮木科技有限公司 一种面向矢量空间数据质量检验的并行计算方法及系统
CN115495429A (zh) * 2022-08-31 2022-12-20 上海飞未信息技术有限公司 一种基于Hadoop集群的海量空间数据质检方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112263A2 (en) * 2013-12-04 2015-07-30 Urthecast Corp. Systems and methods for processing distributing earth observation images
CN105183825A (zh) * 2015-08-28 2015-12-23 中南大学 一种osm数据到专业gis矢量数据的模型自动转换及osm增量数据动态整合方法
CN112199429A (zh) * 2020-10-10 2021-01-08 浪潮云信息技术股份公司 一种基于分布式架构的空间数据转换方法
CN114756572A (zh) * 2022-04-20 2022-07-15 武汉浮木科技有限公司 一种面向矢量空间数据质量检验的并行计算方法及系统
CN115495429A (zh) * 2022-08-31 2022-12-20 上海飞未信息技术有限公司 一种基于Hadoop集群的海量空间数据质检方法和系统

Also Published As

Publication number Publication date
CN116756258A (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN107066542B (zh) 地理信息系统中的矢量空间叠加分析并行方法及系统
CN107544948B (zh) 一种基于MapReduce的矢量文件转换方法和装置
CN106909554B (zh) 一种数据库文本表数据的加载方法及装置
WO2015074290A1 (zh) 数据库实现方法
CN107870949B (zh) 数据分析作业依赖关系生成方法和系统
CN105677763A (zh) 一种基于Hadoop的图像质量评估系统
CN113010598B (zh) 面向遥感大数据处理的动态自适应分布式协同工作流系统
CN102508919A (zh) 数据处理方法及系统
CN114420215A (zh) 基于生成树的大规模生物数据聚类方法及系统
CN103605733A (zh) 基于json数组的页面布局存储方法
CN112685026A (zh) 一种基于多语言的可视化建模平台和方法
Singh et al. Spatial data analysis with ArcGIS and MapReduce
US11604903B2 (en) Layered analytical modeling of telecom tower structure and scenario analysis
Fiore et al. Ophidia: a full software stack for scientific data analytics
CN116756258B (zh) 一种面向数据湖中空间矢量数据的质量检查方法
CN113094039B (zh) 一种基于数据库表的代码自动生成系统
CN115617480A (zh) 一种任务调度方法、装置、系统及存储介质
CN114328486A (zh) 基于模型的数据质量核查方法及装置
CN104731900A (zh) 一种Hive调度方法及装置
CN113641654A (zh) 一种基于实时事件的营销处置规则引擎方法
CN114138735A (zh) 一种Janusgraph数据快速批量装载的方法
CN110515993B (zh) 税务数据转换方法及系统
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
US10289447B1 (en) Parallel process scheduling for efficient data access
Wen et al. EdgeCloudBenchmark: A Benchmark Driven by Real Trace to Generate Cloud-Edge Workloads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240130

Address after: Room 105, 1st Floor, Building 5, No. 8 Dongbei Wangxi Road, Haidian District, Beijing, 100193

Applicant after: Yizhirui Information Technology Co.,Ltd.

Country or region after: China

Address before: 601, Unit 6, 3rd Floor, No. 25 Shangdi East Road, Haidian District, Beijing, 100089

Applicant before: Beijing Jietai Yunji Information Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant