CN116777284A - 一种空间及属性数据一体化质检方法 - Google Patents

一种空间及属性数据一体化质检方法 Download PDF

Info

Publication number
CN116777284A
CN116777284A CN202310762880.5A CN202310762880A CN116777284A CN 116777284 A CN116777284 A CN 116777284A CN 202310762880 A CN202310762880 A CN 202310762880A CN 116777284 A CN116777284 A CN 116777284A
Authority
CN
China
Prior art keywords
quality inspection
data
quality
error
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310762880.5A
Other languages
English (en)
Inventor
崔健
方应明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feiwei Information Technology Co ltd
Original Assignee
Shanghai Feiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feiwei Information Technology Co ltd filed Critical Shanghai Feiwei Information Technology Co ltd
Priority to CN202310762880.5A priority Critical patent/CN116777284A/zh
Publication of CN116777284A publication Critical patent/CN116777284A/zh
Pending legal-status Critical Current

Links

Landscapes

  • General Factory Administration (AREA)

Abstract

本发明适用于地理信息系统技术领域,提供了一种空间及属性数据一体化质检方法,包括以下步骤:数据准备,对需要进行质检的数据进行收集和整理;通过ETL系统对需要质检的数据进行流式的抽取,数据转换和加工,以及数据装载,将分散、凌乱或标准不统一的数据整合到一起;按照数据类型和字段类型自动创建相对应数据库表结构,完成待质检空间数据和属性数据的入库工作;配置质检规则和质检方案;选择质检方案,质检系统评估各质检项耗时,根据计算节点数据,分配总耗时相近的质检项到各个计算节点,各节点开始进行质检;在质检任务结束后,形成质检错误清单,并根据各质检项评分因子,给出质量评分。该方法的质检效率高,质检成果质量高。

Description

一种空间及属性数据一体化质检方法
技术领域
本发明属于地理信息系统技术领域,尤其涉及一种空间及属性数据一体化质检方法。
背景技术
空间数据在农业、测绘、自然资源、规划和气象等领域都发挥了非常重要的作用。空间数据的质量作为空间数据的生命线,直接影响分析应用的正确性和可靠性。高质量的空间数据可为决策管理部门作出科学决策,为监管部门明确工作方向,为统筹领导部门反映基本国情国力。
传统的空间数据质检步骤通常包括以下步骤:
1、收集需要质检的空间数据和属性数,分类建立模板,规范化数据标准;
2、质检人员对收集的数据进行分类,(按行政区或按数据类型)分配不同人员进行人工质检;
3、质检人员使用传统GIS桌面软件,对空间数据进行拓扑检查;
4、质检人员使用Excel文件对属性数据进行逐条筛查,关联信息搜索关联核对;
5、对存在的错误数据逐条汇总、分类和统计,最终形成质量报告。
但是传统方法需要多名具备专业素质人员进行质检工作,人力成本高,多人协同工作,组织沟通成本高。且前期数据整理工作量大,逐条检查效率低,共性逻辑错误无法批量检查。对于逻辑质检存在主观意识,数据量大易出错,多人协同存在沟通问题。质检过程中存在问题,统计分析结果出现偏差,后期复盘定位错误数据困难,严重情况还会造成返工。
发明内容
本发明实施例的目的在于提供一种空间及属性数据一体化质检方法,旨在解决上述背景技术中提出的问题。
本发明实施例是这样实现的,一种空间及属性数据一体化质检方法,包括以下步骤:
步骤1、数据准备,对需要进行质检的数据进行收集和整理;
步骤2、通过ETL系统对需要质检的数据进行流式的抽取,数据转换和加工,以及数据装载,将分散、凌乱或标准不统一的数据整合到一起;
步骤3、按照数据类型和字段类型自动创建相对应数据库表结构,完成待质检空间数据和属性数据的入库工作;
步骤4、配置质检规则和质检方案,质检规则是一类质检模板,质检方案是根据具体质检内容使用质检规则配置的一系列质检项,质检项中可以设置评分因子;
步骤5、选择质检方案,质检系统评估各质检项耗时,根据计算节点数据,分配总耗时相近的质检项到各个计算节点,各节点开始进行质检;
步骤6、在质检任务结束后,形成质检错误清单,并根据各质检项评分因子,给出质量评分。
进一步的技术方案,所述步骤2包括以下具体步骤:
步骤2.1、数据抽取:将来源于数据库或者文件的质检数据抽取出来;
步骤2.2、数据清洗:配置过滤规则,对不完整的数据、错误的数据以及重复的数据进行数据清洗;
步骤2.3、数据转换:对提取的不一致的质检数据进行数据转换和数据粒度转换;
步骤2.4、数据加载,将抽取、清洗和转换后的规范化数据加载到各个质检节点。
进一步的技术方案,所述步骤3包括以下具体步骤:
步骤3.1、根据处理后的质检数据的表类型和字段类型建立相应的表结构,同时支持在每个存储节点上建立相应的空间表和业务表;
步骤3.2、将处理后的质检数据导入对应新建的表结构中,完成质检数据的入库。
进一步的技术方案,所述步骤4包括以下具体步骤:
步骤4.1、质检规则配置:质检系统内置多种质检规则,包含坐标系检查、拓扑错误检查、字典域检查、值域范围检查和空值检查等,基本涵盖常规空间和逻辑质检,同时可根据具体业务逻辑,增加质检规则;
步骤4.2、建立质检方案:质检方案是质检项的集合,质检方案可用于所有同类检查,根据质检业务不同建立不同的质检方案,以便于同类质检,仅需配置一次。
步骤4.3、质检项配置:质检项以质检规则为模板,对图层和字段的具体质检细节描述,质检项是最小质检单元;质检项配置质检的图层、字段、唯一标识、错误信息、评分因子和最大最小扣分系数等参数的设置;质检项关联质检方案,符合对应质检规则约束的参数类型。
进一步的技术方案,所述步骤5包括以下具体步骤:
步骤5.1、创建质检任务,评估各质检项耗时和累计耗时,根据质检节点数,计算各节点预计平均耗时;根据平均耗时,任务池分配贴近平均耗时的质检项清单到各个节点;
步骤5.2、质检节点根据分配的质检项清单开始质检任务;
步骤5.3、单个质检项完成质检时,根据质检错误数、质检项评分因子和最小最大扣分系数评估该质检项的实际扣分;
步骤5.4、所有节点完成质检任务时,汇总各节点质检错误清单。
进一步的技术方案,所述步骤5.1包括以下具体步骤:
步骤5.1.1、质检调度模块遍历评估所有单个质检项预估耗时和总耗时,再根据质检节点数计算平均耗时;
步骤5.1.2、质检调度模块使用最大平均值和的分组算法,动态规划各个节点质检项清单,详细过程如下:
计算m个数的n平均值,平均值记为mean;
然后将这m个数按从大到小的顺序进行排序;
从最大的数max开始选择,如果max≥mean,则直接将max单独分成一组;否则,将max纳入一组g,并为g继续选择是否有新的数可以加入;
a.首先计算假设不再有新的数纳入g,则计算delta0=mean-max和sqrt0=(mean-max)*2;
b.然后从剩下的数中寻找最接近delta0的数,此时,重复上述步骤a,继续计算delta1和sqrt1,再按照步骤b继续,直至不能继续;
c.比较上述过程中可能组合最终的sqrti,选择一个最小的。
进一步的技术方案,所述步骤6包括以下具体步骤:
步骤6.1、对错误类型、数量等信息进行统计分析,根据各质检项评分因子计算单个质检项减分数值;
步骤6.2、评分系统给出最终质量评分:比对减分数值是否满足最大最小减分系数,减分数值小于最小减分系数采用最小减分值,减分数值大于最大减分系数使用最大减分值;评分系统汇总各质检项减分,计算最终得分;
步骤6.3、输出质检质量报告:完成评分后,质检系统拉取质检错误清单,对质检结果进行分类统计,输出质量分析报告。
进一步的技术方案,所述步骤6.3包括以下具体步骤:
6.3.1、质检系统拉取质检错误清单,标记定位标识和错误描述,方便后续错误定位和修改;
6.3.2、质检系统按照错误类型、质检分类和错误频次等对错误清单进行统计分析,通过图表结合的方式展示数据质量;
6.3.3:质检系统输出质检数据质量分析报告。
本发明实施例提供的一种空间及属性数据一体化质检方法,其有益效果如下:
(1)效率高:本方法只需要将质检数据导入系统,选择相应质检方案,便可自动化质检,充分利用多台计算机优势,质检过程耗时短,效率高;
(2)质检成果质量高:本方法由程序自动化质检,质检成果质量高,分析报告统计详尽,图表结合,评分机制科学客观;
(3)可扩展和可复用:本方法可针对不同质检项目,扩展质检规则和质检项,配置简单,开箱即用;配置的质检规则和质检项可在其他项目复用,质检方案可分发到其他云主机,一处配置,到处运行。
附图说明
图1为本发明实施例提供的一种空间及属性数据一体化质检方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,为本发明一个实施例提供的一种空间及属性数据一体化质检方法,包括以下步骤:
步骤1、数据准备,对需要进行质检的数据进行收集和整理;
步骤2、通过ETL系统对需要质检的数据进行流式的抽取,数据转换和加工,以及数据装载,将分散、凌乱或标准不统一的数据整合到一起;
步骤3、按照数据类型和字段类型自动创建相对应数据库表结构,完成待质检空间数据和属性数据的入库工作;
步骤4、配置质检规则和质检方案,质检规则是一类质检模板,质检方案是根据具体质检内容使用质检规则配置的一系列质检项,质检项中可以设置评分因子;
步骤5、选择质检方案,质检系统评估各质检项耗时,根据计算节点数据,分配总耗时相近的质检项到各个计算节点,各节点开始进行质检。
步骤6、在质检任务结束后,形成质检错误清单,并根据各质检项评分因子,给出质量评分。
作为本发明的一种优选实施例,所述步骤1包括以下具体步骤:
将收集的质检数据(包含空间数据和属性数据)按照统一类型进行合并,将收集的数据结构化。
作为本发明的一种优选实施例,所述步骤2包括以下具体步骤:
步骤2.1、数据抽取:将来源于数据库或者文件的质检数据抽取出来;
步骤2.2、数据清洗:配置过滤规则,对不完整的数据、错误的数据以及重复的数据进行数据清洗;
步骤2.3、数据转换:对提取的不一致的质检数据进行数据转换和数据粒度转换;
步骤2.4、数据加载,将抽取、清洗和转换后的规范化数据加载到各个质检节点。
作为本发明的一种优选实施例,在所述步骤2.3中,不需要任何转换的数据称为直接移动数据或直接传递数据。
作为本发明的一种优选实施例,所述步骤3包括以下具体步骤:
步骤3.1、根据处理后的质检数据的表类型和字段类型建立相应的表结构,同时支持在每个存储节点上建立相应的空间表和业务表;
步骤3.2、将处理后的质检数据导入对应新建的表结构中,完成质检数据的入库。
作为本发明的一种优选实施例,所述步骤4包括以下具体步骤:
步骤4.1、质检规则配置:质检系统内置多种质检规则,包含坐标系检查、拓扑错误检查、字典域检查、值域范围检查和空值检查等,基本涵盖常规空间和逻辑质检;必要时可根据具体业务逻辑,增加质检规则;
步骤4.2、建立质检方案:质检方案是质检项的集合,质检方案可用于所有同类检查,根据质检业务不同建立不同的质检方案,以便于同类质检,仅需配置一次。
步骤4.3、质检项配置:质检项以质检规则为模板,对图层和字段的具体质检细节描述,质检项是最小质检单元;质检项配置质检的图层、字段、唯一标识、错误信息、评分因子和最大最小扣分系数等参数的设置;质检项关联质检方案,符合对应质检规则约束的参数类型。
作为本发明的一种优选实施例,所述步骤5包括以下具体步骤:
步骤5.1、创建质检任务,评估各质检项耗时和累计耗时,根据质检节点数,计算各节点预计平均耗时;根据平均耗时,任务池分配贴近平均耗时的质检项清单到各个节点;
步骤5.2、质检节点根据分配的质检项清单开始质检任务;
步骤5.3、单个质检项完成质检时,根据质检错误数、质检项评分因子和最小最大扣分系数评估该质检项的实际扣分;
步骤5.4、所有节点完成质检任务时,汇总各节点质检错误清单。
作为本发明的一种优选实施例,所述步骤5.1包括以下具体步骤:
步骤5.1.1、质检调度模块遍历评估所有单个质检项预估耗时和总耗时,再根据质检节点数计算平均耗时;
步骤5.1.2、质检调度模块使用最大平均值和的分组算法,动态规划各个节点质检项清单,详细过程如下:
首先计算m个数的n平均值,平均值记为mean;
然后将这m个数按从大到小的顺序进行排序;
从最大的数max开始选择,如果max≥mean,则直接将max单独分成一组;否则,将max纳入一组g,并为g继续选择是否有新的数可以加入;
a.首先计算假设不再有新的数纳入g,则计算delta0=mean-max和sqrt0=(mean-max)*2。
b.然后从剩下的数中寻找最接近delta0的数,此时,重复上述步骤a,继续计算delta1和sqrt1,再按照步骤b继续,直至不能继续;
c.比较上述过程中可能组合最终的sqrti,选择一个最小的。
作为本发明的一种优选实施例,所述步骤6包括以下具体步骤:
步骤6.1、对错误类型、数量等信息进行统计分析,根据各质检项评分因子计算单个质检项减分数值;
步骤6.2、评分系统给出最终质量评分:比对减分数值是否满足最大最小减分系数,减分数值小于最小减分系数采用最小减分值,减分数值大于最大减分系数使用最大减分值;
评分系统汇总各质检项减分,计算最终得分;
步骤6.3、输出质检质量报告:完成评分后,质检系统拉取质检错误清单,对质检结果进行分类统计,输出质量分析报告。
作为本发明的一种优选实施例,所述步骤6.3包括以下具体步骤:
6.3.1、质检系统拉取质检错误清单,标记定位标识和错误描述,方便后续错误定位和修改;
6.3.2、质检系统按照错误类型、质检分类和错误频次等对错误清单进行统计分析,通过图表结合的方式展示数据质量;
6.3.3:质检系统输出质检数据质量分析报告。
以上是本发明具体实施方式,主要通过ETL技术对繁杂错乱的原始数据进行标准化、分布式质检实现最优的质检效率、任务动态调度平均各节点资源分配、质检动态配置提高质检系统的灵活性和通用性;使用以上技术实现了空间属性数据一体化质检。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种空间及属性数据一体化质检方法,其特征在于,包括以下步骤:
步骤1、数据准备,对需要进行质检的数据进行收集和整理;
步骤2、通过ETL系统对需要质检的数据进行流式的抽取,数据转换和加工,以及数据装载,将分散、凌乱或标准不统一的数据整合到一起;
步骤3、按照数据类型和字段类型自动创建对应的数据库表结构,完成待质检空间数据和属性数据的入库工作;
步骤4、配置质检规则和质检方案,质检规则是一类质检模板,质检方案是根据具体质检内容使用质检规则配置的一系列质检项,质检项包括评分因子;
步骤5、选择质检方案,质检系统评估各质检项耗时,根据计算节点数据,分配总耗时相近的质检项到各个计算节点,各节点开始进行质检;
步骤6、在质检任务结束后,形成质检错误清单,并根据各质检项评分因子,给出质量评分。
2.根据权利要求1所述的空间及属性数据一体化质检方法,其特征在于,所述步骤2包括以下具体步骤:
步骤2.1、数据抽取:将来源于数据库或文件的质检数据抽取出来;
步骤2.2、数据清洗:配置过滤规则,对不完整的数据、错误的数据以及重复的数据进行数据清洗;
步骤2.3、数据转换:对提取的不一致的质检数据进行数据转换和数据粒度转换;
步骤2.4、数据加载,将抽取、清洗和转换后的规范化数据加载到各个质检节点。
3.根据权利要求1所述的空间及属性数据一体化质检方法,其特征在于,所述步骤3包括以下具体步骤:
步骤3.1、根据处理后的质检数据的表类型和字段类型建立相应的表结构,同时支持在每个存储节点上建立相应的空间表和业务表;
步骤3.2、将处理后的质检数据导入对应新建的表结构中,完成质检数据的入库。
4.根据权利要求3所述的空间及属性数据一体化质检方法,其特征在于,所述步骤4包括以下具体步骤:
步骤4.1、质检规则配置:质检系统内置多种质检规则,包含坐标系检查、拓扑错误检查、字典域检查、值域范围检查和空值检查,同时可根据具体业务逻辑,增加质检规则;
步骤4.2、建立质检方案:质检方案是质检项的集合,质检方案可用于所有同类检查,根据质检业务不同建立不同的质检方案,以便于同类质检,仅需配置一次;
步骤4.3、质检项配置:质检项以质检规则为模板,对图层和字段的具体质检细节描述,质检项是最小质检单元;质检项配置质检的图层、字段、唯一标识、错误信息、评分因子和最大最小扣分系数;质检项关联质检方案,符合对应质检规则约束的参数类型。
5.根据权利要求4所述的空间及属性数据一体化质检方法,其特征在于,所述步骤5包括以下具体步骤:
步骤5.1、创建质检任务,评估各质检项耗时和累计耗时,根据质检节点数,计算各节点预计平均耗时;根据平均耗时,任务池分配贴近平均耗时的质检项清单到各个节点;
步骤5.2、质检节点根据分配的质检项清单开始质检任务;
步骤5.3、单个质检项完成质检时,根据质检错误数、质检项评分因子和最小最大扣分系数评估该质检项的实际扣分;
步骤5.4、所有节点完成质检任务时,汇总各节点质检错误清单。
6.根据权利要求5所述的空间及属性数据一体化质检方法,其特征在于,所述步骤5.1包括以下具体步骤:
步骤5.1.1、质检调度模块遍历评估所有单个质检项预估耗时和总耗时,再根据质检节点数计算平均耗时;
步骤5.1.2、质检调度模块使用最大平均值和的分组算法,动态规划各个节点质检项清单,详细过程如下:
计算m个数的n平均值,平均值记为mean;
然后将这m个数按从大到小的顺序进行排序;
从最大的数max开始选择,如果max≥mean,则直接将max单独分成一组;否则,将max纳入一组g,并为g继续选择是否有新的数可以加入;
a.首先计算假设不再有新的数纳入g,则计算delta0=mean-max和sqrt0=(mean-max)*2;
b.然后从剩下的数中寻找最接近delta0的数,此时,重复步骤a,继续计算delta1和sqrt1,再按照步骤b继续,直至不能继续;
c.比较上述过程中各组合最终的sqrti,选择一个最小的。
7.根据权利要求6所述的空间及属性数据一体化质检方法,其特征在于,所述步骤6包括以下具体步骤:
步骤6.1、对错误类型和错误数量进行统计分析,根据各质检项评分因子计算单个质检项减分数值;
步骤6.2、评分系统给出最终质量评分:比对减分数值是否满足最大最小减分系数,减分数值小于最小减分系数采用最小减分值,减分数值大于最大减分系数使用最大减分值;评分系统汇总各质检项减分,计算最终得分;
步骤6.3、输出质检质量报告:完成评分后,质检系统拉取质检错误清单,对质检结果进行分类统计,输出质量分析报告。
8.根据权利要求7所述的空间及属性数据一体化质检方法,其特征在于,所述步骤6.3包括以下具体步骤:
6.3.1、质检系统拉取质检错误清单,标记定位标识和错误描述,方便后续错误定位和修改;
6.3.2、质检系统按照错误类型、质检分类和错误频次对错误清单进行统计分析,通过图表结合的方式展示数据质量;
6.3.3:质检系统输出质检数据质量分析报告。
CN202310762880.5A 2023-06-27 2023-06-27 一种空间及属性数据一体化质检方法 Pending CN116777284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310762880.5A CN116777284A (zh) 2023-06-27 2023-06-27 一种空间及属性数据一体化质检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310762880.5A CN116777284A (zh) 2023-06-27 2023-06-27 一种空间及属性数据一体化质检方法

Publications (1)

Publication Number Publication Date
CN116777284A true CN116777284A (zh) 2023-09-19

Family

ID=88013056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310762880.5A Pending CN116777284A (zh) 2023-06-27 2023-06-27 一种空间及属性数据一体化质检方法

Country Status (1)

Country Link
CN (1) CN116777284A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271501A (zh) * 2023-11-23 2023-12-22 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) 数据质检方法和装置、电子设备和存储介质
CN117573327A (zh) * 2024-01-15 2024-02-20 吉奥时空信息技术股份有限公司 一种智能调度和趋势监控的方法、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271501A (zh) * 2023-11-23 2023-12-22 山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心) 数据质检方法和装置、电子设备和存储介质
CN117573327A (zh) * 2024-01-15 2024-02-20 吉奥时空信息技术股份有限公司 一种智能调度和趋势监控的方法、设备及存储介质
CN117573327B (zh) * 2024-01-15 2024-04-16 吉奥时空信息技术股份有限公司 一种智能调度和趋势监控的方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN116777284A (zh) 一种空间及属性数据一体化质检方法
CN108830510B (zh) 一种基于数理统计的电力数据预处理方法
CN108170769A (zh) 一种基于决策树算法的装配制造质量数据处理方法
CN111104394A (zh) 一种能源数据仓库系统构建方法及装置
CN114357088B (zh) 核电工业数据仓库系统
CN112200544B (zh) 一种基于大数据技术的智能科研管理系统
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
CN115423289A (zh) 智能板材加工车间数据处理方法及终端
CN115470195A (zh) 一种融合维度模型的指标数据自动化计算方法及装置
CN115934856A (zh) 一种构造综合能源数据资产的方法和系统
CN115809229A (zh) 一种基于多维数据属性的评估管理方法及系统
CN109522934A (zh) 一种基于聚类算法的电力用户聚类方法
CN112256681A (zh) 一种空管数字化指标应用系统及方法
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN115016902B (zh) 工业流程数字化管理系统及方法
CN116820767A (zh) 一种云资源管理方法、装置、电子设备及存储介质
CN112395343B (zh) 一种基于dsg的字段变更数据采集抽取方法
CN114676931B (zh) 一种基于数据中台技术的电量预测系统
CN111127186A (zh) 一种基于大数据技术的客户信用等级评价体系的使用方法
WO2021143463A1 (zh) 数据清洗方法及装置
CN116523328A (zh) 一种航空装备协同制造产业链协作智能决策方法
CN115689201A (zh) 面向企业资源供需调配的多准则智能决策优化方法及系统
CN113537758A (zh) 基于大数据技术的制造业高质量发展综合评价方法和系统
CN114218216A (zh) 资源管理方法、装置、设备及存储介质
CN114358812A (zh) 一种基于运维大数据的多维度电力营销分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination