CN112579578A - 基于元数据的数据质量管理方法、装置、系统及服务器 - Google Patents
基于元数据的数据质量管理方法、装置、系统及服务器 Download PDFInfo
- Publication number
- CN112579578A CN112579578A CN201910926596.0A CN201910926596A CN112579578A CN 112579578 A CN112579578 A CN 112579578A CN 201910926596 A CN201910926596 A CN 201910926596A CN 112579578 A CN112579578 A CN 112579578A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- check
- quality
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 68
- 238000004458 analytical method Methods 0.000 claims abstract description 41
- 238000007689 inspection Methods 0.000 claims abstract description 37
- 238000012795 verification Methods 0.000 claims abstract description 31
- 238000003326 Quality management system Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 abstract description 13
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 244000286893 Aspalathus contaminatus Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于元数据的数据质量管理方法、装置、系统、服务器及存储介质,通过确定数据对应的校验规则以及质量检查任务,进而根据确定出的校验规则以及质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出;即对数据进行了全面系统地评估,供工作人员对数据做事前检查,为下游数据分析的有效性和准确性提供了有力的保障;解决了现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题。
Description
技术领域
本发明实施例涉及但不限于数据质量管理技术领域,具体而言,涉及但不限于一种基于元数据的数据质量管理方法、装置、系统、服务器及存储介质。
背景技术
随着大数据时代的来临,产生了越来越多的数据,由于数据类型和存储手段的多样性,在非常多的领域获得和使用数据去探索现实世界的规律成为可能。为了满足对于数据信息利用的需要,更加迫切需要保障大数据的数据质量,对于被日益重视的大数据,如何保证其质量是业界都普遍关注研究的一个课题。
然而,数据质量在业界并没有一个参考标准或者标准的定义,数据质量呈现出多样性,由于缺少一个权威性的数据质量标准模型或参考模型,也难以得到系统化的数据质量评估指标体系和方法。所以现在多数对于数据质量的研究都是针对特定领域或特定问题的研究,并不具有普适性,很难推广成为标准化的体系或模型。
发明内容
本发明实施例提供的基于元数据的数据质量管理方法、装置、系统、服务器及存储介质,主要解决的技术问题是现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型。
为解决上述技术问题,本发明实施例提供了一种基于元数据的数据质量管理方法,所述基于元数据的数据质量管理方法包括:
确定数据对应的校验规则;
确定所述数据对应的质量检查任务;
根据所述校验规则和质量检查任务对所述数据进行校验,并对校验结果进行分析,确定出分析结果并输出。
本发明实施例还提供了一种基于元数据的数据质量管理装置,所述基于元数据的数据质量管理装置包括:
数据质量规则库模块以及数据质量分析模块;
所述数据质量规则库模块用于确定数据对应的校验规则;
所述数据质量分析模块用于确定所述数据对应的质量检查任务,根据所述校验规则和质量检查任务对所述数据进行校验,并对校验结果进行分析,确定出分析结果并输出。
本发明实施例还提供了一种基于元数据的数据质量管理系统,所述基于元数据的数据质量管理系统包括:
元数据采集装置、元数据存储装置、元数据管理装置以及如上所述的基于元数据的数据质量管理装置;
所述元数据采集装置用于根据元数据模型从数据产生系统、数据加工处理系统以及数据应用报表系统采集元数据;
所述元数据存储装置用于对所述元数据采集装置采集的元数据元素和结构进行存储;
所述元数据管理装置用于对所述元数据存储装置存储的元数据进行维护、查询、展示以及版本管理;
所述基于元数据的数据质量管理装置用于对数据进行管理。
本发明实施例还提供了一种服务器,所述服务器包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个计算机程序,以实现如上述的数据质量管理方法的步骤。
本发明实施例还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的基于元数据的数据质量管理方法的步骤。
本发明的有益效果是:
本发明实施例提供的基于元数据的数据质量管理方法、装置、系统、服务器及存储介质,通过确定数据对应的校验规则以及质量检查任务,进而根据确定出的校验规则以及质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出,解决了现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题。也即本发明实施例提供的基于元数据的数据质量管理方法、装置、系统、服务器及存储介质,对数据进行了全面系统地评估,供工作人员对数据做事前检查,为下游数据分析的有效性和准确性提供了有力的保障。
本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明,且应当理解,至少部分有益效果从本发明说明书中的记载变的显而易见。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例一提供的数据质量管理方法的基本流程示意图;
图2为本发明实施例二提供的基于元数据的数据质量管理装置的结构示意图一;
图3为本发明实施例二提供的基于元数据的数据质量管理装置的结构示意图二;
图4为本发明实施例二提供的基于元数据的数据质量管理装置的结构示意图三;
图5为本发明实施例三提供的基于元数据的数据质量管理系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
为了解决现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题,在本发明实施例中提供了一种基于元数据的数据质量管理方法,通过确定数据对应的校验规则以及质量检查任务,进而根据确定出的校验规则以及质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出;请参见图1所示,如图1为本实施例提供的基于元数据的数据质量管理方法的基本流程示意图。
S101:确定数据对应的校验规则。
应当理解的是,元数据是“关于数据的数据”,为各种形态的数字化信息单元和资源集合提供规范、普遍的描述。
应当理解的是,本实施例中的数据包括但不限于普通数据、大数据。
在本实施例中,确定数据对应的校验规则之前,还包括:
建立质量规则库模型,其中,质量规则库模型包括校验规则类型、校验规则名称以及校验规则内容;
可选地,校验规则类型包括去除重复数据规则、巴克斯范式BNF规则、正则规则、比对规则、值域规则、函数依赖规则中的至少一种;在实际应用中,质量规则库模型支持动态更新和可扩展。
S102:确定数据对应的质量检查任务。
应当理解的是,S102和S101可以交换顺序执行,也可以并行执行,对此本发明不做具体限定。
在本实施例中,确定数据对应的质量检查任务之前,还包括:
建立质量检查任务模型,其中,质量检查任务模型包括执行策略以及执行引擎,在实际应用中,质量检查任务模型支持动态更新和可扩展。
可选地,执行策略包括用户驱动、数据驱动和定时驱动中的至少一种;在实际应用中,执行策略支持动态更新和可扩展。
可选地,执行引擎包括本地模式集中执行、Spark集群分布式执行中的至少一种;在实际应用中,执行引擎支持动态更新和可扩展。应当理解的是,Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,其具有三个特点,其一,高级API剥离了对集群本身的关注,Spark应用开发者可以专注于应用所要做的计算本身;其二,Spark很快,支持交互式计算和复杂算法;其三,Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等。
S103:根据校验规则和质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出。
在本实施例中,可从五个维度对数据进行校验:
一些示例中,根据确定出的校验规则以及质量检查任务对数据的完整性、及时性、有效性、唯一性以及一致性分别进行校验,这样实现了对数据全面、系统的评估,提升了校验的准确性。
一些示例中,也可根据确定出的校验规则以及质量检查任务对数据的完整性、及时性、有效性、唯一性以及一致性中的任意一种或任意组合形式分别进行校验。
可选地,完整性校验包括空值校验、记录缺失校验中的至少一种;有效性校验包括值域校验、规范校验、离群值校验、波动校验中的至少一种;唯一性校验包括重复数据校验;一致性校验包括结果集对比校验;及时性校验包括及时性数据校验。
应当理解的是,上述列举的仅为从五个常见维度对数据进行校验,在实际应用中,可根据具体应用场景做灵活调整。
在本实施例中,确定出分析结果并输出,包括:
根据分析结果生成质量报告;
显示质量报告。
在本实施例中,生成质量报告支持Spark表输出、Hdfs文件输出、HBase表输出、Kafka输出、关系数据表输出等,在实际应用中,质量报告的输出形式支持动态更新和可扩展。
在本实施例中,显示质量报告可通过图形化界面进行显示,以便工作人员直观地查看到数据的质量状况。
本发明实施例提供的基于元数据的数据质量管理方法,通过确定数据对应的校验规则以及质量检查任务,进而根据确定出的校验规则以及质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出,解决了现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题。也即本发明实施例提供的基于元数据的数据质量管理方法,在规则库、执行策略、执行引擎、质量报告的输出形式可以很便利地更新、扩展的情形下,从数据的完整性、及时性、有效性、唯一性以及一致性等多个维度对数据进行全面系统地评估,并可输出多种格式的问题数据供工作人员对数据做事前检查,为下游数据分析的有效性和准确性提供了有力的保障。
实施例二:
为了解决现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题,在本发明实施例中提供一种基于元数据的数据质量管理装置;请参见图2所示,如图2为本实施例提供的一种基于元数据的数据质量管理装置的结构示意图。
基于元数据的数据质量管理装置包括数据质量规则库模块201以及数据质量分析模块202;
其中,数据质量规则库模块201用于确定数据对应的校验规则;
其中,数据质量分析模块202用于确定数据对应的质量检查任务,根据质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出。
应当理解的是,本实施例中的数据质量规则库模块201以及数据质量分析模块202可以由处理器或其他硬件设备来实施,在实际应用中,可根据具体应用常见做灵活调整。
应当理解的是,元数据是“关于数据的数据”,为各种形态的数字化信息单元和资源集合提供规范、普遍的描述。
应当理解的是,本实施例中的数据包括但不限于普通数据、大数据。
在本实施例中,数据质量规则库模块201包括质量规则库模型,其中,质量规则库模型包括校验规则类型、校验规则名称以及校验规则内容;
可选地,校验规则类型包括去除重复数据规则、巴克斯范式BNF规则、正则规则、比对规则、值域规则、函数依赖规则中的至少一种;在实际应用中,质量规则库模型支持动态更新和可扩展。
在本实施例中,数据质量分析模块202包括质量检查任务模型,其中,质量检查任务模型包括执行策略以及执行引擎中的任意一种或组合形式,一些示例中,质量检查任务模型包括执行策略以及执行引擎;一些示例中,质量检查任务模型包括执行策略;一些示例中,质量检查任务模型包括执行引擎;在实际应用中,质量检查任务模型支持动态更新和可扩展。
可选地,执行策略包括用户驱动、数据驱动和定时驱动中的至少一种。
可选地,执行引擎包括本地模式集中执行、Spark集群分布式执行中的至少一种。应当理解的是,Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,其具有三个特点,其一,高级API剥离了对集群本身的关注,Spark应用开发者可以专注于应用所要做的计算本身;其二,Spark很快,支持交互式计算和复杂算法;其三,Spark是一个通用引擎,可用它来完成各种各样的运算,包括SQL查询、文本处理、机器学习等。
在本实施例中,数据质量分析模块202可从五个维度对数据进行校验:
一些示例中,数据质量分析模块202根据确定出的校验规则以及质量检查任务对数据的完整性、及时性、有效性、唯一性以及一致性分别进行校验,这样实现了对数据全面、系统的评估,提升了校验的准确性。
一些示例中,数据质量分析模块202也可根据确定出的校验规则以及质量检查任务对数据的完整性、及时性、有效性、唯一性以及一致性中的任意一种或任意组合形式分别进行校验。
可选地,完整性校验包括空值校验、记录缺失校验中的至少一种;有效性校验包括值域校验、规范校验、离群值校验、波动校验中的至少一种;唯一性校验包括重复数据校验;一致性校验包括结果集对比校验,及时性校验包括及时性数据校验。
应当理解的是,上述列举的仅为数据质量分析模块202从五个常见维度对数据进行校验,在实际应用中,可根据具体应用场景做灵活调整。
在本实施例中,数据质量报告生成模块203生成质量报告支持Spark表输出、Hdfs文件输出、HBase表输出、Kafka输出、关系数据表输出等,在实际应用中,质量报告的输出形式支持动态更新和可扩展。
在本实施例中,数据质量管理装置还包括用于生成数据质量报告的数据质量报告生成模块203;请参见图3所示,如图3为本实施例提供的另一种数据质量管理装置的结构示意图,其中,数据质量报告生成模块203用于根据分析结果生成数据质量报告。
在本实施例中,基于元数据的数据质量管理装置还包括用于显示数据质量报告的数据质量报告显示模块204;请参见图4所示,如图4为本实施例提供的另一种基于元数据的数据质量管理装置的结构示意图,其中,数据质量报告显示模块204用于显示生成的数据质量报告,其中可通过图形化界面进行显示,以便工作人员直观地查看到数据的质量状况。
本发明实施例提供的基于元数据的数据质量管理装置,通过数据质量规则库模块确定数据对应的校验规则,数据质量分析模块确定数据对应的质量检查任务,根据确定出的校验规则以及质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果并输出,解决了现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题。也即本发明实施例提供的基于元数据的数据质量管理装置,在规则库、执行策略、执行引擎、质量报告的输出形式可以很便利地更新、扩展的情形下,从数据的完整性、及时性、有效性、唯一性以及一致性等多个维度对数据进行全面系统地评估,并输出多种格式的问题数据供工作人员对数据做事前检查,为下游数据分析的有效性和准确性提供了有力的保障。
实施例三:
为了解决现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题,在本发明实施例中提供一种基于元数据的数据质量管理系统;请参见图5所示,如图5为本实施例提供的基于元数据的数据质量管理系统的结构示意图。
基于元数据的数据质量管理系统包括元数据采集装置501、元数据存储装置502、元数据管理装置503以及如实施例二中所述的基于元数据的数据质量管理装置504;
其中,元数据采集装置501用于根据元数据模型从数据产生系统、数据加工处理系统以及数据应用报表系统采集元数据;
其中,元数据存储装置502用于对元数据采集装置501采集的元数据元素和结构进行存储;
其中,元数据管理装置503用于对元数据存储装置502存储的元数据进行维护、查询、展示以及版本管理;
其中,基于元数据的数据质量管理装置504用于对数据进行管理。
需要说明的是,这里所列举的只是一种常见的装置划分形式,本发明并不局限于这一种方式,例如还可以将元数据采集装置和元数据存储装置合并为同一装置,或者将元数据采集装置、元数据存储装置以及元数据管理装置合并为同一装置,只要能实现上述的功能步骤,装置形式可根据具体应用场景做灵活调整。
在本实施例中,元数据模型包括关系大数据模型、数据库模型、网络协议模型中的至少一种,应当理解的是,在实际应用中,元数据模型支持动态更新和可扩展。
其中,大数据模型包括Spark数据源、Hdfs数据源、HBase数据源、Hive数据源、Kafka数据源中的至少一种。还应当理解的是,在实际应用中,相应模型对应的数据源支持动态更新和可扩展。
应当理解的是,Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)被设计成适合运行在通用硬件上的分布式文件系统,HDFS是一个高度容错性的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。
应当理解的是,HBase是一个分布式的、面向列的开源数据库,该来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库;另一个不同的是HBase基于列的而不是基于行的模式。
应当理解的是,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
应当理解的是,Kafka(Apache Kafka)是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据,这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
本发明实施例提供的基于元数据的数据质量管理系统,通过元数据采集装置根据元数据模型从数据产生系统、数据加工处理系统以及数据应用报表系统采集元数据;元数据存储装置对元数据采集装置采集到的元数据元素和结构进行持久化;元数据管理装置对元数据存储装置存储的元数据进行维护、查询、展示以及版本管理;基于元数据的数据质量管理装置基于元数据对数据的质量进行管理;解决了现有技术中对于数据质量的研究不具有普适性,很难推广成为标准化的体系或模型的问题。也即本发明实施例提供的基于元数据的数据质量管理系统,在数据源类型、规则库、执行策略、执行引擎、质量报告的输出形式可以很便利地更新、扩展的情形下,从数据的完整性、及时性、有效性、唯一性以及一致性等多个维度对数据进行全面系统地评估,并输出多种格式的问题数据供工作人员对数据做事前检查,为下游数据分析的有效性和准确性提供了有力的保障。
实施例四:
本发明实施例中提供了一种具体的基于元数据的数据质量管理系统实现数据质量管理过程的示例说明。
基于元数据的数据质量管理系统包括元数据采集装置、元数据存储装置、元数据管理装置以及基于元数据的数据质量管理装置。
本实施例以元数据采集装置采集到Spark输入数据源为例;
进一步的,将Spark数据存储于元数据存储装置中,具体如下所示:
进一步的,元数据管理装置输出数据集如下所示:
employee_id | name | education | dept | project_id |
00022222 | 张萧 | 硕士 | 开发部 | 5 |
00033333 | 李丹 | 博士 | 设计部 | 6 |
00066666 | 王欣 | 本科 | 销售部 | 7 |
00011111 | 刘安 | 专科 | 服务部 | 8 |
进一步的,基于元数据的数据质量管理装置中的数据质量规则库模块确定数据对应的校验规则;数据质量分析模块确定数据对应的质量检查任务,根据确定出的校验规则以及质量检查任务对数据进行校验,并对校验结果进行分析,确定出分析结果;数据质量报告生成模块根据分析结果生成质量报告;
以输出Hdfs文件格式为例,输出质量报告如下所示:
本发明实施例还提供一种服务器,服务器包括处理器、存储器及通信总线;其中:
通信总线用于实现处理器和存储器之间的连接通信;
处理器用于执行存储器中存储的一个或者多个计算机程序,以实现如上述实施例一中基于元数据的数据质量管理方法步骤。
同时,本发明实施例还提供一种存储介质,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例一中基于元数据的数据质量管理方法的步骤。
该存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-OnlyMemory,只读存储器),EEPROM(Electrically Erasable Programmable read onlymemory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact DiscRead-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
显然,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。
此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (12)
1.一种基于元数据的数据质量管理方法,包括:
确定数据对应的校验规则;
确定所述数据对应的质量检查任务;
根据所述校验规则和质量检查任务对所述数据进行校验,并对校验结果进行分析,确定出分析结果并输出。
2.如权利要求1所述的基于元数据的数据质量管理方法,其特征在于,所述根据所述校验规则和质量检查任务对所述数据进行校验,包括:
根据所述校验规则和质量检查任务对所述数据的完整性、及时性、有效性、唯一性以及一致性分别进行校验。
3.如权利要求2所述的基于元数据的数据质量管理方法,其特征在于,完整性校验包括空值校验、记录缺失校验中的至少一种;
有效性校验包括值域校验、规范校验、离群值校验、波动校验中的至少一种;
唯一性校验包括重复数据校验;
一致性校验包括结果集对比校验;
及时性校验包括及时性数据校验。
4.如权利要求1-3任一项所述的基于元数据的数据质量管理方法,其特征在于,所述确定数据对应的校验规则之前,还包括:建立质量规则库模型,所述质量规则库模型包括校验规则类型、校验规则名称以及校验规则内容;
所述校验规则类型包括去除重复数据规则、巴克斯范式BNF规则、正则规则、比对规则、值域规则、函数依赖规则中的至少一种。
5.如权利要求1-3任一项所述的基于元数据的数据质量管理方法,其特征在于,所述确定所述数据对应的质量检查任务之前,还包括:建立质量检查任务模型,所述质量检查任务模型包括执行策略以及执行引擎。
6.如权利要求5所述的基于元数据的数据质量管理方法,其特征在于,所述执行策略包括用户驱动、数据驱动和定时驱动中的至少一种;
所述执行引擎包括本地模式集中执行、Spark集群分布式执行中的至少一种。
7.如权利要求1-3任一项所述的基于元数据的数据质量管理方法,其特征在于,所述确定出分析结果并输出,包括:
根据所述分析结果生成质量报告;
显示所述质量报告。
8.一种基于元数据的数据质量管理装置,其特征在于,所述基于元数据的数据质量管理装置包括:
数据质量规则库模块以及数据质量分析模块;
所述数据质量规则库模块用于确定数据对应的校验规则;
所述数据质量分析模块用于确定所述数据对应的质量检查任务,根据所述校验规则和质量检查任务对所述数据进行校验,并对校验结果进行分析,确定出分析结果并输出。
9.一种基于元数据的数据质量管理系统,其特征在于,所述基于元数据的数据质量管理系统包括:
元数据采集装置、元数据存储装置、元数据管理装置以及如权利要求8所述的基于元数据的数据质量管理装置;
所述元数据采集装置用于根据元数据模型从数据产生系统、数据加工处理系统以及数据应用报表系统采集元数据;
所述元数据存储装置用于对所述元数据采集装置采集的元数据元素和结构进行存储;
所述元数据管理装置用于对所述元数据存储装置存储的元数据进行维护、查询、展示以及版本管理;
所述基于元数据的数据质量管理装置用于对数据进行管理。
10.如权利要求9所述的基于元数据的数据质量管理系统,其特征在于,所述元数据模型包括关系大数据模型、数据库模型、网络协议模型中的至少一种,所述大数据模型包括Spark数据源、Hdfs数据源、HBase数据源、Hive数据源、Kafka数据源中的至少一种。
11.一种服务器,其特征在于,所述服务器包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的一个或者多个计算机程序,以实现如权利要求1-7中任一项所述的基于元数据的数据质量管理方法的步骤。
12.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7中任一项所述的基于元数据的数据质量管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926596.0A CN112579578A (zh) | 2019-09-27 | 2019-09-27 | 基于元数据的数据质量管理方法、装置、系统及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926596.0A CN112579578A (zh) | 2019-09-27 | 2019-09-27 | 基于元数据的数据质量管理方法、装置、系统及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579578A true CN112579578A (zh) | 2021-03-30 |
Family
ID=75110094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910926596.0A Pending CN112579578A (zh) | 2019-09-27 | 2019-09-27 | 基于元数据的数据质量管理方法、装置、系统及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579578A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836130A (zh) * | 2021-09-28 | 2021-12-24 | 深圳创维智慧科技有限公司 | 数据质量评估方法、装置、设备及存储介质 |
TWI767694B (zh) * | 2021-05-10 | 2022-06-11 | 財團法人資訊工業策進會 | 模型建置系統、品質預測系統及應用其之品質管理系統 |
CN114648337A (zh) * | 2022-03-23 | 2022-06-21 | 中银金融科技有限公司 | 交易数据质量自动化分析方法及装置 |
CN116069775A (zh) * | 2023-04-06 | 2023-05-05 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391903A (zh) * | 2014-11-14 | 2015-03-04 | 广州科腾信息技术有限公司 | 一种基于分布存储和并行计算的电网数据质量检测方法 |
CN104766151A (zh) * | 2014-12-29 | 2015-07-08 | 国家电网公司 | 一种用于电力交易数据仓库的质量管控方法及其管控系统 |
CN107679146A (zh) * | 2017-09-25 | 2018-02-09 | 南方电网科学研究院有限责任公司 | 电网数据质量的校验方法和系统 |
CN109669936A (zh) * | 2018-12-25 | 2019-04-23 | 福建南威软件有限公司 | 一种基于聚合模型的海量数据质量报告生成方法 |
CN109857755A (zh) * | 2019-01-08 | 2019-06-07 | 中国联合网络通信集团有限公司 | 一种规则校验方法及装置 |
-
2019
- 2019-09-27 CN CN201910926596.0A patent/CN112579578A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391903A (zh) * | 2014-11-14 | 2015-03-04 | 广州科腾信息技术有限公司 | 一种基于分布存储和并行计算的电网数据质量检测方法 |
CN104766151A (zh) * | 2014-12-29 | 2015-07-08 | 国家电网公司 | 一种用于电力交易数据仓库的质量管控方法及其管控系统 |
CN107679146A (zh) * | 2017-09-25 | 2018-02-09 | 南方电网科学研究院有限责任公司 | 电网数据质量的校验方法和系统 |
CN109669936A (zh) * | 2018-12-25 | 2019-04-23 | 福建南威软件有限公司 | 一种基于聚合模型的海量数据质量报告生成方法 |
CN109857755A (zh) * | 2019-01-08 | 2019-06-07 | 中国联合网络通信集团有限公司 | 一种规则校验方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI767694B (zh) * | 2021-05-10 | 2022-06-11 | 財團法人資訊工業策進會 | 模型建置系統、品質預測系統及應用其之品質管理系統 |
CN113836130A (zh) * | 2021-09-28 | 2021-12-24 | 深圳创维智慧科技有限公司 | 数据质量评估方法、装置、设备及存储介质 |
CN113836130B (zh) * | 2021-09-28 | 2024-05-10 | 深圳创维智慧科技有限公司 | 数据质量评估方法、装置、设备及存储介质 |
CN114648337A (zh) * | 2022-03-23 | 2022-06-21 | 中银金融科技有限公司 | 交易数据质量自动化分析方法及装置 |
CN116069775A (zh) * | 2023-04-06 | 2023-05-05 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
CN116069775B (zh) * | 2023-04-06 | 2023-08-22 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11163731B1 (en) | Autobuild log anomaly detection methods and systems | |
US11328003B2 (en) | Data relationships storage platform | |
CN110472068B (zh) | 基于异构分布式知识图谱的大数据处理方法、设备及介质 | |
CN112579578A (zh) | 基于元数据的数据质量管理方法、装置、系统及服务器 | |
US10339038B1 (en) | Method and system for generating production data pattern driven test data | |
US10013439B2 (en) | Automatic generation of instantiation rules to determine quality of data migration | |
CN111949541A (zh) | 多源数据库语句检查方法及装置 | |
US8468120B2 (en) | Systems and methods for tracking and reporting provenance of data used in a massively distributed analytics cloud | |
EP3188051B1 (en) | Systems and methods for search template generation | |
US11100152B2 (en) | Data portal | |
CN114461603A (zh) | 多源异构数据融合方法及装置 | |
CN109753596B (zh) | 用于大规模网络数据采集的信源管理与配置方法和系统 | |
CN105302730A (zh) | 一种检测计算模型的方法、测试服务器及业务平台 | |
Kathare et al. | A comprehensive study of Elasticsearch | |
US11567957B2 (en) | Incremental addition of data to partitions in database tables | |
CN111639016A (zh) | 大数据日志分析方法、装置及计算机存储介质 | |
CN115080570A (zh) | 一种基于图数据库的字段血缘处理方法及系统 | |
Hendawi et al. | Benchmarking large-scale data management for Internet of Things | |
US10776357B2 (en) | System and method of data join and metadata configuration | |
CN111125045B (zh) | 一种轻量级etl处理平台 | |
CN115168474B (zh) | 一种基于大数据模型的物联中台系统搭建方法 | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
Chardonnens | Big data analytics on high velocity streams | |
US20180101596A1 (en) | Deriving and interpreting users collective data asset use across analytic software systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |