CN109669936A - 一种基于聚合模型的海量数据质量报告生成方法 - Google Patents
一种基于聚合模型的海量数据质量报告生成方法 Download PDFInfo
- Publication number
- CN109669936A CN109669936A CN201811586804.9A CN201811586804A CN109669936A CN 109669936 A CN109669936 A CN 109669936A CN 201811586804 A CN201811586804 A CN 201811586804A CN 109669936 A CN109669936 A CN 109669936A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- verification
- polymerization
- polymerization model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006116 polymerization reaction Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000013524 data verification Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims description 7
- 238000000465 moulding Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 230000029087 digestion Effects 0.000 abstract description 3
- 238000000547 structure data Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于聚合模型的海量数据质量报告生成方法,通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。本发明既能支持通用校验规则的定制,又能支持海量大规模数据进行离线数据校验。
Description
技术领域
本发明涉及数据治理领域,特别是一种基于聚合模型的海量数据质量报告生成方法。
背景技术
随着信息技术的发展,数据逐渐成为企业价值最重要的资源,而随之而来的数据质量问题也越来越严重,数据的错误、缺失、不一致等数据质量问题是企业必须面对的问题,正确有效的数据是数据存储和分析的前提。
随着互联网技术和各种存储技术的发展,企业存储的数据规模在不断的增长,对海量大规模数据的校验,成为企业数据治理不可避免的问题。
现有技术方案中已经存在一些对数据质量进行校验并生成数据质量报告的管理方法,但是这些技术方案大部分都存在无法灵活配置校验规则,无法支持海量数据进行校验的缺点。
专利申请公布号【CN 108595563 A】无法支持基于离线计算的聚合模型,只能针对常规规模的数据进行数据质量校验分析。
专利申请公布号【CN 107818106 A】没有定义一种通用模型和可配置的校验规则,只是针对数据一致性进行校验,不能形成完整的海量数据的数据质量校验方案。
发明内容
有鉴于此,本发明的目的是提出一种基于聚合模型的海量数据质量报告生成方法,既能支持通用校验规则的定制,又能支持海量大规模数据进行离线数据校验。
本发明采用以下方案实现:一种基于聚合模型的海量数据质量报告生成方法,包括以下步骤:
步骤S1:创建数据质量校验规则,并读取元数据,对结构化的表字段进行校验规则的配置;
步骤S2:根据配置好的校验规则,利用jdbc读取实际数据,然后将实际数据转化为行聚合模型与列聚合模型;
步骤S3:输入数据质量校验规则,调用大数据离线计算框架,将数据质量校验划分成并行的多个数据质量校验处理单元;
步骤S4:每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列;其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列;
步骤S5:消息队列对接收到的行、列数据质量校验结果进行重新聚合,生成数据质量报告。
进一步地,所述行聚合模型定义了物理映射的表名、校验聚合维度、校验数量、以及校验问题数量。
进一步地,所述列聚合模型定义了物理映射的表名、字段名、校验的规则名、校验聚合维度、校验数量、以及校验问题数量。
进一步地,数据质量校验规则定义了输入单元、输出单元、校验规则名、校验参数、校验值域、以及校验表达式。
本发明通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。
与现有技术相比,本发明有以下有益效果:本发明提供的方法既能支持海量的大规模结构化数据的数据质量的校验,让这些数据质量校验的处理过程支持大数据离线计算框架,可以同时运行在多台服务器上进行数据质量校验计算;又可以支持一种通用的数据质量的校验规则,可以自定义配置校验规则,满足多维度灵活的定制校验策略,生成数据质量报告。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于聚合模型的海量数据质量报告生成方法,包括以下步骤:
步骤S1:创建数据质量校验规则,并读取元数据,对结构化的表字段进行校验规则的配置;
步骤S2:根据配置好的校验规则,利用jdbc读取实际数据,然后将实际数据转化为行聚合模型与列聚合模型;
步骤S3:输入数据质量校验规则,调用大数据离线计算框架,将数据质量校验划分成并行的多个数据质量校验处理单元;
步骤S4:每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列;其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列;
步骤S5:消息队列对接收到的行、列数据质量校验结果进行重新聚合,生成数据质量报告。
在本实施例中,所述行聚合模型定义了物理映射的表名、校验聚合维度、校验数量、以及校验问题数量。
在本实施例中,所述列聚合模型定义了物理映射的表名、字段名、校验的规则名、校验聚合维度、校验数量、以及校验问题数量。
在本实施例中,数据质量校验规则定义了输入单元、输出单元、校验规则名、校验参数、校验值域、以及校验表达式。
本实施例通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。
特别的,在本实施例中,大数据离线计算,是以Hadoop大数据技术为代表,进行大批量离线数据计算处理,以聚合编程模型为典型的计算方式,对数据进行聚合并行计算。Hadoop MapReduce 的聚合模型,它适用于大规模数据集的并行运算。其基本思想是将问题分解成 Map ( 映射) 和 Reduce ( 化简) ,Map 程序将数据分割独立区块,利用计算机群实现分布式处理,最后通过Reduce 程序将结果汇总整合输出。MapReduce 的作业流程是任务的分解与集合的汇总。Spark RDD 的聚合模型,spark的弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (4)
1.一种基于聚合模型的海量数据质量报告生成方法,其特征在于:包括以下步骤:
步骤S1:创建数据质量校验规则,并读取元数据,对结构化的表字段进行校验规则的配置;
步骤S2:根据配置好的校验规则,利用jdbc读取实际数据,然后将实际数据转化为行聚合模型与列聚合模型;
步骤S3:输入数据质量校验规则,调用大数据离线计算框架,将数据质量校验划分成并行的多个数据质量校验处理单元;
步骤S4:每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列;其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列;
步骤S5:消息队列对接收到的行、列数据质量校验结果进行重新聚合,生成数据质量报告。
2.根据权利要求1所述的一种基于聚合模型的海量数据质量报告生成方法,其特征在于:所述行聚合模型定义了物理映射的表名、校验聚合维度、校验数量、以及校验问题数量。
3.根据权利要求1所述的一种基于聚合模型的海量数据质量报告生成方法,其特征在于:所述列聚合模型定义了物理映射的表名、字段名、校验的规则名、校验聚合维度、校验数量、以及校验问题数量。
4.根据权利要求1所述的一种基于聚合模型的海量数据质量报告生成方法,其特征在于:数据质量校验规则定义了输入单元、输出单元、校验规则名、校验参数、校验值域、以及校验表达式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586804.9A CN109669936A (zh) | 2018-12-25 | 2018-12-25 | 一种基于聚合模型的海量数据质量报告生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586804.9A CN109669936A (zh) | 2018-12-25 | 2018-12-25 | 一种基于聚合模型的海量数据质量报告生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109669936A true CN109669936A (zh) | 2019-04-23 |
Family
ID=66146109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811586804.9A Pending CN109669936A (zh) | 2018-12-25 | 2018-12-25 | 一种基于聚合模型的海量数据质量报告生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109669936A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085611A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 数据异步核验方法、装置、电子设备及存储介质 |
CN112579578A (zh) * | 2019-09-27 | 2021-03-30 | 中兴通讯股份有限公司 | 基于元数据的数据质量管理方法、装置、系统及服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150032759A1 (en) * | 2012-04-06 | 2015-01-29 | Sk Planet Co., Ltd. | System and method for analyzing result of clustering massive data |
CN104391903A (zh) * | 2014-11-14 | 2015-03-04 | 广州科腾信息技术有限公司 | 一种基于分布存储和并行计算的电网数据质量检测方法 |
CN105550511A (zh) * | 2015-12-11 | 2016-05-04 | 北京锐软科技股份有限公司 | 一种基于数据校验技术的数据质量测评系统及方法 |
CN108959616A (zh) * | 2018-07-18 | 2018-12-07 | 广州供电局有限公司 | 基于大数据技术的生产域数据质量准实时监控系统及方法 |
-
2018
- 2018-12-25 CN CN201811586804.9A patent/CN109669936A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150032759A1 (en) * | 2012-04-06 | 2015-01-29 | Sk Planet Co., Ltd. | System and method for analyzing result of clustering massive data |
CN104391903A (zh) * | 2014-11-14 | 2015-03-04 | 广州科腾信息技术有限公司 | 一种基于分布存储和并行计算的电网数据质量检测方法 |
CN105550511A (zh) * | 2015-12-11 | 2016-05-04 | 北京锐软科技股份有限公司 | 一种基于数据校验技术的数据质量测评系统及方法 |
CN108959616A (zh) * | 2018-07-18 | 2018-12-07 | 广州供电局有限公司 | 基于大数据技术的生产域数据质量准实时监控系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579578A (zh) * | 2019-09-27 | 2021-03-30 | 中兴通讯股份有限公司 | 基于元数据的数据质量管理方法、装置、系统及服务器 |
CN112085611A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 数据异步核验方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980669B (zh) | 一种数据的存储、获取方法及装置 | |
CN101826085B (zh) | 一种基于ajax的网页在线导入/导出大文件的方法 | |
WO2022126983A1 (zh) | 电子报表文件导出方法、装置、设备及存储介质 | |
CN107967316A (zh) | 一种数据同步方法、设备及计算机可读存储介质 | |
CN107908672A (zh) | 基于Hadoop平台的应用报表实现方法、设备及存储介质 | |
CN105373469A (zh) | 一种基于接口的软件自动化测试方法 | |
CN112930529B (zh) | 从概念数据模型生成软件工件 | |
CN112860777B (zh) | 数据处理方法、装置及设备 | |
CN107506185A (zh) | 一种数据解析和数据展示方法及系统 | |
CN110738038A (zh) | 合同文本的生成方法、装置、设备及计算机可读存储介质 | |
CN114185895A (zh) | 数据导入导出方法、装置、电子设备及存储介质 | |
CN106612330A (zh) | 支持分布式多文件导入的系统及方法 | |
CN111367953A (zh) | 一种资讯数据的流式处理方法及装置 | |
CN109669936A (zh) | 一种基于聚合模型的海量数据质量报告生成方法 | |
US11544669B2 (en) | Computing framework for compliance report generation | |
EP2965492A1 (en) | Selection of data storage settings for an application | |
CN109753490A (zh) | 基于漏洞修复的数据库优化方法、系统、设备及介质 | |
US11650972B1 (en) | Semantic compliance validation for blockchain | |
WO2023278943A1 (en) | Registering additional type systems using a hub data model for data processing | |
CN109241163A (zh) | 电子凭证的生成方法及终端设备 | |
CN107276914A (zh) | 基于cmdb的自助资源分配调度的方法 | |
CN115293685A (zh) | 物流订单的状态跟踪方法、装置、设备和存储介质 | |
CN110781647B (zh) | 一种基于Flink实现数据格式校验的方法 | |
CN114385722A (zh) | 接口属性的一致性校验方法、装置、电子设备和存储介质 | |
Banu et al. | Trending big data tools for industrial data analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190423 |
|
RJ01 | Rejection of invention patent application after publication |