CN109669936A - 一种基于聚合模型的海量数据质量报告生成方法 - Google Patents

一种基于聚合模型的海量数据质量报告生成方法 Download PDF

Info

Publication number
CN109669936A
CN109669936A CN201811586804.9A CN201811586804A CN109669936A CN 109669936 A CN109669936 A CN 109669936A CN 201811586804 A CN201811586804 A CN 201811586804A CN 109669936 A CN109669936 A CN 109669936A
Authority
CN
China
Prior art keywords
data
quality
verification
polymerization
polymerization model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811586804.9A
Other languages
English (en)
Inventor
肖俊鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Linewell Software Co Ltd
Linewell Software Co Ltd
Original Assignee
Fujian Linewell Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Linewell Software Co Ltd filed Critical Fujian Linewell Software Co Ltd
Priority to CN201811586804.9A priority Critical patent/CN109669936A/zh
Publication of CN109669936A publication Critical patent/CN109669936A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于聚合模型的海量数据质量报告生成方法,通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。本发明既能支持通用校验规则的定制,又能支持海量大规模数据进行离线数据校验。

Description

一种基于聚合模型的海量数据质量报告生成方法
技术领域
本发明涉及数据治理领域,特别是一种基于聚合模型的海量数据质量报告生成方法。
背景技术
随着信息技术的发展,数据逐渐成为企业价值最重要的资源,而随之而来的数据质量问题也越来越严重,数据的错误、缺失、不一致等数据质量问题是企业必须面对的问题,正确有效的数据是数据存储和分析的前提。
随着互联网技术和各种存储技术的发展,企业存储的数据规模在不断的增长,对海量大规模数据的校验,成为企业数据治理不可避免的问题。
现有技术方案中已经存在一些对数据质量进行校验并生成数据质量报告的管理方法,但是这些技术方案大部分都存在无法灵活配置校验规则,无法支持海量数据进行校验的缺点。
专利申请公布号【CN 108595563 A】无法支持基于离线计算的聚合模型,只能针对常规规模的数据进行数据质量校验分析。
专利申请公布号【CN 107818106 A】没有定义一种通用模型和可配置的校验规则,只是针对数据一致性进行校验,不能形成完整的海量数据的数据质量校验方案。
发明内容
有鉴于此,本发明的目的是提出一种基于聚合模型的海量数据质量报告生成方法,既能支持通用校验规则的定制,又能支持海量大规模数据进行离线数据校验。
本发明采用以下方案实现:一种基于聚合模型的海量数据质量报告生成方法,包括以下步骤:
步骤S1:创建数据质量校验规则,并读取元数据,对结构化的表字段进行校验规则的配置;
步骤S2:根据配置好的校验规则,利用jdbc读取实际数据,然后将实际数据转化为行聚合模型与列聚合模型;
步骤S3:输入数据质量校验规则,调用大数据离线计算框架,将数据质量校验划分成并行的多个数据质量校验处理单元;
步骤S4:每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列;其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列;
步骤S5:消息队列对接收到的行、列数据质量校验结果进行重新聚合,生成数据质量报告。
进一步地,所述行聚合模型定义了物理映射的表名、校验聚合维度、校验数量、以及校验问题数量。
进一步地,所述列聚合模型定义了物理映射的表名、字段名、校验的规则名、校验聚合维度、校验数量、以及校验问题数量。
进一步地,数据质量校验规则定义了输入单元、输出单元、校验规则名、校验参数、校验值域、以及校验表达式。
本发明通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。
与现有技术相比,本发明有以下有益效果:本发明提供的方法既能支持海量的大规模结构化数据的数据质量的校验,让这些数据质量校验的处理过程支持大数据离线计算框架,可以同时运行在多台服务器上进行数据质量校验计算;又可以支持一种通用的数据质量的校验规则,可以自定义配置校验规则,满足多维度灵活的定制校验策略,生成数据质量报告。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于聚合模型的海量数据质量报告生成方法,包括以下步骤:
步骤S1:创建数据质量校验规则,并读取元数据,对结构化的表字段进行校验规则的配置;
步骤S2:根据配置好的校验规则,利用jdbc读取实际数据,然后将实际数据转化为行聚合模型与列聚合模型;
步骤S3:输入数据质量校验规则,调用大数据离线计算框架,将数据质量校验划分成并行的多个数据质量校验处理单元;
步骤S4:每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列;其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列;
步骤S5:消息队列对接收到的行、列数据质量校验结果进行重新聚合,生成数据质量报告。
在本实施例中,所述行聚合模型定义了物理映射的表名、校验聚合维度、校验数量、以及校验问题数量。
在本实施例中,所述列聚合模型定义了物理映射的表名、字段名、校验的规则名、校验聚合维度、校验数量、以及校验问题数量。
在本实施例中,数据质量校验规则定义了输入单元、输出单元、校验规则名、校验参数、校验值域、以及校验表达式。
本实施例通过定义的行聚合模型、列聚合模型等将物理的实际数据先转化为行列聚合模型,所谓的聚合模型就是原来整体的数据,根据聚合特性可以拆分和合并,这样就能支持离线计算,支持多个校验处理单元并行校验;另外生成大规模数据质量报告的结果数据也不是一个整体,而是来自多个数据质量校验的处理单元输出的数据质量报告结果,通过消息队列统一消化和聚合,最终生成针对大规模结构化数据进行的可自定义校验规则的数据质量校验分析报告。
特别的,在本实施例中,大数据离线计算,是以Hadoop大数据技术为代表,进行大批量离线数据计算处理,以聚合编程模型为典型的计算方式,对数据进行聚合并行计算。Hadoop MapReduce 的聚合模型,它适用于大规模数据集的并行运算。其基本思想是将问题分解成 Map ( 映射) 和 Reduce ( 化简) ,Map 程序将数据分割独立区块,利用计算机群实现分布式处理,最后通过Reduce 程序将结果汇总整合输出。MapReduce 的作业流程是任务的分解与集合的汇总。Spark RDD 的聚合模型,spark的弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (4)

1.一种基于聚合模型的海量数据质量报告生成方法,其特征在于:包括以下步骤:
步骤S1:创建数据质量校验规则,并读取元数据,对结构化的表字段进行校验规则的配置;
步骤S2:根据配置好的校验规则,利用jdbc读取实际数据,然后将实际数据转化为行聚合模型与列聚合模型;
步骤S3:输入数据质量校验规则,调用大数据离线计算框架,将数据质量校验划分成并行的多个数据质量校验处理单元;
步骤S4:每个数据质量校验处理单元将数据质量的校验结果以及问题数据清单统一发送到消息队列;其中所述校验结果以行聚合模型、列聚合模型的格式发送至消息队列;
步骤S5:消息队列对接收到的行、列数据质量校验结果进行重新聚合,生成数据质量报告。
2.根据权利要求1所述的一种基于聚合模型的海量数据质量报告生成方法,其特征在于:所述行聚合模型定义了物理映射的表名、校验聚合维度、校验数量、以及校验问题数量。
3.根据权利要求1所述的一种基于聚合模型的海量数据质量报告生成方法,其特征在于:所述列聚合模型定义了物理映射的表名、字段名、校验的规则名、校验聚合维度、校验数量、以及校验问题数量。
4.根据权利要求1所述的一种基于聚合模型的海量数据质量报告生成方法,其特征在于:数据质量校验规则定义了输入单元、输出单元、校验规则名、校验参数、校验值域、以及校验表达式。
CN201811586804.9A 2018-12-25 2018-12-25 一种基于聚合模型的海量数据质量报告生成方法 Pending CN109669936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811586804.9A CN109669936A (zh) 2018-12-25 2018-12-25 一种基于聚合模型的海量数据质量报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811586804.9A CN109669936A (zh) 2018-12-25 2018-12-25 一种基于聚合模型的海量数据质量报告生成方法

Publications (1)

Publication Number Publication Date
CN109669936A true CN109669936A (zh) 2019-04-23

Family

ID=66146109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811586804.9A Pending CN109669936A (zh) 2018-12-25 2018-12-25 一种基于聚合模型的海量数据质量报告生成方法

Country Status (1)

Country Link
CN (1) CN109669936A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085611A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 数据异步核验方法、装置、电子设备及存储介质
CN112579578A (zh) * 2019-09-27 2021-03-30 中兴通讯股份有限公司 基于元数据的数据质量管理方法、装置、系统及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150032759A1 (en) * 2012-04-06 2015-01-29 Sk Planet Co., Ltd. System and method for analyzing result of clustering massive data
CN104391903A (zh) * 2014-11-14 2015-03-04 广州科腾信息技术有限公司 一种基于分布存储和并行计算的电网数据质量检测方法
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评系统及方法
CN108959616A (zh) * 2018-07-18 2018-12-07 广州供电局有限公司 基于大数据技术的生产域数据质量准实时监控系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150032759A1 (en) * 2012-04-06 2015-01-29 Sk Planet Co., Ltd. System and method for analyzing result of clustering massive data
CN104391903A (zh) * 2014-11-14 2015-03-04 广州科腾信息技术有限公司 一种基于分布存储和并行计算的电网数据质量检测方法
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评系统及方法
CN108959616A (zh) * 2018-07-18 2018-12-07 广州供电局有限公司 基于大数据技术的生产域数据质量准实时监控系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579578A (zh) * 2019-09-27 2021-03-30 中兴通讯股份有限公司 基于元数据的数据质量管理方法、装置、系统及服务器
CN112085611A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 数据异步核验方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106980669B (zh) 一种数据的存储、获取方法及装置
CN101826085B (zh) 一种基于ajax的网页在线导入/导出大文件的方法
WO2022126983A1 (zh) 电子报表文件导出方法、装置、设备及存储介质
CN107967316A (zh) 一种数据同步方法、设备及计算机可读存储介质
CN107908672A (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN105373469A (zh) 一种基于接口的软件自动化测试方法
CN112930529B (zh) 从概念数据模型生成软件工件
CN112860777B (zh) 数据处理方法、装置及设备
CN107506185A (zh) 一种数据解析和数据展示方法及系统
CN110738038A (zh) 合同文本的生成方法、装置、设备及计算机可读存储介质
CN114185895A (zh) 数据导入导出方法、装置、电子设备及存储介质
CN106612330A (zh) 支持分布式多文件导入的系统及方法
CN111367953A (zh) 一种资讯数据的流式处理方法及装置
CN109669936A (zh) 一种基于聚合模型的海量数据质量报告生成方法
US11544669B2 (en) Computing framework for compliance report generation
EP2965492A1 (en) Selection of data storage settings for an application
CN109753490A (zh) 基于漏洞修复的数据库优化方法、系统、设备及介质
US11650972B1 (en) Semantic compliance validation for blockchain
WO2023278943A1 (en) Registering additional type systems using a hub data model for data processing
CN109241163A (zh) 电子凭证的生成方法及终端设备
CN107276914A (zh) 基于cmdb的自助资源分配调度的方法
CN115293685A (zh) 物流订单的状态跟踪方法、装置、设备和存储介质
CN110781647B (zh) 一种基于Flink实现数据格式校验的方法
CN114385722A (zh) 接口属性的一致性校验方法、装置、电子设备和存储介质
Banu et al. Trending big data tools for industrial data analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190423

RJ01 Rejection of invention patent application after publication