CN109933578A - 一种可配置的自动化数据质量检查方法及系统 - Google Patents

一种可配置的自动化数据质量检查方法及系统 Download PDF

Info

Publication number
CN109933578A
CN109933578A CN201910216880.9A CN201910216880A CN109933578A CN 109933578 A CN109933578 A CN 109933578A CN 201910216880 A CN201910216880 A CN 201910216880A CN 109933578 A CN109933578 A CN 109933578A
Authority
CN
China
Prior art keywords
data
rule
inspection
check
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910216880.9A
Other languages
English (en)
Inventor
郑敏
赵志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910216880.9A priority Critical patent/CN109933578A/zh
Publication of CN109933578A publication Critical patent/CN109933578A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种可配置的自动化数据质量检查方法及系统,属于数据质量管理技术领域。本发明的可配置的自动化数据质量检查方法,通过自动化调度工具实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。该发明的可配置的自动化数据质量检查方法能够减少企业在数据质量管理中投入的人力,提高数据质量问题反馈的效率,具有很好的推广应用价值。

Description

一种可配置的自动化数据质量检查方法及系统
技术领域
本发明涉及数据质量管理技术领域,具体提供一种可配置的自动化数据质量检查方法及系统。
背景技术
计算机具有存储信息量大,使用者获取信息方便快捷等优点,在社会各个行业中应用广泛,随着计算机科学发展,各类企业、单位的系统和网站产生了海量的数据,数据处理及数据质量管理在信息系统建设中占据重要位置。一个信息系统的数据来源往往是多样性的,除了数据源本身的脏数据问题之外,还有不同数据源之间产生的形式不一、重复、冲突等数据质量问题。在系统建设中人们已经逐渐意识到数据质量的重要性,因为数据质量的好坏直接影响数据分析的结果。因此人们通过各类数据处理过程对数据进行清洗加工以获取可靠的数据。但高质量的数据不是一蹴而成,而是一个逐步完善的迭代过程,而这个过程往往缺乏高效可靠的数据质量检查方法和及时的问题反馈。在面临多样性的数据源时,人们需要有一种高效可靠的数据质量检查方法来不断完善数据处理环节。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够减少企业在数据质量管理中投入的人力,提高数据质量问题反馈的效率的可配置的自动化数据质量检查方法。
本发明进一步的技术任务是提供一种可配置的自动化数据质量检查系统。
为实现上述目的,本发明提供了如下技术方案:
一种可配置的自动化数据质量检查方法,该方法通过自动化调度工具实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。
本发明中通过自动化调度工具Pentaho Data Integration来实现对数据质量的自动化检查和预警。
作为优选,该方法具体包括以下步骤:
S1、设定各类数据检查规则和对应的SQL模板,包括设定数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
S2、根据数据检查规则编写对应的SQL语句模板;
S3、检查实例的配置,将一个或多个检查规则配置到一个表中;
S4、检查实例的执行,并发送检查结果。
作为优选,步骤S1中,数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式,检查数据中格式、类型的有效性,主要通过正则表达式来预先编写多种数据内容的格式,例如邮件格式、数值格式、身份证号格式、电话号码格式等类型,之后利用对应格式对数据表的数据字段进行检查。有效性检查规则的逻辑模型为目标表、目标字段。
数据的完整性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的准确性检查规则通过实际数值与阀值之间的比较来验证数据可靠程度,逻辑模型为目标表、目标字段和阀值。
数据的一致性检查规则的检查方法为检查字段自定字典表,之后检查字段值是否包含于字典表中字典值,逻辑模型为目标表、目标字段、字典表和字典表字段。
数据的唯一性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的适时性检查规则通过后台配置表来实现,逻辑模型为目标表、时间周期和时间周期时点。
作为优选,步骤S3中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置步骤S1中的检查规则和对各个待检查的表设置告警责任人。
作为优选,步骤S4中,检查实例的执行包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至步骤S3中设置好的告警责任人。
一种可配置的自动化数据质量检查系统,该系统包括以下模块:
数据检查规则设定模块:用于设定各类数据检查规则,包括数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
SQL语句模板编写模块:用于根据数据检查规则编写对应的SQL语句模板;
实例配置检查模块:用于检查实例的配置,将一个或多个检查规则配置到一个表中;
实例执行检查模块:用于检查实例的执行,并发送检查结果。
作为优选,所述数据检查规则设定模块中,设定数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
作为优选,所述实例配置检查模块中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置数据检查规则设定模块中的检查规则和对各个待检查的表设置告警责任人。
作为优选,所述实例执行检查模块中,包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至实例配置模块中设置好的告警责任人。
与现有技术相比,本发明的可配置的自动化数据质量检查方法具有以下突出的有益效果:所述可配置的自动化数据质量检查方法通过重复使用若干组预定义的规则来进行数据质量管理,减少企业在数据质量管理中投入的人力,提高数据质量问题反馈的效率,具有良好的推广应用价值。
附图说明
图1是本发明所述可配置的自动化数据质量检查方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的可配置的自动化数据质量检查方法及系统作进一步详细说明。
实施例
本发明的可配置的自动化数据质量检查方法,通过自动化调度工具Pentaho DataIntegration来实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。
如图1所示,该方法具体包括以下步骤:
S1、设定各类数据检查规则和对应的SQL模板,包括设定数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则。
数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式,检查数据中格式、类型的有效性,主要通过正则表达式来预先编写多种数据内容的格式,例如邮件格式、数值格式、身份证号格式、电话号码格式等类型,之后利用对应格式对数据表的数据字段进行检查。有效性检查规则的逻辑模型为目标表、目标字段。
数据的完整性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的准确性检查规则通过实际数值与阀值之间的比较来验证数据可靠程度,逻辑模型为目标表、目标字段和阀值。
数据的一致性检查规则的检查方法为检查字段自定字典表,之后检查字段值是否包含于字典表中字典值,逻辑模型为目标表、目标字段、字典表和字典表字段。
数据的唯一性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的适时性检查规则通过后台配置表来实现,逻辑模型为目标表、时间周期和时间周期时点。
S2、根据数据检查规则编写对应的SQL语句模板。
S3、检查实例的配置,将一个或多个检查规则配置到一个表中。
将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置步骤S1中的检查规则和对各个待检查的表设置告警责任人。
S4、检查实例的执行,并发送检查结果。
检查实例的执行包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至步骤S3中设置好的告警责任人。
本发明的可配置的自动化数据质量检查系统,该系统包括以下模块:
数据检查规则设定模块:用于设定各类数据检查规则,包括数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则。数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式,检查数据中格式、类型的有效性,主要通过正则表达式来预先编写多种数据内容的格式,例如邮件格式、数值格式、身份证号格式、电话号码格式等类型,之后利用对应格式对数据表的数据字段进行检查。有效性检查规则的逻辑模型为目标表、目标字段。
SQL语句模板编写模块:用于根据数据检查规则编写对应的SQL语句模板。
实例配置检查模块:用于检查实例的配置,将一个或多个检查规则配置到一个表中。
该实例配置检查模块中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置数据检查规则设定模块中的检查规则和对各个待检查的表设置告警责任人。
实例执行检查模块:用于检查实例的执行,并发送检查结果。
该实例执行检查模块中,包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至实例配置检查模块中设置好的告警责任人。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种可配置的自动化数据质量检查方法,其特征在于:该方法通过自动化调度工具实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。
2.根据权利要求1所述的可配置的自动化数据质量检查方法,其特征在于:该方法具体包括以下步骤:
S1、设定各类数据检查规则和对应的SQL模板,包括设定数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
S2、根据数据检查规则编写对应的SQL语句模板;
S3、检查实例的配置,将一个或多个检查规则配置到一个表中;
S4、检查实例的执行,并发送检查结果。
3.根据权利要求2所述的可配置的自动化数据质量检查方法,其特征在于:步骤S1中,数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
4.根据权利要求3所述的可配置的自动化数据质量检查方法,其特征在于:步骤S3中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置步骤S1中的检查规则和对各个待检查的表设置告警责任人。
5.根据权利要求4所述的可配置的自动化数据质量检查方法,其特征在于:步骤S4中,检查实例的执行包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至步骤S3中设置好的告警责任人。
6.一种可配置的自动化数据质量检查系统,其特征在于:该系统包括以下模块:
数据检查规则设定模块:用于设定各类数据检查规则,包括数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
SQL语句模板编写模块:用于根据数据检查规则编写对应的SQL语句模板;
实例配置检查模块:用于检查实例的配置,将一个或多个检查规则配置到一个表中;
实例执行检查模块:用于检查实例的执行,并发送检查结果。
7.根据权利要求6所述的可配置的自动化数据质量检查系统,其特征在于:所述数据检查规则设定模块中,设定数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
8.根据权利要求6或7所述的可配置的自动化数据质量检查系统,其特征在于:所述实例配置检查模块中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置数据检查规则设定模块中的检查规则和对各个待检查的表设置告警责任人。
9.根据权利要求8所述的可配置的自动化数据质量检查系统,其特征在于:所述实例执行检查模块中,包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至实例配置模块中设置好的告警责任人。
CN201910216880.9A 2019-03-21 2019-03-21 一种可配置的自动化数据质量检查方法及系统 Pending CN109933578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910216880.9A CN109933578A (zh) 2019-03-21 2019-03-21 一种可配置的自动化数据质量检查方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910216880.9A CN109933578A (zh) 2019-03-21 2019-03-21 一种可配置的自动化数据质量检查方法及系统

Publications (1)

Publication Number Publication Date
CN109933578A true CN109933578A (zh) 2019-06-25

Family

ID=66987909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910216880.9A Pending CN109933578A (zh) 2019-03-21 2019-03-21 一种可配置的自动化数据质量检查方法及系统

Country Status (1)

Country Link
CN (1) CN109933578A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597798A (zh) * 2019-09-17 2019-12-20 山东爱城市网信息技术有限公司 一种基于Thrift的数据检测方法
CN111897806A (zh) * 2020-06-28 2020-11-06 苏宁金融科技(南京)有限公司 大数据离线数据质量检查方法及装置
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置
CN112463780A (zh) * 2020-12-02 2021-03-09 中国工商银行股份有限公司 数据质量检查方法及装置
CN112579352A (zh) * 2020-12-14 2021-03-30 广州信安数据有限公司 业务数据处理链路的质量监控结果生成方法、存储介质及质量监控系统
CN115328948A (zh) * 2022-02-22 2022-11-11 杭州美创科技有限公司 主数据质量管理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188094A (zh) * 2011-12-28 2013-07-03 中国移动通信集团贵州有限公司 一种资源数据核查系统和方法
CN104732344A (zh) * 2015-03-18 2015-06-24 浪潮通信信息系统有限公司 一种资源数据核查系统及方法
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188094A (zh) * 2011-12-28 2013-07-03 中国移动通信集团贵州有限公司 一种资源数据核查系统和方法
CN104732344A (zh) * 2015-03-18 2015-06-24 浪潮通信信息系统有限公司 一种资源数据核查系统及方法
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597798A (zh) * 2019-09-17 2019-12-20 山东爱城市网信息技术有限公司 一种基于Thrift的数据检测方法
CN110597798B (zh) * 2019-09-17 2023-08-25 浪潮卓数大数据产业发展有限公司 一种基于Thrift的数据检测方法
CN111897806A (zh) * 2020-06-28 2020-11-06 苏宁金融科技(南京)有限公司 大数据离线数据质量检查方法及装置
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置
CN112463780A (zh) * 2020-12-02 2021-03-09 中国工商银行股份有限公司 数据质量检查方法及装置
CN112463780B (zh) * 2020-12-02 2024-01-05 中国工商银行股份有限公司 数据质量检查方法及装置
CN112579352A (zh) * 2020-12-14 2021-03-30 广州信安数据有限公司 业务数据处理链路的质量监控结果生成方法、存储介质及质量监控系统
CN115328948A (zh) * 2022-02-22 2022-11-11 杭州美创科技有限公司 主数据质量管理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109933578A (zh) 一种可配置的自动化数据质量检查方法及系统
US20110161132A1 (en) Method and system for extracting process sequences
CN105868373B (zh) 电力业务信息系统关键数据处理方法及装置
CN105373472B (zh) 一种基于数据库的统计准确性的测试方法及测试系统
CN105824870A (zh) 一种基于校验规则的分类和质检方法及系统
CN105956410B (zh) 一种iec61850全模型的快速通用检测方法
CN111209274B (zh) 一种数据质量检核方法、系统、设备及可读存储介质
CN112800044B (zh) 数据质量判定及监测方法、管理系统、存储介质、终端
CN110688389B (zh) 变电站二次设备缺陷云管理系统
CN106529050A (zh) 一种产品三维模型数据检测方法、装置及系统
CN114912787A (zh) 一种企业危险废物瞒报漏报风险的智能评估方法
WO2020259391A1 (zh) 一种数据库脚本性能测试的方法及装置
WO2024067358A1 (zh) 仓库管理系统的效率分析方法、系统及计算机设备
CN110471912B (zh) 一种员工属性信息校验方法、装置及终端设备
CN111274056B (zh) 智能电能表故障库的自学习方法与装置
CN112394686A (zh) 工业企业排污总量自动计算方法、系统、装置及介质
CN117575222A (zh) 生产管理方法、系统、设备及存储介质
CN105573984B (zh) 社会经济指标的识别方法及装置
CN116521092A (zh) 一种工业设备数据的存储方法和装置
CN108268462A (zh) 一种关系完整性的数据质量检测系统
CN111382710A (zh) 一种基于图像识别的图纸比对方法
CN111240978A (zh) 数据报告生成与分析方法
CN115018352A (zh) 一种物流货物溯源及防疫追踪方法、系统
CN108920134A (zh) 自动生成设计文档的方法及装置
CN112364095A (zh) 一种数据溯源分析可视化的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625