CN109933578A - 一种可配置的自动化数据质量检查方法及系统 - Google Patents
一种可配置的自动化数据质量检查方法及系统 Download PDFInfo
- Publication number
- CN109933578A CN109933578A CN201910216880.9A CN201910216880A CN109933578A CN 109933578 A CN109933578 A CN 109933578A CN 201910216880 A CN201910216880 A CN 201910216880A CN 109933578 A CN109933578 A CN 109933578A
- Authority
- CN
- China
- Prior art keywords
- data
- rule
- inspection
- check
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 238000007689 inspection Methods 0.000 claims abstract description 69
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 13
- 238000003908 quality control method Methods 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种可配置的自动化数据质量检查方法及系统,属于数据质量管理技术领域。本发明的可配置的自动化数据质量检查方法,通过自动化调度工具实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。该发明的可配置的自动化数据质量检查方法能够减少企业在数据质量管理中投入的人力,提高数据质量问题反馈的效率,具有很好的推广应用价值。
Description
技术领域
本发明涉及数据质量管理技术领域,具体提供一种可配置的自动化数据质量检查方法及系统。
背景技术
计算机具有存储信息量大,使用者获取信息方便快捷等优点,在社会各个行业中应用广泛,随着计算机科学发展,各类企业、单位的系统和网站产生了海量的数据,数据处理及数据质量管理在信息系统建设中占据重要位置。一个信息系统的数据来源往往是多样性的,除了数据源本身的脏数据问题之外,还有不同数据源之间产生的形式不一、重复、冲突等数据质量问题。在系统建设中人们已经逐渐意识到数据质量的重要性,因为数据质量的好坏直接影响数据分析的结果。因此人们通过各类数据处理过程对数据进行清洗加工以获取可靠的数据。但高质量的数据不是一蹴而成,而是一个逐步完善的迭代过程,而这个过程往往缺乏高效可靠的数据质量检查方法和及时的问题反馈。在面临多样性的数据源时,人们需要有一种高效可靠的数据质量检查方法来不断完善数据处理环节。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够减少企业在数据质量管理中投入的人力,提高数据质量问题反馈的效率的可配置的自动化数据质量检查方法。
本发明进一步的技术任务是提供一种可配置的自动化数据质量检查系统。
为实现上述目的,本发明提供了如下技术方案:
一种可配置的自动化数据质量检查方法,该方法通过自动化调度工具实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。
本发明中通过自动化调度工具Pentaho Data Integration来实现对数据质量的自动化检查和预警。
作为优选,该方法具体包括以下步骤:
S1、设定各类数据检查规则和对应的SQL模板,包括设定数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
S2、根据数据检查规则编写对应的SQL语句模板;
S3、检查实例的配置,将一个或多个检查规则配置到一个表中;
S4、检查实例的执行,并发送检查结果。
作为优选,步骤S1中,数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式,检查数据中格式、类型的有效性,主要通过正则表达式来预先编写多种数据内容的格式,例如邮件格式、数值格式、身份证号格式、电话号码格式等类型,之后利用对应格式对数据表的数据字段进行检查。有效性检查规则的逻辑模型为目标表、目标字段。
数据的完整性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的准确性检查规则通过实际数值与阀值之间的比较来验证数据可靠程度,逻辑模型为目标表、目标字段和阀值。
数据的一致性检查规则的检查方法为检查字段自定字典表,之后检查字段值是否包含于字典表中字典值,逻辑模型为目标表、目标字段、字典表和字典表字段。
数据的唯一性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的适时性检查规则通过后台配置表来实现,逻辑模型为目标表、时间周期和时间周期时点。
作为优选,步骤S3中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置步骤S1中的检查规则和对各个待检查的表设置告警责任人。
作为优选,步骤S4中,检查实例的执行包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至步骤S3中设置好的告警责任人。
一种可配置的自动化数据质量检查系统,该系统包括以下模块:
数据检查规则设定模块:用于设定各类数据检查规则,包括数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
SQL语句模板编写模块:用于根据数据检查规则编写对应的SQL语句模板;
实例配置检查模块:用于检查实例的配置,将一个或多个检查规则配置到一个表中;
实例执行检查模块:用于检查实例的执行,并发送检查结果。
作为优选,所述数据检查规则设定模块中,设定数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
作为优选,所述实例配置检查模块中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置数据检查规则设定模块中的检查规则和对各个待检查的表设置告警责任人。
作为优选,所述实例执行检查模块中,包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至实例配置模块中设置好的告警责任人。
与现有技术相比,本发明的可配置的自动化数据质量检查方法具有以下突出的有益效果:所述可配置的自动化数据质量检查方法通过重复使用若干组预定义的规则来进行数据质量管理,减少企业在数据质量管理中投入的人力,提高数据质量问题反馈的效率,具有良好的推广应用价值。
附图说明
图1是本发明所述可配置的自动化数据质量检查方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的可配置的自动化数据质量检查方法及系统作进一步详细说明。
实施例
本发明的可配置的自动化数据质量检查方法,通过自动化调度工具Pentaho DataIntegration来实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。
如图1所示,该方法具体包括以下步骤:
S1、设定各类数据检查规则和对应的SQL模板,包括设定数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则。
数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式,检查数据中格式、类型的有效性,主要通过正则表达式来预先编写多种数据内容的格式,例如邮件格式、数值格式、身份证号格式、电话号码格式等类型,之后利用对应格式对数据表的数据字段进行检查。有效性检查规则的逻辑模型为目标表、目标字段。
数据的完整性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的准确性检查规则通过实际数值与阀值之间的比较来验证数据可靠程度,逻辑模型为目标表、目标字段和阀值。
数据的一致性检查规则的检查方法为检查字段自定字典表,之后检查字段值是否包含于字典表中字典值,逻辑模型为目标表、目标字段、字典表和字典表字段。
数据的唯一性检查规则通过SQL语句中空值检查语句来实现,逻辑模型为目标表和目标字段。
数据的适时性检查规则通过后台配置表来实现,逻辑模型为目标表、时间周期和时间周期时点。
S2、根据数据检查规则编写对应的SQL语句模板。
S3、检查实例的配置,将一个或多个检查规则配置到一个表中。
将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置步骤S1中的检查规则和对各个待检查的表设置告警责任人。
S4、检查实例的执行,并发送检查结果。
检查实例的执行包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至步骤S3中设置好的告警责任人。
本发明的可配置的自动化数据质量检查系统,该系统包括以下模块:
数据检查规则设定模块:用于设定各类数据检查规则,包括数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则。数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式,检查数据中格式、类型的有效性,主要通过正则表达式来预先编写多种数据内容的格式,例如邮件格式、数值格式、身份证号格式、电话号码格式等类型,之后利用对应格式对数据表的数据字段进行检查。有效性检查规则的逻辑模型为目标表、目标字段。
SQL语句模板编写模块:用于根据数据检查规则编写对应的SQL语句模板。
实例配置检查模块:用于检查实例的配置,将一个或多个检查规则配置到一个表中。
该实例配置检查模块中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置数据检查规则设定模块中的检查规则和对各个待检查的表设置告警责任人。
实例执行检查模块:用于检查实例的执行,并发送检查结果。
该实例执行检查模块中,包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至实例配置检查模块中设置好的告警责任人。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (9)
1.一种可配置的自动化数据质量检查方法,其特征在于:该方法通过自动化调度工具实现,通过设定数据检查规则,并根据设定的数据检查规则编写对应的SQL语句模板,根据数据检查规则检查实例的配置,执行检查实例并发送检查结果。
2.根据权利要求1所述的可配置的自动化数据质量检查方法,其特征在于:该方法具体包括以下步骤:
S1、设定各类数据检查规则和对应的SQL模板,包括设定数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
S2、根据数据检查规则编写对应的SQL语句模板;
S3、检查实例的配置,将一个或多个检查规则配置到一个表中;
S4、检查实例的执行,并发送检查结果。
3.根据权利要求2所述的可配置的自动化数据质量检查方法,其特征在于:步骤S1中,数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
4.根据权利要求3所述的可配置的自动化数据质量检查方法,其特征在于:步骤S3中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置步骤S1中的检查规则和对各个待检查的表设置告警责任人。
5.根据权利要求4所述的可配置的自动化数据质量检查方法,其特征在于:步骤S4中,检查实例的执行包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至步骤S3中设置好的告警责任人。
6.一种可配置的自动化数据质量检查系统,其特征在于:该系统包括以下模块:
数据检查规则设定模块:用于设定各类数据检查规则,包括数据的有效性、数据的完整性、数据的准确性、数据的一致性、数据的唯一性和数据的适时性检查规则;
SQL语句模板编写模块:用于根据数据检查规则编写对应的SQL语句模板;
实例配置检查模块:用于检查实例的配置,将一个或多个检查规则配置到一个表中;
实例执行检查模块:用于检查实例的执行,并发送检查结果。
7.根据权利要求6所述的可配置的自动化数据质量检查系统,其特征在于:所述数据检查规则设定模块中,设定数据的有效性检查规则为通过正规表达式来预先编写多种数据内容的格式;数据的完整性检查规则为检查数据中是否存在字段值缺失;数据的准确性检查规则为检查计量误差、度量单位的精确度,对比实际数值与假定数值之间的差异;数据的一致性检查规则为检查目标表中特定字段对一组约束的满足程度;数据的唯一性检查规则为检查有业务主键的数据是否满足主键唯一;数据的适时性检查规则为检查数据是否在数据周期内按时加载到表中。
8.根据权利要求6或7所述的可配置的自动化数据质量检查系统,其特征在于:所述实例配置检查模块中,将一个或多个检查规则配置到一个表中包括对各个待检查的目标表根据业务或逻辑上的检查项配置数据检查规则设定模块中的检查规则和对各个待检查的表设置告警责任人。
9.根据权利要求8所述的可配置的自动化数据质量检查系统,其特征在于:所述实例执行检查模块中,包括对于已配置适时性规则的表先进性实时性规则的检查、依次执行已配置规则中的检查步骤、执行检查结果的内容汇总,将检查结果发送至实例配置模块中设置好的告警责任人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910216880.9A CN109933578A (zh) | 2019-03-21 | 2019-03-21 | 一种可配置的自动化数据质量检查方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910216880.9A CN109933578A (zh) | 2019-03-21 | 2019-03-21 | 一种可配置的自动化数据质量检查方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109933578A true CN109933578A (zh) | 2019-06-25 |
Family
ID=66987909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910216880.9A Pending CN109933578A (zh) | 2019-03-21 | 2019-03-21 | 一种可配置的自动化数据质量检查方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933578A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597798A (zh) * | 2019-09-17 | 2019-12-20 | 山东爱城市网信息技术有限公司 | 一种基于Thrift的数据检测方法 |
CN111897806A (zh) * | 2020-06-28 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 大数据离线数据质量检查方法及装置 |
CN112000656A (zh) * | 2020-09-01 | 2020-11-27 | 北京天源迪科信息技术有限公司 | 基于元数据的智能化数据清洗方法及装置 |
CN112463780A (zh) * | 2020-12-02 | 2021-03-09 | 中国工商银行股份有限公司 | 数据质量检查方法及装置 |
CN112579352A (zh) * | 2020-12-14 | 2021-03-30 | 广州信安数据有限公司 | 业务数据处理链路的质量监控结果生成方法、存储介质及质量监控系统 |
CN114358565A (zh) * | 2021-12-29 | 2022-04-15 | 泰豪软件股份有限公司 | 一种数据质量检查方法、装置、存储介质及设备 |
CN115328948A (zh) * | 2022-02-22 | 2022-11-11 | 杭州美创科技有限公司 | 主数据质量管理方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188094A (zh) * | 2011-12-28 | 2013-07-03 | 中国移动通信集团贵州有限公司 | 一种资源数据核查系统和方法 |
CN104732344A (zh) * | 2015-03-18 | 2015-06-24 | 浪潮通信信息系统有限公司 | 一种资源数据核查系统及方法 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
-
2019
- 2019-03-21 CN CN201910216880.9A patent/CN109933578A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103188094A (zh) * | 2011-12-28 | 2013-07-03 | 中国移动通信集团贵州有限公司 | 一种资源数据核查系统和方法 |
CN104732344A (zh) * | 2015-03-18 | 2015-06-24 | 浪潮通信信息系统有限公司 | 一种资源数据核查系统及方法 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597798A (zh) * | 2019-09-17 | 2019-12-20 | 山东爱城市网信息技术有限公司 | 一种基于Thrift的数据检测方法 |
CN110597798B (zh) * | 2019-09-17 | 2023-08-25 | 浪潮卓数大数据产业发展有限公司 | 一种基于Thrift的数据检测方法 |
CN111897806A (zh) * | 2020-06-28 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 大数据离线数据质量检查方法及装置 |
CN112000656A (zh) * | 2020-09-01 | 2020-11-27 | 北京天源迪科信息技术有限公司 | 基于元数据的智能化数据清洗方法及装置 |
CN112463780A (zh) * | 2020-12-02 | 2021-03-09 | 中国工商银行股份有限公司 | 数据质量检查方法及装置 |
CN112463780B (zh) * | 2020-12-02 | 2024-01-05 | 中国工商银行股份有限公司 | 数据质量检查方法及装置 |
CN112579352A (zh) * | 2020-12-14 | 2021-03-30 | 广州信安数据有限公司 | 业务数据处理链路的质量监控结果生成方法、存储介质及质量监控系统 |
CN114358565A (zh) * | 2021-12-29 | 2022-04-15 | 泰豪软件股份有限公司 | 一种数据质量检查方法、装置、存储介质及设备 |
CN115328948A (zh) * | 2022-02-22 | 2022-11-11 | 杭州美创科技有限公司 | 主数据质量管理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933578A (zh) | 一种可配置的自动化数据质量检查方法及系统 | |
WO2021052031A1 (zh) | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 | |
US20110161132A1 (en) | Method and system for extracting process sequences | |
CN105373472B (zh) | 一种基于数据库的统计准确性的测试方法及测试系统 | |
CN105824870A (zh) | 一种基于校验规则的分类和质检方法及系统 | |
CN105956410B (zh) | 一种iec61850全模型的快速通用检测方法 | |
CN112800044B (zh) | 数据质量判定及监测方法、管理系统、存储介质、终端 | |
CN109753596B (zh) | 用于大规模网络数据采集的信源管理与配置方法和系统 | |
CN106528828A (zh) | 一种基于多维度校验规则的数据质量检测方法 | |
CN111209274A (zh) | 一种数据质量检核方法、系统、设备及可读存储介质 | |
CN106529050A (zh) | 一种产品三维模型数据检测方法、装置及系统 | |
CN104899143A (zh) | 提供数据挖掘的软件同行评审系统实现装置 | |
WO2020259391A1 (zh) | 一种数据库脚本性能测试的方法及装置 | |
CN117575222A (zh) | 生产管理方法、系统、设备及存储介质 | |
CN110471912B (zh) | 一种员工属性信息校验方法、装置及终端设备 | |
CN111274056B (zh) | 智能电能表故障库的自学习方法与装置 | |
CN113806343B (zh) | 一种车联网数据质量的评估方法和系统 | |
CN112394686A (zh) | 工业企业排污总量自动计算方法、系统、装置及介质 | |
CN108268462A (zh) | 一种关系完整性的数据质量检测系统 | |
CN116521092B (zh) | 一种工业设备数据的存储方法和装置 | |
CN105573984B (zh) | 社会经济指标的识别方法及装置 | |
CN115018352A (zh) | 一种物流货物溯源及防疫追踪方法、系统 | |
CN111695760B (zh) | 一种生产质量风险记录和溯源方法及系统 | |
CN113011726B (zh) | 一种拖拉机制造过程质量数据智能分析处理系统 | |
CN117909392B (zh) | 一种智能化数据资产盘点的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |