CN109902084A - 一种全自动检测与分析数据质量的系统及方法 - Google Patents
一种全自动检测与分析数据质量的系统及方法 Download PDFInfo
- Publication number
- CN109902084A CN109902084A CN201910145437.7A CN201910145437A CN109902084A CN 109902084 A CN109902084 A CN 109902084A CN 201910145437 A CN201910145437 A CN 201910145437A CN 109902084 A CN109902084 A CN 109902084A
- Authority
- CN
- China
- Prior art keywords
- quality
- data
- analysis
- detection
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012544 monitoring process Methods 0.000 claims description 10
- 238000007619 statistical method Methods 0.000 claims description 9
- 230000008021 deposition Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000010606 normalization Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 21
- 230000008901 benefit Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
Landscapes
- Automatic Analysis And Handling Materials Therefor (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明特别涉及一种全自动检测与分析数据质量的系统及方法。该全自动检测与分析数据质量的系统,包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块。该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。
Description
技术领域
本发明涉及自动任务调度技术领域,特别涉及一种全自动检测与分析数据质量的系统及方法。
背景技术
当今社会,数据量正以爆炸方式迅猛增长,数据表示形式千变万化,标志着我们已经进入了大数据时代,云计算、物联网、移动互联网的出现更加催生了大数据时代的产生。而大数据时代的到来,对数据管理、从数据中提取有价值的信息提出了调整。数据质量是有效分析和利用大数据的前提,是大数据产生跨区域、跨行业、跨部门价值的保障。
大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效的深入加工,以此来发现隐含在大量数据中的信息并加以利用进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。
基于上述情况,为了实现全生命周期检测数据问题,挖掘数据的价值,提高数据分析结果的精确程度和可靠程度,本发明设计了一种全自动检测与分析数据质量的系统及方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的全自动检测与分析数据质量的系统及方法。
本发明是通过如下技术方案实现的:
一种全自动检测与分析数据质量的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。
该全自动检测与分析数据质量的系统的检测分析方法,包括以下步骤:
(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;
(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;
(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:
(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。
所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。
所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。
所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。
所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。
所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测。
所述质量报告可以以pdf格式导出,用于对数据进行整改提供参考依据。
所述步骤(4)中,将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据可以进行人工干预,将其进行标注为没有质量问题。
该全自动检测与分析数据质量的系统的检测分析方法,以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。
本发明的有益效果是:该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。
附图说明
附图1为本发明全自动检测与分析数据质量的方法示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该全自动检测与分析数据质量的系统,包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。
该全自动检测与分析数据质量的系统的检测分析方法,包括以下步骤:
(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;
(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;
(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:
(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。
所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。
所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。
所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。
所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。
所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测。
所述质量报告可以以pdf格式导出,用于对数据进行整改提供参考依据。
所述步骤(4)中,将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据可以进行人工干预,将其进行标注为没有质量问题。
该全自动检测与分析数据质量的系统的检测分析方法,以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。
该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。
Claims (10)
1.一种全自动检测与分析数据质量的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。
2.根据权利要求1所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于,包括以下步骤:
(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;
(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;
(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:
(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。
3.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。
4.根据权利要求3所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。
5.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。
6.根据权利要求5所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。
7.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测。
8.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述步骤(4)中,将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据可以进行人工干预,将其进行标注为没有质量问题。
9.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。
10.根据权利要求2所述的全自动检测与分析数据质量的系统的检测分析方法,其特征在于:所述质量报告以pdf格式导出,为数据进行整改提供参考依据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910145437.7A CN109902084B (zh) | 2019-02-27 | 2019-02-27 | 一种全自动检测与分析数据质量的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910145437.7A CN109902084B (zh) | 2019-02-27 | 2019-02-27 | 一种全自动检测与分析数据质量的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902084A true CN109902084A (zh) | 2019-06-18 |
CN109902084B CN109902084B (zh) | 2023-04-14 |
Family
ID=66945604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910145437.7A Active CN109902084B (zh) | 2019-02-27 | 2019-02-27 | 一种全自动检测与分析数据质量的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902084B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472109A (zh) * | 2019-07-30 | 2019-11-19 | 深圳中科保泰科技有限公司 | 动态化数据质量分析方法及平台系统 |
CN110597798A (zh) * | 2019-09-17 | 2019-12-20 | 山东爱城市网信息技术有限公司 | 一种基于Thrift的数据检测方法 |
CN110704502A (zh) * | 2019-11-20 | 2020-01-17 | 中电万维信息技术有限责任公司 | 一种组件化数据质量检核方法 |
CN111177134A (zh) * | 2019-12-26 | 2020-05-19 | 上海科技发展有限公司 | 适用于海量数据的数据质量分析方法、装置、终端及介质 |
CN112306997A (zh) * | 2019-07-23 | 2021-02-02 | 杭州中软安人网络通信股份有限公司 | 数据质量管理系统 |
CN112766676A (zh) * | 2021-01-08 | 2021-05-07 | 深圳市酷开网络科技股份有限公司 | 闭环数据质量治理方法、装置、终端设备及存储介质 |
CN115757364A (zh) * | 2023-02-01 | 2023-03-07 | 上海数慧系统技术有限公司 | 一种数据质量检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060122812A1 (en) * | 2004-12-04 | 2006-06-08 | Tinseth Lance D | Method of batching and analyzing of data from computerized process and control systems |
US20120150820A1 (en) * | 2010-12-08 | 2012-06-14 | Infosys Technologies Limited | System and method for testing data at a data warehouse |
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
-
2019
- 2019-02-27 CN CN201910145437.7A patent/CN109902084B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060122812A1 (en) * | 2004-12-04 | 2006-06-08 | Tinseth Lance D | Method of batching and analyzing of data from computerized process and control systems |
US20120150820A1 (en) * | 2010-12-08 | 2012-06-14 | Infosys Technologies Limited | System and method for testing data at a data warehouse |
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
Non-Patent Citations (2)
Title |
---|
张自强等: "基于大数据技术的运营监测(控)领域数据质量管控研究", 《电气应用》 * |
段慧芬等: "航天测量信息实时质量分析方法", 《兵工自动化》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306997A (zh) * | 2019-07-23 | 2021-02-02 | 杭州中软安人网络通信股份有限公司 | 数据质量管理系统 |
CN110472109A (zh) * | 2019-07-30 | 2019-11-19 | 深圳中科保泰科技有限公司 | 动态化数据质量分析方法及平台系统 |
CN110472109B (zh) * | 2019-07-30 | 2022-06-21 | 深圳中科保泰空天技术有限公司 | 动态化数据质量分析方法及平台系统 |
CN110597798A (zh) * | 2019-09-17 | 2019-12-20 | 山东爱城市网信息技术有限公司 | 一种基于Thrift的数据检测方法 |
CN110597798B (zh) * | 2019-09-17 | 2023-08-25 | 浪潮卓数大数据产业发展有限公司 | 一种基于Thrift的数据检测方法 |
CN110704502A (zh) * | 2019-11-20 | 2020-01-17 | 中电万维信息技术有限责任公司 | 一种组件化数据质量检核方法 |
CN111177134A (zh) * | 2019-12-26 | 2020-05-19 | 上海科技发展有限公司 | 适用于海量数据的数据质量分析方法、装置、终端及介质 |
CN111177134B (zh) * | 2019-12-26 | 2021-04-02 | 上海科技发展有限公司 | 适用于海量数据的数据质量分析方法、装置、终端及介质 |
CN112766676A (zh) * | 2021-01-08 | 2021-05-07 | 深圳市酷开网络科技股份有限公司 | 闭环数据质量治理方法、装置、终端设备及存储介质 |
CN115757364A (zh) * | 2023-02-01 | 2023-03-07 | 上海数慧系统技术有限公司 | 一种数据质量检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109902084B (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902084A (zh) | 一种全自动检测与分析数据质量的系统及方法 | |
CN111209131B (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
CN110991486B (zh) | 多人协作图像标注质量控制的方法和装置 | |
CN105373472B (zh) | 一种基于数据库的统计准确性的测试方法及测试系统 | |
CN111259947A (zh) | 一种基于多模态学习的电力系统故障预警方法和系统 | |
Zhang et al. | {CRISP}: Critical path analysis of {Large-Scale} microservice architectures | |
CN106055618B (zh) | 一种基于网络爬虫与结构化存储的数据处理方法 | |
CN103227734A (zh) | 一种OpenStack云平台异常的检测方法 | |
Pascarella et al. | Re-evaluating method-level bug prediction | |
CN108345670B (zh) | 一种用于95598电力工单的服务热点发现方法 | |
CN102542116B (zh) | Dfm分析自动化的方法及装置 | |
CN110471857A (zh) | 人工智能模型性能容量的自动测试方法及装置 | |
CN106855844A (zh) | 一种性能测试方法和系统 | |
Zeng et al. | Traceark: Towards actionable performance anomaly alerting for online service systems | |
CN106201887B (zh) | 一种离线数据任务的验证方法及装置 | |
CN113094154A (zh) | 一种基于阿里云的大数据处理方法及系统 | |
CN115017213A (zh) | 一种敏感数据处理方法及装置 | |
CN115098336A (zh) | 数仓任务监控方法、系统、设备及存储介质 | |
CN111813442A (zh) | 一种基于机器学习的软件味道检测方法 | |
ZHANG et al. | Approach to anomaly detection in microservice system with multi-source data streams | |
CN113568804A (zh) | 一种面向Web应用的性能瓶颈精准定位系统 | |
CN112596775A (zh) | 应用版本投产问题的线上管理方法、系统及相关设备 | |
US8595706B2 (en) | Control chart technique for analyzing software engineering activities affected by intrinsic process variation and statistical fluctuations | |
CN106855840B (zh) | 一种系统cpu分析方法和装置 | |
CN117215858B (zh) | 一种自动化进行服务器整机测试的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |