CN109902084B - 一种全自动检测与分析数据质量的系统及方法 - Google Patents
一种全自动检测与分析数据质量的系统及方法 Download PDFInfo
- Publication number
- CN109902084B CN109902084B CN201910145437.7A CN201910145437A CN109902084B CN 109902084 B CN109902084 B CN 109902084B CN 201910145437 A CN201910145437 A CN 201910145437A CN 109902084 B CN109902084 B CN 109902084B
- Authority
- CN
- China
- Prior art keywords
- quality
- data
- detection
- analysis
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 59
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000007619 statistical method Methods 0.000 claims description 9
- 238000000151 deposition Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000001376 precipitating effect Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000003326 Quality management system Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 2
- 238000007689 inspection Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000007726 management method Methods 0.000 description 22
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Automatic Analysis And Handling Materials Therefor (AREA)
Abstract
本发明特别涉及一种全自动检测与分析数据质量的系统及方法。该全自动检测与分析数据质量的系统,包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块。该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。
Description
技术领域
本发明涉及自动任务调度技术领域,特别涉及一种全自动检测与分析数据质量的系统及方法。
背景技术
当今社会,数据量正以爆炸方式迅猛增长,数据表示形式千变万化,标志着我们已经进入了大数据时代,云计算、物联网、移动互联网的出现更加催生了大数据时代的产生。而大数据时代的到来,对数据管理、从数据中提取有价值的信息提出了调整。数据质量是有效分析和利用大数据的前提,是大数据产生跨区域、跨行业、跨部门价值的保障。
大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效的深入加工,以此来发现隐含在大量数据中的信息并加以利用进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。
基于上述情况,为了实现全生命周期检测数据问题,挖掘数据的价值,提高数据分析结果的精确程度和可靠程度,本发明设计了一种全自动检测与分析数据质量的系统及方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的全自动检测与分析数据质量的系统及方法。
本发明是通过如下技术方案实现的:
一种全自动检测与分析数据质量的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。
该全自动检测与分析数据质量的系统的检测分析方法,包括以下步骤:
(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;
(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;
(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:
(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。
所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。
所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。
所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。
所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。
所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测。
所述质量报告可以以pdf格式导出,用于对数据进行整改提供参考依据。
所述步骤(4)中,将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据可以进行人工干预,将其进行标注为没有质量问题。
该全自动检测与分析数据质量的系统的检测分析方法,以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。
本发明的有益效果是:该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。
附图说明
附图1为本发明全自动检测与分析数据质量的方法示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该全自动检测与分析数据质量的系统,包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。
该全自动检测与分析数据质量的系统的检测分析方法,包括以下步骤:
(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;
(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;
(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告:
(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改。
所述步骤(1)中,给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本。
所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测。
所述步骤(2)中,检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务。
所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式。
所述步骤(3)中,为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果可以分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测。
所述质量报告可以以pdf格式导出,用于对数据进行整改提供参考依据。
所述步骤(4)中,将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据可以进行人工干预,将其进行标注为没有质量问题。
该全自动检测与分析数据质量的系统的检测分析方法,以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。
该全自动检测与分析数据质量的系统及方法,从完整性、一致性、准确性、唯一性、关联性、规范性等方面积累了多种检查数据的规则,给数据打上质量规则的标签自动对数据进行质量检查,实现了全生命周期检测数据问题,并且根据检测出来的结果一方面用于进行分析产生质量报告,另一方面反馈存在质量问题的数据用于整改,充分挖掘数据的价值,确保了数据价值最大化,提高六数据分析结果的精确程度和可靠程度,适宜推广应用。
Claims (4)
1.一种全自动检测与分析数据质量的检测分析方法,其特征在于,包括以下步骤:
(1)通过质量规则管理模块全方位沉淀数据质量的规则,形成质量规则库并通过质量模型管理模块给数据打上质量规则标签;
给数据打上规则标签是基于质量规则库从数据完整性,数据一致性,数据准确性,数据唯一性,数据关联性和数据规范性六个方面给需要检测的数据打上对应的标签,使得规则检测过程中能够识别标签进而找到对应的规则检测脚本;
所述规则检测脚本为SQL语句检测脚本或正则表达式检测脚本,所述SQL语句检测脚本兼容MySQL,Oracle和Hbase主流数据库,正则表达式检测脚本可以并入SQL语句检测脚本,也可单独进行检测;
(2)通过质量任务管理模块建立健全的日志对检测任务进行管理和监控;
检测任务的管理和监控过程中产生的日志都会被持久化到数据库中,可以采集任务节点信息进行监控CPU和内存,及时对任务节点进行升级或横向增加任务节点,以免影响检测任务;
所述检测任务的管理和监控结果自动持久化到数据库中,用预先制定的统计分析策略对结果数据进行统计分析,可以对统计分析策略进行定制;结果数据根据预先制定的质量报告模板持久化到数据库中,可以按时间制定质量报告或者自定义质量报告格式;
(3)质量分析模块基于任务调度对数据进行质量规则的检测,通过质量报告模块将检测分析结果汇总产生质量报告;
为了应对庞大的数据量,采用横向扩展任务节点的方式对数据进行并行检测,最后将结果进行汇总返回;质量分析结果能够分析出哪类数据存在的质量问题最多,哪类质量规则检测的最多,对数据质量问题进行趋势预测;
(4)通过质量督查模块以流程化的方式对存在质量问题的数据进行跟踪,对存在质量问题的数据进行督查整改;
将存在质量问题的数据及时反馈给提供方进行整改,对数据整改问题进行流程化监控;对于只是理论上存在质量问题,但逻辑上并不影响数据价值的问题数据进行人工干预,将其进行标注为没有质量问题。
2.根据权利要求1所述的全自动检测与分析数据质量的检测分析方法,其特征在于:以web形式监控数据整改情况,从检测数据开始到数据整改完为止都以可视化的页面进行监控,并且提供邮件或者短信的方式督促数据提供方进行整改。
3.根据权利要求1所述的全自动检测与分析数据质量的检测分析方法,其特征在于:所述质量报告以pdf格式导出,为数据进行整改提供参考依据。
4.一种权利要求1-3所述的全自动检测与分析数据质量的检测分析方法的系统,其特征在于:包括质量规则管理模块,质量模型管理模块,质量任务管理模块,质量分析模块,质量报告模块和质量督查模块;所述质量规则管理模块用于全方位沉淀数据质量的规则,形成一个质量规则库;所述质量模型管理模块用于给数据打质量规则标签;所述质量任务管理模块用于监控、管理检测任务以及人工干预任务执行过程;所述质量分析模块用于对数据进行质量分析;所述质量报告模块用于基于质量分析生成质量报告;所述质量督查模块用于对存在质量问题的数据进行反馈并跟踪数据整改情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910145437.7A CN109902084B (zh) | 2019-02-27 | 2019-02-27 | 一种全自动检测与分析数据质量的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910145437.7A CN109902084B (zh) | 2019-02-27 | 2019-02-27 | 一种全自动检测与分析数据质量的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902084A CN109902084A (zh) | 2019-06-18 |
CN109902084B true CN109902084B (zh) | 2023-04-14 |
Family
ID=66945604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910145437.7A Active CN109902084B (zh) | 2019-02-27 | 2019-02-27 | 一种全自动检测与分析数据质量的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902084B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306997A (zh) * | 2019-07-23 | 2021-02-02 | 杭州中软安人网络通信股份有限公司 | 数据质量管理系统 |
CN110472109B (zh) * | 2019-07-30 | 2022-06-21 | 深圳中科保泰空天技术有限公司 | 动态化数据质量分析方法及平台系统 |
CN110597798B (zh) * | 2019-09-17 | 2023-08-25 | 浪潮卓数大数据产业发展有限公司 | 一种基于Thrift的数据检测方法 |
CN110704502A (zh) * | 2019-11-20 | 2020-01-17 | 中电万维信息技术有限责任公司 | 一种组件化数据质量检核方法 |
CN111177134B (zh) * | 2019-12-26 | 2021-04-02 | 上海科技发展有限公司 | 适用于海量数据的数据质量分析方法、装置、终端及介质 |
CN112766676A (zh) * | 2021-01-08 | 2021-05-07 | 深圳市酷开网络科技股份有限公司 | 闭环数据质量治理方法、装置、终端设备及存储介质 |
CN115757364A (zh) * | 2023-02-01 | 2023-03-07 | 上海数慧系统技术有限公司 | 一种数据质量检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398187B2 (en) * | 2004-12-04 | 2008-07-08 | Lance David Tinseth | Method of batching and analyzing of data from computerized process and control systems |
US9037549B2 (en) * | 2010-12-08 | 2015-05-19 | Infosys Limited | System and method for testing data at a data warehouse |
-
2019
- 2019-02-27 CN CN201910145437.7A patent/CN109902084B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
Non-Patent Citations (2)
Title |
---|
基于大数据技术的运营监测(控)领域数据质量管控研究;张自强等;《电气应用》;20150630;全文 * |
航天测量信息实时质量分析方法;段慧芬等;《兵工自动化》;20180115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109902084A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902084B (zh) | 一种全自动检测与分析数据质量的系统及方法 | |
WO2020001642A1 (zh) | 一种运维系统及方法 | |
CN110928718B (zh) | 一种基于关联分析的异常处理方法、系统、终端及介质 | |
CN109711659B (zh) | 一种工业生产的良率提升管理系统和方法 | |
CN108521339B (zh) | 一种基于集群日志的反馈式节点故障处理方法及系统 | |
CN106649040A (zh) | 一种Weblogic中间件性能自动监控方法及装置 | |
CN106055618B (zh) | 一种基于网络爬虫与结构化存储的数据处理方法 | |
CN108345670B (zh) | 一种用于95598电力工单的服务热点发现方法 | |
CN111259073A (zh) | 基于日志、流量和业务访问的业务系统运行状态智能研判系统 | |
Zhang et al. | A survey on quality assurance techniques for big data applications | |
CN111666978B (zh) | 一种it系统运维大数据的智能故障预警系统 | |
WO2020259391A1 (zh) | 一种数据库脚本性能测试的方法及装置 | |
CN116483903A (zh) | 一种面向多源异构数据源的全链路数据血缘关系识别方法 | |
CN115657890A (zh) | 一种pra机器人可定制方法 | |
CN112598142B (zh) | 一种风电机组检修工作质量审查辅助方法与系统 | |
CN114817171B (zh) | 一种埋点数据质量治理方法 | |
CN115543820A (zh) | 一种基于tesseract-orc的软件自动化测试方法及系统 | |
CN115587312A (zh) | 一种基于多维大数据分析的故障点定位方法和系统 | |
CN114331688A (zh) | 一种银行柜面系统业务批量运行状态检测方法及装置 | |
CN113609015A (zh) | 一种基于Bash Shell的自动化测试框架 | |
CN113988064A (zh) | 一种半自动实体标注监督方法 | |
CN113537942A (zh) | 一种提高样本标记数量的方法及系统 | |
CN112184691A (zh) | 一种基于不良Map图的缺陷模式分析方法 | |
CN117708720B (zh) | 一种基于知识图谱的设备故障诊断系统 | |
Li et al. | An Empirical Study of the Bug Link Rate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |