CN111143623A - 一种大数据环境下的数据质量监控方法 - Google Patents

一种大数据环境下的数据质量监控方法 Download PDF

Info

Publication number
CN111143623A
CN111143623A CN201911422347.4A CN201911422347A CN111143623A CN 111143623 A CN111143623 A CN 111143623A CN 201911422347 A CN201911422347 A CN 201911422347A CN 111143623 A CN111143623 A CN 111143623A
Authority
CN
China
Prior art keywords
data
quality
evaluation
data quality
acquisition point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911422347.4A
Other languages
English (en)
Inventor
廖雅哲
陈思恩
杨紫胜
吴炎泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tech Valley Xiamen Information Technology Co ltd
Original Assignee
Tech Valley Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tech Valley Xiamen Information Technology Co ltd filed Critical Tech Valley Xiamen Information Technology Co ltd
Priority to CN201911422347.4A priority Critical patent/CN111143623A/zh
Publication of CN111143623A publication Critical patent/CN111143623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

本发明公开了一种大数据环境下的数据质量监控方法,其基于数据服务端、数据接收端及数据质量端,所述数据质量端具有数据采集点,该方法包括以下步骤:定义数据质量评价规则,所述数据质量评价规则包括完整性评价规则、一致性评价规则及准确性评价规则;数据质量端利用数据采集点采集数据;数据采集点针对采集到数据,通过进行数据长度统计生成数据长度结果,通过进行MD5编码生成编码数据;数据采集点将数据长度结果和编码数据上传至数据质量端;数据质量端基于数据质量评价规则,利用Flink技术对数据完整性进行计算,对数据一致性进行匹配,对数据准确性进行检查,生成最终评价结果;数据质量端对最终评价结果进行存储,并对有误数据进行提醒。

Description

一种大数据环境下的数据质量监控方法
技术领域
本发明涉及大数据处理技术领域,特别涉及一种大数据环境下的数据质量监控方法。
背景技术
企业在进行市场情报调研、客户关系维护、财务报表展现、战略决策支持等,都需要信息系统进行数据的搜集、分析、知识发现,为决策者提供充足且准确的情报和资料。数据质量问题是影响信息系统运行的关键因素,直接关系到信息系统建设的成败。根据“垃圾进,垃圾出”的原理,为了使信息系统建设取得预期效果,达到数据决策的目标,就要求信息系统提供的数据是可靠的,能够准确反应客观事实。数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也不断诞生,这些都对大数据下的数据质量管理带来了困难和挑战。如何实现对数据质量的有效监控,是目前亟待解决的问题。
发明内容
为解决上述问题,本发明提供了一种大数据环境下的数据质量监控方法。
本发明采用以下技术方案:
一种大数据环境下的数据质量监控方法,其基于数据服务端、数据接收端及数据质量端,所述数据服务端为数据集市,所述数据接收端为数据服务请求方,所述数据质量端具有部署于数据服务端、数据接收端的数据采集点,该方法包括以下步骤:
S1、定义数据质量评价规则,所述数据质量评价规则包括完整性评价规则、一致性评价规则及准确性评价规则;
S2、数据服务端推送数据或数据接收端请求数据时,数据质量端利用数据采集点采集数据;
S3、数据采集点针对采集到数据,通过进行数据长度统计生成数据长度结果,通过进行MD5编码生成编码数据;
S4、数据采集点将数据长度结果和编码数据上传至数据质量端;
S5、数据质量端基于数据质量评价规则,利用Flink技术对数据完整性进行计算,对数据一致性进行匹配,对数据准确性进行检查,生成最终评价结果;
S6、数据质量端对最终评价结果进行存储,并对有误数据进行提醒。
优选地,步骤S5中所述的对数据准确性进行检查具体为:对数据的编码进行检查,判断数据中是否存在乱码。
优选地,所述步骤S1还包括定义数据采集规则,所述数据采集规则具体为:
数据交互服务之前,对即将交互的数据进行采集,并进行数据长度统计和MD5编码,同时对数据进行乱码检查;
数据交互服务之后,对交互后的数据进行采集,并进行数据长度统计和MD5编码,同时对数据进行乱码检查;
所述步骤S3中的数据长度统计和MD5编码基于所述数据采集规则进行。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明通过建立数据采集规则和评价规则,对数据交互服务过程中的数据完整性、一致性和准确性进行评价,能够实现对数据质量的有效监控。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
参考图1所示,本发明公开了一种大数据环境下的数据质量监控方法,其基于数据服务端、数据接收端及数据质量端,所述数据服务端为数据集市,所述数据接收端为数据服务请求方,所述数据质量端具有部署于数据服务端、数据接收端的数据采集点,该方法包括以下步骤:
S1、定义数据质量评价规则,所述数据质量评价规则包括完整性评价规则、一致性评价规则及准确性评价规则。定义数据采集规则,所述数据采集规则具体为:
数据交互服务之前,对即将交互的数据进行采集,并进行数据长度统计和MD5编码,同时对数据进行乱码检查;
数据交互服务之后,对交互后的数据进行采集,并进行数据长度统计和MD5编码,同时对数据进行乱码检查。
S2、数据服务端推送数据或数据接收端请求数据时,数据质量端利用数据采集点采集数据。
S3、数据采集点针对采集到数据,通过进行数据长度统计生成数据长度结果,通过进行MD5编码生成编码数据。
S4、数据采集点将数据长度结果和编码数据上传至数据质量端。
S5、数据质量端基于数据质量评价规则,利用Flink技术对数据完整性进行计算,对数据一致性进行匹配,对数据准确性进行检查,生成最终评价结果。对数据准确性进行检查具体为:对数据的编码进行检查,判断数据中是否存在乱码。
S6、数据质量端对最终评价结果进行存储,并对有误数据进行提醒。
通过以上描述可以看出,本发明通过建立数据采集规则和评价规则,对数据交互服务过程中的数据完整性、一致性和准确性进行评价,能够实现对数据质量的有效监控,这样配合数据质量的持续改进工作机制,可以实现质量问题原因的定位、处理和跟踪,对发现的问题及时作出反应,追溯问题原因和形成机制,根据问题种类采取相应的改进措施,并持续跟踪验证改进之后的数据质量提升效果,形成正反馈,达到数据质量持续改良的效果。在源头建立数据标准或接入标准,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,尽量做到在哪发现问题就在哪解决问题,不把问题数据带到后端。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种大数据环境下的数据质量监控方法,其基于数据服务端、数据接收端及数据质量端,所述数据服务端为数据集市,所述数据接收端为数据服务请求方,所述数据质量端具有部署于数据服务端、数据接收端的数据采集点,该方法包括以下步骤:
S1、定义数据质量评价规则,所述数据质量评价规则包括完整性评价规则、一致性评价规则及准确性评价规则;
S2、数据服务端推送数据或数据接收端请求数据时,数据质量端利用数据采集点采集数据;
S3、数据采集点针对采集到数据,通过进行数据长度统计生成数据长度结果,通过进行MD5编码生成编码数据;
S4、数据采集点将数据长度结果和编码数据上传至数据质量端;
S5、数据质量端基于数据质量评价规则,利用Flink技术对数据完整性进行计算,对数据一致性进行匹配,对数据准确性进行检查,生成最终评价结果;
S6、数据质量端对最终评价结果进行存储,并对有误数据进行提醒。
2.如权利要求1所述的一种大数据环境下的数据质量监控方法,其特征在于,步骤S5中所述的对数据准确性进行检查具体为:对数据的编码进行检查,判断数据中是否存在乱码。
3.如权利要求1所述的一种大数据环境下的数据质量监控方法,其特征在于,所述步骤S1还包括定义数据采集规则,所述数据采集规则具体为:
数据交互服务之前,对即将交互的数据进行采集,并进行数据长度统计和MD5编码,同时对数据进行乱码检查;
数据交互服务之后,对交互后的数据进行采集,并进行数据长度统计和MD5编码,同时对数据进行乱码检查;
所述步骤S3中的数据长度统计和MD5编码基于所述数据采集规则进行。
CN201911422347.4A 2019-12-31 2019-12-31 一种大数据环境下的数据质量监控方法 Pending CN111143623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911422347.4A CN111143623A (zh) 2019-12-31 2019-12-31 一种大数据环境下的数据质量监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911422347.4A CN111143623A (zh) 2019-12-31 2019-12-31 一种大数据环境下的数据质量监控方法

Publications (1)

Publication Number Publication Date
CN111143623A true CN111143623A (zh) 2020-05-12

Family

ID=70523060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911422347.4A Pending CN111143623A (zh) 2019-12-31 2019-12-31 一种大数据环境下的数据质量监控方法

Country Status (1)

Country Link
CN (1) CN111143623A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760882A (zh) * 2021-11-10 2021-12-07 北京每日菜场科技有限公司 数据异常报警方法、装置、电子设备和计算机可读介质
CN115392811A (zh) * 2022-10-31 2022-11-25 成都飞机工业(集团)有限责任公司 一种主数据质量评价方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100005346A1 (en) * 2008-07-03 2010-01-07 Sabine Hamlescher System and method for integrating data quality metrics into enterprise data management processes
CN101894319A (zh) * 2010-06-28 2010-11-24 中国烟草总公司湖南省公司 一种烟草企业数据质量管理系统及方法
CN103034738A (zh) * 2012-12-29 2013-04-10 天津南大通用数据技术有限公司 用于管理异构非结构化数据的关系型数据库及其创建和查询非结构化数据描述信息的方法
CN105139296A (zh) * 2015-10-12 2015-12-09 国家电网公司 一种电网业务数据全生命周期质量管理系统
CN105741196A (zh) * 2016-03-01 2016-07-06 万达信息股份有限公司 一种基于四个维度进行数据质量监测及评价方法
CN109144990A (zh) * 2018-09-03 2019-01-04 国网浙江省电力有限公司信息通信分公司 一种基于元数据驱动的电力通信大数据质量管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100005346A1 (en) * 2008-07-03 2010-01-07 Sabine Hamlescher System and method for integrating data quality metrics into enterprise data management processes
CN101894319A (zh) * 2010-06-28 2010-11-24 中国烟草总公司湖南省公司 一种烟草企业数据质量管理系统及方法
CN103034738A (zh) * 2012-12-29 2013-04-10 天津南大通用数据技术有限公司 用于管理异构非结构化数据的关系型数据库及其创建和查询非结构化数据描述信息的方法
CN105139296A (zh) * 2015-10-12 2015-12-09 国家电网公司 一种电网业务数据全生命周期质量管理系统
CN105741196A (zh) * 2016-03-01 2016-07-06 万达信息股份有限公司 一种基于四个维度进行数据质量监测及评价方法
CN109144990A (zh) * 2018-09-03 2019-01-04 国网浙江省电力有限公司信息通信分公司 一种基于元数据驱动的电力通信大数据质量管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760882A (zh) * 2021-11-10 2021-12-07 北京每日菜场科技有限公司 数据异常报警方法、装置、电子设备和计算机可读介质
CN113760882B (zh) * 2021-11-10 2022-01-28 北京每日菜场科技有限公司 数据异常报警方法、装置、电子设备和计算机可读介质
CN115392811A (zh) * 2022-10-31 2022-11-25 成都飞机工业(集团)有限责任公司 一种主数据质量评价方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11138056B2 (en) System and method for unsupervised prediction of machine failures
US11243524B2 (en) System and method for unsupervised root cause analysis of machine failures
US20220300857A1 (en) System and method for validating unsupervised machine learning models
US11669083B2 (en) System and method for proactive repair of sub optimal operation of a machine
US11442444B2 (en) System and method for forecasting industrial machine failures
CN105120217A (zh) 基于大数据分析和用户反馈的智能摄像机移动侦测报警系统及方法
US20180307218A1 (en) System and method for allocating machine behavioral models
CN111143623A (zh) 一种大数据环境下的数据质量监控方法
CN109374631B (zh) 一种隧道状态评测方法
US20150066431A1 (en) Use of partial component failure data for integrated failure mode separation and failure prediction
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
US11733688B2 (en) System and method for recognizing and forecasting anomalous sensory behavioral patterns of a machine
CN110263229B (zh) 一种基于数据湖的数据治理方法及装置
CN117473048B (zh) 基于数据挖掘的财务异常数据监测分析系统及方法
CN110659289A (zh) 一种物资质量检测试验报告管理方法及系统
CN115150248A (zh) 网络流量异常检测方法、装置、电子设备和存储介质
CN110888782A (zh) 设备处理方法、系统、电子设备及计算机可读存储介质
CN116660761A (zh) 一种锂离子电池检测方法及系统
CN116308295A (zh) 一种工业生产数据管理方法及系统
CN116595353A (zh) 一种调相机远程故障诊断及智能决策系统
CN105681712A (zh) 视频数据处理方法和装置
CN114662856A (zh) 一种大型轧机状态跟踪方法和系统
CN114066181A (zh) 一种热工设备智能状态评估系统
EP3604195A1 (en) Method, system and computer program product for predicting failure of a noise-emitting apparatus
CN117971605B (zh) 基于数据库异常的自动化日志信息收集方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination