CN113986900A - 数据质量问题分级处理方法、存储介质及系统 - Google Patents

数据质量问题分级处理方法、存储介质及系统 Download PDF

Info

Publication number
CN113986900A
CN113986900A CN202111257519.4A CN202111257519A CN113986900A CN 113986900 A CN113986900 A CN 113986900A CN 202111257519 A CN202111257519 A CN 202111257519A CN 113986900 A CN113986900 A CN 113986900A
Authority
CN
China
Prior art keywords
data
quality
quality problem
data quality
check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111257519.4A
Other languages
English (en)
Inventor
高伟
李劲松
郑维彬
周宇
谢桂明
陈韩霏
兰天
林俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xin'an Data Co ltd
Original Assignee
Guangzhou Xin'an Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xin'an Data Co ltd filed Critical Guangzhou Xin'an Data Co ltd
Priority to CN202111257519.4A priority Critical patent/CN113986900A/zh
Publication of CN113986900A publication Critical patent/CN113986900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据质量问题分级处理方法、存储介质及系统,该方法包括如下步骤:获取存储在数据库中的多个数据;获取预设的多个不同的数据质量检查规则;对获取到的每个数据,利用多个不同的数据质量检查规则进行多次数据质量检查,得到多个数据质量检查结果;对各个数据质量检查结果分别赋予不同的权重系数;获取各个数据的多个数据质量检查结果当中的不通过结果,对各个数据,将其不通过结果所对应的数据质量检查规则的权重系数进行加权计算,得到加权得分;根据加权得分定义各个数据的质量问题级别;根据各个数据的质量问题级别,对多个数据进行优先级排序;按照各个数据的优先级排序名次,依次对各个数据执行质量问题处理任务。

Description

数据质量问题分级处理方法、存储介质及系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据质量问题分级处理方法、存储介质及系统。
背景技术
大数据采集技术,是指将数据采集存储在数据库中的技术。在数据采集过程中,需对数据进行ETL操作(Extract-Transform-Load,即抽取、转换、加载)以对运行数据进行清洗处理,为确保经ETL操作后采集到数据库中的数据能保持高质量,目前通常采用数据质量检查系统对数据库中的数据进行质量检查。数据质量检查系统中通常预设有多个数据质量检查规则,例如及时性检查规则、一致性检查规则、完整性检查规则等,利用这些数据质量检查规则可对数据进行及时性、一致性、完整性等数据质量检查,然后执行质量问题处理任务以修复数据库中检查不通过的数据(质量问题处理任务例如是对数据进行删除、替换或填充的数据质量修复任务),使数据库中的数据能保持高质量。
在有数据出现较多质量问题的情况下,如果该数据被其他系统提取使用,就可能会造成较为严重的错误影响,因此需要对出现较多质量问题的数据及时进行修复。但是,如果数据库中出现质量问题的数据较多,数据整体修复耗时就会比较久,因此难以及时对出现多个质量问题的数据进行修复。
发明内容
本发明要解决的技术问题是如何及时对数据库中出现较多质量问题的数据进行修复。
为解决上述技术问题,本发明提供一种数据质量问题分级处理方法,包括如下步骤:
A.获取存储在数据库中的多个数据;
B.获取预设的多个不同的数据质量检查规则;
C.对获取到的每个数据,利用所述多个不同的数据质量检查规则进行多次数据质量检查,得到多个数据质量检查结果;
D.按照数据质量检查规则的不同类型,对各个数据质量检查结果分别赋予不同的权重系数;
E.获取各个数据的多个数据质量检查结果当中的不通过结果;
F.对各个数据,将其不通过结果所对应的数据质量检查规则的权重系数进行加权计算,得到加权得分;
G.根据所述加权得分定义各个数据的质量问题级别;
H.根据各个数据的质量问题级别,对所述多个数据进行优先级排序;
I.按照各个数据的优先级排序名次,依次对各个数据执行质量问题处理任务。
优选地,所述步骤G中,某个数据的加权得分越高,该数据的质量问题级别越高。
优选地,所述步骤H中,某个数据的质量问题级别越高,该数据的优先级排序名次越靠前。
优选地,所述步骤I具体地:按照各个数据的优先级排序名次,由前至后对各个数据执行质量问题处理任务。
优选地,所述质量问题处理任务具体是对数据进行删除、替换或填充。
优选地,所述预设的多个不同的数据质量检查规则包括及时性检查规则、一致性检查规则和完整性检查规则当中的至少两个。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据质量问题分级处理方法中的步骤。
本发明还提供一种数据质量问题分级处理系统,包括服务器和数据采集模块,所述服务器经所述数据采集模块获取存储在数据库中的数据,所述服务器包括相互连接的计算机可读存储介质和处理器,,计算机可读存储介质如上所述。
本发明具有以下有益效果:各个数据当中,某个数据的多个数据质量检查结果当中不通过的数量越多,意味着该数据出现的质量问题越多,故该数据的质量问题级别越高,在按照各个数据的质量问题级别对多个数据进行优先级排序之后,质量问题级别越高的数据,其优先级排序名次就越靠前,因此,按照各个数据的优先级排序名次依次对各个数据执行质量问题处理任务,就能优先对质量问题级别较高的数据执行质量问题处理任务,即能优先对出现较多质量问题的数据执行质量问题处理任务,从而能及时对数据库中出现较多质量问题的数据进行修复。
附图说明
图1是数据质量问题分级处理方法的流程示意图。
具体实施方式
以下结合具体实施方式对本发明创造作进一步详细说明。
本实施例提供一种数据质量问题分级处理系统,该数据质量问题分级处理系统包括服务器和数据采集模块,服务器经数据采集模块获取存储在数据库中的数据,该服务器包括相互连接的计算机可读存储介质和处理器,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时实现如图1所示的数据质量问题分级处理方法,该数据质量问题分级处理方法具体包括如下步骤A、B、C、D、E、F。
A.获取存储在数据库中的多个数据。
本实施例中,数据库存储有经ETL操作(Extract-Transform-Load,即抽取、转换、加载)后的多个数据,服务器经数据采集模块获取存储在数据库中的数据。其中,数据采集模块是现有常规的通信模块,在此不赘述其具体结构和工作原理。
B.获取预设的多个不同的数据质量检查规则。
为确保经ETL操作后的多个数据能保持高质量,服务器获取预设的多个不同的数据质量检查规则,利用这些数据质量检查规则对获取到的多个数据进行质量检查。本实施例中,预设的数据质量检查规则有不同的三个,分别是及时性检查规则、一致性检查规则和完整性检查规则,服务器在对数据进行质量检查之前,获取上述三个预设的数据质量检查规则。其中:及时性检查规则是检查数据从产生到可以查看的时间间隔,若该时间间隔小于预设值,则及时性检查结果为通过,若该时间间隔不小于预设值,则及时性检查结果为不通过;一致性检查规则是在相同的时间点,检查来自不同数据源的同一份数据是否一致,若一致则一致性检查结果为通过,若不一致则一致性检查结果为不通过;完整性检查规则是检查数据库中相应的数据是否有缺失或为空数据(null),若相应的数据没有缺失且不为空数据,则完整性检查结果为通过,若相应的数据有缺失或为空数据,则完整性检查结果为不通过。
在其他实施例中,预设的多个不同的数据质量检查规则包括及时性检查规则、一致性检查规则和完整性检查规则当中的两个。
C.对获取到的每个数据,利用多个不同的数据质量检查规则进行多次数据质量检查,得到多个数据质量检查结果。
在获取到多个数据和三个数据质量检查规则之后:利用及时性检查规则检查每个数据从产生到可以查看的时间间隔是否小于预设值,若小于则及时性检查结果为通过,若不小于则及时性检查结果为不通过;利用一致性检查规则在相同的时间点,检查来自不同数据源的同一份数据是否一致,若一致则一致性检查结果为通过,若不一致则一致性检查结果为不通过;利用完整性检查规则检查每个数据是否有缺失或为空数据,若数据没有缺失且不为空数据,则完整性检查结果为通过,若数据有缺失或为空数据,则完整性检查结果为不通过。
这样,在对每个数据分别进行及时性检查、一致性检查和完整性检查之后,每个数据就会有三个数据质量检查结果,这三个数据质量检查结果分别是通过或不通过。
D.按照数据质量检查规则的不同类型,对各个数据质量检查结果分别赋予不同的权重系数。
本实施例中,根据不同数据质量检查规则所得到的不通过检查结果重要性不同,故按照数据质量检查规则的不同类型,对各个数据质量检查结果分别赋予不同的权重系数。具体地,及时性检查结果的权重系数为0.5,一致性检查结果的权重系统为1,完整性检查结果的权重系数为2。
E.获取各个数据的多个数据质量检查结果当中的不通过结果;
在对每个数据进行三次质量检查得到三个数据质量检查结果之后,获取数据的三个数据质量检查结果当中的不通过结果。
以数据a、b、c、d为例:数据a的及时性检查结果和一致性检查结果为通过、完整性检查结果为不通过,即数据a的三个数据质量检查结果当中的不通过结果为完整性检查结果;数据b的及时性检查结果、一致性检查结果和完整性检查结果都为不通过,即数据b的三个数据质量检查结果当中的不通过结果为及时性检查结果、一致性检查结果和完整性检查结果;数据c的及时性检查结果、一致性检查结果和完整性检查结果都为通过,即数据c的三个数据质量检查结果当中没有不通过结果;数据d的完整性检查结果为通过、及时性检查结果和一致性检查结果为不通过,即数据d的三个数据质量检查结果当中的不通过结果为及时性检查结果和一致性检查结果。
F.对各个数据,将其不通过结果所对应的数据质量检查规则的权重系数进行加权计算,得到加权得分。
本实施例中,数据a的不通过结果为完整性检查结果,其权重系数为2,故进行加权计算后得到数据a的加权得分为2;数据b的不通过结果为及时性检查结果、一致性检查结果和完整性检查结果,其权重系数分别是0.5、1、2,故进行加权计算后得到数据b的加权得分为0.5+1+2=3.5;数据c没有不通过结果,故数据c的加权得分为0;数据d的不通过结果为及时性检查结果和一致性检查结果,其权重系数分别是0.5、1,故进行加权计算后得到数据d的加权得分为0.5+1=1.5。
G.根据加权得分定义各个数据的质量问题级别。
在计算得出各个数据的加权得分之后,根据该加权得分定义各个数据的质量问题级别,其中,某个数据的加权得分越高,该数据的质量问题级别越高。
以数据a、b、c、d为例:数据a的加权得分为2,数据b的加权得分为3.5,数据c的加权得分为0,数据d的加权得分为1.5。因此,根据数据a、b、c、d各自的加权得分,可将数据c的质量问题级别定义为级别一,将数据d的质量问题级别定义为级别二,将数据a的质量问题级别定义为级别三,将数据b的质量问题级别定义为级别四。
H.根据各个数据的质量问题级别,对多个数据进行优先级排序。
本实施例中,某个数据的质量问题级别越高,该数据的优先级排序名次越靠前,从上文以数据a、b、c、d为例进行质量问题级别定义的例子可得知,数据c的质量问题级别为级别一,数据d的质量问题级别为级别二,数据a的质量问题级别为级别三,数据b的质量问题级别为级别四,因此根据数据a、b、c、d的质量问题级别由高至低对数据a、b、c、d进行优先级排序的名次为数据b、数据a、数据d、数据c。
I.按照各个数据的优先级排序名次,依次对各个数据执行质量问题处理任务。
在得到优先级排序名次为数据b、数据a、数据d、数据c之后,按照该优先级排序名次由前至后对各个数据执行质量问题处理任务,即优先对数据b执行质量问题处理任务,然后对数据a执行质量问题处理任务,然后对数据d执行质量问题处理任务,而因为数据c的数据质量检查结果都为通过,所以无需对数据c执行质量问题处理任务。其中,质量问题处理任务例如是对数据进行删除、替换或填充的数据质量修复任务,分别用于删除错误值、以正确值替换错误值、填充缺失值或空数据值。
这样,服务器就能优先对质量问题级别较高的数据b执行质量问题处理任务,即能优先对出现较多质量问题的数据b执行质量问题处理任务,从而能及时对数据库中出现较多质量问题的数据b进行修复,能尽量避免出现较多质量问题的数据b被其他系统提取使用而造成较为严重的错误影响。
如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。

Claims (8)

1.数据质量问题分级处理方法,其特征是,包括如下步骤:
A.获取存储在数据库中的多个数据;
B.获取预设的多个不同的数据质量检查规则;
C.对获取到的每个数据,利用所述多个不同的数据质量检查规则进行多次数据质量检查,得到多个数据质量检查结果;
D.按照数据质量检查规则的不同类型,对各个数据质量检查结果分别赋予不同的权重系数;
E.获取各个数据的多个数据质量检查结果当中的不通过结果;
F.对各个数据,将其不通过结果所对应的数据质量检查规则的权重系数进行加权计算,得到加权得分;
G.根据所述加权得分定义各个数据的质量问题级别;
H.根据各个数据的质量问题级别,对所述多个数据进行优先级排序;
I.按照各个数据的优先级排序名次,依次对各个数据执行质量问题处理任务。
2.根据权利要求1所述的数据质量问题分级处理方法,其特征是,所述步骤G中,某个数据的加权得分越高,该数据的质量问题级别越高。
3.根据权利要求2所述的数据质量问题分级处理方法,其特征是,所述步骤H中,某个数据的质量问题级别越高,该数据的优先级排序名次越靠前。
4.根据权利要求3所述的数据质量问题分级处理方法,其特征是,所述步骤I具体地:按照各个数据的优先级排序名次,由前至后对各个数据执行质量问题处理任务。
5.根据权利要求1所述的数据质量问题分级处理方法,其特征是,所述质量问题处理任务是对数据进行删除、替换或填充的数据质量修复任务。
6.根据权利要求1所述的数据质量问题分级处理方法,其特征是,所述预设的多个不同的数据质量检查规则包括及时性检查规则、一致性检查规则和完整性检查规则当中的至少两个。
7.计算机可读存储介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据质量问题分级处理方法中的步骤。
8.数据质量问题分级处理系统,包括服务器和数据采集模块,所述服务器经所述数据采集模块获取存储在数据库中的数据,所述服务器包括相互连接的计算机可读存储介质和处理器,其特征是,计算机可读存储介质如权利要求7所述。
CN202111257519.4A 2021-10-27 2021-10-27 数据质量问题分级处理方法、存储介质及系统 Pending CN113986900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111257519.4A CN113986900A (zh) 2021-10-27 2021-10-27 数据质量问题分级处理方法、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111257519.4A CN113986900A (zh) 2021-10-27 2021-10-27 数据质量问题分级处理方法、存储介质及系统

Publications (1)

Publication Number Publication Date
CN113986900A true CN113986900A (zh) 2022-01-28

Family

ID=79742753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111257519.4A Pending CN113986900A (zh) 2021-10-27 2021-10-27 数据质量问题分级处理方法、存储介质及系统

Country Status (1)

Country Link
CN (1) CN113986900A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438036A (zh) * 2022-11-10 2022-12-06 广州信安数据有限公司 电网统一指标库数据冗余处理系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438036A (zh) * 2022-11-10 2022-12-06 广州信安数据有限公司 电网统一指标库数据冗余处理系统及方法

Similar Documents

Publication Publication Date Title
CN102236672B (zh) 一种数据导入方法及装置
CN110781231A (zh) 基于数据库的批量导入方法、装置、设备及存储介质
CN110645153B (zh) 风力发电机组故障诊断方法、装置和电子设备
CN104252481A (zh) 主从数据库一致性的动态校验方法和装置
US6708185B2 (en) SQL execution analysis
CN115167891B (zh) 接口控制文件的数据更新方法、装置、设备及存储介质
DE112018008228T5 (de) Fehlerdiagnoseeinrichtung, Fehlerdiagnoseverfahren, Fehlerdiagnoseprogramm und Aufzeichnungsmedium
CN113986900A (zh) 数据质量问题分级处理方法、存储介质及系统
CN113392000B (zh) 测试用例执行结果分析方法、装置、设备及存储介质
CN116701381B (zh) 一种分布式数据采集入库用的多级校验系统及校验方法
CN111125078A (zh) 一种继电保护装置缺陷数据修正方法
CN112561388A (zh) 一种基于物联网的信息处理方法、装置及设备
CN111563031A (zh) 一种游戏资源查验方法、系统、存储介质以及计算设备
CN115687359A (zh) 数据表分区方法及装置、存储介质、计算机设备
CN113495831B (zh) 基于关键字生成测试用例的方法、系统、设备及介质
CN115409416A (zh) 一种航天产品质量问题关联度分析方法及装置
CN116414587A (zh) 故障数据获取方法、故障处理方法、电子设备及存储介质
CN109685453B (zh) 智能识别工作流有效路径的方法
CN114116470A (zh) 一种自动化的静态模型检查方法及装置
CN113986899A (zh) 数据质量检查方法、存储介质及系统
CN112612773A (zh) 数据库同步测试方法、装置、计算机设备及存储介质
CN112162528A (zh) 一种数控机床的故障诊断方法、装置、设备和存储介质
CN112860490B (zh) 一种基于Docker容器故障恢复的属性权重快照选择方法
CN112347095B (zh) 数据表的处理方法、装置和服务器
CN115576851B (zh) 一种结合动态切片的软件多故障聚类定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination