CN116069775B - 一种数据仓库的数据质量校验系统及校验方法 - Google Patents

一种数据仓库的数据质量校验系统及校验方法 Download PDF

Info

Publication number
CN116069775B
CN116069775B CN202310354204.4A CN202310354204A CN116069775B CN 116069775 B CN116069775 B CN 116069775B CN 202310354204 A CN202310354204 A CN 202310354204A CN 116069775 B CN116069775 B CN 116069775B
Authority
CN
China
Prior art keywords
library
data
early warning
quality monitoring
check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310354204.4A
Other languages
English (en)
Other versions
CN116069775A (zh
Inventor
康珊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai 2345 Network Technology Co ltd
Original Assignee
Shanghai 2345 Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai 2345 Network Technology Co ltd filed Critical Shanghai 2345 Network Technology Co ltd
Priority to CN202310354204.4A priority Critical patent/CN116069775B/zh
Publication of CN116069775A publication Critical patent/CN116069775A/zh
Application granted granted Critical
Publication of CN116069775B publication Critical patent/CN116069775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据仓库的数据质量校验系统及校验方法,包括:ODBC配置模块,用于对不同的数据仓库配置不同的ODBC数据驱动,连接不同的数据仓库;校验表生成模块,用于配置数据仓库的库表,生成校验表;预警表生成模块,用于配置数据仓库的库表,生成预警表;数据校验引擎,用于调用所述校验表,并生成数据质量监控表;元数据单元,用于存储校验表、预警表,以及数据质量监控表;数据预警引擎,用于调用预警表和数据质量监控表,并关联预警表中待校验的库表和数据质量监控表中待校验的库表,对待校验的库表进行校验。本发明能够第一时间获取具体某库表数据不一致问题,提高数据处理的效率。

Description

一种数据仓库的数据质量校验系统及校验方法
技术领域
本发明数据仓库技术领域,尤其是涉及一种数据仓库的数据质量校验系统及校验方法。
背景技术
面对开发人员不足的情况下,数据仓库的数据质量能够有效提高开发人员数据处理的效率。现有技术中,开发人员针对数据仓库的数据质量的校验往往存在定位数据不一致的情形,影响开发人员数据处理的效率。
发明内容
本发明提供了一种数据仓库的数据质量校验系统及校验方法的处理方法,以解决现有技术中数据仓库的数据质量的校验存在定位数据不一致的技术问题。
本发明的一个方面在于提供一种数据仓库的数据质量校验系统,所述数据质量校验系统包括:
ODBC配置模块,用于对不同的数据仓库配置不同的ODBC数据驱动,连接不同的数据仓库;
校验表生成模块,用于配置数据仓库的库表,生成校验表;预警表生成模块,用于配置数据仓库的库表,生成预警表;
数据校验引擎,用于调用所述校验表,并生成数据质量监控表;
元数据单元,用于存储所述校验表、所述预警表,以及所述数据质量监控表;
数据预警引擎,用于调用所述预警表和所述数据质量监控表,并关联预警表中待校验的库表和所述数据质量监控表中待校验的库表,对待校验的库表进行校验。
在一个优选的实施例中,所述校验表在Excel的第一工作页中生成,其中,所述校验表中以行排列多个库表;
所述预警表在Excel的第二工作页中生成,其中,所述预警表中以行排列多个库表;
所述数据质量监控表在Excel的第二工作页中生成,其中,所述数据质量监控表中以行排列多个库表。
在一个优选的实施例中,所述校验表中的每个库表至少包括第一校验ID;所述预警表中的每个库表至少包括第二校验ID;所述数据质量监控表的每个库表至少包括第三校验ID。
在一个优选的实施例中,数据预警引擎,根据预警表中的第二校验ID和所述数据质量监控表的第三校验ID,关联预警表中待校验的库表和数据质量监控表中待校验的库表。
在一个优选的实施例中,当所述数据质量监控表中待校验的库表的属性,与所述预警表中待校验的库表的属性不一致时,则进行预警。
本发明的另一个方面在于提供一种数据仓库的数据质量校验方法,所述校验方法包括如下方法步骤:
配置数据仓库的库表,生成校验表;校验表写入元数据单元;
数据校验引擎调用校验表,生成数据质量监控表;数据质量监控表写入元数据单元
配置数据仓库的数据表,生成预警表;预警表写入元数据单元;
数据预警引擎调用预警表和数据质量监控表,并关联预警表中待校验的库表和所述数据质量监控表中待校验的库表,对待校验的库表进行校验。
在一个优选的实施例中,数据仓库的库表,在Excel的第一工作页中生成校验表,其中,所述校验表中以行排列多个库表;
数据仓库的数据表,在Excel的第二工作页中生成预警表,其中,所述预警表中以行排列多个库表;
数据校验引擎调用校验表,在Excel的第三工作页中生成数据质量监控表,其中,所述数据质量监控表中以行排列多个库表。
在一个优选的实施例中,所述校验表中的库表至少包括第一校验ID;所述预警表中的每个库表至少包括第二校验ID;所述数据质量监控表中的每个库表至少包括第三校验ID。
在一个优选的实施例中,根据预警表中的第二校验ID和所述数据质量监控表的第三校验ID,关联预警表中待校验的库表和数据质量监控表中待校验的库表。
在一个优选的实施例中,当所述数据质量监控表中待校验的库表的属性,与所述预警表中待校验的库表的属性不一致时,则进行预警。
与现有技术相比,本发明具有以下有益效果:
本发明提供的一种数据仓库的数据质量校验系统及校验方法的处理方法,在Excel中生成校验表、预警表,通过VBA数据校验引擎,调用校验表,在Excel中生成数据质量监控表,由VBA数据预警引擎,调用预警表和数据质量监控表,并关联预警表中待校验的库表和数据质量监控表中待校验的库表,对待校验的库表进行校验,当数据质量监控表中待校验的库表的属性与预警表中待校验的库表的属性不一致时,则进行预警,能够第一时间获取具体某库表数据不一致问题,提高数据处理的效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数据仓库的数据质量校验系统的结构框图。
图2为本发明生成的校验表的示意图。
图3为本发明生成的预警表的示意图。
图4为本发明生成的校验质量监控表的示意图。
图5为本发明一种数据仓库的数据质量校验方法的流程示意图。
具体实施方式
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示本发明一种数据仓库的数据质量校验系统的结构框图,根据本发明的实施例,提供一种数据仓库的数据质量校验系统,包括:ODBC配置模块200、校验表生成模块300、预警表生成模块400、元数据单元500、数据校验引擎600和数据预警引擎700。
本发明通过提供的一种数据仓库的数据质量校验系统,对构建在数据库管理系统(database mangement system,DBMS)的数据仓库(database Data Warehouse,DW)中的库表进行校验。
本发明的实施例中,库表是指数据库管理系统(DBMS)中的数据仓库的数据表,简称库表。
数据仓库(DW)中的数据处理整体可以抽象为:输入和输出。数据仓库(DW)分为多层,如:操作数据层(ODS)、明细层(DWD)、汇总层(DWS)、应用层(ADS),每一层以库表(数据表)的形式存储/流转数据,不同层之间库表(数据表)流转通过输入和输出完成。在数据仓库中,不同层之间输入的库表(数据表)也称为数据源表,输出的库表(数据表)也称为目标表。
根据本发明的实施例,通过配置数据源100中不同的数据仓库的库表,对数据仓库的库表的输入和输出进行校验。如图1所示,本发明的实施例中,数据源100具有多个数据仓库:数据仓库A、数据仓库B、……、数据仓库N。通过配置数据源100多个数据仓库的库表,对数据仓库的库表的输入和输出进行校验。
根据本发明的实施例,ODBC配置模块200,用于对不同的数据仓库配置不同的ODBC数据驱动,连接不同的数据仓库。例如,对数据仓库A、数据仓库B、……、数据仓库N分别配置相应的ODBC(开放数据库互连),从而连接对应的数据仓库A、数据仓库B、……、数据仓库N。
校验表生成模块300,用于配置数据仓库的库表,生成校验表。预警表生成模块400,用于配置数据仓库的库表,生成预警表。
根据本发明的实施例,本发明ODBC配置模块200连接数据源100的多个数据仓库,配置数据源100的多个数据仓库中的库表,通过校验表生成模块300在Excel的工作页(sheet页)中生成校验表。
如图2所示本发明生成的校验表的示意图,本发明的实施例中,校验表在Excel的第一工作页中生成,校验表中以行排列多个库表,构成第一库表行阵列a00,例如,构成第一库表行阵列a00的多个库表为库表1、库表2、库表3库表4、……。
校验表中的每个库表的属性至少包括第一校验ID,例如库表1对应的第一校验ID为a1、库表2对应的第一校验ID为a2、库表3对应的第一校验ID为a3、库表4对应的第一校验ID为a4、……。
校验表中的每个库表的属性还包括记录数、汇总、维度、校验名称、限制条件、创建时间、更新时间、……。例如,库表1的属性分别为第一校验ID:a1、记录数:p_dt、汇总:process_cn、维度:p_dt、……。
根据本发明的实施例,本发明ODBC配置模块200连接数据源100的多个数据仓库,配置数据源100的多个数据仓库中的库表,通过预警表生成模块400在Excel的工作页(sheet页)中生成预警表。如图3所示本发明生成的预警表的示意图,本发明的实施例中,预警表在Excel的第二工作页中生成,预警表中以行排列多个库表,构成第二库表行阵列b00,例如,构成第二库表行阵列b00的多个库表为库表1、库表2、库表3库表4、……。
预警表中的每个库表的属性至少包括第二校验ID,例如库表1对应的第二校验ID为b1、库表2对应的第二校验ID为b3、库表3对应的第二校验ID为b3、库表4对应的第二校验ID为b4、……。
预警表中的每个库表的属性还包括预警等级、预警表达式、预警描述、……。例如,库表1的属性分别为第二校验ID:b1、预警等级:1、预警表达式:counts<>8、预警描述:obs_borvserc_lick、……。
根据本发明的实施例,元数据单元500,用于存储校验表、预警表,以及数据质量监控表(数据质量监控表在下文中阐述)。
校验表生成模块300生成的校验表写入元数据单元500,元数据单元500向校验表生成模块300提供查询功能。
校验表生成模块300通过调用Excel的VBA程序,生成目标校验SQL(结构化查询语言 Structured Query Language)脚本,将生成的校验表以校验SQL脚本的方式写入元数据单元500。
预警表生成模块400生成的预警表写入元数据单元500,元数据单元500向预警表生成模块400提供查询功能。
预警表生成模块400通过调用Excel的VBA程序,生成目标预警SQL(结构化查询语言 Structured Query Language)脚本,将生成的预警表以预警SQL脚本的方式写入元数据单元500。
根据本发明的实施例,数据校验引擎600,用于调用校验表,并生成数据质量监控表。元数据单元500向数据校验引擎600提供查询功能,数据校验引擎600通过查询元数据单元500中的校验表,生成数据质量监控表。
本发明的实施例中,数据校验引擎600为VBA数据校验引擎,通过执行Excel的VBA程序,调用元数据单元500中存储的校验表,生成数据质量监控表。数据校验引擎600通过调用Excel的VBA程序,生成目标数据质量监控SQL(结构化查询语言 Structured QueryLanguage)脚本,将生成的数据质量监控表以数据质量监控SQL脚本的方式写入元数据单元500。
如图4所示本发明生成的校验质量监控表的示意图,本发明的实施例中,数据质量监控表在Excel的第三工作页中生成,数据质量监控表中以行排列多个库表,构成第三库表行阵列c00,例如,构成第三库表行阵列c00的多个库表为库表1、库表2、库表3、库表4、……。
数据质量监控表中的每个库表的属性至少包括第三校验ID,例如库表1对应的第三校验ID为c1、库表2对应的第三校验ID为c2、库表3对应的第三校验ID为c3、库表4对应的第三校验ID为c4、……。
数据质量监控表中的每个库表的属性还包括录数、汇总、维度、校验名称、限制条件、创建时间、更新时间、……。例如,库表1的属性分别为第三校验ID:c1、记录数:p_dt、汇总:process_cn、维度:p_dt、……。
本发明中,校验表、预警表和数据质量监控表中,相同库表的第一校验ID、第二校验ID和第三校验ID均指向同一库表。
举例来说,库表1在校验表中对应的第一校验ID(a1)、库表1在预警标中对应的第二校验ID(b1)、库表1在数据质量监控表中对应的第三校验ID(c1),则第一校验ID(a1)、第二校验ID(b1)和第三校验ID(c1)均指向同一库表1。
根据本发明的实施例,数据预警引擎700,用于调用预警表和数据质量监控表,并关联预警表中待校验的库表和数据质量监控表中待校验的库表,对待校验的库表进行校验。
本发明的实施例中,数据预警引擎700为VBA数据校验引擎,元数据单元500向数据预警引擎700提供查询功能,数据预警引擎700通过查询元数据单元500中的联预警表和数据质量监控表,将预警表中待校验的库表和数据质量监控表中待校验的库表关联。
具体地,数据预警引擎700,根据预警表中的第二校验ID和数据质量监控表的第三校验ID,关联预警表中待校验的库表和数据质量监控表中待校验的库表。
举例来说,预警表中的第二校验ID为b1,其指向库表1,数据质量监控表的第三校验ID为c1,其指向库表1,则预警表中的库表1作为待校验的库表与数据质量监控表中的库表1作为待校验的库表进行关联。
根据本发明的实施例,当数据质量监控表中待校验的库表(例如库表1)的属性,与预警表中待校验的库表(例如库表1)的属性不一致时,则进行预警。
例如,当数据质量监控表中待校验的库表(例如库表1)的属性:记录数p_dt=0时,在预警表中待校验的库表(例如库表1)的属性预警表达式应当为counts=0。若在预警表中待校验的库表(例如库表1)的属性预警表达式为counts<>8,则此时数据质量监控表中待校验的库表(例如库表1)的属性,与预警表中待校验的库表(例如库表1)的属性不一致,对库表1进行预警,由开发人员检查不一致的原因。
在一个实施例中,同一数据仓库中不同层之间流转的库表进行校验。例如在数据仓库A中ODS层的库表(例如库表1)通过数据加工处理后生成DWD层的库表(例如库表1),则对该库表(库表1)进行校验。
在另一个实施例中,不同数据仓库中具有关联的相同层的库表进行校验。例如数据仓库A中DWD层的库表(例如库表2)与数据仓库B中DWD层的库表(例如库表2)具有一定的关联性,则对该库表(库表2)进行校验。
如图5所示本发明一种数据仓库的数据质量校验方法的流程示意图,根据本发明的实施例,提供一种数据仓库的数据质量校验方法,包括如下方法步骤:
步骤S101、数据源配置ODBC数据驱动。
ODBC配置模块200对数据源100的不同的数据仓库配置不同的ODBC数据驱动,连接不同的数据仓库。例如,对数据仓库A、数据仓库B、……、数据仓库N分别配置相应的ODBC(开放数据库互连),从而连接对应的数据仓库A、数据仓库B、……、数据仓库N。
步骤S102、配置数据仓库的库表,生成校验表。
ODBC配置模块200连接数据源100的多个数据仓库,配置数据源100的多个数据仓库中的库表,通过校验表生成模块300在Excel的工作页(sheet页)中生成校验表。
本发明的实施例中,数据仓库的库表,在Excel的第一工作页中生成校验表,校验表中以行排列多个库表,构成第一库表行阵列a00,例如,构成第一库表行阵列a00的多个库表为库表1、库表2、库表3库表4、……。
校验表中的每个库表的属性至少包括第一校验ID,例如库表1对应的第一校验ID为a1、库表2对应的第一校验ID为a2、库表3对应的第一校验ID为a3、库表4对应的第一校验ID为a4、……。
校验表中的每个库表的属性还包括记录数、汇总、维度、校验名称、限制条件、创建时间、更新时间、……。例如,库表1的属性分别为第一校验ID:a1、记录数:p_dt、汇总:process_cn、维度:p_dt、……。
步骤S103、校验表写入元数据单元。
校验表生成模块300生成的校验表写入元数据单元500。具体地,校验表生成模块300通过调用Excel的VBA程序,生成目标校验SQL(结构化查询语言 Structured QueryLanguage)脚本,将生成的校验表以校验SQL脚本的方式写入元数据单元500。
步骤S104、数据校验引擎调用校验表,生成数据质量监控表。
本发明的实施例中,数据校验引擎600为VBA数据校验引擎,通过执行Excel的VBA程序,调用元数据单元500中存储的校验表,生成数据质量监控表。数据校验引擎600通过调用Excel的VBA程序,生成目标数据质量监控SQL(结构化查询语言 Structured QueryLanguage)脚本,将生成的数据质量监控表以数据质量监控SQL脚本的方式写入元数据单元500。
本发明的实施例中,数据校验引擎调用校验表,在Excel的第三工作页中生成数据质量监控表,数据质量监控表中以行排列多个库表,构成第三库表行阵列c00,例如,构成第三库表行阵列c00的多个库表为库表1、库表2、库表3库表4、……。
数据质量监控表中的每个库表的属性至少包括第三校验ID,例如库表1对应的第三校验ID为c1、库表2对应的第三校验ID为c2、库表3对应的第三校验ID为c3、库表4对应的第三校验ID为c4、……。
数据质量监控表中的每个库表的属性还包括录数、汇总、维度、校验名称、限制条件、创建时间、更新时间、……。例如,库表1的属性分别为第三校验ID:c1、记录数:p_dt、汇总:process_cn、维度:p_dt、……。
步骤S105、数据质量监控表写入元数据单元。
数据校验引擎600通过调用Excel的VBA程序,生成目标数据质量监控SQL(结构化查询语言 Structured Query Language)脚本,将生成的数据质量监控表以数据质量监控SQL脚本的方式写入元数据单元500。
步骤S106、配置数据仓库的数据表,生成预警表。
ODBC配置模块200连接数据源100的多个数据仓库,配置数据源100的多个数据仓库中的库表,通过预警表生成模块400在Excel的工作页(sheet页)中生成预警表。
本发明的实施例中,数据仓库的数据表,在Excel的第二工作页中生成预警表,预警表中以行排列多个库表,构成第二库表行阵列b00,例如,构成第二库表行阵列b00的多个库表为库表1、库表2、库表3库表4、……。
预警表中的每个库表的属性至少包括第二校验ID,例如库表1对应的第二校验ID为b1、库表2对应的第二校验ID为b3、库表3对应的第二校验ID为b3、库表4对应的第二校验ID为b4、……。
预警表中的每个库表的属性还包括预警等级、预警表达式、预警描述、……。例如,库表1的属性分别为第二校验ID:b1、预警等级:1、预警表达式:counts<>8、预警描述:obs_borvserc_lick、……。
步骤S107、预警表写入元数据单元。
预警表生成模块400生成的预警表写入元数据单元500。具体地,预警表生成模块400通过调用Excel的VBA程序,生成目标预警SQL(结构化查询语言 Structured QueryLanguage)脚本,将生成的预警表以预警SQL脚本的方式写入元数据单元500。
本发明中,校验表、预警表和数据质量监控表中,相同库表的第一校验ID、第二校验ID和第三校验ID均指向同一库表。
举例来说,库表1在校验表中对应的第一校验ID(a1)、库表1在预警表中对应的第二校验ID(b1)、库表1在数据质量监控表中对应的第三校验ID(c1),则第一校验ID(a1)、第二校验ID(b1)和第三校验ID(c1)均指向同一库表1。
步骤S108、数据预警引擎调用预警表和数据质量监控表,并关联预警表中待校验的库表和数据质量监控表中待校验的库表,对待校验的库表进行校验。
本发明的实施例中,数据预警引擎700为VBA数据校验引擎,元数据单元500并向数据预警引擎700提供查询功能,数据预警引擎700通过查询元数据单元500中的联预警表和数据质量监控表,将预警表中待校验的库表和数据质量监控表中待校验的库表关联。
具体地,数据预警引擎700,根据预警表中的第二校验ID和数据质量监控表的第三校验ID,关联预警表中待校验的库表和数据质量监控表中待校验的库表。
根据本发明的实施例,当数据质量监控表中待校验的库表(例如库表1)的属性,与预警表中待校验的库表(例如库表1)的属性不一致时,则进行预警。
例如,当数据质量监控表中待校验的库表(例如库表1)的属性:记录数p_dt=0时,在预警表中待校验的库表(例如库表1)的属性预警表达式应当为counts=0。若在预警表中待校验的库表(例如库表1)的属性预警表达式应当为counts<>8,则此时数据质量监控表中待校验的库表(例如库表1)的属性,与预警表中待校验的库表(例如库表1)的属性不一致,对库表1进行预警,由开发人员检查不一致的原因。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种数据仓库的数据质量校验系统,其特征在于,所述数据质量校验系统包括:
ODBC配置模块,用于对不同的数据仓库配置不同的ODBC数据驱动,连接不同的数据仓库;
校验表生成模块,用于配置数据仓库的库表,生成校验表,其中,所述库表是指数据库管理系统中的数据仓库的数据表,简称库表;
预警表生成模块,用于配置数据仓库的库表,生成预警表,其中,所述预警表中的每个库表的属性至少包括预警等级、预警表达式和预警描述;
数据校验引擎,用于调用所述校验表,并生成数据质量监控表,其中,所述数据质量监控表中的每个库表的属性至少包括记录数、汇总、维度、校验名称、限制条件、创建时间和更新时间;
元数据单元,用于存储所述校验表、所述预警表,以及所述数据质量监控表;
数据预警引擎,用于调用所述预警表和所述数据质量监控表,并关联预警表中待校验的库表和所述数据质量监控表中待校验的库表,对同一数据仓库中不同层之间流转的库表或者不同数据仓库中具有关联的相同层的库表进行校验,
其中,当数据质量监控表中待校验的库表的属性:记录数p_dt=0时,在预警表中待校验的库表的属性预警表达式应当为counts=0;若在预警表中待校验的库表的属性预警表达式为counts<>8,则此时数据质量监控表中待校验的库表的属性,与预警表中待校验的库表的属性不一致,对该待校验的库表进行预警。
2.根据权利要求1所述的数据质量校验系统,其特征在于,所述校验表在Excel的第一工作页中生成,其中,所述校验表中以行排列多个库表;
所述预警表在Excel的第二工作页中生成,其中,所述预警表中以行排列多个库表;
所述数据质量监控表在Excel的第三工作页中生成,其中,所述数据质量监控表中以行排列多个库表。
3.根据权利要求2所述的数据质量校验系统,其特征在于,所述校验表中的每个库表至少包括第一校验ID;所述预警表中的每个库表至少包括第二校验ID;所述数据质量监控表的每个库表至少包括第三校验ID。
4.根据权利要求3所述的数据质量校验系统,其特征在于,数据预警引擎,根据预警表中的第二校验ID和所述数据质量监控表的第三校验ID,关联预警表中待校验的库表和数据质量监控表中待校验的库表。
5.一种数据仓库的数据质量校验方法,其特征在于,所述校验方法包括如下方法步骤:
配置数据仓库的库表,生成校验表;校验表写入元数据单元,其中,所述库表是指数据库管理系统中的数据仓库的数据表,简称库表;
数据校验引擎调用校验表,生成数据质量监控表;数据质量监控表写入元数据单元,其中,所述数据质量监控表中的每个库表的属性至少包括记录数、汇总、维度、校验名称、限制条件、创建时间和更新时间;
配置数据仓库的数据表,生成预警表;预警表写入元数据单元,其中,所述预警表中的每个库表的属性至少包括预警等级、预警表达式和预警描述;
数据预警引擎调用预警表和数据质量监控表,并关联预警表中待校验的库表和所述数据质量监控表中待校验的库表,对同一数据仓库中不同层之间流转的库表或者不同数据仓库中具有关联的相同层的库表进行校验,
其中,当数据质量监控表中待校验的库表的属性:记录数p_dt=0时,在预警表中待校验的库表的属性预警表达式应当为counts=0;若在预警表中待校验的库表的属性预警表达式为counts<>8,则此时数据质量监控表中待校验的库表的属性,与预警表中待校验的库表的属性不一致,对该待校验的库表进行预警。
6.根据权利要求5所述的数据质量校验方法,其特征在于,数据仓库的库表,在Excel的第一工作页中生成校验表,其中,所述校验表中以行排列多个库表;
数据仓库的数据表,在Excel的第二工作页中生成预警表,其中,所述预警表中以行排列多个库表;
数据校验引擎调用校验表,在Excel的第三工作页中生成数据质量监控表,其中,所述数据质量监控表中以行排列多个库表。
7.根据权利要求6所述的数据质量校验方法,其特征在于,所述校验表中的库表至少包括第一校验ID;所述预警表中的每个库表至少包括第二校验ID;所述数据质量监控表中的每个库表至少包括第三校验ID。
8.根据权利要求7所述的数据质量校验方法,其特征在于,根据预警表中的第二校验ID和所述数据质量监控表的第三校验ID,关联预警表中待校验的库表和数据质量监控表中待校验的库表。
CN202310354204.4A 2023-04-06 2023-04-06 一种数据仓库的数据质量校验系统及校验方法 Active CN116069775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310354204.4A CN116069775B (zh) 2023-04-06 2023-04-06 一种数据仓库的数据质量校验系统及校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310354204.4A CN116069775B (zh) 2023-04-06 2023-04-06 一种数据仓库的数据质量校验系统及校验方法

Publications (2)

Publication Number Publication Date
CN116069775A CN116069775A (zh) 2023-05-05
CN116069775B true CN116069775B (zh) 2023-08-22

Family

ID=86182315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310354204.4A Active CN116069775B (zh) 2023-04-06 2023-04-06 一种数据仓库的数据质量校验系统及校验方法

Country Status (1)

Country Link
CN (1) CN116069775B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143107B1 (en) * 2003-06-26 2006-11-28 Microsoft Corporation Reporting engine for data warehouse
CN104766151A (zh) * 2014-12-29 2015-07-08 国家电网公司 一种用于电力交易数据仓库的质量管控方法及其管控系统
WO2017071337A1 (zh) * 2015-10-26 2017-05-04 中兴通讯股份有限公司 管理数据库表数据的方法、装置及系统
CN107122368A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 一种数据校验方法、装置及电子设备
CN108647358A (zh) * 2018-05-17 2018-10-12 东软集团股份有限公司 数据质量校验方法、装置、存储介质及电子设备
CN108959564A (zh) * 2018-07-04 2018-12-07 玖富金科控股集团有限责任公司 数据仓库元数据管理方法、可读存储介质和计算机设备
CN110321505A (zh) * 2019-06-25 2019-10-11 阿里巴巴集团控股有限公司 数据一致性校验方法及装置
WO2019232832A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN111177139A (zh) * 2019-12-31 2020-05-19 青梧桐有限责任公司 基于数据质量体系的数据质量验证监控及预警方法和系统
CN111737349A (zh) * 2020-06-18 2020-10-02 中国银行股份有限公司 数据一致性校验方法及装置
CN112364024A (zh) * 2020-11-30 2021-02-12 上海二三四五网络科技有限公司 一种表数据批量自动比对的控制方法及装置
CN112579578A (zh) * 2019-09-27 2021-03-30 中兴通讯股份有限公司 基于元数据的数据质量管理方法、装置、系统及服务器
CN113094406A (zh) * 2019-12-23 2021-07-09 内蒙古电力(集团)有限责任公司电力营销服务与运营管理分公司 一种电力营销数据治理方法以及系统
CN113568966A (zh) * 2021-07-29 2021-10-29 上海哔哩哔哩科技有限公司 用于ods层和dw层之间的数据处理方法与系统
CN114356735A (zh) * 2021-12-31 2022-04-15 浙江时空道宇科技有限公司 一种数据预警方法、装置、介质及设备
CN115048430A (zh) * 2022-06-28 2022-09-13 北京龙智数科科技服务有限公司 数据核验方法、系统、装置及存储介质
CN115563156A (zh) * 2022-09-22 2023-01-03 中国建设银行股份有限公司 流数据信息的校验方法、装置、设备及存储介质
CN115630018A (zh) * 2022-11-03 2023-01-20 微神马科技(大连)有限公司 一种基于大数据数据仓库的自动化迁移方法
CN115878643A (zh) * 2022-12-09 2023-03-31 城云科技(中国)有限公司 基于Kettle对多个数据库进行自动校验的方法、装置及应用

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143107B1 (en) * 2003-06-26 2006-11-28 Microsoft Corporation Reporting engine for data warehouse
CN104766151A (zh) * 2014-12-29 2015-07-08 国家电网公司 一种用于电力交易数据仓库的质量管控方法及其管控系统
WO2017071337A1 (zh) * 2015-10-26 2017-05-04 中兴通讯股份有限公司 管理数据库表数据的方法、装置及系统
CN107122368A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 一种数据校验方法、装置及电子设备
CN108647358A (zh) * 2018-05-17 2018-10-12 东软集团股份有限公司 数据质量校验方法、装置、存储介质及电子设备
WO2019232832A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN108959564A (zh) * 2018-07-04 2018-12-07 玖富金科控股集团有限责任公司 数据仓库元数据管理方法、可读存储介质和计算机设备
CN110321505A (zh) * 2019-06-25 2019-10-11 阿里巴巴集团控股有限公司 数据一致性校验方法及装置
CN112579578A (zh) * 2019-09-27 2021-03-30 中兴通讯股份有限公司 基于元数据的数据质量管理方法、装置、系统及服务器
CN113094406A (zh) * 2019-12-23 2021-07-09 内蒙古电力(集团)有限责任公司电力营销服务与运营管理分公司 一种电力营销数据治理方法以及系统
CN111177139A (zh) * 2019-12-31 2020-05-19 青梧桐有限责任公司 基于数据质量体系的数据质量验证监控及预警方法和系统
CN111737349A (zh) * 2020-06-18 2020-10-02 中国银行股份有限公司 数据一致性校验方法及装置
CN112364024A (zh) * 2020-11-30 2021-02-12 上海二三四五网络科技有限公司 一种表数据批量自动比对的控制方法及装置
CN113568966A (zh) * 2021-07-29 2021-10-29 上海哔哩哔哩科技有限公司 用于ods层和dw层之间的数据处理方法与系统
CN114356735A (zh) * 2021-12-31 2022-04-15 浙江时空道宇科技有限公司 一种数据预警方法、装置、介质及设备
CN115048430A (zh) * 2022-06-28 2022-09-13 北京龙智数科科技服务有限公司 数据核验方法、系统、装置及存储介质
CN115563156A (zh) * 2022-09-22 2023-01-03 中国建设银行股份有限公司 流数据信息的校验方法、装置、设备及存储介质
CN115630018A (zh) * 2022-11-03 2023-01-20 微神马科技(大连)有限公司 一种基于大数据数据仓库的自动化迁移方法
CN115878643A (zh) * 2022-12-09 2023-03-31 城云科技(中国)有限公司 基于Kettle对多个数据库进行自动校验的方法、装置及应用

Also Published As

Publication number Publication date
CN116069775A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US20050027675A1 (en) Systems and methods for data processing
US8010567B2 (en) Federated ontology index to enterprise knowledge
US7464087B2 (en) Method and system of unifying data
CN104111885B (zh) 接口测试结果的校验方法和装置
US7464073B2 (en) Application of queries against incomplete schemas
US7996413B2 (en) Data modernization system for legacy software
CN107402991A (zh) 一种写入半结构化数据的方法和分布式NewSQL数据库系统
US20100005114A1 (en) Efficient Delta Handling In Star and Snowflake Schemes
US7529762B2 (en) Workflow data warehousing
CN104756113B (zh) 用于检测数据源中的偏差的方法、设备和计算机程序
CN102799634A (zh) 数据存储方法及装置
US9454561B2 (en) Method and a consistency checker for finding data inconsistencies in a data repository
CN101866350A (zh) 报表生成方法、装置及web服务器
WO2022062185A1 (zh) 告警信息推送方法、系统、智能终端及存储介质
CN110765750B (zh) 报表数据录入方法及终端设备
CN116069775B (zh) 一种数据仓库的数据质量校验系统及校验方法
CN102467525A (zh) 单据关联方法及系统
CN110427188A (zh) 单测断言程序的配置方法、装置、设备及存储介质
CN105740219A (zh) 一种报表的自定义方法及装置
CN109753490A (zh) 基于漏洞修复的数据库优化方法、系统、设备及介质
US20070299821A1 (en) Report specification system and method
CN111338817B (zh) 一种接口预处理方法及装置
US20220261415A1 (en) Blockchain data processing method and apparatus, device, and readable storage medium
CN112580319A (zh) 数据处理的方法、装置、设备及计算机可读存储介质
US6993518B2 (en) Method and system for systematically diagnosing data problems in a database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant