CN114281694A - 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质 - Google Patents

基于etl框架的数据仓库运行调度方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN114281694A
CN114281694A CN202111597788.5A CN202111597788A CN114281694A CN 114281694 A CN114281694 A CN 114281694A CN 202111597788 A CN202111597788 A CN 202111597788A CN 114281694 A CN114281694 A CN 114281694A
Authority
CN
China
Prior art keywords
data
layer
script program
fault
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111597788.5A
Other languages
English (en)
Inventor
王仕凯
陈诚
戴橙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Taimei Medical Technology Co Ltd
Original Assignee
Zhejiang Taimei Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Taimei Medical Technology Co Ltd filed Critical Zhejiang Taimei Medical Technology Co Ltd
Priority to CN202111597788.5A priority Critical patent/CN114281694A/zh
Publication of CN114281694A publication Critical patent/CN114281694A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明提供一种基于ETL框架的数据仓库运行调度方法、系统及计算机可读介质。方法包括以下步骤:确定数据层中出现运行故障的数据表;启动出现运行故障的数据表对应的脚本程序;脚本程序基于运行依赖关系数据对出现运行故障的数据表进行重新运行,重新运行基于出现运行故障的数据表的运行依赖关系数据,对数据层中的数据表进行回溯调用,直至调用到运行正确的数据表;根据重新运行的结果确定出现运行故障的数据表是否运行正确。本发明通过基于所述出现运行故障的数据表的运行依赖关系数据,对所述数据层中的数据表进行回溯调用,通过只调用被标记为运行失败的数据表,提升了开发测试的效率。

Description

基于ETL框架的数据仓库运行调度方法、系统及计算机可读 介质
技术领域
本发明主要涉及数据处理领域,具体涉及一种基于ETL框架的数据仓库运行调度方法、系统及计算机可读介质。
背景技术
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据,ETL是BI(商业智能)项目重要的一个环节。
对于以软件即服务(Software-as-a-Service,简称SaaS)方式为企业提供服务的客户而言,基于ETL框架的数据仓库处理报表时必须具有较高的实时性。目前ETL框架以一个项目作为调度的单位。一个项目中分为ODS、DWD(DWB)、DIM、DWS、APP层,每一层都包含多个sql脚本。然而,以一个项目作为单位调度,会带来开发测试困难。任何一层任意一个很小sql脚本的改动,都需要全部执行一次调度,最后才能看到结果,降低了开发测试的效率。
发明内容
本发明要解决的技术问题是提供一种基于ETL框架的数据仓库运行调度方法、系统及计算机可读介质,解决全量调度开发测试效率低的问题。
为解决上述技术问题,本发明提供了一种基于ETL框架的数据仓库运行调度方法。所述数据仓库包括多个数据层,每一所述数据层中包括一张或多张数据表,每一所述数据层中包括的数据表与相邻层包括的数据表之间具有设定的运行依赖关系,每一数据表具有对应的脚本程序,所述脚本程序包括所述数据表运行时的运行依赖关系数据,所述方法包括以下步骤:确定数据层中出现运行故障的数据表;启动所述出现运行故障的数据表对应的脚本程序;所述脚本程序基于所述运行依赖关系数据对所述出现运行故障的数据表进行重新运行,所述重新运行基于所述出现运行故障的数据表的运行依赖关系数据,对所述数据层中的数据表进行回溯调用,直至调用到运行正确的数据表;根据所述重新运行的结果确定所述出现运行故障的数据表是否运行正确。
在本发明的一实施例中,所述脚本程序包括子脚本程序,所述方法还包括:如果根据所述重新运行的结果确定数据层中出现运行故障的数据表未正确运行,则启动所述运行故障的数据表对应的脚本程序中的子脚本程序,对所述出现运行故障的数据表进行独立验证运行。
在本发明的一实施例中,所述脚本程序包括子脚本程序,所述方法还包括:如果根据所述重新运行的结果确定数据层中出现运行故障的数据表未正确运行,则运行一层数据层中的多个数据表对应的脚本程序中的子脚本程序,对所述一层数据层中的多个数据表进行独立验证运行。
在本发明的一实施例中,所述多个数据层包括数据运营层、数据细节层、数据中间层、数据服务层和应用层,其中,所述数据运营层、数据细节层、数据中间层、数据服务层和应用层具有设定的运行层级顺序。
在本发明的一实施例中,所述设定的运行依赖关系包括,每一所述数据层中数据表依赖于前一数据层中的一张或多张数据表。
为解决上述技术问题,本发明提供了一种基于ETL框架的数据仓库运行调度系统,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行所述指令以实现如上所述的基于ETL框架的数据仓库运行调度方法。
为解决上述技术问题,本发明提供了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的基于ETL框架的数据仓库运行调度方法。
与现有技术相比,本发明具有以下优点:
本发明通过基于所述出现运行故障的数据表的运行依赖关系数据,对所述数据层中的数据表进行回溯调用,通过只调用被标记为运行失败的数据表,提升了开发测试的效率;本发明还增加了单表修复模式和单层调度模式,调度方式更加灵活,降低了开发的成本。
附图说明
附图是为提供对本申请进一步的理解,它们被收录并构成本申请的一部分,附图示出了本申请的实施例,并与本说明书一起起到解释本申请原理的作用。附图中:
图1是根据本发明一实施例的基于ETL框架的数据仓库运行调度方法的示例性流程图;
图2是根据本发明一实施例的基于ETL框架的数据仓库运行调度方法的示例性数据仓库;
图3是根据本发明一实施例的基于ETL框架的数据仓库运行调度系统的系统框图。
具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本申请保护范围的限制。此外,尽管本申请中所使用的术语是从公知公用的术语中选择的,但是本申请说明书中所提及的一些术语可能是申请人按他或她的判断来选择的,其详细含义在本文的描述的相关部分中说明。此外,要求不仅仅通过所使用的实际术语,而是还要通过每个术语所蕴含的意义来理解本申请。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本发明一实施例的基于ETL框架的数据仓库运行调度方法的示例性流程图。如图1所示,本实施例的基于ETL框架的数据仓库运行调度方法10包括以下步骤:
步骤S11:确定数据层中出现运行故障的数据表;
步骤S12:启动出现运行故障的数据表对应的脚本程序;
步骤S13:脚本程序基于运行依赖关系数据对出现运行故障的数据表进行重新运行,重新运行基于出现运行故障的数据表的运行依赖关系数据,对数据层中的数据表进行回溯调用,直至调用到运行正确的数据表;
步骤S14:根据重新运行的结果确定出现运行故障的数据表是否运行正确。
下面结合图1-图2对上述步骤S11-S14进行详细说明。
在步骤S11中,数据仓库包括多个数据层,每一数据层中包括一张或多张数据表,每一数据层中包括的数据表与相邻层包括的数据表之间具有设定的运行依赖关系。数据仓库包括多个数据层,企业根据自己的业务需求可以分成不同的层次,一般至少包括数据运营层(Operation Data Store,简称ODS)、数据仓库层(data warehouse details,简称DW)、应用层。
数据运营层也称为贴源层,数据仓库源头系统的数据表通常会原封不动的存储一份到数据运营层,数据运营层中的数据表是后续数据仓库加工数据的来源。数据仓库层主要对数据运营层做一些数据清洗和规范化的操作,然后整合汇总成分析某一个主题域的数据表,一般是宽表。
应用层主要是提供数据产品和数据分析使用的数据,也可以称之为报表数据。
在一些实施例中,可以将数据仓库层划分为数据细节层、数据中间层、数据服务层,划分后的多个数据层包括数据运营层、数据细节层、数据中间层、数据服务层和应用层。
图2是根据本发明一实施例的基于ETL框架的数据仓库运行调度方法的示例性数据仓库。如图2所示,数据仓库20包括数据运营层21、数据细节层22、数据中间层23、数据服务层24和应用层25。其中数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入数据运营层21,为了考虑后续可能需要追溯数据问题,因此对于这一层就不做过多的数据清洗工作,原封不动地接入原始数据即可。
数据细节层22主要对数据运营层21做一些数据清洗和规范化的操作,比如去除空数据、脏数据、离群值等。数据细节层22保持和数据运营层21一样的数据颗粒度。数据中间层23在数据细节层22的数据基础上,对数据做一些轻微的聚合操作,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作。
数据服务层24基于数据中间层23上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,联机分析处理(Online analyticalprocessing,简称OLAP),数据分发等。
应用层25主要是提供给数据产品和数据分析使用的数据。示例性地,应用层25包括两张表:app_table_1、app_table_2。app_table_1与相邻的数据服务层24包括的数据表之间具有设定的运行依赖关系;app_table_2与相邻的数据服务层24包括的数据表之间也具有设定的运行依赖关系。
在一些实施例中,每一数据层中包括的数据表与相邻层包括的数据表的运行依赖关系包括,每一数据层中数据表依赖于前一数据层中的一张或多张数据表。如图2所示,app_table_1依赖于数据服务层24中的表dws_table_1、dws_table_2、dws_table_3、dws_table_4;app_table_2依赖于数据服务层24中的dws_table_4、dws_table_5。运行依赖关系是指依赖的数据表必须在被依赖的数据表运行完成后才能运行。例如,app_table_1必须在表dws_table_1、dws_table_2、dws_table_3、dws_table_4都运行完成后才能运行。
在一些实施例中,数据运营层、数据细节层、数据中间层、数据服务层和应用层具有设定的运行层级顺序。如图2所示,运行层级顺序可以是数据运营层21->数据细节层22->数据中间层23->数据服务层24->应用层25。
在一些实施例中,应用层运行有数据展示程序或交互程序。数据展示程序用来展示数据产品和数据分析使用的数据,例如报表。用户可与通过交互程序与数据产品和数据分析使用的数据交互,使交互过程更友好,提高用户的满意度。
在一些实施例中,数据仓库运行于服务器集群,服务器集群可以是Spark服务器集群,本发明对服务器集群不作限制。
当调度一个项目时,服务器集群会根据设定的运行层级顺序逐层调度任务,直到应用层调度完成,这是一种全量调度的方式。调度完成后,服务器集群会对各层的数据表做标记,该标记表示该数据表执行的结果。当数据表存在运行失败标记时,服务器集群能快速确定数据层中出现运行故障的数据表。假设计算数据服务层24中的dws_table_4出现异常时,采用全量调度时,需要从数据运营层21开始调度整个项目,效率低下。
在步骤S12中,每一数据表具有对应的脚本程序,脚本程序包括数据表运行时的运行依赖关系数据。当调度一个项目时,服务器集群会根据脚本程序逐层调度任务,解析脚本程序可得到数据表运行时的运行依赖关系数据。在一些实施例中,脚本程序包括sql脚本程序。
启动出现运行故障的数据表对应的脚本程序的具体步骤可以是首先根据故障的数据表的参数找到其对应的脚本程序,然后读取脚本程序里的每个表中需要执行的具体sql内容,该sql语句中包含了一个以上的表依赖关系,这种依赖关系记录了表与表之间如何进行关联执行,以及表与表之间执行的顺序。
在步骤S13中,脚本程序基于运行依赖关系数据对出现运行故障的数据表进行重新运行,重新运行基于出现运行故障的数据表的运行依赖关系数据,对数据层中的数据表进行回溯调用,直至调用到运行正确的数据表。
具体地,运行故障的数据表对应的脚本程序,得到运行故障的数据表对应的运行依赖关系数据,即运行故障的数据表与前一数据层中的一张或多张数据表的依赖关系。根据依赖关系对前一数据层中的一张或多张数据表进行回溯调用,其中对于被标记为运行失败的数据表进行回溯调用,对于被标记为成功的数据表,不继续往前进行回溯调用。整个过程是一种增量调度,减少了计算量,提高了开发和测试的效率。
示例性地,如图2所示,其中标粗的矩形框示意的数据表为上次执行过程中被标记执行运行失败的数据表,那么调度执行的过程可以是运行app_table_1对应的脚本程序,解析脚本程序得到app_table_1与前一数据层-数据服务层24中一张或多张数据表的依赖关系,可知,app_table_1依赖于表dws_table_1、dws_table_2、dws_table_3、dws_table_4。其中dws_table_1、dws_table_2、dws_table_3为被标记为运行成功的数据表,dws_table_4为被标记为运行失败的数据表。那么脚本程序将运行dws_table_1、dws_table_2、dws_table_3而不对其依赖的数据表进行回溯调用,仅对dws_table_4依赖的数据表进行回溯调用。判断dws_table_4是否存在前一数据层依赖,得到dws_table_4依赖于数据中间层23中的dwb_table_d、dwb_table_e。其中,dwb_table_d被标记为运行失败的数据表,dwb_table_e被标记为成功的数据表。则脚本程序将不对dwb_table_e依赖的数据表进行回溯调用,仅对dwb_table_d依赖的数据表进行回溯调用。数据表的运行调用顺序为dwb_table_d->dws_table_4。
在步骤S14中,根据重新运行的结果确定出现运行故障的数据表是否运行正确。如果重新运行的结果正确,表示运行故障的数据表修复成功,否则,表示运行故障的数据表依然是不正确的,未修复成功。如图2所示,假设app_table_1重新运行的结果正确,则表示app_table_1依赖的dws_table_4运行正确。进一步,dws_table_4重新运行的结果正确,则表示dws_table_4依赖的dwb_table_d运行正确。
在一些实施例中,脚本程序包括子脚本程序,本申请的方法还包括,如果根据所述重新运行的结果在确定数据层中出现运行故障的数据表未正确运行,则启动运行故障的数据表对应的脚本程序中的子脚本程序,对出现运行故障的数据表进行独立验证运行。
如图2所示,dws_table_4依赖于数据中间层23中的dwb_table_d、dwb_table_e。其中dwb_table_d为被标记为运行失败的数据表,dwb_table_d包括对应的脚本程序,在该脚本程序中包括子脚本程序。重新运行dwb_table_d对应的子脚本程序,对dwb_table_d进行独立验证运行,运行完dwb_table_d对应的子脚本程序之后就结束整个项目调度的过程。这种方式称之为单表修复模式。单表修复模式能够有针对性地运行一张具体的数据表,检验其是否已消除运行故障,能够正确运行。
在一些实施例中,如前述,脚本程序包括子脚本程序。本申请的方法还包括,如果根据所述重新运行的结果在确定数据层中出现运行故障的数据表未正确运行,则运行一层数据层中的多个数据表对应的脚本程序中的子脚本程序,对一层数据层中的多个数据表进行独立验证运行。
具体地,数据层中的多个数据表都有对应的脚本程序,可以调度数据层中的所有数据表,执行完该层所有数据表后,结束整个项目的调度,这种方式称之为单层调度。单表修复模式和单层运行模式使本申请的技术方案可根据需要对数据库各层中的数据表进行灵活运行,进行功能的验证与检测。
如图2所示,假设指定的调度数据层为数据中间层23,则运行数据中间层23中的所有数据表对应的子脚本程序。数据表的运行顺序为dwb_table_a、dwb_table_b、dwb_table_c、dwb_table_d、dwb_table_e、dwb_table_f。运行完该层所有数据表后,结束整个项目的调度。
本发明的基于ETL框架的数据仓库运行调度方法通过基于出现运行故障的数据表的运行依赖关系数据,对数据层中的数据表进行回溯调用,通过只对被标记为运行失败的数据表进行回溯调用,提升了开发测试的效率;本发明还增加了单表修复模式和单层调度模式,调度方式更加灵活,降低了开发的成本。
本发明还包括一种基于ETL框架的数据仓库运行调度系统,包括存储器和处理器。其中,该存储器用于存储可由处理器执行的指令;处理器用于执行该指令以实现前文的基于ETL框架的数据仓库运行调度方法。
图3是根据本发明一实施例的基于ETL框架的数据仓库运行调度系统的系统框图。参考图3所示,该基于ETL框架的数据仓库运行调度系统300可包括内部通信总线301、处理器302、只读存储器(ROM)303、随机存取存储器(RAM)304以及通信端口305。当应用在个人计算机上时,该操作装置300还可以包括硬盘306。内部通信总线301可以实现该操作装置300组件间的数据通信。处理器302可以进行判断和发出提示。在一些实施例中,处理器302可以由一个或多个处理器组成。通信端口305可以实现该操作装置300与外部的数据通信。在一些实施例中,该操作装置300可以通过通信端口305从网络发送和接受信息及数据。该操作装置300还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘306,只读存储器(ROM)303和随机存取存储器(RAM)304,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器302所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。
上述的调度方法可以实施为计算机程序,保存在硬盘306中,并可加载到处理器302中执行,以实施本申请的基于ETL框架的数据仓库运行调度方法。
本发明还包括一种存储有计算机程序代码的计算机可读介质,该计算机程序代码在由处理器执行时实现前文所述的基于ETL框架的数据仓库运行调度方法。
基于ETL框架的数据仓库运行调度方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如,卡、棒、键驱动器……)。
计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
虽然本申请已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本申请,在没有脱离本申请精神的情况下还可做出各种等效的变化或替换,因此,只要在本申请的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims (7)

1.一种基于ETL框架的数据仓库运行调度方法,所述数据仓库包括多个数据层,每一所述数据层中包括一张或多张数据表,每一所述数据层中包括的数据表与相邻层包括的数据表之间具有设定的运行依赖关系,每一数据表具有对应的脚本程序,所述脚本程序包括所述数据表运行时的运行依赖关系数据,所述方法包括以下步骤:
确定数据层中出现运行故障的数据表;
启动所述出现运行故障的数据表对应的脚本程序;
所述脚本程序基于所述运行依赖关系数据对所述出现运行故障的数据表进行重新运行,所述重新运行基于所述出现运行故障的数据表的运行依赖关系数据,对所述数据层中的数据表进行回溯调用,直至调用到运行正确的数据表;
根据所述重新运行的结果确定所述出现运行故障的数据表是否运行正确。
2.根据权利要求1所述的基于ETL框架的数据仓库运行调度方法,其特征在于,所述脚本程序包括子脚本程序,所述方法还包括:如果根据所述重新运行的结果确定数据层中出现运行故障的数据表未正确运行,则启动所述运行故障的数据表对应的脚本程序中的子脚本程序,对所述出现运行故障的数据表进行独立验证运行。
3.根据权利要求2所述的基于ETL框架的数据仓库运行调度方法,其特征在于,所述脚本程序包括子脚本程序,所述方法还包括:如果根据所述重新运行的结果确定数据层中出现运行故障的数据表未正确运行,则运行一层数据层中的多个数据表对应的脚本程序中的子脚本程序,对所述一层数据层中的多个数据表进行独立验证运行。
4.根据权利要求1所述的基于ETL框架的数据仓库运行调度方法,其特征在于,所述多个数据层包括数据运营层、数据细节层、数据中间层、数据服务层和应用层,其中,所述数据运营层、数据细节层、数据中间层、数据服务层和应用层具有设定的运行层级顺序。
5.根据权利要求1所述的基于ETL框架的数据仓库运行调度方法,其特征在于,所述设定的运行依赖关系包括,每一所述数据层中数据表依赖于前一数据层中的一张或多种数据表。
6.一种基于ETL框架的数据仓库运行调度系统,包括:
存储器,用于存储可由处理器执行的指令;以及
处理器,用于执行所述指令以实现如权利要求1-5任一项所述的方法。
7.一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如权利要求1-5任一项所述的方法。
CN202111597788.5A 2021-12-24 2021-12-24 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质 Pending CN114281694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111597788.5A CN114281694A (zh) 2021-12-24 2021-12-24 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111597788.5A CN114281694A (zh) 2021-12-24 2021-12-24 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质

Publications (1)

Publication Number Publication Date
CN114281694A true CN114281694A (zh) 2022-04-05

Family

ID=80874851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111597788.5A Pending CN114281694A (zh) 2021-12-24 2021-12-24 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN114281694A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756443A (zh) * 2022-12-02 2023-03-07 中电金信软件有限公司 一种脚本生成方法、装置、电子设备及可读存储介质
CN116860861A (zh) * 2023-09-05 2023-10-10 杭州瞬安信息科技有限公司 一种etl数据管理系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756443A (zh) * 2022-12-02 2023-03-07 中电金信软件有限公司 一种脚本生成方法、装置、电子设备及可读存储介质
CN115756443B (zh) * 2022-12-02 2023-08-25 中电金信软件有限公司 一种脚本生成方法、装置、电子设备及可读存储介质
CN116860861A (zh) * 2023-09-05 2023-10-10 杭州瞬安信息科技有限公司 一种etl数据管理系统
CN116860861B (zh) * 2023-09-05 2023-12-15 杭州瞬安信息科技有限公司 一种etl数据管理系统

Similar Documents

Publication Publication Date Title
US11163731B1 (en) Autobuild log anomaly detection methods and systems
CN110287052B (zh) 一种异常任务的根因任务确定方法及装置
EP2976716B1 (en) Prioritization of tests of computer program code
CN107665171B (zh) 自动回归测试方法及装置
CN114281694A (zh) 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质
US20130042145A1 (en) System and method for automatic test data generation for relational testing
US20150154097A1 (en) System and method for automated testing
CN104252481A (zh) 主从数据库一致性的动态校验方法和装置
US20050060340A1 (en) System and method for efficient enrichment of business data
CN110377519B (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN111723091B (zh) 基于Oracle数据库的索引处理方法、系统、设备和存储介质
CN109408361A (zh) Monkey测试复原方法、装置、电子设备及计算机可读存储介质
EP2113874A1 (en) Method and system for monitoring computer-implemented processes
CN110865806B (zh) 代码处理方法、装置、服务器及存储介质
CN107688586B (zh) 客户数据屏蔽处理方法和装置
US20130318499A1 (en) Test script generation
CN116661758B (zh) 一种优化日志框架配置的方法、装置、电子设备及介质
CN112506802A (zh) 测试数据的管理方法及系统
CN115587048A (zh) 回归测试方法、终端设备及计算机可读存储介质
CN116069628A (zh) 一种智能处置的软件自动化回归测试方法、系统及设备
CN116467188A (zh) 一种多环境场景下的通用本地复现系统和方法
CN115525575A (zh) 一种基于Dataworks平台的数据自动化测试方法及系统
US8631391B2 (en) Method and a system for process discovery
US20210304070A1 (en) Machine learning model operation management system, operation management method, and computer readable recording medium
CN114327588A (zh) 一种代码提交日志的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination