CN117421363A - 数据处理流程的校验方法、装置、设备及介质 - Google Patents
数据处理流程的校验方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117421363A CN117421363A CN202311435866.0A CN202311435866A CN117421363A CN 117421363 A CN117421363 A CN 117421363A CN 202311435866 A CN202311435866 A CN 202311435866A CN 117421363 A CN117421363 A CN 117421363A
- Authority
- CN
- China
- Prior art keywords
- data
- processing flow
- verification
- data processing
- checked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 233
- 238000012545 processing Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013524 data verification Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000032683 aging Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例公开了一种数据处理流程的校验方法、装置、设备及介质,该方法包括:获取至少一个待校验数据处理流程;从预设校验数据中选取当前时刻需要进行校验的目标校验数据;采用所述目标校验数据,对各所述待校验数据处理流程进行校验;根据各所述待校验数据处理流程的校验结果,确定各所述待校验数据处理流程的执行状态。上述方案,自动化实现了对待处理数据流程的校验,提高了校验效率,降低了人工成本。
Description
技术领域
本发明实施例涉及数据校验技术领域,尤其涉及一种数据处理流程的校验方法、装置、设备及介质。
背景技术
现有技术中的数据处理流程往往采用人工校验的方式,人工成本较高。如ETL(Extraction-Transformation-Loading,数据抽取、转换和加载)流程,在实际过程中经常多组ETL流程以一种批量的方式导入到系统中进行ETL流程的下发、运行。但是批量导入的方式对校验ETL流程的技术人员要求较高。因此,如何实现数据处理流程的自动化校验至关重要。
发明内容
本发明提供一种数据处理流程的校验方法、装置、设备及介质,以实现数据处理流程的自动化校验。
根据本发明的一方面,提供了一种数据处理流程的校验方法,包括:
获取至少一个待校验数据处理流程;
从预设校验数据中选取当前时刻需要进行校验的目标校验数据;
采用所述目标校验数据,对各所述待校验数据处理流程进行校验;
根据各所述待校验数据处理流程的校验结果,确定各所述待校验数据处理流程的执行状态。
根据本发明的另一方面,提供了一种数据处理流程的校验装置,包括:
处理流程获取模块,用于获取至少一个待校验数据处理流程;
目标校验数据选取模块,用于从预设校验数据中选取当前时刻需要进行校验的目标校验数据;
校验模块,用于采用所述目标校验数据,对各所述待校验数据处理流程进行校验;
执行状态确定模块,用于根据各所述待校验数据处理流程的校验结果,确定各所述待校验数据处理流程的执行状态。
根据本发明的另一方面,提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器能够执行本发明实施例所提供的任意一种数据处理流程的校验方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明实施例所提供的任意一种数据处理流程的校验方法。
本发明实施例提供的一种数据处理流程的校验方案,通过获取至少一个待校验数据处理流程;从预设校验数据中选取当前时刻需要进行校验的目标校验数据;采用目标校验数据,对各待校验数据处理流程进行校验;根据各待校验数据处理流程的校验结果,确定各待校验数据处理流程的执行状态。上述方案,自动化实现了对待处理数据流程的校验,提高了校验效率,降低了人工成本。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种数据处理流程的校验方法的流程图;
图2是本发明实施例二提供的一种数据处理流程的校验方法的流程图;
图3是本发明实施例三提供的一种数据处理流程的校验装置的结构示意图;
图4是本发明实施例四提供的一种实现数据处理流程的校验方法的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种数据处理流程的校验方法的流程图,本实施例可适用于对数据处理流程进行校验的情况,该方法可以由数据处理流程的校验装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置于承载数据处理流程的校验功能的电子设备中。
参见图1所示的数据处理流程的校验方法,包括:
S110、获取至少一个待校验数据处理流程。
其中,待校验数据处理流程是指需要进行校验的数据处理流程。示例性的,待校验数据处理流程可以是ETL流程。
具体的,获取批量的待校验数据处理流程。
S120、从预设校验数据中选取当前时刻需要进行校验的目标校验数据。
其中,预设校验数据是指预先设置的用于对待校验数据处理流程进行校验的数据。示例性的,预设校验数据可以是预先设置的校验规则。可选的,预设校验数据中可以包括内容校验数据、目标落盘校验数据、配置文件校验数据、流程校验数据和权限校验数据、来源校验数据和历史数据校验数据中的至少一种。
其中,目标校验数据是指预设校验数据中当前需要对待校验数据处理流程进行校验的数据。示例性的,若预设校验数据为校验规则,则目标校验数据为当前时刻所需要的校验规则。
S130、采用目标校验数据,对各待校验数据处理流程进行校验。
具体的,采用目标校验数据,对各待校验数据处理流程的相关数据进行校验。
S140、根据各待校验数据处理流程的校验结果,确定各待校验数据处理流程的执行状态。
其中,校验结果可以为校验通过或校验不通过。校验结果可以包括单项校验结果和最终校验结果。其中,单项校验结果是指使用预设校验数据中的任一数据对待校验数据处理流程进行校验时的结果。最终校验结果是指对待校验数据处理流程进行校验的最终结果。
在一个可选实施例中,针对任一待校验数据处理流程,该待校验数据处理流程的最终校验结果可以根据单项校验结果进行确定;可选的,若该待校验数据处理流程的任一单项校验结果为不通过,则可以确定该待校验数据处理流程的最终校验结果为不通过;或者可选的,可以对各单项校验结果进行加权求和,得到各项校验结果之和;将各项校验结果之和与预设结果阈值进行比较,确定最终校验结果。其中,若各项校验结果之和大于预设结果阈值,则最终校验结果为校验通过;若否,则最终校验结果为校验不通过。需要说明的是,本发明实施例对预设结果阈值的大小不作任何限定,可以是技术人员根据经验进行设置。
其中,执行状态是指待校验数据处理流程的运行状态。示例性的,执行状态包括可执行状态和禁止执行状态。
需要说明的是,任一待校验数据处理流程的执行状态可以根据该待校验数据处理流程的校验结果确定;或者任一待校验数据处理流程的执行状态可以根据该待校验数据处理流程所在批次的所有待校验数据处理流程的校验结果确定,即若该批次中的任一待校验数据处理的校验结果为校验不通过,则该批次中的所有待校验数据处理流程的执行状态为禁止执行状态。
本发明实施例提供的一种数据处理流程的校验方案,通过获取至少一个待校验数据处理流程;从预设校验数据中选取当前时刻需要进行校验的目标校验数据;采用目标校验数据,对各待校验数据处理流程进行校验;根据各待校验数据处理流程的校验结果,确定各待校验数据处理流程的执行状态。上述方案,自动化实现了对待处理数据流程的校验,提高了校验效率,降低了人工成本。
实施例二
图2是本发明实施例二提供的一种数据处理流程的校验方法的流程图,本实施例在上述各实施例的基础上,进一步的,将“采用目标校验数据,对各待校验数据处理流程进行校验”操作,细化为“确定目标校验数据的校验类别;其中,校验类别包括自身校验类别和对比校验类别;根据校验类别,确定目标校验数据对应的参考关联数据的存在状态;根据参考关联数据的存在状态和目标校验数据,对各待校验数据处理流程进行校验”,以完善校验机制。需要说明的是,在本发明实施例未详述的部分,可参见其他实施例的表述。
参见图2所示的数据处理流程的校验方法,包括:
S210、获取至少一个待校验数据处理流程。
S220、从预设校验数据中选取当前时刻需要进行校验的目标校验数据。
S230、确定目标校验数据的校验类别。
其中,校验类别是指目标校验数据的种类。示例性的,校验类别包括自身校验类别和对比校验类别。其中,自身校验类别是指可以根据自身的相关数据完成校验的类别。对比校验是指需要将获取其他数据以完成自身数据的校验的类别。
在一个可选实施例中,自身校验类别的目标校验数据包括如下至少一项:内容校验数据、目标落盘校验数据、配置文件校验数据、流程校验数据和权限校验数据;对比校验类别的目标校验数据包括:来源校验数据和历史数据校验数据。
其中,内容校验数据是指对待校验数据处理流程中的内容进行校验的数据。示例性的,内容校验数据可以是内容校验规则。具体的,内容校验数据可以理解为待校验数据处理流程中的内容需要满足的要求,如内容格式。
其中,目标落盘校验数据是指对待校验数据处理流程的去处进行校验的数据。示例性的,目标落盘校验数据可以是目标落盘校验规则。具体的,目标落盘校验数据可以理解为待校验数据处理流程是否满足数据落盘要求。
其中,配置文件校验数据是指对待校验数据处理流程中的参数配置文件进行校验的数据。示例性的,配置文件校验数据可以是配置文件校验规则。具体的,配置文件校验数据可以理解为待校验数据处理流程中的参数配置文件需要满足的要求,如参数配置文件是否闭环。
其中,流程校验数据是指对待校验数据处理流程的校验流程进行校验的数据。示例性的,流程校验数据可以是流程校验规则。具体的,流程校验数据可以理解为待校验数据处理流程在进行各项校验时的先后顺序是否满足要求,即先进行哪项校验,后进行哪项校验的顺序。
其中,权限校验数据可以用于对待校验数据处理流程中对各项数据进行校验时的权限进行校验。示例性的,权项校验数据可以是权项校验规则。具体的,权限校验数据可以理解为在待校验数据处理流程中的各项数据进行校验时的权限是否满足对应的要求,如待校验数据处理流程中各种数据源、处理过程、数据落盘组件等之间是否满足对应的权限要求。
其中,来源校验数据可以用于对待校验数据处理流程的来源进行校验。示例性的,来源校验数据可以是来源校验规则。具体的,来源校验数据可以理解为对待校验数据处理流程的来源是否与预设数据来源匹配。其中,预设数据来源是指预先设置的待校验数据处理流程的来源。
其中,历史数据校验数据是指对待校验数据处理流程中的待校验运行数据进行校验。示例性的,历史数据校验数据可以是历史数据校验规则。具体的,历史数据校验数据可以理解为待校验数据处理流程中的待校验运行数据需要满足的要求,如待校验运行数据是否闭环。
可以理解的是,通过对各项预设校验数据进行划分,提高了确定目标校验数据的校验类别的准确度。
S240、根据校验类别,确定目标校验数据对应的参考关联数据的存在状态。
具体的,若校验类别为自身校验类别,则确定目标校验数据对应的参考关联数据的存在状态为不存在;若校验类别为对比校验类别,则确定目标校验数据对应的参考关联数据的存在状态为存在。
S250、根据参考关联数据的存在状态和目标校验数据,对各待校验数据处理流程进行校验。
在一个可选实施例中,根据参考关联数据的存在状态和目标校验数据,对各待校验数据处理流程进行校验,包括:若参考关联数据的存在状态为存在,则获取参考关联数据,根据参考关联数据和目标校验数据,对各待校验数据处理流程进行校验;若参考关联数据的存在状态为不存在,则根据目标校验数据,对各待校验数据处理流程进行校验。
其中,参考关联数据是指可以用于对待校验数据处理流程中的数据进行校验的关联数据。举例说明,若目标校验数据为历史数据校验数据,则参考关联数据为历史运行数据;若目标校验数据为来源校验数据,则参考关联数据为预设数据来源。
可选的,若参考关联数据的存在状态为存在,则需要根据目标校验数据获取用于参与校验过程的参考关联数据;根据参考关联数据和目标校验数据,对各待校验数据处理流程进行校验。具体的,将参考关联数据与待校验数据处理流程中对应的数据进行匹配,得到匹配结果;判断匹配结果是否满足目标校验数据,实现对待校验数据处理流程的校验。
可选的,若参考关联数据的存在状态为不存在,则直接根据目标校验数据对各待校验数据处理流程进行校验。具体的,确定待校验数据处理流程中的相应数据是否满足目标校验数据。
可以理解的是,通过根据参考关联数据的存在状态,分别采用不同的方法,实现对待校验数据处理流程的校验,提高了对待校验数据处理流程进行校验的准确度。
在一个可选实施例中,若目标校验数据为配置文件校验数据,则参考关联数据的存在状态为不存在,根据目标校验数据,对各待校验数据处理流程进行校验,包括:获取各待校验数据处理流程中的参数配置文件;确定各待校验数据处理流程的运行状态;根据运行状态,对各待校验数据处理流程中的参数配置文件进行校验,确定各待校验数据处理流程的文件闭环状态;其中,运行状态包括并行状态和串行状态。
其中,参数配置文件是指待校验数据处理流程中用于进行参数配置的文件。运行状态是指待校验数据处理流程的执行状态。具体的,在对批量待校验数据处理流程进行校验时,各待校验数据处理流程的运行状态可能是同时运行,及并行状态;也可能是顺序运行,即串行状态。文件闭环状态是指参数配置文件是否完整。示例性的,文件闭环状态可以包括文件闭环和文件未闭环。
举例说明,一个完整的待校验数据处理流程中,若参数配置文件中包括用于设置真实存在的数据来源、真实存在的落盘目标的文件,且文件中已写入数据时,该待校验数据处理流程中的参数配置文件是完整的,即文件闭环状态为文件闭环。
可以理解的是,通过引入参数配置文件,根据运行状态和配置文件校验数据对参数配置文件进行校验,确定各待校验数据处理流程的文件闭环状态,提高了确定的文件闭环状态的准确度。
在一个可选实施例中,根据运行状态,对各待校验数据处理流程中的参数配置文件进行校验,确定各待校验数据处理流程的文件闭环状态,包括:若运行状态为并行状态,则并行对各待校验数据处理流程中的参数配置文件进行校验,分别确定各待校验数据处理流程对应的文件闭环状态;若运行状态为串行状态,则将各待校验数据处理流程中的参数配置文件串联,对串联后的参数配置文件进行校验,确定所有待校验数据处理流程对应的文件闭环状态。
具体的,若运行状态为并行状态,则根据同时目标校验数据分别对各待校验数据处理流程中的参数配置文件进行校验,得到各待校验数据处理流程的文件闭环状态。
具体的,若运行状态为串行状态,则将各待校验数据处理流程对应的参数配置文件,根据相应待校验数据处理流程的运行顺序,进行排序;将排序后的参数配置文件串联;根据目标校验数据对串联后的参数配置文件进行校验,确定该批次所有待校验数据处理流程对应的文件闭环状态。
需要说明的是,文件闭环状态可以是单个待校验数据处理流程的文件闭环状态,还可以是一个批次里所有待校验数据处理流程的文件闭环状态。综上,可以根据待校验数据处理流程的运行状态,确定文件闭环状态对应的待校验数据处理流程是否为单一待校验数据处理流程。
可以理解的是,通过对运行状态进行并行和串行的区分,分别采用对应的方法确定文件闭环状态,提高了确定的文件闭环状态的准确度。
在一个可选实施例中,若目标校验数据为历史数据校验数据,则参考关联数据的存在状态为存在,且参考关联数据为历史运行数据,根据参考关联数据和目标校验数据,对各待校验数据处理流程进行校验,包括:获取历史数据处理流程的历史运行数据,以及待校验数据处理流程的待校验运行数据;根据历史运行数据,对待校验数据处理流程中的待校验运行数据进行校验,确定待校验数据处理流程的数据闭环状态。
其中,历史数据处理流程是指以往的数据处理流程。历史运行数据是指以往的数据处理流程的运行数据。待校验运行数据是指待校验数据处理流程的运行数据。数据闭环状态是指待校验运行数据与历史运行数据相比是否一致。示例性的,数据闭环状态可以包括数据闭环和数据未闭环。
具体的,获取历史数据处理流程的历史运行数据,以及待校验数据处理流程的待校验运行数据;根据历史运行数据,对待校验数据处理流程中的待校验运行数据进行匹配;根据历史数据校验数据对匹配结果进行校验,确定待校验数据处理流程的数据闭环状态。
本发明实施例中,可以根据历史运行数据对待校验数据处理流程的目标表进行校验。举例说明,本次落盘数据库的是一个table1表,且在数据库中已存在一个历史table1表,本次的table1表与历史table1表的结构不同,则可以确定数据闭环状态为数据未闭环;或者,若本次的table1表与历史table1表的结构相同,但是数据的老化周期不同,则可以确定数据闭环状态为数据未闭环,如历史table1表中的数据老化周期为一周,本次的table1表中的数据老化周期为一个月,则数据未闭环;或者,本次待校验数据处理流程的前置条件是上一批次中某个数据处理流程的输出结果,但是历史运行数据中不存在该数据处理流程的输出结果,则可以确定数据闭环状态为数据未闭环。
可以理解的是,通过引入历史运行数据对待校验数据进行和校验,提高了确定的数据闭环状态的准确度。
S260、根据各待校验数据处理流程的校验结果,确定各待校验数据处理流程的执行状态。
本发明实施例提供了一种数据处理流程的校验方案,通过引入校验类别和参考关联数据的存在状态,对待校验数据处理流程进行校验,避免了无关的数据参与校验过程,减少了资源浪费,提高了校验的准确度。
在上述技术方案的基础上,若预设校验数据为预设校验规则,本发明实施例基于spark、java、easyRules等技术实现校验规则配置化工具,该校验规则配置化工具中可以包括校验规则定义模块、规则注册模块、规则加载模块、执行模块等,来描述整体的业务逻辑。
其中,校验规则定义模块是指按照待校验数据处理流程(如ETL流程)的来源表、目标库、上下文关联(即参数配置文件)等定义对应的预设校验规则;同时将跨文件之间的内容按照预设校验规则进行校验,针对多个来源表与多个目标表的情况将其转换为对应的规则模板内容。
其中,注册模块,针对已配置好的预设校验规则进行注册。
其中,规则加载模块,定时扫描注册的预设校验规则,针对已经注册好的预设校验规则加载到规则引擎中,等待预设校验规则执行。
其中,校验规则执行校验,针对批量提交的ETL流程,调用规则引擎进行校验执行,按照文件名称、文件内容、ETL流程模板等多个维度进行流程校验。校验规则执行模块依赖规则引擎中已经在被加载注册好的规则文件。
本发明实施例解决实际ETL流程配置中,ETL流程需要跨多组元数据规则文件、以及与历史ETL规则数据之间的数据规则校验,通过实际业务流程构成,快速配置校验规则的方案设计。采用Spark、java、easyRules等技术实现。可以根据ETL流程快速配置检验处理规则,提前检验ETL规则的合法性。
本发明实施例中,ETL流程的整体校验过程可以为:批量ETL流程写入ETL流程待执行队列、对ETL流程进行校验、根据校验结果确定ETL流程的执行状态。具体的,若校验结果为校验不通过,则ETL流程的执行状态为禁止执行状态;若校验结果为校验通过,则ETL流程的执行状态为可执行状态,ETL流程进入ETL流程执行队列。
其中,在对ETL流程进行校验之前,需要对预设校验规则进行定义和注册。其中,规则定义可以包括定义内容校验规则、定义来源表连接探查规则(即来源校验规则)、定义目标表校验规则(即目标落盘校验规则)、定义上下文校验规则(配置文件校验规则)、定义流程校验规则、定义历史数据校验规则、定义权限校验规则等7大校验规则。
其中,规则注册是指根据已经配置的各个规则文件,规则引擎将其所有的规则进行聚合计算,保证最终的各个规则之间不存在互斥规则,同时规则引擎将其规则生成唯一规则进行注册。
具体的,规则引擎将已经注册规则进行加载,并且按照聚合后的规则优先级进行排序。根据校验规则对输入的ETL流程进行相应的校验,如来源表连接探查规则对应来源表校验、目标表校验规则对应目标表校验、上下文校验规则对应上下文校验、流程校验规则对应流程校验、历史数据校验规则对应历史数据校验、权限校验规则对应权限校验。等待输入的校验数据按照顺序进行规则校验。来源表校验是指检验ETL流程来源表的数据是否与预设数据来源匹配;目标表校验是指检验各种pass组件是否满足数据落盘要求;上下文校验是指检验整体各种参数配置文件的匹配性,是否能够形成闭环;流程校验是指检验ETL流程是否满足模板要求;历史数据校验是指检验当前批次的ETL流程与历史运行中的ETL之间是否存在无法形成闭环的数据关联;权限校验是指检验配置的ETL流程中各种数据源、处理过程、数据落盘组件等之间是否满足对应的权限要求。
具体的,批量ETL流程进入ETL执行队列前,将ETL流程当作输入,调用已经加载到规则引擎中的规则进行检验,输出满足条件的ETL流程。同时针对不满足条件的ETL流程,输出无法匹配的检验规则以及ETL流程中的哪一步无法满足。
实施例三
图3是本发明实施例三提供的一种数据处理流程的校验装置的结构示意图。本实施例可适用于对数据处理流程进行校验的情况,该方法可以由数据处理流程的校验装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置于承载数据处理流程的校验功能的电子设备中。
如图3所示,该装置包括:处理流程获取模块310、目标校验数据选取模块320、校验模块330和执行状态确定模块340。其中,
处理流程获取模块310,用于获取至少一个待校验数据处理流程;
目标校验数据选取模块320,用于从预设校验数据中选取当前时刻需要进行校验的目标校验数据;
校验模块330,用于采用所述目标校验数据,对各所述待校验数据处理流程进行校验;
执行状态确定模块340,用于根据各所述待校验数据处理流程的校验结果,确定各所述待校验数据处理流程的执行状态。
本发明实施例提供的一种数据处理流程的校验方案,通过获取至少一个待校验数据处理流程;从预设校验数据中选取当前时刻需要进行校验的目标校验数据;采用目标校验数据,对各待校验数据处理流程进行校验;根据各待校验数据处理流程的校验结果,确定各待校验数据处理流程的执行状态。上述方案,自动化实现了对待处理数据流程的校验,提高了校验效率,降低了人工成本。
可选的,校验模块330,包括:
校验类别确定单元,用于确定所述目标校验数据的校验类别;其中,所述校验类别包括自身校验类别和对比校验类别;
存在状态确定单元,用于根据所述校验类别,确定所述目标校验数据对应的参考关联数据的存在状态;
校验单元,用于根据所述参考关联数据的存在状态和所述目标校验数据,对各所述待校验数据处理流程进行校验。
可选的,校验单元,包括:
第一校验子单元,用于若所述参考关联数据的存在状态为存在,则获取所述参考关联数据,根据所述参考关联数据和所述目标校验数据,对各所述待校验数据处理流程进行校验;
第二校验子单元,用于若所述参考关联数据的存在状态为不存在,则根据所述目标校验数据,对各所述待校验数据处理流程进行校验。
可选的,所述自身校验类别的目标校验数据包括如下至少一项:内容校验数据、目标落盘校验数据、配置文件校验数据、流程校验数据和权限校验数据;所述对比校验类别的目标校验数据包括:来源校验数据和历史数据校验数据。
可选的,若所述目标校验数据为配置文件校验数据,则所述参考关联数据的存在状态为不存在,所述第二校验子单元,包括:
参数配置文件获取从单元,用于获取各所述待校验数据处理流程中的参数配置文件;
运行状态确定从单元,用于确定各所述待校验数据处理流程的运行状态;
文件闭环状态确定从单元,用于根据所述运行状态,对各所述待校验数据处理流程中的所述参数配置文件进行校验,确定各所述待校验数据处理流程的文件闭环状态;
其中,所述运行状态包括并行状态和串行状态。
可选的,文件闭环状态确定从单元,具体用于:
若所述运行状态为并行状态,则并行对各所述待校验数据处理流程中的所述参数配置文件进行校验,分别确定各所述待校验数据处理流程对应的文件闭环状态;
若所述运行状态为串行状态,则将各所述待校验数据处理流程中的参数配置文件串联,对串联后的参数配置文件进行校验,确定所有待校验数据处理流程对应的文件闭环状态。
可选的,若所述目标校验数据为历史数据校验数据,则所述参考关联数据的存在状态为存在,且所述参考关联数据为历史运行数据,所述第一校验子单元,具体用于:
获取历史数据处理流程的历史运行数据,以及所述待校验数据处理流程的待校验运行数据;
根据所述历史运行数据,对所述待校验数据处理流程中的所述待校验运行数据进行校验,确定所述待校验数据处理流程的数据闭环状态。
本发明实施例所提供的数据处理流程的校验装置,可执行本发明任意实施例所提供的数据处理流程的校验方法,具备执行各数据处理流程的校验方法相应的功能模块和有益效果。
本发明的技术方案中,所涉及的待校验数据处理流程、预设校验数据、目标校验数据、参考关联数据等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
实施例四
图4是本发明实施例四提供的一种实现数据处理流程的校验方法的电子设备的结构示意图。电子设备410旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备410包括至少一个处理器411,以及与至少一个处理器411通信连接的存储器,如只读存储器(ROM)412、随机访问存储器(RAM)413等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器411可以根据存储在只读存储器(ROM)412中的计算机程序或者从存储单元418加载到随机访问存储器(RAM)413中的计算机程序,来执行各种适当的动作和处理。在RAM 413中,还可存储电子设备410操作所需的各种程序和数据。处理器411、ROM 412以及RAM 413通过总线414彼此相连。输入/输出(I/O)接口415也连接至总线414。
电子设备410中的多个部件连接至I/O接口415,包括:输入单元416,例如键盘、鼠标等;输出单元417,例如各种类型的显示器、扬声器等;存储单元418,例如磁盘、光盘等;以及通信单元419,例如网卡、调制解调器、无线通信收发机等。通信单元419允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器411可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器411的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器411执行上文所描述的各个方法和处理,例如数据处理流程的校验方法。
在一些实施例中,数据处理流程的校验方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元418。在一些实施例中,计算机程序的部分或者全部可以经由ROM 412和/或通信单元419而被载入和/或安装到电子设备410上。当计算机程序加载到RAM 413并由处理器411执行时,可以执行上文描述的数据处理流程的校验方法的一个或多个步骤。备选地,在其他实施例中,处理器411可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理流程的校验方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种数据处理流程的校验方法,其特征在于,包括:
获取至少一个待校验数据处理流程;
从预设校验数据中选取当前时刻需要进行校验的目标校验数据;
采用所述目标校验数据,对各所述待校验数据处理流程进行校验;
根据各所述待校验数据处理流程的校验结果,确定各所述待校验数据处理流程的执行状态。
2.根据权利要求1所述的方法,其特征在于,所述采用所述目标校验数据,对各所述待校验数据处理流程进行校验,包括:
确定所述目标校验数据的校验类别;其中,所述校验类别包括自身校验类别和对比校验类别;
根据所述校验类别,确定所述目标校验数据对应的参考关联数据的存在状态;
根据所述参考关联数据的存在状态和所述目标校验数据,对各所述待校验数据处理流程进行校验。
3.根据权利要求2所述的方法,其特征在于,所述根据所述参考关联数据的存在状态和所述目标校验数据,对各所述待校验数据处理流程进行校验,包括:
若所述参考关联数据的存在状态为存在,则获取所述参考关联数据,根据所述参考关联数据和所述目标校验数据,对各所述待校验数据处理流程进行校验;
若所述参考关联数据的存在状态为不存在,则根据所述目标校验数据,对各所述待校验数据处理流程进行校验。
4.根据权利要求3所述的方法,其特征在于,所述自身校验类别的目标校验数据包括如下至少一项:内容校验数据、目标落盘校验数据、配置文件校验数据、流程校验数据和权限校验数据;所述对比校验类别的目标校验数据包括:来源校验数据和历史数据校验数据。
5.根据权利要求4所述的方法,其特征在于,若所述目标校验数据为配置文件校验数据,则所述参考关联数据的存在状态为不存在,所述根据所述目标校验数据,对各所述待校验数据处理流程进行校验,包括:
获取各所述待校验数据处理流程中的参数配置文件;
确定各所述待校验数据处理流程的运行状态;
根据所述运行状态,对各所述待校验数据处理流程中的所述参数配置文件进行校验,确定各所述待校验数据处理流程的文件闭环状态;
其中,所述运行状态包括并行状态和串行状态。
6.根据权利要求5所述的方法,其特征在于,所述根据所述运行状态,对各所述待校验数据处理流程中的所述参数配置文件进行校验,确定各所述待校验数据处理流程的文件闭环状态,包括:
若所述运行状态为并行状态,则并行对各所述待校验数据处理流程中的所述参数配置文件进行校验,分别确定各所述待校验数据处理流程对应的文件闭环状态;
若所述运行状态为串行状态,则将各所述待校验数据处理流程中的参数配置文件串联,对串联后的参数配置文件进行校验,确定所有待校验数据处理流程对应的文件闭环状态。
7.根据权利要求4所述的方法,其特征在于,若所述目标校验数据为历史数据校验数据,则所述参考关联数据的存在状态为存在,且所述参考关联数据为历史运行数据,所述根据所述参考关联数据和所述目标校验数据,对各所述待校验数据处理流程进行校验,包括:
获取历史数据处理流程的历史运行数据,以及所述待校验数据处理流程的待校验运行数据;
根据所述历史运行数据,对所述待校验数据处理流程中的所述待校验运行数据进行校验,确定所述待校验数据处理流程的数据闭环状态。
8.一种数据处理流程的校验装置,其特征在于,包括:
处理流程获取模块,用于获取至少一个待校验数据处理流程;
目标校验数据选取模块,用于从预设校验数据中选取当前时刻需要进行校验的目标校验数据;
校验模块,用于采用所述目标校验数据,对各所述待校验数据处理流程进行校验;
执行状态确定模块,用于根据各所述待校验数据处理流程的校验结果,确定各所述待校验数据处理流程的执行状态。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的一种数据处理流程的校验方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种数据处理流程的校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311435866.0A CN117421363A (zh) | 2023-10-31 | 2023-10-31 | 数据处理流程的校验方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311435866.0A CN117421363A (zh) | 2023-10-31 | 2023-10-31 | 数据处理流程的校验方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421363A true CN117421363A (zh) | 2024-01-19 |
Family
ID=89532314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311435866.0A Pending CN117421363A (zh) | 2023-10-31 | 2023-10-31 | 数据处理流程的校验方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421363A (zh) |
-
2023
- 2023-10-31 CN CN202311435866.0A patent/CN117421363A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10754641B2 (en) | Optimizing continuous integration (CI) using code review quality | |
CN115576828A (zh) | 一种测试用例生成方法、装置、设备及存储介质 | |
CN116431505A (zh) | 一种回归测试方法、装置、电子设备、存储介质及产品 | |
CN116303013A (zh) | 源码分析方法、装置、电子设备及存储介质 | |
CN116228301A (zh) | 一种目标用户的确定方法、装置、设备及介质 | |
CN117421363A (zh) | 数据处理流程的校验方法、装置、设备及介质 | |
CN113554062B (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN116011955A (zh) | 一种机器人流程自动化需求实现方法、装置、设备和存储介质 | |
CN116185389A (zh) | 一种代码生成方法、装置、电子设备及介质 | |
CN116401113B (zh) | 一种异构众核架构加速卡的环境验证方法、装置及介质 | |
CN114864030A (zh) | 一种单病种数据填报及核查方法、装置、设备及介质 | |
CN117081939A (zh) | 一种流量数据处理方法、装置、设备及存储介质 | |
CN117331924A (zh) | 一种数据模型匹配度核查方法、装置、设备及存储介质 | |
CN117193726A (zh) | 一种软件的并行设计方法、装置、电子设备以及介质 | |
CN115374010A (zh) | 功能测试方法、装置、设备及存储介质 | |
CN114741291A (zh) | 一种漏洞信息自动提交的方法、装置、设备及介质 | |
CN116108311A (zh) | 内容处理方法、装置、设备以及存储介质 | |
CN116225390A (zh) | 一种软件开发文件的入库方法、装置、设备及介质 | |
CN116502841A (zh) | 一种事件的处理方法、装置、电子设备以及介质 | |
CN117743396A (zh) | 一种数据质量检测方法、装置、设备及存储介质 | |
CN116932033A (zh) | 一种组件打包方法、装置、电子设备及存储介质 | |
CN115600819A (zh) | 风险评估方法、装置、电子设备及存储介质 | |
CN117632120A (zh) | 一种报表数据的加工系统、方法、设备及存储介质 | |
CN116991737A (zh) | 一种软件测试方法、系统、电子设备及存储介质 | |
CN116954662A (zh) | 基于建筑设施的知识体系更新方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |