CN118152414A - 数据处理方法、装置、设备、存储介质及程序产品 - Google Patents
数据处理方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN118152414A CN118152414A CN202410365526.3A CN202410365526A CN118152414A CN 118152414 A CN118152414 A CN 118152414A CN 202410365526 A CN202410365526 A CN 202410365526A CN 118152414 A CN118152414 A CN 118152414A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- loading
- application system
- target application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000013524 data verification Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 57
- 238000004590 computer program Methods 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 4
- 238000013500 data storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据处理方法、装置、设备、存储介质及程序产品,应用于大数据技术领域。方法包括:获取目标应用系统在当前计算周期对应的待处理数据;根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据;根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据;根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表;将更新后的业务目标表中的数据加载到目标应用系统中。采用本方法能够减少数据处理过程中的数据冗余。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种数据处理方法、装置、设备、存储介质及程序产品。
背景技术
随着信息技术的不断发展,越来越多的场景应用到大数据处理技术,通过大数据处理技术可以实现数据的实时分析和决策,从而可以支持各种商业和科学应用。
相关技术中,大规模并行处理(Massively Parallel Processing,MPP)是大数据处理中的一种常见场景。针对MPP所涉及的数据分层和处理,通常采用离线蜂巢数据仓库(Hive Data Warehouse,Hive)的分层方案实现,通过数据仓库中的不同数据存储和处理的层级,分别支持不同类型的数据处理和分析需求。
然而,当前的Hive的分层方案,数据都以全量或增量的进行加载,会造成数据处理过程中的数据冗余。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减少数据处理过程中的数据冗余的数据处理方法、装置、设备、存储介质及程序产品。
第一方面,本申请提供了一种数据处理方法。所述方法包括:
获取目标应用系统在当前计算周期对应的待处理数据;
根据所述待处理数据对应的处理逻辑信息,调整所述待处理数据中的数据字段和数据指标,生成所述目标应用系统在当前计算周期对应的候选加载数据;
根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出所述目标应用系统在当前计算周期的目标加载数据,所述目标加载数据为相比于所述前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据;
根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表;
将更新后的业务目标表中的数据加载到所述目标应用系统中。
在其中一个实施例中,所述根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,包括:
若所述候选加载数据与所述前一计算周期的历史加载数据的主键信息相同且数据字段不同,则确定所述候选加载数据相对于所述前一计算周期的历史加载数据发生数据变更;
若所述候选加载数据与所述前一计算周期的历史加载数据的主键信息不同且数据字段不同,则确定所述候选加载数据相对于所述前一计算周期的历史加载数据发生数据新增;
将发生数据新增或数据变更的候选加载数据,确定为所述目标应用系统在当前计算周期的目标加载数据。
在其中一个实施例中,所述根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表,包括:
在所述业务数据表中,确定出与所述目标加载数据的主键信息相同的待更新数据;
删除所述待更新数据,并在所述待更新数据的位置全量插入所述目标加载数据,以更新所述业务数据表。
在其中一个实施例中,在所述根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表之后,所述方法还包括:
通过主键重复校验和/或字段空值检测,对所述更新后的业务目标表中的数据进行校验,确定出所述更新后的业务目标表中的异常数据。
在其中一个实施例中,在所述获取目标应用系统在当前计算周期对应的待处理数据之后,所述方法还包括:
根据所述目标应用系统对应的数据格式,对所述待处理数据进行数据格式转换。
在其中一个实施例中,所述方法还包括:
根据所述当前计算周期和所述历史加载数据对应的数据日期,清理超过存储时长阈值的历史加载数据;
将所述更新后的业务目标表中的数据作为所述当前计算周期的历史加载数据进行全量存储,并设置所述当前计算周期的历史加载数据的数据日期。
第二方面,本申请提供了一种数据处理装置。所述装置包括:
计算模块,用于获取目标应用系统在当前计算周期对应的待处理数据;根据所述待处理数据对应的处理逻辑信息,调整所述待处理数据中的数据字段和数据指标,生成所述目标应用系统在当前计算周期对应的候选加载数据;
有效校验模块,用于根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出所述当前计算周期的目标加载数据,所述目标记载数据为所述候选加载数据中相对于所述历史加载数据发生新增或变更的数据;
目标加载模块,用于根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表;将更新后的业务目标表中的数据加载到所述目标应用系统中。
在其中一个实施例中,所述有效校验模块,具体用于若所述候选加载数据与所述前一计算周期的历史加载数据的主键信息相同且数据字段不同,则确定所述候选加载数据相对于所述前一计算周期的历史加载数据发生数据变更;若所述候选加载数据与所述前一计算周期的历史加载数据的主键信息不同且数据字段不同,则确定所述候选加载数据相对于所述前一计算周期的历史加载数据发生数据新增;将发生数据新增或数据变更的候选加载数据,确定为所述目标应用系统在当前计算周期的目标加载数据。
在其中一个实施例中,所述目标加载模块,具体用于在所述业务数据表中,确定出与所述目标加载数据的主键信息相同的待更新数据;删除所述待更新数据,并在所述待更新数据的位置全量插入所述目标加载数据,以更新所述业务数据表。
在其中一个实施例中,所述目标加载模块,还体用于通过主键重复校验和/或字段空值检测,对所述更新后的业务目标表中的数据进行校验,确定出所述更新后的业务目标表中的异常数据。
在其中一个实施例中,所述计算模块,还用于根据所述目标应用系统对应的数据格式,对所述待处理数据进行数据格式转换。
在其中一个实施例中,所述数据处理装置还包括:
历史存储模块,用于根据所述当前计算周期和所述历史加载数据对应的数据日期,清理超过存储时长阈值的历史加载数据;将所述更新后的业务目标表中的数据作为所述当前计算周期的历史加载数据进行全量存储,并设置所述当前计算周期的历史加载数据的数据日期。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的数据处理方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的数据处理方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面的数据处理方法。
上述数据处理方法、装置、设备、存储介质及程序产品,首先获取目标应用系统在当前计算周期对应的待处理数据,并根据所述待处理数据对应的处理逻辑信息,调整所述待处理数据中的数据字段和数据指标,生成所述目标应用系统在当前计算周期对应的候选加载数据。其次,根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出所述目标应用系统在当前计算周期的目标加载数据,所述目标加载数据为相比于所述前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。再次,根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表。最后,将更新后的业务目标表中的数据加载到所述目标应用系统中。由于通过比较前一计算周期的历史加载数据和候选加载数据之间的数据新增或数据变更,来确定目标加载数据,以更新目标应用的业务数据表,从而可以减少不必要的数据存储和数据更新,进而减少了数据冗余。
附图说明
图1为本申请实施例提供的一种数据处理方法的应用环境图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的一种数据处理方法的软件系统图;
图4为本申请实施例提供的另一种数据处理方法的流程示意图;
图5为本申请实施例提供的另一种数据处理方法的流程示意图;
图6为本申请实施例提供的另一种数据处理方法的流程示意图;
图7为本申请实施例提供的一种数据处理装置的结构框图;
图8为本申请实施例提供的一种计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合相关法律法规的相关规定。
下面首先对于相关技术进行说明。
相关技术中,大规模并行处理(Massively Parallel Processing,MPP)是大数据处理中的一种常见场景。针对MPP所涉及的数据分层和处理,通常采用离线蜂巢数据仓库(Hive Data Warehouse,Hive)的分层方案实现,通过数据仓库中的不同数据存储和处理的层级,分别支持不同类型的数据处理和分析需求。
其中,Hive的分层方案主要包括运营数据存储(Operation Data Store,ODS)层、数据仓库明细(Data Warehouse Detail,DWD)层、数据仓库汇总(Data WarehouseSummary)层、应用数据存储(Application Data Store,ADS)层和维度表(Dimension,DIM)层。
ODS层,用于存储来自操作系统或应用程序的原始数据。DWD层,用于存放经过清洗、加工和建模后的详细数据,以支持业务报表和分析。DWS层,用于存放经过汇总、聚合处理后的数据,用于生成汇总报表和快速分析。ADS层,用于针对特定应用或业务需求设计的数据存储层。DIM层,用于存储业务中的维度信息,用于支持数据分析和报表。
然而,当前的Hive的分层方案,数据都以全量或增量的进行加载,会造成数据处理过程中的数据冗余,相应的增加了额外的存储成本。同时,设计上不够灵活,数据计算链路过长。
为解决上述技术问题,本申请实施例提供一种数据处理方法、装置、设备、存储介质及程序产品,通过比较前一计算周期的历史加载数据和候选加载数据之间的数据新增或数据变更,来确定目标加载数据,以更新目标应用的业务数据表,从而可以减少不必要的数据存储和数据更新,进而减少了数据冗余。
下面对于本申请中的数据处理方法所涉及的应用场景进行说明。
本申请实施例提供的数据处理方法,可以应用于如图1所示的应用环境中。其中,第一服务器101通过网络与第二服务器102进行通信。数据存储系统可以存储第一服务器101和第二服务器102需要处理的数据。数据存储系统可以集成在第一服务器101和第二服务器102上,也可以放在云上或其他网络服务器上。其中,第二服务器102为目标应用系统的服务器,第一服务器101为外部接入的其他系统的服务器。
第一服务器101可以向第二服务器102发送目标应用系统在当前计算周期对应的待处理数据。第二服务器102在获取待处理数据后,首先可以根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。其次,第二服务器102可以根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,目标加载数据为相比于前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。再次,第二服务器102可以根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。最后,第二服务器将更新后的业务目标表中的数据加载到目标应用系统中。
其中,第一服务器101和第二服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据处理方法,以该方法应用于图1中的第二服务器为例进行说明,包括S201-S205:
S201、获取目标应用系统在当前计算周期对应的待处理数据。
在本申请中,当需要进行数据处理或数据存储时,第二服务器可以获取目标应用系统在当前计算周期对应的待处理数据。
其中,上述目标应用系统可以为任意应用程序的系统,上述待处理数据可以为其他外部系统的数据。上述当前计算周期可以为本次的待处理数据对应的处理周期。
在一些实施例中,由于待处理数据为外部系统的数据,可能与目标应用系统的数据格式不同。相应的,在获取目标应用系统在当前计算周期对应的待处理数据后,可以根据目标应用系统对应的数据格式,对待处理数据进行数据格式转换。
需要说明的是,本申请实施例对于目标应用系统的格式不作限制,可以根据应用类型确定,通过对待处理数据进行格式转换,可以将获取到的其他外部系统的待处理数据进行转换和计算,成为目标应用系统的数据,从而便于后续的数据处理和加载。
S202、根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。
在本步骤中,在获取目标应用系统在当前计算周期对应的待处理数据后,可以根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。
其中,上述处理逻辑信息可以包括修改、删除、新增等计算逻辑。
应理解,本申请实施例对于如何根据待处理数据对应的处理逻辑信息调整待处理数据中的数据字段和数据指标不作限制,在一些实施例中,上述第二服务器可以采用MPP特性,基于用户所输入的计算逻辑,对待处理数据中的数据字段和数据指标进行修改、删除、新增等操作,从而形成目标应用系统在当前计算周期对应的候选加载数据。
应理解,本申请实施例对于何时调整待处理数据中的数据字段和数据指标也不作限制,在一些实施例中,每个计算周期均可以在进行计算前,清空相关的表数据,随后,利用MPP的特性,依据算法逻辑随意的计算,从而更新待处理数据的数据字段以及指标。
示例性的,图3为本申请实施例提供的一种数据处理方法的软件系统图,如图3所示,该数据处理方法的软件系统,可以包括计算(Computation,C)层,上述数据处理方中涉及的获取待处理数据、待处理数据的格式转换以及根据待处理数据对应的处理逻辑信息调整待处理数据中的数据字段和数据指标,均可以由计算层实现。即,计算层可以作为数据接入层并承载计算逻辑。
在本申请中,由于待处理数据的计算可以在计算层完成,从而可以缩短数据链路,减少运算资源。
S203、根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的。
其中,目标加载数据为相比于前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。
在本步骤中,当生成目标应用系统在当前计算周期对应的候选加载数据后,可以根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据。
在本申请实施例中,第二服务器上可以存储多个计算周期的历史加载数据,从而将前一计算周期的历史加载数据和当前计算周期对应待处理数据进行比较,区分出需要新增或变更的数据,使得仅需要对待处理数据中需要新增或变更的数据进行处理,从而减少了数据冗余。
其中,上述目标加载数据为需要加载到目标业务系统的业务数据表中的数据。
应理解,本申请实施例对于如何确定出发生数据变更或发生数据新增不作限制,在一些实施例中,第二服务器可以将候选加载数据与前一计算周期的历史加载数据的主键信息和数据字段分别进行比较。若候选加载数据与前一计算周期的历史加载数据的主键信息相同且数据字段不同,则确定候选加载数据相对于前一计算周期的历史加载数据发生数据变更。若候选加载数据与前一计算周期的历史加载数据的主键信息不同且数据字段不同,则确定候选加载数据相对于前一计算周期的历史加载数据发生数据新增。随后,可以将发生数据新增或数据变更的候选加载数据,确定为目标应用系统在当前计算周期的目标加载数据。
示例性的,继续参考图3,该数据处理方法的软件系统中,还可以包括有效性校验(Validation ,V)层和目标加载(Purpose ,P)层。当计算层获取到待处理数据,并根据处理逻辑信息生成候选加载数据后。有效性校验层可以将计算层中的候选加载数据和目标加载层中的前一计算周期的历史加载数据进行比较,区分出需要新增或变更的数据,并加载到有效性校验层。
示例性的,有效性校验层在将计算层中的候选加载数据和历史存储层中的前一计算周期的历史加载数据进行比较时,可以理应清空表数据,新增数据定义为计算层有但历史存储层没有的数据,通过主键来判断。同时,变更数据定义为计算层与历史存储层主键相同但其他数据字段不同的数据。
S204、根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。
在本步骤中,当第二服务器确定出目标应用系统在当前计算周期的目标加载数据后,可以根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。
其中,上述业务数据表中可以包括最终加载到目标业务数据的数据。相应的,在每个计算周期中,需要先更新业务数据表,再将业务数据表中的数据加载到目标业务系统中。
应理解,本申请实施例对于如何根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中不作限制,在一些实施例中,第二服务器可以首先在业务数据表中,确定出与目标加载数据的主键信息相同的待更新数据。随后,第二服务器可以删除待更新数据,并在待更新数据的位置全量插入目标加载数据,以更新业务数据表。
在本申请中,通过匹配目标加载数据的主键信息,可以确定业务数据表中待更新的数据,从而在删除待更新的数据后,将目标业务数据插入到待更新的数据的位置,从而完成业务数据表的更新。通过该方式对业务数据表进行更新,可以减少数据更新量,进而减少数据冗余。
在一些实施例中,在业务数据表完成更新后,还可以对更新后的业务数据表进行校验,确定更新出后的业务数据表中是否存在异常数据。若存在异常数据,则生成相应的告警信息。
应理解,本申请实施例对于如何对更新后的业务数据表进行校验不作限制,可以采用主键重复校验和/或字段空值检测来进行校验。
S205、将更新后的业务目标表中的数据加载到目标应用系统中。
在本步骤中,当第二服务器根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中后,可以将更新后的业务目标表中的数据加载到目标应用系统中
示例性的,继续参考图3,该数据处理方法的软件系统中,还可以包括目标加载模块(Purpose ,P)层。目标加载层以首先利用有效校验层中的目标加载数据来删除目标加载层的业务数据表中主键相同的数据,再将目标加载数据全量插入业务数据表中,从而达到新增和更新数据的目的。在完成业务数据表的更新后,可以最终将业务数据表中的数据加载到目标应用系统中进行试验。
在另一些实施例中,在将更新后的业务目标表中的数据加载到目标应用系统中之后,第二服务器还可以根据当前计算周期和历史加载数据对应的数据日期,清理超过存储时长阈值的历史加载数据。随后,第二服务器再将更新后的业务目标表中的数据作为当前计算周期的历史加载数据进行全量存储,并设置当前计算周期的历史加载数据的数据日期。
应理解,本申请实施例对于存储时长不作限制,可以根据实际情况具体设置,例如5天、7天、10天等。
示例性的,通过计算当前计算周期和历史加载数据对应的数据日期的差值,可以得到各个历史加载数据的存储时长。若存储时长超过存储时长阈值,则可以将该历史加载数据清除。在完成历史加载数据的清除后,还可以将更新后的业务目标表中的数据作为当前计算周期的历史加载数据进行全量存储,并设置当前计算周期的历史加载数据的数据日期,从而更新存储的历史加载数据。
示例性的,继续参考图3,该数据处理方法的软件系统中,还可以包括历史存储(History ,H)层。历史存储层中承载各个计算周期的历史加载数据,例如,至少保留7天的历史加载数据,从而方便进行数据质量追踪和数据回溯。在每个计算周期内,可以对历史存储层中超期的历史加载数据进行清除,再将目标加载模块中更新后的业务目标表中的数据作为当前计算周期的历史加载数据存入历史存储层中,并设置数据日期。
本申请实施例中的该数据处理方法所涉及的软件系统,分为计算层、有效校验层、目标加载层和历史存储层。计算层接入外部数据并承载计算逻辑,有效校验层校验出需新增或更新的数据,目标加载层存放面向目标应用系统的数据,而 历史存储层层用于存储历史加载数据。该分层设计使得在 MPP 环境下的数据处理更加高效和可管理。通过明确定义不同层级的功能和关联,可以实现更精准的数据处理流程,提升数据仓库的性能和灵活。
此外,目标加载层可以首先利用有效校验层中的目标加载数据来删除目标加载层的业务数据表中主键相同的数据,再将目标加载数据全量插入业务数据表中,从而达到新增和更新数据的目的。在完成业务数据表的更新后,可以最终将业务数据表中的数据加载到目标应用系统中进行试验。
本申请实施例提供的数据处理方法,首先获取目标应用系统在当前计算周期对应的待处理数据,并根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。其次,根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,目标加载数据为相比于前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。再次,根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。最后,将更新后的业务目标表中的数据加载到目标应用系统中。由于通过比较前一计算周期的历史加载数据和候选加载数据之间的数据新增或数据变更,来确定目标加载数据,以更新目标应用的业务数据表,从而可以减少不必要的数据存储和数据更新,进而减少了数据冗余。
下面对于如何确定出目标应用系统在当前计算周期的目标加载数据进行说明。图4为本申请实施例提供的另一种数据处理方法的流程示意图,如图4所示,该数据处理方法,包括S301-S307:
S301、获取目标应用系统在当前计算周期对应的待处理数据。
S302、根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。
S303、若候选加载数据与前一计算周期的历史加载数据的主键信息相同且数据字段不同,则确定候选加载数据相对于前一计算周期的历史加载数据发生数据变更。
S304、若候选加载数据与前一计算周期的历史加载数据的主键信息不同且数据字段不同,则确定候选加载数据相对于前一计算周期的历史加载数据发生数据新增。
S305、将发生数据新增或数据变更的候选加载数据,确定为目标应用系统在当前计算周期的目标加载数据。
S306、根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。
S307、将更新后的业务目标表中的数据加载到目标应用系统中。
在本申请中,第二服务器上可以存储多个计算周期的历史加载数据,从而将前一计算周期的历史加载数据和当前计算周期对应待处理数据进行比较,区分出需要新增或变更的数据,使得仅需要对待处理数据中需要新增或变更的数据进行处理,从而减少了数据冗余。
下面对于如何根据目标加载数据的主键信息将目标加载数据全量插入到目标应用的业务数据表中进行说明。图5为本申请实施例提供的另一种数据处理方法的流程示意图,如图5所示,该数据处理方法,包括S401-S407:
S401、获取目标应用系统在当前计算周期对应的待处理数据。
S402、根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。
S403、根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,目标加载数据为相比于前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。
S404、在业务数据表中,确定出与目标加载数据的主键信息相同的待更新数据。
S405、删除待更新数据,并在待更新数据的位置全量插入目标加载数据,以更新业务数据表。
S406、通过主键重复校验和/或字段空值检测,对更新后的业务目标表中的数据进行校验,确定出更新后的业务目标表中的异常数据。
S407、将更新后的业务目标表中的数据加载到目标应用系统中。
在本申请中,通过匹配目标加载数据的主键信息,可以确定业务数据表中待更新的数据,从而在删除待更新的数据后,将目标业务数据插入到待更新的数据的位置,从而完成业务数据表的更新。通过该方式对业务数据表进行更新,可以减少数据更新量,进而减少数据冗余。
下面对于如何处理历史加载数据进行说明。图6为本申请实施例提供的另一种数据处理方法的流程示意图,如图6所示,该数据处理方法,包括S501-S507:
S501、获取目标应用系统在当前计算周期对应的待处理数据。
S502、根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。
S503、根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,目标加载数据为相比于前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。
S504、根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。
S505、将更新后的业务目标表中的数据加载到目标应用系统中。
S506、根据当前计算周期和历史加载数据对应的数据日期,清理超过存储时长阈值的历史加载数据。
S507、将更新后的业务目标表中的数据作为当前计算周期的历史加载数据进行全量存储,并设置当前计算周期的历史加载数据的数据日期。
在本申请中,在每个计算周期中,可以分别存储各个计算周期的历史加载数据,从而方便进行数据质量追踪和数据回溯。
本申请实施例提供的数据处理方法,首先获取目标应用系统在当前计算周期对应的待处理数据,并根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。其次,根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,目标加载数据为相比于前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据。再次,根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表。最后,将更新后的业务目标表中的数据加载到目标应用系统中。由于通过比较前一计算周期的历史加载数据和候选加载数据之间的数据新增或数据变更,来确定目标加载数据,以更新目标应用的业务数据表,从而可以减少不必要的数据存储和数据更新,进而减少了数据冗余。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种数据处理装置600,包括:计算模块601、有效校验模块602、目标加载模块603和历史存储模块604,其中:
计算模块601,用于获取目标应用系统在当前计算周期对应的待处理数据;根据待处理数据对应的处理逻辑信息,调整待处理数据中的数据字段和数据指标,生成目标应用系统在当前计算周期对应的候选加载数据。
有效校验模块602,用于根据目标应用系统在前一计算周期的历史加载数据,对候选加载数据进行数据校验,确定出当前计算周期的目标加载数据,目标记载数据为候选加载数据中相对于历史加载数据发生新增或变更的数据。
目标加载模块603,用于根据目标加载数据的主键信息,将目标加载数据全量插入到目标应用的业务数据表中,以更新业务数据表;将更新后的业务目标表中的数据加载到目标应用系统中。
在其中一个实施例中,有效校验模块602,具体用于若候选加载数据与前一计算周期的历史加载数据的主键信息相同且数据字段不同,则确定候选加载数据相对于前一计算周期的历史加载数据发生数据变更;若候选加载数据与前一计算周期的历史加载数据的主键信息不同且数据字段不同,则确定候选加载数据相对于前一计算周期的历史加载数据发生数据新增;将发生数据新增或数据变更的候选加载数据,确定为目标应用系统在当前计算周期的目标加载数据。
在其中一个实施例中,目标加载模块603,具体用于在业务数据表中,确定出与目标加载数据的主键信息相同的待更新数据;删除待更新数据,并在待更新数据的位置全量插入目标加载数据,以更新业务数据表。
在其中一个实施例中,目标加载模块603,还体用于通过主键重复校验和/或字段空值检测,对更新后的业务目标表中的数据进行校验,确定出更新后的业务目标表中的异常数据。
在其中一个实施例中,计算模块601,还用于根据目标应用系统对应的数据格式,对待处理数据进行数据格式转换。
在其中一个实施例中,数据处理装置600还包括:
历史存储模块604,用于根据当前计算周期和历史加载数据对应的数据日期,清理超过存储时长阈值的历史加载数据;将更新后的业务目标表中的数据作为当前计算周期的历史加载数据进行全量存储,并设置当前计算周期的历史加载数据的数据日期。
上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述数据处理方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述数据处理方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述数据处理方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取目标应用系统在当前计算周期对应的待处理数据;
根据所述待处理数据对应的处理逻辑信息,调整所述待处理数据中的数据字段和数据指标,生成所述目标应用系统在当前计算周期对应的候选加载数据;
根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出所述目标应用系统在当前计算周期的目标加载数据,所述目标加载数据为相比于所述前一计算周期的历史加载数据发生数据新增或发生数据变更的候选加载数据;
根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表;
将更新后的业务目标表中的数据加载到所述目标应用系统中。
2.根据权利要求 1所述的方法,其特征在于,所述根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出目标应用系统在当前计算周期的目标加载数据,包括:
若所述候选加载数据与所述前一计算周期的历史加载数据的主键信息相同且数据字段不同,则确定所述候选加载数据相对于所述前一计算周期的历史加载数据发生数据变更;
若所述候选加载数据与所述前一计算周期的历史加载数据的主键信息不同且数据字段不同,则确定所述候选加载数据相对于所述前一计算周期的历史加载数据发生数据新增;
将发生数据新增或数据变更的候选加载数据,确定为所述目标应用系统在当前计算周期的目标加载数据。
3.根据权利要求 1所述的方法,其特征在于,所述根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表,包括:
在所述业务数据表中,确定出与所述目标加载数据的主键信息相同的待更新数据;
删除所述待更新数据,并在所述待更新数据的位置全量插入所述目标加载数据,以更新所述业务数据表。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表之后,所述方法还包括:
通过主键重复校验和/或字段空值检测,对所述更新后的业务目标表中的数据进行校验,确定出所述更新后的业务目标表中的异常数据。
5.根据权利要求 1所述的方法,其特征在于,在所述获取目标应用系统在当前计算周期对应的待处理数据之后,所述方法还包括:
根据所述目标应用系统对应的数据格式,对所述待处理数据进行数据格式转换。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述将更新后的业务目标表中的数据加载到所述目标应用系统中之后,所述方法还包括:
根据所述当前计算周期和所述历史加载数据对应的数据日期,清理超过存储时长阈值的历史加载数据;
将所述更新后的业务目标表中的数据作为所述当前计算周期的历史加载数据进行全量存储,并设置所述当前计算周期的历史加载数据的数据日期。
7.一种数据处理装置,其特征在于,所述装置包括:
计算模块,用于获取目标应用系统在当前计算周期对应的待处理数据;根据所述待处理数据对应的处理逻辑信息,调整所述待处理数据中的数据字段和数据指标,生成所述目标应用系统在当前计算周期对应的候选加载数据;
有效校验模块,用于根据所述目标应用系统在前一计算周期的历史加载数据,对所述候选加载数据进行数据校验,确定出所述当前计算周期的目标加载数据,所述目标记载数据为所述候选加载数据中相对于所述历史加载数据发生新增或变更的数据;
目标加载模块,用于根据所述目标加载数据的主键信息,将所述目标加载数据全量插入到目标应用的业务数据表中,以更新所述业务数据表;将更新后的业务目标表中的数据加载到所述目标应用系统中。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410365526.3A CN118152414A (zh) | 2024-03-28 | 2024-03-28 | 数据处理方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410365526.3A CN118152414A (zh) | 2024-03-28 | 2024-03-28 | 数据处理方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118152414A true CN118152414A (zh) | 2024-06-07 |
Family
ID=91291682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410365526.3A Pending CN118152414A (zh) | 2024-03-28 | 2024-03-28 | 数据处理方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118152414A (zh) |
-
2024
- 2024-03-28 CN CN202410365526.3A patent/CN118152414A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116737373A (zh) | 负载均衡方法、装置、计算机设备、存储介质 | |
CN118152414A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN115759742A (zh) | 企业风险评估方法、装置、计算机设备和存储介质 | |
CN115858471A (zh) | 业务数据变更记录方法、装置、计算机设备及介质 | |
CN114238258B (zh) | 数据库数据处理方法、装置、计算机设备、存储介质 | |
CN116880927A (zh) | 规则管理方法、装置、计算机设备和存储介质 | |
CN118154035A (zh) | 业务数据的价值评估方法、装置、设备、存储介质和产品 | |
CN116485096A (zh) | 资源处理方法、装置、计算机设备和存储介质 | |
CN117852818A (zh) | 项目编码生成方法、装置、计算机设备和存储介质 | |
CN117827978A (zh) | 数据冲突处理方法、装置、计算机设备和存储介质 | |
CN117056426A (zh) | 金融信贷场景下的数据链式存储方法、装置和系统 | |
CN116881164A (zh) | 金融信息系统中测试数据的校验修正方法、装置和设备 | |
CN118537109A (zh) | 资源增益数据确定方法、装置、设备和可读存储介质 | |
CN115619214A (zh) | 风险预警方法、装置、计算机设备和存储介质 | |
CN115439229A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN116932677A (zh) | 地址信息匹配方法、装置、计算机设备和存储介质 | |
CN117294586A (zh) | 流量调整方法、装置、计算机设备和存储介质 | |
CN117196598A (zh) | 资源转移方法、装置、计算机设备和存储介质 | |
CN117909393A (zh) | 接口参数映射获取方法、装置、设备、介质和程序产品 | |
CN116701784A (zh) | 网点查找方法、装置、设备、存储介质和程序产品 | |
CN114238954A (zh) | 智能变电站二次系统的入侵检测方法、装置、设备和介质 | |
CN117708151A (zh) | 数据的处理方法、装置、计算机设备 | |
CN117349184A (zh) | 测试案例生成方法、装置、计算机设备和存储介质 | |
CN118279037A (zh) | 资源增益数据确定方法、装置、计算机设备、存储介质 | |
CN116561189A (zh) | 业务处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |