CN116244006A - 一种数据处理方法、装置、存储介质、电子设备及产品 - Google Patents
一种数据处理方法、装置、存储介质、电子设备及产品 Download PDFInfo
- Publication number
- CN116244006A CN116244006A CN202310261629.0A CN202310261629A CN116244006A CN 116244006 A CN116244006 A CN 116244006A CN 202310261629 A CN202310261629 A CN 202310261629A CN 116244006 A CN116244006 A CN 116244006A
- Authority
- CN
- China
- Prior art keywords
- data
- loading
- data item
- type
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44521—Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种数据处理方法、装置、存储介质、电子设备及产品。该方法通过获取多个数据项的属性信息,对于每一数据项,基于数据项的属性信息分别确定数据项的加载类型,其中,加载类型包括全量加载和增量加载,基于加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。将数据项基于不同的加载类型进行分类,实现大幅缩减计算和重跑时间的效果。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、存储介质、电子设备及产品。
背景技术
目前,随着技术的发展,需进行处理数据的数据量越来越大,针对大量的待处理数据,在从数据源加载数据并进行数据处理的过程,经常需要T+10甚至T+15才能出具处理报告,如果数据源有误、数据补录滞后、数据调整滞后等的情况,即使有误、补录、调整的数据只有一笔数据,需针对所有数据进行全批次重跑,处理的数据量大,处理的时效性极低。
发明内容
本发明提供了一种数据处理方法、装置、存储介质、电子设备及产品,以实现解决传统的批处理模式时效性低的问题。
根据本发明的一方面,提供了一种数据处理方法,包括:
获取多个数据项的属性信息;
对于每一数据项,基于所述数据项的属性信息分别确定所述数据项的加载类型,其中,所述加载类型包括全量加载和增量加载;
基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
可选的,所述数据项的属性信息包括数据类型;
所述基于所述数据项的属性信息分别确定所述数据项的加载类型,包括:获取数据类型与加载类型的对应关系;基于所述数据项的数据类型,在所述数据类型与所述加载类型的对应关系中进行匹配,得到所述数据项对应的加载类型。
可选的,所述数据类型与加载类型的对应关系的确定方式,包括:对任一所述数据类型,基于所述数据类型的历史数据确定所述数据类型对应的数据量和历史变动频次;基于所述数据量和所述历史变动频次确定所述数据类型对应的加载类型。
可选的,所述数据类型与加载类型的对应关系基于预设时间间隔进行周期性更新。
可选的,所述数据项的属性信息包括数据量和历史变动频次;
将所述数据量小于第一阈值,且所述历史变动频次小于第二阈值的数据项的加载类型确定为全量加载;将所述数据量大于所述第一阈值,或者,所述历史变动频次大于所述第二阈值的数据项的加载类型确定为增量加载。
可选的,所述历史变动频次基于所述数据项在预设历史时间段内错误次数、调整次数、补录次数确定。
可选的,所述基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果,包括:
通过流批一体技术,基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
可选的,所述全量加载方式为流批一体的Batch Shuffle方式,所述增量加载方式为流批一体的Update方式与Insert方式的组合。
可选的,所述基于所述加载类型对对应的数据项内容分别进行加载,包括:确定各所述数据项的加载触发条件,所述加载触发条件包括依赖数据项的加载完成或分发完成;在满足所述数据项的加载触发条件的情况下,基于所述加载类型对对应的数据项内容分别进行加载。
可选的,对于增量加载的数据项,在加载过程中,确定所述数据项的主键信息,在所述主键信息已存在的情况下,所述数据项内容的增量加载方式为数据更新,在所述主键信息不存在的情况下,所述数据项内容的增量加载方式为数据插入。
可选的,所述预设的数据处理包括损益处理过程中各数据项对应的处理方式,所述数据处理结果包括损益数据。
可选的,所述方法还包括:以业务类型为粒度,确定已处理数据的数据量和完成时间,生成数据处理报告。
根据本发明的一方面,提供了一种数据处理装置,包括:
获取模块,用于获取多个数据项的属性信息;
类型确定模块,用于对于每一数据项,基于所述数据项的属性信息分别确定所述数据项的加载类型,其中,所述加载类型包括全量加载和增量加载;
处理模块,用于基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据处理方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据处理方法。
根据本发明的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现本发明任一实施例所述的数据处理方法。
本发明实施例的技术方案,通过获取多个数据项的属性信息,对于每一数据项,基于数据项的属性信息分别确定数据项的加载类型,其中,加载类型包括全量加载和增量加载,基于加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。将数据项基于不同的加载类型进行分类,实现大幅缩减计算和重跑时间的效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种数据处理方法的流程图;
图2是本发明实施例一提供的另一种数据处理方法的流程图;
图3是本发明实施例二提供的一种数据处理装置的结构示意图;
图4是本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一特征数据”、“第二特征数据”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请所涉及技术方案中对数据的获取、存储和/或处理,符合国家法律法规的相关规定。
实施例一
图1是本发明实施例一提供的一种数据处理方法的流程图,本实施例可适用于获取银行业多维损益计量报告的情况,该方法可以由数据处理装置来执行,数据处理装置可以采用硬件和/或软件的形式实现,该数据处理装置可配置于诸如计算机、服务器、移动终端等的电子设备中。如图1所示,该方法包括:
S110、获取多个数据项的属性信息。
其中,多个数据项可以是用于进行数据处理的数据项,数据项的类型可以是根据数据处理需求和机构类型而不同。例如数据处理需求包括但不限于损益计算、成本计算等,机构可以是企业、金融机构等。根据数据处理需求,确定机构进行数据处理所需的数据项。该数据项的数据内容可以是存储在不同的数据源内,数据源可以是计算机、服务器等的硬件设备,也可以是数据库等的数据存储空间。
数据项的属性信息可以是数据项内容的数据基本信息,例如,包括但不限于数据项名称、数据量、变动次数等。相应的,数据项的属性信息可以从系统中获取得到,此处不做具体限定。
S120、对于每一数据项,基于数据项的属性信息分别确定数据项的加载类型,其中,加载类型包括全量加载和增量加载。
通过数据项的属性信息确定不同数据项的不同加载类型,该加载类型为数据项内容传输至数据处理设备的加载方式,其中,全量加载可以理解为将数据项内容在一个批次中全部进行加载,增量加载可以理解为将数据项内容分批次加载,且每一批次的加载的数据内容为新增数据内容或更新的数据内容。
数据项的属性信息可表征该数据项对应的数据项内容在处理过程中的数据计算量,其中属性信息中的数据量越大,表征处理该数据项内容的数据计算量大;属性信息中的变动次数越大,表征处理该数据项内容的过程中重排次数越大,相应的,计算数据量也越大。针对不同计算数据量的数据项,通过将加载类型区分为全量加载和增量加载机制,以降低每一次加载过程的数据内容计算量,避免大量数据重跑导致的计算量大和耗时长的问题。
在一些实施例中,可预先设置各数据项的加载类型,形成数据项与加载类型的对应关系,例如可以是通过列表或数据组的形式存储。可通过数据项在上述对应关系中的进行匹配,可确定该数据项对应的加载类型。其中,数据项与加载类型的对应关系可以是根据预设时间间隔进行更新,以保证各数据项的加载类型的准确性。其中,各数据项对应的加载类型可以是根据该数据项的历史数据项内容确定的,例如,基于该历史数据项内容的数据量和历史变动频次确定。
在一些实施例中,可对数据项进行数据类型的分类,同一数据类型的数据项可对应相同的加载类型,相应的,创建并维护数据类型和加载类型的对应关系,可根据数据项对应的数据类型确定对应的加载类型。可选的,数据项的属性信息还可以包括数据类型,在一些实施例中,数据类型包括但不限于描述数据类型和业务数据类型,其中,描述文本类型的数据项内容可以为对某一对象的描述信息,一般具有数据量小,数据变动少的特征,业务数据类型的数据项内容可以为在某一业务在运行过程中产生的数据内容,一般具有数据量大,数据内容变化大的特征。相应的,基于数据项的属性信息确定数据项的加载类型可以是通过获取数据类型与加载类型的对应关系,基于数据项的数据类型,在数据类型与加载类型的对应关系中进行匹配,得到数据项对应的加载类型。
其中,以金融机构的损益计算为例,数据项可以包括但不限于总账数据、维度数据、参数数据、合约账户的交易数据、补录数据和调整数据等,不同的数据处理过程对应的数据项可以是不同的,此处仅为举例说明。相应的,总账数据、维度数据、参数数据可以是属于描述数据类型,合约账户的交易数据、补录数据和调整数据可以是属于业务数据类型。对应关系可以是根据实际情况进行预先设置的,此处不做具体限定。
示例性的,总账数据、维度数据、参数数据等可以通过全量加载方式进行加载,合约账户的交易数据、补录数据和调整数据等可以采用增量加载方式进行加载。
通过预先设置数据类型与加载类型的对应关系,并基于对应关系快速确定数据项的加载类型,简化数据项加载类型的确定过程。在进行流计算时能够基于数据项的加载类型执行不同的加载类型,从而使部分数据项无需全批次重跑,减少了计算压力,减少了计算和重跑时间。
在上述实施例的基础上,数据类型与加载类型的对应关系的确定方式,可以包括对任一数据类型,基于数据类型的历史数据确定数据类型对应的数据量和历史变动频次,基于数据量和历史变动频次确定数据类型对应的加载类型。
其中,历史数据可以从系统中调取获得,此处不做具体限定。数据量可以是表征数据项对应的待处理数据内容的大小。历史变动频次可以是数据项的发生改变的次数,历史变动频次可以基于数据项在预设历史时间段内错误次数、调整次数、补录次数确定,例如可以是将错误次数、调整次数、补录次数之和确定为历史变动频次。历史时间段的数据项的数据量可以是历史时间段的数据项的数据量均值,或者,历史时间段的数据项的数据量之和。相应的,基于数据量阈值和频次阈值对上述数据量和历史变动频次进行判定,将数据量未超过数据量阈值且历史变动频次未超过频次阈值的数据类型,与全量加载建立对应关系,将数据量超过数据量阈值或者历史变动频次超过频次阈值的数据类型,与增量加载建立对应关系。
通过基于数据类型的历史数据确定数据类型对应的数据量和历史变动频次,并基于数据量大小及历史变动频次确定加载类型,进一步减少计算压力,减少计算和重跑时间。
可选的,数据类型与加载类型的对应关系基于预设时间间隔进行周期性更新。其中,预设时间间隔可以基于实际情况进行设置,此处不做具体限定。通过对对应关系进行周期性的更新,确保对应关系的实时性,从而确保数据项分类的正确性。
在一些实施例中,数据项的属性信息包括历史时间段内的数据量和历史变动频次,根据数据项的属性信息确定该数据项的加载类型。相应的,将数据量小于第一阈值,且历史变动频次小于第二阈值的数据项的加载类型确定为全量加载,将数据量大于第一阈值,或者,历史变动频次大于第二阈值的数据项的加载类型确定为增量加载。
本实施例中,通过对数据量小且历史变动频次小的数据项通过全量加载方式进行加载,可保证重跑概率小,且重跑的数据量小。通过对数据量大或者历史变动频次大的数据项进行增量加载,可保证每一次加载数据量小,在存在重跑需求的情况下,进行重跑的数据量小,避免了全量重跑。
S130、基于加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
其中,加载可以是数据项的内容文件或信息的载入过程。预设的数据处理可以是根据处理需求所设置的处理过程,该处理过程可以是多个,示例性的,可以是根据处理需求调用多个处理模块,设置各处理模型的处理顺序,依次执行上述各处理模型,对加载是数据项内容进行处理,以得到处理结果。可选的,预设的数据处理可以包括损益处理过程中各数据项对应的处理方式,数据处理结果包括损益数据。其中,损益处理过程中各数据项对应的处理方式包括但不限于成本计算、总收益计算、损益计算、各维度损益计算等。
可选的,以业务类型为粒度,确定已处理数据的数据量和完成时间,生成数据处理报告。
其中,不同业务类型可以产生不同数据类型的数据项。粒度可以是用于表征同一维度下,数据统计的粗细程度的数据。已处理数据的数据量和完成时间可以从系统中获取,此处不做具体限定。
以业务类型为粒度,实时展示已加工完成的数据量和最后完成时间,方便用户知悉报告的加工情况。
可选的,通过流批一体技术,基于加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
其中,流批一体技术可以是一种计算机处理逻辑,使用同一套API、同一套开发范式来实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。相应的,全量加载方式为流批一体的Batch Shuffle方式,增量加载方式为流批一体的Update方式与Insert方式的组合。
通过流批一体技术,基于加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容自动触发预设的数据处理,得到数据处理结果,实现在进行流计算时能够基于数据项的加载类型执行不同的加载类型,使部分数据项无需全批次重跑,从而减少了计算压力,大幅缩减了计算和重跑时间。
在另一可选的实施例中,基于加载类型对对应的数据项内容分别进行加载,还可以确定各数据项的加载触发条件,加载触发条件包括依赖数据项的加载完成或分发完成,在满足数据项的加载触发条件的情况下,基于加载类型对对应的数据项内容分别进行加载。
其中,加载完成或分发完成可以是将数据项通过流批一体加载或分发到计算节点。
示例性的,在损益计算过程中,对于损益基础数据的加工,Upsert实时加载的数据需要等待特定时点Batch Shuffle全量分分发完毕后才会触发加载,可以理解的是损益基础数据是在系统常规业务初次建立时产生的数据,Upsert实时加载的数据是在实际交易过程中产生的数据项变化后的数据,因此,损益基础数据的加工需要在实际交易完成产生Upsert实时加载的数据后再进行加工。
可选的,对于增量加载的数据项,在加载过程中,确定数据项的主键信息,在主键信息已存在的情况下,数据项内容的增量加载方式为数据更新,在主键信息不存在的情况下,数据项内容的增量加载方式为数据插入。
其中,主键信息可以是主要关键字信息,可以由一个字段,也可以由多个字段组成,可以用于对数据进行唯一标识。
示例性的,Upsert实时加载数据以合约账号以及分析时点作为联合主键,如果联合主键数据已经存在,则更新,如不存在则插入,可以理解的是若合约账号(交易用户)已存在则将数据项进行覆盖更新,若不存在则将其作为新的数据项进行插入。
通过基于预设条件是否触发对数据项内容进行加载,进一步缩减了计算和重跑时间。
在一个可选的实施例中,具体参见图2,基于银行业多维盈利(损益)计量的计算特点,将盈利基础数据区分为两类:一类数据量少、变动不频繁,包括总账数据、维度数据和参数数据;一类数据量大、变动频繁,一般以合约账号以及分析时点作为联合主键,包括合约账户的交易数据、补录数据和调整数据。对于数据量少、变动不频繁的第一类数据,以流批一体平台的BatchShuffle方式全量加载到计算节点;对于第二类,数据量大、变动频繁的数据,以合约账号以及分析时点作为联合主键按流批一体平台的Upsert(Update+Insert)方式实时增量方式加载到计算节点。对于盈利基础数据的加工,Upsert实时加载的数据需要等待特定时点BatchShuffle全量分分发完毕后才会触发加载;Upsert实时加载数据以合约账号以及分析时点作为联合主键,如果联合主键数据已经存在,则更新;如不存在则插入。对于成本计量、多维盈利计量和盈利报告的加工,根据各自数据的主键,充分利用流批一体平台的有状态机制,也以Upsert实时加工、计算衍生数据。流批一体平台实时计算的特性,也会导致管会盈利报告使用人员较难辨别管会盈利报告的数据到达情况,因此增加数据加工报告,以业务类型为粒度,实时展示已加工完成的数据量和最后完成时间,方便管会盈利报告使用人员知悉报告的加工情况。
通过获取多个数据项的属性信息,对于每一数据项,基于数据项的属性信息分别确定数据项的加载类型,其中,加载类型包括全量加载和增量加载,基于加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。将数据项基于不同的加载类型进行分类,实现大幅缩减计算和重跑时间的效果。
实施例二
图3是本发明实施例二提供的一种数据处理装置的结构示意图。如图3所示,该装置包括:
获取模块310,用于获取多个数据项的属性信息;
类型确定模块320,用于对于每一数据项,基于所述数据项的属性信息分别确定所述数据项的加载类型,其中,所述加载类型包括全量加载和增量加载;
处理模块330,用于基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
可选的,所述数据项的属性信息包括数据类型。
相应的,所述类型确定模块320,包括:
对应关系确定模块,用于获取数据类型与加载类型的对应关系;
匹配模块,用于基于所述数据项的数据类型,在所述数据类型与所述加载类型的对应关系中进行匹配,得到所述数据项对应的加载类型。
可选的,所述对应关系确定模块,具体用于:
对任一所述数据类型,基于所述数据类型的历史数据确定所述数据类型对应的数据量和历史变动频次;
基于所述数据量和所述历史变动频次确定所述数据类型对应的加载类型。
可选的,所述数据类型与加载类型的对应关系基于预设时间间隔进行周期性更新。
可选的,所述数据项的属性信息包括数据量和历史变动频次。
相应的,所述类型确定模块320,具体用于:
将所述数据量小于第一阈值,且所述历史变动频次小于第二阈值的数据项的加载类型确定为全量加载;
将所述数据量大于所述第一阈值,或者,所述历史变动频次大于所述第二阈值的数据项的加载类型确定为增量加载。
可选的,所述类型确定模块320还可以包括历史变动频次确定模块,具体用于:
基于所述数据项在预设历史时间段内错误次数、调整次数、补录次数确定。
可选的,所述处理模块330,包括:
流批一体处理模块,用于通过流批一体技术,基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
可选的,所述全量加载方式为流批一体的Batch Shuffle方式,所述增量加载方式为流批一体的Update方式与Insert方式的组合。
可选的,所流批一体处理模块,还用于:
确定各所述数据项的加载触发条件,所述加载触发条件包括依赖数据项的加载完成或分发完成;
在满足所述数据项的加载触发条件的情况下,基于所述加载类型对对应的数据项内容分别进行加载。
可选的,对于增量加载的数据项,在加载过程中,确定所述数据项的主键信息,在所述主键信息已存在的情况下,所述数据项内容的增量加载方式为数据更新,在所述主键信息不存在的情况下,所述数据项内容的增量加载方式为数据插入。
可选的,所述预设的数据处理包括损益处理过程中各数据项对应的处理方式,所述数据处理结果包括损益数据。
可选的,所述装置还包括:
报告生成模块,用于以业务类型为粒度,确定已处理数据的数据量和完成时间,生成数据处理报告。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例三
图4是本发明实施例三提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据处理方法。
在一些实施例中,数据处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
实施例四
本发明实施例四还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行数据处理方法,该方法包括:
获取多个数据项的属性信息;
对于每一数据项,基于所述数据项的属性信息分别确定所述数据项的加载类型,其中,所述加载类型包括全量加载和增量加载;
基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
实施例五
本发明实施例五还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本发明任一实施例所述的数据处理方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (16)
1.一种数据处理方法,其特征在于,包括:
获取多个数据项的属性信息;
对于每一数据项,基于所述数据项的属性信息分别确定所述数据项的加载类型,其中,所述加载类型包括全量加载和增量加载;
基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
2.根据权利要求1所述的方法,其特征在于,所述数据项的属性信息包括数据类型;
所述基于所述数据项的属性信息分别确定所述数据项的加载类型,包括:
获取数据类型与加载类型的对应关系;
基于所述数据项的数据类型,在所述数据类型与所述加载类型的对应关系中进行匹配,得到所述数据项对应的加载类型。
3.根据权利要求2所述的方法,其特征在于,所述数据类型与加载类型的对应关系的确定方式,包括:
对任一所述数据类型,基于所述数据类型的历史数据确定所述数据类型对应的数据量和历史变动频次;
基于所述数据量和所述历史变动频次确定所述数据类型对应的加载类型。
4.根据权利要求2所述的方法,其特征在于,所述数据类型与加载类型的对应关系基于预设时间间隔进行周期性更新。
5.根据权利要求1所述的方法,其特征在于,所述数据项的属性信息包括数据量和历史变动频次;
将所述数据量小于第一阈值,且所述历史变动频次小于第二阈值的数据项的加载类型确定为全量加载;
将所述数据量大于所述第一阈值,或者,所述历史变动频次大于所述第二阈值的数据项的加载类型确定为增量加载。
6.根据权利要求3或5所述的方法,其特征在于,所述历史变动频次基于所述数据项在预设历史时间段内错误次数、调整次数、补录次数确定。
7.根据权利要求1所述的方法,其特征在于,所述基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果,包括:
通过流批一体技术,基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
8.根据权利要求7所述的方法,其特征在于,所述全量加载方式为流批一体的BatchShuffle方式,所述增量加载方式为流批一体的Update方式与Insert方式的组合。
9.根据权利要求1所述的方法,其特征在于,所述基于所述加载类型对对应的数据项内容分别进行加载,包括:
确定各所述数据项的加载触发条件,所述加载触发条件包括依赖数据项的加载完成或分发完成;
在满足所述数据项的加载触发条件的情况下,基于所述加载类型对对应的数据项内容分别进行加载。
10.根据权利要求1所述的方法,其特征在于,对于增量加载的数据项,在加载过程中,确定所述数据项的主键信息,在所述主键信息已存在的情况下,所述数据项内容的增量加载方式为数据更新,在所述主键信息不存在的情况下,所述数据项内容的增量加载方式为数据插入。
11.根据权利要求1所述的方法,其特征在于,所述预设的数据处理包括损益处理过程中各数据项对应的处理方式,所述数据处理结果包括损益数据。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
以业务类型为粒度,确定已处理数据的数据量和完成时间,生成数据处理报告。
13.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多个数据项的属性信息;
类型确定模块,用于对于每一数据项,基于所述数据项的属性信息分别确定所述数据项的加载类型,其中,所述加载类型包括全量加载和增量加载;
处理模块,用于基于所述加载类型对对应的数据项内容分别进行加载,并对加载的数据项内容触发预设的数据处理,得到数据处理结果。
14.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的数据处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-12中任一项所述的数据处理方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310261629.0A CN116244006A (zh) | 2023-03-17 | 2023-03-17 | 一种数据处理方法、装置、存储介质、电子设备及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310261629.0A CN116244006A (zh) | 2023-03-17 | 2023-03-17 | 一种数据处理方法、装置、存储介质、电子设备及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116244006A true CN116244006A (zh) | 2023-06-09 |
Family
ID=86635038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310261629.0A Pending CN116244006A (zh) | 2023-03-17 | 2023-03-17 | 一种数据处理方法、装置、存储介质、电子设备及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244006A (zh) |
-
2023
- 2023-03-17 CN CN202310261629.0A patent/CN116244006A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116431505A (zh) | 一种回归测试方法、装置、电子设备、存储介质及产品 | |
CN115630078A (zh) | 基于数字孪生的用户数据处理方法、装置、设备及介质 | |
CN115907616A (zh) | 物资采购系统、方法、电子设备及存储介质 | |
CN115328917A (zh) | 一种查询方法、装置、设备及存储介质 | |
CN115309658A (zh) | 一种测试数据衍生方法、装置、设备及存储介质 | |
CN115482116A (zh) | 资产投资策略信息的推荐方法、装置、设备及介质 | |
CN116244006A (zh) | 一种数据处理方法、装置、存储介质、电子设备及产品 | |
CN114999665A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114676177A (zh) | 一种金融指标的确定方法、装置、设备、介质及产品 | |
CN114490406A (zh) | 测试覆盖项管理方法、装置、设备及介质 | |
CN116955504B (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN115242626B (zh) | 云资源配置预估方法、装置、设备、存储介质及程序产品 | |
CN117331924A (zh) | 一种数据模型匹配度核查方法、装置、设备及存储介质 | |
CN115526592A (zh) | 一种工时确定方法、装置、设备及存储介质 | |
CN117608944A (zh) | 权属迁移量配比的计算方法、装置、电子设备和存储介质 | |
CN115455019A (zh) | 一种基于用户行为分析的搜索意图识别方法、装置及设备 | |
CN116342280A (zh) | 一种数据确定方法、装置、电子设备及存储介质 | |
CN117667935A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN116304796A (zh) | 一种数据分类方法、装置、设备及介质 | |
CN116737792A (zh) | 数据集成的方法、装置、设备以及存储介质 | |
CN117931784A (zh) | 一种数据质量检查方法、装置、设备及存储介质 | |
CN117690277A (zh) | 阈值确定方法、装置、设备及存储介质 | |
CN117632741A (zh) | 回归测试用例库的确定方法、装置、电子设备及存储介质 | |
CN115437955A (zh) | 一种项目测试方法、装置、设备及存储介质 | |
CN115203246A (zh) | 一种联表查询方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |