CN116594564A - 数据处理方法、装置、电子设备及可读存储介质 - Google Patents
数据处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116594564A CN116594564A CN202310576649.7A CN202310576649A CN116594564A CN 116594564 A CN116594564 A CN 116594564A CN 202310576649 A CN202310576649 A CN 202310576649A CN 116594564 A CN116594564 A CN 116594564A
- Authority
- CN
- China
- Prior art keywords
- data file
- data
- file
- date
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000003111 delayed effect Effects 0.000 description 20
- 230000000295 complement effect Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000005192 partition Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
- G06F3/0611—Improving I/O performance in relation to response time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0635—Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0643—Management of files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、电子设备及可读存储介质,属于大数据技术领域。该方法包括:接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。
Description
技术领域
本申请属于大数据技术领域,具体涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
在大数据互联网时代,随着各种电子设备的推广和普及,电子设备数据及用户数据等各种数据的数量以指数级别增长。
在相关技术中,首先需要从数据服务器中获取数据,并对数据进行数据处理,再将处理后的数据存储至数据仓库服务器中。但是,由于数据源端有时会出现数据或网络故障等问题,造成获取数据任务执行失败,无法及时生成数据,从而无法将数据及时存储至数据仓库服务器。如果数据源端恢复正常后,则会生成延时数据。此时,需要人工手动执行获取延时数据任务,并人工手动对生成的延时数据进行数据处理,再将处理后的延时数据存储至数据仓库服务器中。
如此,由于延时数据的数量过于庞大,导致人工手动执行任务耗时过长,无法及时将数据存储至数据仓库服务器,进而使得数据处理效率低。
发明内容
本申请实施例的目的是提供一种数据处理方法、装置、电子设备及可读存储介质,减少了延时数据的数据处理时长,提高了数据处理的效率。
第一方面,本申请实施例提供了一种数据处理方法,该数据处理方法包括:接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。
第二方面,本申请实施例提供了一种数据处理装置,该数据处理装置包括:传输模块、获取模块和处理模块;该传输模块,用于接收用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;还用于将第一数据文件上传至第一服务器的第一路径下,第一路径用于存储第二日期下产生的数据文件;该获取模块,用于基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,该至少一个数据文件包含至少一个第一数据文件;该处理模块,用于处理至少一个数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。如此,电子设备可以将第一日期和第二日期下产生的数据文件都存储在第一服务器的第一路径下,接着通过第一任务指令,将第一路径下所有存储的不同日期的数据文件进行数据处理,从而使得电子设备可以自动处理第一日期下的延时数据文件,不再需要人工手动对延时数据文件进行单独处理,进而在减少对延时数据的数据处理时长的同时,提升了数据处理的效率。
附图说明
图1是本申请实施例提供的一种数据处理方法的流程示意图之一;
图2是本申请实施例提供的一种数据处理方法的流程示意图之二;
图3是本申请实施例提供的一种数据处理方法的流程示意图之三;
图4是本申请实施例提供的一种数据处理方法的流程示意图之四;
图5是本申请实施例提供的在一种通信系统下延时数据文件的处理过程的实例图;
图6是本申请实施例提供的在一种通信系统下非延时数据文件的处理过程的实例图;
图7是本申请实施例提供的一种数据处理装置的结构示意图之一;
图8是本申请实施例提供的一种数据处理装置的结构示意图之二;
图9是本申请实施例提供的一种数据处理装置的结构示意图之三;
图10是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图11是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
以下对本申请实施例涉及到的专业术语进行说明:
延时数据文件和非延时数据文件:
(1)数据服务器存储的数据分两部分:一种是延时数据文件;一种是非延时数据文件。延时数据文件产生的原因主要包括数据异常、节点传输异常或设备故障等导致任务执行失败无法及时上传到数据服务器。
(2)延时数据文件和非延时数据文件定义区分:按照是否在约定的数据周期提供数据文件进行判断。例如,假设数据文件A约定的提供天周期是T-1,即当天调度获取前一天的数据文件,若当天获取的数据文件名为非前一天,将视为延时数据文件,否则为非延时数据文件。目前,离线大数据文件命名按照含有某一时间格式进行命名。当延时日期数据文件和非延时数据文件存放到同一日期分区下,可以通过存放文件的分区日期与文件名含有的时间进行比较,从而区分出该文件是否为延时数据文件。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据处理方法、装置、电子设备及可读存储介质进行详细地说明。
在大数据互联网时代,随着各种电子设备的推广和普及,电子设备数据及用户数据等各种数据的数量以指数级别增长。在相关技术中,需要利用大数据技术对海量数据进行分析,以获取这些数据中的价值信息,并将其应用于各个行业中,实现数据价值最大化。
目前,数据的数据处理过程耗时且复杂,数据源端的稳定性及可靠性,则成为数据是否能顺利往下游输送的关键节点。其中,数据源端从数据供应层面主要分为三方数据和自有数据两部分。
数据在迁移或存储至数据仓库服务器的过程中,有可能会出现因数据源无法及时提供,造成迁移或存储至数据仓库服务器任务一直处于等待状态,或者,任务长时间未执行而造成异常。待数据源端修复异常后,需要人工执行调度将数据推送到数据服务器,然后告知下游开发人员手动执行任务进行补数操作。实际开发过程,经常遇到需要手动补数的操作。倘若数据量大、补数周期比较长或补数日期存在多个非连续日期,则增加了补数难度且执行耗时,需要人工花费大量时间处理。
如此,由于延时数据的数量过于庞大,导致人工手动执行任务耗时过长,无法及时将数据存储至数据仓库服务器,进而使得数据处理效率低。
而在本申请实施例提供的数据处理方法、装置、电子设备及可读存储介质中,接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。如此,电子设备可以将第一日期和第二日期下产生的数据文件都存储在第一服务器的第一路径下,接着通过第一任务指令,将第一路径下所有存储的不同日期的数据文件进行数据处理,从而使得电子设备可以自动处理第一日期下的延时数据文件,不再需要人工手动对延时数据文件进行单独处理,进而在减少对延时数据的数据处理时长的同时,提升了数据处理的效率。
本实施例提供的数据处理方法的执行主体可以为数据处理装置,该数据处理装置可以为电子设备,也可以为该电子设备中的控制模块或处理模块等。以下以电子设备为例来对本申请实施例提供的技术方案进行说明。
本申请实施例提供一种数据处理方法,图1示出了本申请实施例提供的一种数据处理方法的流程图,该方法可以应用于电子设备。如图1所示,本申请实施例提供的数据处理方法可以包括下述的步骤201和步骤203。
步骤201、电子设备接收到用户上传的第一数据文件。
在本申请一些实施例中,上述第一数据文件是在第一日期下产生的。
在本申请一些实施例中,上述第一日期早于第二日期,第二日期为最新日期。
示例性地,上述第一数据文件可以是延时数据文件,即该延时数据文件为第一日期产生的数据文件。
步骤202、电子设备将第一数据文件上传至第一服务器的第一路径下。
在本申请一些实施例中,上述第一路径用于存储第二日期下产生的数据文件。
在本申请一些实施例中,上述第一服务器用于存储采集到的数据文件。
示例性地,上述第一服务器可以是数据服务器。
在本申请一些实施例中,上述电子设备可以是调度平台,也可是具有调度功能的电子设备。
示例性地,电子设备执行数据采集任务,生成数据文件,并将生成的数据文件上传至数据服务器的不同路径下。
需要说明的是,由于延时数据文件的产生原因主要包括数据异常、节点传输异常或设备故障等,导致无法执行数据采集任务,则无法及时上传到数据服务器。因此,在这些异常被解决后,用户将延时数据文件上传至电子设备,并使得电子设备可以重新执行数据采集任务,以将这部分延时数据文件上传至数据服务器的路径下。
步骤203、电子设备基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件。
在本申请一些实施例中,上述第一任务指令用于指示调度第一路径下的数据文件。
在本申请一些实施例中,上述第一任务指令可以是用户设定的,也可以是系统默认的。
在本申请一些实施例中,上述第一任务指令按照预定周期进行循环调度。
在本申请一些实施例中,上述至少一个数据文件包含至少一个第一数据文件。
示例性地,上述至少一个数据文件可以为第一数据文件和第二日期下产生的数据文件中的其中一个。
可选地,在本申请一些实施例中,结合图1,如图2所示,在上述步骤203之前,本申请实施例提供的数据处理方法还包括以下步骤301:
步骤301、电子设备在第二日期内的预定时间生成第一任务指令。
示例性地,上述预定时间可以是用户设定的,也可以是系统默认的。
示例一,假设第一任务指令的预定周期为T-1,也就是第一任务指令用于调度前一天的数据文件,预定时间为18点,即在第二天的18点调度获取第一天日期路径下的数据文件,在第三天的18点调度获取第二天日期路径下的数据文件。
如此,可以按照特定周期自动获取特定日期路径下的数据文件,不再需要人工手动获取文件,从而提高获取数据文件的效率。
在本申请实施例提供的数据处理方法中,接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。如此,电子设备可以将第一日期和第二日期下产生的数据文件都存储在第一服务器的第一路径下,接着通过第一任务指令,将第一路径下所有存储的不同日期的数据文件进行数据处理,从而使得电子设备可以自动处理第一日期下的延时数据文件,不再需要人工手动对延时数据文件进行单独处理,进而在减少对延时数据的数据处理时长的同时,提升了数据处理的效率。
可选地,在本申请一些实施例中,结合图1,如图3所示,在上述步骤203“电子设备基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件”之后,本申请实施例提供的数据处理方法还包括步骤401:
步骤401、在基于第一数据文件的产生日期,确定第一数据文件为延时数据文件的情况下,电子设备将第一数据文件对应的文件信息写入信息记录文件中。
示例性地,上述文件信息包括:上述第一数据文件的产生日期和第一数据文件的文件格式。
示例性地,上述信息记录文件用于记录从上述第一服务器获取的数据文件的文件信息。
示例性地,上述延时数据文件为非第二日期下产生的数据文件。
可选地,在本申请一些实施例中,在电子设备将第一数据文件对应的文件信息写入信息记录文件中之前,电子设备会将第一数据文件的产生日期与第二日期进行比较,判断第一数据文件是否为延时数据文件,若第一数据文件的产生日期与第二日期不一致,则确定该第一数据文件为延时数据文件,同时将该第一数据文件的文件信息记录在信息记录文件中。
如此,电子设备可以实现延时数据文件和非延时数据文件的自动识别,并将延时数据文件的文件信息记录在信息记录文件中。
可选地,在本申请一些实施例中,结合图1,如图4所示,在上述步骤203“处理至少一个数据文件”之后,本申请实施例提供的数据处理方法还包括步骤501:
步骤501、电子设备基于第二任务指令,将处理后的第一数据文件上传至第二服务器的第二路径下,将处理后的第二数据文件上传第二服务器的第三路径下。
示例性地,上述第二路径用于存储上述第一日期对应的处理后的数据文件。
示例性地,上述第三路径用于存储上述第二日期对应的处理后的数据文件。
示例性地,上述第二数据文件为上述至少一个数据文件中除第一数据文件外的其他数据文件。
示例性地,上述第二任务指令用于指示将处理后的数据文件上传至第二服务器中。
示例性地,上述第二任务指令可以是用户设定的,也可以是系统默认的。
示例性地,上述第二任务指令按照预定周期进行循环存储。需要说明的是,该第二任务指令的预定周期可以是与第一任务指令的预定周期相同,即获取数据文件并处理后,直接将处理后的数据文件进行存储。
示例性地,上述第二服务器用于存储调度平台进行数据处理后的数据文件。
示例二,结合示例一,电子设备在获取数据文件后,对该数据文件进行数据处理,接着将处理后的数据文件,根据信息记录文件中记录的数据文件的文件信息,存储至第二服务器中对应日期的路径下。
如此,电子设备可以自动将处理后的数据文件,按照日期存储在对应的数据仓库中的路径下。
可选地,在本申请一些实施例中,在上述步骤203“处理至少一个数据文件”的过程中,包括步骤203a:
步骤203a、电子设备按照以下至少之一的处理方式,处理至少一个数据文件:
方式1:对数据文件中的数据进行数据清洗;
方式2:转换数据文件中的数据的数据格式;
方式3:对数据文件中的数据进行数据集成。
示例性地,针对方式1,数据清洗需要通过7个步骤进行处理:选择子集,列名重命名,删除重复值,缺失值处理,一致化处理,数据排序处理,异常值处理。
示例性地,针对方式2,转换数据文件中数据的数据格式需要将数据从一种格式转化为令一种格式,或者,将非结构化数据处理为结构化数据。例如,将数据格式为json数据格式,需要处理为结构化数据格式csv、txt等
示例性地,针对方式3,数据集成需要从数据文件中提取出事件记录生成新的csv、txt格式的数据文件。
如此,可以及时对数据文件进行数据预处理。
以下分别以延时数据文件和非延时数据文件为例,详细描述本申请实施例提供的数据处理方法。
在第一种可能的实施例中,如图5所示,在图5所示的通信系统下,以电子设备为调度平台为例,针对延时数据文件的处理过程,本申请实施例提供的数据处理方法包括以下步骤A1至步骤A5:
步骤A1、电子设备上传延时数据文件至数据服务器S1。
具体地,首先人工解决异常之后,电子设备重新执行数据采集任务,生成完整和准确的数据文件,将这部分延时数据文件上传到数据服务器S1分区日期为P的路径下,其路径为/data/P/Di(i=1,2,3,…)。
步骤A2、调度平台从数据服务器S1中下载延时数据文件。
具体地,调度平台调度数据获取任务T1,并生成数据获取任务指令,调度平台按照设定的预定时间执行数据获取任务T1,即从数据服务器分区日期为P的路径下获取延时数据文件。
步骤A3、调度平台将从数据服务器S1中获取到的延时数据信息记录到信息记录文件F中。
具体地,在执行步骤A2过程,调度平台将获取到的数据文件名中包含的日期,与分区日期P进行比较,若日期不相同,则判定该数据文件为延时数据文件,调度平台按照延时数据文件名日期+延时数据文件名格式,将延时数据文件信息记录到信息记录文件F中。
步骤A4、调度平台对延时数据文件中的数据进行数据预处理。
具体地,数据预处理过程需要在数据分析前对数据进行清理、转化、集成等操作。数据清理需要对数据文件中数据的缺失值、异常值等进行处理。数据转换需要将数据从一种格式转化为令一种格式或者将非结构化数据处理为结构化数据。如数据格式为json数据格式,需要处理为结构化数据格式csv、txt等。数据集成需要提取数据文件中事件记录生成csv、txt格式文件等。
步骤A5、调度平台将延时数据文件上传至数据仓库服务器S2。
具体地,待数据获取任务T1执行完成后,调度平台调起数据入仓任务T2,并按照设定的预定时间执行数据入仓任务T2。在执行数据入仓任务T2的过程中,调度平台读取信息记录文件F,逐个将步骤A4预处理后的延时数据文件Di(i=1,2,3,…),根据延时数据文件名日期上传到数据仓库服务器S2对应的分区日期Pi(i=1,2,3,…)路径下,实现批量延时数据文件自动化入仓。
在第二种可能的实施例中,如图6所示,在图6所示的通信系统下,以电子设备为调度平台为例,针对非延时数据文件的处理过程,本申请实施例提供的数据处理方法包括以下步骤B1至步骤B4:
步骤B1、电子设备上传非延时数据文件至数据服务器S1。
具体地,电子设备将非延时数据按照约定的数据提供周期正常上传到数据服务器分区日期为P的路径下,其路径为/data/P/D。
步骤B2、调度平台从数据服务器S1中下载非延时数据文件。
具体地,调度平台调度数据获取任务T1,并生成数据获取任务指令,调度平台按照设定的预定时间执行数据获取任务T1,即从数据服务器分区日期为P的路径下获取非延时数据文件。
步骤B3、调度平台对延时数据文件中的数据进行数据预处理。
该步骤的具体处理过程同步骤A4。
步骤B4、调度平台将非延时数据文件上传至数据仓库服务器S2。
具体地,待数据获取任务T1执行完成后,调度平台调起数据入仓任务T2,并按照设定的预定时间执行数据入仓任务T2。将步骤B3预处理后的非延时数据文件D,根据非延时数据文件名日期上传到数据仓库服务器S2对应的分区日期P路径下,实现批量延时数据文件自动化入仓。
需要说明的是,本申请提供的方案不限于Hadoop、Spark等离线大数据延时补数处理,且不限于调度平台,像开源的Airflow、Oozie、Yarn等,都可使用本申请的方案进行延时数据自动化补数。其中,延时补数自动化取决于调度平台部署环境,既可以部署服务器,也可以部署电脑。此外,本申请提供的方案不限于延时数据量大小及延时数据文件个数,可以支持海量延时数据处理。
如此,本申请实施例提供的数据处理方法实现了大数据延时数据自动化补数功能需求,满足了大数据开发用户手动补数的迫切诉求,极大提升了延时数据的补数效率及补数质量,起到降本增效的目的。
需要说明的是,本申请实施例提供的数据处理方法,执行主体可以为数据处理装置,或者电子设备,还可以为电子设备中的功能模块或实体。本申请实施例中以数据处理装置执行数据处理方法为例,说明本申请实施例提供的数据处理装置。
图7示出了本申请实施例中涉及的数据处理装置的一种可能的结构示意图。如图7所示,该数据处理装置700可以包括:传输模块701、获取模块702和处理模块703。
其中,该传输模块701,用于接收用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;还用于将第一数据文件上传至第一服务器的第一路径下,第一路径用于存储第二日期下产生的数据文件;该获取模块702,用于基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,至少一个数据文件包含至少一个上述传输模块701传输的第一数据文件;该处理模块703,用于处理上述获取模块702获取的至少一个数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。
可选地,在本申请一些实施例中,上述传输模块701,还用于基于第二任务指令,将上述处理模块703处理后的第一数据文件上传至第二服务器的第二路径下,将上述处理模块703处理后的第二数据文件上传第二服务器的第三路径下;其中,第二路径用于存储第一日期对应的处理后的数据文件;第三路径用于存储第二日期对应的处理后的数据文件;第二数据文件为至少一个数据文件中除第一数据文件外的其他数据文件。
可选地,在本申请一些实施例中,结合图7,如图8所示,上述装置700还包括:生成模块704;该生成模块704,用于在第二日期内的的预定时间生成第一任务指令。
可选地,在本申请一些实施例中,上述处理模块703,具体用于按照以下至少之一的处理方式,处理上述获取模块702获取的至少一个数据文件:
对数据文件中的数据的进行数据清洗;
转换数据文件中的数据的数据格式;
对数据文件中的数据进行数据集成。
可选地,在本申请一些实施例中,结合图7,如图9所示,上述装置700还包括:记录模块705;该记录模块705,用于在基于第一数据文件的产生日期,确定第一数据文件为延时数据文件的情况下,将上述传输模块701上传的第一数据文件对应的文件信息写入信息记录文件中;其中,文件信息包括:第一数据文件的产生日期和第一数据文件的文件格式;信息记录文件用于记录从第一服务器获取的数据文件的文件信息;延时数据文件为非第二日期下产生的数据文件。
在本申请实施例提供的数据处理装置中,该装置接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。如此,电子设备可以将第一日期和第二日期下产生的数据文件都存储在第一服务器的第一路径下,接着通过第一任务指令,将第一路径下所有存储的不同日期的数据文件进行数据处理,从而使得电子设备可以自动处理第一日期下的延时数据文件,不再需要人工手动对延时数据文件进行单独处理,进而在减少对延时数据的数据处理时长的同时,提升了数据处理的效率。
本申请实施例中的数据处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的数据处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的数据处理装置能够实现图1至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图10所示,本申请实施例还提供一种电子设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述数据处理方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图11为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,上述射频单元101,用于接收用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;还用于将第一数据文件上传至第一服务器的第一路径下,第一路径用于存储第二日期下产生的数据文件;上述处理器110,用于基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;上述处理器110,还用于处理至少一个数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。
可选地,在本申请一些实施例中,上述射频单元101,还用于基于第二任务指令,将上述处理器110处理后的第一数据文件上传至第二服务器的第二路径下,将上述处理器110处理后的第二数据文件上传第二服务器的第三路径下;其中,第二路径用于存储第一日期对应的处理后的数据文件;第三路径用于存储第二日期对应的处理后的数据文件;第二数据文件为至少一个数据文件中除第一数据文件外的其他数据文件。
可选地,在本申请一些实施例中,上述处理器110,还用于在第二日期内的的预定时间生成第一任务指令。
可选地,在本申请一些实施例中,上述处理器110,具体用于按照以下至少之一的处理方式,处理至少一个数据文件:
对数据文件中的数据的进行数据清洗;
转换数据文件中的数据的数据格式;
对数据文件中的数据进行数据集成。
可选地,在本申请一些实施例中,上述处理器110,还用于在基于第一数据文件的产生日期,确定第一数据文件为延时数据文件的情况下,将上述射频单元101上传的第一数据文件对应的文件信息写入信息记录文件中;其中,文件信息包括:第一数据文件的产生日期和第一数据文件的文件格式;信息记录文件用于记录从第一服务器获取的数据文件的文件信息;延时数据文件为非第二日期下产生的数据文件。
在本申请实施例提供的电子设备中,该电子设备接收到用户上传的第一数据文件,该第一数据文件是在第一日期下产生的;将第一数据文件上传至第一服务器的第一路径下,该第一路径用于存储第二日期下产生的数据文件;基于第一任务指令,从第一服务器获取第一路径下的至少一个数据文件,并处理至少一个数据文件,至少一个数据文件包含至少一个第一数据文件;其中,第一任务指令用于指示调度第一路径下的数据文件。如此,电子设备可以将第一日期和第二日期下产生的数据文件都存储在第一服务器的第一路径下,接着通过第一任务指令,将第一路径下所有存储的不同日期的数据文件进行数据处理,从而使得电子设备可以自动处理第一日期下的延时数据文件,不再需要人工手动对延时数据文件进行单独处理,进而在减少对延时数据的数据处理时长的同时提升了数据处理的效率。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
接收到用户上传的第一数据文件,所述第一数据文件是在第一日期下产生的;
将所述第一数据文件上传至第一服务器的第一路径下,所述第一路径用于存储第二日期下产生的数据文件;
基于第一任务指令,从所述第一服务器获取所述第一路径下的至少一个数据文件,并处理所述至少一个数据文件,所述至少一个数据文件包含至少一个所述第一数据文件;
其中,所述第一任务指令用于指示调度所述第一路径下的数据文件。
2.根据权利要求1所述的方法,其特征在于,所述处理所述至少一个数据文件之后,所述方法还包括:
基于第二任务指令,将处理后的所述第一数据文件上传至第二服务器的第二路径下,将处理后的第二数据文件上传所述第二服务器的第三路径下;
其中,所述第二路径用于存储所述第一日期对应的处理后的数据文件;所述第三路径用于存储所述第二日期对应的处理后的数据文件;所述第二数据文件为所述至少一个数据文件中除所述第一数据文件外的其他数据文件。
3.根据权利要求1所述的方法,其特征在于,所述基于第一任务指令,从所述第一服务器获取所述第一路径下的至少一个数据文件之前,所述方法还包括:
在所述第二日期内的预定时间生成第一任务指令。
4.根据权利要求1所述的方法,其特征在于,所述处理所述至少一个数据文件,包括:
按照以下至少之一的处理方式,处理所述至少一个数据文件:
对数据文件中的数据进行数据清洗;
转换数据文件中的数据的数据格式;
对数据文件中的数据进行数据集成。
5.根据权利要求1所述的方法,其特征在于,所述基于第一任务指令,从所述服务器获取所述第一路径下的至少一个数据文件之后,所述方法还包括:
在基于所述第一数据文件的产生日期,确定所述第一数据文件为延时数据文件的情况下,将所述第一数据文件对应的文件信息写入信息记录文件中;
其中,所述文件信息包括:所述第一数据文件的产生日期和所述第一数据文件的文件格式;所述信息记录文件用于记录从所述第一服务器获取的数据文件的文件信息;所述延时数据文件为非所述第二日期下产生的数据文件。
6.一种数据处理装置,其特征在于,所述数据处理装置包括:传输模块、获取模块和处理模块;
所述传输模块,用于接收用户上传的第一数据文件,所述第一数据文件是在第一日期下产生的;
所述传输模块,还用于将所述第一数据文件上传至第一服务器的第一路径下,所述第一路径用于存储第二日期下产生的数据文件;
所述获取模块,用于基于第一任务指令,从所述第一服务器获取所述第一路径下的至少一个数据文件,所述至少一个数据文件包含至少一个所述传输模块传输的所述第一数据文件;
所述处理模块,用于处理所述获取模块获取的所述至少一个数据文件;
其中,所述第一任务指令用于指示调度所述第一路径下的数据文件。
7.根据权利要求6所述的装置,其特征在于,
所述传输模块,还用于基于第二任务指令,将所述处理模块处理后的所述第一数据文件上传至第二服务器的第二路径下,将所述处理模块处理后的第二数据文件上传所述第二服务器的第三路径下;
其中,所述第二路径用于存储所述第一日期对应的处理后的数据文件;所述第三路径用于存储所述第二日期对应的处理后的数据文件;所述第二数据文件为所述至少一个数据文件中除所述第一数据文件外的其他数据文件。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:生成模块所述生成模块,用于在所述第二日期内的预定时间生成第一任务指令。
9.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于按照以下至少之一的处理方式,处理所述获取模块获取的所述至少一个数据文件:
对数据文件中的数据的进行数据清洗;
转换数据文件中的数据的数据格式;
对数据文件中的数据进行数据集成。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:记录模块;
所述记录模块,用于在基于所述第一数据文件的产生日期,确定所述第一数据文件为延时数据文件的情况下,将所述传输模块上传的所述第一数据文件对应的文件信息写入信息记录文件中;
其中,所述文件信息包括:所述第一数据文件的产生日期和所述第一数据文件的文件格式;所述信息记录文件用于记录从所述第一服务器获取的数据文件的文件信息;所述延时数据文件为非所述第二日期下产生的数据文件。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的数据处理方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576649.7A CN116594564A (zh) | 2023-05-19 | 2023-05-19 | 数据处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576649.7A CN116594564A (zh) | 2023-05-19 | 2023-05-19 | 数据处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116594564A true CN116594564A (zh) | 2023-08-15 |
Family
ID=87598766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310576649.7A Pending CN116594564A (zh) | 2023-05-19 | 2023-05-19 | 数据处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116594564A (zh) |
-
2023
- 2023-05-19 CN CN202310576649.7A patent/CN116594564A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102084838B1 (ko) | 예측 제어 시스템들 및 방법들 | |
CN1811704B (zh) | 用于知晓上下文的平台的系统和方法 | |
US7496857B2 (en) | Systems and methods for relating events to a date or date range selection | |
US8190578B2 (en) | Migration of versioned data between configuration management systems | |
US20120030275A1 (en) | Providing status information for components in a distributed landscape | |
US20130139113A1 (en) | Quick action for performing frequent tasks on a mobile device | |
US20140282606A1 (en) | Meta-application management in a multitasking environment | |
CN103902640A (zh) | 可携式电子装置、内容推荐方法及计算机可读媒体 | |
CN112256647B (zh) | 一种文件处理的方法及装置 | |
CN110427258B (zh) | 基于云平台的资源调度控制方法及装置 | |
CN105630628A (zh) | 应用程序恢复方法及装置 | |
CN110610376A (zh) | 行为数据的响应方法、装置、计算机设备及存储介质 | |
CN113535364A (zh) | 任务调度方法及装置 | |
CN114003473A (zh) | 一种页面操作行为的回溯方法、装置及电子设备 | |
CN110162563B (zh) | 一种数据入库方法、系统及电子设备和存储介质 | |
CN111857531A (zh) | 移动终端及其文件显示方法 | |
CN111177237A (zh) | 一种数据处理系统、方法及装置 | |
CN110377331A (zh) | 发布应用程序的监控方法、装置、设备及存储介质 | |
CN103685338A (zh) | 在离线时储存目标文档以等待在线时同步的系统及其方法 | |
CN113076288A (zh) | 文件处理方法、装置、电子设备及存储介质 | |
CN116594564A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN115981871A (zh) | 一种gpu资源调度方法、装置、设备及存储介质 | |
CN108011964B (zh) | 图片上传方法、装置、电子终端及可读存储介质 | |
CN115955557A (zh) | 卡顿分析方法及其装置 | |
CN118251656A (zh) | 渐进式网络应用程序(pwa)的服务工作线程的自动工作或自动生成代码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |