CN113468128B - 一种数据处理的方法、装置、电子设备及存储介质 - Google Patents

一种数据处理的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113468128B
CN113468128B CN202110823772.5A CN202110823772A CN113468128B CN 113468128 B CN113468128 B CN 113468128B CN 202110823772 A CN202110823772 A CN 202110823772A CN 113468128 B CN113468128 B CN 113468128B
Authority
CN
China
Prior art keywords
file
data
memory
merged
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110823772.5A
Other languages
English (en)
Other versions
CN113468128A (zh
Inventor
左珍德
卢恺
蒋冠初
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202110823772.5A priority Critical patent/CN113468128B/zh
Publication of CN113468128A publication Critical patent/CN113468128A/zh
Application granted granted Critical
Publication of CN113468128B publication Critical patent/CN113468128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理的方法、装置、电子设备及存储介质。其中,该方法包括:获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;将所述文件区间中的数据文件进行合并,得到至少一个合并文件;根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;将待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理。实现由内存和磁盘相配合,共同进行数据处理,提高内存的利用率和数据处理效率。

Description

一种数据处理的方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种数据处理的方法、装置、电子设备及存储介质。
背景技术
ETL(Extract-Transformation-Loading,提取-转换-加载)是构建数据仓库的一种重要技术。传统的ETL过程采用定时任务调度的方式执行,当满足时间条件时,ETL服务器调度执行预先定义好的任务。将批量数据从业务数据库或本地文件等数据源中抽取出来,经过清洗和转换等处理,存入预先定义好的数据仓库中。
随着移动互联网和智能设备的快速发展和普及,互联网应用产生的数据日益庞大。现有技术中,待处理的数据从数据源直接传递至内存进行处理。无法预知数据处理任务所占空间的大小,只能临时申请内存,空间的频繁释放容易产生大量内存碎片。而提前申请固定缓存空间又会造成缓存溢出或浪费等问题,降低内存的利用率,影响数据处理效率。
发明内容
本发明实施例提供一种数据处理的方法、装置、电子设备及存储介质,以提高数据处理的效率。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
将文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
数据划分模块,用于获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
数据合并模块,用于将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
列表生成模块,用于根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
数据处理模块,用于将文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的数据处理方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的数据处理方法。
本发明实施例通过将数据源的数据发送至内存,在内存中对数据进行区间划分,得到多个文件区间的分组,每组文件区间中包括多个数据文件。将一组文件区间中的文件进行合并,每组文件区间可以得到一个或多个合并文件,并生成合并文件的文件列表。将文件列表存储在磁盘中,将合并文件按照文件列表传递至内存,由内存根据预设的配置信息进行数据处理,将处理后数据落库存储。解决了现有技术中,直接将数据源的文件传给内存进行处理的问题,实现了磁盘与内存相配合,由内存对数据进行划分和合并,生成文件列表至磁盘缓存。使得内存在进行数据处理时,可以根据文件列表明确待处理的数据大小,充分利用内存空间,提高内存的利用率和数据处理效率。
附图说明
图1是本发明实施例一中的一种数据处理方法的流程示意图;
图2是本发明实施例二中的一种数据处理方法的流程示意图;
图3是本发明实施例三中的一种数据处理装置的结构框图;
图4是本发明实施例四中的一种数据处理设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种数据处理方法的流程示意图,本实施例可适用于数据调度平台进行数据处理的情况,该方法可以由一种数据处理装置来执行。如图1所示,该方法具体包括如下步骤:
步骤110、获取待处理的数据文件,将数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对数据文件进行划分,得到至少一组文件区间。
其中,可以从业务数据库或本地文件等数据源中抽取出批量数据作为待处理的数据文件,也可以从磁盘中获取待处理的数据文件,将获取到的数据文件发送至内存。即,将数据文件从数据源传递至内存,数据源可以是来自数据库和磁盘等。数据源和数据的格式多样,可以支持DBF(Digital Beam Forming,数字波束形成)、MDB(Microsoft Database,数据库文件)及表格、文本等文件格式。可以按照文件创建时间传送数据文件,使数据文件在内存中可以根据创建时间进行排序。预先设置一个文件个数阈值,例如,文件个数阈值设置为5000。根据文件个数阈值,在内存中对数据文件进行划分,得到多组文件区间,例如,可以将数据文件全部传入内存,再将数据文件以文件个数阈值为单位进行划分,每5000个数据文件为一组文件区间。
本实施例中,可选的,根据预设的文件个数阈值,对数据文件进行划分,得到至少一组文件区间,包括:判断内存接收到的数据文件的个数是否超过预设的文件个数阈值;若是,则以文件个数阈值为单位,将数据文件划分为至少一组文件区间。
具体的,可以在待处理的数据文件全部传输至内存后,判断数据文件的个数是否超过文件个数阈值。若否,则将所有的数据文件划分为一个文件区间。若是,则以文件个数阈值为单位,将数据文件划分为多个文件区间。例如,数据文件的个数为10000,文件个数阈值为5000,则可以划分出两组文件区间。
也可以在向内存传输数据文件的过程中进行文件区间的划分。每向内存传输一个数据文件,就可以判断内存收到的数据文件是否超过文件个数阈值;若没有,则内存可以继续接收数据文件;若超过,则将内存当前接收到的且还未划分文件区间的数据文件划分为一个文件区间。例如,内存接收数据文件,当接收到第5000个数据文件时,可以将这5000个数据文件划分为一个文件区间。在生成一个文件区间后,判断是否还存在未划分的数据文件,若是,则继续向内存传输,并继续判断传输的数据文件是否超过文件个数阈值,直至所有的数据文件传输完毕。这样设置的有益效果在于,在内存中对数据文件进行划分,避免在处理批量数据文件时,数据量过大,影响数据处理的效率和精度。
本实施例中,可选的,在以文件个数阈值为单位,将数据文件划分为至少一组文件区间之后,还包括:若存在小于文件个数阈值的数据文件,则将小于文件个数阈值的数据文件划分为一个文件区间。
具体的,根据文件创建时间的顺序对数据文件进行区间划分,在以文件个数阈值为单位划分数据文件后,若存在少于文件个数阈值的数据文件还没有被划分区间,则将这些少于文件个数阈值的数据文件划分为最后一个文件区间。例如,共有13000个数据文件,则可以划分为三个文件区间,前两个文件区间中的文件个数均为5000,最后一个文件区间的文件个数为3000。这样设置的有益效果在于,使所有的数据文件都存在于文件区间中,避免文件混乱和文件丢失,实现对文件的分块处理,提高文件处理效率。
步骤120、将文件区间中的数据文件进行合并,得到至少一个合并文件。
其中,在得到文件区间后,各个文件区间的数据文件个数较多,各个数据文件仍相互独立。在内存中将文件区间中的数据文件进行合并,一个文件区间的数据文件可以合并为一个或多个文件,例如,文件区间中有5000个数据文件,前3000个数据文件合并为一个文件,后2000个数据文件合并为一个文件。
本实施例中,可选的,将文件区间中的数据文件进行合并,得到至少一个合并文件,包括:将文件区间中的第二个数据文件合并至文件区间的第一个数据文件中;判断合并后的第一个数据文件的文件大小是否超过预设的文件大小阈值;若是,则停止合并,得到文件区间的第一个合并文件。
具体的,可以将文件区间中的数据文件都合并至该文件区间的第一个数据文件中,即,将每个区间内的文件依次合并到本区间内的第一个文件中,可以并行执行。可以预先设置文件大小阈值,文件大小阈值是合并后文件的最大数据量,即合并后的文件大小不能超过文件大小阈值。例如,文件大小阈值可以是50M。可以先将文件区间中的第二个数据文件合并到第一个数据文件中,判断合并了第二个数据文件的第一个数据文件的文件大小是否超过了文件大小阈值。若是,则确定合并后的第一个数据文件不能再合并其他的文件,即合并了第二个数据文件的第一个数据文件就是该文件区间的一个合并文件。这样设置的有益效果在于,控制每个合并文件的大小,避免合并文件过大导致内存无法处理,通过对文件进行合并,可以明确内存所需的大小,便于申请内存空间的释放,提高数据处理效率和精度。
本实施例中,可选的,在判断合并后的第一个数据文件的文件大小是否超过预设的文件大小阈值之后,还包括:若合并后的第一个数据文件的文件大小没有超过预设的文件大小阈值,则将第三个数据文件合并入第一个数据文件中,并判断合并后的第一数据文件的文件大小是否超过预设的文件大小阈值。
具体的,若合并后的第一个数据文件的文件大小没有超过文件大小阈值,则可以继续将第三个数据文件合并入第一个数据文件中。再次判断第一个数据文件的文件大小是否超过文件大小阈值,若仍然没有超过,则继续将第四个数据文件合并入第一个数据文件中,直至第一个数据文件的文件大小超过文件大小阈值,则停止向第一个数据文件合并。通过将各个数据文件合并至第一个数据文件中,可以减少合并文件的数量,并规范各个合并文件的大小,提前得知处理每个合并文件所需的内存大小,便于提前申请释放内存空间,提高数据处理效率和内存的利用率。
本实施例中,可选的,在得到文件区间的第一个合并文件之后,还包括:判断文件区间中是否存在未合并的数据文件;若是,则将未合并的数据文件中的第一个数据文件确定为当前第一数据文件,将未合并数据文件中的第二个数据文件合并至当前第一数据文件中;判断合并后的当前第一数据文件的文件大小是否超过预设的文件大小阈值;若是,则停止合并,得到文件区间的第二个合并文件。
具体的,在得到文件区间的一个合并文件后,判断该文件区间中是否存在还未合并的数据文件。若是,则将未合并的数据文件中排序在第一个的数据文件确定为当前第一数据文件,将当前第一数据文件之后的数据文件合并至当前第一数据文件中。可以先将未合并的数据文件中的第二个数据文件合并至当前第一数据文件中,判断当前第一数据文件的文件大小是否超过文件大小阈值,若是,则合并后的当前第一数据文件为该文件区间的第二个合并文件。若否,则继续将未合并的第三个数据文件合并至当前第一数据文件中,直至当前第一数据文件的文件大小超过文件大小阈值,即得到第二个合并文件。在生成第二个合并文件之后,继续判断是否存在未合并的数据文件,直至文件区间中的所有数据文件均进行合并。若最后存在未合并的数据文件,合并后的文件大小没有超过文件大小阈值,则依然将最后的未合并的数据文件合并为一个合并文件。
在得到所有文件区间的合并文件后,可以扫描得到各个合并文件的大小。判断相邻两个合并文件的大小之和是否小于文件大小阈值,若是,则将这两个相邻合并文件进行合并。
这样设置的有益效果在于,对文件区间的所有数据文件进行合并,避免数据文件遗漏,且每个合并文件的大小在文件大小阈值上下浮动,使内存中进行数据处理时,对每个合并文件所需的空间一致,避免频繁申请释放内存空间,提高数据处理效率。
步骤130、根据合并文件,生成文件列表,将文件列表传递至磁盘中进行缓存。
其中,在得到合并文件后,基于数据文件的文件创建时间对合并文件进行排序,生成文件列表。将文件列表从内存传递至磁盘中,由磁盘进行缓存。可以在生成合并文件的过程中,生成文件列表,即每生成一个合并文件,就将该合并文件添加至磁盘的文件列表中。当所有文件合并完成,文件列表生成完成,有效提高数据处理的效率。
步骤140、将文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
其中,将文件列表中的合并文件依次传递至内存中,即磁盘变为内存的数据源。通过文件列表,可以确定内存中处理数据所需的内存大小,便于对内存空间进行申请释放。数据配置信息为数据处理过程中预设的配置信息,例如,数据配置信息中可以数据目录、IP地址、任务时间和处理手段等,数据的处理手段可以包括提取、转换、检测、导入和加载等。在内存中对数据进行处理,处理过程可以为,先读取文件列表里的合并文件,再进行配置信息中的提取、转换、检测和加载等处理。例如,交易任务对应的配置信息是对文件中的交易金额进行提取,则从文件中提取交易金额数据。在对数据处理完毕后,将处理后的数据发送至预设的数据库中进行落库存储。
本实施例的技术方案,通过将数据源的数据发送至内存,在内存中对数据进行区间划分,得到多个文件区间的分组,每组文件区间中包括多个数据文件。将一组文件区间中的文件进行合并,每组文件区间可以得到一个或多个合并文件,并生成合并文件的文件列表。将文件列表存储在磁盘中,将合并文件按照文件列表传递至内存,由内存根据预设的配置信息进行数据处理,将处理后数据落库存储。解决了现有技术中,直接将数据源的文件传给内存进行处理的问题,实现了磁盘与内存相配合,由内存对数据进行划分和合并,生成文件列表进行磁盘缓存。使得内存在进行数据处理时,可以根据文件列表明确待处理的数据大小,充分利用内存空间,提高内存的利用率和数据处理效率。
实施例二
图2为本发明实施例二所提供的一种紧急停车方法的流程示意图,本实施例以上述实施例为基础进行进一步的优化,该方法可以由一种紧急停车装置来执行。如图2所示,该方法具体包括如下步骤:
步骤210、获取待处理的数据文件,将数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对数据文件进行划分,得到至少一组文件区间。
步骤220、将文件区间中的数据文件进行合并,得到至少一个合并文件。
步骤230、根据合并文件,生成文件列表,将文件列表传递至磁盘中进行缓存。
步骤240、根据预设的数据处理任务,确定文件列表中待处理的合并文件的数据量大小;根据当前可用的内存大小和数据量大小,确定内存申请释放的空间,进行内存空间的释放。
其中,在生成文件列表后,可以根据文件列表确定处理各个合并文件所需的内存大小。当处理任务的节点读取到文件列表时,可以根据自身节点当前可用内存和文件列表的总数据量进行计算,确定当前可用内存是否满足文件列表中数据的处理过程。若是,则不需要进行内存空间释放的申请,直接进行数据处理;若否,则申请释放合适大小的内存缓存。如果数据量较小则申请足够的内存空间,满足数据处理过程中的额外开销,一次性加载执行文件列表中的数据。如果数据量大于能申请的最大内存,则可以对文件列表进行分块,根据分块进行数据加载和处理。通过预知所需内存的大小,不需要在数据处理过程中临时申请内存,避免空间的频繁申请,减少内存碎片的产生,提高内存的利用率。
步骤250、将文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
其中,将文件列表中待处理的合并文件依次发送至内存,根据用户预先确定的数据配置信息,确定数据处理管道。数据处理管道是指内存处理数据后存入预设数据库的通道,每个数据处理管道可以对应通往数据库中的一张数据表。数据处理管道可以包括单管道和多管道,单管道是指通过管道将数据导入到数据库中的一张数据表后就提交数据库事务,多管道是指通过多个管道将数据均导入至对应的数据表后才提交数据库事务。在数据处理过程中,数据清洗、合并、加工、转换和校验等执行步骤并非必须,可以由数据配置信息中的选项来动态添加或删除。
本实施例中,在数据处理过程中支持全量和增量的模式提取数据。全量提取是指提取对应数据源或者文件里的全部数据,增量提取是指,查询数据库中目标数据表的最后数据更新日期,从数据源中提取最后的更新日期之后的数据。目标数据库表示数据处理后要落入存储的数据表。对于数据源无法区分更新时间的,做全量提取。数据从内存导入至数据库的导入模式可以分为追加和更新模式。追加模式可以是指,在数据不变的情况下延长数据存在的有效时间。更新模式一般是在数据导入出错时使用,例如,在项目实施时调试数据。
内存在接收文件列表中数据的同时,可以对已经接收到的数据进行处理,若处理后的数据量过大,则可以将处理后的数据再次缓存至磁盘中,当内存对任务中的所有数据处理完毕后,再将磁盘中处理后的数据发送至数据库进行存储。例如,在一次数据处理的任务中,需要对文件列表中的合并文件进行处理,文件列表中合并文件的数据量远远超过内存的最大空间,因此,可以将文件列表进行分块,依次传入内存中处理。当内存处理完一个分块的数据后,可以将处理完的数据缓存至磁盘中,当整个文件列表的数据全部处理完毕并均存入了磁盘,则将磁盘中该任务的处理完的数据传输至数据库中进行存储。即,数据处理的过程可以是数据从数据源至内存,在内存中生成文件列表至磁盘,从磁盘再至内存进行数据处理,处理后可以将数据再存入磁盘,最后由磁盘存入数据库,实现了内存与磁盘的相互配合。
本发明实施例通过将数据源的数据发送至内存,在内存中对数据进行区间划分,得到多个文件区间的分组,每组文件区间中包括多个数据文件。将一组文件区间中的文件进行合并,每组文件区间可以得到一个或多个合并文件,并生成合并文件的文件列表。将文件列表存储在磁盘中,将合并文件按照文件列表传递至内存,根据文件列表的数据量大小,对内存进行释放申请,提高内存利用率。由内存根据预设的配置信息进行数据处理,将处理后数据落库存储。解决了现有技术中,直接将数据源的文件传给内存进行处理的问题,实现了磁盘与内存相配合,由内存对数据进行划分和合并,生成文件列表进行磁盘缓存。使得内存在进行数据处理时,可以根据文件列表明确待处理的数据大小,充分利用内存空间,提高数据处理效率。
实施例三
图3为本发明实施例三所提供的一种数据处理装置的结构框图,可执行本发明任意实施例所提供的一种数据处理方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置具体包括:
数据划分模块301,用于获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
数据合并模块302,用于将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
列表生成模块303,用于根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
数据处理模块304,用于将所述文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
可选的,数据划分模块301,包括:
文件个数判断单元,用于判断内存接收到的数据文件的个数是否超过预设的文件个数阈值;
文件区间划分单元,用于若是,则以文件个数阈值为单位,将所述数据文件划分为至少一组文件区间。
可选的,数据划分模块301,还包括:
数据文件划分单元,用于在以文件个数阈值为单位,将所述数据文件划分为至少一组文件区间之后,若存在小于文件个数阈值的数据文件,则将小于文件个数阈值的数据文件划分为一个文件区间。
可选的,数据合并模块302,包括:
数据文件合并单元,用于将文件区间中的第二个数据文件合并至所述文件区间的第一个数据文件中;
文件大小判断单元,用于判断合并后的第一个数据文件的文件大小是否超过预设的文件大小阈值;
合并文件获得单元,用于若是,则停止合并,得到所述文件区间的第一个合并文件。
可选的,数据合并模块302,还包括:
数据文件再合并单元,用于在判断合并后的第一个数据文件的文件大小是否超过预设的文件大小阈值之后,若合并后的第一个数据文件的文件大小没有超过预设的文件大小阈值,则将第三个数据文件合并入第一个数据文件中,并判断合并后的第一数据文件的文件大小是否超过预设的文件大小阈值。
可选的,数据合并模块302,还具体用于:
在得到所述文件区间的第一个合并文件之后,判断所述文件区间中是否存在未合并的数据文件;
若是,则将所述未合并的数据文件中的第一个数据文件确定为当前第一数据文件,将未合并数据文件中的第二个数据文件合并至当前第一数据文件中;
判断合并后的当前第一数据文件的文件大小是否超过预设的文件大小阈值;
若是,则停止合并,得到所述文件区间的第二个合并文件。
可选的,该装置还包括:
数据量确定单元,用于在将所述文件列表中待处理的合并文件从磁盘发送至内存之前,根据预设的数据处理任务,确定文件列表中待处理的合并文件的数据量大小;
内存申请单元,用于根据当前可用的内存大小和所述数据量大小,确定内存申请释放的空间,进行内存空间的释放。
本发明实施例通过将数据源的数据发送至内存,在内存中对数据进行区间划分,得到多个文件区间的分组,每组文件区间中包括多个数据文件。将一组文件区间中的文件进行合并,每组文件区间可以得到一个或多个合并文件,并生成合并文件的文件列表。将文件列表存储在磁盘中,将合并文件按照文件列表传递至内存,由内存根据预设的配置信息进行数据处理,将处理后数据落库存储。解决了现有技术中,直接将数据源的文件传给内存进行处理的问题,实现了磁盘与内存相配合,由内存对数据进行划分和合并,生成文件列表进行磁盘缓存。使得内存在进行数据处理时,可以根据文件列表明确待处理的数据大小,充分利用内存空间,提高内存的利用率和数据处理效率。
实施例四
图4是本发明实施例四提供的一种数据处理设备的结构示意图。数据处理设备是一种电子设备,图4示出了适于用来实现本发明实施方式的示例性电子设备400的框图。图4显示的电子设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备400访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
电子设备400也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,电子设备400还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器412通过总线403与电子设备400的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据处理方法,包括:
获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
将所述文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种数据处理方法,包括:
获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
将所述文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
将所述文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中;
在将所述文件列表中待处理的合并文件从磁盘发送至内存之前,还包括:
根据预设的数据处理任务,确定文件列表中待处理的合并文件的数据量大小;
根据当前可用的内存大小和所述数据量大小,确定内存申请释放的空间,进行内存空间的释放。
2.根据权利要求1所述的方法,其特征在于,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间,包括:
判断内存接收到的数据文件的个数是否超过预设的文件个数阈值;
若是,则以文件个数阈值为单位,将所述数据文件划分为至少一组文件区间。
3.根据权利要求2所述的方法,其特征在于,在以文件个数阈值为单位,将所述数据文件划分为至少一组文件区间之后,还包括:
若存在小于文件个数阈值的数据文件,则将小于文件个数阈值的数据文件划分为一个文件区间。
4.根据权利要求1所述的方法,其特征在于,将所述文件区间中的数据文件进行合并,得到至少一个合并文件,包括:
将文件区间中的第二个数据文件合并至所述文件区间的第一个数据文件中;
判断合并后的第一个数据文件的文件大小是否超过预设的文件大小阈值;
若是,则停止合并,得到所述文件区间的第一个合并文件。
5.根据权利要求4所述的方法,其特征在于,在判断合并后的第一个数据文件的文件大小是否超过预设的文件大小阈值之后,还包括:
若合并后的第一个数据文件的文件大小没有超过预设的文件大小阈值,则将第三个数据文件合并入第一个数据文件中,并判断合并后的第一数据文件的文件大小是否超过预设的文件大小阈值。
6.根据权利要求4所述的方法,其特征在于,在得到所述文件区间的第一个合并文件之后,还包括:
判断所述文件区间中是否存在未合并的数据文件;
若是,则将所述未合并的数据文件中的第一个数据文件确定为当前第一数据文件,将未合并数据文件中的第二个数据文件合并至当前第一数据文件中;
判断合并后的当前第一数据文件的文件大小是否超过预设的文件大小阈值;
若是,则停止合并,得到所述文件区间的第二个合并文件。
7.一种数据处理装置,其特征在于,包括:
数据划分模块,用于获取待处理的数据文件,将所述数据文件基于文件创建时间发送至内存,根据预设的文件个数阈值,对所述数据文件进行划分,得到至少一组文件区间;
数据合并模块,用于将所述文件区间中的数据文件进行合并,得到至少一个合并文件;
列表生成模块,用于根据所述合并文件,生成文件列表,将所述文件列表传递至磁盘中进行缓存;
数据处理模块,用于将所述文件列表中待处理的合并文件从磁盘发送至内存,根据预设的数据配置信息,在内存中进行数据处理,并将处理后的数据存入数据库中;
数据量确定单元,用于在将所述文件列表中待处理的合并文件从磁盘发送至内存之前,根据预设的数据处理任务,确定文件列表中待处理的合并文件的数据量大小;
内存申请单元,用于根据当前可用的内存大小和所述数据量大小,确定内存申请释放的空间,进行内存空间的释放。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的数据处理方法。
9.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的数据处理方法。
CN202110823772.5A 2021-07-21 2021-07-21 一种数据处理的方法、装置、电子设备及存储介质 Active CN113468128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110823772.5A CN113468128B (zh) 2021-07-21 2021-07-21 一种数据处理的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110823772.5A CN113468128B (zh) 2021-07-21 2021-07-21 一种数据处理的方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113468128A CN113468128A (zh) 2021-10-01
CN113468128B true CN113468128B (zh) 2023-02-17

Family

ID=77881491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110823772.5A Active CN113468128B (zh) 2021-07-21 2021-07-21 一种数据处理的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113468128B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114040223B (zh) * 2021-11-05 2023-11-24 亿咖通(湖北)技术有限公司 一种图像处理方法及系统
CN113791914B (zh) * 2021-11-17 2022-03-11 腾讯科技(深圳)有限公司 对象处理方法、装置、计算机设备、存储介质及产品
CN115002527B (zh) * 2022-05-30 2024-05-07 平安科技(深圳)有限公司 数据传输优化方法、装置、设备及存储介质
CN116069741A (zh) * 2023-02-20 2023-05-05 北京集度科技有限公司 文件处理方法、装置和计算机程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446197A (zh) * 2010-09-30 2012-05-09 国际商业机器公司 一种数据转换方法和数据转换器
CN102968380A (zh) * 2012-11-02 2013-03-13 深圳市同洲电子股份有限公司 内存文件系统中内存分区的管理方法和装置
US9405684B1 (en) * 2012-09-28 2016-08-02 Emc Corporation System and method for cache management
CN107609159A (zh) * 2017-09-26 2018-01-19 恒生电子股份有限公司 用于数据加载的方法、装置及计算机可读介质
CN108121719A (zh) * 2016-11-28 2018-06-05 北京国双科技有限公司 一种实现数据抽取转换加载etl的方法及装置
CN108304538A (zh) * 2018-01-30 2018-07-20 广东奡风科技股份有限公司 一种完全基于分布式内存计算的etl系统及其方法
CN109828859A (zh) * 2019-01-23 2019-05-31 网易(杭州)网络有限公司 移动终端内存分析方法、装置、存储介质及电子设备
CN110825694A (zh) * 2019-11-01 2020-02-21 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN112306965A (zh) * 2020-10-02 2021-02-02 中盈优创资讯科技有限公司 数据写入存储方法、装置、设备和计算机可读存储介质
CN112506547A (zh) * 2020-12-16 2021-03-16 杭州和利时自动化有限公司 组态数据下装方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382123B (zh) * 2018-12-28 2023-06-16 广州市百果园信息技术有限公司 文件存储方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446197A (zh) * 2010-09-30 2012-05-09 国际商业机器公司 一种数据转换方法和数据转换器
US9405684B1 (en) * 2012-09-28 2016-08-02 Emc Corporation System and method for cache management
CN102968380A (zh) * 2012-11-02 2013-03-13 深圳市同洲电子股份有限公司 内存文件系统中内存分区的管理方法和装置
CN108121719A (zh) * 2016-11-28 2018-06-05 北京国双科技有限公司 一种实现数据抽取转换加载etl的方法及装置
CN107609159A (zh) * 2017-09-26 2018-01-19 恒生电子股份有限公司 用于数据加载的方法、装置及计算机可读介质
CN108304538A (zh) * 2018-01-30 2018-07-20 广东奡风科技股份有限公司 一种完全基于分布式内存计算的etl系统及其方法
CN109828859A (zh) * 2019-01-23 2019-05-31 网易(杭州)网络有限公司 移动终端内存分析方法、装置、存储介质及电子设备
CN110825694A (zh) * 2019-11-01 2020-02-21 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN112306965A (zh) * 2020-10-02 2021-02-02 中盈优创资讯科技有限公司 数据写入存储方法、装置、设备和计算机可读存储介质
CN112506547A (zh) * 2020-12-16 2021-03-16 杭州和利时自动化有限公司 组态数据下装方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
内存计算技术研究综述;罗乐、刘轶;《软件学报》;20160801;第27卷(第8期);全文 *

Also Published As

Publication number Publication date
CN113468128A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113468128B (zh) 一种数据处理的方法、装置、电子设备及存储介质
US11593337B2 (en) Data processing method, device, and a storage medium
CN110457277B (zh) 业务处理性能分析方法、装置、设备及存储介质
US9569400B2 (en) RDMA-optimized high-performance distributed cache
CN111061740B (zh) 一种数据同步方法、设备和存储介质
CN111382123B (zh) 文件存储方法、装置、设备及存储介质
CN111949710B (zh) 数据存储方法、装置、服务器及存储介质
CN109241015B (zh) 用于在分布式存储系统中写入数据的方法
US9146678B2 (en) High throughput hardware acceleration using pre-staging buffers
US20200004464A1 (en) Method and apparatus for storing data
US9389997B2 (en) Heap management using dynamic memory allocation
CN111737564B (zh) 一种信息查询方法、装置、设备及介质
CN111506603B (zh) 数据处理方法、装置、设备及存储介质
CN111818145B (zh) 一种文件传输方法、装置、系统、设备及存储介质
CN109284108B (zh) 无人车数据存储方法、装置、电子设备及存储介质
CN110502506B (zh) 一种数据处理方法、装置、设备和存储介质
CN111241180A (zh) 一种信息处理的方法、装置、设备及存储介质
CN111782614B (zh) 数据访问方法、装置、设备及存储介质
CN111324653B (zh) 一种离线数据的采集方法、装置、设备及存储介质
US10387267B2 (en) Fast copy using file system block mappings
CN112100092B (zh) 一种信息缓存方法、装置、设备及介质
CN111309740A (zh) 一种数据处理的方法、装置、设备及存储介质
CN113760950B (zh) 指标数据查询方法、装置、电子设备以及存储介质
CN112486413B (zh) 一种数据读取方法、装置、介质和计算设备
CN110515807B (zh) 一种数据库表监控方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant