CN114372035A - 一种数据文件处理方法、装置及电子设备 - Google Patents
一种数据文件处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114372035A CN114372035A CN202210026408.0A CN202210026408A CN114372035A CN 114372035 A CN114372035 A CN 114372035A CN 202210026408 A CN202210026408 A CN 202210026408A CN 114372035 A CN114372035 A CN 114372035A
- Authority
- CN
- China
- Prior art keywords
- processing
- data file
- data
- fragment
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种数据文件处理方法,可以应用于大数据领域。该方法包括:响应于导入请求,将与导入请求对应的数据文件进行分布式存储;根据数据文件的属性信息,利用调度服务器对数据文件进行分片定义;根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器对数据文件进行分片处理,获得分片处理结果;利用调度服务器对分片处理结果进行验证,根据验证结果,利用分布式协同服务调度处理服务器对数据文件进行分片导入处理。本公开还提供了一种数据文件处理装置、设备、存储介质和程序产品。
Description
技术领域
本公开涉及大数据技术领域,具体涉及大数据文件的处理,更具体地涉及一种数据文件处理方法、装置、设备、介质和程序产品。
背景技术
在现有技术中,对数据文件处理尤其是涉及大数据量文件导入到系统或服务器的处理,存在诸如内存消耗高、系统频繁回收垃圾等问题,例如将大数据量的Excel文件并发导入到系统中时,会产生内存溢出问题,影响系统性能,从而导致导入时间较长,无法满足用户快速导入的需求。
发明内容
鉴于上述问题,本公开提供了提高数据文件导入效率的数据文件处理方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种数据文件处理方法,包括:
响应于导入请求,将与导入请求对应的数据文件进行分布式存储;
根据数据文件的属性信息,利用调度服务器对数据文件进行分片定义;
根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器对数据文件进行分片处理,获得分片处理结果;
利用调度服务器对分片处理结果进行验证,根据验证结果,利用分布式协同服务调度处理服务器对数据文件进行分片导入处理。
根据本公开的实施例,上述响应于导入请求,将与导入请求对应的数据文件进行分布式存储包括:
获取数据文件的表头配置信息;
根据表头配置信息,利用应用服务器对数据文件进行表头校验,并将表头校验通过后的数据文件存储在分布式文件系统中;
利用应用服务器将导入请求登记到任务队列中,并将登记处理结果反馈给用户终端。
根据本公开的实施例,将与导入请求对应的数据文件进行分布式存储还包括:
根据任务队列,利用调度服务器获取处理任务和用户配置需求;
根据处理任务和用户配置需求,利用分布式协同服务调度处理服务器对原始表进行初始化处理,其中,原始表用于存储待导入的数据文件。
根据本公开的实施例,上述配置校验规则包括:非空校验、数据长度校验、数据类型校验、数据字典校验、字段间规则校验、行间规则校验。
根据本公开的实施例,上述分片定义包括:
根据数据文件的属性信息,选定数据文件的至少一列作为分片列;
根据分片列的数据值域,对数据文件进行平均分片,并获取每个分片结果所包括的数据量;
当数据量小于数据量阈值时,完成分片定义。
根据本公开的实施例,上述分片定义还包括:
当数据量大于数据量阈值时,利用调度服务执行再分片定义,直到分片结果所包括的数据量小于数据量阈值。
根据本公开的实施例,上述分片处理包括:
根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器获取每个分片的数据量;
当分片的数据量大于数据量阈值时,利用分布式协同服务调度处理服务器执行再分片处理任务,直到分片的数据量小于数据量阈值;
将完成分片处理任务的分布式协同服务调度处理服务器置为空闲服务器;
利用空闲服务器自动轮询其他非空闲服务器,将非空闲服务器的部分分片处理任务加入到空闲服务器的任务队列中进行处理;
利用分布式协同服务调度处理服务器将分片处理结果分布式存储在数据库中。
本公开的第二方面,提供了一种数据文件处理装置,包括:
存储模块,用于响应于导入请求,将与导入请求对应的数据文件进行分布式存储;
分片定义模块,用于根据数据文件的属性信息,利用调度服务器对数据文件进行分片定义;
分片处理模块,用于根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器对数据文件进行分片处理,获得分片处理结果;以及
分片导入模块,用于利用调度服务器对分片处理结果进行验证,根据验证结果,利用分布式协同服务调度处理服务器对数据文件进行分片导入处理。
本公开的第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述数据文件处理方法。
本公开的第四方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述数据文件处理方法。
本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行上述数据文件处理方法。
本公开提供的上述数据文件处理方法,解决了现有技术中数据并发导入效率低的问题;通过对待导入数据文件的分片处理并利用分布式协同服务完成对数据文件尤其是大数据量文件的并发导入,大大提高了导入效率,降低了导入成本,提升了系统性能;同时本公开提供的数据文件处理方法可以应用在大数据量的Excel文件并发导入过程中,能够大大提高大数据量的Excel文件的导入效率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据文件处理方法的应用场景图;
图2示意性示出了根据本公开实施例的数据文件处理方法的流程图;
图3示意性示出了根据本公开实施例的数据文件校验的流程图;
图4示意性示出了根据本公开实施例的数据文件初始处理的流程图;
图5示意性示出了根据本公开实施例的分片定义的流程图;
图6示意性示出了根据本公开实施例的分片处理的流程图;
图7示意性示出了根据本公开实施例的数据文件处理装置的结构框图;
图8示意性示出了根据本公开另一实施例的大数据量的Excel文件处理系统结构图;
图9示意性示出了根据本公开另一实施例的Bean装置的结构示意图;
图10示意性示出了根据本公开另一实施例的大数据量的Excel文件导入流程图;
图11示意性示出了根据本公开实施例的适于实现数据文件处理方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种数据文件处理方法、装置、设备、介质和程序产品的,可以应用在大数据领域。
在本公开的技术方案中,当所处理的数据文件涉及用户个人信息时,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的数据文件处理方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105、106、107。网络104用以在终端设备101、102、103和服务器105、106、107之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105、106、107交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105、106、107可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备;服务器105、106、107也可以是应于数据文件处理过程的各类服务器,如用于分布式存储数据文件的应用服务器、用于负责调度数据处理任务的调度服务器以及用于分布式协同处理服务的处理服务器。
需要说明的是,本公开实施例所提供的数据文件处理方法一般可以由服务器105、106、107执行。相应地,本公开实施例所提供的数据文件处理装置一般可以设置于服务器105、106、107中。本公开实施例所提供的数据文件处理方法也可以由不同于服务器105、106、107且能够与终端设备101、102、103和/或服务器105、106、107通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据文件处理装置也可以设置于不同于服务器105、106、107且能够与终端设备101、102、103和/或服务器105、106、107通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图6对公开实施例的数据文件处理方法进行详细描述。
图2示意性示出了根据本公开实施例的数据文件处理方法的流程图。
如图2所示,该实施例的数据文件处理包括操作S210~操作S230。
在操作S210,响应于导入请求,将与导入请求对应的数据文件进行分布式存储。
根据本公开的实施例,用户可以发起导入请求,上传待导入的数据文件到应用服务器并发起导入请求,应用服务器将数据文件分布式存储在多个服务器上,同时应用服务器将用户发起的导入请求登记到任务队列中后,将上述处理结果反馈给用户和后台系统(例如调度服务器等)。
在操作S220,根据数据文件的属性信息,利用调度服务器对数据文件进行分片定义。
根据本公开的实施例,上述分片定义例如包括分片数量和分片规则,其中,调度服务器获取数据文件的属性信息,例如数据文件的数据量大小等,按照配置的分片数量和分片规则,对数据文件(例如Excel文件)进行分片定义。
在操作S230,根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器对数据文件进行分片处理,获得分片处理结果。
根据本公开的实施例,分布式协同服务调度处理服务器可以根据分片定义解析数据文件,并根据配置校验规则例如非空校验、数据长度校验、数据类型校验等对数据文件进行数据校验,符合相关要求的数据文件进行分片处理,全部处理完成后将分片处理结果反馈给调度服务器。
在操作S240,利用调度服务器对分片处理结果进行验证,根据验证结果,利用分布式协同服务调度处理服务器对数据文件进行分片导入处理。
根据本公开的实施例,调度服务器对分片处理结果进行验证,例如对分片处理结果是否存在数据文件丢失、各个分片处理结果的并集是否为原始数据文件等,如果所有分片处理结果正确,则利用分布式协同服务调度处理服务器进行分片导入处理,并将导入处理结果通知用户。
本公开提供的上述数据文件处理方法,通过对数据文件进行分布式存储和分片处理,并利用分布式协调服务将数据文件分片导入,大大提高了导入效率、节约了系统资源和提升了系统性能,同时上述数据文件处理方法能够运行在低硬件配置的系统上,拓展应用范围。
图3示意性示出了根据本公开实施例的数据文件校验的流程图。
如图3所示,响应于导入请求,将与导入请求对应的数据文件进行分布式存储包括操作S310~操作S330。
在操作S310,获取数据文件的表头配置信息。
在操作S320,根据表头配置信息,利用应用服务器对数据文件进行表头校验,并将表头校验通过后的数据文件存储在分布式文件系统中。
根据本公开的实施例,表头配置信息可以包括表头行数配置信息,应用服务器对数据文件进行检查。
在操作S330,利用应用服务器将导入请求登记到任务队列中,并将登记处理结果反馈给用户终端。
根据本公开的实施例,上述数据文件分布式存储的过程包括对数据文件的检查,通过对数据文件的检查,能够确保用户上传的数据文件的模板是否正确,方便后续数据文件的导入处理。
根据本公开的实施例,以大数据量的Excel文件为例来进一步说明上述数据文件分布式存储的过程,首先,应用服务器获取用户上传的Excel文件,并根据表头行数配置,解析Excel文件表头,并检查Excel文件的每一列数据是否与表头预定值相同,例如表头中第一列定义是中文“账号”,如果该导入第一列表头的数据不是中文“账号”,即检查不通过,以确认导入数据使用的Excel模板正确。
图4示意性示出了根据本公开实施例的数据文件初始处理的流程图。
如图4所示,响应于导入请求,将与导入请求对应的数据文件进行分布式存储还包括操作S410~操作S420。
在操作S410,根据任务队列,利用调度服务器获取处理任务和用户配置需求。
在操作S420,根据处理任务和用户配置需求,利用分布式协同服务调度处理服务器对原始表进行初始化处理,其中,原始表用于存储待导入的数据文件。
根据本公开的实施例,上述初始处理过程,旨在完成对原始表进行数据文件导入前的清理(例如提前清理历史数据等),以避免数据冲突;上述初始处理过程可以根据用户配置需求实现定制化的清理以满足用户需求的多样性和灵活性。
根据本公开的实施例,上述配置校验规则包括:非空校验、数据长度校验、数据类型校验、数据字典校验、字段间规则校验、行间规则校验。
根据本公开的实施例,上述配置校验规则旨在校验数据文件中数据的规范性,提高后续分片处理和分片导入处理的正确性。以大数据量的Excel文件为例,当分布协同服务调度处理服务器对Excel文件进行配置校验时,需要对每条Excel数据进行校验,例如对Excel数据类型进行校验包括对数据日期、时间、金额等校验,字段间规则校验包括对不同列间字段的关联校验等。
图5示意性示出了根据本公开实施例的分片定义的流程图。
如图5所示,分片定义包括操作S510~操作S530。
在操作S510,根据数据文件的属性信息,选定数据文件的至少一列作为分片列。
在操作S520,根据分片列的数据值域,对数据文件进行平均分片,并获取每个分片结果所包括的数据量。
在操作S530,当数据量小于数据量阈值时,完成分片定义。
根据本公开实施例,上述分片定义还包括当数据量大于数据量阈值时,利用调度服务执行再分片定义,直到分片结果所包括的数据量小于数据量阈值。
根据本公开的实施例,上述分片定义方法简单且可靠性高,通过对分布式存储的待导入数据文件进行分片预处理,提高分布式协同服务调度服务器的处理速度。
根据本公开的实施例,以Excel文件为例,可以选择Excel文件的一列或多列作为分片列,比如选择“账号”列,只需要用户设置列数据范围的最小、最大值或系统自动识别该列的数值范围,分片处理即可按分片数自行进行列范围平均分片,如“账号”最小为0000,最大为9999,分为4片,即0000-2499为第1片、2500-4999为第2片、5000-7499为第3片、7500-9999为第4片。分片结果可能会存在某个分片包括的数据量过大的情况,超过预定的数据量阈值(如默认设置为500)时,需要执行再分片。这种再分片机制可以有效地将数据分片的逻辑进行简单化,易于用户配置使用,保证处理服务器集群中每个服务器都可以获取数据进行处理,以更快完成Excel大数据的导入处理。
图6示意性示出了根据本公开实施例的分片处理的流程图。
如图6所示,分片处理包括操作S610~操作S650。
在操作S610,根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器获取每个分片的数据量。
在操作S620,当分片的数据量大于数据量阈值时,利用分布式协同服务调度处理服务器执行再分片处理任务,直到分片的数据量小于数据量阈值。
在操作S630,将完成分片处理任务的分布式协同服务调度处理服务器置为空闲服务器。
在操作S6140,利用空闲服务器自动轮询其他非空闲服务器,将非空闲服务器的部分分片处理任务加入到空闲服务器的任务队列中进行处理。
在操作S650,利用分布式协同服务调度处理服务器将分片处理结果分布式存储在数据库中。
根据本公开的实施例,上述分片处理方法能够充分利用分片定义和空闲服务器,提高了分片处理速度,保证了数据文件分片导入的效率和正确性。
基于上述数据文件处理方法,本公开还提供了一种数据文件处理装置。以下将结合图7对该装置进行详细描述。
图7示意性示出了根据本公开实施例的数据文件处理装置的结构框图。
如图7所示,该实施例的数据文件处理装置700包括存储模块710、分片定义模块720、分片处理模块730以及分片导入模块740。
存储模块710用于响应于导入请求,将与导入请求对应的数据文件进行分布式存储。在一实施例中,存储模块710可以用于执行前文描述的操作S210,在此不再赘述。
分片定义模块720用于根据数据文件的属性信息,利用调度服务器对数据文件进行分片定义。在一实施例中,分片定义模块720可以用于执行前文描述的操作S220,在此不再赘述。
分片处理模块730用于根据分片定义和配置校验规则,利用分布式协同服务调度处理服务器对数据文件进行分片处理,获得分片处理结果。在一实施例中,分片处理模块730可以用于执行前文描述的操作S230,在此不再赘述。
分片导入模块740,用于利用调度服务器对分片处理结果进行验证,根据验证结果,利用分布式协同服务调度处理服务器对数据文件进行分片导入处理。在一实施例中,分片处理模块740可以用于执行前文描述的操作S240,在此不再赘述。
根据本公开的实施例,存储模块710、分片定义模块720、分片处理模块730以及分片导入模块740。中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,存储模块710、分片定义模块720、分片处理模块730以及分片导入模块740。中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,存储模块710、分片定义模块720、分片处理模块730以及分片导入模块740。中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
下面结合本公开的另一实施例,以大数据量的Excel文件处理为例,对本公开实施例提供的上述数据文件处理方法和数据文件处理装置作进一步详细说明。
图8示意性示出了根据本公开另一实施例的大数据量的Excel文件处理系统结构图。
如图8所示,上述大数据量的Excel文件处理系统800包括多个导入Bean装置810、多个文件处理装置820、多个消息队列装置830以及多个分布式协同调度装置840。
其中,上述导入Bean装置810部署在应用服务器集群和处理服务器集群,整个系统800实现上需要开发导入Bean装置810,以定义相关导入配置和方法,Excel导入Bean需要实现IEasyExcelBean接口。
上述文件处理装置820部署在分布式文件系统,用于进行文件存储和读取,可对应用服务器集群、处理服务器集群进行文件共享。
上述消息队列装置830部署在分布式消息队列,通过提供消息传递和消息排队模型,可以实现分布式环境下扩展进程间的通信。适用于需要高效可靠的数据传送的分布式环境;采用消息中间件机制的系统中,不同对象之间通过传递消息来触发对方的事件。消息的传递使用消息服务器(broker),消息发送方将消息发送至消息服务器,消息接收方从服务器上获取消息,双发无需知道对方所在的地址,使用的平台或协议,从而实现跨平台跨协议的通信;通过生产者消费者模式,消息发送方生产数据,消息接收方消费数据,该模式中间还有一个缓冲区处理生产者和消费者之间作为中介,即消息队列。
根据本公开的实施例,上述分布式协同调度装置840部署在调度服务器集群。应用服务器集群、处理服务器集群与分布式文件系统相连;应用服务器集群、调度服务器集群与分布式消息队列相连;调度服务器集群与处理服务器集群相连。
图9示意性示出了根据本公开另一实施例的Bean装置的结构示意图。
如图9所示,上述Bean装置810包括多个表头校验单元811、多个初始处理单元812、多个数据校验单元813、多个数据处理单元814、多个最后处理单元815、多个结果通知单元816以及多个分片定义单元817。
其中,表头校验单元811,用于针对导入Excel表头进行检查,以保证用户使用正确模板,表头检查单元主要是对表头中每一列的数据跟表头预定值进行检查,如表头中第一列定义是中文“账号”,如果该导入第一列表头的数据不是中文“账号”,即检查不通过,以确认导入数据使用的Excel模板正确。
初始处理单元812,用于在导入Excel前行初始处理,初始处理单元可由用户按需进行配置,可灵活按用户需求进行调用处理,也可以不需要,一般处理为对数据表在导入前进行清理,以避免数据冲突。
数据校验单元813,用于对每条Excel数据进行数据校验,数据校验方法较多,如非空校验、数据长度校验、数据类型(日期、时间、金额)校验、数据字典校验、字段间规则校验(不同列间字段的关联校验)、行间规则校验等等。
数据处理单元814,主要实现下述功能:(1)数据再分片处理:计算该片数据量情况,在数据量少于设定值(如默认设置为500)时才进行处理,如果大于500,即需要再进行分片;(2)工作窃取处理:在空闲时,窃取其他机器数据处理单元处理的数据;(3)数据存储处理:一般为存储到关系型数据库中,关系型数据库可以集中部署,也支持分布式数据库,通过数据处理单元,完成结构化数据存储。
最后处理单元815,用于完成处理后进行最后处理,最后处理单元可由用户按需进行配置,可灵活按用户需求进行调用处理,也可以不需要,一般处理为对数据表在导入后进行日志登记等。
结果通知单元816,用于完成Excel所有完成后通知用户,结果通知单元支持邮件、短信、站内信通知用户Excel导入结果。
分片定义单元817,用于对Excel文件数据按规则进行分片,分片规则按Excel数据特点本专利主要采用列数据范围分片与工作窃取方法,如:(1)列数据范围分片是基于Excel数据采用表格方式管理,所有的数据、信息都以二维表格形式,有固定的列,所以可以按特定列(可为多列)的数据范围进行分片,比如“账号”列,一定区间的账号为一个分片,此分片方法实现简单,只需要用户设置列数据范围的最小、最大值,分片处理即可按分片数自行进行列范围平均分片,如“账号”最小为0000,最大为9999,分为4片,即0000-2499为第1片、2500-4999为第2片、5000-7499为第3片、7500-9999为第4片;(2)但此时会存在一个问题是在各片列范围的数据量可能存在不平均的问题,极端情况可能会造成数据集中在一片中进行处理。此处本专利增加工作窃取机制,以保证空闲的机器可以帮助忙碌机器进行处理。工作窃取机制是基于数据处理装置中的再分配机制,在初始分片后该片的数据处理装置会计算该片数据量情况,在数据量少于设定值(如默认设置为500)时才进行处理,如果大于500,即需要再进行分片,分片后数据从队列尾放入处理队列中,该数据处理装置从该处理队列的队列头进行处理,以此进行递归;在某个数据处理装置处理完成处理队列的所有数据后,会自动轮询其他分片的数据处理装置的处理情况,如果存在其他分片的数据处理装置的处理队列的队列深度大于设定值(如默认设置为10)时,会从该分片的数据处理装置的处理队列的队列尾中窃取数据,以加入到自己的处理队列中进行处理。
根据本公开的实施例,分片定义单元817通过采用列数据范围分片与工作窃取方法,可以有效地将数据分片的逻辑进行简单化,易于用户配置使用,同时通过工作窃取机制弥补列数据范围分片的数据量不平均的问题,保证处理服务器集群中每个服务器都可以获取数据进行处理,以更快完成Excel大数据的导入处理。
图10示意性示出了根据本公开另一实施例的大数据量的Excel文件导入流程图。
如图10所示,上述大数据量的Excel文件导入包括操作S1001~操作1019。
在操作S1001,接收Excel导入请求;
在操作S1002,导入Bean装置表头校验单元进行处理,校验导入Excel表头;
在操作S1003,导入Bean装置表头校验单元校验不通过,直接返回用户失败;导入Bean装置表头校验单元校验通过,调用文件处理装置进行存储文件到分布式文件系统;
在操作S1004,文件处理装置,进行文件存储;
在操作S1005,调用消息队列装置登记任务队列,供调用服务器集群消费;
在操作S1006,消息队列装置对任务队列进行数据缓冲
在操作S1007,订阅任务队列,以处理任务
在操作S1008,根据任务Excel配置,调用处理服务器进行初始处理调度;
在操作S1009,导入Bean装置初始处理单元,进行初始处理;
在操作S1010,根据任务Excel配置,调用处理服务器进行分片定义调度;
在操作S1011,导入Bean装置分片定义单元,进行分片定义,确定分片规则需要指定分片字段,一般为业务主键字段,按数据范围进行分片,分片数也是需要提交定义;
在操作S1012,根据任务Excel配置,调用处理服务器进行分片处理调度;
在操作S1013和操作S114:导入Bean装置数据校验单元、数据处理单元,每个分片处理服务器按分片定义进行分片处理,完成数据校验和数据处理;
在操作S1015,等待各分片处理服务器处理结果,以确认处理结果
在操作S1016,处理成功后,根据任务Excel配置,调用处理服务器进行最后处理调度
在操作S1017,导入Bean装置最后处理单元,进行最后处理操作;
在操作S1018,根据任务Excel配置,调用处理服务器进行结果通知调度;
在操作S1019,导入Bean装置结果通知单元,通知用户处理结果。
根据本公开的实施例,上述大数据量的Excel文件导入方法,与本公开实施例提供的数据文件处理方法采用相同的技术手段,即数据文件分布式存储、分片定义、分片处理以及分片导入,解决了系统并发量大导入Excel大数据的问题;同时,通过提供一种基于分布式协同服务导入Excel大数据的完善系统架构布局,大大提升系统性能,系统架构分层合理,可以有利于系统功能扩展;此外,针对少量数据的Excel导入,可以通过单体架构部署整合相关功能进行实现,可以满足快速上线要求。
图11示意性示出了根据本公开实施例的适于实现数据文件处理方法的电子设备的方框图。
如图11所示,根据本公开实施例的电子设备1100包括处理器1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1103中,存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1100还可以包括输入/输出(I/O)接口1105,输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM1103以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
在该计算机程序被处理器1101执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1109被下载和安装,和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (11)
1.一种数据文件处理方法,包括:
响应于导入请求,将与所述导入请求对应的数据文件进行分布式存储;
根据所述数据文件的属性信息,利用调度服务器对所述数据文件进行分片定义;
根据所述分片定义和配置校验规则,利用分布式协同服务调度处理服务器对所述数据文件进行分片处理,获得分片处理结果;
利用所述调度服务器对所述分片处理结果进行验证,根据验证结果,利用所述分布式协同服务调度处理服务器对所述数据文件进行分片导入处理。
2.根据权利要求1所述的方法,其中,所述响应于导入请求,将与所述导入请求对应的数据文件进行分布式存储包括:
获取所述数据文件的表头配置信息;
根据所述表头配置信息,利用应用服务器对所述数据文件进行表头校验,并将表头校验通过后的数据文件存储在分布式文件系统中;
利用应用服务器将所述导入请求登记到任务队列中,并将登记处理结果反馈给用户终端。
3.根据权利要求2所述的方法,还包括:
根据所述任务队列,利用调度服务器获取处理任务和用户配置需求;
根据所述处理任务和用户配置需求,利用所述分布式协同服务调度处理服务器对原始表进行初始化处理,其中,所述原始表用于存储待导入的数据文件。
4.根据权利要求1所述的方法,其中,所述配置校验规则包括:非空校验、数据长度校验、数据类型校验、数据字典校验、字段间规则校验、行间规则校验。
5.根据权利要求1所述的方法,其中,所述分片定义包括:
根据所述数据文件的属性信息,选定所述数据文件的至少一列作为分片列;
根据所述分片列的数据值域,对所述数据文件进行平均分片,并获取每个分片结果所包括的数据量;
当所述数据量小于数据量阈值时,完成分片定义。
6.根据权利要求5所述的方法,还包括:
当所述数据量大于所述数据量阈值时,利用所述调度服务执行再分片定义,直到分片结果所包括的数据量小于所述数据量阈值。
7.根据权利要求1所述的方法,其中,所述分片处理包括:
根据所述分片定义和配置校验规则,利用分布式协同服务调度处理服务器获取每个分片的数据量;
当所述分片的数据量大于数据量阈值时,利用分布式协同服务调度处理服务器执行再分片处理任务,直到所述分片的数据量小于数据量阈值;
将完成分片处理任务的分布式协同服务调度处理服务器置为空闲服务器;
利用所述空闲服务器自动轮询其他非空闲服务器,将非空闲服务器的部分分片处理任务加入到空闲服务器的任务队列中进行处理;
利用所述分布式协同服务调度处理服务器将分片处理结果分布式存储在数据库中。
8.一种数据文件处理装置,包括:
存储模块,用于响应于导入请求,将与所述导入请求对应的数据文件进行分布式存储;
分片定义模块,用于根据所述数据文件的属性信息,利用调度服务器对所述数据文件进行分片定义;
分片处理模块,用于根据所述分片定义和配置校验规则,利用分布式协同服务调度处理服务器对所述数据文件进行分片处理,获得分片处理结果;以及
分片导入模块,用于利用所述调度服务器对所述分片处理结果进行验证,根据验证结果,利用所述分布式协同服务调度处理服务器对所述数据文件进行分片导入处理。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210026408.0A CN114372035A (zh) | 2022-01-11 | 2022-01-11 | 一种数据文件处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210026408.0A CN114372035A (zh) | 2022-01-11 | 2022-01-11 | 一种数据文件处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372035A true CN114372035A (zh) | 2022-04-19 |
Family
ID=81143366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210026408.0A Pending CN114372035A (zh) | 2022-01-11 | 2022-01-11 | 一种数据文件处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372035A (zh) |
-
2022
- 2022-01-11 CN CN202210026408.0A patent/CN114372035A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9182975B2 (en) | Automatic application updates | |
CN109697055B (zh) | 生成移动App页面的方法及系统 | |
CN109495553B (zh) | 一种网页显示控制方法、系统及反向代理服务器 | |
CN108900627B (zh) | 一种网络请求方法、终端装置及存储介质 | |
CN115357761A (zh) | 链路追踪方法、装置、电子设备及存储介质 | |
CN115170321A (zh) | 批量交易数据的处理方法和装置 | |
CN114827280A (zh) | 请求处理方法、装置、设备、介质 | |
CN113342503B (zh) | 实时进度反馈方法、装置、设备及存储介质 | |
CN113411400B (zh) | 信息调用方法、装置、电子设备及可读存储介质 | |
CN110968433A (zh) | 信息处理方法、系统和电子设备 | |
CN110717992B (zh) | 调度模型的方法、装置、计算机系统和可读存储介质 | |
CN114372035A (zh) | 一种数据文件处理方法、装置及电子设备 | |
CN114356713A (zh) | 线程池监控方法、装置、电子设备及存储介质 | |
CN113132400B (zh) | 业务处理方法、装置、计算机系统及存储介质 | |
CN115514632A (zh) | 云服务的资源模板编排方法、装置、设备及存储介质 | |
CN112182400B (zh) | 消息处理方法、消息处理装置、电子设备及存储介质 | |
CN113434572A (zh) | 数据查询方法、查询系统、设备、存储介质及程序产品 | |
CN113779122A (zh) | 导出数据的方法和装置 | |
CN113590243A (zh) | 能源企业项目创建方法、装置、计算机设备及介质 | |
CN113778631A (zh) | 分布式事务补偿方法、装置、电子设备及可读存储介质 | |
CN113722115A (zh) | 调用接口的方法、装置、设备和计算机可读介质 | |
CN112882895A (zh) | 健康检查方法、装置、计算机系统及可读存储介质 | |
CN114218160A (zh) | 日志处理方法、装置、电子设备和介质 | |
CN115767624A (zh) | 报文传输方法、装置、设备及存储介质 | |
CN116010418A (zh) | 表单校验方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |